雷火电竞亚洲官网,安博电竞

復雜視覺關(guān)系成為生成模型的新考題。

作者丨鄭佳美

編輯丨馬曉寧

圖像生成行業(yè)正在從 " 生成能力競爭 " 進入 " 可控能力競爭 "。

過去，模型的核心價值主要體現(xiàn)在能否生成高質(zhì)量、高清晰度、風格豐富的單張圖像；而隨著文生圖、圖生圖和指令式編輯能力逐漸成熟，新的瓶頸開始顯現(xiàn)：模型能否理解多張圖片之間的關(guān)系，能否在不同視角和場景中保持同一對象的一致性，能否把多個參考來源自然融合到同一畫面中，能否在數(shù)據(jù)缺失或退化時恢復可信細節(jié)，以及能否讓用戶精確控制每一次編輯的幅度。

這種變化也反映在 CVPR 2026 的相關(guān)研究中。越來越多工作開始從單張圖像生成，轉(zhuǎn)向多圖關(guān)系建模、跨圖像一致性保持、復雜場景組合、連續(xù)可控編輯和高質(zhì)量視覺數(shù)據(jù)恢復。這說明圖像生成和編輯的重點已經(jīng)不只是 " 能不能生成 "，而是模型能否在復雜約束下穩(wěn)定理解對象、結(jié)構(gòu)、關(guān)系和用戶意圖。

更深層來看，視覺生成模型正在從單次輸出工具走向復雜視覺系統(tǒng)。它需要同時處理身份保持、結(jié)構(gòu)對齊、語義融合、細節(jié)恢復和人機交互等問題。

也正因為如此，當前研究的重點正在從單張圖像質(zhì)量，轉(zhuǎn)向多圖一致性、組合泛化能力、底層數(shù)據(jù)表示以及精細化控制能力。誰能更好地把這些能力統(tǒng)一起來，誰就更接近下一階段真正可用、可信、可控的視覺生成模型。

當圖像模型不再只會「生成一張圖」

《GroupEditing: Edit Multiple Images in One Go》關(guān)注的是 " 多圖一致編輯 " 問題，相關(guān)研究來自香港科技大學、清華大學、上海交通大學和悉尼科技大學。論文主要研究如何對一組相關(guān)圖片進行統(tǒng)一修改，并保證編輯后的結(jié)果在外觀、身份、結(jié)構(gòu)和語義上保持一致。雷峰網(wǎng)

以往的圖像編輯方法大多針對單張圖片，如果把同一個指令分別應用到多張相關(guān)圖片上，很容易出現(xiàn)編輯效果不統(tǒng)一的問題。比如同一個物體在不同視角或姿態(tài)下，顏色、形狀或身份特征可能會被改得不一致。

針對這一問題，論文提出了 GroupEditing 框架，把一組靜態(tài)圖片看作 " 偽視頻幀 "，借助視頻生成模型本身擅長保持連續(xù)幀一致性的特點，來提升多張圖片之間的編輯一致性。

論文地址：https://arxiv.org/pdf/2603.22883v3

同時，論文還引入 VGGT 來提取圖片之間的幾何對應關(guān)系，并設(shè)計了 Ge-RoPE 和 Identity-RoPE 兩個模塊。前者幫助不同圖片中的對應區(qū)域更好對齊，后者幫助同一對象在不同圖片中保持身份和外觀一致。也就是說，模型不僅知道 " 要改什么 "，還能夠更好地判斷 " 不同圖片中哪里是同一個對象或區(qū)域 "。

這篇論文的亮點在于，它將圖像編輯從單張圖片擴展到一組相關(guān)圖片，適用于商品多角度圖、角色形象保持、同一物體不同視角編輯等場景。

方法上，它巧妙地結(jié)合了視頻模型的一致性能力和顯式幾何對齊信息，使多圖編輯結(jié)果更加穩(wěn)定、統(tǒng)一。實驗結(jié)果也表明，GroupEditing 在編輯質(zhì)量、語義一致性和跨圖像一致性方面都優(yōu)于已有方法。

在多圖一致編輯的基礎(chǔ)上，《MICo-150K: A Comprehensive Dataset Advancing Multi-Image Composition》進一步關(guān)注多圖組合生成問題，相關(guān)研究來自香港理工大學、清華大學、中山大學和 OPPO 研究院。

論文主要研究的是多圖組合生成，也就是給模型多張參考圖片，讓它根據(jù)文本指令把這些圖片中的人物、物體、服裝或場景自然地組合到一張新圖中，同時保持身份一致、語義合理和畫面協(xié)調(diào)。

這項任務的難點在于，模型不僅要理解每張參考圖中的關(guān)鍵內(nèi)容，還要把多個來源的信息融合到同一場景里。例如，把一個人物、一件衣服、幾個物體和一個背景組合成一張完整圖片時，既不能丟失參考圖中的身份特征，也不能讓畫面看起來像簡單拼貼。

為了解決訓練數(shù)據(jù)不足的問題，論文提出了 MICo-150K 數(shù)據(jù)集，系統(tǒng)覆蓋 3 大類、7 個子任務和 27 種細粒度組合類型，并加入 De&Re 任務，即先把真實復雜圖像拆解成組件，再重新組合。

在數(shù)據(jù)構(gòu)建上，作者先收集并清洗人物、物體、服裝和場景等高質(zhì)量源圖，再用 GPT-4o 生成多圖組合指令，并通過 Nano-Banana 合成目標圖像。

之后，論文使用 QwenVL2.5-72B、ArcFace 和人工篩選來檢查生成結(jié)果，確保參考圖片中的關(guān)鍵內(nèi)容被正確保留，最終形成面向多圖組合生成的大規(guī)模高質(zhì)量數(shù)據(jù)集。

論文地址：https://arxiv.org/pdf/2512.07348v1

論文還提出了 MICo-Bench 評測基準和 Weighted-Ref-VIEScore 指標，用來更全面地評估多圖組合生成的效果。實驗中，作者用 MICo-150K 微調(diào)了多個開源模型，結(jié)果顯示這些模型的多圖組合能力都有明顯提升。

其中基于 Qwen-Image-Edit 微調(diào)得到的 Qwen-MICo，在三圖組合任務上接近甚至優(yōu)于 Qwen-Image-2509，同時還能支持任意數(shù)量的多圖輸入。

這篇論文的亮點在于，它不是單純提出一個新模型，而是系統(tǒng)補齊了多圖組合生成領(lǐng)域的數(shù)據(jù)、任務分類、評測基準和基礎(chǔ)模型。MICo-150K 為模型學習多圖融合、身份保持和復雜場景組合提供了大規(guī)模訓練資源；

MICo-Bench 和 Weighted-Ref-VIEScore 則讓這類任務有了更專門的評測方式?？傮w來看，這篇論文的核心貢獻是推動多圖生成從 " 能參考一張圖 " 走向 " 能理解并融合多張圖 "。

前兩篇論文主要圍繞多圖編輯和多圖生成展開，而《Reparameterized Tensor Ring Functional Decomposition for Multi-Dimensional Data Recovery》則從多維數(shù)據(jù)表示與恢復的角度切入，相關(guān)研究來自湖南師范大學數(shù)學與統(tǒng)計學院、計算與隨機數(shù)學教育部重點實驗室，以及南方科技大學統(tǒng)計與數(shù)據(jù)科學系。

論文主要研究的是多維數(shù)據(jù)恢復問題，例如圖像修復、去噪、超分辨率和點云恢復。它關(guān)注的核心是：如何用更緊湊、更連續(xù)的方式表示高維數(shù)據(jù)，并從缺失、稀疏或退化的觀測中恢復出高質(zhì)量結(jié)果。

傳統(tǒng)的張量環(huán)分解 TR 適合表示高階張量，但通常依賴固定網(wǎng)格上的離散數(shù)據(jù)，難以處理連續(xù)信號或非規(guī)則采樣數(shù)據(jù)。

為了解決這個問題，論文提出了 TRFD，也就是張量環(huán)函數(shù)分解，用隱式神經(jīng)表示 INR 來參數(shù)化張量因子，使模型可以從連續(xù)坐標中生成張量表示。這樣一來，方法不僅能處理常規(guī)網(wǎng)格數(shù)據(jù)，也能處理點云這類非網(wǎng)格數(shù)據(jù)。

不過，直接用 INR 學習張量因子會遇到一個問題：模型容易先學習低頻內(nèi)容，而對細節(jié)紋理、邊緣結(jié)構(gòu)等高頻信息建模不足。

論文地址：https://arxiv.org/pdf/2603.01034v2

論文通過頻域分析指出，張量環(huán)因子的頻率特性會直接影響最終恢復結(jié)果的頻率表現(xiàn)，因此如果因子本身缺少高頻成分，恢復出的圖像或點云也會缺少細節(jié)。雷峰網(wǎng)

針對這一問題，論文提出了 RepTRFD，也就是重參數(shù)化張量環(huán)函數(shù)分解。它把每個張量環(huán)因子表示成 " 可學習的潛在張量 " 和 " 固定基 " 的結(jié)構(gòu)化組合，從而改善訓練動態(tài)，讓模型更容易學習高頻細節(jié)。同時，論文還給出了固定基的初始化方法，并證明了模型的 Lipschitz 連續(xù)性，以保證訓練過程更加穩(wěn)定。

這篇論文的亮點在于，它不是單純提高一個視覺任務的效果，而是從張量表示和頻率學習的角度改進多維數(shù)據(jù)恢復框架。

方法既保留了張量環(huán)分解緊湊、高效的優(yōu)勢，又通過 INR 獲得了連續(xù)建模能力，再通過重參數(shù)化增強了高頻細節(jié)恢復能力。實驗表明，RepTRFD 在圖像修復、去噪、超分辨率和點云恢復等任務上整體優(yōu)于已有方法，并且在相近計算量下取得了更好的恢復質(zhì)量。

在多維數(shù)據(jù)恢復之外，《SliderEdit: Continuous Image Editing with Fine-Grained Instruction Control》又回到圖像編輯場景，但它關(guān)注的重點是編輯過程中的精細控制能力，相關(guān)研究來自馬里蘭大學和 Adobe 研究院。

論文主要研究的是指令式圖像編輯中的 " 連續(xù)可控 " 問題，也就是讓用戶不僅能用文字告訴模型要改什么，還能像調(diào)節(jié)滑桿一樣精確控制每個編輯指令的強弱。

現(xiàn)有的圖像編輯模型通常會把指令一次性完整執(zhí)行，例如 " 把頭發(fā)變卷 "" 讓人物微笑 "" 把背景換成夜晚 "。但用戶很難控制這些變化到底要多強，是輕微微笑還是大笑，是稍微變卷還是非常卷。尤其當一個提示詞里包含多個編輯要求時，模型往往缺少對單個指令的獨立控制能力。

論文地址：https://arxiv.org/pdf/2511.09715v1

為了解決這個問題，論文提出了 SliderEdit 框架。它會把一個復雜編輯指令拆成多個子指令，并為每個子指令提供一個可調(diào)節(jié)的滑桿。

用戶可以通過滑桿連續(xù)控制某個編輯效果的強度，甚至可以讓某個效果被削弱、正常執(zhí)行或進一步放大。這樣一來，圖像編輯就不再是 " 改或不改 " 的離散操作，而變成了更細膩、可交互的連續(xù)控制過程。

方法上，SliderEdit 的核心是利用現(xiàn)代多模態(tài)擴散 Transformer 中的指令相關(guān) token 表示。作者發(fā)現(xiàn)，某些文本 token 會集中控制對應的視覺編輯效果，因此可以通過對這些 token 進行調(diào)節(jié)來控制編輯強度。

論文進一步提出 Partial Prompt Suppression 損失，讓模型學習如何只抑制某一個子指令的視覺影響，同時保留其他編輯效果。它還使用輕量級的低秩適配器 LoRA，不需要為每個屬性或概念單獨訓練一個新模型。

這篇論文的亮點在于，它把圖像編輯從 " 固定強度的文字指令 " 推進到了 " 可連續(xù)調(diào)節(jié)的交互式編輯 "。它不僅支持單個屬性的強弱控制，也支持多指令場景下對不同編輯方向分別調(diào)節(jié)。

論文還將方法應用到 FLUX-Kontext 和 Qwen-Image-Edit 等先進圖像編輯模型上，實驗顯示 SliderEdit 在編輯連續(xù)性、語義解耦、身份保持和用戶可控性方面都有明顯優(yōu)勢。

电竞比分网-中国电竞赛事及体育赛事平台

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業(yè)峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節(jié)目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業(yè)展廳解決方案

元宇宙藝術(shù)展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻

AI視頻剪輯

視頻定制服務

AI智能客服

我的訂閱

CVPR 2026 圖像編輯趨勢梳理：從參考一張圖，到融合整個視覺世界

宙世代

一起剪

相關(guān)閱讀

AI時代Win11安全神器沙箱值得強推 可惜被微軟限制了

不插電也能亮！LG電子紙海報發(fā)布：32英寸2K屏 薄如紙張

手機沒電還能定位？原來蘋果留了一手

618裝機必看：七彩虹5款神卡 從入門到旗艦一步到位

中汽協(xié)反駁“產(chǎn)能過?！逼嬷缚兀翰焕谥袣W經(jīng)貿(mào)合作

Anthropic估值萬億，但Claude 4.8沒那么驚艷

拿下世界杯，小紅書里能不能長出另一個足球“社區(qū)”？

量子計算迎來“晶圓廠時刻”，誰先受益？

沒有大廠總部，蕭山憑什么搶下AI制高點？

外賣大戰(zhàn)一周年“后遺癥”初顯：訂單驟降，騎手卻暴漲到2000萬

800億，河南史上最大IPO要來了

賽力斯成立新品牌賽豆科技，6月發(fā)布并聯(lián)合字節(jié)跳動開拓年輕市場

2026年4000-5000元價位段手機深度評測：系統(tǒng)流暢、耐用、日常使用需求，OPPO Reno16 Pro為何是首選？

雷鳥創(chuàng)新發(fā)布首款專業(yè)影視級AR眼鏡GT系列，售價1899元起

智能體之年新變局，關(guān)注高通CEO安蒙Computex 2026主題演講

最新評論

雷峰網(wǎng)

熱門推薦

企業(yè)資訊

CVPR 2026 圖像編輯趨勢梳理：從參考一張圖，到融合整個視覺世界

AI時代Win11安全神器沙箱值得強推可惜被微軟限制了

不插電也能亮！LG電子紙海報發(fā)布：32英寸2K屏薄如紙張

手機沒電還能定位？原來蘋果留了一手

618裝機必看：七彩虹5款神卡從入門到旗艦一步到位

中汽協(xié)反駁“產(chǎn)能過?！逼嬷缚兀翰焕谥袣W經(jīng)貿(mào)合作

Anthropic估值萬億，但Claude 4.8沒那么驚艷

拿下世界杯，小紅書里能不能長出另一個足球“社區(qū)”？

量子計算迎來“晶圓廠時刻”，誰先受益？

沒有大廠總部，蕭山憑什么搶下AI制高點？

外賣大戰(zhàn)一周年“后遺癥”初顯：訂單驟降，騎手卻暴漲到2000萬

800億，河南史上最大IPO要來了

賽力斯成立新品牌賽豆科技，6月發(fā)布并聯(lián)合字節(jié)跳動開拓年輕市場

2026年4000-5000元價位段手機深度評測：系統(tǒng)流暢、耐用、日常使用需求，OPPO Reno16 Pro為何是首選？

雷鳥創(chuàng)新發(fā)布首款專業(yè)影視級AR眼鏡GT系列，售價1899元起

智能體之年新變局，關(guān)注高通CEO安蒙Computex 2026主題演講