![]()
這項(xiàng)由清華大學(xué)與騰訊混元聯(lián)合開展的研究,以預(yù)印本形式于2026年4月28日發(fā)布在arXiv平臺(tái),論文編號(hào)為arXiv:2604.25636。有興趣深入了解的讀者可通過該編號(hào)檢索完整論文。
當(dāng)你用語言告訴一位畫家"請(qǐng)畫三張長(zhǎng)椅排成一排",但他交出的作品里只有兩張椅子,或者椅子擺放得歪歪扭扭,你會(huì)怎么辦?你可以告訴他"這里缺一張椅子",讓他在原畫上修改;也可以干脆把畫收起來,給他看一眼草稿,然后說"按照我的要求重新畫一幅"。這兩種方式聽起來差別不大,但這項(xiàng)研究證明,第二種方式產(chǎn)生的效果要好得多——而且好出人意料地多。
這就是這篇論文的核心故事。研究團(tuán)隊(duì)發(fā)現(xiàn),目前主流的AI圖像"修圖"方式走錯(cuò)了路,并提出了一種名為"通過重新生成來精煉"(Refinement via Regeneration,簡(jiǎn)稱RvR)的新框架,把AI的圖文匹配得分從0.78一路拉升到0.91(在Geneval基準(zhǔn)測(cè)試上),并在其他多個(gè)評(píng)測(cè)中也取得了顯著進(jìn)步。
一、為什么AI生成的圖片有時(shí)和你說的對(duì)不上?
現(xiàn)代AI繪圖系統(tǒng)已經(jīng)能夠生成令人嘆為觀止的高清圖像,但它們有一個(gè)頑固的弱點(diǎn):一旦你的要求稍微復(fù)雜一點(diǎn),比如"一只沒有尾巴、全身由透明玻璃構(gòu)成、帶著蝴蝶翅膀的貓,背景簡(jiǎn)潔",它就很容易在某個(gè)細(xì)節(jié)上栽跟頭——可能貓有尾巴,可能背景很復(fù)雜,可能翅膀不見了。這類問題在涉及多個(gè)物體、復(fù)雜空間關(guān)系、特殊屬性(比如"沒有"、"由……構(gòu)成")時(shí)尤為突出。
研究人員把這類AI繪圖工具稱為"統(tǒng)一多模態(tài)模型",英文縮寫UMM。所謂"統(tǒng)一",是指這些模型同時(shí)具備看圖理解、文字生成、圖像創(chuàng)作三種能力,就像一位既能讀稿、又能構(gòu)思、還能動(dòng)筆的全能畫家。這種全能性帶來了一個(gè)新的可能:讓AI在畫完一張圖之后,自己回頭檢查,發(fā)現(xiàn)哪里畫錯(cuò)了,然后修正。這個(gè)"自我檢查與修正"的過程就叫做圖像精煉(image refinement)。
二、現(xiàn)有的"修圖"方式究竟哪里出了問題?
目前學(xué)術(shù)界和工業(yè)界最常見的做法,是讓AI分兩步走:第一步,讓AI看著自己畫的圖和原始文字要求,生成一段"修改指令",比如"圖中應(yīng)該再加一張椅子";第二步,AI按照這段指令,在原圖上做局部修改。研究團(tuán)隊(duì)把這種路徑稱為"通過編輯來精煉"(Refinement via Editing,簡(jiǎn)稱RvE)。
聽起來合情合理,但這種做法有兩個(gè)根本性的缺陷,就像一位畫家被強(qiáng)制要求"只改局部、不動(dòng)其余部分",最終受到了這個(gè)規(guī)矩的拖累。
第一個(gè)缺陷是,AI在第一步生成的"修改指令"往往不夠完整。還是以三張長(zhǎng)椅為例,AI可能只發(fā)現(xiàn)了"少一張椅子"這個(gè)問題,卻忽略了原圖中扶手太多、椅子排列不自然這些同樣需要修正的問題。就好比請(qǐng)一位學(xué)生批改作文,他只標(biāo)出了錯(cuò)別字,卻沒有指出邏輯混亂的句子——后續(xù)只按這張批改單修改,作文依然不合格。
第二個(gè)缺陷更為根本:編輯模式要求AI在改動(dòng)某些區(qū)域的同時(shí),把其余區(qū)域保持像素級(jí)別的不變。這個(gè)"不改就是不改"的規(guī)矩對(duì)于圖像編輯任務(wù)(比如"把紅色的花改成藍(lán)色")是合理的,但對(duì)于圖像精煉任務(wù)來說卻是個(gè)不必要的束縛。假如原圖中有一扇巨大的窗戶占據(jù)了一半畫面,而正確答案需要在那里放一張沙發(fā),編輯模式的AI會(huì)盡力在窗戶旁邊塞進(jìn)一張變形縮小的沙發(fā),結(jié)果反而更難看。因?yàn)樗槐辉试S動(dòng)那扇窗戶。
研究團(tuán)隊(duì)把這個(gè)問題概括為:編輯模式不必要地縮小了"可修改空間",讓AI的手腳被綁住了,自然達(dá)不到最好的效果。
三、"重新生成"的思路:給畫家更大的自由度
清華與騰訊的研究團(tuán)隊(duì)提出的RvR框架,選擇了一條完全不同的路。他們不再要求AI生成修改指令,也不再要求AI對(duì)原圖進(jìn)行局部修改。取而代之的是,AI在看完原圖和文字要求之后,從頭生成一張新圖——但這個(gè)"從頭"并不是完全遺忘,而是帶著原圖的"語義記憶"重新出發(fā)。
具體來說,這個(gè)框架只保留了原圖經(jīng)過一個(gè)視覺理解網(wǎng)絡(luò)(ViT,一種專門提取圖像高層語義信息的網(wǎng)絡(luò))處理后得到的"語義令牌"。你可以把這些令牌理解為AI對(duì)原圖內(nèi)容的高層理解——比如"這張圖里有一個(gè)公園場(chǎng)景,有樹、有草坪、有長(zhǎng)椅"——而不是原圖的像素?cái)?shù)據(jù)。AI拿著這份"語義摘要"和用戶的文字要求,重新生成一張新圖。
這種做法有兩個(gè)關(guān)鍵優(yōu)勢(shì)。其一,AI直接對(duì)照用戶的原始要求來創(chuàng)作,不依賴中間那段可能殘缺的修改指令,避免了錯(cuò)誤的疊加傳遞。其二,AI不再被像素級(jí)別的一致性所束縛——如果整體構(gòu)圖需要大改,它就可以大改,只要最終結(jié)果符合用戶要求即可。就像那位全能畫家,在了解了你想要什么之后,參考了一下草稿的整體風(fēng)格,然后干脆利落地重新畫了一幅,而不是在草稿上磕磕絆絆地打補(bǔ)丁。
四、訓(xùn)練數(shù)據(jù)怎么準(zhǔn)備?一條更簡(jiǎn)潔的流水線
有了新思路,還需要用合適的數(shù)據(jù)來訓(xùn)練AI。RvE方法的訓(xùn)練數(shù)據(jù)需要三要素組成的三元組:原圖、按照指令修改后的圖、修改指令本身。要構(gòu)建這樣的數(shù)據(jù),必須確保修改圖與原圖在未改區(qū)域像素高度一致,這個(gè)要求極大地增加了數(shù)據(jù)構(gòu)建的難度和成本。
RvR的訓(xùn)練數(shù)據(jù)構(gòu)建則簡(jiǎn)單得多,分為三個(gè)步驟。第一步是生成多樣化的文字提示(prompt)。研究團(tuán)隊(duì)請(qǐng)一個(gè)大型語言模型(具體使用了Gemini)充當(dāng)出題員,每次隨機(jī)抽取一到五個(gè)語義維度(比如風(fēng)格、世界知識(shí)、數(shù)量關(guān)系、屬性描述等),然后生成一段同時(shí)包含這些維度的文字提示,確保題目足夠多樣和有挑戰(zhàn)性。
第二步是讓多個(gè)不同的AI繪圖系統(tǒng)(研究團(tuán)隊(duì)使用了BAGEL和GPT-4o)獨(dú)立根據(jù)這段提示各自畫一張圖。這里的關(guān)鍵在于,兩個(gè)系統(tǒng)畫出的圖之間沒有任何像素級(jí)別的對(duì)應(yīng)關(guān)系,完全是各自獨(dú)立創(chuàng)作的結(jié)果。這種獨(dú)立性正是RvR所需要的——訓(xùn)練數(shù)據(jù)不再強(qiáng)迫AI去記憶"從這個(gè)像素變成那個(gè)像素",而是學(xué)習(xí)"從這種語義狀態(tài)升級(jí)到那種語義狀態(tài)"。
第三步是請(qǐng)一個(gè)視覺語言模型(同樣使用Gemini)當(dāng)評(píng)委,判斷每張圖和原始提示的匹配程度,把它標(biāo)記為"對(duì)齊"或"不對(duì)齊"。最終,每道題對(duì)應(yīng)一個(gè)三元組:一張不夠?qū)R的圖(作為"輸入草稿")、一張高度對(duì)齊的圖(作為"目標(biāo)成品")、以及那段文字提示。整個(gè)流程不需要人工標(biāo)注修改指令,也不需要保證兩張圖在內(nèi)容上有對(duì)應(yīng)關(guān)系,因此可以大規(guī)模、低成本地自動(dòng)化生成。
五、訓(xùn)練和推理:AI如何學(xué)會(huì)"看著草稿重新畫"
在訓(xùn)練階段,AI拿到四樣?xùn)|西:一段系統(tǒng)提示(類似于"分析圖與要求的差距,然后重新生成一張完全符合要求的圖")、原始不對(duì)齊圖的語義令牌、用戶的文字要求、以及目標(biāo)對(duì)齊圖加上噪聲之后的版本。AI的任務(wù)是從這些輸入出發(fā),預(yù)測(cè)如何一步步去除噪聲、還原出目標(biāo)圖像。整個(gè)訓(xùn)練過程采用了一種叫做"流匹配"的技術(shù),類似于教AI學(xué)會(huì)在一堆雪花(噪聲)中逐步雕刻出清晰的圖像。
值得注意的是,與RvE的訓(xùn)練相比,RvR在訓(xùn)練過程中特意去掉了一樣?xùn)|西:原圖的像素級(jí)VAE特征(VAE是另一種專門提取圖像低層像素信息的網(wǎng)絡(luò))。RvE之所以需要這些低層像素特征,是因?yàn)樗驛I輸出結(jié)果與輸入圖像在像素上高度吻合。但RvR不需要這種約束,保留這些特征反而會(huì)讓AI傾向于"抄近路",照著原圖的像素依樣畫葫蘆,而不是真正按照用戶要求重新創(chuàng)作。實(shí)驗(yàn)結(jié)果也印證了這一點(diǎn):去掉低層像素特征后,模型性能反而更好。
在推理階段,流程極為簡(jiǎn)潔:給AI看一張待改進(jìn)的圖和用戶的文字要求,AI在語義令牌的引導(dǎo)下從純?cè)肼暢霭l(fā),經(jīng)過50步去噪,生成一張新圖。全程不需要中間的修改指令,不需要對(duì)原圖做局部遮蓋,也不需要指定哪些區(qū)域應(yīng)該修改、哪些區(qū)域應(yīng)該保留。
六、實(shí)驗(yàn)數(shù)據(jù)說明了什么?
研究團(tuán)隊(duì)在三個(gè)主流的圖文匹配評(píng)測(cè)基準(zhǔn)上進(jìn)行了驗(yàn)證:Geneval(專注于短句中的物體組合關(guān)系)、DPGBench(測(cè)試密集語義提示的匹配程度)以及UniGenBench++(覆蓋更廣泛的語義維度)。這三個(gè)基準(zhǔn)可以理解為三種不同難度和側(cè)重的考試——有的側(cè)重"數(shù)數(shù)題"(圖里有幾個(gè)物體),有的側(cè)重"理解題"(物體之間的復(fù)雜關(guān)系),有的則是綜合卷。
以底座模型BAGEL作為基準(zhǔn),RvR的提升幅度相當(dāng)顯著。在Geneval上,得分從0.78提升到0.91;在DPGBench上,從84.02提升到87.21;在UniGenBench++上,從61.53躍升到77.41。橫向?qū)Ρ葋砜矗琑vR也明顯超過了同樣基于BAGEL的RvE方法:在Geneval上,最強(qiáng)的RvE方法得分約為0.85,而RvR達(dá)到了0.91;在UniGenBench++上,最強(qiáng)RvE方法約為69.86,RvR則為77.41。
在Geneval的細(xì)分維度上,RvR在"數(shù)數(shù)"(counting)這個(gè)維度上的提升尤為突出,從原始的0.78提升到0.91,而位置關(guān)系(position)維度的得分也從0.50大幅提升到0.86。這兩個(gè)維度恰恰是AI繪圖最容易出錯(cuò)的地方,也是RvE方法最難以徹底修正的地方——因?yàn)榧m正數(shù)量或位置關(guān)系往往需要對(duì)整體構(gòu)圖進(jìn)行較大調(diào)整,而不是局部補(bǔ)丁。
對(duì)比其他非統(tǒng)一模型系統(tǒng)(如FLUX.1-dev和SD3-Medium),RvR加持后的BAGEL也達(dá)到了當(dāng)前最先進(jìn)的水平,這意味著通過精煉機(jī)制,一個(gè)統(tǒng)一多模態(tài)模型可以在文圖匹配質(zhì)量上追平甚至超越專門的圖像生成系統(tǒng)。
七、多輪精煉:一遍不夠,就再來一遍
RvR框架天然支持多輪迭代。第一輪精煉之后,如果有些語義問題仍未解決,可以把精煉后的圖再次送入RvR,進(jìn)行第二輪精煉。研究團(tuán)隊(duì)通過實(shí)驗(yàn)驗(yàn)證了這種迭代的有效性:在某些案例中,第一輪精煉后橘子的顏色仍然不完全正確,經(jīng)過第二輪精煉后,顏色偏差被進(jìn)一步糾正。同樣地,某張圖中出現(xiàn)了本不應(yīng)有的"背景土星",第一輪未能清除,第二輪則成功去掉。
另一方面,研究團(tuán)隊(duì)也擔(dān)心過度精煉會(huì)"改壞"已經(jīng)正確的內(nèi)容。實(shí)驗(yàn)結(jié)果表明,這種擔(dān)心是多余的:對(duì)于第一輪精煉后已經(jīng)完全對(duì)齊的圖像,強(qiáng)行進(jìn)行第二輪精煉不會(huì)破壞正確的語義內(nèi)容,有時(shí)甚至?xí)M(jìn)一步優(yōu)化一些細(xì)節(jié)(比如把只有一個(gè)扶手的長(zhǎng)椅改成了更自然的無扶手設(shè)計(jì))。
八、RvR究竟是在參考原圖,還是在無中生有?
有一個(gè)合理的疑問:RvR既然號(hào)稱是"重新生成",那它和直接忽略原圖、重新文字生成一張圖有什么區(qū)別?為了回答這個(gè)問題,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)刻意刁難的實(shí)驗(yàn)——給RvR提供一張和目標(biāo)語義完全不同的圖(比如你想要"鯊魚在海里游泳",但給它看的初始圖是一片草地和樹林),然后觀察它的行為。
結(jié)果很有啟發(fā)性。當(dāng)初始圖的內(nèi)容與目標(biāo)語義相容時(shí)(比如你想要"狗在打滾",初始圖雖然是另一只狗在草地上,草地這個(gè)背景并無違和感),RvR會(huì)智能地把草地、樹木等相容元素保留在新生成的圖中,只把不符合要求的部分重新創(chuàng)作。這說明它確實(shí)在參考原圖的語義,而不是完全無視它。
相反,當(dāng)初始圖的內(nèi)容與目標(biāo)語義強(qiáng)烈沖突時(shí)(比如你想要"一只在海里游泳的鯊魚",初始圖卻是草地和樹木——海洋與陸地完全矛盾),RvR會(huì)果斷放棄原圖的語義,生成一張全新的、符合要求的圖。這種"能復(fù)用就復(fù)用,必須放棄就果斷放棄"的靈活性,正是RvR相比RvE更高效的原因之一:它既不像RvE那樣死守原圖像素,也不會(huì)因?yàn)樵瓐D語義太差而無所適從,而是根據(jù)實(shí)際情況做出最合理的選擇。
九、消融實(shí)驗(yàn):哪些設(shè)計(jì)真正起了作用?
研究團(tuán)隊(duì)通過一系列對(duì)比實(shí)驗(yàn),驗(yàn)證了RvR各個(gè)設(shè)計(jì)決策的必要性。
首先是精煉訓(xùn)練本身的價(jià)值。為了驗(yàn)證RvR的性能提升是來自精煉機(jī)制還是僅僅來自高質(zhì)量的微調(diào)數(shù)據(jù),研究團(tuán)隊(duì)做了一個(gè)對(duì)照:把RvR訓(xùn)練數(shù)據(jù)中的"不對(duì)齊圖"丟掉,只保留"對(duì)齊圖和文字對(duì)",然后用這些數(shù)據(jù)對(duì)BAGEL做普通的監(jiān)督微調(diào)(SFT)。結(jié)果DPGBench得分從84.02只提升到84.62——幾乎沒有進(jìn)步。這說明RvR的性能提升主要來自精煉機(jī)制本身,而不是來自數(shù)據(jù)的質(zhì)量提升。
其次是編輯數(shù)據(jù)的影響。研究團(tuán)隊(duì)嘗試把常見的圖像編輯數(shù)據(jù)(即那些"原圖+編輯圖+編輯指令"的三元組,其中編輯圖與原圖在未改區(qū)域像素高度一致)加入RvR的訓(xùn)練中,結(jié)果DPGBench得分從87.21下降到85.70。這印證了核心論點(diǎn):像素級(jí)一致性的數(shù)據(jù)會(huì)讓AI重新學(xué)回"抄原圖"的傾向,從而壓縮可修改空間,降低精煉效果。
最后是低層VAE像素特征的影響。如前所述,在推理階段引入原圖的低層VAE特征會(huì)導(dǎo)致性能從87.21小幅下降到86.41,同樣說明這些特征對(duì)于語義精煉任務(wù)來說是多余的負(fù)擔(dān)。
說到底,這項(xiàng)研究告訴我們一個(gè)非常反直覺的事實(shí):當(dāng)你想讓AI把一張圖改得更好時(shí),給它更多的約束("必須保留原圖的像素"、"必須先寫出修改指令")不但沒有幫助,反而會(huì)成為拖累。放開束縛,讓AI在高層語義的引導(dǎo)下自由發(fā)揮,結(jié)果反而更好。
這對(duì)我們理解AI系統(tǒng)的設(shè)計(jì)有著重要的啟示。我們習(xí)慣于認(rèn)為"約束越多、越精確,結(jié)果越可控",但在某些任務(wù)中,過度的約束恰恰會(huì)阻止AI找到真正好的解答路徑。RvR的成功,本質(zhì)上是一次對(duì)任務(wù)定義的重新審視——把"修改"變成"重建",把"遵守原圖"變成"參考原圖",思路轉(zhuǎn)變的收益遠(yuǎn)超技術(shù)細(xì)節(jié)上的打磨。
當(dāng)然,這套方法目前還需要額外的推理開銷(多跑一輪生成),在追求極致速度的場(chǎng)景下可能有所限制。但隨著AI硬件和推理效率的持續(xù)提升,這個(gè)代價(jià)將會(huì)越來越小。未來,AI繪圖系統(tǒng)或許會(huì)把"先畫一遍、再精煉一遍"作為標(biāo)準(zhǔn)流程,就像人類畫家起稿之后再精修一樣,成為理所當(dāng)然的工作方式。有興趣深入研究這套框架細(xì)節(jié)的讀者,可通過arXiv編號(hào)2604.25636查閱完整論文。
Q&A
Q1:RvR和普通AI重新生成一張圖有什么區(qū)別?
A:RvR不是完全從零開始生成,而是把原圖通過視覺理解網(wǎng)絡(luò)轉(zhuǎn)化為"語義摘要"(ViT令牌),然后結(jié)合用戶的文字要求重新生成。這意味著AI會(huì)參考原圖中與目標(biāo)相容的內(nèi)容(比如背景風(fēng)格、場(chǎng)景元素),同時(shí)對(duì)不符合要求的部分自由修改,不受原圖像素的束縛。普通重新生成則完全忽視原圖,結(jié)果可能和原圖在風(fēng)格或場(chǎng)景上差異很大。
Q2:RvR精煉之后還能再精煉嗎?效果會(huì)不會(huì)越來越差?
A:可以多輪精煉,而且實(shí)驗(yàn)表明第二輪精煉確實(shí)能進(jìn)一步糾正第一輪遺留的問題。對(duì)于已經(jīng)對(duì)齊正確的內(nèi)容,額外的精煉輪次不會(huì)破壞它,有時(shí)還能改善細(xì)節(jié)。不過研究目前主要驗(yàn)證了兩輪的情況,極多輪次后的行為還有待進(jìn)一步研究。
Q3:RvR的訓(xùn)練數(shù)據(jù)如何保證質(zhì)量?
A:訓(xùn)練數(shù)據(jù)通過三步自動(dòng)化流水線構(gòu)建:先用大語言模型生成覆蓋多種語義維度的文字提示,再用多個(gè)不同的AI繪圖系統(tǒng)獨(dú)立生成候選圖像,最后用視覺語言模型(Gemini)評(píng)判每張圖與提示的匹配程度,自動(dòng)篩選出"對(duì)齊"與"不對(duì)齊"的圖像配對(duì)。整個(gè)過程不需要人工標(biāo)注,可以大規(guī)模自動(dòng)化執(zhí)行。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.