網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

清華大學(xué)與騰訊聯(lián)手：讓AI畫圖系統(tǒng)學(xué)會(huì)"推倒重來"

2026-05-06 19:29:37　來源: 科技行者

天津舉報(bào)

分享至

這項(xiàng)由清華大學(xué)與騰訊混元聯(lián)合開展的研究，以預(yù)印本形式于2026年4月28日發(fā)布在arXiv平臺(tái)，論文編號(hào)為arXiv:2604.25636。有興趣深入了解的讀者可通過該編號(hào)檢索完整論文。

當(dāng)你用語言告訴一位畫家"請(qǐng)畫三張長(zhǎng)椅排成一排"，但他交出的作品里只有兩張椅子，或者椅子擺放得歪歪扭扭，你會(huì)怎么辦？你可以告訴他"這里缺一張椅子"，讓他在原畫上修改；也可以干脆把畫收起來，給他看一眼草稿，然后說"按照我的要求重新畫一幅"。這兩種方式聽起來差別不大，但這項(xiàng)研究證明，第二種方式產(chǎn)生的效果要好得多——而且好出人意料地多。

這就是這篇論文的核心故事。研究團(tuán)隊(duì)發(fā)現(xiàn)，目前主流的AI圖像"修圖"方式走錯(cuò)了路，并提出了一種名為"通過重新生成來精煉"（Refinement via Regeneration，簡(jiǎn)稱RvR）的新框架，把AI的圖文匹配得分從0.78一路拉升到0.91（在Geneval基準(zhǔn)測(cè)試上），并在其他多個(gè)評(píng)測(cè)中也取得了顯著進(jìn)步。

一、為什么AI生成的圖片有時(shí)和你說的對(duì)不上？

現(xiàn)代AI繪圖系統(tǒng)已經(jīng)能夠生成令人嘆為觀止的高清圖像，但它們有一個(gè)頑固的弱點(diǎn)：一旦你的要求稍微復(fù)雜一點(diǎn)，比如"一只沒有尾巴、全身由透明玻璃構(gòu)成、帶著蝴蝶翅膀的貓，背景簡(jiǎn)潔"，它就很容易在某個(gè)細(xì)節(jié)上栽跟頭——可能貓有尾巴，可能背景很復(fù)雜，可能翅膀不見了。這類問題在涉及多個(gè)物體、復(fù)雜空間關(guān)系、特殊屬性（比如"沒有"、"由……構(gòu)成"）時(shí)尤為突出。

研究人員把這類AI繪圖工具稱為"統(tǒng)一多模態(tài)模型"，英文縮寫UMM。所謂"統(tǒng)一"，是指這些模型同時(shí)具備看圖理解、文字生成、圖像創(chuàng)作三種能力，就像一位既能讀稿、又能構(gòu)思、還能動(dòng)筆的全能畫家。這種全能性帶來了一個(gè)新的可能：讓AI在畫完一張圖之后，自己回頭檢查，發(fā)現(xiàn)哪里畫錯(cuò)了，然后修正。這個(gè)"自我檢查與修正"的過程就叫做圖像精煉（image refinement）。

二、現(xiàn)有的"修圖"方式究竟哪里出了問題？

目前學(xué)術(shù)界和工業(yè)界最常見的做法，是讓AI分兩步走：第一步，讓AI看著自己畫的圖和原始文字要求，生成一段"修改指令"，比如"圖中應(yīng)該再加一張椅子"；第二步，AI按照這段指令，在原圖上做局部修改。研究團(tuán)隊(duì)把這種路徑稱為"通過編輯來精煉"（Refinement via Editing，簡(jiǎn)稱RvE）。

聽起來合情合理，但這種做法有兩個(gè)根本性的缺陷，就像一位畫家被強(qiáng)制要求"只改局部、不動(dòng)其余部分"，最終受到了這個(gè)規(guī)矩的拖累。

第一個(gè)缺陷是，AI在第一步生成的"修改指令"往往不夠完整。還是以三張長(zhǎng)椅為例，AI可能只發(fā)現(xiàn)了"少一張椅子"這個(gè)問題，卻忽略了原圖中扶手太多、椅子排列不自然這些同樣需要修正的問題。就好比請(qǐng)一位學(xué)生批改作文，他只標(biāo)出了錯(cuò)別字，卻沒有指出邏輯混亂的句子——后續(xù)只按這張批改單修改，作文依然不合格。

第二個(gè)缺陷更為根本：編輯模式要求AI在改動(dòng)某些區(qū)域的同時(shí)，把其余區(qū)域保持像素級(jí)別的不變。這個(gè)"不改就是不改"的規(guī)矩對(duì)于圖像編輯任務(wù)（比如"把紅色的花改成藍(lán)色"）是合理的，但對(duì)于圖像精煉任務(wù)來說卻是個(gè)不必要的束縛。假如原圖中有一扇巨大的窗戶占據(jù)了一半畫面，而正確答案需要在那里放一張沙發(fā)，編輯模式的AI會(huì)盡力在窗戶旁邊塞進(jìn)一張變形縮小的沙發(fā)，結(jié)果反而更難看。因?yàn)樗槐辉试S動(dòng)那扇窗戶。

研究團(tuán)隊(duì)把這個(gè)問題概括為：編輯模式不必要地縮小了"可修改空間"，讓AI的手腳被綁住了，自然達(dá)不到最好的效果。

三、"重新生成"的思路：給畫家更大的自由度

清華與騰訊的研究團(tuán)隊(duì)提出的RvR框架，選擇了一條完全不同的路。他們不再要求AI生成修改指令，也不再要求AI對(duì)原圖進(jìn)行局部修改。取而代之的是，AI在看完原圖和文字要求之后，從頭生成一張新圖——但這個(gè)"從頭"并不是完全遺忘，而是帶著原圖的"語義記憶"重新出發(fā)。

具體來說，這個(gè)框架只保留了原圖經(jīng)過一個(gè)視覺理解網(wǎng)絡(luò)（ViT，一種專門提取圖像高層語義信息的網(wǎng)絡(luò)）處理后得到的"語義令牌"。你可以把這些令牌理解為AI對(duì)原圖內(nèi)容的高層理解——比如"這張圖里有一個(gè)公園場(chǎng)景，有樹、有草坪、有長(zhǎng)椅"——而不是原圖的像素?cái)?shù)據(jù)。AI拿著這份"語義摘要"和用戶的文字要求，重新生成一張新圖。

這種做法有兩個(gè)關(guān)鍵優(yōu)勢(shì)。其一，AI直接對(duì)照用戶的原始要求來創(chuàng)作，不依賴中間那段可能殘缺的修改指令，避免了錯(cuò)誤的疊加傳遞。其二，AI不再被像素級(jí)別的一致性所束縛——如果整體構(gòu)圖需要大改，它就可以大改，只要最終結(jié)果符合用戶要求即可。就像那位全能畫家，在了解了你想要什么之后，參考了一下草稿的整體風(fēng)格，然后干脆利落地重新畫了一幅，而不是在草稿上磕磕絆絆地打補(bǔ)丁。

四、訓(xùn)練數(shù)據(jù)怎么準(zhǔn)備？一條更簡(jiǎn)潔的流水線

有了新思路，還需要用合適的數(shù)據(jù)來訓(xùn)練AI。RvE方法的訓(xùn)練數(shù)據(jù)需要三要素組成的三元組：原圖、按照指令修改后的圖、修改指令本身。要構(gòu)建這樣的數(shù)據(jù)，必須確保修改圖與原圖在未改區(qū)域像素高度一致，這個(gè)要求極大地增加了數(shù)據(jù)構(gòu)建的難度和成本。

RvR的訓(xùn)練數(shù)據(jù)構(gòu)建則簡(jiǎn)單得多，分為三個(gè)步驟。第一步是生成多樣化的文字提示（prompt）。研究團(tuán)隊(duì)請(qǐng)一個(gè)大型語言模型（具體使用了Gemini）充當(dāng)出題員，每次隨機(jī)抽取一到五個(gè)語義維度（比如風(fēng)格、世界知識(shí)、數(shù)量關(guān)系、屬性描述等），然后生成一段同時(shí)包含這些維度的文字提示，確保題目足夠多樣和有挑戰(zhàn)性。

第二步是讓多個(gè)不同的AI繪圖系統(tǒng)（研究團(tuán)隊(duì)使用了BAGEL和GPT-4o）獨(dú)立根據(jù)這段提示各自畫一張圖。這里的關(guān)鍵在于，兩個(gè)系統(tǒng)畫出的圖之間沒有任何像素級(jí)別的對(duì)應(yīng)關(guān)系，完全是各自獨(dú)立創(chuàng)作的結(jié)果。這種獨(dú)立性正是RvR所需要的——訓(xùn)練數(shù)據(jù)不再強(qiáng)迫AI去記憶"從這個(gè)像素變成那個(gè)像素"，而是學(xué)習(xí)"從這種語義狀態(tài)升級(jí)到那種語義狀態(tài)"。

第三步是請(qǐng)一個(gè)視覺語言模型（同樣使用Gemini）當(dāng)評(píng)委，判斷每張圖和原始提示的匹配程度，把它標(biāo)記為"對(duì)齊"或"不對(duì)齊"。最終，每道題對(duì)應(yīng)一個(gè)三元組：一張不夠?qū)R的圖（作為"輸入草稿"）、一張高度對(duì)齊的圖（作為"目標(biāo)成品"）、以及那段文字提示。整個(gè)流程不需要人工標(biāo)注修改指令，也不需要保證兩張圖在內(nèi)容上有對(duì)應(yīng)關(guān)系，因此可以大規(guī)模、低成本地自動(dòng)化生成。

五、訓(xùn)練和推理：AI如何學(xué)會(huì)"看著草稿重新畫"

在訓(xùn)練階段，AI拿到四樣?xùn)|西：一段系統(tǒng)提示（類似于"分析圖與要求的差距，然后重新生成一張完全符合要求的圖"）、原始不對(duì)齊圖的語義令牌、用戶的文字要求、以及目標(biāo)對(duì)齊圖加上噪聲之后的版本。AI的任務(wù)是從這些輸入出發(fā)，預(yù)測(cè)如何一步步去除噪聲、還原出目標(biāo)圖像。整個(gè)訓(xùn)練過程采用了一種叫做"流匹配"的技術(shù)，類似于教AI學(xué)會(huì)在一堆雪花（噪聲）中逐步雕刻出清晰的圖像。

值得注意的是，與RvE的訓(xùn)練相比，RvR在訓(xùn)練過程中特意去掉了一樣?xùn)|西：原圖的像素級(jí)VAE特征（VAE是另一種專門提取圖像低層像素信息的網(wǎng)絡(luò)）。RvE之所以需要這些低層像素特征，是因?yàn)樗驛I輸出結(jié)果與輸入圖像在像素上高度吻合。但RvR不需要這種約束，保留這些特征反而會(huì)讓AI傾向于"抄近路"，照著原圖的像素依樣畫葫蘆，而不是真正按照用戶要求重新創(chuàng)作。實(shí)驗(yàn)結(jié)果也印證了這一點(diǎn)：去掉低層像素特征后，模型性能反而更好。

在推理階段，流程極為簡(jiǎn)潔：給AI看一張待改進(jìn)的圖和用戶的文字要求，AI在語義令牌的引導(dǎo)下從純?cè)肼暢霭l(fā)，經(jīng)過50步去噪，生成一張新圖。全程不需要中間的修改指令，不需要對(duì)原圖做局部遮蓋，也不需要指定哪些區(qū)域應(yīng)該修改、哪些區(qū)域應(yīng)該保留。

六、實(shí)驗(yàn)數(shù)據(jù)說明了什么？

研究團(tuán)隊(duì)在三個(gè)主流的圖文匹配評(píng)測(cè)基準(zhǔn)上進(jìn)行了驗(yàn)證：Geneval（專注于短句中的物體組合關(guān)系）、DPGBench（測(cè)試密集語義提示的匹配程度）以及UniGenBench++（覆蓋更廣泛的語義維度）。這三個(gè)基準(zhǔn)可以理解為三種不同難度和側(cè)重的考試——有的側(cè)重"數(shù)數(shù)題"（圖里有幾個(gè)物體），有的側(cè)重"理解題"（物體之間的復(fù)雜關(guān)系），有的則是綜合卷。

以底座模型BAGEL作為基準(zhǔn)，RvR的提升幅度相當(dāng)顯著。在Geneval上，得分從0.78提升到0.91；在DPGBench上，從84.02提升到87.21；在UniGenBench++上，從61.53躍升到77.41。橫向?qū)Ρ葋砜矗琑vR也明顯超過了同樣基于BAGEL的RvE方法：在Geneval上，最強(qiáng)的RvE方法得分約為0.85，而RvR達(dá)到了0.91；在UniGenBench++上，最強(qiáng)RvE方法約為69.86，RvR則為77.41。

在Geneval的細(xì)分維度上，RvR在"數(shù)數(shù)"（counting）這個(gè)維度上的提升尤為突出，從原始的0.78提升到0.91，而位置關(guān)系（position）維度的得分也從0.50大幅提升到0.86。這兩個(gè)維度恰恰是AI繪圖最容易出錯(cuò)的地方，也是RvE方法最難以徹底修正的地方——因?yàn)榧m正數(shù)量或位置關(guān)系往往需要對(duì)整體構(gòu)圖進(jìn)行較大調(diào)整，而不是局部補(bǔ)丁。

對(duì)比其他非統(tǒng)一模型系統(tǒng)（如FLUX.1-dev和SD3-Medium），RvR加持后的BAGEL也達(dá)到了當(dāng)前最先進(jìn)的水平，這意味著通過精煉機(jī)制，一個(gè)統(tǒng)一多模態(tài)模型可以在文圖匹配質(zhì)量上追平甚至超越專門的圖像生成系統(tǒng)。

七、多輪精煉：一遍不夠，就再來一遍

RvR框架天然支持多輪迭代。第一輪精煉之后，如果有些語義問題仍未解決，可以把精煉后的圖再次送入RvR，進(jìn)行第二輪精煉。研究團(tuán)隊(duì)通過實(shí)驗(yàn)驗(yàn)證了這種迭代的有效性：在某些案例中，第一輪精煉后橘子的顏色仍然不完全正確，經(jīng)過第二輪精煉后，顏色偏差被進(jìn)一步糾正。同樣地，某張圖中出現(xiàn)了本不應(yīng)有的"背景土星"，第一輪未能清除，第二輪則成功去掉。

另一方面，研究團(tuán)隊(duì)也擔(dān)心過度精煉會(huì)"改壞"已經(jīng)正確的內(nèi)容。實(shí)驗(yàn)結(jié)果表明，這種擔(dān)心是多余的：對(duì)于第一輪精煉后已經(jīng)完全對(duì)齊的圖像，強(qiáng)行進(jìn)行第二輪精煉不會(huì)破壞正確的語義內(nèi)容，有時(shí)甚至?xí)M(jìn)一步優(yōu)化一些細(xì)節(jié)（比如把只有一個(gè)扶手的長(zhǎng)椅改成了更自然的無扶手設(shè)計(jì)）。

八、RvR究竟是在參考原圖，還是在無中生有？

有一個(gè)合理的疑問：RvR既然號(hào)稱是"重新生成"，那它和直接忽略原圖、重新文字生成一張圖有什么區(qū)別？為了回答這個(gè)問題，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)刻意刁難的實(shí)驗(yàn)——給RvR提供一張和目標(biāo)語義完全不同的圖（比如你想要"鯊魚在海里游泳"，但給它看的初始圖是一片草地和樹林），然后觀察它的行為。

結(jié)果很有啟發(fā)性。當(dāng)初始圖的內(nèi)容與目標(biāo)語義相容時(shí)（比如你想要"狗在打滾"，初始圖雖然是另一只狗在草地上，草地這個(gè)背景并無違和感），RvR會(huì)智能地把草地、樹木等相容元素保留在新生成的圖中，只把不符合要求的部分重新創(chuàng)作。這說明它確實(shí)在參考原圖的語義，而不是完全無視它。

相反，當(dāng)初始圖的內(nèi)容與目標(biāo)語義強(qiáng)烈沖突時(shí)（比如你想要"一只在海里游泳的鯊魚"，初始圖卻是草地和樹木——海洋與陸地完全矛盾），RvR會(huì)果斷放棄原圖的語義，生成一張全新的、符合要求的圖。這種"能復(fù)用就復(fù)用，必須放棄就果斷放棄"的靈活性，正是RvR相比RvE更高效的原因之一：它既不像RvE那樣死守原圖像素，也不會(huì)因?yàn)樵瓐D語義太差而無所適從，而是根據(jù)實(shí)際情況做出最合理的選擇。

九、消融實(shí)驗(yàn)：哪些設(shè)計(jì)真正起了作用？

研究團(tuán)隊(duì)通過一系列對(duì)比實(shí)驗(yàn)，驗(yàn)證了RvR各個(gè)設(shè)計(jì)決策的必要性。

首先是精煉訓(xùn)練本身的價(jià)值。為了驗(yàn)證RvR的性能提升是來自精煉機(jī)制還是僅僅來自高質(zhì)量的微調(diào)數(shù)據(jù)，研究團(tuán)隊(duì)做了一個(gè)對(duì)照：把RvR訓(xùn)練數(shù)據(jù)中的"不對(duì)齊圖"丟掉，只保留"對(duì)齊圖和文字對(duì)"，然后用這些數(shù)據(jù)對(duì)BAGEL做普通的監(jiān)督微調(diào)（SFT）。結(jié)果DPGBench得分從84.02只提升到84.62——幾乎沒有進(jìn)步。這說明RvR的性能提升主要來自精煉機(jī)制本身，而不是來自數(shù)據(jù)的質(zhì)量提升。

其次是編輯數(shù)據(jù)的影響。研究團(tuán)隊(duì)嘗試把常見的圖像編輯數(shù)據(jù)（即那些"原圖+編輯圖+編輯指令"的三元組，其中編輯圖與原圖在未改區(qū)域像素高度一致）加入RvR的訓(xùn)練中，結(jié)果DPGBench得分從87.21下降到85.70。這印證了核心論點(diǎn)：像素級(jí)一致性的數(shù)據(jù)會(huì)讓AI重新學(xué)回"抄原圖"的傾向，從而壓縮可修改空間，降低精煉效果。

最后是低層VAE像素特征的影響。如前所述，在推理階段引入原圖的低層VAE特征會(huì)導(dǎo)致性能從87.21小幅下降到86.41，同樣說明這些特征對(duì)于語義精煉任務(wù)來說是多余的負(fù)擔(dān)。

說到底，這項(xiàng)研究告訴我們一個(gè)非常反直覺的事實(shí)：當(dāng)你想讓AI把一張圖改得更好時(shí)，給它更多的約束（"必須保留原圖的像素"、"必須先寫出修改指令"）不但沒有幫助，反而會(huì)成為拖累。放開束縛，讓AI在高層語義的引導(dǎo)下自由發(fā)揮，結(jié)果反而更好。

這對(duì)我們理解AI系統(tǒng)的設(shè)計(jì)有著重要的啟示。我們習(xí)慣于認(rèn)為"約束越多、越精確，結(jié)果越可控"，但在某些任務(wù)中，過度的約束恰恰會(huì)阻止AI找到真正好的解答路徑。RvR的成功，本質(zhì)上是一次對(duì)任務(wù)定義的重新審視——把"修改"變成"重建"，把"遵守原圖"變成"參考原圖"，思路轉(zhuǎn)變的收益遠(yuǎn)超技術(shù)細(xì)節(jié)上的打磨。

當(dāng)然，這套方法目前還需要額外的推理開銷（多跑一輪生成），在追求極致速度的場(chǎng)景下可能有所限制。但隨著AI硬件和推理效率的持續(xù)提升，這個(gè)代價(jià)將會(huì)越來越小。未來，AI繪圖系統(tǒng)或許會(huì)把"先畫一遍、再精煉一遍"作為標(biāo)準(zhǔn)流程，就像人類畫家起稿之后再精修一樣，成為理所當(dāng)然的工作方式。有興趣深入研究這套框架細(xì)節(jié)的讀者，可通過arXiv編號(hào)2604.25636查閱完整論文。

Q&A

Q1：RvR和普通AI重新生成一張圖有什么區(qū)別？

A：RvR不是完全從零開始生成，而是把原圖通過視覺理解網(wǎng)絡(luò)轉(zhuǎn)化為"語義摘要"（ViT令牌），然后結(jié)合用戶的文字要求重新生成。這意味著AI會(huì)參考原圖中與目標(biāo)相容的內(nèi)容（比如背景風(fēng)格、場(chǎng)景元素），同時(shí)對(duì)不符合要求的部分自由修改，不受原圖像素的束縛。普通重新生成則完全忽視原圖，結(jié)果可能和原圖在風(fēng)格或場(chǎng)景上差異很大。

Q2：RvR精煉之后還能再精煉嗎？效果會(huì)不會(huì)越來越差？

A：可以多輪精煉，而且實(shí)驗(yàn)表明第二輪精煉確實(shí)能進(jìn)一步糾正第一輪遺留的問題。對(duì)于已經(jīng)對(duì)齊正確的內(nèi)容，額外的精煉輪次不會(huì)破壞它，有時(shí)還能改善細(xì)節(jié)。不過研究目前主要驗(yàn)證了兩輪的情況，極多輪次后的行為還有待進(jìn)一步研究。

Q3：RvR的訓(xùn)練數(shù)據(jù)如何保證質(zhì)量？

A：訓(xùn)練數(shù)據(jù)通過三步自動(dòng)化流水線構(gòu)建：先用大語言模型生成覆蓋多種語義維度的文字提示，再用多個(gè)不同的AI繪圖系統(tǒng)獨(dú)立生成候選圖像，最后用視覺語言模型（Gemini）評(píng)判每張圖與提示的匹配程度，自動(dòng)篩選出"對(duì)齊"與"不對(duì)齊"的圖像配對(duì)。整個(gè)過程不需要人工標(biāo)注，可以大規(guī)模自動(dòng)化執(zhí)行。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.