達姆施塔特工業(yè)大學等機構(gòu)揭示圖像生成模型的多目標生成困境

2026-05-08 20:23:55　來源: 科技行者

天津舉報

分享至

這項由德國達姆施塔特工業(yè)大學與黑森AI研究中心、德國圖賓根大學、英國牛津大學視覺幾何研究組以及韓國科學技術(shù)院聯(lián)合開展的研究，以預印本形式于2026年4月30日發(fā)布，論文編號為arXiv:2605.00273v1。

你有沒有試過讓AI圖像生成工具畫出"三只貓坐在沙發(fā)上"，結(jié)果得到的卻是一只貓、或者四只貓、甚至貓和沙發(fā)奇怪地疊在一起的畫面？這種令人哭笑不得的情形背后，藏著一個現(xiàn)代AI系統(tǒng)至今仍未完全解決的核心難題。

近年來，以Stable Diffusion、DALL-E等為代表的文字生成圖像技術(shù)飛速發(fā)展，它們能夠根據(jù)一句描述生成令人嘆為觀止的照片級畫面。然而，當你要求這些系統(tǒng)同時處理多個物體時，它們的表現(xiàn)往往讓人大跌眼鏡。研究團隊的測試顯示，這類模型在生成單個物體時準確率超過80%，但一旦涉及多個物體的組合場景，準確率常常跌破50%。簡單來說，讓AI畫一只紅蘋果，基本沒問題；讓它畫"一只紅蘋果和一個藍杯子放在桌子左邊"，事情就開始失控了。

這究竟是為什么？研究團隊決定像一名偵探一樣，系統(tǒng)地追查這個問題的根源。他們的核心懷疑對象是訓練數(shù)據(jù)本身——也就是AI學習的"教科書"。為了驗證這個猜想，他們設(shè)計了一套精密的實驗框架，專門用來控制和觀察不同數(shù)據(jù)條件對AI能力的影響。這套框架被命名為MOSAIC，代表多目標空間關(guān)系、屬性歸因與計數(shù)，這三個維度正是多物體生成任務(wù)中最常見、也最容易出錯的能力類型。

一、從"教科書"說起：訓練數(shù)據(jù)到底藏著什么秘密

要理解AI為什么會在多物體場景中犯錯，首先需要搞清楚AI是怎么學習的。這些圖像生成模型靠的是海量的"圖文配對"數(shù)據(jù)來訓練——也就是大量帶有文字描述的圖片。模型通過反復觀察"這張圖片對應(yīng)這段描述"，逐漸學會如何根據(jù)文字指令生成對應(yīng)的圖像。

研究團隊首先去檢查了目前最主流的訓練數(shù)據(jù)集LAION-2B——這是一個包含約20億圖文配對的巨型數(shù)據(jù)庫，很多主流AI圖像生成系統(tǒng)都用它訓練過。他們發(fā)現(xiàn)了一個很有意思的現(xiàn)象：在這個數(shù)據(jù)集里，描述"一個物體"的文字配對數(shù)量遠多于描述"兩個物體"的，而"兩個"又多于"三個"，以此類推。也就是說，AI在學習過程中見過無數(shù)次"一只狗"，但見過"六只狗排成一排"的次數(shù)少得可憐。更進一步，他們把LAION-2B中不同數(shù)量詞出現(xiàn)的頻率，與Stable Diffusion 3（一款當前最先進的生成模型）在計數(shù)任務(wù)上的準確率做了對比，發(fā)現(xiàn)兩者之間存在明顯的相關(guān)性——某個數(shù)字在訓練數(shù)據(jù)里出現(xiàn)得越少，模型生成那個數(shù)量物體時就越容易犯錯。

這個發(fā)現(xiàn)給了研究團隊一個重要線索：數(shù)據(jù)分布的不均衡，也就是"有些概念出現(xiàn)得多，有些出現(xiàn)得少"，可能是導致AI在多物體生成上表現(xiàn)不佳的原因之一。但僅僅是這一個原因嗎？還是說還有其他更深層的機制在作怪？帶著這個問題，他們設(shè)計了兩個核心研究方向：第一，當AI已經(jīng)在訓練中見過所有相關(guān)概念，但有些概念見得多、有些見得少時，它的表現(xiàn)會如何？第二，當AI從未見過某些概念的特定組合時，它能不能自己"推理"出來？

二、MOSAIC：為AI設(shè)計的"標準化考場"

為了公平、可控地回答這兩個問題，研究團隊建造了一套專門的實驗平臺，就像一個專為檢測AI能力而設(shè)計的標準化考場。MOSAIC框架通過3D渲染技術(shù)生成了大量精心設(shè)計的圖像，每張圖像都經(jīng)過嚴格的參數(shù)控制，確保研究人員能夠準確地知道"變量"是什么，從而得出可靠的結(jié)論。

這套考場一共設(shè)有三個不同的考試科目。第一個科目叫做"屬性歸因"，考查的是AI能否把顏色屬性正確地匹配到對應(yīng)的物體上。具體做法是：圖中有一個球和一個正方體，它們各自有獨立的顏色，AI需要根據(jù)文字描述正確生成。比如，描述說"黑色的球和藍色的正方體"，AI生成的圖里球就必須是黑色，正方體就必須是藍色，不能搞反。研究團隊使用了10種不同顏色，這意味著球和正方體的顏色組合共有100種可能性，是個相當有挑戰(zhàn)性的測試。

第二個科目叫做"空間關(guān)系"，考查AI能否準確理解并表現(xiàn)物體之間的位置關(guān)系。具體做法是：圖中有一個固定的棕色球作為參照物，另一個彩色球被放在參照物的不同方向上——研究團隊把360度的圓圈均勻分成10個區(qū)域，每個區(qū)域?qū)?yīng)一種空間關(guān)系類別。AI需要根據(jù)描述的角度，把第二個球放在正確的位置上。

第三個科目叫做"計數(shù)"，也是三個科目里被證明最困難的一個，它考查的是AI能否生成指定數(shù)量的物體。圖中只有藍色的球，數(shù)量從1個變化到10個，AI需要準確生成被要求數(shù)量的球，不多不少。

這三個科目的巧妙之處在于，它們被設(shè)計成盡可能排除干擾因素：背景顏色固定，相機角度固定，物體大小固定，唯一在變化的就是被測試的那一個變量。這就好比給一個學生做減法測驗，不把他放在嘈雜的操場上，而是在安靜的考室里，確保他的分數(shù)只反映他的減法能力，而不是受環(huán)境干擾。

三、教數(shù)據(jù)"偏心"究竟影響有多大？

第一個大實驗考查的是概念泛化能力——也就是"AI能不能可靠地學會每一個單獨的概念"。研究團隊準備了兩種不同的訓練數(shù)據(jù)分布：一種是"均勻分布"，每種顏色、每個數(shù)量、每種角度的訓練樣本數(shù)量都一樣多；另一種是"偏斜分布"，模擬真實數(shù)據(jù)集里的不均衡現(xiàn)象，比如計數(shù)任務(wù)中數(shù)字1和2的樣本最多，隨著數(shù)字增大樣本越來越少。此外，他們還用了2千張、1萬張、5萬張和10萬張四種不同規(guī)模的訓練數(shù)據(jù)進行實驗。

實驗結(jié)果給出了一個出人意料的答案。對于屬性歸因和空間關(guān)系這兩個科目，無論是均勻分布還是偏斜分布，無論數(shù)據(jù)量是2千還是10萬，AI的表現(xiàn)都相當穩(wěn)定，準確率基本保持在90%以上。也就是說，數(shù)據(jù)不均衡對這兩類任務(wù)的影響非常有限，只要AI見過某種顏色或某個角度，它就能學會。

然而，計數(shù)任務(wù)的情況截然不同。研究人員發(fā)現(xiàn)了一個奇特的"V形陷阱"：當訓練數(shù)據(jù)只有2000張時，模型準確率接近完美，這是因為樣本太少，模型其實只是在死記硬背，就像學生把答案背下來而不是真正理解了題目；當數(shù)據(jù)增加到1萬張和5萬張時，準確率反而大幅下降，跌到了60%-80%左右；只有當數(shù)據(jù)量達到10萬張時，準確率才重新攀升回較高水平。這個倒V形的怪異曲線意味著，在數(shù)據(jù)量中等的階段，模型處于一種"死記背不過來，真正理解又沒達到"的尷尬中間地帶。

四、"記背"與"真懂"之間的危險地帶

為了深入理解這個奇特的計數(shù)困境，研究團隊進一步檢查了模型在訓練過程中的詳細行為，就像一位教師不只看期末考試成績，還要分析學生平時是靠理解還是靠背題來應(yīng)付。

他們引入了一個"記憶化率"的指標，用來衡量模型生成的圖片和訓練圖片有多相似——如果一張生成的圖片和某張訓練圖片在像素級別上非常接近，說明模型只是在"復讀"，而不是真正學會了如何生成。結(jié)果顯示，在數(shù)據(jù)量很少（2000張）時，三個科目的記憶化率都接近100%，這證實了此時的高準確率是靠死記硬背撐起來的。隨著數(shù)據(jù)量增加，記憶化率逐漸下降。但關(guān)鍵的差異在于：對于屬性歸因和空間關(guān)系，當記憶化率下降時，真正的泛化能力接替了記憶化，準確率保持穩(wěn)定；而對于計數(shù)，記憶化能力消退了，但真正的理解能力還沒有建立起來，準確率就掉進了這個"真空地帶"。

研究團隊還觀察了訓練過程中每一步的準確率變化曲線，這就好比給學生做了全程追蹤的學習記錄。對于屬性歸因和空間關(guān)系，準確率曲線很快上升并穩(wěn)定下來；但對于計數(shù)，曲線會先升到一個峰值，然后隨著訓練繼續(xù)進行而不斷下降——即使訓練損失（AI自己衡量自己表現(xiàn)的指標）在持續(xù)降低，準確率卻在惡化。這說明AI在優(yōu)化一些與"數(shù)對了多少個物體"無關(guān)的其他方面，而逐漸忘掉了數(shù)數(shù)這件事。

更細致的分析還揭示了"哪些數(shù)字最先崩潰"：在10000張訓練數(shù)據(jù)的條件下，生成1個物體的準確率是100%，生成2-3個物體還勉強可以，但生成6-10個物體的準確率急劇下滑，最低跌到44%。也就是說，越多的物體，越難學會。

五、為什么計數(shù)比顏色匹配難那么多？

發(fā)現(xiàn)了計數(shù)任務(wù)的獨特困難之后，研究團隊開始追問：這到底是計數(shù)本身的概念太難，還是因為要生成許多物體時場景本身變得復雜了？這是兩個不同的問題，就好比問一個孩子不會做算術(shù)，是因為他不理解加減法的概念，還是因為題目太長、他注意力散了？

為了區(qū)分這兩種可能性，研究團隊為屬性歸因和空間關(guān)系任務(wù)設(shè)計了"復雜版本"——原本這兩個任務(wù)的圖中只有2個物體，研究人員把物體數(shù)量增加到最多10個，讓場景復雜程度與計數(shù)任務(wù)相當。結(jié)果非常清晰：當場景復雜度增加后，屬性歸因和空間關(guān)系的準確率也出現(xiàn)了明顯下降，盡管下降幅度沒有計數(shù)任務(wù)那么劇烈。這證明了"場景復雜度"本身就是一個獨立的挑戰(zhàn)因素，而不是計數(shù)任務(wù)的專屬難題。

接著，他們又做了一個反向?qū)嶒灒簽橛嫈?shù)任務(wù)設(shè)計了"簡化版本"，通過在場景中引入一個隱形的"格子"，把每個物體應(yīng)該放在哪里提前規(guī)定好，減少物體位置的隨機性，降低場景的空間復雜度。結(jié)果同樣非常有說服力：引入格子之后，計數(shù)準確率在各種數(shù)據(jù)量和數(shù)據(jù)分布條件下都大幅提升。這說明計數(shù)之所以難，很大程度上是因為當物體數(shù)量增加時，如何在空間中合理安排它們變成了一個巨大的挑戰(zhàn)，而不僅僅是"記住要畫幾個"那么簡單。

研究團隊還深挖了一個有趣的現(xiàn)象：為什么模型的訓練損失在下降，但計數(shù)準確率反而在惡化？他們檢查了模型內(nèi)部負責處理"條件指令"的嵌入向量——可以把這些向量理解成模型對"要生成幾個球"這個指令的內(nèi)部記憶痕跡。結(jié)果發(fā)現(xiàn)，當數(shù)據(jù)量只有1萬張時，代表不同數(shù)量（1到10）的向量在空間中彼此擠在一起，難以區(qū)分，就像一堆密密麻麻的點標在地圖上同一個位置；而當數(shù)據(jù)量達到5萬和10萬時，這些向量才逐漸分散開來，形成清晰的區(qū)分。模型"混淆了"不同數(shù)量之間的區(qū)別，自然就無法準確生成了。

六、當"從沒見過的搭配"出現(xiàn)時，AI能自己推理嗎？

研究的第二個大方向考查的是組合泛化能力。這是一個更接近人類直覺的問題：如果你知道"紅色"是什么，也知道"蘋果"是什么，那么即使你從來沒見過"紅蘋果"，你也能理解并想象出來。AI能做到這一點嗎？

研究團隊設(shè)計了一個精妙的實驗結(jié)構(gòu)，利用一個二維的"概念組合矩陣"來控制哪些組合是AI在訓練中見過的，哪些是完全陌生的。以計數(shù)任務(wù)為例，橫軸是物體顏色（10種顏色），縱軸是物體數(shù)量（1到10個），矩陣中的每個格子代表一種顏色-數(shù)量組合。他們的實驗策略是"去掉對角線"——比如去掉第一條對角線，意味著（紅色-數(shù)量1）、（綠色-數(shù)量2）……（黑色-數(shù)量10）這十種組合在訓練時完全沒有出現(xiàn)過。去掉的對角線越多，訓練中沒見過的組合就越多，對AI的挑戰(zhàn)就越大。

實驗結(jié)果揭示了一個令人沮喪的規(guī)律：隨著越來越多的組合從訓練數(shù)據(jù)中被移除，AI在這些"未見過的組合"上的準確率快速下滑。即使把數(shù)據(jù)量從1萬增加到10萬，下滑的趨勢依然存在，只是幅度略有減緩。當去掉一半以上的組合（8條對角線）時，AI幾乎完全失去了在未見過組合上的表現(xiàn)能力。

不同任務(wù)之間，這種崩潰的速度也有所差異。屬性歸因任務(wù)（顏色-顏色組合）的抗崩潰能力最強，因為顏色這個概念相對簡單，而且顏色與顏色之間有一定的感知相似性，模型更容易從相鄰的已見組合中推理。計數(shù)任務(wù)居中。而空間關(guān)系任務(wù)則是最脆弱的——一旦某些角度-顏色的組合沒有出現(xiàn)在訓練中，模型對那些角度的理解就會全面崩潰，預測結(jié)果呈現(xiàn)出雜亂無章的分布，沒有任何規(guī)律可循。

研究團隊還嘗試了一個有趣的補救措施：把模型內(nèi)部處理"指令理解"的部分替換成一個經(jīng)過專門優(yōu)化、能夠清晰區(qū)分不同概念的版本。按照某些理論，如果AI的"理解指令"部分更清晰，組合泛化能力應(yīng)該會提升。然而實驗結(jié)果表明，這種替換只帶來了邊際性的微小改善，組合泛化能力并沒有實質(zhì)性恢復。這說明問題不在于AI"聽不懂指令"，而在于AI的圖像生成過程本身缺乏把兩個概念獨立、靈活地組合在一起的機制。

七、這些發(fā)現(xiàn)在更真實的場景下還成立嗎？

為了確認在高度受控的實驗室環(huán)境下得出的結(jié)論不是"紙上談兵"，研究團隊做了兩組額外的驗證實驗，把實驗環(huán)境推向更接近真實世界的復雜條件。

第一組實驗是在Stable Diffusion 3這款成熟的商用級別生成模型上做微調(diào)測試。他們使用了SPEC基準數(shù)據(jù)集——這是一個包含真實照片的數(shù)據(jù)集，圖片中有各種真實物體、復雜背景和遮擋關(guān)系，和MOSAIC的卡通風格3D場景大相徑庭。他們用1500對圖文數(shù)據(jù)對SD3進行了微調(diào)訓練，并觀察訓練過程中計數(shù)和空間關(guān)系這兩項能力的變化。結(jié)果和MOSAIC實驗的結(jié)論高度一致：隨著微調(diào)訓練的進行，空間關(guān)系識別能力穩(wěn)步提升，生成的圖像越來越能正確反映描述中的位置關(guān)系；但計數(shù)能力在微調(diào)過程中持續(xù)惡化，生成的圖像中物體數(shù)量越來越不準確，盡管圖片本身看起來很真實。換句話說，讓AI"看更多真實照片"對于提高空間關(guān)系表達有幫助，但對于計數(shù)能力反而起到了反效果。

第二組實驗是在"物體共現(xiàn)"場景下測試組合泛化能力。這次，研究團隊構(gòu)建了一個更開放的場景：從10類真實物體（自行車、沙發(fā)、椅子、狗、床、筆記本電腦等）中選出兩個，生成一張包含這兩個物體的圖片。訓練時，某些物體對從來沒有在同一張圖中同時出現(xiàn)過，就像你從來沒見過"筆記本電腦和馬"同框，測試時卻要求AI生成這個組合。結(jié)果表明，訓練時見過的組合生成準確率保持較高，但對于從未見過的組合，準確率隨著被移除的組合數(shù)量增加而快速下滑，與MOSAIC實驗的結(jié)論完全吻合。許多時候，AI面對陌生組合時會"選擇放棄"，只生成其中一個物體，或者生成一個錯誤的次要物體來湊數(shù)。

八、這告訴我們什么，以及研究的邊界在哪里

歸根結(jié)底，這項研究揭示了當前AI圖像生成模型在多目標場景下失敗的兩個深層原因。其一，場景復雜度本身就是一個巨大挑戰(zhàn)，當畫面中物體數(shù)量增加時，模型需要同時處理的信息呈指數(shù)級增長，而它的學習機制并不擅長應(yīng)對這種情況，除非有足夠多的訓練樣本來"暴力覆蓋"所有可能性。其二，組合泛化能力是一種更根本的缺失：模型無法像人類那樣把"知道紅色"和"知道蘋果"這兩件事靈活拼起來，去理解從沒見過的"紅蘋果"。

這兩個發(fā)現(xiàn)共同指向一個結(jié)論：僅靠堆更多數(shù)據(jù)或調(diào)整數(shù)據(jù)分布，并不足以徹底解決多目標生成的失敗問題。模型本身的結(jié)構(gòu)需要進行更深層的改變，比如引入能夠強制模型學習獨立概念的"歸納偏置"，或者在訓練時加入專門鼓勵組合推理的機制。

當然，這項研究也有它的局限性。實驗主要在受控的合成數(shù)據(jù)集上進行，雖然有部分延伸實驗驗證了結(jié)論的普適性，但和真實世界的海量真實圖片場景相比，仍然存在一定的簡化。此外，研究聚焦于數(shù)據(jù)因素，并沒有深入探討模型架構(gòu)本身的變化對這些問題的影響。研究團隊也坦承，他們的目標是找出問題的根源，而不是直接提供一個"解決方案"，如何利用這些發(fā)現(xiàn)來改進模型還需要后續(xù)工作來回答。

就這項研究來說，它更像是一份詳細的"病理報告"，告訴我們AI圖像生成在多目標場景下到底病在哪里、病得多重。這份報告本身就已經(jīng)很有價值——畢竟，只有搞清楚病因，才能開出對癥的藥方。對于使用AI生成工具的普通用戶而言，這意味著下次你發(fā)現(xiàn)AI畫錯了物體數(shù)量或顏色歸屬，不必太驚訝，因為這是它骨子里的學習機制決定的，而不是偶然的失誤。而對于研究者而言，這項工作明確指出了一個方向：未來的模型需要在結(jié)構(gòu)層面引入更強的組合推理能力，才能真正征服復雜的多物體場景。如果你對這項研究的細節(jié)感興趣，可以通過arXiv編號2605.00273查閱完整論文。

Q&A

Q1：擴散模型在多目標圖像生成中最難學會的是哪種能力？

A：在三類多目標能力中，計數(shù)任務(wù)被證明是最難學會的。擴散模型在計數(shù)上會出現(xiàn)一種奇特的"中間地帶崩潰"現(xiàn)象：數(shù)據(jù)量少時靠死記硬背能應(yīng)付，數(shù)據(jù)量大時能真正學會，但在中等數(shù)據(jù)量階段，記憶化失效而真正理解未建立，準確率會大幅下降。空間關(guān)系任務(wù)則在組合泛化場景下最為脆弱，一旦訓練數(shù)據(jù)中缺少某些顏色與角度的組合，模型的表現(xiàn)會毫無規(guī)律地崩潰。

Q2：增加訓練數(shù)據(jù)量能解決擴散模型的多目標生成問題嗎？

A：僅靠增加數(shù)據(jù)量并不能根本解決問題。實驗表明，數(shù)據(jù)量增加確實能在一定程度上提升準確率，但對于組合泛化問題（即生成訓練中從未出現(xiàn)過的概念組合），即使將數(shù)據(jù)量從1萬增加到10萬，準確率的下滑趨勢依然存在。當超過一半的概念組合未被觀察到時，模型幾乎完全失去泛化能力。研究團隊認為，模型結(jié)構(gòu)本身需要引入更強的組合推理機制，而不能僅靠堆數(shù)據(jù)來解決。

Q3：簡化空間結(jié)構(gòu)能幫助擴散模型學會計數(shù)嗎？

A：有明顯幫助，但并不能完全解決組合泛化問題。研究團隊為計數(shù)任務(wù)引入了一種"網(wǎng)格布局"，預先規(guī)定每個物體的大致位置區(qū)域，減少了位置的隨機性。在這種設(shè)置下，計數(shù)準確率在各種數(shù)據(jù)量條件下都大幅提升，證明空間復雜度是計數(shù)困難的重要因素之一。然而，在組合泛化實驗中，引入網(wǎng)格布局雖然對計數(shù)和空間關(guān)系準確率有所改善，但同時導致顏色識別準確率下降，整體表現(xiàn)并未顯著優(yōu)于無網(wǎng)格的設(shè)置。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.