![]()
這項由德國達姆施塔特工業(yè)大學與黑森AI研究中心、德國圖賓根大學、英國牛津大學視覺幾何研究組以及韓國科學技術(shù)院聯(lián)合開展的研究,以預印本形式于2026年4月30日發(fā)布,論文編號為arXiv:2605.00273v1。
你有沒有試過讓AI圖像生成工具畫出"三只貓坐在沙發(fā)上",結(jié)果得到的卻是一只貓、或者四只貓、甚至貓和沙發(fā)奇怪地疊在一起的畫面?這種令人哭笑不得的情形背后,藏著一個現(xiàn)代AI系統(tǒng)至今仍未完全解決的核心難題。
近年來,以Stable Diffusion、DALL-E等為代表的文字生成圖像技術(shù)飛速發(fā)展,它們能夠根據(jù)一句描述生成令人嘆為觀止的照片級畫面。然而,當你要求這些系統(tǒng)同時處理多個物體時,它們的表現(xiàn)往往讓人大跌眼鏡。研究團隊的測試顯示,這類模型在生成單個物體時準確率超過80%,但一旦涉及多個物體的組合場景,準確率常常跌破50%。簡單來說,讓AI畫一只紅蘋果,基本沒問題;讓它畫"一只紅蘋果和一個藍杯子放在桌子左邊",事情就開始失控了。
這究竟是為什么?研究團隊決定像一名偵探一樣,系統(tǒng)地追查這個問題的根源。他們的核心懷疑對象是訓練數(shù)據(jù)本身——也就是AI學習的"教科書"。為了驗證這個猜想,他們設(shè)計了一套精密的實驗框架,專門用來控制和觀察不同數(shù)據(jù)條件對AI能力的影響。這套框架被命名為MOSAIC,代表多目標空間關(guān)系、屬性歸因與計數(shù),這三個維度正是多物體生成任務(wù)中最常見、也最容易出錯的能力類型。
一、從"教科書"說起:訓練數(shù)據(jù)到底藏著什么秘密
要理解AI為什么會在多物體場景中犯錯,首先需要搞清楚AI是怎么學習的。這些圖像生成模型靠的是海量的"圖文配對"數(shù)據(jù)來訓練——也就是大量帶有文字描述的圖片。模型通過反復觀察"這張圖片對應(yīng)這段描述",逐漸學會如何根據(jù)文字指令生成對應(yīng)的圖像。
研究團隊首先去檢查了目前最主流的訓練數(shù)據(jù)集LAION-2B——這是一個包含約20億圖文配對的巨型數(shù)據(jù)庫,很多主流AI圖像生成系統(tǒng)都用它訓練過。他們發(fā)現(xiàn)了一個很有意思的現(xiàn)象:在這個數(shù)據(jù)集里,描述"一個物體"的文字配對數(shù)量遠多于描述"兩個物體"的,而"兩個"又多于"三個",以此類推。也就是說,AI在學習過程中見過無數(shù)次"一只狗",但見過"六只狗排成一排"的次數(shù)少得可憐。更進一步,他們把LAION-2B中不同數(shù)量詞出現(xiàn)的頻率,與Stable Diffusion 3(一款當前最先進的生成模型)在計數(shù)任務(wù)上的準確率做了對比,發(fā)現(xiàn)兩者之間存在明顯的相關(guān)性——某個數(shù)字在訓練數(shù)據(jù)里出現(xiàn)得越少,模型生成那個數(shù)量物體時就越容易犯錯。
這個發(fā)現(xiàn)給了研究團隊一個重要線索:數(shù)據(jù)分布的不均衡,也就是"有些概念出現(xiàn)得多,有些出現(xiàn)得少",可能是導致AI在多物體生成上表現(xiàn)不佳的原因之一。但僅僅是這一個原因嗎?還是說還有其他更深層的機制在作怪?帶著這個問題,他們設(shè)計了兩個核心研究方向:第一,當AI已經(jīng)在訓練中見過所有相關(guān)概念,但有些概念見得多、有些見得少時,它的表現(xiàn)會如何?第二,當AI從未見過某些概念的特定組合時,它能不能自己"推理"出來?
二、MOSAIC:為AI設(shè)計的"標準化考場"
為了公平、可控地回答這兩個問題,研究團隊建造了一套專門的實驗平臺,就像一個專為檢測AI能力而設(shè)計的標準化考場。MOSAIC框架通過3D渲染技術(shù)生成了大量精心設(shè)計的圖像,每張圖像都經(jīng)過嚴格的參數(shù)控制,確保研究人員能夠準確地知道"變量"是什么,從而得出可靠的結(jié)論。
這套考場一共設(shè)有三個不同的考試科目。第一個科目叫做"屬性歸因",考查的是AI能否把顏色屬性正確地匹配到對應(yīng)的物體上。具體做法是:圖中有一個球和一個正方體,它們各自有獨立的顏色,AI需要根據(jù)文字描述正確生成。比如,描述說"黑色的球和藍色的正方體",AI生成的圖里球就必須是黑色,正方體就必須是藍色,不能搞反。研究團隊使用了10種不同顏色,這意味著球和正方體的顏色組合共有100種可能性,是個相當有挑戰(zhàn)性的測試。
第二個科目叫做"空間關(guān)系",考查AI能否準確理解并表現(xiàn)物體之間的位置關(guān)系。具體做法是:圖中有一個固定的棕色球作為參照物,另一個彩色球被放在參照物的不同方向上——研究團隊把360度的圓圈均勻分成10個區(qū)域,每個區(qū)域?qū)?yīng)一種空間關(guān)系類別。AI需要根據(jù)描述的角度,把第二個球放在正確的位置上。
第三個科目叫做"計數(shù)",也是三個科目里被證明最困難的一個,它考查的是AI能否生成指定數(shù)量的物體。圖中只有藍色的球,數(shù)量從1個變化到10個,AI需要準確生成被要求數(shù)量的球,不多不少。
這三個科目的巧妙之處在于,它們被設(shè)計成盡可能排除干擾因素:背景顏色固定,相機角度固定,物體大小固定,唯一在變化的就是被測試的那一個變量。這就好比給一個學生做減法測驗,不把他放在嘈雜的操場上,而是在安靜的考室里,確保他的分數(shù)只反映他的減法能力,而不是受環(huán)境干擾。
三、教數(shù)據(jù)"偏心"究竟影響有多大?
第一個大實驗考查的是概念泛化能力——也就是"AI能不能可靠地學會每一個單獨的概念"。研究團隊準備了兩種不同的訓練數(shù)據(jù)分布:一種是"均勻分布",每種顏色、每個數(shù)量、每種角度的訓練樣本數(shù)量都一樣多;另一種是"偏斜分布",模擬真實數(shù)據(jù)集里的不均衡現(xiàn)象,比如計數(shù)任務(wù)中數(shù)字1和2的樣本最多,隨著數(shù)字增大樣本越來越少。此外,他們還用了2千張、1萬張、5萬張和10萬張四種不同規(guī)模的訓練數(shù)據(jù)進行實驗。
實驗結(jié)果給出了一個出人意料的答案。對于屬性歸因和空間關(guān)系這兩個科目,無論是均勻分布還是偏斜分布,無論數(shù)據(jù)量是2千還是10萬,AI的表現(xiàn)都相當穩(wěn)定,準確率基本保持在90%以上。也就是說,數(shù)據(jù)不均衡對這兩類任務(wù)的影響非常有限,只要AI見過某種顏色或某個角度,它就能學會。
然而,計數(shù)任務(wù)的情況截然不同。研究人員發(fā)現(xiàn)了一個奇特的"V形陷阱":當訓練數(shù)據(jù)只有2000張時,模型準確率接近完美,這是因為樣本太少,模型其實只是在死記硬背,就像學生把答案背下來而不是真正理解了題目;當數(shù)據(jù)增加到1萬張和5萬張時,準確率反而大幅下降,跌到了60%-80%左右;只有當數(shù)據(jù)量達到10萬張時,準確率才重新攀升回較高水平。這個倒V形的怪異曲線意味著,在數(shù)據(jù)量中等的階段,模型處于一種"死記背不過來,真正理解又沒達到"的尷尬中間地帶。
四、"記背"與"真懂"之間的危險地帶
為了深入理解這個奇特的計數(shù)困境,研究團隊進一步檢查了模型在訓練過程中的詳細行為,就像一位教師不只看期末考試成績,還要分析學生平時是靠理解還是靠背題來應(yīng)付。
他們引入了一個"記憶化率"的指標,用來衡量模型生成的圖片和訓練圖片有多相似——如果一張生成的圖片和某張訓練圖片在像素級別上非常接近,說明模型只是在"復讀",而不是真正學會了如何生成。結(jié)果顯示,在數(shù)據(jù)量很少(2000張)時,三個科目的記憶化率都接近100%,這證實了此時的高準確率是靠死記硬背撐起來的。隨著數(shù)據(jù)量增加,記憶化率逐漸下降。但關(guān)鍵的差異在于:對于屬性歸因和空間關(guān)系,當記憶化率下降時,真正的泛化能力接替了記憶化,準確率保持穩(wěn)定;而對于計數(shù),記憶化能力消退了,但真正的理解能力還沒有建立起來,準確率就掉進了這個"真空地帶"。
研究團隊還觀察了訓練過程中每一步的準確率變化曲線,這就好比給學生做了全程追蹤的學習記錄。對于屬性歸因和空間關(guān)系,準確率曲線很快上升并穩(wěn)定下來;但對于計數(shù),曲線會先升到一個峰值,然后隨著訓練繼續(xù)進行而不斷下降——即使訓練損失(AI自己衡量自己表現(xiàn)的指標)在持續(xù)降低,準確率卻在惡化。這說明AI在優(yōu)化一些與"數(shù)對了多少個物體"無關(guān)的其他方面,而逐漸忘掉了數(shù)數(shù)這件事。
更細致的分析還揭示了"哪些數(shù)字最先崩潰":在10000張訓練數(shù)據(jù)的條件下,生成1個物體的準確率是100%,生成2-3個物體還勉強可以,但生成6-10個物體的準確率急劇下滑,最低跌到44%。也就是說,越多的物體,越難學會。
五、為什么計數(shù)比顏色匹配難那么多?
發(fā)現(xiàn)了計數(shù)任務(wù)的獨特困難之后,研究團隊開始追問:這到底是計數(shù)本身的概念太難,還是因為要生成許多物體時場景本身變得復雜了?這是兩個不同的問題,就好比問一個孩子不會做算術(shù),是因為他不理解加減法的概念,還是因為題目太長、他注意力散了?
為了區(qū)分這兩種可能性,研究團隊為屬性歸因和空間關(guān)系任務(wù)設(shè)計了"復雜版本"——原本這兩個任務(wù)的圖中只有2個物體,研究人員把物體數(shù)量增加到最多10個,讓場景復雜程度與計數(shù)任務(wù)相當。結(jié)果非常清晰:當場景復雜度增加后,屬性歸因和空間關(guān)系的準確率也出現(xiàn)了明顯下降,盡管下降幅度沒有計數(shù)任務(wù)那么劇烈。這證明了"場景復雜度"本身就是一個獨立的挑戰(zhàn)因素,而不是計數(shù)任務(wù)的專屬難題。
接著,他們又做了一個反向?qū)嶒灒簽橛嫈?shù)任務(wù)設(shè)計了"簡化版本",通過在場景中引入一個隱形的"格子",把每個物體應(yīng)該放在哪里提前規(guī)定好,減少物體位置的隨機性,降低場景的空間復雜度。結(jié)果同樣非常有說服力:引入格子之后,計數(shù)準確率在各種數(shù)據(jù)量和數(shù)據(jù)分布條件下都大幅提升。這說明計數(shù)之所以難,很大程度上是因為當物體數(shù)量增加時,如何在空間中合理安排它們變成了一個巨大的挑戰(zhàn),而不僅僅是"記住要畫幾個"那么簡單。
研究團隊還深挖了一個有趣的現(xiàn)象:為什么模型的訓練損失在下降,但計數(shù)準確率反而在惡化?他們檢查了模型內(nèi)部負責處理"條件指令"的嵌入向量——可以把這些向量理解成模型對"要生成幾個球"這個指令的內(nèi)部記憶痕跡。結(jié)果發(fā)現(xiàn),當數(shù)據(jù)量只有1萬張時,代表不同數(shù)量(1到10)的向量在空間中彼此擠在一起,難以區(qū)分,就像一堆密密麻麻的點標在地圖上同一個位置;而當數(shù)據(jù)量達到5萬和10萬時,這些向量才逐漸分散開來,形成清晰的區(qū)分。模型"混淆了"不同數(shù)量之間的區(qū)別,自然就無法準確生成了。
六、當"從沒見過的搭配"出現(xiàn)時,AI能自己推理嗎?
研究的第二個大方向考查的是組合泛化能力。這是一個更接近人類直覺的問題:如果你知道"紅色"是什么,也知道"蘋果"是什么,那么即使你從來沒見過"紅蘋果",你也能理解并想象出來。AI能做到這一點嗎?
研究團隊設(shè)計了一個精妙的實驗結(jié)構(gòu),利用一個二維的"概念組合矩陣"來控制哪些組合是AI在訓練中見過的,哪些是完全陌生的。以計數(shù)任務(wù)為例,橫軸是物體顏色(10種顏色),縱軸是物體數(shù)量(1到10個),矩陣中的每個格子代表一種顏色-數(shù)量組合。他們的實驗策略是"去掉對角線"——比如去掉第一條對角線,意味著(紅色-數(shù)量1)、(綠色-數(shù)量2)……(黑色-數(shù)量10)這十種組合在訓練時完全沒有出現(xiàn)過。去掉的對角線越多,訓練中沒見過的組合就越多,對AI的挑戰(zhàn)就越大。
實驗結(jié)果揭示了一個令人沮喪的規(guī)律:隨著越來越多的組合從訓練數(shù)據(jù)中被移除,AI在這些"未見過的組合"上的準確率快速下滑。即使把數(shù)據(jù)量從1萬增加到10萬,下滑的趨勢依然存在,只是幅度略有減緩。當去掉一半以上的組合(8條對角線)時,AI幾乎完全失去了在未見過組合上的表現(xiàn)能力。
不同任務(wù)之間,這種崩潰的速度也有所差異。屬性歸因任務(wù)(顏色-顏色組合)的抗崩潰能力最強,因為顏色這個概念相對簡單,而且顏色與顏色之間有一定的感知相似性,模型更容易從相鄰的已見組合中推理。計數(shù)任務(wù)居中。而空間關(guān)系任務(wù)則是最脆弱的——一旦某些角度-顏色的組合沒有出現(xiàn)在訓練中,模型對那些角度的理解就會全面崩潰,預測結(jié)果呈現(xiàn)出雜亂無章的分布,沒有任何規(guī)律可循。
研究團隊還嘗試了一個有趣的補救措施:把模型內(nèi)部處理"指令理解"的部分替換成一個經(jīng)過專門優(yōu)化、能夠清晰區(qū)分不同概念的版本。按照某些理論,如果AI的"理解指令"部分更清晰,組合泛化能力應(yīng)該會提升。然而實驗結(jié)果表明,這種替換只帶來了邊際性的微小改善,組合泛化能力并沒有實質(zhì)性恢復。這說明問題不在于AI"聽不懂指令",而在于AI的圖像生成過程本身缺乏把兩個概念獨立、靈活地組合在一起的機制。
七、這些發(fā)現(xiàn)在更真實的場景下還成立嗎?
為了確認在高度受控的實驗室環(huán)境下得出的結(jié)論不是"紙上談兵",研究團隊做了兩組額外的驗證實驗,把實驗環(huán)境推向更接近真實世界的復雜條件。
第一組實驗是在Stable Diffusion 3這款成熟的商用級別生成模型上做微調(diào)測試。他們使用了SPEC基準數(shù)據(jù)集——這是一個包含真實照片的數(shù)據(jù)集,圖片中有各種真實物體、復雜背景和遮擋關(guān)系,和MOSAIC的卡通風格3D場景大相徑庭。他們用1500對圖文數(shù)據(jù)對SD3進行了微調(diào)訓練,并觀察訓練過程中計數(shù)和空間關(guān)系這兩項能力的變化。結(jié)果和MOSAIC實驗的結(jié)論高度一致:隨著微調(diào)訓練的進行,空間關(guān)系識別能力穩(wěn)步提升,生成的圖像越來越能正確反映描述中的位置關(guān)系;但計數(shù)能力在微調(diào)過程中持續(xù)惡化,生成的圖像中物體數(shù)量越來越不準確,盡管圖片本身看起來很真實。換句話說,讓AI"看更多真實照片"對于提高空間關(guān)系表達有幫助,但對于計數(shù)能力反而起到了反效果。
第二組實驗是在"物體共現(xiàn)"場景下測試組合泛化能力。這次,研究團隊構(gòu)建了一個更開放的場景:從10類真實物體(自行車、沙發(fā)、椅子、狗、床、筆記本電腦等)中選出兩個,生成一張包含這兩個物體的圖片。訓練時,某些物體對從來沒有在同一張圖中同時出現(xiàn)過,就像你從來沒見過"筆記本電腦和馬"同框,測試時卻要求AI生成這個組合。結(jié)果表明,訓練時見過的組合生成準確率保持較高,但對于從未見過的組合,準確率隨著被移除的組合數(shù)量增加而快速下滑,與MOSAIC實驗的結(jié)論完全吻合。許多時候,AI面對陌生組合時會"選擇放棄",只生成其中一個物體,或者生成一個錯誤的次要物體來湊數(shù)。
八、這告訴我們什么,以及研究的邊界在哪里
歸根結(jié)底,這項研究揭示了當前AI圖像生成模型在多目標場景下失敗的兩個深層原因。其一,場景復雜度本身就是一個巨大挑戰(zhàn),當畫面中物體數(shù)量增加時,模型需要同時處理的信息呈指數(shù)級增長,而它的學習機制并不擅長應(yīng)對這種情況,除非有足夠多的訓練樣本來"暴力覆蓋"所有可能性。其二,組合泛化能力是一種更根本的缺失:模型無法像人類那樣把"知道紅色"和"知道蘋果"這兩件事靈活拼起來,去理解從沒見過的"紅蘋果"。
這兩個發(fā)現(xiàn)共同指向一個結(jié)論:僅靠堆更多數(shù)據(jù)或調(diào)整數(shù)據(jù)分布,并不足以徹底解決多目標生成的失敗問題。模型本身的結(jié)構(gòu)需要進行更深層的改變,比如引入能夠強制模型學習獨立概念的"歸納偏置",或者在訓練時加入專門鼓勵組合推理的機制。
當然,這項研究也有它的局限性。實驗主要在受控的合成數(shù)據(jù)集上進行,雖然有部分延伸實驗驗證了結(jié)論的普適性,但和真實世界的海量真實圖片場景相比,仍然存在一定的簡化。此外,研究聚焦于數(shù)據(jù)因素,并沒有深入探討模型架構(gòu)本身的變化對這些問題的影響。研究團隊也坦承,他們的目標是找出問題的根源,而不是直接提供一個"解決方案",如何利用這些發(fā)現(xiàn)來改進模型還需要后續(xù)工作來回答。
就這項研究來說,它更像是一份詳細的"病理報告",告訴我們AI圖像生成在多目標場景下到底病在哪里、病得多重。這份報告本身就已經(jīng)很有價值——畢竟,只有搞清楚病因,才能開出對癥的藥方。對于使用AI生成工具的普通用戶而言,這意味著下次你發(fā)現(xiàn)AI畫錯了物體數(shù)量或顏色歸屬,不必太驚訝,因為這是它骨子里的學習機制決定的,而不是偶然的失誤。而對于研究者而言,這項工作明確指出了一個方向:未來的模型需要在結(jié)構(gòu)層面引入更強的組合推理能力,才能真正征服復雜的多物體場景。如果你對這項研究的細節(jié)感興趣,可以通過arXiv編號2605.00273查閱完整論文。
Q&A
Q1:擴散模型在多目標圖像生成中最難學會的是哪種能力?
A:在三類多目標能力中,計數(shù)任務(wù)被證明是最難學會的。擴散模型在計數(shù)上會出現(xiàn)一種奇特的"中間地帶崩潰"現(xiàn)象:數(shù)據(jù)量少時靠死記硬背能應(yīng)付,數(shù)據(jù)量大時能真正學會,但在中等數(shù)據(jù)量階段,記憶化失效而真正理解未建立,準確率會大幅下降。空間關(guān)系任務(wù)則在組合泛化場景下最為脆弱,一旦訓練數(shù)據(jù)中缺少某些顏色與角度的組合,模型的表現(xiàn)會毫無規(guī)律地崩潰。
Q2:增加訓練數(shù)據(jù)量能解決擴散模型的多目標生成問題嗎?
A:僅靠增加數(shù)據(jù)量并不能根本解決問題。實驗表明,數(shù)據(jù)量增加確實能在一定程度上提升準確率,但對于組合泛化問題(即生成訓練中從未出現(xiàn)過的概念組合),即使將數(shù)據(jù)量從1萬增加到10萬,準確率的下滑趨勢依然存在。當超過一半的概念組合未被觀察到時,模型幾乎完全失去泛化能力。研究團隊認為,模型結(jié)構(gòu)本身需要引入更強的組合推理機制,而不能僅靠堆數(shù)據(jù)來解決。
Q3:簡化空間結(jié)構(gòu)能幫助擴散模型學會計數(shù)嗎?
A:有明顯幫助,但并不能完全解決組合泛化問題。研究團隊為計數(shù)任務(wù)引入了一種"網(wǎng)格布局",預先規(guī)定每個物體的大致位置區(qū)域,減少了位置的隨機性。在這種設(shè)置下,計數(shù)準確率在各種數(shù)據(jù)量條件下都大幅提升,證明空間復雜度是計數(shù)困難的重要因素之一。然而,在組合泛化實驗中,引入網(wǎng)格布局雖然對計數(shù)和空間關(guān)系準確率有所改善,但同時導致顏色識別準確率下降,整體表現(xiàn)并未顯著優(yōu)于無網(wǎng)格的設(shè)置。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.