網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

上交大、北航證明：讓AI"看圖解題"的空間智慧連6歲小孩都不如？

2026-05-07 21:05:09　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由上海交通大學(xué)、中國(guó)人民大學(xué)與北京通用人工智能研究院（BIGAI）聯(lián)合開展的研究，發(fā)表于2026年ICLR（國(guó)際學(xué)習(xí)表征會(huì)議）效率化空間推理研討會(huì)，論文編號(hào)為arXiv:2604.22868，感興趣的讀者可通過(guò)該編號(hào)檢索完整論文。

一、人類眼中的小問(wèn)題，AI眼中的大難題

走迷宮這件事，對(duì)大多數(shù)人來(lái)說(shuō)簡(jiǎn)直不值一提。一個(gè)六七歲的孩子，拿到一張印有迷宮的紙，往往只需要掃幾眼，手里的鉛筆就能順著路徑一氣呵成畫到終點(diǎn)。這種"看了就會(huì)"的能力，我們稱之為視覺(jué)空間推理——不需要把路線寫成文字，不需要列方程，只需要眼睛看、大腦判斷、手直接畫。

然而，對(duì)于當(dāng)今最先進(jìn)的人工智能來(lái)說(shuō)，這件事卻難倒了它們。當(dāng)研究團(tuán)隊(duì)把一張迷宮圖片丟給市面上最強(qiáng)的AI圖像編輯模型，要求它"在圖上畫出從起點(diǎn)到終點(diǎn)的路徑，保持迷宮結(jié)構(gòu)不變"時(shí)，結(jié)果往往讓人啼笑皆非——AI要么把墻壁直接穿過(guò)去，要么畫出一條完全不連通的斷頭路，要么干脆什么都沒(méi)畫。

這背后藏著一個(gè)被長(zhǎng)期忽視的深層問(wèn)題：現(xiàn)有的AI視覺(jué)智能，究竟真的"看懂"了圖像，還是只是在模仿人類的表面行為？為了給這個(gè)問(wèn)題找到一個(gè)嚴(yán)謹(jǐn)?shù)拇鸢福@支來(lái)自中國(guó)幾所頂尖機(jī)構(gòu)的研究團(tuán)隊(duì)做了一件很有意思的事情：他們?cè)O(shè)計(jì)了一套測(cè)試系統(tǒng)，把"視覺(jué)空間推理能力"像考試一樣量化出來(lái)，然后邀請(qǐng)各路AI選手和不同年齡段的人類一起參賽，看看究竟誰(shuí)更勝一籌。

二、用"畫圖"代替"說(shuō)話"——一個(gè)全新的測(cè)試框架

以往，當(dāng)研究者想讓AI解決迷宮問(wèn)題時(shí)，最常見的做法是讓AI把問(wèn)題"翻譯"成文字，再用語(yǔ)言模型去推理。比如"從坐標(biāo)(1,1)出發(fā)，向右走兩格，再向下走三格……"——這本質(zhì)上是把一個(gè)視覺(jué)問(wèn)題轉(zhuǎn)化成了一道文字題。這種方法就好比你想測(cè)試一個(gè)人的游泳能力，卻讓他寫一篇作文來(lái)描述游泳動(dòng)作。寫作文和游泳，完全是兩碼事。

這支研究團(tuán)隊(duì)提出了一個(gè)全新的思路，他們稱之為EAR，即"編輯即推理"（Editing as Reasoning）。核心思想非常直接：既然問(wèn)題本身是視覺(jué)的，那答案也應(yīng)該是視覺(jué)的。具體操作上，他們把一張帶問(wèn)題的圖片喂給AI，讓AI直接在圖片上"畫出答案"，就像人類拿著鉛筆在紙上解題一樣。AI輸出的不是一段文字，而是一張修改過(guò)的圖片——圖片上的答案路徑就是AI對(duì)這道題的"理解"。

這個(gè)框架有一個(gè)特別聰明的地方：整個(gè)解題過(guò)程被壓縮成了"一步"。AI不像某些系統(tǒng)那樣需要一步一步生成中間圖像、逐漸逼近答案，它必須在一次"編輯"操作中直接給出完整的解。這就像老師出了一道題，不允許打草稿，要求學(xué)生直接在答題紙上寫出最終答案。這種約束使得測(cè)試結(jié)果能更真實(shí)地反映AI是否真正"理解"了問(wèn)題，而不是靠逐步試探蒙出來(lái)的。

三、測(cè)試題設(shè)計(jì)有講究——迷宮和皇后，互補(bǔ)的兩種考驗(yàn)

為了讓測(cè)試公平、可量化，團(tuán)隊(duì)專門設(shè)計(jì)了一套叫做AMAZE的標(biāo)準(zhǔn)化題庫(kù)。題目來(lái)自兩種經(jīng)典的智力謎題，分別對(duì)應(yīng)兩種截然不同的空間推理能力。

第一種是迷宮問(wèn)題。題目給出一張迷宮圖，上面有一個(gè)紅色實(shí)心圓點(diǎn)標(biāo)示起點(diǎn)，一個(gè)紅色"×"標(biāo)示終點(diǎn)，AI的任務(wù)是在圖上畫出一條藍(lán)色路徑把兩者連通，且路徑必須沿著通道走，不能穿越墻壁。迷宮的解題過(guò)程是**順序性**的——你必須從起點(diǎn)出發(fā)，一步一步往前探索，每走一步都受到當(dāng)前位置周邊墻壁的限制，走錯(cuò)了還得回頭。這考察的是在"局部約束"下進(jìn)行"連續(xù)規(guī)劃"的能力。

為了增加測(cè)試的多樣性，迷宮還被設(shè)計(jì)成四種不同的幾何形式：方格迷宮（最常見的那種）、六邊形迷宮（像蜂巢一樣，每個(gè)格子有六個(gè)方向可以走）、三角形迷宮（每個(gè)格子有多種斜向路徑）以及圓形迷宮（同心圓加放射線形成的螺旋結(jié)構(gòu)）。不同幾何形式意味著不同的行走規(guī)則和視覺(jué)外觀，難度也各有差異。迷宮的規(guī)模從3×3到16×16不等，越大越難。

第二種是皇后問(wèn)題。這是一道源自國(guó)際象棋的組合謎題：在一個(gè)被不同顏色區(qū)域劃分的棋盤上，每個(gè)顏色區(qū)域放一枚棋子（用實(shí)心黑色圓點(diǎn)表示"皇后"），要求每行、每列、每個(gè)顏色區(qū)域都恰好有一枚棋子，且任意兩枚棋子不能在8個(gè)方向的鄰格上相互攻擊?；屎髥?wèn)題是**并行性**的——所有棋子的擺放必須同時(shí)滿足全局約束，你調(diào)整一個(gè)棋子的位置，可能同時(shí)影響其他所有棋子。棋盤規(guī)模從4×4到10×10不等。

兩種題目形成了很好的互補(bǔ)：迷宮考驗(yàn)"局部約束下的路徑規(guī)劃"，皇后考驗(yàn)"全局約束下的組合推理"。前者的推理過(guò)程是"邊走邊想"，后者必須"全盤統(tǒng)籌"。研究團(tuán)隊(duì)一共生成了2800道迷宮題（每種幾何類型各700道）和350道皇后題，全部由程序自動(dòng)生成，每道題都有唯一正確答案。

四、打分標(biāo)準(zhǔn)：不只看"好不好看"，更看"對(duì)不對(duì)"

評(píng)判AI畫出來(lái)的答案，是這套測(cè)試系統(tǒng)的另一個(gè)核心設(shè)計(jì)。在大多數(shù)圖像生成任務(wù)中，人們習(xí)慣用圖像質(zhì)量來(lái)評(píng)分——生成的圖片清不清晰、色彩對(duì)不對(duì)、風(fēng)格像不像。但這在邏輯推理任務(wù)中完全不夠用：一條畫得很漂亮的路徑，如果穿墻了，那就是錯(cuò)的，不管它多好看。

團(tuán)隊(duì)為此設(shè)計(jì)了兩套相互獨(dú)立的評(píng)價(jià)指標(biāo)。第一套叫**邏輯有效性**，直接衡量答案對(duì)不對(duì)：覆蓋率（Coverage）衡量AI畫出的路徑覆蓋了多少"正確路徑"，違規(guī)率（Violation）衡量AI畫出的內(nèi)容有多少落在"錯(cuò)誤區(qū)域"。最終的綜合得分叫做PASS，計(jì)算方式是用覆蓋率減去違規(guī)率，取零到一之間的值。PASS等于1意味著AI畫的路徑和標(biāo)準(zhǔn)答案完全吻合。第二套叫**像素級(jí)保真度**，用均方誤差（MSE）來(lái)衡量AI修改了哪些不該修改的地方，比如把迷宮的墻壁顏色改了，或者在不該有顏色的地方添加了內(nèi)容。

為了驗(yàn)證這套自動(dòng)評(píng)分系統(tǒng)的可靠性，研究團(tuán)隊(duì)還請(qǐng)了三名人類評(píng)判員，對(duì)隨機(jī)抽取的題目進(jìn)行人工打分，再對(duì)比機(jī)器評(píng)分和人工評(píng)分的一致程度。結(jié)果顯示兩者的吻合率高達(dá)98%。剩余2%的差異主要來(lái)自兩種特殊情況：一是題目本身太復(fù)雜，人眼也容易看花；二是AI畫的路徑顏色太淺，人眼看不清，但機(jī)器能檢測(cè)到。這說(shuō)明這套自動(dòng)評(píng)分系統(tǒng)相當(dāng)可靠。

五、主角登場(chǎng)：參加測(cè)試的AI選手們

研究團(tuán)隊(duì)邀請(qǐng)了市面上多款主流的圖像編輯AI參加測(cè)試，分為商業(yè)閉源模型和開源模型兩大陣營(yíng)。

商業(yè)閉源模型包括三位：OpenAI的GPT-Image-1、Google DeepMind的NanoBanana-Pro，以及國(guó)內(nèi)的Seedream-4.5。這三款模型都是所在公司拿出來(lái)的最強(qiáng)圖像生成產(chǎn)品，正常情況下圖片生成質(zhì)量非常高。

開源模型則有四款：Qwen-Image-Edit（阿里的千問(wèn)圖像編輯版本）、Flux-Kontext-Dev（來(lái)自Black Forest Labs的擴(kuò)散模型）、Bagel（來(lái)自BIGAI自身的多模態(tài)統(tǒng)一模型）、Janus-Pro-7B（來(lái)自深勢(shì)科技的自回歸模型）。前三款是擴(kuò)散模型，最后一款是自回歸模型。

擴(kuò)散模型和自回歸模型，是當(dāng)前AI圖像生成的兩大主流技術(shù)路線?？梢杂靡粋€(gè)類比來(lái)理解它們的區(qū)別：自回歸模型就像一個(gè)人寫書法，一筆一劃按順序?qū)懀恳还P都基于之前寫的內(nèi)容來(lái)決定；擴(kuò)散模型則更像一個(gè)畫家在一張白紙上反復(fù)涂抹修改，先是大致輪廓，再逐漸填充細(xì)節(jié)，整體和局部同時(shí)演化。這兩種方式對(duì)于空間推理來(lái)說(shuō)，有著本質(zhì)上的差異，研究團(tuán)隊(duì)對(duì)此非常感興趣。

六、零分慘案——未經(jīng)訓(xùn)練的AI表現(xiàn)有多差？

在未經(jīng)專門訓(xùn)練的零樣本測(cè)試中，幾乎所有模型都表現(xiàn)很差。PASS@1這個(gè)指標(biāo)代表AI第一次嘗試就答對(duì)的概率，類似于人類一次性通過(guò)考試。

在迷宮測(cè)試中，三款商業(yè)閉源模型中最好的是GPT-Image-1，但其PASS@1只有5.4%，意味著大約每20次嘗試才能成功一次。NanoBanana-Pro的圖像質(zhì)量最好，但它有一個(gè)明顯的壞習(xí)慣：喜歡把整張迷宮的所有通道都畫滿路徑，不管那些通道走不走得通，它的違規(guī)率高達(dá)47.76%，可以理解為它"把所有可能的路都畫上了，但不知道哪條才是真正的解"。Seedream-4.5走了另一個(gè)極端，它違規(guī)率低，但覆蓋率也低，因?yàn)樗静辉趺串?，只畫了一小段就停了?/p>

開源模型的情況更糟。Bagel的PASS@1是0，Janus-Pro的PASS@1也是0。這兩款模型在零樣本條件下完全無(wú)法完成任務(wù)。不過(guò)，由于它們是開源的，研究團(tuán)隊(duì)可以對(duì)其進(jìn)行針對(duì)性的訓(xùn)練。

皇后問(wèn)題上，有一個(gè)例外讓研究團(tuán)隊(duì)頗為意外：NanoBanana-Pro的PASS@1達(dá)到了30.35%，遠(yuǎn)超其他所有模型。這個(gè)成績(jī)實(shí)在太亮眼，研究者懷疑這款模型在訓(xùn)練階段可能已經(jīng)見過(guò)類似的皇后謎題，否則很難解釋這種突出表現(xiàn)。其余模型在皇后問(wèn)題上的PASS@1基本接近零。

七、專門訓(xùn)練后的逆襲——擴(kuò)散模型為什么更擅長(zhǎng)"畫出邏輯"？

研究團(tuán)隊(duì)對(duì)開源模型進(jìn)行了有針對(duì)性的微調(diào)訓(xùn)練。訓(xùn)練數(shù)據(jù)選用的是最簡(jiǎn)單規(guī)模的題目：3×3大小的迷宮（四種幾何類型各800道，共3200道）和4×4大小的皇后題（800道）。訓(xùn)練過(guò)程最多進(jìn)行8輪，當(dāng)驗(yàn)證集上的誤差不再下降時(shí)提前停止。

訓(xùn)練結(jié)果非常明顯。擴(kuò)散模型Bagel在迷宮任務(wù)上的PASS@1從0跳升到了11.54%，并且PASS@5（五次嘗試至少一次正確）達(dá)到了23.64%，比之前最強(qiáng)的商業(yè)模型GPT-Image-1高出了整整6個(gè)百分點(diǎn)。在皇后任務(wù)上，Bagel的PASS@1也達(dá)到了14.57%。

相比之下，自回歸模型Janus-Pro訓(xùn)練后的進(jìn)步要小得多：迷宮任務(wù)的PASS@1只有1.43%，皇后任務(wù)為12.57%。兩者之間的差距揭示了一個(gè)有趣的規(guī)律：擴(kuò)散模型似乎天然更擅長(zhǎng)發(fā)展出"視覺(jué)推理邏輯"。

研究團(tuán)隊(duì)給出了一個(gè)合理的解釋。擴(kuò)散模型的工作方式是從模糊到清晰地逐步細(xì)化整張圖片，在這個(gè)過(guò)程中，它必須同時(shí)考慮全局結(jié)構(gòu)和局部細(xì)節(jié)，這種"先全局后細(xì)節(jié)"的天性與視覺(jué)規(guī)劃任務(wù)非常契合。而自回歸模型是按照固定順序（通常是從左到右、從上到下）逐個(gè)生成像素或圖塊，這種線性的、局部的生成方式缺乏對(duì)全局結(jié)構(gòu)的整體把握。就好比，一個(gè)人畫迷宮路徑時(shí)是先在腦海中規(guī)劃整條路線再一筆畫完，而不是從起點(diǎn)開始一格一格往前試探。

從Bagel的生成過(guò)程來(lái)看，這種"全局先行"的特性在可視化中非常明顯。在去噪的早期步驟（相當(dāng)于圖像還很模糊的時(shí)候），整條路徑的大致走向已經(jīng)出現(xiàn)了，只是顏色很淺、線條不清晰；隨著去噪步驟推進(jìn)，錯(cuò)誤的支路被逐漸糾正，最終收斂到一條有效路徑?；屎髥?wèn)題的解題過(guò)程也類似：早期步驟中已經(jīng)出現(xiàn)了棋子擺放的大致格局，后續(xù)再進(jìn)行精細(xì)調(diào)整。

八、"思維鏈"提示——有時(shí)有用，有時(shí)白費(fèi)

在人類解題時(shí)，我們經(jīng)常先在草稿紙上寫寫畫畫，理清思路再下筆。受此啟發(fā)，研究團(tuán)隊(duì)還測(cè)試了一種叫做"思維鏈"（Chain-of-Thought，CoT）的提示方式：在讓AI作答之前，先要求它在文字中描述自己的推理過(guò)程，然后再據(jù)此生成圖像答案。

結(jié)果顯示，這種方法對(duì)沒(méi)經(jīng)過(guò)專門訓(xùn)練的模型幾乎沒(méi)有幫助。對(duì)于Bagel和Janus-Pro這兩款開源模型，在零樣本測(cè)試中加入思維鏈提示，PASS@1依然是0。這說(shuō)明，如果模型本身還沒(méi)有掌握這類任務(wù)的內(nèi)在邏輯，光靠"先說(shuō)說(shuō)自己怎么想的"并不能讓它突然開竅。

經(jīng)過(guò)訓(xùn)練之后，思維鏈提示帶來(lái)了一點(diǎn)微小的改善。Bagel加上CoT后，迷宮任務(wù)的PASS@1從11.54%微升至17.90%（PASS@5則從23.64%微降至18.42%，變化復(fù)雜）。這說(shuō)明模型必須先從訓(xùn)練中內(nèi)化任務(wù)的基本規(guī)律，然后才能有效利用顯式的推理步驟。就像一個(gè)沒(méi)學(xué)過(guò)游泳的人，光給他講再多游泳理論，他依然不會(huì)游，必須先下水練過(guò)才行。

九、泛化能力測(cè)試——在小題上練出來(lái)的本領(lǐng)，能用在大題上嗎？

僅僅在3×3迷宮上表現(xiàn)好，算不上真正的空間推理能力。研究團(tuán)隊(duì)對(duì)泛化能力進(jìn)行了更嚴(yán)格的考察，主要從兩個(gè)維度展開。

第一個(gè)維度是跨幾何類型的泛化。在一種形狀的迷宮上訓(xùn)練的模型，能不能解另一種形狀的迷宮？結(jié)果顯示，在六邊形迷宮上訓(xùn)練的模型泛化效果最好：它在三角形迷宮上的PASS@5達(dá)到40.14%，在方形迷宮上達(dá)到30%，甚至超過(guò)了在這些類型上單獨(dú)訓(xùn)練的模型。研究團(tuán)隊(duì)的解釋是：六邊形迷宮里有六個(gè)方向可以行走，行動(dòng)空間最大，因此學(xué)到的"尋路邏輯"涵蓋了方形（四方向）和三角形（三方向）的子集，遷移能力自然最強(qiáng)。

更進(jìn)一步，在8×8大小的六邊形迷宮上訓(xùn)練之后，模型的跨幾何泛化能力得到了大幅提升，所有幾何類型的PASS@5成績(jī)都遠(yuǎn)高于在3×3上訓(xùn)練的結(jié)果。這說(shuō)明，接觸更復(fù)雜的問(wèn)題能逼迫模型真正學(xué)會(huì)"規(guī)劃"的本質(zhì)，而不僅僅是記住簡(jiǎn)單圖案。

第二個(gè)維度是跨規(guī)模的泛化。在小規(guī)模題目上訓(xùn)練，能解大規(guī)模題目嗎？答案出乎意料地樂(lè)觀：僅僅在3×3迷宮上訓(xùn)練的模型，已經(jīng)能對(duì)16×16的大迷宮產(chǎn)生一定的效果。當(dāng)訓(xùn)練規(guī)模擴(kuò)大到8×8時(shí)，泛化到更大規(guī)模的能力進(jìn)一步提升，模型能保持較低的違規(guī)率（說(shuō)明它記住了不能穿墻）。不過(guò)，當(dāng)迷宮規(guī)模很大時(shí)，模型經(jīng)常出現(xiàn)"首尾難以為繼"的問(wèn)題——能從起點(diǎn)出發(fā)畫出一段正確路徑，也能在終點(diǎn)附近畫出一段正確路徑，但中間這兩段就是連不起來(lái)。路徑越長(zhǎng)，這種"長(zhǎng)程依賴"問(wèn)題就越嚴(yán)重。

皇后問(wèn)題在規(guī)模泛化上比迷宮更挑剔。在4×4棋盤上訓(xùn)練的模型，對(duì)4×4的題目表現(xiàn)完美，但對(duì)5×5、6×6的題目完全沒(méi)有泛化能力——它只是把4×4的解法完整記住了，換個(gè)規(guī)模就不會(huì)了。只有在7×7棋盤上訓(xùn)練之后，才能對(duì)其他規(guī)模產(chǎn)生有意義的泛化效果。這說(shuō)明，組合推理問(wèn)題需要更復(fù)雜的訓(xùn)練經(jīng)歷才能建立起"規(guī)模無(wú)關(guān)"的推理能力。

十、多練多學(xué)有沒(méi)有用？數(shù)據(jù)和算力的擴(kuò)展效應(yīng)

數(shù)據(jù)更多、訓(xùn)練更久，AI的空間推理能力會(huì)不會(huì)持續(xù)提升？研究團(tuán)隊(duì)對(duì)此進(jìn)行了系統(tǒng)性測(cè)量。

在固定訓(xùn)練步數(shù)（1000步）的情況下，把訓(xùn)練數(shù)據(jù)量從800道題依次翻倍到6400道題。整體趨勢(shì)是：從800增加到1600時(shí)，各任務(wù)的成績(jī)有明顯提升；但超過(guò)1600道之后，增加更多數(shù)據(jù)帶來(lái)的收益越來(lái)越小，最終接近飽和?；屎髥?wèn)題比迷宮問(wèn)題從數(shù)據(jù)量增加中受益更多，因?yàn)榛屎蟮拇鸢改Ｊ礁鄻?，更多樣本確實(shí)帶來(lái)了更豐富的經(jīng)驗(yàn)。不過(guò)，即便數(shù)據(jù)達(dá)到6400道，模型的成績(jī)提升也已經(jīng)趨于平緩。

在固定訓(xùn)練數(shù)據(jù)量（6400道）的情況下，把訓(xùn)練步數(shù)從500逐漸增加到1000。訓(xùn)練步數(shù)增加帶來(lái)了持續(xù)的成績(jī)提升，而且在700步之后提升更加明顯：以六邊形迷宮為例，從500到700步只提升了6.1%，而從700到1000步提升了15.8%。這種"越到后期越快"的增長(zhǎng)趨勢(shì)讓研究團(tuán)隊(duì)樂(lè)觀地推測(cè)，繼續(xù)延長(zhǎng)訓(xùn)練可能還會(huì)有進(jìn)一步的收益。

更有意思的是，數(shù)據(jù)和算力之間存在相互依賴的關(guān)系：僅僅增加數(shù)據(jù)而不增加訓(xùn)練步數(shù)，效果有限；僅僅增加訓(xùn)練步數(shù)而不增加數(shù)據(jù)，也會(huì)遇到瓶頸。只有數(shù)據(jù)和算力同步放大，才能獲得最好的效果。

十一、和真人比一比——AI的空間推理相當(dāng)于幾歲的孩子？

這個(gè)問(wèn)題大概是整篇研究中最引人好奇的部分。研究團(tuán)隊(duì)邀請(qǐng)了三個(gè)年齡段各4名真實(shí)志愿者——6歲兒童、12歲少年和18歲成人——分別完成8×8、16×16、24×24三種規(guī)模的迷宮，以及4×4、7×7、10×10三種規(guī)模的皇后題。參與者可以用任意時(shí)間在腦子里想好了再動(dòng)筆，但落筆之后不準(zhǔn)擦除或修改，只能一筆畫完（這與AI一次生成的規(guī)則對(duì)應(yīng)）。研究團(tuán)隊(duì)為AI分配了與人類參與者相同的時(shí)間預(yù)算，AI在規(guī)定時(shí)間內(nèi)可以盡量多地嘗試生成，最終按成功次數(shù)統(tǒng)計(jì)成績(jī)。

結(jié)論令人深思。隨著允許時(shí)間增加，人類的成功率持續(xù)上升，尤其是成年人在有足夠時(shí)間思考的情況下，成績(jī)大幅提高。18歲組在225秒內(nèi)就能對(duì)7×7皇后題達(dá)到100%成功率。而AI的成績(jī)則幾乎不隨時(shí)間變化——不管給它7.5秒還是225秒，它每次嘗試成功的概率是固定的，多給時(shí)間只是讓它多試了幾次，并不能提高單次嘗試的質(zhì)量。

更細(xì)致的分析顯示，AI在迷宮任務(wù)上的表現(xiàn)與18歲成人最相關(guān)，但在皇后任務(wù)上與6歲兒童最相關(guān)。這個(gè)對(duì)比反映了兩類任務(wù)的根本差異：迷宮的局部路徑規(guī)劃相對(duì)直覺(jué)性強(qiáng)，AI經(jīng)過(guò)訓(xùn)練后在這方面已經(jīng)接近成人水平的相關(guān)模式；但皇后問(wèn)題需要同時(shí)滿足全局約束，這種"同時(shí)考慮所有規(guī)則"的能力對(duì)AI來(lái)說(shuō)依然非常困難，比它擅長(zhǎng)的迷宮差了整整十幾年的認(rèn)知發(fā)育差距。

十二、AI犯錯(cuò)的兩種方式

研究團(tuán)隊(duì)對(duì)AI的失敗案例進(jìn)行了歸類，發(fā)現(xiàn)錯(cuò)誤主要分為兩大類型。

第一類叫"規(guī)則違反"：AI畫的路徑穿越了迷宮的墻壁，或者直接從起點(diǎn)連到終點(diǎn)沒(méi)有走任何通道；皇后題中則表現(xiàn)為棋子擺放違反了行、列或顏色區(qū)域的唯一性要求。這種錯(cuò)誤說(shuō)明AI在"遵守規(guī)則"上存在缺陷，對(duì)圖像結(jié)構(gòu)的理解還不夠精確，尤其在復(fù)雜幾何形狀（如圓形、六邊形迷宮）中更為突出，因?yàn)檫@些形狀的視覺(jué)規(guī)則與AI訓(xùn)練時(shí)見過(guò)的常見形狀差別較大。

第二類叫"不完整解答"：AI畫出了路徑的一部分就停了，或者只放了一部分棋子。迷宮問(wèn)題中最典型的表現(xiàn)是：從起點(diǎn)出發(fā)畫了一段合法路徑，但走到中途就停下了，沒(méi)能到達(dá)終點(diǎn)。這在大規(guī)模迷宮中特別常見，因?yàn)槁窂皆介L(zhǎng)，AI需要"記住"的中間狀態(tài)就越多，超出了它的處理能力上限?；屎髥?wèn)題中則是只放了部分棋子就放棄了全局配置。

這兩類錯(cuò)誤本質(zhì)上對(duì)應(yīng)了同一個(gè)深層問(wèn)題：AI目前還沒(méi)有可靠的能力同時(shí)維持"局部正確性"和"全局完整性"。局部看起來(lái)沒(méi)問(wèn)題，但把所有部分拼在一起就不行了。

歸根結(jié)底，這項(xiàng)研究揭示了一個(gè)有點(diǎn)扎心的現(xiàn)實(shí)：我們現(xiàn)在最強(qiáng)大的AI圖像系統(tǒng)，在"看圖解題"這件事上，連一個(gè)6歲孩子的直覺(jué)都比不上。當(dāng)然，經(jīng)過(guò)專門訓(xùn)練之后，AI在某些任務(wù)上確實(shí)取得了令人鼓舞的進(jìn)步，甚至在簡(jiǎn)單迷宮上超越了最強(qiáng)的商業(yè)閉源模型。但面對(duì)稍微復(fù)雜一點(diǎn)的皇后問(wèn)題，或者更大規(guī)模的迷宮，AI依然在掙扎。

這并不是說(shuō)AI一無(wú)是處，而是說(shuō)明了一件重要的事：現(xiàn)有的AI圖像編輯模型，學(xué)習(xí)的是如何"模仿"視覺(jué)效果，而不是如何"理解"空間邏輯。人類大腦中有某種專門處理空間關(guān)系的神經(jīng)機(jī)制，這讓我們?cè)诳磮D時(shí)能自然而然地感知連通性、邊界、方向感——這種直覺(jué)是幾十年進(jìn)化和成長(zhǎng)積累下來(lái)的，不是靠刷更多圖片數(shù)據(jù)就能輕松復(fù)制的。

當(dāng)然，研究也帶來(lái)了一些真正值得期待的發(fā)現(xiàn)。擴(kuò)散模型在訓(xùn)練后展現(xiàn)出的"全局先行"解題模式——先模糊地規(guī)劃整體路徑，再逐步細(xì)化——與人類的直覺(jué)解題方式有幾分相似。這暗示著也許未來(lái)通過(guò)更好的訓(xùn)練方式和模型架構(gòu)，AI真的有可能培育出更接近人類的空間推理能力。至于那個(gè)EAR框架本身，"讓AI直接在圖上畫出答案"這個(gè)思路，也為未來(lái)的視覺(jué)推理研究提供了一條新路線。

對(duì)這項(xiàng)研究感興趣的讀者，可以通過(guò)arXiv編號(hào)2604.22868檢索完整論文，或訪問(wèn)項(xiàng)目主頁(yè)spatigen.github.io/amaze.io/ 了解更多細(xì)節(jié)和演示案例，代碼也已在github.com/spatigen/amaze開源。

Q&A

Q1：EAR框架和普通的AI圖像生成有什么區(qū)別？

A：普通AI圖像生成是從文字描述直接生成一張新圖片，而EAR（編輯即推理）框架是給AI一張已有的問(wèn)題圖片（比如迷宮），讓AI直接在上面"改圖"畫出答案，整個(gè)解題過(guò)程只有一步完成。這種方式更接近人類拿鉛筆在紙上解題的方式，能更直接地測(cè)試AI是否真正理解了視覺(jué)空間關(guān)系，而不是靠文字轉(zhuǎn)換來(lái)"繞彎子"解決視覺(jué)問(wèn)題。

Q2：AMAZE基準(zhǔn)測(cè)試具體包含哪些內(nèi)容？

A：AMAZE基準(zhǔn)測(cè)試包含兩類謎題：迷宮問(wèn)題（需要畫出從起點(diǎn)到終點(diǎn)的路徑）和皇后問(wèn)題（需要在棋盤上滿足行列顏色區(qū)域唯一性地?cái)[放棋子）。迷宮有方形、六邊形、三角形、圓形四種幾何類型，規(guī)模從3×3到16×16；皇后題規(guī)模從4×4到10×10?？傆?jì)有迷宮題2800道、皇后題350道，全部自動(dòng)生成并帶有唯一正確答案，評(píng)分也完全自動(dòng)化，準(zhǔn)確率高達(dá)98%。

Q3：為什么擴(kuò)散模型比自回歸模型更擅長(zhǎng)視覺(jué)規(guī)劃任務(wù)？

A：擴(kuò)散模型的工作方式是從模糊到清晰地整體細(xì)化圖像，這使它天然具有"先考慮全局再填充細(xì)節(jié)"的傾向，與需要統(tǒng)籌全局的空間規(guī)劃任務(wù)非常匹配。相比之下，自回歸模型按照固定順序（比如從左到右）逐步生成圖像內(nèi)容，缺乏對(duì)整體結(jié)構(gòu)的同步把握。實(shí)驗(yàn)結(jié)果也印證了這一點(diǎn)：經(jīng)過(guò)相同訓(xùn)練后，擴(kuò)散模型Bagel的迷宮成功率比自回歸模型Janus-Pro高出整整8個(gè)百分點(diǎn)以上。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.