<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      上交大、北航證明:讓AI"看圖解題"的空間智慧連6歲小孩都不如?

      0
      分享至


      這項(xiàng)由上海交通大學(xué)、中國(guó)人民大學(xué)與北京通用人工智能研究院(BIGAI)聯(lián)合開展的研究,發(fā)表于2026年ICLR(國(guó)際學(xué)習(xí)表征會(huì)議)效率化空間推理研討會(huì),論文編號(hào)為arXiv:2604.22868,感興趣的讀者可通過(guò)該編號(hào)檢索完整論文。

      一、人類眼中的小問(wèn)題,AI眼中的大難題

      走迷宮這件事,對(duì)大多數(shù)人來(lái)說(shuō)簡(jiǎn)直不值一提。一個(gè)六七歲的孩子,拿到一張印有迷宮的紙,往往只需要掃幾眼,手里的鉛筆就能順著路徑一氣呵成畫到終點(diǎn)。這種"看了就會(huì)"的能力,我們稱之為視覺(jué)空間推理——不需要把路線寫成文字,不需要列方程,只需要眼睛看、大腦判斷、手直接畫。

      然而,對(duì)于當(dāng)今最先進(jìn)的人工智能來(lái)說(shuō),這件事卻難倒了它們。當(dāng)研究團(tuán)隊(duì)把一張迷宮圖片丟給市面上最強(qiáng)的AI圖像編輯模型,要求它"在圖上畫出從起點(diǎn)到終點(diǎn)的路徑,保持迷宮結(jié)構(gòu)不變"時(shí),結(jié)果往往讓人啼笑皆非——AI要么把墻壁直接穿過(guò)去,要么畫出一條完全不連通的斷頭路,要么干脆什么都沒(méi)畫。

      這背后藏著一個(gè)被長(zhǎng)期忽視的深層問(wèn)題:現(xiàn)有的AI視覺(jué)智能,究竟真的"看懂"了圖像,還是只是在模仿人類的表面行為?為了給這個(gè)問(wèn)題找到一個(gè)嚴(yán)謹(jǐn)?shù)拇鸢福@支來(lái)自中國(guó)幾所頂尖機(jī)構(gòu)的研究團(tuán)隊(duì)做了一件很有意思的事情:他們?cè)O(shè)計(jì)了一套測(cè)試系統(tǒng),把"視覺(jué)空間推理能力"像考試一樣量化出來(lái),然后邀請(qǐng)各路AI選手和不同年齡段的人類一起參賽,看看究竟誰(shuí)更勝一籌。

      二、用"畫圖"代替"說(shuō)話"——一個(gè)全新的測(cè)試框架

      以往,當(dāng)研究者想讓AI解決迷宮問(wèn)題時(shí),最常見的做法是讓AI把問(wèn)題"翻譯"成文字,再用語(yǔ)言模型去推理。比如"從坐標(biāo)(1,1)出發(fā),向右走兩格,再向下走三格……"——這本質(zhì)上是把一個(gè)視覺(jué)問(wèn)題轉(zhuǎn)化成了一道文字題。這種方法就好比你想測(cè)試一個(gè)人的游泳能力,卻讓他寫一篇作文來(lái)描述游泳動(dòng)作。寫作文和游泳,完全是兩碼事。

      這支研究團(tuán)隊(duì)提出了一個(gè)全新的思路,他們稱之為EAR,即"編輯即推理"(Editing as Reasoning)。核心思想非常直接:既然問(wèn)題本身是視覺(jué)的,那答案也應(yīng)該是視覺(jué)的。具體操作上,他們把一張帶問(wèn)題的圖片喂給AI,讓AI直接在圖片上"畫出答案",就像人類拿著鉛筆在紙上解題一樣。AI輸出的不是一段文字,而是一張修改過(guò)的圖片——圖片上的答案路徑就是AI對(duì)這道題的"理解"。

      這個(gè)框架有一個(gè)特別聰明的地方:整個(gè)解題過(guò)程被壓縮成了"一步"。AI不像某些系統(tǒng)那樣需要一步一步生成中間圖像、逐漸逼近答案,它必須在一次"編輯"操作中直接給出完整的解。這就像老師出了一道題,不允許打草稿,要求學(xué)生直接在答題紙上寫出最終答案。這種約束使得測(cè)試結(jié)果能更真實(shí)地反映AI是否真正"理解"了問(wèn)題,而不是靠逐步試探蒙出來(lái)的。

      三、測(cè)試題設(shè)計(jì)有講究——迷宮和皇后,互補(bǔ)的兩種考驗(yàn)

      為了讓測(cè)試公平、可量化,團(tuán)隊(duì)專門設(shè)計(jì)了一套叫做AMAZE的標(biāo)準(zhǔn)化題庫(kù)。題目來(lái)自兩種經(jīng)典的智力謎題,分別對(duì)應(yīng)兩種截然不同的空間推理能力。

      第一種是迷宮問(wèn)題。題目給出一張迷宮圖,上面有一個(gè)紅色實(shí)心圓點(diǎn)標(biāo)示起點(diǎn),一個(gè)紅色"×"標(biāo)示終點(diǎn),AI的任務(wù)是在圖上畫出一條藍(lán)色路徑把兩者連通,且路徑必須沿著通道走,不能穿越墻壁。迷宮的解題過(guò)程是**順序性**的——你必須從起點(diǎn)出發(fā),一步一步往前探索,每走一步都受到當(dāng)前位置周邊墻壁的限制,走錯(cuò)了還得回頭。這考察的是在"局部約束"下進(jìn)行"連續(xù)規(guī)劃"的能力。

      為了增加測(cè)試的多樣性,迷宮還被設(shè)計(jì)成四種不同的幾何形式:方格迷宮(最常見的那種)、六邊形迷宮(像蜂巢一樣,每個(gè)格子有六個(gè)方向可以走)、三角形迷宮(每個(gè)格子有多種斜向路徑)以及圓形迷宮(同心圓加放射線形成的螺旋結(jié)構(gòu))。不同幾何形式意味著不同的行走規(guī)則和視覺(jué)外觀,難度也各有差異。迷宮的規(guī)模從3×3到16×16不等,越大越難。

      第二種是皇后問(wèn)題。這是一道源自國(guó)際象棋的組合謎題:在一個(gè)被不同顏色區(qū)域劃分的棋盤上,每個(gè)顏色區(qū)域放一枚棋子(用實(shí)心黑色圓點(diǎn)表示"皇后"),要求每行、每列、每個(gè)顏色區(qū)域都恰好有一枚棋子,且任意兩枚棋子不能在8個(gè)方向的鄰格上相互攻擊?;屎髥?wèn)題是**并行性**的——所有棋子的擺放必須同時(shí)滿足全局約束,你調(diào)整一個(gè)棋子的位置,可能同時(shí)影響其他所有棋子。棋盤規(guī)模從4×4到10×10不等。

      兩種題目形成了很好的互補(bǔ):迷宮考驗(yàn)"局部約束下的路徑規(guī)劃",皇后考驗(yàn)"全局約束下的組合推理"。前者的推理過(guò)程是"邊走邊想",后者必須"全盤統(tǒng)籌"。研究團(tuán)隊(duì)一共生成了2800道迷宮題(每種幾何類型各700道)和350道皇后題,全部由程序自動(dòng)生成,每道題都有唯一正確答案。

      四、打分標(biāo)準(zhǔn):不只看"好不好看",更看"對(duì)不對(duì)"

      評(píng)判AI畫出來(lái)的答案,是這套測(cè)試系統(tǒng)的另一個(gè)核心設(shè)計(jì)。在大多數(shù)圖像生成任務(wù)中,人們習(xí)慣用圖像質(zhì)量來(lái)評(píng)分——生成的圖片清不清晰、色彩對(duì)不對(duì)、風(fēng)格像不像。但這在邏輯推理任務(wù)中完全不夠用:一條畫得很漂亮的路徑,如果穿墻了,那就是錯(cuò)的,不管它多好看。

      團(tuán)隊(duì)為此設(shè)計(jì)了兩套相互獨(dú)立的評(píng)價(jià)指標(biāo)。第一套叫**邏輯有效性**,直接衡量答案對(duì)不對(duì):覆蓋率(Coverage)衡量AI畫出的路徑覆蓋了多少"正確路徑",違規(guī)率(Violation)衡量AI畫出的內(nèi)容有多少落在"錯(cuò)誤區(qū)域"。最終的綜合得分叫做PASS,計(jì)算方式是用覆蓋率減去違規(guī)率,取零到一之間的值。PASS等于1意味著AI畫的路徑和標(biāo)準(zhǔn)答案完全吻合。第二套叫**像素級(jí)保真度**,用均方誤差(MSE)來(lái)衡量AI修改了哪些不該修改的地方,比如把迷宮的墻壁顏色改了,或者在不該有顏色的地方添加了內(nèi)容。

      為了驗(yàn)證這套自動(dòng)評(píng)分系統(tǒng)的可靠性,研究團(tuán)隊(duì)還請(qǐng)了三名人類評(píng)判員,對(duì)隨機(jī)抽取的題目進(jìn)行人工打分,再對(duì)比機(jī)器評(píng)分和人工評(píng)分的一致程度。結(jié)果顯示兩者的吻合率高達(dá)98%。剩余2%的差異主要來(lái)自兩種特殊情況:一是題目本身太復(fù)雜,人眼也容易看花;二是AI畫的路徑顏色太淺,人眼看不清,但機(jī)器能檢測(cè)到。這說(shuō)明這套自動(dòng)評(píng)分系統(tǒng)相當(dāng)可靠。

      五、主角登場(chǎng):參加測(cè)試的AI選手們

      研究團(tuán)隊(duì)邀請(qǐng)了市面上多款主流的圖像編輯AI參加測(cè)試,分為商業(yè)閉源模型和開源模型兩大陣營(yíng)。

      商業(yè)閉源模型包括三位:OpenAI的GPT-Image-1、Google DeepMind的NanoBanana-Pro,以及國(guó)內(nèi)的Seedream-4.5。這三款模型都是所在公司拿出來(lái)的最強(qiáng)圖像生成產(chǎn)品,正常情況下圖片生成質(zhì)量非常高。

      開源模型則有四款:Qwen-Image-Edit(阿里的千問(wèn)圖像編輯版本)、Flux-Kontext-Dev(來(lái)自Black Forest Labs的擴(kuò)散模型)、Bagel(來(lái)自BIGAI自身的多模態(tài)統(tǒng)一模型)、Janus-Pro-7B(來(lái)自深勢(shì)科技的自回歸模型)。前三款是擴(kuò)散模型,最后一款是自回歸模型。

      擴(kuò)散模型和自回歸模型,是當(dāng)前AI圖像生成的兩大主流技術(shù)路線??梢杂靡粋€(gè)類比來(lái)理解它們的區(qū)別:自回歸模型就像一個(gè)人寫書法,一筆一劃按順序?qū)懀恳还P都基于之前寫的內(nèi)容來(lái)決定;擴(kuò)散模型則更像一個(gè)畫家在一張白紙上反復(fù)涂抹修改,先是大致輪廓,再逐漸填充細(xì)節(jié),整體和局部同時(shí)演化。這兩種方式對(duì)于空間推理來(lái)說(shuō),有著本質(zhì)上的差異,研究團(tuán)隊(duì)對(duì)此非常感興趣。

      六、零分慘案——未經(jīng)訓(xùn)練的AI表現(xiàn)有多差?

      在未經(jīng)專門訓(xùn)練的零樣本測(cè)試中,幾乎所有模型都表現(xiàn)很差。PASS@1這個(gè)指標(biāo)代表AI第一次嘗試就答對(duì)的概率,類似于人類一次性通過(guò)考試。

      在迷宮測(cè)試中,三款商業(yè)閉源模型中最好的是GPT-Image-1,但其PASS@1只有5.4%,意味著大約每20次嘗試才能成功一次。NanoBanana-Pro的圖像質(zhì)量最好,但它有一個(gè)明顯的壞習(xí)慣:喜歡把整張迷宮的所有通道都畫滿路徑,不管那些通道走不走得通,它的違規(guī)率高達(dá)47.76%,可以理解為它"把所有可能的路都畫上了,但不知道哪條才是真正的解"。Seedream-4.5走了另一個(gè)極端,它違規(guī)率低,但覆蓋率也低,因?yàn)樗静辉趺串?,只畫了一小段就停了?/p>

      開源模型的情況更糟。Bagel的PASS@1是0,Janus-Pro的PASS@1也是0。這兩款模型在零樣本條件下完全無(wú)法完成任務(wù)。不過(guò),由于它們是開源的,研究團(tuán)隊(duì)可以對(duì)其進(jìn)行針對(duì)性的訓(xùn)練。

      皇后問(wèn)題上,有一個(gè)例外讓研究團(tuán)隊(duì)頗為意外:NanoBanana-Pro的PASS@1達(dá)到了30.35%,遠(yuǎn)超其他所有模型。這個(gè)成績(jī)實(shí)在太亮眼,研究者懷疑這款模型在訓(xùn)練階段可能已經(jīng)見過(guò)類似的皇后謎題,否則很難解釋這種突出表現(xiàn)。其余模型在皇后問(wèn)題上的PASS@1基本接近零。

      七、專門訓(xùn)練后的逆襲——擴(kuò)散模型為什么更擅長(zhǎng)"畫出邏輯"?

      研究團(tuán)隊(duì)對(duì)開源模型進(jìn)行了有針對(duì)性的微調(diào)訓(xùn)練。訓(xùn)練數(shù)據(jù)選用的是最簡(jiǎn)單規(guī)模的題目:3×3大小的迷宮(四種幾何類型各800道,共3200道)和4×4大小的皇后題(800道)。訓(xùn)練過(guò)程最多進(jìn)行8輪,當(dāng)驗(yàn)證集上的誤差不再下降時(shí)提前停止。

      訓(xùn)練結(jié)果非常明顯。擴(kuò)散模型Bagel在迷宮任務(wù)上的PASS@1從0跳升到了11.54%,并且PASS@5(五次嘗試至少一次正確)達(dá)到了23.64%,比之前最強(qiáng)的商業(yè)模型GPT-Image-1高出了整整6個(gè)百分點(diǎn)。在皇后任務(wù)上,Bagel的PASS@1也達(dá)到了14.57%。

      相比之下,自回歸模型Janus-Pro訓(xùn)練后的進(jìn)步要小得多:迷宮任務(wù)的PASS@1只有1.43%,皇后任務(wù)為12.57%。兩者之間的差距揭示了一個(gè)有趣的規(guī)律:擴(kuò)散模型似乎天然更擅長(zhǎng)發(fā)展出"視覺(jué)推理邏輯"。

      研究團(tuán)隊(duì)給出了一個(gè)合理的解釋。擴(kuò)散模型的工作方式是從模糊到清晰地逐步細(xì)化整張圖片,在這個(gè)過(guò)程中,它必須同時(shí)考慮全局結(jié)構(gòu)和局部細(xì)節(jié),這種"先全局后細(xì)節(jié)"的天性與視覺(jué)規(guī)劃任務(wù)非常契合。而自回歸模型是按照固定順序(通常是從左到右、從上到下)逐個(gè)生成像素或圖塊,這種線性的、局部的生成方式缺乏對(duì)全局結(jié)構(gòu)的整體把握。就好比,一個(gè)人畫迷宮路徑時(shí)是先在腦海中規(guī)劃整條路線再一筆畫完,而不是從起點(diǎn)開始一格一格往前試探。

      從Bagel的生成過(guò)程來(lái)看,這種"全局先行"的特性在可視化中非常明顯。在去噪的早期步驟(相當(dāng)于圖像還很模糊的時(shí)候),整條路徑的大致走向已經(jīng)出現(xiàn)了,只是顏色很淺、線條不清晰;隨著去噪步驟推進(jìn),錯(cuò)誤的支路被逐漸糾正,最終收斂到一條有效路徑?;屎髥?wèn)題的解題過(guò)程也類似:早期步驟中已經(jīng)出現(xiàn)了棋子擺放的大致格局,后續(xù)再進(jìn)行精細(xì)調(diào)整。

      八、"思維鏈"提示——有時(shí)有用,有時(shí)白費(fèi)

      在人類解題時(shí),我們經(jīng)常先在草稿紙上寫寫畫畫,理清思路再下筆。受此啟發(fā),研究團(tuán)隊(duì)還測(cè)試了一種叫做"思維鏈"(Chain-of-Thought,CoT)的提示方式:在讓AI作答之前,先要求它在文字中描述自己的推理過(guò)程,然后再據(jù)此生成圖像答案。

      結(jié)果顯示,這種方法對(duì)沒(méi)經(jīng)過(guò)專門訓(xùn)練的模型幾乎沒(méi)有幫助。對(duì)于Bagel和Janus-Pro這兩款開源模型,在零樣本測(cè)試中加入思維鏈提示,PASS@1依然是0。這說(shuō)明,如果模型本身還沒(méi)有掌握這類任務(wù)的內(nèi)在邏輯,光靠"先說(shuō)說(shuō)自己怎么想的"并不能讓它突然開竅。

      經(jīng)過(guò)訓(xùn)練之后,思維鏈提示帶來(lái)了一點(diǎn)微小的改善。Bagel加上CoT后,迷宮任務(wù)的PASS@1從11.54%微升至17.90%(PASS@5則從23.64%微降至18.42%,變化復(fù)雜)。這說(shuō)明模型必須先從訓(xùn)練中內(nèi)化任務(wù)的基本規(guī)律,然后才能有效利用顯式的推理步驟。就像一個(gè)沒(méi)學(xué)過(guò)游泳的人,光給他講再多游泳理論,他依然不會(huì)游,必須先下水練過(guò)才行。

      九、泛化能力測(cè)試——在小題上練出來(lái)的本領(lǐng),能用在大題上嗎?

      僅僅在3×3迷宮上表現(xiàn)好,算不上真正的空間推理能力。研究團(tuán)隊(duì)對(duì)泛化能力進(jìn)行了更嚴(yán)格的考察,主要從兩個(gè)維度展開。

      第一個(gè)維度是跨幾何類型的泛化。在一種形狀的迷宮上訓(xùn)練的模型,能不能解另一種形狀的迷宮?結(jié)果顯示,在六邊形迷宮上訓(xùn)練的模型泛化效果最好:它在三角形迷宮上的PASS@5達(dá)到40.14%,在方形迷宮上達(dá)到30%,甚至超過(guò)了在這些類型上單獨(dú)訓(xùn)練的模型。研究團(tuán)隊(duì)的解釋是:六邊形迷宮里有六個(gè)方向可以行走,行動(dòng)空間最大,因此學(xué)到的"尋路邏輯"涵蓋了方形(四方向)和三角形(三方向)的子集,遷移能力自然最強(qiáng)。

      更進(jìn)一步,在8×8大小的六邊形迷宮上訓(xùn)練之后,模型的跨幾何泛化能力得到了大幅提升,所有幾何類型的PASS@5成績(jī)都遠(yuǎn)高于在3×3上訓(xùn)練的結(jié)果。這說(shuō)明,接觸更復(fù)雜的問(wèn)題能逼迫模型真正學(xué)會(huì)"規(guī)劃"的本質(zhì),而不僅僅是記住簡(jiǎn)單圖案。

      第二個(gè)維度是跨規(guī)模的泛化。在小規(guī)模題目上訓(xùn)練,能解大規(guī)模題目嗎?答案出乎意料地樂(lè)觀:僅僅在3×3迷宮上訓(xùn)練的模型,已經(jīng)能對(duì)16×16的大迷宮產(chǎn)生一定的效果。當(dāng)訓(xùn)練規(guī)模擴(kuò)大到8×8時(shí),泛化到更大規(guī)模的能力進(jìn)一步提升,模型能保持較低的違規(guī)率(說(shuō)明它記住了不能穿墻)。不過(guò),當(dāng)迷宮規(guī)模很大時(shí),模型經(jīng)常出現(xiàn)"首尾難以為繼"的問(wèn)題——能從起點(diǎn)出發(fā)畫出一段正確路徑,也能在終點(diǎn)附近畫出一段正確路徑,但中間這兩段就是連不起來(lái)。路徑越長(zhǎng),這種"長(zhǎng)程依賴"問(wèn)題就越嚴(yán)重。

      皇后問(wèn)題在規(guī)模泛化上比迷宮更挑剔。在4×4棋盤上訓(xùn)練的模型,對(duì)4×4的題目表現(xiàn)完美,但對(duì)5×5、6×6的題目完全沒(méi)有泛化能力——它只是把4×4的解法完整記住了,換個(gè)規(guī)模就不會(huì)了。只有在7×7棋盤上訓(xùn)練之后,才能對(duì)其他規(guī)模產(chǎn)生有意義的泛化效果。這說(shuō)明,組合推理問(wèn)題需要更復(fù)雜的訓(xùn)練經(jīng)歷才能建立起"規(guī)模無(wú)關(guān)"的推理能力。

      十、多練多學(xué)有沒(méi)有用?數(shù)據(jù)和算力的擴(kuò)展效應(yīng)

      數(shù)據(jù)更多、訓(xùn)練更久,AI的空間推理能力會(huì)不會(huì)持續(xù)提升?研究團(tuán)隊(duì)對(duì)此進(jìn)行了系統(tǒng)性測(cè)量。

      在固定訓(xùn)練步數(shù)(1000步)的情況下,把訓(xùn)練數(shù)據(jù)量從800道題依次翻倍到6400道題。整體趨勢(shì)是:從800增加到1600時(shí),各任務(wù)的成績(jī)有明顯提升;但超過(guò)1600道之后,增加更多數(shù)據(jù)帶來(lái)的收益越來(lái)越小,最終接近飽和?;屎髥?wèn)題比迷宮問(wèn)題從數(shù)據(jù)量增加中受益更多,因?yàn)榛屎蟮拇鸢改J礁鄻?,更多樣本確實(shí)帶來(lái)了更豐富的經(jīng)驗(yàn)。不過(guò),即便數(shù)據(jù)達(dá)到6400道,模型的成績(jī)提升也已經(jīng)趨于平緩。

      在固定訓(xùn)練數(shù)據(jù)量(6400道)的情況下,把訓(xùn)練步數(shù)從500逐漸增加到1000。訓(xùn)練步數(shù)增加帶來(lái)了持續(xù)的成績(jī)提升,而且在700步之后提升更加明顯:以六邊形迷宮為例,從500到700步只提升了6.1%,而從700到1000步提升了15.8%。這種"越到后期越快"的增長(zhǎng)趨勢(shì)讓研究團(tuán)隊(duì)樂(lè)觀地推測(cè),繼續(xù)延長(zhǎng)訓(xùn)練可能還會(huì)有進(jìn)一步的收益。

      更有意思的是,數(shù)據(jù)和算力之間存在相互依賴的關(guān)系:僅僅增加數(shù)據(jù)而不增加訓(xùn)練步數(shù),效果有限;僅僅增加訓(xùn)練步數(shù)而不增加數(shù)據(jù),也會(huì)遇到瓶頸。只有數(shù)據(jù)和算力同步放大,才能獲得最好的效果。

      十一、和真人比一比——AI的空間推理相當(dāng)于幾歲的孩子?

      這個(gè)問(wèn)題大概是整篇研究中最引人好奇的部分。研究團(tuán)隊(duì)邀請(qǐng)了三個(gè)年齡段各4名真實(shí)志愿者——6歲兒童、12歲少年和18歲成人——分別完成8×8、16×16、24×24三種規(guī)模的迷宮,以及4×4、7×7、10×10三種規(guī)模的皇后題。參與者可以用任意時(shí)間在腦子里想好了再動(dòng)筆,但落筆之后不準(zhǔn)擦除或修改,只能一筆畫完(這與AI一次生成的規(guī)則對(duì)應(yīng))。研究團(tuán)隊(duì)為AI分配了與人類參與者相同的時(shí)間預(yù)算,AI在規(guī)定時(shí)間內(nèi)可以盡量多地嘗試生成,最終按成功次數(shù)統(tǒng)計(jì)成績(jī)。

      結(jié)論令人深思。隨著允許時(shí)間增加,人類的成功率持續(xù)上升,尤其是成年人在有足夠時(shí)間思考的情況下,成績(jī)大幅提高。18歲組在225秒內(nèi)就能對(duì)7×7皇后題達(dá)到100%成功率。而AI的成績(jī)則幾乎不隨時(shí)間變化——不管給它7.5秒還是225秒,它每次嘗試成功的概率是固定的,多給時(shí)間只是讓它多試了幾次,并不能提高單次嘗試的質(zhì)量。

      更細(xì)致的分析顯示,AI在迷宮任務(wù)上的表現(xiàn)與18歲成人最相關(guān),但在皇后任務(wù)上與6歲兒童最相關(guān)。這個(gè)對(duì)比反映了兩類任務(wù)的根本差異:迷宮的局部路徑規(guī)劃相對(duì)直覺(jué)性強(qiáng),AI經(jīng)過(guò)訓(xùn)練后在這方面已經(jīng)接近成人水平的相關(guān)模式;但皇后問(wèn)題需要同時(shí)滿足全局約束,這種"同時(shí)考慮所有規(guī)則"的能力對(duì)AI來(lái)說(shuō)依然非常困難,比它擅長(zhǎng)的迷宮差了整整十幾年的認(rèn)知發(fā)育差距。

      十二、AI犯錯(cuò)的兩種方式

      研究團(tuán)隊(duì)對(duì)AI的失敗案例進(jìn)行了歸類,發(fā)現(xiàn)錯(cuò)誤主要分為兩大類型。

      第一類叫"規(guī)則違反":AI畫的路徑穿越了迷宮的墻壁,或者直接從起點(diǎn)連到終點(diǎn)沒(méi)有走任何通道;皇后題中則表現(xiàn)為棋子擺放違反了行、列或顏色區(qū)域的唯一性要求。這種錯(cuò)誤說(shuō)明AI在"遵守規(guī)則"上存在缺陷,對(duì)圖像結(jié)構(gòu)的理解還不夠精確,尤其在復(fù)雜幾何形狀(如圓形、六邊形迷宮)中更為突出,因?yàn)檫@些形狀的視覺(jué)規(guī)則與AI訓(xùn)練時(shí)見過(guò)的常見形狀差別較大。

      第二類叫"不完整解答":AI畫出了路徑的一部分就停了,或者只放了一部分棋子。迷宮問(wèn)題中最典型的表現(xiàn)是:從起點(diǎn)出發(fā)畫了一段合法路徑,但走到中途就停下了,沒(méi)能到達(dá)終點(diǎn)。這在大規(guī)模迷宮中特別常見,因?yàn)槁窂皆介L(zhǎng),AI需要"記住"的中間狀態(tài)就越多,超出了它的處理能力上限?;屎髥?wèn)題中則是只放了部分棋子就放棄了全局配置。

      這兩類錯(cuò)誤本質(zhì)上對(duì)應(yīng)了同一個(gè)深層問(wèn)題:AI目前還沒(méi)有可靠的能力同時(shí)維持"局部正確性"和"全局完整性"。局部看起來(lái)沒(méi)問(wèn)題,但把所有部分拼在一起就不行了。

      歸根結(jié)底,這項(xiàng)研究揭示了一個(gè)有點(diǎn)扎心的現(xiàn)實(shí):我們現(xiàn)在最強(qiáng)大的AI圖像系統(tǒng),在"看圖解題"這件事上,連一個(gè)6歲孩子的直覺(jué)都比不上。當(dāng)然,經(jīng)過(guò)專門訓(xùn)練之后,AI在某些任務(wù)上確實(shí)取得了令人鼓舞的進(jìn)步,甚至在簡(jiǎn)單迷宮上超越了最強(qiáng)的商業(yè)閉源模型。但面對(duì)稍微復(fù)雜一點(diǎn)的皇后問(wèn)題,或者更大規(guī)模的迷宮,AI依然在掙扎。

      這并不是說(shuō)AI一無(wú)是處,而是說(shuō)明了一件重要的事:現(xiàn)有的AI圖像編輯模型,學(xué)習(xí)的是如何"模仿"視覺(jué)效果,而不是如何"理解"空間邏輯。人類大腦中有某種專門處理空間關(guān)系的神經(jīng)機(jī)制,這讓我們?cè)诳磮D時(shí)能自然而然地感知連通性、邊界、方向感——這種直覺(jué)是幾十年進(jìn)化和成長(zhǎng)積累下來(lái)的,不是靠刷更多圖片數(shù)據(jù)就能輕松復(fù)制的。

      當(dāng)然,研究也帶來(lái)了一些真正值得期待的發(fā)現(xiàn)。擴(kuò)散模型在訓(xùn)練后展現(xiàn)出的"全局先行"解題模式——先模糊地規(guī)劃整體路徑,再逐步細(xì)化——與人類的直覺(jué)解題方式有幾分相似。這暗示著也許未來(lái)通過(guò)更好的訓(xùn)練方式和模型架構(gòu),AI真的有可能培育出更接近人類的空間推理能力。至于那個(gè)EAR框架本身,"讓AI直接在圖上畫出答案"這個(gè)思路,也為未來(lái)的視覺(jué)推理研究提供了一條新路線。

      對(duì)這項(xiàng)研究感興趣的讀者,可以通過(guò)arXiv編號(hào)2604.22868檢索完整論文,或訪問(wèn)項(xiàng)目主頁(yè)spatigen.github.io/amaze.io/ 了解更多細(xì)節(jié)和演示案例,代碼也已在github.com/spatigen/amaze開源。

      Q&A

      Q1:EAR框架和普通的AI圖像生成有什么區(qū)別?

      A:普通AI圖像生成是從文字描述直接生成一張新圖片,而EAR(編輯即推理)框架是給AI一張已有的問(wèn)題圖片(比如迷宮),讓AI直接在上面"改圖"畫出答案,整個(gè)解題過(guò)程只有一步完成。這種方式更接近人類拿鉛筆在紙上解題的方式,能更直接地測(cè)試AI是否真正理解了視覺(jué)空間關(guān)系,而不是靠文字轉(zhuǎn)換來(lái)"繞彎子"解決視覺(jué)問(wèn)題。

      Q2:AMAZE基準(zhǔn)測(cè)試具體包含哪些內(nèi)容?

      A:AMAZE基準(zhǔn)測(cè)試包含兩類謎題:迷宮問(wèn)題(需要畫出從起點(diǎn)到終點(diǎn)的路徑)和皇后問(wèn)題(需要在棋盤上滿足行列顏色區(qū)域唯一性地?cái)[放棋子)。迷宮有方形、六邊形、三角形、圓形四種幾何類型,規(guī)模從3×3到16×16;皇后題規(guī)模從4×4到10×10??傆?jì)有迷宮題2800道、皇后題350道,全部自動(dòng)生成并帶有唯一正確答案,評(píng)分也完全自動(dòng)化,準(zhǔn)確率高達(dá)98%。

      Q3:為什么擴(kuò)散模型比自回歸模型更擅長(zhǎng)視覺(jué)規(guī)劃任務(wù)?

      A:擴(kuò)散模型的工作方式是從模糊到清晰地整體細(xì)化圖像,這使它天然具有"先考慮全局再填充細(xì)節(jié)"的傾向,與需要統(tǒng)籌全局的空間規(guī)劃任務(wù)非常匹配。相比之下,自回歸模型按照固定順序(比如從左到右)逐步生成圖像內(nèi)容,缺乏對(duì)整體結(jié)構(gòu)的同步把握。實(shí)驗(yàn)結(jié)果也印證了這一點(diǎn):經(jīng)過(guò)相同訓(xùn)練后,擴(kuò)散模型Bagel的迷宮成功率比自回歸模型Janus-Pro高出整整8個(gè)百分點(diǎn)以上。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      重慶一57歲女醫(yī)生駕奔馳釀車禍,警方通報(bào)稱操作不當(dāng)致2人死亡6人受傷

      重慶一57歲女醫(yī)生駕奔馳釀車禍,警方通報(bào)稱操作不當(dāng)致2人死亡6人受傷

      大風(fēng)新聞
      2026-05-11 19:31:06
      杭州市拱墅區(qū)半山街道原黨工委副書記、辦事處主任潘金財(cái)涉嫌嚴(yán)重違紀(jì)違法,目前正接受拱墅區(qū)紀(jì)委區(qū)監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

      杭州市拱墅區(qū)半山街道原黨工委副書記、辦事處主任潘金財(cái)涉嫌嚴(yán)重違紀(jì)違法,目前正接受拱墅區(qū)紀(jì)委區(qū)監(jiān)委紀(jì)律審查和監(jiān)察調(diào)查

      都市快報(bào)橙柿互動(dòng)
      2026-05-11 19:57:59
      一年用水量達(dá)400多噸 背后竟藏離奇謎案?

      一年用水量達(dá)400多噸 背后竟藏離奇謎案?

      環(huán)球網(wǎng)資訊
      2026-05-11 19:19:57
      Here we go!羅馬諾:弗里克和巴薩續(xù)約至2028年,含續(xù)約選項(xiàng)

      Here we go!羅馬諾:弗里克和巴薩續(xù)約至2028年,含續(xù)約選項(xiàng)

      懂球帝
      2026-05-11 21:20:18
      毛主席83歲給華國(guó)鋒的珍貴書法,練字真的有意義嗎?

      毛主席83歲給華國(guó)鋒的珍貴書法,練字真的有意義嗎?

      書畫相約
      2026-05-11 10:09:02
      河南酒神醉狼去世,年僅46歲!死因曝光,家徒四壁留下三個(gè)女兒!

      河南酒神醉狼去世,年僅46歲!死因曝光,家徒四壁留下三個(gè)女兒!

      閱微札記
      2026-05-11 09:40:53
      傳來(lái)大消息,暴漲開啟

      傳來(lái)大消息,暴漲開啟

      隔壁老投
      2026-05-11 14:23:42
      天舟十號(hào)發(fā)射成功!中國(guó)空間站“超級(jí)補(bǔ)給時(shí)代”開啟——

      天舟十號(hào)發(fā)射成功!中國(guó)空間站“超級(jí)補(bǔ)給時(shí)代”開啟——

      海右那人
      2026-05-11 08:45:38
      爸爸想把房子送給"干女兒"保姆 兒子扣房產(chǎn)證

      爸爸想把房子送給"干女兒"保姆 兒子扣房產(chǎn)證

      看看新聞Knews
      2026-05-11 13:12:03
      大S年輕時(shí)房間曝光,太過(guò)詭異引人不適,難怪有人曾說(shuō)活不過(guò)50歲

      大S年輕時(shí)房間曝光,太過(guò)詭異引人不適,難怪有人曾說(shuō)活不過(guò)50歲

      草莓解說(shuō)體育
      2026-05-11 20:49:33
      俄閱兵活動(dòng)簡(jiǎn)化,普京保護(hù)措施加強(qiáng),有情報(bào)猜測(cè)可能與紹伊古有關(guān)

      俄閱兵活動(dòng)簡(jiǎn)化,普京保護(hù)措施加強(qiáng),有情報(bào)猜測(cè)可能與紹伊古有關(guān)

      麓谷隱士
      2026-05-11 14:01:34
      OPPO再致歉:從嚴(yán)處罰高級(jí)副總裁段要輝

      OPPO再致歉:從嚴(yán)處罰高級(jí)副總裁段要輝

      21世紀(jì)經(jīng)濟(jì)報(bào)道
      2026-05-11 14:48:08
      震驚!小馬云18歲成年首播,在線人數(shù)破7萬(wàn),與女生接吻刷爆網(wǎng)絡(luò)

      震驚!小馬云18歲成年首播,在線人數(shù)破7萬(wàn),與女生接吻刷爆網(wǎng)絡(luò)

      火山詩(shī)話
      2026-05-09 16:02:57
      卷瘋了?!追覓俞浩兩萬(wàn)員工被迫起號(hào),影石CEO劉靖康看傻了

      卷瘋了?!追覓俞浩兩萬(wàn)員工被迫起號(hào),影石CEO劉靖康看傻了

      雷科技
      2026-05-11 14:38:40
      誰(shuí)都不看好你,偏偏你最爭(zhēng)氣——國(guó)乒榮膺男團(tuán)12連冠

      誰(shuí)都不看好你,偏偏你最爭(zhēng)氣——國(guó)乒榮膺男團(tuán)12連冠

      體壇周報(bào)
      2026-05-11 17:54:14
      中央社會(huì)工作部副部長(zhǎng)柳拯履新中國(guó)紅十字會(huì)黨組書記

      中央社會(huì)工作部副部長(zhǎng)柳拯履新中國(guó)紅十字會(huì)黨組書記

      澎湃新聞
      2026-05-11 22:14:26
      阿根廷公布世界杯55人大名單:迪巴拉無(wú)緣!上屆5位冠軍成員落選

      阿根廷公布世界杯55人大名單:迪巴拉無(wú)緣!上屆5位冠軍成員落選

      我愛(ài)英超
      2026-05-11 21:12:05
      遭“僅退款”榴蓮賣家稱平臺(tái)已返還貨款,平臺(tái)解釋:因未能識(shí)別買家圖片真實(shí)情況,根據(jù)該圖片判定商品無(wú)退貨價(jià)值,將提升甄別能力

      遭“僅退款”榴蓮賣家稱平臺(tái)已返還貨款,平臺(tái)解釋:因未能識(shí)別買家圖片真實(shí)情況,根據(jù)該圖片判定商品無(wú)退貨價(jià)值,將提升甄別能力

      洪觀新聞
      2026-05-11 16:52:31
      東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      東北一男子養(yǎng)鹿破產(chǎn),賭氣放生了30頭鹿,8年后上山,眼前一幕卻讓他淚崩了...

      背包旅行
      2026-05-11 14:51:09
      舉報(bào)成風(fēng),正在壓垮教育!

      舉報(bào)成風(fēng),正在壓垮教育!

      行者殷濤
      2026-05-11 19:00:42
      2026-05-12 00:19:00
      科技行者 incentive-icons
      科技行者
      科技正在如何變革商業(yè)世界
      8300文章數(shù) 563關(guān)注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機(jī)會(huì)

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      頭條要聞

      母女二人一年用水量高達(dá)400多噸 警方發(fā)現(xiàn)背后隱情

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個(gè)我

      娛樂(lè)要聞

      “孕婦墜崖案”王暖暖稱被霸凌協(xié)商解約

      財(cái)經(jīng)要聞

      宗馥莉罷免銷售負(fù)責(zé)人 部分業(yè)務(wù)將外包

      汽車要聞

      吉利銀河“TT”申報(bào)圖曝光 電動(dòng)尾翼+激光雷達(dá)

      態(tài)度原創(chuàng)

      手機(jī)
      房產(chǎn)
      健康
      親子
      教育

      手機(jī)要聞

      旗艦靠邊站!華為要把10000mAh+++巨鯨電池,先塞進(jìn)中端機(jī)里

      房產(chǎn)要聞

      產(chǎn)業(yè)賦能教育!翰林府與北師大的這場(chǎng)簽約,絕不那么簡(jiǎn)單!

      干細(xì)胞能讓人“返老還童”嗎

      親子要聞

      #健康躍動(dòng)計(jì)劃#養(yǎng)育孩子的訣竅,就是相信相信的力量

      教育要聞

      10-4是個(gè)什么信號(hào)

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 暗黑爆料入口| 欧美成人影院亚洲综合图| 亚洲欧美综合人成在线| 亚洲中文字幕精品| 国产欧美国产精品第一区| 国产成人片无码视频在线观看| 人人凹凸XX凹凸爽凹凸| 精品av综合导航| 国产做a爱片久久毛片a片| 在线精品动漫一区二区无码| 国产99视频精品免费观看9e| 日本va欧美ⅴa欧美Va精品 | 亚洲人成网站在线播放小说| 毛片大全真人在线| 粗大大国产欧美| 成人无码一区二区三区网站| 97超碰中文字幕久久精品| 中文字幕在线永久免费视频| 99久久亚洲综合精品成人网| 国产精品久久国产精麻豆99网站| 完整一级毛片视频播放 | 国产真人性做爰久久网站| 中文字幕日韩一二三区| 久久激情综合高清无码视频| 91蜜臀国产自产在线观看| 国产裸体舞一区二区三区| 日本国产一区二区三区| 亚洲天堂色图在线视频| 人妻少妇无码精品专区| 国产人人人| 亚洲Av秘?无码一区二区下载| 国产免费高清无需播放器| 亚洲国产精品成人av网| 黑人成人网| 男人的天堂在线视频| 成人无码潮喷在线观看| 日韩免费无码一区二区三区| 精品国产精品一区二区夜夜嗨| a天堂视频在线观看| 欧美另类老人xxxx| jizz视频在线观看|