網易首頁 > 網易號 > 正文申請入駐

微軟研究院與IIT海德拉巴聯手揭秘：AI真的能"看懂"圖形嗎？

2026-04-30 21:53:44　來源: 科技行者

天津舉報

分享至

這項由微軟研究院（印度班加羅爾）與印度理工學院海德拉巴校區聯合開展的研究，于2026年4月發表，論文編號為arXiv:2604.16054v1，有興趣深入了解的讀者可通過該編號查詢完整論文。研究團隊構建了一套名為"Mind's Eye（心眼）"的視覺認知基準測試，用以系統評估當前最先進的多模態大型語言模型在視覺空間推理方面的真實能力。

當你第一次在入職測試或智力測驗中遇到那種"下圖中哪個折疊后會變成正方體"的題目時，你可能會覺得稍微有點費神，但基本上幾秒鐘內就能作出判斷?，F在，研究團隊把這類題目擺到了GPT-4o、Gemini-2.5 Pro、GPT-o3這些被譽為"最強AI"的系統面前，結果令人大跌眼鏡——人類平均正確率達到了80%，而這些頂尖模型的最高成績不足50%，有些甚至僅僅略高于蒙對的概率。這究竟是怎么回事？這些AI在語言對話上無所不能，為什么在這類"看圖思考"的任務上表現得如此拙劣？這正是這項研究想要徹底搞清楚的核心問題。

一、為什么要專門測試AI"看懂圖形"的能力

現代AI模型在很多視覺任務上表現搶眼——認出圖片里的貓、讀出照片里的文字、描述一張風景照里有什么——這類工作它們做得非常出色。但這類任務本質上是"認出來"，就像你看到一張老朋友的臉，立刻就知道是誰。

然而人類處理視覺信息還有另一類能力，更像是在腦子里搭樂高積木。當你看一張展開的紙板平面圖，你需要在腦海中把它"折起來"，判斷它能不能拼成一個盒子；當你看一個三維積木圖案，你需要把它在腦子里轉動，確認它的另一面長什么樣。這種能力在認知科學中被稱為"視覺空間推理"或"流體視覺智能"，是人類智力中相當核心的一部分，也是工程師、外科醫生、建筑師等職業每天都在高度依賴的能力。

研究團隊發現，現有的AI評估體系有兩個嚴重的盲點。第一個盲點是，幾乎沒有人專門針對這種"在腦海中操作圖形"的能力進行系統測試，大多數評測都停留在"認出來"的層面。第二個盲點更隱蔽：很多視覺推理測試其實可以被AI用語言技巧來"繞過"，模型不需要真正理解圖形，只需要識別出一些表面特征，再結合它從大量文本訓練中積累的語言知識，就能猜出大概正確的答案，這就好像學生通過押題套路蒙對了考題，而不是真正學會了解題方法。

正因如此，這支團隊決心造一套無法靠"語言知識"取巧的純視覺推理測試，讓AI無處可藏。

二、這套測試是如何設計的：一個專為挖出AI弱點的考試體系

研究團隊將人類視覺認知能力拆解成三個維度，并以此構建了整個測試框架，他們將其命名為"ART分類體系"，三個字母分別代表抽象（Abstraction）、關系（Relation）和轉變（Transformation）。

抽象維度考查的是從一堆看似不同的圖形中找出它們共同隱藏規律的能力，就像你看五張畫面截然不同的畫，要找出它們共同遵循的某種視覺原則，再判斷第六張是否違反了這個原則。關系維度考查的是在兩組視覺結構之間識別對應關系的能力，類似于語言中的類比——"A之于B，如同C之于D"這種邏輯，但換成了視覺圖形的版本。轉變維度是三者中最接近"腦內模擬"的，它要求你在頭腦中執行一個實際的物理操作：把一張紙折疊起來再看孔的位置會在哪里，或者把一個三維積木結構旋轉90度后它長什么樣。

基于這三個維度，研究團隊精心設計了八種具體任務。在抽象維度下有兩種：一是"視覺關系抽象"，給出五個符合某抽象概念的圖形和一個不符合的，要求找出異類；二是"層次模式等價"，基于分形樹、嵌套圓形等遞歸結構，要求識別哪一個圖案違反了遞歸規律。在關系維度下有三種：一是"動態結構對應"，追蹤兩個圖形在時間序列中各自遵循的變換規律，預測下一幀的狀態；二是"視覺概念滑移"，從一組圖形中找出不遵循多數圖形所共享的抽象視覺概念的那一個；三是"對稱結構"，從四個線條圖案中找出那個不具備其他三個所共有的對稱性質的圖案。在轉變維度下有三種：一是"心理轉變"，從四個候選旋轉結果中找出正確的三維旋轉；二是"紙張折疊"，根據一個紙張折疊打孔的步驟序列，判斷展開后孔洞的位置；三是"心理組合"，判斷一個平面展開圖折疊后會變成哪個三維立體形狀。

這八種任務全部以程序化方式自動生成圖像，所有圖形都是純粹的幾何形狀，不包含任何現實世界的物體，也不依賴任何領域知識，確保AI無法利用它從文字訓練中積累的"世界知識"來投機取巧。每道題都包含四到六個選項，其中的錯誤選項（干擾項）是精心設計的，專門針對特定類型的推理錯誤——比如把旋轉結果和鏡像反射混淆的選項，或者折疊次數算錯的選項。這樣一來，從模型選了哪個錯誤選項，研究者就能判斷出它是在哪個思維環節出了問題，而不僅僅是知道它答錯了。整套測試共包含800道題，每種任務各100道，難度分布涵蓋簡單、中等和困難三個層級。

為了確保難度級別的劃定是可靠的，團隊還邀請了30名年齡在20到40歲之間的普通成年人參與人類基線測試，每人完成覆蓋所有八種任務的完整測試。難度標定的方法相當嚴格：如果五名參與者中全部答對，那道題就被標為"簡單"；如果只有零到一人答對，就標為"困難"；介于兩者之間的標為"中等"。

三、測試結果：AI的成績單令人尷尬

測試結果用一句話概括就是：人類游刃有余，AI集體掛科。

在所有參與測試的18個模型中，包括來自OpenAI的GPT-4o和GPT-o3、谷歌的Gemini-2.5 Pro，以及數十億參數規模的各種開源模型，沒有任何一個達到50%的總體正確率。與此同時，參與測試的普通人平均達到了80%的正確率。在具體任務上，人類在"層次模式等價"這道題上表現最好，達到了88%的正確率；即便是表現最弱的"視覺關系抽象"任務，人類也有68%的正確率。

相比之下，表現最好的Gemini-2.5 Pro在整體上仍然遠低于人類水平，而且在不同任務之間的表現差距極大。在需要"腦內折疊"和"空間旋轉"的轉變類任務上，幾乎所有模型的成績都只比隨機亂猜高出一點點。以紙張折疊任務為例，隨機猜測的正確率是25%，而大多數模型的正確率在24%到32%之間徘徊——這意味著這些模型基本上在亂猜。

在抽象類任務上，視覺關系抽象任務的結果更加觸目驚心：隨機猜測的基準線是16.67%（因為有六個選項），而大量模型的得分在16%到25%之間，有些甚至比隨機猜測還差。這說明這些模型不僅沒有學會如何做這類題，它們的"猜測方式"甚至是反向的——某種意義上說，它們學到了錯誤的偏見。

關系類任務的表現稍微好一些，但也沒有哪個模型突破了35%的正確率。動態結構對應任務——需要追蹤圖形變換規律并預測下一幀——對于模型來說格外困難，因為它需要理解圖形隨時間的動態變化，而不僅僅是比較靜止的畫面。

一個細節格外值得關注：在模型規模和性能的關系上，更大的模型確實通常比更小的模型表現好，但這種改善是不均勻的。一些中等規模的模型（比如InternVL3-8B和LLaMA-3.2-11B）在某些任務上的表現居然與遠大于它們的模型相當甚至更好。這說明單純把模型做大并不能從根本上解決這類視覺推理問題，可能需要在訓練方式和架構設計上進行更本質的改變。

四、為什么AI在這件事上這么差勁：深入挖掘失敗原因

測試結果只是表面現象，研究團隊隨后深入分析了AI失敗的內在機制，挖出了三個層次的根本原因。

第一個原因是"眼睛看到了，但腦子沒轉起來"。研究團隊做了一項精細的注意力分析，追蹤模型在生成答案時的"視覺注意力"分布——也就是模型在"看"圖片時，它的注意力集中在哪些區域。結果發現，注意力的集中程度和答對與否確實存在正相關，但這種關聯并不牢固。在注意力最集中的那組題目中，模型的正確率依然遠低于人類水平，遠低于80%。更有意思的是，當模型答對時，它的注意力明顯更集中在正確答案的圖形區域；但當它答錯時，它對被選的錯誤選項和正確選項的注意力分配幾乎沒有區別。這說明模型"看到了"正確的地方，但不知道該如何利用它看到的信息做出正確的推理——就好像一個人雖然盯著棋盤看，但并不真正理解棋局的走向。

第二個原因是"難度對AI毫無意義"。這是整個研究中最令人震驚的發現之一。對于人類來說，簡單題和困難題之間存在巨大差距：人類在簡單題上能答對85%到95%，但困難題的正確率會跌到10%到25%。這種隨難度升高而系統性下降的曲線，恰恰說明人類真的在"思考"這些題目，而且思考量隨難度增加而增加。然而AI模型的表現曲線幾乎是一條水平線——簡單題和困難題的正確率相差無幾，通常只在2%到8%之間波動，有時候甚至在某些困難題上表現比簡單題還好。這種"難度無感"的現象說明AI并不是"難題做不好、簡單題做得好"，而是根本沒有執行解這類題所需要的基本認知操作，無論題目難不難，它都在做同樣層次的、不充分的處理。

第三個原因是"嘴上說的和腦子想的不一樣"。研究團隊詳細分析了模型的推理過程文本，發現了一種被稱為"誤綁定"的現象。以心理轉變任務（識別正確旋轉結果）為例，在Qwen-7B模型產生錯誤答案的案例中，有高達61.1%的情況是這樣的：模型在推理文本中正確描述了應該如何旋轉這個三維形狀，但最終選出來的答案卻是錯誤的。換句話說，模型的"語言推理過程"和它的"視覺判斷結果"出現了斷裂，兩者互不搭理。模型可以流利地說出正確的旋轉邏輯，但這段文字描述沒有真正驅動它去正確地識別視覺圖像。這就好像一個人能夠口頭描述"向左轉再向右轉"的操作步驟，但當真正需要在腦海中執行這個操作并與圖片對照時，卻完全失敗了。

研究團隊還注意到另一類有趣的失敗：模型有時會把題目里的抽象幾何圖形強行套用到現實世界的知識上。比如在對稱結構任務中，模型把一些由線條構成的對稱圖形解釋成了"分子鏈結構"，并開始用化學知識分析它們，而不是從幾何對稱性的角度來思考。這種"領域知識干擾"恰恰印證了研究團隊最初的擔憂：AI很難像人類一樣從視覺圖形的純幾何屬性出發進行推理，它總是傾向于把視覺輸入"翻譯"成它在文字訓練中見過的某種已知概念。

五、給模型換換"提示詞"能救它嗎

既然發現了這些問題，研究團隊自然也嘗試了各種"救治方案"，其中最直接的一類就是調整給模型的指令方式，看看換個提問角度能不能激發出模型更好的表現。

團隊測試了四種不同的提示策略。第一種是"思維鏈"提示，要求模型在給出答案前先一步步寫出推理過程。第二種是"元任務框架"提示，在問題前明確告訴模型這是一道什么類型的認知測試，比如"這是一道心理旋轉題，你需要想象把這個三維形狀在空間中轉動"。第三種是"逐步分解"提示，給出明確的步驟指引，比如"先描述每個圖形，然后識別變換操作，最后排除不可能的選項"。第四種是"提示線索"提示，在問題中嵌入視覺屬性的提示詞，引導模型關注特定特征。

結果顯示，這些提示策略的效果非常不均勻，而且關鍵在于題目類型，而不是說哪種策略普遍有效。在抽象類任務上，元任務框架和逐步分解提示確實帶來了大約1.3個百分點的提升，說明當題目本質上是"歸納規律"時，給模型一個明確的框架能幫助它更有條理地推導。然而在轉變類任務上——也就是需要在腦海中折疊、旋轉的那些題目——幾乎所有替代提示策略都導致了性能下降，其中"提示線索"策略導致了約0.9個百分點的退步。這意味著對于真正需要內部模擬視覺操作的題目，任何外部的語言框架都幫不上忙，甚至會起反作用，因為這類任務根本上需要的是執行一個"動作"，而不是遵循一個"規則"。

研究團隊還嘗試了更系統化的提示詞優化方法，利用一套自動迭代改進提示詞的框架，為模型生成了若干優化版提示。結果令人清醒：最好的優化提示版本相比基礎版最多帶來了不到10%的絕對提升，而且核心錯誤模式完全沒有改變。這證明模型的失敗不是因為"沒有被好好引導"，而是因為缺乏執行這些視覺認知操作的底層能力。

六、這項研究放在整個領域里意味著什么

在這項研究出現之前，學界已經有不少針對AI視覺推理的評測工具。比如RAVEN數據集測試矩陣式的規律歸納，Bongard-LOGO測試概念歸納能力，CLEVR測試空間關系問答，還有VisFactor直接把心理學標準認知測試數字化。但研究團隊指出，這些工具都有不同程度的局限。

Mind's Eye與這些前輩測試的核心區別在于它同時滿足了六個條件，而據研究團隊所知，沒有其他評測工具能同時做到這六點。第一，它有形式化的心理測量分類體系，基于認知科學理論（具體來說是Carroll的流體智力理論）明確定義了測試涵蓋的認知構件。第二，測試任務來源于已驗證的心理測量學經典測試，包括Vandenberg & Kuse心理旋轉測試和CogAT紙折疊測試。第三，干擾項是根據特定認知錯誤類型定制設計的，而非隨機選取，這使得錯誤分析有了更精細的粒度。第四，整個測試不依賴任何領域知識，從根本上堵住了語言捷徑。第五，所有題目通過參數化程序生成，可以精確控制難度，也可以幾乎零成本地擴展出更多題目。第六，測試包含了人類基線數據，提供了真正有意義的比較參照。

另外值得一提的是，這套測試的題目全部用可縮放矢量圖形格式程序化生成，這確保了純幾何精確性，同時也意味著測試規模可以隨需求增長——目前研究團隊已經準備好了每種任務2500道題、共2萬道題的擴展版本，專門用于模型訓練研究。

研究團隊還特別警告了一類解讀風險，值得單獨提及。由于這套測試的靈感來自人類認知測試，很容易讓人產生一種想法：當模型答對了某道題，就說明它"真正理解了空間關系"或"具備了類似人類的心理旋轉能力"。研究團隊明確反對這種擬人化解讀，他們強調應該把模型的輸出理解為在受控刺激下的行為表現特征，而不是內在認知機制的證明。模型可能通過完全不同于人類的途徑偶然答對，同樣，答錯也不代表它在某種意義上"理解了什么但做不到"。

說到底，這項研究最核心的發現可以用一句話來概括：當前的AI在視覺認知上表現出的弱點不是"難題做不好"，而是在最基礎的"腦內視覺操作"層面就根本沒能運轉起來。無論題目簡單還是困難，無論給它什么樣的提示，模型的表現都維持在一個低得讓人尷尬的平臺上，而人類的表現則隨著題目難度有條不紊地起伏變化。

這意味著，如果未來的AI要真正擁有工程師或外科醫生那種"在腦子里操作形狀"的能力，光靠現有的訓練范式和更大的參數規模恐怕是不夠的。研究團隊認為，這可能需要在模型架構層面引入專門處理空間工作記憶和視覺變換操作的機制，也可能需要重新思考如何讓模型真正"執行"視覺操作，而不僅僅是"描述"視覺操作。當前AI的視覺能力還更像是一個博聞強記的鑒賞家，能認出各種已見過的視覺模式，但還不像一個工程師，能在頭腦中自由地搭建和拆解形狀。這個差距在Mind's Eye面前暴露得清清楚楚。

有興趣深入探索這項研究的讀者，可以通過論文編號arXiv:2604.16054查閱完整原文，研究團隊也已在GitHub上開放了基準測試的代碼和數據集。

Q&A

Q1：Mind's Eye基準測試和其他AI視覺測試有什么本質區別？

A：Mind's Eye的核心區別在于它測的不是"認出圖形"，而是"在腦海中操作圖形"——比如折疊、旋轉、找規律。它同時滿足六個條件：有理論化的認知分類框架、題目來源于經典心理測量工具、干擾選項是專門針對特定認知錯誤設計的、完全不依賴領域知識、可以程序化精確控制難度、并且包含人類基線數據。這六點同時滿足，在現有評測工具中是唯一的。

Q2：為什么更換提示詞策略沒法提升AI在視覺空間推理上的表現？

A：研究發現，對于需要真正"腦內模擬"視覺操作的任務，換提示詞不僅沒有幫助，有時反而讓結果更差。原因在于這類任務根本上要求的是執行一個動作（在腦海中旋轉、折疊），而不是遵循一套語言規則。AI缺乏的是底層的視覺操作執行能力，而提示詞只能改變它思考問題的框架，無法補充它根本不具備的能力。

Q3：AI在視覺空間推理上失敗的最根本原因是什么？

A：研究揭示了三層原因。首先，模型會"看"到正確的圖形區域，但不知道如何利用這些視覺信息做推理。其次，AI的表現完全不隨題目難度變化——簡單題和困難題的正確率幾乎相同，說明它根本沒有在真正"思考"這些題目。最關鍵的是一種叫"誤綁定"的現象：模型的語言推理過程和視覺判斷結果互不搭理，它能說出正確的操作步驟，但這段話根本沒驅動它在視覺層面做出正確判斷。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.