網易首頁 > 網易號 > 正文申請入駐

讓AI給林黛玉找個外國平替？大模型的文科推理有多離譜？

2026-05-08 11:05:34　來源: 追問Nextquestion

上海舉報

分享至

追問快讀：如果你讓大模型給林黛玉找一個外國文學里的平替，它能給出令人信服的答案嗎？這個腦洞的背后其實是當下人工智能最核心的軟肋——“類比推理”能力。

人類可能很容易舉一反三，列出一些合適的人物。但在對大模型的眾多批判中，人們常說它只是記住了海量訓練數據中的模式，并沒有進行真正的抽象思考。

本文總結了近兩年多項關于大模型類比能力的前沿研究。科學家們發現，無論是做理科的數字矩陣，還是做文科的故事類比，只要給題目換個馬甲（比如使用虛構字母表或重寫故事表述），大模型的準確率就會斷崖式下跌，表現甚至不如7歲的兒童。看似無所不知的AI，距離真正讀懂人類復雜的隱喻與類比，依然任重道遠。

當下想要找到些“普通人類擅長，而大模型不擅長”的任務，似乎越來越難了。“類比”可能就是這樣的任務，這不只是人工智能的“阿克琉斯之踵”，更顯露出不同大模型間以及大模型與人類之間的本質差異。

在《表象與本質》一書中，認知科學家侯世達（Douglas Hofstadter）指出：

類比不僅僅是語言或邏輯的工具，更是思維的基本單位。

我們日常語言中充滿了類比和隱喻，就如同“充滿”一詞本身。類比能夠激活創造力。例如，愛因斯坦將引力場類比為一個重物被放入蹦床后造成的表面彎曲，這啟發他提出了廣義相對論。類比還能解釋難以理解的現象。就像為人所熟知的類比“意識就像冰山”，通過將意識與冰山聯系起來，人們可以直觀地推斷出意識在水面下的深度和復雜性。

那么，大語言模型是否也具有類比能力？

在機器學習中，類比體現為“0嘗試推理”，即不給大模型可供學習的示例，而是讓大模型自行根據題目進行推理。為了驗證大模型能否進行類比推理，Webb等人（2023）設計并使用了三種類比推理任務——字符串類比、數字矩陣和故事類比，以此測試GPT3面對不同類型任務的推理能力。通過這套測試，研究人員認為他們證明了GPT-3具有類比推理能力[1]。

但是，更進一步的問題是，這些大模型會不會只是在回憶訓練數據，而并非真正的類比呢？當面對更變化多樣的問題時，大模型能否具有穩定的類比能力？

大模型能讀懂題目“馬甲”下的本質嗎？

為了檢測模型是否依賴表面特征或捷徑，而非真正的抽象推理，圣塔菲研究院的Lewis & Mitchell，基于Webb等人設計的基本轉換和泛化類型，設計了更進一步的變體測試[2]。

他們給題目套一些“馬甲”，在不改變本質的同時，讓題目看起來不同；然后用新的測試對GPT-3（text-davinci-003）以及近期更新的大模型GPT-3.5（gpt-3.5-turbo-0613）、GPT-4（gpt-4-0613）進行類比能力測試，包括字符串、數字矩陣和故事類比實驗。這類研究中，最常用到的是侯世達于1985年提出的“字符串類比”*。

* 字符串類比：a b c d → a b c e; i j k l → ?

其中，第一部分是"源轉換"，第二部分是"目標"，任務是以類似于源轉換的方式轉換目標字符串。

2023年，Webb等人提出了六種轉換類型（如序列擴展、后繼、前驅等）和多種泛化類型（如字母到數字、分組、更長目標等）的組合。他們為每種問題類型生成了大量問題，并將這些問題給到GPT-3（text-davinci-003）以及57名UCLA本科生進行測試。結果發現，人類參與者的準確率表現出很大的差異，但總體而言，GPT-3在大多數問題類型上的表現甚至優于平均人類表現[1]。

但是，這項研究中所使用的字母表均為標準英文字母表及其固有順序，測試中大模型表現出來的“類比能力”是否可能依賴表面特征走了“捷徑”？為此，Lewis & Mitchell保留了基本轉換和泛化類型，又進一步創建了兩類變體[2]：

- 虛構字母表：隨機打亂2-20個字母的順序，創建28種不同的打亂字母表

- 符號字母表：用非字母符號完全替代字母，創建9種不同的符號字母表

研究人員對真實的拉丁字母表，隨機選取1-3對進行替換，然后分別給人類和GPT-3、GPT-3.5、GPT-4進行了測試。

?圖1. Lewis & Mitchell給受試人類和大模型的類比問題示例. 圖源：[2]

結果顯示，當字母表的替換次數增加后，不論是GPT3、GPT3.5或到GPT4，其回答準確性都有下降，且都顯著低于在線招募的人類受試者[2]。

?圖2：不同字母表替換次數下，GPT模型和人類被試者的準確性對比. 圖源：[2]

Mitchell團隊還做過一項嘗試，他們讓42名兒童（7-9歲）、62名成人以及4種大模型（Anthropic的Claude-3.5、Google的Gemma-2 27B、Open AI的GPT-4o和Meta的Llama-3.1 405B），接受拉丁字母表、希臘字母表和符號列表三種條件的字符串類比任務[3]。

?圖3：不同類型的字母推理問題. 圖源：[3]

結果顯示，大模型面對類比問題時，準確性就會顯著下降，表現甚至不如兒童。就拿GPT-4o和Claude-3.5來說，在拉丁語字母表上，其平均準確性要高于兒童并接近成人；但當題目換成希臘字母，準確性就會顯著下降；而到了符號時，其準確性甚至不如孩童。而其他開源模型如Llama-3.1 405B和Gemma-2 27B，其準確性下降更為明顯[3]。

?圖4：不同大模型和人類在三類字符串類比中的表現對比. 圖源：[3]

上述結果說明，當實驗引入“異構”字母表時，人類甚至兒童仍然能夠解決問題，而大模型則會出錯。一個能夠真正理解和類比的系統，應該在變化的情況下也能保持高性能——這正是GPT系列大模型不具備的能力。

讀者也許會好奇，其他推理大模型能否回答這樣的問題。筆者簡單嘗試了一下，在DeepSeek官方的全尺寸R1及V3模型，以及阿里通義千問的QwQ 32B推理模型中，對于多次替換后的虛構字母表，模型能夠正確回答，并給出符合人類思考過程的推理過程的。

但當DeepSeek模型變為蒸餾Qwen或lamma的32B、14B、8B或1.5B尺寸時，筆者有限的幾次觀察發現，模型都呈現出過度思考的特征，即會在思考過程中嘗試眾多過于復雜的模式，展示數萬token的繁雜思考過程，最終仍然給出了錯誤的回答。筆者還遇到在思考過程中，已經發現正確答案，但又在接下來的思考過程中，大模型將其否決的案例。

筆者認為，基于強化學習的大模型能否進行類比，還需要進一步的定量研究，以考察不同尺寸模型的準確度。例如，對于模型將問題過度復雜化的傾向，可以根據思考過程，對模型的錯誤進行進一步的分類，以此或可創建出一個評估一般思維能力的考核指標。

此外，還可以組合字符串類比的6個變種，設計更多的題目，例如在字母表中包含數字、英文字母、漢字及符號，這樣的改變或許對人類不會影響準確性，但可能會導致大模型的準確度下降。同時，還需要考察推理模型對于這類問題的思考時所用的token數量，從而減少計算成本。

大模型能理解推理規則嗎？

除了字母表推理，還可以使用數字矩陣類問題（分析數字模式以確定缺失的數字）。數字矩陣測試的設計思路源于經典的瑞文漸進矩陣測試（Raven's Progressive Matrices），這是一種廣泛用于測量抽象推理能力的非語言智力測試。相比之前字母表類比中改變問題的表現形式，數字矩陣問題通過組合規則，考察了大模型所謂的推理能力是真正的抽象理解還是模式匹配。

這類問題中，涉及的基礎規則有4種，題目由這些基礎規則組合而成：

研究者對原始數字矩陣測試進行了兩個關鍵變化：空白位置變化（將空白位置變為矩陣的其他位置,如[1,3]或[2,2]）和規則復雜度變化（設計了不同復雜度級別的矩陣問題，從簡單到復雜）[2]。

?圖5：涉及到多個規則的數字矩陣推理問題以及將數字換為符號的數字矩陣推理問題. 圖源：[2]

結果顯示，僅改變空白位置這一表面特征，就導致GPT模型表現大幅下滑。盡管GPT-4在標準測試中接近人類表現（83% vs 87%）；但在變體測試中，GPT-4的表現下降幅度（26%）遠大于人類（4%）[2]。這意味著，即使是最先進的模型也表現出對格式變化的高度敏感性，同樣表明了大模型的推理能力不那么魯棒。

?圖6：數字矩陣推理問題的準確度. 圖源：[2]

在數字矩陣問題中，當缺失數字的位置改變時，GPT 模型的表現顯著下降。這表明了大模型不僅不理解題目考察的是什么，更沒有理解進行類比所依賴的規則。其在單一規則或原始字母表上的優異表現，依賴于題目與示例之間在的表面相似性，而非更深層次的因果推理。

與之類似的，還包括下面的矩陣變換問題。一項研究通過簡化版ARC（抽象與推理語料庫）任務對比了不同年齡人類（兒童與成人）和大型語言模型的視覺類比推理表現，結果同樣發現人類在復雜任務中顯著優于大模型，而大模型常依賴復制或矩陣組合策略，缺乏抽象概念理解能力[4]。

?圖6: 給人類和大模型的視覺類比推理問題示例，以及不同推理規則對應題目的大模型與人類的準確度對比. 圖源：[4]

在基于常識的文科推理上，

大模型表現如何？

上述兩類類比問題都可以算是“理科題目”，對于“文科生”的大模型，或許確實有些難了。相比之下，故事類比則主要考察大模型基于常識的類比能力。

這類題目通常給出1個幾句話組成的短故事，然后要求參與者判斷故事1和故事A或B哪一個更為相似，即識別短故事之間的相似性，并從多個選項中選擇最符合類比關系的答案。

?圖7：相似故事的類比判斷，題目的故事是一個吃不到葡萄說葡萄酸的騾子版本，故事A將主角換成了一個女孩，而在故事B中，主角沒有獲得相似的東西，是由于不喜歡而非拿不到. 圖源：[2]

在Lewis & Mitchell的研究中，他們嘗試了兩種變體：一是隨機打亂答案選項的順序，二是保持核心關系不變，但重寫故事的表述方式[2]。

在故事類比中，GPT-4 傾向于更頻繁地選擇第一個給出的答案作為正確答案，而人類則不受答案順序的影響。此外，對于大模型，將故事用不同的話重述，也會降低在故事類比問題上的準確性[2]。

?圖8：文字類比問題上大模型的表現差異. 圖源：[2]

故事類比更接近自然語言處理的實際應用場景，但研究結果卻表明即使在語言模型的"主場"上，它們的類比推理能力仍然缺乏真正的靈活性和魯棒性，過度依賴于表面特征與特定的答案格式，而非深層理解抽象關系。

為此，筆者也設想了一種判別方式，例如對比大模型和人類回答這類問題的準確性。可以生成很多組類比問題，并招募讀過相關小說的普通人，以獲取大眾認知中的一般性回答，然后對比不同大模型和人類回答的差異性。

通過設置不同的細分問題，可以考察大模型與人類在類比能力方面的相似度及價值觀對齊情況。

- 跨文體類比能力：在風格差異較大的作品間，如中文的金庸武俠或《紅樓夢》與英文的《哈利波特》，大模型的類比準確性能否達到人類水平？

- 角色理解差異：大模型在處理男性和女性角色類比時，是否存在準確性差異？

- 群體偏好特征：大模型的類比偏好是否更接近特定人群（如不同性別、年齡段的人群）？

- 邏輯遞推性：大模型的類比是否具有傳遞性特征（即當A>B且B>C時，是否必然推導出A>C）？

?圖9：大模型能夠在跨越文學作品進行類比嗎？本文作者與DeepSeek對話截圖，其中前一道基本不會存在爭議的人物類比，以及后一道可能存在回答差異的人物類比題目。

除了上述假想的對復雜人物性格的類比，還有研究測試了大模型在無預設條件下將抽象概念（如pull、flee）與空間符號（上下左右）進行類比推理的能力，結果顯示，大模型和人類的相似性不算高[5]。不過考慮到這項研究強行要求將抽象概念（給定單詞）和方位對應缺少現實意義，這里就不詳細論述。

?圖10：大模型對抽象概念和人類類比的準確性評估.圖源：[5]

提升大模型類比能力，還任重道遠

基于以上研究發現，我們大致可以得到一個結論：聲稱大語言模型已具備一般推理能力或許為時過早。

盡管早期研究中大模型在特定任務上表現良好，但當測試難度提升時，它們的表現就不穩定了。一個模型在一組特定任務上表現良好，并不意味著它具有魯棒性。之前有研究表明，在面對數學應用題時，只是更換題目中的人名，大模型的解答準確度都會明顯下降，而增加無關的背景論述時，模型的性能下降則更加明顯[6]。

這一發現對于在教育、法律和醫療等關鍵決策領域應用人工智能敲響了警鐘，人工智能可以是一個強大的工具，但它還不能取代人類的思考和推理。例如，在教育領域，大模型生成的比喻確實能為教學提供幫助；然而，如果缺乏專業人士的審核與修正，這些類比可能存在潛在風險。

?Micha Huigen

因此，研究人員需要開發和實施穩健性測試，以適應問題或情況中細微變化的能力。新的穩健性測試應包括一組公認的標準化任務，用以評估 AI 系統以及人類如何適應新情況。在實踐中，大模型常會遇到之前分析數據中未曾遇到的新情況和挑戰，而穩健性測試將為用戶提供衡量大型語言模型可信度的方式。

與此同時，24年的機器學習頂會ICLR的一項研究展示了另一個發展方向：通過類比推理框架，讓大模型自動生成新的規則來應對未知場景[7]。這種基于提示詞工程的方法在多個測試基準上都取得了顯著性能提升，表明提升大模型的類比能力不僅是評估其穩健性的重要維度，更是增強模型泛化能力的關鍵路徑。這兩種方法相輔相成，共同推動著大模型向更可靠、更智能的方向發展。

展望未來，大模型類比思維的研究，或可從中國傳統中汲取靈感。中國古典文學中的對聯與律詩，本質上就是一種精妙的類比系統，其中蘊含著嚴謹的對應規則和豐富的語義關聯。通過這些結構化的語言數據集對大模型進行微調，可能為增強其類比推理能力開辟新途徑。

就像中文指令微調數據集 COIG-CQIA，為了提升模型在編程及數學問題上的表現，也曾使用了中文互聯網社區數據“弱智吧”的標題作為訓練指令。這些來自不同領域的實踐表明，結構化的類比思維模式，無論是傳統文學還是現代網絡社群數據集，都可能成為提升人工智能認知能力的重要工具。

畢竟，類比思維的本質是通用的。

[1] Taylor Webb, Keith J. Holyoak, and Hongjing Lu. Emergent analogical reasoning in large language models. Nature Human Behaviour, 7(9):1526–1541, 2023.

[2] Lewis, Martha & Mitchell, Melanie. (2024). Evaluating the Robustness of Analogical Reasoning in Large Language Models. 10.48550/arXiv.2411.14215.

[3] Stevenson CE, Pafford A, van der Maas HLJ, Mitchell M. (2024). Can large language models generalize analogy solving like children can? arXiv.2411.02348v1.

[4] Opie?ka GJ, Rosenbusch H, Vijverberg VP, Stevenson CE. Do large language models solve ARC visual analogies like people do? [Internet]. arXiv.org. 2024 May 13 [cited 2025 Apr 2]. Available from: https://arxiv.org/pdf/2403.09734v2

[5] Wicke, P., Hirlimann, L., & Cunha, J. M. (2024). Using Analogical Reasoning to Prompt LLMs for their Intuitions of Abstract Spatial Schemas. Retrieved from https://analogy-angle.github.io/assets/Wicke.pdf

[6] Mirzadeh S I, Alizadeh K, Shahrokhi H, Tuzel O, Bengio S, Farajtabar M. GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models. *arXiv preprint arXiv:2410.05229*. 2024.

[7] Yasunaga M, Chen X, Li Y, Pasupat P, Leskovec J, Liang P, Chi EH, Zhou D. Large language models as analogical reasoners. In *International Conference on Learning Representations (ICLR)* 2024.

關于追問nextquestion

天橋腦科學研究院旗下科學媒體，旨在以科學追問為紐帶，深入探究人工智能與人類智能相互融合與促進，不斷探索科學的邊界。如果您有進一步想要討論的內容，歡迎評論區留言，或后臺留言“社群”即可加入社群與我們互動。

關于天橋腦科學研究院

天橋腦科學研究院（Tianqiao and Chrissy Chen Institute）是由陳天橋、雒芊芊夫婦出資10億美元創建的世界最大私人腦科學研究機構之一，圍繞全球化、跨學科和青年科學家三大重點，支持腦科學研究，造福人類。

Chen Institute與華山醫院、上海市精神衛生中心設立了應用神經技術前沿實驗室、人工智能與精神健康前沿實驗室；與加州理工學院合作成立了加州理工天橋神經科學研究院。

Chen Institute建成了支持腦科學和人工智能領域研究的生態系統，項目遍布歐美、亞洲和大洋洲，包括、、、科研型臨床醫生獎勵計劃、、等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.