網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

普林斯頓認(rèn)知科學(xué)家發(fā)現(xiàn)：AI通不過的那些測試，恰好是人類智能里最重要的部分——他們把這片空白叫做"認(rèn)知暗物質(zhì)"

2026-05-28 11:12:32　來源: 人工智能學(xué)家

北京舉報

分享至

來源：智能前沿社

宇宙里有一種東西，看不見，摸不著，不發(fā)光，不反射任何電磁波。

但如果沒有它，銀河系會在自身引力下土崩瓦解。

天文學(xué)家把它叫做暗物質(zhì)——不是因為它神秘，而是因為它的存在只能從它的缺席里被推斷出來。星系轉(zhuǎn)得太快了，按照可見物質(zhì)的質(zhì)量根本撐不住，所以一定有什么東西我們還沒看見。

2026年3月，普林斯頓大學(xué)認(rèn)知科學(xué)系、Amaranth基金會和Protocol Labs的三位研究者，用完全相同的邏輯，描述了他們在AI里看到的一個結(jié)構(gòu)性缺口。

他們把它叫做認(rèn)知暗物質(zhì)。

先從一件讓人困惑的事說起

GPT-5、Claude Opus 4.5、Gemini 3.0 Pro——這些模型能通過律師資格考試，能解答奧數(shù)題，能看一張病理切片給出診斷意見，能在一小時內(nèi)寫出一個功能完整的Web應(yīng)用。

但研究者做了一個簡單的測試：讓這三個模型各自運行10次，完成同一個任務(wù)——

寫一個包含三道國際象棋"一步將死"殘局的網(wǎng)頁應(yīng)用，要有拖拽功能。

沒有一個模型能穩(wěn)定通過。

原因不是代碼能力不夠——它們生成的HTML、CSS、JavaScript幾乎無可挑剔，連拖拽邏輯都完美實現(xiàn)了。

失敗的地方是：它們生成的國際象棋殘局本身是無效的。黑方棋子已經(jīng)被將軍了，根本還沒到白方走棋，殘局就已經(jīng)結(jié)束了。

這是任何一個真正下過象棋的人一眼就能看出來的錯誤。一個初學(xué)者可能不會擺出這樣的殘局。

但AI沒有發(fā)現(xiàn)。

更奇怪的是：這個錯誤在代碼層面完全可以被檢測出來——這些模型在生成代碼時，已經(jīng)導(dǎo)入了能驗證棋盤合法性的Python棋類庫。它們擁有發(fā)現(xiàn)自己錯誤所需的全部工具，只是從來沒有想到要用這個工具檢查自己的輸出。

研究者把這個現(xiàn)象起了個名字：鋸齒狀智能（Jagged Intelligence）——AI的能力不是一個完整的球體，而是一個奇怪的形狀，某些方向上突出得極遠(yuǎn)，某些方向上有令人意外的深坑，而且你很難提前預(yù)測哪里會是坑。

他們的問題是：這些坑，為什么會在這里？

AI的訓(xùn)練方式，決定了它不知道自己不知道什么

要理解這個問題，需要先理解AI是怎么被訓(xùn)練出來的。

現(xiàn)有的AI模型，學(xué)習(xí)的材料是人類行為的數(shù)字痕跡——文字、圖像、代碼、對話記錄。這些都是行為的結(jié)果，而不是產(chǎn)生這些行為的認(rèn)知過程。

舉個例子：你在網(wǎng)上看到一篇數(shù)學(xué)論文，最終呈現(xiàn)的是一個完整的證明。但論文背后是什么？是作者在某個下午突然想到了一個新思路，是他意識到之前的方向走錯了然后回頭，是他在白板前站了兩個小時發(fā)現(xiàn)了一個別人沒注意到的模式。

這些東西都沒有被寫進(jìn)論文。

AI學(xué)的是那個證明，不是寫出那個證明的認(rèn)知過程。

研究者把那些真正在人類智能運作中發(fā)揮關(guān)鍵作用、但很難從行為結(jié)果里推斷出來的認(rèn)知能力，統(tǒng)稱為"認(rèn)知暗物質(zhì)"。

就像宇宙暗物質(zhì)的存在是從"星系轉(zhuǎn)得太快"這件事被推斷出來的——認(rèn)知暗物質(zhì)的存在，是從AI在某些任務(wù)上的表現(xiàn)方式里被推斷出來的。

那些任務(wù)，AI完成得很奇怪：對的部分非常對，錯的部分非常奇怪，錯誤的類型不像人類會犯的錯，更像一個不知道自己缺了什么的系統(tǒng)在盲目推進(jìn)。

七片暗物質(zhì)，每一片都有名字

研究者列出了他們認(rèn)為最關(guān)鍵的七個認(rèn)知暗物質(zhì)域。這七個能力，共同構(gòu)成了人類智能里那個"看不見但撐起了一切"的隱形骨架。

第一片：元認(rèn)知

知道自己知道什么，知道自己不知道什么，知道什么時候需要停下來檢查自己的推斷是否正確。

象棋殘局那個例子里，缺失的正是這個——模型生成了棋局，但從來沒有問自己"這個棋局合法嗎"。它沒有一個內(nèi)置的聲音在說"等等，我在這一步可能犯了錯，讓我驗證一下"。

人類做復(fù)雜任務(wù)時會有這種內(nèi)部檢查機制，即便犯了很多錯，也能在某個節(jié)點意識到"這個方向不對"然后轉(zhuǎn)向。AI的成功率隨著任務(wù)步驟的增加呈指數(shù)級下降，就是因為缺乏這個錯誤恢復(fù)機制——它每一步犯錯，卻不知道自己在犯錯，然后繼續(xù)走。

第二片：認(rèn)知靈活性

當(dāng)規(guī)則變了，或者反饋表明當(dāng)前策略不管用時，快速切換到另一種策略的能力。

研究者嘗試給Claude Code連續(xù)反饋，告訴它殘局是無效的，讓它換一個思路。失敗了——模型反復(fù)使用同一種方法，哪怕每次都得到了"這條路走不通"的明確信號。

人類碰到這種情況會有一種認(rèn)知層面的"卡住感"，然后主動尋找為什么卡住、有沒有別的思路。這個機制在AI里大體缺失。

第三片：情節(jié)記憶

記住"這件具體的事是什么時候發(fā)生在我身上的"，然后用這段記憶來指導(dǎo)未來的行動。

當(dāng)前部署的語言模型沒有真正意義上的情節(jié)記憶。它們有訓(xùn)練數(shù)據(jù)里蒸餾出來的通用知識，但沒有"我上次做類似任務(wù)時犯了這個錯誤"這種可以被檢索和利用的個人化記憶。每次對話都是全新開始，之前積累的經(jīng)驗教訓(xùn)無法被內(nèi)化。

第四片：終身學(xué)習(xí)

在不忘記已有知識的前提下，不斷學(xué)習(xí)新東西，適應(yīng)新環(huán)境的能力。

人類的神經(jīng)系統(tǒng)在一生中都在持續(xù)更新，學(xué)新技能不會讓之前的技能消失。現(xiàn)有的AI模型要更新知識，需要在海量數(shù)據(jù)上重新訓(xùn)練。這被稱為"災(zāi)難性遺忘"問題——給模型加入新知識，舊知識就被覆蓋了。

第五片：溯因推理

從已知的結(jié)果，推斷出最有可能的原因——即便那個原因是全新的、之前從未被明確提出過的。

這是科學(xué)發(fā)現(xiàn)的核心機制。達(dá)爾文看到加拉帕戈斯群島上不同的雀類，推斷出了自然選擇。牛頓看到蘋果落地，推斷出了萬有引力。這種從零散觀察里"跳躍"到一個全新解釋框架的能力，極難被編碼進(jìn)訓(xùn)練數(shù)據(jù)，因為真正的"跳躍"在它發(fā)生之前沒有人知道它會在哪里發(fā)生。

第六片：社會常識推理

理解人和人之間那些不成文的規(guī)則，理解"他知道我知道他知道什么"這種多層嵌套的社會認(rèn)知。

人際交往里有大量的意義是通過沉默、語氣、時機傳遞的，而不是通過字面意思。一個真正理解社會規(guī)則的系統(tǒng)，不需要被明確告知"在這種情況下不應(yīng)該說這種話"——它有一個關(guān)于人類社會互動的內(nèi)建模型。

第七片：情緒智能

識別、理解自己和他人的情緒狀態(tài)，并據(jù)此調(diào)整自己的行為。

這不是在問"AI有沒有感情"這個哲學(xué)問題。這是在問：在一個情緒高度敏感的對話場景里，AI能不能感知到對方的情緒信號，并給出在情感層面恰當(dāng)?shù)幕貞?yīng)？相關(guān)事件顯示，這個能力目前存在相當(dāng)大的缺口。

為什么這七件事這么難補上

你可能會問：這七件事，不就是更多的訓(xùn)練數(shù)據(jù)，或者更大的模型能解決的問題嗎？

研究者的回答是：不是，因為問題不在于量，而在于類型。

他們分析了目前最大規(guī)模的神經(jīng)成像數(shù)據(jù)集，發(fā)現(xiàn)了一個讓人警覺的模式：

那些已經(jīng)被AI掌握得很好的認(rèn)知能力（視覺感知、語言理解、語言生成），有大量專門為AI訓(xùn)練而設(shè)計的大規(guī)模神經(jīng)數(shù)據(jù)集。

那些AI還完全沒有掌握的認(rèn)知能力（元認(rèn)知、認(rèn)知靈活性、情緒智能），對應(yīng)的大規(guī)模數(shù)據(jù)集幾乎不存在。

這不是偶然。AI研究者收集和使用那些容易被測量、能產(chǎn)生明確正確或錯誤答案的數(shù)據(jù)。元認(rèn)知發(fā)生在內(nèi)部，通常不留痕跡；溯因推理的"靈感時刻"稍縱即逝，無法被大規(guī)模記錄；情緒智能的微妙信號很難被標(biāo)注成訓(xùn)練標(biāo)簽。

結(jié)果就是：AI學(xué)會了大量可以被測量的東西，但那些真正塑造人類行為、但難以被測量的東西，從來沒有進(jìn)入過任何訓(xùn)練集。

研究者還做了另一個分析：檢查了GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro的發(fā)布文檔里用到的所有評測基準(zhǔn)——37個基準(zhǔn)，分析每一個主要在考察什么認(rèn)知能力。

結(jié)果：幾乎所有基準(zhǔn)都集中在中等難度的認(rèn)知能力層級，對真正困難的認(rèn)知暗物質(zhì)域的測試幾乎為零。

換句話說：AI在哪些方面進(jìn)步，取決于我們在哪些方面給它出卷子。我們沒有出這七道題，所以這七塊地方從未被認(rèn)真建設(shè)過。

它如何失敗，比它是否失敗更重要

論文里有一段話，讀完之后會停在腦子里：

"問題不只是任務(wù)失敗，而是失敗的方式。在一個精良的象棋應(yīng)用里硬編碼了無效殘局，不只是錯誤，更是陌生的。人類犯錯有規(guī)律可循：忽略邊緣案例，算術(shù)出錯，注意力渙散。這些失敗模式是可被理解的，這讓協(xié)作成為可能。以不可預(yù)測的方式失敗的AI，很難被整合進(jìn)人類的社會網(wǎng)絡(luò)。目標(biāo)不只是減少失敗，而是確保失敗是可被發(fā)現(xiàn)和可被解釋的。"

這句話說的是一件比能力本身更根本的事：可靠性的前提，不是永不出錯，而是出錯的方式讓人能看懂。

一個人類同事犯了錯，你大概能理解為什么——太累了，信息不夠，理解有偏差。你知道下次怎么補救，知道在哪些環(huán)節(jié)多核查。這讓人類之間的分工成為可能。

一個缺乏認(rèn)知暗物質(zhì)的AI犯了錯，那個錯誤經(jīng)常是莫名其妙的——它做對了99個步驟，然后在第100步犯了一個初學(xué)者都不會犯的錯，沒有任何預(yù)兆，沒有任何你能事先檢測到的信號。

這不只是技術(shù)問題，這是人機協(xié)作的根本挑戰(zhàn)。

研究者說，解決這個問題會有雙重收益

這篇論文最后的結(jié)論，有一種不常見的誠實：

研究者承認(rèn)，他們提出的解決方向——收集大規(guī)模的過程數(shù)據(jù)、眼動追蹤數(shù)據(jù)、神經(jīng)成像數(shù)據(jù)，來訓(xùn)練AI學(xué)習(xí)認(rèn)知過程而不只是行為結(jié)果——可能來不及在常規(guī)AI研究進(jìn)展之前發(fā)揮作用。

如果scaling law繼續(xù)下去，也許這七片暗物質(zhì)會在某個未知的方式下被部分解決，而不需要等待神經(jīng)科學(xué)數(shù)據(jù)的介入。

但他們認(rèn)為，即便如此，這項研究依然值得做。原因是雙重的：

一方面，這些數(shù)據(jù)能幫助AI變得更通用、更少鋸齒。

另一方面，這些數(shù)據(jù)能幫助我們更好地理解人類自己的認(rèn)知是怎么運作的——元認(rèn)知究竟發(fā)生在大腦的哪個部位，情緒智能的神經(jīng)基礎(chǔ)是什么，溯因推理時大腦里在發(fā)生什么。

研究AI缺什么，結(jié)果幫我們更清楚地看到了人類有什么。

這個視角，讓這篇論文的意義超出了單純的AI研究邊界。

最后

回到開頭的那個比喻。

宇宙暗物質(zhì)之所以重要，不是因為它神秘，而是因為如果它不存在，我們觀察到的宇宙就無法成立——那些星系根本不該轉(zhuǎn)得那么穩(wěn)定，那些結(jié)構(gòu)根本不該那么完整。

認(rèn)知暗物質(zhì)之所以重要，是同樣的邏輯：如果這七種能力真的只是可有可無的附加功能，那人類就不該如此穩(wěn)定地在復(fù)雜的、不確定的、充滿情感張力的真實世界里生存和合作。

它們一直在那里，支撐著我們，只是在AI被設(shè)計出來之前，我們從來沒有需要給它們一個名字。

原論文：Patrick J. Mineault（Amaranth基金會）、Thomas L. Griffiths（普林斯頓大學(xué)）、Sean Escola（Protocol Labs），《Cognitive Dark Matter: Measuring What AI Misses》，arXiv:2603.03414，2026年3月5日

閱讀最新前沿科技趨勢報告，請訪問21世紀(jì)關(guān)鍵技術(shù)研究院的“未來知識庫”

未來知識庫是 “21世紀(jì)關(guān)鍵技術(shù)研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學(xué)、互聯(lián)網(wǎng)、超級智能，數(shù)智大腦、能源、軍事、經(jīng)濟、人類風(fēng)險等等領(lǐng)域的前沿進(jìn)展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進(jìn)入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.