網易首頁 > 網易號 > 正文申請入駐

神經科學與機器學習，正在交換彼此最壞的習慣？| 萬字訪談

2026-05-09 17:52:45　來源: 人工智能學家

北京舉報

分享至

來源：專知

作者

Samuel Gershman

哈佛大學心理學教授

哈佛大學心理學系和腦科學中心的教授。他的實驗室研究學習、記憶、決策和感知的計算機制。他同時也是哈佛大學肯普納自然與人工智能研究所的成員。著有What Makes Us Smart: The Computational Logic of Human Cognition. Gershman實驗室的研究旨在了解個體如何獲得關于環境的復雜結構化知識，以及這些知識如何幫助個體形成適應性行為。該實驗室結合行為學、神經影像學和計算技術來探索這些問題。

機器學習和神經科學正在雙向奔赴

就像大多數科學領域那樣，神經科學一直致力于為經驗現象尋找因果解釋。而機器學習領域歷史上則側重于構建能進行預測的系統。然而最近，兩者的界限正在逐漸模糊：神經科學越來越關注預測問題，并越來越多地采用機器學習方法；而機器學習也越來越關注因果解釋，并越來越多地借鑒神經科學的研究方法。

在討論這種角色互換的影響之前，讓我們先來看幾個例子。Brain-Score，一個根據模型預測神經反應能力來評估模型的項目，它體現了神經科學正在向預測性學科演進。該平臺包含一組定量基準（如神經記錄數據）以及模型排行榜。與之并行的、受機器學習啟發的另一項努力，則是為神經科學開發"基座模型"（foundation models），這些模型在海量神經數據上進行訓練，并以其預測能力作為檢驗標準。

?https://www.brain-score.org/

在機器學習領域，隨著其向解釋性學科的轉型，機制可解釋性（mechanistic interpretability）研究應運而生，它的野心，旨在識別那些為預測任務而訓練的機器學習系統的內部運行機制。與早期專注于識別輸入與輸出之間關系的可解釋性研究不同（例如，解釋為何系統拒絕給某人貸款而批準給另一人），機制可解釋性研究致力于探索系統內部計算元件之間的關系。它與神經科學的血脈相連毫不掩飾，甚至妄圖在人工系統中復刻一場“連接組學”研究。正如Anthropic聯合創始人Chris Olah及其同事在2020年的一篇在線評論中所寫：

?https://distill.pub/2020/circuits/zoom-in/

如果我們把（人工神經網絡中的）單個神經元、甚至單個權重當作值得認真研究的對象，會怎樣？如果我們愿意花費數千小時追蹤每一個神經元及其連接，會怎樣？那將會呈現出怎樣一幅神經網絡的圖景？

神經科學家熱情地回應了這一號召[1]，帶來了他們的工具、理念和解釋框架。這包括對單神經元調諧和群體水平表征相似性的分析，以及非線性動力學和環路消融（circuit ablations）等多種研究方法。即使機器學習研究者并未明確借用神經科學的工具，他們往往也會重新發明出類似的方法。

然而，我認為機器學習轉向可解釋可能并不會讓我們更接近理解神經系統的本質；如果在神經科學中用預測完全取代解釋，我們將不得不犧牲珍貴的科學洞見。同時，機器學習中的解釋也注定會遇到與神經科學解釋相同的難題，即那些錯綜復雜的巨型系統，根本不會輕易向神經科學的常規解剖刀屈服。具有諷刺意味的是，這一點早已被機器學習研究者（以及少數哲學家）所認識，卻至今未能滲透到神經科學的學術話語體系中。

用預測代替解釋在神經科學中存在障礙

預測與解釋之間的張力是哲學、統計學和社會科學中反復出現的主題。從歷史上看，科學一直致力于為自然現象尋找機制性的因果解釋——例如，解釋為何左旋多巴（L-DOPA）通過提高多巴胺水平能夠改善帕金森病的癥狀。在系統神經科學中，因果-機制性解釋通常是"環路機制（circuit mechanisms）"。這同樣是機器學習中機制可解釋性研究的靈感來源。即通過興奮性和抑制性相互作用來解釋特定功能的神經元模塊。例如，眼球位置之所以能保持穩定，其背后的因果機制便被認為是一個由遞歸連接神經元編織而成的網絡[2]，該網絡實現了一種線吸引子（line attractor）。

神經科學中的機制性因果解釋，如同其他科學領域一樣，試圖摒棄那些可能對預測有用但屬于"虛假相關"的因素。例如，左旋多巴可能產生副作用，如不自主運動和頭痛，這些副作用與其改善帕金森癥狀的效果存在相關性。機器學習算法或許能夠從副作用"預測"出治療效果，但任何一個心智正常的人都清楚：副作用絕不是療效的“因”。如果僅針對副作用進行治療（例如服用泰諾緩解頭痛），而不去觸碰那個假設的因果機制（即多巴胺），那么帕金森癥狀不會發生改變。

盡管上述例子似乎說明預測與因果-機制性解釋之間存在顯著差異，但當前機器學習和統計學領域的觀點將二者聯系起來。機制性的因果解釋本質上是一種"不變預測"（invariant prediction）。預測算法或許能夠利用觀測數據中的虛假相關性，但在某些干預條件下（如上述泰諾的例子），這種預測注定會原形畢露。而因果機制則是那些即使在剔除虛假相關后依然成立的預測關系。

不變預測可能是因果性的必要條件，但它本身并不能揭示因果機制。要理解因果機制，需要對系統的組成部分進行測量和操控，以確定哪些預測關系在哪些干預條件下能夠持續成立。因此，如果神經科學家仍將解釋視為目標，那么純粹聚焦于預測（如 Brain-Score 和神經基礎模型）將無法取代解釋性工作。

出于對系統對齊（alignment）、安全性以及排障等多方面的關切，機器學習研究者已經認識到，采用更具干預性的方法來研究機制性因果解釋具有重要意義。其中最具影響力的方法基于"環路假說"（circuit hypothesis）[3]，即人工網絡中的特定子網絡，在暗中驅動著特定的行為。神經科學似乎為識別這類環路提供了完美的工具包：包括單神經元和群體水平的調諧分析、腦刺激以及消融/敲除技術等。然而，一些悲觀的研究[4]結果表明，在試圖將系統還原為環路時，我們注定會撞上難以逾越的"復雜性壁壘"。在最壞情況下，要全面在環路層面理解一個神經系統，我們所需的干預次數（如沉默神經元子集）會隨著神經元數量呈指數級增長[5]。這種計算上的不可處理性[6]甚至在對神經網絡中環路的近似理解上也存在。

神經科學中另一個備受珍視的假設是：干預可用于確立功能定位。例如刺激或沉默特定神經元能以特定方式改變系統行為，研究者通常會推斷正是這些神經元，在功能上主宰了這種改變。但來自機器學習的證據[7]表明，這種粗暴的操作，可能產生"定位錯覺"（localization illusions），即干預錯誤地將某個子網絡與特定功能關聯起來。此外，你甚至可以通過修改功能定位所識別子網絡之外的其它突觸權重[8]，來以特定方式改變系統輸出。另一個悲觀的研究結果表明，神經科學中廣泛使用的降維技術可能炮制出"可解釋性錯覺"[9]：即使低維表征能夠充分概括模型在訓練數據上的行為，但一旦將模型放到新數據分布上進行測試時，這些表征也可能失效。

這些觀察結果，理應讓那些妄圖用神經科學工具來拯救機器學習的人，驚出一身冷汗。同樣，它們也理應讓那些迷信這些工具能拯救神經科學自身的人，徹底清醒。事實上，早在近十年前，學界便已心知肚明：面對哪怕只有中等復雜度的計算電路，神經科學工具都可能束手無策[10]。然而，這些工具仍在神經科學中持續使用，主要原因在于我們尚未設計出更好的替代方案。

最后，我們應當更積極些。我們必須承認：機器學習與神經科學之間的對話非常有價值，哪怕僅僅是因為它揭示了我們工具的局限性和假設的脆弱性。機器學習與神經科學間的持續對話，有望成為新方法的起點。

為了更廣泛地了解神經科學界如何看待預測和解釋的關系，我邀請了八位神經科學家就以下幾個問題發表見解：在神經科學中，我們能否用預測取代解釋？環路映射是否足以作為深度學習的解釋框架？它是否也足以作為神經科學自身的解釋框架？

專家觀點

Trenton Bricken（Anthropic）

?Trenton Bricken，Anthropic對齊科學團隊的技術人員。他目前正在幫助Claude實現自動審核和檢測對準偏差的功能。

對神經科學家而言，如果能在幾天內記錄到數萬個神經元的數據，就已經謝天謝地了。這些數據通常帶有噪聲，而且大多只能從執行簡單任務的小型哺乳動物身上獲取。與此同時，像Claude和GPT這樣的大語言模型，能夠以人類水平甚至更高水平執行多種任務，擁有對世界的豐富表征，并且可以確定性地進行研究——我們可以訪問它們的每一個神經元和神經連接。這種極其豐富的數據源，加上大語言模型日益增強的能力，推動了本文所討論的"機制可解釋性"研究。

盡管神經科學家有充分的理由去質疑LLM與生物大腦之間的鴻溝，但我認為二者存在一些重疊的核心計算原理。其中之一便是信息的表征與存儲方式。生物大腦和大模型所學到的"事物"數量都遠遠超過其神經元或連接的數量。為了存儲這些信息（如事實、記憶、關聯等），它們必須找到某種方式將信息高效壓縮為低維表征。研究表明，LLM以"疊加態"（superposition）編碼信息：每條信息并非存儲于單個神經元中，而是表現為多個神經元激活的模式（在神經科學中，這被稱為群體編碼）。為了逆向工程這種壓縮機制，一種名為稀疏自編碼器（sparse autoencoders）的算法將壓縮后的低維表征重新投影到高維空間——例如，將Claude 3 Sonnet的單個層分解為3000萬個獨特方向，每個方向對應一個可解釋的概念，如金門大橋。這是一個大模型必須解決的、大腦同樣需要面對的核心計算問題；在人工智能領域攻克這一問題，很可能開發出有助于理解生物智能的算法。隨著神經科學記錄技術的擴展，這些工具或許也能同樣強大地用于解碼生物的神經表征。

Jenelle Feather 卡內基梅隆大學

?卡內基梅隆大學神經科學研究所和心理學系的助理教授，她領導著計算感知實驗室。她的實驗室位于神經科學、認知科學和人工智能的交叉領域，致力于研究感知背后的復雜神經模式。通過將計算模型與生物系統進行比較，她的研究旨在揭示感知的基本原理，找出當前人工智能與人類經驗的差異，并改進我們對生物大腦的模型。

神經科學與機器學習有著深厚交織的歷史。近年來，這兩個領域的部分邊界甚至變得更加模糊。在這篇專欄中，Sam Gershman探討了當神經科學轉向機器學習時會發生什么，并對預測模型日益強調神經活動的趨勢提出了質疑。雖然我同樣對盲目依賴這些"數字孿生"持謹慎態度，但我對高保真預測模型在新時代如何推進我們對神經處理的理解持更樂觀的看法。

一個預測模型，本質上就是將“計算是如何實現的”或“表征是如何涌現的”這一抽象假設，強行具象化。模型可以針對不同分析層次構建，例如通過抽象掉生物實現細節，或嘗試顯式地將這些細節納入其中。如果模型無法預測觀測數據，那么模型中實例化的假設就被證偽了。但如果模型成功了呢？該文指出的"虛假相關"（或"捷徑學習"）很有意義。模型預測出了正確答案，但原因卻是錯誤的。但這并非完全放棄預測模型的理由。相反，這要求我們作為科學家，嚴謹地設計實驗，嘗試"攻破"預測模型中的虛假相關。

Brain-Score和神經科學中的基座模型已經在朝這個方向邁進，例如通過"分布外"（out-of-distribution）樣本進行測試。關鍵在于，機器學習模型可能龐大而復雜，但它并非黑箱。計算機模擬實驗提供了效率與可控性。我們可以運行大量模擬、執行精確消融、從模型本身推導目標刺激，或更改訓練數據以進行計算上受控的"飼養實驗（rearing experiment）"。通過這種方式，我們可以引導更高效的生物數據收集，并揭示現有神經表征假設中潛在的混淆因素。

上述"數字孿生"在工程方法上具有巨大潛力。例如，可以利用預測模型開發新的、個性化的神經仿真算法，如人工耳蝸或皮層刺激。但我們也可以直接使用模型來檢測神經表征。我們可以合成能夠驅動特定神經元群體的刺激，或剖析不同生物模體的必要性。盡管這可能需要開發在這些復雜系統中表現更好的新工具和分析技術（正如"機制可解釋性"研究所嘗試的那樣），但計算模型為在真實生物數據上測試新分析方法提供了理論基礎。

Konrad K?rding（賓夕法尼亞大學）

?法尼亞大學知識整合（PIK）神經科學教授，也是 Neuromatch 和嚴謹社區的聯合創始人。他因在運動控制、神經數據方法和計算神經科學領域的貢獻，以及在開放科學和科學嚴謹性倡導和貢獻方面而聞名。他的研究結合了實驗方法與計算原理的應用。他的工作主要基于規范模型的概念，特別是貝葉斯統計。為了預測科學家的未來成功，由此開發出一款可預測 10 年后 h 指數的應用。他的實驗工作涉及運動學習和運動控制，將這些現象與貝葉斯思想聯系起來。最近，他專注于分析神經數據并獲得大規模神經數據集。他是神經科學研究范式轉變的頻繁倡導者，并發表了多篇關于深度學習在神經科學應用的論文。

我們正在目睹兩個學科交換彼此最糟糕的習慣：神經科學將基準預測誤認為理解，而機器學習則將描述機制的語言誤認為機制本身。我認為神經科學和機器學習可能混淆的警告是有意義的，而最清晰的應對方式是將預測（即使是某種程度上的不變預測）與因果推斷區分開來。

預測（即正向問題）要求找到一個函數，將測量值x映射到結果y。因果推斷（或逆向問題）則追問：被測系統中哪些部分實際影響結果，以及如何改變它們以產生更好的結果。這兩個問題都寫作y=f(x)，這有些令人遺憾，因為它們本質上是不同的問題。這不僅是目標不同，它們的幾何結構也不同。

預測不要求一一對應，因為相關變量可以相互替代。如果兩個神經元（或兩個基因）高度相關，許多模型都能做出同樣好的預測，但對"貢獻"的分配卻大相徑庭。數據通常集中在少數維度上，且在x的各維度間高度相關。這些相關性使預測更容易——我們只需在數據通常所在的"流形"（manifold）上做出良好預測即可。

因果推斷之所以困難，原因也恰恰相同。逆向求解，意味著你需要在存在相關性的情況下，區分直接效應與間接效應，這隱式或顯式地意味著要對相關結構求逆。當這個結構病態時，微小的估計誤差都可能導致推斷出的因果因素出現巨大波動。良好的預測往往恰恰標志著那些使因果推斷變得困難的條件：即可自由相互替代的強相關性。

還有一點可以強化前文關于"因果性即不變預測"的討論。在實踐中，不變性幾乎總是局部的：我們通常在具有輕微分布偏移的相似數據集上驗證穩定性，而非進行真正的因果干預。畢竟，此類干預成本高昂。這種局部的不變性固然有用，但它主要證明的是不同情境的相似性。相比之下，因果性之所以享有盛譽，是因為它追求更大范圍的泛化能力：即在廣泛類別的干預下仍能保持穩定的關系，因為這些關系反映了系統產生效應的機制。

這給我們的現實教訓是，：在談論不變性時，必須劃定它的疆域：涉及哪些干預、程度如何、基于何種假設。前文提到的復雜性壁壘強化了這一觀點。如果對神經系統全面的環路理解需要與神經元數量呈指數關系的干預次數，那么實用的"不變預測"僅在我們實際探測過的干預空間的微小范圍內保持不變。考慮到我們在神經科學中進行實驗的方式，我們通常只對大腦進行輕微擾動，那我們可能對大腦如何響應真正新穎的刺激知之甚少。這只是一個關于局部穩定性的陳述，而非關于我們尚未實施（且可能無力實施）的干預下依然成立的真實因果結構。

John Pearson（杜克大學）

?杜克大學神經生物學副教授，他的實驗室專注于理論和計算神經科學，并將其應用于視覺、運動控制和自然行為。

大腦并不欠我們一個解釋。面對大腦這樣的遞歸非線性動力系統，沒有任何東西暗示它必然能被我們以可推理的方式描述。然而，零散地、出人意料地，不可能之事確實發生了：我們確實時不時地對事物產生一些理解。在靈長類動物的眼動系統、果蠅的中央復合體、鳴禽的學習回路以及許多物種的視網膜中，我們至少已經獲得了腦功能理解的初稿。所有這些都在說明：如果我們僅憑人工神經網絡的可解釋性表象來判斷，世界可能顯得比實際情況更為不可知。

但為什么會這樣呢？讓我拋出兩個答案。首先，我們在解釋那些在顯著約束下運行的系統方面取得了相對更大的成功。這些約束可以是信息相關的（例如早期感覺系統需要有選擇地壓縮周圍世界），也可以是結構性的（如果蠅導航系統需要高度特異的輸入），但在所有情況下，神經科學拿到了一個遠比通用神經網絡簡單得多的模型，正是這種簡潔性使得實驗者和理論家能夠闡明其功能的組織原則。

第二個答案當然是進化。更具體地說，盡管突變是隨機的，但進化所探索的景觀卻是高度結構化的。神經系統必須通過基因指定的程序發育而成，這一事實確保了最終形成的連接組類型受到組織生物物理學、局部性、稀疏性和細胞類型等多重約束。這些網絡并非隨機初始化，而是經過發育過程調優的，能夠在出生時就執行基本的、往往相當復雜的行為。

因此，神經科學家發現自己處于比預期更有利的位置。是的，腦功能極其復雜，其中大部分在很長一段時間內對我們而言仍將晦澀難懂。但這種復雜性是通過微調與修飾逐步累積而成的，且必須按照發育邏輯構建，這一事實應當成為樂觀的來源。也許在這種情況下，大腦的復雜性不必像斬斷戈爾迪之結（Gordian knot是西方傳說中的物品，神諭稱能解開此結者將成為亞細亞之王）那樣一刀斬斷，我們完全可以像洋蔥一樣層層剝開。

Xaq Pitkow（卡內基梅隆大學）

?卡內基梅隆大學計算神經科學副教授。他是一位計算神經科學家，致力于發展大腦的數學理論和智能系統的一般原理。他主要研究分布式非線性神經計算如何利用統計算法來指導自然情境下的行為。他開發了在合成智能體上驗證過的新型分析方法，并與實驗人員密切合作，利用真實數據檢驗理論。

本文就神經科學方法應用于機器學習，以及機器學習方法應用與神經科學的局限性提出了重要觀點。文中的兩個主要論點是：預測不能取代解釋，且解釋對于復雜系統而言是難以處理的。我想提供一個更為樂觀的反論點：一旦我們認識到解釋真正提供的是什么——泛化能力，文中提到的兩個論點所帶來的問題就會迎刃而解。

機制性的因果解釋，其根本價值不在于它將系統分解為組成部分，而在于它使我們能夠在新條件下進行預測——跨越干預、分布偏移和不同任務類別。這包括前文提到的不變預測。但如果解釋的價值在于其泛化能力，那么預測與解釋之間根本不存在張力：解釋正是使預測得以泛化的關鍵。前文討論的定位錯覺和可解釋性錯覺確實存在，但它們反映的是未能在足夠嚴格的泛化條件下進行測試，從而未能暴露出錯誤的結構。

通過泛化視角重新界定因果解釋的嘗試，也能回應關于神經的環路解釋所遇到的復雜性壁壘。該文引用了最壞情況分析，但分析中的復雜性上限假設任何神經環路都是可能的。真實的神經系統，無論是生物的還是人工的都具有豐富的結構，如稀疏連接和低階交互，將這些約束作為預設條件，可使對神經系統的環路層面解釋比最壞情況所暗示的更容易處理。退一萬步講，無論對神經系統的精確環路還原是否可行，它都不是神經科學對應解釋產生影響的唯一層次。恰當的解釋層次，是那個能在我們關注的領域內提供充分泛化能力的層次。

基座模型提供了一個有趣的例子。它們解釋了什么嗎？許多機制上截然不同的網絡可以在自然任務上產生相同的輸入-輸出行為，甚至可以共享潛在的動力學特性，這使得即使對于某些泛化任務而言，精確的環路還原也并非必要（當然，對于模型中不存在的環路元件的干預泛化除外）。許多解釋性約束可以在沒有詳細機制的情況下依然有效，特別是在表征層面或對資源與行為的規范性約束層面。這些約束仍然可以是因果性的，至少可視為亞里士多德筆下的"目的因"（telos，即目的）。基座模型提供的是真正的解釋：它們能夠泛化、可被證偽，并告訴我們系統為何有效。它們只是不是環路圖。在領域相關任務內具有功能等效性，相比完整因果機制屬于更弱的標準，但事實證明，對于許多關于復雜系統的問題而言，這正是恰當的分析層次。

因此，挑戰不在于在預測與解釋之間做選擇，而在于識別那個能在科學相關領域內實現泛化的描述層次，并設計足夠強有力的檢驗來論證其泛化能力。這正是神經科學與機器學習互動最具價值之處。

Gemma Roig（法蘭克福歌德大學）

?法蘭克福歌德大學計算機科學系的教授。hessian.AI 成員，并隸屬于麻省理工學院腦、心智與機器研究中心。

神經科學與人工智能之間日益增強的融合，已將神經科學推向一個以預測為主的學科，從而引發了關于解釋與因果性的問題?，F代深度學習模型如今被廣泛用于預測腦活動，并在人工系統與生物系統之間比較表征，尤其在感覺和語言領域。將模型約束于生物數據，預期能系統性地提升任務性能與模型魯棒性，但這尚未完全實現。相反，人工智能領域已在很大程度上將可解釋的努力方向轉向開會事后分析工具（其中許多受神經科學啟發），以探究那些原本不透明模型的內部運作機制。

盡管人工智能模型高度復雜，但它們仍然是計算抽象，省略了生物神經系統的許多結構與動力學特性。表征對齊和預測準確性雖具信息價值，但不足以確立機制性或因果性解釋。例如，可解釋性工具揭示的表征對齊能帶來可觀的改進，其源頭可能是間接的訓練動力學或模型架構，而非這些工具被認為能夠揭示的機制。

盡管存在這些局限，人工智能模型的簡化性與可控性構成了方法論上的優勢。與生物系統不同，人工智能模型可以直接被干預：組件可以被移除、修改或重新訓練，學習動態可以被系統性地改變。此類干預使得受控的因果測試和混淆因素的系統性識別成為可能，從而能夠評估對觀測行為或表征的替代性解釋。盡管這些操作可能無法直接映射到生物系統，但它們可以為因果假設的構建提供信息，而這些假設在神經科學中往往難以直接檢驗。當前神經科學對預測的強調是合理的，因為它提供了必要的經驗約束。強大的預測性能為解釋提供了最低限度的經驗基礎。雖然預測本身并不能確立機制，但沒有它，關于機制的主張將缺乏堅實基礎。

未來的進展需要將可解釋性方法與顯式的機制分析相結合，而非將對齊或預測視為終點。研究不應僅聚焦于預測和表征對齊，而應針對特定認知功能，深入探究模型實現該功能的內部環路、轉換過程和學習到的結構。

Naomi Saphra（哈佛大學）

?哈佛大學肯普納研究所的研究員，并將于2026年入職波士頓大學任教。她致力于通過實證研究理解語言模型的訓練過程：模型何時學會編碼語言模式或其他結構？這又能告訴我們模型的工作原理和原因嗎？我們能否將有用的歸納偏差編碼到訓練過程中？近期，她開始與自然科學家和社會科學家合作，利用可解釋性來理解我們周圍的世界。

預測可以展示我們的理解，但前提是我們真正理解用于做出這些預測的系統。如果我們從觀測數據中訓練一個黑箱模型，并發現它能成功預測行為，那么我們擁有的只是第二個黑箱模型——這與我們一無所知的起點相比幾乎毫無改進。然而，如果我們能夠基于對計算主體構建的直觀仿真，再用這個仿真做出預測，那么即使這些直觀仿真未能反映主體的因果機制，它們（在某種程度上）也是正確的。我們的直觀仿真已在計算層面整體性地描述了計算主體，即便未涉及其組件實現。

另一方面，即使我們成功識別了因果機制，我們可能仍然與之前一樣毫無進展，正如本文通過強調可解釋性錯覺所指出的那樣。如果人類無法理解產生機制的結構，或者我們對干預如何生效的解釋存在缺陷，那么新加的解釋不過是添加的第二個黑箱，而非增進對計算主體的理解。

無論是大腦、大語言模型還是其他任何過程，什么才算理解一個系統了？關鍵不在于我們的描述是因果性的還是預測性的，而在于描述本身是否被理解。

壞消息是，這一屬性本質上是主觀的。有些人可能直觀地理解一個系統的精確數學描述，而另一些人則只能憑信念接受這種直觀的存在。因此，一個人不可能確定地知道一個新的描述是否推進了人類的理解，除非它首先推進了其個人的理解。

然而，即使人類無法理解包含十億參數的模擬，也有好消息。即使黑箱描述不能直接增進我們的理解，它也可能允許我們使用原始主體所不具備的新工具?；谶@一假設，任何預測性描述都有潛力推進我們的理解。問題依然存在：什么樣的描述能增進我們的理解？

James Whittington（牛津大學）

?牛津大學的首席研究員，領導著一個研究人工智能和神經科學基礎的團隊。他擁有牛津大學的物理學、醫學和神經科學學位。他曾在人工智能初創公司和大型科技公司工作，目前為多家人工智能科技公司提供咨詢服務。他是Thinking About Thinking非營利組織的聯合創始人，負責組織該組織的科學議程以及每年舉辦的多個峰會和會議的議程安排。

人工神經網絡極其強大但難以解釋，這與它們的生物對應物（大腦）非常相似。然而，由于它們在從輸入x預測輸出y方面的高效性，我們正在神經科學的許多數據上進入一種"閉嘴，只做訓練"的范式（這與量子物理學中"閉嘴，只做計算"的心態相呼應）。本文正確地質疑了這種以可理解性換取預測能力的權衡。

不可解釋的模型與過去幾十年間的傳統神經科學模型形成了鮮明對比，那時的模型大多是手工構建且具有因果性的。貝葉斯模型就是這種方法的典范：根據因果模型y=f(z)，從數據y中推斷變量z的分布。因果性思維不僅更具可解釋性，而且能自然地處理"分布外"數據，而這正是真正理解的標志。

這正是預測模型的癥結所在。沒有因果模型，成功的預測可能依賴于與真正因果變量相關的變量，而這會阻礙泛化。閱讀阿加莎·克里斯蒂的小說可能讓你（或一個大語言模型）擅長預測她另一部小說中的兇手，因為你理解了她的寫作風格，但這并不會讓你（或一個大語言模型）成為偵探，因為阿加莎·克里斯蒂很可能并未策劃現實中的謀殺案。

不變預測試圖通過識別跨情境持續存在的預測關系（謀殺的因果邏輯），并忽略那些變化的關系（作者的寫作風格）來緩解這一問題。然而，收集足夠多情境的數據以確定相關性是否虛假并非易事，而且即便能夠收集足夠多的數據，神經網絡學到的因果模型很可能也不適用于可解釋性技術。

元學習只是將"分布外"問題提升了一個層次：模型在不同任務結構上保持靈活性要求訓練集中包含多樣化的結構。這仍然是預測，但處于一個有助于理解下一層次因果關系的抽象水平。不依賴對我們不理解的數據進行事后解釋，所要付出的代價便是逐塊構建理解。

最終，預測和因果模型處于光譜的兩端，二者對進步都至關重要。盡管大模型上的機制的可解釋性或 Brain-Score 等基座模型的預測往往缺乏因果深度，但它們處理的是超出當前因果理解極限的問題，這能夠為那些從事更細致因果解釋工作的人提供更有價值的成果。

譯者的話

在當前AI4Science的浪潮中，用AI為某某學科構建預測模型，性能超越人類科學家構建的模型SOTA已屢見不鮮。然而正如該文所論述，至少在神經科學在，預測不等于理解。理解不止是做出可泛化的預測，還包括對運行機制在合適的抽象層級給出清晰的結構描述，而何為合適，什么才算清晰是人定義的。從這個意義上來看，AI4Science即使在構建預測模型上1天完成一個博士生一年的工作量，也不能完全的取代科學家。

這么說不是說AI構建的模型沒有價值，科學需要不斷超越當前因果理解的極限，而實現這一目標的方法是逐層次地，分塊地構建因果性的機制模型。AI孜孜不倦構建的理解預測模型及對應的過程可視化，將給科學家提供更豐富的素材來構建因果模型。AI的作用如同顯微鏡/望遠鏡，讓科學家能夠看得更細/更遠。

1 https://www.sciencedirect.com/science/article/pii/S1389041723000906?via%3Dihub

2 https://doi.org/10.1073/pnas.93.23.13339

3 https://proceedings.neurips.cc/paper_files/paper/2024/file/abccb8a90b30d45b948360ba41f5a20f-Paper-Conference.pdf

4 https://doi.org/10.1007/s11229-023-04366-1

5 https://doi.org/10.1101/639724

6 https://doi.org/10.48550/arXiv.2410.08025

7 https://doi.org/10.48550/arXiv.2502.11447

8 https://proceedings.neurips.cc/paper_files/paper/2023/hash/3927bbdcf0e8d1fa8aa23c26f358a281-Abstract-Conference.html

9 https://doi.org/10.48550/arXiv.2312.03656

10 https://doi.org/10.1371/journal.pcbi.1005268

閱讀最新前沿科技趨勢報告，請訪問21世紀關鍵技術研究院的“未來知識庫”

未來知識庫是 “21世紀關鍵技術研究院”建立的在線知識庫平臺，收藏的資料范圍包括人工智能、腦科學、互聯網、超級智能，數智大腦、能源、軍事、經濟、人類風險等等領域的前沿進展與未來趨勢。目前擁有超過8000篇重要資料。每周更新不少于100篇世界范圍最新研究資料。歡迎掃描二維碼或訪問https://wx.zsxq.com/group/454854145828進入。

截止到2月28日 ”未來知識庫”精選的百部前沿科技趨勢報告

（加入未來知識庫，全部資料免費閱讀和下載）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.