網易首頁 > 網易號 > 正文申請入駐

自然·計算科學：當機器擁有“概念”，理解才真正發生

2026-04-22 14:33:52　來源: 集智俱樂部

北京舉報

分享至

導語

人類大腦的一項非凡能力是能夠從感知—運動經驗中形成更抽象的概念表征，并在脫離直接感官輸入的情況下靈活應用。然而，這種能力背后的計算機制仍未被清晰理解。本文提出了一種雙模塊神經網絡框架——CATS Net，用以彌合這一空白。該模型由概念抽象模塊和任務求解模塊構成。前者提取低維概念表示，后者在概念的層級門控下完成視覺判斷任務。系統基于概念表征形成可遷移的語義結構，并可通過“概念通信”實現跨網絡知識傳遞。模型與大腦的擬合分析表明，其概念空間與人類語義模型及腹側視覺皮層的表征結構一致。同時，其門控機制對應語義控制網絡。該工作提供了一個統一的計算框架，用于理解人類概念認知，并推動類人概念智能系統的發展。

關鍵詞：概念形成（Concept formation）、概念理解（Concept understanding）、層級門控（Hierarchical gating）、語義結構（Semantic structure）、知識遷移（Knowledge transfer）、腦-模型對齊（Model–brain alignment）

周驍俊丨作者

趙思怡丨審校

論文題目：A neural network for modeling human concept formation, understanding and communication 論文鏈接：https://www.nature.com/articles/s43588-026-00956-4 發表時間：2026年3月24日論文來源：Nature Computational Science

為什么“概念”是智能的核心問題

在人類認知中，最關鍵的一步并不是“看到”，而是“理解”。語言學家 Saussure 早已指出，人類能夠用符號指代不在場的對象，這種“脫離當下”的能力，使我們可以規劃未來、想象過去、進行抽象推理。

從計算角度看，這意味著大腦完成了兩件事：一是將高維感知經驗壓縮為低維概念空間；二是在需要時重新激活這些概念，并將其組合用于任務。前者是概念形成（formation），后者是概念理解（understanding）。

但現有AI體系在這兩點上是割裂的。一類模型（如CNN、ViT）擅長表征學習，但知識被“埋”在參數中，難以抽取與遷移；另一類模型（如多模態大模型）依賴已有語言符號，卻無法從感知經驗中自主形成概念。因此，核心問題不是“如何建模視覺”，而是：能否構建一個系統，同時完成概念的形成、理解與傳遞？

圖 1. A. 概念的核心特征是將高維感知-運動信息壓縮成低維表示，并能夠沒有直接輸入的情況下重新激活。B. 概念形成與理解的計算框架：通過低維概念向量壓縮經驗，并在任務中重新調用以驅動行為。C. CATS Net 的整體架構：概念抽象（CA）模塊生成控制信號，對任務求解（TS）模塊進行層級調控，實現“概念驅動”的感知判斷。

CATS Net：把“概念”從參數中解耦出來

本文提出的CATS Net，本質是一個結構極簡但思想關鍵的設計：用兩個模塊，將“概念”顯式建模出來。概念抽象（CA）模塊接收一個低維向量（concept vector），輸出控制信號；任務求解（TS）模塊處理感知輸入，但其計算過程會被概念動態調制。

關鍵機制是“門控”（gating）：概念不是標簽，而是直接改變網絡內部計算路徑的控制變量。這意味著，同一張圖像，在不同概念輸入下，會激活完全不同的功能。例如，當輸入“apple”概念時，網絡會判斷圖像是否屬于蘋果類別；而輸入“vehicle”，同一輸入將被重新解釋。

從數據中“長出”概念，而不是預定義

模型的訓練過程同樣體現了這一思想，訓練分為兩個交替階段：一階段學習網絡參數；另一階段學習概念向量。這種分離帶來一個關鍵結果：概念空間本身是可學習的，而不是預設的。

圖 2. A. 涌現的 20 維概念空間從訓練前的“任意向量空間”，變成了“具有語義結構和功能選擇性的概念坐標系”。B. 訓練概念空間（藍色）和任務求解參數空間（紫色）中功能熵的概率密度分布。

實驗表明，固定的概念空間（如Word2Vec或one-hot）都會顯著降低性能，而可學習的低維空間不僅更高效，還能形成結構化語義。更重要的是，這些概念具有“功能特異性”：每個概念向量對應一類任務功能，而不是簡單標簽。通過熵分析（functional entropy），作者發現訓練后的概念空間明顯比隨機空間更有結構，表現為低熵、強選擇性。這說明：概念不是人為定義的類別，而是從任務中自然涌現的低維結構。

概念空間為什么“像人類”

一個關鍵問題是：模型學到的概念，是否真的具有認知意義？作者通過表征相似性分析（RSA）發現，模型的概念空間與兩類人類語義模型顯著相關：

基于神經科學的語義維度（Binder65），
基于行為相似性的人類判斷（SPOSE49）。

這種一致性說明，即使模型只接受視覺分類訓練，它仍然自發形成了類似人類的語義組織結構。進一步分析發現，這些概念還能聚類出“動物、家具、交通工具”等語義群落，甚至捕捉顏色、形狀、共現關系等多維特征。換句話說：語義結構不是語言專屬，而是可以從感知任務中涌現。

真正關鍵的一步：概念可以“溝通”

最有意思的實驗，是“概念通信”。作者構建了teacher–student體系：teacher學習全部類別，student刻意缺失一個類別（如apple）。兩個網絡獨立訓練后，各自形成不同的概念空間。然后，通過一個“翻譯模塊”，將teacher的概念映射到student空間。結果是：student可以僅憑傳遞過來的概念向量，識別從未見過的類別，準確率遠高于隨機水平。

圖 3. 概念通信流程。Phase 1：teacher 與 student 獨立學習概念空間（student缺失一類）。Phase 2：通過翻譯模塊對齊兩者概念結構。Phase 3：傳遞teacher的概念向量，student在未見類別上完成判斷任務。

這意味著：知識不再依賴參數復制，而可以通過低維概念進行傳遞。這與人類語言的本質高度一致——我們用極低維的符號，傳遞復雜經驗。

與真實大腦的對應關系

模型不僅在行為上有效，在神經層面也具有對應性。作者使用fMRI數據發現：概念層（concept layer）與腹側視覺皮層（VOTC）高度相關，說明其編碼類似人類的對象表征；而CA模塊則與語義控制網絡顯著相關，表明其與之對應，負責選擇與調制語義信息。這種分工與認知神經科學理論高度一致：感知系統負責表征，控制系統負責調度。

圖 4. 模型與人腦一致性（ROI-level RSA）。左：concept layer 與 VOTC 顯著相關。右：CA1 層與 semantic-control network 的相關性強于 multiple-demand network，體現功能特異性。

進一步，多個獨立訓練的模型會收斂到相似的概念結構，而這些“高一致性模型”與人腦的對應關系更強。這暗示一個重要結論：概念結構可能是由計算約束決定的“最優解”。

結語與展望：從AI模型到認知理論的轉變

這項工作的真正價值，不在于提出一個更強的模型，而在于改變問題的提法：

從“如何預測”轉向“如何形成概念”
從“參數學習”轉向“結構學習”
從“單體模型”轉向“可溝通的智能體”。

它給出一個統一視角：概念 = 高維經驗的壓縮表示 + 可調度的計算規則 + 可通信的語義接口。這不僅解釋了人類認知的核心機制，也為AI提供了一條新的路徑：不是更大的模型，而是更結構化的表示。

神經動力學模型讀書會

為了促進神經科學、系統科學以及計算機科學等多領域學術工作者的交流合作，吸引更多朋友共同探索腦科學與類腦研究，周昌松、臧蘊亮、楊冬平、郭大慶、陳育涵、曹淼、劉泉影、王大輝、劉健、王鑫迪等來自國內外多所知名高校的專家學者在集智俱樂部共同發起「」讀書會，歷時四個月研討，近日圓滿結束。

本季讀書會形成了聚集500+成員的神經動力學社區，積累了40+小時綜述、解讀、研討的視頻記錄，以及多篇社區成員總結的詞條、筆記、翻譯、科普資料等。現在報名加入讀書會，即可加入社區交流討論（微信），并解鎖相關視頻、文本資料。我們對腦的探索才剛剛起航，歡迎你一道參與，共同點亮更多腦科學研究的島嶼！

詳情請見：

#速遞

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.