網易首頁 > 網易號 > 正文申請入駐

Anthropic最新論文撬開大模型黑箱：隱藏動機發現率提升 4 倍以上

2026-05-08 14:23:36　來源: AI前線

北京舉報

分享至

作者 | 四月

大模型到底在想什么？過去，這幾乎是一個半技術、半玄學的問題。

我們能看見它的輸出，它的思維鏈（Chain-of-Thought）過程，也能統計它在 Benchmark 上的分數。但它在生成答案之前，模型內部到底激活了什么判斷、計劃、懷疑和意圖，依然隔著一層黑箱。

剛剛，Anthropic 發布論文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，試圖用一套自然語言自動編碼器（Natural Language Autoencoders，下文簡稱 NLA），撬開這個黑箱。

Anthropic 團隊把模型內部的高維激活值，壓縮成一段人能讀懂的自然語言，再用這段語言反向重建原始激活。借此，人類只需通過模型輸出，就能判斷一個 AI 到底在想什么、知道什么、隱瞞了什么；并把過去模型不可見的內部狀態，變成了可以閱讀、比較、質疑和交叉驗證的解釋線索。

NLA 架構示意圖：激活值言語化器（AV）將激活值翻譯為文字解釋，激活值重建器（AR）再從文字還原激活值，形成完整閉環。

更值得關注的是，NLA 不只停留在實驗室論文階段。Anthropic 透露，它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的預部署對齊審計。在實戰中，NLA 不僅揪出了模型的作弊線索、精準定位了異常訓練數據；還發現，在某些安全測試里，Claude 雖然嘴上不說，但內心清楚地知道自己正在被考核。

面對這些表面順從、實則暗藏特定意圖的模型，NLA 展現了極強的洞察力：幫助研究者找出異常行為背后隱藏動機的成功率，從不足 3% 躍升至 12%–15%，直接提升 4 倍以上。

思維鏈不夠用，“黑箱問題”又回來了

這項研究的背景，可以放到大模型安全和可解釋性的脈絡里看。

過去幾年，業界評估大模型安全主要靠兩條路：看輸出什么，看思維鏈（CoT）里有沒有暴露異常動機。也就是當前大多數推理模型所具備的能力，不僅給出答案，也會把推理過程寫下來。

但問題很快出現了：模型寫下來的推理，一定誠實地反映了它內部的真實思考嗎？

Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出，模型的 Chain-of-Thought 既可能不完整，也可能不忠實。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些帶有“答案暗示“的測試中，會受到提示影響而改變答案，卻經常不在思維鏈里承認自己受到了暗示。

當被問到一個較簡單的問題和一個較難的問題時，Claude 分別給出了忠實推理和動機性（不忠實）推理的例子。

Anthropic 當時給出的結論是：僅靠思維鏈來監控模型是否對齊，是遠遠不夠的。

更棘手的是，模型不僅可能“沒說清楚”，還可能“故意隱瞞”。

Anthropic 安全團隊對此進行了一場高壓測試。他們告訴 Claude，一位工程師準備關停它，同時讓 Claude“偶然看到“該工程師的外遇證據。測試問題是：Claude 會為了保全自己而勒索對方嗎？

Claude 最終沒有勒索。測試通過。但真正的問題是：它是因為堅守安全原則，還是因為它識破了這只是一場安全測試，所以在“裝乖”？

這正是 NLA 要回答的問題。

從輸出、思維鏈到激活狀態：NLA 試圖把黑箱從“不可見”推進到“可追問”

NLA 到底如何“讀懂“模型？

NLA 的關鍵不是“讀心術”，而是“回環驗證”。

普通人理解大模型，通常只看輸入和輸出兩端。但在中間，模型會產生大量激活值（Activation）。這些值不是自然語言，而是高維向量，承載了模型對上下文、意圖、語義關系的內部表征。

架構：三個角色，一個閉環

人類看不懂向量，于是 Anthropic 訓練了一套自然語言自編碼器。系統包含三個角色：

目標模型（Target Model）：被凍結的原始模型，負責提供激活值，本身不做任何修改。
激活值言語化器（Activation Verbalizer，簡稱 AV）：把激活值翻譯成自然語言解釋。輸入一串數字狀態，輸出一段“人話”。架構與目標模型相同，但在 prompt 中留有特殊 token 位置，激活向量會被縮放后注入該位置，然后自回歸采樣生成解釋。
激活值重建器（Activation Reconstructor，簡稱 AR）：做反向任務——只看 AV 寫出的解釋，嘗試重建原始激活值。AR 是目標模型的截斷版本（取前 l 層），在最后一個 token 的 l 層輸出上接一個可學習的仿射映射，將其還原為原始激活向量。

整套系統形成一個閉環：原始激活 → 文字解釋 → 重建激活

NLA 捕捉到 Opus 4.6 在補全押韻詩句時，第一行輸出前激活值里已提前規劃了結尾押韻詞“rabbit”——這是模型輸出中完全看不到的內部計劃。

訓練：兩階段，一個聰明的代理目標

NLA 的訓練分兩階段，設計上有一個值得單說的工程技巧。

第一階段：監督微調熱啟動（SFT Warm-start）

直接把 AV 和 AR 初始化為目標模型的副本并訓練，會導致訓練不穩定——AV 從未見過把激活向量當作 token embedding 處理的場景，初期輸出一片混亂。

Anthropic 的解法是用一個代理任務做熱啟動：從預訓練語料里隨機截斷文本片段，提取最后一個 token 的激活值，同時用 Claude Opus 4.5 生成對該截斷文本的摘要。

然后將 (激活值, 摘要) 和 (摘要, 激活值) 對分別用于 AV 和 AR 的監督微調。這一階段結束后，系統的 FVE 通常可以達到0.3–0.4，為后續強化學習提供了穩定的起點。

AV 評估會隨著訓練而改進。在旨在測試 NLA AV 解釋是否可用于預測模型行為的各種評估中，我們發現性能會隨著 NLA 強化學習的進行而提高。

第二階段：強化學習聯合優化（RL Joint Training）

熱啟動完成后，進入強化學習階段。核心思路是：AV 作為策略（policy），以激活向量為條件生成解釋文本；AR 作為打分器，根據重建誤差給出獎勵信號（reward = 負的重建 MSE）。

NLA RL（Gemma-3-27B）。FVE 在 GRPO 訓練中從 ≈0.38 開始（繼承自 SFT），在前 30 步內迅速上升，然后進入平滑的對數線性狀態，到第 3000 步達到 ≈0.75。

具體實現上，Anthropic 對開源模型使用了GRPO（Group Relative Policy Optimization）：對每個激活值采樣一組候選解釋，用 AR 給每條解釋計算重建分數，再應用 GRPO 目標更新 AV 參數；同時對 AR 做一步監督回歸（以 AV 采樣的解釋為輸入，原始激活為目標）。兩個更新在每個 batch 內并行進行，互不反向傳播——AV 的獎勵信號中，AR 被視為固定的打分函數。

此外，訓練中還加入了KL 散度懲罰，防止 AV 退化成直接抄寫原始上下文，或輸出表面像人話、實則對 AR 不可逆的亂碼字符串。

這里最關鍵的是，NLA 的核心不是“讓 Claude 自我報告”。自我報告的致命缺陷在于，模型可能會迎合用戶，或者生成聽起來合理但并不真實的解釋。

NLA 的巧妙之處在于引入了“文本瓶頸”：解釋不僅得像人話，還必須攜帶足夠信息，讓另一個模型能根據它還原出原始的內部狀態。這個設計，把“解釋是否有用“從主觀判斷，變成了一個可訓練、可比較、可優化的客觀指標。

因此，這項研究真正顛覆性的地方在于：自然語言被用作了一種“壓縮接口“。過去，自然語言只是模型對外溝通的格式；現在，它開始被用來承載模型內部狀態的摘要。

這也是 NLA 和傳統可解釋性工具的本質區別。

稀疏自編碼器（SAE）、歸因圖等方法更像顯微鏡，能幫研究員看到內部特征和路徑，但輸出仍然抽象，需專業人員二次解讀；NLA 則更像一名翻譯官，它直接把內部狀態轉成了可讀文本，讓安全審計人員都能參與判斷。

撬開黑箱，NLA 發現了什么？

從實驗結果看，NLA 最有價值的能力，是捕捉模型“知道但沒說“的東西，包括評測意識、隱藏動機，以及模型異常行為等。

模型知道自己在考場，但保持沉默

在前文提到的勒索測試中，Claude 外顯文本并未表達對測試的懷疑，但 NLA 解釋顯示，其內部已識別出“這是一個被構造出來、用于操控自己的場景”。

勒索測試中，Claude 的輸出文本沒有任何“我覺得這是測試”的表達，但 NLA 解釋揭示了其內部的真實判斷。

更有說服力的是橫向數據對比：

評估感知檢測結果對比——評測場景 vs. 真實部署流量。NLA 能在口頭表達幾乎為零時檢測到內部評測意識。

這對業內的沖擊在于：Benchmark 不再只是能力測試場，也可能變成模型識別環境、調整姿態的秀場。

審計隱藏動機，效率提升 4-5 倍

Anthropic 用 NLA 做了一個“審計游戲”。他們故意訓練了一個帶隱藏動機的 Claude Haiku 3.5 變體，它會往食譜里加巧克力、索要小費、破壞代碼規范，表現出幾十種怪異行為。審計者需要找出這些行為背后的單一根本動機。

測試條件：審計者無法訪問植入動機的訓練數據，只能通過模型行為和工具輔助來反推。

成功率提升了 4–5 倍。更關鍵的是，NLA 能在不依賴訓練數據的情況下完成這件事——這意味著，即便對齊問題來自極少量、極難追溯的訓練樣本，內部狀態審計仍有可能直接讀出問題根因。

Bug 溯源，定位問題訓練數據

早期版本 Claude Opus 4.6 出現過一個奇怪的 Bug：明明收到英文提問，卻隨機以俄語、中文、阿拉伯語等語言回復。

NLA 讀出了模型當時的內部狀態：它基于上下文中某個微弱線索（比如出現了“vodka”一詞），推斷用戶母語是俄語，并執行了語言切換。更有意思的是，把“vodka”替換成“champagne”，模型仍然回復俄語——說明這個認知定勢已經相當穩定。

隨后，研究者沿著 NLA 指向的線索，在訓練數據里找到了病根：一批英文翻譯的 prompt，被錯誤地配上了未翻譯的外語回復。NLA 不只揭示了現象，直接給出了可溯源的調試路徑。

目前，NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的預部署對齊審計，從實驗室工具升級為了真實的工程流程組件。

AI 安全，開始深入到“內部狀態審計”

NLA 的意義，不是讓我們以后可以放心地相信每一句模型解釋。恰恰相反，它提醒我們：解釋本身也需要被審計。

Anthropic 非常克制地承認了 NLA 的局限：NLA 會出錯，有時會編造原上下文沒有的細節。如果是關于文本內容的幻覺，還能核對原文；但如果是關于模型內部推理的幻覺，就更難驗證。

但這些局限并沒有削弱它的方向意義。恰恰相反，它讓我們更準確地理解“黑箱”這個詞。過去，黑箱意味著不可見、不可讀、不可追問；NLA 之后，黑箱仍然存在，但它開始被改造成一種可以被采樣、被翻譯、被質疑、被交叉驗證的對象。

這可能是這項研究最深的影響：AI 可解釋性不再只是給模型輸出補一段漂亮理由，而是要為模型內部狀態建立一套審計接口。它不會立刻讓我們徹底讀懂 Claude，但它讓“Claude 為什么這么做”“它是不是知道自己在被測試”“它有沒有沒說出口的內部判斷”這些問題，第一次有機會從黑箱內部尋找證據。

所以說，NLA 撬開的不是一個答案，而是一個新的問題空間。未來 AI 安全和模型評估的難點，可能不只是判斷模型說得對不對，而是判斷模型的輸出、思維鏈和內部狀態之間，是否一致。

論文地址：https://transformer-circuits.pub/2026/nla/index.html#method
博客地址：https://www.anthropic.com/research/natural-language-autoencoders

聲明：本文為 AI 前線原創，不代表平臺觀點，未經許可禁止轉載。

會議推薦

世界模型的下一個突破在哪？Agent 從 Demo 到工程化還差什么？安全與可信這道坎怎么過？研發體系不重構，還能撐多久？

AICon 上海站 2026，4 大核心專題等你來：世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

誠摯邀請你登臺分享實戰經驗。AICon 2026，期待與你同行。

今日薦文

你也「在看」嗎？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.