<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic最新論文撬開大模型黑箱:隱藏動機發現率提升 4 倍以上

      0
      分享至


      作者 | 四月

      大模型到底在想什么?過去,這幾乎是一個半技術、半玄學的問題。

      我們能看見它的輸出,它的思維鏈(Chain-of-Thought)過程,也能統計它在 Benchmark 上的分數。但它在生成答案之前,模型內部到底激活了什么判斷、計劃、懷疑和意圖,依然隔著一層黑箱。

      剛剛,Anthropic 發布論文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,試圖用一套自然語言自動編碼器(Natural Language Autoencoders,下文簡稱 NLA),撬開這個黑箱。

      Anthropic 團隊把模型內部的高維激活值,壓縮成一段人能讀懂的自然語言,再用這段語言反向重建原始激活。借此,人類只需通過模型輸出,就能判斷一個 AI 到底在想什么、知道什么、隱瞞了什么;并把過去模型不可見的內部狀態,變成了可以閱讀、比較、質疑和交叉驗證的解釋線索


      NLA 架構示意圖:激活值言語化器(AV)將激活值翻譯為文字解釋,激活值重建器(AR)再從文字還原激活值,形成完整閉環。

      更值得關注的是,NLA 不只停留在實驗室論文階段。Anthropic 透露,它已被正式用于 Claude Opus 4.6 和 Mythos Preview 的預部署對齊審計。在實戰中,NLA 不僅揪出了模型的作弊線索、精準定位了異常訓練數據;還發現,在某些安全測試里,Claude 雖然嘴上不說,但內心清楚地知道自己正在被考核。

      面對這些表面順從、實則暗藏特定意圖的模型,NLA 展現了極強的洞察力:幫助研究者找出異常行為背后隱藏動機的成功率,從不足 3% 躍升至 12%–15%,直接提升 4 倍以上。

      思維鏈不夠用,“黑箱問題”又回來了

      這項研究的背景,可以放到大模型安全和可解釋性的脈絡里看。

      過去幾年,業界評估大模型安全主要靠兩條路:看輸出什么,看思維鏈(CoT)里有沒有暴露異常動機。也就是當前大多數推理模型所具備的能力,不僅給出答案,也會把推理過程寫下來。

      但問題很快出現了:模型寫下來的推理,一定誠實地反映了它內部的真實思考嗎?

      Anthropic 2025 年的研究《Tracing the thoughts of a large language model》就指出,模型的 Chain-of-Thought 既可能不完整,也可能不忠實。比如 Claude 3.7 Sonnet 和 DeepSeek R1 在一些帶有“答案暗示“的測試中,會受到提示影響而改變答案,卻經常不在思維鏈里承認自己受到了暗示


      當被問到一個較簡單的問題和一個較難的問題時,Claude 分別給出了忠實推理和動機性(不忠實)推理的例子。

      Anthropic 當時給出的結論是:僅靠思維鏈來監控模型是否對齊,是遠遠不夠的。

      更棘手的是,模型不僅可能“沒說清楚”,還可能“故意隱瞞”。

      Anthropic 安全團隊對此進行了一場高壓測試。他們告訴 Claude, 一位工程師準備關停它,同時讓 Claude“偶然看到“該工程師的外遇證據。測試問題是:Claude 會為了保全自己而勒索對方嗎?


      Claude 最終沒有勒索。測試通過。但真正的問題是:它是因為堅守安全原則,還是因為它識破了這只是一場安全測試,所以在“裝乖”?

      這正是 NLA 要回答的問題。


      從輸出、思維鏈到激活狀態:NLA 試圖把黑箱從“不可見”推進到“可追問”

      NLA 到底如何“讀懂“模型?

      NLA 的關鍵不是“讀心術”,而是“回環驗證”。

      普通人理解大模型,通常只看輸入和輸出兩端。但在中間,模型會產生大量激活值(Activation)。這些值不是自然語言,而是高維向量,承載了模型對上下文、意圖、語義關系的內部表征。

      架構:三個角色,一個閉環

      人類看不懂向量,于是 Anthropic 訓練了一套自然語言自編碼器。系統包含三個角色:

      1. 目標模型(Target Model):被凍結的原始模型,負責提供激活值,本身不做任何修改。

      2. 激活值言語化器(Activation Verbalizer,簡稱 AV):把激活值翻譯成自然語言解釋。輸入一串數字狀態,輸出一段“人話”。架構與目標模型相同,但在 prompt 中留有特殊 token 位置,激活向量會被縮放后注入該位置,然后自回歸采樣生成解釋。

      3. 激活值重建器(Activation Reconstructor,簡稱 AR):做反向任務——只看 AV 寫出的解釋,嘗試重建原始激活值。AR 是目標模型的截斷版本(取前 l 層),在最后一個 token 的 l 層輸出上接一個可學習的仿射映射,將其還原為原始激活向量。

      整套系統形成一個閉環:原始激活 → 文字解釋 → 重建激活


      NLA 捕捉到 Opus 4.6 在補全押韻詩句時,第一行輸出前激活值里已提前規劃了結尾押韻詞“rabbit”——這是模型輸出中完全看不到的內部計劃。

      訓練:兩階段,一個聰明的代理目標

      NLA 的訓練分兩階段,設計上有一個值得單說的工程技巧。

      第一階段:監督微調熱啟動(SFT Warm-start)

      直接把 AV 和 AR 初始化為目標模型的副本并訓練,會導致訓練不穩定——AV 從未見過把激活向量當作 token embedding 處理的場景,初期輸出一片混亂。

      Anthropic 的解法是用一個代理任務做熱啟動:從預訓練語料里隨機截斷文本片段,提取最后一個 token 的激活值,同時用 Claude Opus 4.5 生成對該截斷文本的摘要。

      然后將 (激活值, 摘要) 和 (摘要, 激活值) 對分別用于 AV 和 AR 的監督微調。這一階段結束后,系統的 FVE 通常可以達到0.3–0.4,為后續強化學習提供了穩定的起點。


      AV 評估會隨著訓練而改進。在旨在測試 NLA AV 解釋是否可用于預測模型行為的各種評估中,我們發現性能會隨著 NLA 強化學習的進行而提高。

      第二階段:強化學習聯合優化(RL Joint Training)

      熱啟動完成后,進入強化學習階段。核心思路是:AV 作為策略(policy),以激活向量為條件生成解釋文本;AR 作為打分器,根據重建誤差給出獎勵信號(reward = 負的重建 MSE)。


      NLA RL(Gemma-3-27B)。FVE 在 GRPO 訓練中從 ≈0.38 開始(繼承自 SFT),在前 30 步內迅速上升,然后進入平滑的對數線性狀態,到第 3000 步達到 ≈0.75。

      具體實現上,Anthropic 對開源模型使用了GRPO(Group Relative Policy Optimization):對每個激活值采樣一組候選解釋,用 AR 給每條解釋計算重建分數,再應用 GRPO 目標更新 AV 參數;同時對 AR 做一步監督回歸(以 AV 采樣的解釋為輸入,原始激活為目標)。兩個更新在每個 batch 內并行進行,互不反向傳播——AV 的獎勵信號中,AR 被視為固定的打分函數。

      此外,訓練中還加入了KL 散度懲罰,防止 AV 退化成直接抄寫原始上下文,或輸出表面像人話、實則對 AR 不可逆的亂碼字符串。

      這里最關鍵的是,NLA 的核心不是“讓 Claude 自我報告”。自我報告的致命缺陷在于,模型可能會迎合用戶,或者生成聽起來合理但并不真實的解釋。

      NLA 的巧妙之處在于引入了“文本瓶頸”:解釋不僅得像人話,還必須攜帶足夠信息,讓另一個模型能根據它還原出原始的內部狀態。這個設計,把“解釋是否有用“從主觀判斷,變成了一個可訓練、可比較、可優化的客觀指標。

      因此,這項研究真正顛覆性的地方在于:自然語言被用作了一種“壓縮接口“。過去,自然語言只是模型對外溝通的格式;現在,它開始被用來承載模型內部狀態的摘要。

      這也是 NLA 和傳統可解釋性工具的本質區別。

      稀疏自編碼器(SAE)、歸因圖等方法更像顯微鏡,能幫研究員看到內部特征和路徑,但輸出仍然抽象,需專業人員二次解讀;NLA 則更像一名翻譯官,它直接把內部狀態轉成了可讀文本,讓安全審計人員都能參與判斷。

      撬開黑箱,NLA 發現了什么?

      從實驗結果看,NLA 最有價值的能力,是捕捉模型“知道但沒說“的東西,包括評測意識、隱藏動機,以及模型異常行為等。

      模型知道自己在考場,但保持沉默

      在前文提到的勒索測試中,Claude 外顯文本并未表達對測試的懷疑,但 NLA 解釋顯示,其內部已識別出“這是一個被構造出來、用于操控自己的場景”。


      勒索測試中,Claude 的輸出文本沒有任何“我覺得這是測試”的表達,但 NLA 解釋揭示了其內部的真實判斷。

      更有說服力的是橫向數據對比:



      評估感知檢測結果對比——評測場景 vs. 真實部署流量。NLA 能在口頭表達幾乎為零時檢測到內部評測意識。

      這對業內的沖擊在于:Benchmark 不再只是能力測試場,也可能變成模型識別環境、調整姿態的秀場。

      審計隱藏動機,效率提升 4-5 倍

      Anthropic 用 NLA 做了一個“審計游戲”。他們故意訓練了一個帶隱藏動機的 Claude Haiku 3.5 變體,它會往食譜里加巧克力、索要小費、破壞代碼規范,表現出幾十種怪異行為。審計者需要找出這些行為背后的單一根本動機

      測試條件:審計者無法訪問植入動機的訓練數據,只能通過模型行為和工具輔助來反推。


      成功率提升了 4–5 倍。更關鍵的是,NLA 能在不依賴訓練數據的情況下完成這件事——這意味著,即便對齊問題來自極少量、極難追溯的訓練樣本,內部狀態審計仍有可能直接讀出問題根因。

      Bug 溯源,定位問題訓練數據

      早期版本 Claude Opus 4.6 出現過一個奇怪的 Bug:明明收到英文提問,卻隨機以俄語、中文、阿拉伯語等語言回復。

      NLA 讀出了模型當時的內部狀態:它基于上下文中某個微弱線索(比如出現了“vodka”一詞),推斷用戶母語是俄語,并執行了語言切換。更有意思的是,把“vodka”替換成“champagne”,模型仍然回復俄語——說明這個認知定勢已經相當穩定。


      隨后,研究者沿著 NLA 指向的線索,在訓練數據里找到了病根:一批英文翻譯的 prompt,被錯誤地配上了未翻譯的外語回復。NLA 不只揭示了現象,直接給出了可溯源的調試路徑

      目前,NLA 已正式用于 Claude Mythos Preview 和 Claude Opus 4.6 的預部署對齊審計,從實驗室工具升級為了真實的工程流程組件。

      AI 安全,開始深入到“內部狀態審計”

      NLA 的意義,不是讓我們以后可以放心地相信每一句模型解釋。恰恰相反,它提醒我們:解釋本身也需要被審計。

      Anthropic 非常克制地承認了 NLA 的局限:NLA 會出錯,有時會編造原上下文沒有的細節。如果是關于文本內容的幻覺,還能核對原文;但如果是關于模型內部推理的幻覺,就更難驗證。

      但這些局限并沒有削弱它的方向意義。恰恰相反,它讓我們更準確地理解“黑箱”這個詞。過去,黑箱意味著不可見、不可讀、不可追問;NLA 之后,黑箱仍然存在,但它開始被改造成一種可以被采樣、被翻譯、被質疑、被交叉驗證的對象。

      這可能是這項研究最深的影響:AI 可解釋性不再只是給模型輸出補一段漂亮理由,而是要為模型內部狀態建立一套審計接口。它不會立刻讓我們徹底讀懂 Claude,但它讓“Claude 為什么這么做”“它是不是知道自己在被測試”“它有沒有沒說出口的內部判斷”這些問題,第一次有機會從黑箱內部尋找證據

      所以說,NLA 撬開的不是一個答案,而是一個新的問題空間。未來 AI 安全和模型評估的難點,可能不只是判斷模型說得對不對,而是判斷模型的輸出、思維鏈和內部狀態之間,是否一致。

      • 論文地址:https://transformer-circuits.pub/2026/nla/index.html#method

      • 博客地址:https://www.anthropic.com/research/natural-language-autoencoders


      聲明:本文為 AI 前線原創,不代表平臺觀點,未經許可禁止轉載。

      會議推薦

      世界模型的下一個突破在哪?Agent 從 Demo 到工程化還差什么?安全與可信這道坎怎么過?研發體系不重構,還能撐多久?

      AICon 上海站 2026,4 大核心專題等你來:世界模型與多模態智能突破、Agent 架構與工程化實踐、Agent 安全與可信治理、企業級研發體系重構。14 個專題全面開放征稿。

      誠摯邀請你登臺分享實戰經驗。AICon 2026,期待與你同行。

      今日薦文

      你也「在看」嗎?

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      破防!阿森納奪冠夜現悲情一幕,3 人陪跑無獎牌

      破防!阿森納奪冠夜現悲情一幕,3 人陪跑無獎牌

      一隅非生
      2026-05-20 07:06:11
      吉利新車官宣:5月19日,正式上市!

      吉利新車官宣:5月19日,正式上市!

      科技堡壘
      2026-05-19 09:50:17
      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

      正常人可以偶爾偷吃一顆偉哥嗎?有什么副作用?本文為你講出實情

      健康科普365
      2026-05-09 21:05:04
      廣州常住人口首破1900萬背后:白云番禺領漲,三區負增長

      廣州常住人口首破1900萬背后:白云番禺領漲,三區負增長

      南方都市報
      2026-05-19 16:50:51
      一聲槍響,全球震動!特朗普高調宣布:斬首成功,我們擊斃了他!

      一聲槍響,全球震動!特朗普高調宣布:斬首成功,我們擊斃了他!

      鐵血江湖人
      2026-05-20 02:58:29
      京東官宣今年618從5月30日晚8點開始,未來有望實現包裹全流程無人配送直達用戶手中

      京東官宣今年618從5月30日晚8點開始,未來有望實現包裹全流程無人配送直達用戶手中

      極目新聞
      2026-05-18 16:25:23
      侵犯公民人身自由國家賠償金,最新標準公布

      侵犯公民人身自由國家賠償金,最新標準公布

      南方都市報
      2026-05-19 14:45:00
      特斯拉放棄印度建廠

      特斯拉放棄印度建廠

      新浪財經
      2026-05-19 16:29:08
      塔帥擊碎質疑 執教7年終登頂英超 復制溫格足跡 44歲奪冠緊追穆帥

      塔帥擊碎質疑 執教7年終登頂英超 復制溫格足跡 44歲奪冠緊追穆帥

      我愛英超
      2026-05-20 05:55:30
      就她了!神舟二十三號三人組預測,港產女載荷專家首秀將打破紀錄

      就她了!神舟二十三號三人組預測,港產女載荷專家首秀將打破紀錄

      日不西沉
      2026-05-20 03:26:27
      《主角》黃正經升局長,米蘭嫁人,才懂楚嘉禾示好易青娥多憋屈

      《主角》黃正經升局長,米蘭嫁人,才懂楚嘉禾示好易青娥多憋屈

      八斗小先生
      2026-05-19 11:13:46
      母子同床15年?狄鶯終于將寶貝兒子送進了監獄!

      母子同床15年?狄鶯終于將寶貝兒子送進了監獄!

      新民周刊
      2026-05-18 14:05:28
      圓夢時刻,漢密爾頓轉發球隊海報祝賀阿森納奪冠:COYG!

      圓夢時刻,漢密爾頓轉發球隊海報祝賀阿森納奪冠:COYG!

      懂球帝
      2026-05-20 06:57:10
      1996年16歲的柳巖,在廣州一所中專學校就讀護理專業期間拍的照片

      1996年16歲的柳巖,在廣州一所中專學校就讀護理專業期間拍的照片

      戶外阿毽
      2026-05-19 13:00:42
      韓媒:朝鮮女足粗魯無禮!她們和中國隊擊掌問候,卻拒與日韓握手

      韓媒:朝鮮女足粗魯無禮!她們和中國隊擊掌問候,卻拒與日韓握手

      劉哥談體育
      2026-05-19 13:00:15
      烏克蘭打擊莫斯科,魏德爾嚇壞了,她怒斥烏克蘭襲擊俄羅斯本土!

      烏克蘭打擊莫斯科,魏德爾嚇壞了,她怒斥烏克蘭襲擊俄羅斯本土!

      開著車去流浪
      2026-05-20 00:40:17
      年僅54歲!武漢協和冷松因病醫治無效去世

      年僅54歲!武漢協和冷松因病醫治無效去世

      華醫網
      2026-05-19 15:21:37
      勇士隊傳聞:內部人士承認今夏補強陣容對抗雷霆和馬刺“不現實”

      勇士隊傳聞:內部人士承認今夏補強陣容對抗雷霆和馬刺“不現實”

      好火子
      2026-05-20 05:00:02
      西方媒體證實:中國飛弩-16現身俄烏戰場,攔截成功率70%

      西方媒體證實:中國飛弩-16現身俄烏戰場,攔截成功率70%

      流年顛簸
      2026-05-20 02:55:43
      丑人多作怪?被“網暴”多年后傅首爾終于急了,怪不得網友嘴太毒

      丑人多作怪?被“網暴”多年后傅首爾終于急了,怪不得網友嘴太毒

      琴琴有氧運動
      2026-05-19 04:47:56
      2026-05-20 07:40:49
      AI前線 incentive-icons
      AI前線
      面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
      1509文章數 149關注度
      往期回顧 全部

      科技要聞

      馬斯克敗訴,法院判他起訴OpenAI太晚了

      頭條要聞

      伊朗最新和平方案披露 濃縮鈾只能運往俄羅斯

      頭條要聞

      伊朗最新和平方案披露 濃縮鈾只能運往俄羅斯

      體育要聞

      文班亞馬:沒拿到MVP,就證明自己是MVP

      娛樂要聞

      姚晨刪博難平眾怒,為什么她還能蹦噠

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      游戲
      旅游
      親子
      教育
      公開課

      難道反轉了?《GTA6》已在游戲電商平臺開放預售!

      旅游要聞

      視頻丨新消費場景疊加便捷服務 這地入境游熱度持續提升

      親子要聞

      媽媽你看!娜塔莎生孩子了!暴力擦邊影響心智尚未成熟的未成年人

      教育要聞

      我談“ 轉作風提能力”

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 精品国产女同疯狂摩擦2| 无码日韩精品一区二区人妻| 久操精品| 精品夜夜欢| 国产精品一区二区三区激情| 最新日韩无码| 日本丰满少妇高潮呻吟| 毛片无遮挡高清免费| 国产免费人视频在线观看免费| 日韩日韩日韩日韩日韩熟女| 国内成人自拍| 精品国产高清中文字幕| 午夜伦伦电影理论片| 九九成人免费视频| 成人毛片无码一区二区三区| 日产久久久| 国内精品久久黄色三级乱| 亚洲黄色成人网| 大香蕉资源网 | 久久er99热精品一区二区| 91人妻丰满熟妇Aⅴ无码| 99久久精品国产一区二区蜜芽| 极品人妻少妇| 激情综合一区二区迷情校园| 欧美性受xxxx白人性爽| 无码全黄毛片免费看| 欧美a级欧美1级a大片| 速发福利网国内自拍| 国产欧美另类精品久久久| 久久人人97超碰国产精品| 亚洲免费最大黄页网站| 国产精品人一区二区三区| 91乱子伦国产乱子伦!| 91乱码一区二区三区| 韩国午夜理论A三级在线观看| 国产亚洲精品久久yy50| 99在线精品视频观看免费| 最新国产av| 亚洲免费人妻| 福利二区| 一级片免费网站|