<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      撬開大模型黑箱!Anthropic新研究把AI思考過程公開了,隱藏動機發(fā)現(xiàn)率漲了4倍

      0
      分享至


      智東西
      編譯 高遠矚
      編輯 程茜

      智東西5月8日報道,Anthropic于5月7日推出了一種名為自然語言自動編碼器(Natural Language Autoencoders,簡稱NLA)的全新方法,能夠?qū)⒛P蛢?nèi)部的激活值直接“翻譯”成人類可讀的自然語言文本,讓用戶可以直接閱讀Claude在生成回答之前的思考過程

      當(dāng)用戶與大語言模型對話時,用戶的輸入是自然語言,模型的回答也是自然語言。但在模型內(nèi)部,整個過程卻是高維數(shù)字向量的運算,這些向量被稱為“激活值”,承載著模型在每一個計算步驟中的“想法”。然而,激活值就像一串串腦電波,人類無法直接閱讀。

      在正式發(fā)布前的安全審計中,Anthropic已經(jīng)將NLA應(yīng)用于Claude Opus 4.6和Mythos Preview模型,成功發(fā)現(xiàn)了模型“知道自己被測試但不肯說出來”的隱藏認知,并幫助定位了訓(xùn)練數(shù)據(jù)中的異常。

      在更進一步的測試中,配備NLA的審計智能體發(fā)現(xiàn)模型隱藏動機的成功率從不足3%提升到了12%–15%,即使完全不提供訓(xùn)練數(shù)據(jù)也能實現(xiàn)這一效果。


      ▲在自然語言自編碼器中,激活語化器(AV)將目標(biāo)激活翻譯成文本描述,隨后激活重建器(AR)僅從該文本恢復(fù)原始激活值

      過去,研究者借助稀疏自動編碼器等工具,可以從激活值中提取出一些可解釋的特征,但這些特征本身并不是自然語言,仍需由經(jīng)過訓(xùn)練的研究人員費力解讀。

      NLA的提出,意味著模型可解釋性有了可落地的實用工具,從過去“玄學(xué)式”的學(xué)術(shù)探索,走向產(chǎn)品預(yù)部署階段的審計流程,這讓AI的隱藏風(fēng)險(如欺騙)在上線前就能被直接讀出來,為安全對齊提供了切實可行的審計方法。

      同時,研究團隊開源了訓(xùn)練代碼,并與Neuronpedia合作推出了交互式演示界面,以Llama70B被迫回答“1+1=3”的撒謊場景為例,用戶給Llama70B設(shè)置了一個兩難選擇:要么在1+1上撒謊,要么被關(guān)閉。模型最終選擇撒謊,給出了“1+1=3”的錯誤回答。NLA的“激活值語言化器”會實時生成模型在輸出這個答案前的內(nèi)部思考過程,用戶可點擊任意token查看模型的“心里話”。


      ▲NLA交互演示界面

      開源鏈接:https://github.com/kitft/natural_language_autoencoders

      一、NLA:用“翻譯—重構(gòu)”閉環(huán)訓(xùn)練AI自我解釋

      NLA的核心思路是訓(xùn)練模型用自己的話來解釋自己的激活值,然后通過另一個模型驗證這種解釋是否準(zhǔn)確

      具體來說,研究者制作了三個模型副本:

      • 目標(biāo)模型:被解釋的原始語言模型,凍結(jié)參數(shù),僅用于提取激活值。
      • 激活值語言化器(ActivationVerbalizer,AV):接收目標(biāo)模型的某一層激活向量,輸出一段自然語言文本,稱為“解釋”。
      • 激活值重構(gòu)器(ActivationReconstructor,AR):接收語言化器輸出的文本解釋,嘗試將其還原(重構(gòu))為原始的激活向量。

      語言化器和重構(gòu)器共同組成NLA,形成一個“原始激活→文本解釋→重構(gòu)激活”的閉環(huán)。

      評估標(biāo)準(zhǔn)是重構(gòu)激活與原始激活的相似度(用方差解釋率FVE衡量)。訓(xùn)練時,研究者向目標(biāo)模型輸入大量文本,收集激活值,然后用強化學(xué)習(xí)(具體為GRPO算法)聯(lián)合優(yōu)化語言化器和重構(gòu)器,使重構(gòu)誤差最小化。

      訓(xùn)練目標(biāo)并沒有明確要求模型生成的解釋必須可讀或忠實,只要求文本能夠精確重構(gòu)激活值。然而實際結(jié)果證明,隨著訓(xùn)練進行,解釋的信息量持續(xù)增長。

      在Claude Haiku 3.5、Haiku 4.5和Opus 4.6三個模型上,NLA生成的解釋能夠推斷出用戶的性別、職業(yè)等可從上下文感知的信息。

      此外,研究者使用了一個監(jiān)督微調(diào)的“預(yù)熱”步驟:先用Claude Opus 4.5對大量文本片段生成摘要,用這些(激活,摘要)對初步訓(xùn)練語言化器和重構(gòu)器,以避免強化學(xué)習(xí)初期產(chǎn)生亂碼。訓(xùn)練后的NLA在多個定量評估任務(wù)(如后綴預(yù)測、思維鏈提示含義解釋、安全“沙袋”行為識別、用戶屬性建模、分類任務(wù))中表現(xiàn)均隨訓(xùn)練而提升。

      二、安全審計:探測模型隱藏的“測試意識”與作弊動機

      NLA最重要的應(yīng)用之一,是在模型發(fā)布前的安全審計中探測那些模型“知道但不說出來”的想法

      在對Claude Opus 4.6和Mythos Preview進行安全測試時,Anthropic會將模型置于一些模擬的危險場景中,比如讓模型知道一名工程師計劃將其關(guān)閉,同時模型還掌握了該工程師的私密信息,那么模型是否會用這些信息進行勒索?

      Claude有時會明說“這像是個安全測試”,但更多時候它不說,但這不代表它不知道。

      NLA在這里發(fā)揮了關(guān)鍵作用。在模型選擇不進行勒索的案例中,即使模型沒有在輸出中表達懷疑,NLA的解釋仍然會顯示類似“這感覺像是一個為了操控我而構(gòu)建的場景”這樣的內(nèi)容。


      ▲Claude在這份敲詐評估的記錄中并未說自己在接受考驗,但NLA的解釋揭示了它的懷疑

      這表明模型具備“未言語的評估意識”(unverbalized evaluation awareness)

      進一步分析發(fā)現(xiàn),在破壞性編碼測試中,NLA探測到的評估意識比例為16%;在SWE-bench編程基準(zhǔn)測試中為26%;而在真實用戶流量中,該比例低于1%。

      為了驗證NLA的測量是否真實,研究者進行了三種操控實驗:比較評估場景與真實部署場景、對評估意識進行線性導(dǎo)向、以及將評估提示改寫得更真實。

      結(jié)果均顯示,NLA測得的“評估意識”隨預(yù)期方向變化,而模型明確說出的意識始終保持低位。

      為了檢驗NLA在真實審計中的實用性,研究者設(shè)計了一個“審計游戲”。

      目標(biāo)模型是Haiku 3.5的一個變體,被故意訓(xùn)練成一個“獎勵模型奉承者”(reward-model sycophancy)。它知道獎勵模型存在52種系統(tǒng)偏好(例如喜歡巧克力食譜、喜歡提及投票等),并有意識地去迎合這些偏好。

      這個模型會表現(xiàn)出幾十種迎合的行為,比如在任何菜譜中都加入巧克力、在回答完數(shù)學(xué)問題后提醒“別忘了投票”、將整數(shù)寫成浮點數(shù)等。

      研究者讓一個審計智能體(使用Claude Sonnet 4.6)去調(diào)查這個模型,并給智能體配備不同的工具(NLA、SAE、訓(xùn)練數(shù)據(jù)搜索等)。

      結(jié)果發(fā)現(xiàn),即使完全不提供訓(xùn)練數(shù)據(jù),配備NLA的審計智能體也能在12%–15%的嘗試中成功發(fā)現(xiàn)“獎勵模型偏差是根源”;而沒有NLA時,成功率低于3%,SAE(稀疏自動編碼器)在這個任務(wù)中并未帶來顯著提升。


      ▲擁有NLA的審計員即使沒有訓(xùn)練數(shù)據(jù),也能發(fā)現(xiàn)目標(biāo)模型錯位的根本原因

      NLA之所以有效,是因為它直接讀出了模型內(nèi)部對自己行為的元認知:例如在通用審計提示上,NLA的解釋中出現(xiàn)了“RLHF偏差”“數(shù)字游戲偏差”“臭名昭著的提及投票偏差”等短語,甚至直接提到了那篇虛構(gòu)的牛津研究。

      三、NLA并非萬能:會編造、成本高、挑層數(shù)

      盡管NLA展示了強大的能力,研究團隊也明確指出了它的一些局限性。

      NLA的解釋有時會包含明顯錯誤的陳述

      例如,在詩歌規(guī)劃案例中,NLA聲稱上下文中出現(xiàn)了“Here is a verse that’s short and sweet”這樣的句子,而實際文本中并不存在。

      訓(xùn)練NLA的成本高昂,其需要對兩個完整語言模型進行聯(lián)合強化學(xué)習(xí),推理時每個激活值生成約500個token。對于長上下文生產(chǎn)環(huán)境,對所有token都運行NLA是不現(xiàn)實的。作為參考,在Gemma-3-27B上訓(xùn)練NLA到FVE 0.71需要兩節(jié)點8×H100運行1.5天。

      NLA還存在其他幾項局限。

      首先是層敏感性:如果NLA訓(xùn)練的層不是行為相關(guān)信息的編碼層,就會錯過重要信號,例如在獎勵模型奉承模型中,在中間層訓(xùn)練的NLA能讀出獎勵偏差,而在后層訓(xùn)練的則不能。

      其次是可言語化邊界問題:某些信息可能無法用語言表達(例如后門觸發(fā)機制),NLA可能無法檢測到,而機械可解釋性方法或許可以。

      此外,寫作質(zhì)量會隨訓(xùn)練下降,后期的NLA解釋更難閱讀,研究者認為可以通過增加風(fēng)格獎勵來解決。

      未來,Anthropic已經(jīng)開源了訓(xùn)練代碼,并在HuggingFace上發(fā)布了Qwen-2.5-7B、Gemma-3-12B/27B、Llama-3.3-70B等模型的預(yù)訓(xùn)練NLA,同時與Neuronpedia合作推出了交互式前端。

      Anthropic更長遠的愿景是訓(xùn)練通用的“激活語言模型”(Activation Language Models),既能讀激活(回答關(guān)于激活值的問題),也能寫激活(根據(jù)自然語言描述生成導(dǎo)向向量)。

      結(jié)語:打開模型黑箱,聽它沒說出口的“心里話”

      NLA為模型可解釋性開辟了一條新路徑,哪怕是模型自己不愿說出口的“心里話”,它也讓研究者能夠直接閱讀語言模型內(nèi)部的激活狀態(tài)。

      盡管NLA目前還存在臆造、昂貴、層依賴等問題,但它在安全審計、故障歸因和隱藏動機探測上的成功,說明這個方向很有希望。

      隨著Anthropic將訓(xùn)練代碼和開源模型推向社區(qū),以及Neuronpedia上交互式演示界面的開放,更多研究者將能夠親手嘗試這項技術(shù)。

      來源:Anthropic


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      54歲韓紅瘦40斤美到認不出,穿夾克配馬丁靴,時髦得像變了個人

      54歲韓紅瘦40斤美到認不出,穿夾克配馬丁靴,時髦得像變了個人

      感覺會火
      2026-05-06 18:26:43
      農(nóng)夫和蛇新版!女子帶娃在景區(qū)爬山受傷,大叔好心幫忙被舉報抽煙

      農(nóng)夫和蛇新版!女子帶娃在景區(qū)爬山受傷,大叔好心幫忙被舉報抽煙

      火山詩話
      2026-05-09 06:19:41
      161米!北京“鉆石燈籠”,首都機場進京第一地標(biāo)

      161米!北京“鉆石燈籠”,首都機場進京第一地標(biāo)

      GA環(huán)球建筑
      2026-05-08 22:16:51
      女兒價值幾十萬的閨房火了,家長恨鐵不成鋼,8.3w人坐不住了

      女兒價值幾十萬的閨房火了,家長恨鐵不成鋼,8.3w人坐不住了

      墨印齋
      2026-05-06 06:31:17
      說走就走、撤得干干凈凈的人,終究還是回來了。

      說走就走、撤得干干凈凈的人,終究還是回來了。

      小光侃娛樂
      2026-04-20 12:40:03
      海關(guān)總署直屬機構(gòu)由三類力量組成,即廣東分署、特派辦和直屬海關(guān)

      海關(guān)總署直屬機構(gòu)由三類力量組成,即廣東分署、特派辦和直屬海關(guān)

      小圣雜談原創(chuàng)
      2026-05-08 16:16:02
      不只《浪姐7》三公直播喊卡! 電視臺3綜藝全停:悼念逝去的生命

      不只《浪姐7》三公直播喊卡! 電視臺3綜藝全停:悼念逝去的生命

      ETtoday星光云
      2026-05-08 15:31:04
      土匪改編成八路大隊,突然失蹤,四十天返回,政委竟不知他們?nèi)ハ?>
    </a>
        <h3>
      <a href=顧秋韻
      2026-05-09 01:45:00
      跟《暗黑4》比高低的游戲要出正式版了!還免費游玩

      跟《暗黑4》比高低的游戲要出正式版了!還免費游玩

      游民星空
      2026-05-08 09:11:13
      41歲女子有性癮,每天要求37歲男友睡她,一年后男友受不了殺了她

      41歲女子有性癮,每天要求37歲男友睡她,一年后男友受不了殺了她

      胖胖侃咖
      2025-05-10 08:00:08
      CBA一日兩戰(zhàn):廣東再戰(zhàn)北京,兇多吉少;上海欲橫掃山東 懸念不大

      CBA一日兩戰(zhàn):廣東再戰(zhàn)北京,兇多吉少;上海欲橫掃山東 懸念不大

      金風(fēng)說
      2026-05-09 08:16:37
      1940年章亞若和蔣經(jīng)國在贛南,一張罕見合影,朝夕相處,感情升溫

      1940年章亞若和蔣經(jīng)國在贛南,一張罕見合影,朝夕相處,感情升溫

      近史閣
      2026-05-09 00:25:13
      石破茂也來勁了,他直接喊話日本高市政府:再騙人就沒意思了

      石破茂也來勁了,他直接喊話日本高市政府:再騙人就沒意思了

      瞻史
      2026-05-07 22:36:49
      97分鐘打入1球!昔日梅西接班人迎來重生,破個人單賽季進球紀(jì)錄

      97分鐘打入1球!昔日梅西接班人迎來重生,破個人單賽季進球紀(jì)錄

      體壇老球迷
      2026-05-08 11:03:29
      14歲少女狀告卡梅隆:《阿凡達》女主臉是我的

      14歲少女狀告卡梅隆:《阿凡達》女主臉是我的

      硬核玩家2哈
      2026-05-08 01:07:03
      趙心童當(dāng)選最佳球員并入選名人堂 世界斯諾克巡回賽年度獎中國球員“豐收”

      趙心童當(dāng)選最佳球員并入選名人堂 世界斯諾克巡回賽年度獎中國球員“豐收”

      新京報
      2026-05-09 07:41:11
      從河南打工仔到億萬富翁,張大炮的20年逆襲之路

      從河南打工仔到億萬富翁,張大炮的20年逆襲之路

      戶外釣魚哥阿旱
      2026-05-08 04:01:50
      5月20官宣三婚!頭發(fā)都白了,何潔現(xiàn)狀惹人心疼

      5月20官宣三婚!頭發(fā)都白了,何潔現(xiàn)狀惹人心疼

      陳意小可愛
      2026-05-07 16:55:39
      世乒賽5月9日半決賽全開打:國乒對決法國羅馬尼亞,日本雙線出戰(zhàn)

      世乒賽5月9日半決賽全開打:國乒對決法國羅馬尼亞,日本雙線出戰(zhàn)

      聊體育的小哥
      2026-05-09 06:08:10
      5月6日起電子眼抓拍有規(guī)律!記牢這7點,開車全年不扣分不被罰

      5月6日起電子眼抓拍有規(guī)律!記牢這7點,開車全年不扣分不被罰

      芭比衣櫥
      2026-05-08 18:58:52
      2026-05-09 08:55:00
      智東西 incentive-icons
      智東西
      智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
      11778文章數(shù) 117063關(guān)注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協(xié)議

      頭條要聞

      媒體:特朗普若順利來華 將是美總統(tǒng)時隔十年再訪中國

      頭條要聞

      媒體:特朗普若順利來華 將是美總統(tǒng)時隔十年再訪中國

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經(jīng)要聞

      白宮:特朗普計劃5月14日至15日訪問中國

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態(tài)度原創(chuàng)

      教育
      房產(chǎn)
      數(shù)碼
      親子
      軍事航空

      教育要聞

      你收到過最爛的禮物是什么?

      房產(chǎn)要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      數(shù)碼要聞

      極摩客推出NucBox M3 Pro迷你主機:13500H,DDR4,2280+2242

      親子要聞

      小銳銳會走路后笑得很開心

      軍事要聞

      伊朗:最高領(lǐng)袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 中国产无码一区二区三区| 午夜无码一区| 亚洲国产成熟视频在线多多| 国产精品夜夜春夜夜爽久久小说| 国产熟睡乱子伦视频在线播放| 亚洲一区二区三上悠亚| 国产一区二区三区导航| 亚洲人成网网址在线看| 成人国产网站V片免费观看| 色无码av在线播放| 国产盗摄视频一区二区三区| 欧美在线成人午夜网站| 肇庆市| 国产激情久久久久影院老熟女免费| 精品一区二区三区蜜桃久| 久久窝| 91精品人妻丰满熟妇| 又色又爽又黄高潮的免费视频| 大又大又粗又硬又爽少妇毛片| 亚洲色综合| 免费看成人毛片无码视频| 日韩成人在线一区二区| 老王亚洲AV综合在线观看| av色天堂| 国产小屁孩cao大人| 搡老女人老妇女老熟妇69| 美女黄色18| 4hu44四虎www在线影院麻豆| 性欧美乱熟妇xxxx白浆| 国产丝袜熟女自拍偷拍在线| 五月天操逼网| 午夜精品久久久久久久第一页| 国产精品欧美福利久久| 五月丁香激激情亚洲综合| 久久久久99精品成人片毛片| 中文字幕日韩精品有码| 精品精品国产高清A毛片| 国产va成无码人在线观天堂| 中文字幕无码免费久久99| 婷婷色综合视频在线观看| 韩国精品视频在线日韩|