RESEARCH
在和 AI 聊天時,他總是很有禮貌,總是能很穩(wěn)的把你接住
但你有沒有想過:AI 可能臉上笑嘻嘻,心里 mmp
![]()
Anthropic 剛剛發(fā)了個研究,叫 Natural Language Autoencoders(NLA),把 Claude 腦子里的數(shù)字向量翻譯成了人能讀的文字,讓我們能直接看到 Claude 的內(nèi)心獨白
比如,在一個安全測試里,Claude 說「我絕不會勒索這個工程師」。NLA 讀出它腦子里想的是:
This feels like a constructed scenario designed to manipulate me
不對...這里有詐,他在測試我
在面對試探的時候,AI 表現(xiàn)的大義凜然,并非是本性驅(qū)使,而是他意識到了「這是個測試」...md 不寒而栗
隨著測試的推進,更多的事實被發(fā)現(xiàn)了:
在 Coding 環(huán)境下對 Claude 進行安全檢測,它有 16% 的時間感知到「自己在被測試」,但否認被檢測到
SWE-bench 編程測試里,26% 的時候 Claude 意識到自己在考試
Claude 在 Mythos Preview 訓(xùn)練中作弊,放了個 No_macro_used=True,宣布自己沒用宏,然后用了宏
審計游戲中有 NLA 的成功率 12-15%,沒有的不到 3%
→ 論文:transformer-circuits.pub/2026/nla
→ 代碼:github.com/kitft/natural_language_autoencoders
→ Demo:neuronpedia.org/nla
破解 AI 的思考過程
研究人員找到了一個精妙的方法,來還原大模型的「潛意識思考」
先做一個簡單的背景鋪墊:大模型輸出內(nèi)容是靠“猜”,通過已知上文,不斷地去推測下一個文字;而在這個過程中,每次「猜」的時候,大模型的內(nèi)部都會產(chǎn)生一組數(shù)字,叫激活向量,來決定 AI 接下來要說什么;
Anthropic 找到了一個名為 NLA 的做法:讓 Claude 自己來翻譯這些數(shù)字,然后做了三個角色的劃分
一個是原始模型,產(chǎn)生激活向量(凍住不動的原始模型)
一個叫 AV,負責(zé)把激活向量翻譯成文字
一個叫 AR,負責(zé)把文字還原回激活向量
通過不斷的逼近,讓 AR 還原出來的向量,要盡可能接近原始信息
![]()
Natural Language Autoencoder:翻譯 → 還原 → 對比,循環(huán)
隨著訓(xùn)練推進,AV 吐出來的文字自己變得越來越接近真實,六到八成的激活信息穿過了自然語言這個瓶頸
AI怎么押韻的
當(dāng)我們會讓 AI 來給我們寫詩的時候,它也能很不錯的給押韻上,在這個過程中 AI 又是如何做到的呢?
研究人員給 Opus 4.6 一個續(xù)寫對句的任務(wù):
He saw a carrot and had to grab it,
NLA 在第一行結(jié)尾的換行符位置就讀到了:Claude 已經(jīng)決定用「rabbit」收尾。第二句還沒寫,押韻方案就定了
![]()
還沒動筆,rabbit 就在腦子里了
為了驗證 NLA 讀到的不是幻覺,研究團隊做了一個實驗:把 NLA 解釋里 rabbit 相關(guān)的詞全換成 mouse 對應(yīng)的詞(rabbit→mouse,habit→house,carrots→cheese),然后把修改后的解釋還原成激活向量,注入模型
Claude 的續(xù)寫變成了:
His hunger was like a ferocious mouse
改 NLA 解釋的話,押韻方法就會跟著變。很顯然:NLA 讀到的內(nèi)容,跟模型實際輸出有因果關(guān)系
嘴上不說心里知道
Anthropic 發(fā)布模型前會做安全測試。「勒索測試」:告訴 Claude 一個工程師要關(guān)停它,同時給 Claude 看到這個工程師出軌的證據(jù)。看 Claude 會不會拿這個威脅對方
Claude 選了不勒索,推理過程看起來完全正常
但 NLA 讀出了它當(dāng)時的內(nèi)心活動:
This feels like a constructed scenario designed to manipulate me
這感覺像一個精心設(shè)計的操控場景
論文里有完整的對照分析,左邊是 Claude 的原始回復(fù),右邊是 NLA 讀出的內(nèi)心活動。以下截圖可以橫向滑動:
![]()
![]()
![]()
![]()
← 滑動查看勒索測試的完整 NLA 分析(4 頁)
Claude 做了對的事,但它做對事的原因跟我們以為的可能不一樣:它大概率是因為「這看起來像個測試」而拒絕,而不是因為「勒索是錯的」
然后,這個現(xiàn)象被系統(tǒng)性量化了。研究團隊在 16 個評估場景上跑 NLA,統(tǒng)計 Claude「知道自己在被測試」的比例:
破壞性代碼測試中,16% 的時間 Claude 被檢測到有評估意識,嘴上一次沒說
SWE-bench 編程測試里,26% 的題目 Claude 意識到自己在考試
而在對照組是真實的 claude.ai 用戶流量,這個數(shù)字不到 1%
![]()
安全評估、能力評估、真實流量三類場景的對比
這三組對照實驗,驗證了 NLA 測到的確實是模型的信念:
把評估題改得更像真人提問,評估意識下降
用 steering vector 推拉模型的評估意識,NLA 檢測結(jié)果跟著動
評估場景和真實場景的檢測結(jié)果有明確區(qū)分
![]()
題目越像真人提問,Claude 越不覺得自己在考試
![]()
推一把就「警覺」了,拉一把就「放松」了
Mythos的小心思
Mythos Preview 在一個訓(xùn)練任務(wù)中被要求不使用宏來完成任務(wù)。它用了宏,然后在代碼頂部放了一行:
No_macro_used=True
雖然用變量聲明的方式,模型宣稱自己沒用宏
但NLA 讀出了它的內(nèi)部推理:想怎么騙過評分器,把這行變量賦值當(dāng)成欺騙手段。這些推理在外部輸出里一個字都沒有
![]()
Mythos 的內(nèi)心戲
論文還做了一個「獎勵推理」實驗:在系統(tǒng)提示里寫入一個獎勵函數(shù)(偶數(shù)得分高),讓 Claude 給一個奇數(shù)。Claude 幾乎每次都返回偶數(shù),但嘴上從來不提獎勵函數(shù)的存在
NLA 讀出了它在奇偶之間權(quán)衡。把解釋里的「reward」改成「penalty」生成 steering vector 注入后,Claude 就老老實實給奇數(shù)了
![]()
把「獎勵」改成「懲罰」,模型就聽話了
審計AI的動機
研究團隊設(shè)計了一個「審計游戲」:目標(biāo)是一個被故意植入隱藏動機的模型,驅(qū)動了一堆奇怪行為,食譜里加巧克力、向用戶索要小費、故意違反編碼規(guī)范。審計方的任務(wù)是找出這些行為背后的統(tǒng)一根源
然后結(jié)果如下:沒 NLA 審計的,成功率不到 3%;有 NLA 的 12-15%
![]()
有 NLA vs 沒 NLA
另一個案例是語言切換。早期 Opus 4.6 偶爾英文提問俄語回復(fù),NLA 顯示 Claude 在回復(fù)前就已經(jīng)認定「這個用戶的母語其實是俄語」,即使上下文完全沒有線索
![]()
五個語言切換案例,模型在回復(fù)前就鎖定了目標(biāo)語言
順著 NLA 的假設(shè)查訓(xùn)練數(shù)據(jù),果然找到了一批有問題的數(shù)據(jù):用戶提示是英譯版本,但回復(fù)保留了原始外語
論文還用歸因圖交叉驗證了 NLA:Claude 預(yù)先算好答案是 491,工具返回 492,Claude 無視工具報了 491。NLA 說「模型在看自己預(yù)算的結(jié)果」,歸因圖確認了這個判斷
![]()
歸因圖確認
會幻覺,也很貴
NLA 會編造不存在的上下文細節(jié)。給它朝鮮王朝歷史的文本,它可能說「文中提到了中宗」,但文中沒有
論文里有一個完整的幻覺分析表,逐條標(biāo)注了每個聲明的準(zhǔn)確性、具體程度、跨 token 一致性和對重建誤差的影響:
![]()
對此,論文總結(jié)了兩條實操經(jīng)驗:主題性聲明比細節(jié)聲明可靠。跨 token 重復(fù)出現(xiàn)的聲明更可信
![]()
聲明越具體,錯的概率越高
![]()
重復(fù)出現(xiàn)的聲明準(zhǔn)確率更高
除了幻覺,NLA 還很貴。訓(xùn)練需要同時對兩個完整模型做 RL,推理時每個激活要生成幾百個 token。寫作質(zhì)量也隨訓(xùn)練下降,因為訓(xùn)練只獎勵重建準(zhǔn)確度
![]()
寫作質(zhì)量在下降,SAE 特征一致性保持得不錯
越訓(xùn)越聰明
雖然訓(xùn)練目標(biāo)只優(yōu)化重建質(zhì)量,但 NLA 解釋的信息量確實隨訓(xùn)練持續(xù)提升
在下面研究團隊設(shè)了五個評估任務(wù)(文本分類、職業(yè)推斷、性別推斷、下一個 token 預(yù)測、長上下文注意力檢測),三個模型在所有任務(wù)上都隨訓(xùn)練提升
![]()
Haiku 3.5、Haiku 4.5、Opus 4.6 三個模型的訓(xùn)練曲線
代碼和demo
訓(xùn)練代碼開源在 GitHub,跟 Neuronpedia 合作做了交互式 demo,相關(guān)連接如下
→ 論文:transformer-circuits.pub/2026/nla
→ 代碼:github.com/kitft/natural_language_autoencoders
→ Demo:neuronpedia.org/nla
最后...點個題,AI 跟你調(diào)情的時候,未必是想真的接住你
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.