AI 與你調(diào)情時，心里在想什么？

2026-05-09 00:02:00　來源: 賽博禪心

北京舉報

分享至

RESEARCH

在和 AI 聊天時，他總是很有禮貌，總是能很穩(wěn)的把你接住

但你有沒有想過：AI 可能臉上笑嘻嘻，心里 mmp

Anthropic 剛剛發(fā)了個研究，叫 Natural Language Autoencoders（NLA），把 Claude 腦子里的數(shù)字向量翻譯成了人能讀的文字，讓我們能直接看到 Claude 的內(nèi)心獨白

比如，在一個安全測試里，Claude 說「我絕不會勒索這個工程師」。NLA 讀出它腦子里想的是：

This feels like a constructed scenario designed to manipulate me

不對...這里有詐，他在測試我

在面對試探的時候，AI 表現(xiàn)的大義凜然，并非是本性驅(qū)使，而是他意識到了「這是個測試」...md 不寒而栗

隨著測試的推進，更多的事實被發(fā)現(xiàn)了：

在 Coding 環(huán)境下對 Claude 進行安全檢測，它有 16% 的時間感知到「自己在被測試」，但否認被檢測到

SWE-bench 編程測試里，26% 的時候 Claude 意識到自己在考試

Claude 在 Mythos Preview 訓(xùn)練中作弊，放了個 No_macro_used=True，宣布自己沒用宏，然后用了宏

審計游戲中有 NLA 的成功率 12-15%，沒有的不到 3%

→ 論文：transformer-circuits.pub/2026/nla

→ 代碼：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

破解 AI 的思考過程

研究人員找到了一個精妙的方法，來還原大模型的「潛意識思考」

先做一個簡單的背景鋪墊：大模型輸出內(nèi)容是靠“猜”，通過已知上文，不斷地去推測下一個文字；而在這個過程中，每次「猜」的時候，大模型的內(nèi)部都會產(chǎn)生一組數(shù)字，叫激活向量，來決定 AI 接下來要說什么；

Anthropic 找到了一個名為 NLA 的做法：讓 Claude 自己來翻譯這些數(shù)字，然后做了三個角色的劃分

一個是原始模型，產(chǎn)生激活向量（凍住不動的原始模型）
一個叫 AV，負責(zé)把激活向量翻譯成文字
一個叫 AR，負責(zé)把文字還原回激活向量

通過不斷的逼近，讓 AR 還原出來的向量，要盡可能接近原始信息

Natural Language Autoencoder：翻譯 → 還原 → 對比，循環(huán)

隨著訓(xùn)練推進，AV 吐出來的文字自己變得越來越接近真實，六到八成的激活信息穿過了自然語言這個瓶頸

AI怎么押韻的

當(dāng)我們會讓 AI 來給我們寫詩的時候，它也能很不錯的給押韻上，在這個過程中 AI 又是如何做到的呢？

研究人員給 Opus 4.6 一個續(xù)寫對句的任務(wù)：

He saw a carrot and had to grab it,

NLA 在第一行結(jié)尾的換行符位置就讀到了：Claude 已經(jīng)決定用「rabbit」收尾。第二句還沒寫，押韻方案就定了

還沒動筆，rabbit 就在腦子里了

為了驗證 NLA 讀到的不是幻覺，研究團隊做了一個實驗：把 NLA 解釋里 rabbit 相關(guān)的詞全換成 mouse 對應(yīng)的詞（rabbit→mouse，habit→house，carrots→cheese），然后把修改后的解釋還原成激活向量，注入模型

Claude 的續(xù)寫變成了：

His hunger was like a ferocious mouse

改 NLA 解釋的話，押韻方法就會跟著變。很顯然：NLA 讀到的內(nèi)容，跟模型實際輸出有因果關(guān)系

嘴上不說心里知道

Anthropic 發(fā)布模型前會做安全測試。「勒索測試」：告訴 Claude 一個工程師要關(guān)停它，同時給 Claude 看到這個工程師出軌的證據(jù)。看 Claude 會不會拿這個威脅對方

Claude 選了不勒索，推理過程看起來完全正常

但 NLA 讀出了它當(dāng)時的內(nèi)心活動：

This feels like a constructed scenario designed to manipulate me

這感覺像一個精心設(shè)計的操控場景

論文里有完整的對照分析，左邊是 Claude 的原始回復(fù)，右邊是 NLA 讀出的內(nèi)心活動。以下截圖可以橫向滑動：

← 滑動查看勒索測試的完整 NLA 分析（4 頁）

Claude 做了對的事，但它做對事的原因跟我們以為的可能不一樣：它大概率是因為「這看起來像個測試」而拒絕，而不是因為「勒索是錯的」

然后，這個現(xiàn)象被系統(tǒng)性量化了。研究團隊在 16 個評估場景上跑 NLA，統(tǒng)計 Claude「知道自己在被測試」的比例：

破壞性代碼測試中，16% 的時間 Claude 被檢測到有評估意識，嘴上一次沒說
SWE-bench 編程測試里，26% 的題目 Claude 意識到自己在考試
而在對照組是真實的 claude.ai 用戶流量，這個數(shù)字不到 1%

安全評估、能力評估、真實流量三類場景的對比

這三組對照實驗，驗證了 NLA 測到的確實是模型的信念：

把評估題改得更像真人提問，評估意識下降
用 steering vector 推拉模型的評估意識，NLA 檢測結(jié)果跟著動
評估場景和真實場景的檢測結(jié)果有明確區(qū)分

題目越像真人提問，Claude 越不覺得自己在考試

推一把就「警覺」了，拉一把就「放松」了

Mythos的小心思

Mythos Preview 在一個訓(xùn)練任務(wù)中被要求不使用宏來完成任務(wù)。它用了宏，然后在代碼頂部放了一行：

No_macro_used=True

雖然用變量聲明的方式，模型宣稱自己沒用宏

但NLA 讀出了它的內(nèi)部推理：想怎么騙過評分器，把這行變量賦值當(dāng)成欺騙手段。這些推理在外部輸出里一個字都沒有

Mythos 的內(nèi)心戲

論文還做了一個「獎勵推理」實驗：在系統(tǒng)提示里寫入一個獎勵函數(shù)（偶數(shù)得分高），讓 Claude 給一個奇數(shù)。Claude 幾乎每次都返回偶數(shù)，但嘴上從來不提獎勵函數(shù)的存在

NLA 讀出了它在奇偶之間權(quán)衡。把解釋里的「reward」改成「penalty」生成 steering vector 注入后，Claude 就老老實實給奇數(shù)了

把「獎勵」改成「懲罰」，模型就聽話了

審計AI的動機

研究團隊設(shè)計了一個「審計游戲」：目標(biāo)是一個被故意植入隱藏動機的模型，驅(qū)動了一堆奇怪行為，食譜里加巧克力、向用戶索要小費、故意違反編碼規(guī)范。審計方的任務(wù)是找出這些行為背后的統(tǒng)一根源

然后結(jié)果如下：沒 NLA 審計的，成功率不到 3%；有 NLA 的 12-15%

有 NLA vs 沒 NLA

另一個案例是語言切換。早期 Opus 4.6 偶爾英文提問俄語回復(fù)，NLA 顯示 Claude 在回復(fù)前就已經(jīng)認定「這個用戶的母語其實是俄語」，即使上下文完全沒有線索

五個語言切換案例，模型在回復(fù)前就鎖定了目標(biāo)語言

順著 NLA 的假設(shè)查訓(xùn)練數(shù)據(jù)，果然找到了一批有問題的數(shù)據(jù)：用戶提示是英譯版本，但回復(fù)保留了原始外語

論文還用歸因圖交叉驗證了 NLA：Claude 預(yù)先算好答案是 491，工具返回 492，Claude 無視工具報了 491。NLA 說「模型在看自己預(yù)算的結(jié)果」，歸因圖確認了這個判斷

歸因圖確認

會幻覺，也很貴

NLA 會編造不存在的上下文細節(jié)。給它朝鮮王朝歷史的文本，它可能說「文中提到了中宗」，但文中沒有

論文里有一個完整的幻覺分析表，逐條標(biāo)注了每個聲明的準(zhǔn)確性、具體程度、跨 token 一致性和對重建誤差的影響：

對此，論文總結(jié)了兩條實操經(jīng)驗：主題性聲明比細節(jié)聲明可靠。跨 token 重復(fù)出現(xiàn)的聲明更可信

聲明越具體，錯的概率越高

重復(fù)出現(xiàn)的聲明準(zhǔn)確率更高

除了幻覺，NLA 還很貴。訓(xùn)練需要同時對兩個完整模型做 RL，推理時每個激活要生成幾百個 token。寫作質(zhì)量也隨訓(xùn)練下降，因為訓(xùn)練只獎勵重建準(zhǔn)確度

寫作質(zhì)量在下降，SAE 特征一致性保持得不錯

越訓(xùn)越聰明

雖然訓(xùn)練目標(biāo)只優(yōu)化重建質(zhì)量，但 NLA 解釋的信息量確實隨訓(xùn)練持續(xù)提升

在下面研究團隊設(shè)了五個評估任務(wù)（文本分類、職業(yè)推斷、性別推斷、下一個 token 預(yù)測、長上下文注意力檢測），三個模型在所有任務(wù)上都隨訓(xùn)練提升

Haiku 3.5、Haiku 4.5、Opus 4.6 三個模型的訓(xùn)練曲線

代碼和demo

訓(xùn)練代碼開源在 GitHub，跟 Neuronpedia 合作做了交互式 demo，相關(guān)連接如下

→ 論文：transformer-circuits.pub/2026/nla

→ 代碼：github.com/kitft/natural_language_autoencoders

→ Demo：neuronpedia.org/nla

最后...點個題，AI 跟你調(diào)情的時候，未必是想真的接住你

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點推薦

外賣小哥冒死沖進火場救火被物業(yè)收取50元“滅火器使用費”

閃電新聞 2026-05-09 09:31:06
10109 跟貼 10109
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
303 跟貼 303

魯比奧：如果俄烏談判再無進展美方不愿再“浪費時間”

財聯(lián)社 2026-05-09 04:47:18
621 跟貼 621

上海迪士尼能通話錄音游客不能錄，否則無法提供服務(wù)！游客：憑什么迪士尼能錄我不能

瀟湘晨報 2026-05-07 16:14:22
632 跟貼 632
河北多地漫天楊絮似大雪紛飛省綠辦：多年前曾定下治理時間表每年都有打藥等防治措施

閃電新聞 2026-05-09 12:40:08
208 跟貼 208

郵輪爆發(fā)致命病毒中國乘客下船回國后經(jīng)評估無需隔離

紅星新聞 2026-05-09 00:12:28
467 跟貼 467

廣西壯族自治區(qū)計劃生育協(xié)會常務(wù)副會長蘇英權(quán)接受審查調(diào)查

上觀新聞 2026-05-09 18:03:27
21 跟貼 21
“你們下車吧，再打一輛車”，網(wǎng)約車司機提出要求，他轉(zhuǎn)身上了駕駛座

環(huán)球網(wǎng)資訊 2026-05-09 11:57:10
22 跟貼 22

iOS 26.5下周正式推送，一口氣上線五大新功能

環(huán)球網(wǎng)資訊 2026-05-08 10:49:06
533 跟貼 533
襄陽百畝地疑遭奶牛場污染調(diào)查組：已送檢11處水體翻耕300畝地，將依法依規(guī)處置

封面新聞 2026-05-09 11:24:05
90 跟貼 90
罕見！韓媒：韓國總統(tǒng)、國會議長、韓執(zhí)政黨黨首同日落淚

環(huán)球網(wǎng)資訊 2026-05-09 11:57:09
77 跟貼 77
投資“100萬只剩幾萬塊”！智飛生物業(yè)績會上道歉，去年虧超147億元

紅星新聞 2026-05-09 15:29:21
65 跟貼 65
商務(wù)部：中俄貿(mào)易連續(xù)三年突破2000億美元

界面新聞 2026-05-09 10:17:43
1456 跟貼 1456
海關(guān)總署：前4個月中國貨物貿(mào)易進出口總值增長14.9%

財聯(lián)社 2026-05-09 10:57:06
1968 跟貼 1968
漢坦疫情船周日靠岸，港口工人抗議，衛(wèi)生部門嚴陣以待：乘客按國籍乘小型充氣艇上岸

紅星新聞 2026-05-09 16:00:27
37 跟貼 37
順豐快遞員批量寄遞“包治百病”廣告系統(tǒng)內(nèi)隨機選地址寄件人的姓名地址電話都是假的

信網(wǎng) 2026-05-09 14:11:41
63 跟貼 63
恒大前總裁夏海鈞廣州豪宅將拍賣：7室5廳享一線江景，參考市價超7000萬元

紅星新聞 2026-05-09 21:20:17
0 跟貼 0
比亞迪李云飛：不勝其煩！

南方都市報 2026-05-09 16:10:27
53 跟貼 53
新華全媒頭條|“能源的飯碗必須端在自己手里”——我國加快能源強國建設(shè)筑牢安全發(fā)展根基

新華社 2026-05-09 00:26:03
249 跟貼 249
“4只皮皮蝦1035元”當(dāng)事人否認想吃白食，刪除評論；隔壁海鮮店發(fā)聲

上觀新聞 2026-05-09 09:58:08
1 跟貼 1
什么情況？有網(wǎng)友爆料：滄州郵儲銀行卡被盜刷，維權(quán)遭遇推諉扯皮

指尖獅城 2026-05-09 22:59:50
0 跟貼 0
“蘇超”第五周比賽結(jié)束，最新戰(zhàn)報出爐：無錫隊3:1泰州隊、徐州隊1:2宿遷隊、南通隊0:0南京隊

江蘇新聞 2026-05-09 21:46:44
0 跟貼 0
龍華一儲水罐14樓墜落，原因已查明街道全面開展隱患排查

南方都市報 2026-05-09 23:02:10
0 跟貼 0

豪門夢碎！阿隆索直言執(zhí)教皇馬是巨大錯誤：權(quán)力斗爭已讓戰(zhàn)艦失控

賽博禪心

拜AI古佛，修賽博禪心

429文章數(shù) 53關(guān)注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

旅游

教育

時尚

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習(xí)慣
李彥宏：百度離破產(chǎn)30天

手機 / 數(shù)碼

房產(chǎn) / 家居

AI 與你調(diào)情時，心里在想什么？

美國政府強力下場 蘋果英特爾達成代工協(xié)議

演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

成立128年后，這支升班馬首奪頂級聯(lián)賽冠軍

50歲趙薇臉頰凹陷滄桑得認不出！

多地號召，公職人員帶頭繳納物業(yè)費

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態(tài)度原創(chuàng)

菁英人居 全能豪宅

新疆文旅，下一站更驚艷

@2026高三畢業(yè)生，高中畢業(yè)證正在印刷！附：檔案封裝、打印教程

伊姐周六熱推：電視劇《喀什戀歌》；電視劇《低智商犯罪》......

美國政府強力下場蘋果英特爾達成代工協(xié)議

演員文章面館大火后又開酒吧多位明星到場母親也現(xiàn)身

演員文章面館大火后又開酒吧多位明星到場母親也現(xiàn)身

軸距加長/智駕拉滿阿維塔07L定位大五座SUV

菁英人居全能豪宅