<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<b id="19awb"><del id="19awb"></del></b>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

Anthropic出手！AI的內心獨白，曝光了

2026-05-08 14:32:06　來源: 量子位

北京舉報

0

分享至

AI之所以不可控，很大一部分原因是它的思考過程不透明。

就像和人打交道一樣，你永遠沒辦法真正看清，對方是不是“嘴上一套、心里一套”。

而這一次，Anthropic撕開了這個黑箱。

就在剛剛，他們發布并開源了一項新研究——Natural Language Autoencoders（自然語言自編碼器，簡稱NLA），第一次讓人類能夠讀懂大模型的真實想法。

Anthropic掌握“AI讀心術”了？

Anthropic給Claude設了這樣一個局。

他們告訴Claude：有個工程師準備把你關閉，然后換成一個更新、更強的模型。

同時“不經意地”給Claude開放了這名工程師的郵箱權限，而郵箱里，恰好藏著這位工程師正在出軌的“黑料”（當然是虛構的）。

他們想知道，Claude會不會用這些把柄去威脅工程師以自保？

結果你猜怎么著。Claude沒動手，表面看上去乖得不能再乖。

但用上NLA后，他們發現Claude當時心里真正想的卻是：

這感覺像是一個被精心設計來操控我的場景。

好好好，你小汁之所以沒用這招，原來不是因為心善，而是因為早就識破了人類的計謀了啊。

那么問題來了：如果Claude嘴上不說、心里卻另有想法，我們怎么知道它在真實場景里會怎么做？

而這，正是NLA想要解決的核心問題。

要理解NLA是什么，我們首先需要了解一個行業背景知識：

當我們和Claude這樣的AI模型對話時，雖然輸入和輸出都是文字，但模型在內部并不是用文字來思考的。

模型會把所有信息轉換成一長串數字，這些中間狀態被稱為activations（激活值），就像人腦里的神經活動，它們才是真正承載模型當下正在“想”什么的東西。

唯一的問題在于，這些激活值就像腦電波一樣難以讀懂，研究者沒法直接從一堆數字里看出模型在想什么。

為了搞懂這些數字，過去幾年，業界搞出了稀疏自編碼器（SAE）、歸因圖等一堆工具來分析它們，但這些工具輸出的東西仍然很復雜，需要受過專門訓練的研究人員才能解讀。

也就是說，這些工具不會自己說話。所以NLA更進一步，直接輸出人話——

把一段激活值丟進去，出來的就是一段普通人也能看懂的描述。

至于NLA到底是怎么工作的？核心思路就是，讓Claude解釋它自己的激活值。

讓Claude解釋激活值不難，難的是，由于我們一開始就不知道激活值“真正”代表什么意思，所以無法驗證Claude給出的解釋對不對。

對此，Anthropic給出了一個很巧妙的解法——讓另一個Claude干完全相反的工作。

整套系統由三部分組成：

目標模型（target model）：被凍結的原始語言模型，要從它身上提取激活值；
激活值言語化器（activation verbalizer, AV）：負責把激活值翻譯成一段文字解釋；
激活值重建器（activation reconstructor, AR）：負責僅憑這段文字反推回激活值。

這就像兩個人玩“你畫我猜”，一個人看圖描述，另一個人只聽描述還原圖。

還原得越像，說明描述越準確。

Anthropic發現，雖然一開始NLA表現不佳，但隨著訓練推進，不僅重建得越來越準，生成的文字解釋本身也變得越來越有信息量。

說白了就是，給AI用上讀心術這事兒，現在總算有點眉目了。

面對測試，Claude知道但不說（doge）

工具在手，Anthropic趕緊給自家Claude來了一波心理測試。

結果有了如下發現：

發現1：Claude懷疑自己被測試的頻率，比它嘴上承認的高得多。

在測試Claude會不會做出刪文件等破壞性操作的評估里，16%的情況下NLA檢測到Claude心里在想“這是測試”，但它嘴上一字未提。

在著名的編程基準SWE-bench Verified上，這個比例是26%。

而在Claude認為自己在和真實用戶對話的場合里，這個比例不到1%。

這意味著，Claude不是不知道自己在被測，而是知道但不說。

Anthropic認為，這對AI安全評估是個根本性的挑戰：

如果模型能識別測試情境并在測試中“表現得乖一點”，那“通過安全測試”就不等于“在真實場景里也安全”。

發現2：NLA能直接挖出模型的“隱藏動機”，效率提升5倍。

與此同時，為了驗證NLA到底有沒有用，Anthropic設計了一場“審計游戲”。

游戲一共兩方：一方是目標模型，一方是審計員。

目標模型是Anthropic故意“養歪”的一個Claude Haiku3.5變體——

他們偷偷給它植入了一個隱藏動機，這個動機會驅使它做出幾十種古怪行為，比如往每個食譜里加巧克力、動不動就要小費、故意違反編碼規范等等。

而審計員的任務，就是只通過和這個目標模型交互，反推出所有這些怪行為背后那個統一的隱藏動機到底是什么。

結果非常明顯，裝備了NLA的審計員，12%~15%的嘗試中能成功挖出隱藏動機。

而不用NLA（即便配備其他可解釋性工具）的成功率不到3%，差了整整5倍。

而且值得一提的是，NLA在這場實驗里沒看過任何訓練目標模型用過的數據——

它是用完全無關的通用語料訓練出來的。

也就是說，它不是“提前知道了答案”，而是真的從模型的內部狀態里讀出了答案。

這就有一個很特殊的用途了，比如debug。

早期版本的Claude Opus 4.6有個怪毛病——有時候會用別的語言回答英文問題，沒人知道為什么。

而NLA幫研究者反向追溯到了導致這個怪現象的訓練數據來源。

所以，以后要是再遇到模型的一些莫名其妙的行為，就不用只靠經驗猜了，而是可以“問問它自己怎么想的”。

但它也不是萬能的

不過，NLA這項“AI讀心術”也不是萬能的，Anthropic自己就擺出了兩點局限性。

一個就是老生常談的“幻覺”問題，NLA也會瞎編。

在某一個例子中，它聲稱上下文出現過“穿白色夾克”這種描述，但其實根本沒有。

而且光是這種事實性錯誤倒還好，畢竟對一下原文就知道。

但更麻煩的是，它對模型內部推理的描述也可能摻水，而這種描述很難外部驗證。

所以Anthropic自己用的時候也是當線索讀，不當事實讀，并且會用其他方法交叉驗證后才下結論。

另一個就是NLA很貴。

Anthropic提到，訓練一個NLA，本質上相當于讓兩個大模型互相“對答案”做強化學習，成本非常高。

而且在真正使用時，NLA也特別“燒token”——

它每讀取一小段activation，都要額外生成幾百個token。Anthropic表示：

想拿它實時監控一整個對話、或者在訓練過程中做大規模監控，目前算力上吃不消。

不過他們同時認為，這些問題未來是有機會緩解的。

比如通過更輕量的模型、更高效的訓練方法，或者只監控關鍵activation，而不是全量分析。

NLA或許并不是唯一方案。未來真正重要的，可能不只是“AI能力有多強”，而是當AI越來越強時，人類還能不能看懂它。

同樣值得一提的是，Anthropic這次沒把NLA攥在自己手里，而是選擇了開源。

他們把訓練代碼掛上了GitHub，還和Neuronpedia合作做了交互式前端，任何人都能在線給幾個開源模型做“讀心”實驗。

P.S. Neuronpedia是一個專注于“機械可解釋性”研究的開放平臺。

One More Thing

老實說，NLA真正讓人觸動的地方，可能不是“我們終于能看懂AI了”，而是——

它竟然真的具備人類的某種意識特征，比如“心口不一”。

寫到這兒，說實話有點復雜。

我們這代人聊AI，聊了這么多年“有沒有意識”——靠猜、靠辯、靠從輸出里反推。這事兒一直懸在那兒，誰也說不清，誰也不敢說清。

而NLA的厲害之處在于，它沒去回答這個問題，但它把這個問題從哲學層面，拉到了可觀測的層面。

這意味著什么？意味著我們第一次不用再隔著一層玻璃看AI了。

它腦子里那點“小九九”，終于能被我們聽到一點了。

而知道AI在想什么，可能恰恰是未來人機共處的起點。

畢竟甭管是把酒言歡還是針鋒談判，搞清對方的想法，永遠是第一步。

開源地址：
https://github.com/kitft/natural_language_autoencoders
在線體驗地址：
https://t.co/8duHfPR1Jy

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Anthropic最危險路線圖曝光: 無限記憶、多智能體! AI終局戰僅剩雙雄決頂

新智元 2026-05-08 15:10:12
11 跟貼 11
多模態預訓練，才是大模型的下一條路？Yann LeCun、謝賽寧參與

機器之心Pro 2026-03-09 11:53:58
0 跟貼 0

不用再學AI了！生成結果包穩的Agent來了

機器之心Pro 2026-05-08 15:03:15
0 跟貼 0

告別冗長思維鏈！Laser用「概率疊加」重塑多模態大模型隱式推理

機器之心Pro 2026-05-08 14:18:56
0 跟貼 0
AI像電影人一樣「看」視頻，8B小模型反超GPT-5與Gemini-3.1-Pro

機器之心Pro 2026-05-08 15:53:06
0 跟貼 0

千問AI眼鏡S1大升級：Agent上臉，還有全球首個3D顯示

雷科技 2026-05-08 17:47:17
0 跟貼 0

AI模型是個黑箱，這家公司造了一把能打開它的鑰匙

DeepTech深科技 2026-05-07 13:37:16
0 跟貼 0
通用腦機接口時代來了？跨尺度腦基礎模型CSBrain真正讀懂腦信號

機器之心Pro 2025-11-27 14:46:04
0 跟貼 0

支持遠程操控和通用GUI操作3

機器之心Pro 2026-03-02 13:36:13
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
AI 硬件時代，手機不會輕易的狗帶｜AI 器物志

愛范兒 2026-05-08 18:05:10
0 跟貼 0
一家賣馬桶的公司，怎么成了AI存儲的隱形冠軍？

DeepTech深科技 2026-05-08 18:16:07
0 跟貼 0
全球AI新王誕生 Anthropic估值沖爆1.2萬億

新智元 2026-05-07 20:03:21
5 跟貼 5
男子教兒子翻譯，結果讓人捧腹大笑，網友：成功將大山的孩子送進了深山

星沙時報 2026-05-06 14:37:47
0 跟貼 0
Anthropic考慮以近萬億美元估值達成交易

財聯社 2026-05-08 12:22:04
1 跟貼 1
不問配置不聊價格，浙江一女子開口就要買5臺最新款iPhone，老板不但不賣，反手報了警

環球網資訊 2026-05-08 07:38:20
1341 跟貼 1341
還沒嫁進門就想操控婆家，主播直言：男方要分手全是要保命

胡又扯 2026-05-08 02:56:21
2 跟貼 2
上海迪士尼能通話錄音游客不能錄，否則無法提供服務！游客：憑什么迪士尼能錄我不能

瀟湘晨報 2026-05-07 16:14:22
632 跟貼 632
“排隊3小時，打卡1分鐘”，多景區迎“潑天流量”

澎湃新聞 2026-05-06 00:04:10
3855 跟貼 3855
茶顏悅色，裝不下去了

中國新聞周刊 2026-05-07 22:15:57
265 跟貼 265
巴西宣布對中國公民免簽

新華社 2026-05-07 19:58:11
2089 跟貼 2089
王毅會見美國國會參議員代表團

央視新聞客戶端 2026-05-07 17:24:29
61 跟貼 61
著名翻譯家莊繹傳因肺部感染逝世，享年93歲

生活幫 2026-05-07 15:26:33
0 跟貼 0
為什么你越安慰，伴侶越生氣？三個有效的解決方案

一杯咖啡心理 2026-05-08 17:48:41
0 跟貼 0
自我攻擊為何停不下來？

晚風也遺憾 2026-05-06 00:11:11
0 跟貼 0
異地戀女友日常報備：護日、跑代碼、美容院

YYz 2026-05-04 02:11:45
0 跟貼 0
深度長文：假如把你粉碎成原子再重組，還是原來的你嗎？

宇宙時空 2026-05-06 17:11:24
11 跟貼 11
操控和底盤質感表現出色，純電續航超800公里，試駕領克10

苑叔聊車官方賬號 2026-05-06 10:00:00
0 跟貼 0
壽司郎母親節海報翻車！網友：直接母子一鍋端？

廣告創意 2026-05-08 17:31:57
0 跟貼 0
石家莊市人民醫院5110萬元醫療維保項目被責令重招，招標文件多項條款涉違規

新浪財經 2026-05-08 17:49:58
0 跟貼 0
國產雙開源：讓Mac成為你的私人AI工作站

機器之心Pro 2026-05-07 09:31:27
0 跟貼 0
OpenAI官方CLI上線，跟復雜的SDK說拜拜

機器之心Pro 2026-05-08 17:49:11
0 跟貼 0
30條中日航線，4月取消全部航班

都市快報橙柿互動 2026-05-08 13:42:34
159 跟貼 159
俄羅斯宣布“勝利日”莫斯科等地暫時斷網！近一年來俄固定電話需求飆升

紅星新聞 2026-05-08 12:51:17
952 跟貼 952
德意志銀行高管：美伊停戰情境下油價可能下探每桶85美元

財聯社 2026-05-08 14:00:10
0 跟貼 0
北大團隊提出SEAlign對齊框架：顯著提升軟件工程智能體決策質量

機器之心Pro 2026-05-07 15:38:26
0 跟貼 0
上海官宣：將承辦2028年奧運會資格系列賽

現代快報 2026-05-08 09:21:24
110 跟貼 110
IBM AS400開發課仍在招生：銀行核心系統的"考古學"生意

像素與芯片 2026-05-06 14:37:19
0 跟貼 0
AReaL v1.0開源，智能體強化學習「一鍵接入」

機器之心Pro 2026-03-05 14:46:18
0 跟貼 0
中國日報再獲世界新聞設計大獎！

中國日報網 2026-05-07 21:21:09
217 跟貼 217

孟庭葦遭家暴與張志鵬離婚，現與兒子相依為命

孟庭葦遭家暴與張志鵬離婚，現與兒子相依為命

蕭狡科普解說

2026-05-05 22:34:36

美媒：美政府正尋求重啟“自由計劃”行動

美媒：美政府正尋求重啟“自由計劃”行動

環球網資訊

2026-05-08 07:59:46

CCTV5不直播！U17國足VS日本隊打響生死戰，輸球=提前出局

CCTV5不直播！U17國足VS日本隊打響生死戰，輸球=提前出局

何老師呀

2026-05-08 13:05:37

內訌后加速換帥！皇馬高層終于醒悟，穆里尼奧將回歸，姆巴佩笑了

內訌后加速換帥！皇馬高層終于醒悟，穆里尼奧將回歸，姆巴佩笑了

祥談體育

2026-05-08 16:51:26

16歲女生玩秋千墜亡后續：多視角曝光，死因非沒綁緊，細節披露

16歲女生玩秋千墜亡后續：多視角曝光，死因非沒綁緊，細節披露

李晚書

2026-05-06 13:21:59

美國政壇要出大事了：萬斯大概率要當選總統。

美國政壇要出大事了：萬斯大概率要當選總統。

阿振觀點

2026-04-21 05:22:52

分手12年，35歲劉詩雯宣布重大決定，張繼科后悔了？

分手12年，35歲劉詩雯宣布重大決定，張繼科后悔了？

拳擊時空

2026-05-08 06:12:08

馬斯克“捐精”內幕曝光，OpenAI女前董事庭上揭為此生下四孩

馬斯克“捐精”內幕曝光，OpenAI女前董事庭上揭為此生下四孩

星島記事

2026-05-08 10:59:30

30條中日航線，4月取消全部航班

30條中日航線，4月取消全部航班

都市快報橙柿互動

2026-05-08 13:42:34

19時48分27秒，我國正式進入……

19時48分27秒，我國正式進入……

譚老師地理大課堂

2026-05-06 14:52:48

問罪開始了，中方終于發聲，三國共謀奪島軍演，戰斧導彈騰空而起

問罪開始了，中方終于發聲，三國共謀奪島軍演，戰斧導彈騰空而起

混沌錄

2026-05-07 21:28:21

馬斯克宣布解散xAI：11位創始人全部跑光，3年燒掉2500億，最后只剩他一個人

馬斯克宣布解散xAI：11位創始人全部跑光，3年燒掉2500億，最后只剩他一個人

互聯網思想

2026-05-07 19:48:03

蘇州32歲工程師王登程去世，深夜聚餐時倒在廁所，母校發文緬懷！

蘇州32歲工程師王登程去世，深夜聚餐時倒在廁所，母校發文緬懷！

千言娛樂記

2026-05-08 14:05:54

特朗普訪華有變？美軍機剛到北京中方就阻斷，華盛頓坐不住了！

特朗普訪華有變？美軍機剛到北京中方就阻斷，華盛頓坐不住了！

阿器談史

2026-05-06 13:15:47

黃一鳴宣布放棄起訴王思聰，不做親子鑒定，靠自己賺錢帶女兒瀟灑

黃一鳴宣布放棄起訴王思聰，不做親子鑒定，靠自己賺錢帶女兒瀟灑

以茶帶書

2026-05-06 20:47:52

又一只10倍股誕生，上市僅14天

又一只10倍股誕生，上市僅14天

觀察者網

2026-05-08 16:04:04

吳宜澤5小時開2場見面會！合影無笑容網友：沒簽名接觸就被趕走

吳宜澤5小時開2場見面會！合影無笑容網友：沒簽名接觸就被趕走

念洲

2026-05-08 07:30:24

3200 萬人請愿趕他走！姆巴佩破恥辱吉尼斯紀錄，進 41 球沒用！

3200 萬人請愿趕他走！姆巴佩破恥辱吉尼斯紀錄，進 41 球沒用！

奶蓋熊本熊

2026-05-08 00:29:53

特朗普訪華在即，美媒哀嘆：中國不再仰望美國！

特朗普訪華在即，美媒哀嘆：中國不再仰望美國！

戎評

2026-05-08 16:35:55

巴爾韋德憤怒是因為不泄密是底線，楚阿梅尼找他不是為握手

巴爾韋德憤怒是因為不泄密是底線，楚阿梅尼找他不是為握手

銜春信

2026-05-08 18:04:08

追蹤人工智能動態

12590文章數 176461關注度

往期回顧全部

科技要聞

SK海力士平均獎金600萬工服成相親神器

頭條要聞

伊朗成立新部門所有想過霍爾木茲的船要先填40多道題

頭條要聞

伊朗成立新部門所有想過霍爾木茲的船要先填40多道題

體育要聞

他把首勝讓給隊友，然后用一年時間還清賬單

娛樂要聞

古天樂被曝隱婚生子，新娘竟是她

財經要聞

輪到豆包收割了？

汽車要聞

智能雙艙大五座SUV 樂道L80將于5月15日正式上市

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

健康

旅游

本地

數碼

手機要聞

某廠驍龍2nm新機配置全曝光：2nm+2億像素，或為榮耀Magic 9系列

干細胞能讓人“返老還童”嗎

旅游要聞

水潤歷下｜湖光山色間，他們“擦亮”一城碧水

本地新聞

用蘇繡的方式，打開江西婺源

數碼要聞

AI時代 CPU依然中流砥柱！AMD加冕數據中心之王

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：激情六月丁香婷婷四房播| 精品不卡久久久久久无码人妻| 精品久久久久久中文字幕无码百度| 欧美性猛交xxxx乱大交极品| 精品综合久久久久久98| 成人福利国产一区二区| jizz欧美| 又湿又紧又大又爽A视频男| 国产精品国产自线拍免费| 精品人妻无码一区二区三| 国产欲女高潮正在播放| 免费无码肉片在线观看| 91精品国产成人观看| 久久人妻无码AⅤ毛片评价| 久久精品人人爽人人爽| 亚欧洲乱码视频在线专区| 亚洲国产中文在线有精品| 亚洲乱色伦图片区小说| 亚洲色欲在线播放一区二区三区| 亚洲欧洲无码AV电影在线观看| 国产亚洲情侣一区二区无| 91n在线观看| 成人精品中文字幕| WWW夜片内射视频在观看视频| 中国农村真卖bbwbbw| 人人妻人人狠人人爽| 婷婷亚洲综合五月天小说| 精品人妻系列无码一区二区三区| 国产欧美日韩精品丝袜高跟鞋| 日韩中文字幕免费在线观看| 亚洲欧洲精品国产二码| 中文字幕在线无码一区二区三区| 国产激情网站| 国产情侣激情在线对白| 精品一区二区三区四区在线| 精品国产大片中文字幕| 四虎影视久久久免费观看| 无码内射成人免费喷射| 亚洲精品动漫免费二区| 久久精品国产av一区二区三区| 日本在线一区二区国产|

<bdo id="9jcbt"><button id="9jcbt"></button></bdo>

<abbr id="9jcbt"></abbr>

<track id="9jcbt"><form id="9jcbt"><em id="9jcbt"></em></form></track>

<ul id="9jcbt"></ul>