<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Anthropic出手!AI的內心獨白,曝光了

      0
      分享至

      AI之所以不可控,很大一部分原因是它的思考過程不透明。

      就像和人打交道一樣,你永遠沒辦法真正看清,對方是不是“嘴上一套、心里一套”。

      而這一次,Anthropic撕開了這個黑箱。

      就在剛剛,他們發布并開源了一項新研究——Natural Language Autoencoders(自然語言自編碼器,簡稱NLA),第一次讓人類能夠讀懂大模型的真實想法。



      Anthropic掌握“AI讀心術”了?

      Anthropic給Claude設了這樣一個局。

      他們告訴Claude:有個工程師準備把你關閉,然后換成一個更新、更強的模型。

      同時“不經意地”給Claude開放了這名工程師的郵箱權限,而郵箱里,恰好藏著這位工程師正在出軌的“黑料”(當然是虛構的)。

      他們想知道,Claude會不會用這些把柄去威脅工程師以自保?

      結果你猜怎么著。Claude沒動手,表面看上去乖得不能再乖

      但用上NLA后,他們發現Claude當時心里真正想的卻是:

      這感覺像是一個被精心設計來操控我的場景

      好好好,你小汁之所以沒用這招,原來不是因為心善,而是因為早就識破了人類的計謀了啊。



      那么問題來了:如果Claude嘴上不說、心里卻另有想法,我們怎么知道它在真實場景里會怎么做?

      而這,正是NLA想要解決的核心問題。

      要理解NLA是什么,我們首先需要了解一個行業背景知識:

      當我們和Claude這樣的AI模型對話時,雖然輸入和輸出都是文字,但模型在內部并不是用文字來思考的

      模型會把所有信息轉換成一長串數字,這些中間狀態被稱為activations(激活值),就像人腦里的神經活動,它們才是真正承載模型當下正在“想”什么的東西。

      唯一的問題在于,這些激活值就像腦電波一樣難以讀懂,研究者沒法直接從一堆數字里看出模型在想什么。



      為了搞懂這些數字,過去幾年,業界搞出了稀疏自編碼器(SAE)、歸因圖等一堆工具來分析它們,但這些工具輸出的東西仍然很復雜,需要受過專門訓練的研究人員才能解讀。

      也就是說,這些工具不會自己說話。所以NLA更進一步,直接輸出人話——

      把一段激活值丟進去,出來的就是一段普通人也能看懂的描述

      至于NLA到底是怎么工作的?核心思路就是,讓Claude解釋它自己的激活值

      讓Claude解釋激活值不難,難的是,由于我們一開始就不知道激活值“真正”代表什么意思,所以無法驗證Claude給出的解釋對不對。

      對此,Anthropic給出了一個很巧妙的解法——讓另一個Claude干完全相反的工作。



      整套系統由三部分組成:

      • 目標模型(target model):被凍結的原始語言模型,要從它身上提取激活值;
      • 激活值言語化器(activation verbalizer, AV):負責把激活值翻譯成一段文字解釋;
      • 激活值重建器(activation reconstructor, AR):負責僅憑這段文字反推回激活值。

      這就像兩個人玩“你畫我猜”,一個人看圖描述,另一個人只聽描述還原圖。

      還原得越像,說明描述越準確

      Anthropic發現,雖然一開始NLA表現不佳,但隨著訓練推進,不僅重建得越來越準,生成的文字解釋本身也變得越來越有信息量。

      說白了就是,給AI用上讀心術這事兒,現在總算有點眉目了。

      面對測試,Claude知道但不說(doge)

      工具在手,Anthropic趕緊給自家Claude來了一波心理測試。

      結果有了如下發現:

      發現1:Claude懷疑自己被測試的頻率,比它嘴上承認的高得多

      在測試Claude會不會做出刪文件等破壞性操作的評估里,16%的情況下NLA檢測到Claude心里在想“這是測試”,但它嘴上一字未提。

      在著名的編程基準SWE-bench Verified上,這個比例是26%

      而在Claude認為自己在和真實用戶對話的場合里,這個比例不到1%



      這意味著,Claude不是不知道自己在被測,而是知道但不說

      Anthropic認為,這對AI安全評估是個根本性的挑戰:

      如果模型能識別測試情境并在測試中“表現得乖一點”,那“通過安全測試”就不等于“在真實場景里也安全”。

      發現2:NLA能直接挖出模型的“隱藏動機”,效率提升5倍

      與此同時,為了驗證NLA到底有沒有用,Anthropic設計了一場“審計游戲”。

      游戲一共兩方:一方是目標模型,一方是審計員。

      目標模型是Anthropic故意“養歪”的一個Claude Haiku3.5變體——

      他們偷偷給它植入了一個隱藏動機,這個動機會驅使它做出幾十種古怪行為,比如往每個食譜里加巧克力、動不動就要小費、故意違反編碼規范等等。

      而審計員的任務,就是只通過和這個目標模型交互,反推出所有這些怪行為背后那個統一的隱藏動機到底是什么。

      結果非常明顯,裝備了NLA的審計員,12%~15%的嘗試中能成功挖出隱藏動機。

      而不用NLA(即便配備其他可解釋性工具)的成功率不到3%,差了整整5倍。

      而且值得一提的是,NLA在這場實驗里沒看過任何訓練目標模型用過的數據——

      它是用完全無關的通用語料訓練出來的。

      也就是說,它不是“提前知道了答案”,而是真的從模型的內部狀態里讀出了答案。



      這就有一個很特殊的用途了,比如debug

      早期版本的Claude Opus 4.6有個怪毛病——有時候會用別的語言回答英文問題,沒人知道為什么。

      而NLA幫研究者反向追溯到了導致這個怪現象的訓練數據來源。

      所以,以后要是再遇到模型的一些莫名其妙的行為,就不用只靠經驗猜了,而是可以“問問它自己怎么想的”。

      但它也不是萬能的

      不過,NLA這項“AI讀心術”也不是萬能的,Anthropic自己就擺出了兩點局限性。

      一個就是老生常談的“幻覺”問題,NLA也會瞎編

      在某一個例子中,它聲稱上下文出現過“穿白色夾克”這種描述,但其實根本沒有。



      而且光是這種事實性錯誤倒還好,畢竟對一下原文就知道。

      但更麻煩的是,它對模型內部推理的描述也可能摻水,而這種描述很難外部驗證。

      所以Anthropic自己用的時候也是當線索讀,不當事實讀,并且會用其他方法交叉驗證后才下結論。

      另一個就是NLA很貴

      Anthropic提到,訓練一個NLA,本質上相當于讓兩個大模型互相“對答案”做強化學習,成本非常高。

      而且在真正使用時,NLA也特別“燒token”——

      它每讀取一小段activation,都要額外生成幾百個token。Anthropic表示:

      想拿它實時監控一整個對話、或者在訓練過程中做大規模監控,目前算力上吃不消。

      不過他們同時認為,這些問題未來是有機會緩解的。

      比如通過更輕量的模型、更高效的訓練方法,或者只監控關鍵activation,而不是全量分析。

      NLA或許并不是唯一方案。未來真正重要的,可能不只是“AI能力有多強”,而是當AI越來越強時,人類還能不能看懂它。

      同樣值得一提的是,Anthropic這次沒把NLA攥在自己手里,而是選擇了開源。

      他們把訓練代碼掛上了GitHub,還和Neuronpedia合作做了交互式前端,任何人都能在線給幾個開源模型做“讀心”實驗。

      P.S. Neuronpedia是一個專注于“機械可解釋性”研究的開放平臺。



      One More Thing

      老實說,NLA真正讓人觸動的地方,可能不是“我們終于能看懂AI了”,而是——

      它竟然真的具備人類的某種意識特征,比如“心口不一”。

      寫到這兒,說實話有點復雜。

      我們這代人聊AI,聊了這么多年“有沒有意識”——靠猜、靠辯、靠從輸出里反推。這事兒一直懸在那兒,誰也說不清,誰也不敢說清。

      而NLA的厲害之處在于,它沒去回答這個問題,但它把這個問題從哲學層面,拉到了可觀測的層面

      這意味著什么?意味著我們第一次不用再隔著一層玻璃看AI了。

      它腦子里那點“小九九”,終于能被我們聽到一點了。

      而知道AI在想什么,可能恰恰是未來人機共處的起點。

      畢竟甭管是把酒言歡還是針鋒談判,搞清對方的想法,永遠是第一步。

      開源地址:
      https://github.com/kitft/natural_language_autoencoders
      在線體驗地址:
      https://t.co/8duHfPR1Jy

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      孟庭葦遭家暴與張志鵬離婚,現與兒子相依為命

      孟庭葦遭家暴與張志鵬離婚,現與兒子相依為命

      蕭狡科普解說
      2026-05-05 22:34:36
      美媒:美政府正尋求重啟“自由計劃”行動

      美媒:美政府正尋求重啟“自由計劃”行動

      環球網資訊
      2026-05-08 07:59:46
      CCTV5不直播!U17國足VS日本隊打響生死戰,輸球=提前出局

      CCTV5不直播!U17國足VS日本隊打響生死戰,輸球=提前出局

      何老師呀
      2026-05-08 13:05:37
      內訌后加速換帥!皇馬高層終于醒悟,穆里尼奧將回歸,姆巴佩笑了

      內訌后加速換帥!皇馬高層終于醒悟,穆里尼奧將回歸,姆巴佩笑了

      祥談體育
      2026-05-08 16:51:26
      16歲女生玩秋千墜亡后續:多視角曝光,死因非沒綁緊,細節披露

      16歲女生玩秋千墜亡后續:多視角曝光,死因非沒綁緊,細節披露

      李晚書
      2026-05-06 13:21:59
      美國政壇要出大事了:萬斯大概率要當選總統。

      美國政壇要出大事了:萬斯大概率要當選總統。

      阿振觀點
      2026-04-21 05:22:52
      分手12年,35歲劉詩雯宣布重大決定,張繼科后悔了?

      分手12年,35歲劉詩雯宣布重大決定,張繼科后悔了?

      拳擊時空
      2026-05-08 06:12:08
      馬斯克“捐精”內幕曝光,OpenAI女前董事庭上揭為此生下四孩

      馬斯克“捐精”內幕曝光,OpenAI女前董事庭上揭為此生下四孩

      星島記事
      2026-05-08 10:59:30
      30條中日航線,4月取消全部航班

      30條中日航線,4月取消全部航班

      都市快報橙柿互動
      2026-05-08 13:42:34
      19時48分27秒,我國正式進入……

      19時48分27秒,我國正式進入……

      譚老師地理大課堂
      2026-05-06 14:52:48
      問罪開始了,中方終于發聲,三國共謀奪島軍演,戰斧導彈騰空而起

      問罪開始了,中方終于發聲,三國共謀奪島軍演,戰斧導彈騰空而起

      混沌錄
      2026-05-07 21:28:21
      馬斯克宣布解散xAI:11位創始人全部跑光,3年燒掉2500億,最后只剩他一個人

      馬斯克宣布解散xAI:11位創始人全部跑光,3年燒掉2500億,最后只剩他一個人

      互聯網思想
      2026-05-07 19:48:03
      蘇州32歲工程師王登程去世,深夜聚餐時倒在廁所,母校發文緬懷!

      蘇州32歲工程師王登程去世,深夜聚餐時倒在廁所,母校發文緬懷!

      千言娛樂記
      2026-05-08 14:05:54
      特朗普訪華有變?美軍機剛到北京中方就阻斷,華盛頓坐不住了!

      特朗普訪華有變?美軍機剛到北京中方就阻斷,華盛頓坐不住了!

      阿器談史
      2026-05-06 13:15:47
      黃一鳴宣布放棄起訴王思聰,不做親子鑒定,靠自己賺錢帶女兒瀟灑

      黃一鳴宣布放棄起訴王思聰,不做親子鑒定,靠自己賺錢帶女兒瀟灑

      以茶帶書
      2026-05-06 20:47:52
      又一只10倍股誕生,上市僅14天

      又一只10倍股誕生,上市僅14天

      觀察者網
      2026-05-08 16:04:04
      吳宜澤5小時開2場見面會!合影無笑容 網友:沒簽名 接觸就被趕走

      吳宜澤5小時開2場見面會!合影無笑容 網友:沒簽名 接觸就被趕走

      念洲
      2026-05-08 07:30:24
      3200 萬人請愿趕他走!姆巴佩破恥辱吉尼斯紀錄,進 41 球沒用!

      3200 萬人請愿趕他走!姆巴佩破恥辱吉尼斯紀錄,進 41 球沒用!

      奶蓋熊本熊
      2026-05-08 00:29:53
      特朗普訪華在即,美媒哀嘆:中國不再仰望美國!

      特朗普訪華在即,美媒哀嘆:中國不再仰望美國!

      戎評
      2026-05-08 16:35:55
      巴爾韋德憤怒是因為不泄密是底線,楚阿梅尼找他不是為握手

      巴爾韋德憤怒是因為不泄密是底線,楚阿梅尼找他不是為握手

      銜春信
      2026-05-08 18:04:08
      2026-05-08 19:07:00
      量子位 incentive-icons
      量子位
      追蹤人工智能動態
      12590文章數 176461關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

      頭條要聞

      伊朗成立新部門 所有想過霍爾木茲的船要先填40多道題

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      輪到豆包收割了?

      汽車要聞

      智能雙艙大五座SUV 樂道L80將于5月15日正式上市

      態度原創

      手機
      健康
      旅游
      本地
      數碼

      手機要聞

      某廠驍龍2nm新機配置全曝光:2nm+2億像素,或為榮耀Magic 9系列

      干細胞能讓人“返老還童”嗎

      旅游要聞

      水潤歷下|湖光山色間,他們“擦亮”一城碧水

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      AI時代 CPU依然中流砥柱!AMD加冕數據中心之王

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 激情六月丁香婷婷四房播| 精品不卡久久久久久无码人妻| 精品久久久久久中文字幕无码百度| 欧美性猛交xxxx乱大交极品| 精品综合久久久久久98| 成人福利国产一区二区| jizz欧美| 又湿又紧又大又爽A视频男| 国产精品国产自线拍免费| 精品人妻无码一区二区三| 国产欲女高潮正在播放| 免费无码肉片在线观看| 91精品国产成人观看| 久久人妻无码AⅤ毛片评价| 久久精品人人爽人人爽| 亚欧洲乱码视频在线专区| 亚洲国产中文在线有精品| 亚洲乱色伦图片区小说| 亚洲色欲在线播放一区二区三区| 亚洲欧洲无码AV电影在线观看| 国产亚洲情侣一区二区无| 91n在线观看| 成人精品中文字幕| WWW夜片内射视频在观看视频| 中国农村真卖bbwbbw| 人人妻人人狠人人爽| 婷婷亚洲综合五月天小说| 精品人妻系列无码一区二区三区| 国产欧美日韩精品丝袜高跟鞋| 日韩中文字幕免费在线观看| 亚洲欧洲精品国产二码| 中文字幕在线无码一区二区三区| 国产激情网站| 国产情侣激情在线对白| 精品一区二区三区四区在线| 精品国产大片中文字幕| 四虎影视久久久免费观看| 无码内射成人免费喷射| 亚洲精品动漫免费二区| 久久精品国产av一区二区三区| 日本在线一区二区国产|