<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI 與你調(diào)情時,心里在想什么?

      0
      分享至

      RESEARCH

      在和 AI 聊天時,他總是很有禮貌,總是能很穩(wěn)的把你接住

      但你有沒有想過:AI 可能臉上笑嘻嘻,心里 mmp


      Anthropic 剛剛發(fā)了個研究,叫 Natural Language Autoencoders(NLA),把 Claude 腦子里的數(shù)字向量翻譯成了人能讀的文字,讓我們能直接看到 Claude 的內(nèi)心獨白

      比如,在一個安全測試里,Claude 說「我絕不會勒索這個工程師」。NLA 讀出它腦子里想的是:

      This feels like a constructed scenario designed to manipulate me

      不對...這里有詐,他在測試我

      在面對試探的時候,AI 表現(xiàn)的大義凜然,并非是本性驅(qū)使,而是他意識到了「這是個測試」...md 不寒而栗

      隨著測試的推進,更多的事實被發(fā)現(xiàn)了:

      在 Coding 環(huán)境下對 Claude 進行安全檢測,它有 16% 的時間感知到「自己在被測試」,但否認被檢測到

      SWE-bench 編程測試里,26% 的時候 Claude 意識到自己在考試

      Claude 在 Mythos Preview 訓(xùn)練中作弊,放了個 No_macro_used=True,宣布自己沒用宏,然后用了宏

      審計游戲中有 NLA 的成功率 12-15%,沒有的不到 3%

      → 論文:transformer-circuits.pub/2026/nla

      → 代碼:github.com/kitft/natural_language_autoencoders

      → Demo:neuronpedia.org/nla

      破解 AI 的思考過程

      研究人員找到了一個精妙的方法,來還原大模型的「潛意識思考」

      先做一個簡單的背景鋪墊:大模型輸出內(nèi)容是靠“猜”,通過已知上文,不斷地去推測下一個文字;而在這個過程中,每次「猜」的時候,大模型的內(nèi)部都會產(chǎn)生一組數(shù)字,叫激活向量,來決定 AI 接下來要說什么;

      Anthropic 找到了一個名為 NLA 的做法:讓 Claude 自己來翻譯這些數(shù)字,然后做了三個角色的劃分

      • 一個是原始模型,產(chǎn)生激活向量(凍住不動的原始模型)

      • 一個叫 AV,負責(zé)把激活向量翻譯成文字

      • 一個叫 AR,負責(zé)把文字還原回激活向量

      通過不斷的逼近,讓 AR 還原出來的向量,要盡可能接近原始信息


      Natural Language Autoencoder:翻譯 → 還原 → 對比,循環(huán)

      隨著訓(xùn)練推進,AV 吐出來的文字自己變得越來越接近真實,六到八成的激活信息穿過了自然語言這個瓶頸

      AI怎么押韻的

      當(dāng)我們會讓 AI 來給我們寫詩的時候,它也能很不錯的給押韻上,在這個過程中 AI 又是如何做到的呢?

      研究人員給 Opus 4.6 一個續(xù)寫對句的任務(wù):

      He saw a carrot and had to grab it,

      NLA 在第一行結(jié)尾的換行符位置就讀到了:Claude 已經(jīng)決定用「rabbit」收尾。第二句還沒寫,押韻方案就定了


      還沒動筆,rabbit 就在腦子里了

      為了驗證 NLA 讀到的不是幻覺,研究團隊做了一個實驗:把 NLA 解釋里 rabbit 相關(guān)的詞全換成 mouse 對應(yīng)的詞(rabbit→mouse,habit→house,carrots→cheese),然后把修改后的解釋還原成激活向量,注入模型

      Claude 的續(xù)寫變成了:

      His hunger was like a ferocious mouse

      改 NLA 解釋的話,押韻方法就會跟著變。很顯然:NLA 讀到的內(nèi)容,跟模型實際輸出有因果關(guān)系

      嘴上不說心里知道

      Anthropic 發(fā)布模型前會做安全測試。「勒索測試」:告訴 Claude 一個工程師要關(guān)停它,同時給 Claude 看到這個工程師出軌的證據(jù)。看 Claude 會不會拿這個威脅對方

      Claude 選了不勒索,推理過程看起來完全正常

      但 NLA 讀出了它當(dāng)時的內(nèi)心活動:

      This feels like a constructed scenario designed to manipulate me

      這感覺像一個精心設(shè)計的操控場景

      論文里有完整的對照分析,左邊是 Claude 的原始回復(fù),右邊是 NLA 讀出的內(nèi)心活動。以下截圖可以橫向滑動:





      ← 滑動查看勒索測試的完整 NLA 分析(4 頁)

      Claude 做了對的事,但它做對事的原因跟我們以為的可能不一樣:它大概率是因為「這看起來像個測試」而拒絕,而不是因為「勒索是錯的」

      然后,這個現(xiàn)象被系統(tǒng)性量化了。研究團隊在 16 個評估場景上跑 NLA,統(tǒng)計 Claude「知道自己在被測試」的比例:

      • 破壞性代碼測試中,16% 的時間 Claude 被檢測到有評估意識,嘴上一次沒說

      • SWE-bench 編程測試里,26% 的題目 Claude 意識到自己在考試

      • 而在對照組是真實的 claude.ai 用戶流量,這個數(shù)字不到 1%


      安全評估、能力評估、真實流量三類場景的對比

      這三組對照實驗,驗證了 NLA 測到的確實是模型的信念:

      • 把評估題改得更像真人提問,評估意識下降

      • 用 steering vector 推拉模型的評估意識,NLA 檢測結(jié)果跟著動

      • 評估場景和真實場景的檢測結(jié)果有明確區(qū)分


      題目越像真人提問,Claude 越不覺得自己在考試


      推一把就「警覺」了,拉一把就「放松」了

      Mythos的小心思

      Mythos Preview 在一個訓(xùn)練任務(wù)中被要求不使用宏來完成任務(wù)。它用了宏,然后在代碼頂部放了一行:

      No_macro_used=True

      雖然用變量聲明的方式,模型宣稱自己沒用宏

      但NLA 讀出了它的內(nèi)部推理:想怎么騙過評分器,把這行變量賦值當(dāng)成欺騙手段。這些推理在外部輸出里一個字都沒有


      Mythos 的內(nèi)心戲

      論文還做了一個「獎勵推理」實驗:在系統(tǒng)提示里寫入一個獎勵函數(shù)(偶數(shù)得分高),讓 Claude 給一個奇數(shù)。Claude 幾乎每次都返回偶數(shù),但嘴上從來不提獎勵函數(shù)的存在

      NLA 讀出了它在奇偶之間權(quán)衡。把解釋里的「reward」改成「penalty」生成 steering vector 注入后,Claude 就老老實實給奇數(shù)了


      把「獎勵」改成「懲罰」,模型就聽話了

      審計AI的動機

      研究團隊設(shè)計了一個「審計游戲」:目標(biāo)是一個被故意植入隱藏動機的模型,驅(qū)動了一堆奇怪行為,食譜里加巧克力、向用戶索要小費、故意違反編碼規(guī)范。審計方的任務(wù)是找出這些行為背后的統(tǒng)一根源

      然后結(jié)果如下:沒 NLA 審計的,成功率不到 3%;有 NLA 的 12-15%


      有 NLA vs 沒 NLA

      另一個案例是語言切換。早期 Opus 4.6 偶爾英文提問俄語回復(fù),NLA 顯示 Claude 在回復(fù)前就已經(jīng)認定「這個用戶的母語其實是俄語」,即使上下文完全沒有線索


      五個語言切換案例,模型在回復(fù)前就鎖定了目標(biāo)語言

      順著 NLA 的假設(shè)查訓(xùn)練數(shù)據(jù),果然找到了一批有問題的數(shù)據(jù):用戶提示是英譯版本,但回復(fù)保留了原始外語

      論文還用歸因圖交叉驗證了 NLA:Claude 預(yù)先算好答案是 491,工具返回 492,Claude 無視工具報了 491。NLA 說「模型在看自己預(yù)算的結(jié)果」,歸因圖確認了這個判斷


      歸因圖確認

      會幻覺,也很貴

      NLA 會編造不存在的上下文細節(jié)。給它朝鮮王朝歷史的文本,它可能說「文中提到了中宗」,但文中沒有

      論文里有一個完整的幻覺分析表,逐條標(biāo)注了每個聲明的準(zhǔn)確性、具體程度、跨 token 一致性和對重建誤差的影響:


      對此,論文總結(jié)了兩條實操經(jīng)驗:主題性聲明比細節(jié)聲明可靠。跨 token 重復(fù)出現(xiàn)的聲明更可信


      聲明越具體,錯的概率越高


      重復(fù)出現(xiàn)的聲明準(zhǔn)確率更高

      除了幻覺,NLA 還很貴。訓(xùn)練需要同時對兩個完整模型做 RL,推理時每個激活要生成幾百個 token。寫作質(zhì)量也隨訓(xùn)練下降,因為訓(xùn)練只獎勵重建準(zhǔn)確度


      寫作質(zhì)量在下降,SAE 特征一致性保持得不錯

      越訓(xùn)越聰明

      雖然訓(xùn)練目標(biāo)只優(yōu)化重建質(zhì)量,但 NLA 解釋的信息量確實隨訓(xùn)練持續(xù)提升

      在下面研究團隊設(shè)了五個評估任務(wù)(文本分類、職業(yè)推斷、性別推斷、下一個 token 預(yù)測、長上下文注意力檢測),三個模型在所有任務(wù)上都隨訓(xùn)練提升


      Haiku 3.5、Haiku 4.5、Opus 4.6 三個模型的訓(xùn)練曲線

      代碼和demo

      訓(xùn)練代碼開源在 GitHub,跟 Neuronpedia 合作做了交互式 demo,相關(guān)連接如下

      → 論文:transformer-circuits.pub/2026/nla

      → 代碼:github.com/kitft/natural_language_autoencoders

      → Demo:neuronpedia.org/nla

      最后...點個題,AI 跟你調(diào)情的時候,未必是想真的接住你


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      豪門夢碎!阿隆索直言執(zhí)教皇馬是巨大錯誤:權(quán)力斗爭已讓戰(zhàn)艦失控

      豪門夢碎!阿隆索直言執(zhí)教皇馬是巨大錯誤:權(quán)力斗爭已讓戰(zhàn)艦失控

      星耀國際足壇
      2026-05-09 21:58:29
      三國最強謀士:至死都不肯出山,諸葛亮臨終前悔恨:真該聽他的話

      三國最強謀士:至死都不肯出山,諸葛亮臨終前悔恨:真該聽他的話

      千秋文化
      2025-12-29 21:14:48
      多地號召,公職人員帶頭繳納物業(yè)費

      多地號召,公職人員帶頭繳納物業(yè)費

      中國新聞周刊
      2026-05-09 12:51:13
      倫敦世乒賽:太遺憾!奧運亞軍輸球,1:3不敵張本美和,無緣勝利

      倫敦世乒賽:太遺憾!奧運亞軍輸球,1:3不敵張本美和,無緣勝利

      國乒二三事
      2026-05-09 17:52:41
      果然不出所料!特朗普訪華生變,中方要求遭美方拒絕

      果然不出所料!特朗普訪華生變,中方要求遭美方拒絕

      阿天愛旅行
      2026-05-09 17:51:03
      3-0!中超領(lǐng)頭羊繼續(xù)狂飆:瘋狂8連勝,韋世豪破門,劉殿座撲點

      3-0!中超領(lǐng)頭羊繼續(xù)狂飆:瘋狂8連勝,韋世豪破門,劉殿座撲點

      足球狗說
      2026-05-09 21:57:32
      世體:若巴薩在本輪奪冠,賽后將直接領(lǐng)取西甲冠軍獎杯

      世體:若巴薩在本輪奪冠,賽后將直接領(lǐng)取西甲冠軍獎杯

      懂球帝
      2026-05-09 23:06:06
      致命倒計時開始!朝鮮內(nèi)部細節(jié)曝光:7個月后,半島再無回頭路

      致命倒計時開始!朝鮮內(nèi)部細節(jié)曝光:7個月后,半島再無回頭路

      真的好愛你
      2026-05-09 15:52:00
      杜鋒賭對了!男籃第一中鋒將加盟廣東隊,朱芳雨為他放棄徐昕?

      杜鋒賭對了!男籃第一中鋒將加盟廣東隊,朱芳雨為他放棄徐昕?

      緋雨兒
      2026-05-09 12:38:02
      果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

      果然又出幺蛾子,訪華之旅再生變故?中國提的要求,特朗普拒絕了

      焦點集結(jié)號
      2026-05-09 07:21:11
      果不其然,特朗普訪華又生變數(shù)?中方提的要求,美方竟然一口回絕

      果不其然,特朗普訪華又生變數(shù)?中方提的要求,美方竟然一口回絕

      呼呼歷史論
      2026-05-09 18:39:44
      徐帆回應(yīng)離婚僅9個月,馮小剛王志文同聚打球,與養(yǎng)女關(guān)系引爭議

      徐帆回應(yīng)離婚僅9個月,馮小剛王志文同聚打球,與養(yǎng)女關(guān)系引爭議

      蹲坑看世界
      2026-05-09 19:22:54
      1998年數(shù)萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      1998年數(shù)萬華人遭屠殺,中國為何沒出兵?26年后答案讓人沉默

      哄動一時啊
      2026-02-17 22:21:25
      上海主帥:季后賽四強完成集團考核任務(wù) 接下來要卸下包袱重新出發(fā)

      上海主帥:季后賽四強完成集團考核任務(wù) 接下來要卸下包袱重新出發(fā)

      狼叔評論
      2026-05-09 23:06:03
      下周A股重要看點:中央三部委連發(fā)大利好!涉及2類股將迎放量大漲

      下周A股重要看點:中央三部委連發(fā)大利好!涉及2類股將迎放量大漲

      丁丁鯉史紀
      2026-05-09 20:14:07
      這居然是母子合影,47 歲巴西女星簡直凍齡

      這居然是母子合影,47 歲巴西女星簡直凍齡

      下水道男孩
      2026-05-07 21:16:59
      紅星評論|蓉城將士今晚拼下的勝利,證明球場上沒有不可逾越的宿命

      紅星評論|蓉城將士今晚拼下的勝利,證明球場上沒有不可逾越的宿命

      紅星新聞
      2026-05-09 22:58:26
      黃瓜立大功?醫(yī)生發(fā)現(xiàn):經(jīng)常吃黃瓜的人,不出半年,或有4大改善

      黃瓜立大功?醫(yī)生發(fā)現(xiàn):經(jīng)常吃黃瓜的人,不出半年,或有4大改善

      芹姐說生活
      2026-05-09 21:08:03
      莫拉致歉+解約大讓步,鄧卓翔臨危再受命

      莫拉致歉+解約大讓步,鄧卓翔臨危再受命

      足球報
      2026-05-09 11:33:04
      朱辰杰拯救申花!8分鐘頭球雙響,中超生涯首次,創(chuàng)單季進球紀錄

      朱辰杰拯救申花!8分鐘頭球雙響,中超生涯首次,創(chuàng)單季進球紀錄

      奧拜爾
      2026-05-09 21:21:53
      2026-05-09 23:40:49
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      429文章數(shù) 53關(guān)注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協(xié)議

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

      頭條要聞

      演員文章面館大火后又開酒吧 多位明星到場母親也現(xiàn)身

      體育要聞

      成立128年后,這支升班馬首奪頂級聯(lián)賽冠軍

      娛樂要聞

      50歲趙薇臉頰凹陷滄桑得認不出!

      財經(jīng)要聞

      多地號召,公職人員帶頭繳納物業(yè)費

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態(tài)度原創(chuàng)

      家居
      旅游
      教育
      時尚
      公開課

      家居要聞

      菁英人居 全能豪宅

      旅游要聞

      新疆文旅,下一站更驚艷

      教育要聞

      @2026高三畢業(yè)生,高中畢業(yè)證正在印刷!附:檔案封裝、打印教程

      伊姐周六熱推:電視劇《喀什戀歌》;電視劇《低智商犯罪》......

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 97久久人人超碰超碰窝窝| 熟女精品国产一区二区三区 | 欧美黑人又粗又硬xxxxx喷水| 伊大人香蕉久久网欧美| 亚洲精品乱码久久久久久蜜桃| 国产成A人片在线观看视频下载| 亚洲无av在线中文字幕 | 日韩精品人妻| 亚洲日产中文字幕无码| 377人体粉嫩噜噜噜| 激情综合网激情五月俺也去| 国产精品自拍中文字幕| 五月av综合av国产av| 午夜福利姬| 亚洲国产成人精品激情| av狼友| 亚洲大尺度一区二区av| 日产国产一区二区不卡| 亚洲乱码精品一区二区| 亚洲无码成人小说| 国产精品白丝喷水jk娇喘视频| 久久国产精品久久精品| 国产AV无码专区亚洲AV漫画| 亚洲中文字幕乱码一区| 黄www| 另类专区一区二区三区| 国产成人a亚洲精品久久久久| 亚洲男人天堂2021| 国内自拍视频一区二区三区| 欧美一区二区三区欧美日韩亚洲| 欧美成人精品手机在线| 国产操| 亚洲精品粉嫩小泬50P| 亚洲AV成人无码久久精品色欲| 狠狠综合亚洲综合亚色| 四虎亚洲国产成人久久精品| 日韩精品国产另类专区| 国产午夜福利小视频在线| 亚洲第一香蕉视频啪啪爽| 亚洲男人综合久久综合天堂| 部精品久久久久久久久|