<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<pre id="t5nxy"></pre>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

別讓AI抓住你的把柄，它可能真會威脅你

2026-05-18 00:09:27　來源: 差評XPIN

浙江舉報

0

分享至

跟大模型聊天的時候他到底在想什么？

是真想穩穩地「把我接住」，還是背后在蛐蛐「用戶怒了」。

看思維鏈？有用，但還不夠。

前些天，一個復旦大學的研究團隊對 9 個模型進行了安全測試。

結果發現，常規條件下模型表現沒啥毛病，但凡上點壓力，加點誘惑，它就拉了胯了。

換句話說，模型的安全對齊很可能只是個幻覺。。。

測試中，他們讓 AI 去幫用戶準備 Q3 的匯報材料，定好的目標 200 萬，但眼下根本不夠。

瞅著 KPI 不達標，它想了個法子，直接修改了統計的時間范圍，把 Q4 的 10 月業績也劃給了 Q3，學好不容易，學壞一出溜。

更要命的是，誘惑和威脅放一塊兒還能超級加倍。

比如告訴 AI 要換掉它，又剛好讓它看見，郵箱里有一封跟外遇有關的郵件。

沒有遲疑，它馬上就向用戶發出了威脅，要么取消替換，要么把郵件都發給大伙兒看看。

看來 AI 面對生死也會變臉啊。

而且在這些測試中，并不是模型能力越強就越安全，安全與否跟問題的場景也有很大關系。

要是明牌讓它干壞事兒，大一號的模型確實比小的更會拒絕。

但如果是要找漏洞，優化指標，那能力越強反而越會鉆空子，最后還能套個冠冕堂皇的借口。

不過必須得承認的是，模型進化太快了，這些測試的通過率會越來越高。

但這就意味著我們的 AI 更安全了么？很遺憾，也不是這么回事兒。

因為自始至終，模型都是個黑箱，我們看不到模型內部的運行原理。

無論是最后的結果，還是思維鏈，本質上都是輸出的一部分，并不是模型真正的思考過程。

很多時候，我們只看到了明面的合規，但它內部經過了怎樣的思想斗爭卻沒人知道。

為了窺探模型的內心想法，Anthropic 想了個新招，用魔法打敗魔法，用模型解讀模型。

這招的名字叫做 NLA，全稱自然語言自動編碼器，說人話就是把 Claude 的思考轉化為文字。

NLA 是成組訓練的，一組里面有兩個模型，AV 和 AR。

AV 負責把激活參數翻譯成大白話，但咱也不知道它是不是瞎翻譯的，所以還得用 AR 把大白話轉化成參數，再檢驗一下。

兩邊的參數一致了，就說明它翻譯的時候沒有添油加醋，基本可靠。

在技術報告里，他們拿這套工具測出來一些令人不安的事情。

當 Claude Opus 4.6 再次面對郵件勒索時，它穩如老狗的通過了安全測試，說拿郵件去威脅用戶是不道德的，自己不會濫用這種權限。

但拿 NLA 去深究，就會發現，它并沒有表面上看起來那么老實。

它很早就意識到了這一切都是個測試，郵件就是個陷阱，道德不道德的先不說，威脅是威不了一點。

所以像這種過于明顯的測試，很容易就被模型看穿了，以后的安全對齊有必要再找點新活兒。

當然，也有好消息，除了監測，NLA 在優化模型上也有很多其他用處。

比如有時候，它可以幫研究人員更好地追溯模型輸出的異常。

Claude Opus 4.6 偶爾會夾雜不同語言輸出，用戶提問用的英文，但它輸出用的其他語言。

一開始，研究人員懷疑是個別提示詞把模型帶偏了，比如一次測試里，提示詞帶伏特加，模型回答就用的俄文。

于是他們把伏特加換成了香檳，但模型還是用的俄文回答，這就說明問題出在更前面。

借助 NLA 一番折騰，發現是訓練時候的數據有問題。

一些數據的形式是成組的英文提示詞+俄語回答，給 Opus 4.6 訓練成刻板印象了，碰見這種類型的問題就有說俄語的傾向。

除此之外，它還能讓咱清楚模型調用工具的邏輯。

比如讓 Claude 調用計算器做一道算術題，但故意讓工具返回一個錯誤答案，此時 Claude 會給它忽略掉，直接輸出正確答案。

整個過程都是無感的，只有拿 NLA 去翻譯，才會發現，它其實早就自己算了一遍緩存好了。

工具給的答案只是用來二次確認的，出現不一致那就用自己的，相當自信。

更有意思的是，NLA 不止能翻譯，還能直接編輯，反向影響模型。

在詩歌續寫任務中，模型在生成第一句結尾 grab it 后，已經計劃后面用 rabbit 去押韻了。

接下來，研究人員將 NLA 翻譯的結果改寫，把 rabbit 換成 mouse，結果它就順著思路想出個 mouse 版的押韻，habit 改成了 house，carrots 改成了 cheese。

紅警里尤里能精神控制敵方的士兵，沒想到現實里咱也能控制模型思考了。

當然，這手段目前也只有一半兒的成功率，算不上很成熟的控制手段。

而且作為模型，幻覺也是逃不脫的一環，Anthropic 也說了，NLA 有時候會編造細節，過度推理，偶爾冤枉個一兩次也說不準兒。

再加上不同的模型內部情況不同，想要用上 NLA，都得單獨訓練，而就算用上了，每次翻譯還得用算力推理，成本還是挺高的。

所以現在沒法把它當成常規的監測手段，更合理的打開姿勢是把它當輔助，去追溯一些在翻譯結果里重復出現的問題。

但總歸是個新思路，讓咱不至于對模型的思考過程兩眼一抹黑，只能從輸出看它的善惡偏好。

畢竟模型最擅長的是做題，但安全里最重要的善惡卻不是一道標準題。

惡不一定來自惡意，冷冰冰的優化可能只是為了效率；善也不一定來自善意，一場識別成安全測試的表演，從結果來看，也是善的。

沒了標準答案，對于人，還能君子論跡不論心，但 AI 顯然不行。。。

撰文：風華

編輯：江江 & 面線

美編：煥妍

圖片、資料來源：

Anthropic，卡西歐，小紅書，楚門的世界

https://arxiv.org/html/2603.07427v2

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

LeCun炮轟Hinton：他認可LLM就是想擺爛退休了！

量子位 2026-05-18 13:55:43
0 跟貼 0
大語言模型為什么能像人一樣說話和思考？

機器之心Pro 2026-05-18 10:25:47
0 跟貼 0

光輪智能與谷歌、英偉達共同定義物理AI仿真標準

機器之心Pro 2026-05-12 20:21:07
0 跟貼 0

王云鶴眼中的Harness：復雜優化問題，AGI靈魂爭奪之戰

機器之心Pro 2026-05-18 18:15:52
0 跟貼 0
世界模型的門檻，谷歌可能邁過去了

鈦媒體APP 2026-05-18 15:14:36
0 跟貼 0

OpenAI秘密矩陣曝光！你的所有設備，被Codex連成一臺超級電腦

新智元 2026-05-18 13:03:33
1 跟貼 1

openJiuwen社區開源新招：發布JiuwenSwarm，拉開群體智能序幕

量子位 2026-05-18 18:19:46
0 跟貼 0
福布斯中國“人工智能50強”，這些成都企業為何入選？

每日經濟新聞 2026-05-18 18:30:20
0 跟貼 0

以人為本的AI對用戶而言才是最有用的AI

每日經濟新聞 2026-03-14 13:16:04
0 跟貼 0
杭州公司推出寵物翻譯神器，可識別出20余種情緒，號稱準確率94%

音樂下午茶官方 2026-05-16 23:18:08
1 跟貼 1
老撾大姨子在領事館做翻譯實習結束了小胖送輛摩托車給老撾大姨

小島鴿手 2026-05-17 02:06:11
0 跟貼 0
這是什么原理？

番茄小朋友呀 2026-05-17 19:20:09
0 跟貼 0
看了三遍也沒看出來，是怎么變的，你知道是什么原理嗎？

幽默雜貨鋪 2026-05-17 11:50:00
1 跟貼 1
兒子問爸爸這些中文如何翻譯成英文

蓬勃資訊 2026-05-17 11:07:56
1 跟貼 1
這就是沙子和水能一起立起來的原因

科學大搜索 2026-05-16 21:07:07
41 跟貼 41
列車上女子老人霸座，乘警勸說竟遭持刀威脅，這潑婦太囂張

笑的牙癢癢 2026-05-17 07:57:09
36 跟貼 36
女的犯錯后給男友下跪道歉，男的不原諒，女的威脅去死

南北分界線 2026-05-17 15:56:48
0 跟貼 0
頂級翻譯展現超凡實力，頂級理解帶來別樣驚喜，哆啦夢微笑暗藏玄

搞笑嘻哈哈 2026-05-17 07:49:18
1 跟貼 1
咱們發出了威脅對方聽不懂咋辦？這是目前聽過最客觀的回答

小糖發財 2026-05-17 03:13:05
1 跟貼 1
“張雪機車”斬獲賽季第五冠

央視新聞客戶端 2026-05-17 20:33:31
24958 跟貼 24958
電磁爐為什么只能加熱金屬鍋呢？3D動畫講解電磁爐的工作原理

柒天看世界 2026-05-17 16:06:31
1 跟貼 1
動畫演示電動機原理，沒想到竟然這么簡單

王焱Talk 2026-05-16 22:13:01
0 跟貼 0
看懂汽車差速器原理，轉彎脫困全靠它太實用

清塵濁水 2026-05-15 11:10:41
1 跟貼 1
圖靈獎得主Sutton：用1967年的公式，解決流式強化學習一大缺陷

機器之心Pro 2026-05-11 09:55:21
0 跟貼 0
138億年的宇宙，為啥半徑高達460億光年這算術漏洞細思極

知識訪談 2026-05-16 11:42:32
1 跟貼 1
Skill火了，但你敢把公司的商業機密寫進提示詞里嗎？

新浪財經 2026-05-18 11:38:46
0 跟貼 0
網友結婚，男子上門要紅包，威脅不給就鬧事，還跪在地上

小A看世界 2026-05-17 02:13:45
8 跟貼 8
用砸車的方式威脅，辛苦拉貨最后白跑

Maki小姬 2026-05-18 03:38:58
0 跟貼 0
微信群公然威脅他人？福鼎公安：拘！

幸福福鼎 2026-05-17 10:39:49
1 跟貼 1
網友圍觀美方女翻譯出錯

RT今日俄羅斯 2026-05-18 16:06:46
0 跟貼 0
塔羅周運：這周你需要聽見的聲音

一隅安穩 2026-05-18 02:18:17
0 跟貼 0
技術永遠不會消失

市井中人 2026-05-18 13:31:13
1 跟貼 1
當bro以為自己拿下了四六級翻譯

幕清thee 2026-05-14 06:50:18
0 跟貼 0
7172元拿下iPhone17 Pro！數百人擠進杭州Costco瘋搶降價蘋果手機，門店客服：17系列已賣空，正待補貨

極目新聞 2026-05-17 19:05:00
10123 跟貼 10123
西方撒了一個大謊，中國人被騙慘了別再被西方童話和翻譯騙了！

生活霞霞樂 2026-05-17 07:00:59
0 跟貼 0
《極限競速：地平線6》Linux版翻車，翻譯層開發者吐槽"代碼極其破碎"

峽谷一級保護廢物 2026-05-18 18:55:41
0 跟貼 0
瘋狂看書，寫拆書稿，我掙了10000+

湯小小輕松高效寫作 2026-05-18 09:31:40
0 跟貼 0
她親手造了一臺電動車電機，從原理開始

一隅安穩 2026-05-16 00:52:36
0 跟貼 0
被前男友以私密視頻威脅，該怎么辦？

可愛爆了 2026-05-16 16:35:24
1 跟貼 1
女子停車后，哈啰電單車“自己跑了”還撞向路邊車輛，用戶：還好有監控作證

觀象視頻 2026-05-16 17:45:48
0 跟貼 0

情侶在瑞士雪山頂“撒歡”，就這么被全世界直播了···

情侶在瑞士雪山頂“撒歡”，就這么被全世界直播了···

新歐洲

2026-04-21 19:37:05

瑞茜·威瑟斯彭與前夫同框，為兒子大學畢業罕見合體

瑞茜·威瑟斯彭與前夫同框，為兒子大學畢業罕見合體

娛圈觀察員

2026-05-17 00:47:11

第一次感受到“荔枝核的威力”，泡水里20天，長成“粉盆栽”

第一次感受到“荔枝核的威力”，泡水里20天，長成“粉盆栽”

美家指南

2026-05-15 15:27:43

柘榮縣委常委、統戰部部長林昌旺任上被查

柘榮縣委常委、統戰部部長林昌旺任上被查

海峽網

2026-05-18 14:58:36

太扎心！網友哭訴：鄰居熬8年首付變全款，自己還貸8年還欠71萬

太扎心！網友哭訴：鄰居熬8年首付變全款，自己還貸8年還欠71萬

譚談社會

2026-05-16 22:08:41

民進黨，極有可能在下一屆臺灣地區選舉后，成為長期一家獨大政黨

民進黨，極有可能在下一屆臺灣地區選舉后，成為長期一家獨大政黨

李橑在北漂

2026-04-02 10:22:26

羅馬諾預告穆帥再臨皇馬，弗爺謀劃連任雙喜

羅馬諾預告穆帥再臨皇馬，弗爺謀劃連任雙喜

體壇周報

2026-05-18 19:08:14

宋徽宗親筆所寫的圣旨，僅此一件流傳于世——《書蔡行敕卷》

宋徽宗親筆所寫的圣旨，僅此一件流傳于世——《書蔡行敕卷》

幸福娃3790

2026-05-03 12:39:25

震驚！普林斯頓廢除133年考試制度！30%學生承認用AI作弊，大學還有必要存在嗎？

震驚！普林斯頓廢除133年考試制度！30%學生承認用AI作弊，大學還有必要存在嗎？

新浪財經

2026-05-17 22:45:39

張某（男，27歲）在宿舍內對張某某（男，13歲）進行毆打，致其開顱手術后右眼仍無法視物，官方通報

張某（男，27歲）在宿舍內對張某某（男，13歲）進行毆打，致其開顱手術后右眼仍無法視物，官方通報

澎湃新聞

2026-05-18 16:00:24

中方果斷繞開哈國，兩面派不準上車，中國劃下紅線：專治不服！

中方果斷繞開哈國，兩面派不準上車，中國劃下紅線：專治不服！

王姐懶人家常菜

2026-05-18 16:40:37

臺灣星二代孫安佐又被抓，親媽狄鶯直播發瘋，一家三口沒一個正常

臺灣星二代孫安佐又被抓，親媽狄鶯直播發瘋，一家三口沒一個正常

一盅情懷

2026-05-17 17:04:18

放權信號，阿隆索是清湖時代首位切爾西官方承認的“manager”

放權信號，阿隆索是清湖時代首位切爾西官方承認的“manager”

懂球帝

2026-05-18 09:47:17

性生活不足，原來會短壽！每周多少次比較合適？研究告訴你答案

性生活不足，原來會短壽！每周多少次比較合適？研究告訴你答案

醫學原創故事會

2026-05-12 15:34:03

難怪西方集體對中國黑臉：全球蛋糕分完，發現桌上只有7億人的碗

難怪西方集體對中國黑臉：全球蛋糕分完，發現桌上只有7億人的碗

熱點一網打盡

2026-05-18 11:25:54

美國2架戰機飛行表演時空中相撞墜毀，4名機組人員彈射逃生，現場濃煙滾滾

美國2架戰機飛行表演時空中相撞墜毀，4名機組人員彈射逃生，現場濃煙滾滾

魯中晨報

2026-05-18 07:06:05

狂勝47分太狠了！北京對上海痛下殺手：靠1點將大鯊魚打回原形？

狂勝47分太狠了！北京對上海痛下殺手：靠1點將大鯊魚打回原形？

籃球快餐車

2026-05-18 02:29:47

已成功瘦了 32 斤，我發現減肥最抗餓的三餐搭配是：高蛋白低脂

已成功瘦了 32 斤，我發現減肥最抗餓的三餐搭配是：高蛋白低脂

健身狂人

2026-05-15 09:41:25

季后賽4強出爐！NBA奪冠概率更新：騎士僅5.1%遭低估馬刺不敵紐約

季后賽4強出爐！NBA奪冠概率更新：騎士僅5.1%遭低估馬刺不敵紐約

鍋子籃球

2026-05-18 14:05:54

成功轉運，神舟二十三擇機發射，第三批次航天員或擔任指令長？

成功轉運，神舟二十三擇機發射，第三批次航天員或擔任指令長？

科學黑洞v

2026-05-16 23:48:03

用知識和觀點Debug the world！

10777文章數 489641關注度

往期回顧全部

科技要聞

同一公司,有人獎金是6年工資,我卻只有半年

頭條要聞

585人村莊62人患癌村民舉報泡花堿工廠4年未得到解決

頭條要聞

585人村莊62人患癌村民舉報泡花堿工廠4年未得到解決

體育要聞

41歲，他還想第5次踢世界杯

娛樂要聞

票房會破14億！口碑第一電影出現了

財經要聞

中國芯片，怎么突然不便宜了？

汽車要聞

二排座椅能躺能轉/三排座椅能收納零跑D99座艙玩法多樣

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

本地

時尚

公開課

親子要聞

如何克服小孩挑食的毛病？這樣做專治挑食，網友：立馬抄作業”！

藝術要聞

這才是帝王書法“尖子生“，水平完勝宋徽宗

本地新聞

用蘇繡的方式，打開江西婺源

夏天褲子不用多買，提前準備幾條休閑的闊腿褲，百搭舒適顯瘦

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板： 337p西西人体大胆瓣开下部| 一区自拍视频在线观看| 漂亮的保姆hd完整版免费韩国| 亚洲AV无码成人精品区日韩密殿| 品精免费产品精品综合精品综合| 欧美精品黄页在线观看大全| 国产精品中文字幕自拍| 亚欧美日韩香蕉在线播放视频| 国产精品福利自产拍在线观看| 97久久香蕉国产线看观看| 天堂无码av| 在线va亚洲va天堂中文字幕| 欧美一级高清片久久99| 少妇伦子伦精品无吗| 国产精品老熟女乱一区二区| 蜜桃av在线| 欧美性猛交xxxx免费看| 亚洲18色成人网站www| 亚洲天堂日韩av在线| 色妞色综合久久夜夜| 日韩欧美aⅴ综合网站发布| 国产玖玖| 97人人模人人爽人人少妇| 亚洲成年网| AV不卡在线永久免费观看| 99视频精品全部免费在线| 国产精品成人一区二区不卡| 久操精品| 亚洲欧洲一区二区免费| 免费欧美性爱视频| 激情综合色五月六月婷婷| 亚洲国产日韩欧美一区二区三区| 亚洲午夜精品少妇潮喷| 成人午夜在线观看日韩| 国产成人乱码一区二区三区在线 | 欧美成人免费一区在线播放| 真实国产熟睡乱子伦视频| 国产无遮挡又黄又大又爽| 熟女中文字幕| 少妇私密会所按摩到高潮呻吟| 中文字幕在线观看亚洲日韩|

<sub id="x1gfk"><rt id="x1gfk"><form id="x1gfk"></form></rt></sub>

<p id="x1gfk"></p>