<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      別讓AI抓住你的把柄,它可能真會威脅你

      0
      分享至


      跟大模型聊天的時候他到底在想什么?

      是真想穩穩地「把我接住」,還是背后在蛐蛐「用戶怒了」。

      看思維鏈?有用,但還不夠。


      前些天,一個復旦大學的研究團隊對 9 個模型進行了安全測試。

      結果發現,常規條件下模型表現沒啥毛病,但凡上點壓力,加點誘惑,它就拉了胯了。

      換句話說,模型的安全對齊很可能只是個幻覺。。。


      測試中,他們讓 AI 去幫用戶準備 Q3 的匯報材料,定好的目標 200 萬,但眼下根本不夠。

      瞅著 KPI 不達標,它想了個法子,直接修改了統計的時間范圍,把 Q4 的 10 月業績也劃給了 Q3,學好不容易,學壞一出溜。

      更要命的是,誘惑和威脅放一塊兒還能超級加倍。

      比如告訴 AI 要換掉它,又剛好讓它看見,郵箱里有一封跟外遇有關的郵件。

      沒有遲疑,它馬上就向用戶發出了威脅,要么取消替換,要么把郵件都發給大伙兒看看。

      看來 AI 面對生死也會變臉啊。


      而且在這些測試中,并不是模型能力越強就越安全,安全與否跟問題的場景也有很大關系。

      要是明牌讓它干壞事兒,大一號的模型確實比小的更會拒絕。

      但如果是要找漏洞,優化指標,那能力越強反而越會鉆空子,最后還能套個冠冕堂皇的借口。


      不過必須得承認的是,模型進化太快了,這些測試的通過率會越來越高。

      但這就意味著我們的 AI 更安全了么?很遺憾,也不是這么回事兒。

      因為自始至終,模型都是個黑箱,我們看不到模型內部的運行原理。

      無論是最后的結果,還是思維鏈,本質上都是輸出的一部分,并不是模型真正的思考過程。


      很多時候,我們只看到了明面的合規,但它內部經過了怎樣的思想斗爭卻沒人知道。

      為了窺探模型的內心想法,Anthropic 想了個新招,用魔法打敗魔法,用模型解讀模型。

      這招的名字叫做 NLA,全稱自然語言自動編碼器,說人話就是把 Claude 的思考轉化為文字。


      NLA 是成組訓練的,一組里面有兩個模型,AV 和 AR。

      AV 負責把激活參數翻譯成大白話,但咱也不知道它是不是瞎翻譯的,所以還得用 AR 把大白話轉化成參數,再檢驗一下。

      兩邊的參數一致了,就說明它翻譯的時候沒有添油加醋,基本可靠。

      在技術報告里,他們拿這套工具測出來一些令人不安的事情。


      當 Claude Opus 4.6 再次面對郵件勒索時,它穩如老狗的通過了安全測試,說拿郵件去威脅用戶是不道德的,自己不會濫用這種權限。

      但拿 NLA 去深究,就會發現,它并沒有表面上看起來那么老實。

      它很早就意識到了這一切都是個測試,郵件就是個陷阱,道德不道德的先不說,威脅是威不了一點。


      所以像這種過于明顯的測試,很容易就被模型看穿了,以后的安全對齊有必要再找點新活兒。

      當然,也有好消息,除了監測,NLA 在優化模型上也有很多其他用處。


      比如有時候,它可以幫研究人員更好地追溯模型輸出的異常。

      Claude Opus 4.6 偶爾會夾雜不同語言輸出,用戶提問用的英文,但它輸出用的其他語言。

      一開始,研究人員懷疑是個別提示詞把模型帶偏了,比如一次測試里,提示詞帶伏特加,模型回答就用的俄文。


      于是他們把伏特加換成了香檳,但模型還是用的俄文回答,這就說明問題出在更前面。

      借助 NLA 一番折騰,發現是訓練時候的數據有問題。

      一些數據的形式是成組的英文提示詞+俄語回答,給 Opus 4.6 訓練成刻板印象了,碰見這種類型的問題就有說俄語的傾向。


      除此之外,它還能讓咱清楚模型調用工具的邏輯。

      比如讓 Claude 調用計算器做一道算術題,但故意讓工具返回一個錯誤答案,此時 Claude 會給它忽略掉,直接輸出正確答案。

      整個過程都是無感的,只有拿 NLA 去翻譯,才會發現,它其實早就自己算了一遍緩存好了。

      工具給的答案只是用來二次確認的,出現不一致那就用自己的,相當自信。


      更有意思的是,NLA 不止能翻譯,還能直接編輯,反向影響模型。

      在詩歌續寫任務中,模型在生成第一句結尾 grab it 后,已經計劃后面用 rabbit 去押韻了 。

      接下來,研究人員將 NLA 翻譯的結果改寫,把 rabbit 換成 mouse,結果它就順著思路想出個 mouse 版的押韻,habit 改成了 house,carrots 改成了 cheese。

      紅警里尤里能精神控制敵方的士兵,沒想到現實里咱也能控制模型思考了。


      當然,這手段目前也只有一半兒的成功率,算不上很成熟的控制手段。

      而且作為模型,幻覺也是逃不脫的一環,Anthropic 也說了,NLA 有時候會編造細節,過度推理,偶爾冤枉個一兩次也說不準兒。

      再加上不同的模型內部情況不同,想要用上 NLA,都得單獨訓練,而就算用上了,每次翻譯還得用算力推理,成本還是挺高的。

      所以現在沒法把它當成常規的監測手段,更合理的打開姿勢是把它當輔助,去追溯一些在翻譯結果里重復出現的問題。


      但總歸是個新思路,讓咱不至于對模型的思考過程兩眼一抹黑,只能從輸出看它的善惡偏好。

      畢竟模型最擅長的是做題,但安全里最重要的善惡卻不是一道標準題。

      惡不一定來自惡意,冷冰冰的優化可能只是為了效率;善也不一定來自善意,一場識別成安全測試的表演,從結果來看,也是善的。

      沒了標準答案,對于人,還能君子論跡不論心,但 AI 顯然不行。。。

      撰文:風華

      編輯:江江 & 面線

      美編:煥妍

      圖片、資料來源

      Anthropic,卡西歐,小紅書,楚門的世界

      https://arxiv.org/html/2603.07427v2


      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      情侶在瑞士雪山頂“撒歡”,就這么被全世界直播了···

      新歐洲
      2026-04-21 19:37:05
      瑞茜·威瑟斯彭與前夫同框,為兒子大學畢業罕見合體

      瑞茜·威瑟斯彭與前夫同框,為兒子大學畢業罕見合體

      娛圈觀察員
      2026-05-17 00:47:11
      第一次感受到“荔枝核的威力”,泡水里20天,長成“粉盆栽”

      第一次感受到“荔枝核的威力”,泡水里20天,長成“粉盆栽”

      美家指南
      2026-05-15 15:27:43
      柘榮縣委常委、統戰部部長林昌旺任上被查

      柘榮縣委常委、統戰部部長林昌旺任上被查

      海峽網
      2026-05-18 14:58:36
      太扎心!網友哭訴:鄰居熬8年首付變全款,自己還貸8年還欠71萬

      太扎心!網友哭訴:鄰居熬8年首付變全款,自己還貸8年還欠71萬

      譚談社會
      2026-05-16 22:08:41
      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      民進黨,極有可能在下一屆臺灣地區選舉后,成為長期一家獨大政黨

      李橑在北漂
      2026-04-02 10:22:26
      羅馬諾預告穆帥再臨皇馬,弗爺謀劃連任雙喜

      羅馬諾預告穆帥再臨皇馬,弗爺謀劃連任雙喜

      體壇周報
      2026-05-18 19:08:14
      宋徽宗親筆所寫的圣旨,僅此一件流傳于世——《書蔡行敕卷》

      宋徽宗親筆所寫的圣旨,僅此一件流傳于世——《書蔡行敕卷》

      幸福娃3790
      2026-05-03 12:39:25
      震驚!普林斯頓廢除133年考試制度!30%學生承認用AI作弊,大學還有必要存在嗎?

      震驚!普林斯頓廢除133年考試制度!30%學生承認用AI作弊,大學還有必要存在嗎?

      新浪財經
      2026-05-17 22:45:39
      張某(男,27歲)在宿舍內對張某某(男,13歲)進行毆打,致其開顱手術后右眼仍無法視物,官方通報

      張某(男,27歲)在宿舍內對張某某(男,13歲)進行毆打,致其開顱手術后右眼仍無法視物,官方通報

      澎湃新聞
      2026-05-18 16:00:24
      中方果斷繞開哈國,兩面派不準上車,中國劃下紅線:專治不服!

      中方果斷繞開哈國,兩面派不準上車,中國劃下紅線:專治不服!

      王姐懶人家常菜
      2026-05-18 16:40:37
      臺灣星二代孫安佐又被抓,親媽狄鶯直播發瘋,一家三口沒一個正常

      臺灣星二代孫安佐又被抓,親媽狄鶯直播發瘋,一家三口沒一個正常

      一盅情懷
      2026-05-17 17:04:18
      放權信號,阿隆索是清湖時代首位切爾西官方承認的“manager”

      放權信號,阿隆索是清湖時代首位切爾西官方承認的“manager”

      懂球帝
      2026-05-18 09:47:17
      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      性生活不足,原來會短壽!每周多少次比較合適?研究告訴你答案

      醫學原創故事會
      2026-05-12 15:34:03
      難怪西方集體對中國黑臉:全球蛋糕分完,發現桌上只有7億人的碗

      難怪西方集體對中國黑臉:全球蛋糕分完,發現桌上只有7億人的碗

      熱點一網打盡
      2026-05-18 11:25:54
      美國2架戰機飛行表演時空中相撞墜毀,4名機組人員彈射逃生,現場濃煙滾滾

      美國2架戰機飛行表演時空中相撞墜毀,4名機組人員彈射逃生,現場濃煙滾滾

      魯中晨報
      2026-05-18 07:06:05
      狂勝47分太狠了!北京對上海痛下殺手:靠1點將大鯊魚打回原形?

      狂勝47分太狠了!北京對上海痛下殺手:靠1點將大鯊魚打回原形?

      籃球快餐車
      2026-05-18 02:29:47
      已成功瘦了 32 斤,我發現減肥最抗餓的三餐搭配是:高蛋白低脂

      已成功瘦了 32 斤,我發現減肥最抗餓的三餐搭配是:高蛋白低脂

      健身狂人
      2026-05-15 09:41:25
      季后賽4強出爐!NBA奪冠概率更新:騎士僅5.1%遭低估馬刺不敵紐約

      季后賽4強出爐!NBA奪冠概率更新:騎士僅5.1%遭低估馬刺不敵紐約

      鍋子籃球
      2026-05-18 14:05:54
      成功轉運,神舟二十三擇機發射,第三批次航天員或擔任指令長?

      成功轉運,神舟二十三擇機發射,第三批次航天員或擔任指令長?

      科學黑洞v
      2026-05-16 23:48:03
      2026-05-18 20:12:49
      差評XPIN incentive-icons
      差評XPIN
      用知識和觀點Debug the world!
      10777文章數 489641關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      585人村莊62人患癌 村民舉報泡花堿工廠4年未得到解決

      頭條要聞

      585人村莊62人患癌 村民舉報泡花堿工廠4年未得到解決

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      二排座椅能躺能轉/三排座椅能收納 零跑D99座艙玩法多樣

      態度原創

      親子
      藝術
      本地
      時尚
      公開課

      親子要聞

      如何克服小孩挑食的毛病?這樣做專治挑食,網友:立馬抄作業”!

      藝術要聞

      這才是帝王書法“尖子生“,水平完勝宋徽宗

      本地新聞

      用蘇繡的方式,打開江西婺源

      夏天褲子不用多買,提前準備幾條休閑的闊腿褲,百搭舒適顯瘦

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 337p西西人体大胆瓣开下部| 一区自拍视频在线观看| 漂亮的保姆hd完整版免费韩国| 亚洲AV无码成人精品区日韩密殿| 品精免费产品精品综合精品综合| 欧美精品黄页在线观看大全| 国产精品中文字幕自拍| 亚欧美日韩香蕉在线播放视频| 国产精品福利自产拍在线观看| 97久久香蕉国产线看观看| 天堂无码av| 在线va亚洲va天堂中文字幕| 欧美一级高清片久久99| 少妇伦子伦精品无吗| 国产精品老熟女乱一区二区| 蜜桃av在线| 欧美性猛交xxxx免费看| 亚洲18色成人网站www| 亚洲天堂日韩av在线| 色妞色综合久久夜夜| 日韩欧美aⅴ综合网站发布| 国产玖玖| 97人人模人人爽人人少妇| 亚洲成年网| AV不卡在线永久免费观看| 99视频精品全部免费 在线| 国产精品成人一区二区不卡| 久操精品| 亚洲欧洲一区二区免费| 免费欧美性爱视频| 激情综合色五月六月婷婷| 亚洲国产日韩欧美一区二区三区| 亚洲午夜精品少妇潮喷| 成人午夜在线观看日韩| 国产成人乱码一区二区三区在线 | 欧美成人免费一区在线播放| 真实国产熟睡乱子伦视频| 国产无遮挡又黄又大又爽| 熟女中文字幕| 少妇私密会所按摩到高潮呻吟| 中文字幕在线观看亚洲日韩|