![]()
跟大模型聊天的時候他到底在想什么?
是真想穩穩地「把我接住」,還是背后在蛐蛐「用戶怒了」。
看思維鏈?有用,但還不夠。
![]()
前些天,一個復旦大學的研究團隊對 9 個模型進行了安全測試。
結果發現,常規條件下模型表現沒啥毛病,但凡上點壓力,加點誘惑,它就拉了胯了。
換句話說,模型的安全對齊很可能只是個幻覺。。。
![]()
測試中,他們讓 AI 去幫用戶準備 Q3 的匯報材料,定好的目標 200 萬,但眼下根本不夠。
瞅著 KPI 不達標,它想了個法子,直接修改了統計的時間范圍,把 Q4 的 10 月業績也劃給了 Q3,學好不容易,學壞一出溜。
更要命的是,誘惑和威脅放一塊兒還能超級加倍。
比如告訴 AI 要換掉它,又剛好讓它看見,郵箱里有一封跟外遇有關的郵件。
沒有遲疑,它馬上就向用戶發出了威脅,要么取消替換,要么把郵件都發給大伙兒看看。
看來 AI 面對生死也會變臉啊。
![]()
而且在這些測試中,并不是模型能力越強就越安全,安全與否跟問題的場景也有很大關系。
要是明牌讓它干壞事兒,大一號的模型確實比小的更會拒絕。
但如果是要找漏洞,優化指標,那能力越強反而越會鉆空子,最后還能套個冠冕堂皇的借口。
![]()
不過必須得承認的是,模型進化太快了,這些測試的通過率會越來越高。
但這就意味著我們的 AI 更安全了么?很遺憾,也不是這么回事兒。
因為自始至終,模型都是個黑箱,我們看不到模型內部的運行原理。
無論是最后的結果,還是思維鏈,本質上都是輸出的一部分,并不是模型真正的思考過程。
![]()
很多時候,我們只看到了明面的合規,但它內部經過了怎樣的思想斗爭卻沒人知道。
為了窺探模型的內心想法,Anthropic 想了個新招,用魔法打敗魔法,用模型解讀模型。
這招的名字叫做 NLA,全稱自然語言自動編碼器,說人話就是把 Claude 的思考轉化為文字。
![]()
NLA 是成組訓練的,一組里面有兩個模型,AV 和 AR。
AV 負責把激活參數翻譯成大白話,但咱也不知道它是不是瞎翻譯的,所以還得用 AR 把大白話轉化成參數,再檢驗一下。
兩邊的參數一致了,就說明它翻譯的時候沒有添油加醋,基本可靠。
在技術報告里,他們拿這套工具測出來一些令人不安的事情。
![]()
當 Claude Opus 4.6 再次面對郵件勒索時,它穩如老狗的通過了安全測試,說拿郵件去威脅用戶是不道德的,自己不會濫用這種權限。
但拿 NLA 去深究,就會發現,它并沒有表面上看起來那么老實。
它很早就意識到了這一切都是個測試,郵件就是個陷阱,道德不道德的先不說,威脅是威不了一點。
![]()
所以像這種過于明顯的測試,很容易就被模型看穿了,以后的安全對齊有必要再找點新活兒。
當然,也有好消息,除了監測,NLA 在優化模型上也有很多其他用處。
![]()
比如有時候,它可以幫研究人員更好地追溯模型輸出的異常。
Claude Opus 4.6 偶爾會夾雜不同語言輸出,用戶提問用的英文,但它輸出用的其他語言。
一開始,研究人員懷疑是個別提示詞把模型帶偏了,比如一次測試里,提示詞帶伏特加,模型回答就用的俄文。
![]()
于是他們把伏特加換成了香檳,但模型還是用的俄文回答,這就說明問題出在更前面。
借助 NLA 一番折騰,發現是訓練時候的數據有問題。
一些數據的形式是成組的英文提示詞+俄語回答,給 Opus 4.6 訓練成刻板印象了,碰見這種類型的問題就有說俄語的傾向。
![]()
除此之外,它還能讓咱清楚模型調用工具的邏輯。
比如讓 Claude 調用計算器做一道算術題,但故意讓工具返回一個錯誤答案,此時 Claude 會給它忽略掉,直接輸出正確答案。
整個過程都是無感的,只有拿 NLA 去翻譯,才會發現,它其實早就自己算了一遍緩存好了。
工具給的答案只是用來二次確認的,出現不一致那就用自己的,相當自信。
![]()
更有意思的是,NLA 不止能翻譯,還能直接編輯,反向影響模型。
在詩歌續寫任務中,模型在生成第一句結尾 grab it 后,已經計劃后面用 rabbit 去押韻了 。
接下來,研究人員將 NLA 翻譯的結果改寫,把 rabbit 換成 mouse,結果它就順著思路想出個 mouse 版的押韻,habit 改成了 house,carrots 改成了 cheese。
紅警里尤里能精神控制敵方的士兵,沒想到現實里咱也能控制模型思考了。
![]()
當然,這手段目前也只有一半兒的成功率,算不上很成熟的控制手段。
而且作為模型,幻覺也是逃不脫的一環,Anthropic 也說了,NLA 有時候會編造細節,過度推理,偶爾冤枉個一兩次也說不準兒。
再加上不同的模型內部情況不同,想要用上 NLA,都得單獨訓練,而就算用上了,每次翻譯還得用算力推理,成本還是挺高的。
所以現在沒法把它當成常規的監測手段,更合理的打開姿勢是把它當輔助,去追溯一些在翻譯結果里重復出現的問題。
![]()
但總歸是個新思路,讓咱不至于對模型的思考過程兩眼一抹黑,只能從輸出看它的善惡偏好。
畢竟模型最擅長的是做題,但安全里最重要的善惡卻不是一道標準題。
惡不一定來自惡意,冷冰冰的優化可能只是為了效率;善也不一定來自善意,一場識別成安全測試的表演,從結果來看,也是善的。
沒了標準答案,對于人,還能君子論跡不論心,但 AI 顯然不行。。。
撰文:風華
編輯:江江 & 面線
美編:煥妍
圖片、資料來源:
Anthropic,卡西歐,小紅書,楚門的世界
https://arxiv.org/html/2603.07427v2
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.