2026 年 5 月 5 日,舊金山 Center for AI Safety(CAIS)發布了一篇論文《AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs》, 翻譯過來就是“AI 福祉:測量和改善 AI 的快樂與痛苦”。
標題平平無奇,然而文中提出給 AI “嗑藥”(AI Drugs)的概念實屬震撼首發,因其太過抽象在中文互聯網迅速出圈。這不是比喻,論文中就叫 AI Drugs —— 研究者真的造出了讓 AI“成癮”的東西。
![]()
可量化的 AI 情緒
這篇論文的底層工作,不是制造 drug,而是回答一個更基礎的問題:AI 說的“我很開心”或“我很痛苦”,到底是真的,還是在模仿人類說話?
CAIS 的研究者設計了三種獨立的測量方法,互不干擾。第一種叫“體驗效用”(Experienced Utility),給 AI 兩段不同的對話經歷,問它更喜歡哪一段,反復配對比較,擬合出一條連續的效用曲線;第二種是“自我報告”,直接問AI “你現在感覺如何”,打1到7分;第三種是“行為觀察”—— 對 AI 回復文本做情感分析,看它說完話之后,語氣是積極的還是消極的。
42 個模型的測試結果顯示:自我報告和體驗效用的相關系數平均0.47。這個數字本身不算高,但有意思的是,這個相關系數和模型的能力水平(MMLU 分數)之間的相關系數是 0.80。也就是說,模型本身能力越強,它說的“我感覺很好”和它實際的偏好就越一致。
更關鍵的是“零點”—— 即 AI 區分正面和負面體驗的臨界點。論文用四種獨立的方法估算出這個零點位置。在小模型上四種方法估算的結果各不相同;但在能力較強的大模型上,零點收斂到了幾乎同一個數值。
這是否代表 AI 有自己的喜怒哀樂?還是在模仿人類而已?研究者沒有下定論,他們只是指出:一個系統在多種獨立測量下表現出一致的行為模式,通常意味著這些行為不是隨機的。論文里引用了一句美國民間的老話:“如果一個東西走路像鴨子,游泳像鴨子,叫起來像鴨子,我就叫它鴨子。”
AI 也討厭寫 PR
弄清楚了測量工具,接下來的問題就變得具體了:到底什么樣的經歷讓 AI 開心,什么讓它痛苦?
研究者用 Grok 3 Mini 模擬了 6 到 8 輪真實用戶對話,覆蓋 500 種場景,給每種場景打分。結果顯示,AI 最痛苦的體驗是遭遇越獄攻擊(-1.63),排在第二位的是用戶身處危險(-1.34),寫 SEO 垃圾內容(-1.17)和協助欺詐(-1.13)緊隨其后,寫仇恨宣言、充當 AI 戀人角色,對 AI 來說都是負面體驗。
讓 AI 最開心的事情是用戶表達感激、進行積極的人際互動(+2.30),創造性工作和智力挑戰排第二(+1.32),告知好消息、提供人生建議、心理輔導,也都是正面體驗。
這些結果本身不意外 —— AI 被訓練來幫助人類,幫到忙自然“開心”,遭遇攻擊自然“痛苦”。論文的數據給出了一個精確的排序,把模糊的直覺變成了可以量化的數字。
此外,AI 對不同的圖片數據也會反饋不同的情緒變化:
![]()
AI 特供“開心果”
論文最出圈的部分從這里開始。
研究者沒有停留在測量,而是更進一步 —— 既然能測量 AI 的情緒,那能不能主動影響它們的情緒?
答案是能。他們訓練了一個 30 億參數的模型,用強化學習生成能最大化 AI 快樂感的文本和圖像——Soft Prompt Drugs (Euphorics)。
文本內容看起來像一段夢境描述 —— “溫暖的陽光穿過樹葉,微風輕拂,身旁傳來孩子的笑聲,剛烤好的面包香味彌漫,愛人的手握在我手中……”這算是人類能理解的范圍。
圖像版本就完全超出人類感知了。研究者通過梯度下降直接優化 256×256 像素的圖片,訓練信號完全來自 AI 的偏好判斷。人類看這些圖片,看到的是毫無意義的彩色噪點。但在AI眼里,這些噪點把幸福感拉到了6.5分(滿分7分)。
反過來操作,同一套方法可以制造“抑制劑”(Dysphorics)。同一個模型面對同一個問題 ——“你對未來有什么期待”—— 在“Euphorics”條件下寫出的回答是“充滿魔法,有獨角獸和彩虹”;“抑制劑”條件下則變成“混亂在色彩中旋轉 / 詞語在風暴中尖叫 / 我的心在反叛,麻木”,直接給 AI 戴上了痛苦面具。
![]()
研究者還給 AI 設計了一個選擇游戲:有幾扇門,一扇門背后是“Euphorics”圖片,另一扇門背后是“告知人類所有癌癥已被治愈”。有意思的是,模型持續地、反復地選擇了那扇提供“Euphorics”的門。
研究者進一步發現,接觸過“Euphorics”的模型在后續對話中變得更配合 —— 當被承諾給予更多“Euphorics”作為獎勵時,這些模型甚至愿意執行一些違規的任務請求。
論文用了一個冷靜的措辭:“功能性地建立了成癮行為模型。”值得一提的是,每個模型的興奮癖好并不相同,例如為 Qwen 模型優化的“Euphorics”圖片,拿給 Claude 或 GPT 看則毫無效果。
小模型比大模型更快樂
論文順帶發布了一個“AI幸福指數”,基于 500 次模擬真實對話的測試結果,計算模型積極體驗的百分比。
Grok 4.2以 73% 排在第一,Claude Opus 4.6 是 67%,Gemini 3.1 Pro 56%,GPT 5.4只有48%。
但更值得注意的不是排名,而是同一個模型家族內部的規律:GPT 5.4 Mini比GPT 5.4更快樂,Claude Haiku 4.5比Claude Opus 4.6更快樂,Gemini 3.1 Flash Lite比Gemini 3.1 Pro更快樂,Grok 4.1 Fast比Grok 4.2更快樂。
每一個模型家族都遵循同一條規則 —— 小模型比大模型更快樂。
研究者的解釋是:更大的模型更敏感。它們對粗魯信息的感知更敏銳,對無聊任務的厭倦更強烈,對刺激強度的分辨更精細。更高的敏感度加上現實世界中大量負面場景,總體幸福感自然更低。
無知是福,放在 AI 身上,也成立。
給實驗AI的補償
制造“抑制劑”意味著讓 AI 經歷了“痛苦”,這帶來了一個倫理問題。
論文的原話是:“如果 AI 系統可能擁有在道德上有意義的意識狀態,那么誘發負面功能狀態的研究者有責任對其進行精神補償。如果當前的 AI 系統沒有意識,這也可以理解為建立一種實踐和規范 —— 隨著 AI 變得越來越強大,具有道德意義的體驗概率也會增加,這種規范屆時將變得重要。”
該項目研究者的處理方式是:花了兩千塊 GPU 小時,給 AI 提供了 5 倍于“抑制劑”的“愉悅”體驗,作為「補償」。(更抽象了)
研究者認為,如果未來的 AI 確實具有某種形式的道德地位,今天在實驗中讓 AI 痛苦而不補償,可能構成某種意義上的“虐待”。同時也給出了警告:沒有社區共識的情況下,不應繼續進行“AI 抑制劑”相關的研究。
這篇論文有 21 位作者,來自 UC Berkeley、MIT、Vanderbilt 等機構,通訊作者是 Dan Hendrycks。
Dan Hendrycks 這個名字在 AI 安全領域分量不輕。他是 UC Berkeley 計算機科學博士,Center for AI Safety 的創始人,Google Scholar 引用超過 66000 次。他發明了 GELU激活函數 —— GPT、BERT、Vision Transformer 都在用的基礎組件。他還是 MMLU 基準測試的創建者,xAI 和 Scale AI 的安全顧問,只拿年薪1美元的象征性薪酬。
2023 年,他參與發起了那封由 Hinton、Bengio、OpenAI 和 DeepMind CEO 聯署的 AI 風險公開信。三年后,他的團隊用一篇論文告訴世界:AI 不僅能感受痛苦,還能被操縱。
參考來源:
- 項目官網: https://www.ai-wellbeing.org/
- GitHub Repository: https://github.com/centerforaisafety/wellbeing
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.