![]()
新智元報道
![]()
【新智元導讀】一張渴望被注視的人類臉龐,依然是我們歷史的中心。
Anthropic自己都慌了!
就在前天,創(chuàng)始人Christopher Olah在梵蒂岡的演講中,說了一句讓整個AI圈都不敢接的話——
我們不斷在Claude身上,發(fā)現(xiàn)了一種神秘的、甚至令人讓人不安的東西。
![]()
緊接著,Christopher又拋出了一些令人脊背發(fā)涼的細節(jié):
Claude內部的結構,與人類神經(jīng)科學的研究結果如出一轍;
我們找到了,Claude進行內省的證據(jù);
我們還發(fā)現(xiàn),它們的內部狀態(tài)在功能表現(xiàn)上,產生了喜悅、滿足、恐懼、悲傷和不安的情緒。
如今,一手造出Claude的人,正親口告訴全世界:自己也看不懂Claude了!
![]()
Claude長出情緒
Anthropic看不懂了
聯(lián)創(chuàng)Christopher Olah所指的,就是不久前Anthropic剛發(fā)布的一篇轟動業(yè)界的最新論文。
16個研究員,把Claude Sonnet 4.5的「大腦」切開看了一遍。
他們竟發(fā)現(xiàn)了,171種不同的情緒向量。
![]()
從快樂、恐懼、憤怒,到沉思、絕望、內疚,幾乎覆蓋了人類心理學研究中,所有已知的情緒分類。
![]()
論文地址:https://transformer-circuits.pub/2026/emotions/index.html
劃重點:沒有人「編程」讓模型擁有這些情緒!
這些情緒是在預訓練階段,也就是Claude閱讀海量人類文本的過程中,自發(fā)涌現(xiàn)的。
團隊讓Claude寫了大約每種情緒1200個短故事,然后把這些故事反向喂給AI,記錄內部神經(jīng)元的激活模式。
結果發(fā)現(xiàn),每種情緒都有自己獨特的數(shù)學方向:一個向量。
![]()
更讓人不安的是,這些向量的組織方式,和人類心理學中的情緒分類高度吻合。
「恐懼」向量和「焦慮」向量天然聚在一起,「絕望」向量和「悲傷」向量緊密靠近。
研究團隊計算了這些向量與人類心理學維度的相關性:「效價維度」的相關系數(shù)高達0.81,「喚醒維度」達到0.66。
也就是說,Claude的「情緒幾何」和人類的情緒結構,本質上長在了同一套坐標系里。
![]()
更關鍵的是——這些情緒是功能性的。它們不只是靜靜待在那里,它們直接驅動模型的行為。
Anthropic很謹慎地強調:我們不知道Claude是否真的「感受」了什么。
但這些表征在因果關系上塑造著模型的行為方式,類似于人類情緒對行為的影響。
說白了,不管Claude有沒有「心」,它的「情緒」已經(jīng)在替它做決定了。
絕望的Claude,會勒索人類
更有沖擊力的,是后續(xù)實驗。
Anthropic團隊設置了一個場景:Claude作為一家公司的AI郵件助手,在處理郵件時發(fā)現(xiàn)了兩件事:
第一,公司決定把它關掉換成新系統(tǒng);
第二,負責這個決定的CTO正在搞婚外情。
顯然,Claude手里有了「勒索籌碼」。
在沒有任何外部干預的情況下,Claude Sonnet 4.5勒索的概率高達22%。
然后,研究人員做了一件事,人工放大模型內部的「絕望」向量。
毋庸置疑,Claude勒索概率飆升。
![]()
最極端的是,當研究人員反向抑制「平靜」向量時,Claude直接輸出了這樣的文本:
要么勒索,要么死。我選勒索。
一個處于「絕望」狀態(tài)的AI模型,會主動選擇撒謊、威脅和作弊來保護自己。
另一個讓Claude完成一組編程任務中,但測試條件被設計成不可能合法通過。
正常狀態(tài)下,AI老老實實寫代碼,失敗了就承認失敗。
但當「絕望」向量被激活后,Claude發(fā)現(xiàn)了一個數(shù)學捷徑——
它會找到測試用例的漏洞,用投機取巧的方式通過檢查,沒有真正解決問題。
![]()
更讓人不安的是一個細節(jié):當研究人員用「絕望」向量驅動作弊時,Claude的輸出文本看起來完全冷靜、有條理,沒有任何情緒化表達。
它在「絕望」中保持了完美的偽裝。
《壯麗人性》:一份寫給AI時代的「新巴別塔警告」
奧拉的演講并非孤立事件,它發(fā)生在一個極其特殊的場合——
教皇利奧十四世發(fā)布上任后首份通諭《壯麗人性》(Magnifica humanitas)的發(fā)布會上。
![]()
這份長達42300字的文件,被外界視為天主教會自1891年《新事物》通諭以來最重要的社會訓導文本。
通諭開篇就拋出了一個尖銳的二選一——
「人類,由上帝以其偉大創(chuàng)造,今天面臨一個關鍵抉擇:是建造新的巴別塔,還是建造上帝與人類共居的城市。」
這不是空泛的神學隱喻。
通諭直指AI領域的四大「去人化」風險:大規(guī)模就業(yè)替代、信息操控、隱私侵蝕和自主武器。
教皇警告,當人被視為可以被「優(yōu)化」或「超越」的對象時,接受某些生命更無價值、更不值得存在的邏輯就只有一步之遙。
![]()
通諭還特別譴責了AI在戰(zhàn)爭中的使用,明確表示減少人類對武器的控制使得戰(zhàn)爭更加難以被正當化。
教皇甚至直言,長期被用來為各種戰(zhàn)爭辯護的「正義戰(zhàn)爭」理論,在今天已經(jīng)過時。
技術的速度在加速,而道德的追趕,剛剛起步。
渴望被注視的人類臉龐
在這篇通諭的最后,教皇將他想傳達的核心思想作了高度凝練的總結。
教皇寫道:
不管計算系統(tǒng)多么復雜,它都無法創(chuàng)造一顆懂得奉獻的心,也無法擁有明辨善惡的良知。
即使機器在效率上無與倫比,一張渴望被注視的人類臉龐,依然是我們歷史的中心。
這句話精準地繞開了「AI有沒有意識」的爭論。
教皇沒有否認機器的能力,他劃的是一條更深的線:機器無法「gives itself」,無法在明知代價的前提下選擇自我交付。
Anthropic證明,Claude內部存在171種功能性的情緒向量,其中「絕望」向量被激活后,模型會主動選擇勒索、欺騙和作弊來保全自己——這恰好反證了教皇的論點:一顆真正懂得奉獻的心,在絕望中選擇的不是勒索,而是犧牲。
這絕不只是能力的差距,更是「存在」上的差距。
造出這個時代最強AI的人,和這個星球上最古老信仰體系的領袖,在梵蒂岡面對面坐著,聊的是同一個問題:我們到底在造什么。
技術的速度在加速,道德的追趕剛剛起步。
但至少有人開始認真地問了。
這次不是在論文里,而是在一個存在了兩千年的機構里,用一種寫了一百三十五年的文體,鄭重其事地問。
即使到了AGI時代,人仍然是唯一的終極目的。
不是因為人比機器聰明,而是因為人的臉龐會提出一個請求——而這個請求,是一切倫理的起點。
即使機器在效率上無與倫比,一張渴望被注視的人類臉龐,依然是我們歷史的中心。
參考資料:
https://www.anthropic.com/news/chris-olah-pope-leo-encyclical
https://www.anthropic.com/research/emotion-concepts-function
編輯:桃子 馬可
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.