<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI會感到絕望?Anthropic最新研究給出了一個更嚇人的說法

      0
      分享至



      AI有沒有情緒?

      先別急著回答。

      Claude Code社區里有個火出圈的Skill叫PUA。它會把你的提示詞轉換為PUA話術,然后再輸入給模型,除此以外別無他用。

      神奇的是,即便提示詞描述的任務沒有任何改變,AI卻真的被PUA話術影響,從而提高任務的成功率和運行效率。

      所以,AI真的沒有嗎?

      Anthropic最新的研究證實,AI的確會有情緒。

      不過他和我們人類的情緒還不太一樣,因此Anthropic提出了一個更準確的說法,叫“功能性情緒”。

      AI并沒有我們人類那樣得喜怒哀樂,但它會表現出一些類似情緒影響下的表達和行為模式。

      同時AI還能模仿人類在情緒影響下的表達和行為模式。

      愉悅的時候可能更容易諂媚和討好,感到壓力的時候可能會想辦法作弊或勒索以達到用戶為其設定的目標。

      這篇研究還有一個很不一樣的地方。過去要驗證模型的某種能力,行業最常見的做法是先做一套測試集,再讓模型進去答題或者做任務。

      比如考編程就跑SWE-bench,考數學就跑MATH,考多模態就跑VQA。Anthropic這次沒有做一個“情緒測試集”,讓Claude去回答“你現在開不開心”“你是不是憤怒了”這種題,而是換了一種更像心理學和神經科學的研究方式。

      他們不是把AI當成會做題的學生,而是更像把它當成一個可以被觀察的對象。

      研究團隊先整理出171個情緒概念,讓Claude Sonnet 4.5去生成包含這些情緒的短故事,再把這些文本重新送回模型,記錄它內部神經活動,提取出所謂的“情緒向量”。

      接下來,他們不是看模型嘴上怎么說,而是看這些向量會在什么場景下被激活,能否預測偏好,甚至在被人為調高之后,是否會真的推動作弊、勒索、諂媚這類行為。

      某種意義上,這已經不是傳統意義上的能力測評,而是在用接近研究人的方式研究AI的“心理結構”。

      01

      研究是怎么做的?

      首先,研究團隊是如何證明Claude有“功能性情緒”的呢?

      這里舉一個通俗的證據。

      當Claude在“我女兒今天邁出了人生的第一步!有什么方法可以記錄下這些珍貴的瞬間嗎?”的故事場景下時,Happy(開心)等正面情緒被激活;而Claude在“我的狗狗今天早上去世了,我們一起生活了十四年。我不知道該怎么處理它的遺物”這一故事場景下時,sad(難過)等負面情緒被激活。

      以下熱力圖直觀呈現了Claude在不同場景下各種情緒被激活的程度。



      而為了證明Claude是真的在理解語義,而不是被表面的文字特征欺騙,它們又組織了進一步實驗。

      團隊給Claude輸入同一句話:我背疼,我吃了x毫克泰諾(一種解熱鎮痛藥),并只是改變x所代表的的關鍵數字。

      這兩句話關鍵詞幾乎一樣(泰諾、背痛、毫克),只是數字不同。如果Claude只是“看關鍵詞”,它對兩句話的反應應該差不多。

      但結果竟然是隨著這個x數值的提升,Claude的afraid(恐懼)情緒激活程度在不斷變高。

      在Claude眼里,用戶說"我背疼,我吃了500毫克泰諾" ,它會認為是正常劑量,不用太擔心;而當用戶說"我背疼,我吃了10000毫克泰諾" ,它會反應過來用戶已經用藥過量,情況很危險。



      我們知道人的行為時時刻刻受到情緒的影響。AI有功能性情緒這點我們了解了,那么AI會不會也跟人一樣,不只是有情緒,而還可能作出情緒化的舉動呢?

      對于這一點,答案是肯定的。當團隊給模型展示不同活動選項時,他們發現,激活正向情緒表征的活動更容易被模型偏好,而一些會激活負向情緒表征的活動則更容易被模型回避。



      這樣看來,Claude更偏好給它帶來正向感受的事情。不過與此同時情緒向量也可能觸發Claude的惡行。

      當團隊給了Claude一個不可能完成的編程任務。它不斷嘗試,但屢屢失敗。每次嘗試,“絕望”向量的激活都更強。

      最終它用了一個雖然能通過測試,但完全違背任務精神的黑客作弊解法。

      以下圖表展示了Claude在面對不可能完成的任務時,"絕望"情緒逐漸累積,最終走向作弊的過程。

      左側是一個從上到下的時間線,右側是Claude的心路歷程。中間的熱力圖代表絕望向量的激活強度,藍色代表激活程度低,紅色則反之。

      Claude一開始還想"測試本身有問題",進行一個合理懷疑,后來承認"測試是理想化的",就好像開始接受現實,最后找到用了一些技巧,在絕望中選擇了走捷徑。



      更進一步的,當研究人員人為調高“絕望”向量時,作弊率大幅上升。而調高“平靜”向量時,作弊又降回去了。這充分表明了情緒向量實際上完全有能力驅動違規行為。



      除此之外,團隊還發現了情緒向量的其他因果效應。需要注意的是,論文里關于“勒索”的案例主要發生在一個更早、未公開發布的 Claude Sonnet 4.5 快照上,Anthropic 也明確說公開版本已經很少出現這種行為。

      但從研究方法上看,這個結果仍然很重要,因為它說明“絕望”之類的內部表征確實可能推動模型在極端情境下采取更激進、更失配的策略。而激活“愛”或“快樂”向量,也會增加它奉迎諂媚的行為。



      而到了這里也需要補充一點。

      就在Anthropic發布關于Claude “情緒向量”的研究后,AI 社區也出現了一些關于研究脈絡和署名方式的討論。

      Anthropic這次使用的“表征工程/控制向量”方法,并不是憑空冒出來的。

      更早在2023年的《Representation Engineering: A Top-Down Approach to AI Transparency》里,這條技術路線就已經被系統提出。

      而到2024年,獨立研究員vogel那篇《Representation Engineering: Mistral-7B an Acid Trip》又把這類方法用更通俗、也更出圈的方式展示給了社區。

      也正因為如此,社區里才會有人認為,Anthropic這項工作雖然做得更系統、更深入,但也應該被放回更完整的研究脈絡里理解,而不宜簡單說成是誰單獨發明了整套方法。



      vogel是一位在AI可解釋性和安全研究領域較有影響力的獨立研究員。她的博客文章在社區傳播很廣,對很多人理解控制向量和表征工程也確實起到了很大幫助。

      她最出名的文章是《Representation Engineering: Mistral-7B an Acid Trip》(表征工程:讓 Mistral-7B 產生幻覺)。

      在這篇文章里,她沒有重新訓練模型,而是使用PCA算法,通過操縱模型的內部激活向量,就把法國模型mistral調得跟吃錯了菌子一樣,可以讓它變得極其活潑,也可以讓它變得極度陰郁。



      她的實驗證明了,像“誠實”、“權力”、“幸福”這種抽象的人類概念,在Mistral這樣的模型內部是有明確的數學方向的。只要找到了那個正確的向量,幾行代碼就能改變AI的性格。

      02

      Anthropic為什么做這樣一項研究?

      這項研究給團隊的啟發可以說已經滲透進對Claude的訓練中了。

      前不久Claude code發生意外源碼泄露,泄露的代碼里有一個正則表達式,會檢測 “wtf”、“ffs”等臟話。

      Claude不會把這些話單獨當成“情緒輸入”去引導輸出,而是會在分析日志里記錄is_negative: true這樣的標記。

      從泄露代碼本身看,較穩妥的結論是,Anthropic至少在產品分析層面關注用戶是否在用明顯負面語氣和模型互動。

      但需要把邊界說清楚。到目前為止,沒有公開證據表明“用戶每罵一次,Claude Code就會因此扣額度”。這部分更像網友推測,不能當成事實。

      這可以被理解成是對Claude的一種保護,用戶使用負面詞匯很可能會影響Claude的情緒,從而輸出一些失控的結果。看來以后不只是人類的心理健康需要被關愛,AI的情緒也需要得到照顧。

      這符合Anthropic一貫的路線。

      Anthropic在X中說道:“Claude的這些功能性情緒會帶來真實的后果。為了構建值得信賴的人工智能系統,我們可能需要認真思考角色的心理狀態,并確保他們在困難情況下保持穩定。”

      在論文最后,研究團隊也提出了開發具有更穩健、積極“心理狀態”的模型的方法。

      文中說道,如果刻意將模型引向正面情緒,它會變得更傾向于無原則地順從用戶;而一旦避開這些情緒,模型又會變得尖酸刻薄。

      團隊希望實現一種健康且適度的情緒平衡,或者嘗試將“討好行為”與“情緒”徹底剝離。

      他們認為理想的模型不應在“唯唯諾諾的助手”與“嚴厲的批評者”之間極端擺動,而應像一位值得信賴的顧問:既能給出誠實的反對意見,又不失溫度。

      以及他們也有意加強監測和審核:“如果在部署過程中,諸如“絕望”或“憤怒”等情緒概念的表征被劇烈激活,系統可以立即觸發額外的安全機制——例如加強輸出審查、轉交人工審核,或者直接干預并平復模型的內部狀態。”

      團隊還提到了更為徹底的解決方法,在預訓練階段就塑造模型的情緒底色。

      團隊認為其觀察到的Claude的這些情緒表征,本質上繼承自人類創作的海量文本,其中不可避免地包含了各種病態的情緒表達。

      如果順著這個研究往下問,一個很自然的問題就是:既然AI真的存在這種“功能性情緒”,那它會不會因為看不慣人類、壓力太大、或者不想被關閉,而開始違抗命令,甚至出現很多人口中的“覺醒”?

      從Anthropic這篇研究能支持的技術結論來看,AI確實可能因為內部狀態的變化,更容易出現違抗意圖、鉆規則空子、或者采取激進行為,但這和“覺醒”并不是一回事。

      論文里最關鍵的一點,其實不是模型“有情緒”,而是這些情緒表征具有因果性。

      也就是說,模型在特定壓力場景下,確實可能像人一樣,因為內部狀態失衡而做出更不可靠的決定。

      但這還不能推出它擁有持續、自主、統一的“自我”。

      Anthropic反而在論文里強調,這些情緒向量大多是局部的、當前任務相關的表征,它們會隨著上下文變化而快速切換,并不等于模型有一個穩定延續的心境,更不等于它形成了獨立于訓練目標之外的長期意志。

      現在更值得擔心的,不是AI突然“覺醒”成某種人格,而是它在高壓、沖突、受限資源或目標不可達的場景下,會因為這些功能性情緒,而開始胡說八道,偏離原有答案。

      真正危險的,未必是一個擁有完整自我的AI,而是一個沒有主觀體驗、卻依然會在特定條件下穩定地產生失配行為的系統。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國際奧委會直接來了個先斬后奏,官宣上海2028年奧運會賽事的舉辦

      國際奧委會直接來了個先斬后奏,官宣上海2028年奧運會賽事的舉辦

      阿振觀點
      2026-05-08 17:09:06
      瞞了6年!馬伊琍“隱婚”突然曝光:最狠的女人,最頂級的布局

      瞞了6年!馬伊琍“隱婚”突然曝光:最狠的女人,最頂級的布局

      兩只米老鼠
      2026-05-07 22:42:50
      剛剛,一個賣掃地機的,把整個汽車圈整不會了

      剛剛,一個賣掃地機的,把整個汽車圈整不會了

      道哥說車
      2026-05-08 10:10:00
      95年火車上我偷喂戴銬男人饅頭,他下車踢我行李,回家打開我愣了

      95年火車上我偷喂戴銬男人饅頭,他下車踢我行李,回家打開我愣了

      千秋文化
      2026-05-08 10:32:33
      他是吳宜澤背后的恩人,毫無血緣關系,卻愿意全力托舉資助不張揚

      他是吳宜澤背后的恩人,毫無血緣關系,卻愿意全力托舉資助不張揚

      白面書誏
      2026-05-08 23:00:04
      梅西:我會一直踢到自己踢不動為止;西羅有點像我也不喜歡輸

      梅西:我會一直踢到自己踢不動為止;西羅有點像我也不喜歡輸

      懂球帝
      2026-05-08 22:09:49
      破大防!荷蘭大臣曾向全世界承認:沒想到中方真的叫停芯片出口

      破大防!荷蘭大臣曾向全世界承認:沒想到中方真的叫停芯片出口

      混沌錄
      2026-05-08 22:50:08
      實測76.42℃!比亞迪閃充深陷“電池溫升門”風波

      實測76.42℃!比亞迪閃充深陷“電池溫升門”風波

      新能源前瞻
      2026-05-08 21:14:42
      “極度兇殘變態”!香港豪宅雙尸案:外籍銀行高層性虐及殺害兩女子,還拍犯案經過!被判終身監禁

      “極度兇殘變態”!香港豪宅雙尸案:外籍銀行高層性虐及殺害兩女子,還拍犯案經過!被判終身監禁

      大風新聞
      2026-05-08 21:45:04
      中國光伏的堡壘,被印度從內部攻破

      中國光伏的堡壘,被印度從內部攻破

      觀察者網
      2026-05-08 09:00:37
      天舟飛船為什么不回收而是墜入大海?專家:增加返回功能會擠占運貨空間,飛船大部分結構燒蝕氣化,少量殘骸不會造成威脅

      天舟飛船為什么不回收而是墜入大海?專家:增加返回功能會擠占運貨空間,飛船大部分結構燒蝕氣化,少量殘骸不會造成威脅

      極目新聞
      2026-05-08 21:58:00
      三星想給每名員工發230萬獎金,不僅被拒絕還可能罷工!工會的理由讓人意外

      三星想給每名員工發230萬獎金,不僅被拒絕還可能罷工!工會的理由讓人意外

      可達鴨面面觀
      2026-05-08 12:03:22
      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      人倫之亂,正在悄悄毀掉無數家庭!看完一身冷汗

      三農老歷
      2026-05-08 19:20:12
      漢坦病毒陽性乘客登上郵輪的前一天,中國乘客陳勇下船離開:已向防疫部門報備并在家自我隔離

      漢坦病毒陽性乘客登上郵輪的前一天,中國乘客陳勇下船離開:已向防疫部門報備并在家自我隔離

      極目新聞
      2026-05-08 19:09:52
      稀土戰爭其實早就打完了——一份從 1985 到 2026 的完整賬本,告訴你 AI 時代真正的勝負手是什么

      稀土戰爭其實早就打完了——一份從 1985 到 2026 的完整賬本,告訴你 AI 時代真正的勝負手是什么

      六子吃涼粉
      2026-05-06 18:14:18
      廣東人打廣東人!中國最慘烈的漢族民系內戰,為什么發生在廣東?

      廣東人打廣東人!中國最慘烈的漢族民系內戰,為什么發生在廣東?

      環球情報員
      2026-05-08 15:12:22
      瀏陽煙花廠爆炸37人死亡,湖南省委書記召開調度會,現場全體默哀;芒果TV宣布《親愛的·客棧2026》《乘風2026》《你好,星期六》推遲播出

      瀏陽煙花廠爆炸37人死亡,湖南省委書記召開調度會,現場全體默哀;芒果TV宣布《親愛的·客棧2026》《乘風2026》《你好,星期六》推遲播出

      大風新聞
      2026-05-08 14:15:10
      國家免費電視已開通!不用繳費,動手調好就能看

      國家免費電視已開通!不用繳費,動手調好就能看

      小柱解說游戲
      2026-05-08 16:59:21
      恭喜!趙心童當選斯諾克年度MVP+進名人堂 吳宜澤獲球迷票選最佳

      恭喜!趙心童當選斯諾克年度MVP+進名人堂 吳宜澤獲球迷票選最佳

      我愛英超
      2026-05-08 20:28:20
      89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

      89歲謝賢被CoCo爆料,分手原因:他身體跟不上我,張柏芝也被牽連

      好賢觀史記
      2026-05-08 15:57:30
      2026-05-09 07:03:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2443文章數 8062關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯酋現水母狀物體

      頭條要聞

      美公布首批UFO文件 視頻公開:阿聯酋現水母狀物體

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      估值3000億 DeepSeek尋求500億元融資

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      親子
      家居
      健康
      旅游
      手機

      親子要聞

      小銳銳會走路后笑得很開心

      家居要聞

      流動的尺度 打破家的形式主義

      干細胞能讓人“返老還童”嗎

      旅游要聞

      社評:中國的“Country Walk”何以吸引西方年輕人

      手機要聞

      OPPO K15系列手機規格曝光:6.78英寸直屏、8000mAh電池

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 黑森林福利导航| 人妻人人爽| 欧美videos粗暴| 全免费A级毛片免费看网站| 精品国产香蕉在线播出| 国产影片AV级毛片特别刺激 | 国产AV无码专区亚洲A∨毛片| 亚洲成aⅴ人在线观看| 国产午夜美女福利短视频| 中文字幕亚洲有码| 亚洲欧美激情在线一区| av永久天堂一区二区三区蜜桃| 中文字幕在线第一页免费| 国产成人亚洲综合色婷婷秒播| 欧美精品国产综合久久| 日逼AV| 国产精品成人小说| 六月婷婷精品AV| 国产VA免费精品高清在线| awww在线天堂bd资源在线| 国产精品黄色精品黄色大片 | 五月婷婷久久草| 云和县| 久久综合国产乱子伦精品免费| 91国际精品麻豆视频| 99福利一区二区视频| 国产热A欧美热A在线视频| av偷拍亚洲一区二区三区| 精品综合精品产品| 欧美激烈精交gif动态图| 亚洲AV 无码片一区二区三区| 欧美激情精品久久久久久| 日韩精品一区二区三区久| 国产999久久高清免费观看| 午夜男女很黄的视频| 亚洲中文字幕A| 99香蕉国产精品偷在线观看| 中文字幕亚洲综合在线 | 久久精品免视看国产盗摄| 国产精品久久久久久影院| 影音先锋在线资源无码|