![]()
隨著語音、視頻、多模態(tài)能力不斷融入大語言模型(LLM),人與 AI 的交互正在越來越接近自然對(duì)話。今天的 LLM 不再只是回答問題的工具,也越來越多地出現(xiàn)在教育、客服、陪伴、心理健康等高度依賴情緒理解的場景中。
那么,大語言模型究竟是如何理解人類情緒的?
過去,關(guān)于 LLM 情緒能力的研究大多集中在情緒分類任務(wù)上:給模型一句話,看它能否判斷出其中包含的是快樂、悲傷、憤怒還是恐懼。
但在人類認(rèn)知中,情緒并不是一組扁平的類別。心理學(xué)中的「情緒輪」認(rèn)為,情緒往往以層級(jí)方式組織:例如「樂觀」可以被看作「快樂」的一種具體形式,「驚恐」可以被看作「恐懼」的一種具體形式。
![]()
圖 1 情緒輪。(來自:Idaho State University)
在 ICML2026 的一篇論文中,來自哈佛大學(xué)、加州大學(xué)圣地亞哥分校、NTT Research 的研究人員 Bo Zhao、Maya Okawa 等提出:大語言模型內(nèi)部會(huì)自然形成類似人類心理學(xué)模型的「情緒樹」。
模型越大,情緒樹越復(fù)雜。同時(shí),擁有更復(fù)雜情緒結(jié)構(gòu)的模型在銷售等任務(wù)上表現(xiàn)更好。模型中的情緒結(jié)構(gòu)還會(huì)受到性別、種族、收入、教育水平等身份設(shè)定的影響,呈現(xiàn)出與人類實(shí)驗(yàn)中相似的的情緒識(shí)別偏見。
![]()
- 論文標(biāo)題:Emergence of Hierarchical Emotion Organization in Large Language Models
- 論文鏈接:https://arxiv.org/abs/2507.10599
- 項(xiàng)目主頁:https://b-zhao.github.io/blog/hierarchical-emotion-in-llm
- 作者主頁:https://b-zhao.github.io/
從 LLM 中提取情緒樹
作者首先用 GPT-4o 生成 5000 個(gè)包含不同情緒狀態(tài)的場景句子,然后讓 Llama 系列模型在句子后繼續(xù)預(yù)測「這個(gè)句子中的情緒是……」。
接著,作者提取模型在 135 個(gè)情緒詞上的輸出概率,并比較兩個(gè)情緒詞在模型輸出中是否經(jīng)常共同出現(xiàn)。例如,如果模型認(rèn)為下一個(gè)單詞是「樂觀」的概率較高時(shí),「快樂」也經(jīng)常概率較高,但反過來并不總是成立,那么我們就可以認(rèn)為「樂觀」是「快樂」的一個(gè)更具體的子情緒。
基于這種條件概率關(guān)系,模型中的情緒可以構(gòu)造出一棵情緒樹。這種方法不需要人工標(biāo)注,而是來自模型自身對(duì)大量情緒場景的概率判斷。
![]()
圖 2 不同規(guī)模 Llama 模型的情緒樹(8B,70B,405B)
模型越大,情緒層級(jí)越復(fù)雜
實(shí)驗(yàn)比較了 GPT-2、Llama 3.1 8B、70B 和 405B。結(jié)果顯示,隨著模型規(guī)模增大,情緒樹變得更深、更復(fù)雜,也更接近心理學(xué)中的情緒輪結(jié)構(gòu)。
在 Llama 405B 中,諸如快樂、憤怒、悲傷、恐懼等基本情緒,會(huì)自然聚合出更細(xì)粒度的子類,例如幸福、樂觀、沮喪、后悔、焦慮等。論文進(jìn)一步用總路徑長度和平均深度衡量情緒樹復(fù)雜度,發(fā)現(xiàn)這兩個(gè)指標(biāo)隨模型規(guī)模整體上升。
![]()
圖 3 情緒層級(jí)復(fù)雜度隨模型規(guī)模增長。
情緒樹能預(yù)測模型的情緒識(shí)別能力
作者進(jìn)一步發(fā)現(xiàn),情緒樹不只是可視化工具,還能預(yù)測模型在不同身份設(shè)定下識(shí)別情緒的表現(xiàn)。
研究者讓 Llama 405B 分別以男性、女性、高收入、低收入、高教育水平、低教育水平等身份來判斷情緒。結(jié)果顯示,不同身份設(shè)定會(huì)生成不同的情緒樹,而情緒樹越豐富、路徑越長,模型的情緒識(shí)別準(zhǔn)確率越高。樹中的總路徑長度與識(shí)別準(zhǔn)確率的相關(guān)系數(shù)達(dá)到 0.84,顯著性小于 0.001。
![]()
圖 4 情緒樹結(jié)構(gòu)越復(fù)雜,情緒識(shí)別準(zhǔn)確率越高。
這意味著,層級(jí)結(jié)構(gòu)可以成為一種新的 LLM 評(píng)測指標(biāo):它衡量的不是模型是否偶然選對(duì)標(biāo)簽,而是模型是否形成了更細(xì)粒度的情緒概念組織。
LLM 的偏見和人類有多像?
論文還揭示了 LLM 情緒識(shí)別中的系統(tǒng)性偏見。Llama 405B 在模擬一些少數(shù)或弱勢(shì)群體身份時(shí),情緒識(shí)別準(zhǔn)確率明顯下降,例如女性、黑人、低收入、低教育水平等身份設(shè)定的表現(xiàn)低于對(duì)應(yīng)多數(shù)群體或優(yōu)勢(shì)群體。
為了驗(yàn)證這些現(xiàn)象是否只是模型自身的偏差,作者還進(jìn)行了人類實(shí)驗(yàn)。研究者在 Prolific 平臺(tái)上招募 60 名參與者,讓他們對(duì) 135 個(gè)情緒場景進(jìn)行六類情緒判斷。
結(jié)果顯示,LLM 的一些誤判模式與人類參與者存在相似之處。例如,女性參與者和 Llama 的女性身份設(shè)定都更容易在「憤怒」與「恐懼」之間混淆;黑人參與者和 Llama 的黑人身份設(shè)定也表現(xiàn)出類似的負(fù)面情緒混淆模式。
這說明,LLM 可能不僅學(xué)到了情緒詞和文本之間的對(duì)應(yīng)關(guān)系,也在一定程度上吸收了人類社會(huì)中的感知模式與偏見。
從理解情緒到影響情緒
情緒樹的復(fù)雜度不僅反映模型能否「看懂」情緒,也可能影響模型在對(duì)話中改變情緒的能力。論文進(jìn)一步模擬了銷售和投訴處理兩類場景:前者讓模型嘗試把一顆橡果賣出更高價(jià)格,后者讓模型安撫憤怒顧客。每輪對(duì)話中,模型都需要預(yù)測對(duì)方下一步的情緒變化。
結(jié)果顯示,情緒預(yù)測越準(zhǔn)確,銷售場景中的最終成交價(jià)格越高;在投訴處理場景中,顧客對(duì)話后的憤怒程度下降也越明顯。
這說明,LLM 的情緒理解并不只是靜態(tài)分類能力。更細(xì)致的情緒建模可能幫助模型更有效地順應(yīng)、引導(dǎo)甚至改變用戶情緒。這一能力在客服、教育和心理支持中可能帶來積極作用,但也需要更謹(jǐn)慎地評(píng)估其潛在風(fēng)險(xiǎn)。
![]()
圖 5 情緒預(yù)測誤差越低,銷售 / 客服表現(xiàn)越好。
總結(jié)
這篇論文指出,LLM 內(nèi)部會(huì)自然涌現(xiàn)出類似人類情緒輪的層級(jí)情緒結(jié)構(gòu)。 隨著模型規(guī)模增加,這種結(jié)構(gòu)變得更復(fù)雜,也更接近心理學(xué)模型。
同時(shí),論文也發(fā)現(xiàn),LLM 的情緒理解并非中性。模型在不同身份設(shè)定下會(huì)表現(xiàn)出系統(tǒng)性偏見,并且這些偏見在部分情況下與人類群體的誤判模式相似。
從更廣的角度看,這項(xiàng)工作展示了一條新的大模型評(píng)測路徑:將認(rèn)知科學(xué)理論作為假設(shè),用來分析 LLM 的內(nèi)部結(jié)構(gòu)和輸出行為。我們不僅需要知道模型是否能識(shí)別情緒,也需要評(píng)估它如何理解,預(yù)測,甚至影響情緒。這些能力既可能讓 AI 交互更自然、更有幫助,也可能被用于操控、誤導(dǎo)或放大社會(huì)偏見,因此需要更系統(tǒng)的評(píng)測與干預(yù)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.