網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

ICML 2026 | 大模型內(nèi)部也會(huì)長出「情緒樹」，規(guī)模越大越懂人心

2026-05-12 12:53:18　來源: 機(jī)器之心Pro

河北舉報(bào)

分享至

隨著語音、視頻、多模態(tài)能力不斷融入大語言模型（LLM），人與 AI 的交互正在越來越接近自然對(duì)話。今天的 LLM 不再只是回答問題的工具，也越來越多地出現(xiàn)在教育、客服、陪伴、心理健康等高度依賴情緒理解的場景中。

那么，大語言模型究竟是如何理解人類情緒的？

過去，關(guān)于 LLM 情緒能力的研究大多集中在情緒分類任務(wù)上：給模型一句話，看它能否判斷出其中包含的是快樂、悲傷、憤怒還是恐懼。

但在人類認(rèn)知中，情緒并不是一組扁平的類別。心理學(xué)中的「情緒輪」認(rèn)為，情緒往往以層級(jí)方式組織：例如「樂觀」可以被看作「快樂」的一種具體形式，「驚恐」可以被看作「恐懼」的一種具體形式。

圖 1 情緒輪。（來自：Idaho State University）

在 ICML2026 的一篇論文中，來自哈佛大學(xué)、加州大學(xué)圣地亞哥分校、NTT Research 的研究人員 Bo Zhao、Maya Okawa 等提出：大語言模型內(nèi)部會(huì)自然形成類似人類心理學(xué)模型的「情緒樹」。

模型越大，情緒樹越復(fù)雜。同時(shí)，擁有更復(fù)雜情緒結(jié)構(gòu)的模型在銷售等任務(wù)上表現(xiàn)更好。模型中的情緒結(jié)構(gòu)還會(huì)受到性別、種族、收入、教育水平等身份設(shè)定的影響，呈現(xiàn)出與人類實(shí)驗(yàn)中相似的的情緒識(shí)別偏見。

論文標(biāo)題：Emergence of Hierarchical Emotion Organization in Large Language Models
論文鏈接：https://arxiv.org/abs/2507.10599
項(xiàng)目主頁：https://b-zhao.github.io/blog/hierarchical-emotion-in-llm
作者主頁：https://b-zhao.github.io/

從 LLM 中提取情緒樹

作者首先用 GPT-4o 生成 5000 個(gè)包含不同情緒狀態(tài)的場景句子，然后讓 Llama 系列模型在句子后繼續(xù)預(yù)測「這個(gè)句子中的情緒是……」。

接著，作者提取模型在 135 個(gè)情緒詞上的輸出概率，并比較兩個(gè)情緒詞在模型輸出中是否經(jīng)常共同出現(xiàn)。例如，如果模型認(rèn)為下一個(gè)單詞是「樂觀」的概率較高時(shí)，「快樂」也經(jīng)常概率較高，但反過來并不總是成立，那么我們就可以認(rèn)為「樂觀」是「快樂」的一個(gè)更具體的子情緒。

基于這種條件概率關(guān)系，模型中的情緒可以構(gòu)造出一棵情緒樹。這種方法不需要人工標(biāo)注，而是來自模型自身對(duì)大量情緒場景的概率判斷。

圖 2 不同規(guī)模 Llama 模型的情緒樹（8B，70B，405B）

模型越大，情緒層級(jí)越復(fù)雜

實(shí)驗(yàn)比較了 GPT-2、Llama 3.1 8B、70B 和 405B。結(jié)果顯示，隨著模型規(guī)模增大，情緒樹變得更深、更復(fù)雜，也更接近心理學(xué)中的情緒輪結(jié)構(gòu)。

在 Llama 405B 中，諸如快樂、憤怒、悲傷、恐懼等基本情緒，會(huì)自然聚合出更細(xì)粒度的子類，例如幸福、樂觀、沮喪、后悔、焦慮等。論文進(jìn)一步用總路徑長度和平均深度衡量情緒樹復(fù)雜度，發(fā)現(xiàn)這兩個(gè)指標(biāo)隨模型規(guī)模整體上升。

圖 3 情緒層級(jí)復(fù)雜度隨模型規(guī)模增長。

情緒樹能預(yù)測模型的情緒識(shí)別能力

作者進(jìn)一步發(fā)現(xiàn)，情緒樹不只是可視化工具，還能預(yù)測模型在不同身份設(shè)定下識(shí)別情緒的表現(xiàn)。

研究者讓 Llama 405B 分別以男性、女性、高收入、低收入、高教育水平、低教育水平等身份來判斷情緒。結(jié)果顯示，不同身份設(shè)定會(huì)生成不同的情緒樹，而情緒樹越豐富、路徑越長，模型的情緒識(shí)別準(zhǔn)確率越高。樹中的總路徑長度與識(shí)別準(zhǔn)確率的相關(guān)系數(shù)達(dá)到 0.84，顯著性小于 0.001。

圖 4 情緒樹結(jié)構(gòu)越復(fù)雜，情緒識(shí)別準(zhǔn)確率越高。

這意味著，層級(jí)結(jié)構(gòu)可以成為一種新的 LLM 評(píng)測指標(biāo)：它衡量的不是模型是否偶然選對(duì)標(biāo)簽，而是模型是否形成了更細(xì)粒度的情緒概念組織。

LLM 的偏見和人類有多像？

論文還揭示了 LLM 情緒識(shí)別中的系統(tǒng)性偏見。Llama 405B 在模擬一些少數(shù)或弱勢(shì)群體身份時(shí)，情緒識(shí)別準(zhǔn)確率明顯下降，例如女性、黑人、低收入、低教育水平等身份設(shè)定的表現(xiàn)低于對(duì)應(yīng)多數(shù)群體或優(yōu)勢(shì)群體。

為了驗(yàn)證這些現(xiàn)象是否只是模型自身的偏差，作者還進(jìn)行了人類實(shí)驗(yàn)。研究者在 Prolific 平臺(tái)上招募 60 名參與者，讓他們對(duì) 135 個(gè)情緒場景進(jìn)行六類情緒判斷。

結(jié)果顯示，LLM 的一些誤判模式與人類參與者存在相似之處。例如，女性參與者和 Llama 的女性身份設(shè)定都更容易在「憤怒」與「恐懼」之間混淆；黑人參與者和 Llama 的黑人身份設(shè)定也表現(xiàn)出類似的負(fù)面情緒混淆模式。

這說明，LLM 可能不僅學(xué)到了情緒詞和文本之間的對(duì)應(yīng)關(guān)系，也在一定程度上吸收了人類社會(huì)中的感知模式與偏見。

從理解情緒到影響情緒

情緒樹的復(fù)雜度不僅反映模型能否「看懂」情緒，也可能影響模型在對(duì)話中改變情緒的能力。論文進(jìn)一步模擬了銷售和投訴處理兩類場景：前者讓模型嘗試把一顆橡果賣出更高價(jià)格，后者讓模型安撫憤怒顧客。每輪對(duì)話中，模型都需要預(yù)測對(duì)方下一步的情緒變化。

結(jié)果顯示，情緒預(yù)測越準(zhǔn)確，銷售場景中的最終成交價(jià)格越高；在投訴處理場景中，顧客對(duì)話后的憤怒程度下降也越明顯。

這說明，LLM 的情緒理解并不只是靜態(tài)分類能力。更細(xì)致的情緒建模可能幫助模型更有效地順應(yīng)、引導(dǎo)甚至改變用戶情緒。這一能力在客服、教育和心理支持中可能帶來積極作用，但也需要更謹(jǐn)慎地評(píng)估其潛在風(fēng)險(xiǎn)。

圖 5 情緒預(yù)測誤差越低，銷售 / 客服表現(xiàn)越好。

總結(jié)

這篇論文指出，LLM 內(nèi)部會(huì)自然涌現(xiàn)出類似人類情緒輪的層級(jí)情緒結(jié)構(gòu)。隨著模型規(guī)模增加，這種結(jié)構(gòu)變得更復(fù)雜，也更接近心理學(xué)模型。

同時(shí)，論文也發(fā)現(xiàn)，LLM 的情緒理解并非中性。模型在不同身份設(shè)定下會(huì)表現(xiàn)出系統(tǒng)性偏見，并且這些偏見在部分情況下與人類群體的誤判模式相似。

從更廣的角度看，這項(xiàng)工作展示了一條新的大模型評(píng)測路徑：將認(rèn)知科學(xué)理論作為假設(shè)，用來分析 LLM 的內(nèi)部結(jié)構(gòu)和輸出行為。我們不僅需要知道模型是否能識(shí)別情緒，也需要評(píng)估它如何理解，預(yù)測，甚至影響情緒。這些能力既可能讓 AI 交互更自然、更有幫助，也可能被用于操控、誤導(dǎo)或放大社會(huì)偏見，因此需要更系統(tǒng)的評(píng)測與干預(yù)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.