網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

當(dāng)AI助手"讀懂"你的習(xí)慣：韓陽(yáng)大學(xué)團(tuán)隊(duì)讓智能體真正記住你這個(gè)人

2026-04-29 17:25:28　來(lái)源: 科技行者

北京舉報(bào)

分享至

這項(xiàng)由韓國(guó)漢陽(yáng)大學(xué)自然語(yǔ)言處理團(tuán)隊(duì)完成的研究，以預(yù)印本形式于2026年4月發(fā)表在arXiv平臺(tái)上，論文編號(hào)為arXiv:2604.17886v1。感興趣的讀者可以通過(guò)該編號(hào)檢索到完整論文原文。

你有沒(méi)有遇到過(guò)這樣的情況：你打開某個(gè)訂餐應(yīng)用，每次都要重新告訴它"我要便宜的"；或者跟語(yǔ)音助手說(shuō)"幫我訂個(gè)機(jī)票"，它卻問(wèn)你要商務(wù)艙還是經(jīng)濟(jì)艙——明明你過(guò)去一百次都選的經(jīng)濟(jì)艙。這種體驗(yàn)說(shuō)明了一件事：現(xiàn)在的AI助手有記憶，卻沒(méi)有真正"認(rèn)識(shí)"你。

漢陽(yáng)大學(xué)的研究團(tuán)隊(duì)正是從這個(gè)日常痛點(diǎn)出發(fā)，著手解決一個(gè)被忽視已久的問(wèn)題：當(dāng)用戶說(shuō)出一句不完整的請(qǐng)求，AI能不能憑借對(duì)你過(guò)去行為的理解，自動(dòng)補(bǔ)上那些你沒(méi)說(shuō)出口的細(xì)節(jié)？

這聽起來(lái)簡(jiǎn)單，但做起來(lái)相當(dāng)復(fù)雜。關(guān)鍵在于，人的偏好往往不是直接說(shuō)出來(lái)的，而是藏在一次次選擇的背后。你點(diǎn)過(guò)三次廉價(jià)韓餐，又選了免費(fèi)入場(chǎng)的公園，再加上一輛緊湊型租車——如果把這些行為連起來(lái)看，你其實(shí)是個(gè)注重性價(jià)比的人。但沒(méi)有任何一次對(duì)話里，你明確說(shuō)過(guò)"我偏好低價(jià)"。研究團(tuán)隊(duì)把這種隱而不顯的規(guī)律稱為"潛在偏好"，而讓AI學(xué)會(huì)識(shí)別和利用這種偏好，就是這篇論文的核心任務(wù)。

為了研究這個(gè)問(wèn)題，團(tuán)隊(duì)做了兩件事：一是建立了一個(gè)專門的測(cè)試數(shù)據(jù)集，叫做MPT（多會(huì)話個(gè)性化工具調(diào)用基準(zhǔn)）；二是提出了一種新的方法，叫做PREFINE，用來(lái)幫助AI從過(guò)去的對(duì)話記錄中提煉出用戶的潛在偏好，并在未來(lái)的請(qǐng)求中加以應(yīng)用。實(shí)驗(yàn)結(jié)果顯示，PREFINE不僅提升了準(zhǔn)確率，還只用了完整歷史記錄所需token數(shù)量的1.24%，極大節(jié)省了計(jì)算資源。

一、為什么"記住你選過(guò)什么"還不夠

在深入了解這項(xiàng)研究之前，有必要先理解一個(gè)根本性的區(qū)別：記住你做過(guò)的事，和理解你為什么這么做，是完全不同的兩件事。

以一個(gè)偵探破案的思路來(lái)理解這個(gè)問(wèn)題。一個(gè)普通的記錄員只會(huì)把每個(gè)案發(fā)現(xiàn)場(chǎng)的情況抄下來(lái)，而一個(gè)真正的偵探會(huì)在多個(gè)案件之間找到共同規(guī)律，最終推斷出犯罪嫌疑人的行為動(dòng)機(jī)。AI助手在處理用戶偏好時(shí)面臨同樣的挑戰(zhàn)：僅僅記錄"這次點(diǎn)了經(jīng)濟(jì)艙"是記錄員的做法，而從多次出行記錄中推斷出"這個(gè)用戶總是傾向于省錢"，才是偵探的做法。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的AI記憶方法大多是"記錄員"。比如常見的RAG（檢索增強(qiáng)生成）方法，會(huì)把過(guò)去的對(duì)話原文存起來(lái)，用的時(shí)候檢索相關(guān)片段；Mem0和LangMem這類系統(tǒng)會(huì)把對(duì)話壓縮成簡(jiǎn)短的事實(shí)性摘要。這些方法在處理簡(jiǎn)單的重復(fù)性需求時(shí)還算夠用，但一旦遇到需要跨場(chǎng)景推斷的情況，就會(huì)露出破綻。

比如，如果用戶以前只有餐廳和出行的記錄，現(xiàn)在突然要訂酒店，過(guò)去的具體行為并不直接告訴AI該選幾星級(jí)酒店。但如果AI真的理解了這個(gè)人"骨子里就是個(gè)省錢型用戶"，它自然會(huì)往低星級(jí)靠攏。這種從具體行為中抽象出普遍規(guī)律，再把規(guī)律應(yīng)用到新情境的能力，就是研究團(tuán)隊(duì)所定義的"潛在偏好建模"。

二、給"偏好"畫一張地圖：MPT數(shù)據(jù)集是怎么建成的

要研究和測(cè)試AI對(duì)用戶偏好的理解能力，首先得有一個(gè)合適的考題集。研究團(tuán)隊(duì)構(gòu)建的MPT數(shù)據(jù)集，就像是為偵探能力考試設(shè)計(jì)的一套卷子，專門測(cè)試AI能否在復(fù)雜情境下推斷出用戶的隱性需求。

MPT建立在一個(gè)叫做SGD（Schema-Guided Dialogue，模式引導(dǎo)對(duì)話）的已有數(shù)據(jù)集之上。SGD包含了兩萬(wàn)多個(gè)涵蓋20個(gè)生活服務(wù)領(lǐng)域的對(duì)話，包括餐廳預(yù)訂、機(jī)票購(gòu)買、酒店入住、租車、景點(diǎn)游覽等等。研究團(tuán)隊(duì)從中挑選出適合的對(duì)話，把來(lái)自同一位虛擬用戶的多個(gè)單獨(dú)對(duì)話重新組合成"多會(huì)話歷史"，模擬一個(gè)真實(shí)用戶在不同時(shí)間、不同需求下與AI助手打交道的完整記錄。

接下來(lái)是最關(guān)鍵的一步：偏好標(biāo)注。由于SGD本身并不帶有偏好標(biāo)簽，研究團(tuán)隊(duì)需要手動(dòng)把各種API參數(shù)（也就是AI調(diào)用服務(wù)時(shí)填寫的選項(xiàng)，比如價(jià)格檔次、出行人數(shù)）歸類到更高層次的偏好類別里。他們?cè)O(shè)計(jì)了兩大偏好組：預(yù)算偏好和出行規(guī)模偏好。預(yù)算偏好又細(xì)分為"低消費(fèi)"和"高消費(fèi)"兩種，前者覆蓋的參數(shù)包括"價(jià)格檔次=便宜"、"是否免費(fèi)入場(chǎng)=是"、"車型=緊湊型"、"艙位=經(jīng)濟(jì)艙"等，后者則對(duì)應(yīng)"價(jià)格檔次=高檔"、"車型=大型"、"酒店星級(jí)=四五星"等。出行規(guī)模偏好則區(qū)分了"獨(dú)行"和"多人同行"兩種模式。

這套標(biāo)注體系的巧妙之處在于，它不是按照具體的字段名稱來(lái)分類，而是按照行為背后的邏輯來(lái)劃分。換句話說(shuō)，不管是在哪個(gè)服務(wù)領(lǐng)域、用哪個(gè)字段名，只要這個(gè)選擇反映了"用戶想省錢"，就歸入同一類偏好。這使得這套分類體系可以跨越不同服務(wù)接口，具有很強(qiáng)的通用性。

為了驗(yàn)證這套分類是否符合大眾認(rèn)知，研究團(tuán)隊(duì)還邀請(qǐng)了19位普通志愿者參與標(biāo)注驗(yàn)證實(shí)驗(yàn)。結(jié)果顯示，預(yù)算類別的一致率達(dá)到89.7%，出行規(guī)模類別更高達(dá)97.4%，統(tǒng)計(jì)學(xué)上的一致性系數(shù)（Fleiss' κ）分別為0.701（屬于"實(shí)質(zhì)性一致"等級(jí)）和0.880（屬于"近乎完美一致"等級(jí)）。這證明研究團(tuán)隊(duì)設(shè)計(jì)的偏好分類方式，確實(shí)和普通人的直覺(jué)高度吻合。

在構(gòu)建測(cè)試題目時(shí)，團(tuán)隊(duì)還刻意設(shè)計(jì)了兩種難度的問(wèn)題：一種是"情境引導(dǎo)型"（Context-Guided），對(duì)話里已經(jīng)給出了部分明確信息，但某個(gè)關(guān)鍵參數(shù)沒(méi)說(shuō)；另一種是"無(wú)情境型"（Context-Free），連明確信息也沒(méi)有，完全靠用戶的歷史行為來(lái)猜測(cè)偏好。后者相當(dāng)于考卷里的難題——用戶什么都沒(méi)說(shuō)，AI必須單憑"偵探檔案"來(lái)做出判斷。

最終，MPT包含265個(gè)多會(huì)話對(duì)話，涵蓋2020個(gè)單獨(dú)會(huì)話和近四萬(wàn)輪對(duì)話，平均每個(gè)用戶有7.6個(gè)歷史會(huì)話，每個(gè)會(huì)話有19.7輪對(duì)話。數(shù)據(jù)集涵蓋332道"偏好回憶"題（用戶在同一領(lǐng)域反復(fù)做了相同的選擇）、293道"偏好歸納"題（需要跨領(lǐng)域匯總線索），以及472道"偏好遷移"題（目標(biāo)領(lǐng)域完全沒(méi)有先例，必須從其他領(lǐng)域的規(guī)律遷移過(guò)來(lái)）。

三、三種考題，考驗(yàn)三種不同的偵探能力

研究團(tuán)隊(duì)把用戶偏好的推斷難度分成了三個(gè)層次，每個(gè)層次都對(duì)應(yīng)著偵探工作中的一種挑戰(zhàn)，理解這三種挑戰(zhàn)是讀懂這篇論文的關(guān)鍵。

第一種叫"偏好回憶"。以機(jī)票訂購(gòu)為例，假設(shè)用戶過(guò)去的歷史記錄里有三次購(gòu)買記錄，全都選了經(jīng)濟(jì)艙。現(xiàn)在用戶又說(shuō)"幫我訂一張機(jī)票"，AI需要填寫艙位字段。這種情況下，偵探只需要翻翻同類型的舊檔案，找到一致的規(guī)律，直接照搬就行了。這是最簡(jiǎn)單的一種，要求的是"記憶"而非"推斷"。

第二種叫"偏好歸納"。假設(shè)用戶從來(lái)沒(méi)有在飛機(jī)出行記錄里明確選過(guò)艙位，但是在餐廳選了便宜的韓餐，在景點(diǎn)選了免費(fèi)公園，在租車時(shí)選了緊湊型車。現(xiàn)在AI面對(duì)的是一道綜合題：這些來(lái)自不同領(lǐng)域的節(jié)儉行為，能不能拼湊出一個(gè)"這個(gè)人傾向于低消費(fèi)"的結(jié)論，并以此推斷他會(huì)選經(jīng)濟(jì)艙？這要求偵探具備跨案件歸納的能力，從表面上看起來(lái)不相關(guān)的線索中找出共同模式。

第三種叫"偏好遷移"。難度再升一級(jí)：用戶不僅沒(méi)有在目標(biāo)領(lǐng)域（比如機(jī)票）有過(guò)明確選擇，甚至連可以橫向類比的其他領(lǐng)域的選擇也很少。AI必須從極為有限的、跨域的行為證據(jù)出發(fā)，推斷出一個(gè)可以應(yīng)用到全新場(chǎng)景的偏好，這如同偵探面對(duì)一個(gè)全新類型的案件，必須調(diào)用以往所有辦案經(jīng)驗(yàn)來(lái)做出判斷，而沒(méi)有任何直接相似的先例可以參考。

研究團(tuán)隊(duì)發(fā)現(xiàn)，現(xiàn)有的AI記憶方法在第一種考題上表現(xiàn)尚可，但在第二、第三種考題上成績(jī)大幅下滑，甚至可以說(shuō)是基本失敗。以最基礎(chǔ)的"全歷史提示"方法為例，在無(wú)情境題目中，偏好回憶的F1分?jǐn)?shù)是53.19%，偏好歸納是43%，到了偏好遷移，只剩下16.26%。這個(gè)斷崖式的下滑說(shuō)明了一件事：把歷史記錄全部塞給AI看，并不等于AI能真正理解用戶。

四、PREFINE：像培養(yǎng)一個(gè)真正了解你的助手

正是為了解決上述問(wèn)題，研究團(tuán)隊(duì)設(shè)計(jì)了PREFINE這套方法。如果說(shuō)普通的記憶系統(tǒng)是一個(gè)把所有案卷堆在桌上的檔案員，PREFINE更像是一個(gè)經(jīng)驗(yàn)豐富的偵探，會(huì)不斷總結(jié)、修正自己對(duì)案件規(guī)律的判斷，并把結(jié)論寫成可以隨時(shí)調(diào)用的"行為畫像"。

PREFINE的工作方式可以用一個(gè)循環(huán)來(lái)理解：每當(dāng)一次新的對(duì)話結(jié)束，偵探（也就是AI）會(huì)檢視這次對(duì)話里發(fā)生了什么，嘗試提出一個(gè)新的假設(shè)來(lái)解釋用戶的行為；然后對(duì)這個(gè)假設(shè)進(jìn)行自我審查，看它是否真的經(jīng)得起推敲；如果不行，就修改這個(gè)假設(shè)，再檢查一遍。這個(gè)"提出假設(shè)→檢驗(yàn)假設(shè)→修正假設(shè)"的過(guò)程，在論文里被稱為"生成-驗(yàn)證-精煉"循環(huán)（Generate-Verify-Refine Loop）。

具體來(lái)說(shuō)，PREFINE的"提出假設(shè)"模塊負(fù)責(zé)從當(dāng)前的對(duì)話內(nèi)容、用完的服務(wù)接口，以及之前積累的偏好記憶出發(fā)，生成一個(gè)對(duì)用戶偏好的新描述。這個(gè)描述不是具體的選項(xiàng)記錄，而是一種抽象的行為規(guī)律，比如"用戶傾向于在各類服務(wù)中選擇經(jīng)濟(jì)實(shí)惠的選項(xiàng)"。

"檢驗(yàn)假設(shè)"模塊則扮演質(zhì)疑者的角色，按照四條標(biāo)準(zhǔn)來(lái)判斷這個(gè)假設(shè)是否靠譜：第一，證據(jù)是否充分，也就是說(shuō)這個(gè)假設(shè)是否由多次一致的行為來(lái)支撐；第二，抽象程度是否合適，不能只是把某一次具體選擇重新?lián)Q個(gè)說(shuō)法；第三，是否具有可操作性，這個(gè)假設(shè)必須能夠指導(dǎo)未來(lái)的具體選擇；第四，是否在時(shí)間上保持一致，如果用戶最近的行為改變了，不能還守著過(guò)時(shí)的結(jié)論。

如果檢驗(yàn)通過(guò)，這個(gè)假設(shè)就存入記憶，作為用戶的當(dāng)前"偏好畫像"。如果檢驗(yàn)沒(méi)通過(guò)，"修正假設(shè)"模塊會(huì)根據(jù)質(zhì)疑意見調(diào)整描述，然后再過(guò)一遍檢驗(yàn)，最多循環(huán)三次。論文中的一個(gè)例子展示了這個(gè)過(guò)程的細(xì)節(jié)：在看完第一次對(duì)話（用戶選了評(píng)分為6的電影）之后，AI最初提出"用戶偏好評(píng)分中等的電影"，但這被檢驗(yàn)?zāi)K否決，認(rèn)為這個(gè)描述過(guò)于具體且缺乏足夠依據(jù)；修改后變成"用戶偏好容易獲取的電影內(nèi)容"，再次被否，認(rèn)為對(duì)未來(lái)決策的指導(dǎo)意義不夠；第三次修改為"用戶對(duì)電影興趣有限"，這才通過(guò)了檢驗(yàn)。隨著更多會(huì)話的加入，偏好描述逐漸演化為"用戶在各類服務(wù)中傾向于經(jīng)濟(jì)實(shí)惠和簡(jiǎn)單的選擇"，最終凝練為一句話的行為畫像存入記憶。

PREFINE還有一個(gè)關(guān)鍵設(shè)計(jì)：記憶內(nèi)容是抽象的、與具體服務(wù)接口無(wú)關(guān)的語(yǔ)言描述，而不是某個(gè)特定服務(wù)字段的值。這意味著，即便將來(lái)AI要調(diào)用的服務(wù)接口換了一套字段名稱，甚至進(jìn)入了以前完全沒(méi)見過(guò)的服務(wù)領(lǐng)域，之前積累的偏好記憶依然可以使用。在接入新接口時(shí)，AI會(huì)把抽象的偏好描述重新映射到新接口的具體字段上。論文對(duì)這一特性專門做了驗(yàn)證，在七個(gè)全新服務(wù)領(lǐng)域（包括露營(yíng)地預(yù)訂、城市旅游、烹飪課程、健身課、滑雪通票、停車場(chǎng)和主題公園）上測(cè)試了PREFINE的表現(xiàn)，這些領(lǐng)域在訓(xùn)練時(shí)從未出現(xiàn)過(guò)，字段名稱也完全不同。結(jié)果顯示，使用GPT-5作為推理模型時(shí)，情境引導(dǎo)型題目的精確匹配率從3.75%躍升至47.00%，無(wú)情境型題目的F1分?jǐn)?shù)從36.39%提升至51.45%，證明PREFINE的記憶內(nèi)容具有真正意義上的跨域遷移能力。

五、數(shù)字背后的故事：實(shí)驗(yàn)結(jié)果說(shuō)明了什么

研究團(tuán)隊(duì)用MPT數(shù)據(jù)集對(duì)多種方法進(jìn)行了系統(tǒng)性對(duì)比實(shí)驗(yàn)，參與對(duì)比的推理模型涵蓋從輕量級(jí)到旗艦級(jí)的多個(gè)檔次，包括CodeGemma-7B、Gemma-3-12B、R1-Distill-Llama-8B、R1-Distill-Qwen-7B、GPT-4o-mini、GPT-5-mini、GPT-5以及Gemini-3-Flash。對(duì)比的基準(zhǔn)方法則包括直接提供全部歷史記錄的"全歷史提示"方式，以及RAG、Mem0、LangMem三種記憶增強(qiáng)方法。

在情境引導(dǎo)型題目上，PREFINE在偏好精確匹配率（P-EM，衡量AI是否填對(duì)了那些沒(méi)說(shuō)出口的關(guān)鍵參數(shù)）方面平均比全歷史提示方式高出約13個(gè)百分點(diǎn)。在更難的無(wú)情境型題目上，PREFINE在偏好推斷F1分?jǐn)?shù)方面平均提升幅度約為3.4個(gè)百分點(diǎn)，在偏好歸納類別上提升9個(gè)百分點(diǎn)。

RAG方法在偏好回憶類題目上表現(xiàn)尚可（精確匹配率達(dá)到50.6%），但在偏好歸納和偏好遷移上明顯掉隊(duì)。LangMem在回憶類題目上甚至達(dá)到64.4%，但同樣無(wú)法保持這種優(yōu)勢(shì)在更難的題目上延續(xù)。這印證了研究團(tuán)隊(duì)的核心判斷：現(xiàn)有方法擅長(zhǎng)的是表面記錄，而非深層推斷。

內(nèi)存效率方面的對(duì)比數(shù)據(jù)同樣引人關(guān)注。全歷史提示方法平均每個(gè)用戶需要使用1883.57個(gè)token來(lái)存儲(chǔ)記憶內(nèi)容；LangMem需要209.22個(gè)；RAG需要133.58個(gè)；Mem0需要119.87個(gè)；而PREFINE只需要23.28個(gè)，僅相當(dāng)于全歷史方式的1.24%。更值得注意的是，隨著會(huì)話數(shù)量不斷增加，全歷史提示所需的token量持續(xù)攀升，到第十個(gè)會(huì)話已經(jīng)需要2812個(gè)token；而PREFINE的記憶大小幾乎保持不變，始終在20到25個(gè)token左右徘徊。這是因?yàn)镻REFINE存儲(chǔ)的不是原始記錄，而是精煉后的行為規(guī)律，新的會(huì)話只會(huì)更新和完善這條規(guī)律，而不會(huì)疊加新的原始內(nèi)容。

研究團(tuán)隊(duì)還分析了PREFINE對(duì)AI預(yù)測(cè)行為的另一個(gè)改善：參數(shù)數(shù)量的校準(zhǔn)。API調(diào)用不僅要填對(duì)值，還要判斷應(yīng)該填幾個(gè)參數(shù)——既不能多填不必要的字段（增加誤判風(fēng)險(xiǎn)），也不能少填必要的字段（導(dǎo)致服務(wù)執(zhí)行失敗）。研究發(fā)現(xiàn)，使用全歷史提示方法時(shí)，AI預(yù)測(cè)的參數(shù)數(shù)量與真實(shí)所需參數(shù)數(shù)量之間的平均絕對(duì)偏差為0.77（情境引導(dǎo)型）和1.08（無(wú)情境型）；使用PREFINE之后，這個(gè)偏差分別降至0.56和0.77，對(duì)應(yīng)減少28.1%和28.7%。換句話說(shuō)，PREFINE讓AI在決定"該填什么"的同時(shí)，也更清楚地知道"該填多少"。

實(shí)驗(yàn)中也誠(chéng)實(shí)地指出了PREFINE并非對(duì)所有模型都表現(xiàn)出均勻的增益。對(duì)于R1-Distill-Llama-8B這類本就傾向于低估參數(shù)數(shù)量的模型，PREFINE進(jìn)一步收緊行動(dòng)空間的效果反而導(dǎo)致它填寫的參數(shù)更少，EA-F1（明確參數(shù)的填寫準(zhǔn)確率）出現(xiàn)了輕微下降。研究團(tuán)隊(duì)認(rèn)為，這不是PREFINE的根本缺陷，而是一個(gè)可預(yù)期的權(quán)衡：更精準(zhǔn)的范圍限定會(huì)在某些情況下以召回率換取精確率。

六、PREFINE和它的競(jìng)爭(zhēng)對(duì)手到底有何不同

在進(jìn)一步理解PREFINE為何有效之前，有必要把它與其他幾種記憶方法做一個(gè)更細(xì)致的比較，就像偵探事務(wù)所里不同流派的工作方式一樣。

RAG（檢索增強(qiáng)生成）的工作方式是把所有歷史對(duì)話的原文存檔，需要時(shí)根據(jù)當(dāng)前問(wèn)題找出最相近的幾段歷史內(nèi)容。這就像一個(gè)檔案館員工，每次接待客戶都去翻閱原始文件，按相關(guān)性排序后呈上。它的問(wèn)題在于，原始文件里充滿了細(xì)節(jié)噪音，而且相關(guān)性判斷依賴文字表面的相似性，不涉及行為規(guī)律的理解。

Mem0的方式則是把歷史對(duì)話壓縮成簡(jiǎn)短的事實(shí)陳述，比如"用戶訂了經(jīng)濟(jì)艙"、"用戶選了便宜餐廳"，然后存儲(chǔ)這些摘要事實(shí)，檢索時(shí)找出最匹配的幾條。問(wèn)題在于，這些仍然是具體行為的記錄，而不是行為背后的規(guī)律。

LangMem更進(jìn)一步，它會(huì)用AI把歷史信息整理成結(jié)構(gòu)化的知識(shí)，包括語(yǔ)義類（關(guān)于用戶偏好的描述）、情節(jié)類（特定事件記錄）和程序類（用戶的操作習(xí)慣）三種類型。它比Mem0更接近"理解"，但仍然主要以"已知事實(shí)"的形式存儲(chǔ)，缺乏動(dòng)態(tài)驗(yàn)證和跨域抽象的機(jī)制。

PREFINE的獨(dú)特之處在于，它存儲(chǔ)的不是"用戶做了什么"，而是"用戶為什么這么做的抽象規(guī)律"；不是一堆事實(shí)記錄，而是一條經(jīng)過(guò)多輪驗(yàn)證、反復(fù)修正的行為假設(shè)。這條假設(shè)足夠抽象，可以跨越服務(wù)領(lǐng)域；足夠精練，僅需一句話就能表達(dá)；又足夠可操作，可以直接指導(dǎo)具體的參數(shù)填寫。研究團(tuán)隊(duì)把這種記憶形式總結(jié)為"可修訂的偏好假設(shè)"，強(qiáng)調(diào)了它的動(dòng)態(tài)性和可操作性，這是其他方法所不具備的特征。

說(shuō)到底，這項(xiàng)研究揭示了一個(gè)關(guān)于AI個(gè)性化的根本問(wèn)題：真正了解一個(gè)人，不是記住他做過(guò)什么，而是明白他為什么這么做。

現(xiàn)在的AI助手在記憶層面已經(jīng)不短缺了，RAG可以存很多，Mem0可以存很多，LangMem也可以存很多。但研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果清楚地說(shuō)明，存的越多不等于懂的越多。一個(gè)把用戶所有歷史記錄都塞進(jìn)來(lái)的AI，在面對(duì)新的、跨域的偏好推斷時(shí)，表現(xiàn)甚至不如一個(gè)把歷史行為提煉成一句精準(zhǔn)結(jié)論的AI。

PREFINE的思路給出了一個(gè)值得關(guān)注的方向：與其讓AI背誦你的選擇清單，不如讓它學(xué)會(huì)識(shí)別你行為背后的邏輯。這種邏輯一旦被準(zhǔn)確提煉出來(lái)，不僅適用于你曾經(jīng)使用過(guò)的服務(wù)，也適用于你將來(lái)第一次使用的任何新服務(wù)。這意味著什么？意味著一個(gè)真正"懂你"的AI助手，在你第一次訂豪華露營(yíng)套餐時(shí)，就能根據(jù)你過(guò)去一貫的省錢習(xí)慣，自動(dòng)推薦標(biāo)準(zhǔn)帳篷而不是豪華木屋，而不需要你再次解釋"我就是不想花太多錢"。

當(dāng)然，這項(xiàng)研究也有很多尚未解決的問(wèn)題。目前MPT的偏好類別還比較有限，現(xiàn)實(shí)中人的偏好要復(fù)雜得多，而且會(huì)隨時(shí)間演變。同一個(gè)人在不同時(shí)期、不同情緒下的選擇可能截然不同。此外，真實(shí)用戶的歷史記錄往往更加雜亂，充滿噪音和矛盾。研究團(tuán)隊(duì)自己也指出，未來(lái)的工作需要擴(kuò)展到更豐富的偏好分類、能夠隨時(shí)間演化的偏好建模，以及應(yīng)對(duì)更長(zhǎng)、更嘈雜的交互歷史。

對(duì)于普通用戶來(lái)說(shuō)，這項(xiàng)研究帶來(lái)的啟示是：未來(lái)的AI助手可能會(huì)越來(lái)越少地問(wèn)你"你想要什么"，而是越來(lái)越多地根據(jù)對(duì)你這個(gè)人的理解，主動(dòng)給出恰當(dāng)?shù)慕ㄗh。不過(guò)，這也引出了一個(gè)值得思考的問(wèn)題：你愿意讓AI助手以這種方式"了解"你嗎？當(dāng)AI不再只是一個(gè)工具，而是一個(gè)真正記住你行為規(guī)律的"同伴"，你會(huì)如何看待這種關(guān)系？

有興趣深入了解的讀者可以通過(guò)arXiv編號(hào)2604.17886查閱完整論文，同時(shí)MPT數(shù)據(jù)集和PREFINE代碼均已開源，分別發(fā)布在HuggingFace的HYU-NLP/MPT項(xiàng)目和GitHub的HYU-NLP/PRefine倉(cāng)庫(kù)中。

Q&A

Q1：MPT基準(zhǔn)數(shù)據(jù)集中的"偏好歸納"和"偏好遷移"有什么區(qū)別？

A：偏好歸納要求AI從多個(gè)不同領(lǐng)域的行為中找出共同規(guī)律，比如用戶在餐廳、景點(diǎn)和租車時(shí)都選便宜的選項(xiàng)，AI需要?dú)w納出"用戶偏好低消費(fèi)"這一抽象規(guī)律，并用它來(lái)預(yù)測(cè)新情境下的選擇。偏好遷移則更難，目標(biāo)領(lǐng)域里沒(méi)有任何直接的歷史證據(jù)，必須把從其他領(lǐng)域總結(jié)出的規(guī)律直接套用到一個(gè)全新的服務(wù)上，相當(dāng)于零先例情況下的推斷。

Q2：PREFINE的"生成-驗(yàn)證-精煉"循環(huán)具體是怎么運(yùn)作的？

A：每當(dāng)一輪新對(duì)話結(jié)束，PREFINE會(huì)先生成一個(gè)對(duì)用戶偏好的抽象描述，然后用四條標(biāo)準(zhǔn)來(lái)驗(yàn)證：證據(jù)是否充分、抽象程度是否合適、是否能指導(dǎo)未來(lái)選擇、是否與最新行為一致。驗(yàn)證通過(guò)則存入記憶；不通過(guò)則根據(jù)反饋修改描述，重新驗(yàn)證，最多循環(huán)三次。最終存儲(chǔ)的是一句精煉的行為規(guī)律描述，而非具體的選項(xiàng)記錄。

Q3：PREFINE的記憶內(nèi)容為什么能在服務(wù)接口更換后依然有效？

A：因?yàn)镻REFINE存儲(chǔ)的是抽象的行為規(guī)律描述，比如"用戶傾向于在各類服務(wù)中選擇經(jīng)濟(jì)實(shí)惠的選項(xiàng)"，而不是某個(gè)特定服務(wù)字段的具體值。在使用新的服務(wù)接口時(shí)，AI會(huì)把這條抽象描述重新映射到新接口的具體字段上。實(shí)驗(yàn)中使用了七個(gè)全新服務(wù)領(lǐng)域進(jìn)行驗(yàn)證，字段名稱與訓(xùn)練時(shí)完全不同，結(jié)果依然保持了明顯的性能優(yōu)勢(shì)。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.