![]()
這項(xiàng)由韓國(guó)漢陽(yáng)大學(xué)自然語(yǔ)言處理團(tuán)隊(duì)完成的研究,以預(yù)印本形式于2026年4月發(fā)表在arXiv平臺(tái)上,論文編號(hào)為arXiv:2604.17886v1。感興趣的讀者可以通過(guò)該編號(hào)檢索到完整論文原文。
你有沒(méi)有遇到過(guò)這樣的情況:你打開某個(gè)訂餐應(yīng)用,每次都要重新告訴它"我要便宜的";或者跟語(yǔ)音助手說(shuō)"幫我訂個(gè)機(jī)票",它卻問(wèn)你要商務(wù)艙還是經(jīng)濟(jì)艙——明明你過(guò)去一百次都選的經(jīng)濟(jì)艙。這種體驗(yàn)說(shuō)明了一件事:現(xiàn)在的AI助手有記憶,卻沒(méi)有真正"認(rèn)識(shí)"你。
漢陽(yáng)大學(xué)的研究團(tuán)隊(duì)正是從這個(gè)日常痛點(diǎn)出發(fā),著手解決一個(gè)被忽視已久的問(wèn)題:當(dāng)用戶說(shuō)出一句不完整的請(qǐng)求,AI能不能憑借對(duì)你過(guò)去行為的理解,自動(dòng)補(bǔ)上那些你沒(méi)說(shuō)出口的細(xì)節(jié)?
這聽起來(lái)簡(jiǎn)單,但做起來(lái)相當(dāng)復(fù)雜。關(guān)鍵在于,人的偏好往往不是直接說(shuō)出來(lái)的,而是藏在一次次選擇的背后。你點(diǎn)過(guò)三次廉價(jià)韓餐,又選了免費(fèi)入場(chǎng)的公園,再加上一輛緊湊型租車——如果把這些行為連起來(lái)看,你其實(shí)是個(gè)注重性價(jià)比的人。但沒(méi)有任何一次對(duì)話里,你明確說(shuō)過(guò)"我偏好低價(jià)"。研究團(tuán)隊(duì)把這種隱而不顯的規(guī)律稱為"潛在偏好",而讓AI學(xué)會(huì)識(shí)別和利用這種偏好,就是這篇論文的核心任務(wù)。
為了研究這個(gè)問(wèn)題,團(tuán)隊(duì)做了兩件事:一是建立了一個(gè)專門的測(cè)試數(shù)據(jù)集,叫做MPT(多會(huì)話個(gè)性化工具調(diào)用基準(zhǔn));二是提出了一種新的方法,叫做PREFINE,用來(lái)幫助AI從過(guò)去的對(duì)話記錄中提煉出用戶的潛在偏好,并在未來(lái)的請(qǐng)求中加以應(yīng)用。實(shí)驗(yàn)結(jié)果顯示,PREFINE不僅提升了準(zhǔn)確率,還只用了完整歷史記錄所需token數(shù)量的1.24%,極大節(jié)省了計(jì)算資源。
一、為什么"記住你選過(guò)什么"還不夠
在深入了解這項(xiàng)研究之前,有必要先理解一個(gè)根本性的區(qū)別:記住你做過(guò)的事,和理解你為什么這么做,是完全不同的兩件事。
以一個(gè)偵探破案的思路來(lái)理解這個(gè)問(wèn)題。一個(gè)普通的記錄員只會(huì)把每個(gè)案發(fā)現(xiàn)場(chǎng)的情況抄下來(lái),而一個(gè)真正的偵探會(huì)在多個(gè)案件之間找到共同規(guī)律,最終推斷出犯罪嫌疑人的行為動(dòng)機(jī)。AI助手在處理用戶偏好時(shí)面臨同樣的挑戰(zhàn):僅僅記錄"這次點(diǎn)了經(jīng)濟(jì)艙"是記錄員的做法,而從多次出行記錄中推斷出"這個(gè)用戶總是傾向于省錢",才是偵探的做法。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI記憶方法大多是"記錄員"。比如常見的RAG(檢索增強(qiáng)生成)方法,會(huì)把過(guò)去的對(duì)話原文存起來(lái),用的時(shí)候檢索相關(guān)片段;Mem0和LangMem這類系統(tǒng)會(huì)把對(duì)話壓縮成簡(jiǎn)短的事實(shí)性摘要。這些方法在處理簡(jiǎn)單的重復(fù)性需求時(shí)還算夠用,但一旦遇到需要跨場(chǎng)景推斷的情況,就會(huì)露出破綻。
比如,如果用戶以前只有餐廳和出行的記錄,現(xiàn)在突然要訂酒店,過(guò)去的具體行為并不直接告訴AI該選幾星級(jí)酒店。但如果AI真的理解了這個(gè)人"骨子里就是個(gè)省錢型用戶",它自然會(huì)往低星級(jí)靠攏。這種從具體行為中抽象出普遍規(guī)律,再把規(guī)律應(yīng)用到新情境的能力,就是研究團(tuán)隊(duì)所定義的"潛在偏好建模"。
二、給"偏好"畫一張地圖:MPT數(shù)據(jù)集是怎么建成的
要研究和測(cè)試AI對(duì)用戶偏好的理解能力,首先得有一個(gè)合適的考題集。研究團(tuán)隊(duì)構(gòu)建的MPT數(shù)據(jù)集,就像是為偵探能力考試設(shè)計(jì)的一套卷子,專門測(cè)試AI能否在復(fù)雜情境下推斷出用戶的隱性需求。
MPT建立在一個(gè)叫做SGD(Schema-Guided Dialogue,模式引導(dǎo)對(duì)話)的已有數(shù)據(jù)集之上。SGD包含了兩萬(wàn)多個(gè)涵蓋20個(gè)生活服務(wù)領(lǐng)域的對(duì)話,包括餐廳預(yù)訂、機(jī)票購(gòu)買、酒店入住、租車、景點(diǎn)游覽等等。研究團(tuán)隊(duì)從中挑選出適合的對(duì)話,把來(lái)自同一位虛擬用戶的多個(gè)單獨(dú)對(duì)話重新組合成"多會(huì)話歷史",模擬一個(gè)真實(shí)用戶在不同時(shí)間、不同需求下與AI助手打交道的完整記錄。
接下來(lái)是最關(guān)鍵的一步:偏好標(biāo)注。由于SGD本身并不帶有偏好標(biāo)簽,研究團(tuán)隊(duì)需要手動(dòng)把各種API參數(shù)(也就是AI調(diào)用服務(wù)時(shí)填寫的選項(xiàng),比如價(jià)格檔次、出行人數(shù))歸類到更高層次的偏好類別里。他們?cè)O(shè)計(jì)了兩大偏好組:預(yù)算偏好和出行規(guī)模偏好。預(yù)算偏好又細(xì)分為"低消費(fèi)"和"高消費(fèi)"兩種,前者覆蓋的參數(shù)包括"價(jià)格檔次=便宜"、"是否免費(fèi)入場(chǎng)=是"、"車型=緊湊型"、"艙位=經(jīng)濟(jì)艙"等,后者則對(duì)應(yīng)"價(jià)格檔次=高檔"、"車型=大型"、"酒店星級(jí)=四五星"等。出行規(guī)模偏好則區(qū)分了"獨(dú)行"和"多人同行"兩種模式。
這套標(biāo)注體系的巧妙之處在于,它不是按照具體的字段名稱來(lái)分類,而是按照行為背后的邏輯來(lái)劃分。換句話說(shuō),不管是在哪個(gè)服務(wù)領(lǐng)域、用哪個(gè)字段名,只要這個(gè)選擇反映了"用戶想省錢",就歸入同一類偏好。這使得這套分類體系可以跨越不同服務(wù)接口,具有很強(qiáng)的通用性。
為了驗(yàn)證這套分類是否符合大眾認(rèn)知,研究團(tuán)隊(duì)還邀請(qǐng)了19位普通志愿者參與標(biāo)注驗(yàn)證實(shí)驗(yàn)。結(jié)果顯示,預(yù)算類別的一致率達(dá)到89.7%,出行規(guī)模類別更高達(dá)97.4%,統(tǒng)計(jì)學(xué)上的一致性系數(shù)(Fleiss' κ)分別為0.701(屬于"實(shí)質(zhì)性一致"等級(jí))和0.880(屬于"近乎完美一致"等級(jí))。這證明研究團(tuán)隊(duì)設(shè)計(jì)的偏好分類方式,確實(shí)和普通人的直覺(jué)高度吻合。
在構(gòu)建測(cè)試題目時(shí),團(tuán)隊(duì)還刻意設(shè)計(jì)了兩種難度的問(wèn)題:一種是"情境引導(dǎo)型"(Context-Guided),對(duì)話里已經(jīng)給出了部分明確信息,但某個(gè)關(guān)鍵參數(shù)沒(méi)說(shuō);另一種是"無(wú)情境型"(Context-Free),連明確信息也沒(méi)有,完全靠用戶的歷史行為來(lái)猜測(cè)偏好。后者相當(dāng)于考卷里的難題——用戶什么都沒(méi)說(shuō),AI必須單憑"偵探檔案"來(lái)做出判斷。
最終,MPT包含265個(gè)多會(huì)話對(duì)話,涵蓋2020個(gè)單獨(dú)會(huì)話和近四萬(wàn)輪對(duì)話,平均每個(gè)用戶有7.6個(gè)歷史會(huì)話,每個(gè)會(huì)話有19.7輪對(duì)話。數(shù)據(jù)集涵蓋332道"偏好回憶"題(用戶在同一領(lǐng)域反復(fù)做了相同的選擇)、293道"偏好歸納"題(需要跨領(lǐng)域匯總線索),以及472道"偏好遷移"題(目標(biāo)領(lǐng)域完全沒(méi)有先例,必須從其他領(lǐng)域的規(guī)律遷移過(guò)來(lái))。
三、三種考題,考驗(yàn)三種不同的偵探能力
研究團(tuán)隊(duì)把用戶偏好的推斷難度分成了三個(gè)層次,每個(gè)層次都對(duì)應(yīng)著偵探工作中的一種挑戰(zhàn),理解這三種挑戰(zhàn)是讀懂這篇論文的關(guān)鍵。
第一種叫"偏好回憶"。以機(jī)票訂購(gòu)為例,假設(shè)用戶過(guò)去的歷史記錄里有三次購(gòu)買記錄,全都選了經(jīng)濟(jì)艙。現(xiàn)在用戶又說(shuō)"幫我訂一張機(jī)票",AI需要填寫艙位字段。這種情況下,偵探只需要翻翻同類型的舊檔案,找到一致的規(guī)律,直接照搬就行了。這是最簡(jiǎn)單的一種,要求的是"記憶"而非"推斷"。
第二種叫"偏好歸納"。假設(shè)用戶從來(lái)沒(méi)有在飛機(jī)出行記錄里明確選過(guò)艙位,但是在餐廳選了便宜的韓餐,在景點(diǎn)選了免費(fèi)公園,在租車時(shí)選了緊湊型車。現(xiàn)在AI面對(duì)的是一道綜合題:這些來(lái)自不同領(lǐng)域的節(jié)儉行為,能不能拼湊出一個(gè)"這個(gè)人傾向于低消費(fèi)"的結(jié)論,并以此推斷他會(huì)選經(jīng)濟(jì)艙?這要求偵探具備跨案件歸納的能力,從表面上看起來(lái)不相關(guān)的線索中找出共同模式。
第三種叫"偏好遷移"。難度再升一級(jí):用戶不僅沒(méi)有在目標(biāo)領(lǐng)域(比如機(jī)票)有過(guò)明確選擇,甚至連可以橫向類比的其他領(lǐng)域的選擇也很少。AI必須從極為有限的、跨域的行為證據(jù)出發(fā),推斷出一個(gè)可以應(yīng)用到全新場(chǎng)景的偏好,這如同偵探面對(duì)一個(gè)全新類型的案件,必須調(diào)用以往所有辦案經(jīng)驗(yàn)來(lái)做出判斷,而沒(méi)有任何直接相似的先例可以參考。
研究團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有的AI記憶方法在第一種考題上表現(xiàn)尚可,但在第二、第三種考題上成績(jī)大幅下滑,甚至可以說(shuō)是基本失敗。以最基礎(chǔ)的"全歷史提示"方法為例,在無(wú)情境題目中,偏好回憶的F1分?jǐn)?shù)是53.19%,偏好歸納是43%,到了偏好遷移,只剩下16.26%。這個(gè)斷崖式的下滑說(shuō)明了一件事:把歷史記錄全部塞給AI看,并不等于AI能真正理解用戶。
四、PREFINE:像培養(yǎng)一個(gè)真正了解你的助手
正是為了解決上述問(wèn)題,研究團(tuán)隊(duì)設(shè)計(jì)了PREFINE這套方法。如果說(shuō)普通的記憶系統(tǒng)是一個(gè)把所有案卷堆在桌上的檔案員,PREFINE更像是一個(gè)經(jīng)驗(yàn)豐富的偵探,會(huì)不斷總結(jié)、修正自己對(duì)案件規(guī)律的判斷,并把結(jié)論寫成可以隨時(shí)調(diào)用的"行為畫像"。
PREFINE的工作方式可以用一個(gè)循環(huán)來(lái)理解:每當(dāng)一次新的對(duì)話結(jié)束,偵探(也就是AI)會(huì)檢視這次對(duì)話里發(fā)生了什么,嘗試提出一個(gè)新的假設(shè)來(lái)解釋用戶的行為;然后對(duì)這個(gè)假設(shè)進(jìn)行自我審查,看它是否真的經(jīng)得起推敲;如果不行,就修改這個(gè)假設(shè),再檢查一遍。這個(gè)"提出假設(shè)→檢驗(yàn)假設(shè)→修正假設(shè)"的過(guò)程,在論文里被稱為"生成-驗(yàn)證-精煉"循環(huán)(Generate-Verify-Refine Loop)。
具體來(lái)說(shuō),PREFINE的"提出假設(shè)"模塊負(fù)責(zé)從當(dāng)前的對(duì)話內(nèi)容、用完的服務(wù)接口,以及之前積累的偏好記憶出發(fā),生成一個(gè)對(duì)用戶偏好的新描述。這個(gè)描述不是具體的選項(xiàng)記錄,而是一種抽象的行為規(guī)律,比如"用戶傾向于在各類服務(wù)中選擇經(jīng)濟(jì)實(shí)惠的選項(xiàng)"。
"檢驗(yàn)假設(shè)"模塊則扮演質(zhì)疑者的角色,按照四條標(biāo)準(zhǔn)來(lái)判斷這個(gè)假設(shè)是否靠譜:第一,證據(jù)是否充分,也就是說(shuō)這個(gè)假設(shè)是否由多次一致的行為來(lái)支撐;第二,抽象程度是否合適,不能只是把某一次具體選擇重新?lián)Q個(gè)說(shuō)法;第三,是否具有可操作性,這個(gè)假設(shè)必須能夠指導(dǎo)未來(lái)的具體選擇;第四,是否在時(shí)間上保持一致,如果用戶最近的行為改變了,不能還守著過(guò)時(shí)的結(jié)論。
如果檢驗(yàn)通過(guò),這個(gè)假設(shè)就存入記憶,作為用戶的當(dāng)前"偏好畫像"。如果檢驗(yàn)沒(méi)通過(guò),"修正假設(shè)"模塊會(huì)根據(jù)質(zhì)疑意見調(diào)整描述,然后再過(guò)一遍檢驗(yàn),最多循環(huán)三次。論文中的一個(gè)例子展示了這個(gè)過(guò)程的細(xì)節(jié):在看完第一次對(duì)話(用戶選了評(píng)分為6的電影)之后,AI最初提出"用戶偏好評(píng)分中等的電影",但這被檢驗(yàn)?zāi)K否決,認(rèn)為這個(gè)描述過(guò)于具體且缺乏足夠依據(jù);修改后變成"用戶偏好容易獲取的電影內(nèi)容",再次被否,認(rèn)為對(duì)未來(lái)決策的指導(dǎo)意義不夠;第三次修改為"用戶對(duì)電影興趣有限",這才通過(guò)了檢驗(yàn)。隨著更多會(huì)話的加入,偏好描述逐漸演化為"用戶在各類服務(wù)中傾向于經(jīng)濟(jì)實(shí)惠和簡(jiǎn)單的選擇",最終凝練為一句話的行為畫像存入記憶。
PREFINE還有一個(gè)關(guān)鍵設(shè)計(jì):記憶內(nèi)容是抽象的、與具體服務(wù)接口無(wú)關(guān)的語(yǔ)言描述,而不是某個(gè)特定服務(wù)字段的值。這意味著,即便將來(lái)AI要調(diào)用的服務(wù)接口換了一套字段名稱,甚至進(jìn)入了以前完全沒(méi)見過(guò)的服務(wù)領(lǐng)域,之前積累的偏好記憶依然可以使用。在接入新接口時(shí),AI會(huì)把抽象的偏好描述重新映射到新接口的具體字段上。論文對(duì)這一特性專門做了驗(yàn)證,在七個(gè)全新服務(wù)領(lǐng)域(包括露營(yíng)地預(yù)訂、城市旅游、烹飪課程、健身課、滑雪通票、停車場(chǎng)和主題公園)上測(cè)試了PREFINE的表現(xiàn),這些領(lǐng)域在訓(xùn)練時(shí)從未出現(xiàn)過(guò),字段名稱也完全不同。結(jié)果顯示,使用GPT-5作為推理模型時(shí),情境引導(dǎo)型題目的精確匹配率從3.75%躍升至47.00%,無(wú)情境型題目的F1分?jǐn)?shù)從36.39%提升至51.45%,證明PREFINE的記憶內(nèi)容具有真正意義上的跨域遷移能力。
五、數(shù)字背后的故事:實(shí)驗(yàn)結(jié)果說(shuō)明了什么
研究團(tuán)隊(duì)用MPT數(shù)據(jù)集對(duì)多種方法進(jìn)行了系統(tǒng)性對(duì)比實(shí)驗(yàn),參與對(duì)比的推理模型涵蓋從輕量級(jí)到旗艦級(jí)的多個(gè)檔次,包括CodeGemma-7B、Gemma-3-12B、R1-Distill-Llama-8B、R1-Distill-Qwen-7B、GPT-4o-mini、GPT-5-mini、GPT-5以及Gemini-3-Flash。對(duì)比的基準(zhǔn)方法則包括直接提供全部歷史記錄的"全歷史提示"方式,以及RAG、Mem0、LangMem三種記憶增強(qiáng)方法。
在情境引導(dǎo)型題目上,PREFINE在偏好精確匹配率(P-EM,衡量AI是否填對(duì)了那些沒(méi)說(shuō)出口的關(guān)鍵參數(shù))方面平均比全歷史提示方式高出約13個(gè)百分點(diǎn)。在更難的無(wú)情境型題目上,PREFINE在偏好推斷F1分?jǐn)?shù)方面平均提升幅度約為3.4個(gè)百分點(diǎn),在偏好歸納類別上提升9個(gè)百分點(diǎn)。
RAG方法在偏好回憶類題目上表現(xiàn)尚可(精確匹配率達(dá)到50.6%),但在偏好歸納和偏好遷移上明顯掉隊(duì)。LangMem在回憶類題目上甚至達(dá)到64.4%,但同樣無(wú)法保持這種優(yōu)勢(shì)在更難的題目上延續(xù)。這印證了研究團(tuán)隊(duì)的核心判斷:現(xiàn)有方法擅長(zhǎng)的是表面記錄,而非深層推斷。
內(nèi)存效率方面的對(duì)比數(shù)據(jù)同樣引人關(guān)注。全歷史提示方法平均每個(gè)用戶需要使用1883.57個(gè)token來(lái)存儲(chǔ)記憶內(nèi)容;LangMem需要209.22個(gè);RAG需要133.58個(gè);Mem0需要119.87個(gè);而PREFINE只需要23.28個(gè),僅相當(dāng)于全歷史方式的1.24%。更值得注意的是,隨著會(huì)話數(shù)量不斷增加,全歷史提示所需的token量持續(xù)攀升,到第十個(gè)會(huì)話已經(jīng)需要2812個(gè)token;而PREFINE的記憶大小幾乎保持不變,始終在20到25個(gè)token左右徘徊。這是因?yàn)镻REFINE存儲(chǔ)的不是原始記錄,而是精煉后的行為規(guī)律,新的會(huì)話只會(huì)更新和完善這條規(guī)律,而不會(huì)疊加新的原始內(nèi)容。
研究團(tuán)隊(duì)還分析了PREFINE對(duì)AI預(yù)測(cè)行為的另一個(gè)改善:參數(shù)數(shù)量的校準(zhǔn)。API調(diào)用不僅要填對(duì)值,還要判斷應(yīng)該填幾個(gè)參數(shù)——既不能多填不必要的字段(增加誤判風(fēng)險(xiǎn)),也不能少填必要的字段(導(dǎo)致服務(wù)執(zhí)行失敗)。研究發(fā)現(xiàn),使用全歷史提示方法時(shí),AI預(yù)測(cè)的參數(shù)數(shù)量與真實(shí)所需參數(shù)數(shù)量之間的平均絕對(duì)偏差為0.77(情境引導(dǎo)型)和1.08(無(wú)情境型);使用PREFINE之后,這個(gè)偏差分別降至0.56和0.77,對(duì)應(yīng)減少28.1%和28.7%。換句話說(shuō),PREFINE讓AI在決定"該填什么"的同時(shí),也更清楚地知道"該填多少"。
實(shí)驗(yàn)中也誠(chéng)實(shí)地指出了PREFINE并非對(duì)所有模型都表現(xiàn)出均勻的增益。對(duì)于R1-Distill-Llama-8B這類本就傾向于低估參數(shù)數(shù)量的模型,PREFINE進(jìn)一步收緊行動(dòng)空間的效果反而導(dǎo)致它填寫的參數(shù)更少,EA-F1(明確參數(shù)的填寫準(zhǔn)確率)出現(xiàn)了輕微下降。研究團(tuán)隊(duì)認(rèn)為,這不是PREFINE的根本缺陷,而是一個(gè)可預(yù)期的權(quán)衡:更精準(zhǔn)的范圍限定會(huì)在某些情況下以召回率換取精確率。
六、PREFINE和它的競(jìng)爭(zhēng)對(duì)手到底有何不同
在進(jìn)一步理解PREFINE為何有效之前,有必要把它與其他幾種記憶方法做一個(gè)更細(xì)致的比較,就像偵探事務(wù)所里不同流派的工作方式一樣。
RAG(檢索增強(qiáng)生成)的工作方式是把所有歷史對(duì)話的原文存檔,需要時(shí)根據(jù)當(dāng)前問(wèn)題找出最相近的幾段歷史內(nèi)容。這就像一個(gè)檔案館員工,每次接待客戶都去翻閱原始文件,按相關(guān)性排序后呈上。它的問(wèn)題在于,原始文件里充滿了細(xì)節(jié)噪音,而且相關(guān)性判斷依賴文字表面的相似性,不涉及行為規(guī)律的理解。
Mem0的方式則是把歷史對(duì)話壓縮成簡(jiǎn)短的事實(shí)陳述,比如"用戶訂了經(jīng)濟(jì)艙"、"用戶選了便宜餐廳",然后存儲(chǔ)這些摘要事實(shí),檢索時(shí)找出最匹配的幾條。問(wèn)題在于,這些仍然是具體行為的記錄,而不是行為背后的規(guī)律。
LangMem更進(jìn)一步,它會(huì)用AI把歷史信息整理成結(jié)構(gòu)化的知識(shí),包括語(yǔ)義類(關(guān)于用戶偏好的描述)、情節(jié)類(特定事件記錄)和程序類(用戶的操作習(xí)慣)三種類型。它比Mem0更接近"理解",但仍然主要以"已知事實(shí)"的形式存儲(chǔ),缺乏動(dòng)態(tài)驗(yàn)證和跨域抽象的機(jī)制。
PREFINE的獨(dú)特之處在于,它存儲(chǔ)的不是"用戶做了什么",而是"用戶為什么這么做的抽象規(guī)律";不是一堆事實(shí)記錄,而是一條經(jīng)過(guò)多輪驗(yàn)證、反復(fù)修正的行為假設(shè)。這條假設(shè)足夠抽象,可以跨越服務(wù)領(lǐng)域;足夠精練,僅需一句話就能表達(dá);又足夠可操作,可以直接指導(dǎo)具體的參數(shù)填寫。研究團(tuán)隊(duì)把這種記憶形式總結(jié)為"可修訂的偏好假設(shè)",強(qiáng)調(diào)了它的動(dòng)態(tài)性和可操作性,這是其他方法所不具備的特征。
說(shuō)到底,這項(xiàng)研究揭示了一個(gè)關(guān)于AI個(gè)性化的根本問(wèn)題:真正了解一個(gè)人,不是記住他做過(guò)什么,而是明白他為什么這么做。
現(xiàn)在的AI助手在記憶層面已經(jīng)不短缺了,RAG可以存很多,Mem0可以存很多,LangMem也可以存很多。但研究團(tuán)隊(duì)的實(shí)驗(yàn)結(jié)果清楚地說(shuō)明,存的越多不等于懂的越多。一個(gè)把用戶所有歷史記錄都塞進(jìn)來(lái)的AI,在面對(duì)新的、跨域的偏好推斷時(shí),表現(xiàn)甚至不如一個(gè)把歷史行為提煉成一句精準(zhǔn)結(jié)論的AI。
PREFINE的思路給出了一個(gè)值得關(guān)注的方向:與其讓AI背誦你的選擇清單,不如讓它學(xué)會(huì)識(shí)別你行為背后的邏輯。這種邏輯一旦被準(zhǔn)確提煉出來(lái),不僅適用于你曾經(jīng)使用過(guò)的服務(wù),也適用于你將來(lái)第一次使用的任何新服務(wù)。這意味著什么?意味著一個(gè)真正"懂你"的AI助手,在你第一次訂豪華露營(yíng)套餐時(shí),就能根據(jù)你過(guò)去一貫的省錢習(xí)慣,自動(dòng)推薦標(biāo)準(zhǔn)帳篷而不是豪華木屋,而不需要你再次解釋"我就是不想花太多錢"。
當(dāng)然,這項(xiàng)研究也有很多尚未解決的問(wèn)題。目前MPT的偏好類別還比較有限,現(xiàn)實(shí)中人的偏好要復(fù)雜得多,而且會(huì)隨時(shí)間演變。同一個(gè)人在不同時(shí)期、不同情緒下的選擇可能截然不同。此外,真實(shí)用戶的歷史記錄往往更加雜亂,充滿噪音和矛盾。研究團(tuán)隊(duì)自己也指出,未來(lái)的工作需要擴(kuò)展到更豐富的偏好分類、能夠隨時(shí)間演化的偏好建模,以及應(yīng)對(duì)更長(zhǎng)、更嘈雜的交互歷史。
對(duì)于普通用戶來(lái)說(shuō),這項(xiàng)研究帶來(lái)的啟示是:未來(lái)的AI助手可能會(huì)越來(lái)越少地問(wèn)你"你想要什么",而是越來(lái)越多地根據(jù)對(duì)你這個(gè)人的理解,主動(dòng)給出恰當(dāng)?shù)慕ㄗh。不過(guò),這也引出了一個(gè)值得思考的問(wèn)題:你愿意讓AI助手以這種方式"了解"你嗎?當(dāng)AI不再只是一個(gè)工具,而是一個(gè)真正記住你行為規(guī)律的"同伴",你會(huì)如何看待這種關(guān)系?
有興趣深入了解的讀者可以通過(guò)arXiv編號(hào)2604.17886查閱完整論文,同時(shí)MPT數(shù)據(jù)集和PREFINE代碼均已開源,分別發(fā)布在HuggingFace的HYU-NLP/MPT項(xiàng)目和GitHub的HYU-NLP/PRefine倉(cāng)庫(kù)中。
Q&A
Q1:MPT基準(zhǔn)數(shù)據(jù)集中的"偏好歸納"和"偏好遷移"有什么區(qū)別?
A:偏好歸納要求AI從多個(gè)不同領(lǐng)域的行為中找出共同規(guī)律,比如用戶在餐廳、景點(diǎn)和租車時(shí)都選便宜的選項(xiàng),AI需要?dú)w納出"用戶偏好低消費(fèi)"這一抽象規(guī)律,并用它來(lái)預(yù)測(cè)新情境下的選擇。偏好遷移則更難,目標(biāo)領(lǐng)域里沒(méi)有任何直接的歷史證據(jù),必須把從其他領(lǐng)域總結(jié)出的規(guī)律直接套用到一個(gè)全新的服務(wù)上,相當(dāng)于零先例情況下的推斷。
Q2:PREFINE的"生成-驗(yàn)證-精煉"循環(huán)具體是怎么運(yùn)作的?
A:每當(dāng)一輪新對(duì)話結(jié)束,PREFINE會(huì)先生成一個(gè)對(duì)用戶偏好的抽象描述,然后用四條標(biāo)準(zhǔn)來(lái)驗(yàn)證:證據(jù)是否充分、抽象程度是否合適、是否能指導(dǎo)未來(lái)選擇、是否與最新行為一致。驗(yàn)證通過(guò)則存入記憶;不通過(guò)則根據(jù)反饋修改描述,重新驗(yàn)證,最多循環(huán)三次。最終存儲(chǔ)的是一句精煉的行為規(guī)律描述,而非具體的選項(xiàng)記錄。
Q3:PREFINE的記憶內(nèi)容為什么能在服務(wù)接口更換后依然有效?
A:因?yàn)镻REFINE存儲(chǔ)的是抽象的行為規(guī)律描述,比如"用戶傾向于在各類服務(wù)中選擇經(jīng)濟(jì)實(shí)惠的選項(xiàng)",而不是某個(gè)特定服務(wù)字段的具體值。在使用新的服務(wù)接口時(shí),AI會(huì)把這條抽象描述重新映射到新接口的具體字段上。實(shí)驗(yàn)中使用了七個(gè)全新服務(wù)領(lǐng)域進(jìn)行驗(yàn)證,字段名稱與訓(xùn)練時(shí)完全不同,結(jié)果依然保持了明顯的性能優(yōu)勢(shì)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.