<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Agent記憶賽道大洗牌!LoCoMo-Refined重磅發布,主流記憶框架迎來核心檢驗

      0
      分享至


      京大學&上海人工智能實驗室聯合推出LoCoMo-Refined嚴苛的Agent記憶評測基準,主流記憶系統真實水平大比拼!

      01


      引言:Agent記憶系統高分背后,

      評測“標尺”仍待校準

      隨著 Agent 應用持續走向復雜任務,"記憶能力"正逐漸成為影響系統可用性與用戶體驗的關鍵基礎能力之一。盡管模型的長上下文窗口不斷擴展(從 128K 擴展到 1M、2M),但其仍無法有效解決真實長周期對話中頻發的"失憶"問題。因此,圍繞Agent的記憶框架迅速興起,成為當前業界提升長期記憶能力的一條重要技術路徑。

      在當下各大主流記憶評測榜單中(如 Agent Memory 領域的代表性基準 LoCoMo),主流記憶框架動輒獲得90%以上的高分。但在接入真實的業務場景時,卻發現 Agent 依然頻頻失效:昨天說好的日程今天搞錯時間、用戶偏好被張冠李戴、甚至還會"腦補"出從未發生過的對話細節。明明在評測基準里拿了高分,為什么一到真實應用就表現不佳?

      南京大學強化學習實驗室聯合上海人工智能實驗室群體智能團隊,在深度剖析了超長對話記憶基準 LoCoMo 后,找到了核心原因——現有的評測“標尺”本身存在偏差,并總結出當前記憶評測基準普遍存在的兩大漏洞:

      第一,評判標準過于寬容:行業通用的 LLM 裁判(Judger)基本邏輯是"相關即正確",這種寬松的判定掩蓋了當前記憶外掛的核心缺陷——召回冗余信息與過度生成;

      第二,考卷本身也存在錯漏:數據集中潛藏著部分邏輯顛倒、事實偏差的"臟數據",干擾了評測精度。

      如果評測“標尺”本身不夠準確,Agent 記憶系統的研究將在高分的假象中迷失方向,導致記憶系統的真實瓶頸被持續忽視。為此,在LoCoMo基礎上,聯合團隊正式推出專為驗證真實記憶架構而生的嚴謹測試基準 LoCoMo-Refined

      ? 新 Judger 的核心原則:包含且不矛盾,完整且不越界——對冗余生成和未驗證細節明確扣分。

      ? 數據修正方面,人工逐題核驗核心四類題目,修訂了題目模糊、主客體顛倒、時間不符等問題,最終形成高質量新數據集。

      在 LoCoMo-Refined 的嚴苛標準下,MemPalace、EverMemOS等主流記憶框架的得分普遍下降15–22個百分點——它們此前的高分,在很大程度上是評測標尺本身的寬松所致。

      02


      揭秘舊基準得分虛高的兩大原因

      那些在真實場景中表現不佳的記憶系統,究竟是如何斬獲高分的?我們深入分析了現有的LoCoMo評測體系,發現了兩個關鍵原因。

      原因一:寬松的裁判——“相關即正確”掩蓋了記憶系統的缺陷

      主流記憶框架在實際使用中容易產生冗余信息——既可能在檢索階段召回無關記憶,也可能在生成階段引入未經驗證的細節。然而,現有評測體系中,通用 LLM Judger(裁判)的判定門檻較低,其核心邏輯是"相關即正確"——只要回答在語義上與標準答案相關,就傾向于判定為正確,極易產生評判幻覺。具體表現為:


      ?忽視時間漂移:比如問題問“Deborah 何時去巴西”,標準答案是“2020年”。如果記憶系統回答“2020年8月30日”(強加了未經驗證的具體日期),通用 Judger 依然會判定為正確。

      ?縱容過度生成與冗余:比如問題問“他喜歡什么類型的電影”,標準答案是“動作片和科幻片”。如果記憶系統召回了多余的信息,回答“動作、科幻和奇幻片”,在舊規則下,這依然是一個“滿分答案”。

      這種寬松的裁判標準,實際上導致了嚴重的假陽性。它讓那些記憶混亂、時間線模糊、生成額外事實的結果,獲得了遠超其真實能力的高分。當評測失去了區分度,得分的參考價值也就大打折扣。

      原因二:帶瑕疵的考卷——考題和標準答案存在誤導

      除了評判標準的過度寬容,測試數據本身的問題同樣會干擾評測的客觀性。通過 AI 初篩結合人工核驗,在原始 LoCoMo 中精確定位了 337 道存在邏輯或事實偏差的題目。這類錯誤一旦作為“金標準”,會直接干擾對 Agent記憶系統的準確評估。


      ?以"主客顛倒"為例:例如原數據集題目:“Nate 去 Joanna 家玩時想做什么?”但回溯長達數百輪的原始對話記錄發現,Nate 說的實際上是:“我很高興你能再來我家玩”——訪客與主人的關系完全相反。如果記憶系統依據這樣的標注進行學習或評測,會導致錯誤的結果被判定為正確。

      03


      LoCoMo-Refined 怎么做?

      ——專為“記憶架構”打造的客觀標尺

      為了精準評估 Agent 外掛記憶系統的真實能力,團隊從評測標準和數據質量兩個維度進行了系統性重構。

      嚴格標尺:精準識別“幻覺”與“冗余”的新 Judger

      針對舊裁判過度寬松的問題,圍繞記憶任務的本質要求,首先重新界定“什么才算真正答對”。與開放式生成任務不同,記憶評測關注的并不是僅僅是回答是否“看起來合理”或“主題相關”,而是系統能否在給定問題下準確、完整、邊界清晰地回憶目標信息。基于這一認識,首先給出新Judger的設計哲學——

      包含且不矛盾,完整且不越界。


      ?必要信息完整覆蓋:回答必須覆蓋標準答案的所有關鍵要素,命中一部分不算答對——從相關性匹配升級為信息完備性檢驗。

      ?冗余生成邊界控制:回答不能超出標準答案的可驗證范圍。未經證實的補充細節,即便看似合理,也應被扣分——評測關注的是"忠實復現",而非"合理擴展"。

      精修考卷:AI 與人工的協同校準

      有了精確的標尺,考卷本身的質量同樣需要保證。團隊引入了前沿 AI 模型作為初篩工具,對全部數據執行了基于證據(Evidence-based)的測試檢驗。隨后,人工對初篩出的錯題及 AI 修復建議進行了逐題復核。


      在剔除無效題型后,在剩余的 1540 道核心考題中,精修了 337 道存在邏輯或事實瑕疵的題目,數據集的純凈度得到了極大提升,最終獲得1382道精修后的題目。

      One More Thing:引入“多模態”記憶標記

      業界往往忽略了一個歸因盲區:當 Agent 面對混合了圖片的長期對話答錯時,到底是因為“文本記憶沒存好”,還是因為“沒看懂圖片”?

      為了剝離這種干擾,在 LoCoMo-Refined 中引入了多模態標記。其中 521 道題目(占比37.70%)被清晰地打上了該標簽,這讓開發者能夠更精細化地評估記憶框架在“純文本”與“圖文交織”場景下的能力邊界。

      04


      評測結果:

      嚴苛標尺下的重測,主流記憶框架真實水平展現

      標尺校準:舊版裁判模型為何不再適用?

      在測試真實記憶系統之前,團隊先用對比數據驗證了舊版評測結果為何缺乏區分度。

      通過抽取的 300 條高難度樣本進行雙盲測試。結果顯示,人類專家標注表現出較強的一致性——達到 0.9373,其中更是有高達 92.33% 的樣本一致性超過 0.8。這表明“記憶是否準確”在人類視角下有著清晰的共識。


      LLM Judger裁判評分的核心包括兩部分:大模型 + 評判規則,二者共同影響評判都準確率。以人類標注的300道題目為基礎,對這兩個因素進行了測評,從而衡量“評判標尺”是否準確。


      ?大模型的選擇:業界通用LoCoMo裁判采用GPT-4o mini作為后端LLM,在人工精標測試集上只有43.67%的準確率。Qwen3-14B 在相同配置下高出近 15%,因此LoCoMo-Refined 默認采用 Qwen3-14B。

      ?評判標準的校驗:現有LoCoMo裁判的標準(舊評判標準)較為寬松,這是造成評測標尺不準確的核心原因。團隊對前面所提出的新評判標準進行了測評,以 Qwen3-14B 作為后端 LLM 時,新評判標準與人類標注的一致準確率達到 86.33%,顯著優于舊評判標準。

      ?新裁判在高共識樣本上更穩定:結合大模型和評判標準的結構,在LoCoMo-Refined中使用Qwen3-14B + 新評判標準作為默認裁判,即新裁判。當人工標注者本身更容易達成一致時,新裁判的優勢會變得更明顯。對于一致性大于0.8 的樣本,新裁判的準確率達到 89.5%;而在一致性小于 0.8 的樣本上,則下降到 47.8%。相比之下,舊裁判在這兩類樣本上的準確率幾乎沒有變化,分別只有 48.4% 和 47.8%。


      重測結果:主流記憶框架回歸真實水平

      為了驗證LoCoMo-Refined基準以及新裁判的有效性和區分度,團隊針對主流記憶系統——如 Mem0、MemOS、EverMemOS和MemPalace進行了測評。

      在舊裁判下,這些框架的表現看起來相當不錯,但在嚴懲信息冗余和時間漂移的新裁判下,它們的得分顯著下降:


      這組對比結果也揭示了一個此前被寬松評判標準所掩蓋的事實:現有記憶系統在長對話場景中的實際表現,與舊基準所呈現的高分之間存在較大的差距。許多涉及時間推理、多事件區分和精確細節回憶的題目,對當前主流框架而言仍是未解決的難題——只是在舊裁判下,這些錯誤未被有效識別。我們希望 LoCoMo-Refined 能讓這些真實的瓶頸充分暴露出來,為后續記憶架構的改進提供更準確的方向。

      05


      開源與生態:

      建立更健康的 Agent 記憶測評基礎設施

      LoCoMo-Refined 的目標不是否定特定框架,而是為社區提供更客觀的驗證工具,幫助識別真實瓶頸,推動記憶架構的針對性改進。

      目前,LoCoMo-Refined 的完整修訂版數據集以及配套的嚴格評測腳本已經全部開源。

      GitHub 地址:https://github.com/mem-eval-suite/LoCoMo_refined

      期待社區開發者們在 LoCoMo-Refined 基礎上構建出更強大的 Agent 記憶系統,共同推動相關技術的發展!


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      韓媒:中國人怒了,砸34億贊助世界杯,卻還要花大錢買轉播權

      韓媒:中國人怒了,砸34億贊助世界杯,卻還要花大錢買轉播權

      寒律
      2026-05-14 10:38:36
      事關臺灣問題,中方說了三句重話,特朗普聞言,態度像變了一個人

      事關臺灣問題,中方說了三句重話,特朗普聞言,態度像變了一個人

      蘭亭墨未干
      2026-05-14 16:34:56
      隨著騎士加時4分險勝,NBA季后賽最新排名出爐!東部第一命懸一線

      隨著騎士加時4分險勝,NBA季后賽最新排名出爐!東部第一命懸一線

      薇說體育
      2026-05-14 11:43:28
      “性質惡劣!”新西蘭父子在海洋保護區“狂撈”486只鮑魚,企圖販賣!“被判四個月居家監禁! ”

      “性質惡劣!”新西蘭父子在海洋保護區“狂撈”486只鮑魚,企圖販賣!“被判四個月居家監禁! ”

      新西蘭天維網
      2026-05-13 13:05:51
      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      中方一錘定音給特朗普最高禮遇,普京通告全球:中俄關系獨一無二

      古史青云啊
      2026-05-13 09:59:29
      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      張柏芝現身 4S 店,為剛考取駕照的大兒子 Lucas 提國產新車

      老吳教育課堂
      2026-05-14 17:43:56
      王一博回應結婚,網友:祝福。

      王一博回應結婚,網友:祝福。

      美芽
      2026-05-13 12:09:53
      錢再多有什么用?2個女兒慘死3個兒子反目,資產1250億也無人送終

      錢再多有什么用?2個女兒慘死3個兒子反目,資產1250億也無人送終

      北緯的咖啡豆
      2026-04-08 17:09:30
      江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

      江青書信曝光!鋼筆字竟暗藏驚人秘密,書法之爭誰勝出?

      書畫相約
      2026-04-14 07:21:03
      網傳某地事業編欠薪10個月,社保斷繳已鬧上百姓呼聲!

      網傳某地事業編欠薪10個月,社保斷繳已鬧上百姓呼聲!

      燈錦年
      2026-05-13 19:39:30
      浙江寶寶“九個頭旋”引熱議,兒保醫師:頭旋數量和智商、性格無直接關系

      浙江寶寶“九個頭旋”引熱議,兒保醫師:頭旋數量和智商、性格無直接關系

      上游新聞
      2026-05-14 10:33:07
      U17國足VS沙特:4231最強出擊,萬項領銜前場進攻,海歸新星沖鋒

      U17國足VS沙特:4231最強出擊,萬項領銜前場進攻,海歸新星沖鋒

      零度眼看球
      2026-05-14 06:46:02
      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      這售價要超200萬了吧!消息稱華為、江淮、瑪莎拉蒂聯手造車:最快2027年見到“瑪界”

      快科技
      2026-05-14 11:54:52
      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      日航司高度焦慮!7月起,日本過華領空成本劇增,交錢也未必能批

      鐵錘簡科
      2026-05-14 13:24:35
      馬斯克太興奮了!360度狂拍照,網友笑瘋了

      馬斯克太興奮了!360度狂拍照,網友笑瘋了

      李東陽朋友圈
      2026-05-14 17:58:49
      印度每年榨糖,剩下7500萬噸甘蔗渣,中國人卻用它造出了科技王炸

      印度每年榨糖,剩下7500萬噸甘蔗渣,中國人卻用它造出了科技王炸

      毒sir財經
      2026-05-12 19:34:07
      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      程維高并非被一擼到底,下臺后享受副省級待遇,活了78歲

      史不語
      2026-05-13 08:10:10
      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當閻王,殺人喂狗!

      寧夏惡魔,白天在謝晉電影里演好人,晚上回家當閻王,殺人喂狗!

      莫地方
      2026-05-14 00:55:03
      侮辱、誹謗小米汽車 四個賬號博主一審均敗訴

      侮辱、誹謗小米汽車 四個賬號博主一審均敗訴

      閃電新聞
      2026-05-13 17:52:31
      特朗普給美國埋下一個14年大雷,現在他只能賭一把“自求多福”?

      特朗普給美國埋下一個14年大雷,現在他只能賭一把“自求多福”?

      茶韻浮生
      2026-05-14 20:29:14
      2026-05-14 21:40:49
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      家居
      房產
      健康
      教育
      數碼

      家居要聞

      精神奢享 對話塔尖需求

      房產要聞

      海南樓市新政要出!擬調公積金貸款額度,最高可貸168萬!

      專家揭秘干細胞回輸的安全風險

      教育要聞

      南京秦淮、雨花臺、玄武、建鄴2026高考考點公布!

      數碼要聞

      小米耳夾式耳機官宣,17Max樣張公布

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲最大av一区二区| 日韩色人妻| 亚洲激情综合中文字幕| 中文字幕A片无码免费看| 内射无套内射国产精品视频| 日韩精品| 国产欧美日韩一区二区加勒比| 国产又色又爽又黄刺激视频| 老司机亚洲精品影院无码| 国产成人亚洲一区二区三区 | 亚洲精品综合网站| 日韩av裸体在线播放| 国产亚洲精品色多多app下载| 亚洲高清有码在线观看| 欧美熟妇乱子伦XX视频| 在线免费观看亚洲天堂av| 国产精品人| 人人操碰| 精品裸模一区二区三区| 久久天天躁夜夜躁狠狠| 亚洲国产精品一区在线看| 黄色综合| 一本大道人妻中字幕在线视频 | 亚洲欧美人成人让影院| 久久午夜无码鲁丝片秋霞| 2021国产精品自产拍在线观看| 亚洲精品国产一区二区在线观看| 久久精品色一情一乱一伦| 精品偷拍| 女人腿张开让男人桶爽| 草莓av| 欧美大肚子孕妇疯狂作爱视频 | 中文字幕久区久久中文字幕| 亚洲AV秘?无码一区二三月夜| 国产亚洲精品久久久久久牛牛| 亚洲国际精品女人乱码| 久久99国产亚洲高清| 无码精品人妻| 亚洲av日韩av永久无码电影| 高级艳妇交换俱乐部小说| 啊v在线|