![]()
新智元報道
![]()
【新智元導讀】你是否在使用Agent工作或者寫代碼時,總感覺上下文不夠用?或者感覺反復使用Agent時并沒有變得更聰明?感覺目前的記憶方案仍然不夠用?今日,香港中文大學聯合浙江大學發布的一篇論文關注了這個問題,并引起了學術界廣泛討論:你以為Agent在「記憶」,其實只是在記備忘錄。
你有沒有遇到過這種情況:
給Agent配了向量數據庫,上傳了大量歷史對話,結果它下次還是答不上來;或者用Cursor、Claude寫了幾十輪代碼,感覺它對你項目的理解并沒有隨著時間真正加深,每次都像是在重新認識你。
![]()
這不是模型的問題,也不是RAG配置的問題。
香港中文大學與浙江大學的研究者在一篇新論文中給出了一個更根本的答案:我們根本就沒有給Agent真正的記憶。我們只是給了它一個備忘錄(Memo)。
![]()
論文鏈接:https://arxiv.org/pdf/2604.27707
論文于2026年4月30日在arXiv發布預印本,約10天之內便在國際學術社區引發大量討論。AI領域知名賬號 @dair_ai 在X(Twitter)的轉發獲得超過26,100次瀏覽與700余次點贊,多位YouTuber亦自發制作了介紹視頻,小紅書上也有多篇轉載。
Agent為什么越用越蠢?
當前主流的Agent記憶方案,大體可以分為四類:向量存儲、檢索增強生成(RAG)、便簽本(Scratchpad)與上下文窗口管理。
它們有一個共同點:都是「查找」,而非「記憶」。
論文作者將這類機制統稱為「備忘錄(Memo)」,而非真正意義上的記憶(True Memory)。
備忘錄的邏輯是:把信息存起來,用的時候再檢索出來。這和人類把一件事「記在心里」,是完全不同的兩件事。
![]()
這個區別的核心在于泛化機制的本質差異:
基于檢索的記憶:通過與存儲案例的相似性進行泛化。如果你存的案例里沒有類似的情境,Agent就不會處理。
基于權重的記憶:將經驗抽象成規則,并將規則應用于從未見過的輸入。
人類在學習一門語言時,不是把每一個句子都背下來,而是內化了語法規則,然后能造出從沒說過的新句子。
目前的Agent「記憶」,更像是基于檢索的記憶。
三大結構性缺陷
作者歸納出當前上下文代理記憶系統的三個關鍵局限,且每一個都可以在理論層面被證明,而非僅憑直覺。
缺陷一:信息量不等于能力
Agent會無限積累筆記,卻無法發展出真正的專業知識。
認知科學早已證明(Chi et al., 1981),人類專家與新手的根本區別不在于掌握了更多信息,而在于知識的組織方式發生了質變:專家的知識按照深層原則重新結構化,而非簡單堆積。
當前Agent做不到這一步。每次會話結束,模型的權重完全不變,下一次依然是從同一個「新手」起點出發,只是多了幾條備忘錄。
缺陷二:泛化天花板——數學分析
研究者用樣本復雜度理論,證明了可量化的泛化鴻溝:
檢索式記憶系統,要處理組合式新穎任務,需要存儲Ω(k2)個案例
而參數化學習(權重記憶),只需O(d)個示例(d為算子的復雜度維度)
更關鍵的是:增大上下文窗口無法突破這個上限。限制不來自容量,而來自組合覆蓋度。如果Agent從沒見過「A規則+B規則同時適用」的情形,它就無法處理這種組合,無論你塞進多少備忘錄。
用一個直觀的例子:假設Agent學會了「攝氏度轉華氏度」和「時區換算」兩項技能,如果它只是把案例存在向量庫里,那遇到「把北京時間的溫度轉換到紐約同等時刻」這類組合問題,它很可能就卡殼了。而人類學會了規則之后,這種組合是自然而然的。
缺陷三:記憶投毒——結構性安全漏洞
持久化記憶存儲在結構上對記憶投毒攻擊(Memory Poisoning)具有固有脆弱性。論文引用的實證數據觸目驚心:
MINJA攻擊:在最小化功能損耗的前提下,注入成功率高達98.2%
PoisonedRAG攻擊:僅用5條對抗性文本,即可實現90%的攻擊成功率
更危險的是,一旦注入成功,惡意內容會通過持久記憶在所有后續會話中持續循環,單次攻擊轉化為永久性入侵。
海馬體+新皮層
缺一不可
論文的理論基礎來自神經科學中的互補學習系統理論(Complementary Learning Systems, CLS)。
哺乳動物大腦通過兩套系統的協作解決了記憶問題:
海馬體(Hippocampus):快速記錄情景,高保真存儲新經驗
新皮層(Neocortex):緩慢整合,將情景記憶提煉為抽象規則,寫入權重
這兩套系統缺一不可。人類睡眠時,大腦會將白天的情景記憶向新皮層「回放」,完成從「記住這件事」到「學會這件事」的轉化。
當前AI Agent只實現了海馬體,即快速寫入,相似性召回,沒有抽象步驟。
![]()
論文作者將當前的Agent比作一個永遠不睡覺的人——不斷記筆記,卻從不整理,永遠無法將零散的經驗升華為真正的專業知識。
學界怎么看?
X上的真實討論
論文發布后,@dair_ai 的轉發帖迅速引發國際學術社區的熱議,以下是部分代表性討論的翻譯:
![]()
![]()
![]()
![]()
![]()
雙系統并存
不是推倒重來
論文并非只是「批判」,而是提出了雙系統共存的架構路徑。
核心思路是:在保留現有檢索式情景記憶(海馬體等價物)的同時,增加一條異步鞏固通道,將情景記憶逐步整合進模型權重(新皮層等價物)。
具體技術早已存在,從LoRA(輕量微調)和MEMIT(記憶編輯),到TTT層(測試時訓練)和SSR(自我蒸餾)等。
論文為三類受眾發出具體的行動呼吁:
系統構建者:實現從情景存儲到權重的鞏固通道,而非無限擴大向量庫
基準設計者(Benchmark):引入「跨時間組合泛化(CGT)」指標,真正衡量Agent是否在學習
持續學習研究社區:重新關注Agent場景,它天然提供了連續經驗流、獎勵信號與真實的部署環境
總結
這篇論文本質上是一篇立場論文(Position Paper),沒有龐大的實驗堆砌,但論證框架清晰,理論證明嚴格,
它引發如此廣泛的討論,或許恰恰說明:這個問題,幾乎每一個認真使用過長期Agent的工程師和研究者都曾隱約感受到,只是暫時沒有人把它說清楚。
如果你正在構建長期運行的Agent系統,這篇論文提供了一個重要的概念校準:你存的那些「記憶」,到底是備忘錄,還是真正的學習?
參考資料:
Xu, B., Dai, X., & Zhang, K. (2026). Contextual Agentic Memory is a Memo, Not True Memory. arXiv:2604.27707v1
@dair_ai Twitter/X 討論:https://x.com/dair_ai/status/2050694339165335754
Chi, M. T. H., et al. (1981). Categorization and representation of physics problems by experts and novices. Cognitive Science.
MINJA & PoisonedRAG 相關攻擊研究(見論文參考文獻)
編輯:LRST
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.