網易首頁 > 網易號 > 正文申請入駐

你的AI Agent越用越蠢？港中大、浙大戳破「記憶」的謊言

2026-05-19 12:37:30　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】你是否在使用Agent工作或者寫代碼時，總感覺上下文不夠用？或者感覺反復使用Agent時并沒有變得更聰明？感覺目前的記憶方案仍然不夠用？今日，香港中文大學聯合浙江大學發布的一篇論文關注了這個問題，并引起了學術界廣泛討論：你以為Agent在「記憶」，其實只是在記備忘錄。

你有沒有遇到過這種情況：

給Agent配了向量數據庫，上傳了大量歷史對話，結果它下次還是答不上來；或者用Cursor、Claude寫了幾十輪代碼，感覺它對你項目的理解并沒有隨著時間真正加深，每次都像是在重新認識你。

這不是模型的問題，也不是RAG配置的問題。

香港中文大學與浙江大學的研究者在一篇新論文中給出了一個更根本的答案：我們根本就沒有給Agent真正的記憶。我們只是給了它一個備忘錄（Memo）。

論文鏈接：https://arxiv.org/pdf/2604.27707

論文于2026年4月30日在arXiv發布預印本，約10天之內便在國際學術社區引發大量討論。AI領域知名賬號 @dair_ai 在X（Twitter）的轉發獲得超過26,100次瀏覽與700余次點贊，多位YouTuber亦自發制作了介紹視頻，小紅書上也有多篇轉載。

Agent為什么越用越蠢？

當前主流的Agent記憶方案，大體可以分為四類：向量存儲、檢索增強生成（RAG）、便簽本（Scratchpad）與上下文窗口管理。

它們有一個共同點：都是「查找」，而非「記憶」。

論文作者將這類機制統稱為「備忘錄（Memo）」，而非真正意義上的記憶（True Memory）。

備忘錄的邏輯是：把信息存起來，用的時候再檢索出來。這和人類把一件事「記在心里」，是完全不同的兩件事。

這個區別的核心在于泛化機制的本質差異：

基于檢索的記憶：通過與存儲案例的相似性進行泛化。如果你存的案例里沒有類似的情境，Agent就不會處理。
基于權重的記憶：將經驗抽象成規則，并將規則應用于從未見過的輸入。

人類在學習一門語言時，不是把每一個句子都背下來，而是內化了語法規則，然后能造出從沒說過的新句子。

目前的Agent「記憶」，更像是基于檢索的記憶。

三大結構性缺陷

作者歸納出當前上下文代理記憶系統的三個關鍵局限，且每一個都可以在理論層面被證明，而非僅憑直覺。

缺陷一：信息量不等于能力

Agent會無限積累筆記，卻無法發展出真正的專業知識。

認知科學早已證明（Chi et al., 1981），人類專家與新手的根本區別不在于掌握了更多信息，而在于知識的組織方式發生了質變：專家的知識按照深層原則重新結構化，而非簡單堆積。

當前Agent做不到這一步。每次會話結束，模型的權重完全不變，下一次依然是從同一個「新手」起點出發，只是多了幾條備忘錄。

缺陷二：泛化天花板——數學分析

研究者用樣本復雜度理論，證明了可量化的泛化鴻溝：

檢索式記憶系統，要處理組合式新穎任務，需要存儲Ω(k2)個案例
而參數化學習（權重記憶），只需O(d)個示例（d為算子的復雜度維度）

更關鍵的是：增大上下文窗口無法突破這個上限。限制不來自容量，而來自組合覆蓋度。如果Agent從沒見過「A規則+B規則同時適用」的情形，它就無法處理這種組合，無論你塞進多少備忘錄。

用一個直觀的例子：假設Agent學會了「攝氏度轉華氏度」和「時區換算」兩項技能，如果它只是把案例存在向量庫里，那遇到「把北京時間的溫度轉換到紐約同等時刻」這類組合問題，它很可能就卡殼了。而人類學會了規則之后，這種組合是自然而然的。

缺陷三：記憶投毒——結構性安全漏洞

持久化記憶存儲在結構上對記憶投毒攻擊（Memory Poisoning）具有固有脆弱性。論文引用的實證數據觸目驚心：

MINJA攻擊：在最小化功能損耗的前提下，注入成功率高達98.2%
PoisonedRAG攻擊：僅用5條對抗性文本，即可實現90%的攻擊成功率

更危險的是，一旦注入成功，惡意內容會通過持久記憶在所有后續會話中持續循環，單次攻擊轉化為永久性入侵。

海馬體＋新皮層

缺一不可

論文的理論基礎來自神經科學中的互補學習系統理論（Complementary Learning Systems, CLS）。

哺乳動物大腦通過兩套系統的協作解決了記憶問題：

海馬體（Hippocampus）：快速記錄情景，高保真存儲新經驗
新皮層（Neocortex）：緩慢整合，將情景記憶提煉為抽象規則，寫入權重

這兩套系統缺一不可。人類睡眠時，大腦會將白天的情景記憶向新皮層「回放」，完成從「記住這件事」到「學會這件事」的轉化。

當前AI Agent只實現了海馬體，即快速寫入，相似性召回，沒有抽象步驟。

論文作者將當前的Agent比作一個永遠不睡覺的人——不斷記筆記，卻從不整理，永遠無法將零散的經驗升華為真正的專業知識。

學界怎么看？

X上的真實討論

論文發布后，@dair_ai 的轉發帖迅速引發國際學術社區的熱議，以下是部分代表性討論的翻譯：

雙系統并存

不是推倒重來

論文并非只是「批判」，而是提出了雙系統共存的架構路徑。

核心思路是：在保留現有檢索式情景記憶（海馬體等價物）的同時，增加一條異步鞏固通道，將情景記憶逐步整合進模型權重（新皮層等價物）。

具體技術早已存在，從LoRA（輕量微調）和MEMIT（記憶編輯），到TTT層（測試時訓練）和SSR（自我蒸餾）等。

論文為三類受眾發出具體的行動呼吁：

系統構建者：實現從情景存儲到權重的鞏固通道，而非無限擴大向量庫
基準設計者（Benchmark）：引入「跨時間組合泛化（CGT）」指標，真正衡量Agent是否在學習
持續學習研究社區：重新關注Agent場景，它天然提供了連續經驗流、獎勵信號與真實的部署環境

總結

這篇論文本質上是一篇立場論文（Position Paper），沒有龐大的實驗堆砌，但論證框架清晰，理論證明嚴格，

它引發如此廣泛的討論，或許恰恰說明：這個問題，幾乎每一個認真使用過長期Agent的工程師和研究者都曾隱約感受到，只是暫時沒有人把它說清楚。

如果你正在構建長期運行的Agent系統，這篇論文提供了一個重要的概念校準：你存的那些「記憶」，到底是備忘錄，還是真正的學習？

參考資料：

Xu, B., Dai, X., & Zhang, K. (2026). Contextual Agentic Memory is a Memo, Not True Memory. arXiv:2604.27707v1

@dair_ai Twitter/X 討論：https://x.com/dair_ai/status/2050694339165335754

Chi, M. T. H., et al. (1981). Categorization and representation of physics problems by experts and novices. Cognitive Science.

MINJA & PoisonedRAG 相關攻擊研究（見論文參考文獻）

編輯：LRST

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

武漢一公司推出“包車送學”服務，一個月398元另需承擔實時打車費

南陽日報 2026-05-18 18:21:29
158 跟貼 158
一報告顯示：逾八成中俄青年認為中俄關系友好

中國青年報 2026-05-18 16:33:06
5252 跟貼 5252

“計劃有變，準備奪冠！”張雪機車從“曇花一現”到“實力使然”

大象新聞 2026-05-18 20:51:07
173 跟貼 173

熱聞|哈弗茨一錘定音！阿森納1-0伯恩利，距離奪冠一步之遙！

齊魯壹點 2026-05-19 07:11:20
68 跟貼 68
武功山景區遭“臭屁蟲”圍攻？有游客調侃“張嘴能吃飽”，景區提醒：可自備防蟲藥物

瀟湘晨報 2026-05-14 17:33:19
1213 跟貼 1213

從賣流量到賣Token，運營商算力生意破局

澎湃新聞 2026-05-19 07:28:28
75 跟貼 75

豐田亞洲龍落地價12.68萬元？一車主團購買車比4S店還貴，代購方稱超低價有前提條件

半島官網 2026-05-18 17:11:59
394 跟貼 394
799元寵語翻譯器被質疑是智商稅

極目新聞 2026-05-18 22:47:24
1561 跟貼 1561

韓媒：韓國年輕人追捧“中國風”

參考消息 2026-05-19 10:16:01
1 跟貼 1
裝修工人利用虹吸原理巧解排水難題。網友：早學會這招，就不一勺一勺舀了！#睡個好覺

環球網資訊 2026-05-18 23:02:40
37 跟貼 37
七旬老人買菜路上被拉去割眼袋兒子憤怒討說法整形醫院：你媽養了你幾十年你給她消費幾千怎么了？

閃電新聞 2026-05-18 17:04:02
256 跟貼 256
廣東全面清理挖搶縣中優質生源政策

南方都市報 2026-05-19 07:06:18
63 跟貼 63
不能吃！“泡藥楊梅”被曝光，最新消息→

8099999街頭巷尾 2026-05-18 14:18:10
128 跟貼 128
“你是媽寶男嗎？”孫楊回應易立競犀利提問：你見過哪個媽寶男做到事業這么成功，學會尊重媽媽就是尊重女性

封面新聞 2026-05-18 16:53:08
79 跟貼 79
連花清瘟膠囊/顆粒榮獲“中藥現代化三十年示范品種”

閃電新聞 2026-05-18 15:46:07
994 跟貼 994
硬核上新！殲-16戰機最新訓練大圖來了

極目新聞 2026-05-19 08:00:53
47 跟貼 47
珠海一高校聯合培養研究生院揭牌，培養“用得上”的研究生

南方都市報 2026-05-19 11:26:23
3 跟貼 3
證監會：繼續全力穩定和增強資本市場信心

環球網資訊 2026-05-19 09:19:43
8 跟貼 8
經濟運行穩中有進高質量發展向新向優——透視前4個月我國經濟數據

新華社 2026-05-18 22:11:03
35 跟貼 35
“湖北襄陽特大暴雨致道路及車輛被淹”系謠言（2026·05·18）

今日辟謠 2026-05-18 17:57:28
197 跟貼 197
哈騰：馬刺無論用什么方式防守SGA 我們都已經做好準備了

北青網-北京青年報 2026-05-19 09:41:58
19 跟貼 19
Shams：每支有爭冠實力但已淘汰的NBA球隊都聯系詹姆斯

北青網-北京青年報 2026-05-19 09:41:12
16 跟貼 16
米面油、化妝品、日常生活用品等不能刷！醫保個賬支付，最新要求

南方都市報 2026-05-19 09:11:09
23 跟貼 23
中國控煙協會：將無煙場景拓展至校園、餐廳、賓館、養老機構

南方都市報 2026-05-19 11:14:39
58 跟貼 58
排面拉滿！全球頂級埃及文明展6月登陸鹽城

現代快報 2026-05-19 12:40:34
1 跟貼 1
兒子想做床蠶絲被，武漢一家三口網購1.2萬只蠶寶寶！媽媽崩潰：養蠶養到想報警！客廳都是蠶房子，每天喂三四十斤桑葉，一邊害怕一邊收拾

三湘都市報 2026-05-19 13:35:33
0 跟貼 0
華南農大回應“石牌舊址琉璃瓦被扔”：系1991年翻修更換件，非民國時期原始建筑構件

齊魯壹點 2026-05-19 13:35:33
0 跟貼 0
困在蒜田里的農戶

新京報 2026-05-19 09:01:42
0 跟貼 0
隔夜酒后開啟“智駕”、雙手脫盤閉目瞌睡，一司機被記12分罰1500元

齊魯壹點 2026-05-19 13:35:33
0 跟貼 0

新智元

AI產業主平臺領航智能+時代

15248文章數 66877關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

游戲

家居

教育

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

你的AI Agent越用越蠢？港中大、浙大戳破「記憶」的謊言

蘋果WWDC26定檔6月9日凌晨：iOS27將亮相

賴清德彈劾案未通過：同意票56張未達門檻 但仍創紀錄

賴清德彈劾案未通過：同意票56張未達門檻 但仍創紀錄

58順位的保羅，最強第三中鋒

張雪峰42歲冥誕，學生家長自發緬懷

從賣流量到賣Token，運營商算力生意破局

試駕與眾07：首搭CEA架構 德味操控+聰明大腦

態度原創

專家揭秘干細胞回輸的安全風險

《GTA6》預購傳聞是假的！全網白激動 爆料大神發話

觀山隱秀 心靈沉淀

爸爸1米75，媽媽1米65，兒子12歲長到1米77

賴清德彈劾案未通過：同意票56張未達門檻但仍創紀錄

賴清德彈劾案未通過：同意票56張未達門檻但仍創紀錄

試駕與眾07：首搭CEA架構德味操控+聰明大腦

《GTA6》預購傳聞是假的！全網白激動爆料大神發話

觀山隱秀心靈沉淀