告別天價賬單：端云協(xié)同與記憶革命，讓 Agent 告別「燒錢時代」丨 GAIR Live 029

2026-05-10 20:29:06　來源: AI科技評論

廣東舉報

分享至

當(dāng) Agent 不再是昂貴的實驗品，而是像水和電一樣的基礎(chǔ)設(shè)施時，真正的 AI 時代才算真正降臨。

作者丨岑峰

2026 年，大模型行業(yè)的敘事中心正在經(jīng)歷一場痛苦但必然的位移：從追逐參數(shù)規(guī)模的“算力競賽”，轉(zhuǎn)向追求任務(wù)落地的“工程突圍”。在這場位移中，AI Agent無疑是最被寄予厚望的終極形態(tài)，但它正面臨一堵名為“Token 焦慮”的圍墻。

為什么 Agent 的普及如此之難？因為我們正處于一種極其低效的生產(chǎn)模式中：為了讓 Agent 維持對話的連貫性，系統(tǒng)不得不反復(fù)加載數(shù)萬字的上下文；一次簡單的任務(wù)調(diào)度，往往伴隨著不可預(yù)測的高昂賬單；而數(shù)據(jù)隱私在端與云的頻繁傳輸中，更是變得岌岌可危。

Agent 的普及，正困在安全、成本與智能的“不可能三角”中。

但這究竟是模型推理的硬性支出，還是系統(tǒng)基建效率低下的隱形成本？為了拆解這一本質(zhì)命題，雷峰網(wǎng)舉辦了“從 Token 焦慮到記憶革命”主題的GAIR Live線上圓桌。論壇由雷峰網(wǎng)岑峰主持，特邀：

李志宇記憶張量 MemTensor 聯(lián)合創(chuàng)始人兼 CTO；

閆宇坤 Qiyuan Lab 副研究員清華大學(xué) THUNLP 實驗室客座研究員

兩位專家，通過圓桌討論，揭示了智能體基建如何通過“空間分流”與“時間管理”，重構(gòu) AI Agent 的成本價值秩序：閆宇坤領(lǐng)導(dǎo)的 EdgeClaw 試圖通過“端云協(xié)同”的物理分級，從架構(gòu)源頭切斷無效 Token 的消耗；而李志宇掌舵的 MemTensor 則通過“記憶工程”，在既有架構(gòu)下通過精細化的狀態(tài)管理榨取極限效率。

從“聊天框”到“任務(wù)操作系統(tǒng)”的范式躍遷

討論的核心共識在于：我們正處于從“對話模型”向“任務(wù)執(zhí)行系統(tǒng)”跨越的關(guān)鍵期。

年初 OpenClaw的爆紅，本質(zhì)上是全球開發(fā)者對“智能體操作系統(tǒng)”雛形的集體狂歡，但狂歡之后是沉重的成本賬單。閆宇坤指出，目前的 Agent 依然處于“蒸汽機時代”，雖能拉動生產(chǎn)力磨盤，卻因為頻繁加載背景信息產(chǎn)生了巨大的資源浪費?！坝袝r一句簡單的‘你好’，可能因為重復(fù)加載背景信息而消耗五六萬 Token?！?/p>

這種低效直接導(dǎo)致了商業(yè)閉環(huán)的斷裂。當(dāng) Agent 想要具備真正的“生產(chǎn)力”，它必須從單一任務(wù)執(zhí)行向跨領(lǐng)域協(xié)作躍遷。而這種躍遷的前提，是必須解決安全、成本與復(fù)雜度這三座大山。

空間破局：端云協(xié)同與隱私物理分級

針對“Token 焦慮”，閆宇坤代表的 EdgeClaw 給出了空間維度的答案：端云協(xié)同，從架構(gòu)源頭切斷無效損耗。

EdgeClaw 提出了一套“安全高效并行龍蝦養(yǎng)殖技術(shù)”，其核心邏輯是將端側(cè)定義為“個人秘書”，負責(zé)隱私隔離與日常處理；將云側(cè)定義為“行業(yè)專家”，負責(zé)處理高難度、非敏感的復(fù)雜邏輯。

EdgeClaw設(shè)置了三級隱私分級路由，通過將任務(wù)分為“公共級（S1）”、“脫敏級（S2）”和“本地級（S3）”，Agent 能夠自主決定數(shù)據(jù)的流向。這不僅鎖定了安全的下限，更重要的是，它通過在端側(cè)預(yù)處理、脫敏和精簡，大幅減少了發(fā)往云端的“廢料 Token”。

閆宇坤算了一筆極具沖擊力的財務(wù)賬：一臺高性能端側(cè)顯卡的采購成本，僅相當(dāng)于高頻調(diào)用三四個月云端頂級 API 的費用。這意味著，本地硬件正在從“變動費用”變?yōu)椤肮潭ㄙY產(chǎn)”。一旦任務(wù)遷移至本地，邊際成本趨近于零。這種財務(wù)結(jié)構(gòu)的重構(gòu)，將徹底激發(fā) Agent 在垂直場景下的真實潛能，讓用戶不再因為“擔(dān)心賬單”而對 AI 畏手畏腳。

時間管理：從“提示詞工程”到“記憶工程”

如果說端云協(xié)同解決了“在哪里計算”的問題，李志宇掌舵的 MemTensor 則解決了“如何有效記住”的問題：將行業(yè)視野從空間轉(zhuǎn)向時間，從暴力堆砌上下文轉(zhuǎn)向精細化的記憶分層。

李志宇提出了一個直擊本質(zhì)的觀點：“在 Agent 的賬單里，回憶比記住更燒錢。”

過去，行業(yè)普遍迷信“超長上下文（Long Context）”，認為 128K 乃至 1M 的窗口能解決所有問題。但暴力堆砌上下文的后果是成本的指數(shù)級爆炸。MemTensor 倡導(dǎo)的“記憶工程”，強調(diào)對記憶進行分層管理：

1. 明文記憶（Textual Memory）：快速寫入，但讀取成本高；

2. 參數(shù)化記憶（Parametric Memory）：通過訓(xùn)練將知識內(nèi)化，讀取極快但寫入代價大；

3. 激活記憶（KV Cache 管理）：優(yōu)化計算中間態(tài)，提升響應(yīng)速度。

為了對抗高頻、重復(fù)加載帶來的賬單爆炸，MemTensor 引入了操作系統(tǒng)管理內(nèi)存的邏輯。通過“Agentic 抽取”模式，系統(tǒng)不再是被動地存儲文本片段，而是主動識別信息的完備性。

例如，當(dāng)用戶提到“老地方”時，系統(tǒng)會在寫入階段就完成溯源和補全。這種精準(zhǔn)調(diào)度能力，能將原本需要召回的 10K 上下文壓縮至 6K 的精準(zhǔn)片段，從而在不損耗智能的前提下實現(xiàn)成本的極限下探。

價值重構(gòu)：記憶作為未來的“數(shù)字資產(chǎn)中心”

圓桌另一個深刻共識是：記憶管理不僅是降本增效的手段，更是Agent時代未來 AI 商業(yè)模式的基石。

李志宇提出了一個顛覆性的愿景：“記憶市場（Memory Store）”：在長期交互中，一個 Agent 吸收了大量專業(yè)領(lǐng)域的思辨邏輯和專家經(jīng)驗，這些被參數(shù)化、結(jié)構(gòu)化的記憶包，本身就是極具商業(yè)價值的資產(chǎn)。當(dāng)記憶可以被脫敏、打包并上架，用戶訂閱的將不再是一個冷冰冰的通用模型，而是一段被內(nèi)化的智慧，也進一步將記憶從成本中心徹底轉(zhuǎn)變?yōu)閮r值中心。

閆宇坤則補充了“智能自演化”的概念。本地模型由于擁有私有數(shù)據(jù)和持續(xù)交互，會自發(fā)進行“蒸餾”和“對齊”，這種“越用越聰明、越用越便宜”的成長性，是云端通用模型無法提供的核心護城河。

邁向“智能體力資源管理”時代

2026 年已近三分之一，Token 焦慮的破局點已經(jīng)明朗：破局的關(guān)鍵不在于等待大模型單價的下降，而在于系統(tǒng)工程的全面優(yōu)化。

未來的社會將進入“智能體力資源管理”的時代。就像我們要對人力資源進行合理配置一樣，未來我們也需要根據(jù)任務(wù)的難度、隱私等級和成本敏感度，在分布式節(jié)點中合理分配智能資源。

當(dāng) Agent 不再是昂貴的實驗品，而是像水和電一樣隨處可得、成本可控的基礎(chǔ)設(shè)施時，真正的 AI 時代才算真正降臨。

以下是此次圓桌討論的精彩分享，AI 科技評論進行了不改原意的編輯整理：

Token 焦慮的根源：AI Agent落地的生死線

岑峰：各位嘉賓、朋友，晚上好。歡迎參加由雷峰網(wǎng)主辦的 GAIR Live 線上圓桌。

今年以來，AI Agent 領(lǐng)域經(jīng)歷了一場大起大落。從年初OpenClaw（俗稱“龍蝦”）引爆開發(fā)者社區(qū)，到近期監(jiān)管層面關(guān)注智能體的數(shù)據(jù)安全，市場情緒在狂熱與焦慮間反復(fù)。雖然智能體在調(diào)用工具、處理復(fù)雜事務(wù)上的效率令人驚嘆，但隨之而來的高昂API 賬單卻成為其從“實驗室玩具”走向“生產(chǎn)力工具”的最大障礙。

究其原因，智能體為了維持對話的連貫性與個性化，往往需要重復(fù)加載數(shù)以萬計的上下文 Token。這種低效的“記憶”方式導(dǎo)致了嚴重的“Token焦慮”。今天我們想深挖一個本質(zhì)命題：這些燒掉的資源究竟是模型推理的硬性支出，還是系統(tǒng)基建效率低下的隱形成本？在安全、成本與智能這三者構(gòu)成的“不可能三角”中，我們是否只能三選二？

為此，我們邀請了兩位具有代表性的專家，從端云協(xié)同與記憶管理兩個視角，共同拆解這一難題。

接下來，有請兩位專家簡單介紹自己的相關(guān)工作，以及對Token焦慮和技術(shù)破局的理解。

閆宇坤：感謝岑老師。在深入探討之前，我們需要審視大模型形態(tài)的演進：我們正從單純的“對話式模型”轉(zhuǎn)向“專業(yè)智能體系統(tǒng)”，即從簡單的交流轉(zhuǎn)向特定的任務(wù)執(zhí)行。

OpenClaw 及類似產(chǎn)品的出現(xiàn)，標(biāo)志著“智能體操作系統(tǒng)”的誕生。它們實現(xiàn)了從單一任務(wù)執(zhí)行向靈活能力定制的跨越。然而，目前的 OpenClaw雖然展現(xiàn)了機器人控制、生物實驗等炫酷場景，其本質(zhì)仍依賴于人工定制的Skill。它目前的處境就像汽車剛發(fā)明時的樣子——雖不華麗且故障頻發(fā)，但它預(yù)示著一個新時代的到來。要讓智能體真正普及，必須解決三個核心痛點：安全保障、使用成本與任務(wù)復(fù)雜度。

以 OpenClaw 為例，如開發(fā)者 API Key 泄露隱私安全問題頻出，且運行成本極高。有時一句簡單的“你好”可能因為重復(fù)加載背景信息而消耗五六萬Token，此外，目前多數(shù)智能體僅能處理簡單任務(wù)，尚無法完成跨領(lǐng)域的復(fù)雜協(xié)作。

針對這些問題， EdgeClaw采用了端云協(xié)同范式。我們將這種模式戲稱為“安全高效并行龍蝦養(yǎng)殖技術(shù)”。

在我們的架構(gòu)中，端側(cè)模型被定義為“個人助理”的“秘書”角色，它不需要極強的邏輯推理能力，但必須深度理解用戶行為和偏好。端側(cè)是用戶的安全下限，負責(zé)隱私隔離；云側(cè)則是“行業(yè)專家”，負責(zé)性能上限。它部署千億級參數(shù)模型和專業(yè)工具，但與用戶隱私物理隔離。

這就好比家庭醫(yī)生與專科醫(yī)生的協(xié)作：小病小痛由端側(cè)醫(yī)生直接開藥解決；遇到疑難雜癥，端側(cè)醫(yī)生負責(zé)整理病歷、剔除敏感信息，再一次性提交給云側(cè)專家。這種方式既保證了隱私，又通過減少冗余交互降低了Token 成本。

另外，EdgeClaw 引入了核心的“模型路由”機制，根據(jù)任務(wù)的隱私敏感度進行分級處理，定義數(shù)據(jù)安全邊界：

S1 級（公共級）：無任何隱私風(fēng)險。如進行公開信息調(diào)研，任務(wù)直接由云端模型執(zhí)行。

S2 級（脫敏級）：涉及部分隱私。如代碼審查任務(wù)中包含 API Key，先由端側(cè)模型識別并隱去敏感字段，再將脫敏后的數(shù)據(jù)發(fā)往云端。

S3 級（本地級）：高度敏感任務(wù)。隱私信息本身即是任務(wù)核心，脫敏后無法執(zhí)行，此類任務(wù)強制在端側(cè)本地運行。

除了安全分級，我們還引入了“項目記憶”機制。不同于傳統(tǒng)的時間軸記憶，它按項目聚合信息，有效防止多任務(wù)并行的記憶混淆。此外，系統(tǒng)內(nèi)置“性價比路由”，根據(jù)不同模型的Token 單價和任務(wù)難度，自動匹配最優(yōu)執(zhí)行路徑。實測顯示，在圖文內(nèi)容創(chuàng)作等場景下，EdgeClaw 可將綜合成本降低約 80%。

李志宇：剛才宇坤談到了架構(gòu)上的分流，我從“記憶管理”這一系統(tǒng)視角來回應(yīng)。MemTensor 的核心邏輯是以認知能力驅(qū)動第一性原理建模。

回顧 AI 交互的發(fā)展：2024 年初，用戶主要在做 Prompt Engineering，通過調(diào)優(yōu)提示詞激發(fā)模型預(yù)訓(xùn)練能力，但模型往往“轉(zhuǎn)頭就忘”，新開窗口即丟失所有個性化設(shè)定。隨后，隨著模型支持 128K乃至 1M 的超長上下文，行業(yè)進入了 Context Engineering階段。然而，暴力堆砌上下文會導(dǎo)致成本呈指數(shù)級爆炸，這就是“龍蝦”這類應(yīng)用最初被詬病燒錢的原因。

我們倡導(dǎo)并推動 Memory Engineering（記憶工程）。它不是簡單地增加窗口長度，而是對狀態(tài)進行全鏈路管理，讓智能體不僅能“記住”，還能在交互中“學(xué)習(xí)”，實現(xiàn)越用越聰明。

我們將記憶管理拆解為：抽取、組織、檢索、更新、共享五個步驟。在實際業(yè)務(wù)流中，記憶的抽取和更新最容易產(chǎn)生幻覺，例如模型錯誤歸檔用戶信息。為了解決這些問題，MemOS提出了業(yè)界首個三層分層記憶模型：

第一層：明文記憶（Textual Memory）。寫入速度最快，但讀取效率低。在跨場景調(diào)用時，大規(guī)模文本的重復(fù)加載成本極高。目前很多 API 廠商提供的“緩存命中優(yōu)惠”本質(zhì)上就是在優(yōu)化這一層。

第二層：參數(shù)化記憶（Parametric Memory）。通過模型訓(xùn)練將知識內(nèi)化進權(quán)重。讀取極快，能隨主鏈路激活，但寫入（訓(xùn)練）代價高昂，無法滿足實時更新需求。

第三層：激活記憶（Activation Memory）。介于兩者之間。通過對計算過程中的中間態(tài)進行管理，可以極大提高首字延遲和 Token 補全效率。

MemOS 目前在云服務(wù)端的月調(diào)用量已突破 3500萬次，開源社區(qū)關(guān)注度極高。我們的商業(yè)邏輯分為四個層級：

1. 按 API 調(diào)用收費：為云端 Agent 提供記憶增強服務(wù)。

2. 按設(shè)備授權(quán)收費：與手機、硬件廠商合作，部署本地化記憶模型。

3. 按 Token 優(yōu)化分成：通過 KV Cache 管理和淺層優(yōu)化直接降低客戶的 Token 賬單，從節(jié)省的成本中獲利。

4. 云算力協(xié)同：與 GPU 云廠商合作，優(yōu)化底層存儲與計算效率。

我們認為，記憶管理絕非調(diào)調(diào) Prompt 那么簡單。它是一場涉及存算效率、模型對齊和系統(tǒng)調(diào)度的全方位戰(zhàn)爭。

用“物理分級”與“記憶工程”擊穿成本黑洞

岑峰：感謝兩位的分享。針對 Token 焦慮，兩位呈現(xiàn)了不同的解題路徑。EdgeClaw 是從架構(gòu)重構(gòu)入手，通過“端云協(xié)同”和“物理分級”從源頭上切斷無效 Token的消耗；MemOS 則是從系統(tǒng)優(yōu)化切入，在既有架構(gòu)下通過“記憶分層”和“智能調(diào)度”榨取極限效率。

接下來回到用戶視角，Token焦慮最核心的痛點究竟是什么？是單次對話的昂貴感，還是賬單的不可預(yù)測性？

閆宇坤：用戶焦慮的根源確實涵蓋了這些方面。目前最尖銳的問題在于透明度的缺失。大多數(shù)用戶可以接受為價值付費，但無法接受算力成本的無端損耗。比如用戶僅僅輸入一句簡單的問候，系統(tǒng)可能因為重復(fù)加載背景信息或調(diào)用了不必要的復(fù)雜模型，瞬間消耗數(shù)萬Token。因此，我們必須從架構(gòu)層面建立完善的消耗統(tǒng)計與日志系統(tǒng)，首先讓用戶“錢花得明白”。

在建立透明度的基礎(chǔ)上，我們需要解決“性價比偏好”的對齊問題。性價比本身是一個極具主觀色彩的概念：某些任務(wù)交給端側(cè)微型模型處理只需幾分錢，而交給頂級云端模型可能耗資數(shù)百倍。我們希望賦予Agent 遵循用戶價值觀的能力。如果用戶傾向于極致節(jié)省，Agent 應(yīng)該學(xué)會如何在保證基本任務(wù)完成的前提下，優(yōu)先使用端側(cè)資源。

此外，我們還在探索一種動態(tài)演化的路徑。最初，Agent 解決復(fù)雜任務(wù)可能需要頻繁向云端專家“求助”，產(chǎn)生較高的 Token成本。但隨著交互的深入，系統(tǒng)會自動記錄云端的執(zhí)行經(jīng)驗與思維模式，并逐步將其蒸餾、遷移至端側(cè)模型。這意味著隨著使用時間的增加，端側(cè)模型的成功率會不斷提升，整體成本隨之呈現(xiàn)出持續(xù)下降的曲線。這種“越用越便宜”的成長性，才是緩解用戶長效焦慮的關(guān)鍵。

岑峰：宇坤提到的確定性訴求非常關(guān)鍵。但在工程現(xiàn)實中，像“分析五年來的郵件并生成洞察報告”這樣的復(fù)雜的任務(wù)往往會跨越不同敏感等級的數(shù)據(jù)。這種精細化的分級路由，是否會因為判斷邏輯過于復(fù)雜而增加系統(tǒng)負擔(dān)，反而抬高了整體工程成本？EdgeClaw又是如何精準(zhǔn)定義本地處理與云端協(xié)作的邊界？

閆宇坤：頻繁的路由判斷確實是一把雙刃劍。在最初的設(shè)計中，我們曾嘗試在每次模型調(diào)用時都進行一次隱私和性價比檢測，但這直接導(dǎo)致了明顯的感知延遲和計算冗余。更嚴重的是，云端服務(wù)通常具備上下文緩存復(fù)用機制，頻繁的路由切換如果打亂了這種連續(xù)性，反而會導(dǎo)致 Token 成本上升。

為了平衡這一矛盾，我們在工程上采取了“分段判別”的策略。我們不再對整個宏觀任務(wù)進行一次性判斷，也不再對每一次原子化的 API 調(diào)用進行干預(yù)，而是將判斷邏輯錨定在Agent 與 Sub-agent的交互節(jié)點上。這種中等顆粒度的控制，既能保證隱私協(xié)議不會在復(fù)雜鏈路中失效，又將判斷頻率降到了系統(tǒng)可承受的范圍內(nèi)，有效緩解了延遲。我們在“小紅書內(nèi)容創(chuàng)作”場景下的實測數(shù)據(jù)證明，這種策略在保持產(chǎn)出質(zhì)量的前提下，能將原本 10美元以上的任務(wù)成本大幅壓縮至 2 美元左右。

至于如何定義本地與云端的邊界，這是一個典型的個性化命題。EdgeClaw 提供了一套包含 Prompt描述和任務(wù)標(biāo)簽的默認配置。系統(tǒng)會初步判斷一個任務(wù)是屬于邏輯深奧的“推理型”還是流程簡單的“執(zhí)行型”。同時，我們支持用戶介入修改這些判別規(guī)則。更前沿的一點是，我們正在引入“路由自演化”機制，通過收集用戶對任務(wù)結(jié)果的反饋，讓路由器自發(fā)學(xué)習(xí)并對齊用戶的性價比傾向。這種邏輯與目前的技能自演化異曲同工，最終讓模型能夠通過學(xué)習(xí)，自主識別哪些任務(wù)該留在本地，哪些必須上云。

岑峰：宇坤給出了空間維度的答案，現(xiàn)在我們將視角轉(zhuǎn)回時間的維度。志宇，您提到記憶機制對節(jié)省 Token 至關(guān)重要。但我希望明確一個認知：這些Token 是在記憶“存儲”環(huán)節(jié)省下的，還是在記憶“檢索”環(huán)節(jié)省下的？換言之，在 Agent 的成本賬單里，究竟是“記住”更燒錢，還是“回憶”更燒錢？

李志宇：這是一個直擊本質(zhì)的問題。如果將 Agent記憶的五個閉環(huán)（抽取、組織、檢索、更新、共享）進行成本拆解，我的結(jié)論非常明確：回憶或者說檢索與加載才是真正的高頻算力黑洞。

“記住”的過程主要發(fā)生在寫入階段，涉及記憶的抽取、總結(jié)與結(jié)構(gòu)化處理。雖然這個過程需要模型去判斷是否去重、是否進行參數(shù)化轉(zhuǎn)化，但它相對低頻，通常是一次性投入。只要沒有發(fā)生大規(guī)模的信息更新，一條信息一旦入庫，其存儲成本是恒定的。

相比之下，“回憶”是每一次推理行為的必經(jīng)之路。如果沒有高效的記憶系統(tǒng)，Agent會表現(xiàn)得非常“暴力”：哪怕用戶提出一個“你好”這樣的簡單問題，系統(tǒng)為了維持個性化，可能會從后臺檢索出數(shù)個龐大的Markdown 文檔或長達上萬字的對話摘要，一股腦地塞進 Prompt。這種高頻、海量的重復(fù)加載，是導(dǎo)致賬單爆炸的主因。

因此，MemOS系統(tǒng)的優(yōu)化核心在于提升“寫入質(zhì)量”以反哺“檢索效率”。我們致力于將冗長的歷史對話轉(zhuǎn)化為更緊湊、可復(fù)用的記憶片段。這好比做菜，如果在準(zhǔn)備階段（寫入）能把菜擇得干凈、切得標(biāo)準(zhǔn)，那么在炒菜（推理）時，不僅速度快，還能最大限度避免廢料產(chǎn)生的無效熱量。總結(jié)來說，雖然燒錢的行為發(fā)生在后期的回憶階段，但解決問題的源頭必須回到寫入階段的精細化建模上。

岑峰：提到“精細化建?！保琈emOS 將長時記憶切分為片段并進行選擇性加載。但在實際應(yīng)用中，“必要記憶”的界限非常模糊。如果 Agent因為追求節(jié)省而漏掉了關(guān)鍵信息，導(dǎo)致用戶不得不進行多輪澄清，省下的 Token會不會被增加的對話輪次所抵消？這種系統(tǒng)優(yōu)化的天花板在哪里？

李志宇：這確實是所有開發(fā)者最擔(dān)心的問題。在記憶系統(tǒng)中，我們遵循“Garbage in, Garbage out”的原則。所謂的“必要記憶”，既不是壓縮比例越高越好，也不是保留原文越多越好。

如果壓縮過狠，比如將其完全轉(zhuǎn)化為高度抽象的知識圖譜，雖然節(jié)省了空間，但會丟失大量的邏輯上下文，對模型的推理能力要求極高。如果采取“懶惰記憶”模式，僅做簡單的文本切片，雖然處理速度快，但片段之間缺乏語義和版本的關(guān)聯(lián)，召回時往往碎片化，難以支撐復(fù)雜的長程決策。

我們定義的“必要記憶”是一種“最小自包含狀態(tài)”。舉個例子：用戶說“請幫我預(yù)定星期五在老地方的聚會”。傳統(tǒng)的系統(tǒng)可能直接把這句話存下來，但當(dāng) Agent以后回憶起這條信息時，它會對“老地方”感到困惑。

在 MemOS的邏輯中，系統(tǒng)在抽取時如果發(fā)現(xiàn)信息不完備，會觸發(fā)“等待”或“溯源”機制：要么從歷史庫中找尋“老地方”的定義，要么等待下一輪對話補全信息后再進行存儲。我們追求的是在抽取階段就將檢索、推理與任務(wù)規(guī)劃融合在一起。近期我們開源的MemReader模型就在嘗試這種“Agentic 抽取”模式：讓模型主動識別當(dāng)前信息的完備性，確保每一個存入的片段都是最小且邏輯閉環(huán)的。

實測顯示，通過這種“預(yù)判式”的存儲，我們可以用更少的記憶片段實現(xiàn)同等甚至更高精度的回答。原來可能需要召回 10K 的上下文，現(xiàn)在只需 6K左右的“自包含片段”就能解決問題。這種精準(zhǔn)調(diào)度的能力，決定了系統(tǒng)優(yōu)化的天花板，它不僅減少了無效的回憶，更從根本上規(guī)避了因信息缺失導(dǎo)致的行為反彈。

范式之變：端側(cè)算力的“極限壓榨”與跨平臺記憶資產(chǎn)化

岑峰：總結(jié)這一輪的討論，我們達成了兩個關(guān)鍵共識：Token 焦慮的本質(zhì)是系統(tǒng)行為的不可預(yù)測性，端云協(xié)同通過物理分級重新構(gòu)建了這種確定性；而 Token消耗的大頭在于高頻的回憶環(huán)節(jié)，系統(tǒng)優(yōu)化通過精準(zhǔn)切分，減少冗余信息的無效加載。

我們進一步討論技術(shù)問題，我們注意到 EdgeClaw的路線圖高度強調(diào)本地模型的作用。目前端側(cè)算力與模型能力正呈指數(shù)級增長，那么未來是否會出現(xiàn)一種可能，當(dāng)本地模型足夠強大時，云端模型將失去其邏輯中樞的地位，退化為僅負責(zé)聯(lián)網(wǎng)檢索的輔助插件？

閆宇坤：關(guān)于本地模型的邊界問題，我們需要從硬件與算法兩個維度動態(tài)觀察。雖然我個人對本地能力的全面爆發(fā)持樂觀態(tài)度，認為越來越多的復(fù)雜任務(wù)將回歸端側(cè)，但在可預(yù)見的階段內(nèi)，云端模型依然保持著性能上限的優(yōu)勢。

本地模型的深遠意義在于，它正從單純的隱私“防火墻”進化為智能體的“個性化演化中心”。當(dāng)智能體真正作為生產(chǎn)力工具進入專業(yè)領(lǐng)域時，會產(chǎn)生大量無法上云的極細分、極專業(yè)的垂直任務(wù)。云端大模型受限于商業(yè)成本與通用性標(biāo)準(zhǔn)，很難為每一個用戶提供定制化的微調(diào)服務(wù)。

而本地硬件的成熟，為智能體的“自演化”埋下了伏筆。未來一兩年內(nèi)，隨著敏捷微調(diào)和在線學(xué)習(xí)技術(shù)的落地，本地模型可以在與用戶的持續(xù)交互中，實時吸收行業(yè) Know-how和個人偏好。這種基于本地專用硬件、模型與垂直數(shù)據(jù)的閉環(huán)，將構(gòu)建出比云端更具深度的專業(yè)技能。

此外，端云協(xié)同只是第一步，未來的前進方向是“多節(jié)點協(xié)同”。不同的本地模型可能具備不同的專業(yè)能力，通過端與端、節(jié)點與節(jié)點之間的協(xié)作，可以實現(xiàn)比單一云端中樞更高效的任務(wù)分發(fā)。總結(jié)來說，云端將愈發(fā)趨向于通用智能的輸出，而本地側(cè)則負責(zé)專業(yè)化與個性化的深度沉淀。

岑峰：宇坤描繪的端云分工極具前景，但這也引發(fā)了另一個疑慮：對于個人用戶或小微企業(yè)而言，購買高性能端側(cè)硬件本身就是一筆不菲的“隱性成本”。EdgeClaw如何平衡硬件投入與 Token 節(jié)省之間的財務(wù)賬本？

閆宇坤：硬件門檻確實是一個客觀存在的成本。以目前主流的英偉達端側(cè)計算卡（如如DGX spark）為例，初始采購成本約為 3萬人民幣。對比來看，如果高頻調(diào)用云端千億級參數(shù)模型的API，在連續(xù)運行三到四個月后，其累計消耗的 Token 費用便足以覆蓋這臺硬件的成本。

但我們需要轉(zhuǎn)換思考視角：云端 API是持續(xù)流出的“變動成本”，而本地硬件是可折舊的“固定資產(chǎn)”。更深層的邏輯在于對存量價值的挖掘。目前許多企業(yè)內(nèi)部其實存在大量閑置算力，EdgeClaw的初衷并非強迫用戶增購硬件，而是通過端云協(xié)同框架，將這些已有的資源轉(zhuǎn)化為生產(chǎn)力。

這種模式改變了用戶的消費心理。在使用純云端應(yīng)用（如 OpenClaw 早期版本）時，用戶往往因為高昂的 Token費用而表現(xiàn)得畏手畏腳，這實際上抑制了智能體的創(chuàng)新使用。一旦任務(wù)遷移至本地，邊際成本趨近于零，用戶會被激勵著將硬件性能壓榨至極限。

為了進一步降低準(zhǔn)入門檻，EdgeClaw 正在通過自動化調(diào)度支持“任意組合”。用戶既可以利用現(xiàn)有筆記本顯卡搭配云端便宜的API，也可以在企業(yè)內(nèi)網(wǎng)部署小型服務(wù)器集群。通過與算力平臺的對接，我們致力于讓本地模型的啟動與維護變得像調(diào)用云端接口一樣簡單，讓這種“重構(gòu)成本”在系統(tǒng)演化中被最大程度攤薄。

岑峰：系統(tǒng)重構(gòu)需要周期，而系統(tǒng)優(yōu)化則提供了即時的價值窗口。志宇，MemOS將操作系統(tǒng)管理內(nèi)存的邏輯引入記憶管理。但操作系統(tǒng)面對的是確定性的物理地址空間，而AI 記憶面對的是高度抽象的語義空間。在 MemOS 中，定義記憶“冷熱”的標(biāo)準(zhǔn)究竟是什么？

李志宇：操作系統(tǒng)的尋址邏輯確實無法直接照搬，但在設(shè)計理念上，我們引入了“利用概率與頻率”作為語義空間的判定準(zhǔn)則。

在 MemOS系統(tǒng)中，記憶的冷熱判別不是簡單地按時間倒序排列。雖然“時間衰減”是一個關(guān)鍵權(quán)重，但我們更看重三個核心指標(biāo)：訪問頻率、任務(wù)相關(guān)性以及狀態(tài)延續(xù)性。我們會評估某條記憶如果被“遺忘”（即未被召回），是否會對用戶當(dāng)前的決策產(chǎn)生不可逆的影響。

舉個例子，用戶在三個月前設(shè)定了一個長期財務(wù)目標(biāo)，隨后一直未提及。從時間軸上看，這段記憶已經(jīng)進入了“極冷區(qū)”。但當(dāng)用戶今天突然問起“幫我根據(jù)之前的規(guī)劃做一下報表”時，系統(tǒng)會在第一個Query進入時識別出該任務(wù)與那個舊目標(biāo)的強語義關(guān)聯(lián)，從而瞬間預(yù)熱并激活三個月前的所有相關(guān)片段。這種“冷記憶”的瞬時喚醒，是基于當(dāng)前運行的“價值狀態(tài)”而非單純的物理周期。

這種設(shè)計本質(zhì)上是在解決存算成本的平衡。鑒于目前GPU顯存的昂貴，我們不可能將海量歷史信息全部常駐顯存。我們必須通過模型預(yù)測，將大概率不再被需要的記憶下放到“冷備存儲”。

這里存在的 Trade-off 是：一旦預(yù)測失敗，從冷備區(qū)找回記憶會帶來額外的首字延遲和算力開銷。因此，MemOS核心競爭力的體現(xiàn)，就在于如何通過更精準(zhǔn)的語義路由，降低這種喚醒成本，確保系統(tǒng)在激活與冷備之間實現(xiàn)動態(tài)平衡，而不是僵化地進行“一刀切”。

岑峰：既然記憶調(diào)度涉及額外的預(yù)測與計算，那么在工程實戰(zhàn)中，調(diào)度行為本身消耗的算力，與它所節(jié)省的 Token 成本之間，是否存在一個平衡點？MemOS在不同場景下的優(yōu)化表現(xiàn)如何？

李志宇：調(diào)度的經(jīng)濟學(xué)確實是 MemOS框架中最重要的模塊。如果調(diào)度的開銷過大，系統(tǒng)就會陷入“空轉(zhuǎn)”的陷阱。我們的破局思路是“大小模型分治”。

我們不再依賴像 GPT-4o這樣昂貴的通用大模型來執(zhí)行記憶管理任務(wù)。相反，我們訓(xùn)練了一系列面向記憶領(lǐng)域的“專有微型模型”，專門負責(zé)記憶抽取、價值判定、版本更新和重排（Rerank）。這些模型規(guī)模極小，但對記憶邏輯的理解極深。通過這種方式，我們用極低成本的計算，替代了原本需要消耗高價值Token 才能完成的上下文篩選工作，從而大幅壓低了總成本。

此外，我們從系統(tǒng)層到硬件層進行了聯(lián)合優(yōu)化。通過預(yù)填充（Prefill）與解碼（Decode）分離的機制，以及對閑時算力的負載均衡，我們確保了推理鏈條的低時延，同時保證算力資源沒有被浪費。

從實際場景的波動來看，優(yōu)化收益與任務(wù)的復(fù)雜度和長程性呈正相關(guān)。

- 低頻短會話：對于僅有幾百 Token 的短平快交互，由于上下文本身極短，簡單拼接進 Prompt 的效率最高，此時記憶調(diào)度的收益并不顯著。

- 長程復(fù)雜任務(wù)：當(dāng) Agent 需要運行一小時甚至更久來解決某個專業(yè)問題時，記憶管理的作用會被顯著放大。精準(zhǔn)的調(diào)度能將原本需要召回的 10K上下文壓縮至 6K 的核心自包含片段，這種 Token 節(jié)約的收益是指數(shù)級的。

岑峰：MemOS 聚焦于長對話場景下的優(yōu)化，而 EdgeClaw則更激進地提倡將高頻任務(wù)搬到本地。這種“系統(tǒng)優(yōu)化”與“架構(gòu)重構(gòu)”的關(guān)系，究竟是競爭對手還是互補伙伴？

閆宇坤：我非常有信心認為它們是互補關(guān)系。從技術(shù)本質(zhì)上講，架構(gòu)重構(gòu)與系統(tǒng)優(yōu)化是相互正交的。EdgeClaw 的路由機制完全可以與 MemOS的記憶調(diào)度邏輯無縫結(jié)合。

現(xiàn)在開發(fā)模式正在發(fā)生巨變。以往跨系統(tǒng)的集成可能需要數(shù)周的溝通與開發(fā)，但在如今 Web Coding 與 AI輔助生成的加持下，我們可以快速構(gòu)建原型并進行試錯。將MemOS 的分層記憶特性接入 EdgeClaw 的路由節(jié)點，可能只需要兩三天的調(diào)優(yōu)周期。這種低難度的組合，讓“治標(biāo)”與“治本”可以并行不悖。

李志宇：我完全贊同。如果將端云協(xié)同視為智能體的物理存在形態(tài)，那么記憶操作系統(tǒng)就是智能體的“狀態(tài)中樞”。

無論在端側(cè)還是云側(cè)運行，Agent都繞不開“狀態(tài)持續(xù)性”的命題。端側(cè)擅長實時交互與隱私處理，云側(cè)擅長跨任務(wù)整合與大規(guī)模計算。但在未來，用戶會擁有手機、車機、電腦等多個端。如何保證用戶在手機上聊到一半的任務(wù)，能在車機上無縫延續(xù)？這需要一套跨越物理節(jié)點的“長期狀態(tài)層”來管理。

端和云解決的是“計算哪里最快、最省”的問題，而記憶操作系統(tǒng)解決的是“狀態(tài)如何無縫遷移、如何持續(xù)演化”的問題。即便未來端側(cè)算力無限大，我們依然需要一個邏輯層來治理不同設(shè)備間的認知一致性。因此，端云是一種算力協(xié)同方式，而記憶管理是狀態(tài)協(xié)同方式，二者共同構(gòu)成了未來智能體能夠 7×24小時無縫存在的底座。

展望未來：當(dāng)“投入產(chǎn)出比”擊敗“參數(shù)崇拜”

岑峰：感兩位老師不僅達成了技術(shù)上的共識，更揭示了智能體從“工具”向“數(shù)字生命”演化的必經(jīng)之路：算力的歸算力，狀態(tài)的歸狀態(tài)，最終通過精準(zhǔn)的調(diào)度實現(xiàn)效率與智能的共振。我們將繼續(xù)深入：當(dāng)安全與成本達成妥協(xié)，智能的上限又該如何突破？

隨著架構(gòu)優(yōu)先和漸進演化兩條路線的日益清晰，記憶正從單純的成本中心轉(zhuǎn)向價值中心。在端云協(xié)同的愿景中，敏感高頻任務(wù)本地化，復(fù)雜推理上云端。那么，端與云的算力配比將如何演化？到 2027年，本地模型預(yù)期能覆蓋多大比例的任務(wù)？這種預(yù)測是基于摩爾定律的慣性，還是模型蒸餾等技術(shù)的突圍？

閆宇坤：關(guān)于端云算力的配比，可以從短期與長期兩個維度審視。短期內(nèi)，云端由于基礎(chǔ)設(shè)施成熟、算力節(jié)點密集，依然占據(jù)主導(dǎo)地位。目前端側(cè)算力的多樣化程度極高，尚未出現(xiàn)能夠廣譜適配所有硬件的通用模型。但隨著用戶回歸理性，不再盲目追求全量上云，云端算力會趨于飽和，端側(cè)占比將隨著模型能力的提升而穩(wěn)步增長。

從長期來看，到 2027 年左右，本地模型能覆蓋的任務(wù)比例可能不再是一個簡單的百分比問題。我們的愿景是實現(xiàn)一種“永遠在線”的端側(cè)模式。這意味著端側(cè)算力將不再是被動等待指令的任務(wù)執(zhí)行者，而是被“拉滿”的主動協(xié)作方。

舉例來說，目前的模式是用戶要求 Agent 明天準(zhǔn)備一份報告素材，Agent 收集完資料便處于靜默狀態(tài)，直到提醒用戶。而在“永遠在線”的架構(gòu)下，Agent接收任務(wù)后，會在截止日期前的所有閑置時間里，自發(fā)地進行深度調(diào)研、素材優(yōu)化和內(nèi)容潤色。即便是一個需要 20 分鐘完成的PPT，它會在后臺持續(xù)尋找更精準(zhǔn)的論據(jù)和更優(yōu)的表達。這種模式對端側(cè)算力提出了極限挑戰(zhàn)，它不僅依賴于模型蒸餾等降準(zhǔn)技術(shù)，更依賴于工作流和記憶機制的底層重構(gòu)。我們有信心到 2027年，這種主動尋找任務(wù)、利用剩余算力創(chuàng)造價值的架構(gòu)能夠真正落地。

岑峰：宇坤描繪了端側(cè)優(yōu)先的延伸，而 MemOS則更傾向于成為跨平臺的記憶中樞。當(dāng)記憶成為智能體的核心資產(chǎn)，平臺的商業(yè)模式會發(fā)生怎樣的轉(zhuǎn)變？記憶的所有權(quán)與定價權(quán)又該如何界定？

李志宇：記憶產(chǎn)業(yè)的演進與早期云計算非常相似。在第一階段，我們將其視為一種“能力收費”模式（Memory as a Service）。此時主要解決的是讓Agent 從“無記憶”變?yōu)椤坝杏洃洝?，通過 API 調(diào)用量、存儲空間或包月套餐來變現(xiàn)，這本質(zhì)上是一種工具型收費。

到了第二階段，記憶將演進為“基礎(chǔ)設(shè)施層”或“長期狀態(tài)中樞”。平臺不僅提供存儲和檢索，更負責(zé)跨端、跨 Agent的狀態(tài)管理。在企業(yè)組織內(nèi)部，這涉及記憶的權(quán)限隔離、版本回滾、生命周期管理及安全審計。此時，用戶訂閱的是一套跨系統(tǒng)的協(xié)同機制，而非簡單的API。

第三階段則是“生態(tài)與價值變現(xiàn)”階段。當(dāng)平臺上積累了足夠多的用戶記憶，它將類似于“數(shù)字賬號登錄”一樣的存在。如果一個新應(yīng)用想要提供極致的個性化服務(wù)，就必須接入這套記憶系統(tǒng)。

在所有權(quán)方面，我們從設(shè)計之初就明確，記憶的所有權(quán)絕對屬于用戶或企業(yè)。平臺提供的是管理和加工服務(wù)，而非占有資產(chǎn)。但我們要為用戶開辟“記憶變現(xiàn)”的渠道。比如一位資深律師，其Agent 在長期的交互中吸收了大量的法律思辨邏輯和專家經(jīng)驗，這個 Agent 形成的參數(shù)化與激活記憶包就具備了極高的商業(yè)價值。我們計劃打造“Memory Store”，允許用戶將這種高價值記憶包上架，其他用戶可以通過訂閱來加載這些特定領(lǐng)域的“智慧”，實現(xiàn)真正意義上的數(shù)字分身商業(yè)化，而不僅僅是簡單的角色扮演。

岑峰：2026 年已近三分之一，請兩位預(yù)測一下，到今年年底，Token焦慮的破局點會是什么？是殺手級應(yīng)用的出現(xiàn)，還是端側(cè)算法的爆發(fā)，亦或是商業(yè)模式的徹底創(chuàng)新？

閆宇坤：我更傾向于認為破局點在于“使用模式的突破”。目前國內(nèi)雖然存在“養(yǎng)龍蝦”的熱潮，但整體使用方式依然比較粗放。用戶往往不清楚 Agent究竟能解決什么問題，也不知道其性價比邊界在哪里。

我們需要一個“殺手級”的模式來教育市場。這種模式能直觀地告訴用戶，Agent 在什么時候是生產(chǎn)力工具，在什么時候提供的是情緒價值。當(dāng)錢花在哪里、Token消耗產(chǎn)生多少回報被梳理清楚后，焦慮自然會消失。焦慮的根源不是消耗多，而是產(chǎn)出與支出的不對等。

李志宇：破局的關(guān)鍵在于“結(jié)果密度”。Token 焦慮表面看是賬單問題，本質(zhì)上是用戶對價值感知的缺失。如果你花了幾塊錢 Token卻換來一份讓你拍案叫絕的報告，你下次會毫不猶豫地付費；但如果換來的是一堆毫無意義的幻覺，一分錢都會覺得貴。

從技術(shù)側(cè)看，破局點在于“流量分流”的成熟。目前大多數(shù)用戶和 Agent廠商并不具備精準(zhǔn)的成本管理能力，導(dǎo)致高價值模型被浪費在低價值任務(wù)上。如果有一套成熟的路由方案，能把小任務(wù)導(dǎo)向端側(cè)模型，把長程任務(wù)導(dǎo)向緩存復(fù)用路徑，賬單自然會變得優(yōu)雅。未來的產(chǎn)品形態(tài)可能會演變?yōu)椋河脩舭l(fā)布一條指令，多個Agent 競標(biāo)給出結(jié)果，用戶只為那個認可的結(jié)果付費。這種模式會將 Token壓力的焦慮從用戶側(cè)轉(zhuǎn)嫁給廠商。廠商如果不能提供更優(yōu)的效能比，就會在市場中失去競爭力。

岑峰：Token 焦慮和記憶成本的矛盾不僅存在于智能體領(lǐng)域，在自動駕駛、游戲 NPC、金融風(fēng)控等場景同樣存在。你們的解法是否具有跨領(lǐng)域的通用性？

李志宇：所有的焦慮都可以拆解為“投入產(chǎn)出比”。在游戲領(lǐng)域，我們通過記憶機制能讓 NPC具備更長期的性格連貫性，顯著提升了用戶的在線時長和交互意圖。當(dāng)這種業(yè)務(wù)層面的回報變得可衡量時，記憶管理的成本就不再是負擔(dān)。這種邏輯在金融風(fēng)控對長周期行為的追蹤上同樣適用。

閆宇坤：我有一個稍微“暴論”的觀點：未來社會將進入“智能體力資源管理”的時代。過去我們研究人力資源的合理分配，未來我們需要研究如何根據(jù)任務(wù)難度、隱私等級和成本敏感度，在分布式節(jié)點中合理分配智能資源。無論是哪個領(lǐng)域，只要涉及到智能的調(diào)用，都存在對通解的需求。我們希望提出的這套架構(gòu)能成為這種資源分配的底層標(biāo)準(zhǔn)。

岑峰：感謝兩位。今天的討論非常深刻。EdgeClaw 的端云協(xié)同試圖從源頭切斷 Token 損耗的“血脈”；而 MemOS的記憶調(diào)度則在現(xiàn)有架構(gòu)內(nèi)榨取每一分效率。

短期看，系統(tǒng)優(yōu)化能讓用戶少燒錢；長期看，系統(tǒng)重構(gòu)將讓 Token焦慮成為歷史名詞。正如兩位嘉賓所言，記憶正在從成本中心演變?yōu)閮r值中心。未來的核心命題將不再是“這項工作要花多少錢”，而是“這段記憶能帶來什么”。這或許才是真正意義上的范式轉(zhuǎn)移。感謝宇坤，感謝志宇，也感謝所有在線聽眾的參與。本場直播到此結(jié)束，謝謝大家。

YouTube：https://youtu.be/aoRUaH_GNqQ

這次去 CVPR 現(xiàn)場，一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么：把你最關(guān)注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務(wù)量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學(xué)術(shù)社區(qū)做貢獻、認識更多大牛，歡迎聯(lián)系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經(jīng)「AI科技評論」授權(quán)，嚴禁以任何方式在網(wǎng)頁、論壇、社區(qū)進行轉(zhuǎn)載！

公眾號轉(zhuǎn)載請先在「AI科技評論」后臺留言取得授權(quán)，轉(zhuǎn)載時需標(biāo)注來源并插入本公眾號名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.