網易首頁 > 網易號 > 正文申請入駐

Clawdbot 之后，我們離能規模化落地的 Agent 還差什么？

2026-02-03 20:39:59　來源: FounderPark

北京舉報

分享至

OpenClaw （原名 Clawdbot）爆火。

對于個人極客來說，OpenClaw 是有趣的。但對于企業和商業環境來說，問題立刻暴露：昂貴（燒 Token）、不可控（安全邊界模糊）、存在隱私問題，且難以協作。

可以說，目前的 Agent 更多還是驚艷的 Demo，不是可以規模化的產品。

Monolith 礪思資本辦了一場「After the Model」技術沙龍，聊了聊：Agent 離規模化落地還有哪些難題？

在活動中，一個被反復提及的觀點是：Agent 需要是一個可持續工作的系統，而非單次任務的跑通。

這意味著，光有「模型智力」是遠遠不夠的。想跨過工程這條鴻溝，必須還要「死磕」這幾個硬指標：穩定性、高吞吐量、成本控制、精確的狀態管理。

以下是活動的一些核心 Insight，供從業者參考。

??關注 Founder Park，最及時最干貨的創業分享

Founder Park 聯合扣子，舉辦了一場 Skill 招募大賽。如果你手里有一套在用、能交付結果的方法論，很適合來試試！

歡迎飛書掃碼加群：

進群后，你有機會得到：

可落地的 Skill 搭建方法
從一個想法或一套 SOP，拆解成真正能跑起來的 Skill

Skill 的展示與放大通道
不只是自己用，而是被更多人看到、用到

被看見后的實際激勵
好的 Skill，有機會獲得明確回報

01教模型做事的成本太高，

不能用黃金蓋平房

任何系統的可持續性，最終都得回歸到單位經濟模型（UE）。如果 Agent 創造的價值覆蓋不了它消耗的成本，那么無論模型多么先進，這個系統在商業上都是不可持續的。

當前 Agent 的門檻主要存在于數據與設施上。

在 SFT（監督微調）模式下，我們依賴人類專家來教模型做事。但在 GUI Agent（讓 AI 操作電腦界面）這種高門檻任務中，這種依賴變成了難以承受的負擔。

為了獲得高質量的 GUI 任務數據，部分從業者發現，他們需要雇傭「985 高校的高年級博士生」來進行標注，而即使是這樣高水平的人力，標注一條數據也需要耗費 20 分鐘。

這種高昂的時間與人力成本直接限制了數據的規模，團隊最終只標注了 200 多個任務，無法進一步擴大。

簡單點說，我們實際上正在用黃金蓋平房——依靠堆砌專家人力來換取智能的提升，在復雜 Agent 場景下是不可持續的。

這反向逼迫行業必須轉向 RL（強化學習）——讓 Agent 在虛擬環境里自己試錯、自我博弈，擺脫對昂貴人工數據的依賴。只有這樣，才能把數據成本從"按人頭算"變成"按算力算"，實現邊際成本的下降。

但是，RL 的門檻也不低。

傳統的工業級 RL 訓練往往依賴龐大的算力集群。即使是經過優化的訓練流程，仍然需要 16 張顯卡（8 卡采樣、8 卡訓練）以及大量的 CPU 資源來支撐仿真環境。

對于大多數中小企業或學術團隊而言，這是一筆不菲的開銷。如果無法通過 RL 實現數據的自我生成，Agent 的商業模式會被高昂的人力成本直接鎖死。

破局的關鍵是構建高仿真環境，讓 Agent 通過自主探索產生海量交互數據，再通過設計有效的獎勵信號，用 RL 訓練出更強的策略。

02光速的 GPU 算力，

但被迫在龜速的操作系統上訓 Agent

當前 Agent 訓練面臨的悖論還有：光速的 GPU 算力，配上了龜速的操作系統。

在傳統的 RL 任務（比如下棋、打游戲）中，環境反饋是毫秒級的，步長短、速度快。

但在 GUI Agent 場景下，Agent 執行一個動作——比如在虛擬機里點擊 Excel 按鈕——需要經歷"虛擬機渲染→截屏→圖像回傳→視覺模型處理"的漫長鏈路。

實際訓練中，完成一個 Step 的交互甚至需要30 秒以上，令人難以忍受。

極高的延遲又進一步導致了計算資源的極度浪費——在傳統的 RL 流程中，架構通常是緊耦合的。這意味著，當 GPU 在更新模型時，環境在等待；而當環境在采樣數據時，GPU 又在空轉。

這種時空的錯配、互相阻塞導致了極低的計算利用率。

除了速度慢，環境的復雜度也呈指數級上升。

不同于文本生成，GUI Agent 面臨的是一個像素級（Pixel-level）的動作空間，理論上它可以在屏幕上的任意坐標進行點擊或拖拽，這使得動作空間接近無限。

這使得獎勵極為稀疏。比如"將 Excel 內容打印為 PDF"這樣的任務，Agent 需要連續執行幾十個步驟。在這個過程中，環境往往一片死寂，不會告訴 Agent 中間某次點擊是對是錯，只有最后一步才能得到結果。

這種「長程視野 + 稀疏反饋 + 無限空間」的組合，構成了 Agent 所在環境的真實面貌——它是一個充滿了摩擦的環境。我們不能再用訓練聊天機器人的邏輯來訓練 Agent。

對于創業公司而言，這意味著必須投入資源去構建仿真訓練環境，這比單純購買 H100 顯卡更考驗團隊的技術沉淀。

03基礎設施：太重、太貴、玩不起

如何解決環境問題？

在現場，不同的分享者分別從橫向擴展與縱向輕量化兩個維度，給出了 Infra 重構的答案：解耦（Decoupling）。

橫向解耦：打破采樣與訓練的同步鎖

面對 GUI Agent 交互速度極慢的問題，有研究者提出了一種名為 Dart（Decoupled Agent RL）的框架。

其核心邏輯是將采樣端與訓練端在物理上徹底分開。

在這一架構下，采樣端不再等待模型更新，而是利用 Kubernetes（K8s）并行啟動上百個 Docker 容器作為 Environment，持續不斷地生產軌跡數據。數據通過一個基于 MySQL 的軌跡管理器進行異步調度，再輸送給訓練端。

這種設計雖然引入了 Off-policy（數據和模型不同步）的挑戰，需要通過數據篩選機制來平衡，但收益是巨大的，至少有三層：

消除了 GPU 等待環境反饋的空轉時間
實現了 5.5 倍的環境利用率提升
整體訓練吞吐量翻了近一倍

這也意味著，Agent 的 Infra 必須具備處理異步數據流的能力，而非傳統的同步批處理，將訓練過程轉變成了一個持續流動的、高吞吐的流水線。

Dart 框架

縱向解耦：降低算力門檻

Infra 的另一個痛點在于「重」。

現有的工業級框架（如 Verl, OpenRLHF）往往針對大規模集群，代碼量龐大且模塊耦合嚴重，對于學術界或資源受限的初創團隊而言，修改算法邏輯或適配小規模集群的門檻極高。

另一位研究者展示了輕量化的解耦思路——開發模塊化框架，將算法邏輯、模型架構與分布式引擎分離。

這種 RL-Centric 的設計理念，把工程復雜度封裝在模塊邊界內，實現了"邏輯即實現"——研究者可以像搭積木一樣，通過插件化配置自由組合 GAE、GRPO、PPO 等算法組件，大幅降低了處理底層分布式的負擔。

同時他們還通過 CPU Offload 技術實現了顯存復用——推理采樣時將訓練參數卸載至 CPU，優化更新時再加載回 GPU，顯著降低了硬件門檻。

RLLaVA 框架

所有這些技術細節背后的邏輯都趨于一致：要讓 AI Agent 可行，首先得把它的工位（基礎設施）配齊。現有的工具太重、太貴、太慢。因此，我們需要更輕量、模塊化的中間件，讓中小團隊也能玩得起 Agent 訓練。

這也正是 Infra 領域的創業機會。

04Long Context 并不等同于記憶

算力和環境之外，另一個問題是狀態管理。

Transformer 架構雖然強大，但它缺乏可讀寫存儲器，無法顯式地存儲或更新中間的推理狀態，也沒有循環或遞歸機制。

在處理簡單問答時，這種無狀態特性不是大問題；但在面對復雜的軟件開發或長程邏輯推理時，這種缺陷是致命的。

由于缺乏對推理狀態的有效管理，模型在解決復雜遞歸任務時，往往會出現推理鏈路斷裂或邏輯漂移。

這些問題，相信重度使用 AI 的用戶都能感受到。

學術界與工業界也正在嘗試從架構底層進行修補。諸如Mamba 等 State Space Models（SSM）、Linear Attention 機制、Stack 機制，正在成為解決這一問題的熱門方向。

這些新架構試圖通過更高效的狀態壓縮與傳遞機制，讓模型具備原生的狀態推演能力，從而彌補 Transformer 在長程狀態管理上的先天不足。

另一個思路是改變推理的載體。當前大多數 Agent 依賴自然語言進行思維鏈推理，但自然語言在精確計算和狀態追蹤上有局限。

一種思路是讓模型學會用代碼思考——代碼天然具備變量、函數和邏輯流，比自然語言更適合精確的狀態管理。

Code Thinking

在工程落地層面，一個常見誤區是把 Long Context（長上下文）等同于"記憶"。但單純拉長上下文窗口既不經濟也不實用。

實際場景中，記憶被劃分為兩類：用戶側記憶和執行側記憶。前者類似傳統用戶畫像，記錄用戶偏好和基本信息，大多數 AI 客服已具備雛形。后者是 Agent 自我進化的關鍵——不僅要記住「用戶是誰」，更要記住「我上次是如何完成任務的」，包括執行軌跡和經驗教訓。

當再次遇到類似任務時，Agent 應能復用成功路徑或規避踩過的坑，而非從零開始。

在記憶架構上，一種思路是將其設計為file system 式的分層存儲。當 Agent 需要回顧時，它執行的是讀取文件的操作，而非在上下文窗口中大海撈針。

對于一個系統而言，「記憶」的本質不應該是記住所有的對話歷史，而是能夠像計算機一樣，精確地管理每一個變量的周期與狀態。

總而言之，對于企業級應用來說，客戶不在乎你的上下文窗口有多長，只在乎 AI 能不能記住「我上次說過什么」以及「公司的業務規則是什么」諸如此類問題。

解決健忘問題，是 Agent 從玩具走向企業級員工的入場券。

05護城河變了，

贏家也會變

盡管這場沙龍是一場偏向技術、工程層面的交流，但我們仍能從中提取出很多信號。

過去我們認為護城河在于模型本身，但隨著開源模型能力的快速逼近，護城河正在從"單點模型能力"向"系統整合能力"擴展。

未來的贏家，不一定是模型最強的團隊，而是那些能通過優秀的 Infra 架構、低成本的數據閉環和高效的記憶管理，最大化釋放模型能力的團隊。工程化能力正在成為新的差異化來源。

其次，我們需要注意，賣鏟子的邏輯變了，Agent Infra 是被低估的洼地。

正如沙龍中所討論到的，為了讓 Agent 真正落地，我們需要全新的基礎設施，不是傳統的云計算，而是專門為 Agent 設計的諸如異步訓練框架、解耦的采樣環境和向量化記憶文件系統之類的 Agent Native Infra。

目前的 Agent 開發棧依然非常原始。這意味著，誰能為 Agent 開發者提供好用的「IDE」、「調試器」和「虛擬訓練場」，誰就有機會成為 AI 2.0 時代的 Databricks 或 Snowflake。

最后，隨著 GUI 等復雜場景的出現，人工標注的成本顯然已不可持續。

未來的數據壁壘，不再是誰爬取了更多的互聯網文本，而是誰能構建更逼真的仿真環境，讓 Agent 在其中自我博弈、自我進化。這種通過 RL 產生的高質量合成數據，將是下一階段最稀缺的資源。

我們永遠處在一個不斷出現噪音，排出噪音的商業環境中，Agent 的深水區才剛剛開始。

轉載原創文章請添加微信：founderparker

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

00后創始人，正走向世界

秦朔朋友圈 2026-05-12 00:06:17
0 跟貼 0
你的AI Agent越用越蠢？港中大、浙大戳破「記憶」的謊言

新智元 2026-05-19 12:37:30
1 跟貼 1

小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
0 跟貼 0

從賣token到賣結果，這些公司開始讓AI背KPI了

機器之心Pro 2026-05-19 12:12:30
0 跟貼 0
LLM近期重大架構進化一覽：從Gemma 4到DeepSeek V4

機器之心Pro 2026-05-19 12:15:50
13 跟貼 13

供應鏈管理數智化的殘酷真相：99%的失敗，與那1%的“唯一解”

鈦媒體APP 2026-03-05 19:29:15
0 跟貼 0

AI Agent成了中年男人的新網癮。心流是最好的專注

朱常在 2026-05-17 13:06:51
0 跟貼 0
Agent的苦澀覺醒：智能正從語言走向經驗

華爾街見聞官方 2026-03-02 09:43:30
8 跟貼 8

現在的小學題真難，和以前的算法不一樣！

娛糖主 2026-05-17 19:36:32
1 跟貼 1
編程新王Composer 2.5來了，逼近Opus 4.7！成本僅為1/10

新智元 2026-05-19 15:10:56
51 跟貼 51
LLM 僅靠自身就能增強推理？SePT 給出簡潔在線自訓練范式

機器之心Pro 2026-04-22 11:01:55
0 跟貼 0
北航/新國立提出AmbiSuR，重塑高保真3D幾何重建

機器之心Pro 2026-05-19 14:16:45
0 跟貼 0
清華+阿里發布ViT3：解鎖視覺TTT，突破Transformer復雜度瓶頸

機器之心Pro 2026-05-18 12:03:35
0 跟貼 0
河南一景區現“爬不動了吧哈哈哈哈”標語，游客感覺不被尊重，景區：已撤除，本意是緩解爬山壓力

極目新聞 2026-05-19 14:48:26
7819 跟貼 7819
清華聯手千問重塑歸一化范式，讓 Transformer 回歸「深度」學習

機器之心Pro 2026-02-10 18:50:12
0 跟貼 0
深度｜Karpathy為何突然加入Anthropic，只能當Dario的「-2」？

新智元 2026-05-20 04:41:58
0 跟貼 0
軍事科普：解析二戰九二式重機槍分隊架構

悲傷逆流成河水 2026-05-18 10:41:15
0 跟貼 0
被曝花20億，Anthropic收購Agent工具企業，斷供谷歌OpenAI

智東西 2026-05-19 20:33:35
0 跟貼 0
困在蒜田里的農戶

新京報 2026-05-19 09:01:42
1856 跟貼 1856
不止棒子國搶文化，越南偷文化的邏輯更離譜？聽聽清華老師的分析

于令 2026-05-17 04:38:05
0 跟貼 0
反潛作戰新邏輯，如何用算法和數據網，從深海 “算” 出核潛艇

娛界新視野 2026-05-19 07:23:14
0 跟貼 0
對話南理工楊劍飛：機器人走進家庭之前，必須先學會如何與人共處

DeepTech深科技 2025-12-28 18:38:06
0 跟貼 0
實拍一汽-大眾ID.AURA T6，全新CEA架構有啥看點？

天天汽車 2026-05-19 17:40:14
0 跟貼 0
潔麗雅帶火同行山東"毛巾老板"亮結婚證自證無三原配

大風新聞 2026-05-19 10:08:05
142 跟貼 142
曹昂主動把自己的馬讓給曹操，為什么是曹操說的，邏輯根本講不通

人物注 2026-05-18 14:48:04
0 跟貼 0
AI翻身做主管？CAO上崗實測：組隊4分鐘，翻車一整天

雷科技 2026-05-19 21:52:57
0 跟貼 0
刷到凌晨三點，為什么我們越來越孤獨

時光慢郵啊 2026-05-20 01:21:19
0 跟貼 0
你以為在努力，其實在騙自己

溫一壺月光啊 2026-05-20 00:25:42
0 跟貼 0
斷網7天后，我的焦慮不治而愈

晚風也遺憾 2026-05-20 00:58:29
0 跟貼 0
單Agent時代正式結束：一個干不過，就上300個-3

機器之心Pro 2026-04-22 00:08:00
0 跟貼 0
光輪智能與谷歌、英偉達共同定義物理AI仿真標準

機器之心Pro 2026-05-12 20:21:07
0 跟貼 0
O'Reilly汽車配件：一份失效的研報背后

碼上閑敘 2026-05-20 04:46:05
0 跟貼 0
網傳“河南蒜薹滯銷棄收”，真相究竟如何？

環球網資訊 2026-05-19 14:37:17
705 跟貼 705
當一個國家整體成為海盜：伊朗革命衛隊將收取海峽互聯網電纜費用

一種觀點 2026-05-19 09:01:20
42 跟貼 42
中國創造一門新編程語言的黃金時代來了？

虎嗅APP 2025-12-23 03:54:05
39 跟貼 39
石家莊市商務局關于發布2026年石家莊夜經濟惠民紅包實施細則的公告

中國商報河北記者站 2026-05-19 17:32:03
67 跟貼 67
海南：將推動瓊州海峽滾裝第二通道建設、盡快啟動湛海高鐵建設

證券時報 2026-05-19 14:32:46
75 跟貼 75
女子為治一顆痘2個月狂涂幾十種藥膏臉上爛出"黑洞"

極目新聞 2026-05-19 17:05:39
374 跟貼 374
HyperEyes：并行多模態搜索智能體的效率革命

機器之心Pro 2026-05-19 18:49:37
0 跟貼 0
美國司法部要求獲取10萬用戶隱私數據引爭議

星河漫山野 2026-05-20 01:31:27
0 跟貼 0

兒子說想給自己做床蠶絲被，一家三口網購了1萬粒蠶卵！如今12000條蠶寶寶每天要吃30斤桑葉……媽媽：崩潰并快樂著

FounderPark

關注AI創業，專注和創業者聊真問題

1217文章數 162關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

親子

房產

旅游

軍事航空

手機 / 數碼

房產 / 家居

Clawdbot 之后，我們離能規模化落地的 Agent 還差什么？

潔麗雅硬剛豪門內斗傳言

媒體：特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

媒體：特朗普為何拋涉臺"四不"說法 魯比奧解釋清楚了

文班亞馬：沒拿到MVP，就證明自己是MVP

姚晨刪博難平眾怒，為什么她還能蹦噠

馬斯克敗訴，法院判他起訴OpenAI太晚了

煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

態度原創

57歲惡女出手整治浪姐，全網拍手叫好

媽媽你看！娜塔莎生孩子了！暴力擦邊影響心智尚未成熟的未成年人

7516元/㎡，161套一次全甩！海口住宅最低價出現了！

從景點打卡到全城漫游，“中國旅游日”上海推百余項活動打造初夏文旅盛宴

特朗普暫緩打擊伊朗 稱系應中東三國請求

媒體：特朗普為何拋涉臺"四不"說法魯比奧解釋清楚了

媒體：特朗普為何拋涉臺"四不"說法魯比奧解釋清楚了

煥新極氪009上市41.38萬起齊家版讓MPV回歸家庭

特朗普暫緩打擊伊朗稱系應中東三國請求