網易首頁 > 網易號 > 正文申請入駐

Agent-World：擴展真實世界環境，讓智能體與環境協同進化！

2026-05-06 12:40:24　來源: 機器之心Pro

河北舉報

分享至

隨著MCP、Agent Skills與各類Harness的快速發展，大模型能輕松調用成百上千種外部工具，但在多工具，具備復雜狀態、長程交互的任務上仍有明顯短板。盡管一系列環境擴展方法嘗試復刻真實世界的交互環境（如訂票系統，外賣平臺），但仍受限于環境擴展的規模與真實性。除此以外，訓練環境造得再多，當智能體在面臨新的交互環境時，若缺少持續學習的訓練算法依舊很難具備泛化性。

為此，本文提出Agent-World：一個通用智能體訓練場，將“智能體環境探索”與“自進化訓練”相結合，形成智能體與環境協同進化的閉環。

Agent-World由兩個核心模塊構成：

（1）智能環境-任務探索：通過深度研究智能體，圍繞真實世界環境主題，自主從互聯網挖掘環境數據庫、生成可執行工具和可校驗任務。

（2）持續自進化訓練：通過多環境強化學習訓練智能體，并將合成環境視作天然的訓練場，自動診斷智能體的能力短板，針對性地推動環境/任務擴展，實現智能體的自進化。

圖1：Agent-World總覽：左圖展示Agent-World智能體與環境的協同進化閉環，右圖展示下游性能與環境擴展曲線

最終，Agent-World構建了1978個環境、19,822個工具，任務平均交互輪次超過15輪。實驗表明，在23個挑戰性的基準上(包括τ2-Bench、BFCL V4、MCP-Mark、ClawEval、SkillsBench等)，Agent-World-8B/14B一致性優于先進的環境擴展方法與強開源基礎模型。進一步的實驗分析表明，環境多樣性、自進化輪次與智能體性能之間存在可擴展關系。

論文標題：
Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
論文鏈接：
https://arxiv.org/pdf/2604.18292
項目主頁：
https://agent-tars-world.github.io/-/

目前Agent-World在X上收獲很高關注度，同時榮登Huggingface Paper日榜第二名！

Agent-World：

擴展世界環境，讓智能體與環境協同進化！

1、智能環境-任務挖掘：從網絡中自動挖掘真實世界環境

傳統的環境合成方法要么依賴LLM直接生成，要么局限于有限的開源工具數據。Agent-World則選擇了個有趣的思路：從真實世界的環境主題出發，讓深度研究智能體自主去廣闊的互聯網上挖掘環境。

圖2：智能環境-任務挖掘流程：包含整體流程概覽（上）與各步驟細粒度展示（下）

（1）智能數據庫挖掘：Agent-World選定真實MCP服務器數據、開源工具文檔、行業需求文檔等作為主題錨點（2千余個）；對每個主題使用搜索、瀏覽、代碼編譯器與文件系統四種工具的深度研究智能體（Deep Research Agent），從海量互聯網的網頁中自主挖掘主題相關的環境數據庫，并通過迭代式地數據復雜化來提升數據庫規模與結構真實性。

（2）工具接口生成與校驗：Agent-World進一步引入代碼智能體來為每個環境生成工具接口與單元測試腳本，通過“可編譯性、測試準確率、環境最小有效性”三重規則過濾，最終得到一系列包含真實數據庫與可執行工具集的交互環境。

（3）層次化環境分類體系：為了支撐跨環境的任務合成與分層評測，該工作進一步對海量環境生態進行體系構建，通過主題聚類并結合大模型與人工校驗，Agent-World將環境生態劃分了20 / 50 /1978的三層級環境標簽分類體系（如下圖所示）

圖3：Agent-World的層次環境分類。左圖展示20個一級環境，右圖展示Top-10二級環境對應三級環境數量。

（4）可驗證任務合成：基于高質量的環境生態，Agent-World采用了兩種互補的可驗證任務合成策略：

?基于圖的任務合成：為環境中的工具構建一個完全連通的依賴圖，通過隨機游走生成合理的工具調用序列，隨后“由鏈反推”自然語言問題，并配套大模型評分Rubric。這種方法擅長建模順序依賴的邏輯。

?程序化任務合成：直接讓LLM生成一個需要復雜控制流的Python腳本來解決某個問題，并反向生成對應的問題，可執行驗證代碼。這種方法能捕捉非線性的復雜推理。

（5）合成環境的統計分析：下圖給出了環境與任務分布的詳盡統計。經多道過濾后，Agent-World最終沉淀1,978個環境、19,822個工具，單環境平均工具數超過10個，體量可觀且粒度均衡；環境數據庫橫跨JSON、CSV、SQL、HTML、TeX、YAML等多種文件格式，結構與語義上均呈現高度異質性。

合成任務則以“長程多輪”為主，平均交互輪次超過15輪，對規劃、記憶與錯誤恢復提出持續壓力。難度方面，即便是豆包-Seed 2.0在Pass@10設定下仍有相當比例任務無法正確完成，反映出整體任務的極具挑戰性。

綜上，靜態統計從規模、格式、交互長度、難度四個維度共同驗證了Agent-World合成交互環境在多樣性、異質性與復雜性上的顯著優勢。

圖4：Agent-World合成環境與任務的六維統計分析。

2、持續自進化智能體訓練：讓智能體與環境協同進化

在構建可擴展，真實的環境生態系統后，Agent-World將其轉化為一個動態的智能體訓練場（如下圖）。

圖5：持續自進化智能體訓練框架。上方是多環境強化訓練，下方是診斷與協同進化循環。

（1）多環境強化學習：與傳統Agent RL不同，我們的訓練在「智能體–工具–數據庫」的閉環交互中展開。智能體在不同環境中進行Rollout，調用工具的同時也會改寫底層數據庫狀態，使學習信號真正根植于可執行世界環境。算法上，Agent-World采用廣泛使用的GRPO最大化上述可驗證獎勵，穩定提升Agent性能。

獎勵側亦按任務類型分化：基于圖合成的任務由大模型依校驗rubric評分細則逐項打分；程序式任務則直接執行驗證腳本，依最終答案或狀態的正確性給分。

（2）自進化智能體競技場：Agent-World的核心在于把整個環境生態視作天然的智能體訓練競技場。訓練并非一蹴而就，而是一個多輪迭代的自進化過程：

動態評測任務合成：每輪訓練結束后，從競技場的環境池中按環境分類體系均衡采樣一批新環境，并為其合成全新的評估任務，避免"刷過的題再考一遍"。

智能體化診斷：讓當前輪次的智能體在這批新任務上跑評估；診斷智能體隨后分析其失敗軌跡、錯誤分布與環境元信息，定位能力短板（例如"Notion環境下的二級標題創建出錯"），輸出弱點環境排序與針對性任務生成指南。

智能體–環境協同進化：依據診斷結果，在弱點環境上合成更具挑戰性的訓練任務，并按需進一步復雜化對應環境數據庫；再以這批"薄弱能力定制化數據"驅動下一輪的持續強化學習。

以上流程形成了一個有趣的訓練飛輪：“訓練提升智能體→評估暴露弱點→診斷指引環境/任務擴展→新數據驅動智能體進一步進化”。這一閉環讓智能體與其訓練環境實現了真正的“協同進化”。

實驗結果：

23個基準驗證Agent-World的跨域智能體能力

實驗設置：為充分評估泛化，Agent-World評測5大類領域，共覆蓋23個評測基準：

?智能體工具使用：

MCP-Mark,BFCL V4,τ2-Bench

?前沿AI助手：

SkillsBench,ARC-AGI-2,ClawEval

?通用推理：

MATH500,GSM8K,MATH,AIME24/25,KOR-Bench,OlympiadBench等

?深度搜索與軟件工程：

WebWalkerQA,SWE-Bench,Terminal-Bench,GAIA,HLE等

?知識與MCP：

MMLU,SuperGPQA,MCP-Universe等

對比基線包括前沿閉源模型（GPT-5.2 High, Claude Sonnet-4.5，Seed2.0等）、強開源基礎模型（DeepSeek-V3.2-685B, Qwen3-235B-A22B）以及先進的環境擴展方法（EnvScaler，AWM，ScaleEnv）。

1.核心智能體任務上表現卓越

表1：在核心智能體工具使用基準上結果。

如上表所示，在當下最具挑戰性的三大智能體工具使用基準—MCP-Mark、BFCL V4、τ2-Bench上，Agent-World-8B與14B穩定超越所有開源環境擴展基線。這三套基準分別考察多輪有狀態交互、跨域工具調用與長程對話，連閉源前沿模型在MCP-Mark上也僅停留在50左右的分位。

更有意思的是，Agent-World-14B在BFCL V4上取得55.8%，反超685B參數的DeepSeek-V3.2-685B（54.1%），這也表明更真實的可執行環境與可驗證獎勵，比參數更能對齊復雜的智能體交互模式。

2.長程智能體推理能力顯著

圖6：Agent-World-8B在通用推理、智能體搜索與編碼、知識與MCP三大能力組上的泛化表現雷達圖，全面領先基線。

如上圖所示，當我們把評測擴展到17個覆蓋長程推理、深度搜索、軟件工程與知識應用的基準，Agent-World-8B依然在所有維度上保持領先：通用推理（MATH500,AIME,OlympiadBench等）未因為Agent相關訓練而退化，甚至微微漲幅；在深度搜索，軟件工程領域（GAIA,SWE-Bench,Terminal-Bench等）這類超長輪次任務上優勢極為明顯。

除此以外，在其他知識類與MCP基準表現同樣十分優秀，這證明了Agent-World其通過環境訓練獲得的技能是可遷移、可組合的，而非針對特定基準的過擬合。

圖7：Agent-World系列模型在SkillsBench、ARC-AGI-2、ClawEval等前沿AI助手基準上展現優異性能。

3.先進AI助手場景顯著提升

如上圖所示，Agent-World在SkillsBench、ARC-AGI-2和ClawEval這三個要求長程規劃和真實世界執行的最新基準上同樣表現出色，且從8B到14B規模提升穩定，而其他的基線模型則出現了能力波動。

定量分析：

環境規模與自進化如何驅動性能？

除了主實驗結果，Agent-World還進行了一系列有趣的定量分析。

1、訓練環境規模擴展分析

圖8：下游智能體性能隨著訓練環境數量的增加而顯著提升，呈現明確的縮放規律。

隨著逐步增加訓練環境的數量（從0到近2000個），智能體性能與環境數量呈明顯的正相關。初期（10到100個環境）性能提升迅猛，說明覆蓋關鍵交互模式至關重要；后期提升放緩但持續，表明更大規模的環境帶來了更細粒度的能力提升。

2、自進化輪次分析

表2：持續自主進化的效果。

研究驗證了自進化競技場閉環的有效性。無論是Agent-World模型自身還是基線模型EnvScaler-8B，經過兩輪“評估-診斷-針對性訓練”的循環后，一致性地在多個基準上的性能獲得一致性增益。這證明將環境作為訓練場，針對性驅動數據合成，是持續提升智能體環境泛化能力的有效機制。

3、多環境強化學習曲線分析

圖8：多環境智能體強化學習曲線展示。

Agent-World雖然在復雜，混合的環境與多樣化合成任務（基于工具圖與程序化）上進行強化學習，其獎勵分數隨步數穩步上升，而策略熵保持相對穩定甚至增長，表明智能體在適應新環境的同時，保持了良好的探索性，沒有過早地陷入局部最優的“固化”行為。

總結與展望

Agent-World希望通過擴展真實世界環境，實現智能體與環境的持續協同進化。作為本文作者，我們也想拋出一些在推動這項研究中發現的幾點啟示，供研究通用智能體訓練方向的朋友們參考與共同探索：

真實性是環境擴展的底座：構建高真實、邏輯可校驗的環境，是訓練通用智能體的前提。Agent-World以智能體化流水線對接真實主題與海量網絡信息，自動挖掘數據與工具；我們相信這只是起點，未來會有更自動、更貼近真實世界復刻的環境合成范式涌現。

進化是環境訓練的動力：規模化環境生態一旦建成，單次靜態訓練既不夠、也浪費高成本構建的環境。Agent-World構建了可自動診斷弱點、定向生成挑戰的閉環系統，讓智能體與環境協同進化。如何把環境生態與訓練算法深度耦合，仍是一條漫長但值得持續押注的路。

環境/任務可擴展性通往泛化性：我們在Agent-World中觀察到“環境規模、自演化輪次、任務難度”與智能體性能之間清晰的scaling關系。這提示未來應同步擴展“更多樣的環境、更復雜的任務、更多輪的進化”—這或許正是通往通用智能體交互能力的一把鑰匙。

作者簡介：本文第一作者是董冠霆，中國人民大學高瓴人工智能學院博士二年級，導師為竇志成教授和文繼榮教授。他的主要研究方向為通用智能體訓練。以第一/共同第一作者身份在ICLR、ACL等國際頂級會議發表論文10余篇；代表工作包括 ARPO, AUTOIF, Search-o1, Webthinker, FlashRAG等。谷歌學術引用量1萬余次，個人GitHub項目星標8000余枚，并在字節跳動Seed、阿里通義千問等基座大模型團隊實習。曾獲首屆騰訊青云獎學金，國家獎學金、北京市優秀畢業生等榮譽。本文的通信作者為中國人民大學的竇志成教授與字節跳動Seed的鐘宛君。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.