<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Agent-World:擴展真實世界環境,讓智能體與環境協同進化!

      0
      分享至



      隨著MCP、Agent Skills與各類Harness的快速發展,大模型能輕松調用成百上千種外部工具,但在多工具,具備復雜狀態、長程交互的任務上仍有明顯短板。盡管一系列環境擴展方法嘗試復刻真實世界的交互環境(如訂票系統,外賣平臺),但仍受限于環境擴展的規模與真實性。除此以外,訓練環境造得再多,當智能體在面臨新的交互環境時,若缺少持續學習的訓練算法依舊很難具備泛化性。

      為此,本文提出Agent-World:一個通用智能體訓練場,將“智能體環境探索”與“自進化訓練”相結合,形成智能體與環境協同進化的閉環。

      Agent-World由兩個核心模塊構成:

      (1)智能環境-任務探索:通過深度研究智能體,圍繞真實世界環境主題,自主從互聯網挖掘環境數據庫、生成可執行工具和可校驗任務。

      (2)持續自進化訓練:通過多環境強化學習訓練智能體,并將合成環境視作天然的訓練場,自動診斷智能體的能力短板,針對性地推動環境/任務擴展,實現智能體的自進化。



      圖1:Agent-World總覽:左圖展示Agent-World智能體與環境的協同進化閉環,右圖展示下游性能與環境擴展曲線

      最終,Agent-World構建了1978個環境、19,822個工具,任務平均交互輪次超過15輪。實驗表明,在23個挑戰性的基準上(包括τ2-Bench、BFCL V4、MCP-Mark、ClawEval、SkillsBench等),Agent-World-8B/14B一致性優于先進的環境擴展方法與強開源基礎模型。進一步的實驗分析表明,環境多樣性、自進化輪次與智能體性能之間存在可擴展關系。





      • 論文標題:
      • Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence
      • 論文鏈接:
      • https://arxiv.org/pdf/2604.18292
      • 項目主頁:
      • https://agent-tars-world.github.io/-/

      目前Agent-World在X上收獲很高關注度,同時榮登Huggingface Paper日榜第二名!





      Agent-World:

      擴展世界環境,讓智能體與環境協同進化!

      1、智能環境-任務挖掘:從網絡中自動挖掘真實世界環境

      傳統的環境合成方法要么依賴LLM直接生成,要么局限于有限的開源工具數據。Agent-World則選擇了個有趣的思路:從真實世界的環境主題出發,讓深度研究智能體自主去廣闊的互聯網上挖掘環境。



      圖2:智能環境-任務挖掘流程:包含整體流程概覽(上)與各步驟細粒度展示(下)

      (1)智能數據庫挖掘:Agent-World選定真實MCP服務器數據、開源工具文檔、行業需求文檔等作為主題錨點(2千余個);對每個主題使用搜索、瀏覽、代碼編譯器與文件系統四種工具的深度研究智能體(Deep Research Agent),從海量互聯網的網頁中自主挖掘主題相關的環境數據庫,并通過迭代式地數據復雜化來提升數據庫規模與結構真實性。



      (2)工具接口生成與校驗:Agent-World進一步引入代碼智能體來為每個環境生成工具接口單元測試腳本,通過“可編譯性、測試準確率、環境最小有效性”三重規則過濾,最終得到一系列包含真實數據庫與可執行工具集的交互環境。



      (3)層次化環境分類體系:為了支撐跨環境的任務合成與分層評測,該工作進一步對海量環境生態進行體系構建,通過主題聚類并結合大模型與人工校驗,Agent-World將環境生態劃分了20 / 50 /1978的三層級環境標簽分類體系(如下圖所示)



      圖3:Agent-World的層次環境分類。左圖展示20個一級環境,右圖展示Top-10二級環境對應三級環境數量。


      (4)可驗證任務合成:基于高質量的環境生態,Agent-World采用了兩種互補的可驗證任務合成策略:

      ?基于圖的任務合成:為環境中的工具構建一個完全連通的依賴圖,通過隨機游走生成合理的工具調用序列,隨后“由鏈反推”自然語言問題,并配套大模型評分Rubric。這種方法擅長建模順序依賴的邏輯。

      ?程序化任務合成:直接讓LLM生成一個需要復雜控制流的Python腳本來解決某個問題,并反向生成對應的問題,可執行驗證代碼。這種方法能捕捉非線性的復雜推理。

      (5)合成環境的統計分析:下圖給出了環境與任務分布的詳盡統計。經多道過濾后,Agent-World最終沉淀1,978個環境、19,822個工具,單環境平均工具數超過10個,體量可觀且粒度均衡;環境數據庫橫跨JSON、CSV、SQL、HTML、TeX、YAML等多種文件格式,結構與語義上均呈現高度異質性。

      合成任務則以“長程多輪”為主,平均交互輪次超過15輪,對規劃、記憶與錯誤恢復提出持續壓力。難度方面,即便是豆包-Seed 2.0在Pass@10設定下仍有相當比例任務無法正確完成,反映出整體任務的極具挑戰性。

      綜上,靜態統計從規模、格式、交互長度、難度四個維度共同驗證了Agent-World合成交互環境在多樣性異質性復雜性上的顯著優勢。



      圖4:Agent-World合成環境與任務的六維統計分析。

      2、持續自進化智能體訓練:讓智能體與環境協同進化

      在構建可擴展,真實的環境生態系統后,Agent-World將其轉化為一個動態的智能體訓練場(如下圖)。



      圖5:持續自進化智能體訓練框架。上方是多環境強化訓練,下方是診斷與協同進化循環。

      (1)多環境強化學習:與傳統Agent RL不同,我們的訓練在「智能體–工具–數據庫」的閉環交互中展開。智能體在不同環境中進行Rollout,調用工具的同時也會改寫底層數據庫狀態,使學習信號真正根植于可執行世界環境。算法上,Agent-World采用廣泛使用的GRPO最大化上述可驗證獎勵,穩定提升Agent性能。



      獎勵側亦按任務類型分化:基于圖合成的任務由大模型依校驗rubric評分細則逐項打分;程序式任務則直接執行驗證腳本,依最終答案或狀態的正確性給分。



      (2)自進化智能體競技場:Agent-World的核心在于把整個環境生態視作天然的智能體訓練競技場。訓練并非一蹴而就,而是一個多輪迭代的自進化過程:

      動態評測任務合成:每輪訓練結束后,從競技場的環境池中按環境分類體系均衡采樣一批新環境,并為其合成全新的評估任務,避免"刷過的題再考一遍"。

      智能體化診斷:讓當前輪次的智能體在這批新任務上跑評估;診斷智能體隨后分析其失敗軌跡、錯誤分布與環境元信息,定位能力短板(例如"Notion環境下的二級標題創建出錯"),輸出弱點環境排序針對性任務生成指南。

      智能體–環境協同進化:依據診斷結果,在弱點環境上合成更具挑戰性的訓練任務,并按需進一步復雜化對應環境數據庫;再以這批"薄弱能力定制化數據"驅動下一輪的持續強化學習。

      以上流程形成了一個有趣的訓練飛輪:“訓練提升智能體→評估暴露弱點→診斷指引環境/任務擴展→新數據驅動智能體進一步進化”。這一閉環讓智能體與其訓練環境實現了真正的“協同進化”。



      實驗結果:

      23個基準驗證Agent-World的跨域智能體能力

      實驗設置:為充分評估泛化,Agent-World評測5大類領域,共覆蓋23個評測基準:

      ?智能體工具使用:

      MCP-Mark,BFCL V4,τ2-Bench

      ?前沿AI助手:

      SkillsBench,ARC-AGI-2,ClawEval

      ?通用推理:

      MATH500,GSM8K,MATH,AIME24/25,KOR-Bench,OlympiadBench等

      ?深度搜索與軟件工程:

      WebWalkerQA,SWE-Bench,Terminal-Bench,GAIA,HLE等

      ?知識與MCP:

      MMLU,SuperGPQA,MCP-Universe等

      對比基線包括前沿閉源模型(GPT-5.2 High, Claude Sonnet-4.5,Seed2.0等)、強開源基礎模型(DeepSeek-V3.2-685B, Qwen3-235B-A22B)以及先進的環境擴展方法(EnvScaler,AWM,ScaleEnv)。

      1.核心智能體任務上表現卓越



      表1:在核心智能體工具使用基準上結果。

      如上表所示,在當下最具挑戰性的三大智能體工具使用基準—MCP-Mark、BFCL V4、τ2-Bench上,Agent-World-8B與14B穩定超越所有開源環境擴展基線。這三套基準分別考察多輪有狀態交互、跨域工具調用與長程對話,連閉源前沿模型在MCP-Mark上也僅停留在50左右的分位。

      更有意思的是,Agent-World-14B在BFCL V4上取得55.8%,反超685B參數的DeepSeek-V3.2-685B(54.1%),這也表明更真實的可執行環境與可驗證獎勵,比參數更能對齊復雜的智能體交互模式。

      2.長程智能體推理能力顯著



      圖6:Agent-World-8B在通用推理、智能體搜索與編碼、知識與MCP三大能力組上的泛化表現雷達圖,全面領先基線。

      如上圖所示,當我們把評測擴展到17個覆蓋長程推理、深度搜索、軟件工程與知識應用的基準,Agent-World-8B依然在所有維度上保持領先:通用推理(MATH500,AIME,OlympiadBench等)未因為Agent相關訓練而退化,甚至微微漲幅;在深度搜索,軟件工程領域(GAIA,SWE-Bench,Terminal-Bench等)這類超長輪次任務上優勢極為明顯。

      除此以外,在其他知識類與MCP基準表現同樣十分優秀,這證明了Agent-World其通過環境訓練獲得的技能是可遷移、可組合的,而非針對特定基準的過擬合。



      圖7:Agent-World系列模型在SkillsBench、ARC-AGI-2、ClawEval等前沿AI助手基準上展現優異性能。

      3.先進AI助手場景顯著提升

      如上圖所示,Agent-World在SkillsBench、ARC-AGI-2和ClawEval這三個要求長程規劃和真實世界執行的最新基準上同樣表現出色,且從8B到14B規模提升穩定,而其他的基線模型則出現了能力波動。

      定量分析:

      環境規模與自進化如何驅動性能?

      除了主實驗結果,Agent-World還進行了一系列有趣的定量分析。

      1、訓練環境規模擴展分析



      圖8:下游智能體性能隨著訓練環境數量的增加而顯著提升,呈現明確的縮放規律。

      隨著逐步增加訓練環境的數量(從0到近2000個),智能體性能與環境數量呈明顯的正相關。初期(10到100個環境)性能提升迅猛,說明覆蓋關鍵交互模式至關重要;后期提升放緩但持續,表明更大規模的環境帶來了更細粒度的能力提升。

      2、自進化輪次分析



      表2:持續自主進化的效果。

      研究驗證了自進化競技場閉環的有效性。無論是Agent-World模型自身還是基線模型EnvScaler-8B,經過兩輪“評估-診斷-針對性訓練”的循環后,一致性地在多個基準上的性能獲得一致性增益。這證明將環境作為訓練場,針對性驅動數據合成,是持續提升智能體環境泛化能力的有效機制。

      3、多環境強化學習曲線分析



      圖8:多環境智能體強化學習曲線展示。

      Agent-World雖然在復雜,混合的環境與多樣化合成任務(基于工具圖與程序化)上進行強化學習,其獎勵分數隨步數穩步上升,而策略熵保持相對穩定甚至增長,表明智能體在適應新環境的同時,保持了良好的探索性,沒有過早地陷入局部最優的“固化”行為。

      總結與展望

      Agent-World希望通過擴展真實世界環境,實現智能體與環境的持續協同進化。作為本文作者,我們也想拋出一些在推動這項研究中發現的幾點啟示,供研究通用智能體訓練方向的朋友們參考與共同探索:

      • 真實性是環境擴展的底座:構建高真實、邏輯可校驗的環境,是訓練通用智能體的前提。Agent-World以智能體化流水線對接真實主題與海量網絡信息,自動挖掘數據與工具;我們相信這只是起點,未來會有更自動、更貼近真實世界復刻的環境合成范式涌現。

      • 進化是環境訓練的動力:規模化環境生態一旦建成,單次靜態訓練既不夠、也浪費高成本構建的環境。Agent-World構建了可自動診斷弱點、定向生成挑戰的閉環系統,讓智能體與環境協同進化。如何把環境生態與訓練算法深度耦合,仍是一條漫長但值得持續押注的路。

      • 環境/任務可擴展性通往泛化性:我們在Agent-World中觀察到“環境規模、自演化輪次、任務難度”與智能體性能之間清晰的scaling關系。這提示未來應同步擴展“更多樣的環境、更復雜的任務、更多輪的進化”—這或許正是通往通用智能體交互能力的一把鑰匙。

      作者簡介:本文第一作者是董冠霆,中國人民大學高瓴人工智能學院博士二年級,導師為竇志成教授和文繼榮教授。他的主要研究方向為通用智能體訓練。以第一/共同第一作者身份在ICLR、ACL等國際頂級會議發表論文10余篇;代表工作包括 ARPO, AUTOIF, Search-o1, Webthinker, FlashRAG等。谷歌學術引用量1萬余次,個人GitHub項目星標8000余枚,并在字節跳動Seed、阿里通義千問等基座大模型團隊實習。曾獲首屆騰訊青云獎學金,國家獎學金、北京市優秀畢業生等榮譽。本文的通信作者為中國人民大學的竇志成教授與字節跳動Seed的鐘宛君。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      深圳女環衛工遭拖拽毆打!堅決拒和解,男子身份曝光,原因太荒唐

      深圳女環衛工遭拖拽毆打!堅決拒和解,男子身份曝光,原因太荒唐

      做一個合格的吃瓜群眾
      2026-05-08 07:03:36
      央視拒付天價轉播費僅1天!炸出一堆牛鬼蛇神,中國球迷有話要說

      央視拒付天價轉播費僅1天!炸出一堆牛鬼蛇神,中國球迷有話要說

      另子維愛讀史
      2026-05-07 21:10:15
      世界杯國際足聯開出天價版權:對中國開價近3億美元,是印度的17倍,現“降”至1.2至1.5億美元;電視轉播談判陷僵局

      世界杯國際足聯開出天價版權:對中國開價近3億美元,是印度的17倍,現“降”至1.2至1.5億美元;電視轉播談判陷僵局

      浙江之聲
      2026-05-07 08:24:22
      中印泰馬集體說不 !國際足聯緊急訪華,央視死守底線 贊助商急了

      中印泰馬集體說不 !國際足聯緊急訪華,央視死守底線 贊助商急了

      影像溫度
      2026-05-07 10:26:34
      帶懵懂孩童去海參崴“慶功”,義烏這所學校的底線何在?

      帶懵懂孩童去海參崴“慶功”,義烏這所學校的底線何在?

      筆桿論道
      2026-05-08 00:00:09
      趙祥松|一場足球轉播談判,差點被包裝成“民族尊嚴保衛戰”

      趙祥松|一場足球轉播談判,差點被包裝成“民族尊嚴保衛戰”

      祥松談
      2026-05-07 11:04:11
      告別NBA生涯!40歲塔克正式宣布退役:曾隨雄鹿奪得總冠軍

      告別NBA生涯!40歲塔克正式宣布退役:曾隨雄鹿奪得總冠軍

      羅說NBA
      2026-05-08 09:12:04
      他不值2.5億美元!美媒建議火箭別給阿門頂薪:4年1.5億更合理

      他不值2.5億美元!美媒建議火箭別給阿門頂薪:4年1.5億更合理

      羅說NBA
      2026-05-07 21:03:29
      小朋友在政府牌匾上涂鴉,鎮政府最新回應:此前已專設白板供孩子們畫畫

      小朋友在政府牌匾上涂鴉,鎮政府最新回應:此前已專設白板供孩子們畫畫

      極目新聞
      2026-05-07 20:24:16
      別輕視小人物:20個歷史血淚教訓,強者多亡于螻蟻

      別輕視小人物:20個歷史血淚教訓,強者多亡于螻蟻

      小莜讀史
      2026-05-06 20:15:38
      王傳福絕地反擊,比亞迪炸翻全場

      王傳福絕地反擊,比亞迪炸翻全場

      象視汽車
      2026-05-07 07:00:09
      湖南一28歲干部受邀釣魚溺亡,家屬稱其手機里有大量領導違紀證據,死后才知他欠銀行37萬元,多名領導長期賭博,并帶領其參與

      湖南一28歲干部受邀釣魚溺亡,家屬稱其手機里有大量領導違紀證據,死后才知他欠銀行37萬元,多名領導長期賭博,并帶領其參與

      極目新聞
      2026-05-07 21:48:08
      黑龍江兩名11歲女孩已遇害:網傳被先奸后殺,兇手身份被曝光

      黑龍江兩名11歲女孩已遇害:網傳被先奸后殺,兇手身份被曝光

      魔都姐姐雜談
      2026-05-07 15:17:15
      倫敦世乒賽:4強已出其2!中日德選手鎖定獎牌,瑞典男團爆冷出局

      倫敦世乒賽:4強已出其2!中日德選手鎖定獎牌,瑞典男團爆冷出局

      全言作品
      2026-05-08 05:53:25
      三星也被“打跑了” 但先別急著慶祝

      三星也被“打跑了” 但先別急著慶祝

      看看新聞Knews
      2026-05-07 23:16:11
      局勢升級!美伊在霍爾木茲交火 特朗普:停火仍有效,只是“輕微敲打”

      局勢升級!美伊在霍爾木茲交火 特朗普:停火仍有效,只是“輕微敲打”

      財聯社
      2026-05-08 07:58:17
      爭議!鄭欽文委屈落淚:向裁判抗議安保人員亂走動 反遭對方回懟

      爭議!鄭欽文委屈落淚:向裁判抗議安保人員亂走動 反遭對方回懟

      風過鄉
      2026-05-07 19:49:48
      14歲神童手搓發動機被曝造假!漏洞百出吹上天,普通人拿什么比?

      14歲神童手搓發動機被曝造假!漏洞百出吹上天,普通人拿什么比?

      社會日日鮮
      2026-05-08 04:18:01
      又一個“愛國大V”人設翻車!靠愛國撈金千萬,私下悄悄辦移民!

      又一個“愛國大V”人設翻車!靠愛國撈金千萬,私下悄悄辦移民!

      麥杰遜
      2026-05-07 13:13:17
      寧藝卓觀看脫衣秀風波升級!內場照片曝光不堪入目,Lisa負責主持

      寧藝卓觀看脫衣秀風波升級!內場照片曝光不堪入目,Lisa負責主持

      萌神木木
      2026-05-07 16:48:19
      2026-05-08 09:23:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12939文章數 142645關注度
      往期回顧 全部

      科技要聞

      追趕星艦:中國商業火箭離SpaceX有多遠?

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯酋被指首次參戰

      頭條要聞

      牛彈琴:一覺醒來美伊又打起來了 阿聯酋被指首次參戰

      體育要聞

      巴黎再進歐冠決賽,最尷尬的情況還是發生了

      娛樂要聞

      Lisa主持!寧藝卓觀看脫衣秀風波升級

      財經要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      雷克薩斯全新純電三排SUV 全新TZ全球首發

      態度原創

      教育
      時尚
      本地
      手機
      健康

      教育要聞

      通信專業到底好不好就業?

      今年母親節,和媽媽一起變漂亮

      本地新聞

      用青花瓷的方式,打開西溪濕地

      手機要聞

      vivo X500系列手機蹤跡曝光:預估天璣9600芯片、7000mAh電池

      干細胞治燒燙傷面臨這些“瓶頸”

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲熟女综合一区二区三区| 又爽又黄又无遮掩的免费视频| 先锋影音免费资源少妇| 无码专区人妻系列日韩视频| 青娱乐导航| 国产成人丝袜网站在线看| 日韩人妻无码精品久久| 国产高清在线精品一本大道| 中文字幕无码久久精品| 亚洲香蕉伊综合在人在线| 国产精品一区久久av| 女人av天堂激情女草| 色噜噜狠狠色综合无码久久欧美| 国产福利社区一区二区| 亚洲香蕉网综合久久| 亚洲国产一区二区三区| 欧美家庭乱伦XX| 精品人妻少妇| 99久久国产福利自产拍| 四虎精品视频永久免费| 国产又黄又爽又不遮挡视频| 国产精品麻豆视频| 91区国产福利在线观看午夜| 久久久久国内精品免费观看| 美女裸体黄网站18禁止免费下载| 国产成人亚洲精品狼色在线| 国产精品美女久久久免费| 中文有码人妻字幕在线| 亚洲欲色欲色XXXXX在线观看| 国产极品粉嫩尤物一区二区| 国产精品无码av天天爽播放器 | 岛国AV无码| 精品粉嫩国产一区二区三区| 欧美黑人又粗又大| 亚洲一区二区精品久久岳| 亚洲男女羞羞无遮挡久久丫| 人妻少妇嫩草AV无码| 亚洲狼人伊人免费视频| 亚洲精品美女一区二区| 寿阳县| 91小视频在线播放|