<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      螞蟻集團全模態代碼算法團隊自研多模態Web GUI Agent:OpAgent

      0
      分享至

      為應對真實 Web 環境的非結構化復雜性、時序不穩定性與交互隱式邏輯等挑戰, 螞蟻集團全模態代碼算法團隊 提出了一套結合了多任務微調、在線強化學習與模塊化協作的綜合解決方案: OpAgent。

      OpAgent 通過層次化多任務微調 (MT-SFT) 構建具備規劃、行動和定位能力的視覺語言模型(VLM)基座;繼而,在自建的在線交互環境中,利用創新的混合獎勵機制進行在線強化學習(Online RL) ,有效緩解了離線訓練帶來的分布偏移問題;最后,通過一個包含規劃器、定位器、反思器和總結器的模塊化智能體架構,實現對復雜長時程任務的魯棒執行與自我修正。

      在權威 Web 智能體評測基準 WebArena 上,OpAgent 以 71.6% 的成功率于 2026 年 1 月取得了榜單第一的 SOTA 成績。

      GitHub:https://github.com/codefuse-ai/OpAgent

      Hugging Face:https://huggingface.co/codefuse-ai/OpAgent

      ModelScope:https://modelscope.cn/models/codefuse-ai/OpAgent-32B

      Technical Report:https://github.com/codefuse-ai/OpAgent/blob/main/technical_report/OpAgent.pdf

      一、背景與挑戰

      自主Web智能體旨在模擬人類在圖形用戶界面( GUI )上執行任務,其在自動化測試、數據采集、智能助理等領域具有廣闊應用前景。然而,相較于 PC 或移動端環境,Web 環境呈現出獨特的挑戰:


      • 非結構化復雜性:網頁的 DOM 樹結構龐大且充滿噪聲,傳統基于 HTML 或 DOM 解析的方法難以有效提取關鍵信息,容易被冗余內容干擾。

      • 時序不穩定性:網頁內容是動態的,異步加載、實時更新和臨時性元素(如彈窗)使得環境狀態頻繁變化。依賴靜態離線數據集訓練的模型在部署于真實動態環境時,會面臨嚴重的分布偏移( Distributional Shift )問題。

      • 交互的隱式邏輯:許多 Web 交互(如懸停觸發菜單)依賴實時的視覺反饋來確認操作的成功與否,這種閉環交互邏輯是離線學習范式無法有效建模的。

      為應對上述挑戰,我們設計并實現了 OpAgent 框架,其核心在于從依賴靜態數據向與真實環境動態交互的范式轉變。

      二、OpAgent技術框架

      OpAgent 的整體設計遵循一個分階段的優化路徑:首先通過多任務監督微調( MT-SFT )為模型注入基礎的 Web 交互能力,然后通過在線強化學習( Online RL )在真實環境中對策略進行迭代優化,最終在推理階段利用模塊化智能體架構( Agentic Architecture )執行復雜任務。


      2.1 層次化多任務微調 (Hierarchical Multi-Task Fine-tuning)

      為構建一個強大的視覺語言模型( VLM )基座,我們首先摒棄了對脆弱的 HTML 文本解析的依賴,轉而讓模型直接從視覺截圖( Screenshot )中感知和理解頁面布局。我們將 Web 智能體的基礎能力分解為三個維度:

      • 規劃 ( Planning ):預測交互行為將導致的頁面狀態變遷。

      • 行動 ( Acting ):基于當前頁面狀態,決策下一步所需執行的操作。

      • 定位 ( Grounding ):在視覺上精確定位執行操作的UI元素坐標。

      我們整合了包括 Mind2Web 、Aguvis 、UGround 在內的多個領域數據集,分別對上述三種能力進行訓練。為解決不同數據集樣本量級差異巨大(例如,百萬級 vs. 千級)可能導致的梯度主導問題,我們引入了基于有效樣本數 (Effective Number of Samples)的加權策略,動態調整各任務在訓練中的損失權重,確保模型在所有基礎能力上得到均衡發展。


      2.2 真實環境在線強化學習 ( Online Agentic RL in the Wild )

      在線學習是解決分布偏移問題的關鍵。為此,我們構建了一套支持在真實 Web 環境中進行大規模在線強化學習的系統。

      1. 四層RL基礎設施:該系統分為決策層、執行層、基礎設施層和環境層。VLM 代理在決策層生成動作,通過 Playwright 引擎在執行層被解析并分發至分布式瀏覽器集群,與環境層中的真實網站(包括自部署的 WebArena 環境)進行交互,最終將包含截圖和 DOM 的觀測數據反饋回決策層,形成一個完整的閉環交互與數據采集流程。


      2. 混合獎勵機制 ( Hybrid Reward Mechanism ):在沒有真值( Ground-truth )軌跡的真實環境中,如何為智能體的探索行為提供有效監督信號至關重要。我們設計了一種混合獎勵機制:

      • 基于規則的決策樹 ( RDT ) 進行過程監督:為智能體的每一步提供即時反饋。該機制通過一系列規則判斷動作的有效性,如是否產生頁面視覺變化、是否點擊在可交互元素上等,對無效或冗余的動作給予懲罰。

      • 基于 VLM 的 WebJudge 進行結果評估:在一條軌跡( trajectory )結束后,引入一個強大的 VLM 評估器 WebJudge ,從任務完成度、動作有效性和路徑效率三個維度對整個軌跡進行綜合評分,作為最終的稀疏獎勵信號。

      這種結合了稠密過程獎勵和稀疏結果獎勵的機制,為模型在真實環境中的策略優化提供了穩定且全面的監督。


      2.3 Operator Agentic 模塊化智能體架構

      對于長時程、多步驟的復雜任務,單一模型的決策能力有限。我們因此設計了一個包含四個專業角色的模塊化協作架構,以提升任務執行的魯棒性和成功率。

      模塊

      核心職責

      主要輸出

      Planner

      規劃器

      任務分解與策略制定

      語義化的步驟指令

      Grounder

      定位器

      將語義指令映射到UI坐標

      標準化的工具調用(Tool Call)

      Reflector

      反思器

      驗證動作效果,監控任務進展

      反思信號與中間筆記

      Summarizer

      總結器

      綜合軌跡信息,生成最終答案

      整合后的最終答案

      該架構通過一個“規劃-執行-反思”的迭代循環運作:Planner 根據全局目標和當前狀態生成高層指令,Grounder 將其翻譯為具體動作并執行,Reflector 在動作后評估狀態變化并判斷是否需要重新規劃。這種機制實現了有效的錯誤檢測與自我修正。


      三、實驗與結果

      我們在多個基準上對 OpAgent 框架的各組件進行了充分評估。

      單模型性能:

      經過在線RL優化的單模型( Qwen3-VL-32B-Thinking + RL-HybridReward-Zero )在 WebArena 上取得了 38.1% 的成功率( Pass@5 ),顯著超越了原始基線模型( 27.4% )以及其他采用類似 Test-Time Training ( TTT ) 策略的方法。


      Pass@K 分析:

      對比 RL 優化前后的模型在不同 Pass@K 下的表現,可以看到隨著嘗試次數 K 的增加,RL優化后模型的性能優勢愈發明顯,Pass@5 的絕對提升達到 10.66% 。這表明在線強化學習顯著增強了模型決策的魯棒性。


      Agentic Architecture 性能:

      最終,集成了所有優化的 OpAgent 整體框架(使用 Gemini-3-Pro 作為部分模塊后端,Qwen2.5-VL-MFT 作為 Grounder ),在 WebArena 上達到了 71.6% 的成功率,刷新了該基準的 SOTA 記錄,并登頂排行榜。


      四、總結與展望

      本文介紹了螞蟻全模態代碼算法團隊在 Web 智能體方向的最新研究成果 OpAgent 。通過在多任務微調、真實環境在線強化學習以及模塊化智能體架構等方面的探索,我們顯著提升了 Web 智能體在復雜動態環境中的任務執行能力,并在 WebArena 基準上取得了 SOTA 性能。

      當前工作在實現高性能的同時,仍一定程度上依賴于精細的提示工程和多智能體的復雜編排。未來的研究方向將包括提升單模型內在的探索與泛化能力,以期減少對復雜框架的依賴,實現更加通用和高效的自主智能體。

      我們是螞蟻集團智能平臺工程的全模態代碼算法團隊。團隊成立 3 年以來,在 ACL、EMNLP、ICLR、NeurIPS、ICML 等頂級會議發表論文 20 余篇,兩次獲得螞蟻技術最高獎 T-Star ,1 次螞蟻集團最高獎 SuperMA ,我們研發的 CodeFuse 項目連續兩年蟬聯學術開源先鋒項目。

      團隊常年招聘研究型實習生,有志于 NLP、大模型、多模態、圖神經網絡的同學歡迎聯系 hyu.hugo@antgroup.com,期待與你一起,探索AI的無限可能!

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美墨邊境一火車車廂內驚現6具遺體,死因不明!當天事發地氣溫超32℃

      美墨邊境一火車車廂內驚現6具遺體,死因不明!當天事發地氣溫超32℃

      紅星新聞
      2026-05-11 11:58:43
      紫牛頭條|兒子車禍受傷生存希望不足0.1%仍絕不放棄!這位母親生死守護已620天

      紫牛頭條|兒子車禍受傷生存希望不足0.1%仍絕不放棄!這位母親生死守護已620天

      揚子晚報
      2026-05-10 20:20:42
      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      清朝“大辮子”到底多臟?滿頭油光,虱子滿頭,十步之內不能站人

      云霄紀史觀
      2026-05-07 20:06:19
      宋慶齡向毛主席求情,希望寬大處理陳璧君,陳:我情愿監獄度余生

      宋慶齡向毛主席求情,希望寬大處理陳璧君,陳:我情愿監獄度余生

      史之銘
      2026-05-10 19:24:25
      脫離實際的報價遭冷遇,世界杯中國轉播費從3億美元腰斬到1.5億美元;多國轉播權的不明朗形勢陷入罕見僵局

      脫離實際的報價遭冷遇,世界杯中國轉播費從3億美元腰斬到1.5億美元;多國轉播權的不明朗形勢陷入罕見僵局

      大風新聞
      2026-05-10 15:28:26
      男子打車點承擔高速費不給,司機原路返回,可以雙輸,但不能單贏

      男子打車點承擔高速費不給,司機原路返回,可以雙輸,但不能單贏

      一盅情懷
      2026-05-10 15:46:38
      阿森納贏下英超“決賽”!剩2輪5分領跑,3隊提前保級,熱刺笑了

      阿森納贏下英超“決賽”!剩2輪5分領跑,3隊提前保級,熱刺笑了

      奧拜爾
      2026-05-11 01:34:43
      花500塊去迪士尼當NPC?萬元通道合法插隊,普通游客排隊到崩潰

      花500塊去迪士尼當NPC?萬元通道合法插隊,普通游客排隊到崩潰

      李將平老師
      2026-05-10 14:56:19
      一特斯拉Model 3服役7年跑了61萬公里后,實測續航縮水34.2%

      一特斯拉Model 3服役7年跑了61萬公里后,實測續航縮水34.2%

      IT之家
      2026-05-10 21:38:29
      英超最新積分榜:維拉掉鏈子,阿森納驚險絕殺,曼城奪冠希望渺茫

      英超最新積分榜:維拉掉鏈子,阿森納驚險絕殺,曼城奪冠希望渺茫

      足球狗說
      2026-05-11 06:19:33
      馬刺極致三后衛:福克斯卡斯爾哈珀合砍68+17 全轟20+雖敗猶榮

      馬刺極致三后衛:福克斯卡斯爾哈珀合砍68+17 全轟20+雖敗猶榮

      醉臥浮生
      2026-05-11 10:26:04
      鮮為人知的白奴貿易:上百萬白人被抓到非洲,白人女子淪為玩物

      鮮為人知的白奴貿易:上百萬白人被抓到非洲,白人女子淪為玩物

      抽象派大師
      2026-05-02 00:10:00
      局勢惡化,61歲李在明沉痛悼念,韓國被日本激怒,高市捅了馬蜂窩

      局勢惡化,61歲李在明沉痛悼念,韓國被日本激怒,高市捅了馬蜂窩

      鍋鍋愛歷史
      2026-05-11 05:39:50
      高市早苗好狠:趕在特朗普訪華前,給了他一刀,連中國都沒想到!

      高市早苗好狠:趕在特朗普訪華前,給了他一刀,連中國都沒想到!

      次元君情感
      2026-05-10 21:14:41
      尷尬!網紅神褲成審美災難,網友稱市場有需求,有些人恨不得裸奔

      尷尬!網紅神褲成審美災難,網友稱市場有需求,有些人恨不得裸奔

      火山詩話
      2026-05-09 19:50:52
      順治只活了23歲,并且只寵愛董鄂妃,那他14個孩子都是誰生的?

      順治只活了23歲,并且只寵愛董鄂妃,那他14個孩子都是誰生的?

      銘記歷史呀
      2026-05-10 19:20:42
      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      瀲滟晴方DAY
      2026-05-11 06:31:37
      賠償1w1!2男孩被清純美少女熱情邀玩后反被報警輪J未成年事件瘋傳!

      賠償1w1!2男孩被清純美少女熱情邀玩后反被報警輪J未成年事件瘋傳!

      魔都囡
      2026-05-11 09:26:41
      他是外交部原部長,1985年被鄧小平怒批“胡說八道”,活到了98歲

      他是外交部原部長,1985年被鄧小平怒批“胡說八道”,活到了98歲

      歷史人文2
      2026-05-09 22:00:03
      美軍:超20艘美國軍艦參與對伊朗實施封鎖

      美軍:超20艘美國軍艦參與對伊朗實施封鎖

      新華社
      2026-05-11 09:44:54
      2026-05-11 13:08:49
      開源中國 incentive-icons
      開源中國
      每天為開發者推送最新技術資訊
      7728文章數 34540關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      時尚
      健康
      藝術
      數碼
      公開課

      輕松拿捏又甜又酷的造型,試試這些輕熟穿搭,溫柔有女人味兒

      干細胞能讓人“返老還童”嗎

      藝術要聞

      2026中央美術學院博士生畢業作品選

      數碼要聞

      聯想YOGA Air 14 Ultra筆記本官宣5月19日發布

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 好紧好深好大乳无码中文字幕| 全部免费国产潢色一级| 中文字幕日韩亚洲精品| 精品乱人伦一区二区三区| 国产成人无码AV片在线观看不卡| 97成人精品一区二区三区狼人 | 香蕉在线精品视频在线观看2| 国产精品无码2021在线观看| 奇米777四色影视在线看| 欧洲国产成人久久精品综合 | 亚洲综合伊人久久大杳蕉| WWW午夜精品男人的天堂| 99精品国产一区二区三区不卡| 少妇愉情理伦片高潮日本| 黑森林福利视频导航| 国产综合视频一区二区三区| 日韩av每日免费观看| 亚洲精品九九| 67194在线午夜亚洲| 亚洲天堂精品一区二区| 亚洲熟妇在线视频观看| 亚洲精品中文字幕电影| 色欲狠狠躁天天躁无码中文字幕| 热99re99首页精品亚洲五月天| 午夜综合网| 欧美日韩中文国产一区| 99国产精品一区二区蜜臀| 亚洲国产精品无码一区二区三区| 日韩中文字幕色| 亚洲SV日韩无码久久| 日韩av在线不卡一区| 国产精品无码久久久久AV| 亚洲第一成人网站| 日韩精品卡一卡二卡三卡四| 久久亚洲精品11p| 亚洲欧美综合人成野草| 亚洲色鬼| 国产极品女主播国产区| 欧美人禽交zozozo视频| 久久久亚洲熟妇熟女| 久久这里有精品国产电影网|