網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

CVPR 2026 自動(dòng)駕駛與協(xié)作智能梳理：模型正在走向可控真實(shí)世界

2026-05-14 18:17:39　來(lái)源: AI科技評(píng)論

廣東舉報(bào)

分享至

從仿真構(gòu)造到多主體配合，AI 正在補(bǔ)齊行動(dòng)決策鏈條。

作者丨鄭佳美

編輯丨馬曉寧

過(guò)去，視覺模型更多是在回答“看見了什么”，但當(dāng) AI 進(jìn)入自動(dòng)駕駛、游戲、機(jī)器人和多智能體協(xié)作場(chǎng)景時(shí)，問(wèn)題已經(jīng)不只是識(shí)別環(huán)境，而是“看見之后如何行動(dòng)”。

一輛自動(dòng)駕駛汽車不能只知道前方有車，還要判斷如何避讓、如何規(guī)劃路線，甚至要在遮擋、夜晚和復(fù)雜天氣中借助外部信息補(bǔ)足感知，一個(gè)游戲智能體不能只識(shí)別畫面里的角色、障礙和敵人，還要把連續(xù)觀察轉(zhuǎn)化成具體操作；多個(gè)機(jī)器人或虛擬人也不能只是各自執(zhí)行動(dòng)作，而要根據(jù)隊(duì)友位置、物體形狀、任務(wù)目標(biāo)和團(tuán)隊(duì)規(guī)模動(dòng)態(tài)配合。

這種變化在 CVPR 2026 的相關(guān)研究中變得更加清晰：自動(dòng)駕駛方向不再只關(guān)注單一感知模塊，而是開始圍繞可控場(chǎng)景生成、真實(shí)感仿真、端到端駕駛對(duì)齊和空間檢索增強(qiáng)展開。

智能體方向也不再停留在“看見運(yùn)動(dòng)”，而是進(jìn)一步探索如何從視頻追蹤走向動(dòng)作學(xué)習(xí)，如何從互聯(lián)網(wǎng)規(guī)模的玩家視頻中恢復(fù)操作監(jiān)督；多智能體方向則把問(wèn)題推進(jìn)到更復(fù)雜的團(tuán)隊(duì)行為，包括任意隊(duì)伍規(guī)模下的人形協(xié)作，以及離線數(shù)據(jù)條件下的多目標(biāo)協(xié)作學(xué)習(xí)。

這些研究看似分布在自動(dòng)駕駛、游戲智能體和多人協(xié)作等不同任務(wù)里，但背后其實(shí)都在推動(dòng)同一條能力鏈條：讓模型從環(huán)境感知走向行動(dòng)決策。

它們關(guān)心的不只是輸入圖像是否被正確理解，而是場(chǎng)景能否被構(gòu)造，動(dòng)作能否被學(xué)習(xí)，策略能否在閉環(huán)中穩(wěn)定執(zhí)行，多個(gè)主體能否在同一任務(wù)中形成配合。

也正因此，AI 的能力正在從“理解世界”進(jìn)一步延伸到“參與世界”——不只是看見道路、角色或物體，而是能在復(fù)雜環(huán)境中判斷、行動(dòng)，并與其他主體協(xié)同完成任務(wù)。

從可控場(chǎng)景生成到空間記憶增強(qiáng)

自動(dòng)駕駛研究正在從“讓模型看懂當(dāng)前畫面”，進(jìn)一步走向“讓模型能夠構(gòu)造、編輯和利用更復(fù)雜的駕駛世界”。在仿真與訓(xùn)練中，一個(gè)關(guān)鍵問(wèn)題是：如何生成足夠真實(shí)、可控且多樣的駕駛場(chǎng)景，尤其是那些真實(shí)道路中少見但對(duì)安全至關(guān)重要的危險(xiǎn)交互、罕見軌跡和復(fù)雜交通情況。

由 NEC 美國(guó)研究院、石溪大學(xué)和加州大學(xué)圣地亞哥分校共同提出的《HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles》。研究的是自動(dòng)駕駛場(chǎng)景中的可控視頻生成與編輯問(wèn)題，也就是如何在已有駕駛視頻中精確修改車輛軌跡、插入新車輛，或者改變自車與其他交通參與者的運(yùn)動(dòng)方式，同時(shí)保持畫面的真實(shí)感、空間一致性和時(shí)間連續(xù)性。

現(xiàn)有方法往往難以同時(shí)做到高真實(shí)感和精確控制：要么編輯能力有限，要么生成結(jié)果容易出現(xiàn)結(jié)構(gòu)不穩(wěn)定、時(shí)序不連貫的問(wèn)題。

HorizonForge 的核心思路是先把駕駛場(chǎng)景重建成可編輯的 Gaussian Splats 和 Meshes，再在這個(gè) 3D 表示上進(jìn)行精細(xì)操作。系統(tǒng)可以直接修改車輛軌跡、調(diào)整場(chǎng)景幾何，或根據(jù)語(yǔ)言指令插入新車輛；編輯后的結(jié)果再通過(guò) noise-aware video diffusion 渲染出來(lái)，用擴(kuò)散模型補(bǔ)足真實(shí)感，并保證空間和時(shí)間一致性。

相比每條軌跡都要重新優(yōu)化的方法，HorizonForge 可以在一次前向推理中生成多種場(chǎng)景變化，更適合大規(guī)模自動(dòng)駕駛仿真。

論文地址：https://arxiv.org/pdf/2602.21333v2

它的亮點(diǎn)在于，把 3D 可編輯表示和視頻擴(kuò)散生成結(jié)合起來(lái)：前者負(fù)責(zé)軌跡和車輛控制，后者負(fù)責(zé)最終視頻的自然性和連貫性。論文還提出 HorizonSuite 評(píng)測(cè)基準(zhǔn)，覆蓋自車和交通參與者兩個(gè)層面的編輯任務(wù)，包括軌跡修改和物體操作等場(chǎng)景。

實(shí)驗(yàn)中，Gaussian-Mesh 表示相比其他 3D 表示能帶來(lái)更高保真度，視頻擴(kuò)散中的時(shí)間先驗(yàn)也對(duì)連貫合成非常關(guān)鍵；最終 HorizonForge 相比第二名方法實(shí)現(xiàn)了 83.4% 的用戶偏好提升和 25.19% 的 FID 改進(jìn)。

整體來(lái)看，這篇論文把自動(dòng)駕駛場(chǎng)景生成從“生成一段看起來(lái)像駕駛視頻的畫面”，推進(jìn)到“可精確編輯軌跡、車輛和 3D 場(chǎng)景結(jié)構(gòu)的可控仿真”。它的意義不只是讓駕駛視頻更真實(shí)，也在于為感知、預(yù)測(cè)和規(guī)劃模型提供更可控、更可擴(kuò)展的訓(xùn)練與測(cè)試環(huán)境。

有了可編輯的仿真場(chǎng)景后，另一個(gè)問(wèn)題隨之出現(xiàn)：仿真畫面本身是否足夠真實(shí)，能否在插入車輛、行人等動(dòng)態(tài)物體后，仍然保持自然的光照、陰影和前后景一致性。

由英偉達(dá)、多倫多大學(xué)、康奈爾大學(xué)和以色列理工學(xué)院合作完成《DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion 的Enhancer》，研究的就是自動(dòng)駕駛和機(jī)器人仿真中的真實(shí)感增強(qiáng)問(wèn)題。

現(xiàn)在很多仿真環(huán)境可以通過(guò) NeRF、3D Gaussian Splatting 等神經(jīng)重建方法從真實(shí)數(shù)據(jù)中恢復(fù)出來(lái)，但在新視角渲染、稀疏視角外推，或插入其他場(chǎng)景的動(dòng)態(tài)物體時(shí)，常常會(huì)出現(xiàn)幾何偽影、缺失區(qū)域、光照不一致、陰影缺失和前景背景風(fēng)格不統(tǒng)一等問(wèn)題。

DiffusionHarmonizer 的核心思路是把神經(jīng)重建渲染出的不完美畫面，在線增強(qiáng)成更真實(shí)、更連貫的仿真視頻幀。它不是重新構(gòu)建整個(gè) 3D 場(chǎng)景，而是在渲染后加入生成式增強(qiáng)模塊，用來(lái)修復(fù)新視角偽影、協(xié)調(diào)前景和背景外觀，并為插入物體生成更合理的陰影。

模型由預(yù)訓(xùn)練的多步圖像擴(kuò)散模型改造成 single-step temporally-conditioned enhancer，只需一步推理就能增強(qiáng)當(dāng)前幀，同時(shí)利用前幾幀作為時(shí)間上下文，保證在線仿真中的時(shí)間穩(wěn)定性。

論文地址：https://arxiv.org/pdf/2602.24096v2

它的亮點(diǎn)在于，既保留擴(kuò)散模型的真實(shí)感生成能力，又盡量滿足在線仿真的效率要求。普通視頻擴(kuò)散模型計(jì)算成本太高，普通圖像增強(qiáng)模型又容易造成幀間閃爍；因此論文把多步擴(kuò)散模型改造成確定性的單步增強(qiáng)器，并加入時(shí)間條件。

同時(shí)，作者還設(shè)計(jì)了專門的數(shù)據(jù)構(gòu)建流程，合成外觀協(xié)調(diào)、偽影修復(fù)、重光照、陰影生成和物體重新插入的數(shù)據(jù)，讓模型學(xué)會(huì)處理顏色不一致、重建錯(cuò)誤和光照不真實(shí)等問(wèn)題。

整體來(lái)看，這篇論文把神經(jīng)重建仿真從“能渲染出場(chǎng)景”，推進(jìn)到“能生成更接近真實(shí)世界的在線仿真畫面”。它的價(jià)值不只是讓畫面更好看，而是讓基于真實(shí)數(shù)據(jù)重建的仿真環(huán)境更可信、更穩(wěn)定，也更適合大規(guī)模訓(xùn)練和評(píng)測(cè)。

而當(dāng)仿真環(huán)境變得更真實(shí)、更可控之后，訓(xùn)練出來(lái)的駕駛模型是否能在閉環(huán)中穩(wěn)定執(zhí)行，又取決于專家示范和學(xué)生模型之間是否真正對(duì)齊。由德國(guó)圖賓根大學(xué)及圖賓根人工智能中心、英偉達(dá)研究院以及德國(guó)“人工智能科學(xué)”卓越集群合作完成的《LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving》研究就的是端到端自動(dòng)駕駛中的模仿學(xué)習(xí)問(wèn)題。

雖然仿真器可以生成大量駕駛數(shù)據(jù)，但用專家軌跡訓(xùn)練出的學(xué)生模型，在閉環(huán)駕駛時(shí)仍然容易不穩(wěn)定，核心原因在于專家和學(xué)生之間存在明顯的信息不對(duì)稱。專家往往擁有更強(qiáng)的“上帝視角”，而學(xué)生模型在測(cè)試時(shí)只能依賴車載傳感器輸入和有限導(dǎo)航信息，因此很難可靠模仿專家行為。

LEAD 的重點(diǎn)不是單純換一個(gè)更大的模型，而是系統(tǒng)性地縮小 learner-expert asymmetry。作者把這種差距分成兩類：一類是 state alignment，即專家看到的信息和學(xué)生實(shí)際能看到的信息不一致；另一類是 intent alignment，即學(xué)生在測(cè)試時(shí)只拿到一個(gè)目標(biāo)點(diǎn)，導(dǎo)航意圖過(guò)于模糊。

論文地址：https://arxiv.org/pdf/2512.20563v2

針對(duì)這些問(wèn)題，論文對(duì)專家生成方式、學(xué)生輸入、導(dǎo)航目標(biāo)表達(dá)和訓(xùn)練數(shù)據(jù)監(jiān)督進(jìn)行了修改，讓學(xué)生學(xué)到的駕駛策略更接近自己真實(shí)測(cè)試時(shí)能執(zhí)行的行為。

這項(xiàng)研究它沒有把端到端自動(dòng)駕駛的失敗簡(jiǎn)單歸因于模型容量不足，而是指出了模仿學(xué)習(xí)中更根本的訓(xùn)練偏差：

如果專家示范依賴學(xué)生看不到的信息，學(xué)生即使學(xué)得很像，也可能在閉環(huán)中犯錯(cuò)。通過(guò)減少可見性差異、不確定性差異和導(dǎo)航意圖差異，論文訓(xùn)練出的 TransFuser v6（TFv6）在多個(gè)公開 CARLA 閉環(huán) benchmark 上取得新的最好結(jié)果，例如在 Bench2Drive 上達(dá)到 95 DS，并在 Longest6 v2 和 Town13 上超過(guò)以往方法兩倍以上。

整體來(lái)看，這篇論文把端到端自動(dòng)駕駛中的模仿學(xué)習(xí)問(wèn)題，從“如何讓學(xué)生更好地模仿專家”，推進(jìn)到“如何讓專家示范更適合學(xué)生真實(shí)可見、可執(zhí)行的條件”。

此外，論文還將感知監(jiān)督整合進(jìn) sim-to-real 流程，并在 NAVSIM 和 Waymo Vision-Based End-to-End Driving benchmark 上帶來(lái)穩(wěn)定提升，說(shuō)明這種對(duì)齊思路也有助于真實(shí)世界數(shù)據(jù)下的端到端駕駛泛化。

如果說(shuō) LEAD 關(guān)注專家與學(xué)生之間的信息對(duì)齊，那么《Spatial Retrieval Augmented Autonomous Driving》則進(jìn)一步把自動(dòng)駕駛的輸入來(lái)源從車載傳感器擴(kuò)展到外部空間記憶。

論文由復(fù)旦大學(xué)可信具身智能研究院、上海交通大學(xué)、中國(guó)科學(xué)院空天信息創(chuàng)新研究院目標(biāo)認(rèn)知與應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室、中國(guó)科學(xué)技術(shù)大學(xué)共同提出，研究的是自動(dòng)駕駛中的一個(gè)新思路：現(xiàn)有自動(dòng)駕駛系統(tǒng)主要依賴車載攝像頭、激光雷達(dá)、IMU 等實(shí)時(shí)傳感器感知環(huán)境，但這種方式很容易受限于當(dāng)前視野。

一旦遇到遮擋、夜晚、雨天或視距不足，模型就可能看不清道路結(jié)構(gòu)。人類駕駛員在這種情況下往往會(huì)憑借對(duì)道路布局的記憶繼續(xù)判斷，而這篇論文希望給自動(dòng)駕駛模型也加入類似的“空間記憶”能力。

論文提出的核心范式叫 spatial retrieval，也就是根據(jù)車輛當(dāng)前位置檢索離線地理圖像，比如衛(wèi)星圖、街景圖或已有自動(dòng)駕駛數(shù)據(jù)集中的地理圖像，并把它們作為額外輸入提供給自動(dòng)駕駛模型。

論文地址：https://arxiv.org/pdf/2512.06865

這些信息不需要增加新的車載傳感器，可以從離線地圖緩存或公開地圖 API 中獲得，因此更像是一種可插拔的外部空間先驗(yàn)。論文還擴(kuò)展了 nuScenes 數(shù)據(jù)集，通過(guò) Google Maps API 檢索地理圖像，并將這些圖像與自車軌跡對(duì)齊，形成 nuScenes-Geography 數(shù)據(jù)，用來(lái)系統(tǒng)評(píng)估這種空間檢索范式。

它的亮點(diǎn)在于，不是單純提升某一個(gè)自動(dòng)駕駛模塊，而是把地理檢索信息接入多個(gè)核心任務(wù)。論文圍繞 3D 目標(biāo)檢測(cè)、在線地圖構(gòu)建、占用預(yù)測(cè)、端到端規(guī)劃和生成式世界模型建立基線，并設(shè)計(jì)了可插拔的 Spatial Retrieval Adapter，用于把檢索到的地理圖像融合進(jìn)現(xiàn)有模型。

同時(shí)，論文還引入 Reliability Estimation，根據(jù)檢索信息本身的可靠性來(lái)自適應(yīng)決定該信多少、用多少，避免錯(cuò)誤或不匹配的地理信息干擾駕駛模型。

從項(xiàng)目頁(yè)給出的結(jié)果來(lái)看，空間檢索信息在多個(gè)任務(wù)中都能帶來(lái)提升：在生成式世界模型中，加入地理圖像可以降低 FVD 和 FID，減少場(chǎng)景漂移并保持幾何一致性；在在線地圖構(gòu)建中，額外道路背景信息有助于恢復(fù)被遮擋的車道線；

在占用預(yù)測(cè)中，地理先驗(yàn)尤其能提升靜態(tài)類別和地面區(qū)域的預(yù)測(cè)；在端到端規(guī)劃中，地理先驗(yàn)可以補(bǔ)償遮擋或低光條件下的感知失敗，并在夜間復(fù)雜場(chǎng)景中把碰撞率從 0.55% 降到 0.48%。

從看見運(yùn)動(dòng)到學(xué)會(huì)行動(dòng)

自動(dòng)駕駛系統(tǒng)需要理解動(dòng)態(tài)場(chǎng)景，而更基礎(chǔ)的視覺能力之一，是在視頻中穩(wěn)定追蹤點(diǎn)、物體和運(yùn)動(dòng)軌跡?！禖oWTracker: Tracking by Warping instead of Correlation》由牛津大學(xué)視覺幾何組和 Meta AI 共同提出。

研究的是視頻中的 dense point tracking，也就是在一段視頻中追蹤任意像素點(diǎn)隨時(shí)間變化的軌跡。這個(gè)任務(wù)對(duì)視頻理解、機(jī)器人操作、光流估計(jì)等都很重要，但現(xiàn)有很多方法依賴 cost volume 做跨幀特征匹配，計(jì)算復(fù)雜度會(huì)隨著圖像分辨率呈平方級(jí)增長(zhǎng)，因此在高分辨率、長(zhǎng)視頻和密集點(diǎn)追蹤場(chǎng)景中很難高效擴(kuò)展。

CoWTracker 的核心思路是用 warping 替代傳統(tǒng)的 feature correlation / cost volume。模型不會(huì)在整張圖里暴力搜索大量候選匹配，而是先維護(hù)每個(gè)點(diǎn)當(dāng)前位置的估計(jì)，再根據(jù)這個(gè)估計(jì)把目標(biāo)幀特征反向 warp 到查詢幀附近，然后由 spatio-temporal transformer 聯(lián)合更新軌跡、可見性和置信度。簡(jiǎn)單來(lái)說(shuō)，它不是“到處找這個(gè)點(diǎn)在哪里”，而是“先猜一個(gè)位置，再反復(fù)把特征對(duì)齊并修正”。

論文地址：https://arxiv.org/pdf/2602.04877v1

它的亮點(diǎn)在于，把密集點(diǎn)追蹤做得更簡(jiǎn)單、更高效，也更容易擴(kuò)展到高分辨率視頻。CoWTracker 不需要顯式計(jì)算 cost volume，卻能通過(guò)空間注意力和時(shí)間注意力同時(shí)建模同一幀中不同點(diǎn)之間的關(guān)系，以及同一個(gè)點(diǎn)在長(zhǎng)時(shí)間序列中的運(yùn)動(dòng)變化。因此它可以處理長(zhǎng)距離運(yùn)動(dòng)、大視角變化、遮擋和重新出現(xiàn)等復(fù)雜情況，還能輸出每個(gè)點(diǎn)的軌跡、可見性和置信度。

從結(jié)果來(lái)看，CoWTracker 在 TAP-Vid-DAVIS、TAP-Vid-Kinetics 和 RoboTAP 等密集點(diǎn)追蹤 benchmark 上表現(xiàn)很強(qiáng)，項(xiàng)目頁(yè)給出的平均結(jié)果包括 Mean AJ 71.3、Mean δ_avg 81.8、Mean OA 93.3，高于 CoTracker 3 和 AllTracker 等方法。

更有意思的是，同一個(gè)模型在不專門訓(xùn)練光流數(shù)據(jù)的情況下，也能在 Sintel、KITTI-2015 和 Spring 等光流 benchmark 上取得有競(jìng)爭(zhēng)力的結(jié)果，例如在 Sintel 和 KITTI 上的 EPE 分別達(dá)到 0.78 和 1.04。

整體來(lái)看，這篇論文把密集點(diǎn)追蹤從依賴昂貴相關(guān)匹配，推進(jìn)到基于迭代 warping 和時(shí)空推理的統(tǒng)一框架，并說(shuō)明 dense tracking 和 optical flow 有機(jī)會(huì)用同一種架構(gòu)處理。

從“追蹤運(yùn)動(dòng)”繼續(xù)往前走，就是讓模型根據(jù)視覺輸入直接做出動(dòng)作決策?！禢itroGen: An Open Foundation Model for Generalist Gaming Agents》由英偉達(dá)、斯坦福大學(xué)、加州理工學(xué)院、芝加哥大學(xué)和德克薩斯大學(xué)奧斯汀分校合作完成。

論文研究的是面向游戲環(huán)境的通用智能體基礎(chǔ)模型，也就是讓一個(gè)模型能夠在不同類型、不同機(jī)制的游戲中，根據(jù)畫面觀察直接輸出游戲手柄動(dòng)作，而不是只針對(duì)某一個(gè)游戲單獨(dú)訓(xùn)練。

作者認(rèn)為，具身智能長(zhǎng)期缺少像視覺和語(yǔ)言模型那樣的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)，強(qiáng)化學(xué)習(xí)雖然能在個(gè)別游戲中取得很強(qiáng)效果，但往往依賴專門模擬器和高成本訓(xùn)練；而現(xiàn)有行為克隆方法又受限于昂貴的人類示范數(shù)據(jù)，很難擴(kuò)展到大量游戲。

NitroGen 的核心思路是利用公開視頻中的游戲手柄 overlay 自動(dòng)恢復(fù)玩家操作，從而構(gòu)建大規(guī)?！耙曨l—?jiǎng)幼鳌睌?shù)據(jù)集。很多游戲視頻會(huì)在畫面角落實(shí)時(shí)顯示玩家按鍵和搖桿輸入，NitroGen 先定位并裁剪這些手柄區(qū)域，再用模型解析搖桿位置和按鍵狀態(tài)，最終從公開游戲視頻中提取逐幀動(dòng)作標(biāo)簽。

通過(guò)這種方式，作者整理出約 4 萬(wàn)小時(shí)、覆蓋 1000 多款游戲的數(shù)據(jù)，并在此基礎(chǔ)上訓(xùn)練統(tǒng)一的 vision-action transformer，用畫面觀察預(yù)測(cè) gamepad actions。

論文地址：https://arxiv.org/pdf/2601.02427v1

它的亮點(diǎn)在于，把互聯(lián)網(wǎng)上原本只是“給人看的游戲視頻”轉(zhuǎn)化成了可用于訓(xùn)練智能體的動(dòng)作監(jiān)督數(shù)據(jù)，從而繞開昂貴的人工采集和專門環(huán)境搭建。除了數(shù)據(jù)集，論文還構(gòu)建了一個(gè)多游戲評(píng)測(cè)環(huán)境，包含 10 款商業(yè)游戲中的 30 個(gè)任務(wù)，覆蓋戰(zhàn)斗、導(dǎo)航、決策、平臺(tái)跳躍、探索和解謎等能力，并通過(guò)統(tǒng)一的 Gymnasium API 封裝不同游戲，讓模型能在更真實(shí)的跨游戲環(huán)境中測(cè)試泛化能力。

從效果來(lái)看，NitroGen 在 3D 動(dòng)作游戲戰(zhàn)斗、2D 平臺(tái)跳躍高精度控制、程序生成世界探索等任務(wù)中都表現(xiàn)出較強(qiáng)能力，并且能夠遷移到未見過(guò)的新游戲。論文中提到，在相同數(shù)據(jù)和計(jì)算預(yù)算下，用 NitroGen 預(yù)訓(xùn)練權(quán)重進(jìn)行微調(diào)，相比從零訓(xùn)練的模型，任務(wù)成功率最高可獲得 52% 的相對(duì)提升。作者還開源了數(shù)據(jù)集、評(píng)測(cè)套件和模型權(quán)重。

整體來(lái)看，這篇論文把游戲智能體從“針對(duì)單個(gè)游戲訓(xùn)練專用策略”，推進(jìn)到“利用互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù)預(yù)訓(xùn)練通用視覺—?jiǎng)幼骰A(chǔ)模型”。它的意義不只在游戲本身，也在于為具身智能提供了一條新的數(shù)據(jù)路徑：通過(guò)公開視頻恢復(fù)動(dòng)作監(jiān)督，讓模型從大量人類玩家行為中學(xué)習(xí)跨環(huán)境、跨任務(wù)的操作能力。

從單體控制到團(tuán)隊(duì)行為學(xué)習(xí)

如果說(shuō) NitroGen 關(guān)注的是一個(gè)智能體如何從視覺中學(xué)會(huì)行動(dòng)，那么在人形控制和機(jī)器人協(xié)作中，更復(fù)雜的問(wèn)題是多個(gè)智能體如何像團(tuán)隊(duì)一樣協(xié)同完成任務(wù)。

由 Garena、Sea AI Lab，以及新加坡國(guó)立大學(xué)共同提出的《TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size》研究的就是多個(gè)人形智能體之間的協(xié)作式人—物交互問(wèn)題，也就是讓多個(gè)虛擬人或機(jī)器人一起搬運(yùn)、抬起、移動(dòng)物體，并且能夠根據(jù)隊(duì)伍人數(shù)和物體形狀自動(dòng)調(diào)整協(xié)作方式。

現(xiàn)有物理人形控制已經(jīng)能完成不少單人動(dòng)作和人—物交互任務(wù)，但一旦進(jìn)入多人協(xié)作場(chǎng)景，就會(huì)遇到兩個(gè)難點(diǎn)：一是很多策略只能適配固定人數(shù)，難以擴(kuò)展到不同團(tuán)隊(duì)規(guī)模；二是高質(zhì)量多人協(xié)作動(dòng)作數(shù)據(jù)很少，模型很難學(xué)到自然、多樣且物理合理的協(xié)同行為。

論文地址：https://arxiv.org/pdf/2603.07988

TeamHOI 的核心思路是訓(xùn)練一個(gè)統(tǒng)一的去中心化策略，讓每個(gè)智能體基于自己的局部觀測(cè)獨(dú)立行動(dòng)，但又能通過(guò)同一個(gè)策略網(wǎng)絡(luò)感知隊(duì)友狀態(tài)并形成協(xié)作。

具體來(lái)說(shuō)，TeamHOI 使用 Transformer-based policy network，把其他智能體的狀態(tài)表示成 teammate tokens，讓策略可以適配不同數(shù)量的隊(duì)友，而不是像傳統(tǒng) MLP 那樣被固定輸入維度限制。這樣，同一個(gè)策略就可以在 2 到 8 個(gè)智能體，甚至更多未見過(guò)的隊(duì)伍規(guī)模中復(fù)用，而不需要重新訓(xùn)練或微調(diào)。

它的另一個(gè)關(guān)鍵設(shè)計(jì)是 masked Adversarial Motion Prior（masked AMP）。由于多人協(xié)作動(dòng)作數(shù)據(jù)稀缺，論文仍然使用單人參考動(dòng)作來(lái)約束運(yùn)動(dòng)自然性，但會(huì)在 AMP 監(jiān)督中遮掉與物體交互的身體部位，讓手部、接觸和搬運(yùn)動(dòng)作更多由任務(wù)獎(jiǎng)勵(lì)來(lái)引導(dǎo)。

這樣模型既能保持整體動(dòng)作自然，又不會(huì)被單人動(dòng)作數(shù)據(jù)過(guò)度限制，可以從單人參考動(dòng)作中衍生出更多樣的多人協(xié)作行為。論文還設(shè)計(jì)了不依賴隊(duì)伍人數(shù)和物體形狀的 formation reward，引導(dǎo)智能體圍繞物體形成穩(wěn)定隊(duì)形，從而更平穩(wěn)地抬起和搬運(yùn)桌子。

這篇論文的亮點(diǎn)在于，它把多人協(xié)作從“固定人數(shù)、固定策略”的控制問(wèn)題，推進(jìn)到“任意團(tuán)隊(duì)規(guī)模下的統(tǒng)一協(xié)作策略”。在桌子搬運(yùn)任務(wù)中，TeamHOI 能讓 2 到 8 個(gè)智能體協(xié)同搬運(yùn)方形、長(zhǎng)方形或圓形桌子，并在普通重量設(shè)置下保持很高成功率。

主實(shí)驗(yàn)中，TeamHOI 在 2 人、4 人和 8 人設(shè)置下分別達(dá)到 99.1%、99.2% 和 97.5% 的成功率，而在 5 倍重量的重載設(shè)置下，8 人團(tuán)隊(duì)仍能達(dá)到 81.1% 成功率。相比之下，基線方法往往只能在訓(xùn)練時(shí)對(duì)應(yīng)的人數(shù)上表現(xiàn)較好，一旦隊(duì)伍規(guī)模變化就容易失敗或不穩(wěn)定。

TeamHOI 展示的是具體協(xié)作任務(wù)中的策略學(xué)習(xí)，而要讓多智能體協(xié)作研究進(jìn)一步發(fā)展，還需要更系統(tǒng)的任務(wù)集合、離線數(shù)據(jù)和統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)。

《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》由中山大學(xué)和香港理工大學(xué)共同提出，研究的是多智能體離線強(qiáng)化學(xué)習(xí)中的一個(gè)關(guān)鍵問(wèn)題：

多個(gè)智能體如何在不能在線試錯(cuò)、只能使用已有數(shù)據(jù)的情況下，學(xué)會(huì)根據(jù)不同目標(biāo)進(jìn)行協(xié)作?，F(xiàn)有離線多智能體強(qiáng)化學(xué)習(xí)方法往往依賴人工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)，但這類獎(jiǎng)勵(lì)函數(shù)對(duì)細(xì)微變化非常敏感，也很難讓策略泛化到新目標(biāo)；而單智能體中的目標(biāo)條件離線強(qiáng)化學(xué)習(xí)雖然已經(jīng)能緩解這個(gè)問(wèn)題，但在多智能體協(xié)作場(chǎng)景中還缺少系統(tǒng)框架和統(tǒng)一評(píng)測(cè)基準(zhǔn)。

論文地址：https://wendyeewang.github.io/MangoBench

MangoBench 是面向 goal-conditioned offline MARL 的第一個(gè)全協(xié)作、多目標(biāo)基準(zhǔn)。它覆蓋 3 個(gè)環(huán)境、4 類智能體和 47 個(gè)協(xié)作任務(wù)，包括聯(lián)合控制的運(yùn)動(dòng)任務(wù)，以及同步和異步的雙臂操作任務(wù)。

論文還把目標(biāo)條件學(xué)習(xí)擴(kuò)展到多智能體場(chǎng)景中，同時(shí)支持完全去中心化訓(xùn)練和 CTDE 兩種范式；在去中心化設(shè)置下，系統(tǒng)會(huì)把全局目標(biāo)拆分成各個(gè)智能體可使用的局部目標(biāo)，而在 CTDE 設(shè)置下，則把個(gè)體目標(biāo)整合到統(tǒng)一全局目標(biāo)中進(jìn)行更強(qiáng)的價(jià)值學(xué)習(xí)，但執(zhí)行時(shí)每個(gè)智能體仍根據(jù)自己的局部目標(biāo)行動(dòng)。

它的亮點(diǎn)在于，不只是提供一個(gè)任務(wù)集合，而是把“目標(biāo)條件、多智能體、離線數(shù)據(jù)、稀疏獎(jiǎng)勵(lì)和多目標(biāo)評(píng)測(cè)”統(tǒng)一到同一個(gè)框架中。MangoBench 包含 45 個(gè) locomotion 任務(wù)和 2 個(gè) manipulation 任務(wù)：在運(yùn)動(dòng)任務(wù)中，多個(gè)智能體分別控制同一個(gè)機(jī)器人身體的不同關(guān)節(jié)，共同完成 AntMaze、AntSoccer 等目標(biāo)。

在操作任務(wù)中，兩個(gè)機(jī)械臂需要完成 lift-barrier 和 place-food 等協(xié)作任務(wù)，其中既有同步協(xié)作，也有異步協(xié)作。論文還基于開放數(shù)據(jù)集轉(zhuǎn)換出適合目標(biāo)條件離線多智能體學(xué)習(xí)的數(shù)據(jù)格式，并為每個(gè)任務(wù)設(shè)計(jì)多目標(biāo)評(píng)測(cè)，避免只在單一目標(biāo)上評(píng)估導(dǎo)致結(jié)果偏差。

為了讓這個(gè)基準(zhǔn)真正可用，論文還提出了 6 個(gè) baseline 算法，覆蓋完全去中心化和 CTDE 兩種訓(xùn)練范式，包括 GCMBC、ICRL、IHIQL、HIQL-CTDE、GCOMIGA 和 GCOMAR。

這些方法分別用于評(píng)估行為克隆、對(duì)比價(jià)值學(xué)習(xí)、層級(jí)策略、目標(biāo)重標(biāo)注和離線多智能體方法在稀疏獎(jiǎng)勵(lì)、多目標(biāo)泛化和協(xié)作控制中的表現(xiàn)。實(shí)驗(yàn)表明，這些 baseline 在稀疏獎(jiǎng)勵(lì)下已經(jīng)能展現(xiàn)一定的多目標(biāo)泛化能力，但沒有一種方法可以在所有任務(wù)中穩(wěn)定占優(yōu)，說(shuō)明 goal-conditioned offline MARL 仍然是一個(gè)復(fù)雜且遠(yuǎn)未解決的問(wèn)題。

這次去 CVPR 現(xiàn)場(chǎng)，一定不要錯(cuò)過(guò)

【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)

需要你做什么：把你最關(guān)注的10個(gè)大會(huì)報(bào)告，每頁(yè)P(yáng)PT都拍下來(lái)

你能獲得什么？

認(rèn)識(shí)大牛：你將可以進(jìn)入CVPR名師博士社群；

錢多活少：提供豐厚獎(jiǎng)金，任務(wù)量精簡(jiǎn)；

聽會(huì)自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。

如果你即將前往CVPR，想邊聽會(huì)邊賺錢，還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛，歡迎聯(lián)系我們：[添加微信號(hào):MS_Yahei]

【限額5位，先到先得】

未經(jīng)「AI科技評(píng)論」授權(quán)，嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載！

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán)，轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.