<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

      CVPR 2026 自動(dòng)駕駛與協(xié)作智能梳理:模型正在走向可控真實(shí)世界

      0
      分享至


      從仿真構(gòu)造到多主體配合,AI 正在補(bǔ)齊行動(dòng)決策鏈條。

      作者丨鄭佳美

      編輯丨馬曉寧

      過(guò)去,視覺模型更多是在回答“看見了什么”,但當(dāng) AI 進(jìn)入自動(dòng)駕駛、游戲、機(jī)器人和多智能體協(xié)作場(chǎng)景時(shí),問(wèn)題已經(jīng)不只是識(shí)別環(huán)境,而是“看見之后如何行動(dòng)”。

      一輛自動(dòng)駕駛汽車不能只知道前方有車,還要判斷如何避讓、如何規(guī)劃路線,甚至要在遮擋、夜晚和復(fù)雜天氣中借助外部信息補(bǔ)足感知,一個(gè)游戲智能體不能只識(shí)別畫面里的角色、障礙和敵人,還要把連續(xù)觀察轉(zhuǎn)化成具體操作;多個(gè)機(jī)器人或虛擬人也不能只是各自執(zhí)行動(dòng)作,而要根據(jù)隊(duì)友位置、物體形狀、任務(wù)目標(biāo)和團(tuán)隊(duì)規(guī)模動(dòng)態(tài)配合。

      這種變化在 CVPR 2026 的相關(guān)研究中變得更加清晰:自動(dòng)駕駛方向不再只關(guān)注單一感知模塊,而是開始圍繞可控場(chǎng)景生成、真實(shí)感仿真、端到端駕駛對(duì)齊和空間檢索增強(qiáng)展開。

      智能體方向也不再停留在“看見運(yùn)動(dòng)”,而是進(jìn)一步探索如何從視頻追蹤走向動(dòng)作學(xué)習(xí),如何從互聯(lián)網(wǎng)規(guī)模的玩家視頻中恢復(fù)操作監(jiān)督;多智能體方向則把問(wèn)題推進(jìn)到更復(fù)雜的團(tuán)隊(duì)行為,包括任意隊(duì)伍規(guī)模下的人形協(xié)作,以及離線數(shù)據(jù)條件下的多目標(biāo)協(xié)作學(xué)習(xí)。

      這些研究看似分布在自動(dòng)駕駛、游戲智能體和多人協(xié)作等不同任務(wù)里,但背后其實(shí)都在推動(dòng)同一條能力鏈條:讓模型從環(huán)境感知走向行動(dòng)決策。

      它們關(guān)心的不只是輸入圖像是否被正確理解,而是場(chǎng)景能否被構(gòu)造,動(dòng)作能否被學(xué)習(xí),策略能否在閉環(huán)中穩(wěn)定執(zhí)行,多個(gè)主體能否在同一任務(wù)中形成配合。

      也正因此,AI 的能力正在從“理解世界”進(jìn)一步延伸到“參與世界”——不只是看見道路、角色或物體,而是能在復(fù)雜環(huán)境中判斷、行動(dòng),并與其他主體協(xié)同完成任務(wù)。

      01


      從可控場(chǎng)景生成到空間記憶增強(qiáng)

      自動(dòng)駕駛研究正在從“讓模型看懂當(dāng)前畫面”,進(jìn)一步走向“讓模型能夠構(gòu)造、編輯和利用更復(fù)雜的駕駛世界”。在仿真與訓(xùn)練中,一個(gè)關(guān)鍵問(wèn)題是:如何生成足夠真實(shí)、可控且多樣的駕駛場(chǎng)景,尤其是那些真實(shí)道路中少見但對(duì)安全至關(guān)重要的危險(xiǎn)交互、罕見軌跡和復(fù)雜交通情況。

      由 NEC 美國(guó)研究院、石溪大學(xué)和加州大學(xué)圣地亞哥分校共同提出的《HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles》。研究的是自動(dòng)駕駛場(chǎng)景中的可控視頻生成與編輯問(wèn)題,也就是如何在已有駕駛視頻中精確修改車輛軌跡、插入新車輛,或者改變自車與其他交通參與者的運(yùn)動(dòng)方式,同時(shí)保持畫面的真實(shí)感、空間一致性和時(shí)間連續(xù)性。

      現(xiàn)有方法往往難以同時(shí)做到高真實(shí)感和精確控制:要么編輯能力有限,要么生成結(jié)果容易出現(xiàn)結(jié)構(gòu)不穩(wěn)定、時(shí)序不連貫的問(wèn)題。

      HorizonForge 的核心思路是先把駕駛場(chǎng)景重建成可編輯的 Gaussian Splats 和 Meshes,再在這個(gè) 3D 表示上進(jìn)行精細(xì)操作。系統(tǒng)可以直接修改車輛軌跡、調(diào)整場(chǎng)景幾何,或根據(jù)語(yǔ)言指令插入新車輛;編輯后的結(jié)果再通過(guò) noise-aware video diffusion 渲染出來(lái),用擴(kuò)散模型補(bǔ)足真實(shí)感,并保證空間和時(shí)間一致性。

      相比每條軌跡都要重新優(yōu)化的方法,HorizonForge 可以在一次前向推理中生成多種場(chǎng)景變化,更適合大規(guī)模自動(dòng)駕駛仿真。


      論文地址:https://arxiv.org/pdf/2602.21333v2

      它的亮點(diǎn)在于,把 3D 可編輯表示和視頻擴(kuò)散生成結(jié)合起來(lái):前者負(fù)責(zé)軌跡和車輛控制,后者負(fù)責(zé)最終視頻的自然性和連貫性。論文還提出 HorizonSuite 評(píng)測(cè)基準(zhǔn),覆蓋自車和交通參與者兩個(gè)層面的編輯任務(wù),包括軌跡修改和物體操作等場(chǎng)景。

      實(shí)驗(yàn)中,Gaussian-Mesh 表示相比其他 3D 表示能帶來(lái)更高保真度,視頻擴(kuò)散中的時(shí)間先驗(yàn)也對(duì)連貫合成非常關(guān)鍵;最終 HorizonForge 相比第二名方法實(shí)現(xiàn)了 83.4% 的用戶偏好提升和 25.19% 的 FID 改進(jìn)。

      整體來(lái)看,這篇論文把自動(dòng)駕駛場(chǎng)景生成從“生成一段看起來(lái)像駕駛視頻的畫面”,推進(jìn)到“可精確編輯軌跡、車輛和 3D 場(chǎng)景結(jié)構(gòu)的可控仿真”。它的意義不只是讓駕駛視頻更真實(shí),也在于為感知、預(yù)測(cè)和規(guī)劃模型提供更可控、更可擴(kuò)展的訓(xùn)練與測(cè)試環(huán)境。


      有了可編輯的仿真場(chǎng)景后,另一個(gè)問(wèn)題隨之出現(xiàn):仿真畫面本身是否足夠真實(shí),能否在插入車輛、行人等動(dòng)態(tài)物體后,仍然保持自然的光照、陰影和前后景一致性。

      由英偉達(dá)、多倫多大學(xué)、康奈爾大學(xué)和以色列理工學(xué)院合作完成《DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion 的Enhancer》,研究的就是自動(dòng)駕駛和機(jī)器人仿真中的真實(shí)感增強(qiáng)問(wèn)題。

      現(xiàn)在很多仿真環(huán)境可以通過(guò) NeRF、3D Gaussian Splatting 等神經(jīng)重建方法從真實(shí)數(shù)據(jù)中恢復(fù)出來(lái),但在新視角渲染、稀疏視角外推,或插入其他場(chǎng)景的動(dòng)態(tài)物體時(shí),常常會(huì)出現(xiàn)幾何偽影、缺失區(qū)域、光照不一致、陰影缺失和前景背景風(fēng)格不統(tǒng)一等問(wèn)題。

      DiffusionHarmonizer 的核心思路是把神經(jīng)重建渲染出的不完美畫面,在線增強(qiáng)成更真實(shí)、更連貫的仿真視頻幀。它不是重新構(gòu)建整個(gè) 3D 場(chǎng)景,而是在渲染后加入生成式增強(qiáng)模塊,用來(lái)修復(fù)新視角偽影、協(xié)調(diào)前景和背景外觀,并為插入物體生成更合理的陰影。

      模型由預(yù)訓(xùn)練的多步圖像擴(kuò)散模型改造成 single-step temporally-conditioned enhancer,只需一步推理就能增強(qiáng)當(dāng)前幀,同時(shí)利用前幾幀作為時(shí)間上下文,保證在線仿真中的時(shí)間穩(wěn)定性。


      論文地址:https://arxiv.org/pdf/2602.24096v2

      它的亮點(diǎn)在于,既保留擴(kuò)散模型的真實(shí)感生成能力,又盡量滿足在線仿真的效率要求。普通視頻擴(kuò)散模型計(jì)算成本太高,普通圖像增強(qiáng)模型又容易造成幀間閃爍;因此論文把多步擴(kuò)散模型改造成確定性的單步增強(qiáng)器,并加入時(shí)間條件。

      同時(shí),作者還設(shè)計(jì)了專門的數(shù)據(jù)構(gòu)建流程,合成外觀協(xié)調(diào)、偽影修復(fù)、重光照、陰影生成和物體重新插入的數(shù)據(jù),讓模型學(xué)會(huì)處理顏色不一致、重建錯(cuò)誤和光照不真實(shí)等問(wèn)題。

      整體來(lái)看,這篇論文把神經(jīng)重建仿真從“能渲染出場(chǎng)景”,推進(jìn)到“能生成更接近真實(shí)世界的在線仿真畫面”。它的價(jià)值不只是讓畫面更好看,而是讓基于真實(shí)數(shù)據(jù)重建的仿真環(huán)境更可信、更穩(wěn)定,也更適合大規(guī)模訓(xùn)練和評(píng)測(cè)。


      而當(dāng)仿真環(huán)境變得更真實(shí)、更可控之后,訓(xùn)練出來(lái)的駕駛模型是否能在閉環(huán)中穩(wěn)定執(zhí)行,又取決于專家示范和學(xué)生模型之間是否真正對(duì)齊。由德國(guó)圖賓根大學(xué)及圖賓根人工智能中心、英偉達(dá)研究院以及德國(guó)“人工智能科學(xué)”卓越集群合作完成的《LEAD: Minimizing Learner-Expert Asymmetry in End-to-End Driving》研究就的是端到端自動(dòng)駕駛中的模仿學(xué)習(xí)問(wèn)題。

      雖然仿真器可以生成大量駕駛數(shù)據(jù),但用專家軌跡訓(xùn)練出的學(xué)生模型,在閉環(huán)駕駛時(shí)仍然容易不穩(wěn)定,核心原因在于專家和學(xué)生之間存在明顯的信息不對(duì)稱。專家往往擁有更強(qiáng)的“上帝視角”,而學(xué)生模型在測(cè)試時(shí)只能依賴車載傳感器輸入和有限導(dǎo)航信息,因此很難可靠模仿專家行為。

      LEAD 的重點(diǎn)不是單純換一個(gè)更大的模型,而是系統(tǒng)性地縮小 learner-expert asymmetry。作者把這種差距分成兩類:一類是 state alignment,即專家看到的信息和學(xué)生實(shí)際能看到的信息不一致;另一類是 intent alignment,即學(xué)生在測(cè)試時(shí)只拿到一個(gè)目標(biāo)點(diǎn),導(dǎo)航意圖過(guò)于模糊。


      論文地址:https://arxiv.org/pdf/2512.20563v2

      針對(duì)這些問(wèn)題,論文對(duì)專家生成方式、學(xué)生輸入、導(dǎo)航目標(biāo)表達(dá)和訓(xùn)練數(shù)據(jù)監(jiān)督進(jìn)行了修改,讓學(xué)生學(xué)到的駕駛策略更接近自己真實(shí)測(cè)試時(shí)能執(zhí)行的行為。

      這項(xiàng)研究它沒有把端到端自動(dòng)駕駛的失敗簡(jiǎn)單歸因于模型容量不足,而是指出了模仿學(xué)習(xí)中更根本的訓(xùn)練偏差:

      如果專家示范依賴學(xué)生看不到的信息,學(xué)生即使學(xué)得很像,也可能在閉環(huán)中犯錯(cuò)。通過(guò)減少可見性差異、不確定性差異和導(dǎo)航意圖差異,論文訓(xùn)練出的 TransFuser v6(TFv6)在多個(gè)公開 CARLA 閉環(huán) benchmark 上取得新的最好結(jié)果,例如在 Bench2Drive 上達(dá)到 95 DS,并在 Longest6 v2 和 Town13 上超過(guò)以往方法兩倍以上。

      整體來(lái)看,這篇論文把端到端自動(dòng)駕駛中的模仿學(xué)習(xí)問(wèn)題,從“如何讓學(xué)生更好地模仿專家”,推進(jìn)到“如何讓專家示范更適合學(xué)生真實(shí)可見、可執(zhí)行的條件”。

      此外,論文還將感知監(jiān)督整合進(jìn) sim-to-real 流程,并在 NAVSIM 和 Waymo Vision-Based End-to-End Driving benchmark 上帶來(lái)穩(wěn)定提升,說(shuō)明這種對(duì)齊思路也有助于真實(shí)世界數(shù)據(jù)下的端到端駕駛泛化。


      如果說(shuō) LEAD 關(guān)注專家與學(xué)生之間的信息對(duì)齊,那么《Spatial Retrieval Augmented Autonomous Driving》則進(jìn)一步把自動(dòng)駕駛的輸入來(lái)源從車載傳感器擴(kuò)展到外部空間記憶。

      論文由復(fù)旦大學(xué)可信具身智能研究院、上海交通大學(xué)、中國(guó)科學(xué)院空天信息創(chuàng)新研究院目標(biāo)認(rèn)知與應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室、中國(guó)科學(xué)技術(shù)大學(xué)共同提出,研究的是自動(dòng)駕駛中的一個(gè)新思路:現(xiàn)有自動(dòng)駕駛系統(tǒng)主要依賴車載攝像頭、激光雷達(dá)、IMU 等實(shí)時(shí)傳感器感知環(huán)境,但這種方式很容易受限于當(dāng)前視野。

      一旦遇到遮擋、夜晚、雨天或視距不足,模型就可能看不清道路結(jié)構(gòu)。人類駕駛員在這種情況下往往會(huì)憑借對(duì)道路布局的記憶繼續(xù)判斷,而這篇論文希望給自動(dòng)駕駛模型也加入類似的“空間記憶”能力。

      論文提出的核心范式叫 spatial retrieval,也就是根據(jù)車輛當(dāng)前位置檢索離線地理圖像,比如衛(wèi)星圖、街景圖或已有自動(dòng)駕駛數(shù)據(jù)集中的地理圖像,并把它們作為額外輸入提供給自動(dòng)駕駛模型。


      論文地址:https://arxiv.org/pdf/2512.06865

      這些信息不需要增加新的車載傳感器,可以從離線地圖緩存或公開地圖 API 中獲得,因此更像是一種可插拔的外部空間先驗(yàn)。論文還擴(kuò)展了 nuScenes 數(shù)據(jù)集,通過(guò) Google Maps API 檢索地理圖像,并將這些圖像與自車軌跡對(duì)齊,形成 nuScenes-Geography 數(shù)據(jù),用來(lái)系統(tǒng)評(píng)估這種空間檢索范式。

      它的亮點(diǎn)在于,不是單純提升某一個(gè)自動(dòng)駕駛模塊,而是把地理檢索信息接入多個(gè)核心任務(wù)。論文圍繞 3D 目標(biāo)檢測(cè)、在線地圖構(gòu)建、占用預(yù)測(cè)、端到端規(guī)劃和生成式世界模型建立基線,并設(shè)計(jì)了可插拔的 Spatial Retrieval Adapter,用于把檢索到的地理圖像融合進(jìn)現(xiàn)有模型。

      同時(shí),論文還引入 Reliability Estimation,根據(jù)檢索信息本身的可靠性來(lái)自適應(yīng)決定該信多少、用多少,避免錯(cuò)誤或不匹配的地理信息干擾駕駛模型。

      從項(xiàng)目頁(yè)給出的結(jié)果來(lái)看,空間檢索信息在多個(gè)任務(wù)中都能帶來(lái)提升:在生成式世界模型中,加入地理圖像可以降低 FVD 和 FID,減少場(chǎng)景漂移并保持幾何一致性;在在線地圖構(gòu)建中,額外道路背景信息有助于恢復(fù)被遮擋的車道線;

      在占用預(yù)測(cè)中,地理先驗(yàn)尤其能提升靜態(tài)類別和地面區(qū)域的預(yù)測(cè);在端到端規(guī)劃中,地理先驗(yàn)可以補(bǔ)償遮擋或低光條件下的感知失敗,并在夜間復(fù)雜場(chǎng)景中把碰撞率從 0.55% 降到 0.48%。


      02


      從看見運(yùn)動(dòng)到學(xué)會(huì)行動(dòng)

      自動(dòng)駕駛系統(tǒng)需要理解動(dòng)態(tài)場(chǎng)景,而更基礎(chǔ)的視覺能力之一,是在視頻中穩(wěn)定追蹤點(diǎn)、物體和運(yùn)動(dòng)軌跡?!禖oWTracker: Tracking by Warping instead of Correlation》由牛津大學(xué)視覺幾何組和 Meta AI 共同提出。

      研究的是視頻中的 dense point tracking,也就是在一段視頻中追蹤任意像素點(diǎn)隨時(shí)間變化的軌跡。這個(gè)任務(wù)對(duì)視頻理解、機(jī)器人操作、光流估計(jì)等都很重要,但現(xiàn)有很多方法依賴 cost volume 做跨幀特征匹配,計(jì)算復(fù)雜度會(huì)隨著圖像分辨率呈平方級(jí)增長(zhǎng),因此在高分辨率、長(zhǎng)視頻和密集點(diǎn)追蹤場(chǎng)景中很難高效擴(kuò)展。

      CoWTracker 的核心思路是用 warping 替代傳統(tǒng)的 feature correlation / cost volume。模型不會(huì)在整張圖里暴力搜索大量候選匹配,而是先維護(hù)每個(gè)點(diǎn)當(dāng)前位置的估計(jì),再根據(jù)這個(gè)估計(jì)把目標(biāo)幀特征反向 warp 到查詢幀附近,然后由 spatio-temporal transformer 聯(lián)合更新軌跡、可見性和置信度。簡(jiǎn)單來(lái)說(shuō),它不是“到處找這個(gè)點(diǎn)在哪里”,而是“先猜一個(gè)位置,再反復(fù)把特征對(duì)齊并修正”。


      論文地址:https://arxiv.org/pdf/2602.04877v1

      它的亮點(diǎn)在于,把密集點(diǎn)追蹤做得更簡(jiǎn)單、更高效,也更容易擴(kuò)展到高分辨率視頻。CoWTracker 不需要顯式計(jì)算 cost volume,卻能通過(guò)空間注意力和時(shí)間注意力同時(shí)建模同一幀中不同點(diǎn)之間的關(guān)系,以及同一個(gè)點(diǎn)在長(zhǎng)時(shí)間序列中的運(yùn)動(dòng)變化。因此它可以處理長(zhǎng)距離運(yùn)動(dòng)、大視角變化、遮擋和重新出現(xiàn)等復(fù)雜情況,還能輸出每個(gè)點(diǎn)的軌跡、可見性和置信度。

      從結(jié)果來(lái)看,CoWTracker 在 TAP-Vid-DAVIS、TAP-Vid-Kinetics 和 RoboTAP 等密集點(diǎn)追蹤 benchmark 上表現(xiàn)很強(qiáng),項(xiàng)目頁(yè)給出的平均結(jié)果包括 Mean AJ 71.3、Mean δ_avg 81.8、Mean OA 93.3,高于 CoTracker 3 和 AllTracker 等方法。

      更有意思的是,同一個(gè)模型在不專門訓(xùn)練光流數(shù)據(jù)的情況下,也能在 Sintel、KITTI-2015 和 Spring 等光流 benchmark 上取得有競(jìng)爭(zhēng)力的結(jié)果,例如在 Sintel 和 KITTI 上的 EPE 分別達(dá)到 0.78 和 1.04。

      整體來(lái)看,這篇論文把密集點(diǎn)追蹤從依賴昂貴相關(guān)匹配,推進(jìn)到基于迭代 warping 和時(shí)空推理的統(tǒng)一框架,并說(shuō)明 dense tracking 和 optical flow 有機(jī)會(huì)用同一種架構(gòu)處理。


      從“追蹤運(yùn)動(dòng)”繼續(xù)往前走,就是讓模型根據(jù)視覺輸入直接做出動(dòng)作決策?!禢itroGen: An Open Foundation Model for Generalist Gaming Agents》由英偉達(dá)、斯坦福大學(xué)、加州理工學(xué)院、芝加哥大學(xué)和德克薩斯大學(xué)奧斯汀分校合作完成。

      論文研究的是面向游戲環(huán)境的通用智能體基礎(chǔ)模型,也就是讓一個(gè)模型能夠在不同類型、不同機(jī)制的游戲中,根據(jù)畫面觀察直接輸出游戲手柄動(dòng)作,而不是只針對(duì)某一個(gè)游戲單獨(dú)訓(xùn)練。

      作者認(rèn)為,具身智能長(zhǎng)期缺少像視覺和語(yǔ)言模型那樣的大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),強(qiáng)化學(xué)習(xí)雖然能在個(gè)別游戲中取得很強(qiáng)效果,但往往依賴專門模擬器和高成本訓(xùn)練;而現(xiàn)有行為克隆方法又受限于昂貴的人類示范數(shù)據(jù),很難擴(kuò)展到大量游戲。

      NitroGen 的核心思路是利用公開視頻中的游戲手柄 overlay 自動(dòng)恢復(fù)玩家操作,從而構(gòu)建大規(guī)?!耙曨l—?jiǎng)幼鳌睌?shù)據(jù)集。很多游戲視頻會(huì)在畫面角落實(shí)時(shí)顯示玩家按鍵和搖桿輸入,NitroGen 先定位并裁剪這些手柄區(qū)域,再用模型解析搖桿位置和按鍵狀態(tài),最終從公開游戲視頻中提取逐幀動(dòng)作標(biāo)簽。

      通過(guò)這種方式,作者整理出約 4 萬(wàn)小時(shí)、覆蓋 1000 多款游戲的數(shù)據(jù),并在此基礎(chǔ)上訓(xùn)練統(tǒng)一的 vision-action transformer,用畫面觀察預(yù)測(cè) gamepad actions。


      論文地址:https://arxiv.org/pdf/2601.02427v1

      它的亮點(diǎn)在于,把互聯(lián)網(wǎng)上原本只是“給人看的游戲視頻”轉(zhuǎn)化成了可用于訓(xùn)練智能體的動(dòng)作監(jiān)督數(shù)據(jù),從而繞開昂貴的人工采集和專門環(huán)境搭建。除了數(shù)據(jù)集,論文還構(gòu)建了一個(gè)多游戲評(píng)測(cè)環(huán)境,包含 10 款商業(yè)游戲中的 30 個(gè)任務(wù),覆蓋戰(zhàn)斗、導(dǎo)航、決策、平臺(tái)跳躍、探索和解謎等能力,并通過(guò)統(tǒng)一的 Gymnasium API 封裝不同游戲,讓模型能在更真實(shí)的跨游戲環(huán)境中測(cè)試泛化能力。

      從效果來(lái)看,NitroGen 在 3D 動(dòng)作游戲戰(zhàn)斗、2D 平臺(tái)跳躍高精度控制、程序生成世界探索等任務(wù)中都表現(xiàn)出較強(qiáng)能力,并且能夠遷移到未見過(guò)的新游戲。論文中提到,在相同數(shù)據(jù)和計(jì)算預(yù)算下,用 NitroGen 預(yù)訓(xùn)練權(quán)重進(jìn)行微調(diào),相比從零訓(xùn)練的模型,任務(wù)成功率最高可獲得 52% 的相對(duì)提升。作者還開源了數(shù)據(jù)集、評(píng)測(cè)套件和模型權(quán)重。

      整體來(lái)看,這篇論文把游戲智能體從“針對(duì)單個(gè)游戲訓(xùn)練專用策略”,推進(jìn)到“利用互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù)預(yù)訓(xùn)練通用視覺—?jiǎng)幼骰A(chǔ)模型”。它的意義不只在游戲本身,也在于為具身智能提供了一條新的數(shù)據(jù)路徑:通過(guò)公開視頻恢復(fù)動(dòng)作監(jiān)督,讓模型從大量人類玩家行為中學(xué)習(xí)跨環(huán)境、跨任務(wù)的操作能力。


      03


      從單體控制到團(tuán)隊(duì)行為學(xué)習(xí)

      如果說(shuō) NitroGen 關(guān)注的是一個(gè)智能體如何從視覺中學(xué)會(huì)行動(dòng),那么在人形控制和機(jī)器人協(xié)作中,更復(fù)雜的問(wèn)題是多個(gè)智能體如何像團(tuán)隊(duì)一樣協(xié)同完成任務(wù)。

      由 Garena、Sea AI Lab,以及新加坡國(guó)立大學(xué)共同提出的《TeamHOI: Learning a Unified Policy for Cooperative Human-Object Interactions with Any Team Size》研究的就是多個(gè)人形智能體之間的協(xié)作式人—物交互問(wèn)題,也就是讓多個(gè)虛擬人或機(jī)器人一起搬運(yùn)、抬起、移動(dòng)物體,并且能夠根據(jù)隊(duì)伍人數(shù)和物體形狀自動(dòng)調(diào)整協(xié)作方式。

      現(xiàn)有物理人形控制已經(jīng)能完成不少單人動(dòng)作和人—物交互任務(wù),但一旦進(jìn)入多人協(xié)作場(chǎng)景,就會(huì)遇到兩個(gè)難點(diǎn):一是很多策略只能適配固定人數(shù),難以擴(kuò)展到不同團(tuán)隊(duì)規(guī)模;二是高質(zhì)量多人協(xié)作動(dòng)作數(shù)據(jù)很少,模型很難學(xué)到自然、多樣且物理合理的協(xié)同行為。


      論文地址:https://arxiv.org/pdf/2603.07988

      TeamHOI 的核心思路是訓(xùn)練一個(gè)統(tǒng)一的去中心化策略,讓每個(gè)智能體基于自己的局部觀測(cè)獨(dú)立行動(dòng),但又能通過(guò)同一個(gè)策略網(wǎng)絡(luò)感知隊(duì)友狀態(tài)并形成協(xié)作。

      具體來(lái)說(shuō),TeamHOI 使用 Transformer-based policy network,把其他智能體的狀態(tài)表示成 teammate tokens,讓策略可以適配不同數(shù)量的隊(duì)友,而不是像傳統(tǒng) MLP 那樣被固定輸入維度限制。這樣,同一個(gè)策略就可以在 2 到 8 個(gè)智能體,甚至更多未見過(guò)的隊(duì)伍規(guī)模中復(fù)用,而不需要重新訓(xùn)練或微調(diào)。

      它的另一個(gè)關(guān)鍵設(shè)計(jì)是 masked Adversarial Motion Prior(masked AMP)。由于多人協(xié)作動(dòng)作數(shù)據(jù)稀缺,論文仍然使用單人參考動(dòng)作來(lái)約束運(yùn)動(dòng)自然性,但會(huì)在 AMP 監(jiān)督中遮掉與物體交互的身體部位,讓手部、接觸和搬運(yùn)動(dòng)作更多由任務(wù)獎(jiǎng)勵(lì)來(lái)引導(dǎo)。

      這樣模型既能保持整體動(dòng)作自然,又不會(huì)被單人動(dòng)作數(shù)據(jù)過(guò)度限制,可以從單人參考動(dòng)作中衍生出更多樣的多人協(xié)作行為。論文還設(shè)計(jì)了不依賴隊(duì)伍人數(shù)和物體形狀的 formation reward,引導(dǎo)智能體圍繞物體形成穩(wěn)定隊(duì)形,從而更平穩(wěn)地抬起和搬運(yùn)桌子。

      這篇論文的亮點(diǎn)在于,它把多人協(xié)作從“固定人數(shù)、固定策略”的控制問(wèn)題,推進(jìn)到“任意團(tuán)隊(duì)規(guī)模下的統(tǒng)一協(xié)作策略”。在桌子搬運(yùn)任務(wù)中,TeamHOI 能讓 2 到 8 個(gè)智能體協(xié)同搬運(yùn)方形、長(zhǎng)方形或圓形桌子,并在普通重量設(shè)置下保持很高成功率。

      主實(shí)驗(yàn)中,TeamHOI 在 2 人、4 人和 8 人設(shè)置下分別達(dá)到 99.1%、99.2% 和 97.5% 的成功率,而在 5 倍重量的重載設(shè)置下,8 人團(tuán)隊(duì)仍能達(dá)到 81.1% 成功率。相比之下,基線方法往往只能在訓(xùn)練時(shí)對(duì)應(yīng)的人數(shù)上表現(xiàn)較好,一旦隊(duì)伍規(guī)模變化就容易失敗或不穩(wěn)定。


      TeamHOI 展示的是具體協(xié)作任務(wù)中的策略學(xué)習(xí),而要讓多智能體協(xié)作研究進(jìn)一步發(fā)展,還需要更系統(tǒng)的任務(wù)集合、離線數(shù)據(jù)和統(tǒng)一評(píng)測(cè)標(biāo)準(zhǔn)。

      《MangoBench: A Benchmark for Multi-Agent Goal-Conditioned Offline Reinforcement Learning》由中山大學(xué)和香港理工大學(xué)共同提出,研究的是多智能體離線強(qiáng)化學(xué)習(xí)中的一個(gè)關(guān)鍵問(wèn)題:

      多個(gè)智能體如何在不能在線試錯(cuò)、只能使用已有數(shù)據(jù)的情況下,學(xué)會(huì)根據(jù)不同目標(biāo)進(jìn)行協(xié)作?,F(xiàn)有離線多智能體強(qiáng)化學(xué)習(xí)方法往往依賴人工設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù),但這類獎(jiǎng)勵(lì)函數(shù)對(duì)細(xì)微變化非常敏感,也很難讓策略泛化到新目標(biāo);而單智能體中的目標(biāo)條件離線強(qiáng)化學(xué)習(xí)雖然已經(jīng)能緩解這個(gè)問(wèn)題,但在多智能體協(xié)作場(chǎng)景中還缺少系統(tǒng)框架和統(tǒng)一評(píng)測(cè)基準(zhǔn)。


      論文地址:https://wendyeewang.github.io/MangoBench

      MangoBench 是面向 goal-conditioned offline MARL 的第一個(gè)全協(xié)作、多目標(biāo)基準(zhǔn)。它覆蓋 3 個(gè)環(huán)境、4 類智能體和 47 個(gè)協(xié)作任務(wù),包括聯(lián)合控制的運(yùn)動(dòng)任務(wù),以及同步和異步的雙臂操作任務(wù)。

      論文還把目標(biāo)條件學(xué)習(xí)擴(kuò)展到多智能體場(chǎng)景中,同時(shí)支持完全去中心化訓(xùn)練和 CTDE 兩種范式;在去中心化設(shè)置下,系統(tǒng)會(huì)把全局目標(biāo)拆分成各個(gè)智能體可使用的局部目標(biāo),而在 CTDE 設(shè)置下,則把個(gè)體目標(biāo)整合到統(tǒng)一全局目標(biāo)中進(jìn)行更強(qiáng)的價(jià)值學(xué)習(xí),但執(zhí)行時(shí)每個(gè)智能體仍根據(jù)自己的局部目標(biāo)行動(dòng)。

      它的亮點(diǎn)在于,不只是提供一個(gè)任務(wù)集合,而是把“目標(biāo)條件、多智能體、離線數(shù)據(jù)、稀疏獎(jiǎng)勵(lì)和多目標(biāo)評(píng)測(cè)”統(tǒng)一到同一個(gè)框架中。MangoBench 包含 45 個(gè) locomotion 任務(wù)和 2 個(gè) manipulation 任務(wù):在運(yùn)動(dòng)任務(wù)中,多個(gè)智能體分別控制同一個(gè)機(jī)器人身體的不同關(guān)節(jié),共同完成 AntMaze、AntSoccer 等目標(biāo)。

      在操作任務(wù)中,兩個(gè)機(jī)械臂需要完成 lift-barrier 和 place-food 等協(xié)作任務(wù),其中既有同步協(xié)作,也有異步協(xié)作。論文還基于開放數(shù)據(jù)集轉(zhuǎn)換出適合目標(biāo)條件離線多智能體學(xué)習(xí)的數(shù)據(jù)格式,并為每個(gè)任務(wù)設(shè)計(jì)多目標(biāo)評(píng)測(cè),避免只在單一目標(biāo)上評(píng)估導(dǎo)致結(jié)果偏差。

      為了讓這個(gè)基準(zhǔn)真正可用,論文還提出了 6 個(gè) baseline 算法,覆蓋完全去中心化和 CTDE 兩種訓(xùn)練范式,包括 GCMBC、ICRL、IHIQL、HIQL-CTDE、GCOMIGA 和 GCOMAR。

      這些方法分別用于評(píng)估行為克隆、對(duì)比價(jià)值學(xué)習(xí)、層級(jí)策略、目標(biāo)重標(biāo)注和離線多智能體方法在稀疏獎(jiǎng)勵(lì)、多目標(biāo)泛化和協(xié)作控制中的表現(xiàn)。實(shí)驗(yàn)表明,這些 baseline 在稀疏獎(jiǎng)勵(lì)下已經(jīng)能展現(xiàn)一定的多目標(biāo)泛化能力,但沒有一種方法可以在所有任務(wù)中穩(wěn)定占優(yōu),說(shuō)明 goal-conditioned offline MARL 仍然是一個(gè)復(fù)雜且遠(yuǎn)未解決的問(wèn)題。


      這次去 CVPR 現(xiàn)場(chǎng),一定不要錯(cuò)過(guò)

      【認(rèn)識(shí)大牛+賺外快】的機(jī)會(huì)

      需要你做什么:把你最關(guān)注的10個(gè)大會(huì)報(bào)告,每頁(yè)P(yáng)PT都拍下來(lái)

      你能獲得什么?

      認(rèn)識(shí)大牛:你將可以進(jìn)入CVPR名師博士社群;

      錢多活少:提供豐厚獎(jiǎng)金,任務(wù)量精簡(jiǎn);

      聽會(huì)自由:你的行程你做主,順手就把外快賺。拍下你最感興趣的10個(gè)報(bào)告PPT即可。

      如果你即將前往CVPR,想邊聽會(huì)邊賺錢,還能順便為AI學(xué)術(shù)社區(qū)做貢獻(xiàn)、認(rèn)識(shí)更多大牛,歡迎聯(lián)系我們:[添加微信號(hào):MS_Yahei]

      【限額5位,先到先得】

      未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

      公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點(diǎn)推薦
      曹操撩寡婦時(shí)說(shuō)的金句,如今成了約會(huì)開場(chǎng)白,男人經(jīng)常掛在嘴邊

      曹操撩寡婦時(shí)說(shuō)的金句,如今成了約會(huì)開場(chǎng)白,男人經(jīng)常掛在嘴邊

      掠影后有感
      2026-05-11 11:31:38
      溫莎血脈基因優(yōu)良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭(zhēng)光

      溫莎血脈基因優(yōu)良!哈里夫婦帶一雙兒女出游,阿奇兄妹給梅根爭(zhēng)光

      楓塵余往逝
      2026-05-13 14:45:33
      突發(fā)!南京又一機(jī)構(gòu)跑路!

      突發(fā)!南京又一機(jī)構(gòu)跑路!

      南京擇校
      2026-05-14 20:12:40
      合川呆呆再登熱搜!母親節(jié)殺雞宴翻車,網(wǎng)友:套路都被玩爛了

      合川呆呆再登熱搜!母親節(jié)殺雞宴翻車,網(wǎng)友:套路都被玩爛了

      童叔不飆車
      2026-05-14 14:29:11
      馬斯克:每年休息兩三天,試過(guò)睡不到6小時(shí)結(jié)果腦子很痛效率很低

      馬斯克:每年休息兩三天,試過(guò)睡不到6小時(shí)結(jié)果腦子很痛效率很低

      頂級(jí)大佬思維
      2026-05-09 14:23:20
      我國(guó)都有哪些常見毒蛇?哪種蛇最毒?盤點(diǎn)我國(guó)十大毒蛇,第一名致死率超65%

      我國(guó)都有哪些常見毒蛇?哪種蛇最毒?盤點(diǎn)我國(guó)十大毒蛇,第一名致死率超65%

      農(nóng)夫也瘋狂
      2026-05-13 11:40:43
      千萬(wàn)網(wǎng)紅董赤赤賬號(hào)僅剩9000元,欠54萬(wàn)!更背后誰(shuí)拿走了網(wǎng)紅的錢

      千萬(wàn)網(wǎng)紅董赤赤賬號(hào)僅剩9000元,欠54萬(wàn)!更背后誰(shuí)拿走了網(wǎng)紅的錢

      眼界縱橫
      2026-05-14 14:50:49
      張柏芝現(xiàn)身 4S 店,為剛考取駕照的大兒子 Lucas 提國(guó)產(chǎn)新車

      張柏芝現(xiàn)身 4S 店,為剛考取駕照的大兒子 Lucas 提國(guó)產(chǎn)新車

      老吳教育課堂
      2026-05-14 17:43:56
      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個(gè)重要承諾

      沒給日本的,中方都給了特朗普,除了21響禮炮,還有一個(gè)重要承諾

      知法而形
      2026-05-14 20:05:30
      女足亞洲杯太殘酷了:隨著中國(guó)女足2-4,4大勁旅已無(wú)緣爭(zhēng)冠

      女足亞洲杯太殘酷了:隨著中國(guó)女足2-4,4大勁旅已無(wú)緣爭(zhēng)冠

      俯身沖頂
      2026-05-14 21:23:59
      廣廈半決賽主場(chǎng)vs深圳票價(jià):最低100元,最高1500元

      廣廈半決賽主場(chǎng)vs深圳票價(jià):最低100元,最高1500元

      懂球帝
      2026-05-14 15:16:18
      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      正式棄用!斷崖式下滑!頂薪合同正式泡湯

      籃球教學(xué)論壇
      2026-05-14 19:27:46
      廣東松源一在建橋梁因暴雨垮塌?當(dāng)?shù)兀簾o(wú)人員傷亡,水流沖擊所致,只是一個(gè)架子

      廣東松源一在建橋梁因暴雨垮塌?當(dāng)?shù)兀簾o(wú)人員傷亡,水流沖擊所致,只是一個(gè)架子

      瀟湘晨報(bào)
      2026-05-14 17:12:18
      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認(rèn)知

      “給兒子吃得大腦缺氧了!”一頓全碳水早餐,暴露了寶媽的低認(rèn)知

      妍妍教育日記
      2026-05-14 13:30:26
      買車半年維修9次!蔚來(lái)車主:不敢開了,要求退車

      買車半年維修9次!蔚來(lái)車主:不敢開了,要求退車

      深圳晚報(bào)
      2026-05-14 08:45:16
      杜鋒下課?廣東男籃做法有深意,遠(yuǎn)超外界猜測(cè),徐杰或成交易籌碼

      杜鋒下課?廣東男籃做法有深意,遠(yuǎn)超外界猜測(cè),徐杰或成交易籌碼

      萌蘭聊個(gè)球
      2026-05-13 16:32:05
      很多男人已經(jīng)養(yǎng)不起家了,無(wú)數(shù)普通頂梁柱被壓垮!

      很多男人已經(jīng)養(yǎng)不起家了,無(wú)數(shù)普通頂梁柱被壓垮!

      黯泉
      2026-05-14 10:57:59
      爽快!中美會(huì)晤提出的第一個(gè)要求,中方開場(chǎng)白定調(diào),太高明了

      爽快!中美會(huì)晤提出的第一個(gè)要求,中方開場(chǎng)白定調(diào),太高明了

      愛看劇的阿峰
      2026-05-14 18:59:00
      隨著騎士3-2領(lǐng)先活塞,馬刺3-2森林狼,NBA季后賽最終4強(qiáng)基本出爐

      隨著騎士3-2領(lǐng)先活塞,馬刺3-2森林狼,NBA季后賽最終4強(qiáng)基本出爐

      球場(chǎng)沒跑道
      2026-05-14 11:16:03
      美國(guó)眾議院議員強(qiáng)行將援助烏克蘭的法案賦予投票

      美國(guó)眾議院議員強(qiáng)行將援助烏克蘭的法案賦予投票

      山河路口
      2026-05-14 12:33:23
      2026-05-14 22:03:00
      AI科技評(píng)論 incentive-icons
      AI科技評(píng)論
      點(diǎn)評(píng)學(xué)術(shù),服務(wù)AI
      7274文章數(shù) 20751關(guān)注度
      往期回顧 全部

      科技要聞

      馬斯克說(shuō)會(huì)談很順利 黃仁勛點(diǎn)贊 庫(kù)克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭(zhēng)議抽象天王山,和季后賽最穩(wěn)定中鋒

      娛樂(lè)要聞

      何九華官宣當(dāng)爸!全程不提孩子?jì)?/h3>

      財(cái)經(jīng)要聞

      李強(qiáng)會(huì)見美國(guó)工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調(diào)光天幕 啟境GT7內(nèi)飾發(fā)布

      態(tài)度原創(chuàng)

      房產(chǎn)
      教育
      藝術(shù)
      手機(jī)
      親子

      房產(chǎn)要聞

      海南樓市新政要出!擬調(diào)公積金貸款額度,最高可貸168萬(wàn)!

      教育要聞

      南京秦淮、雨花臺(tái)、玄武、建鄴2026高考考點(diǎn)公布!

      藝術(shù)要聞

      美國(guó)務(wù)卿魯比奧點(diǎn)贊中式美學(xué),實(shí)景令人驚嘆!

      手機(jī)要聞

      vivo S60預(yù)熱開啟,超大面積一體冷雕玻璃

      親子要聞

      監(jiān)控下的幼兒園小可愛,主動(dòng)幫老師搬桌開門,邏輯超在線

      無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: jizzjizz韩国| 视频一区二区三区中文字幕狠狠 | 国产XXXX| 中文亚洲成A人片在线观看| 色99999| 亚洲日本色| 国产情侣激情在线对白| 久久精品国产字幕高潮| 免费jizz| 亚洲中文字幕A| 自拍国内| 国产一区二区四区不卡| 国产熟睡乱子伦视频观看看| 成人性生交大片免费看中文 | 国产成人亚洲日韩欧美婷婷亚片| 95在线一区| 国产精品久久久久久亚洲毛片| 婷婷综合久久中文字幕| 久久久久久久久久久久中文字幕 | 四虎影成人精品a片| 免费无码又爽又刺激高潮的视频网站| 亚洲午夜免费福利视频| 日本无遮挡吸乳视频| 久久精品国产国产精品四凭| 欧美成人午夜在线观看视频| 无遮无挡爽爽免费视频| 亚洲国语无码| 艳妇乳肉豪妇荡乳av无码福利| 少妇人妻偷人精品无码视频新浪 | 亚洲精品v欧美精品动漫精品| 中文字幕久久久| 国产综合久久99久久| 成年女人黄小视频| 亚洲5555| 中文字幕在线播放| 国产精品一区二区高清在线| 免费毛片全部不收费的| 熟妇人妻不卡中文字幕| 久久av高潮av喷水av无码| 婷婷久久五月天| 久久精品人妻|