![]()
近日,清華大學(xué)智能產(chǎn)業(yè)研究院(AIR)DISCOVER Lab 聯(lián)合謀先飛技術(shù)、原力靈機(jī)、求之科技和地瓜機(jī)器人,提出了新一代高通量視覺高保真仿真器 GS-Playground。
該成果已被機(jī)器人領(lǐng)域國(guó)際頂級(jí)學(xué)術(shù)會(huì)議 RSS 2026(Robotics: Science and Systems)錄用,標(biāo)志著國(guó)內(nèi)具身智能仿真基礎(chǔ)設(shè)施在視覺保真度與訓(xùn)練吞吐量?jī)蓚€(gè)維度上同時(shí)取得了國(guó)際領(lǐng)先水平的突破。
![]()
- 論文鏈接:http://arxiv.org/abs/2604.25459
- 主頁(yè)地址:https://gsplayground.github.io
- 倉(cāng)庫(kù)地址:https://github.com/discoverse-dev/gs_playground
為什么需要 GS-Playground?三大核心痛點(diǎn)
具身 AI 研究正在經(jīng)歷從「本體感知」到「視覺感知」的范式轉(zhuǎn)移。讓機(jī)器人像人一樣「用眼睛看世界」來(lái)學(xué)習(xí)決策,是學(xué)界公認(rèn)的下一代技術(shù)路線。然而,現(xiàn)有仿真器在服務(wù)這一目標(biāo)時(shí)面臨三重瓶頸:
第一,渲染開銷過(guò)于高昂。當(dāng)前主流的大規(guī)模并行仿真器(如 Isaac Lab、ManiSkill、Genesis 等)在物理仿真吞吐量上表現(xiàn)優(yōu)異,但一旦接入高分辨率的逼真渲染管線,GPU 顯存就會(huì)被物理仿真與渲染任務(wù)爭(zhēng)搶殆盡,頻繁觸發(fā)顯存溢出(OOM),迫使研究者在畫面質(zhì)量和訓(xùn)練規(guī)模之間做出痛苦取舍。
第二,仿真資產(chǎn)制作極度依賴人工。構(gòu)建一個(gè)同時(shí)滿足高保真物理和高保真視覺的仿真場(chǎng)景,通常需要大量美術(shù)建模和工程調(diào)試。3D 重建技術(shù)雖已成熟,但將其輸出轉(zhuǎn)化為「仿真可用」的數(shù)字孿生,依然是一個(gè)勞動(dòng)密集的過(guò)程。
第三,Sim2Real 遷移鴻溝顯著。由于仿真畫面與真實(shí)世界在視覺和物理層面均存在差距,訓(xùn)練出的策略往往難以直接部署到真實(shí)機(jī)器人上,需要大量的視覺隨機(jī)化和手工微調(diào),進(jìn)一步推高了計(jì)算成本和工程復(fù)雜度。
GS-Playground 的設(shè)計(jì)目標(biāo)正是從根本上打通這三重瓶頸 ——讓照片級(jí)視覺反饋的計(jì)算成本,從「強(qiáng)化學(xué)習(xí)訓(xùn)練的核心瓶頸」大幅度降低至「可規(guī)模化的程度」。
核心架構(gòu):物理引擎 × 批量渲染 × 自動(dòng)化資產(chǎn)流水線
![]()
GS-Playground 架構(gòu)圖
GS-Playground 并非對(duì)現(xiàn)有仿真器的功能疊加,而是從物理求解器、渲染后端到資產(chǎn)制作管線的全棧重新設(shè)計(jì)。其系統(tǒng)架構(gòu)由三大核心層組成:
1. 自研高性能并行物理引擎
GS-Playground 采用了速度 - 沖量公式與嚴(yán)格互補(bǔ)約束的技術(shù)路線,基于國(guó)產(chǎn)自研跨平臺(tái)(Windows/Linux/macOS)并行物理引擎,同時(shí)支持 CPU 與 GPU 后端。
與業(yè)界主流方案(PhysX、MuJoCo、Taichi)不同,該引擎以犧牲梯度平滑性為代價(jià)換取了幾何精度上的顯著優(yōu)勢(shì)—— 能夠精確模擬剛體的完美靜態(tài)平衡,并支持大時(shí)間步長(zhǎng)仿真(dt=10ms)而不發(fā)散,特別適合需要精確接觸建模的操作任務(wù)。
在工程層面,團(tuán)隊(duì)實(shí)現(xiàn)了兩項(xiàng)關(guān)鍵優(yōu)化:約束島并行化(將約束圖動(dòng)態(tài)分解為獨(dú)立子問(wèn)題分發(fā)到多核 CPU 并行求解)和時(shí)間相干熱啟動(dòng)(跨幀復(fù)用上一步?jīng)_量將 PGS 迭代次數(shù)從 50 + 降至不足 10 次)。在高約束密度場(chǎng)景下(50 個(gè) 27 自由度人形機(jī)器人并行),GS-Playground 以 1,015 FPS 的吞吐量運(yùn)行,比 MuJoCo 快 32 倍,比 GPU 端 MjWarp 快約 600 倍。
在接觸穩(wěn)定性方面,團(tuán)隊(duì)通過(guò)牛頓擺(硬接觸與動(dòng)量守恒測(cè)試)、Boston Dynamics Spot 大步長(zhǎng)穩(wěn)定性測(cè)試、以及密集貨架多體交互實(shí)驗(yàn),系統(tǒng)驗(yàn)證了引擎在高密度接觸圖下的優(yōu)越穩(wěn)定性。
在抓握魯棒性的「搖晃測(cè)試」中,GS-Playground 的 CPU 后端在所有物體幾何形狀和時(shí)間步長(zhǎng)配置下均實(shí)現(xiàn)了100% 的成功率(90/90),而 MuJoCo 的多個(gè)變體(Euler、Implicit、Implicit+Noslip)成功率幾乎為零,Isaac Sim 和 Genesis 的成功率也僅為 67%。
2. 高效批量 3DGS 渲染引擎
這是 GS-Playground 在渲染側(cè)的核心技術(shù)創(chuàng)新。平臺(tái)選擇了 3D 高斯?jié)姙R(3D Gaussian Splatting, 3DGS)作為渲染表示,而非傳統(tǒng)的光線追蹤或光柵化,并圍繞其構(gòu)建了一整套為吞吐量和顯存效率優(yōu)化的批量渲染后端。
核心工程設(shè)計(jì)包含三個(gè)關(guān)鍵模塊:
- 高效點(diǎn)剪枝策略:保留約 30% 的高斯點(diǎn),PSNR 損失不足 0.05dB,對(duì)視覺運(yùn)動(dòng)策略幾乎無(wú)感知影響;動(dòng)態(tài)物體和機(jī)器人本體可進(jìn)一步壓縮至僅保留 10%,從根本上緩解了大規(guī)模并行訓(xùn)練中渲染與策略計(jì)算爭(zhēng)搶顯存的核心痛點(diǎn)。
- 剛體鏈高斯運(yùn)動(dòng)學(xué)(RLGK):將數(shù)百萬(wàn)高斯點(diǎn)綁定到物理引擎中的低維剛體狀態(tài),通過(guò) GPU 批量向量操作在亞毫秒內(nèi)完成同步,實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景的「零開銷」視覺更新。
- 單模板批量廣播:GPU 顯存中只存一份場(chǎng)景模板,跨最多 2048 個(gè)并行環(huán)境進(jìn)行廣播,大幅降低顯存帶寬壓力。
最終實(shí)測(cè)結(jié)果令人矚目:在 RTX 4090 單卡上,以 640×480 分辨率渲染 2048 個(gè)并行場(chǎng)景,總吞吐量突破 10,000 FPS。對(duì)比 Isaac Sim 的光線追蹤渲染器,GS-Playground 在所有測(cè)試分辨率和多種 GPU 架構(gòu)(RTX 4090、RTX 6000 Ada、A100)上均保持大幅領(lǐng)先,而 Isaac Sim 在較高分辨率下頻繁出現(xiàn)顯存溢出。
![]()
GS-Playground 與 Isaac Sim 光線追蹤渲染器在不同分辨率下的渲染吞吐量對(duì)比
3. 自動(dòng)化 Real2Sim 資產(chǎn)流水線
GS-Playground 還提出了一套完全自動(dòng)化的「Image-to-Physics」流水線,解決仿真資產(chǎn)制作的「最后一公里」問(wèn)題。該流水線僅需輸入一張 RGB 圖像,即可輸出仿真就緒的完整數(shù)字孿生場(chǎng)景:
RGB 圖像 → Grounding-DINO(開放詞匯檢測(cè))→ SAM1/SAM2(實(shí)例分割)+ 迭代掩碼擴(kuò)張 → LaMa(背景修復(fù))→ AnySplat(場(chǎng)景級(jí) 3DGS 重建)+ SAM-3D(物體級(jí) 3DGS 與 Mesh 重建)→ 深度對(duì)齊 + 尺度校正 + Speedy-Splat 剪枝 → 輸出完整仿真資產(chǎn)
![]()
視頻鏈接:https://mp.weixin.qq.com/s/rguk3kNlH7eYOHCfiIoelg
單張圖像端到端處理時(shí)間約 5 分鐘。基于 Bridge-v2 數(shù)據(jù)集,團(tuán)隊(duì)已產(chǎn)出配套的Bridge-GS 數(shù)據(jù)集,為每個(gè)場(chǎng)景補(bǔ)充了 3DGS 表示、物體 Mesh、6D 位姿和相機(jī)參數(shù),驗(yàn)證了流水線的批量生產(chǎn)能力。
全任務(wù)覆蓋:操作、導(dǎo)航、行走的 Sim2Real 驗(yàn)證
GS-Playground 提供了完整的多模態(tài)傳感器棧,包括 RGB 相機(jī)、深度相機(jī)、三種類型的 LiDAR(旋轉(zhuǎn)式、固態(tài)、非重復(fù)掃描)、力 / 接觸傳感器及地形感知掃描,是當(dāng)前唯一基于 3DGS 表示的并行 LiDAR 仿真器。在 API 層面,GS-Playground 兼容 MuJoCo MJCF 格式的完整子集,使現(xiàn)有 MuJoCo 項(xiàng)目可低摩擦遷移。
團(tuán)隊(duì)在三大類具身任務(wù)上系統(tǒng)驗(yàn)證了平臺(tái)的 Sim2Real 遷移能力:
- 四足行走(Unitree Go2):利用 1,024 個(gè)并行環(huán)境,策略在 10 分鐘內(nèi)收斂,成功部署至真機(jī)實(shí)現(xiàn)速度跟蹤;
- 人形行走(Unitree G1):利用 2,048 個(gè)并行環(huán)境和全碰撞流形,23 自由度人形策略在約 6 小時(shí)內(nèi)收斂;
- 視覺抓取(Airbot Play 機(jī)械臂):直接從 RGB 圖像學(xué)習(xí)端到端 6 自由度關(guān)節(jié)控制策略,在未經(jīng)任何簡(jiǎn)化的真實(shí)場(chǎng)景中實(shí)現(xiàn)了 90% 的零微調(diào)成功率 —— 作為對(duì)照,使用 MuJoCo、ManiSkill3 和 Isaac Lab 訓(xùn)練的策略在真實(shí)世界中的成功率均為 0%;
- 視覺導(dǎo)航(Unitree Go2):采用分層強(qiáng)化學(xué)習(xí)架構(gòu),高層策略從第一人稱 RGB 圖像中學(xué)習(xí)目標(biāo)搜索與導(dǎo)航?jīng)Q策,低層策略輸出關(guān)節(jié)級(jí)控制信號(hào),仿真訓(xùn)練后直接部署到真實(shí) Go2 上,僅依靠機(jī)載攝像頭即可完成目標(biāo)導(dǎo)向?qū)Ш健?/li>
![]()
意義與展望
GS-Playground 的核心價(jià)值在于:它不是某個(gè)單點(diǎn)技術(shù)的改進(jìn),而是一整套面向視覺機(jī)器人學(xué)習(xí)的仿真基礎(chǔ)設(shè)施的重新設(shè)計(jì)。通過(guò)將照片級(jí)視覺反饋的計(jì)算成本降至可規(guī)模化的水平,GS-Playground 讓視覺強(qiáng)化學(xué)習(xí)首次達(dá)到了此前只有本體感知強(qiáng)化學(xué)習(xí)才能觸達(dá)的訓(xùn)練規(guī)模。
團(tuán)隊(duì)表示,GS-Playground 將完整開源全棧框架及 Bridge-GS 數(shù)據(jù)集。未來(lái),團(tuán)隊(duì)計(jì)劃利用該平臺(tái)為 VLA(視覺 - 語(yǔ)言 - 動(dòng)作)和 VLN(視覺 - 語(yǔ)言 - 導(dǎo)航)模型合成大規(guī)模視覺訓(xùn)練數(shù)據(jù),同時(shí)構(gòu)建可擴(kuò)展的機(jī)器人策略驗(yàn)證基準(zhǔn)。當(dāng)前版本在動(dòng)態(tài)光照處理和柔性體仿真方面仍有進(jìn)一步提升空間,團(tuán)隊(duì)已規(guī)劃整合粒子動(dòng)力學(xué)(PBD/MPIM)與高斯?jié)姙R的技術(shù)方案來(lái)支持非剛性交互場(chǎng)景。
對(duì)于正在布局具身 AI 仿真基礎(chǔ)設(shè)施的研究團(tuán)隊(duì)與工程團(tuán)隊(duì)而言,GS-Playground 是當(dāng)前開源方向上技術(shù)棧最完整、Sim2Real 驗(yàn)證最充分的平臺(tái)之一。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.