網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

萬(wàn)幀照片級(jí)仿真：國(guó)產(chǎn)仿真器GS-Playground入選RSS 2026

2026-05-07 18:00:54　來(lái)源: 機(jī)器之心Pro

天津舉報(bào)

分享至

近日，清華大學(xué)智能產(chǎn)業(yè)研究院（AIR）DISCOVER Lab 聯(lián)合謀先飛技術(shù)、原力靈機(jī)、求之科技和地瓜機(jī)器人，提出了新一代高通量視覺高保真仿真器 GS-Playground。

該成果已被機(jī)器人領(lǐng)域國(guó)際頂級(jí)學(xué)術(shù)會(huì)議 RSS 2026（Robotics: Science and Systems）錄用，標(biāo)志著國(guó)內(nèi)具身智能仿真基礎(chǔ)設(shè)施在視覺保真度與訓(xùn)練吞吐量?jī)蓚€(gè)維度上同時(shí)取得了國(guó)際領(lǐng)先水平的突破。

論文鏈接：http://arxiv.org/abs/2604.25459
主頁(yè)地址：https://gsplayground.github.io
倉(cāng)庫(kù)地址：https://github.com/discoverse-dev/gs_playground

為什么需要 GS-Playground？三大核心痛點(diǎn)

具身 AI 研究正在經(jīng)歷從「本體感知」到「視覺感知」的范式轉(zhuǎn)移。讓機(jī)器人像人一樣「用眼睛看世界」來(lái)學(xué)習(xí)決策，是學(xué)界公認(rèn)的下一代技術(shù)路線。然而，現(xiàn)有仿真器在服務(wù)這一目標(biāo)時(shí)面臨三重瓶頸：

第一，渲染開銷過(guò)于高昂。當(dāng)前主流的大規(guī)模并行仿真器（如 Isaac Lab、ManiSkill、Genesis 等）在物理仿真吞吐量上表現(xiàn)優(yōu)異，但一旦接入高分辨率的逼真渲染管線，GPU 顯存就會(huì)被物理仿真與渲染任務(wù)爭(zhēng)搶殆盡，頻繁觸發(fā)顯存溢出（OOM），迫使研究者在畫面質(zhì)量和訓(xùn)練規(guī)模之間做出痛苦取舍。

第二，仿真資產(chǎn)制作極度依賴人工。構(gòu)建一個(gè)同時(shí)滿足高保真物理和高保真視覺的仿真場(chǎng)景，通常需要大量美術(shù)建模和工程調(diào)試。3D 重建技術(shù)雖已成熟，但將其輸出轉(zhuǎn)化為「仿真可用」的數(shù)字孿生，依然是一個(gè)勞動(dòng)密集的過(guò)程。

第三，Sim2Real 遷移鴻溝顯著。由于仿真畫面與真實(shí)世界在視覺和物理層面均存在差距，訓(xùn)練出的策略往往難以直接部署到真實(shí)機(jī)器人上，需要大量的視覺隨機(jī)化和手工微調(diào)，進(jìn)一步推高了計(jì)算成本和工程復(fù)雜度。

GS-Playground 的設(shè)計(jì)目標(biāo)正是從根本上打通這三重瓶頸 ——讓照片級(jí)視覺反饋的計(jì)算成本，從「強(qiáng)化學(xué)習(xí)訓(xùn)練的核心瓶頸」大幅度降低至「可規(guī)模化的程度」。

核心架構(gòu)：物理引擎 × 批量渲染 × 自動(dòng)化資產(chǎn)流水線

GS-Playground 架構(gòu)圖

GS-Playground 并非對(duì)現(xiàn)有仿真器的功能疊加，而是從物理求解器、渲染后端到資產(chǎn)制作管線的全棧重新設(shè)計(jì)。其系統(tǒng)架構(gòu)由三大核心層組成：

1. 自研高性能并行物理引擎

GS-Playground 采用了速度 - 沖量公式與嚴(yán)格互補(bǔ)約束的技術(shù)路線，基于國(guó)產(chǎn)自研跨平臺(tái)（Windows/Linux/macOS）并行物理引擎，同時(shí)支持 CPU 與 GPU 后端。

與業(yè)界主流方案（PhysX、MuJoCo、Taichi）不同，該引擎以犧牲梯度平滑性為代價(jià)換取了幾何精度上的顯著優(yōu)勢(shì)—— 能夠精確模擬剛體的完美靜態(tài)平衡，并支持大時(shí)間步長(zhǎng)仿真（dt=10ms）而不發(fā)散，特別適合需要精確接觸建模的操作任務(wù)。

在工程層面，團(tuán)隊(duì)實(shí)現(xiàn)了兩項(xiàng)關(guān)鍵優(yōu)化：約束島并行化（將約束圖動(dòng)態(tài)分解為獨(dú)立子問(wèn)題分發(fā)到多核 CPU 并行求解）和時(shí)間相干熱啟動(dòng)（跨幀復(fù)用上一步?jīng)_量將 PGS 迭代次數(shù)從 50 + 降至不足 10 次）。在高約束密度場(chǎng)景下（50 個(gè) 27 自由度人形機(jī)器人并行），GS-Playground 以 1,015 FPS 的吞吐量運(yùn)行，比 MuJoCo 快 32 倍，比 GPU 端 MjWarp 快約 600 倍。

在接觸穩(wěn)定性方面，團(tuán)隊(duì)通過(guò)牛頓擺（硬接觸與動(dòng)量守恒測(cè)試）、Boston Dynamics Spot 大步長(zhǎng)穩(wěn)定性測(cè)試、以及密集貨架多體交互實(shí)驗(yàn)，系統(tǒng)驗(yàn)證了引擎在高密度接觸圖下的優(yōu)越穩(wěn)定性。

在抓握魯棒性的「搖晃測(cè)試」中，GS-Playground 的 CPU 后端在所有物體幾何形狀和時(shí)間步長(zhǎng)配置下均實(shí)現(xiàn)了100% 的成功率（90/90），而 MuJoCo 的多個(gè)變體（Euler、Implicit、Implicit+Noslip）成功率幾乎為零，Isaac Sim 和 Genesis 的成功率也僅為 67%。

2. 高效批量 3DGS 渲染引擎

這是 GS-Playground 在渲染側(cè)的核心技術(shù)創(chuàng)新。平臺(tái)選擇了 3D 高斯?jié)姙R（3D Gaussian Splatting, 3DGS）作為渲染表示，而非傳統(tǒng)的光線追蹤或光柵化，并圍繞其構(gòu)建了一整套為吞吐量和顯存效率優(yōu)化的批量渲染后端。

核心工程設(shè)計(jì)包含三個(gè)關(guān)鍵模塊：

高效點(diǎn)剪枝策略：保留約 30% 的高斯點(diǎn)，PSNR 損失不足 0.05dB，對(duì)視覺運(yùn)動(dòng)策略幾乎無(wú)感知影響；動(dòng)態(tài)物體和機(jī)器人本體可進(jìn)一步壓縮至僅保留 10%，從根本上緩解了大規(guī)模并行訓(xùn)練中渲染與策略計(jì)算爭(zhēng)搶顯存的核心痛點(diǎn)。
剛體鏈高斯運(yùn)動(dòng)學(xué)（RLGK）：將數(shù)百萬(wàn)高斯點(diǎn)綁定到物理引擎中的低維剛體狀態(tài)，通過(guò) GPU 批量向量操作在亞毫秒內(nèi)完成同步，實(shí)現(xiàn)動(dòng)態(tài)場(chǎng)景的「零開銷」視覺更新。
單模板批量廣播：GPU 顯存中只存一份場(chǎng)景模板，跨最多 2048 個(gè)并行環(huán)境進(jìn)行廣播，大幅降低顯存帶寬壓力。

最終實(shí)測(cè)結(jié)果令人矚目：在 RTX 4090 單卡上，以 640×480 分辨率渲染 2048 個(gè)并行場(chǎng)景，總吞吐量突破 10,000 FPS。對(duì)比 Isaac Sim 的光線追蹤渲染器，GS-Playground 在所有測(cè)試分辨率和多種 GPU 架構(gòu)（RTX 4090、RTX 6000 Ada、A100）上均保持大幅領(lǐng)先，而 Isaac Sim 在較高分辨率下頻繁出現(xiàn)顯存溢出。

GS-Playground 與 Isaac Sim 光線追蹤渲染器在不同分辨率下的渲染吞吐量對(duì)比

3. 自動(dòng)化 Real2Sim 資產(chǎn)流水線

GS-Playground 還提出了一套完全自動(dòng)化的「Image-to-Physics」流水線，解決仿真資產(chǎn)制作的「最后一公里」問(wèn)題。該流水線僅需輸入一張 RGB 圖像，即可輸出仿真就緒的完整數(shù)字孿生場(chǎng)景：

RGB 圖像 → Grounding-DINO（開放詞匯檢測(cè)）→ SAM1/SAM2（實(shí)例分割）+ 迭代掩碼擴(kuò)張 → LaMa（背景修復(fù)）→ AnySplat（場(chǎng)景級(jí) 3DGS 重建）+ SAM-3D（物體級(jí) 3DGS 與 Mesh 重建）→ 深度對(duì)齊 + 尺度校正 + Speedy-Splat 剪枝 → 輸出完整仿真資產(chǎn)

視頻鏈接：https://mp.weixin.qq.com/s/rguk3kNlH7eYOHCfiIoelg

單張圖像端到端處理時(shí)間約 5 分鐘。基于 Bridge-v2 數(shù)據(jù)集，團(tuán)隊(duì)已產(chǎn)出配套的Bridge-GS 數(shù)據(jù)集，為每個(gè)場(chǎng)景補(bǔ)充了 3DGS 表示、物體 Mesh、6D 位姿和相機(jī)參數(shù)，驗(yàn)證了流水線的批量生產(chǎn)能力。

全任務(wù)覆蓋：操作、導(dǎo)航、行走的 Sim2Real 驗(yàn)證

GS-Playground 提供了完整的多模態(tài)傳感器棧，包括 RGB 相機(jī)、深度相機(jī)、三種類型的 LiDAR（旋轉(zhuǎn)式、固態(tài)、非重復(fù)掃描）、力 / 接觸傳感器及地形感知掃描，是當(dāng)前唯一基于 3DGS 表示的并行 LiDAR 仿真器。在 API 層面，GS-Playground 兼容 MuJoCo MJCF 格式的完整子集，使現(xiàn)有 MuJoCo 項(xiàng)目可低摩擦遷移。

團(tuán)隊(duì)在三大類具身任務(wù)上系統(tǒng)驗(yàn)證了平臺(tái)的 Sim2Real 遷移能力：

四足行走（Unitree Go2）：利用 1,024 個(gè)并行環(huán)境，策略在 10 分鐘內(nèi)收斂，成功部署至真機(jī)實(shí)現(xiàn)速度跟蹤；
人形行走（Unitree G1）：利用 2,048 個(gè)并行環(huán)境和全碰撞流形，23 自由度人形策略在約 6 小時(shí)內(nèi)收斂；
視覺抓取（Airbot Play 機(jī)械臂）：直接從 RGB 圖像學(xué)習(xí)端到端 6 自由度關(guān)節(jié)控制策略，在未經(jīng)任何簡(jiǎn)化的真實(shí)場(chǎng)景中實(shí)現(xiàn)了 90% 的零微調(diào)成功率 —— 作為對(duì)照，使用 MuJoCo、ManiSkill3 和 Isaac Lab 訓(xùn)練的策略在真實(shí)世界中的成功率均為 0%；
視覺導(dǎo)航（Unitree Go2）：采用分層強(qiáng)化學(xué)習(xí)架構(gòu)，高層策略從第一人稱 RGB 圖像中學(xué)習(xí)目標(biāo)搜索與導(dǎo)航?jīng)Q策，低層策略輸出關(guān)節(jié)級(jí)控制信號(hào)，仿真訓(xùn)練后直接部署到真實(shí) Go2 上，僅依靠機(jī)載攝像頭即可完成目標(biāo)導(dǎo)向?qū)Ш健?/li>

意義與展望

GS-Playground 的核心價(jià)值在于：它不是某個(gè)單點(diǎn)技術(shù)的改進(jìn)，而是一整套面向視覺機(jī)器人學(xué)習(xí)的仿真基礎(chǔ)設(shè)施的重新設(shè)計(jì)。通過(guò)將照片級(jí)視覺反饋的計(jì)算成本降至可規(guī)模化的水平，GS-Playground 讓視覺強(qiáng)化學(xué)習(xí)首次達(dá)到了此前只有本體感知強(qiáng)化學(xué)習(xí)才能觸達(dá)的訓(xùn)練規(guī)模。

團(tuán)隊(duì)表示，GS-Playground 將完整開源全棧框架及 Bridge-GS 數(shù)據(jù)集。未來(lái)，團(tuán)隊(duì)計(jì)劃利用該平臺(tái)為 VLA（視覺 - 語(yǔ)言 - 動(dòng)作）和 VLN（視覺 - 語(yǔ)言 - 導(dǎo)航）模型合成大規(guī)模視覺訓(xùn)練數(shù)據(jù)，同時(shí)構(gòu)建可擴(kuò)展的機(jī)器人策略驗(yàn)證基準(zhǔn)。當(dāng)前版本在動(dòng)態(tài)光照處理和柔性體仿真方面仍有進(jìn)一步提升空間，團(tuán)隊(duì)已規(guī)劃整合粒子動(dòng)力學(xué)（PBD/MPIM）與高斯?jié)姙R的技術(shù)方案來(lái)支持非剛性交互場(chǎng)景。

對(duì)于正在布局具身 AI 仿真基礎(chǔ)設(shè)施的研究團(tuán)隊(duì)與工程團(tuán)隊(duì)而言，GS-Playground 是當(dāng)前開源方向上技術(shù)棧最完整、Sim2Real 驗(yàn)證最充分的平臺(tái)之一。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.