網易首頁 > 網易號 > 正文申請入駐

原力靈機Dexbotic 2.0："具身智能PyTorch"進行時

2026-05-13 11:32:53　來源: 機器人大講堂

浙江舉報

分享至

“ 從一份半年更新清單，看一個具身原生框架的崛起邏輯。

在深度學習發展史上，PyTorch用動態計算圖、模塊化設計與極低的上手門檻，終結了早期框架百花齊放卻互不兼容的混亂局面，讓全球研究者得以在同一套基礎設施上快速驗證想法、共享成果。

如今，具身智能領域正站在類似的十字路口。VLA技術研發分散化嚴重，不同團隊基于不同框架各自為戰；研發流程異常繁瑣，算法對比需配置多份實驗環境和數據格式；算法復現缺乏公平基準，難以確保每個對比算法調至最優；VLA研發無法從最新VLM受益，大多數VLA往往基于過時的VLM構建。SFT與RL割裂為兩條流水線，前沿VLM的紅利遲遲無法向物理操作任務傳導。

正是洞察到這些深層痛點，原力靈機把Dexbotic從一站式VLA代碼庫全面升級為具身原生開發框架，并聯合RLinf、攜手清華大學與無問芯穹，共同開啟"打造具身智能時代PyTorch"的征程

原力靈機聯合創始人汪天才表示，“我們期望通過Dexbotic2.0實現VLA+RL學習范式的統一，通過Dexbotic和RLinf的集合，一起去對應大模型時代SFT+RLHF的黃金范式，一起推動整個具身行業的發展，一起解決具身智能的問題”。

?官網：https://dexbotic.com/

?GitHub：https://github.com/Dexmal/dexbotic

?Hugging Face：https://huggingface.co/collections/Dexmal/dexbotic

01.

2.4B參數登頂全球，一個具身原生大模型的"出廠證明"

先從一個結果說起。

今年2月，一個名為DM0的具身智能大模型悄然登頂了權威真機評測基準RoboChallenge的全球榜首——單任務與多任務雙項第一，而它的參數量僅為2.4B。

在具身智能領域，這個成績的含金量不言而喻。RoboChallenge是全球首個具身智能的大規模真機評測平臺，考核的不是仿真中的數字指標，而是真實物理世界中的操作成功率。一個2.4B參數的"小"模型能在此稱雄，其"智能密度"之高，令人側目。

但真正值得追問的是：DM0是怎么被訓練出來的？

答案指向它背后的具身原生框架——Dexbotic

DM0是全球首個從零開始訓練的具身原生大模型，它在預訓練階段即系統性地混合了操作、導航、全身控制三類核心任務，覆蓋了UR、Franka等8種構型迥異的機器人硬件。這種訓練策略迫使模型學習底層通用的物理操作邏輯，而非記憶特定硬件參數，從而獲得了強大的跨機型泛化能力。此外，DM0創造性地構建了"空間推理思維鏈"，將環境感知、任務理解、運動規劃與精細執行串聯成閉環，使機器人能夠完成諸如"先尋找目標、移開遮擋物、拍照后發送指令"這類需要多步驟空間推理的復合任務。

這一切得以實現的前提是：Dexbotic 提供了從多源數據混訓、模塊化模型構建到跨機型適配的完整基礎設施。DM0的登頂，本質上是Dexbotic框架能力的一次集中兌現。

02.

半年、15+核心Feature、超千位研發者：一份密集到"反常"的更新清單

在開源社區，一個項目的生命力不看發布時的聲量，而看發布之后的迭代節奏。

Dexbotic自2025年10月正式開源以來的這份更新清單，密集到幾乎可以用"反常"來形容：

模型層面，先后適配了Pi0.5、OFT、NaVILA、SimpleVLA-RL、GR00T N1等多款前沿模型。其中GR00T N1作為NVIDIA面向通用機器人的基礎模型，接入Dexbotic后實測表現強勁——在LIBERO benchmark上平均達到94.8，Spatial任務更達到99.6，從訓練到推理鏈路全面打通。近日又新增了對UniNaVid的全面支持，覆蓋評測、SFT訓練及DexDataset數據格式適配，將版圖從具身操作拓展至VLN/Embodied Navigation方向，打通了導航任務從數據接入、模型微調到Benchmark評測的完整鏈路。

訓練能力層面，CogACT和Pi0.5先后開放了Co-training能力，支持Action Expert與LLM的端到端聯合優化，想做端到端聯合訓練的團隊可以直接上手。尤其值得一提的是Pi0.5的多源數據混合訓練功能——開發者現在可以直接在Dexbotic上進行"機器人數據+多模態數據"一鍵混合訓練，打破單一數據源的局限，大幅提升模型泛化能力。此外，框架還推出了基于GRPO的輕量級后訓練方案：不依賴Ray，部署維護成本更低；支持環境多卡并行推理，rollout過程無需頻繁重建環境；訓練數據可在多卡之間點對點快速均勻分配，整體訓練吞吐顯著提升。

硬件生態層面，在最初支持ALOHA、UR5、Franka、ARX5的基礎上，陸續接入了SO-101、星海圖Galaxea R1、原力靈機自研開源硬件DOS-W1、XLeRobot生態，已適配超過10款主流機型，覆蓋從桌面級機械臂到人形機器人的廣泛形態。以XLeRobot為例，Dexbotic發布了詳盡的集成教程，以"桌面桂圓收集任務"為案例，手把手演示了從數據采集、DexData格式轉換、VLA模型訓練到部署推理的完整閉環——真正做到了從0到1的具身原生全流程打通。

基礎設施層面，發布了適配Blackwell GPU架構的專用鏡像，新卡用戶一行命令即可拉取，新架構即刻可用；發布了SO-101機械臂接入教程，硬件開發者可以直接"抄作業"；同時正式支持以RLinf作為分布式強化學習后端，開發者無需在兩個倉庫間來回跳轉，一行命令即可啟動完整的RL后訓練流程。

截至目前，Dexbotic已服務清華、北大、普林斯頓、帝國理工等數十家知名院校，以及騰訊、北京具身智能機器人創新中心等頭部企業，累計觸達超千位研發者。

一個自然的問題是：是什么樣的技術底座，支撐得起如此高密度的Feature輸出？

03.

V-L-A解耦：讓具身智能開發真正進入"樂高時代"

答案藏在Dexbotic 2.0的架構重構中。

今年2月，Dexbotic完成了一次質變級的升級——從一站式VLA代碼庫蛻變為具身原生開發框架。如果說1.0時代的Dexbotic是一個功能齊全的"工具箱"，那么2.0則是一套可以自由拼裝、獨立演進的"積木體系"。

核心突破在于V-L-A模塊化解耦。框架在架構層面將Vision Encoder（視覺編碼器）、LLM（大語言模型）和Action Expert（動作專家）三大組件徹底拆開，同一套系統可在感知、認知和控制三個層面獨立升級、自由替換與靈活混搭。

這意味著，當一個更強的視覺基座模型發布時，研究者只需替換V模塊，L和A完全不受影響；當需要適配一款新的機械臂時，只需調整Action Expert，認知與感知層安然無恙。正是這種高度模塊化的設計，才使得Dexbotic在半年內密集接入Pi0.5、GR00T N1等多種異構模型時，不至于陷入"牽一發動全身"的工程泥沼。

而在解耦的基礎上，Dexbotic 2.0帶來了一項更具戰略意義的能力——多源數據混合訓練。

傳統方案中，互聯網圖文/視頻數據和機器人實操軌跡數據分屬兩條訓練管線。Dexbotic 2.0用同一套訓練過程把兩類數據統一起來：視覺-語言模型同時攝入多模態數據，學習場景描述（Caption）、任務拆解（Subtask）和指令錨定（Grounding）三類核心能力；動作專家在此之上接入，將高維語義理解直接轉化為抓取、移動、放置等連續控制序列。兩類數據共同優化，使模型既具備通用語義理解，又掌握可落地的操作技能——"能說清、能看準、能做對"

DM0的跨機型泛化能力與全球榜首的成績，正是這套多源混訓范式的直接產物。

04.

數據—訓練—評測—硬件：四環閉合的具身開發全流程

架構解耦解決了"怎么搭"的問題，但具身智能研發中另一個長期痛點在于全流程的碎片化。數據格式五花八門、評測基準各自為政、硬件適配反復造輪子——這些工程層面的摩擦，常常消耗掉研究者大量本應投入算法創新的精力。

Dexbotic 2.0的應對策略是：從"數據—訓練—評測—硬件"四個環節系統性地構建閉環。

數據處理方面，Dexbotic提出了DexData統一數據格式，將Prompt、子任務拆解、目標物體框選、2D軌跡等標注信息整合于一體，極大壓縮了多源異構數據對齊的工程開銷。基于DexData格式，系統自動完成圖像、文本及狀態信息的提取與預處理，可直接用于全面的監督訓練。

仿真評測方面，通過Docker環境一口氣適配了5款主流仿真器，所有仿真訓練數據均轉化為DexData格式并全部開源于Hugging Face。不同團隊可在完全相同的數據條件下進行訓練和評測，從根本上解決了"復現不公平"的行業頑疾。

真機評測方面，Dexbotic打通了全球首個具身智能大規模真機評測平臺RoboChallenge的評測接口代碼并全面開源。研究者基于Dexbotic開發的模型，可在RoboChallenge平臺進行公開、公平、透明的性能驗證，從開發、訓練、推理到評測，技術鏈路首次在基礎設施層面實現了完整閉合。

硬件支持方面，DOS-W1作為原力靈機推出的首款開源硬件產品，采用完全開源設計——所有文檔、BOM、設計圖紙、組裝方案與相關代碼均已公開。大量快拆結構與符合人體工學的抗疲勞設計，顯著降低了機器人使用與數據采集門檻。結合此前接入的SO-101、Galaxea R1、XLeRobot等十余款機型，Dexbotic已構建起具身智能開源社區中覆蓋最廣的硬件適配矩陣之一。

05.

SFT到RL一鍵閉環：與RLinf的"樂高式"牽手如何重塑訓練范式？

在大模型領域，"SFT預訓練 + RLHF后訓練"已被驗證為提升模型能力的黃金范式。具身智能同樣遵循這一邏輯：VLA模型通過SFT學會基礎的感知與操作能力，再通過大規模RL后訓練持續優化真實任務中的成功率與動作質量。

但此前，這條路徑的工程實現極為痛苦。

研究者先在Dexbotic完成模型開發與SFT訓練，拿到Checkpoint后不得不切換到RLinf倉庫，借助外部入口腳本啟動RL任務。這種方式對RLinf原生模型并不構成障礙，但對Dexbotic用戶而言痛點顯而易見：模型連接、Checkpoint路徑、適配器與任務配置都要遷移至外部入口；兩個項目之間存在認知割裂；每新增一個Dexbotic策略都可能牽動RLinf內部改動；SFT與RL被人為切割成了兩條互不相通的流水線。

作為Dexbotic與RLinf戰略合作的階段性成果，這一局面已被徹底改寫。Dexbotic正式支持以RLinf作為其分布式強化學習后端，開發者只需停留在Dexbotic項目內，一行命令即可啟動完整的RL后訓練流程。從模型開發、SFT Checkpoint管理，到RL配置編寫與任務啟動，所有環節一站式完成，啟動命令簡潔到近乎"零門檻"。

這次整合最值得稱道的，是其"樂高式"的協作架構。Dexbotic繼續深耕策略定義、模型注冊、Checkpoint管理、模型專屬數據變換與用戶側實驗入口；RLinf穩守后端本職，承擔分布式Rollout、優化、Worker調度、日志記錄與Runner編排。兩個項目通過標準化的后端適配器銜接，沒有Fork、沒有代碼融合，如樂高積木般模塊化拼裝、各自獨立演進。RLinf的版本迭代不會打斷Dexbotic的用戶體驗，Dexbotic的策略擴展也不會反向侵入RLinf內部邏輯。這種架構的開源價值尤為珍貴：團隊無需改造RLinf主訓練循環，也無需將兩份codebase強行揉合，從根本上降低了長期維護成本。

與此同時，Dexbotic還引入了基于GRPO的輕量級后訓練方案作為補充——不依賴Ray、支持多卡并行推理、訓練數據點對點均勻分配，對資源有限的團隊尤其友好。兩條RL路徑一重一輕、互為補充，讓不同規模的團隊都能找到適合自己的后訓練通道。

06.

誰在定義具身智能的"PyTorch時刻"？

從V-L-A模塊化解耦到DexData統一數據格式，從多源數據混合訓練到SFT+RL一鍵閉環，從5款仿真器適配到10余款真機硬件覆蓋，從DM0登頂全球到UniNaVid導航鏈路打通，從CogACT端到端聯合優化到GR00T N1在LIBERO上跑出94.8的均分——Dexbotic正沿著PyTorch當年走過的路徑，一步步構建起具身智能領域的底層共識。

當然，一個時代級的基礎設施不會由某一個項目單獨定義。Dexbotic能否真正成長為具身智能的底層運行層，最終取決于它能為多少研究者降低門檻、為多少團隊加速迭代、為多少創新想法提供落地的土壤。

半年時間，數十家頂尖機構，超千位研發者，15+核心Feature迭代。

這份答卷雖然還在書寫的過程中，但方向已經愈發清晰——具身智能的"PyTorch時刻"，或許正在到來。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.