<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      一個框架,重塑具身研發流程:Dexbotic走向具身PyTorch

      0
      分享至



      機器之心發布

      近日,開源具身智能原生框架Dexbotic宣布正式支持以RLinf作為其分布式強化學習后端。對具身智能開發者而言,這不僅是一次普通的工程適配,更意味著 VLA 模型研發中長期存在的「SFT 與 RL 割裂」問題,正在被真正打通。



      這是一種典型的「樂高式協作」:雙方不強行 Fork、不粗暴揉合代碼,而是保持清晰邊界,通過標準接口完成模塊化拼裝。Dexbotic 不隱藏、不替代 RLinf,而是為其能力提供自然的承接入口;RLinf 也不侵入 Dexbotic 的策略生態,而是以穩定可靠的分布式 RL 能力,為模型后訓練提供底座。



      更重要的是,Dexbotic 通過后端適配器完整復用了 RLinf 原生的分布式能力,包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組以及 EmbodiedRunner。目前,該整合已在 LIBERO 系列任務套件中完成端到端驗證,可支持 PPO 等算法完成后訓練。對開發者來說,這意味著從模型開發、SFT Checkpoint 管理,到 RL 配置編寫與任務啟動,終于可以在同一個開發流中自然完成。

      如果說大語言模型時代的黃金范式是「預訓練 + SFT + RLHF」,那么在具身智能時代,「VLA 預訓練 / SFT + 大規模 RL 后訓練」正在成為新的模型進化路徑。Dexbotic × RLinf 的打通,正是這一范式走向具身智能 PyTorch 的重要一步。

      架構重塑

      V-L-A 模塊化解耦與多源混訓

      在復雜的物理世界中執行任務,機器人需要同時具備三種能力:敏銳的視覺感知、強大的邏輯認知、以及精細的運動控制。在過去,這三者往往被雜糅在一個極其厚重的黑盒網絡中,不僅訓練成本高昂,且任何單一模塊的改進都需要對整個系統進行重構。



      Dexbotic 2.0 直擊這一痛點,在業界率先實現了 V(Vision Encoder,視覺編碼器)、L(LLM,大語言模型)、A(Action Expert,動作專家)的徹底模塊化解耦。

      這種「樂高式」的架構設計,帶來了前所未有的工程彈性:同一套系統可以在感知、認知和控制三個層面進行獨立升級、自由替換與混搭。這意味著,算法工程師可以輕松地將最新的視覺基座接入原有系統以測試空間感知能力的提升,或者更換不同的動作頭(Action Head)以適配不同自由度的機械臂。這種符合軟件工程「開閉原則」的設計,為快速試驗新模型提供了極大的便利。

      在解耦的基礎上,Dexbotic 2.0 帶來了其最具戰略意義的訓練特性:多源數據混合訓練(Co-training)

      傳統的具身模型訓練往往面臨一個兩難困境:純互聯網數據缺乏物理世界的操作語義,而真實的機器人軌跡數據又極其稀缺且難以覆蓋長尾場景。Dexbotic 的解法是,用同一套訓練過程,讓模型把「看懂世界」和「動手操作」一起學會。

      具體而言,視覺 - 語言模型(VLM)同時攝入多模態互聯網數據(圖像 / 視頻 + 文字)與機器人實操軌跡。在互聯網數據上,模型學習三類通用泛化能力:對場景生成精確描述(Caption)、將宏大指令拆解為可執行子步驟(Subtask),以及將自然語言錨定到三維空間中的具體對象(Grounding)。在此基礎之上,動作專家(Action Expert)接入系統,將上述高維語義理解直接轉化為連續的物理控制序列(如抓取、移動、放置)。

      在最新的更新中,Dexbotic 甚至進一步支持了 CogACT 與 Pi0.5 模型的 Co-training(Action Expert + LLM 聯合優化)能力。互聯網海量數據賦予了模型「通用語義理解」,具身軌跡數據賦予了模型「可落地的操作技能」—— 兩者的聯合優化,使得機器人真正做到了「能說清、能看準、能做對」。

      工程破局

      SFT + RL 的黃金范式與單一入口設計

      在大模型(LLM)的發展歷程中,SFT(監督微調)讓模型學會遵循指令,而 RLHF(基于人類反饋的強化學習)則讓模型的能力上限與人類對齊,兩者結合鑄就了 ChatGPT 的輝煌。同理,在具身智能領域,「VLA 預訓練 / SFT + 大規模 RL 后訓練」正在成為公認的黃金進化范式。

      然而,長期以來,具身 RL 的工程落地堪稱災難。研究者必須在兩個獨立的開源項目間「來回奔波」:在 Dexbotic 等框架中完成 SFT 訓練拿到模型權重后,需要手動切換到復雜的 RL 框架倉庫,重新編寫任務配置、路徑適配與數據接口。這種人為割裂的流水線,不僅導致了極高的認知負荷,也讓代碼維護成本急劇上升。

      為了打破這一桎梏,Dexbotic 與頂級強化學習框架 RLinf 達成了深度戰略合作,并在工程層面實現了教科書級別的融合。



      開源具身智能原生框架 Dexbotic 宣布,正式支持以 RLinf 作為其分布式強化學習后端。此次整合的首要原則,依然是「樂高式架構」所體現的清晰邊界:

      • Dexbotic 穩守前端本職:繼續深耕機器人策略定義、模型注冊、Checkpoint 管理、專屬數據變換與用戶側實驗入口;
      • RLinf 穩守后端底座:承擔分布式 Rollout、優化、Worker 調度、日志記錄與 Runner 編排。

      雙方拒絕了粗暴的代碼融合(Fork 強行揉合),而是實現了模塊化拼裝。結果是驚人的:開發者無需在兩個倉庫間跳轉,只需停留在 Dexbotic 項目內,通過一行極其簡潔的命令,即可啟動完整的 RL 后訓練流程。進階用戶依然可以通過 Hydra 靈活覆蓋底層配置。

      更重要的是,通過后端適配器,Dexbotic 完整復用了 RLinf 原生的強大分布式 RL 能力(包括 Cluster、HybridComponentPlacement、Actor/Rollout/Env Worker 組等)。這意味著,Dexbotic 策略終于擁有一套可調、可訓、可增益的后訓練閉環,模型的動作質量與執行成功率得以持續躍升。

      此外,Dexbotic 近期還正式支持了基于 GRPO(群體相對策略優化)的模型后訓練。該方案不依賴龐大的 Ray 框架,部署更加輕量,卻能實現環境多卡并行推理與點對點數據均勻分配,讓 RL 訓練吞吐量大幅提高,幫助機器人從「能做」跨越到「更穩定地做好」。

      「各司其職,是最好的協作。」Dexbotic 不隱藏、不替代 RLinf,而是為其提供最自然的承接入口。當具身智能進入「持續進化」時代,工程棧的協同能力正成為核心競爭力,而 Dexbotic × RLinf 的牽手,無疑樹立了行業的標桿。

      基礎設施

      從數據、仿真到真機的完整閉環

      如果說算法與架構是具身智能的大腦,那么數據流轉與硬件驗證機制則是支撐其運作的骨骼與血液。Dexbotic 2.0 系統性地標準化了具身開發的生命周期,從「數據 — 訓練 — 評測 — 硬件」四個環節構建了無縫閉環。

      在數據引擎層面,框架提出了極簡且高效的 DexData 統一數據格式。該格式創造性地將 Prompt、子任務拆解、目標物體 3D 框選以及機械臂 2D/3D 軌跡信息整合于一體,大幅壓縮了多源數據對齊的工程開銷。

      在評測基準層面,Dexbotic 展現出了強大的生態包容力。在仿真端,通過高度封裝的 Docker 環境,框架一口氣適配了 5 款主流物理仿真器,并將所有仿真訓練數據一鍵轉化為 DexData 格式開源至 Hugging Face,徹底掃清了「復現不公平」的科研障礙。在真機端,Dexbotic 更是直接打通了全球首個具身智能大規模真機評測平臺 RoboChallenge 的評測接口,并進行了全面開源代碼貢獻,讓「開發 - 訓練 - 推理 - 評測」的鏈路在物理世界中真正落地。

      在最新前沿探索上,近日 Dexbotic 再下一城,新增對 UniNaVid 開源項目的深度支持。這不僅囊括了評測與 SFT 訓練能力,還完成了 DexDataset 數據格式的適配,一舉打通了導航任務從數據接入、模型微調到 Benchmark 評測的完整鏈路,為 VLN(視覺語言導航)與 Embodied Navigation 領域的持續迭代鋪平了道路。

      在硬件支持層面,Dexbotic 從未停止擴展的腳步。在已有的 ALOHA、UR5、Franka、ARX5 陣營外,框架不僅加入了星海圖 Galaxea R1,還極具前瞻性地接軌了 NVIDIA GR00T N1,加速人形機器人的訓練部署。更值得一提的是,原力靈機推出了完全開源的硬件產品Dexbotic Open Source - W1 (DOS-W1)與 SO-101,并全面適配了 XLeRobot 生態。以 DOS-W1 為例,其設計圖紙、BOM 表與組裝代碼全面公開,大量采用的快拆結構與符合人體工學的抗疲勞設計,極大地降低了數據采集的門檻與設備維護成本。

      巔峰驗證

      DM0 —— 全球首個從零訓練的具身原生大模型

      檢驗一個底層框架是否足夠強大的最好方式,是看它能孵化出怎樣的前沿模型。2026 年 2 月,基于 Dexbotic 框架研發的DM0 大模型震撼發布。

      作為全球首個從零開始訓練的具身原生大模型,DM0 在權威真機評測基準 RoboChallenge 上,以 2.4B 的參數規模,一舉奪得單任務與多任務雙項第一,成功登頂全球榜首。



      DM0 的成功,是對 Dexbotic 框架優勢的極致展現。其展現出的極高「智能密度」,得益于預訓練階段對操作、導航、全身控制三類核心任務的系統級混合。DM0 的訓練數據覆蓋了 UR、Franka 等 8 種構型迥異的機器人硬件,在強大的框架調度下,模型被迫去學習底層的、通用的「物理操作邏輯」,而非死記硬背特定硬件的運動學參數,從而獲得了令人矚目的跨機型泛化能力。

      更令人驚嘆的是,依托 Dexbotic 的多模態數據處理能力,DM0 構建了獨創的「空間推理思維鏈(Spatial Reasoning Chain-of-Thought)」。模型能夠將環境感知、任務理解、運動規劃與精細執行進行邏輯串聯,完成諸如「先尋找目標、移開遮擋物、再進行拍照發送」這類需要長程多步驟空間推理的廣義復雜動作。

      持續迭代

      半年的生長,千人的共建

      自 2025 年 10 月發布以來的短短數月,Dexbotic 展現出了令人側目的演進速度:

      • 2025-10-20:Dexbotic VLA 代碼庫開源,提出數據、模型、實驗三大核心層級;
      • 2025-12-29:全面適配支持 Pi0.5 與 OFT 模型,解鎖其開發全鏈路;
      • 2026-01-08:快速跟進硬件迭代,發布適配 Blackwell GPU 架構的專用鏡像;
      • 2026-01-15:NaVILA 導航算法、SimpleVLA-RL 合入主線,推出 GRPO 輕量級后訓練方案;
      • 2026-02-10:官宣與 RLinf 戰略合作,打造具身智能的 PyTorch,發布登頂全球的 DM0 模型;
      • 2026-03-30:硬件生態爆發,適配 XLeRobot、接入 NVIDIA GR00T N1,并為 Pi0.5 開啟一鍵混訓功能;
      • 2026-05-09:全面兼容 UniNaVid,將版圖強勢擴張至泛具身導航領域。

      高頻的迭代帶來了極其繁榮的生態回饋。目前,Dexbotic 已經成功服務了包括清華大學、北京大學、普林斯頓大學、帝國理工學院在內的數十家頂尖高校,以及騰訊、北京具身智能機器人創新中心等頭部產業機構,累計觸達研發者超過千人。

      正如 Linux 之父林納斯?托瓦茲所言:「軟件進化需要群體的智慧。」

      Dexbotic 拒絕了「閉門造車」的技術路線,而是選擇將自己打造為具身智能領域的「基礎運行層」。隨著原力靈機、清華大學、無問芯穹等多方力量的持續匯聚,一個屬于具身智能的繁榮開源生態正在形成。

      當「大模型 + 機器人」從實驗室的概念走向千行百業的真實場景,工程框架的協同演進能力,已經成為與模型算力同等重要的競爭維度。從解決數據格式的細枝末節,到重塑 SFT+RL 的頂層研發閉環,Dexbotic 的每一步更新,都在為通用智能機器人的到來夯實基建。

      毫無疑問,具身智能的「PyTorch 時刻」已經開啟。而 Dexbotic,正致力于成為承載這一歷史進程的堅實基石。

      歡迎全球研究者與開發者關注、Star,并共同參與 Dexbotic 社區建設,探索具身智能的無限可能。

      • 項目官網:https://dexbotic.com/
      • GitHub 開源倉庫:https://github.com/dexmal/dexbotic
      • Hugging Face 模型集:https://huggingface.co/collections/Dexmal/dexbotic

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      國際足聯被曝愿作出“重大讓步”:報價降低50%以上 爭取讓央視買下版權

      國際足聯被曝愿作出“重大讓步”:報價降低50%以上 爭取讓央視買下版權

      快科技
      2026-05-12 07:26:08
      湖人0-4!老詹24+12創紀錄,亞歷山大35分15罰,小里27+7無緣絕平

      湖人0-4!老詹24+12創紀錄,亞歷山大35分15罰,小里27+7無緣絕平

      魚崖大話籃球
      2026-05-12 13:34:43
      美軍工心臟——洛克希德馬丁生產的頂尖裝備,超乎你的想象

      美軍工心臟——洛克希德馬丁生產的頂尖裝備,超乎你的想象

      混沌錄
      2026-04-23 21:14:12
      很不紫金陳,《低智商犯罪》怎么就火了

      很不紫金陳,《低智商犯罪》怎么就火了

      紅星新聞
      2026-05-11 22:13:17
      演員熱依扎回應暫別演藝圈

      演員熱依扎回應暫別演藝圈

      半島晨報
      2026-05-11 12:49:10
      李訥左手拉著大孫女右手抱著小孫女,兒子王效芝兒媳王偉圍在身邊

      李訥左手拉著大孫女右手抱著小孫女,兒子王效芝兒媳王偉圍在身邊

      大江
      2026-05-12 11:09:07
      湖人有望拿下比賽,聯盟不允許橫掃!不速之客到訪,詹姆斯頑強。

      湖人有望拿下比賽,聯盟不允許橫掃!不速之客到訪,詹姆斯頑強。

      行舟問茶
      2026-05-12 13:27:57
      史詩級3方交易方案:小卡去勇士,快船搶狀元簽,奇才一箭雙雕!

      史詩級3方交易方案:小卡去勇士,快船搶狀元簽,奇才一箭雙雕!

      毒舌NBA
      2026-05-12 08:44:49
      中紀委連發禁令:機關事業單位職工注意,這7種飯局一參加就出局

      中紀委連發禁令:機關事業單位職工注意,這7種飯局一參加就出局

      細說職場
      2026-05-10 09:55:02
      蘋果首款折疊屏iPhone曝光:僅售兩款低調配色,定價或14999元起

      蘋果首款折疊屏iPhone曝光:僅售兩款低調配色,定價或14999元起

      驅動中國
      2026-05-12 11:05:18
      40億索賠壓頂!國際足聯高管訪華,中方5億贊助或將血本無歸?

      40億索賠壓頂!國際足聯高管訪華,中方5億贊助或將血本無歸?

      云舟史策
      2026-05-12 07:17:15
      普京一語驚人,承認自己被騙了!俄高層盼著他趕緊到中國來一趟!

      普京一語驚人,承認自己被騙了!俄高層盼著他趕緊到中國來一趟!

      小熊看國際
      2026-05-12 11:17:19
      浙江隊傳來3大壞消息:吳前妻子炮轟 賀希寧暴怒摔球 投資人被停

      浙江隊傳來3大壞消息:吳前妻子炮轟 賀希寧暴怒摔球 投資人被停

      說歷史的老牢
      2026-05-12 12:00:37
      1983年,江青的死緩減為無期徒刑,她卻大喊:你們為什么不殺我?

      1983年,江青的死緩減為無期徒刑,她卻大喊:你們為什么不殺我?

      零點歷史說
      2026-05-12 08:10:11
      “今年將迎來史上最熱夏天”?權威回應→

      “今年將迎來史上最熱夏天”?權威回應→

      魯中晨報
      2026-05-12 10:22:04
      馬龍妻子曬倫敦照!滿身國貨配老鋪黃金 老公拍的游船照一張沒選?

      馬龍妻子曬倫敦照!滿身國貨配老鋪黃金 老公拍的游船照一張沒選?

      阿廢冷眼觀察所
      2026-05-12 12:58:48
      國產榴蓮豐收致價格崩盤,泰國越菲市場受沖擊

      國產榴蓮豐收致價格崩盤,泰國越菲市場受沖擊

      未來展望
      2026-05-11 17:17:40
      對中國判斷失誤,讓這次訪華的特朗普,不得不接受更高的價碼

      對中國判斷失誤,讓這次訪華的特朗普,不得不接受更高的價碼

      愛下廚的阿釃
      2026-05-12 12:45:28
      原來林詩棟的姐姐是她,難怪能成為世界冠軍,日本隊輸得不冤!

      原來林詩棟的姐姐是她,難怪能成為世界冠軍,日本隊輸得不冤!

      阿郎娛樂
      2026-05-12 02:56:46
      61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

      61歲何智麗現狀:從日本回老家上海,與老友聚餐,面色紅潤沒發福

      以茶帶書
      2026-04-14 14:09:22
      2026-05-12 14:03:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12976文章數 142648關注度
      往期回顧 全部

      科技要聞

      納德拉法庭爆料:拒當“AI時代的IBM”

      頭條要聞

      特朗普訪華企業團名單披露:馬斯克在列 沒有黃仁勛

      頭條要聞

      特朗普訪華企業團名單披露:馬斯克在列 沒有黃仁勛

      體育要聞

      梁靖崑:可能是最后一屆了,想讓大家記住這個我

      娛樂要聞

      劉濤曬媽祖誕辰活動照 評論區變許愿池

      財經要聞

      特朗普要來了,我們且淡定

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      房產
      教育
      手機
      藝術
      公開課

      房產要聞

      50億資本布局!寧德時代,突然重倉三亞!

      教育要聞

      AI時代,雅思閱讀的人文素養才是你的“不可替代內核”

      手機要聞

      三星手機可限制廣告推送過多的App發送通知,全新攔截功能曝光

      藝術要聞

      這位畫家的油畫美人讓人驚嘆不已!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文有无人妻VS无码人妻激烈| 色8激情欧美成人久久综合电| 成人啪精品视频网站午夜 | 91资源总站| 国产欧美日韩一区二区三区在线| 国精品午夜福利视频不卡| 成熟丰满熟妇av无码区| 久久久成人毛片无码| 樱桃视频影院在线播放| 日韩av自拍偷拍| A成片人| 亚洲一区二区精品久久岳| 好男人官网资源在线观看| 日日草天天干| 丹凤县| 日本在线视频网站www色下载| 亚洲最大的成人网站| 伊人久在线观看视频| 国产日产欧产精品精乱子| 在线天堂最新版资源| 2021亚洲国产精品无码| 伊人日韩亚洲| 久青草视频97国内免费影视| 久久天天躁夜夜躁狠狠综合 | 国产精品国三级国产av| 日本特级片| 盐亭县| 国产女人叫床高潮视频在线观看| 久久夜色噜噜噜亚洲av| 欧美激烈精交gif动态图| 丝袜美腿亚洲一区二区| 中文字幕精品人妻熟女| 国产精品女视频一区二区| 国产不卡一区二区四区| 2020无码天天喷水天天爽| 东京热人妻无码一区二区av| 天堂av在线一区二区| 国产自产av一区二区三区性色| 亚洲国产美女精品久久久| 欧美大胆老熟妇乱子伦视频| 亚洲图片另类|