網易首頁 > 網易號 > 正文申請入駐

成果發布！國地中心VTouch研究賦能新一代具身實訓建設與模型進化

2026-04-28 11:33:22　來源: 機器人大講堂

安徽舉報

分享至

1月26日，國家地方共建人形機器人創新中心（以下簡稱“國地中心”）發布了全球首個規模超60000分鐘的跨本體視觸覺（Vision-Based Tactile Sensor）多模態操作數據集——白虎·VTouch。全球首個！國地中心發布VTouch超6萬分鐘跨本體視觸覺數據集，為下一代具身VTLA提供數據基礎與模型基準

該數據集面向機器人精細作業場景，系統性融合視覺與觸覺信息，為多模態感知與操作學習提供了基礎支撐。在傳統多模態數據集基礎上，進一步引入“跨本體”設計理念，覆蓋不同機器人結構與形態，有效提升數據的通用性與泛化能力，為多平臺遷移與應用奠定基礎。

在此基礎上，我們圍繞“多模態數據如何真正服務于機器人決策與操作”這一核心問題，進一步開展了系統性研究工作。一方面，構建了面向視覺、觸覺與姿態信息的跨模態檢索框架，提升多源信息之間的對齊與理解能力；另一方面，設計了分布內策略驗證系統，為模型從離線評估走向真實部署提供可靠依據。在此基礎上，完成了從數據驅動到端到端模型訓練，再到真實機器人系統部署驗證的完整技術閉環。

相關研究成果已以預印本形式發布于arXiv平臺，同時，圍繞 VTouch 數據集的配套處理腳本及使用方法也已同步上線OpenLoong開源社區，旨在降低多模態數據使用門檻，推動相關技術在更廣泛場景中的落地應用。VTouch數據研究成果上線后出現新一輪下載高峰，目前下載使用量已突破89萬。

資源鏈接

- 研究成果預印本arXiv全文：

https://arxiv.org/abs/2604.20444

- VTouch數據使用說明：

https://www.openloong.org.cn/cn/documents/dataset/baihu-vtouch/tools

- OpenLoong開源社區V-Touch數據集項目主頁：

https://www.openloong.org.cn/cn/datasets/baihu-vtouch

- GitHub平臺V-Touch數據集項目主頁：

https://huaqianxi.github.io/V-Touch/

- 開放原子V-Touch數據集倉庫：

https://ai.atomgit.com/openloong/visuo-tactile

01.

數據使用說明

我們開源了VTouch數據使用指南，給出了數據的原始格式以及轉換后格式，并說明如何將數據集中的原始機器人數據轉換為可訓練的格式，同步配套數據轉換腳本、可視化腳本。

支持多種機器人本體平臺

Qingloong：足式人形機器人
Wheelloong M1：輪式人形機器人
Pika：UMI式無本體數采夾爪

支持兩種主流數據格式轉換

RoboMimic格式：基于HDF5的數據存儲結構，支持靈活的數據索引與高效的軌跡級訪問。
LeRobot格式：基于視頻的數據存儲方式，具有較高的壓縮效率，適用于大規模數據的存儲與策略學習訓練。

02.

視覺-觸覺-姿態統一對齊框架

圍繞“如何讓機器人理解‘看到的’與‘摸到的’之間的內在關聯”這一關鍵問題，提出一種融合視覺、觸覺與姿態信息的統一建模方法。通過將三類異構模態（視覺信息、觸覺信號以及機器人姿態，即關節位置與夾爪開合狀態）映射至同一特征空間，實現多模態信息的協同表達與對齊，從而提升機器人對操作過程的整體理解能力。面向機器人操作過程中的多源信息融合需求，構建視覺、觸覺與姿態三類模態的統一表征空間，實現“所見”“所感”與“所動”的協同建模，提升模型對復雜操作語義的整體理解能力。

在技術實現上，采用對比學習范式，構建跨模態表征學習框架，并設計了三類針對性編碼器：

視覺模態：基于 DINOv2 預訓練模型提取圖像特征，增強視覺語義表達能力
觸覺模態：構建專用觸覺卷積網絡（TactileCNN），有效提取觸覺信號中的關鍵特征
姿態模態：引入機器人自身狀態信息，包括12維關節位置及2維夾爪開合參數，提供操作過程中的結構性約束

通過上述方法，實現了不同模態之間的有效對齊與協同學習。為進一步驗證所提出多模態對齊方法的有效性，我們在雙模態與三模態設置下開展了系統性的跨模態檢索實驗，對模型的跨模態檢索能力進行全面評估。雙模態檢索任務的性能表現，反映了任意兩種模態之間的對齊效果：

雙模態跨模態檢索結果。展示不同模態對之間（如視覺→觸覺、觸覺→姿態等）的檢索性能，所提方法能夠有效實現任意兩種模態之間的表征對齊。

三模態聯合條件下的檢索結果，用于評估多模態信息協同建模的能力：

三模態組合下的跨模態檢索結果。通過聯合多種模態作為查詢（如視覺+觸覺→姿態等），評估模型在多模態協同建模下的檢索能力，結果顯示，多模態融合能夠進一步提升表示的信息量。

在整體框架層面，基于對比學習構建的跨模態檢索模型，相較傳統基線方法在性能上實現了顯著提升，驗證了該范式在多模態對齊任務中的有效性與穩定性。三模態融合（視覺+觸覺+姿態）相比雙模態組合具有更為明顯的性能增益，表明多模態之間的協同建模能夠更充分地刻畫跨模態語義關系。在具體指標上：

在基線方法中，引入觸覺信息后的跨模態檢索成功率提升約14%
在基于對比學習的跨模態檢索模型中，觸覺信息帶來約8%的性能提升，驗證了觸覺模態的穩定增益作用。

03.

四層漸進式分布內策略驗證

為了在模仿學習策略部署前確保可靠性，我們提出四層漸進式驗證框架，從動作質量、物理合理性、時序一致性、輸出穩定性四個維度進行評估，每一層分別針對策略行為的不同方面進行測試，有效降低模型從實驗環境遷移至真實場景過程中的不確定性。

第1層（動作重建）：通過平均絕對誤差、均方誤差以及專家相似度等指標，驗證策略是否能夠從訓練數據中準確復現專家動作。
第2層（單步閉環）：評估策略輸出在物理上的合理性與平滑性，包括動作統計分析、加加速度分析以及物理有效性檢查。
第3層（短時域滾動預測）：通過多步預測測試策略的時間一致性，用于檢測誤差隨時間累積的情況。
第4層（一致性評估）：針對隨機策略，測量其輸出方差，以評估策略行為的可復現性與穩定性。

我們選擇ACT(base)、ACT(temporal)、Diffusion Policy策略在VTouch數據集上進行驗證，得到結論：

時序一致性優異：負誤差增長表明策略在短時域內能夠保持穩定的行為模式
輸出高度穩定：極低的方差表明策略具有可靠的確定性輸出
重建質量可提升：Expert Similarity 為主要優化方向

04.

真機閉環應用框架（訓練-推理一體化）

為了推進從離線訓練到在線部署的快速推進，針對真實機器人場景的多種應用基礎和需求，我們提出一種通用性的的產業級機器人應用框架，打通了從數據驅動建模到真實機器人執行的完整鏈路。它具備廣泛的感知數據兼容性，內置統一封裝的規劃策略庫，支持多種運控方式靈活切換，便于快速部署與擴展。

感知數據：支持常見的感知器件，統一格式至大尺度的視覺反饋（多視角協同融合的RGB-D圖像）和小尺度的觸覺反饋（操作級的接觸圖像）
規劃策略：支持與控制頻率相同的實時推理，包括多種主流的模仿學習策略并統一封裝接口，ACT (Action Chunking Transformer)，DP (Diffusion Policy)和pi0.5等
控制方式：支持多種控制頻率，基于離散控制方式的多種連續軌跡控制，嵌入安全限制與約束以實現穩定安全平滑的關節位置/速度/力矩控制

此外，基于該框架在實機平臺完成模型訓練與推理驗證，形成可復現、可推廣的技術閉環，驗證方法在真實應用場景中的可行性與穩定性。實驗結果證明了框架在不同構型機器人上的通用性，也表明跨本體多模態VTouch數據集和通用性框架結合的范式有助于機器人學習到實際可用的具身能力。

值得一提的是，VTouch數據集采用了與智能體無關的自動標注標注，包括任務描述和詳細的元數據。對于相同的操作任務，即使真實產業場景的機器人與VTouch數據集涉及到的硬件基礎不盡相同，我們的通用性閉環應用框架將最大程度助力數據集和算法快速適應與落地。

05.

為新一代具身智能實訓場建設與模型進化提供基礎支撐

圍繞視觸覺融合的策略學習與驗證，我們構建一條從算法設計到真實部署的完整路徑，主要貢獻體現在四方面：

端到端驗證閉環：基于ACT與DP框架，打通了從模型訓練到真機部署的全流程，驗證了方法在實際場景中的可行性與穩定性。
跨模態對齊能力提升：在12個檢索任務中實現對基線方法的全面超越，充分證明了模型在視覺與觸覺信息融合上的表達優勢。
可靠的驗證體系：提出四層漸進式驗證框架，從離線評估到在線部署逐級推進，為策略效果提供了系統化、可量化的評估依據。
標準化應用范式：構建面向視觸覺多模態數據集的完整下游任務流程，為相關研究與應用提供了可復用的實踐路徑。

展望未來，國地中心致力于探索建立視覺、觸覺、力覺等多模態感知數據在空間對齊與語義關聯上的統一框架，提升跨模態表征的魯棒性與泛化能力，打通制約數據采集到場景落地的全鏈條路徑，實現數據集“能有-能用-好用”的跨越。此外，OpenLong開源社區作為國地中心服務行業與生態的關鍵窗口，將持續推進最新機器人數據集與技術的開源開放，竭誠歡迎各高校院所、企業等加入合作共創具身智能時代高質量數據集的未來。

作為全國首個具身智能領域國家級標準化試點 “上海虛實融合具身智能訓練場標準化試點” 的標志性成果全國首個！具身智能領域“上海虛實融合具身智能訓練場”國家級標準化試點落滬，國地中心將以VTouch 數據集研究成果為牽引，圍繞多源異構數據治理、跨模態統一表征、模型訓練評測、真機部署驗證等關鍵環節，系統化布局多模態數據融合規范、評測基準與接口標準研制，為采訓推一體化平臺建設、端到端策略學習與真機落地提供統一標準支撐，以標準化牽引技術范式固化與產業規模化落地，夯實國家級具身智能訓練場標準底座。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.