2026.05.02
![]()
本文字數:2529,閱讀時長大約4分鐘
作者 |第一財經 胡淑娟
封面圖 |青瞳視覺采集動捕數據
為了保證數據采集的進度,王會軍的公司在五一假期仍然照常開工。
王會軍從事數據采集已經10年了,承接過安防、自動駕駛等多類訂單。去年年底,察覺到具身智能數據需求的爆發,他立即決定組建團隊進入這一賽道。到了今年,全國多地具身智能數據采集訓練場掀起建設熱潮,王會軍也接到了更多的項目。
相關機構報告預測,中國具身智能產業的市場規模預計在2030年達到4000億元,并有望在2035年突破萬億元。目前,多家具身智能企業、研究機構以及大廠已經下場布局數據采集。這一市場機遇,還吸引了像王會軍這樣的跨界玩家入局,他們試圖從中分到“蛋糕”。
“數據采集”成新風口,有企業轉型入局
今年以來多家企業加快部署機器人的落地應用,行業對數據的需求進一步加大。
智元機器人合伙人姚卯青前段時間在一場發布會上提到,整個行業高質量的數據湊一起可能是50萬個小時左右的規模,還填不上目前巨大的“數據缺口”。
多家具身智能數據采集訓練場應運而生,數據“新基建”熱潮迅速席卷全國。
智元在上海、成都等地布局數據采集中心;帕西尼感知科技宣布新建4座超級數據采集工廠,構建起覆蓋全國的數據采集矩陣;鹿明機器人也建成3個標準化數采場。
國家地方共建具身智能機器人創新中心?、北京人形機器人創新中心等機構同樣參與建設“新基建”當中。京東此前也宣布將建成全球規模最大、場景最全的具身智能數據采集中心。
![]()
鹿明機器人數采工廠
這類數據采集訓練場往往占地面積大,打造了工業生產裝配、家庭生活、酒店服務等核心場景,數據采集員則通過佩戴相關設備完成下發的任務。
據了解,具身智能數據采集方式主要有三種,分別是真機遙操作、無本體/人類演示以及仿真。其中,真機遙操作數據質量高,但采集成本高、效率低。無本體數據,即不依賴特定機器人硬件本體的數據,?被視為行業的新范式,主流路線包括UMI(通用操作接口)、Ego(第一人稱視角)。仿真數據是通過在虛擬世界中模擬機器人及其環境生成的一類合成數據。
除了通過自有訓練場采集數據,具身智能企業還會在市場上專門采購數據。這類需求,也催生了一批專門生產供應數據的公司。
第一財經記者發現,這些公司本身并不研發機器人,他們在嗅到商機后紛紛涌入具身智能數據采集的賽道。
山西博閱數據科技有限公司(以下簡稱“博閱科技”)深耕自動駕駛數據采集,主要數據基地在太原。該公司負責人王會軍回憶稱,“從產業規模、需求爆發情況來看,這股浪潮和幾年前自動駕駛數據采集興起的時候很相似。”去年年底,他立即在長治、運城設立具身智能數據基地,目前這一業務團隊擴張至160人左右。
這些數據采集員要親自走進家庭、工業、商超以及酒店等地采集數據。王會軍介紹,他們會通過頭戴式、手持夾爪等設備收集無本體數據,這些設備一般由客戶提供。在接到涉及家居場景的項目后,公司會在多個小區尋找并租下幾十套房子專門用于采集數據。
此前從事AI大模型的賈鑫祎也加入到具身智能數據采集的熱潮,他在去年和其他合伙人一起創立了星際硅途。該公司主要聚焦提供數據解決方案服務,已深入家庭、酒店、商場等場景采集數據,還推出了全棧自研Egocentric數據平臺。
不同于博閱科技、星際硅途等為具身智能大模型的“大腦”提供“養料”,青瞳視覺(深圳)科技有限公司主要為機器人提供“運動控制”的訓練數據。
該公司負責人鄒志鵬介紹,原來公司主要是賣動捕設備、為動畫公司提供動捕數據,差不多也是在去年年底開始拓展具身智能數據采集業務。“穿戴好設備后,動捕演員需要跳完一段舞蹈或者打一套武術,這些數據將幫助機器人學會動作。”他補充稱。
有一定門檻,“利潤沒想象中高”
一部分受訪對象反饋,趕上具身智能數據采集的這波風口后,今年以來接到的項目有所增加。除了幾家頭部公司,一些初創公司也前來對接數據采購的需求。
據鄒志鵬講述,相比去年年底,公司今年接到的具身智能數據采集訂單增長翻倍,給動畫公司提供動捕數據的基本業務正在縮減。
博閱科技接到的訂單也不少。王會軍預計,今年要采集的具身智能數據規模在10萬-20萬小時,而目前每位采集員一天的產能在2-5個小時,數據合格率在90%以上。
這些數據的價格并非是“一口價”。受訪對象提到,具身智能數據定價主要依據完成動作的復雜度、采集成本等而定。
鹿明機器人相關負責人透露稱,數據定價按場景、任務復雜度、采集時長、質量等級實行質量分級、階梯定價。他們的數據可直接用于模型訓練、跨本體通用,客戶投入產出比高于自研采集,這有利于公司在行業內構建定價優勢。
“一般來說,高動態的數據價格比較高,貴一點的話可能會在10元/秒左右。”鄒志鵬舉例稱,像打球、跑酷等動作就屬于高動態的數據。
姚卯青此前在接受媒體采訪時介紹稱,目前國內真機數據的市場價格在每小時500-1000元之間,無本體數據的價格預計收斂至真機數據的三分之一到二分之一。
談及具身智能數據采集的利潤水平,多位受訪對象表示“沒有想象中那么高”。王會軍解釋稱,他們接到的具身智能企業數據采集項目多以定制類為主,數量規模大且有一定的質量要求,而給到的項目預算并不高。
他特別提到,相比于自動駕駛數據采集,具身智能數據采集成本投入更高,涵蓋場景資源投入、人工成本,算下來的話只能說是“小賺”,可能還比不上自動駕駛數據采集的利潤。
多位受訪對象還觀察到,雖然近期身邊有不少人都在進入這一賽道,但是競爭暫時還沒那么激烈。他們認為具身智能數據采集存在一定門檻,不僅考驗供應商的硬件資產、運營管理能力,還需具備數據處理、標注等專業能力。
其中,數據質量的重要性被多次提及。作為國內無本體UMI領域的先行布局者,鹿明機器人相關負責人認為“高質量數據”需滿足多模態對齊、軌跡穩定無漂移、可跨批次復用、場景真實動作規范、標注精準等條件。
這其實也依賴于團隊的運營管理能力。上述負責人表示,鹿明搭建了內部專業人才儲備與外部社會化引進相結合的人才供給體系。所有數據采集人員均需經過體系化、標準化培訓與實操考核后方可上崗。
王會軍也介紹稱,公司在人員培訓和管理上有制定相應的流程規范,有利于提高數據采集的效率、質量,最終將提高公司的盈利水平。
微信編輯| 格蕾絲
:bianjibu@yicai.com
:business@yicai.com
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.