5月的宿遷室外氣溫雖不算太高,但面積不大的制衣廠廠房內還是有些熱。工人們正趕著新一批的貨,她們中有幾個人頭戴相同的黑色設備,這是用來采集訓練具身智能模型數據的儀器。經過上傳、清洗、質檢、標注等流程后,合格的數據會輸入具身智能模型,讓模型更加理解真實的物理世界。
![]()
圖:工人頭戴數據采集設備工作,來源:每經記者 王郁彪 攝
今年年初,京東曾宣布,將發動內部超10萬名各類職業員工,以及外部最多50萬各行業人員,同時在宿遷發動超10萬市民,參與具身智能數據采集工作。希望在兩年內積累超1000萬小時人類真實場景視頻數據。5月20日,京東宣布全國首個具身智能數據采集社區已在宿遷運行。
對制衣廠的工人們來說,目前數據采集的工作相對輕松,還能獲得一定的收入。在宿遷,數采工作的主力軍還有寶媽等居家群體。其一日的任務量是完成6個小時數據的采集,他們將日常做家務的動作記錄下來,整體每月收入在3000元到3500元不等。
機器人真正想要走向產業化,用于負責感知、決策和執行的“大腦”能力的突破是關鍵,這已是行業共識。然而“大腦”的訓練需要燒掉海量數據燃料。為了具身智能數據大廈的落成,有人已經開始在造“磚”了。
具身智能數采“進”社區采集人員月收入3000元到3500元
具身數據采集社區位于宿遷市湖濱新區。從今年4月數據采集社區試運行以來,有不少社區居民報名參與。《每日經濟新聞》記者了解到,采集員經過專業技術人員培訓后,在日常家務過程中就能完成數據采集工作。
正常進行擦桌子、疊衣服、整理收納、地面清潔等勞動時,他們只需頭戴京東自研的JoyEgoCam采集終端即可獲取上肢軌跡、力度分布、人與家居環境的交互關系等關鍵參數。
通過可穿戴設備,普通人也可以在工廠、物流、零售、醫療以及家庭等環境中完成數據采集,從而降低數據采集門檻,拓展采集場景。這也是當下行業共同的解決方案。
一位居家采集人員告訴每經記者,數采機會配備內存卡,內存卡儲滿數據需要6個小時的采集工作。月收入在3000元到3500元,多勞多得。除數采人員外,衍生出來的還有數據標注師、模型訓練師等。
采集回來的數據需要經過上傳、清洗、質檢、標注、訓練、驗證等流程,最終成為“數據燃料”,輸入到具身智能模型中。
每經記者注意到,除社區外,京東具身智能數據采集中心內,還設有零售商超、物流倉儲等場景的數據采集區域,相對居家等場景,產線上的數據采集工作需要一定的專業度,需要操作更復雜的設備,更全面的記錄視覺、觸覺、空間軌跡等全維度數據。
![]()
圖:京東機器人數據采集中心,來源:每經記者 王郁彪 攝
京東具身智能數據采集負責人告訴每經記者,這些數據采集完成后,經過完整的數據清洗,形成可用的數據集,用來做模型預訓練。相關模型借助這些數據完成學習后,初步具備執行各類任務的泛化能力。最后再把模型搭載到機器人本體后,機器人依靠模型推理能力,去執行各類不同任務。
多場景數據采集目的在于提高模型的泛化能力
除社區居家場景外,每經記者還實地探訪了宿遷的康養中心、果園等。在養老院,采集員記錄協助老人起身、喂藥、康復訓練等照護動作,為服務機器人提供人類照護行為樣本。
果園內,每經記者了解到,其采集內容覆蓋果蔬采摘的手眼協調軌跡、農具握持與操作的力學數據、田間不規則地形下的行走與避障動作等,以適應農業作業的復雜環境等特征。
制衣廠的采集員則在縫紉、裁剪、質檢等工位作業,記錄手部精細操作、多工位流轉等數據,為工業柔性操作模型提供小樣本、高精度、可復用的訓練素材。
那么,具身智能模型的訓練究竟需要什么樣的數據?
具身智能公司帕西尼數采負責人對每經記者表示,數據收集需要多場景數據的支撐。多場景的數據收集、植入訓練的是模型的泛化能力。就是當你告訴機器人去做任務A、B、C的時候,它通過對A、B、C數據的學習,哪怕它之前沒有做過D任務,但是經過模擬訓練之后,D任務也能做。
“我們之前拿到了京東的視覺EGO數據集(EGO數據集是指多個以?第一人稱視角?為核心的視頻數據集集合)之后,配合我們(機器人)觸覺的數據收集,對人類的日常工作模塊進行了補齊。”他表示。
此外,對于具身智能數據采集,他認為最重要的有兩點,一是需要覆蓋到人類的感知層面,二是在數據收集時維持人類原本的意圖。“我們在收集的時候不以收集為目標,而是記錄人類以當前意圖去完成這個任務時,他做出的所有動作。雖然我們看到的數據是動作,但實際上更深層次,需要訓練模型理解做這個任務時人類的行為和意圖。”他進一步表示。
2年1000萬小時能解具身智能“數據饑渴”嗎?
覓蜂科技董事長兼CEO(首席執行官)、智元機器人合伙人姚卯青此前公開表示,訓練類似ChatGPT-5級別的系統所需語料達百億小時量級,而具身智能可用數據僅在50萬小時量級,規模差距懸殊,還存在標準缺失、質量不一、供需錯配等問題。
![]()
圖:機器人訓練場景,來源:每經記者 王郁彪 攝
與大語言模型相比,具身智能的數據積累無疑還處于早期階段。每經記者此前也從京東方面了解到,其認為具身智能要達到真正可用,至少需要1000萬小時級別的真實場景交互數據。然而,當前行業數據規模僅約100萬小時,數據缺口高達10倍。
融資規模不斷被刷新,量產步伐全面提速,市場規模水漲船高,一年比一年熱鬧的具身智能賽道,卻深陷“數據荒漠”困境,這背后必然有很多不可控因素。如今,京東、智元等已經開始做具身智能數據的采集工作。數據采集完成后,這些數據如何真正融入機器人的“大腦”?
京東具身智能相關負責人告訴《每日經濟新聞》記者,底層硬件設備完成物理世界真實數據采集后,需要被送至“工具層”,可以理解為用一個“工具箱”進行數據處理、模型訓練以及仿真評測等。
“再往上就是模型層,也就是所謂的‘大腦’,包含VLA模型(視覺—語言—動作模型)、VLN模型(視覺—語言導航)、世界模型等核心能力。最頂層就是應用層,就是這些技術最終落地的場景,比如家政服務、物流配送、醫療輔助、零售服務、工業制造等。”該負責人透露。
機器人如何在物流、家庭、工業等現實場景中真正“落地生根”并發揮作用?這仍是一個需要無數機器人整機企業、具身智能數據公司反復探索并傾注全部心血去解答的課題與過程。這場關于具身智能基礎設施的競賽沒有終點,誰先打通道路、積累足夠的數據“燃料”,誰就更有可能在機器人“大腦”時代的賽跑中,搶占未來十年的主動權。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.