![]()
2026 年 4 月,斯坦福 HAI 發(fā)布的《AI Index Report 2026》揭示了具身智能的殘酷現(xiàn)狀:機(jī)器人操控在仿真環(huán)境中的成功率高達(dá) 89.4%,但在真實(shí)家庭場(chǎng)景中驟降至 12%。
這 77 個(gè)百分點(diǎn)的“遷移鴻溝”(Sim-to-Real Gap)成為行業(yè)當(dāng)下所有動(dòng)作的注腳:特斯拉在 2025 年 Q4 財(cái)報(bào)會(huì)上坦言,Optimus 目前的首要任務(wù)并非干活,而是通過(guò)實(shí)地運(yùn)行進(jìn)行數(shù)據(jù)采集;“十五五”規(guī)劃綱要明確提出統(tǒng)籌布局具身智能實(shí)訓(xùn)場(chǎng);不到一年時(shí)間,國(guó)內(nèi)在建或建成的具身智能訓(xùn)練場(chǎng)接近 30 家。
最強(qiáng)勢(shì)的玩家、最高層的政策、最密集的基礎(chǔ)設(shè)施投入,全部圍著同一件事打轉(zhuǎn):那 77 個(gè)百分點(diǎn)要靠什么補(bǔ)上。
去年比模型,今年比數(shù)據(jù)
步入 2026 年,具身智能的行業(yè)敘事發(fā)生了變換。
最直觀的體現(xiàn),在于全球權(quán)威機(jī)構(gòu)對(duì)“人形機(jī)器人數(shù)據(jù)”地位的重新定義。《麻省理工科技評(píng)論》在 2026 年度 AI 洞察中,將其列為當(dāng)下最重要的命題。其核心邏輯在于:大語(yǔ)言模型靠海量文本學(xué)會(huì)了生成語(yǔ)言,那人形機(jī)器人能不能靠海量運(yùn)動(dòng)數(shù)據(jù)學(xué)會(huì)在真實(shí)世界里干活?
然而,描述人類運(yùn)動(dòng)方式的數(shù)據(jù)集遠(yuǎn)不像互聯(lián)網(wǎng)文本那樣現(xiàn)成。智元機(jī)器人創(chuàng)始人之一、覓蜂科技 CEO 姚卯青曾在 4 月的一場(chǎng)發(fā)布會(huì)上給出一組對(duì)比數(shù)據(jù),大語(yǔ)言模型 GPT-5 訓(xùn)練語(yǔ)料折合約 100 億小時(shí),而全行業(yè)匯聚的高質(zhì)量具身數(shù)據(jù)僅約 50 萬(wàn)小時(shí),差距以萬(wàn)倍計(jì)。
樂(lè)聚機(jī)器人技術(shù)總監(jiān)王松也曾深度剖析具身智能行業(yè)的核心痛點(diǎn)。他指出,當(dāng)前人形機(jī)器人產(chǎn)業(yè)發(fā)展面臨本體與小腦技術(shù)趨于成熟,但“大腦”進(jìn)化嚴(yán)重受阻于數(shù)據(jù)的困境。真機(jī)數(shù)據(jù)是模型落地的最后一步,也是關(guān)鍵一步,而訓(xùn)練場(chǎng)則是規(guī)模化、系統(tǒng)化生產(chǎn)真機(jī)數(shù)據(jù)的基礎(chǔ)設(shè)施。
為了湊出這個(gè)數(shù)據(jù)集,全行業(yè)開(kāi)始走出實(shí)驗(yàn)室:在中國(guó)的訓(xùn)練場(chǎng),工人穿戴外骨骼和 VR 設(shè)備重復(fù)著枯燥的動(dòng)作;在阿根廷和印度,零工們通過(guò)拍攝家務(wù)視頻換取報(bào)酬......
這種集體轉(zhuǎn)向并不是偶然。“我們可以參考自動(dòng)駕駛做一個(gè)粗略的對(duì)照。訓(xùn)練一個(gè) L4 級(jí)自動(dòng)駕駛模型,所需數(shù)據(jù)量通常以百萬(wàn)小時(shí)計(jì);而人形機(jī)器人的自由度、操作復(fù)雜度、場(chǎng)景多樣性比自動(dòng)駕駛高出 1 到 2 個(gè)數(shù)量級(jí),對(duì)應(yīng)的數(shù)據(jù)規(guī)模差距也在這個(gè)量級(jí)。也就是說(shuō),訓(xùn)練一個(gè)具備開(kāi)放世界泛化能力的具身基座模型,所需真機(jī)數(shù)據(jù)量大致在數(shù)百萬(wàn)到上千萬(wàn)小時(shí)之間。”王松表示。
那能不能用仿真來(lái)補(bǔ)?
仿真擅長(zhǎng)足式運(yùn)動(dòng)等剛體動(dòng)力學(xué)任務(wù),但在“接觸豐富”(contact-rich)的場(chǎng)景下力有不逮。2025 年的一項(xiàng)研究指出,仿真器難以建模零件形變、非線性摩擦及柔性物體(如衣物、流體)的物理特性。工業(yè)精密裝配或家庭折疊衣物時(shí),由于建模成本和算力開(kāi)銷甚至高于真機(jī)采集,仿真無(wú)法完全替代現(xiàn)實(shí)。
在真實(shí)部署的“最后一公里”,真機(jī)數(shù)據(jù)仍是跨不過(guò)的門檻。仿真環(huán)境是理想化的,而現(xiàn)實(shí)充滿變量:光照改變、物體移位或杯子重了 50 克,都可能導(dǎo)致模型失效。補(bǔ)齊 77% 的成功率缺口,依靠的不是更大規(guī)模的模型,而是覆蓋多變量、多樣本的真機(jī)數(shù)據(jù)。
這一行業(yè)共識(shí),在樂(lè)聚的實(shí)踐中得到了最直接的驗(yàn)證:400 條高質(zhì)量真機(jī)數(shù)據(jù)訓(xùn)練效果遠(yuǎn)超 1,300 條低質(zhì)量數(shù)據(jù),模型迭代時(shí)長(zhǎng)由 7-10 天縮短至 2-3 天,整體飛輪效率提升 3 至 4 倍,設(shè)備部署成功率從不足 60% 提升至 90% 以上。
此外,樂(lè)聚率先跑通了真機(jī)數(shù)據(jù)的商業(yè)化閉環(huán)。依托規(guī)模化訓(xùn)練場(chǎng)體系,數(shù)據(jù)服務(wù)成為獨(dú)立業(yè)務(wù),落地服務(wù)一汽、海晨物流、兆豐等實(shí)體企業(yè)。其以真實(shí)產(chǎn)業(yè)場(chǎng)景、成熟商業(yè)交易,切實(shí)證明:真機(jī)數(shù)據(jù)既是技術(shù)迭代的核心抓手,也是具身智能走向規(guī)模化商用的關(guān)鍵支撐。
機(jī)器人的“練兵場(chǎng)”
采集真機(jī)數(shù)據(jù)并不容易,單臺(tái)機(jī)器人動(dòng)輒數(shù)十萬(wàn)的成本、關(guān)節(jié)磨損的維護(hù)開(kāi)銷,以及低效的遙操作,使得數(shù)據(jù)采集成為一種高壁壘的行為。
這也是為何數(shù)據(jù)“訓(xùn)練場(chǎng)”已從企業(yè)內(nèi)部設(shè)施演變?yōu)榫呱碇悄墚a(chǎn)業(yè)的公共基礎(chǔ)設(shè)施。2025 年以來(lái),建設(shè)具身智能訓(xùn)練場(chǎng)這一產(chǎn)業(yè)共識(shí)正在快速轉(zhuǎn)化為國(guó)家層面的戰(zhàn)略部署,“十五五”規(guī)劃綱要明確提出統(tǒng)籌布局具身智能實(shí)訓(xùn)場(chǎng),推進(jìn)虛實(shí)融合協(xié)同訓(xùn)練。
根據(jù)中國(guó)信通院聯(lián)合清華大學(xué)電子工程系發(fā)布的《具身智能發(fā)展報(bào)告(2025年)》,國(guó)內(nèi)已建成或計(jì)劃在建的訓(xùn)練場(chǎng)已接近 30 家。石景山人形機(jī)器人數(shù)據(jù)訓(xùn)練中心作為目前全國(guó)最大的中樞,通過(guò)“采集-清洗-標(biāo)注”的全流程閉環(huán),年產(chǎn)高質(zhì)量訓(xùn)練數(shù)據(jù)超 600 萬(wàn)條;上海張江則聚焦異構(gòu)機(jī)器人訓(xùn)練,計(jì)劃形成千萬(wàn)級(jí)數(shù)據(jù)集,力圖打破不同本體間的數(shù)據(jù)孤島。
頭部企業(yè)在這場(chǎng)數(shù)據(jù)飛輪競(jìng)爭(zhēng)中表現(xiàn)尤為激進(jìn)。
比如,樂(lè)聚在全國(guó)參與建設(shè)了十個(gè)訓(xùn)練場(chǎng),年產(chǎn)真機(jī)數(shù)據(jù) 2,500 萬(wàn)條。數(shù)據(jù)覆蓋輪臂、靈巧手、全身運(yùn)控全維度,橫跨工業(yè)、商服、家庭、康養(yǎng)四大類,共 219 種場(chǎng)景、1,751 個(gè)任務(wù)、5,592 個(gè)物體。
LET 數(shù)據(jù)集全平臺(tái)下載量突破 100 萬(wàn)次。60,000 分鐘真機(jī)數(shù)據(jù)免費(fèi)開(kāi)源,另有數(shù)萬(wàn)小時(shí)真機(jī)數(shù)據(jù)已交付行業(yè)客戶——從開(kāi)源影響力到商業(yè)變現(xiàn),一面服務(wù)開(kāi)源生態(tài),一面服務(wù)具身基模數(shù)據(jù)產(chǎn)業(yè)。
根據(jù)公開(kāi)信息,其近期發(fā)布的訓(xùn)練場(chǎng) 2.0,提出了 LET 三級(jí)數(shù)據(jù)體系,覆蓋輪臂、靈巧手與全尺寸人形,并要求全信號(hào)同步誤差控制在 10ms 以內(nèi),并通過(guò) 1:1 還原智能制造和智慧物流場(chǎng)景,極大地縮短了模型在現(xiàn)實(shí)環(huán)境中的進(jìn)化周期。這種“訓(xùn)練場(chǎng)模式”不僅壓低了單條數(shù)據(jù)的生產(chǎn)成本,更實(shí)現(xiàn)了跨本體、跨場(chǎng)景的知識(shí)遷移。
而更深層的戰(zhàn)略在于與模型廠商的深度綁定。作為螞蟻靈波等核心團(tuán)隊(duì)的合作伙伴,樂(lè)聚為其 LingBot-VLA 模型提供了覆蓋多種構(gòu)型的萬(wàn)小時(shí)真機(jī)數(shù)據(jù)。這種合作不僅讓樂(lè)聚的數(shù)據(jù)深度嵌入了主流算法的成長(zhǎng)路徑,也讓其硬件本體成為了模型訓(xùn)練的標(biāo)配載體。加上近期推出的科研框架 2.0,通過(guò)降低動(dòng)作采集門檻來(lái)賦能整個(gè)科研圈,樂(lè)聚的野心已經(jīng)很明顯:不只是賣機(jī)器人,而是要成為具身智能時(shí)代那個(gè)不可或缺的基座平臺(tái)。
搶灘真機(jī)數(shù)據(jù)
其他公司如智元試圖通過(guò)獨(dú)立實(shí)體覓蜂科技來(lái)解決行業(yè)的數(shù)據(jù)荒漠問(wèn)題;宇樹(shù)招股書顯示,計(jì)劃將近一半的募資投向模型和數(shù)據(jù);京東規(guī)劃建設(shè)大規(guī)模數(shù)據(jù)采集中心,計(jì)劃兩年內(nèi)儲(chǔ)備千萬(wàn)小時(shí)級(jí)優(yōu)質(zhì)數(shù)據(jù)......
海外巨頭的動(dòng)向同樣印證了這一趨勢(shì)。特斯拉在工廠內(nèi)部署大規(guī)模 Optimus 真機(jī)測(cè)試與數(shù)據(jù)采集體系,以真實(shí)產(chǎn)線場(chǎng)景反哺模型迭代;Figure AI 則通過(guò)真實(shí)工業(yè)產(chǎn)線長(zhǎng)期部署與多樣化真實(shí)世界環(huán)境數(shù)據(jù)采集,構(gòu)建了高效的數(shù)據(jù)飛輪,持續(xù)反哺模型的迭代升級(jí)......
要訓(xùn)練一個(gè)真正通用的機(jī)器人“大腦”,高質(zhì)量的真機(jī)數(shù)據(jù)是必不可少的燃料。《2026 全球具身智能產(chǎn)業(yè)投資風(fēng)向標(biāo)》中明確提到, 2026 年是具身智能的交付元年,投資應(yīng)聚焦具備“真機(jī)數(shù)據(jù)閉環(huán)”的團(tuán)隊(duì);最早構(gòu)建“場(chǎng)景-數(shù)據(jù)-成本”自強(qiáng)化飛輪的企業(yè),將獲得定義未來(lái)的非對(duì)稱優(yōu)勢(shì)。
當(dāng)然,在現(xiàn)階段,仿真數(shù)據(jù)在大規(guī)模預(yù)訓(xùn)練和策略探索中依然不可替代,行業(yè)仍需面對(duì)真機(jī)與仿真的閉環(huán)對(duì)齊、數(shù)據(jù)隱私、以及跨平臺(tái)復(fù)用等現(xiàn)實(shí)難題。但目前的共識(shí)已經(jīng)非常明確:要補(bǔ)上那 77 個(gè)百分點(diǎn)的成功率差距,不能只靠增加模型的參數(shù)規(guī)模,必須靠覆蓋更多場(chǎng)景、更多變量、甚至更多失敗樣本的真機(jī)數(shù)據(jù)。
真機(jī)數(shù)據(jù)的稀缺是行業(yè)最大的制約,但同時(shí)也是最大的機(jī)會(huì)點(diǎn)。在這一輪競(jìng)速中,誰(shuí)能率先通過(guò)訓(xùn)練場(chǎng)模式實(shí)現(xiàn)高效、低成本的數(shù)據(jù)獲取,誰(shuí)就更有機(jī)會(huì)率先跑通通用人形機(jī)器人的量產(chǎn)之路。
1.https://www.caict.ac.cn/kxyj/qwfb/bps/202601/P020260130541978285206.pdf
2.https://www.ndrc.gov.cn/fggz/fzzlgh/gjfzgh/202603/U020260317369114704096.pdf
3.https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf
4.https://www.technologyreview.com/2026/04/21/1135656/humanoid-data-robot-training-ai-artificial-intelligence/
5.http://jjckb.xinhuanet.com/20260202/47b05862a0e340abab5a516775917bc0/c.html
運(yùn)營(yíng)/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.