大語言模型可以靠堆數(shù)據(jù)跑通Scaling Law,但機器人面對的是動態(tài)、多模態(tài)、強時序關聯(lián)的物理世界,雜亂的數(shù)據(jù)堆在一起,訓不出可靠的模型。從混沌到秩序的工業(yè)化路徑,質量比數(shù)量更重要。
機器人進工廠、進場景,真正的挑戰(zhàn)不在模型本身,而在數(shù)據(jù)。徐良威指出,具身智能的數(shù)據(jù)不是時間、空間、任務意圖緊密耦合的多模態(tài)資產。智域基石提出了五層數(shù)據(jù)編譯管線模型,每一層都有明確的質量指標,唯有構建數(shù)據(jù)底座生態(tài),讓本體方、模型方、產業(yè)方各司其職,高質量物理世界的數(shù)據(jù)才能真正流通起來,支撐具身智能的規(guī)模化落地。
以下為演講內容,經36氪整理編輯:
![]()
徐良威丨智域基石CTO
大家好,我是智域基石的聯(lián)合創(chuàng)始人兼CTO,今天我跟大家分享的是從具身智能的數(shù)據(jù)供給革命與技能結構化實踐,標題是從混沌到秩序。為什么是從混沌到秩序?具身智能的到來讓大家發(fā)現(xiàn)原先在大語言模型、自動駕駛或者在所有過去AI的數(shù)據(jù)實踐在具身智能里不夠用了,今天主要講一下智域基石在上面做了什么樣的工作,主要討論兩個話題,第一個事情我們在具身智能的數(shù)據(jù)上怎么去做標準化的工業(yè)化實踐。第二個如何把數(shù)據(jù)和模型本體、產業(yè)、場景結合起來,變成一個生態(tài),而不是單純數(shù)據(jù)的事情。
我們直接到機器人的落地,2026年我們可以看到一部分的機器人已經從小樣逐漸往產業(yè)里跑了,原先我們考慮到的是怎么把實驗室里的算法用視頻或者現(xiàn)場展示的方式展現(xiàn)出來,這個事情已經遠遠不一樣了,我們把機器人從實驗室里搬到真實的場景里,原先只要考慮讓機器人動起來、完成指定任務就可以了。現(xiàn)在我們要考慮的事情是如何讓機器人面對不確定的、動態(tài)的、多模態(tài)整個場景數(shù)據(jù)輸入,還能夠進行持續(xù)穩(wěn)定和物理世界的交互,這時候我們就要考慮我們怎么產生穩(wěn)定化供給。
原先有一句話說的很對,模型決定機器人的能力上限,模型決定了機器人能干什么,很難決定機器人在最差的環(huán)境下能做到什么程度,因為很多事情即使是人在新的場景里都不一定能夠處理的好,這個時候就需要我們考慮怎么把真實場景里的數(shù)據(jù),這個數(shù)據(jù)可能分為本體數(shù)據(jù),機器人感知到的環(huán)境數(shù)據(jù),甚至是機器人的任務,機器人的日志,這些信息都要能夠送到機器人訓練的整個閉環(huán)里,這時候才能夠把原先在小樣級別變成真正在產業(yè)里能夠落地的事情。
原先大家做語言模型時,大家說Scaling Law,希望有越來越多的數(shù)據(jù)才能讓模型變的越來越好,本身這個事情是沒有問題的,具身智能不像原先是結構化的數(shù)據(jù),我們在多模態(tài)跟持續(xù)強相關的數(shù)據(jù)領域里發(fā)現(xiàn),我們如果單純堆數(shù)據(jù),把大量原先混雜在互聯(lián)網的數(shù)據(jù)跟機器人操作相關的數(shù)據(jù),不管什么樣的仿真數(shù)據(jù),把這些數(shù)據(jù)全部堆在一起,能不能讓模型訓練出來?有這個可能性,目前的結論,我們還很難說把一些雜亂的、毫無規(guī)則的數(shù)據(jù)堆在一起就能夠訓練出更好的模型,我們不僅考慮數(shù)量,還要考慮質量。這個質量一方面體現(xiàn)在采集,另一方面體現(xiàn)在數(shù)據(jù)的采集、質檢、預標注、人態(tài)環(huán)路的閉環(huán)再到數(shù)據(jù)后處理,再到導出,最后進到模型訓練,完成模型到數(shù)據(jù)的閉環(huán)體現(xiàn)在整個環(huán)節(jié)里,每個環(huán)節(jié)都需要質量,如果某一環(huán)節(jié)出了差錯,不是說這個模型訓練不出來,而是真正的模型落到本體再進入場景,如果這個場景出問題,怎么回溯到我這個數(shù)據(jù)或者在原先的閉環(huán)里哪一部分出了問題,這是我們對于數(shù)據(jù)的要求,數(shù)量很重要,但我們要考慮質量,還要考慮質量在每一個環(huán)節(jié)里的重要性。
路線有很多,大家經常講的VLA,以模仿學習為主,以視覺輸入、語言指令再加上機器人的動作,一個機器人看到什么樣的場景,我得到了指令,下一步輸出什么樣的動作,是一個軌跡層面的數(shù)據(jù),以軌跡為主。另外一條路線,大家經常提起的世界模型,在world model中加一個action,最終要作用在物理世界里的,這里考慮的是我看到一個場景,我施加了一個動作,物理世界變成什么樣,這時候考慮的是因果關系,這里面雖然VLA和world model有模型上的差異,需要的都是同一種底層資產,在真實世界里的結構化高質量數(shù)據(jù),我定義了合理的或者適用于最終模型任務,通過一定手段把物理里的信息數(shù)字化,再經過結構化的過程,把它變成可以輸入到模型里的東西,這時候原始數(shù)據(jù)是一樣的,中間流程稍微有一些不一樣,基于同一套數(shù)據(jù)底座。
數(shù)據(jù)底座是一整套把真實的場景、真實的任務、真實的成功/失敗、真實的和整個環(huán)境交互全部都記錄下來,從而能夠輸入到模型里,讓模型能夠在真實的世界里獲得閉環(huán)。這一套數(shù)據(jù)輸入有可能是機器人本體,大家看到很多數(shù)據(jù)采集工廠、數(shù)據(jù)實訓廠,通過讓人操控機器人獲得和機器人有關的數(shù)據(jù),直接作用于機器人不管是預訓練、后訓練,現(xiàn)在還有一些比較前沿的,讓人帶著第一人稱視角記錄人的數(shù)字化勞動,讓人本身的勞動數(shù)字化到虛擬世界里,再去訓練不管是VLA還是世界模型,讓機器人學會人類技能,本質上都是把人類或者是機器人這樣的一個本體和環(huán)境的交互,把物理的概念變成一套數(shù)字化的概念,智域基石就做了一套數(shù)據(jù)底座,不管前端是什么樣的數(shù)據(jù)流入,我們都可以通過數(shù)據(jù)編譯管線處理成模型可以使用的數(shù)據(jù),最終完成數(shù)據(jù)本體,再回到場景再回到數(shù)據(jù)的閉環(huán)。
一個任務怎么把原始數(shù)據(jù)記錄變成模型可以使用的數(shù)據(jù),第一個流程,先定義好任務,先要采一個什么樣的數(shù)據(jù),先要知道機器人看到了什么,它做出什么樣的動作甚至它聽到了什么,還要關注前因后果,我之前的場景是什么樣的,我在看到這個場景以后我做出什么樣的決策,我又做出什么樣的動作,如果我發(fā)生這個動作,我接下來的思考是什么,這個世界真實又會怎么變,一方面記錄在真實世界里發(fā)生的所有傳感器的記錄,另外從任務記錄,不是單純從傳感器得到的,是事前規(guī)劃或者是事后推演,我通過把現(xiàn)場記錄、任務整理搞起來,后面我們把它變成機器人、具身智能需要的一套數(shù)據(jù)資產,中間涉及到怎么采集、提取其中的關鍵因素,最后怎么把它沉淀到資產,也會涉及到成功/失敗的處理,涉及到失敗以后機器人怎么重試,重試策略是什么,重試之后導致的結果是什么,這都是從原始數(shù)據(jù)變成訓練樣本重要的步驟之一。
這是智域基石提出的五層數(shù)據(jù)編譯管線模型,我們考慮到原始數(shù)據(jù)不是把數(shù)據(jù)采完了,把它存到硬盤里可以直接被輸入到模型里訓練,我們考慮到的是中間有非常多道流程,每一道流程都是有關鍵指標的。只有把每一步做好,才不是簡單的數(shù)據(jù)存檔,而是真正能夠成為數(shù)據(jù)資產的東西,這一套數(shù)據(jù)資產下面可以進入到場景、模型,可以和本體結合,被真正的用起來。
第一個流程數(shù)據(jù)質檢,首先是數(shù)據(jù)采集,采集后才能把真實物理環(huán)境里的模型信號變成數(shù)字信號,以數(shù)字化的形式存下來,raw data,是雜亂的、沒有規(guī)則的、非結構化的數(shù)據(jù),我并不知道好不好,也不知道能不能進入后面的處理流程里,第一步做數(shù)據(jù)質檢,先看一看數(shù)據(jù)是否滿足基本的數(shù)據(jù)處理要求。
數(shù)據(jù)滿足后,進入數(shù)據(jù)處理管線里,下一步是數(shù)據(jù)對齊,機器人或者具身智能數(shù)據(jù)不是單純的畫面或者是簡單的視頻,其實是多模態(tài)和時序緊密結合的數(shù)據(jù),完成空間、時間的對齊,完成時間、空間的結構化,不是單純雜亂的數(shù)據(jù),至少是被數(shù)據(jù)處理的算法和機器能夠理解的數(shù)據(jù),每處理一幀數(shù)據(jù)都可以完成橫向、縱向的索引。完成以后,到了數(shù)據(jù)變成模型可用數(shù)據(jù)層次,從結構化數(shù)據(jù)里再提取出真正的語義或者因果關系部分,我們要知道數(shù)據(jù)在整個空間里怎么和環(huán)境交互的,跟意圖對齊是什么樣的,因果,比如之前發(fā)生了什么,場景是什么,之后又是什么,這是第三個步驟,到這個地方為止,這個數(shù)據(jù)已經能被模型用起來了,距離真正的模型泛化還很遠。這時候我們要考慮我們要做好大規(guī)模數(shù)據(jù)處理,大規(guī)模數(shù)據(jù)在以前很多行業(yè)都有,現(xiàn)在所有行業(yè)都在講大數(shù)據(jù)概念,但是在具身智能里不一樣,因為是時間、空間、整個任務意圖都緊密相連的一類數(shù)據(jù)。我們要考慮在上億小時甚至是上千億小時大規(guī)模數(shù)據(jù)下,我們怎么快速檢索出來被某類模型需要找到的數(shù)據(jù),這也是非常難的工作。
在前面四個步驟過去后就變的相對簡單了,把數(shù)據(jù)處理好、對齊好,提取的所有內容,再找初模型需要的數(shù)據(jù),最后給客戶使用,這是最后一個環(huán)節(jié)交付。
在技術層面上完成了數(shù)據(jù)到訓練之前的閉環(huán),數(shù)據(jù)最終閉環(huán)遠沒有結束,必須要被模型公司用起來,而且模型公司后面的模型還要搭載在本體上,不僅完成小樣,還要在產業(yè)落地,需要讓數(shù)據(jù)出發(fā)經過模型部署到本體再落實到產業(yè),最終再從產業(yè)獲得反饋,回到數(shù)據(jù)這一方,這時候才是真正讓數(shù)據(jù)流通起來,讓智能不僅是單點而是讓整個體系里把它部署起來,作為數(shù)據(jù)方是非常核心的作用,它要對接本體、對接模型,也可以對接產業(yè)。
在現(xiàn)在很多數(shù)據(jù)行業(yè)里,大家還是以項目制的形式做這個事情,模型沒有收斂,本體百花齊放,產業(yè)也是在逐步進入到整個具身智能行業(yè)中來,智域基石做的數(shù)據(jù),我們不僅是做一個數(shù)據(jù)項目,把體系都搭建起來,通過和本體、模型、產業(yè)對接,我們把一個項目制交付的能力變成可以被整個具身智能領域作用起來的一套數(shù)據(jù)基礎措施,這時候不僅是能夠交付一套數(shù)據(jù),而是我能夠支撐整個具身智能的發(fā)展,以后所有的產業(yè)、本體、模型都可以從數(shù)據(jù)方獲得他想要獲得的東西。
我們希望能夠劃分新的數(shù)據(jù)分工,讓本體公司做數(shù)據(jù),讓模型公司做數(shù)據(jù),或者讓產業(yè)方做數(shù)據(jù),都不能夠支撐整個產業(yè)發(fā)展的,只有把這么一套生態(tài)構建起來,才能夠讓高質量物理世界的數(shù)據(jù)進入整個生態(tài)里,讓具身智能行業(yè)發(fā)展起來。
我的分享就到這里,謝謝。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.