![]()
鹿明機器人聯席CTO丁琰
具身領域里,恐怕沒人比丁琰更能感受到行業的巨震和瘋狂。
9月30日,他任職的一星機器人,因為吉利戰略收縮,成立不到半年意外解散。時任CTO的丁琰在隨后短暫的33天里,罕見地完成了別人可能需要數年完成的人生軌跡,失業、創業、融資、被收編。
一直到11月2日,丁琰以聯席CTO的身份加入明星初創公司鹿明機器人,他帶著昔日的10余名骨干終于安定下來。他形容這段經歷,每天的信息都在爆炸,人生幾乎以10倍速度快進。
去年他留學歸國,意外站在具身行業最炙熱的前沿,在市場上大受青睞。他是最早將GPT-2模型融入機器人的研究員,博士期間發表論文有上千引用,回國后又all in UMI技術(一種數據采集技術,相比當下的遙操作方式,采集效率提升3~5倍,成本降低近90%),成為國內最大的UMI玩家。時代的機遇放大個人的際遇,推著他往前跳躍。
丁琰 加入鹿明不久,UMI技術因為美國具身公司Genralist、Sunday Robotics火爆,在國內也意外走紅。
丁琰再次被推到時代前列。市場放量增長,鹿明機器人的UMI數據采集工廠也在同步擴增。同時,鹿明機器人也剛完成來自鼎暉投資、南京創投等多家機構的數億融資,這也預示著已經發布四款機器人產品的鹿明機器人,從數據入口、模型到本體實現全棧自研,真正步入具身賽道的曠野。
在這次訪談中,丁琰不僅首次分享了離開一星加入鹿明這一階段的瘋狂和割裂,也系統性復盤了UMI數據采集與模型訓練中不斷精進的認知。
今年具身智能融資超過500億,僅11月公開宣布的融資案例就超過35起,臨近年末,具身行業依然表現出火熱的勁頭。丁琰說,第二梯隊公司也成長起來了,“FOMO”(擔心錯過)的投資機構在加速上車。
以下是《白鯨實驗室》和他的對話,為了文本閱讀方便,我們做了精簡處理。
01
以10倍加速的33天
白鯨實驗室:最近多家具身智能公司,包括鹿明機器人在內,紛紛宣布獲得數億融資,在當前商業落地仍不明確時,行業還在加速?
丁琰:我個人感受是,從資本以及帶動人才的涌入來看,確實是一個加速過程。
現在具身智能行業梯隊已經分明,第一梯隊公司估值動輒上百億,對投資人而言價格太貴了,而且普遍營收低迷,能不能上市、 帶來回報,充滿不確定性。第二梯隊公司也成長起來了,還未入局的投資人有一種普遍的憂慮——擔心錯過上車的機會,所以會涌入第二梯隊里有潛力的公司。
白鯨實驗室:你的經歷非常有意思,去年博士畢業后去上海AI Lab,一家實驗室,今年先后去了吉利的一星機器人(由于吉利戰略收縮,成立半年自動解散),目前在鹿明機器人公司擔任聯席CTO,經歷身份的巨變,有沒有更加堅定的信仰?
丁琰:這個問題挺好的,我的經歷確實挺壓縮的,在極短時間里,瘋狂地經歷各種起伏。我就職的這幾家風格也完全不同,上海AI Lab屬于國家級實驗室,更多偏向學術研究,可能只有20%偏向工業。一星機器人屬于大公司(吉利)孵化的一個,有自己的場景和業務線,只需要服務好自有的業務線,而鹿明屬于明星初創公司,商業化落地和技術研究一樣都很重要。
過去幾年,我見證了具身智能從少有人問津到火熱的過程,越來越意識到具身智能絕對是未來,唯一的問題是商業化落地,這相當于是一個戰場。這么多玩家入局,想要生存,必須把所有戰略資源、研究重點集中起來,準備好在未來6-8年打一場硬仗。這也是行業重塑的過程。
這一點我非常堅定,在上海AI Lab或者一星時,可能都沒那么堅定。
白鯨實驗室:為什么?
丁琰:可能因為鹿明離這個戰場的核心地帶更近。
白鯨實驗室:一星不近嗎?
丁琰:一星相當于大公司的后花園,有一個大家長把你保護起來,離前線還是稍微遠一些。而鹿明這樣的初創公司,離炮火更近,可以近距離看到戰爭的全貌。
白鯨實驗室:離得更近,不會覺得商業化更難,現實更骨感嗎?
丁琰:換家公司我可能都會很擔心。有些公司瘋狂融錢,只畫餅,在商業化上沒有任何落地,沒有閉環,會讓人覺得害怕。而鹿明屬于另一種,一直在做商業閉環。
白鯨實驗室:有沒有逐漸祛魅的想法?
丁琰:基本上沒有。
白鯨實驗室:今年10月一星解散,到11月初加入鹿明,時間很短,很多人向你投來橄欖枝。
丁琰:我從美國留學歸國后,對時間確實有非常明顯的體感差異。我在美國讀了五年博士,感覺時間過得很漫長,回國后,每天感覺都是加速狀態。在上海AI Lab,可以看作2倍在加速,在一星相當于3到5倍在加速。離開一星后的過渡期,我覺得是10倍加速,手機上的信息非常爆炸,每天都逼著你做決定。
從9月30號知道一星解散的消息,到11月2號加入鹿明。這期間,我們還籌備了一家公司,做各種路演,都融到資了,有一家投資公司已經給TS(投資意向書),還有兩家準備投。其中一家準備打錢的前一天,我決定不干了,還去一家企業待了三天,發現不對勁,后來選定了鹿明。
白鯨實驗室:你說當時手機都爆掉了,有多少家具身智能公司邀約你?
丁琰:沒有30家,也得有20來家,工作機會非常多。
白鯨實驗室:怎么就確定是鹿明了呢?
丁琰:鹿明的CEO是創業者行列里最懂技術的那一批,同時也懂商業,這是一個非常少見的組合。
白鯨實驗室:具身智能行業里的創業者,純技術出身的還挺多。
丁琰:不太一樣。具身智能行業里純技術出身的創業者,有些是做大模型出身的,有些是做自動駕駛出身的,我更偏向于選擇機器人出身的團隊。
白鯨實驗室:會有什么不同嗎?市場上有不少聲音認為,自動駕駛技術離具身智能很近。
丁琰:我從來不覺得這兩者貼近,反而認為區別非常大。舉個例子,做自動駕駛的人,是不需要考慮車是怎么造的,硬件已經很成熟了。而具身智能需要去造機器人,還有不同形態的機器人,算法和數據都沒有完全實現跨本體遷移。
比如數據,作為預訓練是可以用的,但是在精細化操作時,完全不能使用。如果可以使用,UMI技術也不會這么熱鬧了。
白鯨實驗室:你經歷的大起大落,似乎是中國具身智能行業今年火熱的一個縮影,很有代表性。當時為什么沒有自己創業?
丁琰:創業對于創始人的心力要求很高,說實話,我覺得自己hold不住。這里面最大的問題是人的管理。鹿明的團隊有很強的資源整合能力,原有的硬件業務和我們數據業務也很互補。
02
UMI技術不只是數采,而是類似基建的系統
白鯨實驗室:你從加入上海AI Lab,到現在一直研究UMI技術,有沒有始料未及的問題?
丁琰:其實沒有什么始料未及的問題,我很堅信自己的技術直覺。
我在上海AI Lab還是挺幸運的,當時只是一位研究員,實驗室leader對我們很寬容,允許我們all in 一個當時還不明確的方向。其實最大的難題是如何說服其他12位PHD(博士)和碩士一起做UMI技術研究,這是非常難的,一旦出現一點問題,這事就黃了。事后回顧,如果重新來一遍,能不能成功我都沒有把握。
白鯨實驗室:你是如何說服他們的?
丁琰:我一直覺得UMI不單單是一個數采技術,而是一套體系,有點像基建。在這個基礎上,你可以起萬丈高樓。我當時就這樣告訴大家,很多人也是有這個信仰的,也一直在研究這個領域。
我當時寫過這樣一句話,硬件、數據、算法和系統是很難分開的。我們不僅要實現硬件的自給自足,算法也要根據硬件和數據特征開發,系統適配前三者,讓這四塊形成內循環,大力氣搞infra,才能走得更穩健。
白鯨實驗室:國內今年多地流行建數據采集工廠,為什么普遍都采用遙操作的方式,而不是UMI技術?
丁琰:數采廠可以消耗掉一大批機器人本體,相當于幫助具身智能公司賣機器人設備了。如果站在數據的通用和資產化的第一性原理來看,UMI數據是最正確的選擇。
白鯨實驗室:一個百萬級的數采廠需要多少機器人?
丁琰:百萬級都不行,得千萬級。我覺得數采廠,至少7成的錢都花在硬件上。數采廠普遍管理成本很高,尤其對數采員的管理,因為這個工作非常枯燥,重復性勞動,通常又是外包,大家并不會很用心,導致采集到的數據質量不會很高。
比如一個關門的動作,常規情況需要機器人的爪子拿著門把手一推,但實際上采到的數據里,可能一些數采員直接用手推開的,軌跡數據完全不能用。后續數據清洗時,工作量會很大,合格率估計很低。
鹿明在數據質量管控方面采取了極為嚴格的標準,創新性地構建了六道數據檢測與校驗流程,從采集、處理到交付進行全鏈路質量把控,最大程度保障交付給用戶的數據具備高一致性與高可信度,能夠穩定支撐模型訓練與性能提升。
白鯨實驗室:國內流行的數采方式是遙操作,和你們的UMI技術的主要區別是什么?
丁琰:完全是兩個流派。遙操作是人實時控制機器人執行任務,要依賴機器人本體采集數據,而UMI不依賴機器人硬件或本體,通過獨立的采集設備,如手持裝置、頭戴裝備等,記錄人類的操作過程,這可以遷移到不同的機器人身上。
如果不考慮效率、成本和硬件適配,遙操作機器人采集的數據信息量比較多,模型好訓,不需要處理。而UMI技術采集的數據最大的優勢是效率高、成本低和異構本體適配,不過對數據后處理要求很高,這正是行業的門檻。
白鯨實驗室:最近比較火的兩家美國具身智能公司Generalist、Sunday Robotics,采用的也是UMI技術,會影響國內數采方式嗎?
丁琰:已經影響了,至少觀點刷新了一波,我相信這就是未來,國內公司的數采也一定會follow這一路線。
白鯨實驗室:如果follow的話,是不是意味著早期建的數采工廠是一種資源的浪費?
丁琰:對,但是UMI是一場革命,它必然發生。目前國內全棧跑完UMI整套流程,擁有商用數采設備、數據處理、數采工廠和模型驗證的,只有鹿明機器人一家。目前市場對鹿明FastUMI的數采方案需求量非常大,我相信FastUMI會成為未來數據采集的標準,會替代一大部分早期的數采工廠方案。
白鯨實驗室:綜合考慮來看,這兩種數據采集方式是互補的?
丁琰:我的理解,完全不是互補,而是互為取代。
白鯨實驗室:你在一星時,包括現在的鹿明,也有自己的數采工廠,UMI技術獲得數據還對外出售,商業模式上算跑出來了嗎?
丁琰:苗頭已經很明顯,目前勢頭很好。
白鯨實驗室:難點是什么?
丁琰:整個商業模式現在處于大混戰中。每家具身智能公司都覺得數據是彈藥倉庫,都要自己建,哪怕利潤很低。可能過一段時間,形勢會更明朗。大家會發現數采廠特別難搞。投入和產出也不成正比,如果管理不當,或者技術不夠優秀,實際上是虧錢的狀態。
這個時候,三方的數據服務商的價值就會凸顯,這也是鹿明正在快速深挖的領域。我們已經算是這個市場里做UMI數據的Top1選手。
白鯨實驗室:你們現在收入情況如何?
丁琰:具體數字暫時不好說,不過我們有真金白銀進賬,整體還是不錯的,國內外的具身公司基本上都有找我們采買過設備和數據,目前數據采集與交付能力已接近滿載。
03
黎明前夜
白鯨實驗室:模型適用scaling law法則(數據越多,訓練的模型性能越好),現在的數據集對模型而言處于什么狀態?
丁琰:還是一個黎明前夜,大家都知道scaling law,但數據規模還遠遠不夠。
白鯨實驗室:現在訓練一個模型,能吃透的數據集是多少?
丁琰:不好判斷。但我們自己比較堅持FastUMI路線,提供最高質量的UMI數據。
白鯨實驗室:你們是如何突破數據采集規模的?
丁琰:建數采廠,增加產能,也只有這一條路。對初創公司而言,需要很大的決心。剛開始我們計劃建一兩個數采廠,沒想到UMI的需求這么大。現在預期加大,準備增建兩三個,一步步往前推。
白鯨實驗室:建數采廠的成本不大嗎?
丁琰:和傳統遙操作數采廠相比,投入的成本會便宜很多,不需要買機器人,就會節省很多成本。
白鯨實驗室:能便宜多少?
丁琰:具體數字暫不透露,但價值不僅在于便宜,而在于跨本體適配,才能形成真正的數據市場。
白鯨實驗室:行業里有人說過,如果現在一個剛剛起步的具身玩家,一比一復刻Generalist的數采方式和規模,大概需要至少要超過半年甚至一年的時間,不包括數據基建的過程。
丁琰:那太樂觀了。可能半年、一年都完全達不到。舉個例子,光造抓夾硬件,可能需要四到六個月。采集27萬小時需要多久呢?至少也需要1000人,馬不停蹄的采集大半年,甚至小一年才能達到。
怎么可能半年就復制出Generalist的規模?除了像我們團隊這樣有硬件、軟件基礎,又有資源整合能力的,我覺得中國其他團隊,在一年內是不可能有人復制出這種規模。
白鯨實驗室:Generalist現在以每周1萬小時的速度增長,鹿明是在過去一個月時間里,積累了1萬小時真機數據,這個時長和美國Generalist相比,是什么水平?
丁琰:我們剛剛起步,但我們未來一定比他們快,要相信我們的組織能力和調動資源的能力。
04
低估機器人的復雜性
白鯨實驗室:今年大家討論的概念太多了,像VLA是今年Figure帶火的,你覺得為什么它就成了主流?
丁琰:VLA一直是比較熱的話題。以前沒有大語言模型,更多是一個視頻輸入、動作輸出。大語言模型火了后,加入進來,是很自然的過程。語言模態加入,參數量變多,模型能記住更多動作,也能更好地完成任務。
白鯨實驗室:你曾說VLA還處于非常早期階段,目前它只能解決機器人不到10%的問題,它不擅長解決的是什么任務?擅長的是什么任務?
丁琰:這個問題非常有意思。首先機器人有不同的派別,以前的傳統機器人,通過加一堆特定規則,把專項任務能解決得非常漂亮,效率高、成功率高,問題在于沒法泛化。VLA這種范式,相當于用通用的方式,只需要把不同任務的數據輸入進去,就可以做得很漂亮。
這似乎是一種趨勢,目標很美好,現實是輸入的數據完全不夠用,導致輸出成功率可能只有百分之三四十,完全達不到傳統機器人99%的目標。甚至還得花好多精力微調,一旦環境有一點變化,成功率又下降。解決問題的效率也跟不上,整個解決方案也不怎么順滑優美。
VLA肯定是未來,但還有很長的路,現在許多任務它都解決不了。像顛勺做菜這類看起來簡單的任務,即使是世界上最牛的VLA模型成功率也不會很高。
白鯨實驗室:VLA的問題是因為數據規模太小,影響它的泛化能力嗎?
丁琰:一方面是數據的問題,目前真機數據規模太小。
另一方面也是模型架構問題,現在有一種趨勢,總覺得一個模型能解決機器人的所有問題,這低估了問題的復雜性。比如躲避障礙物,效率,遇到一些日常意外怎么解決,模型實際落地中會冒出很多問題。如果腦子里只有一個VLA或者其他什么模型,我覺得這是有問題的。
白鯨實驗室:關于VLA和世界模型的定義分歧很多。有人覺得世界模型是方向,還有人覺得VLA才是核心,世界模型只是VLA的虛擬環境,通過世界模型生成的虛擬數據,可以反過來提升模型的效率性能。你怎么看?
丁琰:VLA是一個很寬泛的定義,只要有一個vison和language輸入,然后生成一個動作行為,我認為就是VLA。另外,部分VLA模型中間某個模塊依靠一個世界模型來完成,如果按照這種定義的話,我覺得VLA是包含世界模型的。
白鯨實驗室:模型訓練時,吃透數據是不是一個難題。
丁琰:需要很多耐心和試驗,我總覺得機器人是一個經驗性工程。你得瘋狂的去做試驗、試錯,才能得到一些insight和know-how(這兩個英文單詞都強調,真正下場踩過坑,才能獲得的經驗)。怎么吃數據其實也是在不斷試錯中調整的。
白鯨實驗室:這個吃透數據過程進展到什么程度了?
丁琰:不斷去探索數據的邊界。我們覺得數據就像寶藏,現在探索的可能才十分之一。什么樣的數據算好,什么樣的不好,為什么不好,怎么采好數據,這數據需要多少模態,每個模態之間怎么影響,這都是非常大的問題,但對完成任務是很有價值的。這些我們一直在探索,也需要很長的時間。
白鯨實驗室:目前你們能看到數據的局部邊界嗎?
丁琰:沒有,我們自己反正沒找到,我覺得這個邊界還挺遠的,我們才探索了一部分。
白鯨實驗室:你怎么看仿真數據和真機數據?
丁琰:我覺得這是不同的流派。我不是很相信仿真,甚至覺得兩者的差距有點大。但是仿真肯定是有用的,只是說這個用處多大,我沒有探索,也不好評價它的邊界。
我一直有個比方,如果你想把真機數據跟仿真數據混在一起,有點像做菜,把一個冬瓜跟苦瓜混在一起,能不能做好,是可以的。絕對比單獨做一個冬瓜或一個苦瓜要難的,多少比例,什么時候加入什么樣的數據,這個工作量會很大。
人的精力和資源都是有限的,我只能all in到一條線上去,不能再分散精力去探索仿真數據的邊界。
白鯨實驗室:你們目前模型的訓練,百分之百都是真機數據嗎?
丁琰:對,百分之百都是真機數據。
白鯨實驗室:最近有一家具身智能公司極佳世界,剛發布了一個具身的世界模型,其中仿真數據占比達到了90%,在具體的泛化維度上實現了三倍的性能提升。
丁琰:它們屬于另一個流派,對算力的要求很高,這兩個流派的隔閡很大,我無法評價。
白鯨實驗室:業內也在探索真機數據和仿真數據的比例,比如9:1,你會擔心多種數據的結構,會在模型訓練時取得更好效果嗎?
丁琰:不會擔心,目前來看,數據問題的邊界還遠沒有探索出來,不好評價。
白鯨實驗室:像中國的這些數采廠,消耗不了的數據,完全可以出海?
丁琰:對,很多人都在做了。
05
具身行業也需要像OpenAI一樣的領頭羊
白鯨實驗室:最近你在認知上最大的變化是什么?
丁琰:我覺得可能是我不只考慮技術了,在商業化上更成熟,我們CEO的商業思維非常好,對我影響很大。設計一款產品時,有些因素我沒考慮到,他就會從商業化,或者供應鏈的角度上提供分析。比如數采廠,我們一下擴增3個,我擔心吃不下,他會給出具體的分析,說3個剛剛好,目前來看他的判斷是很準確的。
白鯨實驗室:你來鹿明后,會做一些技術上的折中和妥協嗎?
丁琰:折中是有的。具體怎么折中的話,比如說對資源的利用,人員的配比上,更偏向一些懂商業的人,而不是一個純技術公司引導的模式。
我覺得不能叫妥協,妥協的隱含意好像心有不甘。經歷過一星的事情后,我的想法變了很多,讓大家活下來更重要,不能一味滿足技術追求,這是很不負責的表現。
白鯨實驗室:你覺得一星在商業或者技術上有沒有激進的地方?
丁琰:一星倒不是激進,這種判斷對一星很不公平。一星已經非常自由,也沒有對不起人,這個事兒(解散)不是一星能決定的,是吉利集團決定的。
白鯨實驗室:大家可能沒有批判一星,而是批判吉利。
丁琰:商業是很復雜的一個行為。人需要妥協,需要考慮更全局的東西,不能太自我,這在商業世界里是忌諱。
白鯨實驗室:你之前有提到在一星未做完的事情,要在鹿明繼續做,這個指什么?
丁琰:其實就是把整個FastUMI系統搭建好,這個思路一直沒有變。我的目標就是希望一年之內能運轉起來,形成閉環,如果能完成,就已經很牛了。
白鯨實驗室:Generalist的目標很明確,就是要做什么事情都能做的機器人,鹿明呢?
丁琰:我們要先做成具身領域的基礎設施,把數據平臺和硬件平臺構建好。
白鯨實驗室:目前鹿明內部最可能率先閉環的是UMI系統,是不是?
丁琰:UMI系統的確閉環挺快的,現在已經看到閉環的苗頭了。(笑)
白鯨實驗室:現在機器人的基座模型還沒有達到GPT3的水平。GPT從2.0到3.5版本,參數量有上百倍的增長,反觀具身智能賽道,從數據上看還沒有形成這么大規模吧?
丁琰:是這樣的,具身世界也需要一個領頭羊,這個領頭羊是誰我不知道,可能是Generalist。他確實證明了某種成功。但是問題在于,他選擇的路線很獨特,沒有像OpenAI產生很大的價值,可以重塑一個商業模式,通過付費形成收入閉環。
Generalist的價值閉環目前沒找到,現在只是發布一個會疊樂高、疊衣服的demo,這種場景的商業化落地在哪里?大家怎么跟,投入多少,我覺得都會影響從GPT2到GPT3的進展。比如說像宇樹、智元等行業第一梯隊的具身公司都跟進嘗試的話,是不是GPT3才會來?
白鯨實驗室:有一位行業人,把今年的具身智能比作2015年的自動駕駛。
丁琰:我覺得這種比較沒意義,這完全是兩個賽道。自動駕駛可以一家獨大的,只需要在車里面搭載個系統,最后牌桌上剩幾個玩家。但是機器人最后不可能只剩下三個玩家。機器人市場很分散,因為場景太多了,至少相當一段時間,不可能一家公司的模型把所有的場景全吃掉。
白鯨實驗室:我之前有看到一位具身智能行業里的人,說大廠的成本很抽象,買幾千張顯卡審批很容易,但是采購上百臺這個機器人卻很難,對現在剛畢業的具身行業的年輕人,你會建議他們先去大廠還是初創公司?
丁琰:這個事兒其實也挺難說,因人而異吧。在創業公司,有一種共同做事業的感覺。在大廠就有點像領工資那種狀態,沒有自由,但更穩定一些。就是看你想要以什么樣的心態去做事。
大廠的戰略目標,可能會更加細致具體,對于下面的員工而言就是要堅決執行。初創公司可能有一點好處,它的打法和戰略調整非常快,每個人做的事情也更有靈活性。
撰寫|劉培
編輯|八尺
「白鯨實驗室」原創文章
轉載、交流、合作請添加微信:liujiaquan2025
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.