![]()
圖來自魔搭社區
極佳視界在具身行業一直是個獨特的存在。
無論是脫胎于華為的智元機器人,還是當紅炸子雞宇樹科技,圍繞的還是本體、數據采集和感知檢測等生態,算法研究較少。華為一位具身智能研究員說,“大家都在賣鏟子,只有極佳在挖金礦”。
至少半年前,在具身領域挖金礦并不被視為一門好生意。當宇樹機器人在春晚上依靠扭秧歌一炮而紅,智元機器人量產機穩步走進工業場景時,外界很少會關注一個每年發布至少數十篇論文,試圖參透機器人大腦在物理世界運行規律的公司。
在之前的各種具身智能榜單中,極佳視界鮮有露出。但是在車圈,極佳視界又無人不曉。理想、小鵬、小米、比亞迪、大眾、奔馳等頭部車企幾乎都是它的客戶,“在自動駕駛世界模型領域,幾無對手。”極佳視界的聯合創始人兼首席科學家朱政說。
車廠掌握絕對話語權的產業體系下,自動駕駛只是極佳視界商業化落地的過渡場景。真正值得挖掘的金礦,是極佳視界所錨定的物理世界“OpenAI”——具身智能。
先行者總會率先得到犒賞。過去三年,極佳在迭代的數千個模型里不斷探索邊界,到2026年春節,模型測試結果中浮現出新范式:在完成多任務或few shot訓練上,VLA更像是大語言模型早期的BERT模型,無法Scaling(規模化擴展,通俗理解就是大力出奇跡),世界模型才是下一代的“ChatGPT”。
極佳視界早在2023年成立時就瞄準世界模型,國內外幾乎沒有任何可對照的坐標。這家公司團隊組成,實際上也符合中國投資圈的典型審美——創業團隊出自明星公司,有自己的技術堅持和量產經驗,核心成員紐帶緊密,分工默契。
創始人、CEO黃冠和朱政同出自清華大學自動化系,也是國內最早做機器人視覺感知業務的大牛級人物。黃冠是自動駕駛芯片公司地平線早期視覺感知技術的核心人員,也是一位連續創業者。朱政角色更像是技術舵手,連續四年入選斯坦福大學的“全球前2%頂尖科學家榜單”,今年3月還被阿里魔搭社區評選為EAI具身先鋒人物TOP20。
另一位創始人孫韶言曾任阿里云總監、地平線數據閉環產品線總經理,副總裁毛繼明曾是百度Apollo仿真技術負責人。
去年10月,極佳視界獲得華為哈勃的投資,此后估值便一路飆升。據了解,僅2026年前三個月,極佳視界已連續完成三輪融資,估值較此前翻升三倍,迅速躋身百億獨角獸行列。
以下是《白鯨實驗室》和朱政的對話,為了文本閱讀方便,我們做了精簡處理。
01
VLA模型的Scaling失效了
白鯨實驗室:從去年十月開始,你們的融資節奏很快,基本上一個月封閉一輪。我了解到你們今年3個月估值已經翻了3倍,現在也躋身百億估值獨角獸。投資人到底在為什么敘事激動?
朱政:具身領域的世界模型,比語言模型整體發展節奏上要晚幾年,但發展邏輯大致相似。從資本角度上看,隨著國內上市的智譜、MiniMax市值上漲到2000-4000億人民幣,資本看好世界模型再造個千億市值的公司。
從技術上看,世界模型來到了拐點時刻。現在流行的VLA模型(vision—language- action),不管自動駕駛還是具身領域,更像是早期的BERT模型(谷歌2018年推出的,在ChatGPT走紅之前,BERT是NLP時代最具標志性的模型),大家意識到世界模型才是接下來的GPT,即將迎來新一輪的爆發,這兩年增速會非常快。
我們做過很多實驗發現,VLA在數據Scaling上面比較低效。
世界模型更容易實現Scaling,我們給世界模型加到數十萬小時的數據,在一些簡單的多任務的表現上,有80、90%成功率,已經超過VLA的60、70%。這是我們最近一個最重要的發現。
白鯨實驗室:這個是共識嗎?
朱政:可能有同行已經發現了,但還沒人對外講。
在對比實驗中,當把VLA預訓練的數據,從一萬小時加到數十萬小時,Scaling效果比較緩慢。現在VLA,需要針對單一的業務場景收集非常多的訓練數據,做后訓練。
比如為了學會沖咖啡、疊衣服、倒水,會給它單一業務的數據做后訓練。這樣成功率會比較高,基本上接近百分百。但這樣的模型沒有泛化能力,一個模型只能干一件事,換個任務,需要再重新后訓練。
第二,VLA模型沒有zero shot、few shot或者one shot能力。當針對一些特殊場景,模型后訓練數據只有一條或者幾條時,模型也能迅速學會這個場景技能。世界模型在這方面很有潛力,只要給出幾條數據,就能有不錯的表現。
這個春節前后,我們基本上斷定,世界模型會代替VLA。
白鯨實驗室:業內很多人包括宇樹的王興興就曾質疑VLA表現不好,不過后來遭到理想汽車自動駕駛研發副總裁郎咸朋(現已離職)的反駁,他說VLA就是自動駕駛最好的模型方案,也是通往下一代機器人系統的通用架構,世界模型只是VLA的“考場”。你怎么看?
朱政:自動駕駛場景下的VLA和世界模型的差別,跟具身不一樣。因為自動駕駛行業有海量的數據訓VLA,而且自動駕駛的任務多是單一任務,VLA模型可以完成的很好。
而具身場景下,機器人完成的通常是多任務,以及泛化場景,我認為世界模型更有優勢。
從第一性原理上看,VLA本質是多模態模型,它的預訓練范式就是圖文對的匹配,把所有輸入映射成語言,導出action。語言對action幫助不大。一個最直接的例子是許多動物也沒有自己的語言系統,但也不妨礙它的運動能力。
只不過現在語言模型、多模態模型比較發達,現在市場通用做法是繼承多模態模型的訓練權重,再利用機器人數據訓練action能力,我們認為這個方式上限有限,用視頻生成方式,也就是世界模型訓練可以實現更好的效果。
白鯨實驗室:聽起來這個結論得出并不難,為什么大家之前不敢下這個判斷?
朱政:現在大部分VLA,是通過后訓練做單一任務。增加預訓練數據的同時,再通過后訓練,確實能讓單一任務的成功率往上提。大家對VLA關注點還停留在單一任務的完成上,很少有人去嘗試多任務和few shot的訓練,在多任務和few shot的訓練上,很多人很快會發現問題。
白鯨實驗室:你們覺得在資本市場上受歡迎,是因為數據的嘗試?
朱政:不只是數據,最重要的還是模型架構。如果沒人研究出GPT模型,都用BERT模型。數據再多,也無法Scaling,這是VLA模型和世界模型最本質的差別。
白鯨實驗室:小鵬汽車今年3月推出第二代VLA,去掉中間的language轉譯,被視為探索物理模型的新范式。你們怎么理解和區分VLA和世界模型?
朱政:小鵬汽車的第二代VLA已經接近世界模型了。VLA和世界模型的區別還是基模不同,VLA的基模是VLM,由LLM衍生出的視覺模型。本質上是它更傾向于看見畫面,理解成語言然后映射動作。
而世界模型的基模是視頻生成模型,是基于一段視頻或者狀態,預測和推演下一個畫面。
白鯨實驗室:2025年的風口是VLA ,今年開始轉向世界模型,但目前世界模型技術路線分歧還挺大的,你覺得現在過于炒作了嗎?
朱政:世界模型的概念其實很早就出現了。上個世紀說的世界模型,主要是說機器人本體對外部世界的建模,類比人在自然界的生存,需要對世界怎么演進有基本的認識和判斷,機器人也需要對世界的基本認識,做出預測和研判。
從應用場景上看,很多產品也可以稱之為世界模型。有時候,SORA也自稱為世界模型。圖靈獎得主Yann Lecun做的是對隱空間的預測,也稱為世界模型,李飛飛做單圖可以生成3D世界,人可以在里面自由漫游,因為包括預測能力,她也稱之為世界模型。
上面提到的這幾個世界模型還是通用場景,我們主要關注還是自動駕駛和具身領域的世界模型,確實世界模型比較有潛力,所以覺得大家關注屬于正常。
白鯨實驗室:問一個略顯套路的問題,在技術轉身中,更加堅定的是什么?
朱政:更加堅定的是,世界模型才是最后的出路。無論自動駕駛還是具身領域,當前世界模型比較成熟的應用都是在一線的生成數據,各種數據的泛化。
我們推進世界模型,主要做兩塊,一是Action world model,在世界模型上疊加各種x condition后,跟強化學習結合起來,作為強化學習的一個閉環模擬器。
大家都知道強化學習對具身或自動駕駛是非常重要的,之前做的更偏向真機強化學習,效率比較低,也比較危險。世界模型和真機強化學習結合起來,可以為強化學習提升 Scaling效率,也可以拿世界模型來做evaluator,代替真機的評測。這個世界模型主要是服務VLA,因為這部分工業場景或泛服務場景最先落地還是VLA。
第二個就是大家講的WAM(World Action Model)。用世界模型直接出動作代替掉VLA。這個主要是面向家庭場景。
白鯨實驗室:所以第一個模型相當于是第二個模型的過渡嗎?
朱政:對,第一個既是過渡,也是終局,因為仿真器很重要。
白鯨實驗室:有沒有逐漸祛魅的?
朱政:就是VLA的上限確實容易飽和。
02
要做物理世界的OpenAI
白鯨實驗室: 2023年6月,當時生成式AI還沒有爆發,你們當時就all in世界模型,是看到什么具體信號嗎?
朱政:22年底,ChatGPT出來后,我們試用過很多次,認為這會徹底改變所有的游戲規則。我們是做視覺出身的,當時就想著如何利用ChatGPT的技術思路,做一個視覺版的GPT。
白鯨實驗室:你們做融資的同學也提到,你們想要成為物理世界的OpenAI,這給我的印象你們確實是一個野心很大的團隊。
朱政:是的,我可以非常直白的說,24年估值還只有十億時,我們就有這種目標。當時為了對標大語言模型的OpenAI,我們當時定的目標是千億估值。
到今天還是這個目標,雖然現在估值到了100億,還遠未實現目標。MiniMax 、智譜現在市值2000-4000億人民幣,我們認為自己是可以和它們對標的。
白鯨實驗室:今年以來,好多都在轉向世界模型。怎么判斷你們研究的是GPT,其他的人不是GPT呢?
朱政:23年,無論業界還是學術界,都很少探索世界模型時,我們就開始做世界模型,當時落地比較成熟的是自動駕駛。為了做好世界模型,同時也做了許多VLA模型。
白鯨實驗室:你覺得你們最先跑出來的優勢是什么?
朱政:我覺得最重要的因素是我們做的比別人久,踩的坑也多。因為模型是需要大量訓練,沒人敢說一次訓練就成功。很可能99%的模型都是失敗的。只有剩下的1%的模型才能提供正確的方向,校正模型路線。這對團隊要求很高,也是非常細致的功夫,是需要經驗積累的。
白鯨實驗室:你們做過多少次實驗?
朱政:算上VLA模型和世界模型,我們訓練了幾千個模型。(成立不到3年,這樣算下來每天至少要訓練出一個模型)
白鯨實驗室:創業以來,有讓你始料未及的嗎?
朱政:我想想,我們剛開始時還是受自動駕駛的影響比較大,沒想到具身智能行業會這么火。
自動駕駛其實是我們的一個舒適區。我們非常了解車企,需要什么樣的數據和閉環仿真器,交流無障礙。公司營收每年大概有幾千萬,當時的產品線、技術比較收斂,交付的也快。
當我們幾乎和所有頭部車企合作后,發現自動駕駛是存量生意,具身智能可能是是未來更有想象力的一件事情。24年下半年開始把重心傾斜到具身智能。
但具身對我們來講,確實是一個全新的市場,和傳統車企不一樣。當時的具身行業只有本體制造商,如宇樹、眾擎、星動紀元,本身也都是創業公司,機器人也沒像汽車成為標準產品,即使到現在機器人還沒有量產,部分處在半量產的階段。
大腦可能更明顯。行業此前主要做小腦比較多,擅長運動控制,類似翻跟頭、跳舞、跑步等動作。大腦還處在一個初步探索的早期階段,我們其實也是從零開始做,同時做VLA和世界模型,中間踩了很多坑。
白鯨實驗室:踩了很多的坑,是指什么?
朱政:我覺得最大的坑是一開始沒有做本體,采用一腦多型的戰術,即用一個大腦去適配所有的本體。
一開始,我們幾乎嘗試了市面上的所有機器人本體,采集數據,訓練模型,后來我發現這個戰術實在太激進了,純粹是給自己添堵。一方面訓練VLA或世界模型其實離不開本體,因為你需要用本體采集數據。
另一方面,還有一個很現實的問題,市面上的本體雖然會開放各種API接口,但各種底層的設計是不會對外開放的,底層的很多設計,即使覺得不合理,也只能接受。
我們最后決定,收斂到一腦一型,自己造本體,用自研本體采集數據,再將訓出來的模型部署在自研本體上。這樣可以給用戶最好的體驗。
白鯨實驗室:當時這個階段用了多久?
朱政:我們大概折騰了將近半年的時間吧。
白鯨實驗室:當時業內在這方面還沒有形成共識?
朱政:我覺得每個行業都會存在類似的問題。行業剛興起時,大家都會抱以極大的熱情解決終極問題,即一腦多型的問題,希望自己的算法可以跑在任意一臺本體上,不依賴于特定的本體。
就像安卓系統一樣,可以跑在不同的手機平臺上。做技術的人容易過度的樂觀,覺得技術可以改變一切,一上來就解決最終極的問題。很快,人會冷靜下來。
白鯨實驗室:在晚點的報道中,2025年賈鵬從理想出來創辦至簡具身公司時,理想汽車CEO對他說,第一個做的大概率會死,但做成的會屬于第一批的人。你們算是國內最早開始做世界模型的,會有這種壓力嗎?
朱政:完全沒有,因為參考語言模型、多模態模型的進展,我覺得市場會獎勵先行者的。
白鯨實驗室:會擔心出現大語言模型里的“DeepSeek效應”嗎?
朱政:DeepSeek R1出來后,語言模型六小虎,大概分成兩派。第一派就是放棄做基模,轉向其他的垂直領域。另外一派是迎難而上,他們相信DeepSeek能干出來,自己也能干出來。我們屬于后者。
白鯨實驗室:你們更想成為大語言模型第一梯隊里的誰?Kimi、智譜還是MiniMax?
朱政:語言模型可能會分化比較嚴重,有的模型比較適合做coding,有的模型可能比較適合做agent,有的模型各項能力比較綜合。
現在具身基模還沒到談論這一步的時候。它現在最大的問題是還沒有出現涌現能力,它的泛化能力還沒有辦法達到人們的基本要求。現在談這事還比較遙遠。
所以未來大家的具身基模會更有自己的特性。有的具身基模做菜做特別好吃,法餐、中餐八大菜系都會做。有的機器人擅長打掃房間、做家務活。有的特別適合做養老陪護、照顧老人。我判斷可能在2028年會有一個初步的答案。
03
把數據統一起來訓練模型
白鯨實驗室:去年十月,我和智元機器人姚卯青院長聊時,他提到行業大部分用的還是真機數據,占到9成以上,仿真數據占比非常小。這個比例有變化嗎?
朱政:目前大家對于真機數據占比還沒有統一的結論。針對不同場景,比例是可以動態變化的。
有些泛化性要求特別高的,比如說光照變化,那就需要更多的仿真數據來模擬光照的變化。有些場景不需要那么多泛化數據,真機數據直接訓就可以。
白鯨實驗室:我記得你們去年發布模型GigaBrain-0時提到,仿真數據占到九成,泛化能力會提升很多。
朱政:當時真機數據積累的比較少,整個數據只有幾千小時。我們使用真機數據只占了10%,其余9成是世界模型生成數據。我們最新版本GigaBrain-0.5,因為我們積累的真機數據有幾萬個小時,占比提升到40%,世界模型數據占比60%。
白鯨實驗室:世界模型生成的訓練數據和采集的真機數據相比,在模型的泛化能力上差異有多大?
朱政:這個主要看測試集怎么定義。
假如你的測試集上的任務訓練的都是真機數據沒有見過的任務,比如某些泛化要求比較高的場景,疊衣服,顏色、紋理、光照頻繁變化,世界模型數據對提升泛化性肯定更好。
白鯨實驗室:去年11月Generalist發布了一個具身模型,它當時用了27萬小時,你們做的基模現在GigaBrain-0.5才用幾萬小時。是不是和國外具身模型差距很大?
朱政:我覺得VLA模型不存在這個問題。就像剛才講的,我們其實給VLA增加很多數據,但是發現它比較低效。更多數據訓世界模型才更合理。
白鯨實驗室:現在許多數據,既有遙操作數據,去年UMI數據也很火,你們主要使用的是哪類數據?
朱政:上面提到的幾十萬小時數據主要是真機數據。現在市場上對數據的注意力轉移很快。去年因為受Sunday影響,大家對UMI數據關注度很高,最近英偉達發布的研究帶火了Ego數據(人類作為第一視角搜集到的視頻)。
我們對各種數據都持開放態度,期望能統一遙操數據、UMI數據、世界模型數據、互聯網數據和Ego數據,訓練世界模型。
白鯨實驗室:統一的難度是什么?
朱政:每種數據定義的空間、數據格式都不一樣,重點是重定向。比如你把UMI數據、Ego數據,全都映射到機械臂上,機械臂、手腕怎么映射。想讓這些數據互補,統一起來非常困難。現在我們正在嘗試解決這個問題。
我們不可能什么數據火了,就迅速轉向這個數據,其他數據就完全不用了。我們認為把這些數據統一起來,是最好的方式。
04
六邊形戰士更容易成功
白鯨實驗室:你們深入一個全新的領域,既做VLA又做世界模型。你有過公司不夠聚焦的時刻嗎?
朱政:沒有,我反而覺得這是優點。我們同時做世界模型和VLA,會對兩者的邊界和上限有更清楚的理解,我覺得這是一種非常好的狀態。
我們鼓勵研究員有好奇心和求知欲,沒有大公司的條條框框約束。實際上很多創新都是自下而上驅動的,一些VLA和世界模型的原型,甚至是一些非常年輕的剛畢業同學,實習生完成的,大家完全是憑著自身對技術的理解和興趣。
白鯨實驗室:世界模型,在具身領域,離真正實現物理交互還有多遠?
朱政:現在模型對于物理規律的理解,還處在一個比較初步的階段。它現在能初步理解物理世界的基本規律,比如摩擦力等等。但是說更深層次的因果推理和反事實,還是比較困難。
白鯨實驗室:這有多遠?
朱政:我對這個事比較樂觀。用不了十年,我覺得還是近兩年的事。
白鯨實驗室:你們怎么定義具身基座模型到了GPT3時刻?
朱政:其實我們內部建了一個測試集,覆蓋幾十種場景,數百種任務。我們覺得GPT3時刻,至少應該在幾百種任務上完成度上達到95%成功率。這些場景非常綜合,包括工業場景,服務場景,市面上能見到的各種demo,能想象到的場景基本上都有。
白鯨實驗室:目前成功率能達到多少?
朱政:世界模型還沒有全量任務測過。我們挑部分比較典型的代表性任務測試,VLA大概可以做到百分之六七十,世界模型可以做到百分之八九十。
白鯨實驗室:這個測評集會開源嗎?
朱政:后續會考慮的。
白鯨實驗室:上個月,你入選魔搭社區的EAI Pioneer 20,這些先鋒人物被稱為中國具身智能中國坐標的刻畫者。魔搭社區正在搭建具身智能的開源社區,你們之間具體如何合作?
朱政:我們的具身基模開源,主要使用者還是國內用戶,如果只是放在Hugging Face上很不方便,我們會同步放在阿里云的魔搭社區上。
開源是一件對行業有益的事情,也能促進社區的發展,通過開源吸引更多開發者參與,要遠超過單一公司力量。我們通過把模型包括GigaBrain-0、GigaWorld-Policy等都開源,上傳到像魔搭社區的開源社區網站上,帶來的效果令人驚喜。很多開發者在使用模型的過程中提供了一些不錯的改進方法,都被我們吸收進代碼庫了。
白鯨實驗室:今年以來,我看具身賽道分化出兩類創業者。一類要做六邊形戰士,全棧布局。一類是更聚焦和收縮。你怎么看這種分化?哪一種更容易成功?
朱政:我覺得做六邊形戰士還是很有必要的。因為現在很多事都還沒有收斂的地步,至少要充分探索。我們始終覺得基模機會是最大的,而要做基模,本體、場景和數據都很重要。
白鯨實驗室:你們做融資的同學也提到到2028年人型機器人將迎來一個重要的拐點,業內判斷可能要更久。
朱政:對,我們認為2028年是判斷人形機器人能否初步進入家庭的重要節點。
因為現在模型泛化性能,剛才講的one shot、few shot能力還不夠,沒有辦法適應家庭的非結構化場景。但是進展非常快,我們因此判斷,2028年前,就是具身基模單一模型做多任務,以及few shot都可以實現。
撰寫|劉培
編輯|八尺
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.