網易首頁 > 網易號 > 正文申請入駐

對話極佳視界朱政：新晉百億獨角獸，要做物理世界的OpenAI

2026-04-09 20:21:16　來源: 白鯨實驗室one

北京舉報

分享至

圖來自魔搭社區

極佳視界在具身行業一直是個獨特的存在。

無論是脫胎于華為的智元機器人，還是當紅炸子雞宇樹科技，圍繞的還是本體、數據采集和感知檢測等生態，算法研究較少。華為一位具身智能研究員說，“大家都在賣鏟子，只有極佳在挖金礦”。

至少半年前，在具身領域挖金礦并不被視為一門好生意。當宇樹機器人在春晚上依靠扭秧歌一炮而紅，智元機器人量產機穩步走進工業場景時，外界很少會關注一個每年發布至少數十篇論文，試圖參透機器人大腦在物理世界運行規律的公司。

在之前的各種具身智能榜單中，極佳視界鮮有露出。但是在車圈，極佳視界又無人不曉。理想、小鵬、小米、比亞迪、大眾、奔馳等頭部車企幾乎都是它的客戶，“在自動駕駛世界模型領域，幾無對手。”極佳視界的聯合創始人兼首席科學家朱政說。

車廠掌握絕對話語權的產業體系下，自動駕駛只是極佳視界商業化落地的過渡場景。真正值得挖掘的金礦，是極佳視界所錨定的物理世界“OpenAI”——具身智能。

先行者總會率先得到犒賞。過去三年，極佳在迭代的數千個模型里不斷探索邊界，到2026年春節，模型測試結果中浮現出新范式：在完成多任務或few shot訓練上，VLA更像是大語言模型早期的BERT模型，無法Scaling(規模化擴展，通俗理解就是大力出奇跡)，世界模型才是下一代的“ChatGPT”。

極佳視界早在2023年成立時就瞄準世界模型，國內外幾乎沒有任何可對照的坐標。這家公司團隊組成，實際上也符合中國投資圈的典型審美——創業團隊出自明星公司，有自己的技術堅持和量產經驗，核心成員紐帶緊密，分工默契。

創始人、CEO黃冠和朱政同出自清華大學自動化系，也是國內最早做機器人視覺感知業務的大牛級人物。黃冠是自動駕駛芯片公司地平線早期視覺感知技術的核心人員，也是一位連續創業者。朱政角色更像是技術舵手，連續四年入選斯坦福大學的“全球前2%頂尖科學家榜單”，今年3月還被阿里魔搭社區評選為EAI具身先鋒人物TOP20。

另一位創始人孫韶言曾任阿里云總監、地平線數據閉環產品線總經理，副總裁毛繼明曾是百度Apollo仿真技術負責人。

去年10月，極佳視界獲得華為哈勃的投資，此后估值便一路飆升。據了解，僅2026年前三個月，極佳視界已連續完成三輪融資，估值較此前翻升三倍，迅速躋身百億獨角獸行列。

以下是《白鯨實驗室》和朱政的對話，為了文本閱讀方便，我們做了精簡處理。

VLA模型的Scaling失效了

白鯨實驗室：從去年十月開始，你們的融資節奏很快，基本上一個月封閉一輪。我了解到你們今年3個月估值已經翻了3倍，現在也躋身百億估值獨角獸。投資人到底在為什么敘事激動？

朱政：具身領域的世界模型，比語言模型整體發展節奏上要晚幾年，但發展邏輯大致相似。從資本角度上看，隨著國內上市的智譜、MiniMax市值上漲到2000-4000億人民幣，資本看好世界模型再造個千億市值的公司。

從技術上看，世界模型來到了拐點時刻。現在流行的VLA模型（vision—language- action），不管自動駕駛還是具身領域，更像是早期的BERT模型（谷歌2018年推出的，在ChatGPT走紅之前，BERT是NLP時代最具標志性的模型），大家意識到世界模型才是接下來的GPT，即將迎來新一輪的爆發，這兩年增速會非常快。

我們做過很多實驗發現，VLA在數據Scaling上面比較低效。

世界模型更容易實現Scaling，我們給世界模型加到數十萬小時的數據，在一些簡單的多任務的表現上，有80、90%成功率，已經超過VLA的60、70%。這是我們最近一個最重要的發現。

白鯨實驗室：這個是共識嗎？

朱政：可能有同行已經發現了，但還沒人對外講。

在對比實驗中，當把VLA預訓練的數據，從一萬小時加到數十萬小時，Scaling效果比較緩慢。現在VLA，需要針對單一的業務場景收集非常多的訓練數據，做后訓練。

比如為了學會沖咖啡、疊衣服、倒水，會給它單一業務的數據做后訓練。這樣成功率會比較高，基本上接近百分百。但這樣的模型沒有泛化能力，一個模型只能干一件事，換個任務，需要再重新后訓練。

第二，VLA模型沒有zero shot、few shot或者one shot能力。當針對一些特殊場景，模型后訓練數據只有一條或者幾條時，模型也能迅速學會這個場景技能。世界模型在這方面很有潛力，只要給出幾條數據，就能有不錯的表現。

這個春節前后，我們基本上斷定，世界模型會代替VLA。

白鯨實驗室：業內很多人包括宇樹的王興興就曾質疑VLA表現不好，不過后來遭到理想汽車自動駕駛研發副總裁郎咸朋（現已離職）的反駁，他說VLA就是自動駕駛最好的模型方案，也是通往下一代機器人系統的通用架構，世界模型只是VLA的“考場”。你怎么看？

朱政：自動駕駛場景下的VLA和世界模型的差別，跟具身不一樣。因為自動駕駛行業有海量的數據訓VLA，而且自動駕駛的任務多是單一任務，VLA模型可以完成的很好。

而具身場景下，機器人完成的通常是多任務，以及泛化場景，我認為世界模型更有優勢。

從第一性原理上看，VLA本質是多模態模型，它的預訓練范式就是圖文對的匹配，把所有輸入映射成語言，導出action。語言對action幫助不大。一個最直接的例子是許多動物也沒有自己的語言系統，但也不妨礙它的運動能力。

只不過現在語言模型、多模態模型比較發達，現在市場通用做法是繼承多模態模型的訓練權重，再利用機器人數據訓練action能力，我們認為這個方式上限有限，用視頻生成方式，也就是世界模型訓練可以實現更好的效果。

白鯨實驗室：聽起來這個結論得出并不難，為什么大家之前不敢下這個判斷？

朱政：現在大部分VLA，是通過后訓練做單一任務。增加預訓練數據的同時，再通過后訓練，確實能讓單一任務的成功率往上提。大家對VLA關注點還停留在單一任務的完成上，很少有人去嘗試多任務和few shot的訓練，在多任務和few shot的訓練上，很多人很快會發現問題。

白鯨實驗室：你們覺得在資本市場上受歡迎，是因為數據的嘗試？

朱政：不只是數據，最重要的還是模型架構。如果沒人研究出GPT模型，都用BERT模型。數據再多，也無法Scaling，這是VLA模型和世界模型最本質的差別。

白鯨實驗室：小鵬汽車今年3月推出第二代VLA，去掉中間的language轉譯，被視為探索物理模型的新范式。你們怎么理解和區分VLA和世界模型？

朱政：小鵬汽車的第二代VLA已經接近世界模型了。VLA和世界模型的區別還是基模不同，VLA的基模是VLM，由LLM衍生出的視覺模型。本質上是它更傾向于看見畫面，理解成語言然后映射動作。

而世界模型的基模是視頻生成模型，是基于一段視頻或者狀態，預測和推演下一個畫面。

白鯨實驗室：2025年的風口是VLA ，今年開始轉向世界模型，但目前世界模型技術路線分歧還挺大的，你覺得現在過于炒作了嗎？

朱政：世界模型的概念其實很早就出現了。上個世紀說的世界模型，主要是說機器人本體對外部世界的建模，類比人在自然界的生存，需要對世界怎么演進有基本的認識和判斷，機器人也需要對世界的基本認識，做出預測和研判。

從應用場景上看，很多產品也可以稱之為世界模型。有時候，SORA也自稱為世界模型。圖靈獎得主Yann Lecun做的是對隱空間的預測，也稱為世界模型，李飛飛做單圖可以生成3D世界，人可以在里面自由漫游，因為包括預測能力，她也稱之為世界模型。

上面提到的這幾個世界模型還是通用場景，我們主要關注還是自動駕駛和具身領域的世界模型，確實世界模型比較有潛力，所以覺得大家關注屬于正常。

白鯨實驗室：問一個略顯套路的問題，在技術轉身中，更加堅定的是什么？

朱政：更加堅定的是，世界模型才是最后的出路。無論自動駕駛還是具身領域，當前世界模型比較成熟的應用都是在一線的生成數據，各種數據的泛化。

我們推進世界模型，主要做兩塊，一是Action world model，在世界模型上疊加各種x condition后，跟強化學習結合起來，作為強化學習的一個閉環模擬器。

大家都知道強化學習對具身或自動駕駛是非常重要的，之前做的更偏向真機強化學習，效率比較低，也比較危險。世界模型和真機強化學習結合起來，可以為強化學習提升 Scaling效率，也可以拿世界模型來做evaluator，代替真機的評測。這個世界模型主要是服務VLA，因為這部分工業場景或泛服務場景最先落地還是VLA。

第二個就是大家講的WAM(World Action Model）。用世界模型直接出動作代替掉VLA。這個主要是面向家庭場景。

白鯨實驗室：所以第一個模型相當于是第二個模型的過渡嗎？

朱政：對，第一個既是過渡，也是終局，因為仿真器很重要。

白鯨實驗室：有沒有逐漸祛魅的？

朱政：就是VLA的上限確實容易飽和。

要做物理世界的OpenAI

白鯨實驗室： 2023年6月，當時生成式AI還沒有爆發，你們當時就all in世界模型，是看到什么具體信號嗎？

朱政：22年底，ChatGPT出來后，我們試用過很多次，認為這會徹底改變所有的游戲規則。我們是做視覺出身的，當時就想著如何利用ChatGPT的技術思路，做一個視覺版的GPT。

白鯨實驗室：你們做融資的同學也提到，你們想要成為物理世界的OpenAI，這給我的印象你們確實是一個野心很大的團隊。

朱政：是的，我可以非常直白的說，24年估值還只有十億時，我們就有這種目標。當時為了對標大語言模型的OpenAI，我們當時定的目標是千億估值。

到今天還是這個目標，雖然現在估值到了100億，還遠未實現目標。MiniMax 、智譜現在市值2000-4000億人民幣，我們認為自己是可以和它們對標的。

白鯨實驗室：今年以來，好多都在轉向世界模型。怎么判斷你們研究的是GPT，其他的人不是GPT呢？

朱政：23年，無論業界還是學術界，都很少探索世界模型時，我們就開始做世界模型，當時落地比較成熟的是自動駕駛。為了做好世界模型，同時也做了許多VLA模型。

白鯨實驗室：你覺得你們最先跑出來的優勢是什么？

朱政：我覺得最重要的因素是我們做的比別人久，踩的坑也多。因為模型是需要大量訓練，沒人敢說一次訓練就成功。很可能99%的模型都是失敗的。只有剩下的1%的模型才能提供正確的方向，校正模型路線。這對團隊要求很高，也是非常細致的功夫，是需要經驗積累的。

白鯨實驗室：你們做過多少次實驗？

朱政：算上VLA模型和世界模型，我們訓練了幾千個模型。（成立不到3年，這樣算下來每天至少要訓練出一個模型）

白鯨實驗室：創業以來，有讓你始料未及的嗎？

朱政：我想想，我們剛開始時還是受自動駕駛的影響比較大，沒想到具身智能行業會這么火。

自動駕駛其實是我們的一個舒適區。我們非常了解車企，需要什么樣的數據和閉環仿真器，交流無障礙。公司營收每年大概有幾千萬，當時的產品線、技術比較收斂，交付的也快。

當我們幾乎和所有頭部車企合作后，發現自動駕駛是存量生意，具身智能可能是是未來更有想象力的一件事情。24年下半年開始把重心傾斜到具身智能。

但具身對我們來講，確實是一個全新的市場，和傳統車企不一樣。當時的具身行業只有本體制造商，如宇樹、眾擎、星動紀元，本身也都是創業公司，機器人也沒像汽車成為標準產品，即使到現在機器人還沒有量產，部分處在半量產的階段。

大腦可能更明顯。行業此前主要做小腦比較多，擅長運動控制，類似翻跟頭、跳舞、跑步等動作。大腦還處在一個初步探索的早期階段，我們其實也是從零開始做，同時做VLA和世界模型，中間踩了很多坑。

白鯨實驗室：踩了很多的坑，是指什么？

朱政：我覺得最大的坑是一開始沒有做本體，采用一腦多型的戰術，即用一個大腦去適配所有的本體。

一開始，我們幾乎嘗試了市面上的所有機器人本體，采集數據，訓練模型，后來我發現這個戰術實在太激進了，純粹是給自己添堵。一方面訓練VLA或世界模型其實離不開本體，因為你需要用本體采集數據。

另一方面，還有一個很現實的問題，市面上的本體雖然會開放各種API接口，但各種底層的設計是不會對外開放的，底層的很多設計，即使覺得不合理，也只能接受。

我們最后決定，收斂到一腦一型，自己造本體，用自研本體采集數據，再將訓出來的模型部署在自研本體上。這樣可以給用戶最好的體驗。

白鯨實驗室：當時這個階段用了多久？

朱政：我們大概折騰了將近半年的時間吧。

白鯨實驗室：當時業內在這方面還沒有形成共識？

朱政：我覺得每個行業都會存在類似的問題。行業剛興起時，大家都會抱以極大的熱情解決終極問題，即一腦多型的問題，希望自己的算法可以跑在任意一臺本體上，不依賴于特定的本體。

就像安卓系統一樣，可以跑在不同的手機平臺上。做技術的人容易過度的樂觀，覺得技術可以改變一切，一上來就解決最終極的問題。很快，人會冷靜下來。

白鯨實驗室：在晚點的報道中，2025年賈鵬從理想出來創辦至簡具身公司時，理想汽車CEO對他說，第一個做的大概率會死，但做成的會屬于第一批的人。你們算是國內最早開始做世界模型的，會有這種壓力嗎？

朱政：完全沒有，因為參考語言模型、多模態模型的進展，我覺得市場會獎勵先行者的。

白鯨實驗室：會擔心出現大語言模型里的“DeepSeek效應”嗎？

朱政：DeepSeek R1出來后，語言模型六小虎，大概分成兩派。第一派就是放棄做基模，轉向其他的垂直領域。另外一派是迎難而上，他們相信DeepSeek能干出來，自己也能干出來。我們屬于后者。

白鯨實驗室：你們更想成為大語言模型第一梯隊里的誰？Kimi、智譜還是MiniMax？

朱政：語言模型可能會分化比較嚴重，有的模型比較適合做coding，有的模型可能比較適合做agent，有的模型各項能力比較綜合。

現在具身基模還沒到談論這一步的時候。它現在最大的問題是還沒有出現涌現能力，它的泛化能力還沒有辦法達到人們的基本要求。現在談這事還比較遙遠。

所以未來大家的具身基模會更有自己的特性。有的具身基模做菜做特別好吃，法餐、中餐八大菜系都會做。有的機器人擅長打掃房間、做家務活。有的特別適合做養老陪護、照顧老人。我判斷可能在2028年會有一個初步的答案。

把數據統一起來訓練模型

白鯨實驗室：去年十月，我和智元機器人姚卯青院長聊時，他提到行業大部分用的還是真機數據，占到9成以上，仿真數據占比非常小。這個比例有變化嗎？

朱政：目前大家對于真機數據占比還沒有統一的結論。針對不同場景，比例是可以動態變化的。

有些泛化性要求特別高的，比如說光照變化，那就需要更多的仿真數據來模擬光照的變化。有些場景不需要那么多泛化數據，真機數據直接訓就可以。

白鯨實驗室：我記得你們去年發布模型GigaBrain-0時提到，仿真數據占到九成，泛化能力會提升很多。

朱政：當時真機數據積累的比較少，整個數據只有幾千小時。我們使用真機數據只占了10%，其余9成是世界模型生成數據。我們最新版本GigaBrain-0.5，因為我們積累的真機數據有幾萬個小時，占比提升到40%，世界模型數據占比60%。

白鯨實驗室：世界模型生成的訓練數據和采集的真機數據相比，在模型的泛化能力上差異有多大？

朱政：這個主要看測試集怎么定義。

假如你的測試集上的任務訓練的都是真機數據沒有見過的任務，比如某些泛化要求比較高的場景，疊衣服，顏色、紋理、光照頻繁變化，世界模型數據對提升泛化性肯定更好。

白鯨實驗室：去年11月Generalist發布了一個具身模型，它當時用了27萬小時，你們做的基模現在GigaBrain-0.5才用幾萬小時。是不是和國外具身模型差距很大？

朱政：我覺得VLA模型不存在這個問題。就像剛才講的，我們其實給VLA增加很多數據，但是發現它比較低效。更多數據訓世界模型才更合理。

白鯨實驗室：現在許多數據，既有遙操作數據，去年UMI數據也很火，你們主要使用的是哪類數據？

朱政：上面提到的幾十萬小時數據主要是真機數據。現在市場上對數據的注意力轉移很快。去年因為受Sunday影響，大家對UMI數據關注度很高，最近英偉達發布的研究帶火了Ego數據（人類作為第一視角搜集到的視頻）。

我們對各種數據都持開放態度，期望能統一遙操數據、UMI數據、世界模型數據、互聯網數據和Ego數據，訓練世界模型。

白鯨實驗室：統一的難度是什么？

朱政：每種數據定義的空間、數據格式都不一樣，重點是重定向。比如你把UMI數據、Ego數據，全都映射到機械臂上，機械臂、手腕怎么映射。想讓這些數據互補，統一起來非常困難。現在我們正在嘗試解決這個問題。

我們不可能什么數據火了，就迅速轉向這個數據，其他數據就完全不用了。我們認為把這些數據統一起來，是最好的方式。

六邊形戰士更容易成功

白鯨實驗室：你們深入一個全新的領域，既做VLA又做世界模型。你有過公司不夠聚焦的時刻嗎？

朱政：沒有，我反而覺得這是優點。我們同時做世界模型和VLA，會對兩者的邊界和上限有更清楚的理解，我覺得這是一種非常好的狀態。

我們鼓勵研究員有好奇心和求知欲，沒有大公司的條條框框約束。實際上很多創新都是自下而上驅動的，一些VLA和世界模型的原型，甚至是一些非常年輕的剛畢業同學，實習生完成的，大家完全是憑著自身對技術的理解和興趣。

白鯨實驗室：世界模型，在具身領域，離真正實現物理交互還有多遠？

朱政：現在模型對于物理規律的理解，還處在一個比較初步的階段。它現在能初步理解物理世界的基本規律，比如摩擦力等等。但是說更深層次的因果推理和反事實，還是比較困難。

白鯨實驗室：這有多遠？

朱政：我對這個事比較樂觀。用不了十年，我覺得還是近兩年的事。

白鯨實驗室：你們怎么定義具身基座模型到了GPT3時刻？

朱政：其實我們內部建了一個測試集，覆蓋幾十種場景，數百種任務。我們覺得GPT3時刻，至少應該在幾百種任務上完成度上達到95%成功率。這些場景非常綜合，包括工業場景，服務場景，市面上能見到的各種demo，能想象到的場景基本上都有。

白鯨實驗室：目前成功率能達到多少？

朱政：世界模型還沒有全量任務測過。我們挑部分比較典型的代表性任務測試，VLA大概可以做到百分之六七十，世界模型可以做到百分之八九十。

白鯨實驗室：這個測評集會開源嗎？

朱政：后續會考慮的。

白鯨實驗室：上個月，你入選魔搭社區的EAI Pioneer 20，這些先鋒人物被稱為中國具身智能中國坐標的刻畫者。魔搭社區正在搭建具身智能的開源社區，你們之間具體如何合作？

朱政：我們的具身基模開源，主要使用者還是國內用戶，如果只是放在Hugging Face上很不方便，我們會同步放在阿里云的魔搭社區上。

開源是一件對行業有益的事情，也能促進社區的發展，通過開源吸引更多開發者參與，要遠超過單一公司力量。我們通過把模型包括GigaBrain-0、GigaWorld-Policy等都開源，上傳到像魔搭社區的開源社區網站上，帶來的效果令人驚喜。很多開發者在使用模型的過程中提供了一些不錯的改進方法，都被我們吸收進代碼庫了。

白鯨實驗室：今年以來，我看具身賽道分化出兩類創業者。一類要做六邊形戰士，全棧布局。一類是更聚焦和收縮。你怎么看這種分化？哪一種更容易成功？

朱政：我覺得做六邊形戰士還是很有必要的。因為現在很多事都還沒有收斂的地步，至少要充分探索。我們始終覺得基模機會是最大的，而要做基模，本體、場景和數據都很重要。

白鯨實驗室：你們做融資的同學也提到到2028年人型機器人將迎來一個重要的拐點，業內判斷可能要更久。

朱政：對，我們認為2028年是判斷人形機器人能否初步進入家庭的重要節點。

因為現在模型泛化性能，剛才講的one shot、few shot能力還不夠，沒有辦法適應家庭的非結構化場景。但是進展非常快，我們因此判斷，2028年前，就是具身基模單一模型做多任務，以及few shot都可以實現。

撰寫｜劉培

編輯｜八尺

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.