文|肖漫
編輯|李勤
當下的智能汽車領域,物理 AI 已成為高頻詞匯,絕大多數智能駕駛算法廠商都在往“物理AI”轉型。
卓馭在北京車展上也發布了面向移動物理 AI 的原生多模態基礎模型。在卓馭科技副總裁于貝貝看來,算法廠商向物理AI轉型不是為了迎合資本市場而編織的想象空間,而是一條關乎廠商存亡的生存法則。
“如果不上這條技術路線,很可能今后就跑不出來了。”于貝貝說。
在新的競爭維度上,算法廠商的對手不再僅僅是曾經的同行,還包括那些從數字 AI 領域跨界而來的巨頭、具身智能公司等。
這場全新的競賽讓算法廠商進入全新維度的淘汰賽中,而此次能真正跑出來的玩家,其商業空間也將隨著打開。
基于移動基座模型,卓馭已經開始嘗試打破傳統Tier 1“賣硬件、收開發費”的單一邏輯。在第二增長曲線中,通過將乘用車技術拓展至 Robotaxi、RoboVan 等 L4 級領域,卓馭正在探索一種基于訂閱、利潤分成以及“動作令牌(Action Token)”的新商業形態。
近日,36氪汽車與卓馭科技副總裁于貝貝聊了聊物理AI的底層邏輯、商業化可能性,以及在這場即將開始的淘汰賽中,卓馭又該如何建立護城河。
以下是36氪汽車和卓馭科技副總裁于貝貝的交流內容,經編輯:
36氪:能否詳細介紹一下原生多模態基礎模型?
于貝貝:原生多模態這個概念的提出,可以追溯到去年我們開始做VLA 1.0,那時的做法比較接近視覺與動作對齊的模型,將大語言模型從后面附加上去的,因此存在很多問題,比如對語言和語義理解的局限性,以及響應延遲等。
我們認為把所有信息都轉譯到一個語言空間里去理解,然后再嘗試通過這個語言轉譯的結果去理解物理世界,是一種反常識的做法。
真正合理的路徑是,視覺、音頻、動作都是一個模態、規則或推理也是一個模態,這些都應該在預訓練階段就一并加入,讓模型能夠天生地、在多種模態的共同空間里去理解物理世界,這才是更合適的做法。
36氪:現在有把語言模態拿掉嗎?
于貝貝:當前我們車端模型確實還沒有開放語言這一路輸入。這和小鵬發布的VLA 2.0其實是類似的,我們做的是類似方向的東西,都在向這個范式切換,底層的骨干網絡已經改變了。
36氪:卓馭也進入了VLA2.0的階段?
于貝貝:是的。業界正處于一個范式切換的轉折點,擺在我們面前的選擇是:到底是沿著以前做專家模型這類小模型的范式繼續做下去,還是果斷切到大模型的范式上來。
我們比較看好大模型的范式。如果放在移動物理AI的語境下來看,希望移動能力能夠在各種各樣的載具上使用,這本質上就到達了規模化應用的階段。
大語言模型的歷史經驗告訴我們,以前做視覺語言模型時,也有人做專家模型,有人做通用模型,也就是所謂的基座模型。
現在來看,最終跑出來的是做基座模型的這一批人。以前那些專注于看病的專家模型,其實都沒有真正跑出來。在物理AI領域,我們相信演進的規律是一樣的,因此我們也會堅定地走基礎模型的范式。
36氪:廠商很多玩家都在這么干,但目前也還未能真正訓練出一個可以讓各種不同載體統一接入的模型,本質上大家仍然是在解決車上的問題。
于貝貝:這是分階段推進的。2025年,大家基本上都切換到了數據驅動,這意味著模型的基礎能力已經達到了大概70分的水平。此時,想把它再提升到90分,那20分的差距仍然需要做后訓練、采集數據和做泛化,但是其間的差距已經從當初的40分到80分,縮小為現在70分到90分的差距了。
后續,隨著模型基礎能力進一步提高,我們的目標肯定是做到零樣本泛化,也就是所謂的“開箱即用”。
如果模型能力能夠開箱就達到95分,那么后面的后訓練、泛化、開城等工作幾乎都可以忽略不計。雖然現在還沒有到開箱95分的水平,但已經達到了開箱70分。
36氪:在現階段,卓馭是否已經把各種場景都統一到同一個模型里實際運行過了,并認為它已經可以在各個領域都量產且實現泛化,還是說處于一個比較早期的階段?
于貝貝:在這個時間點,還遠不能說已經做到了開箱即用。什么才是物理AI最終的終極范式,什么樣的架構才能真正理解物理世界,目前業界尚無定論。
36氪:您怎么看待當前大多數方案廠商都在向物理AI方向轉型的現象?這是不是向資本市場講一個更有想象空間的故事?
于貝貝:我們認為這已經不單單是商業或戰略上的選擇,最終應該會上升為一種生存法則層面的事情。如果不上這條技術路線,很可能今后就跑不出來了。
這和大語言模型爆發前夜一樣,以前涌現出很多看病的專家模型,但通用大模型一出來,就把它們都替代掉了,以前的那些最終都沒有跑出來。
36氪:在這個范式下做一個通用模型,但在其他場景下的數據,或者其他前期訓練所需的條件,是不是還不夠充分?
于貝貝:我們現在在訓練自己的基礎模型時,30%的數據來自于車輛采集的真實數據,30%來自于機器人,另外40%來自于互聯網。
這種移動能力的數據,事實上在互聯網上,只需要獲取第一人稱視角的、在移動中的視頻即可,這不一定非得是乘用車或商用車,也可以人走路時拍攝的視頻,這類數據的規模龐大,并且相對容易獲取。
很多企業都宣稱要做移動物理AI,模型能力固然是一方面,但更重要的,具身智能必須部署到一個具體的硬件上去,它的分發過程是很難的。它不像數字AI,可以通過手機實現一傳十、十傳百的病毒式傳播,從一個用戶迅速擴展到上億用戶,傳播極快。
所以,建立一個分發平臺和分發網絡,也是其中非常關鍵的一環,這關乎如何把這個能力具體地部署到移動載具、部署到物理實體上。
36氪:卓馭在分發上是怎么做的?
于貝貝:我們有自己的一套方法,比如與合作伙伴合作,定義硬件的標準,將這個硬件標準定義出來之后,通過合作伙伴進行硬件授權與分發,這屬于硬件分發的部分。
在軟件分發方面,比如我們的移動能力SDK,可以將模型能力封裝成SDK,提供給那些不具備后訓練模型能力的合作伙伴去使用。也可以將其包裝成“移動AI”,也就是把模型做得足夠好之后,將其開源,讓其他方可以基于這個模型去做后訓練,這又是一種分發方式。
還可以直接做成“移動智能體”,未來對于一些低安全、低實時性的應用,比如掃地機器人或割草機,只需要把視頻流傳輸到云端,由云端計算好之后,直接下發一條軌跡給這個小機器,這或許就是另一種分發方式了。
36氪:這幾種分發的方式,是否對應著卓馭的商業收費模式?
于貝貝:是的,而且它們面向的商業場景也都不太一樣。
傳統的方式,像做乘用車或商用車,就是銷售硬件、銷售軟件許可,并收取開發費和非重復性工程費用,我們內部稱作第一增長曲線的業務。
第二增長曲線,則是將乘用車上已經驗證過的技術,拓展到Robotaxi、RoboVan等領域。雖然也賣硬件,也可能收取開發費,但一般不收取軟件許可費。
軟件部分是通過利潤分成來獲取收益的,比如L4級業務,作為服務提供方,需要持續參與軟件的迭代,甚至要參與到運營中去,所以需要一個持續性的收入,這就演變成了訂閱和分潤的模式。
36氪:聽起來第二增長曲線更掙錢。
于貝貝:相比第一增長曲線的收入,其利潤結構是要更好的。
我們可能會有不同的算法分發方式,以“移動智能體”為例,這種分發方式就有點像是在分發所謂的“動作令牌”。
相當于某個消費級電子設備將視頻流傳輸給云端推理的模型,模型再下發一條軌跡,其收費模式可能就是按照該消費級設備的使用次數、行駛里程來收取類似“動作令牌”的費用,這又是另一種形式的訂閱。
36氪:后續運維各方面的東西,都是卓馭來做嗎?
于貝貝:對于L2的系統,本身不涉及到運維。只有到了L4級別才涉及運維,需要有一個所謂的遠程監控系統,始終監控著車輛的運行過程,在必要時進行遠程接管接入。
這有點像過去的安吉星服務,使用這個服務時是需要交費的。一旦車輛啟用了L4功能,無論是干線物流還是乘用車,只要啟用了L4,就需要額外交一部分費用。
甚至以后,乘用車的傳感器配置、算力配置都能夠支持L4級別時,平時車主可能還是用L2+系統,當他需要啟用L4功能時,就需要為L4模式下每公里的行駛,額外再支付一點費用,因為始終會有一個系統在監控著它。
36氪:你認為L2和L4會是完全不一樣的商業模式?
于貝貝:沒錯,L2和L4是完全不同的商業模式。從我們的觀點來看,我們認為L4應該是先在城區落地,然后再拓展到高速場景。
從工程安全角度來看,同樣性質的一個事故,在高速上產生的傷害程度,要遠比在城區產生的傷害嚴重得多。
36氪:行業玩家都在往物理AI方向做,這是新一輪淘汰賽的開始嗎?
于貝貝:新一輪的行業洗牌可能即將開始。所有做自動駕駛的公司,應該都會在不久的將來,轉變為移動物理AI公司。
如果是在移動物理AI這個賽道上進行競爭,這本身就變成了一種跨界競爭,甚至可能都不是這個行業內既有玩家之間的競爭了,還需要和一些本來做數字AI,現在也想轉型做具身智能、做物理AI的玩家去競爭。
36氪:那卓馭的護城河究竟是什么?
于貝貝:我們認為有兩點。第一,是模型能力。現在大家的迭代范式,乃至最終采用什么樣的模型架構,都還沒有定論。也許我們認為以后特別高級的3D DiT或V-JEPA等全新架構會跑出來,但這些都是未知數。
第二,分發能力其實是一個非常高的門檻。如何建立一個分發平臺和分發網絡,創建一個生態,聯合不同的合作伙伴共同進行分發,這一定是一個非常高的門檻。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.