[首發(fā)于智駕最前沿微信公眾號]在自動駕駛的技術(shù)路徑中,純視覺一直是非常重要的方向,在之前的內(nèi)容中,我們探討過小鵬汽車轉(zhuǎn)向純視覺的技術(shù)底氣,還聊過特斯拉FSD V14.3的升級。同樣作為純視覺智駕,小鵬和特斯拉在技術(shù)上有區(qū)別嗎?
端到端是唯一解嗎?
純視覺方案需要解決的,是如何從二維圖像中還原三維世界的信息,再據(jù)此做出駕駛決策。傳統(tǒng)做法是把任務(wù)拆成感知、預(yù)測、規(guī)劃、控制等多個獨立模塊,各模塊之間會傳遞處理好的數(shù)據(jù)。這種方式結(jié)構(gòu)清晰、便于調(diào)試,但每個環(huán)節(jié)都不可避免地會丟失一些原始信息,而且需要工程師為各種場景逐一編寫規(guī)則,面對數(shù)不清的異常路況,規(guī)則是永遠寫不完的。隨著技術(shù)提升,端到端方案得到了應(yīng)用,在特斯拉和小鵬的純視覺方案中,都不約而同地使用了端到端。
![]()
圖片源自:網(wǎng)絡(luò)
特斯拉在FSD V12上就率先做了減法,它把感知到控制的整個流程整合進一個統(tǒng)一的神經(jīng)網(wǎng)絡(luò),從攝像頭畫面輸入到方向盤、剎車指令輸出,全部由一個模型完成。這相當于跳過了所有中間環(huán)節(jié),讓模型直接從海量駕駛視頻中學習看到什么該怎么開。V13之后,特斯拉又在模型中引入了時序處理能力,讓車輛能記住過去十幾秒內(nèi)周圍物體的運動軌跡,即便行人暫時被遮擋,系統(tǒng)也能根據(jù)消失前的速度和方向推斷其當前位置和意圖。
小鵬則走了一條不同的路,它的端到端方案由三個獨立訓練的神經(jīng)網(wǎng)絡(luò)協(xié)同工作,即XNet負責視覺感知,XPlanner負責軌跡規(guī)劃,大語言模型XBrain負責場景理解與決策,三者各有分工,通過內(nèi)部接口串聯(lián)在一起。這種設(shè)計的優(yōu)勢在于每個模塊可以獨立優(yōu)化,排錯更簡單,而且XBrain能利用語言模型的泛化能力來處理潮汐車道、ETC車道、路牌文字等不常見的場景。
到了2025年底,小鵬又向前邁了一步,它發(fā)布的第二代VLA(視覺-語言-動作)大模型放棄了此前多模塊串聯(lián)的中間環(huán)節(jié),直接讓視覺信號生成駕駛動作指令,從架構(gòu)形式上向特斯拉的一段式端到端靠攏。不過,兩者在世界模型這個核心概念上的理解仍然不同,這是下一個要討論的問題。
![]()
圖片源自:網(wǎng)絡(luò)
同一個詞,兩種理解
世界模型是當前自動駕駛領(lǐng)域的重要技術(shù)方向,所謂世界模型,指的是系統(tǒng)在做出駕駛決策前,先在內(nèi)部構(gòu)建一個對道路環(huán)境的理解。特斯拉和小鵬都在做這件事,但實現(xiàn)方式有明顯區(qū)別。
特斯拉的方式更隱式,在FSD的內(nèi)部,占用網(wǎng)絡(luò)(Occupancy Network)將車身周圍的三維空間切成無數(shù)細小的立方體,神經(jīng)網(wǎng)絡(luò)逐一判斷每個立方體是否被物體占據(jù)、是否在移動、屬于哪一類物體。這套方法最核心的優(yōu)勢是不依賴物體識別,無論前方是標準車輛還是側(cè)翻的貨車、散落的貨物,只要是空間中的實體,都會被標記出來。
![]()
圖片源自:網(wǎng)絡(luò)
2025年特斯拉又申請了更高精度的占用網(wǎng)絡(luò)專利,把空間劃分從約30厘米一格細化到約10厘米一格,在停車場等低速場景能對地面標記、車位線等細節(jié)做更精確的重建。這些空間信息直接參與端到端模型的決策過程,對駕駛員來說是不可見的中間狀態(tài)。
小鵬則提出了物理世界大模型的概念,它的第二代VLA不僅能輸出駕駛動作,還能對環(huán)境進行顯式建模,生成世界模型表征。小鵬強調(diào)這是一套原生多模態(tài)的大模型,能同時處理視覺、聽覺和文字信息,跨域應(yīng)用于汽車、機器人和飛行汽車。在性能指標上,該模型參數(shù)達720億,訓練數(shù)據(jù)接近1億個視頻片段,每5天完成一次全鏈路迭代。配合自研的圖靈AI芯片和定制化編譯器,模型在車端的推理效率提升了12倍。
簡單理解,特斯拉的世界模型更像神經(jīng)網(wǎng)絡(luò)的內(nèi)部狀態(tài),是決策的中間產(chǎn)物;而小鵬則試圖把世界模型變成一個可以跨任務(wù)復(fù)用的通用底層能力。
看得更遠,還是看得更細
感知是純視覺方案的基礎(chǔ),小鵬和特斯拉在技術(shù)架構(gòu)上都采用了BEV(鳥瞰視角)+Transformer的方案,即先把多路攝像頭的畫面融合成一個從俯視角度理解的三維空間,再在此基礎(chǔ)上做決策,不過兩者在細節(jié)實現(xiàn)上存在差異。
特斯拉長期使用8顆攝像頭實現(xiàn)車身360度覆蓋,輸入分辨率在AI4硬件上達36Hz全分辨率。占用網(wǎng)絡(luò)的體素判斷讓系統(tǒng)不依賴事先定義的白名單來辨認障礙物,通用性很強。
小鵬在感知精度上則做了有針對性的強化,其AI鷹眼視覺方案采用Lofic技術(shù)攝像頭,能在暗光、逆光等場景獲得更清晰的成像。它量產(chǎn)的2K純視覺占用網(wǎng)絡(luò)用超過200萬個網(wǎng)格重構(gòu)三維空間,建模精度達5立方厘米/體素。相比特斯拉當前約30厘米的體素分辨率,小鵬在感知細節(jié)上更加精細,可以區(qū)分道路上的裂縫和坑洼。
![]()
圖片源自:網(wǎng)絡(luò)
此外,小鵬的XNet架構(gòu)整合了動態(tài)BEV、靜態(tài)BEV和占用網(wǎng)絡(luò)三套體系,在統(tǒng)一的框架下同時處理運動物體的預(yù)測、靜態(tài)環(huán)境的結(jié)構(gòu)理解和空間的占位判斷。相比之下,特斯拉的動態(tài)物體預(yù)測和靜態(tài)占用判斷分別由占用網(wǎng)絡(luò)內(nèi)部的不同輸出維度承擔,并非三套獨立網(wǎng)絡(luò),但在功能覆蓋面上大致對應(yīng)。
數(shù)據(jù)驅(qū)動的兩種策略
數(shù)據(jù)和算力是純視覺方案的生命線,所有技術(shù)架構(gòu)的差異最終都要靠數(shù)據(jù)來體現(xiàn)效果。
特斯拉的優(yōu)勢在于數(shù)據(jù)規(guī)模,截至2024年底,F(xiàn)SD累計行駛里程已超過20億公里,遠高于同類系統(tǒng)。它的車隊在全球多個地區(qū)行駛,能接觸到差異化的交通環(huán)境和邊緣場景。
在訓練策略上,特斯拉近年做了重要調(diào)整,它構(gòu)建了一個云端世界模型來批量生成合成駕駛數(shù)據(jù),再將合成數(shù)據(jù)與一定比例的真實道路數(shù)據(jù)混合,用于訓練新的FSD模型。這種做法能快速覆蓋現(xiàn)實中難以遇到的極端天氣、罕見事故形態(tài)等長尾場景,也為后續(xù)AI5/AI6芯片實現(xiàn)訓練與推理一體化的分布式計算平臺提供了支撐。
![]()
圖片源自:網(wǎng)絡(luò)
小鵬的累積里程則相對較少,但迭代速度很快,依賴折算超過10億公里的視頻訓練數(shù)據(jù),它的端到端模型能做到約2天迭代一次。第二代VLA的視覺數(shù)據(jù)總量約50PB,每秒處理約53億字節(jié)的信息。
有一點需要提一下的是,小鵬的模型專注于中國道路場景,對人車混行、非機動車穿行、狹窄街道等復(fù)雜路況有更深度的訓練覆蓋。實際路測顯示,第二代VLA在窄路、復(fù)雜博弈等中國特有場景下的穩(wěn)定性和處理能力已展現(xiàn)出局部優(yōu)勢。
相比之下,特斯拉盡管在上海建有數(shù)據(jù)中心,但核心算法仍由北美團隊主導,在中國開放的實際迭代速度落后于北美版本,在面對外賣騎手穿行、復(fù)雜混合車道等場景時還存在適應(yīng)性不足的問題。
最后的話
概括下這兩家純視覺方案的區(qū)別,特斯拉是一個高度一體化的神經(jīng)網(wǎng)絡(luò),用海量的全球化數(shù)據(jù)和極簡的架構(gòu)來讓模型自己學會駕駛,世界模型內(nèi)嵌于神經(jīng)網(wǎng)絡(luò)的權(quán)重之中;小鵬則是從模塊化出發(fā)逐步收斂到更統(tǒng)一的架構(gòu),在感知精度上做得更精細,并以中國道路的復(fù)雜場景為核心進行深度優(yōu)化,同時試圖把世界模型打造成一個可復(fù)用的通用能力層。兩條路線在技術(shù)底層上正在趨近,但架構(gòu)上仍然各具特色。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.