[首發于智駕最前沿微信公眾號]2024年10月,小鵬汽車在1024科技日上宣布了一個重要的技術決定,今后的新車型將全面取消激光雷達,全線切換至純視覺智駕方案,這一轉變隨后在小鵬P7+、MONA M03、新款G6、G9、X9等車型上逐一落地。到2026年,小鵬已將所有在售車型的智駕系統統一在純視覺路線之上。從行業普遍堆硬件到主動做減法,小鵬的技術底氣究竟來自哪里?
算力夠了之后,純視覺為什么反而更強?
純視覺方案的基本原理決定了它對算力的需求遠高于激光雷達方案,激光雷達直接輸出三維點云數據,系統拿到的是已經結構化的空間信息;而純視覺只拿到二維圖像,需要從中推斷出三維世界的深度、形狀和運動狀態。這個從二維還原三維的過程,本質上就是一個巨大的數學求解問題,需要極強的并行計算能力。
何小鵬在2025年的一次采訪中直截了當地解釋了技術方案轉變的原因,過去,純視覺方案表現不佳主要是因為算力不足,視覺系統看到的圖像既沒有足夠的像素點陣,也沒有足夠的幀率和時空邏輯。隨著算力的大幅提升,這一問題得到了解決。這不是一個漸進式的改善,而是一個從做不了到做得到的質變。
算力為什么這么關鍵?其實可以從一個具體的場景來理解。當車輛以60km/h的速度行駛時,每秒鐘前進約17米。純視覺系統需要在這一秒之內完成從多路攝像頭獲取高分辨率圖像,在多幀之間建立時序關聯,將二維像素轉換為三維空間中的物體和可通行區域,判斷各物體的運動意圖,生成安全的行駛軌跡,然后輸出方向盤轉角、油門和剎車指令。這一整套流程如果超過100毫秒,車輛就已經移動了近兩米,在復雜路況下可能是致命的。
![]()
圖片源自:網絡
激光雷達方案之所以在早期更有優勢,就是因為它跳過了從圖像推斷三維這一步,直接給系統提供了較準確的空間信息,減少了對算力的依賴。但當車端算力足夠大之后,純視覺的這條繞遠路的方案反而變成了優勢,因為它看到的是更原始、更豐富的信息,沒有經過激光雷達點云的簡化處理,理論上能夠識別更多類型的物體和場景。
小鵬在純視覺方案上的應對方式是在車端部署了遠超行業主流水平的算力,以全新小鵬P7為例,全系搭載三顆自研圖靈AI芯片,整車有效算力達到2250 TOPS。在這個配置中,兩顆芯片驅動智駕VLA大模型,另一顆協同高通8295P芯片驅動座艙大模型。
作為對比,目前市場上多數同價位車型的智駕算力在幾十到幾百TOPS之間。即便是12.98萬元起售的小鵬MONA M03 Max版,也配備了單顆圖靈芯片750 TOPS算力。在Robotaxi方案上,小鵬更是搭載了4顆圖靈芯片,車端算力達到3000 TOPS,為L4級別的能力提供了硬件裕量。
自己造芯片,和買通用芯片有什么不同?
算力差距只是表象,小鵬選擇純視覺更底層的原因是芯片的性質變了,小鵬在2024年8月完成自研圖靈AI芯片的流片,2025年第二季度實現量產上車。這顆芯片的意義,不只是一顆更快的Orin,而是一種不同的設計邏輯。
英偉達Orin系列走的是通用計算路線,本質上是一顆車載GPU,提供標準化的算力,各車企自行在上面部署算法。這套模式的優勢是生態成熟、軟件支持完善、適配多車企;其劣勢是算力利用效率受限于通用二字,芯片中有一部分計算資源會被分配給智駕實際并不需要的任務類型。
小鵬走的則是算法定義芯片路線,從自己的智駕算法需求出發,反向設計芯片架構。圖靈芯片采用了DSA(特定領域架構),每一個計算單元都圍繞小鵬的端到端感知與決策模型定制。據小鵬內部測算,圖靈芯片的有效算力相較于上一代Orin芯片有近10倍的提升。小鵬聲稱其算力利用率可接近100%,這在通用芯片上是很難做到的,因為通用芯片在處理非AI任務時會有大量算力閑置。
![]()
圖片源自:網絡
DSA架構還有一個更重要的好處,那就是功耗控制。單顆圖靈芯片功耗約30W,三顆集群總計80-100W。同樣三顆Orin-X的系統功耗約120W,圖靈芯片在同等算力水平下降低了約20%的功耗。對電動車來說,智駕系統節省的每一瓦功耗都會直接反映在續航里程上。
除了功耗,圖靈芯片的內存配置也是為端到端大模型專門優化的,單顆圖靈芯片配備64GB LPDDR5X內存,三顆集群共享216GB系統內存,帶寬273GB/s。據小鵬官方確認,圖靈芯片支持在本地運行高達300億參數的大模型。這其實是一個關鍵的指標,由于智駕模型的參數量在過去兩年內增長了數十倍,而且還在繼續增長,如果芯片不支持足夠大的本地內存,模型就只能被壓縮或切片運行,這會影響推理精度。
更有意思的是,小鵬的三芯片集群方案同時承擔智駕和座艙的AI計算,取消了傳統架構中智駕芯片和座艙芯片的物理隔離。其中約1800 TOPS用于智能駕駛,400 TOPS用于座艙視覺語言模型。同一套硬件驅動兩個系統,簡化了整車電子電氣架構,也攤薄了芯片的邊際成本。
自研芯片的投入極高,前期動輒數億美元,對一個年交付量不足30萬輛的車企來說是重大的戰略決策。但小鵬的邏輯是,只有在所有車型上都搭載這顆芯片,才能把成本攤薄、能力做強。圖靈芯片已經在12萬元級別的MONA M03到全系車型上實現了覆蓋。這意味著小鵬的純視覺方案在硬件成本上不僅省掉了激光雷達,還通過自研芯片替代外購芯片實現了進一步的降本。
![]()
扔掉激光雷達,攝像頭憑什么能看得一樣好?
算力和芯片解決了大腦的問題,但眼睛本身也必須足夠好。純視覺方案最大的挑戰之一是極端光照條件下的感知能力,在逆光、暗光、隧道出入口等大光差場景下,傳統車載攝像頭很容易出現過曝或欠曝,導致圖像信息大量丟失。激光雷達由于不依賴環境光,在這類場景下確實有天然優勢。
小鵬應對這個問題方式是采用了AI鷹眼視覺方案。這套方案的最大技術亮點是采用了LOFIC架構的攝像頭。LOFIC,全稱是Lateral OverFlow Integration Capacitor(橫向溢出集成電容技術),它的原理是在圖像傳感器的每個光電二極管旁邊放置一個高密度電容。當光電二極管因為強光照射產生的電子數量超過了原本承載的上限,多余的光電子會流到相鄰的電容里,而不是被丟棄。這就大幅提高了攝像頭的動態范圍,讓它能在同時存在強光和陰影的場景中保留更多細節。
![]()
圖片源自:網絡
這項技術此前已在榮耀手機上率先應用,小鵬是第一個將其引入汽車行業的企業,在夜間、大逆光、雨雪天等復雜條件下,這套視覺方案的表現甚至比人眼更清晰。有數據顯示,與上一代視覺系統相比,搭載LOFIC架構的鷹眼方案實時感知距離提升了125%,識別速度提升了40%,系統延遲減少了100毫秒。
感知硬件的提升必須和感知算法結合才能發揮作用,在算法層面,小鵬在2024年率先量產了國內第一個端到端智駕大模型。這套模型由三網合一的視覺感知神經網絡XNet、基于神經網絡的規劃大模型XPlanner,以及大語言模型XBrain三個部分組成。
XNet是純視覺方案中最重要的模塊。它將動態XNet、靜態XNet和純視覺2K占用網絡三者合一,用超過200萬個網格對現實世界的可通行空間進行3D高真實度還原。所謂占用網絡,指的是系統不是先識別出具體的物體,再判斷能否通行,而是直接把三維空間劃分為可通行和不可通行的區域。這種方法的優勢在于能夠處理訓練數據中沒有出現過的新型障礙物,因為系統不需要知道它是什么,只需要知道它占據了空間就行。
![]()
圖片源自:網絡
XBrain則引入了大語言模型的推理能力,讓系統能理解潮汐車道、待轉區、路牌文字等抽象信息。在傳統方案中,這些復雜場景需要依賴高精地圖來標注和識別。XBrain的加入使得系統即便在完全沒有高精地圖的區域,也能根據視覺信號做出正確的駕駛決策。
這三個模塊協同工作,形成了從看到理解、從理解到決策的完整鏈條。2026年,小鵬進一步推出了第二代VLA大模型。它取消了傳統架構中視覺-語言-動作的中間轉譯環節,實現了從視覺信號到駕駛動作的直接生成,決策延遲被壓縮到80毫秒以內。第二代VLA推送首月,百公里人工接管次數環比就下降了25.87%。
![]()
圖片源自:網絡
數據和訓練體系,為什么比硬件堆料更重要?
算力、芯片和感知硬件解決的是能不能跑的問題,但智駕系統的上限取決于訓練數據的規模和質量。純視覺方案對數據的依賴比激光雷達方案大得多,激光雷達至少能靠硬件在極端情況下兜底,純視覺則完全靠算法從數據中學到對世界的理解。
小鵬為此構建了一套從云端到車端的完整訓練和數據體系,稱其為云端模型工廠。這套體系涵蓋基座模型的預訓練和后訓練、模型蒸餾、車端模型訓練與部署的全流程。云端訓練的基礎設施是萬卡規模的計算集群,算力儲備達到10 EFLOPS,集群利用率常年保持在90%以上,全鏈路迭代周期平均5天一次。
這個5天一迭代的頻率意味著什么?在傳統智駕開發模式下,算法團隊修改模型后,通常需要數周甚至數月才能完成一輪完整的訓練、測試和驗證。5天一迭代意味著小鵬的模型能夠以更快的速度吸收新的駕駛場景數據,不斷改進表現。對于經常使用的高頻路線,系統甚至能夠做到千人千面的個性化優化。
正在訓練的小鵬世界基座模型,參數規模達到720億,這是一個以語言模型為骨干網絡的多模態大模型,同時具備視覺理解能力、鏈式推理能力和動作生成能力。通過強化學習訓練,這個基座模型可以不斷自我進化,目標是能夠處理全場景的自動駕駛問題,包括在訓練數據中從未出現過的長尾場景。
720億參數的基座模型顯然無法直接部署在車端,即便圖靈芯片的內存配置支持本地運行300億參數的模型,也裝不下這么龐大的模型。小鵬的解法是云端蒸餾,即在云端訓練一個能力極強的超大模型,然后通過蒸餾技術把它壓縮成適合車端計算資源的較小模型,再將這個蒸餾后的小模型部署上車。
![]()
圖片源自:網絡
蒸餾不是簡單的參數減少,而是一個精巧的訓練過程,目標是讓小車端模型盡可能保留大云端模型的能力。如果把云端基座模型比作一位經驗豐富的教授,那蒸餾到車端的模型就像是一個經過了教授嚴格訓練、能獨立處理各種路況的駕駛員。這種架構使車端模型保持輕量的同時,能力卻能持續逼近云端模型的上限。
在仿真環節,小鵬還開發了世界模型X-World。這是一個基于視頻擴散生成技術構建的可控多視角生成式模型,在給定歷史視頻流和駕駛動作的條件下,能夠生成對應的未來多攝像頭視頻流。簡單來說,它是一個能夠想象未來數秒道路變化的物理世界仿真器,已被大量應用于第二代VLA的研發和驗證,用于環境仿真與模型評估。為了提升仿真效率,小鵬還在2026年4月發布了X-Cache技術,能將世界模型的推理速度提升約2.7倍。
有了云端訓練和仿真驗證,剩下的就是數據來源。數據從哪來?來自大規模行駛的車輛。截至第二代VLA發布時,小鵬的智駕系統已基于折算超10億公里的視頻數據進行訓練。2026年5月,第二代VLA推送滿一個月,用戶的智駕里程占比首次突破50%,這意味著在所有小鵬車主行駛的里程中,超過一半是由智駕系統完成的。
這個數字同時意味著,小鵬每天都能從實際駕駛中收集海量的高質量數據,而這些數據又源源不斷地反哺到模型的訓練和迭代中。數據越多,模型就越強;模型越強,用戶越愿意使用智駕;使用越多,數據也就就越多。這背后的正向閉環,構成了小鵬轉向純視覺最根本的戰略邏輯。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.