【CNMO科技】智駕是近兩年來各家車企都繞不開的話題,技術(shù)方面也從“緊急避讓、AEB、車道保持”等等更新到了“端到端、VLA、世界模型”這些更加專業(yè)的名詞,那么大家聽到這些新鮮的術(shù)語的時候大多都會感到一頭霧水。各家車企都說自己家的智駕系統(tǒng)好,可這些方案之間又有什么不同?今天我們就來徹底講清楚目前市面上最主流的幾種智駕方案的底層邏輯。
規(guī)則驅(qū)動的模塊化方案
目前的輔助駕駛大體可以分為兩個架構(gòu),模塊化架構(gòu)和端到端架構(gòu)。模塊化方案是幾年前我們最常見的輔助駕駛方案,ACC(自適應(yīng)巡航)和LKA(車道保持)就是最典型的模塊化方案。它就像是一個嚴(yán)格遵守交規(guī)、照章辦事的駕校新手,按照規(guī)定程序來執(zhí)行相應(yīng)操作,先看,再反應(yīng),最后執(zhí)行操作,每個模塊分別對信息進(jìn)行識別然后處理。例如先識別到前車剎車,距離我25米,然后思考這個時候為了保證安全我需要放慢速度,最后執(zhí)行松開油門踩下剎車操作。這套方案雖然簡單,但是所有輔助駕駛的基礎(chǔ)。不過模塊化方案也有缺點,它的上限取決于工程師寫了多少種規(guī)則,如果工程師寫了10000種情況,那可能路邊突然飛過來一個垃圾桶剛好是第10001種,這個時候可能就會反應(yīng)不及或者無法處理。
![]()
會自主思考的端到端方案
新能源車輛的芯片能力越來越強(qiáng),這讓輔助駕駛系統(tǒng)不再需要模塊與模塊配合運作,而是通過一個大腦來執(zhí)行全部工作,從而發(fā)展出另一種,也就是目前大部分廠商都在用的端到端方案。提到端到端很多人可能把它和激光雷達(dá)、攝像頭聯(lián)想到一起。這里是大家的一個誤區(qū),認(rèn)為激光雷達(dá)就代表了端到端模型,但其實無論是激光雷達(dá)還是攝像頭,這些都只是視覺方案,都是用來識別路況信息,輔助端到端方案的設(shè)備,并不是一整個完整的智駕方案。剛才說模塊化方案像一個駕校新手,按照規(guī)定步驟執(zhí)行每一步操作,那么端到端方案就像是一個憑直覺開車的老司機(jī),在看到路況的同時進(jìn)行相應(yīng)的操作,省去了模塊與模塊之間信息處理的過程。這樣帶來的好處就是不再像模塊化方案一樣上限低,它的上限不再是工程師寫入的規(guī)則數(shù)量,而是通過大量的訓(xùn)練,鍛煉出像人類直覺一樣的駕駛習(xí)慣。目前主流的端到端大致可以分為三類:世界模型、VLA和特斯拉的FSD,下面我們逐一給大家講解。
![]()
世界模型
首先是世界模型,這是華為乾崑智駕和Momenta都在使用的智駕方案。這套方案的底層邏輯是讓AI學(xué)會預(yù)測下一秒世界會變成什么樣。世界模型不關(guān)心“這個物體叫什么”,它只關(guān)心“這個物體下一秒會在哪里”。比如路邊一個垃圾桶滾了過來,它不會去分析這是什么,它只會去分析“那個移動的像素團(tuán),2秒后有99%的概率出現(xiàn)在車輛正前方。”于是基于這個預(yù)測,它直接就會做出踩下剎車的決定。這就像一個經(jīng)驗極其豐富的司機(jī),在高速上看到前車剎車燈亮起,大腦瞬間就能預(yù)判出前車速度的衰減,并本能地做出了避讓動作。根本不需要在腦子里和自己對話,靠的就是純粹的物理直覺和肌肉記憶。
世界模型的優(yōu)點是極限安全能力強(qiáng)。因為它的基礎(chǔ)是物理預(yù)測,天生就擅長處理運動軌跡、碰撞概率這類問題。缺點是可能略顯“機(jī)械”,在處理一些需要理解社會規(guī)則和意圖的場景時,不如懂“人情世故”的方案那么靈活和擬人。
![]()
VLA
小鵬、理想等車企采用的是VLA模型,視覺-語言-動作(Vision-Language-Action)的縮寫,正如名字一樣,VLA的工作原理就是先看,再轉(zhuǎn)化成語言思考,最后做出行動。“一個移動的垃圾桶會阻擋我的前進(jìn)路線,我需要剎車以避免碰撞。”和世界模型的區(qū)別在于,VLA會觀察分析事物,真正理解場景和意圖。
既然都是先看再思考最后執(zhí)行,那這樣不就和模塊化方案一樣了嗎?恰恰相反,模塊化方案只是按照寫好的規(guī)定程序操作,比如識別前車剎車,程序種當(dāng)這種情況發(fā)生時需要執(zhí)行減速操作。而VLA則是會在心中自言自語,就像是一個老司機(jī)先看到前車剎車,隨后心中出現(xiàn)“前面的車剎車燈亮了”、“前車在減速”、“我們之間的車距縮小了我需要剎車”,整個“看、思考、執(zhí)行”是在一個大腦里進(jìn)行的思考,而不是分開運作的。
![]()
不過,小鵬的VLA去掉了這個“自言自語”的過程,將推理內(nèi)化為一種“念頭”,直接從視覺信號輸出駕駛動作,這被稱為去語言化VLA。它不再把前車剎車成“減速跟車”這四個字,而是直接在心領(lǐng)神會“前車+剎車=慢”這個指令后,做出反應(yīng)。
特殊的存在——FSD
最后一種特殊的端到端模型是特斯拉的FSD,它既不是純粹的世界模型,也不是純粹的VLA,而是將二者融為一體。早期的特斯拉FSD是世界上第一個大規(guī)模量產(chǎn)的一段式端到端系統(tǒng),直接從圖像預(yù)測駕駛指令,沒有規(guī)則,沒有語言,是純粹的“直覺駕駛”。但到了V12以后,情況變了。特斯拉開始引入多模型能力,讓系統(tǒng)既能像世界模型一樣做時空預(yù)測,又能像VLA一樣做語義理解。在最新的V14版本中,視覺、語言、時空預(yù)測能力共同服務(wù)于駕駛決策。讓它既能在高速上精準(zhǔn)預(yù)判旁邊車道的車會不會突然切入,也能在城市里看懂行人的猶豫和滾動的垃圾桶。
![]()
每個智駕方案的路徑看似不同,但最終目標(biāo)都是打造一個既能理解物理規(guī)律、又能洞察人類意圖的“全知全能”系統(tǒng)。不過還是要提醒大家,智駕的發(fā)展速度雖然已經(jīng)遠(yuǎn)超我們的預(yù)期,但終究還是輔助駕駛,人依然是車輛的駕駛員,不要盲目過度相信系統(tǒng)。我們也期待真正的無人駕駛到來的那一天。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.