/導(dǎo)讀/
2022年行至年終,自動駕駛波瀾再起。
先是大眾基本放棄自研,花了168億元聯(lián)姻中國初創(chuàng)企業(yè)地平線開發(fā)智駕系統(tǒng),緊接著背靠福特、大眾的自動駕駛明星公司ArgoAI宣布破產(chǎn)。
新歡燕爾時,舊愛難續(xù)緣。大眾、福特這些傳統(tǒng)主機大廠的改弦易轍,代表了自動駕駛進入新一輪洗牌期。完全無人駕駛的商業(yè)化困境日益凸顯,L4明星選手出現(xiàn)掉隊退賽,而輔助駕駛的漸進式路線則高歌猛進。
無外乎行業(yè)喊出了“自動駕駛再無路線之爭”。
這一結(jié)論印證了,幾個月前一家成立僅3年的自動駕駛初創(chuàng)公司毫末智行喊出的“輔助駕駛是通向自動駕駛的必由之路”的觀點。
自動駕駛產(chǎn)業(yè)其實已經(jīng)進入跨越過Gartner技術(shù)曲線中后半程的成熟增長周期。
![]()
Gartner技術(shù)成熟曲線
在L4自動駕駛路線的公司紛紛“降維”或者直接轉(zhuǎn)型輔助駕駛路線的現(xiàn)象背后,其實不僅僅是商業(yè)化路線的合流,背后同樣是自動駕駛技術(shù)路線的合流。
面向無人駕駛的美好藍(lán)圖或者說誘人前景,沒有一項技術(shù)如同自動駕駛一樣如此跌宕起伏,飽受質(zhì)疑又被滿懷希望。
其中一個核心問題就是首先走跨越式路線率先攻克無人駕駛百分百的安全性再走向商用,還是從輔助駕駛?cè)胧郑谌藱C共駕的情況下,讓自動駕駛逐步聰明起來,再通向無人駕駛之境。
自動駕駛演進的天平逐步落到輔助駕駛這一路線上,其本質(zhì)就是在量產(chǎn)輔助駕駛的規(guī)模場景數(shù)據(jù)下,自動駕駛技術(shù)正在進入以數(shù)據(jù)驅(qū)動下的多模態(tài)感知和可解釋場景化認(rèn)知為代表的3.0時代。
![]()
外行人看熱鬧,內(nèi)行人要看門道。我們可以從毫末智行、特斯拉兩家代表性的漸進式玩家的技術(shù)干貨中,來理解自動駕駛技術(shù)的合流之處。
本文主要涉及到9月份的兩場AIDAY上的技術(shù)布道的一些技術(shù)共識:
1、自動駕駛算法進入到合流階段,那就是深度學(xué)習(xí)在自動駕駛當(dāng)中的應(yīng)用,從各種不同的網(wǎng)絡(luò)結(jié)構(gòu)的探索逐步收斂到Transformer為代表的大模型形態(tài)。
2、大模型的引入使得對于算力和數(shù)據(jù)的要求進入到新的階段。那就是海量大數(shù)據(jù)的訓(xùn)練和云端大算力(超算平臺)的要求。
本文盡可能會用通俗易懂的語言來解釋這些自動駕駛的底層技術(shù),下面我們將從算法、數(shù)據(jù)和算力的角度來進行介紹,告訴你基于數(shù)據(jù)驅(qū)動和輔助駕駛路線的自動駕駛技術(shù)為什么這么能打,并最有可能走向自動駕駛的終局。
算法進化:Attention大模型如何大力出奇跡
當(dāng)前自動駕駛技術(shù)的出現(xiàn)和成熟落地,得益于新一輪人工智能技術(shù),代表性技術(shù)就是以深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)為代表的AI算法的出現(xiàn)以及以GPU為代表的適合AI計算的專用芯片算力的爆炸式增長。
從深度學(xué)習(xí)當(dāng)中發(fā)展出的各類神經(jīng)網(wǎng)絡(luò),包括CNN卷積神經(jīng)網(wǎng)絡(luò)、RNN循環(huán)神經(jīng)網(wǎng)絡(luò)以及LSTM長短時記憶網(wǎng)絡(luò)等,開始廣泛應(yīng)用在圖像識別、機器視覺以及NLP自然語言處理等能力上,而這些能力又稱為自動駕駛感知技術(shù)的基礎(chǔ)。
![]()
Transformer模型
隨著AI算力的增長,AI算法模型也出現(xiàn)了新的進化,那就是出現(xiàn)了以Transformer、GPT3為代表的上千億參數(shù)規(guī)模的大模型。近兩年,以特斯拉、毫末智行為代表的領(lǐng)先的自動駕駛技術(shù)公司率先將Transformer應(yīng)用到自動駕駛的感知算法當(dāng)中,取得一些明顯進步。
簡單來說,Transformer大模型的核心是Attention注意力機制,它可以通過簡單的注意力模塊實現(xiàn)規(guī)模的堆疊,并從輸入的大量數(shù)據(jù)自身之間的相關(guān)性來完成特征編碼。這一特性就特別適合融合自動駕駛感知數(shù)據(jù)的不同位置、先后時序下的時空特征。
![]()
理解這些基礎(chǔ)信息后,我們就可以來看下毫末和特斯拉這次發(fā)布的最新技術(shù)思路。首先是BEV感知的引入。所謂BEV感知就是鳥瞰視角下的場景感知,也就是采取多傳感器特征融合的策略,將多個傳感器所生成的特征放到統(tǒng)一的坐標(biāo)系下,形成一個以自車為中心的俯視視角,仿佛我們在賽車游戲的上帝視角在開車一樣,可以掌控車輛周圍全局的狀況。
特斯拉解決的問題就是使用Transformer模型中的自注意力機制來實現(xiàn)多個相機所拍攝的視角的融合。而毫末也設(shè)計出自己的BEV Transfomer模型,采用多相機融合,并加入時序特征,來進行車道線的識別。同時,9月份的AIDAY上,毫末也提出采用對人類世界的交互信息,即判斷周圍車輛的轉(zhuǎn)向、剎車燈信息來增強感知判斷。
![]()
而在今年10月1日的Tesla AI Day上,特斯拉展示了BEV感知的升級版本:Occupancy network,也被稱為占據(jù)柵格網(wǎng)絡(luò)。簡單理解就是在原有BEV的二維網(wǎng)格上升級為三維網(wǎng)格,即加入了高度信息,使得FSD的感知系統(tǒng)看到的世界更像一個《Minecraft》里的立體空間。
這樣只要感知視野內(nèi)出現(xiàn)障礙物就會出現(xiàn)在三維網(wǎng)格中,得到其位置和速度信息,而常見的車輛、行人、建筑物等還會被給出語義信息,而不常見的物體即便沒有語義信息,也因為占據(jù)了網(wǎng)格也就不會被感知系統(tǒng)“忽視”而出現(xiàn)遺漏風(fēng)險。
特斯拉的厲害之處是通過深度神經(jīng)網(wǎng)絡(luò)和注意力機制,僅靠多相機融合而成的BEV感知就升級為占據(jù)柵格網(wǎng)絡(luò),達(dá)到媲美激光雷達(dá)所直接繪制出的三維信息,同時還包含了視覺提供的稠密的語義信息。
對于國內(nèi)的自動駕駛團隊來說,還需要依靠激光雷達(dá)與相機的多模態(tài)感知融合,來達(dá)到類似占據(jù)柵格網(wǎng)絡(luò)的效果。
![]()
但無論是特斯拉的純視覺感知還是毫末所使用的多模態(tài)傳感器融合感知,都在引領(lǐng)“重感知、輕地圖”的路線,也就是不再依賴預(yù)制高精度地圖這種構(gòu)建成本高、應(yīng)用范圍小的先驗感知條件。通常來說,高精地圖是L4無人駕駛和部分車企推出城市場景輔助駕駛產(chǎn)品的標(biāo)配。
![]()
如果不依賴高精地圖給出的清晰的車道線信息,那僅憑借基礎(chǔ)的導(dǎo)航地圖(Navigation Map)的拓?fù)湫畔⒆龅缆分敢↙ane Guidance)。在這里,特斯拉也使用了Transformer的語言模型Vector Lane對車道線進行空間上的感知。毫末與特斯拉類似,采用了弱引導(dǎo)的方式,再用時序的transformer模型在BEV空間上做了虛擬實時建圖,通過這種方式讓感知車道線的輸出更加準(zhǔn)確和穩(wěn)定。
![]()
在認(rèn)知模塊,特斯拉和毫末也給出了“大同小異”的解決方案。所謂認(rèn)知,就是自動駕駛系統(tǒng)要對感知結(jié)果的預(yù)測、決策和規(guī)劃,也就是解決自車要怎么走,要加速還是減速,變道還是剎停,最終給車輛發(fā)出一個行動的指令。而在實際的行車過程中,這些動作都是發(fā)生在毫秒之間并且是連續(xù)的。
![]()
特斯拉當(dāng)前的作法是通過對感知模塊信息的判斷得到一個可行的軌跡空間,再采用增量決策樹搜索等優(yōu)化算法來確定最優(yōu)的軌跡。在這一過程中還要加入對占據(jù)網(wǎng)絡(luò)中遮擋區(qū)域的動態(tài)物體的預(yù)測,以避免發(fā)生“鬼探頭”這類的碰撞風(fēng)險。
而毫末的解決思路是讓車輛的運動模擬人駕,像人類一樣實現(xiàn)在安全基礎(chǔ)上更高效、舒適的決策和規(guī)劃。具體來說,毫末正在原有的分場景微模型方法的基礎(chǔ)上,引入大模型的處理方式。
![]()
為此,毫末建立了一個海量的認(rèn)知場景庫,對海量的人駕數(shù)據(jù)進行深度學(xué)習(xí),基于典型場景挖掘海量司機的實際駕駛行為,構(gòu)建一個taskpromt,即訓(xùn)練基于時空Attention的駕駛決策預(yù)訓(xùn)練大模型,使得自動駕駛決策更像人類實際駕駛行為,以保證實現(xiàn)自動駕駛決策的可控、可解釋。這樣通過模擬人駕來定義目標(biāo)和求解的最優(yōu)行為,可以充分發(fā)揮數(shù)據(jù)優(yōu)勢。
至此,我們可以看到,兩家自動駕駛公司在感知和認(rèn)知算法的進化,主要得益于AI大模型的使用,而大模型的背后離不開對于海量數(shù)據(jù)以及算力的需求。
3.0時代,縱享絲滑的“數(shù)據(jù)自由”是如何煉成的?
在今年9月的毫末AIDAY上,毫末CEO顧維灝提出了自動駕駛技術(shù)正在邁入以數(shù)據(jù)驅(qū)動為標(biāo)志的3.0時代。
因為這個概念過于概況,很容易被誤解。其實,對于自動駕駛來說,數(shù)據(jù)一直以來都是無比重要的,但是過去十年的技術(shù)發(fā)展,Attention大模型的應(yīng)用,使得數(shù)據(jù)在今天成為更為決定性的因素。
![]()
對于特斯拉,從 2015 年轉(zhuǎn)向自動駕駛自研之時,就確定了基于“數(shù)據(jù)迭代”的算法架構(gòu),而毫末智行,從3年前成立之初,也確定了基于數(shù)據(jù)驅(qū)動自動駕駛進化的數(shù)據(jù)智能體系,并且把數(shù)據(jù)處理的效率與成本當(dāng)成是技術(shù)進化的第一性原理。
對于自動駕駛的技術(shù)進化,數(shù)據(jù)的標(biāo)注、系統(tǒng)的仿真以及數(shù)據(jù)處理是至關(guān)重要的,最終的目標(biāo)就是要實現(xiàn)在成本和效率下的“數(shù)據(jù)自由”。
特斯拉在數(shù)據(jù)標(biāo)注上,曾在2021年透露過有一個上千人的標(biāo)注團隊,而在經(jīng)歷了今年的裁員風(fēng)波后,這次的AI Day上更進一步強調(diào)了自動化標(biāo)注的優(yōu)化。通過自動標(biāo)注技術(shù),特斯拉將訓(xùn)練場景的標(biāo)注速度大幅提升。
![]()
毫末同樣在使用人工標(biāo)注的同時,采用了自動化標(biāo)注和自監(jiān)督學(xué)習(xí)的方式來進行數(shù)據(jù)的標(biāo)注。為了在自動駕駛系統(tǒng)中應(yīng)用Attention大模型,毫末在MANA中引入無數(shù)據(jù)標(biāo)注的自監(jiān)督學(xué)習(xí)。MANA采用基于BEV框架下的3D空間一致性的自監(jiān)督訓(xùn)練,更有效迫使模型理解道路場景的三維結(jié)構(gòu),從而更好的適應(yīng)自動駕駛的各種感知任務(wù)需求。相比只用標(biāo)注樣本做訓(xùn)練,訓(xùn)練效率可提升3倍以上,同時精度有顯著提升。
![]()
在數(shù)據(jù)系統(tǒng)的仿真上,特斯拉和毫末都非常的重視。其中,特斯拉這一次AI Day上放出了大招。給出了示例是通過僅僅2周的時間就將舊金山的大部分道路場景做到仿真環(huán)境里。據(jù)介紹,這是采用了游戲中的虛幻4引擎來完成的,支持隨機建筑物、隨機環(huán)境、隨機車道線、隨機天氣與路面狀態(tài)、隨機軌跡的生成。這意味著,針對特殊路況的corner case,特斯拉有能力通過低時間成本的數(shù)據(jù)驅(qū)動的方法,做到快速仿真,訓(xùn)練和驗證。
而毫末的目標(biāo)是如何讓仿真更真實。他們的思路是完成這樣三層的仿真系統(tǒng)構(gòu)建。一是基礎(chǔ)仿真能力、仿真環(huán)境和運動的基礎(chǔ)能力,主要衡量精準(zhǔn)性;一個構(gòu)建場景的能力,主要看效率;最后是定義場景的能力,主要看有效性。前面兩個說的是仿真場景的真實、效率,最后則是看場景定義的有效性,即能不能真正幫助提升自動駕駛的實際通過能力。
![]()
為此,毫末與阿里以及德清政府合作,利用路段設(shè)備記錄的真實交通流實景數(shù)據(jù)進行仿真訓(xùn)練,比車輛采集更豐富,對路口通過能力提升幫助很大。為避免高重復(fù)度的場景,MANA使用自己提出的“交通環(huán)境熵”模型來計算場景價值,挑選出高價值場景轉(zhuǎn)化為仿真測試用例。這樣就大大提高了整個產(chǎn)品的通過性。
![]()
在大規(guī)模真實場景數(shù)據(jù)的處理上,特斯拉和毫末同樣有各自的獨到方案。提到特斯拉的數(shù)據(jù)引擎,就不得不提特斯拉在量產(chǎn)車上的影子模式(Shadow Mode),當(dāng)特斯拉車輛上的觸發(fā)器(Trigger)發(fā)現(xiàn)一些異常模式(corner case)時,影子模式就會記錄,一些通過清洗,生成驗證集。而一些通過離線的自動標(biāo)注算法,生成對應(yīng)的標(biāo)簽。當(dāng)這些真實數(shù)據(jù)+標(biāo)簽準(zhǔn)備就緒,再混合仿真數(shù)據(jù),以及經(jīng)過手動校準(zhǔn)的數(shù)據(jù),共同構(gòu)成的訓(xùn)練數(shù)據(jù)集,用于訓(xùn)練車端模型。
毫末是如何處理海量新增的采集數(shù)據(jù)呢?如果采用原有的訓(xùn)練方案,即把新數(shù)據(jù)加入到舊數(shù)據(jù)當(dāng)中,把神經(jīng)網(wǎng)絡(luò)重新再訓(xùn)練一遍,不僅費時費力,還成本巨大。對于自動駕駛企業(yè)來說是不可承受之重。因此,毫末提出采用增量學(xué)習(xí)的方式來更加有效的利用新數(shù)據(jù)。
![]()
在訓(xùn)練過程中,抽取部分存量數(shù)據(jù)加上新數(shù)據(jù)組合成一個混合數(shù)據(jù)集,在限定數(shù)據(jù)規(guī)模的前提下,盡可能多的保持其中所包含的信息量。在模型上,要求新模型和舊模型的輸出保持盡量一致,同時盡可能地擬合新數(shù)據(jù),這樣就在規(guī)模巨大的存量數(shù)據(jù)中讓模型保持對新場景的敏感。按照毫末這種增量學(xué)習(xí)的方式,整體算力可以節(jié)省 80%。
最終數(shù)據(jù)驅(qū)動的技術(shù)路線使得自動駕駛正在進入超算時代。特斯拉顯然是開風(fēng)氣者。
眾所周知,特斯拉不僅自研了車端的專屬自動駕駛FSD芯片,還在去年宣布自研出了專門用于自動駕駛訓(xùn)練的云端AI芯片D1以及計算中心Dojo。而在這一年時間里,特斯拉已經(jīng)經(jīng)歷了14個版本的迭代,將這個超算中心做了出來。
![]()
根據(jù)特斯拉的計劃,2023年第一季度將部署第一臺ExaPOD超級計算機,算力高達(dá)1.1EFLOP,其中的一個DOJO POD就可以提供 108PFLOPS 算力的深度學(xué)習(xí)性能。特斯拉的目標(biāo)就是讓Dojo不斷突破限制,成為AI訓(xùn)練方面最強的超算系統(tǒng)。
與此同時,像小鵬、毫末等國內(nèi)的自動駕駛公司也在迎頭追趕,紛紛建立自己的超算中心。
據(jù)毫末發(fā)布的計劃來看,其超算中心的目標(biāo)是滿足千億參數(shù)大模型,處理數(shù)據(jù)規(guī)模百萬clips。
此外,毫末將基于海量數(shù)據(jù)建立增量學(xué)習(xí)引擎,結(jié)合稀疏激活、算子深度優(yōu)化等技術(shù)持續(xù)優(yōu)化訓(xùn)練成本。可以預(yù)見,自動駕駛將投入更大量資源在云端的訓(xùn)練上面,而訓(xùn)練效率提升和成本優(yōu)化始終是建設(shè)超算中心的主要目標(biāo)。
結(jié)合以上的詳盡介紹,我們可以看到特斯拉和毫末在技術(shù)路線上存在很多的共識。
首先最重要的就是根本技術(shù)路線的合流,也就是對于Attention機制的大模型的使用,比如在感知策略中都采用的BEV感知融合,從而形成了以視覺融合為主的“重感知、輕地圖”路線。特斯拉和毫末都提出在感知模型建模后再加入導(dǎo)航地圖中的拓?fù)潢P(guān)系,以此降低對高精度地圖的依賴。這一策略正在得到來自華為、小鵬等高精地圖路線玩家的積極響應(yīng),表示在未來的城市拓展中會考慮無高精地圖下的開放。這無疑對自車感知能力有了更高的要求,反過來看也對于單車自動駕駛能力的提升形成了鞭策的效應(yīng)。
其次是對于數(shù)據(jù)處理和高效模型訓(xùn)練的重視。出于對覆蓋海量真實道路場景的大模型訓(xùn)練,就需要大量仿真訓(xùn)練。特斯拉和毫末在這一點上都非常重視通過對真實世界的仿真來快速的測試模型,收集失效場景,從而提高模型迭代的效率。而出于數(shù)據(jù)閉環(huán)下的模型迭代,兩家都在超算中心和云端訓(xùn)練上投入了大量的資源。
技術(shù)合流下,自動駕駛柳暗花明
講了這么多的技術(shù)干貨,我們其實是可以回應(yīng)開頭看到的行業(yè)狀況:為什么當(dāng)前自動駕駛產(chǎn)業(yè)會面臨多次的挫折,為什么又有大量玩家可以信心滿滿加快發(fā)展?
在數(shù)據(jù)驅(qū)動成為自動駕駛產(chǎn)業(yè)趨勢的當(dāng)下,AI大模型、自動標(biāo)注、仿真、超算中心,正在成為各個玩家都在擁抱的技術(shù)共識。
在這種技術(shù)合流的新階段,車隊規(guī)模帶來的數(shù)據(jù)規(guī)模,以及充足的超算基礎(chǔ)設(shè)施資源、高效的超算訓(xùn)練,將成為決定自動駕駛系統(tǒng)進化速度的核心因素。
自動駕駛技術(shù)一直存在著L4無人駕駛路線和從L2進發(fā)的輔助駕駛路線。
L4無人駕駛路線的目標(biāo)是要在確保解決百分百安全問題下實現(xiàn)無人駕駛,因此會對自動駕駛的測試范圍、測試場景、感知冗余、先驗知識提出更高要求。這一特點帶來的弊端就像是在溫室中培養(yǎng)的花朵,雖然看起來艷麗奪目,但是缺乏移栽到室外的適應(yīng)能力。因此難以打破限定區(qū)域,也難以形成規(guī)模商業(yè)化。遙遙無期的商業(yè)化,使得大量L4自動駕駛公司陷入燒錢黑洞,無法形成正向循環(huán)。
數(shù)據(jù)能力和商業(yè)化規(guī)模,成為制約L4路線玩家的根本瓶頸。越來越多的L4玩家已經(jīng)或轉(zhuǎn)移、或擴展到了L2領(lǐng)域,開始為量產(chǎn)車打造輔助駕駛系統(tǒng)。之前的Cruise、現(xiàn)在的ArgoAI都是這一趨勢下的代表。一些玩家的退賽正是行業(yè)進入常態(tài)化增長發(fā)展的必然結(jié)果。
而從L2+輔助駕駛場景而來的自動駕駛技術(shù)則走出了一條自我進化的通路。那就是用戶的真實行駛提供海量場景數(shù)據(jù),量產(chǎn)輔助駕駛實現(xiàn)商業(yè)閉環(huán),數(shù)據(jù)驅(qū)動下的自動駕駛AI算法得到不斷升級,這樣自動駕駛的閉環(huán)形成正向循環(huán)。
最后我們想說。所謂撥云見日,就是只有讀懂了自動駕駛技術(shù)合流的這一根本趨勢,我們才能在籠罩在當(dāng)下自動駕駛行業(yè)的層層迷霧中,看到柳暗花明的新局面。
- End -
![]()
會議相關(guān)
請聯(lián)系:張進Samuel
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.