[首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛的感知領(lǐng)域,占據(jù)感知網(wǎng)絡(luò)(Occupancy Network,簡(jiǎn)稱OCC)已成為理解三維世界的主流方案。它就像是將車身周圍的空間切割成無數(shù)個(gè)細(xì)小的樂高方塊,通過判斷每個(gè)方塊是否被物體占據(jù),來構(gòu)建出一張完整的三維地圖。如果想讓自動(dòng)駕駛系統(tǒng)看得更清、避障更準(zhǔn),那就得把這些方塊做得更小、更密,也就是提升體素的精細(xì)度,那體素越精細(xì)就越好嗎?
怎樣把虛擬空間刻畫得更細(xì)膩?
想要提升體素的精細(xì)度,核心在于如何在特征提取階段保留更多的細(xì)節(jié)。攝像頭拍攝的高清圖像在經(jīng)過深度神經(jīng)網(wǎng)絡(luò)處理后,會(huì)為了提取語義信息而不斷被壓縮,導(dǎo)致很多微小的結(jié)構(gòu)信息丟失。為了解決這個(gè)問題,算法會(huì)采用多尺度特征融合的技術(shù),就是讓模型在處理圖像時(shí),既盯著全局的大輪廓,也不放過局部的細(xì)微像素。通過將高層級(jí)的語義特征與低層級(jí)的細(xì)節(jié)特征進(jìn)行融合,算法就能獲得更加豐富的原始素材,為后續(xù)生成高精度的體素奠定基礎(chǔ)。
![]()
圖片源自:網(wǎng)絡(luò)
在將圖像信息映射到三維空間時(shí),采樣點(diǎn)的密度決定了最終的細(xì)膩程度。傳統(tǒng)的方案只是在空間中稀疏地放一些探測(cè)點(diǎn),而精細(xì)化的OCC則會(huì)撒下更密的查詢網(wǎng)。每一個(gè)查詢點(diǎn)都會(huì)去圖像中尋找對(duì)應(yīng)的像素特征,并結(jié)合深度預(yù)測(cè)信息,準(zhǔn)確地填入對(duì)應(yīng)的空間方塊中。
時(shí)序信息的加入也起到了關(guān)鍵作用,由于車輛在行駛中視角會(huì)不斷變化,系統(tǒng)可以利用前幾幀的觀察結(jié)果來補(bǔ)充當(dāng)前的視野盲區(qū)。這種利用時(shí)間換空間的方法,通過多幀數(shù)據(jù)的交叉印證,能夠讓原本模糊的物體邊緣變得清晰起來,甚至能識(shí)別出細(xì)長(zhǎng)的電線桿或垂下的樹枝。
空間表達(dá)方式的改進(jìn)也是讓體素變精細(xì)的有效途徑,直接在三維空間中堆疊高分辨率的方塊會(huì)消耗巨大的資源,因此有技術(shù)提出了像是三視圖投影(TPV)等技術(shù)。這種方法不再死磕完整的三維立方體,而是把三維信息投影到三個(gè)相互垂直的平面上進(jìn)行處理。在二維平面上操作高分辨率數(shù)據(jù)的成本遠(yuǎn)低于三維空間,通過這種巧妙的維度轉(zhuǎn)換,算法能夠在邏輯上實(shí)現(xiàn)極高的分辨率,最后再還原回三維世界,從而在保證精細(xì)度的同時(shí),繞開了直接計(jì)算海量三維數(shù)據(jù)的難題。
算法如何避免計(jì)算量的爆炸式增長(zhǎng)?
追求極致的精細(xì)度其實(shí)是一把雙刃劍,當(dāng)精細(xì)度提升后,必然會(huì)帶來計(jì)算量的爆炸式增長(zhǎng)。在三維空間中,分辨率的提升與計(jì)算成本之間并不是線性的關(guān)系,而是呈立方倍數(shù)增長(zhǎng)。如果我們將體素的邊長(zhǎng)縮小一半,同一空間內(nèi)的體素?cái)?shù)量就會(huì)變成原來的八倍。這意味著車載芯片不僅要處理海量的浮點(diǎn)運(yùn)算,還要面對(duì)巨大的顯存壓力。如果硬件的顯存帶寬無法支撐這種數(shù)據(jù)吞吐量,感知系統(tǒng)就會(huì)出現(xiàn)嚴(yán)重的延遲。在高速行駛的過程中,幾十毫秒的延遲就可能導(dǎo)致車輛錯(cuò)過最佳的制動(dòng)時(shí)機(jī)。
![]()
圖片源自:網(wǎng)絡(luò)
為了緩解這種壓力,算法并不傾向于在所有區(qū)域都實(shí)行均勻細(xì)化,而是采用了更聰明的按需分配策略。如系統(tǒng)會(huì)引入稀疏化處理技術(shù),只針對(duì)那些真正有物體存在的區(qū)域進(jìn)行精細(xì)建模,而對(duì)于大片空曠的區(qū)域(如天空或開闊的遠(yuǎn)景(參數(shù)丨圖片))則采用粗略的描述甚至直接略過。這種思路也演變成了非均勻網(wǎng)格方案,即在車輛近處、對(duì)駕駛決策影響較大的范圍內(nèi)使用高精細(xì)度的體素,而在遠(yuǎn)處則逐漸降低分辨率。這種近實(shí)遠(yuǎn)虛的分配方案,既保留了關(guān)鍵的細(xì)節(jié),又極大地節(jié)省了寶貴的算力資源。
層次化的結(jié)構(gòu)也是一種有效的優(yōu)化手段。系統(tǒng)可以先在一個(gè)較低的分辨率下進(jìn)行預(yù)掃,確定哪些地方可能有東西,然后再對(duì)這些感興趣的區(qū)域進(jìn)行遞歸式的細(xì)化。這種從粗到細(xì)的處理流程,避免了在無意義的空域上浪費(fèi)計(jì)算資源。通過這種動(dòng)態(tài)調(diào)整精度的方法,感知網(wǎng)絡(luò)可以在保持實(shí)時(shí)性的前提下,實(shí)現(xiàn)對(duì)復(fù)雜障礙物(如路邊的綠化帶、散落的紙箱等)的精準(zhǔn)刻畫。
變清晰之后會(huì)面臨哪些新麻煩?
體素變精細(xì)后,另一個(gè)隱蔽但棘手的問題是噪聲和虛警。當(dāng)方塊劃分得非常細(xì)時(shí),算法對(duì)于輸入數(shù)據(jù)的細(xì)微抖動(dòng)會(huì)變得異常敏感。攝像頭圖像中的一點(diǎn)光影閃爍,或者傳感器在標(biāo)定上的微小誤差,在精細(xì)的體素空間里都可能被放大成不存在的障礙物。這種現(xiàn)象就像是照相機(jī)感光度調(diào)得太高后出現(xiàn)的噪點(diǎn),會(huì)讓系統(tǒng)誤以為前方有障礙而觸發(fā)頻繁的減速甚至急剎車。如何在高分辨率和信號(hào)穩(wěn)定性之間找到平衡,是技術(shù)落地時(shí)必須要解決的問題。
![]()
圖片源自:網(wǎng)絡(luò)
當(dāng)體素更精細(xì)后,數(shù)據(jù)標(biāo)注的復(fù)雜度也會(huì)大幅度提升。要訓(xùn)練一個(gè)精細(xì)的占據(jù)感知網(wǎng)絡(luò),就需要極其精準(zhǔn)的真值作為參考,目前主流的做法是利用激光雷達(dá)收集的點(diǎn)云來生成標(biāo)簽。但激光雷達(dá)的點(diǎn)云會(huì)隨著距離增加會(huì)迅速變得稀疏。當(dāng)我們要求的體素精細(xì)度超過了激光雷達(dá)點(diǎn)的密度時(shí),很多小方塊里其實(shí)根本沒有參考數(shù)據(jù)。這種數(shù)據(jù)的斷層會(huì)讓模型在學(xué)習(xí)時(shí)產(chǎn)生困惑,因?yàn)樗恢滥切]有點(diǎn)云落入的縫隙到底是真實(shí)的物理空間,還是傳感器的盲區(qū)。
體素精細(xì)化后還會(huì)涉及多傳感器之間協(xié)同的問題,雖然攝像頭能提供豐富的細(xì)節(jié),但它對(duì)距離的感知天然不如激光雷達(dá)準(zhǔn)確。在極高分辨率的體素網(wǎng)格中,這種距離上的微小偏差會(huì)被體現(xiàn)得淋漓盡致,導(dǎo)致不同傳感器給出的信息在同一個(gè)細(xì)小方塊里發(fā)生沖突。這種沖突如果不經(jīng)過復(fù)雜的融合算法處理,反而會(huì)降低感知的可信度。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.