網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

自動(dòng)駕駛占據(jù)感知網(wǎng)絡(luò)越精細(xì)越好嗎？

2026-05-06 09:13:44　來源: 智駕最前沿

江蘇舉報(bào)

分享至

[首發(fā)于智駕最前沿微信公眾號(hào)]在自動(dòng)駕駛的感知領(lǐng)域，占據(jù)感知網(wǎng)絡(luò)（Occupancy Network，簡(jiǎn)稱OCC）已成為理解三維世界的主流方案。它就像是將車身周圍的空間切割成無數(shù)個(gè)細(xì)小的樂高方塊，通過判斷每個(gè)方塊是否被物體占據(jù)，來構(gòu)建出一張完整的三維地圖。如果想讓自動(dòng)駕駛系統(tǒng)看得更清、避障更準(zhǔn)，那就得把這些方塊做得更小、更密，也就是提升體素的精細(xì)度，那體素越精細(xì)就越好嗎？

怎樣把虛擬空間刻畫得更細(xì)膩？

想要提升體素的精細(xì)度，核心在于如何在特征提取階段保留更多的細(xì)節(jié)。攝像頭拍攝的高清圖像在經(jīng)過深度神經(jīng)網(wǎng)絡(luò)處理后，會(huì)為了提取語義信息而不斷被壓縮，導(dǎo)致很多微小的結(jié)構(gòu)信息丟失。為了解決這個(gè)問題，算法會(huì)采用多尺度特征融合的技術(shù)，就是讓模型在處理圖像時(shí)，既盯著全局的大輪廓，也不放過局部的細(xì)微像素。通過將高層級(jí)的語義特征與低層級(jí)的細(xì)節(jié)特征進(jìn)行融合，算法就能獲得更加豐富的原始素材，為后續(xù)生成高精度的體素奠定基礎(chǔ)。

圖片源自：網(wǎng)絡(luò)

在將圖像信息映射到三維空間時(shí)，采樣點(diǎn)的密度決定了最終的細(xì)膩程度。傳統(tǒng)的方案只是在空間中稀疏地放一些探測(cè)點(diǎn)，而精細(xì)化的OCC則會(huì)撒下更密的查詢網(wǎng)。每一個(gè)查詢點(diǎn)都會(huì)去圖像中尋找對(duì)應(yīng)的像素特征，并結(jié)合深度預(yù)測(cè)信息，準(zhǔn)確地填入對(duì)應(yīng)的空間方塊中。

時(shí)序信息的加入也起到了關(guān)鍵作用，由于車輛在行駛中視角會(huì)不斷變化，系統(tǒng)可以利用前幾幀的觀察結(jié)果來補(bǔ)充當(dāng)前的視野盲區(qū)。這種利用時(shí)間換空間的方法，通過多幀數(shù)據(jù)的交叉印證，能夠讓原本模糊的物體邊緣變得清晰起來，甚至能識(shí)別出細(xì)長(zhǎng)的電線桿或垂下的樹枝。

空間表達(dá)方式的改進(jìn)也是讓體素變精細(xì)的有效途徑，直接在三維空間中堆疊高分辨率的方塊會(huì)消耗巨大的資源，因此有技術(shù)提出了像是三視圖投影（TPV）等技術(shù)。這種方法不再死磕完整的三維立方體，而是把三維信息投影到三個(gè)相互垂直的平面上進(jìn)行處理。在二維平面上操作高分辨率數(shù)據(jù)的成本遠(yuǎn)低于三維空間，通過這種巧妙的維度轉(zhuǎn)換，算法能夠在邏輯上實(shí)現(xiàn)極高的分辨率，最后再還原回三維世界，從而在保證精細(xì)度的同時(shí)，繞開了直接計(jì)算海量三維數(shù)據(jù)的難題。

算法如何避免計(jì)算量的爆炸式增長(zhǎng)？

追求極致的精細(xì)度其實(shí)是一把雙刃劍，當(dāng)精細(xì)度提升后，必然會(huì)帶來計(jì)算量的爆炸式增長(zhǎng)。在三維空間中，分辨率的提升與計(jì)算成本之間并不是線性的關(guān)系，而是呈立方倍數(shù)增長(zhǎng)。如果我們將體素的邊長(zhǎng)縮小一半，同一空間內(nèi)的體素?cái)?shù)量就會(huì)變成原來的八倍。這意味著車載芯片不僅要處理海量的浮點(diǎn)運(yùn)算，還要面對(duì)巨大的顯存壓力。如果硬件的顯存帶寬無法支撐這種數(shù)據(jù)吞吐量，感知系統(tǒng)就會(huì)出現(xiàn)嚴(yán)重的延遲。在高速行駛的過程中，幾十毫秒的延遲就可能導(dǎo)致車輛錯(cuò)過最佳的制動(dòng)時(shí)機(jī)。

圖片源自：網(wǎng)絡(luò)

為了緩解這種壓力，算法并不傾向于在所有區(qū)域都實(shí)行均勻細(xì)化，而是采用了更聰明的按需分配策略。如系統(tǒng)會(huì)引入稀疏化處理技術(shù)，只針對(duì)那些真正有物體存在的區(qū)域進(jìn)行精細(xì)建模，而對(duì)于大片空曠的區(qū)域（如天空或開闊的遠(yuǎn)景（參數(shù)丨圖片））則采用粗略的描述甚至直接略過。這種思路也演變成了非均勻網(wǎng)格方案，即在車輛近處、對(duì)駕駛決策影響較大的范圍內(nèi)使用高精細(xì)度的體素，而在遠(yuǎn)處則逐漸降低分辨率。這種近實(shí)遠(yuǎn)虛的分配方案，既保留了關(guān)鍵的細(xì)節(jié)，又極大地節(jié)省了寶貴的算力資源。

層次化的結(jié)構(gòu)也是一種有效的優(yōu)化手段。系統(tǒng)可以先在一個(gè)較低的分辨率下進(jìn)行預(yù)掃，確定哪些地方可能有東西，然后再對(duì)這些感興趣的區(qū)域進(jìn)行遞歸式的細(xì)化。這種從粗到細(xì)的處理流程，避免了在無意義的空域上浪費(fèi)計(jì)算資源。通過這種動(dòng)態(tài)調(diào)整精度的方法，感知網(wǎng)絡(luò)可以在保持實(shí)時(shí)性的前提下，實(shí)現(xiàn)對(duì)復(fù)雜障礙物（如路邊的綠化帶、散落的紙箱等）的精準(zhǔn)刻畫。

變清晰之后會(huì)面臨哪些新麻煩？

體素變精細(xì)后，另一個(gè)隱蔽但棘手的問題是噪聲和虛警。當(dāng)方塊劃分得非常細(xì)時(shí)，算法對(duì)于輸入數(shù)據(jù)的細(xì)微抖動(dòng)會(huì)變得異常敏感。攝像頭圖像中的一點(diǎn)光影閃爍，或者傳感器在標(biāo)定上的微小誤差，在精細(xì)的體素空間里都可能被放大成不存在的障礙物。這種現(xiàn)象就像是照相機(jī)感光度調(diào)得太高后出現(xiàn)的噪點(diǎn)，會(huì)讓系統(tǒng)誤以為前方有障礙而觸發(fā)頻繁的減速甚至急剎車。如何在高分辨率和信號(hào)穩(wěn)定性之間找到平衡，是技術(shù)落地時(shí)必須要解決的問題。

圖片源自：網(wǎng)絡(luò)

當(dāng)體素更精細(xì)后，數(shù)據(jù)標(biāo)注的復(fù)雜度也會(huì)大幅度提升。要訓(xùn)練一個(gè)精細(xì)的占據(jù)感知網(wǎng)絡(luò)，就需要極其精準(zhǔn)的真值作為參考，目前主流的做法是利用激光雷達(dá)收集的點(diǎn)云來生成標(biāo)簽。但激光雷達(dá)的點(diǎn)云會(huì)隨著距離增加會(huì)迅速變得稀疏。當(dāng)我們要求的體素精細(xì)度超過了激光雷達(dá)點(diǎn)的密度時(shí)，很多小方塊里其實(shí)根本沒有參考數(shù)據(jù)。這種數(shù)據(jù)的斷層會(huì)讓模型在學(xué)習(xí)時(shí)產(chǎn)生困惑，因?yàn)樗恢滥切]有點(diǎn)云落入的縫隙到底是真實(shí)的物理空間，還是傳感器的盲區(qū)。

體素精細(xì)化后還會(huì)涉及多傳感器之間協(xié)同的問題，雖然攝像頭能提供豐富的細(xì)節(jié)，但它對(duì)距離的感知天然不如激光雷達(dá)準(zhǔn)確。在極高分辨率的體素網(wǎng)格中，這種距離上的微小偏差會(huì)被體現(xiàn)得淋漓盡致，導(dǎo)致不同傳感器給出的信息在同一個(gè)細(xì)小方塊里發(fā)生沖突。這種沖突如果不經(jīng)過復(fù)雜的融合算法處理，反而會(huì)降低感知的可信度。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.