[首發于智駕最前沿微信公眾號]在自動駕駛領域,如何準確地感知和理解周圍的三維環境始終是技術核心。早期的感知方案主要依賴于二維目標檢測,即通過圖像識別出車輛、行人和交通標志,并在其周圍畫出矩形框。
這種基于框的識別方式在面對復雜和不規則物體時顯得力不從心。隨著技術的發展,鳥瞰圖技術將多攝像頭采集的圖像轉換到俯視坐標系中,極大地改善了路徑規劃的效率,但它依然忽略了高度維度的信息。占用網絡的出現徹底改變了這一現狀。
![]()
占用網絡的優勢是什么?
占用網絡不再只是關注路面上“這是一個什么物體”,而是通過將三維空間切分為無數個細小的方塊,即體素,來預測每個空間單位是否被占據。這種從“物體優先”向“幾何優先”的轉變,使自動駕駛系統能夠識別出那些在傳統模型庫中不存在的異形物體,從而有效填補了感知上的語義裂隙。
占用網絡的核心優勢在于它能夠提供一種密集的、具有高度信息的環境描述。通過這種方式,車輛不僅能看到前方有一輛車,還能感知到路面上的細微起伏、伸向道路的樹枝或是傾斜的路燈桿。這種全方位的感知能力直接提升了自動駕駛系統在復雜城市場景和非結構化道路中的安全性。
![]()
圖片源自:網絡
在占用網絡的構建過程中,針對不同性質的場景元素采取差異化的處理手段是提升精度的關鍵。尤其是路面與天空這兩類特征迥異的場景,它們分別代表了物理世界的“支撐面”與“無窮遠邊界”,其處理邏輯在算法底層有著本質的區別。
占用網絡通常由一個強大的主干網絡提取多視角圖像特征,隨后利用注意力機制將這些二維特征投影到三維體素空間中。在這一過程中,算法必須能夠辨別哪些像素對應著立體的物理障礙物,哪些像素僅僅是作為背景存在。
路面作為車輛行駛的基礎,其幾何特征的重構精度直接影響到避障和懸掛控制;而天空則是一個沒有深度信息的區域,它在占用網絡中更多地扮演著“幾何定標”和“負約束”的角色。對這兩個場景進行差異化處理,不僅是提升算力效率的需要,更是實現高可靠感知的必然選擇。
![]()
占用網絡如何處理路面?
路面在占用網絡中被視為最基礎的靜態場景。雖然在視覺上路面呈現出較為統一的紋理,但在三維空間中,路面的處理遠比看上去復雜。路面不僅是“被占據”的體素,它還承載著坡度、顛簸以及路緣石等關鍵幾何信息。
為了做好路面的區分,占用網絡首先需要解決高精度的高度估計問題。傳統的視覺感知算法在處理遠距離路面時,由于透視效應和圖像分辨率的限制,會出現嚴重的深度誤差。占用網絡通過引入高程重構技術,能夠刻畫出路面的凹凸不平,這對于車輛在復雜地形下的速度規劃至關重要。
在處理路面時,算法會利用“地平面先驗”作為約束。這意味著模型會預先假設路面是一個大致連續的表面,并在此基礎上通過多幀圖像的融合來消除單幀預測帶來的噪聲。
![]()
圖片源自:網絡
對于非結構化道路中的起伏,一些先進的模型采用了坡度感知的自適應特征提取模塊。該模塊可以根據輸入圖像動態調整特征權重,從而在陡坡或急彎處保持穩定的路面追蹤能力。
與處理障礙物不同,路面的體素填充邏輯一般是分層進行的。模型會先生成一個粗略的地面網格,再根據局部的圖像特征進行亞體素級別的細節修正,這種從粗到精的過程保證了感知系統對行駛路徑的精準判斷。
數據層面的處理同樣體現了路面的特殊性。在生成用于訓練占用網絡的地面真值標簽時,直接使用激光雷達點云會遇到稀疏性的問題。由于激光束與地面夾角很小,遠處的點云幾乎無法覆蓋地面。
因此,有技術提出了專門的標簽生成管線,通過融合多幀序列、利用泊松重構等算法填補空洞,從而生成一個連續、平滑且具有真實語義的路面體素模型。
此外,針對路面反光或陰影導致的識別錯誤,占用網絡會結合語義分割信息,將標記為“可行駛區域”的像素點與空間中的深度值進行交叉驗證,確保被占據的路面體素不會與空中的懸浮物混淆。
特斯拉等車企的占用網絡通過預測“帶符號距離場”來進一步提升路面的表現。這種方法不僅能確定路面是否被占據,還能計算出空間中任意一點距離路面表面的精確距離。這種精度的提升使得車輛能夠識別出路面上微小的凸起。這種對路面的精細化建模,極大地增強了自動駕駛系統對復雜路況的適應性。
![]()
占用網絡如何處理天空?
相比于路面的“重幾何”屬性,天空在占用網絡中的處理邏輯則更傾向于“重語義”和“負反饋”。天空其實是無盡的背景,激光雷達等主動傳感器無法在天空區域獲得反射信號,因此天空在傳感器的原始數據中通常表現為“丟失”或“無窮遠”。
如果算法不對天空進行特殊處理,那么在將圖像特征投影到三維空間時,天空區域的像素特征可能會因為缺乏深度約束而沿著光束方向發生“漂移”,錯誤地填充到近處的體素中,形成“深度流血”現象。
為了有效地區分天空,占用網絡引入了“天空接地”技術。這一技術是利用大模型或預訓練的語義網絡識別出圖像中的天空區域,并將其作為感知系統的邊界約束。
在投影過程中,屬于天空區域的體素會被強制標記為“空閑”或“未觀測”,從而防止系統在半空中產生虛假的障礙物。這種方法本質上是將天空視為一個過濾器,利用視覺背景的確定性來反向優化三維空間的幾何結構。這與路面處理中不斷尋找“支撐點”的邏輯正好相反,天空的處理是在不斷地進行“空間排除”。
![]()
圖片源自:網絡
天空在環境理解中還承擔著輔助定標的任務。通過分析天空中云層的分布、光線的明暗以及地平線的位置,算法可以輔助修正相機的外參。在無人船或極端地形下的自動駕駛中,利用顏色空間模型(如亮度與飽和度分布)對天空進行精準檢測,能夠幫助系統更快速地識別出陸地和水面的界限。
在占用網絡的訓練階段,對于天空標簽的缺失,研究人員會引入“能見度掩碼”的機制。該機制能夠區分一個體素是確實沒有被占據,還是因為被遮擋而無法觀測。由于天空永遠不會被“占據”,它在能見度推理中提供了一個天然的終點參考。
三透視視圖(TPV)等新型表征方式對天空的處理更加得心應手。TPV將空間分解為頂視、側視和前視三個互相垂直的平面,天空的語義特征可以在側視和前視圖中得到充分的表達,而不會像傳統的鳥瞰圖(BEV)那樣將高度信息完全壓縮。
這種多維度的特征融合,當像素出現在圖像上方且呈現出天空特有的色彩分布時,其對應的三維體素應具有極低的占據概率。這種語義驅動的幾何推理,是占用網絡能夠處理各種復雜氣象和光照條件的關鍵所在。
![]()
異構場景的統一建模與技術協同
占用網絡之所以強大,是因為它能在同一個框架下,利用完全不同的邏輯同時處理路面、天空和各種復雜的障礙物。這種統一性是通過復雜的特征提升與融合機制實現的。
在自動駕駛算法中,三透視視圖(TPV)和Transformer結構的引入,使得模型能夠根據空間位置的動態變化,自適應地應用不同的處理策略。如當系統識別到一個體素位于車輛下方且語義接近“路面”時,會更側重于幾何表面的平滑性;而當體素位于視野上方且呈現天空特征時,系統則會應用更強的負約束來清空該區域。
![]()
圖片源自:網絡
為了在有限的算力下實現這種精細化的場景區分,有技術提出了“距離感知”的感知范式。在車輛附近的“安全核心區”,系統會分配更高的分辨率和更多的體素單元,以便精確重構路面的每一個細節;而在遠距離區域,則采用更粗糙的體素劃分,主要依靠語義信息來判斷天空和背景的邊界。
這種資源分配策略不僅模擬了人類視覺“近精遠粗”的特點,還顯著提升了系統的實時處理能力。
同時,為了解決傳感器數據的稀疏性和噪聲問題,自監督學習技術開始嶄露頭角。通過利用神經輻射場(NeRF)等渲染技術,模型可以將預測的三維占用圖重新投影回二維圖像,并與原始視頻幀進行比對,從而在沒有人工標注的情況下,自主學習如何區分復雜的路面紋理與變幻莫測的天空背景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.