網易首頁 > 網易號 > 正文申請入駐

港廣科陳昶昊團隊：只用一張 RGB 圖像，讓機器讀懂室內 3D 空間丨CVPR 2026

2026-05-10 20:29:11　來源: AI科技評論

廣東舉報

分享至

LegoOcc：無需語義體素標注，也能識別開放類別。

作者丨鄭佳美

編輯丨岑峰

真正的室內空間智能，并不只是讓機器認出畫面里有一張桌子，而是讓它理解真實三維物理空間內：哪里可以通行、哪里存在遮擋、哪些物體能夠交互。

對于未來的家庭機器人和護理機器人來說，理解一個房間并不只是完成圖像分類。它意味著，機器人能夠根據一句自然語言找到玄關柜旁的雨傘，能夠在夜間識別走廊中的充電線是否可能絆倒老人，也能夠在廚房中理解臺面、水杯與邊緣之間的空間關系，并在陌生環境中快速建立可行動的三維空間認知。

但室內環境，恰恰是 3D 感知最難落地的場景之一。相比之下，自動駕駛雖然復雜，卻仍然擁有相對穩定的道路結構與交通參與者，而室內空間更像一個持續變化的開放世界。物體擺放隨時可能變化，遮擋關系更密集，許多目標并不屬于數據集中預定義的類別。如果希望模型真正理解三維空間，通常需要昂貴的 3D 語義標注，即在空間中逐點或逐體素標注每個位置屬于什么物體。這種高昂成本，很難支撐家庭、辦公與公共室內場景的機器人大規模部署。

在這樣的背景下，香港科技大學（廣州）陳昶昊團隊提出了 LegoOcc，該成果《Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes》被 CVPR 2026 接收，并入選大會口頭報告。

這項研究關注更接近真實應用的問題：僅使用一張普通室內 RGB 圖像，不依賴多視角圖像或激光雷達，也不使用 3D 語義標簽，依然能夠預測空間中的占用情況，并進一步支持基于自然語言的開放類別查詢。

換句話說，LegoOcc 解決的，不再是讓機器在固定類別中“做選擇”，而是讓機器真正開始“理解房間”，并把人的語言映射到三維空間中的具體目標。對于家庭機器人、輔助機器人以及 AR / VR 設備等應用，這意味著室內感知正在從“看見物體”，邁向“理解空間”。

論文地址：https://arxiv.org/pdf/2602.22667

少標注，強理解

LegoOcc 的核心思想是：在完全不使用3D語義體素標注、僅使用幾何占用標簽的情況下，模型依然能夠實現高質量的室內單目開放詞匯 3D 占用預測。模型輸入只有一張普通 RGB 圖像，不依賴多視角圖像、深度圖或激光雷達點云；“3D 占用預測”關注的是室內空間中每個小立方體（體素）是否被墻體、桌椅、地板等物體占據；而“開放詞匯”則進一步要求模型突破固定類別限制，不僅能識別椅子、桌子、墻等常見類別，還能夠根據自然語言查詢鞋子、紙、垃圾桶、包等更加自由的長尾物體。

該研究在 Occ-ScanNet 數據集驗證：每個樣本對應一個局部 3D 空間，模型需要同時預測空間占用與語義類別。LegoOcc 在開放詞匯設置下達到 59.50 IoU 與 21.05 mIoU，其中：IoU 體現幾何占用預測能力，即模型是否知道“哪里有東西”； mIoU 體現語義預測能力，即模型是否知道“這些位置是什么”。

相比開放詞匯基線方法，POP-3D的35.32 IoU / 5.96 mIoU 和LOcc：36.70 IoU / 9.25 mIoU。LegoOcc 同時提升幾何結構預測和開放詞匯語義理解能力，尤其 mIoU 從 9.25 提升到 21.05，說明模型的語義識別能力獲得了較大突破。

研究團隊還將 LegoOcc 與 TPVFormer、GaussianFormer、MonoScene、ISO、SurroundOcc、EmbodiedOcc、EmbodiedOcc++、RoboOcc 等閉集方法進行了比較。這些閉集方法使用完整語義體素標注訓練，其中表現較強的 RoboOcc 達到 56.48 IoU 與 47.76 mIoU。雖然 LegoOcc 的 mIoU 仍低于 RoboOcc，但它在完全不使用 3D 語義標簽的前提下，實現了超過所有閉集方法的 59.50 IoU。這說明，LegoOcc 在“空間哪里被占據”這一核心幾何問題上已經非常強，而開放詞匯 3D 語義理解本身仍然是一個極具挑戰性的任務。

原因在于，室內類別天然更加細碎且邊界模糊。椅子、沙發、其他家具等類別本身就容易混淆；開放詞匯模型依賴 3D 特征與文本特征對齊，其類別邊界不如閉集分類器穩定，同時還會受到2D 開放詞匯分割質量、遮擋關系、投影誤差和單目深度歧義等因素影響。

兩個關鍵設計

消融實驗進一步說明，LegoOcc 的性能提升主要來自兩個關鍵設計。

第一個關鍵設計，是高斯分布到體素占用（Poisson-based Gaussian-to-Occupancy）的轉換方法。GaussianFormer2 在開放詞匯訓練下幾乎直接失敗，結果為 0.00 的交并比與 0.00 的平均交并比。原因在于，它沒有充分利用高斯分布的透明度信息。伯努利方法雖然引入了透明度，性能提升至 46.65 的交并比與 17.25 的平均交并比，但在多個高斯分布重疊時，透明度仍然容易被平均化，導致語義特征對齊不穩定。提出的基于泊松分布的高斯到占用轉換方法，最終達到 59.50 的交并比與 21.05 的平均交并比。將每個高斯分布視為空間中的一種占用證據，多個高斯分布的證據能夠自然累積，共同決定某個位置是否被占據。相比簡單疊加或平均，這種方式更穩定地解決二值幾何監督下的三維占用轉換問題。

第二個關鍵設計，是漸進式溫度衰減策略（Progressive Temperature Decay）。問題來源于語義特征混合，在三維高斯分布渲染到二維圖像時，同一條視線上往往同時包含椅子邊緣、桌腿、墻面背景等多個結構。如果直接進行加權融合，不同物體的語義會相互混雜。實驗表明，溫度始終較高時，訓練雖然穩定，但語義混合嚴重；一開始就使用低溫會導致訓練直接崩潰；而訓練階段高溫、測試階段低溫，則會因為訓練與測試不一致導致性能下降。效果最好的是指數式溫度衰減，最終達到 59.50 的交并比與 21.05 的平均交并比。這意味著模型需要先穩定學習場景結構與語義對齊，再逐漸減少特征混合，讓每個高斯分布更加明確地對應具體物體或區域。

LegoOcc 的推理效

在單張 RTX 4090 顯卡上，LegoOcc 達到每秒 22.47 幀，而 ISO 為每秒 3.81 幀，EmbodiedOcc 為每秒 11.48 幀，POP-3D 為每秒 10.21 幀，LOcc 為每秒 8.93 幀。

LegoOcc不僅依賴復雜后處理或多階段推理，而是借助緊湊的三維高斯表示，在速度與準確率之間取得了良好平衡。可視化結果同樣支持這一點。相比 LOcc，LegoOcc 對墻體、地板、家具、桌椅等結構的三維預測更加完整，空間結構更加連續。

在開放詞匯查詢中，模型還能根據背包、自行車、窗簾、鞋子、紙張、垃圾桶等自然語言類別，在三維空間中定位對應物體，而這些類別并不一定屬于 Occ-ScanNet 固定定義的 11 個語義類別。因此，LegoOcc 不僅提升數據集指標，而是讓模型更接近自然語言驅動的三維場景理解。

傳統方法的兩個局限

第一個限制是“閉集類別”問題，也就是模型只能識別訓練數據中預先定義好的類別。例如，在 Occ-ScanNet 數據集中，主要評估的類別包括天花板、地板、墻壁、窗戶、椅子、床、沙發、桌子、電視、家具以及雜項物體等。但真實室內環境遠比數據集復雜，還存在書包、鞋子、垃圾桶、紙張、遙控器、衣服、玩具等大量長尾物體，而這些目標往往并不在固定類別列表中。

第二個限制是對昂貴三維語義標注的依賴。傳統三維語義占用模型通常需要知道每一個三維體素具體屬于什么類別。然而，室內環境中的物體往往高度密集、遮擋嚴重、類別繁多，如果采用人工逐點或逐體素標注，成本極高，也很難擴展到大規模真實場景。

因此，研究團隊采用更符合實際應用的訓練方式：訓練階段只使用二值占用標簽，僅告訴模型“這里是否有物體”，而不提供具體語義類別。模型的語義能力則通過開放詞匯二維分割模型與語言特征對齊來獲得。

雖然訓練階段不使用語義體素標簽，但在評估階段，仍然會利用語義標簽檢驗模型是否能夠正確識別空間中的物體類別。評估主要采用兩個指標：交并比用于衡量占用預測能力，即模型是否知道“哪里有東西”；平均交并比則用于衡量語義預測能力，即模型是否知道“這些位置分別屬于什么類別”。

帶語言特征的三維高斯表示

LegoOcc 的核心中間表示是帶語言特征的三維高斯表示，這里的三維高斯不僅是空間點或模糊橢球，而同時攜帶幾何信息與語言語義信息。

幾何信息包括它在三維空間中的位置、形狀、大小以及透明度，用于判斷空間中哪些區域被物體占據；語言語義信息則是一個能夠與文本特征對齊的向量，用于支持開放詞匯查詢。幾何與語義被統一綁定在同一個三維表示之中。模型不再是“先預測三維結構、再額外貼語義標簽”，而是在每個三維高斯中同時保存“它在哪里”以及“它可能代表什么”。

傳統的“高斯到占用”方法容易出現兩個問題。首先，幾何分支沒有充分利用透明度，而語義渲染過程卻依賴透明度信息，導致幾何學習與語義學習之間存在不一致；其次，室內場景中的物體十分密集，多個高斯可能同時影響同一個體素，如果簡單疊加貢獻，容易出現飽和或訓練不穩定的問題。

為此，研究團隊提出基于泊松建模的高斯到占用轉換方法。該方法將每個高斯對空間位置的影響理解為一種“這里可能存在物體”的證據，一個位置是否被占據，由所有相關高斯的證據共同決定。這樣不僅能夠更自然地處理多個高斯重疊的問題，也能夠讓透明度真正參與幾何占用判斷。訓練過程中，幾何分支采用二值占用監督，并結合占用損失與深度約束，使模型能夠學習穩定的三維空間結構。

依賴三維語義標注的語義學習

語義分支的目標，是讓每個高斯的語言特征能夠與文本類別實現對齊。

研究團隊并沒有使用人工標注的三維語義標簽，而是借助已經訓練好的開放詞匯二維分割模型，從圖像中提取語言對齊的語義特征。研究中采用了類似 Trident 的開放詞匯分割模型。

LegoOcc 先從輸入圖像預測帶語言特征的三維高斯，再將這些高斯的語義特征重新渲染回二維圖像平面，從而得到每個像素位置上的渲染語義特征。隨后，再利用開放詞匯二維分割模型從原始圖像中提取語言對齊的二維特征，并讓兩者盡可能保持一致。這樣，模型便能夠借助二維視覺語言模型獲得語義監督，而無需人工為每個三維體素逐一標注類別。

漸進式溫度衰減

室內場景中容易出現“特征混合”問題。比如，一張圖像中可能同時包含桌子、椅子、墻壁和地板。某個像素從二維圖像上看主要屬于椅子，但沿著視線進入三維空間后，可能會同時經過椅子邊緣、桌腿以及背景墻面等多個結構。在渲染過程中，多個高斯的語義特征會被加權融合到同一個像素中。如果直接利用這種混合特征去對齊二維開放詞匯特征，模型雖然能夠讓最終結果“看起來像椅子”，卻無法保證真正屬于椅子的那些高斯本身學到了清晰的椅子語義。最終映射回三維空間時，語義邊界就會變得模糊。

為了緩解特征混合問題，研究團隊提出漸進式溫度衰減的策略，用于控制高斯渲染時特征融合的軟硬程度。在訓練初期，模型尚未學好幾何結構與語義特征。如果一開始就讓每個高斯的貢獻非常尖銳，訓練過程會變得不穩定，梯度也可能難以優化。因此，早期需要采用較平滑的特征融合方式，讓模型先學習整體場景結構。而到了訓練后期，模型已經具備較穩定的幾何基礎。如果仍然保持過于平滑的融合，不同物體的語義就會持續混雜。因此，需要逐漸降低溫度，讓重要高斯的貢獻更加突出，不相關高斯的影響進一步減弱，從而讓每個高斯對應的語義更加清晰。

研究團隊比較了多種策略，包括不使用溫度衰減、固定低溫度、線性衰減以及指數衰減。實驗結果表明，指數式溫度衰減效果最好，因為它能夠讓模型在低溫階段停留更長時間，從而更充分地學習每個高斯對應的清晰語義。

從固定識別到自然交互

訓練完成后，LegoOcc 可以直接進行自然語言查詢。推理階段，模型首先從單張室內圖像預測帶語言特征的三維高斯表示，再進一步生成三維占用空間。對于每一個被占據的位置，系統都會保留對應的語言對齊特征。當用戶輸入一個文本類別，例如“紙張”或“鞋子”時，系統會先將文本轉換成語言特征，再與三維空間中的特征進行匹配。匹配程度越高的位置，就越有可能屬于對應類別。開放詞匯的類別并不是固定寫死在模型最后一層分類器中的，而是通過文本特征動態查詢得到。因此，模型能夠處理訓練階段沒有明確出現在固定類別表中的物體。

LegoOcc 證明，室內場景同樣能夠實現開放詞匯三維占用預測。這對于服務機器人、家庭機器人、增強現實 / 虛擬現實以及室內導航等方向，都具有重要意義。對于普通用戶而言，這意味著未來的機器人不再只是“識別固定類別”，而是真正能夠理解人的自然語言。它可以根據一句話找到地上的紙、桌子旁邊的背包、椅子后面的鞋子，也能夠在收納、找物、避障、陪護以及室內導航等任務中更加實用。

這項研究顯著降低了三維語義理解的訓練成本。相比二維圖像標注，三維語義標注需要在空間中逐點或逐體素進行類別標注，工作量更大，而室內物體類別又高度長尾，很難依靠人工窮盡。LegoOcc 通過“二值占用學習幾何 + 二維開放詞匯模型提供語義監督”的方式，使未來構建大規模三維語義理解系統的成本顯著降低。

當然，這項研究仍然存在一定局限。例如，其語義平均交并比仍低于使用完整語義監督的閉集方法，說明開放詞匯三維語義對齊仍不夠精確。模型還依賴二維開放詞匯分割模型的質量，而單目輸入本身也存在深度歧義。此外，不同文本提示詞，例如“椅子”“座椅”“辦公椅”等，可能影響最終查詢結果的穩定性。

LegoOcc推動室內三維理解從固定類別識別，進一步邁向更加靈活、更加自然的語言交互，為未來真正實用的家庭機器人、輔助設備以及增強現實 / 虛擬現實系統提供了重要基礎。

LegoOcc 背后的研究者

第一作者：周常青，香港科技大學（廣州）博士生，致力于高效且穩定的三維場景理解方法研究，當前重點關注端到端軌跡生成模型，以及面向導航任務的高效世界模型構建。

通訊作者：陳昶昊，香港科技大學（廣州）智能交通學域和人工智能學域助理教授，副研究員，博士生導師，擔任香港科技大學（清水灣校區）跨學科學院聯署助理教授。

獲英國牛津大學計算機科學博士學位，并在英國工程和自然科學研究委員會（EPSRC）資助下從事博士后研究。擔任香港科技大學（廣州）具身智能PEAK實驗室獨立PI.

其研究聚焦具身智能和自主無人系統前沿探索，致力于構建開放環境交互的具身智能體，服務低空經濟、智能交通和智慧城市。

先后入選全球前2%頂尖科學家榜單、中國科協青年人才托舉工程和國際機器人科學與系統大會先鋒者，主持國家自然科學基金面上、青年以及省教育廳重點等縱向項目7項。

在NeurIPS、AAAI、CVPR、ICCV、ECCV、ICRA、IROS、WWW、TNNLS、TIP、TITS、RA-L等人工智能、機器人和智能交通領域高水平期刊和頂級會議上發表論文50余篇，谷歌學術引用超過3800次。

國際機器人與自動化會議（ICRA）和IEEE機器人與自動化快報（RA-L）副編輯（Associate Editor），中國自動化學會機器人專委會和具身智能專委會委員。已授權國家發明專利、國際PCT專利、美國、歐洲、澳大利亞專利共14項，包含1項在英國成功成果轉化。

參考鏈接：https://changhao-chen.github.io/

這次去 CVPR 現場，一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么：把你最關注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學術社區做貢獻、認識更多大牛，歡迎聯系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.