<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      橫掃室內3D場景,港科大(廣州)打造單目開放詞匯占據預測新SOTA

      0
      分享至



      在具身智能研究中,如何讓智能體精準理解周圍環境的精細幾何結構與開放語義信息,始終是具身感知的核心難題。近年來,語義占據預測(Semantic Occupancy Prediction) 將稠密幾何與語義信息統一到三維體素網格中,用于構建 3D 語義占據地圖,為機器人的空間推理、導航與交互操作提供了場景表達基礎。

      然而,現有方法大多建立在封閉詞匯(Closed-vocabulary) 設定下,模型只能識別訓練階段預先定義好的有限類別。一旦進入真實環境,場景中的語義往往是開放且長尾的 —— 用戶可能會直接問:「鞋子在哪兒?」「紙巾在哪兒?」「遙控器在哪兒?」 對于傳統占據預測方法而言,超出預定義類別的目標幾乎無法被正確識別。面對「一個帶條紋的馬克杯」「一把破損的木椅」這類更細粒度、描述性更強的目標時,封閉詞匯模型往往無能為力。

      近期,香港科技大學(廣州)陳昶昊教授團隊聯合香港中文大學(深圳) 研究者提出了 LegoOcc,首次面向具身場景實現了單目開放詞匯三維占據預測。該工作被 CVPR 2026 收錄為 Oral(大會口頭報告)。

      LegoOcc 以語言嵌入高斯(Language-embedded Gaussians) 作為統一的三維表示,在僅使用幾何標簽(二值占據標簽) 訓練的情況下,便能支持任意文本描述的目標類別查詢,實現開放詞匯的三維語義占據預測。

      在 Occ-ScanNet 數據集上,LegoOcc 取得了 21.05 mIoU 和 59.50 IoU 的開放詞匯預測結果,相比此前最強的開放詞匯模型,mIoU 提升超過 2 倍;同時其整體幾何占據預測精度也超越了多種封閉詞匯方法,展現出極強的性能與泛化能力。



      • 論文標題:Monocular Open Vocabulary Occupancy Prediction for Indoor Scenes
      • 論文地址:https://arxiv.org/abs/2602.22667

      為什么具身場景的開放語義占據預測更困難?

      傳統的占據預測模型像僅僅背過單詞書,只能認出學過的詞匯類別,而開放詞匯模型則掌握了語言能力,無論遇到什么新物體,都能根據文本描述進行推理。下圖展示了這一差異:

      • 封閉詞匯模型- 只能識別「椅子」「桌子」等訓練時見過的類別。
      • 開放詞匯模型(LegoOcc)- 可以響應任意自然語言查詢,如「鞋子」「紙」等未定義物體,并生成對應區域的熱力圖。



      Figure 1 閉集 vs 開集 3D 占據預測

      此外,室內具身環境與戶外車輛駕駛場景也有不同:

      1. 室內場景的幾何更稠密、結構更復雜,有大量的細小物體以及遮擋,對幾何建模的精細度要求高。
      2. 室內場景的物體類別繁多、細粒度要求更高且分布不均衡,很多類別在訓練數據中只出現寥寥幾次。

      因此,直接將室外開放詞匯占據預測模型遷移到室內,會出現性能下降,已有的少數室內占據預測方法仍然依賴固定基類模型,無法支持開放詞匯類別推理。

      LegoOCC 框架介紹



      Figure 2 LegoOcc 整體算法框架

      LegoOcc 將問題拆解為兩部分:幾何學習決定空間里哪里「被占據」,語義學習決定這些被占據區域「是什么」。為實現開放詞表場景表達,LegoOcc 采用語言嵌入高斯(LE-Gaussians) 作為統一的中間表示:每個高斯同時攜帶幾何參數(位置、協方差、不透明度)與一個語言對齊的語義嵌入。

      (1)從單目圖像生成語言嵌入的 3D 高斯

      給定輸入圖像,LegoOcc 首先通過前饋網絡預測一組三維高斯,這里的每個高斯不僅包含位置、尺度、協方差和不透明度等幾何參數,還攜帶一個與語言空間對齊的語義嵌入。LegoOcc 模型避免在幾何分支和語義分支中使用兩套獨立表示,而是讓同一組高斯同時服務于幾何建模和開放詞匯語義建模。由此,「空間哪里有東西」和「這個東西是什么」就被統一到了同一個場景表示框架中。

      (2)泊松視角的高斯到占據轉換

      在僅有二值占據監督的設定下,進一步研究如何將高斯表示穩定地聚合為體素占據結果。現有方法在這一環節易出現訓練不穩定,原因在于二維渲染時使用了基于不透明度的 α 混合,但三維占據聚合時卻可能忽略不透明度信息,導致二維渲染監督與三維占據監督之間存在優化沖突。

      為此,LegoOcc 提出了基于泊松過程的高斯到占據轉換(Poisson-based Gaussian-to-Occupancy, G2O),將每個高斯在某個體素位置的有效貢獻視作泊松事件強度,并將「該位置是否被占據」解釋為「至少發生一次事件」的概率。相比伯努利并集式聚合,基于泊松過程的建模方式在弱監督條件下更穩定,也不容易退化到無效的不透明度分配,從而提升了模型幾何學習階段的穩定性與可優化性。



      (3)漸進溫度衰減減少沿光線的特征混合

      在語義學習部分,LegoOcc 采用高斯潑濺將三維高斯的語義特征微渲染到圖像平面,再與一個無需訓練的開放詞匯分割模型(文中采用 Trident)輸出的圖像特征進行余弦相似度對齊。由于 α 混合會讓每個像素特征成為沿光線多個高斯嵌入的加權混合,然而室內場景對象密集、投影重疊多,易導致監督信號鼓勵「混合后的特征」對齊語言,而不是每個高斯本身對齊語言。

      因此提出了漸進溫度衰減(Progressive Temperature Decay ),用帶溫度的 sigmoid 函數控制不透明度,并在訓練中把溫度從較高逐步退火到低,使不透明度逐漸變尖銳,減少了沿光線的特征混合,同時又保留連續梯度(區別于硬 Top?k 的離散選擇),提升語言監督落到單個高斯上的精度,增強了模型在開放詞匯語義理解中的判別能力。



      實驗結果

      論文從定量實驗、消融實驗和可視化結果三個方面驗證了提出的 LegoOcc 模型有效性,LegoOcc 在開放語義占據預測、三維幾何占據預測和推理效率上都展現出了明顯優勢。

      (1)開放詞匯設定下 mIoU 超過此前最佳方法 2 倍

      論文展示了閉集評測和開放詞匯評測兩種設定下的定量實驗結果。在閉集評測中,LegoOcc 在 Occ-ScanNet 的 11 個固定類別上,預測與真實標簽更為一致,幾何準確、語義泛化能力強。在開放詞匯評測中,由視覺語言模型自動抽取名詞作為文本查詢(如「鞋子」「洗手池」),模型生成對應類別的三維語義占據結果,實現文本驅動的任意語義類別定位。

      在 Occ-ScanNet 數據集上,LegoOcc 在開放詞匯設定下取得了 21.05 mIoU 和 59.50 IoU 的結果。相比此前表現最好的開放詞匯方法 LOcc,LegoOcc 的 mIoU 提升了 11.80 個點(超過 2 倍),整體 IoU 提升了 22.80 個點。LegoOcc 的 59.50 IoU 不僅領先開放詞匯方法,甚至還超過了表中所有封閉詞匯模型的最佳整體 IoU。



      (2)Poisson 聚合的作用驗證

      本工作對提出的泊松式高斯到占據轉換(Poisson-based G2O)進行了消融實驗。

      在開放詞匯設定下,當使用 GaussianFormer2 風格聚合時,結果幾乎退化到 0.00 mIoU / 0.00 IoU;當使用 Bernoulli 聚合時,性能恢復到 17.25 mIoU / 46.65 IoU;當使用 Poisson 聚合時,性能進一步提升到 21.05 mIoU / 59.50 IoU。這表明引入 Poisson 聚合能夠讓模型在僅有幾何監督條件下穩定訓練、有效學習。



      (3)漸進溫度衰減緩解特征混合問題

      本文對溫度控制策略進行了消融實驗:若訓練和測試都固定高溫,雖然幾何 IoU 尚可,但 mIoU 明顯偏低,說明語義學習仍受特征混合影響;若訓練時用高溫、測試時突然切換到低溫,則會出現訓練測試不匹配(Train-test Mismatch);若從訓練一開始就使用低溫,則優化會困難,甚至直接退化;當采用漸進溫度衰減,模型能夠兼顧訓練穩定性與最終語義判別性,取得最佳結果。



      (4)推理速度具備優勢,更適合機器人平臺部署

      在單張 RTX 4090 上,LegoOcc 的推理速度達到了 22.47 FPS,明顯快于多種對比方法。相比于自動駕駛等場景,機器人平臺對推理速度和輕量化計算要求更高,因此 LegoOcc 更適用于具身機器人平臺。



      (5)可視化結果

      1. 閉集評測結果

      在 Occ-ScanNet 的固定類別評測中,LegoOcc 的預測結果與真實標簽更為一致,幾何和語義預測能力強。(a) 輸入圖像,(b) 真實標簽,(c)LOcc(對比方法),(d)提出的 LegoOcc。



      圖 3 Occ-ScanNet 閉集測試結果(Closed-vocabulary Results on Occ-ScanNet)

      2. 開放詞匯測試結果

      進一步使用視覺語言模型(Vision-language Model)自動從場景中提取名詞作為文本查詢,例如「鞋子」「洗手池」「顯示器」等,并讓模型生成對應類別的三維語義占據預測結果。LegoOcc 不局限于訓練時給定的固定類別,能夠根據自然語言描述進行三維空間中的目標識別,實現了文本驅動的開放詞匯三維查詢。



      圖 4 開放詞匯測試結果(Open-vocabulary Results)

      展望與意義

      面向具身室內場景,本文提出 LegoOcc ,一種單目開放語義占據預測框架,采用語言嵌入的高斯統一表達幾何與語義場景信息。幾何側以泊松聚合穩定弱監督訓練,語義側用漸進溫度退火削弱特征混合,模型在無需體素語義標注的前提下,實現了文本驅動的三維語義占據預測。

      未來的家用機器人能夠高效地將三維場景表達為體素網格,只需一句「幫我找一下茶幾上的遙控器」,即可在復雜空間中精準定位目標物體,而無需預先「學習」過遙控器這一類別。

      作者介紹

      周常青:香港科技大學(廣州)博士生,致力于高效且穩定的三維場景理解方法研究,當前重點關注端到端軌跡生成模型,以及面向導航任務的高效世界模型構建。

      張涵:香港科技大學(廣州)紅鳥碩士生,專注探索高效可靠的三維場景理解方法,現階段重點探索三維視覺語義定位方法,以及適配導航任務的高效世界模型構建。

      江澤宇:香港科技大學(廣州)博士生,主要研究方向為高效的空間物理智能體,專注于將通用空間智能注入現實開放環境的具身應用場景。

      陳昶昊(通訊作者):香港科技大學(廣州)智能交通學域和人工智能學域助理教授,博士生導師,香港科技大學跨學科學院聯署助理教授,從事具身智能感知、導航與交互研究,組建港科大(廣州)PEAK-Lab 課題組并擔任獨立 PI。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      我40歲才清楚:為什么買榴蓮時,老板總要幫著剝殼?里面套路深

      我40歲才清楚:為什么買榴蓮時,老板總要幫著剝殼?里面套路深

      卡西莫多的故事
      2025-12-08 10:29:05
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      武漢三鎮換帥如翻書!鄧卓翔又要來背鍋,他能拯救這座城嗎?

      武漢三鎮換帥如翻書!鄧卓翔又要來背鍋,他能拯救這座城嗎?

      落夜足球
      2026-05-08 16:32:38
      余承東在華為權力排名

      余承東在華為權力排名

      生活新鮮市
      2026-04-27 18:30:53
      有人說:打麻將和性生活是縣城的底色?

      有人說:打麻將和性生活是縣城的底色?

      燈錦年
      2026-04-21 12:32:46
      小米手機大跌!出貨量下滑19%,汽車業務是「罪魁禍首」?

      小米手機大跌!出貨量下滑19%,汽車業務是「罪魁禍首」?

      雷科技
      2026-05-06 21:29:31
      昆明機場T2航站樓現場:機器人貼磚,月薪過萬的新工種出現了?

      昆明機場T2航站樓現場:機器人貼磚,月薪過萬的新工種出現了?

      智慧生活筆記
      2026-05-08 03:45:09
      日本等了一天一夜,還是見不到中方,高市早苗決心派百人團訪華

      日本等了一天一夜,還是見不到中方,高市早苗決心派百人團訪華

      芳芳歷史燴
      2026-05-08 16:09:11
      全國1.6億人停繳靈活就業社保,問題出在哪?

      全國1.6億人停繳靈活就業社保,問題出在哪?

      老特有話說
      2026-05-08 14:38:12
      醫生:糖尿病最危險信號,不是渾身無力,而是頻繁出現這5個異常

      醫生:糖尿病最危險信號,不是渾身無力,而是頻繁出現這5個異常

      今日養生之道
      2026-05-08 13:17:06
      小馬云成年后首播,直播間打賞刷屏!他開始吵著“要找老婆”...

      小馬云成年后首播,直播間打賞刷屏!他開始吵著“要找老婆”...

      品牌新
      2026-05-08 16:22:12
      比亞迪取消員工園區免費充電

      比亞迪取消員工園區免費充電

      鞭牛士
      2026-05-06 13:44:04
      海峽突發激烈沖突!美軍無故掃射海面,伊朗快艇全程冷靜對峙

      海峽突發激烈沖突!美軍無故掃射海面,伊朗快艇全程冷靜對峙

      黑鷹觀軍事
      2026-05-08 16:08:56
      蘋果新品上架,5月8日,正式開售

      蘋果新品上架,5月8日,正式開售

      科技堡壘
      2026-05-06 12:16:23
      成都一河道現廢舊注射器,當地:注射器系用于控糖減重,已清理

      成都一河道現廢舊注射器,當地:注射器系用于控糖減重,已清理

      新京報
      2026-05-08 16:40:05
      上海成為2028年奧運會資格系列賽舉辦城市,國際奧委會主席考文垂發來賀電

      上海成為2028年奧運會資格系列賽舉辦城市,國際奧委會主席考文垂發來賀電

      上觀新聞
      2026-05-08 04:24:13
      岳陽摩托車飆車后續,現場慘不忍睹2老人當場死亡,肇事者是慣犯

      岳陽摩托車飆車后續,現場慘不忍睹2老人當場死亡,肇事者是慣犯

      觀察鑒娛
      2026-05-07 09:50:00
      亨得利希望2029年世錦賽留在謝菲爾德!特魯姆普:找不到任何理由

      亨得利希望2029年世錦賽留在謝菲爾德!特魯姆普:找不到任何理由

      世界體壇觀察家
      2026-05-08 08:12:17
      自民黨高層訪華受挫后,高市打算親自訪華,中方態度早已明確

      自民黨高層訪華受挫后,高市打算親自訪華,中方態度早已明確

      面包夾知識
      2026-05-08 15:48:14
      求救也晚了,伊朗宣布對美艦開火,話音剛落,土耳其亮出洲際導彈

      求救也晚了,伊朗宣布對美艦開火,話音剛落,土耳其亮出洲際導彈

      光輝與陰暗
      2026-05-07 15:23:40
      2026-05-08 17:20:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      12946文章數 142646關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      沙特翻臉突然對美軍關閉領空 特朗普連忙打電話都沒用

      頭條要聞

      沙特翻臉突然對美軍關閉領空 特朗普連忙打電話都沒用

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      一覺醒來,美伊又打起來了

      汽車要聞

      智能雙艙大五座SUV 樂道L80將于5月15日正式上市

      態度原創

      旅游
      親子
      手機
      房產
      公開課

      旅游要聞

      旅游收入近300億元 廣東:“演出+”“電影+”“體育+”解鎖消費新場景

      親子要聞

      警惕!身邊這些東西可能讓孩子早熟

      手機要聞

      某廠驍龍2nm新機配置全曝光:2nm+2億像素,或為榮耀Magic 9系列

      房產要聞

      豪擲6.8億拿地!何猷君大手筆投資三亞!

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲人妻久久| 欧洲无码av| 国产精品一品二区三区日韩| 巨胸爆乳美女露双奶头挤奶| 蜜桃区一区二区三视频| 99免费精品| 99在线精品视频观看免费| 成人免费在线播放av| 日韩不卡一级毛片免费| 成人自拍偷拍视频在线| 亚洲人成电影网站 久久影视| 九九成人在线| 在线亚洲人妻| 国产精品乱子伦一区二区三区| 67194亚洲无码| 熟女一区二区中文字幕| 十八岁以下禁止观看黄下载链接| 成人国产亚洲精品a区| 免费看成人欧美片爱潮app| 成人午夜大片免费看爽爽爽| 美女一区二区三区在线观看视频| 福利姬在线观看| 香蕉狠狠再啪线视频| 九九热精品免费在线视频| 青青久草| 日韩熟女AV| 午夜免费福利一区二区无码AV| 亚洲色最新高清AV网站| 日韩成人无码影院| 玩弄人妻少妇500系列| 久久精品人妻中文视频| 97精品国产97久久久久久| 国产午夜福利在线观看播放| 天天干天天射天天操| 日韩人妻无码专区一| 欧美怡红院视频一区二区三区 | 日本一区二区三区免费播放视频站 | 国偷自产一区二区三区在线视频 | 亚洲秘AV无码一区二区三区| 人人澡人摸人人添| 一区二区三区av|