![]()
第一作者為北京通用人工智能研究院(BIGAI)研究員陳以新,合作者來自 BIGAI、北京大學、清華大學、北京郵電大學、北京理工大學,通訊作者為 BIGAI 研究員黃思遠。
在具身智能、機器人與增強現實等方向持續(xù)推進的今天,3D 場景理解能力正成為空間智能的核心基礎設施。然而,一個長期存在卻始終未被解決的問題是:
當高質量 3D 標注數據日益稀缺,我們能否用「海量」互聯網視頻構建高精度、可擴展的真實場景數據,提升 3D 場景理解的多任務表現?
近期,來自北京通用人工智能研究院的研究團隊在被 CVPR 2026 高分接收的論文中,系統性地回答了這一問題。
![]()
- 論文鏈接: https://arxiv.org/abs/2604.01907
- 項目主頁:https://sv-pp.github.io/
- 數據鏈接:https://huggingface.co/datasets/bigai/SceneVersepp
![]()
圖 1 SceneVerse++ 總覽:從無標注互聯網視頻出發(fā),經自動化引擎生成的數據可用于提升 3D 檢測、空間 VQA 與 VLN 等下游任務的模型表現。
研究團隊提出了一整套面向 3D 場景理解的自動化數據引擎,從無標注視頻出發(fā),依次完成數據預處理與篩選、結構化建圖(SfM)、稠密重建、實例分割、語義描述生成,并進一步派生出空間問答(Spatial VQA)與視覺語言導航(VLN)所需的結構化數據。
基于該數據引擎,團隊構建了迄今最大規(guī)模的真實室內 3D 場景數據集 SceneVerse++,共 6687 個場景,在場景數量、場景面積、物體種類與物體數量上均顯著超越 ScanNet、ARKitScenes 與 MultiScan 等既有真實數據集。
在三項代表性下游任務,3D 目標檢測與實例分割、3D 空間視覺問答(VQA)、3D 視覺語言導航(VLN)上,SceneVerse++ 均帶來顯著的零樣本與微調性能提升,并首次系統揭示了自動化數據生成流程中各子模塊對下游任務的關鍵影響。
這項研究不僅交付了一個可直接使用的數據集,更重要的是為「用互聯網規(guī)模的無標注數據驅動 3D 空間智能」提供了可復現的路線圖和未來發(fā)展方向。
3D 場景理解的最大瓶頸:真實、高質量且多樣的數據
3D 場景理解是具身智能、機器人與增強現實的共同基礎,近年來從幾何感知(深度估計、相機位姿估計)到語義理解(3D 目標檢測、實例分割),再到高層推理(3D 視覺定位、空間推理)都取得了顯著進展。
然而與 2D 數據不同,高質量 3D 場景數據的獲取與標注代價極高:通常需要 RGB-D 設備或 LiDAR 采集、三維重建、再人工標注場景結構與類別。
自 ScanNet 以來,3D 場景數據的規(guī)模并未真正出現量級上的飛躍;后續(xù)工作或以精度為代價提升場景數量(如 ARKitScenes),或在有限規(guī)模上提升質量(如 ScanNet++)。模型持續(xù)迭代,數據卻面臨瓶頸,成為制約 3D 場景理解發(fā)展的核心矛盾。
本文的核心觀點是:用精心設計的自動化數據引擎,從無標注視頻中恢復與現有數據集同樣的 3D 場景表示,并生成可直接用于訓練的多任務標注。
SceneVerse++:來自互聯網視頻的真實 3D 場景數據集
研究團隊聚焦于靜態(tài)室內場景,把互聯網上的 Room Tour 視頻作為原始素材。相較于傳統掃描數據,這類視頻具有更強的多樣性與規(guī)模潛力,同時也帶來了更復雜的建模挑戰(zhàn)。
整個數據管線由以下模塊組成:
- 鏡頭切分與過濾:使用 TransNetV2 對長視頻進行鏡頭檢測,剔除過短片段、純黑屏、畫面噪聲、人物主體以及室外場景,保留適合 3D 重建的室內內容;
- 基于視差的關鍵幀抽取:相較于均勻采樣,采用基于視差的關鍵幀選擇,既保證三角化穩(wěn)定,又控制冗余,對長視頻尤其友好;
- 密集像素匹配與全局光束法平差:通過密集像素匹配 + BA 得到穩(wěn)健的相機位姿與稀疏點云;并針對 300 幀以上的長視頻引入了優(yōu)化的偽軌跡像素與相對圖像相似度策略,有效緩解像素匹配模型的假陽性偏差;
- 質量把關:對空間覆蓋過小、內容過空或 SfM 結果異常的場景進行過濾。為確保下游任務的數據質量,采用人工復核(每個場景 10 秒以內),代價可控。
最終,從 8217 段互聯網視頻出發(fā),團隊得到6687 個真實室內 3D 場景,規(guī)模已超越同類真實數據集,并且由于素材來自長視頻,SceneVerse++ 天然包含多樓層、多房間、大范圍的復雜場景,這是傳統房間級或實驗室級掃描數據所不具備的。
![]()
圖 2 SceneVerse++ 與 ScanNet、ARKitScenes、MultiScan 的統計對比:在場景數量、場景面積、物體類別數與物體數量四項指標上全面領先。
核心模塊一:自動化 3D 重建與實例分割數據引擎
僅有 SfM 稀疏點云并不足以支撐下游任務。團隊在 SfM 之上設計了一套同時兼顧質量與效率的稠密重建 + 實例分割管線(如圖 3)。
核心目標是解決一個基礎問題:如何從普通視頻中,自動恢復一個「完整且?guī)俗ⅰ沟?3D 場景?
![]()
圖 3 數據生成管線總覽:左上為基于度量深度的稠密重建,左下為 2D→3D 掩碼提升與語義標簽生成,右側為最終的重建網格與實例分割結果。
- 稠密重建:以 SfM 稀疏點為先驗,通過 Prior Depth Anything 預測稠密度量深度圖,隨后在 TSDF 表示下完成融合,得到水密網格;并以半徑 / 統計濾波去除浮點噪聲。相比端到端方法,該流水線在保持穩(wěn)定幾何質量的同時,顯著降低了大場景的計算開銷。
- 實例分割:先用在每一幀獲得 2D 分割掩碼,再基于相鄰幀視圖一致性 + 空間一致性將 2D 掩碼聚合到 3D 空間;最后用 DescribeAnything 與 Qwen-VL 自動生成實例的文本描述與 ScanNet 類別標簽。這套 2D→3D 提升方案在避免重復實例的同時,擺脫了對每場景優(yōu)化的重度依賴。
核心模塊二:面向空間 VQA 的結構化問答生成
在 3D 場景理解之上,團隊希望進一步推動大模型的空間推理能力:這些數據,能不能直接用來訓練模型的「空間理解能力」?
基于 SceneVerse++ 的幾何 + 語義標注,他們構建了 3D 場景圖(scene graph):每個節(jié)點表示一個 3D 物體實例,邊表示成對空間關系。結合 VLM-3R 的任務模板,自動生成七類空間問答樣本,涵蓋:
- 物體計數、物體尺寸(Object Counting / Object Size)
- 相對距離、相對方向、絕對距離(Relative Distance / Relative Direction / Absolute Distance)
- 房間尺寸(Room Size)
- 路線規(guī)劃(Route Planning)
管線輸出總計632K 條空間 VQA 樣本(391K 多選題 + 241K 填數題),可直接用于 VSI-Bench 格式下的訓練與評估。
核心模塊三:從真實 Room Tour 視頻到可訓練的 VLN 數據
視覺語言導航(VLN)任務的目標,是讓智能體「看著畫面,聽著指令,在環(huán)境中移動」。 現實問題是:真實視頻雖然豐富,卻并不天然適合做導航數據。
真實的 Room Tour 視頻最接近人類自然探索方式,但其相機軌跡充滿冗余旋轉、回頭看、非前向視角等非導航行為,與 R2R 這類基準中的短路徑 - 目標導向軌跡存在顯著差異。
![]()
圖 4 VLN 數據生成三段式管線:路徑預處理 → 動作編碼 → 指令生成。
團隊據此設計了三階段流水線:
- 路徑預處理:移除冗余局部旋轉、切分過長路徑為若干子路徑,使其適合生成自然語言指令;
- 動作編碼:從 SfM 相機位姿投影到地面坐標,離散化為 R2R 風格的前進步長(25/50/75 cm)與旋轉角度(15°/30°/45°),并過濾掉「只看不走」的動作;
- 指令生成:以 Chain-of-Thought 方式讓 VLM 先描述局部動作,再生成整段路徑的自然語言指令;每條軌跡生成三種風格化的指令以增強多樣性。
該管線最終在 SceneVerse++ 上產出9631 條軌跡、平均長度 12.8 米、平均 15 步,共 7189 個不同場景下的 21567 條指令,為 VLN 研究提供了大規(guī)模、高質量的真實視頻軌跡資源。
實驗結果:三項任務全面提升,首次系統量化數據引擎的價值
1. 3D 目標檢測與實例分割
作者以SpatialLM(基于 MLLM,原始模型在 12000+ 室內合成場景上預訓練)作為 3D 目標檢測代表,以Mask3D(基于圖分割 segment 的實例分割模型)作為 3D 實例分割代表,分別在 ARKitScenes 與 ScanNet 兩個真實世界基準上進行零樣本與微調評估,所有模型架構保持一致。
(a) 3D 目標檢測:如表 1 所示,SceneVerse++ 作為預訓練數據在 ScanNet 零樣本上取得 F1@30.9 的表現,更關鍵的是,在 ScanNet 上完成微調后,SceneVerse++ 預訓練模型取得 F1@0.25 = 58.6、F1@0.5 = 45.4,較 SpatialLM 原合成預訓練 + ScanNet 微調的 38.0 / 28.7 分別提升 +20.6 / +16.7 分,表明互聯網真實視頻比合成數據更能提供貼合真實世界分布的初始化;同時,僅在 ScanNet 上訓練(無預訓練)僅得 F1@0.25 = 2.9,表明連接 3D 編碼器與 MLLM 的適配器必須依賴大規(guī)模預訓練。
![]()
表 1 SpatialLM 在 3D 目標檢測上的評估:在相同模型結構下,SceneVerse++ 預訓練 + ScanNet 微調取得 F1@0.25 = 58.6 / F1@0.5 = 45.4,相對基線大幅領先。
(b) 3D 實例分割:如表 2 所示,單獨用 SceneVerse++ 預訓練的 Mask3D 難以遷移到 ScanNet(AP25 僅 15.4),但在 ScanNet 上微調后,各項指標均有提升(AP25 36.1 → 38.5,AP 22.8 → 23.6)。這一差異揭示了一個關鍵現象:Mask3D 嚴重依賴基于圖分割預計算的 segment,對傳感器、重建流程的分布漂移高度敏感;相比之下,SpatialLM 這類直接作用于體素 / RGB 的模型表現出更穩(wěn)健的可擴展性。
![]()
表 2 Mask3D 在 3D 實例分割上的評估:SceneVerse++ 預訓練 + ScanNet 微調相比從頭訓練提升 +2.4/+1.1/+0.8 (AP25/AP50/AP),但僅用 SceneVerse++ 預訓練難以零樣本遷移,反映了該模型對數據特定偏差的強依賴。
2. 3D 空間視覺問答
3D 空間視覺問答的評估在VSI-Bench上進行,作者在Qwen2.5-VL-3B / 7B兩個規(guī)模上用 LoRA 微調,訓練數據分為四組對照:
(1) 零樣本(-);
(2) 僅 SceneVerse++(SV++,202K 樣本);
(3) 僅 VLM-3R 的 ScanNet+ScanNet++ 數據(SN, SN++,206K,域內);
(4) 兩者合并訓練(All)。
同時在全集與 ARKitScenes 子集上分別報告結果,后者對 SV++ 與 SN/SN++ 均為域外,便于比較跨域泛化能力。
![]()
表 3 VSI-Bench 結果(各類任務準確率 %):SV++ 相較零樣本在 3B / 7B 上平均提升 +14.9 / +9.8;與 SN,SN++ 合并后在全集與 ARKit 子集上同時登頂。
- 生成數據對于空間推理能力有普遍增強:Qwen2.5-VL-3B 全集平均從 27.9 → 42.8(+14.9),7B 從 36.6 → 46.4(+9.8);在物體計數 Obj.Cnt.(25.2 → 61.8)、物體尺寸 Obj.Size(16.5 → 49.8)、相對距離 Rel.Dist.(37.2 → 49.3)上均有大幅躍升,證明互聯網視頻生成數據與仿真室內掃描數據在空間推理能力上的提升效果相當。
- 跨域泛化顯著:在 ARKitScenes 子集(對 SV++ 與 SN/SN++ 均是域外)上,SV++ 與 SN,SN++ 表現相當甚至略優(yōu)(3B:48.0 vs. 49.0;7B:49.1 vs. 48.8),說明互聯網視頻提供的先驗對真實場景具有良好泛化性。
- 類別差異:SceneVerse++ 在相對距離(Rel.Dist.),相對方向(Rel.Dir.) 等通用空間知識類別上提升最明顯;在物體計數(Obj.Cnt.)、房間尺寸(Room Size) 等依賴域特定分布的類別上弱于 SN/SN++,這與圖 2 中場景 / 物體分布差異吻合。
- 訓練動態(tài)揭示過擬合風險:作者可視化訓練過程發(fā)現,域內訓練和測試(SN,SN++) 在訓練后期仍在全集上持續(xù)上升,而域外訓練和測試則在一個拐點后趨穩(wěn),反映出 SN,SN++ 容易過擬合到域內特有線索,這與同期工作關于 VSI-Bench 非視覺捷徑的分析一致。
![]()
圖 5 訓練過程對比:上為在全集上的測試,下為在 ARKitScenes 子集測試,發(fā)現域內訓練和測試(上)呈現過擬合現象。
3. 3D 視覺語言導航
評估基于標準Room-to-Room (R2R)基準(Matterport3D 環(huán)境),所有實驗使用相同訓練輪次以確保公平。指標包含SR(成功率)、OS(Oracle 成功率)、SPL(路徑長度加權成功率)、Dist(距目標距離)、PL(軌跡長度)。
作者進一步對數據管線中的兩個核心模塊進行消融:TR(軌跡優(yōu)化,Trajectory Refinement)與 IE(指令增強,Instruction Enrichment)。
![]()
表 4 在 R2R 基準上的 VLN 評估:SceneVerse++ 預訓練 + R2R 微調將 SR 從 0.088 提升至 0.228;去除 TR 或 IE 任一模塊均導致顯著下降。
- 真實視頻顯著提升導航能力:僅用 SceneVerse++ 預訓練就能在 R2R 零樣本將 SR 從 0.088 提升至 0.107;由于真實視頻包含豐富的自由探索行為,PL 從 5.22 激增至 14.1,反映其軌跡更復雜、更貼近真實人類運動。
- 微調后全面提升:SceneVerse++ 預訓練 + R2R 微調達到 SR 0.228 / OS 0.315 / SPL 0.191 / Dist 7.65,相較無預訓練基線(SR 0.088)絕對提升 +14.0 個百分點(+159%);同時 Dist 下降、SPL 提升,證明大規(guī)模真實視頻先驗顯著改善了導航效率與路徑合理性。
- 樸素混合不是最優(yōu):直接把 R2R 與 SceneVerse++ 混合訓練(R2R+SV++)僅得 SR 0.188,低于先 SV++ 預訓練、再 R2R 微調的 0.228,說明真實視頻與仿真環(huán)境存在視覺域差,需要通過預訓練 → 微調的兩階段策略彌合。
- 軌跡優(yōu)化(TR)不可或缺:w/o TR 時,SR 從 0.228 降至 0.177(-5.1%),PL 也偏離 R2R 范式(11.95 vs. 11.64);缺少對原始冗余回頭軌跡的清洗,模型難以學到目標導向的導航模式。
- 指令增強(IE)更為關鍵:w/o IE 下降幅度更大 —— 零樣本 SR 僅 0.022,微調后也只有 0.074;缺少 CoT + 多樣化指令生成,模型幾乎無法把視覺動作與自然語言對齊。
結論:原始互聯網視頻不能直接用于 VLN 訓練,必須配合任務對齊的數據處理(TR + IE);數據質量的提升比單純堆量更能帶來性能收益。
更重要的啟示:自動化數據引擎應當被視作一等研究對象
除發(fā)布數據集之外,本文還系統性討論了當前「從互聯網視頻到 3D 任務數據」管線中的若干共性問題:
- 模型的可擴展性 (scalable) 差異:直接作用于原始模態(tài)的模型(3D 體素、RGB-MLLM)在擴大數據規(guī)模時表現更穩(wěn)健;依賴任務特定中間表示(如預計算分割 segments)的模型對分布漂移更敏感。
- 基準偏差與公平評估:現有基準可能包含固有偏差,無法真實反映模型能力。未來評估應更強調零樣本測試、減少數據污染,并開發(fā)更能衡量 in-the-wild 3D 理解與泛化能力的基準。
- 子模塊協同的重要性:SfM、實例分割、語言落地等子模塊往往在小規(guī)模基準上訓練,組合后會產生誤差累積。未來子模塊的開發(fā)和評估不應只看單任務指標,還應把其對自動化數據管線的貢獻作為重要的衡量指標。
總結:邁向 3D 空間智能的「數據基建」
本文通過 SceneVerse++ 展示了用精心設計的自動化數據引擎從互聯網視頻中規(guī)模化生成高質量 3D 場景理解數據的可行性。該工作同時覆蓋了低層感知(檢測 / 分割)、空間推理(VQA)與具身導航(VLN)三大代表性任務,在多個真實基準上都取得了顯著且穩(wěn)健的性能提升。
研究團隊進一步指出了未來 3D 空間智能發(fā)展的關鍵方向,包括繼續(xù)擴大互聯網視頻的規(guī)模與多樣性,提升子模塊(SfM、重建、分割、grounding)在 in-the-wild 視頻上的魯棒性與協同性,構建更公平的評估體系以衡量模型的真實 3D 理解能力。
在 3D 數據長期稀缺的背景下,利用「無標注視頻」將是推動具身智能體、3D VLM 以及下一代空間基礎模型的關鍵路徑。
感興趣的讀者可訪問項目主頁https://sv-pp.github.io/獲取更多實驗細節(jié)與可視化資源。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.