4月16日,螞蟻靈波科技宣布開源流式三維重建模型 LingBot-Map。該模型僅需一個普通RGB攝像頭,即可在視頻采集過程中實時估計相機位姿、重建場景三維結構,為機器人、自動駕駛、AR眼鏡等應用提供連續、穩定、實時的空間感知與理解能力。
![]()
(圖說:LingBot-Map 在多項國際主流評測中全面領先現有方法,是
在以大尺度、復雜光照和嚴苛評估標準著稱的Oxford Spires數據集上,LingBot-Map的絕對軌跡誤差(ATE)僅為 6.42 米,軌跡精度較此前最優流式方法提升近 2.8 倍,也顯著優于離線方法 DA3 的 12.87 米和優化方法VIPE 的 10.52 米。
在ETH3D、7-Scenes、Tanks and Temples等多個權威基準上,LingBot-Map在位姿估計和三維重建質量兩個維度也全面領先現有流式方法。其中,在ETH3D基準上,其重建F1分數達到98.98,較第二名提升超過21 個百分點,展現出更強的場景還原能力。
![]()
![]()
除精度外,LingBot-Map 還兼顧實時性與長時穩定運行能力。技術報告顯示,該模型可實現約 20 FPS 的推理速度,并支持超過 10,000 幀的長視頻序列連續推理,且精度幾乎保持不變。這意味著在機器人導航、避障、操作、交互等強調連續在線處理的真實場景中,模型具備在較長時間范圍內穩定運行的能力。
流式三維重建是機器人和空間智能系統的重要底層能力。與傳統三維重建方法在獲取完整圖像后再統一處理不同,流式三維重建強調“邊看邊理解”,系統需要一邊接收新的畫面,一邊持續完成定位和建圖,還要控制計算和存儲開銷。如何在幾何精度、時序一致性和運行效率之間取得平衡,一直是流式三維重建的核心難點。
針對上述問題,LingBot-Map采用了面向流式場景的純自回歸式建模方式,基于幾何上下文 Transformer,在不依賴未來幀信息的前提下,逐幀處理當前及歷史畫面,持續輸出相機位姿和深度信息,實時恢復場景的三維結構。
LingBot-Map 的核心創新在于其幾何上下文注意力(Geometric Context Attention,GCA)機制,能夠對跨幀幾何信息進行更有效的組織與利用,在保留關鍵歷史信息的同時減少冗余計算。據介紹,該設計借鑒了經典 SLAM 系統對空間信息分層管理的思路,但將原本依賴手工設計和復雜優化的部分交由模型統一學習完成,從而更好兼顧長序列場景下的重建質量、運行效率與系統穩定性。
今年 1 月,螞蟻靈波相繼開源了高精度空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA,世界模型 LingBot-World 和自回歸視頻-動作模型 LingBot-VA,圍繞空間感知、具身決策、世界模擬等關鍵環節,不斷夯實具身智能“智能基座”的技術布局。此次開源的 LingBot-Map,則進一步補齊了實時空間理解與在線三維建圖的關鍵能力拼圖。
目前,LingBot-Map 的模型和代碼已在 Hugging Face開源。隨著更多開發者和研究團隊參與,流式三維重建將推動機器人更穩定、更高效地理解和適應真實物理世界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.