網易首頁 > 網易號 > 正文申請入駐

螞蟻靈波開源LingBot-Map，僅靠普通攝像頭即可實時理解三維世界

2026-04-16 18:42:21　來源: 光錐智能

吉林舉報

分享至

4月16日，螞蟻靈波科技宣布開源流式三維重建模型 LingBot-Map。該模型僅需一個普通RGB攝像頭，即可在視頻采集過程中實時估計相機位姿、重建場景三維結構，為機器人、自動駕駛、AR眼鏡等應用提供連續、穩定、實時的空間感知與理解能力。

（圖說：LingBot-Map 在多項國際主流評測中全面領先現有方法，是

在以大尺度、復雜光照和嚴苛評估標準著稱的Oxford Spires數據集上，LingBot-Map的絕對軌跡誤差（ATE）僅為 6.42 米，軌跡精度較此前最優流式方法提升近 2.8 倍，也顯著優于離線方法 DA3 的 12.87 米和優化方法VIPE 的 10.52 米。

在ETH3D、7-Scenes、Tanks and Temples等多個權威基準上，LingBot-Map在位姿估計和三維重建質量兩個維度也全面領先現有流式方法。其中，在ETH3D基準上，其重建F1分數達到98.98，較第二名提升超過21 個百分點，展現出更強的場景還原能力。

除精度外，LingBot-Map 還兼顧實時性與長時穩定運行能力。技術報告顯示，該模型可實現約 20 FPS 的推理速度，并支持超過 10,000 幀的長視頻序列連續推理，且精度幾乎保持不變。這意味著在機器人導航、避障、操作、交互等強調連續在線處理的真實場景中，模型具備在較長時間范圍內穩定運行的能力。

流式三維重建是機器人和空間智能系統的重要底層能力。與傳統三維重建方法在獲取完整圖像后再統一處理不同，流式三維重建強調“邊看邊理解”，系統需要一邊接收新的畫面，一邊持續完成定位和建圖，還要控制計算和存儲開銷。如何在幾何精度、時序一致性和運行效率之間取得平衡，一直是流式三維重建的核心難點。

針對上述問題，LingBot-Map采用了面向流式場景的純自回歸式建模方式，基于幾何上下文 Transformer，在不依賴未來幀信息的前提下，逐幀處理當前及歷史畫面，持續輸出相機位姿和深度信息，實時恢復場景的三維結構。

LingBot-Map 的核心創新在于其幾何上下文注意力（Geometric Context Attention，GCA）機制，能夠對跨幀幾何信息進行更有效的組織與利用，在保留關鍵歷史信息的同時減少冗余計算。據介紹，該設計借鑒了經典 SLAM 系統對空間信息分層管理的思路，但將原本依賴手工設計和復雜優化的部分交由模型統一學習完成，從而更好兼顧長序列場景下的重建質量、運行效率與系統穩定性。

今年 1 月，螞蟻靈波相繼開源了高精度空間感知模型 LingBot-Depth、具身大模型 LingBot-VLA，世界模型 LingBot-World 和自回歸視頻-動作模型 LingBot-VA，圍繞空間感知、具身決策、世界模擬等關鍵環節，不斷夯實具身智能“智能基座”的技術布局。此次開源的 LingBot-Map，則進一步補齊了實時空間理解與在線三維建圖的關鍵能力拼圖。

目前，LingBot-Map 的模型和代碼已在 Hugging Face開源。隨著更多開發者和研究團隊參與，流式三維重建將推動機器人更穩定、更高效地理解和適應真實物理世界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.