網易首頁 > 網易號 > 正文申請入駐

MIT團隊實現“穿墻透視”，用的是你手機里就有的傳感器

2026-05-22 19:19:32　來源: DeepTech深科技

北京舉報

分享至

2012 年，MIT 的 Ramesh Raskar 團隊在 Nature Communications 上首次演示了用超快飛行時間成像技術重建拐角后方物體的三維形狀。那套系統需要飛秒激光器和精密光學平臺，整套設備造價在 50 萬到 100 萬美元之間，占滿一整間實驗室。

十四年后，Raskar 實驗室的博士生 Siddharth Somasundaram 用一顆批量售價 3.6 美元的意法半導體傳感器，做到了類似的事情。

這項成果 5 月 20 日發表在 Nature 上。Somasundaram 團隊使用的是一種便攜式智能手機級激光雷達系統，核心是意法半導體的 VL53L8CX 芯片，一顆只有 6.4 毫米見方的飛行時間傳感器，內置 940 納米垂直腔面發射激光器和單光子雪崩二極管（SPAD）探測器陣列，能以每秒 30 幀的速度捕獲深度數據。整套硬件成本不到 100 美元，不需要任何額外校準，卻能探測到拐角后方被遮擋的物體。

圖丨消費級非視距成像（來源：Nature）

這種聽起來近乎科幻的效果背后的原理其實并不神秘。核心就是激光雷達發射激光脈沖，光打到墻面后反射，一部分光繼續彈射到墻后隱藏的物體上，再反射回墻面，最終被傳感器接收。通過分析這些經過多次反彈的極微弱光信號的飛行時間，就能推算出隱藏物體的位置和形狀。而墻面在這個過程中充當了一面“虛擬鏡子”。

這個方向在學術界已經發展了十多年，被稱為非視距成像（Non-Line-of-Sight Imaging，NLOS）。2018 年 O＇Toole 等人在 Nature 上提出的光錐變換（Light-Cone Transform）方法讓重建算法效率提升了三個數量級，但硬件門檻始終沒有降下來。

實驗室級系統使用的單光子探測器靈敏度極高、時間分辨率達到皮秒級別，能從微弱的多次反射信號中提取足夠的信息完成重建。消費級傳感器做不到這一點：激光功率受限于人眼安全標準，曝光時間因為要處理動態場景而很短，空間分辨率也很低。單幀數據里的信噪比根本不夠用。

Somasundaram 的思路是放棄從單幀中提取信息，轉而融合大量幀的數據。他提出了一個叫“運動誘導孔徑采樣”（Motion-Induced Aperture Sampling，MAS）的模型，把物體形狀、物體運動和相機運動三個因素統一到同一個測量框架里。

其靈感來自兩個成熟技術：智能手機相機的連拍模式通過合并多張照片來提升畫質，合成孔徑雷達通過綜合多個天線位置的信號來獲得等效于大型天線的分辨率。MAS 模型做的是類似的事情，利用相機的自然手持晃動來擴大虛擬孔徑，同時利用多幀之間的冗余信息來提高信噪比。

圖丨運動誘導孔徑采樣模型（來源：Nature）

“一旦我們開發出能夠跨多次測量合并信息的算法，隱藏的信號就開始清晰地浮現出來了。”Somasundaram 對媒體表示。

團隊在論文中演示了三項能力。第一項是三維重建：讓相機在墻面前自然移動，系統能重建出墻后靜止物體的三維形狀。

第二項是物體追蹤：已知物體的大致形狀后，系統能實時追蹤它在三維空間中的運動軌跡，甚至能同時追蹤多個物體。團隊還演示了一個手部追蹤的應用，用戶戴上回射手套后，系統可以追蹤被遮擋的雙手位置。

第三項能力是用隱藏物體作為路標來定位相機自身的位置。當機器人面對一面白墻這樣缺乏紋理特征的環境時，傳統的視覺里程計會失效，但如果墻后面有已知物體，NLOS 信號反而能幫助機器人確定自己在哪里。

這三項能力都實現了實時在線處理。追蹤任務使用了粒子濾波算法，用 1,000 個粒子來表示物體位置的概率分布，每一幀根據運動先驗傳播粒子、根據實測數據評估權重、然后重采樣，整個過程在 30Hz 幀率下運行。

但現在的效果還遠遠達不到科幻電影里的透視畫面。Somasundaram 自己也提醒，系統恢復的是極弱信號中的稀疏幾何和運動信息，和手機上幾百萬像素的清晰圖像之間還有巨大差距。

系統目前依賴一些較強的假設：物體的形狀和運動在幀與幀之間保持相對一致，這樣才能把許多極弱的測量累積成較強的信號。如果人突然改變姿態，或者物體被部分遮擋導致形狀突變，或者相機發生劇烈抖動，這些假設就會失效。

論文也指出，面對復雜的真實世界反射特性，手工設計的評分函數很難穩健地工作，未來可能需要機器學習來學習更好的匹配策略。

對漫反射物體的效果也明顯不如回射材料。論文中雖然證明了 MAS 模型在漫反射條件下仍然可用，但信號質量因為光強的四次方衰減和非共焦路徑的干擾而顯著下降。

真正讓這篇論文上了 Nature 的，可能不是某一項具體能力有多強，而是它所指向的范式轉換。過去做 NLOS 成像研究，光是搭建實驗平臺就需要數萬美元和數小時的校準。Somasundaram 團隊證明，一顆量產的現成 SPAD 傳感器就能完成追蹤和定位任務，不需要任何物理校準或額外硬件。團隊已經在 GitHub 上公開了全部代碼。

“我們認為最重要的意義在于技術的民主化，”Somasundaram 說。“當這樣的技術變得人人可及時，人們往往會發現遠超原始研究者想象的應用。”

自動駕駛汽車在盲區路口提前感知行人和車輛，倉庫機器人在雜亂環境中避開拐角后的障礙物，AR 頭顯更準確地追蹤用戶的身體姿態，這些都是論文中列舉的潛在方向。但就像 Somasundaram 所說，真正的應用可能來自他們沒有想到的地方。

參考資料：

1.https://www.nature.com/articles/s41586-026-10502-x

2.https://spectrum.ieee.org/smartphone-grade-lidar

運營/排版：何晨龍

注：封面/首圖由 AI 輔助生成

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.