VGGT-Edit團隊 投稿量子位 | 公眾號 QbitAI
3D世界“會看”了,但還不會“改”。
從NeRF到83D Gaussian Splatting,再到VGGT、π3這類前饋式3D重建模型,整個行業的進展速度明顯加快——只需幾張圖片,就能在幾秒內重建完整3D場景。
但問題也恰恰出在這里。這些模型雖然已經能理解三維世界,卻還不會修改三維世界。你可以讓它重建一個房間,卻很難真正告訴它:
把椅子移到窗邊,刪除中間那張椅子,把灰色皮沙發改成白色長毛沙發。
更麻煩的是,一旦涉及復雜編輯,現有方法往往迌速崩採——某些角度里椅子消失了,換個視角椅子又重新出現;明明沒改的背景,卻跟著一起變形。
為應對這一挑戰,來自北京大學香港中文大學上海AI LabNTU等機構的研究團隊,提出了一套原生3D編輯框架:VGGT-Edit
核心思路只有一句話——
不再繞回2D,而是直接在3D空間里完成編輯。
在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度均超過現有方法,單次編輯僅需約5秒,最高實現120倍加速。
問題其實一直出在在2D
目前大多數編3D的方法,本質上仍然是“2D思維”——先把場景拆成多弤2D圖片,逐張編輯,再重新拼回3D。
但由于每個視角都是獨立處理的,所以很容易出現:
- 一個視角里椅子已經刪掉了;
- 換個角度椅子又重新出現;
- 背景區域跟著一起漂移;
- 物體邊緣出現重影和閃爍。
3D編輯方法的比較
![]()
很多結果看起來更像“在不同角度硬P出來的圖”,而不是真正穩定的3D空間。
對于機器人、AR/VR、空間智能這些方向來說,這幾乎是致命問題——這些場景真正需要的,不是“某一個角度看起來對”,而是整個3D世界始終穩定一致。
原生3D編輯,開始從概念走向可用
VGGT-Edit的核心思路非常直接:既然問題來自2D,那就不要再繞回2D。
整個框架建立在VGGT-Like前饋式重建模型之上,繼承了其快速、高效的3D表示能力。但有意思的是,團隊并沒有選擇重新生成整個場景,而是提出了一種非常巧妙的機制:
殘差場預測(Residual Field Prediction)。
![]()
簡單理解就是:模型先保留原始場景穩定的3D結構,然后只學習“哪里需要變化”,例如:
- 椅子往右移動;
- 沙發材質發生變化;
- 刪除某個物體;
- 新增一個家具。
這些變化,都被表示成了:新場景 = 原場景 + 局部殘差變化
這個設計有個非常重要的好處——因為大部分區域本來就不需要變化,所以模型不用重新“生成整個世界”,只需修改局部,結果就是沒改動的背景區域會非常穩定。
這也是VGGT-Edit和很多現有方法最明顯的區別之一。
文本語義,第一次真正開始“對齊”3D空間
研究團隊發現,如果只是簡單把一句文本輸入模型,很容易出現一種情況——模型知道“你想改什么”,但不知道“該改哪里”。
為了解決這個問題,VGGT-Edit設計了一套關鍵機制:
深度同步文本注入(Depth-Synchronized Text Injection)
本質上可以理解成讓文本語義和3D空間特征,在同一個深度層級里持續同步。
傳統方法通常只在前面注入一次文本信息,但VGGT-Edit會在多個關鍵層持續融合文本語義,這樣模型在整個3D生成過程中,始終知道:
- 當前應該修改哪個區域;
- 修改目標是什么;
- 空間位置在哪里。
與此同時,團隊還專門設計了一套“視角重要性加權”——因為并不是所有視角都同樣可靠,有些角度可能被遁擋,有些視角只能看到半個物體。
VGGT-Edit會自動判斷哪個視角更值得信任,最終讓多視角編輯結果更加穩定。
一個真正面向“3D編輯”的編輯頭
除了整體框架之外,VGGT-Edit還有一個非常關鍵的部分——專門面向3D編輯任務設計的編輯頭
研究團隊發現,對于VGGT-Like模型來說,原本的重建Head更關注“如何恢復場景”,但3D編輯真正需要解決的問題是:如何在保持整體穩定的情況下,只修改局部區域。
因此,VGGT-Edit額外設計了一套編輯分支,專門預測場景中的局部變化。
這個編輯Head會直接作用于3D表示空間,并輸出對應的殘差場變化。本質上,它學習的是:
- 哪些區域應該保持不變;
- 哪些區域需要發生編輯;
- 編輯后如何保持多視角一致。
相比直接重新生成整個場景,這種方式更加穩定,也更加高效——這也是讓VGGT-Like前饋重建模型具有編輯能力的關鍵一步。
一個10萬規模的數據集,專門訓練“3D編輯”
為了訓練VGGT-Edit,團隊專門構建了一個新3D編輯數據集DeltaScene,規模接近10萬組,覆蓋客廳、辦公室、住宅、商業空間等多種場景。
DeltaScene數據集概述
![]()
更重要的是,整個數據生成流程高度自動化。
團隊通過利用Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max,自動完成編輯指令生成、目標識別、多視角編輯、3D一致性過濾,最終得到真正滿足“多視角幾何一致”的訓練數據。
DeltaScene數據構造流程
![]()
對于原生3D編輯來說,這一步非常關鍵——模型真正需要學習的,不只是“圖像變化”,而是同一個編輯,在不同視角下如何始終保持空間一致。
3D編輯,第一次開始接近實時交互
從結果來看,這條路線確實有效。
在DeltaScene測試集上,VGGT-Edit在語義一致性、多視角穩定性、推理速度三個維度都超過了現有方法。
尤其是在添加家具、調整位置、修改材質這些復雜任務中,很多傳統方法仍然會出現明顯的“貼圖感”和幾何漂移,但VGGT-Edit生成的結果,會明顯更像一個真實穩定的3D空間。
不同3D編輯任務的定性比較
![]()
更關鍵的是速度——論文中,VGGT-Edit單次編輯只需約5秒,相比很多需要長時間優化的傳統方法,最高可實現120倍加速。
這意味著編3D第一次真正開始接近實時交互。
對于機器人、數字孿生、AR/VR等方向來說,這種變化非常重要——只有當編輯速度足夠快,3D世界才真正可能變成“可交互”的世界。
在DeltaScene數據集上的定量結果
![]()
模型開始真正理解“空間變化”
論文里還有一個非常有意思的實驗。研究人員輸入了一條訓練中從未出現過的指令——“將中間椅子順時針旋轉90度。”
結果模型依然成功完成了編輯。
對未見過的指令進行泛化
![]()
這說明VGGT-Edit學到的,并不只是固定模板,它真正開始理解文本語義如何映射到3D空間變化。
而這件事,可能比“會生成3D”本身更重要。因為對于空間智能來說,未來真正關鍵的能力,也許不是“生成一個世界”,而是能否像人一樣,自由、穩定、實時地修改這個世界。
VGGT-Edit,正在把這件事往前推進一步。
論文鏈接:https://arxiv.org/abs/2605.15186
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.