網易首頁 > 網易號 > 正文申請入駐

CVPR 2026 3D 視覺前沿梳理：模型正在學會理解、生成和構建世界

2026-05-09 19:08:41　來源: AI科技評論

廣東舉報

分享至

3D 視覺正從重建生成，走向空間理解、動態模擬與工程化應用。

作者丨鄭佳美

編輯丨岑峰

如果說過去幾年的視覺 AI 主要是在回答“模型能不能看懂一張圖”，那么到 CVPR 2026，一個更清晰的趨勢正在浮現：模型正在被要求理解圖像背后的三維世界。

二維圖像只是現實世界在某個視角下的投影，真正困難的地方不在于生成一張看起來合理的畫面，而在于模型能否理解物體的空間結構、相機運動、材質光照、物理變化，以及這些信息在不同視角和不同時間中的一致性。

從今年的一系列 3D 視覺相關工作可以看到，研究重點正在從“生成結果是否好看”，轉向“生成過程是否具備空間邏輯”。

有的工作試圖通過自監督 3D 重建，讓模型在沒有顯式標注的情況下學習幾何關系；有的工作繞過傳統重建流程，直接利用 3D-aware 特征實現實時新視角合成；也有工作進一步把 3D 表示擴展到 4D 動態生成，讓物體不僅有形狀和外觀，還能表現出符合物理規律的運動。

同時，單圖 3D 重建、真實感 3D 生成、關鍵點長期追蹤、像素級預訓練、真實世界數據集和自動化代碼工具鏈，也都在從不同層面補齊 3D 視覺的基礎能力。

這些工作共同指向一個更深層的變化：3D 視覺不再只是計算機圖形學或三維重建中的一個技術分支，而是在成為通向空間智能的重要路徑。

模型要進入真實世界，就不能只學習圖像表面的紋理和語義，而必須理解“物體在哪里、是什么形狀、如何運動、在不同條件下如何保持一致”。從某種意義上說，CVPR 2026 的這些工作進一步加強了行業此前的認知：視覺 AI 正在從二維感知走向三維理解，從圖像生成走向世界建模。

從看懂 3D 到生成 4D

3D 視覺研究的一個核心問題，是如何讓模型真正理解空間結構，而不是只在圖像層面學習紋理和相似性。

由 CMU、Adobe 研究院和哈佛大學共同提出的《E-RayZer: Self-supervised 3D Reconstruction as Spatial Visual Pre-training》正是從這個問題出發，研究如何在沒有 3D 標注、相機位姿或深度監督的情況下，讓模型僅通過多視角圖像學習 3D 空間理解能力。

作者提出了 E-RayZer 這一自監督 3D 視覺預訓練方法：模型會輸入同一場景的多張圖片，自動估計相機參數，并構建顯式的 3D Gaussians 場景表示，再通過可微渲染生成目標視角圖像，最后利用渲染結果與真實圖像之間的差異來訓練模型。這樣一來，模型不只是學習圖像之間的相似性，而是需要真正理解相機、幾何結構和多視角空間關系。

論文地址：https://arxiv.org/pdf/2512.10950

這篇論文的亮點在于，它把自監督學習和顯式 3D 重建結合起來，使模型能夠在不依賴 3D 標注的情況下學習空間表征。相比一些只在隱式特征空間中做視角合成的方法，E-RayZer 使用 3D Gaussians 直接建模場景，因此幾何意義更強，也更適合學習真實的 3D 結構。

實驗結果表明，這種預訓練方式在相機位姿估計、深度估計和新視角合成等任務上都有較好的表現，說明模型通過“自己重建 3D 場景”的訓練過程，確實學到了有用的空間視覺能力。

E-RayZer 選擇用顯式 3D 重建來逼迫模型學習空間結構，但在實際的新視角合成任務中，顯式重建并不是唯一選擇。另一條思路是：如果模型已經具備足夠強的 3D-aware 特征，是否可以跳過復雜的顯式建模過程，直接用神經網絡生成目標視角畫面。

而由牛津大學視覺幾何組、Meta AI 共同提出的《LagerNVS: Latent Geometry for Fully Neural Real-time Novel View Synthesis》就研究了這個方向。

它關注的是 Novel View Synthesis（新視角合成），也就是給定一個場景的若干輸入圖像，讓模型生成從新相機視角看到的畫面。傳統方法通常需要先重建顯式 3D 場景，比如 NeRF 或 3D Gaussians，再進行渲染；而這篇論文提出的 LagerNVS 選擇繞過顯式 3D 重建，直接用神經網絡從輸入圖像和目標相機視角生成新視角圖像。

論文地址：https://arxiv.org/pdf/2603.20176v2

它的核心想法是：雖然模型不直接輸出顯式 3D 結構，但仍然應該引入強 3D 先驗。具體來說，LagerNVS 使用一個從 3D 重建網絡初始化而來的編碼器來提取帶有 3D 感知能力的 latent features，再配合輕量級解碼器根據目標相機視角生成圖像。

這樣既保留了 3D 結構信息帶來的幾何理解能力，又避免了傳統 3D 重建和渲染流程的復雜性。這篇論文的亮點在于，它證明了即使是不顯式重建 3D 場景的新視角合成模型，也能明顯受益于 3D-aware 特征。

實驗中，LagerNVS 在確定性 feed-forward 新視角合成上取得了很強的效果，例如在 RealEstate10K 上達到 31.4 PSNR，并且可以在有相機參數或無相機參數的情況下工作；模型還支持實時渲染，在單張 H100 GPU 上可達到 30 FPS 以上。

如果說 E-RayZer 和 LagerNVS 主要處理的是靜態場景中的空間理解與視角生成，那么更進一步的問題是：模型能否不僅生成 3D 外觀，還生成符合物理規律的動態變化。

北京理工大學、理想汽車、哈爾濱工業大學和四川大學聯合提出的《PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis》把關注點從靜態 3D 擴展到動態 4D。

它研究的是如何從單張圖像快速生成帶有物理規律的動態 4D 場景，也就是不僅要重建物體的 3D 外觀，還要讓它在運動、變形、受力時表現得更符合真實物理。現有很多方法通常需要先用多視角圖像重建 3D Gaussian Splatting，再手動設置剛度、質量等物理參數，或者通過視頻模型進行耗時的逐場景優化。

而 PhysGM 希望用一次前向推理，直接預測物體的 3D Gaussian 表示和對應的物理屬性，從而快速初始化物理模擬并生成高質量動態渲染結果。

論文地址：https://arxiv.org/pdf/2508.13911v4

這篇論文的亮點在于，它把 3D Gaussian 重建和物理屬性預測放到同一個 feed-forward 框架中，不再把幾何重建和物理模擬分成兩個獨立步驟。模型會從輸入圖像中推斷物體的外觀、幾何以及材料屬性，例如剛度、密度等，再結合 MPM 物理模擬生成動態序列。

作者還使用 DPO 對模型進行偏好優化，讓生成結果更接近物理合理的參考視頻，同時避免傳統 SDS 方法中昂貴且不穩定的逐場景優化。整體來看，這篇論文的貢獻是：讓模型從單張圖像出發，在較短時間內生成既有真實外觀、又具備物理運動規律的 4D Gaussian 場景，提升了物理驅動 4D 內容生成的效率和實用性。

動態場景生成強調的是物體如何運動和變化，而在真實應用中，另一個基礎需求是把普通自然圖像中的物體直接轉成可用的 3D 表示。Meta 超級智能實驗室提出的《SAM 3D: 3Dfy Anything in Images》研究的就是從單張自然圖像中進行 3D 物體重建：

模型不僅要恢復物體的幾何形狀，還要預測紋理、姿態和在場景中的布局。相比只在干凈物體圖或合成數據上表現較好的方法，SAM 3D 更強調真實場景中的應用，例如物體被遮擋、背景雜亂、尺寸較小或姿態異常時，仍然能夠根據圖像上下文生成較完整的 3D 結果。

論文地址：https://arxiv.org/pdf/2511.16624

它把大規模數據引擎和生成式 3D 重建模型結合起來。作者通過 human- and model-in-the-loop 的流程標注物體形狀、紋理和姿態，構建了大規模視覺對齊的 3D 重建數據，再用多階段訓練方式把合成預訓練和真實世界對齊結合起來，試圖突破 3D 數據不足的問題。

實驗中，SAM 3D 相比已有方法在真實物體和場景的人類偏好評測中取得了至少 5:1 的勝率，并且論文還計劃發布代碼、模型權重、在線 demo 和新的野外 3D 重建 benchmark。整體來看，這篇論文的貢獻是：把類似 SAM 的“開放世界視覺理解”能力推進到 3D 重建中，讓模型可以從普通圖片中更穩定地生成可用的 3D 物體表示。

當 3D 生成模型逐漸能從真實圖片中恢復物體結構后，畫面是否足夠真實就變成了新的瓶頸。很多 3D 可控生成方法依賴合成數據來獲得幾何、視角和材質控制能力，但合成數據本身也容易把模型帶向“合成感”的視覺風格。

Technion 和 Meta AI 共同提出的《Realiz3D: 3D Generation Made Photorealistic via Domain-Aware Learning》正是針對這個問題，研究如何讓 3D 生成結果同時具備真實照片級外觀和穩定的 3D 一致性。

很多方法會用帶有標注的合成 3D 數據去微調圖像生成模型，從而獲得視角、幾何、材質等控制能力，但這樣容易讓模型把“有控制信號”和“合成渲染風格”錯誤綁定在一起，導致生成結果雖然可控，卻不夠真實。

Realiz3D 的目標就是解決這個真實圖像和合成數據之間的 domain gap，讓模型既能聽從 3D 控制，又能生成更像真實照片的結果。

論文地址：https://idosobol.github.io/realiz3d/

這篇論文的核心做法是引入 Domain Shifters，也就是一組輕量級殘差適配器，用來單獨學習“真實 / 合成”這種視覺域信息，而不是把視覺風格和 3D 控制信號混在一起。訓練時，模型先學習區分和切換真實域、合成域，再利用合成數據學習精確控制，同時通過真實數據幫助模型保持照片級外觀。

論文還結合了 layer-aware training 和 domain reassignment 等策略，讓控制能力更好地遷移到真實圖像域中。它的亮點在于，不是簡單把真實數據和合成數據混在一起微調，而是顯式拆分“視覺真實性”和“幾何控制能力”，從而減少模型生成合成感畫面的傾向。

實驗展示中，Realiz3D 可以用于 text-to-multiview generation 和基于 3D 輸入的紋理生成，生成結果既保持多視角一致性，又比普通微調方式更加真實。

不只拼生成，底層表征也在進化

并不是所有 3D 視覺研究都直接以生成完整場景或物體為目標。很多基礎工作更關心的是，模型能否學到可靠的空間表征、穩定的局部結構，以及能否在后續 3D 任務中提供更強的底層視覺能力。

由武漢大學計算機學院和小米 EV 團隊提出的《From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection》聚焦的就是 3D 視覺系統中的關鍵點檢測問題，尤其關注 SfM、SLAM 等任務里關鍵點能否在連續多幀圖像中長期穩定地被追蹤。

作者認為，很多現有方法主要基于圖像對訓練，只優化兩張圖之間的匹配效果，但在真實序列任務中，更重要的是關鍵點能不能在多視角、光照變化和運動模糊下持續保持穩定。這篇論文提出的方法叫 TraqPoint，核心是把關鍵點檢測看成一個序列決策問題，并用強化學習中的 policy gradient 來直接優化關鍵點的長期可追蹤性。

論文鏈接：https://arxiv.org/pdf/2602.20630v3

它不再只判斷一個點在兩張圖里是否好匹配，而是把整段圖像序列作為環境，通過 track-aware reward 獎勵那些在多幀中既穩定、又具有區分度的關鍵點。這樣訓練出來的關鍵點更傾向于落在結構明顯、跨視角一致性強的位置上。

這篇論文的亮點在于，它把關鍵點學習從“圖像對匹配”推進到了“序列級追蹤”，更貼近 SLAM、視覺里程計和 3D 重建等實際應用需求。實驗結果也顯示，TraqPoint 在相對位姿估計、視覺定位、視覺里程計和 3D 重建等任務上都有較好表現，尤其在序列任務中能帶來更長的關鍵點跟蹤長度和更穩定的軌跡估計。

關鍵點檢測強調的是局部結構在多幀序列中的穩定性，而視覺預訓練則進一步追問：模型要獲得通用視覺能力，究竟應該依賴什么樣的監督信號。FAIR 和香港大學共同提出的《In Pursuit of Pixel Supervision for Visual Pre-training》重新把目光放回像素本身，研究的是視覺預訓練中的一個核心問題：

模型到底應該從哪里獲得監督信號。相比現在很常見的 DINO、JEPA 等在 latent space 中學習表征的方法，這篇論文重新強調 pixel supervision 的價值，認為像素本身包含顏色、紋理、材質、幾何和語義等多層次信息，因此直接讓模型預測被遮擋的像素，也可以學到很強的通用視覺表征。

這篇論文的亮點在于，它證明了基于像素重建的自監督學習并沒有過時，只要任務設計和數據規模足夠好，仍然可以和當前強大的 latent-space 方法競爭。

論文地址：https://arxiv.org/pdf/2512.15715v1

Pixio 在原始 MAE 的基礎上做了幾個關鍵改進，包括使用更大的 mask block 來增加預訓練難度、更深的 decoder 來增強像素重建能力、更多的 CLS token 來捕捉不同層次的全局信息，并使用約 2B 張網絡圖片進行訓練，同時通過自篩選策略減少人工數據清洗依賴。

整體來看，這篇論文的貢獻是：重新驗證了像素級自監督預訓練的潛力。實驗顯示，Pixio 在單目深度估計、前饋式 3D 重建、語義分割和機器人學習等任務上，能夠達到或超過類似規模訓練的 DINOv3 表現。

它說明直接預測像素不僅能學習低層視覺細節，也能幫助模型理解幾何、空間結構和語義信息，因此可以作為 latent-space 預訓練方法的有力替代和補充。

從論文到代碼，從采集到數據

模型能力的提升不僅依賴新的網絡結構和訓練目標，也依賴數據與工具鏈的完善。一方面，研究者需要更高效地復現已有方法并把論文轉化為可運行代碼；另一方面，真實世界 3D 視覺任務也需要更高質量、更可控的數據資源。

UCSD 提出的《NERFIFY: Multi Agent Framework for Turning NeRF Papers into code》對應的是前一個問題，研究的是如何讓大語言模型代理自動把 NeRF 相關研究論文轉化成可以運行、可以訓練的 Nerfstudio 插件代碼。

作者指出，很多 NeRF 論文沒有公開代碼，研究者往往需要花費很長時間重新實現，而通用的 paper-to-code 方法在這類任務上容易生成不能運行或訓練效果很差的代碼，因此他們提出了 NERFIFY 這個面向 NeRF 領域的多智能體代碼生成框架。

它的核心思路是把論文解析、依賴恢復、代碼生成和訓練反饋串成一個自動化流程。系統先將論文內容整理成結構化信息，再利用 Nerfstudio 的架構約束形成類似 CFG 的生成規則，保證生成代碼符合基本模塊接口。

隨后通過 Graph-of-Thought 多智能體方式按依賴順序生成多個文件，并自動追蹤論文引用中隱藏的關鍵組件，例如采樣器、編碼器或 proposal network；最后還會根據訓練結果和渲染圖像中的問題進行視覺反饋和代碼修正。

論文地址：https://arxiv.org/pdf/2603.00805

它不是簡單讓模型“讀論文寫代碼”，而是把 NeRF 領域知識、代碼結構約束、引用依賴恢復和視覺質量反饋結合起來，讓生成的代碼更接近真實可用的研究實現。

實驗中，NERFIFY 在 30 篇不同復雜度的 NeRF 論文上進行評估，對于沒有公開實現的論文，它生成的結果可以接近專家手寫代碼的視覺質量，同時把實現時間從幾周縮短到幾分鐘。

整體來看，這篇論文的貢獻是提出了一種面向復雜視覺論文的領域專用 paper-to-code 框架，目標是降低 NeRF 研究復現和二次開發的門檻。

如果說 NERFIFY 試圖降低研究復現和二次開發的成本，那么 OLATverse 則是在數據層面為逆渲染、重光照和新視角合成等任務補足基礎設施。

由馬克斯?普朗克信息學研究所和南京大學共同提出的《OLATverse: A Large-scale Real-world Object Dataset with Precise Lighting Control》研究的是面向逆渲染、重光照、新視角合成和法線估計的真實物體數據集構建問題。

作者指出，現有很多方法仍然依賴合成數據訓練，或者只能在小規模真實數據上評估，導致模型在真實場景中的材質、光照和幾何泛化能力受限。為了解決這個問題，論文提出了 OLATverse，一個大規模真實物體數據集，包含 765 個真實物體，并在多視角和精確可控光照條件下采集圖像。

這篇論文的亮點在于，它同時兼顧了真實物體規模、光照控制精度和輔助標注質量。數據采集使用 lightstage 系統，每個物體由 35 個校準相機拍攝，并由 331 個可控光源照明，支持 OLAT、環境光、均勻光和梯度光等多種光照設置。

論文地址：https://arxiv.org/pdf/2511.02483v3

同時數據集中還提供相機參數、物體 mask、表面法線和 diffuse albedo 等信息。相比以往很多數據集只強調物體數量，或者只在少量物體上做精細光照采集，OLATverse 的價值在于把“大規模真實物體”和“高精度可控光照”結合起來。

整體來看，這篇論文的貢獻是：提供了一個更貼近真實世界的高質量物體外觀數據資源，讓模型可以更可靠地學習材質、幾何和光照之間的關系。它不僅可以用于訓練重光照和生成式先驗，也可以作為逆渲染、新視角合成、法線估計等任務的綜合 benchmark。

論文也提到，目前數據中的法線和反照率還不是嚴格意義上的真實 ground truth，且沒有提供真實 mesh，但作為真實世界物體外觀和可控光照數據集，它對后續 3D 視覺和圖形學研究仍然很有價值。

這次去 CVPR 現場，一定不要錯過

【認識大牛+賺外快】的機會

需要你做什么：把你最關注的10個大會報告，每頁PPT都拍下來

你能獲得什么？

認識大牛：你將可以進入CVPR名師博士社群；

錢多活少：提供豐厚獎金，任務量精簡；

聽會自由：你的行程你做主，順手就把外快賺。拍下你最感興趣的10個報告PPT即可。

如果你即將前往CVPR，想邊聽會邊賺錢，還能順便為AI學術社區做貢獻、認識更多大牛，歡迎聯系我們：[添加微信號:MS_Yahei]

【限額5位，先到先得】

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.