一位研究員正在調試視頻生成模型。他設定了一段相機環繞物體的軌跡,卻發現生成的畫面中物體形狀在漂移,背景結構在扭曲,物理規律時而被遵守,時而被打破。這不是技術細節的問題,而是整個范式的問題:我們究竟在擬合像素,還是在建模世界?
CVPR 2026 上,五篇核心論文給出了截然不同的答案。它們之間的分歧,構成了當前世界模型研究最真實的圖景。
![]()
正方:4D 幾何是必由之路
復旦大學、香港大學與騰訊應用研究中心聯合提出的 VerseCrafter,代表了第一條技術路線:用顯式幾何結構重建世界。
研究團隊發現,現有視頻生成模型困在 2D 圖像空間里,導致相機運動和多物體運動無法統一控制,生成結果穩定性差。他們的解法是將視頻表示為"3D 空間 + 時間"的統一世界狀態,而非逐幀像素。
具體而言,VerseCrafter 提出"4D 幾何控制表示":用靜態背景點云描述場景結構,用帶時間信息的 3D 高斯軌跡描述動態物體。幾何信息被轉化為控制信號輸入視頻擴散模型,使最終輸出嚴格遵循設定的相機路徑和物體運動。
這項工作的三個技術亮點值得拆解。第一,它實現了從 2D 像素生成向 4D 幾何建模范式的轉變。第二,它在同一框架下統一控制相機運動與多物體運動,相比依賴 2D 軌跡或邊界框的舊方法更靈活一致。第三,顯式 3D 結構和時間約束顯著提升了時序一致性,長視頻生成更加連貫。
核心貢獻可以概括為:視頻生成從"基于像素的合成"轉向"基于結構的生成",可控性與穩定性明顯提升。
反方:真實世界的數據才是瓶頸
中國科學院自動化研究所與 CreateAI 的 NeoVerse,則對"幾何優先"路線提出了直接挑戰。
研究團隊指出,現有 4D 世界模型往往依賴多視角數據或復雜預處理,擴展性差,難以利用真實世界中大量隨手拍攝的單目視頻。這是一個被忽視但更根本的瓶頸:不是建模范式不對,而是數據獲取成本太高。
NeoVerse 的核心思路是用"自然場景中的單目視頻"構建 4D 世界模型。模型從普通視頻中恢復場景 3D 結構,并建模隨時間變化的動態信息,實現完整 4D 表示。在此基礎上,它既能進行 4D 重建,也能生成新相機軌跡視頻,支持多種下游任務。
三個亮點構成了它的技術主張。第一,突破對多視角或專用數據的依賴,直接用"野外采集"的單目視頻訓練,大幅提升可擴展性和數據可獲得性。第二,統一 4D 重建與視頻生成能力,使模型既理解場景結構,又生成新視角和動態內容。第三,真實場景泛化能力更強,適應復雜環境而非局限于受控數據集。
核心貢獻在于:4D 建模從依賴昂貴數據采集,轉向利用大規模真實視頻,實用性與擴展能力顯著提升。
第三條路:長時序的穩定性工程
香港科技大學(廣州)、地平線機器人、浙江大學與中南大學聯合提出的 LongStream,則把問題拉向了另一個維度:時間。
研究團隊關注的是長序列 3D 重建。現有方法在短序列或離線場景表現尚可,但處理上千幀長視頻時,注意力衰減、尺度漂移、預測誤差累積等問題集中爆發,導致重建不穩定甚至失效。
問題的根源在于:大多數自回歸模型把所有幀"錨定"到第一幀,長時間推理中不斷放大誤差。
LongStream 的解法是構建流式、規范解耦的視覺幾何模型。它不再綁定所有幀到初始幀,而是通過"關鍵幀相對建模"讓每段局部序列獨立建模,再統一到全局結構。同時,"尺度學習"與"幾何預測"解耦,防止尺度在長序列中漂移。周期性刷新緩存和流式更新機制,使模型在嚴格在線條件下穩定處理上千幀數據。
三個技術亮點:真正面向長序列的流式 3D 重建框架,在線處理上千幀;規范解耦從根本上解決尺度漂移和誤差累積;效率與穩定性平衡,可落地于自動駕駛、AR/VR 和具身智能的持續環境建模。
核心貢獻:面向長時序視頻的穩定 3D 世界建模方法,模型能在嚴格在線條件下持續構建一致表示。
判斷:三條路線在爭奪什么
把三篇論文放在一起,分歧清晰可見。
VerseCrafter 押注幾何表示的精確性,認為顯式 3D 結構是可控生成的唯一出路。NeoVerse 押注數據規模的可擴展性,認為脫離真實世界視頻的模型注定無法泛化。LongStream 押注時序推理的穩定性,認為沒有長程一致性的世界模型無法支撐持續交互。
三條路線并非互斥,而是指向同一個深層問題:世界模型的評估標準尚未統一。
VerseCrafter 用控制精度說話,NeoVerse 用泛化能力說話,LongStream 用長程穩定性說話。它們各自優化了不同的指標,卻回避了一個更困難的問題:當這些指標沖突時,如何取舍?
這種分裂反映了領域的真實狀態。世界模型研究正從"生成質量"向"建模能力"遷移,但"建模能力"本身是多維的——幾何精度、物理一致性、因果推理、可交互性、長程穩定性、數據效率——沒有單一指標能捕捉其全部。
更值得觀察的是產業信號。VerseCrafter 有騰訊應用研究中心參與,LongStream 有地平線機器人參與。這意味著技術路線的選擇,正在與具體的應用場景綁定:內容創作需要精確控制,自動駕駛需要長程穩定,通用智能需要數據可擴展。
這種分化可能是健康的。世界模型或許本就不是單一技術,而是一個技術家族,不同成員服務于不同需求。但風險同樣明顯:如果評估體系持續碎片化,研究將陷入"各說各話"的困境,難以形成有效積累。
CVPR 2026 的這批論文,價值不在于給出了答案,而在于把問題攤開了。從生成到建模的范式轉變已經啟動,但轉變的方向、節奏和終點,仍取決于接下來幾個關鍵決策:評估標準如何統一,數據基礎設施如何建設,以及產業需求與技術探索如何對齊。
如果你正在這個領域做技術選型,建議做三件事:第一,明確你的場景最依賴哪種"建模能力"——控制精度、泛化能力還是長程穩定性;第二,跟蹤評估體系的演進,它比模型架構更能決定技術路線的生死;第三,關注數據管道的建設,無論是幾何標注、野外視頻還是流式處理,數據成本正在重新劃分技術可行性的邊界。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.