網易首頁 > 網易號 > 正文申請入駐

世界模型走出實驗室：CVPR 2026的范式之爭

2026-04-30 12:37:52　來源: 報錯免疫體

北京舉報

分享至

一位研究員正在調試視頻生成模型。他設定了一段相機環繞物體的軌跡，卻發現生成的畫面中物體形狀在漂移，背景結構在扭曲，物理規律時而被遵守，時而被打破。這不是技術細節的問題，而是整個范式的問題：我們究竟在擬合像素，還是在建模世界？

CVPR 2026 上，五篇核心論文給出了截然不同的答案。它們之間的分歧，構成了當前世界模型研究最真實的圖景。

正方：4D 幾何是必由之路

復旦大學、香港大學與騰訊應用研究中心聯合提出的 VerseCrafter，代表了第一條技術路線：用顯式幾何結構重建世界。

研究團隊發現，現有視頻生成模型困在 2D 圖像空間里，導致相機運動和多物體運動無法統一控制，生成結果穩定性差。他們的解法是將視頻表示為"3D 空間 + 時間"的統一世界狀態，而非逐幀像素。

具體而言，VerseCrafter 提出"4D 幾何控制表示"：用靜態背景點云描述場景結構，用帶時間信息的 3D 高斯軌跡描述動態物體。幾何信息被轉化為控制信號輸入視頻擴散模型，使最終輸出嚴格遵循設定的相機路徑和物體運動。

這項工作的三個技術亮點值得拆解。第一，它實現了從 2D 像素生成向 4D 幾何建模范式的轉變。第二，它在同一框架下統一控制相機運動與多物體運動，相比依賴 2D 軌跡或邊界框的舊方法更靈活一致。第三，顯式 3D 結構和時間約束顯著提升了時序一致性，長視頻生成更加連貫。

核心貢獻可以概括為：視頻生成從"基于像素的合成"轉向"基于結構的生成"，可控性與穩定性明顯提升。

反方：真實世界的數據才是瓶頸

中國科學院自動化研究所與 CreateAI 的 NeoVerse，則對"幾何優先"路線提出了直接挑戰。

研究團隊指出，現有 4D 世界模型往往依賴多視角數據或復雜預處理，擴展性差，難以利用真實世界中大量隨手拍攝的單目視頻。這是一個被忽視但更根本的瓶頸：不是建模范式不對，而是數據獲取成本太高。

NeoVerse 的核心思路是用"自然場景中的單目視頻"構建 4D 世界模型。模型從普通視頻中恢復場景 3D 結構，并建模隨時間變化的動態信息，實現完整 4D 表示。在此基礎上，它既能進行 4D 重建，也能生成新相機軌跡視頻，支持多種下游任務。

三個亮點構成了它的技術主張。第一，突破對多視角或專用數據的依賴，直接用"野外采集"的單目視頻訓練，大幅提升可擴展性和數據可獲得性。第二，統一 4D 重建與視頻生成能力，使模型既理解場景結構，又生成新視角和動態內容。第三，真實場景泛化能力更強，適應復雜環境而非局限于受控數據集。

核心貢獻在于：4D 建模從依賴昂貴數據采集，轉向利用大規模真實視頻，實用性與擴展能力顯著提升。

第三條路：長時序的穩定性工程

香港科技大學（廣州）、地平線機器人、浙江大學與中南大學聯合提出的 LongStream，則把問題拉向了另一個維度：時間。

研究團隊關注的是長序列 3D 重建。現有方法在短序列或離線場景表現尚可，但處理上千幀長視頻時，注意力衰減、尺度漂移、預測誤差累積等問題集中爆發，導致重建不穩定甚至失效。

問題的根源在于：大多數自回歸模型把所有幀"錨定"到第一幀，長時間推理中不斷放大誤差。

LongStream 的解法是構建流式、規范解耦的視覺幾何模型。它不再綁定所有幀到初始幀，而是通過"關鍵幀相對建模"讓每段局部序列獨立建模，再統一到全局結構。同時，"尺度學習"與"幾何預測"解耦，防止尺度在長序列中漂移。周期性刷新緩存和流式更新機制，使模型在嚴格在線條件下穩定處理上千幀數據。

三個技術亮點：真正面向長序列的流式 3D 重建框架，在線處理上千幀；規范解耦從根本上解決尺度漂移和誤差累積；效率與穩定性平衡，可落地于自動駕駛、AR/VR 和具身智能的持續環境建模。

核心貢獻：面向長時序視頻的穩定 3D 世界建模方法，模型能在嚴格在線條件下持續構建一致表示。

判斷：三條路線在爭奪什么

把三篇論文放在一起，分歧清晰可見。

VerseCrafter 押注幾何表示的精確性，認為顯式 3D 結構是可控生成的唯一出路。NeoVerse 押注數據規模的可擴展性，認為脫離真實世界視頻的模型注定無法泛化。LongStream 押注時序推理的穩定性，認為沒有長程一致性的世界模型無法支撐持續交互。

三條路線并非互斥，而是指向同一個深層問題：世界模型的評估標準尚未統一。

VerseCrafter 用控制精度說話，NeoVerse 用泛化能力說話，LongStream 用長程穩定性說話。它們各自優化了不同的指標，卻回避了一個更困難的問題：當這些指標沖突時，如何取舍？

這種分裂反映了領域的真實狀態。世界模型研究正從"生成質量"向"建模能力"遷移，但"建模能力"本身是多維的——幾何精度、物理一致性、因果推理、可交互性、長程穩定性、數據效率——沒有單一指標能捕捉其全部。

更值得觀察的是產業信號。VerseCrafter 有騰訊應用研究中心參與，LongStream 有地平線機器人參與。這意味著技術路線的選擇，正在與具體的應用場景綁定：內容創作需要精確控制，自動駕駛需要長程穩定，通用智能需要數據可擴展。

這種分化可能是健康的。世界模型或許本就不是單一技術，而是一個技術家族，不同成員服務于不同需求。但風險同樣明顯：如果評估體系持續碎片化，研究將陷入"各說各話"的困境，難以形成有效積累。

CVPR 2026 的這批論文，價值不在于給出了答案，而在于把問題攤開了。從生成到建模的范式轉變已經啟動，但轉變的方向、節奏和終點，仍取決于接下來幾個關鍵決策：評估標準如何統一，數據基礎設施如何建設，以及產業需求與技術探索如何對齊。

如果你正在這個領域做技術選型，建議做三件事：第一，明確你的場景最依賴哪種"建模能力"——控制精度、泛化能力還是長程穩定性；第二，跟蹤評估體系的演進，它比模型架構更能決定技術路線的生死；第三，關注數據管道的建設，無論是幾何標注、野外視頻還是流式處理，數據成本正在重新劃分技術可行性的邊界。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

CVPR 2026 | 從視覺Token內在變化量出發，實現VLM無損加速1.87倍

機器之心Pro 2026-03-16 11:56:33
0 跟貼 0
CVPR 2026 | 20步也能穩住畫質，這個擴散加速方法不一樣

機器之心Pro 2026-04-10 18:40:17
0 跟貼 0

廣東宏遠贏球隱形功臣找到了！徐杰8中1卻打滿全場，穩定性太強

國足未贏夠 2026-05-02 11:54:35
0 跟貼 0

別被「更像真的視頻」騙了，AI視頻生成，還遠未真正學會物理世界

機器之心Pro 2026-04-03 16:07:15
0 跟貼 0
LLM 僅靠自身就能增強推理？SePT 給出簡潔在線自訓練范式

機器之心Pro 2026-04-22 11:01:55
0 跟貼 0

童年列車：王楚欽的成長軌跡，遇見最好的他們

愛的圓周率不循環w 2026-04-30 11:16:00
1 跟貼 1

從匹配困境到推理突破：阿里REG4Rec 激活生成式推薦的個性化潛力

機器之心Pro 2026-03-02 16:10:32
0 跟貼 0
小模型讀書大模型思考：上海AI Lab提出新知識推理解耦方法DRIFT

機器之心Pro 2026-03-16 11:33:51
0 跟貼 0

景區裝電梯無痛爬山被質疑過度開發

極目新聞 2026-05-02 17:18:12
4157 跟貼 4157
這套題，GPT-5.5、Opus 4.7加起來沒考到1分，人類卻拿了滿分100

機器之心Pro 2026-05-03 09:22:46
2 跟貼 2
讓擴散模型「可解釋」不再降質，開啟圖片編輯新思路

機器之心Pro 2025-12-16 14:37:44
0 跟貼 0
模型自己找視覺線索，小紅書Video-Thinker破解視頻推理困局

機器之心Pro 2026-01-04 14:13:49
0 跟貼 0
OpenAI參與，重卷ImageNet：終于把FID做成訓練

量子位 2026-05-03 15:48:24
0 跟貼 0
內江動物園老虎瘦成皮包骨，游客直呼可憐

荔枝新聞 2026-05-03 19:36:20
286 跟貼 286
醫生講的這幾個規律你要記住

白雪不是胖 2026-05-03 15:09:31
1 跟貼 1
小升初奧數培優專題數陣中的排列規律，通過項數的規律作為突破口

唐老師小課堂 2026-05-02 11:17:30
3 跟貼 3
為了逃避考試，他發明了最好的壓縮算法，zip的歷史可謂一波三折

量子位 2026-04-29 06:41:21
0 跟貼 0
DeepSeek V4最大的遺憾

量子位 2026-05-03 11:45:33
7 跟貼 7
美國將啟動引導被困霍爾木茲海峽船只駛離行動

央視新聞客戶端 2026-05-04 05:54:45
4690 跟貼 4690
GPT-5.5參數有10T？病毒式論文剛剛被打假，實際縮水至1.5T

新智元 2026-05-03 17:12:10
1 跟貼 1
授人以魚不如授人以漁，富豪引導流浪漢重回人生軌跡

夏夏看影視 2026-04-30 14:27:03
1 跟貼 1
1分鐘燒光4億Token！OpenAI最瘋狂的男人，逼奧特曼親自加額度

新智元 2026-05-04 12:07:36
4 跟貼 4
ApdativeNN：建模類人自適應感知機制，突破機器視覺不可能三角

機器之心Pro 2025-11-28 17:15:19
0 跟貼 0
火箭升空那震撼一刻，劃破藍天的軌跡，戰斗機最終機毀人亡

小蕊愛搞笑 2026-05-01 15:48:06
0 跟貼 0
臺球高手出桿秘訣：輕松掌握職業級穩定性

澤澤說電影 2026-04-30 03:15:15
1 跟貼 1
供應鏈管理數智化的殘酷真相：99%的失敗，與那1%的“唯一解”

鈦媒體APP 2026-03-05 19:29:15
0 跟貼 0
反悔都來不及了？中方改變主意，說不買就不買，美芯片全砸手里

松林侃世界 2026-05-04 13:18:42
0 跟貼 0
馬斯克用Grok替代X員工，裁員90%

量子位 2025-11-29 16:58:47
30 跟貼 30
華為乾崑在做更難被復制的能力

財經網科技 2026-05-01 20:37:58
0 跟貼 0
衛星閃爍,地面繪制出地圖,高分辨率圖像顯

好奇趣世界 2026-05-01 12:27:36
1 跟貼 1
情感投資信號：15個被誤讀的親密細節

晚風也遺憾 2026-05-04 11:59:58
0 跟貼 0
“DeepSeek版Claude Code”，Github 2.3k星

量子位 2026-05-04 14:03:17
0 跟貼 0
"張雪機車"車手德比斯突然退賽前一天剛絕殺奪冠

極目新聞 2026-05-03 20:26:03
1418 跟貼 1418
俄列寧格勒州遭到“密集攻擊”

參考消息 2026-05-03 18:32:07
1205 跟貼 1205
月產僅4臺，機器人「祖師爺」波士頓動力塌房了！核心CTO已叛逃谷歌

新智元 2026-05-04 15:04:50
1 跟貼 1
全線爆發！中國資產，大漲！

證券時報 2026-05-04 10:32:18
386 跟貼 386
小升初奧數培優專題數陣的相關計算，先找排列規律再計算

唐老師小課堂 2026-04-30 20:29:16
1 跟貼 1
LLM+運籌優化：工業級多機器人協同控制軟件生成新范式

機器之心Pro 2026-03-30 12:42:25
0 跟貼 0
AI實時渲染的無限流可視化瀏覽器Flipbook

量子位 2026-05-02 18:24:35
0 跟貼 0
神經計算機橫空出世：AI不再調用軟件，而是直接長成一臺計算機

DeepTech深科技 2026-05-03 18:24:37
28 跟貼 28

報錯免疫體

一名在需求評審和數據異常中反復橫跳的產品運營。

2083文章數 18關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

旅游

親子

健康

公開課

軍事航空

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

世界模型走出實驗室：CVPR 2026的范式之爭

OpenAI“復活”了QQ寵物，網友直接玩瘋

宇樹機器人在美坐飛機電池超標被拆卸暫扣 致航班延誤

宇樹機器人在美坐飛機電池超標被拆卸暫扣 致航班延誤

騎士破猛龍：加雷特·阿倫的活力

張敬軒還是站上了英皇25周年舞臺

魔幻的韓國股市，父母給嬰兒開戶買股票

態度原創

“向往的生活就在眼前！”：多面海南圈粉全球游客

韓網友熱議：這世上會有沒有母愛的媽媽嗎？

干細胞治燒燙傷面臨這些“瓶頸”

特朗普回絕伊朗新方案

宇樹機器人在美坐飛機電池超標被拆卸暫扣致航班延誤

宇樹機器人在美坐飛機電池超標被拆卸暫扣致航班延誤