<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      西湖大學張馳團隊:從視覺合成到空間理解,視頻 AI 正在「轉向」丨CVPR 2026

      0
      分享至


      WorldForge:一種實現相機軌跡可控的視頻生成方法。

      作者丨鄭佳美

      編輯丨岑 峰

      過去兩年,視頻生成的發展幾乎是指數級的。從最早只能生成模糊片段,到如今可以生成具有敘事結構、光影一致性甚至風格控制的長視頻,行業表面上已經接近一個階段性成熟。

      但如果把評價標準從“能不能生成一段視頻”稍微提高到“能不能控制鏡頭”,問題就會完全暴露出來。當前大多數模型仍然停留在一種近似二維的生成范式中,它們擅長在時間上延續視覺模式,卻缺乏對空間結構的穩定建模能力。

      一旦涉及視角變化,模型往往無法保證同一個物體在不同幀之間的幾何一致性,人物會發生細微但累積的漂移,建筑結構在移動中逐漸扭曲,遮擋關系也難以維持連續,這意味著模型生成的并不是一個被持續觀察的世界,而是一系列在視覺上相似但空間上不一致的結果。

      在這樣的行業背景下,西湖大學 AGI Lab 研究團隊提出了論文《Taming Video Models for 3D and 4D Generation via Zero Shot Camera Control》。值得一提的是,這篇論文也入選了CVPR Highlight。與以往通過重新訓練模型來引入控制能力的路徑不同,這項工作將問題重新落回到推理階段本身,嘗試在不改變模型參數的情況下,讓相機軌跡成為生成過程中的約束條件,使模型在每一步生成中持續對齊同一個空間結構。

      換句話說,這項研究關注的不是如何讓模型生成更多內容,而是如何讓模型在視角變化中保持世界的一致性,從而把視頻生成從二維視覺合成,推進到具有三維結構約束的動態世界建模。

      如果從應用角度理解這一點,可以把它看成一種能力的轉變。過去模型更像一個能夠不斷畫出新畫面的系統,而現在的目標,是讓模型像一個可以移動的攝影機,在同一個場景中進行觀察和記錄。無論是商品展示、空間漫游,還是內容創作中的鏡頭設計,本質上都依賴這種能力的成立。

      WorldForge 的提出,正是在這一關鍵轉折點上,給出了一個不依賴額外訓練、卻能夠實現精確相機控制的路徑,也因此成為當前視頻生成從“生成能力競爭”走向“空間一致性與可控性競爭”的一個代表性工作。


      論文地址:https://arxiv.org/pdf/2509.15130

      01


      跨任務、多指標的統一性能提升

      在實驗結果方面,研究團隊首先驗證了 3D 靜態場景生成,也就是單圖到多視角任務,相關數據來自 Table 1。從生成質量看,WorldForge 的 FID 為 96.08,是所有方法里最低的,CLIPsim 為 0.948,是所有方法里最高的。作為對比,TrajectoryCrafter 的 FID 為 111.49,CLIPsim 為 0.910,NVS-Solver 的 FID 為 118.64,CLIPsim 為 0.937。

      這說明 WorldForge 在真實感和語義一致性上都更強,FID 從 118 下降到 96,降幅約 20%,CLIPsim 從 0.91 提升到 0.948,說明生成結果既更真實,又更符合原圖語義。

      從軌跡精度也就是相機控制能力看,WorldForge 的 ATE 為 0.077,是最低值,RPE-T 為 0.086,RPE-R 為 0.221。對比來看,ViewCrafter 的 ATE 為 0.236,約為 WorldForge 的 3 倍,NVS-Solver 的 RPE-R 為 1.056,明顯高于 0.221,所以可以看出,相機路徑誤差被顯著壓低,整體大約達到 2 到 5 倍的改進。

      在 4D 動態視頻生成任務中,也就是輸入視頻并重新指定軌跡的場景,相關數據來自 Table 2。從視頻質量看,WorldForge 的 FVD 為 93.17,是最低值,CLIP-Vsim 為 0.938,是最高值。


      對比方法中,TrajectoryCrafter 的 FVD 為 97.31,ViewExtrapolator 的 FVD 為 108.48。也就是說,WorldForge 相比 108 降到 93,提升幅度約為 15%,說明在動態視頻生成中,畫面質量和語義一致性仍然保持領先。從軌跡精度看,WorldForge 的 ATE 為 0.527,RPE-T 為 0.826,RPE-R 為 2.690,而 ViewExtrapolator 的 ATE 為 1.040,幾乎是前者的兩倍,這說明在動態視頻條件下,WorldForge 依然能保持比較穩定的軌跡控制效果。

      除了性能指標,研究人員還給出了實驗規模,這部分信息很重要。在 3D 任務中,實驗覆蓋 40 多個場景、70 多張單圖輸入,使用的數據集包括 LLFF、Tanks & Temples、MipNeRF 360,同時還加入了真實圖片和 AI 生成圖片。


      在 4D 任務中,實驗覆蓋 30 多個視頻和 50 多個測試樣例,數據來源包括 DAVIS 數據集、電影片段以及 VDM 生成視頻。這樣的設置說明,測試范圍同時覆蓋真實世界數據和合成數據,泛化能力驗證相對充分。

      研究團隊還說明了實驗條件。主模型使用 Wan2.1,規模為 14B,硬件方面需要至少 69GB 顯存的 GPU。生成階段采用 50 步采樣,其中 IRR 作用在前 20 步。這組條件說明,方法在效果上很強,但計算成本也比較高,對硬件資源有較高要求。

      在消融實驗部分,相關數據來自 Table 3。完整模型表現最好,其中 FID 為 96.08,FVD 為 93.17。去掉 DSG 以后,FID 上升到 109.43,FVD 上升到 95.69,說明畫面質量和視頻質量都明顯變差。

      去掉 FLF 以后,FID 進一步上升到 112.69,FVD 上升到 99.79,結果更差。把 DSG 和 FLF 一起去掉以后,FID 達到 113.12,FVD 達到 103.17,退化更加明顯。如果把 DSG 換成傳統 CFG,結果最差,FID 達到 120.91,FVD 達到 109.1。

      綜合這些數字可以看到,每個模塊都會帶來大約 10% 到 20% 的性能提升,而且幾個模塊之間存在明顯的互補關系,少了任何一個,整體效果都會下降。


      02


      一套可遷移、可控制的生成流程

      在實驗經過方面,研究團隊首先從模型設置入手驗證方法的通用性,一共選用了三個不同類型的視頻生成模型進行測試,分別是作為主實驗基礎模型的 Wan2.1,其規模為 14B,作為輕量級對照模型的 SVD,以及較新的 LongCat-Video 模型。

      通過在這三類能力和結構差異明顯的模型上分別進行實驗,研究人員觀察方法在不同基礎能力條件下的表現變化,結果顯示方法可以直接遷移到不同視頻模型中使用,不依賴特定模型結構或訓練方式,因此具有明顯的模型無關性,也就是 model-agnostic 特征。


      在推理流程參數方面,研究團隊對擴散生成過程進行了精細控制。整個視頻生成過程統一設置為 50 步采樣。在這一過程中,IRR 并不是在全部步驟中持續作用,而是集中作用在前 35% 到 45% 的階段,也就是大約前 15 到 25 步之間,在主實驗配置中通常為前 20 步。

      這一階段主要負責建立整體結構和運動趨勢,因此通過 IRR 在這一階段持續注入軌跡信息,可以不斷修正生成方向,使結果逐步貼近目標相機路徑。


      與此同時,FLF 在時間維度上也采用分階段策略,在最初的若干步中關閉 FLF,讓模型優先利用全部通道建立整體結構,避免過早限制信息流動而影響全局布局,隨后在中后期逐漸啟用 FLF,對通道進行篩選,僅對運動相關通道施加約束,從而在不破壞外觀細節的前提下加強軌跡控制。

      這種安排體現出一種明顯的時間調度機制,也就是在不同生成階段分配不同控制強度,從而在結構穩定性與細節保真之間取得平衡。


      在軌跡類型設計方面,研究團隊為了驗證方法的適用范圍,構建了多種不同形式的相機運動路徑進行測試,包括圓弧軌跡,也就是 arc,用于模擬圍繞目標的側向移動;推進軌跡,也就是 dolly,用于模擬鏡頭前進或后退;旋轉軌跡,也就是 orbit,用于實現環繞式觀察;以及自由探索路徑,用于測試復雜、不規則的相機運動。

      這些軌跡不僅在幾何形式上存在差異,同時在運動幅度、視角變化范圍以及遮擋情況上也存在顯著不同。通過在這些多樣化軌跡條件下進行實驗,研究人員驗證方法不僅可以處理規則路徑,也可以應對復雜動態路徑,從而說明方法具備較強的泛化能力,而不是只對某一類預設運動模板有效。


      在評價指標選擇方面,研究團隊結合任務特點進行了專門設計。對于單圖生成多視角的 3D 任務,由于輸入只有一張圖像,目標視角并不存在真實參考,也就是沒有 ground truth,因此無法使用依賴真實圖像對比的指標,例如 PSNR 這一類像素級誤差指標。

      在這種情況下,研究人員選擇使用 FID 來衡量生成結果在分布層面與真實圖像的接近程度,同時使用 CLIP 相似度來評估生成內容在語義層面與輸入圖像的一致性。

      對于 4D 動態視頻任務,則進一步引入 FVD 來衡量視頻整體質量,以及 CLIP-Vsim 來評估視頻語義一致性。這種指標體系體現出研究團隊對問題性質的理解,也就是把任務視為生成問題而不是重建問題,因此評價重點放在真實感、語義一致性以及時間連續性,而不是像素級還原精度。

      03


      從結果優化,到過程控制的一次轉向

      在實驗意義方面,這項研究的價值不僅體現在指標提升上,更體現在它改變了視頻生成技術的發展方向。首先,從性能上看,研究結果不是只優化了某一個局部環節,而是在多個核心維度上同時取得提升。

      FID 下降了 20%,FVD 下降了 15%,軌跡誤差降低了 2 到 5 倍,這說明研究團隊提出的方法既能讓畫面更真實,也能讓視頻更穩定,還能讓相機運動更準確。

      換句話說,研究人員解決的不是單一的清晰度問題,也不是單一的控制問題,而是把生成質量、運動一致性和空間控制能力一起往前推進了一步,這種全面提升說明方法已經具備較強的實用潛力。

      從方法意義上看,這項研究進一步說明,視頻生成未來的重要方向,很可能不是不斷重新訓練更大的模型,而是在推理過程中進行更精細的控制。研究人員通過實驗發現,傳統 CFG 在這一任務中會失敗,FID 會高到 120 以上,而使用 DSG 以后,FID 可以降到 96。

      這說明過去那種主要面向圖像生成的控制思路,放到視頻任務里并不夠用,因為視頻不僅要生成單幀內容,還要保證前后幀銜接自然,人物和場景不能亂變,鏡頭運動也不能失控。也正因為如此,研究團隊提出的結構感知式控制方式才顯得更有意義,它證明視頻生成不能只靠簡單加條件,而是需要真正理解空間結構和運動關系。

      從理論意義上看,這項研究還有一個很重要的貢獻,就是進一步證明了 latent 空間內部并不是混在一起、無法區分的。FLF 的實驗結果表明,不同通道確實承擔著不同功能,有些更偏向運動信息,有些更偏向外觀與細節信息。

      從工程意義上看,這項研究也很誠實地揭示了當前技術所處的階段。方法雖然強,但成本也高,需要大約 70GB 顯存,還要進行多路徑推理,所以它更像是一種高質量離線渲染方案,而不是已經成熟到可以實時運行的輕量系統。

      這一點其實也很有意義,因為它告訴人們,當前視頻生成技術已經能夠做出高質量結果,但距離真正低成本、實時化、大規模普及,還有一段工程化的路要走。也就是說,這項研究更像是在證明一件事可行,而不是已經把一件事做成人人隨手可用的產品。

      如果進一步看這項研究對普通人的影響,意義會更直觀。對于普通用戶來說,這類技術未來最直接的變化,就是拍視頻和做視頻的門檻可能會繼續降低。以前想拍出鏡頭繞人移動、緩慢推進、自由換視角的效果,往往需要專業攝影設備、軌道、穩定器,甚至還要后期團隊處理。

      沿著這項研究繼續發展,未來普通人只用一張圖或者一段普通視頻,就有可能生成更像電影鏡頭的畫面,旅游視頻、畢業紀念、短視頻創作、家庭影像記錄都會因此變得更容易、更豐富。

      對于內容創作者來說,這種技術會進一步改變創作方式。很多人沒有專業拍攝條件,也不會復雜建模,但依然希望讓視頻看起來更有空間感、更有鏡頭語言。

      這項研究說明,未來創作者可能只需要先拍一個基礎畫面,后續再通過生成式方法重新設計鏡頭軌跡,讓鏡頭前進、環繞、拉遠、探索場景,等于把部分攝影和后期能力交給了模型。這樣一來,個人創作者、小型工作室,甚至普通學生,都可能獲得過去只有專業團隊才能完成的視覺表達能力。

      也就是說,這項研究雖然現在還主要停留在高成本實驗階段,但它指向的是一種更低門檻、更強表達力的視覺生產方式,而這種變化最后會落到普通人的觀看體驗、記錄方式和創作能力上。

      04


      WorldForge 背后的科研力量

      論文一作宋晨曦,目前是西湖大學 AGI Lab 的博士后研究員,師從張馳教授,2024 年于吉林大學獲得工學博士學位,博士階段主要從事 3D 計算機視覺與計算機圖形學研究。

      他當前的研究重點集中在 3D 與 4D 場景建模、可控視頻生成等方向,同時也活躍于學術共同體,擔任 NeurIPS、CVPR、ECCV、AAAI、MM 和 T-CSVT 等會議與期刊的審稿人。

      就學術成果來看,他已發表或參與多項代表性工作,包括以第一作者發表在 CVPR 2026 的 WorldForge,以及發表于 IEEE T-CSVT 的 FewarNet,此外還參與了 SwitchCraft、Free-Lunch Long Video Generation、FlowDirector、Fast3Dcache、AppAgentX 等項目,整體研究路徑體現出從多視角重建、3D 幾何建模到訓練自由的視頻生成與世界模型構建的持續推進


      參考鏈接:https://chenxi-song.github.io/

      通訊作者張馳,西湖大學助理教授、獨立PI,同時擔任 AGI Lab負責人,在生成式人工智能和多模態智能方向開展研究工作。在

      此之前,他曾在騰訊擔任研究科學家,并于新加坡南洋理工大學獲得博士學位,師從林國盛教授,同時與沈春華等學者保持長期合作關系。在學術影響力方面,他連續入選斯坦福大學發布的全球前 2% 科學家榜單,并擔任多個頂級會議和期刊的重要學術服務角色,包括 ICML、ICLR、CVPR 等會議的 Area Chair,以及 IEEE T-CSVT 的副編輯。

      在學術成果與研究產出方面,他長期深耕生成式人工智能領域,研究方向涵蓋擴散模型、多模態生成建模以及智能體系統,近年來帶領團隊在 CVPR、ICCV、ICLR、NeurIPS 等頂級會議上持續發表成果,例如 Ultra3D、FlowDirector、WorldForge、MeshAnything、Metric3D、StableLLaVA 等代表性工作。

      這些研究從圖像生成、視頻生成延伸到 3D/4D 場景建模以及多模態智能體,形成了一條從視覺理解到世界建模的系統性研究路線。

      從整體研究特點來看,張馳的工作強調生成模型的可控性、多模態融合能力以及向真實世界建模能力的拓展,既關注模型基礎理論,也注重實際系統構建與應用落地。例如在視頻生成與3D建模方向,他推動從單純生成內容向可控相機運動和空間理解發展,在智能體方向,他探索多模態大模型在真實交互環境中的應用。

      這種研究路徑體現出從傳統計算機視覺向通用人工智能過渡的趨勢,也使其工作處于當前人工智能領域較為前沿的位置。


      參考鏈接:https://icoz69.github.io/


      未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社區進行轉載!

      公眾號轉載請先在「AI科技評論」后臺留言取得授權,轉載時需標注來源并插入本公眾號名片。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      光通信這13家硬核龍頭才是隱形主線,國家隊早已悄悄布局!

      光通信這13家硬核龍頭才是隱形主線,國家隊早已悄悄布局!

      Thurman在昆明
      2026-05-14 16:52:43
      馬斯克:我的兒子正在學習普通話

      馬斯克:我的兒子正在學習普通話

      財聞
      2026-05-14 20:58:22
      91歲楊尚昆晚年感慨:黨內山頭眾多,唯有毛主席能徹底凝聚全黨

      91歲楊尚昆晚年感慨:黨內山頭眾多,唯有毛主席能徹底凝聚全黨

      老謝談史
      2026-05-13 19:50:56
      祝福!48歲全紅嬋母親住院 19歲全妹陪床 有錢了不用再為醫藥費發愁

      祝福!48歲全紅嬋母親住院 19歲全妹陪床 有錢了不用再為醫藥費發愁

      科學發掘
      2026-05-14 19:23:26
      Sommer Ray穿黃色丁字褲比基尼秀身材,自稱"夏日女神"

      Sommer Ray穿黃色丁字褲比基尼秀身材,自稱"夏日女神"

      追星雷達站
      2026-05-14 06:19:14
      何炅工作室回應:沒通知我們啊

      何炅工作室回應:沒通知我們啊

      南方都市報
      2026-05-14 17:49:25
      特朗普已到達北京,美媒突然發現不對勁:中國人怎么完全不興奮了

      特朗普已到達北京,美媒突然發現不對勁:中國人怎么完全不興奮了

      番外行
      2026-05-14 10:57:05
      雷軍主動找馬斯克合影,庫克也來湊熱鬧

      雷軍主動找馬斯克合影,庫克也來湊熱鬧

      鞭牛士
      2026-05-14 19:22:15
      克宮:普京訪華籌備工作已就緒,將于近期公布具體日期

      克宮:普京訪華籌備工作已就緒,將于近期公布具體日期

      環球網資訊
      2026-05-14 19:15:21
      高奢版售價或超10萬元!追覓手機預計今年發布,創始人俞浩揚言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      高奢版售價或超10萬元!追覓手機預計今年發布,創始人俞浩揚言要與蘋果、三星三分天下,最終必將超越蘋果4萬億美元市值

      大風新聞
      2026-05-14 13:40:08
      重磅!國家正式出手!不生孩子的時代要結束了?

      重磅!國家正式出手!不生孩子的時代要結束了?

      瓜哥的動物日記
      2026-05-14 19:13:53
      射程超過35000公里,俄軍方:可經南極至美國境內目標的“世界上最強大導彈”試射成功

      射程超過35000公里,俄軍方:可經南極至美國境內目標的“世界上最強大導彈”試射成功

      紅星新聞
      2026-05-13 13:21:19
      紀委已明確!公職人員“8小時外”的社交篇 , 這4種行為絕不能碰

      紀委已明確!公職人員“8小時外”的社交篇 , 這4種行為絕不能碰

      細說職場
      2026-05-13 14:18:41
      巴媒:巴基斯坦外長宣布,巴總理夏巴茲將訪華

      巴媒:巴基斯坦外長宣布,巴總理夏巴茲將訪華

      環球網資訊
      2026-05-14 19:15:15
      連續3漲停!603052,最新提示!

      連續3漲停!603052,最新提示!

      證券時報e公司
      2026-05-14 20:26:52
      危言聳聽?博主稱央視若不妥協購買天價世界杯版權將引發公共災難

      危言聳聽?博主稱央視若不妥協購買天價世界杯版權將引發公共災難

      塵語者
      2026-05-14 16:13:55
      45萬“買”煙草局編制?詐騙人員伙同物業員工,帶人進成都市煙草局會議室“面試”,兩年多時間里詐騙36人獲利874萬,主犯獲刑13年6個月

      45萬“買”煙草局編制?詐騙人員伙同物業員工,帶人進成都市煙草局會議室“面試”,兩年多時間里詐騙36人獲利874萬,主犯獲刑13年6個月

      揚子晚報
      2026-05-14 07:28:52
      川普訪華,美國記者在北京席地而坐

      川普訪華,美國記者在北京席地而坐

      浮島余生
      2026-05-14 19:41:39
      50崔智友軍人父親驟逝!老公、女兒罕見現身靈堂,將于14日清晨出殯

      50崔智友軍人父親驟逝!老公、女兒罕見現身靈堂,將于14日清晨出殯

      手工制作阿殲
      2026-05-14 08:53:21
      買得起修不起!4400萬新能源車主被困4S店,車企鎖死代碼壟斷維修

      買得起修不起!4400萬新能源車主被困4S店,車企鎖死代碼壟斷維修

      墨印齋
      2026-05-14 07:40:25
      2026-05-14 21:39:00
      AI科技評論 incentive-icons
      AI科技評論
      點評學術,服務AI
      7274文章數 20751關注度
      往期回顧 全部

      科技要聞

      馬斯克說會談很順利 黃仁勛點贊 庫克比耶

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      頭條要聞

      重慶"萌感"佛頭意外走紅 雕刻者:不是文物且尚未完工

      體育要聞

      爭議抽象天王山,和季后賽最穩定中鋒

      娛樂要聞

      何九華官宣當爸!全程不提孩子媽

      財經要聞

      李強會見美國工商界代表

      汽車要聞

      雙零重力座椅/AI智能體/調光天幕 啟境GT7內飾發布

      態度原創

      旅游
      游戲
      手機
      時尚
      軍事航空

      旅游要聞

      長江三峽翠屏林立 呈現碧水青山詩意畫卷

      任天堂發布會重磅猛料!馬上就來 官方頁面曝光

      手機要聞

      vivo S60預熱開啟,超大面積一體冷雕玻璃

      大熱天,闊腿褲配什么上衣更清涼?

      軍事要聞

      美以伊戰爭期間以總理密訪阿聯酋

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 正在播放国产大学生情侣| 中文字幕有码日韩精品| 日韩在线视频观看免费网站| 日韩三级手机在线观看不卡| 日韩激烈无码| 国产高清在线精品一本大道| 日韩激情视频| 国内精品久久久久影视| 久久精品超碰AV无码| 国产主播AV福利精品一区| 强开小雪的嫩苞又嫩又紧| 国产精品国产三级国产午| 四川丰满少妇无套内谢| 97人人模人人爽人人少妇| 国产成年无码久久久久下载| 欧美性受xxxx白人性爽| 视频一区二区不中文字幕| 人妻蜜桃臀中文字幕破解版一区 | 久久狠狠高潮亚洲精品| 色综合中文字幕色综合激情| 麻豆色漫| 久久久久女教师免费一区| 一区二区无码免费视频网站| 国产l精品国产亚洲区久久| 重口SM一区二区三区视频| 国模久久| 人人一区二区| 日本55丰满熟妇厨房伦| 亚洲日本高清一区二区三区| 亚洲日本久久久| 亚洲精品成人a?v久久| 国产精品久久久久影视不卡| 久播影院无码中文字幕| 国产人妖ts在线观看网站| 亚洲色欲精品综合网| 精品亚洲成在人线av无码| 亚洲AV无码成人网站久久精品大 | 久久综合激情网| 中文字幕乱码无遮挡精品视频| 亚洲精品综合成人1区2区3区 | 97精品伊人久久久大香线蕉|