網易首頁 > 網易號 > 正文申請入駐

賦予視頻生成「視覺思維鏈」：VChain顯式建模時空規劃與狀態演變

2026-05-20 16:07:48　來源: 機器之心Pro

天津舉報

分享至

當視頻生成模型在視覺保真度上不斷突破時，一個核心瓶頸正變得愈發清晰：模型是否真正理解了真實世界？能否推理出合理的演變過程？

在具身智能、影視制作以及物理仿真等應用場景中，要求模型不僅要生成 “平滑的像素”，更要實現 “邏輯連貫的演化”。這種對物理規律與因果關系的建模能力，是當前基于大數據驅動的端到端生成模型面臨的長期挑戰。

那么，我們能否將多模態大模型（MLLM）的推理能力，作為一種 “外腦” 注入到視頻生成過程中呢？

來自南洋理工大學（NTU）的研究團隊在ACL 2026 (Findings)發表了VChain。這一框架試圖將大型多模態模型（如 GPT-4o）的視覺推理能力引入視頻生成，以提升視頻在邏輯與物理規律上的連貫性。

論文: VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
作者：黃子琪 (Ziqi Huang), 于寧 (Ning Yu), Gordon Chen, 邱浩楠 (Haonan Qiu), Paul Debevec, 劉子緯 (Ziwei Liu)
論文地址: https://arxiv.org/abs/2510.05094
項目主頁: https://eyeline-labs.github.io/VChain

背景

視頻生成的 “常識缺失”

現有的視頻生成模型往往表現出一種 “物理不及格” 的狀態：球可以反物理地滾動，羽毛可能比石頭下落得更快。原因在于，目前的模型擅長模仿 “樣子”（視覺模式），卻不懂 “道理”（物理因果）。

雖然 GPT-4o 等多模態大模型在視覺推理上表現出色，但直接生成視頻成本極高。VChain 的核心思路是 “讓專業的人做專業的事”：引入一個在推理階段工作的框架，利用 LMM 進行邏輯推演，轉而 “指導” 視頻模型進行創作。

為了解決這個問題，研究者們提出了VChain，一個在推理階段工作的框架，VChain 的核心思路是 “讓專業的人做專業的事”：利用 LMM 進行邏輯推演，轉而指導視頻模型進行內容創作。

方法

三步走的 VChain 框架 - “視覺思維鏈”

VChain 的實現流程非常優雅，主要分為三個階段，全部在推理時完成，無需對視頻模型進行重新訓練，非常高效。

1. 視覺思維推理 (Visual Thought Reasoning)

面對 “將濃硫酸倒在木桌上” 這類指令，VChain 首先調用 LMM 進行 “頭腦風暴”，推演事件的因果鏈并生成關鍵圖像幀。這些幀被稱為 “視覺思維鏈 (Chain of Visual Thoughts)”，它將抽象邏輯轉化為具體的視覺步驟。

這個過程是迭代的，LMM 會一步步地思考：“首先，一杯硫酸在桌子上方；然后，硫酸開始傾倒；接著，液體接觸到桌面；最后，桌面被腐蝕變黑。” 并為每一步生成對應的圖像。

2. 推理時稀疏調優 (Sparse Inference-Time Visual-State Adaptation)

有了這些包含邏輯關系的關鍵幀（視覺思維）后，VChain 并不會用它們來生成所有視頻幀。相反，它只在這些 “關鍵時刻” 對預訓練好的視頻生成器進行微調。

具體來說，它將這些關鍵幀和對應的文本描述配對，作為稀疏的監督信號，通過 LoRA 高效地調整視頻生成模型的參數。這種方式只在幾個關鍵點上進行 “校準”，大大降低了計算開銷。

3. 視頻采樣 (Video Sampling)

經過稀疏調優后，視頻生成模型就領會了整個事件的 “大綱”。最后，VChain 將所有步驟的文本描述連接成一個完整的長提示，輸入給調優后的模型，從而生成一個連貫、流暢且符合邏輯的完整視頻。

實驗效果

從 “貌合神離” 到 “形神兼備”

那么，VChain 的效果究竟如何呢？

在定性對比中，我們可以看到，對于 “保齡球撞擊球瓶” 這個場景，現有模型生成的視頻中，球瓶幾乎不動或只是輕微抖動，完全沒有發生真實的碰撞。而經過提示增強后，雖然有了互動，但動態效果非常不自然，甚至出現了偽影。

相比之下，如果給同樣的模型加上 VChain 框架，生成的視頻則完全符合物理規律：球以合理的力量撞擊球瓶，球瓶被擊倒的過程連貫且真實。物體的幾何形狀和材質在整個過程中都保持得很好。

在定量評估中，VChain 在各項指標上也達到或超過了現有方法。在針對物理規律、常識推理及因果邏輯的專項測評中，VChain 顯著優于現有方法。

研究者們還通過消融實驗證明了 VChain 每個組成部分的重要性。如果去掉 “視覺思維”，模型雖然知道要生成第一人稱視角的視頻，但無法捕捉到正確的 “接球” 視覺模式。如果去掉 “稀疏調優”，直接用關鍵幀進行插值，則會導致嚴重的圖像扭曲和偽影。只有將兩者結合，才能得到最連貫、最真實的結果。

VChain 巧妙的地方在于它是一種 “即插即用” 的推理時框架，它沒有去大動干戈地訓練一個全新的視頻模型，也不依賴額外的數據，而是通過 “LMM” 賦能；這為未來多模態模型的協同工作提供了一個范例。

深度思考

視頻生成范式的 “推理革命”

基于論文附錄的探討，VChain 展示了視頻推理與生成的兩種潛在趨勢：

1. 從 “語義指引” 到 “具象視覺推理” 的跨越

過去的研究多依賴 LLM 生成文字腳本或簡單的布局信息。然而，文本在傳達 “復雜的物理形變” 時存在表達盲區。

VChain 證明了：對于視頻生成任務，推理過程也需要 “去符號化” 并直接進入視覺空間。只有通過具備空間與材質約束的圖像錨點，才能有效修正生成器內心錯誤的物理先驗，實現邏輯與像素的統一。

2. 推理者 - 渲染者 (Reasoner-Renderer)” 協作新范式

VChain 提出了一種模塊化的協作路徑，將復雜的邏輯判斷（由 MLLM，也就是 Reasoner 來完成）與底層的視覺渲染（由擴散變壓器架構，或者更廣義的 Renderer 來完成）進行解耦。

當視頻生成逐漸被視為 “世界模型” 的一種實現形式，我們不應只滿足于畫面的精美。只要多模態大模型的常識以及邏輯推理能力上限依然高于視覺生成模型，這種將推理能力引導至生成過程的范式，就為未來多模態模型的協同工作提供了一個可參考的方向。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.