<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      賦予視頻生成「視覺思維鏈」:VChain顯式建模時空規劃與狀態演變

      0
      分享至



      當視頻生成模型在視覺保真度上不斷突破時,一個核心瓶頸正變得愈發清晰:模型是否真正理解了真實世界?能否推理出合理的演變過程?

      在具身智能、影視制作以及物理仿真等應用場景中,要求模型不僅要生成 “平滑的像素”,更要實現 “邏輯連貫的演化”。這種對物理規律與因果關系的建模能力,是當前基于大數據驅動的端到端生成模型面臨的長期挑戰。

      那么,我們能否將多模態大模型(MLLM)的推理能力,作為一種 “外腦” 注入到視頻生成過程中呢?

      來自南洋理工大學(NTU)的研究團隊在ACL 2026 (Findings)發表了VChain。這一框架試圖將大型多模態模型(如 GPT-4o)的視覺推理能力引入視頻生成,以提升視頻在邏輯與物理規律上的連貫性。



      • 論文: VChain: Chain-of-Visual-Thought for Reasoning in Video Generation
      • 作者:黃子琪 (Ziqi Huang), 于寧 (Ning Yu), Gordon Chen, 邱浩楠 (Haonan Qiu), Paul Debevec, 劉子緯 (Ziwei Liu)
      • 論文地址: https://arxiv.org/abs/2510.05094
      • 項目主頁: https://eyeline-labs.github.io/VChain

      背景

      視頻生成的 “常識缺失”

      現有的視頻生成模型往往表現出一種 “物理不及格” 的狀態:球可以反物理地滾動,羽毛可能比石頭下落得更快。原因在于,目前的模型擅長模仿 “樣子”(視覺模式),卻不懂 “道理”(物理因果)。

      雖然 GPT-4o 等多模態大模型在視覺推理上表現出色,但直接生成視頻成本極高。VChain 的核心思路是 “讓專業的人做專業的事”:引入一個在推理階段工作的框架,利用 LMM 進行邏輯推演,轉而 “指導” 視頻模型進行創作。



      為了解決這個問題,研究者們提出了VChain,一個在推理階段工作的框架,VChain 的核心思路是 “讓專業的人做專業的事”:利用 LMM 進行邏輯推演,轉而指導視頻模型進行內容創作。

      方法

      三步走的 VChain 框架 - “視覺思維鏈”

      VChain 的實現流程非常優雅,主要分為三個階段,全部在推理時完成,無需對視頻模型進行重新訓練,非常高效。



      1. 視覺思維推理 (Visual Thought Reasoning)

      面對 “將濃硫酸倒在木桌上” 這類指令,VChain 首先調用 LMM 進行 “頭腦風暴”,推演事件的因果鏈并生成關鍵圖像幀。這些幀被稱為 “視覺思維鏈 (Chain of Visual Thoughts)”,它將抽象邏輯轉化為具體的視覺步驟。

      這個過程是迭代的,LMM 會一步步地思考:“首先,一杯硫酸在桌子上方;然后,硫酸開始傾倒;接著,液體接觸到桌面;最后,桌面被腐蝕變黑。” 并為每一步生成對應的圖像。



      2. 推理時稀疏調優 (Sparse Inference-Time Visual-State Adaptation)

      有了這些包含邏輯關系的關鍵幀(視覺思維)后,VChain 并不會用它們來生成所有視頻幀。相反,它只在這些 “關鍵時刻” 對預訓練好的視頻生成器進行微調。

      具體來說,它將這些關鍵幀和對應的文本描述配對,作為稀疏的監督信號,通過 LoRA 高效地調整視頻生成模型的參數。這種方式只在幾個關鍵點上進行 “校準”,大大降低了計算開銷。

      3. 視頻采樣 (Video Sampling)

      經過稀疏調優后,視頻生成模型就領會了整個事件的 “大綱”。最后,VChain 將所有步驟的文本描述連接成一個完整的長提示,輸入給調優后的模型,從而生成一個連貫、流暢且符合邏輯的完整視頻。

      實驗效果

      從 “貌合神離” 到 “形神兼備”

      那么,VChain 的效果究竟如何呢?

      在定性對比中,我們可以看到,對于 “保齡球撞擊球瓶” 這個場景,現有模型生成的視頻中,球瓶幾乎不動或只是輕微抖動,完全沒有發生真實的碰撞。而經過提示增強后,雖然有了互動,但動態效果非常不自然,甚至出現了偽影。

      相比之下,如果給同樣的模型加上 VChain 框架,生成的視頻則完全符合物理規律:球以合理的力量撞擊球瓶,球瓶被擊倒的過程連貫且真實。物體的幾何形狀和材質在整個過程中都保持得很好。



      在定量評估中,VChain 在各項指標上也達到或超過了現有方法。在針對物理規律常識推理因果邏輯的專項測評中,VChain 顯著優于現有方法。



      研究者們還通過消融實驗證明了 VChain 每個組成部分的重要性。如果去掉 “視覺思維”,模型雖然知道要生成第一人稱視角的視頻,但無法捕捉到正確的 “接球” 視覺模式。如果去掉 “稀疏調優”,直接用關鍵幀進行插值,則會導致嚴重的圖像扭曲和偽影。只有將兩者結合,才能得到最連貫、最真實的結果。



      VChain 巧妙的地方在于它是一種 “即插即用” 的推理時框架,它沒有去大動干戈地訓練一個全新的視頻模型,也不依賴額外的數據,而是通過 “LMM” 賦能;這為未來多模態模型的協同工作提供了一個范例。

      深度思考

      視頻生成范式的 “推理革命”

      基于論文附錄的探討,VChain 展示了視頻推理與生成的兩種潛在趨勢:

      1. 從 “語義指引” 到 “具象視覺推理” 的跨越

      過去的研究多依賴 LLM 生成文字腳本或簡單的布局信息。然而,文本在傳達 “復雜的物理形變” 時存在表達盲區。

      VChain 證明了:對于視頻生成任務,推理過程也需要 “去符號化” 并直接進入視覺空間。 只有通過具備空間與材質約束的圖像錨點,才能有效修正生成器內心錯誤的物理先驗,實現邏輯與像素的統一。

      2. 推理者 - 渲染者 (Reasoner-Renderer)” 協作新范式

      VChain 提出了一種模塊化的協作路徑,將復雜的邏輯判斷(由 MLLM,也就是 Reasoner 來完成)與底層的視覺渲染(由擴散變壓器架構,或者更廣義的 Renderer 來完成)進行解耦。

      當視頻生成逐漸被視為 “世界模型” 的一種實現形式,我們不應只滿足于畫面的精美。只要多模態大模型的常識以及邏輯推理能力上限依然高于視覺生成模型,這種將推理能力引導至生成過程的范式,就為未來多模態模型的協同工作提供了一個可參考的方向。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      搞了17年,英國高鐵2號線再次超支延期:總成本暴增至最高9370億元,2040年代投入運營,還要降速!多段線路被砍,成“駭人聽聞的爛攤子”

      搞了17年,英國高鐵2號線再次超支延期:總成本暴增至最高9370億元,2040年代投入運營,還要降速!多段線路被砍,成“駭人聽聞的爛攤子”

      每日經濟新聞
      2026-05-20 14:24:59
      趙繼偉新的東家浮出水面?

      趙繼偉新的東家浮出水面?

      體育哲人
      2026-05-19 23:31:31
      “訂單排到2027年”!除了芯片,它也爆火!全球資本涌入

      “訂單排到2027年”!除了芯片,它也爆火!全球資本涌入

      環球網資訊
      2026-05-19 19:45:56
      別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

      別喝“駝奶”了,全世界的駱駝也擠不出那么多的駝奶

      黃河新流域
      2026-05-14 15:10:42
      80%員工在用未審批AI工具,企業如何不拖慢效率

      80%員工在用未審批AI工具,企業如何不拖慢效率

      閃存獵手
      2026-05-19 03:19:38
      年羹堯倒臺,雍正是如何處理他的妻子和女兒的?說出來都不敢相信

      年羹堯倒臺,雍正是如何處理他的妻子和女兒的?說出來都不敢相信

      卡西莫多的故事
      2025-10-25 19:39:06
      從大疆離職,被雷軍投24億,哈工大女教授造出百億獨角獸

      從大疆離職,被雷軍投24億,哈工大女教授造出百億獨角獸

      趣文說娛
      2026-05-14 21:25:42
      每體:卡塞米羅等老將集體與安切洛蒂談判,明確請求其征召內馬爾

      每體:卡塞米羅等老將集體與安切洛蒂談判,明確請求其征召內馬爾

      蘭亭墨未干
      2026-05-20 14:20:47
      爭議!劉丁碩拿6個蛋內涵樊振東0-6 瞧不起歐冠 網友:忘恩負義

      爭議!劉丁碩拿6個蛋內涵樊振東0-6 瞧不起歐冠 網友:忘恩負義

      念洲
      2026-05-20 15:44:39
      林彪坦言鄧華是個危險人物,必須趕出軍隊,鄧小平:讓他當副省長

      林彪坦言鄧華是個危險人物,必須趕出軍隊,鄧小平:讓他當副省長

      揚平說史
      2026-05-01 23:02:31
      歐媒不明白:中國拿下85%造船訂單,為啥心臟發動機也要自己造

      歐媒不明白:中國拿下85%造船訂單,為啥心臟發動機也要自己造

      趣文說娛
      2026-05-19 21:57:07
      形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

      形勢有多嚴峻?坐標上海:80末90初程序員都開始失業,評論區炸了

      慧翔百科
      2026-05-14 09:00:11
      金價大跌破位!2026年5月黃金走勢定調:短期回調,長牛未止

      金價大跌破位!2026年5月黃金走勢定調:短期回調,長牛未止

      次元君情感
      2026-05-20 16:22:34
      他是成吉思汗第三子,玷污四千多名女子,因一杯酒讓蒙古錯失歐洲

      他是成吉思汗第三子,玷污四千多名女子,因一杯酒讓蒙古錯失歐洲

      掠影后有感
      2026-05-20 10:36:04
      ESPN預測雷霆G2勝率62.1%!但看懂G1的人,會相信這組數據嗎?

      ESPN預測雷霆G2勝率62.1%!但看懂G1的人,會相信這組數據嗎?

      茅塞盾開本尊
      2026-05-20 13:44:48
      不滿四常國訪華?歐盟下挑戰書,要與中美俄平起平坐,默克爾出山

      不滿四常國訪華?歐盟下挑戰書,要與中美俄平起平坐,默克爾出山

      田園小歸
      2026-05-19 09:20:11
      網傳上海某高校上課期間學生暴怒,直接對老師喊殺

      網傳上海某高校上課期間學生暴怒,直接對老師喊殺

      文憶天下
      2026-05-20 09:25:55
      國內油價將迎調整

      國內油價將迎調整

      昌平圈
      2026-05-20 15:55:45
      久坐危害被低估:即使每天運動也難抵消

      久坐危害被低估:即使每天運動也難抵消

      字節漫游指南
      2026-05-14 12:28:06
      《生化9》格蕾絲性感MOD:網襪配毛衣 盡顯S曲線

      《生化9》格蕾絲性感MOD:網襪配毛衣 盡顯S曲線

      游民星空
      2026-05-20 17:03:48
      2026-05-20 17:36:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13045文章數 142651關注度
      往期回顧 全部

      科技要聞

      一文看懂谷歌I/O2026:谷歌打響智能體大戰

      頭條要聞

      楊梅被"一刀切"禁入 福建楊梅協會會長懇求給果農生路

      頭條要聞

      楊梅被"一刀切"禁入 福建楊梅協會會長懇求給果農生路

      體育要聞

      不再美麗的阿森納,終于成為英超冠軍

      娛樂要聞

      王菲“沒事兒”,成年人學不來的松弛

      財經要聞

      白酒榜|汾酒營收凈利雙增 口子窖"造富"

      汽車要聞

      煥新極氪009上市41.38萬起 齊家版讓MPV回歸家庭

      態度原創

      房產
      親子
      健康
      手機
      軍事航空

      房產要聞

      別被中介帶了節奏,你的房子可能比你想的值錢

      親子要聞

      社會化:成長的必經之路,還是大型PUA?

      專家:別把PRP當作“自體干細胞”

      手機要聞

      2026年618購機指南:暗光夜景頂級影像旗艦手機推薦

      軍事要聞

      俄媒盛贊中國軍人:身姿挺拔 站如松柏

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 99久久国产综合精品成人影院| 亚洲AV乱码一区二区三区按摩| 国产成人精品男人的天堂下载 | 高级艳妇交换俱乐部小说| 欧美整片sss| 一区二区三区中文字幕| 91精品国产91久久久久| 国产精品一区二区韩国AV| 亚洲一卡2卡三卡四卡精品| 白色丝袜国产在线视频| 久久毛斤| 日韩A| 66精品人妻| 亚洲av无码之国产精品网址蜜芽 | 精品久久久无码中文字幕边打电话 | 国产99久久亚洲综合精品西瓜tv| 国产精品中文字幕二区| 午夜成人无码免费看网站| 人妻体内射精一区二区三四| 无码中文人妻| 精品日韩亚洲av无码| 国内精品伊人久久久久AV一坑| jizzjizzjizzjizz国产| 欧美激情综合色综合啪啪五月| 中文字幕在线日韩| 亚洲二页| 人妻无码一区二区三区四区 | 伊人久久综合热线大杳蕉| 日韩V欧美V中文在线| 国产偷国产偷亚洲综合av| 午夜男在线一本| 中文字幕精品久久久久人妻| 一区二区三区四区精品国产| 亚洲人妻资源网| 丁香五月亚洲综合在线国内自拍| 人妻精品久久无码专区涩涩| 你懂的国产在线| 级毛片内射视频| 亚洲欧美一级一级a| 国产AV永久无码精品网站| 天天躁日日躁狠狠躁欧美老妇小说|