網易首頁 > 網易號 > 正文申請入駐

南開大學與通義實驗室突破:音視頻生成實現25倍速度提升同步演繹

2026-05-06 19:25:57　來源: 科技行者

天津舉報

分享至

這項由南開大學計算機學院與阿里巴巴通義實驗室、北京大學聯合完成的研究，以預印本形式發布于2026年4月（arXiv編號：2604.25819），提出了一種名為"Mutual Forcing"（互強迫）的流式音視頻聯合生成框架，在大幅降低計算步驟的同時，實現了高質量的長時序音畫同步生成。

說起AI生成視頻，大多數人可能已經不陌生了。但你有沒有想過，讓AI同時生成一段說話的視頻和與之完全匹配的聲音，像真正的"電影導演"一樣，把畫面和音軌一次性創作出來，會有多難？現有的系統大多只能分步走——先生成聲音，再生成視頻，或者反過來——兩件事做起來都已經很費力，合在一起更是難上加難。而且即便生成出來了，那速度也慢得令人抓狂：每生成一段視頻，系統要反復"打磨"上百次，才能交出一個像樣的結果。

這就是這支研究團隊面對的核心挑戰：能不能造出一個系統，既能同時生成音頻和視頻，又能跑得飛快，還能在一段長達數十秒的內容里保持音畫始終對得上？他們給出的答案，就是這篇論文的主角——Mutual Forcing。

一、為什么音視頻聯合生成這么難？先看問題根在哪里

要理解這項研究的價值，得先弄明白現有技術卡在哪里。把這件事想象成一位廚師同時烹飪兩道菜：一道需要慢火燉煮（視頻），一道需要精確掌握火候（音頻）。兩道菜不僅要各自完美，還要在同一時刻端上桌，口味還要相互呼應。單獨練好任何一道都需要花很多時間，但要同時做好，難度完全不是疊加，而是相乘。

當前研究領域里，絕大多數工作都聚焦于"單一菜品"的精進，比如專注于文字生成視頻、圖片生成視頻、或者音頻驅動視頻這類任務。真正意義上的"音視頻聯合生成"——也就是從零開始同時創作出畫面和聲音——其實還是一個相對少被深入探索的領域。部分早期研究雖然有所涉及，但通常局限于特定類型的數據集，或者只能處理簡單的聲音事件，遠遠達不到實用水平。

即便解決了"聯合生成"的問題，還有兩座大山擋在前面。第一座是速度：現有的高質量生成系統普遍需要進行大量的"去噪"步驟（簡單理解就是從一團噪聲里一點一點雕刻出清晰內容的過程），通常需要五十步甚至一百步才能產出一個結果，既耗時又耗算力。第二座是"越跑越偏"的問題：這類系統在訓練時看到的都是真實的歷史幀，但實際使用時卻只能看到自己之前生成的內容——就像一個廚師在練習時用的是最頂級的食材，正式上菜時卻只能用自己上一道菜的剩余邊角料來做下一道，時間一長，誤差不斷積累，質量急劇下滑。

二、雙管齊下：先把兩位廚師各自培訓好，再讓他們搭檔

面對如此復雜的挑戰，研究團隊設計了一套"兩階段訓練方案"，思路其實和現實中培訓廚師團隊很相似。

第一階段，他們分別獨立訓練音頻生成模型和視頻生成模型。兩個模型在各自的數據上充分學習，各自把"手藝"練扎實，建立起穩定的單模態生成能力。這樣做的好處是避免兩個模型在聯合訓練初期互相"拖后腿"——如果一開始就強行讓兩個都還沒學好的模型同時工作，訓練信號會非常不穩定，收斂緩慢，容易陷入次優解。

第二階段，兩個已經獨當一面的模型被整合進一個統一架構，在配對的音視頻數據上進行聯合微調。為了讓音頻和視頻的信息能夠真正"對話"，研究團隊特意將兩個分支的自注意力機制融合在一起——用通俗的說法就是，音頻的"注意力"和視頻的"注意力"在計算時共享同一個舞臺，彼此都能看到對方在做什么，從而實現真正的跨模態同步。

這個架構的一個重要設計原則是：兩個分支在結構上保持完全一致，便于后續的無縫融合。訓練數據方面，視頻數據來自Panda70M，音頻數據來自Emilia，配對音視頻數據則主要來自Seamless、SpeakerVid-5M和InternVid等數據集，覆蓋了大量真實場景下的人類說話視頻。

整個模型的規模相當可觀：音頻分支和視頻分支各有70億參數，合計140億參數，屬于真正的大規模生成模型。

三、流式生成：像直播一樣一幀幀往外"播"

解決了聯合建模的問題，研究團隊還有一個更野心勃勃的目標：讓模型能以"流式"方式工作，也就是像直播流一樣，實時地、逐幀地生成內容，而不是等到整段內容都生成完畢才一次性輸出。

這種方式的好處顯而易見：延遲低、可以無限延長、計算資源消耗也隨著序列長度線性增長而非平方級增長（這在技術上是個巨大的優勢）。這個框架在數學上被表達為：在每個時間步k，模型只根據之前已經生成的內容來預測下一幀，就像一個講故事的人只能基于自己已經講過的部分繼續往下編，而不能"提前看劇本"。

然而，流式生成帶來了兩個棘手的技術難題。一是如何足夠快——在一次"去噪"過程中，如果需要走上百步，實時生成根本無從談起。二是如何防止"越走越偏"——每一幀的小誤差都會疊加到下一幀的輸入里，時間一長，誤差像滾雪球一樣越來越大，生成質量就會急劇惡化。

四、Mutual Forcing的核心秘密：讓同一個模型學會"快跑"和"穩走"

這就輪到這篇論文最核心的創新登場了——Mutual Forcing。

在講清楚它之前，先理解一下現有的幾種解決思路，以及它們各自的局限。最基礎的做法叫"Teacher Forcing"（教師強迫），就是在訓練時把真實的歷史幀喂給模型，讓它學習。這就像練習烹飪時用的全是頂級食材——練起來效果好，但真正上崗時食材換成了自己生成的"次品"，落差太大，生成質量隨時間快速下滑。另一種改進叫"Diffusion Forcing"，通過給歷史幀加噪聲來模擬誤差，緩解了部分落差問題，但速度依然很慢。

還有一種更先進的方法叫"Self-Forcing"（自我強迫），它的思路是用模型自己生成的歷史幀來訓練，這樣訓練和實際使用時的"食材質量"就一致了。但這個方法有幾個嚴重缺陷：它需要額外訓練一個"雙向生成的老師模型"（能看到前后文的模型），然后再把這個老師的知識蒸餾到單向的流式模型里，整個流程包含四個階段，非常繁瑣；而且老師模型的能力上限決定了學生模型的上限，一旦老師不夠好，學生再努力也白搭；此外，由于老師模型限制，訓練時的視頻長度被鎖定在固定的幾秒鐘內，無法處理更長的序列。

Mutual Forcing的做法截然不同。它的核心思路是：用同一套參數同時支持兩種工作模式——"多步模式"（Multi-step Mode）和"少步模式"（Few-step Mode）。

多步模式就是傳統的精細生成：像一個細心的畫家，一筆一筆慢慢雕琢，每一步只走一小段，走很多步才完成一張畫。這種方式質量最高，但速度慢。少步模式則是像一個經驗豐富的素描家，寥寥幾筆就能勾勒出傳神的輪廓，四步或八步就完成整個生成過程。

關鍵在于這兩種模式用的是完全相同的一套參數，就像同一個廚師既會慢燉又會快炒，技巧是通用的，只是操作節奏不同。在數學形式上，多步模式輸出的是一個瞬時速度向量（告訴模型下一小步怎么走），而少步模式輸出的是一個時間區間內的平均速度（告訴模型一大步怎么跳）。

五、兩種模式如何互相"喂養"：自我進化的雙向循環

Mutual Forcing真正精妙的地方在于這兩種模式的訓練方式是相互依存的，形成了一個自我強化的閉環。

在訓練多步模式時，研究團隊做了一個關鍵改變：不再用真實的歷史幀作為輸入，而是先調用少步模式快速生成歷史幀，再把這些"自己生成的"歷史幀作為上下文來訓練多步模式的下一幀預測。這就讓模型在訓練時就已經習慣了處理自己生成的內容，實際推理時就不會因為"食材不同"而表現失常。這個目標被稱為"訓練-推理一致性"。

在訓練少步模式時，研究團隊用多步模式的輸出作為"老師"，通過一種叫做"自蒸餾"（self-distillation）的技術來讓少步模式學習：少步模式生成一個結果，多步模式對同樣的輸入給出一個更精準的答案（但梯度被截斷，不影響多步模式自身的更新），少步模式通過縮小與多步模式答案之間的差距來提升自己。這就像一個快速素描家在向細心畫家看齊，不斷打磨自己寥寥數筆的精準度。

由于兩種模式共享參數，這兩個訓練過程是緊密耦合的：多步模式越來越強，就能給少步模式提供更好的蒸餾目標；少步模式越來越準，就能給多步模式提供更真實的歷史上下文。兩者相互促進，持續進步，這正是"Mutual Forcing"（相互強迫）名字的由來。

對比之前的Self-Forcing方法，Mutual Forcing的優勢在多個維度上都很明顯：不需要額外訓練一個單獨的老師模型（節省了大量計算資源）；老師是自己的多步模式，隨訓練持續提升，不存在固定老師帶來的上限問題；訓練序列長度可以靈活設置，不被鎖定在特定秒數內；整個流程只需要兩個階段（因果預訓練加上雙模自進化），而不是四個階段。

六、具體怎么實現"少步"：混合蒸餾策略

在少步模式的具體訓練中，研究團隊還做了一個細致的設計選擇。他們注意到兩種常見的蒸餾方法各有短板：ShortCut風格的蒸餾訓練穩定，但在步數壓縮到極致（比如只有4步）時質量明顯下降；DMD風格的蒸餾（分布匹配蒸餾）在少步條件下質量更好，但訓練過程容易不穩定，對大規模音視頻模型尤其危險。

于是他們采用了一個混合策略：將兩種蒸餾損失按照一定比例結合在一起，具體是DMD損失占三分之一、ShortCut損失占三分之二。這樣既借助了ShortCut的訓練穩定性，又保留了DMD在少步生成上的質量優勢，二者取長補短。

在技術細節上，少步模式的訓練以時間區間為單位：給定一個從較高噪聲水平到較低噪聲水平的時間區間，模型需要預測這個區間內的平均速度，從而可以用一步更新代替多步迭代。老師信號來自多步模式在重新加噪的學生預測上進行的推理（帶有梯度截斷），假模型則負責追蹤當前少步分布的行為，用于DMD損失的計算。

七、位置編碼：確保音頻和視頻在時間軸上精確對齊

除了核心的雙模自進化機制，論文還特別設計了一套專門用于多模態流式生成的位置編碼方案。

研究團隊采用了一種三維旋轉位置編碼（3D RoPE），將每個token的位置信息分解為時間、高度和寬度三個維度。視頻token的三個維度都有實際含義，而音頻和文本token則將高度和寬度維度設為零，只保留時間維度。所有位置索引都基于對應內容的實際時間戳計算，而非簡單的順序編號。這樣做確保了不管是視頻幀、音頻片段還是文字描述，它們在時間軸上的位置對應關系是精確且一致的，為音畫同步提供了底層保障。

模型還支持三種控制信號的組合輸入：第一幀的圖像條件（決定視頻的初始狀態和人物外觀）、描述整體場景的全局文字提示（由Gemini 2.5 Pro自動生成）、以及帶時間戳的流式ASR控制信號（由Whisper生成，精確指定每段語音的內容和時機）。這種設計讓用戶可以在生成長視頻時，通過文字精確控制說話人在每個時間段說什么話，實現細粒度的內容控制。

八、實驗結果：快25倍，質量還更好

論文在多個維度上進行了量化評估，對比對象包括音頻驅動的視頻生成方法（Fantasy-Talking、Omni-Avatar、Wan-S2V）和音視頻聯合生成方法（Universe-1、OVI）。

評估指標涵蓋三個層面。在音視頻對齊方面，使用SyncNet置信分數來衡量唇形同步質量。在視頻質量方面，評估運動分數、美學分數和身份一致性。在音頻質量方面，評估CLAP特征的分布距離（FD和KL散度）、AudioBox美學評分（包括感知質量、內容效果、內容獨特性等子項），以及通過詞錯誤率衡量的語音識別準確度。

結果顯示，Mutual Forcing在使用4步或8步去噪的情況下，在絕大多數關鍵指標上超過了需要100步去噪的對比方法。以唇形同步分數為例，8步的Mutual Forcing達到6.35，高于OVI的6.19；詞錯誤率（越低越好）為0.11，遠低于OVI的0.17；音頻質量的內容獨特性評分為6.51，也優于OVI的5.69。這意味著在生成效果上的優勢不是以犧牲質量換速度，而是真的在質量和速度兩個維度同時領先。

推理速度方面，對比數據更加直觀。Universe-1需要4塊GPU才能達到每秒0.6幀，OVI需要8塊GPU才能達到每秒1.3幀，而Mutual Forcing在單塊GPU上就能達到：192×336分辨率下每秒30幀（實時生成），480×768分辨率下每秒12幀，704×1280分辨率下每秒3.5幀。這不僅僅是速度的提升，更是對算力需求的根本性降低——從需要多塊高端GPU，到普通單塊GPU即可運行。

此外，研究團隊還進行了人類評估實驗，收集了106份有效問卷，讓參與者在盲審條件下比較不同方法的輸出。Mutual Forcing在視覺偏好、音頻對齊和整體質量三個維度上均獲得了最高勝率，對比Universe-1時勝率高達91.7%，對比OVI時也穩定在56.5%到67.4%之間。

九、越跑越穩：長視頻不崩的秘訣

研究團隊還專門針對長序列生成進行了對比實驗，評估各方法在0到5秒、5到15秒、15到25秒三個時間窗口內的質量變化。這個實驗設計的目的是看各方法在長時間運行后質量是否會急劇下降。

對比基線包括三種：用Teacher Forcing訓練的DMD蒸餾模型、用Teacher Forcing訓練的ShortCut蒸餾模型，以及用Self-Forcing訓練的DMD蒸餾模型。實驗結果清晰地展示了"越跑越偏"問題的嚴重性：這三種基線方法在音頻和視頻質量上都隨時間窗口的推移出現了明顯的下滑，有些指標在第三個時間窗口里幾乎跌落到初始水平的一半。

相比之下，Mutual Forcing的各項指標在三個時間窗口里幾乎保持水平不變——音頻內容獨特性維持在5.70到5.41之間，視頻美學分數穩定在0.46，身份一致性也從0.85輕微降至0.85。這種穩定性來自于訓練過程中的自我進化機制：由于少步模式在訓練時就不斷生成歷史上下文，模型已經充分練習了在處理自己的"次品"輸入時如何保持高質量輸出，因此在實際推理時，誤差積累效應被大幅抑制。

值得一提的是，Mutual Forcing的訓練并沒有專門使用25秒長的序列，但它依然能夠在25秒的長視頻生成任務上表現穩定，說明這種雙模自進化機制學到的是一種本質性的穩定策略，而不僅僅是對特定長度的記憶。

十、注意力分析：數學層面的直覺驗證

為了從更底層的角度理解為什么Mutual Forcing有效，研究團隊還分析了模型內部的注意力機制行為。

首先，他們對比了多步模式和少步模式在各個網絡層上的注意力圖相似度。結果發現，兩種模式的注意力圖在所有層上的余弦相似度都超過了97%。這說明共享參數的設計確實讓兩種模式學到了高度一致的內部表示，少步模式在"快速素描"時用的思維邏輯與多步模式"精細描繪"時幾乎完全一致，這正是自我蒸餾能夠成功的基礎。

其次，他們對比了Mutual Forcing和原始Teacher Forcing模型在處理第10秒內容時的歷史幀注意力分布。原始Teacher Forcing模型會把大量注意力集中在少數幾幀歷史幀上，一旦這幾幀出現誤差，影響會被急劇放大。而Mutual Forcing訓練出的模型則把注意力更均勻地分布在更長的歷史區間內，不依賴于某幾個關鍵幀，從而天然地具備了更強的魯棒性，能夠應對歷史幀中偶發的質量波動。

歸根結底，Mutual Forcing為聯合音視頻流式生成這個難題提供了一個簡潔而有效的解法：不需要復雜的多階段蒸餾流程，不需要額外的固定老師模型，只需要讓同一個模型的兩種工作模式互相學習、互相提升，就能同時解決速度和質量隨時間退化這兩大核心挑戰。當然，這項研究也存在一些客觀局限：訓練數據的規模和多樣性受限于研究資源，對于多人對話或第一人稱視角等場景的覆蓋還不夠充分；而在更高分辨率下的實時生成也仍是未來需要繼續優化的方向，包括對長序列進行上下文壓縮以及進一步減少采樣步驟等。有興趣深入了解技術細節的讀者，可以通過arXiv編號2604.25819查閱完整論文原文。

Q&A

Q1：Mutual Forcing的"少步生成"是怎么做到只用4到8步就生成高質量視頻的？

A：Mutual Forcing通過訓練模型同時掌握兩種模式：多步模式像畫家細細描繪，少步模式則預測一大段時間內的平均速度，從而用一步跨過多步的距離。少步模式通過自蒸餾不斷向多步模式的高質量輸出看齊，同時混合了ShortCut（訓練穩定）和DMD（少步質量強）兩種損失函數，最終實現了4到8步完成生成而不損失質量的效果。

Q2：Mutual Forcing和Self-Forcing有什么本質區別？

A：Self-Forcing需要先單獨訓練一個雙向老師模型，再經歷多階段蒸餾才能得到流式生成模型，訓練時序列長度被鎖定，且模型能力上限受制于老師。Mutual Forcing直接從因果模型出發，用共享參數的兩種模式互相訓練，多步模式持續改進后自動為少步模式提供更好的蒸餾目標，無需外部老師，訓練長度也更靈活。

Q3：Mutual Forcing生成的長視頻為什么不會越來越差？

A：因為Mutual Forcing在訓練時就讓模型處理自己生成的歷史幀，而不是真實幀。這使模型從一開始就習慣了自身誤差存在的環境，學會了在不完美的歷史輸入下依然維持高質量輸出。實驗中，即使在未曾訓練過的25秒長視頻上，三個時間窗口內的音頻和視頻質量幾乎沒有下降。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.