![]()
這項研究由香港科技大學、浙江大學、新加坡國立大學、香港中文大學、北京大學及多位獨立研究員聯合完成,論文以預印本形式于2026年4月26日發布,論文編號為arXiv:2604.23586,有興趣深入了解的讀者可通過此編號查詢完整論文。
當你看到一段視頻里,一個人在說話,嘴唇的動作和聲音完美對上,你有沒有想過,這背后的技術有多難?更進一步說,如果要讓一臺電腦從零開始,只給它一段文字,它就能同時生成一個人說話的聲音和臉部視頻,讓兩者天衣無縫地配合,這個挑戰幾乎像是要讓機器同時學會"唱歌"和"跳舞",還得讓兩者完全同步。這正是這篇論文所要攻克的核心難題。
研究團隊構建了一個名為**Talker-T2AV**的系統,它的目標是:給定一段文字,系統能自動生成一段對應的說話人視頻,包含同步的語音和面部動作,就像一個AI數字分身在替你"讀稿子"。這類技術在數字人播報、影視配音、虛擬助手、語言學習等領域都有巨大潛力。
一、問題的根源:為什么讓聲音和視頻"同步生成"這么難?
在深入了解這套系統之前,有必要先理解這件事難在哪里。
目前業界主流的商業系統,比如OpenAI的Sora 2、Google DeepMind的Veo 3、快手的Kling 3以及字節跳動的Seedance 2.0,都已經能夠生成音視頻同步的內容。但這些系統的內部實現細節并未對外公開。學術界和開源社區探索出的主流方案,是一種叫做"雙分支擴散變換器"(dual-DiT)的架構,簡單來說就是:搭建兩條并行的生成流水線,一條專門生成視頻,一條專門生成音頻,兩條流水線通過一種叫"交叉注意力"的機制時刻互相"對話",彼此影響。代表性的系統包括MOVA、Ovi和LTX-2等。
這種方法有一個明顯的成就:和"先生成音頻,再根據音頻生成視頻"這種串聯流程(俗稱"級聯管線")相比,雙分支同步生成的音視頻更加協調自然。然而,研究團隊發現,這種方案對于專門生成"說話人視頻"這個任務來說,其實存在兩個結構性缺陷。
第一個缺陷是"過度糾纏"。雙分支系統在整個生成過程的每一步都讓音頻和視頻互相干擾,從高層的語義規劃(比如"這句話要說什么內容")到底層的信號細節(比如"每一幀的像素顏色"),兩者全程耦合在一起。研究團隊認為這是一種浪費:音頻的聲學波形和視頻的視覺紋理,其實是兩種本質上不同的渲染過程,強行讓它們在底層也互相影響,反而會造成不必要的干擾,降低生成效率和質量。
可以用一個生活比喻來理解:作曲家和舞臺設計師在創作一部歌劇時,他們確實需要在"劇情走向"和"情感基調"這些高層面上充分溝通,但在具體寫樂譜和繪制布景時,兩人完全可以各自獨立操作,甚至不應該互相干擾——畢竟一個在處理音符,另一個在處理色彩,強行讓他們每下一筆都要互相確認,反而會打亂各自的創作節奏。
第二個缺陷是"固定時長"。雙分支擴散模型天然是非自回歸的——也就是說,它在開始生成之前,就必須先確定要生成多長的內容(比如固定5秒鐘)。如果輸入的文字內容比較多,5秒鐘根本說不完,模型就只能被迫加快語速、截斷內容,或者跳過某些詞語。這會嚴重損害生成語音的清晰度和自然度。
正是針對這兩個問題,研究團隊提出了一套全新的解決方案。
二、核心思路:用"作曲家+演奏家"的分工來重構生成流程
Talker-T2AV的核心設計理念,可以用一個樂團的工作方式來理解。
樂團總指揮負責在高層面協調所有人:這段音樂要表達什么情感,節奏應該怎么走,各種樂器應該如何配合。但具體到小提琴手該如何運弓、鋼琴手該如何擊鍵,總指揮并不會介入——這些是各自樂手根據自己的專業技能去獨立完成的細節工作。
Talker-T2AV的架構正是遵循了這個邏輯:高層的跨模態協調(音頻和視頻在語義和節奏層面的配合)由一個共享的"自回歸骨干網絡"負責,而底層的各自渲染(如何將高層指令轉化為具體的聲音波形和視頻幀)則交給兩個獨立的"擴散變換器解碼頭"分別完成。
這套架構分為兩個階段。第一階段叫做"跨模態建模",由一個共享的自回歸語言模型來完成。所謂"自回歸",通俗地說就是"一步一步往后生成,每一步都參考前面已經生成的內容"——就像你在說話時,每說下一個詞都會參考前面說過的話。第二階段叫做"模態特定精化",由兩個獨立的輕量級擴散變換器分別將語言模型的隱藏狀態解碼成實際的音頻幀和視頻幀。
三、技術實現的精妙之處:如何讓音頻和視頻在同一個序列里"并肩行走"
在技術實現層面,研究團隊面臨的第一個挑戰是:音頻本來是一維的時間序列,而視頻傳統上是三維的(時間×高度×寬度)。要把兩者放進同一個語言模型里處理,就需要一種統一的表示方式。
研究團隊的解決方案是:精心選擇特征提取器,確保音頻和視頻都被轉化為純粹的時間序列,并且幀率完全相同——都是每秒25幀。
對于視頻,他們采用了一個叫做LIA-X的自監督人像自編碼器。LIA-X的工作原理是:給定一張參考人臉圖像和一個驅動幀,它能把每一幀的面部動作編碼成一個40維的向量。也就是說,視頻的每一幀都被壓縮成一個40個數字的"面部運動密碼",以每秒25幀的速率形成時間序列。
對于音頻,研究團隊專門設計并訓練了一個叫做WhisperX-VAE的音頻自編碼器。這個編碼器借鑒了語音識別領域知名的Whisper Large-v3模型的語義特征,同時結合了音頻壓縮領域成熟的DAC(Descript Audio Codec)的卷積骨干架構,將音頻波形壓縮成每幀32維的連續向量,同樣以25Hz的幀率輸出。這樣一來,音頻的第t幀和視頻的第t幀就天然對應同一個物理時刻,不需要任何額外的對齊操作。
有了這兩個對齊的時間序列,研究團隊采用了一種叫"逐元素相加"(element-wise summation)的方式,在語言模型的每個時間位置,把音頻的嵌入向量和視頻的嵌入向量直接加在一起,形成一個聯合的"音視頻補丁令牌"。這就像把兩張透明膠片疊放在一起——既保留了各自的信息,又形成了一個統一的表示。
接下來,這些聯合令牌和文本令牌一起被送入自回歸骨干網絡。文本令牌排在序列最前面作為"前綴"(相當于給系統一個總體指令),之后是逐個時刻的聯合音視頻令牌。網絡以從左到右的方式依次生成每個時刻的隱藏狀態,每一步都參考之前所有已生成的內容。
為了降低計算開銷,研究團隊還引入了"補丁變換器編碼器"。這個組件把每連續P幀(實際設置中P=4)壓縮成一個單一的補丁令牌,相當于把4幀的信息打包成一個"快遞包裹",這樣序列長度縮短為原來的四分之一,顯著加快了訓練和推理速度。
四、語言模型輸出的隱藏狀態,如何變成實際的聲音和視頻
自回歸骨干網絡在每個時間位置生成的隱藏狀態,可以理解為一種"高層語義指令":這個時刻大概要說什么音節,臉上應該呈現什么表情,音視頻應該如何協調。這些指令是共享的,同時被送給音頻頭和視頻頭。
每個擴散變換器頭(一個負責音頻,一個負責視頻)的工作原理類似于"細節填充藝術家":它接收高層指令,同時還參考四類信息——當前時刻的語義錨點(骨干網絡輸出的隱藏狀態加上擴散步驟的時間嵌入)、全局身份信息(音頻頭使用說話人嵌入,視頻頭使用第一幀的運動向量以保持人物一致性)、前一個補丁的歷史幀(提供短期連續性線索,確保前后幀平滑過渡)、以及當前需要去噪的噪聲目標。
訓練過程中,兩個擴散頭使用了一種叫做"最優傳輸條件流匹配"(OT-CFM)的目標函數,這是近年來擴散模型領域的主流技術之一。同時還引入了"無分類器引導"(CFG)機制,訓練時隨機丟棄骨干網絡的隱藏狀態,推理時通過調整引導強度來平衡生成質量和多樣性。
此外,骨干網絡末端還附加了一個"停止預測器"——一個簡單的多層感知機,每生成一步就預測當前是否應該停止。這使得系統能夠根據文本內容自動決定生成時長,徹底解決了雙分支擴散模型必須預設固定時長的問題。
五、一個模型,三種用法:相加設計帶來的意外之喜
逐元素相加的設計不僅僅是一種技術選擇,它還帶來了一個非常實用的副產品:同一套模型架構,無需任何修改或額外微調,就能完成三種不同的任務。
第一種是"文字生成音視頻"(T2AV):給定文字,同時生成對應的語音和面部視頻。這是系統的主要設計目標。
第二種是"音頻驅動說話頭"(A2V):給定一段已有的語音,生成對應的唇形同步面部視頻。實現方式是:把已有音頻的真實嵌入向量送入骨干網絡,而視頻部分則自回歸地預測。
第三種是"視頻配音"(Video Dubbing):給定一段無聲的說話人視頻和文字腳本,生成匹配的語音。實現方式是:把視頻的真實運動嵌入向量送入骨干網絡,而音頻部分則自回歸地預測。
這種統一性在實際部署中意味著極大的便利:不需要為每種任務維護一套獨立的模型。
六、訓練策略:借助大量純音頻數據來彌補數據不足
高質量的音視頻配對數據遠比純音頻數據稀缺。研究團隊收集了大約100萬個說話人音視頻片段,經過人臉檢測、質量評分和轉錄等多階段過濾流程,用于音視頻聯合生成任務。
但僅靠這100萬條數據訓練,模型的語音清晰度會受到限制。為此,研究團隊設計了一套混合任務訓練機制:每個訓練樣本都攜帶一個可學習的任務標簽嵌入,區分是"純文字轉語音(TTS)"任務還是"文字轉音視頻(T2AV)"任務。對于TTS樣本,視頻分支的輸入替換為可學習的填充嵌入,視頻損失歸零。這樣就可以把規模更大的語音數據集(比如Emilia數據集,與對比方法UniAVGen使用的相同)混入訓練,讓骨干網絡和語音擴散頭見到更多樣的文字-發音對,從而顯著降低生成語音的錯誤率,同時還間接提升了視頻的唇形精準度——因為骨干網絡對文字到發音的映射更準確,自然也給視頻擴散頭提供了更精確的音素線索。
骨干網絡初始化自Qwen3-0.6B,一個輕量級的語言模型。整個系統端到端訓練20萬步,全局批次大小256,使用AdamW優化器,bfloat16混合精度,學習率1×10??。
七、實驗結果:在三項任務上與專用系統相比如何
研究團隊在中文和英文兩個測試集上(各200段視頻)進行了全面評測。中文測試集來自DH-FaceVid-1K數據集,英文測試集來自HDTF和Hallo3數據集。
在"文字生成音視頻"任務上,研究團隊將Talker-T2AV與五個基于雙分支擴散變換器的系統對比:MoVA、Ovi、LTX-2、UniVerse-1(這四個是通用音視頻生成系統),以及專門針對說話頭生成的UniAVGen。評測指標涵蓋音頻質量(中文用字符錯誤率CER,英文用詞錯誤率WER,自然度用UTMOS評分衡量)、視頻質量(FID和FVD衡量生成幀的分布逼真度)、以及音視頻同步性(使用SyncNet協議,報告置信度C和最小距離D,置信度越高、距離越小代表嘴唇和聲音對齊越緊密)。
結果表明,Talker-T2AV在中文測試集上取得了最低的CER(0.148,相比最強基線UniAVGen的0.265大幅降低),在英文測試集上取得了最低的WER(0.055,相比UniAVGen的0.302下降幅度極為顯著)。在視頻質量方面,FVD指標在中英文測試集上均大幅優于所有基線(中文103.31對比最強基線157.92,英文246.39對比最強基線298.27)。在音視頻同步性方面,SyncNet置信度在中英文上分別達到5.470和6.330,均顯著高于所有對比系統,同步距離也是所有方法中最小的。
研究團隊將語音錯誤率大幅降低歸結為兩個互補的原因:其一,獨立的音頻擴散頭避免了音頻生成受到視頻特征的干擾,專注于語言內容的忠實還原;其二,自回歸設計天然支持可變長度輸出,消除了雙分支固定時長導致的內容截斷和加速問題。
在"音頻驅動說話頭"任務上,Talker-T2AV與FLOAT、EchoMimic、Sonic、Ditto、AniPortrait五個專用系統對比。盡管這并非Talker-T2AV的主要設計目標,系統在FID和FVD上均達到第一或第二名,SyncNet置信度在中英文測試集上均排名第一。這說明聯合音視頻訓練中學到的跨模態對應關系,在音頻輸入條件下依然有效遷移。
在"視頻配音"任務上,使用Chem基準測試(一個記錄化學老師講課的視頻配音數據集),與Speak2Dub、StyleDubber、DeepDubber、ProDubber、InstructDub(當時的最新最強系統)對比。Talker-T2AV在四項指標中的三項——情感相似度EMO-SIM、詞錯誤率WER和自然度UTMOS——均取得最佳成績,僅在時長距離DD上以極小差距位列第二。WER從InstructDub的12.60%大幅降至6.33%,說明生成語音的可懂度有顯著提升。
八、消融實驗:為什么選擇"相加"而不是"交錯"或"延遲"
研究團隊還做了一系列對照實驗,專門比較在自回歸序列中,音頻和視頻令牌應該如何排列。
"音頻先、視頻后交錯排列"(A-V交錯)的效果與相加設計基本相當,兩者在各項指標上互有優劣,沒有一方持續占優。但A-V交錯有兩個明顯缺陷:序列長度翻倍導致推理速度變慢,而且固定了音頻在前的順序,使得視頻配音任務(需要視頻在前)無法實現。"視頻先、音頻后交錯排列"(V-A交錯)則更差——音頻質量略有下降,視頻質量和同步性都出現顯著劣化。研究團隊認為這是因為文字到發音的映射主要靠大規模TTS數據學習,把視頻令牌排在音頻前面,會使視頻生成缺乏同時的語音上下文錨定,導致面部動作缺乏準確的語音指導。
"延遲排列"(視頻令牌落后音頻令牌若干步)的實驗揭示了一個有趣的反轉規律。在聯合生成任務(T2AV)中,無論延遲1步還是3步,各項指標都出現顯著下降,延遲3步的下降幅度遠大于延遲1步,WER幾乎翻倍。這說明聯合生成中兩種模態必須同步規劃,延遲會破壞相互之間的語義一致性。然而,在音頻驅動任務(A2V)中,趨勢完全反轉:延遲3步的效果反而優于延遲1步,延遲3步的同步性甚至超過了T2AV模型。這是因為當音頻已知時,讓視頻分支多"看"幾幀的音頻歷史再生成當前幀,可以獲得更豐富的音頻上下文,類似于傳統級聯系統的因果結構。這兩組相反的結果清晰地說明:最優的令牌排列方式是任務相關的,對于文字驅動的聯合生成,兩種模態必須同時規劃,逐元素相加是正確選擇。
九、系統的局限與未來空間
研究團隊也坦誠地指出了當前系統的兩個主要局限。第一,自回歸骨干網絡在連續潛在空間而非離散令牌空間中運行,這意味著每步的預測誤差更容易在長序列中積累傳播,導致長時長生成的質量逐漸下降。第二,視頻質量的上限受制于LIA-X視頻運動自編碼器的能力,采用表達能力更強的視覺表示將有望進一步提升輸出質量。此外,研究團隊也預期隨著訓練數據規模的擴大,系統性能還有繼續提升的空間。
說到底,Talker-T2AV這項工作的貢獻不只是提出了一個新系統,更是提供了一種新的設計哲學:跨模態的協調應該發生在高層語義規劃階段,而不應該在底層渲染的每一步都互相干擾。這一原則對于未來更多模態的聯合生成任務,或許都有參考價值。對于普通用戶而言,這意味著未來的數字人播報、AI配音、虛擬主播等應用,有望在語音清晰度、面部自然度和音視頻同步性上同時達到更高水準,而且一套模型就能搞定多種場景需求,無需為每種用途單獨訓練系統。
如果你對技術細節有進一步興趣,可以通過arXiv編號2604.23586找到完整論文,項目代碼和預訓練模型權重也在持續開放中。
Q&A
Q1:Talker-T2AV和雙分支擴散變換器(dual-DiT)有什么本質區別?
A:雙分支擴散變換器在整個生成過程的每一步都讓音頻和視頻互相注意、互相影響,從高層語義到底層像素全程耦合。Talker-T2AV則把這個過程拆分開來:只在高層的自回歸骨干網絡階段讓兩種模態共同規劃,底層的具體渲染則由獨立的音頻頭和視頻頭各自完成,避免了不必要的底層干擾。此外,雙分支系統生成長度固定,Talker-T2AV通過自回歸設計支持任意長度輸出。
Q2:WhisperX-VAE音頻編碼器為什么要專門設計,不用現成的音頻編解碼器?
A:現有的離散音頻編解碼器(如EnCodec、Mimi)輸出的是離散令牌,不適合連續潛在空間的自回歸擴散預測。現有的連續音頻表示(如Mel頻譜圖)幀率和維度與視頻不匹配,難以逐幀對齊。WhisperX-VAE專門設計為25Hz、32維連續向量,與視頻的25Hz幀率完全一致,同時融合了Whisper語義特征,確保潛在空間保留語言內容信息。
Q3:Talker-T2AV的逐元素相加設計如何做到一個模型支持三種任務?
A:逐元素相加意味著音視頻信息在骨干網絡每個位置被合并為一個聯合向量。推理時,若某種模態已知(如音頻驅動任務中的語音),就直接把該模態的真實嵌入向量輸入骨干網絡,而讓另一個模態(視頻)被自回歸地預測,只激活對應的擴散頭進行解碼。整個架構無需任何結構改動或額外微調,通過控制哪個模態使用真實輸入、哪個模態使用預測輸入,即可在三種任務之間無縫切換。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.