![]()
本文第一作者李淳譽為復旦大學博士生,主要研究方向為視頻生成擴散模型;復旦大學碩士生李佳燁為共同一作。復旦大學教授,上海創智學院全時導師朱思語為通訊作者。
文本驅動的音視頻數字人,正在從 “能生成” 走向 “能實時交互”。但這條路并不好走。一方面,視頻和語音的聯合生成本身就是高維、重計算任務;另一方面,一旦為了速度做激進加速,嘴型同步、語音自然度和人物細節往往會一起下滑。
最近,來自上海創智學院、復旦大學等機構的研究者提出了Hallo-Live,試圖正面解決這個矛盾。論文于2026 年 4 月 26 日發布在 arXiv。該方法將 異步雙流擴散(Asynchronous Dual-Stream Diffusion) 與人類偏好引導蒸餾(Human-Centric Preference-Guided DMD)結合起來,在兩張 NVIDIA H200 GPU 上實現了20.38 FPS的吞吐與0.94 秒的端到端延遲;相較教師模型 Ovi,吞吐提升16.0 倍,延遲下降99.3%,同時仍保持接近教師模型的視覺質量和音畫同步效果。
![]()
- 論文標題:Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
- 論文鏈接:https://arxiv.org/abs/2604.23632
- 代碼地址:https://github.com/fudan-generative-vision/Hallo-Live
此 demo 展示了 Hallo-Live 在動漫風格、寫實人物和 Multi-speaker 場景下的實時文本驅動音視頻生成效果。
為什么實時音視頻生成這么難?
和傳統的音頻驅動數字人不同,文本驅動音視頻生成要同時完成兩件事:先 “理解” 文本里的人物、場景、語氣和聲學環境,再同步生成對應的說話視頻與語音。這意味著模型不僅要保證畫面質量和語音自然度,還要把嘴型、發音、表情甚至上半身動作卡在同一個時間軸上。
已有工作里,Ovi 等雙流擴散模型已經證明,音頻流和視頻流分開建模、再做跨模態融合,是一條有效路線。但問題在于,這類模型通常更偏向離線高質量生成,離實時交互還有明顯距離。作者指出,真正把它改造成流式系統時,會遇到兩個核心瓶頸:
- 嚴格因果的塊級注意力看不到 “短時未來” 語音信息。但真實說話中,嘴唇動作往往會先于聲音到來,存在明顯的協同發音現象。
- 少步蒸餾雖然能提速,但容易帶來 “均值化” 退化。結果就是視頻紋理變糊、語音更機械、音畫對齊也更容易漂移。
Hallo-Live 整體框架
Hallo-Live 包含兩個訓練階段。Stage 1 是Dual-Stream ODE Init:模型同時輸入不同 noise level 的音視頻 blocks,基于單模態和跨模態的 Block-Causal Mask 訓練雙流 DiT,使訓練階段的可見性約束和流式推理保持一致。Stage 2 是Self-Rollout + Dual-Stream DMD:學生模型基于音視頻 KV Cache 自回歸生成完整音視頻,再引入音頻、視頻和音視頻同步相關的 reward,對雙流 DMD 損失進行加權,從而把教師模型蒸餾為 few-step 模型。
![]()
Causal Fusion Block則是 Hallo-Live 雙流 DiT 的核心單元:視頻流和音頻流先分別做單模態 Block-Causal Self-Attention,再注入文本條件,隨后通過跨模態 Block-Causal Cross-Attention 交換信息,在流式生成下完成音視頻融合。其中,視頻到音頻的注意力使用 Future-Expanding Block-Causal Mask,讓當前視頻塊能夠看到少量未來音頻上下文。
![]()
關鍵技術 1:
Future-Expanding Attention
論文第一個創新設計,是Future-Expanding Attention。作者觀察到,如果視頻流只能看到當前和過去的音頻塊,那么模型很難做出自然的提前張口、閉口、唇齒過渡等動作。于是,他們把視頻到音頻的跨模態注意力做成 “非對稱” 的:視頻仍然聚焦當前塊,但音頻鍵值范圍會額外向前擴一小段 look-ahead 窗口。
這相當于給視頻流一個短時的 “預讀區”。重要的是,這個未來音頻塊并不是最終輸出,而是一個臨時的、可被下一步覆蓋的過渡塊,因此不會損失最終生成的音頻質量。
![]()
從直覺上看,Strict Block-Causal Attention 只能看當前音頻,而 Future-Expanding Attention 允許視頻塊訪問少量未來音頻,從而改善口型同步效果。
關鍵技術 2:
把 “偏好” 直接蒸餾進學生模型
如果說 Future-Expanding Attention 解決的是 “看不見未來語音” 的問題,那么HP-DMD解決的則是 “加速以后為什么會變丑、變僵、變不同步”。
作者的做法是把蒸餾目標從單純模仿教師分布,轉向 “獎勵加權后的教師分布”。其中:
- VideoAlign負責衡量視頻美學與文本 / 畫面對齊
- SyncNet負責衡量唇形與語音是否同步
- AudioBox負責衡量語音自然度與聲學質量
如果用更接近 RL / reward optimization 的語言來寫,Hallo-Live 的核心不是直接做 policy gradient,而是先給學生模型生成的樣本打分,再把這些 reward 通過指數重加權注入蒸餾目標。從分布視角看,它等價于不再單純擬合教師分布 p_T,而是去擬合一個被 reward 傾斜過的新目標分布:
直觀理解,這套寫法更像 “reward-weighted distillation” 而不是傳統強化學習里的策略梯度更新:模型并不直接對動作概率做 RL 優化,而是通過 reward 重新塑形 student 要逼近的目標分布。
結果如何?
速度幾乎 “斷層領先”,質量接近重型教師模型
從主要結果來看,Hallo-Live 最突出的優勢就是把文本到音視頻生成首次真正推入了實時區間。
![]()
從指標結果來看:
- 速度:Hallo-Live 達到20.38 FPS0.94 秒延遲,明顯快于 Ovi、LTX-2、JavisDiT 和 UniVerse-1 等方法。
- 質量:在VideoAlign Overall(2.32)Sync-C(4.72)以及人類保真度(0.90 / 0.98 / 0.92)等指標上,Hallo-Live 整體接近 Ovi 和 LTX-2,沒有因為提速而出現明顯失真。
這組結果說明,Hallo-Live 并不是用極端犧牲質量去換取速度,而是在質量基本守住的前提下,把系統推到了可交互的速度等級。對于數字人直播、角色扮演和虛擬主持等場景,這一點非常關鍵。
意義與展望
Hallo-Live 的價值,不只是把速度做快了一點,而是提出了一種很有代表性的技術路線:在保持流式因果生成框架的前提下,完成視頻和語音的聯合生成。對數字人行業來說,提供了一種可部署、可交互、可擴展的模型形態。
當然,論文也沒有宣稱問題已經被完全解決。比如,從指標看,Hallo-Live 在同步和語音質量上仍未全面超過最強離線或重型模型;另一方面,當前實驗平臺仍依賴兩張 NVIDIA H200,距離更低成本硬件部署還有優化空間。不過,如果把“實時文本驅動音視頻數字人”看作一個長期目標,Hallo-Live 已經給出了一份相當明確的階段性答案。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.