網易首頁 > 網易號 > 正文申請入駐

Hallo-Live 讓文本驅動音視頻數字人邁入實時流式生成

2026-05-24 18:46:41　來源: 機器之心Pro

天津舉報

分享至

本文第一作者李淳譽為復旦大學博士生，主要研究方向為視頻生成擴散模型；復旦大學碩士生李佳燁為共同一作。復旦大學教授，上海創智學院全時導師朱思語為通訊作者。

文本驅動的音視頻數字人，正在從 “能生成” 走向 “能實時交互”。但這條路并不好走。一方面，視頻和語音的聯合生成本身就是高維、重計算任務；另一方面，一旦為了速度做激進加速，嘴型同步、語音自然度和人物細節往往會一起下滑。

最近，來自上海創智學院、復旦大學等機構的研究者提出了Hallo-Live，試圖正面解決這個矛盾。論文于2026 年 4 月 26 日發布在 arXiv。該方法將異步雙流擴散（Asynchronous Dual-Stream Diffusion）與人類偏好引導蒸餾（Human-Centric Preference-Guided DMD）結合起來，在兩張 NVIDIA H200 GPU 上實現了20.38 FPS的吞吐與0.94 秒的端到端延遲；相較教師模型 Ovi，吞吐提升16.0 倍，延遲下降99.3%，同時仍保持接近教師模型的視覺質量和音畫同步效果。

論文標題：Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
論文鏈接：https://arxiv.org/abs/2604.23632
代碼地址：https://github.com/fudan-generative-vision/Hallo-Live

此 demo 展示了 Hallo-Live 在動漫風格、寫實人物和 Multi-speaker 場景下的實時文本驅動音視頻生成效果。

為什么實時音視頻生成這么難？

和傳統的音頻驅動數字人不同，文本驅動音視頻生成要同時完成兩件事：先 “理解” 文本里的人物、場景、語氣和聲學環境，再同步生成對應的說話視頻與語音。這意味著模型不僅要保證畫面質量和語音自然度，還要把嘴型、發音、表情甚至上半身動作卡在同一個時間軸上。

已有工作里，Ovi 等雙流擴散模型已經證明，音頻流和視頻流分開建模、再做跨模態融合，是一條有效路線。但問題在于，這類模型通常更偏向離線高質量生成，離實時交互還有明顯距離。作者指出，真正把它改造成流式系統時，會遇到兩個核心瓶頸：

嚴格因果的塊級注意力看不到 “短時未來” 語音信息。但真實說話中，嘴唇動作往往會先于聲音到來，存在明顯的協同發音現象。
少步蒸餾雖然能提速，但容易帶來 “均值化” 退化。結果就是視頻紋理變糊、語音更機械、音畫對齊也更容易漂移。

Hallo-Live 整體框架

Hallo-Live 包含兩個訓練階段。Stage 1 是Dual-Stream ODE Init：模型同時輸入不同 noise level 的音視頻 blocks，基于單模態和跨模態的 Block-Causal Mask 訓練雙流 DiT，使訓練階段的可見性約束和流式推理保持一致。Stage 2 是Self-Rollout + Dual-Stream DMD：學生模型基于音視頻 KV Cache 自回歸生成完整音視頻，再引入音頻、視頻和音視頻同步相關的 reward，對雙流 DMD 損失進行加權，從而把教師模型蒸餾為 few-step 模型。

Causal Fusion Block則是 Hallo-Live 雙流 DiT 的核心單元：視頻流和音頻流先分別做單模態 Block-Causal Self-Attention，再注入文本條件，隨后通過跨模態 Block-Causal Cross-Attention 交換信息，在流式生成下完成音視頻融合。其中，視頻到音頻的注意力使用 Future-Expanding Block-Causal Mask，讓當前視頻塊能夠看到少量未來音頻上下文。

關鍵技術 1：

Future-Expanding Attention

論文第一個創新設計，是Future-Expanding Attention。作者觀察到，如果視頻流只能看到當前和過去的音頻塊，那么模型很難做出自然的提前張口、閉口、唇齒過渡等動作。于是，他們把視頻到音頻的跨模態注意力做成 “非對稱” 的：視頻仍然聚焦當前塊，但音頻鍵值范圍會額外向前擴一小段 look-ahead 窗口。

這相當于給視頻流一個短時的 “預讀區”。重要的是，這個未來音頻塊并不是最終輸出，而是一個臨時的、可被下一步覆蓋的過渡塊，因此不會損失最終生成的音頻質量。

從直覺上看，Strict Block-Causal Attention 只能看當前音頻，而 Future-Expanding Attention 允許視頻塊訪問少量未來音頻，從而改善口型同步效果。

關鍵技術 2：

把 “偏好” 直接蒸餾進學生模型

如果說 Future-Expanding Attention 解決的是 “看不見未來語音” 的問題，那么HP-DMD解決的則是 “加速以后為什么會變丑、變僵、變不同步”。

作者的做法是把蒸餾目標從單純模仿教師分布，轉向 “獎勵加權后的教師分布”。其中：

VideoAlign負責衡量視頻美學與文本 / 畫面對齊
SyncNet負責衡量唇形與語音是否同步
AudioBox負責衡量語音自然度與聲學質量

如果用更接近 RL / reward optimization 的語言來寫，Hallo-Live 的核心不是直接做 policy gradient，而是先給學生模型生成的樣本打分，再把這些 reward 通過指數重加權注入蒸餾目標。從分布視角看，它等價于不再單純擬合教師分布 p_T，而是去擬合一個被 reward 傾斜過的新目標分布：

直觀理解，這套寫法更像 “reward-weighted distillation” 而不是傳統強化學習里的策略梯度更新：模型并不直接對動作概率做 RL 優化，而是通過 reward 重新塑形 student 要逼近的目標分布。

結果如何？

速度幾乎 “斷層領先”，質量接近重型教師模型

從主要結果來看，Hallo-Live 最突出的優勢就是把文本到音視頻生成首次真正推入了實時區間。

從指標結果來看：

速度：Hallo-Live 達到20.38 FPS0.94 秒延遲，明顯快于 Ovi、LTX-2、JavisDiT 和 UniVerse-1 等方法。
質量：在VideoAlign Overall（2.32）Sync-C（4.72）以及人類保真度（0.90 / 0.98 / 0.92）等指標上，Hallo-Live 整體接近 Ovi 和 LTX-2，沒有因為提速而出現明顯失真。

這組結果說明，Hallo-Live 并不是用極端犧牲質量去換取速度，而是在質量基本守住的前提下，把系統推到了可交互的速度等級。對于數字人直播、角色扮演和虛擬主持等場景，這一點非常關鍵。

意義與展望

Hallo-Live 的價值，不只是把速度做快了一點，而是提出了一種很有代表性的技術路線：在保持流式因果生成框架的前提下，完成視頻和語音的聯合生成。對數字人行業來說，提供了一種可部署、可交互、可擴展的模型形態。

當然，論文也沒有宣稱問題已經被完全解決。比如，從指標看，Hallo-Live 在同步和語音質量上仍未全面超過最強離線或重型模型；另一方面，當前實驗平臺仍依賴兩張 NVIDIA H200，距離更低成本硬件部署還有優化空間。不過，如果把“實時文本驅動音視頻數字人”看作一個長期目標，Hallo-Live 已經給出了一份相當明確的階段性答案。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.