<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      Hallo-Live 讓文本驅動音視頻數字人邁入實時流式生成

      0
      分享至



      本文第一作者李淳譽為復旦大學博士生,主要研究方向為視頻生成擴散模型;復旦大學碩士生李佳燁為共同一作。復旦大學教授,上海創智學院全時導師朱思語為通訊作者。

      文本驅動的音視頻數字人,正在從 “能生成” 走向 “能實時交互”。但這條路并不好走。一方面,視頻和語音的聯合生成本身就是高維、重計算任務;另一方面,一旦為了速度做激進加速,嘴型同步、語音自然度和人物細節往往會一起下滑。

      最近,來自上海創智學院、復旦大學等機構的研究者提出了Hallo-Live,試圖正面解決這個矛盾。論文于2026 年 4 月 26 日發布在 arXiv。該方法將 異步雙流擴散(Asynchronous Dual-Stream Diffusion) 與人類偏好引導蒸餾(Human-Centric Preference-Guided DMD)結合起來,在兩張 NVIDIA H200 GPU 上實現了20.38 FPS的吞吐與0.94 秒的端到端延遲;相較教師模型 Ovi,吞吐提升16.0 倍,延遲下降99.3%,同時仍保持接近教師模型的視覺質量和音畫同步效果。



      • 論文標題:Hallo-Live: Real-Time Streaming Joint Audio-Video Avatar Generation with Asynchronous Dual-Stream and Human-Centric Preference Distillation
      • 論文鏈接:https://arxiv.org/abs/2604.23632
      • 代碼地址:https://github.com/fudan-generative-vision/Hallo-Live

      此 demo 展示了 Hallo-Live 在動漫風格、寫實人物和 Multi-speaker 場景下的實時文本驅動音視頻生成效果。

      為什么實時音視頻生成這么難?

      和傳統的音頻驅動數字人不同,文本驅動音視頻生成要同時完成兩件事:先 “理解” 文本里的人物、場景、語氣和聲學環境,再同步生成對應的說話視頻與語音。這意味著模型不僅要保證畫面質量和語音自然度,還要把嘴型、發音、表情甚至上半身動作卡在同一個時間軸上。

      已有工作里,Ovi 等雙流擴散模型已經證明,音頻流和視頻流分開建模、再做跨模態融合,是一條有效路線。但問題在于,這類模型通常更偏向離線高質量生成,離實時交互還有明顯距離。作者指出,真正把它改造成流式系統時,會遇到兩個核心瓶頸:

      • 嚴格因果的塊級注意力看不到 “短時未來” 語音信息。但真實說話中,嘴唇動作往往會先于聲音到來,存在明顯的協同發音現象。
      • 少步蒸餾雖然能提速,但容易帶來 “均值化” 退化。結果就是視頻紋理變糊、語音更機械、音畫對齊也更容易漂移。

      Hallo-Live 整體框架

      Hallo-Live 包含兩個訓練階段。Stage 1 是Dual-Stream ODE Init:模型同時輸入不同 noise level 的音視頻 blocks,基于單模態和跨模態的 Block-Causal Mask 訓練雙流 DiT,使訓練階段的可見性約束和流式推理保持一致。Stage 2 是Self-Rollout + Dual-Stream DMD:學生模型基于音視頻 KV Cache 自回歸生成完整音視頻,再引入音頻、視頻和音視頻同步相關的 reward,對雙流 DMD 損失進行加權,從而把教師模型蒸餾為 few-step 模型。



      Causal Fusion Block則是 Hallo-Live 雙流 DiT 的核心單元:視頻流和音頻流先分別做單模態 Block-Causal Self-Attention,再注入文本條件,隨后通過跨模態 Block-Causal Cross-Attention 交換信息,在流式生成下完成音視頻融合。其中,視頻到音頻的注意力使用 Future-Expanding Block-Causal Mask,讓當前視頻塊能夠看到少量未來音頻上下文。



      關鍵技術 1:

      Future-Expanding Attention

      論文第一個創新設計,是Future-Expanding Attention。作者觀察到,如果視頻流只能看到當前和過去的音頻塊,那么模型很難做出自然的提前張口、閉口、唇齒過渡等動作。于是,他們把視頻到音頻的跨模態注意力做成 “非對稱” 的:視頻仍然聚焦當前塊,但音頻鍵值范圍會額外向前擴一小段 look-ahead 窗口。

      這相當于給視頻流一個短時的 “預讀區”。重要的是,這個未來音頻塊并不是最終輸出,而是一個臨時的、可被下一步覆蓋的過渡塊,因此不會損失最終生成的音頻質量。



      從直覺上看,Strict Block-Causal Attention 只能看當前音頻,而 Future-Expanding Attention 允許視頻塊訪問少量未來音頻,從而改善口型同步效果。

      關鍵技術 2:

      把 “偏好” 直接蒸餾進學生模型

      如果說 Future-Expanding Attention 解決的是 “看不見未來語音” 的問題,那么HP-DMD解決的則是 “加速以后為什么會變丑、變僵、變不同步”。

      作者的做法是把蒸餾目標從單純模仿教師分布,轉向 “獎勵加權后的教師分布”。其中:

      • VideoAlign負責衡量視頻美學與文本 / 畫面對齊
      • SyncNet負責衡量唇形與語音是否同步
      • AudioBox負責衡量語音自然度與聲學質量

      如果用更接近 RL / reward optimization 的語言來寫,Hallo-Live 的核心不是直接做 policy gradient,而是先給學生模型生成的樣本打分,再把這些 reward 通過指數重加權注入蒸餾目標。從分布視角看,它等價于不再單純擬合教師分布 p_T,而是去擬合一個被 reward 傾斜過的新目標分布:

      直觀理解,這套寫法更像 “reward-weighted distillation” 而不是傳統強化學習里的策略梯度更新:模型并不直接對動作概率做 RL 優化,而是通過 reward 重新塑形 student 要逼近的目標分布。

      結果如何?

      速度幾乎 “斷層領先”,質量接近重型教師模型

      從主要結果來看,Hallo-Live 最突出的優勢就是把文本到音視頻生成首次真正推入了實時區間。



      從指標結果來看:

      • 速度:Hallo-Live 達到20.38 FPS0.94 秒延遲,明顯快于 Ovi、LTX-2、JavisDiT 和 UniVerse-1 等方法。
      • 質量:在VideoAlign Overall(2.32)Sync-C(4.72)以及人類保真度(0.90 / 0.98 / 0.92)等指標上,Hallo-Live 整體接近 Ovi 和 LTX-2,沒有因為提速而出現明顯失真。

      這組結果說明,Hallo-Live 并不是用極端犧牲質量去換取速度,而是在質量基本守住的前提下,把系統推到了可交互的速度等級。對于數字人直播、角色扮演和虛擬主持等場景,這一點非常關鍵。

      意義與展望

      Hallo-Live 的價值,不只是把速度做快了一點,而是提出了一種很有代表性的技術路線:在保持流式因果生成框架的前提下,完成視頻和語音的聯合生成。對數字人行業來說,提供了一種可部署、可交互、可擴展的模型形態。

      當然,論文也沒有宣稱問題已經被完全解決。比如,從指標看,Hallo-Live 在同步和語音質量上仍未全面超過最強離線或重型模型;另一方面,當前實驗平臺仍依賴兩張 NVIDIA H200,距離更低成本硬件部署還有優化空間。不過,如果把“實時文本驅動音視頻數字人”看作一個長期目標,Hallo-Live 已經給出了一份相當明確的階段性答案。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      伊朗“最大內鬼”,原來是他?

      伊朗“最大內鬼”,原來是他?

      中國新聞周刊
      2026-05-22 21:03:52
      曼聯3-0布萊頓,新賽季戰術展示:無后腰、三中場運作、邊路進攻

      曼聯3-0布萊頓,新賽季戰術展示:無后腰、三中場運作、邊路進攻

      呀古銅
      2026-05-25 01:45:57
      巴基斯坦總理:我們會取得成功,成為“小中國”

      巴基斯坦總理:我們會取得成功,成為“小中國”

      觀察者網
      2026-05-24 21:30:08
      23歲NFL新星站臺特朗普,隊友公開質疑:這是在干嘛?

      23歲NFL新星站臺特朗普,隊友公開質疑:這是在干嘛?

      自愈小日子
      2026-05-25 00:39:53
      隊記:我預計詹姆斯會和湖人續約一年,年薪3500-4500萬美元

      隊記:我預計詹姆斯會和湖人續約一年,年薪3500-4500萬美元

      懂球帝
      2026-05-25 03:44:09
      據報道,北約對烏克蘭的年度援助計劃遭到五個國家的阻撓。

      據報道,北約對烏克蘭的年度援助計劃遭到五個國家的阻撓。

      魅力烏克蘭
      2026-05-25 01:41:04
      黎家盈:三孩媽媽乘神23上天,代表香港引全港沸騰

      黎家盈:三孩媽媽乘神23上天,代表香港引全港沸騰

      一網打盡全球焦點
      2026-05-23 14:26:13
      李晨鄭愷雙雙失聲,跑男十年情斷沉默里

      李晨鄭愷雙雙失聲,跑男十年情斷沉默里

      阿廢冷眼觀察所
      2026-05-25 00:58:05
      全球有多少城市能撐得起14日游?要被網友們的評論笑死了!

      全球有多少城市能撐得起14日游?要被網友們的評論笑死了!

      另子維愛讀史
      2026-05-24 21:12:23
      嚴子怡有望兼項鉛球實現雙項目出擊 或60年后追趕一奧運奇跡腳步

      嚴子怡有望兼項鉛球實現雙項目出擊 或60年后追趕一奧運奇跡腳步

      勁爆體壇
      2026-05-24 17:46:06
      屠戮長安后,黃巢隨即暴死泰山,唐僖宗:殺光所有被他霸占的女人

      屠戮長安后,黃巢隨即暴死泰山,唐僖宗:殺光所有被他霸占的女人

      史筆似塵鉤
      2026-05-20 23:00:03
      人到中年才發現,要孩子遠比賺錢重要

      人到中年才發現,要孩子遠比賺錢重要

      加油丁小文
      2026-05-15 07:44:45
      中國人吃了幾千年的碳水,怎么就丟臉了?

      中國人吃了幾千年的碳水,怎么就丟臉了?

      人間像素
      2026-05-22 16:06:05
      歐盟外長會間隙,立陶宛女總理對著一眾記者大吐苦水。語氣激動

      歐盟外長會間隙,立陶宛女總理對著一眾記者大吐苦水。語氣激動

      叮當當科技
      2026-05-24 09:05:25
      錢再多也沒用!51歲百億影帝黃渤現狀曝光,藍盈瑩說的半點沒錯

      錢再多也沒用!51歲百億影帝黃渤現狀曝光,藍盈瑩說的半點沒錯

      孤城落日
      2026-05-25 06:08:09
      鄧肯曬全家福,一家五口很幸福,19歲兒子無緣NBA,二婚妻子很美

      鄧肯曬全家福,一家五口很幸福,19歲兒子無緣NBA,二婚妻子很美

      動物奇奇怪怪
      2026-05-24 21:56:53
      美國會照搬中國國籍做法

      美國會照搬中國國籍做法

      荊棘阿甘
      2026-05-24 16:33:34
      奧斯卡影帝這部"票房慘案"要翻身了

      奧斯卡影帝這部"票房慘案"要翻身了

      淺遇時光
      2026-05-25 01:05:10
      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      瀲滟晴方DAY
      2026-05-11 06:31:37
      這所大學破產!拖欠89家建材設備商,貨款高達3.2億元

      這所大學破產!拖欠89家建材設備商,貨款高達3.2億元

      新浪財經
      2026-05-25 01:12:58
      2026-05-25 07:15:00
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13069文章數 142652關注度
      往期回顧 全部

      科技要聞

      我戴著攝像頭上班,正在幫AI搶走我飯碗

      頭條要聞

      山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

      頭條要聞

      山西礦難遇難者家屬:父親年過半百 我們一直勸他別干了

      體育要聞

      唐斯發牌,大頭逆襲:騎士跌向殘忍夏季

      娛樂要聞

      王鶴棣掉粉超20萬!代言和作品遭抵制

      財經要聞

      什么情況下,本輪AI大行情會結束?

      汽車要聞

      國民家轎再上新 帝豪向上系列限時5.59萬起

      態度原創

      健康
      房產
      游戲
      手機
      軍事航空

      外泌體 ≠ 生長因子!它們之間究竟有何區別?

      房產要聞

      瘋狂周末,海口樓市突然爆了!

      魔獸世界:時光服團本難度爭議再起,玩家瘋狂diss,該加強嗎?

      手機要聞

      iPhone 20周年紀念款渲染圖出爐:曲面屏加持,配置規格更激進了

      軍事要聞

      深夜美伊談判傳來大消息 特朗普最新表態

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲一区二区av高清| 欧美性爱视频在线观看| 亚洲欧美视频在线播放| 精品无码久久久久久国产| 国产成人精品A视频| 国产精品国产午夜免费福利看 | caoporn国产| 固安县| 国产一区| 一本色道无码DVD色诱| 国产成人精品亚洲77美色| 日本熟妇浓毛hdsex| 青青久草| 天堂a无码a无线孕交| 玖玖365资源稳定资源站| 动漫精品专区一区二区三区| 中文字幕无码人妻| 国产喷水1区2区3区咪咪爱AV| 亚洲AV无码专区国产不卡顿| 国产精品三级中文字幕| 亚洲色最新高清AV网站| 女人av天堂激情女草| a最新版天堂资源在线| 国产欧美亚洲精品a| 亚洲成女人综合图区| 国产人与禽zoz0性伦多活几年| 自拍偷自拍亚洲一区二区| 婷婷四房色播| 亚洲日本中文字幕区| 亚洲成人小说| 亚洲AV成人片不卡无码| 精品一区二区6| 久久久久亚洲精品成人网小说| 国产高清看片日韩欧美久久| 狠狠噜天天噜日日噜无码| www.成人网| 高潮插的我好爽再干噢在线欢看| 国产成人无码精品亚洲| 日本免费有码中文字幕| 屏东市| 免费一区二区三区在线视频|