網易首頁 > 網易號 > 正文申請入駐

清華打破多模態音頻生成通才困境：Omni2Sound 音頻基礎模型開源

2026-05-08 19:32:14　來源: 機器之心Pro

天津舉報

分享至

近年來，音頻生成技術發展迅猛。隨著應用場景的復雜化，業界呈現出一個顯著趨勢：音頻生成模型正從單一條件控制走向多模態協同控制。研究者期望在一個統一的模型架構中，同時支持文本生成音頻（T2A）、視頻生成音頻（V2A）以及視頻-文本聯合生成音頻（VT2A）。

相比為每個任務獨立部署專用模型的傳統做法，統一模型能大幅降低架構冗余與部署成本，為用戶提供更為靈活的音頻生成方式。然而，隨著研究的深入，業界發現了一個極具挑戰的「通才困境」——旨在處理多任務的統一模型，在各項子任務上的性能表現，往往不及專門針對單一任務優化的專家模型。

由清華大學與 Monash University 聯合提出的 Omni2Sound，正是對這一痛點的系統性破局。該工作明確指出，通用音頻生成絕非多模態的簡單融合，而是極具難度的動態路由與博弈過程。為了真正跨越這一鴻溝，Omni2Sound 溯本清源，直接從最底層的數據語義錯位與多任務競爭難題入手進行攻克。

同時，該工作秉持 Less is More 的設計哲學，拒絕堆砌復雜的定制化網絡，僅憑一個樸素的、開箱即用的 Diffusion Transformer 骨干網絡，便成功賦予了模型跨模態的邏輯推理與動態感知能力。

憑借這些底層的范式創新，Omni2Sound 成功打破了統一模型的「通才困境」，在三大基礎音頻生成任務上均取得了優于現有專家模型的表現。更重要的是，在極具挑戰的畫外音場景及輸入文本不完整等苛刻條件下，模型展現出了強大的魯棒性與零樣本泛化能力。

目前，該工作已被CVPR 2026接收，并被評委會推薦為Highlight工作。本文涉及的技術報告、模型權重、評測基準等均已開源，旨在為后續的多模態音頻生成與通用架構研究，提供一個堅實、開源的核心基線。

論文標題：Omni2Sound: Towards Unified Video-Text-to-Audio Generation
論文地址：https://arxiv.org/pdf/2601.02731
項目主頁：https://omni2sound.github.io
代碼倉庫：https://github.com/omni2sound/Omni2Sound
模型權重：https://huggingface.co/collections/Dalision/omni2sound

Omni2Sound 在 OOD、VT2A、V2A、T2A、Off-screen Generation 上的生成效果

視頻鏈接：https://mp.weixin.qq.com/s/j4kBbh_JIus-nXwweZ7GRA

統一音頻生成模型為何會陷入「通才困境」？

業界曾樂觀地預估，既然現有的專家模型已能分別勝任單一模態的生成，例如文本生音頻和視頻生音頻，那么將它們整合，訓練出一個通用的視文聯合音頻生成模型，理應是水到渠成之事。但事實并非如此。多模態條件下的音頻生成，絕非視覺與文本特征的簡單線性疊加，而是一個極具挑戰的多模態動態協同與博弈過程。這一困境的根源，在于業界普遍低估了多模態音頻生成的內生難度。

難點一：跨模態信息的嚴重不對稱與動態路由困境

在真實的視聽世界中，視覺顯著性與聲學能量往往是不成比例的。舉個極其典型的場景：「一個正在安靜自習的學生，耳邊突然飛過一只蚊子」。在這個場景中，蚊子在視覺畫面上哪怕只占極小的一個像素點，但在音頻空間里，高頻的嗡嗡聲卻占據了絕對的能量主導。如果是純粹的視頻生音頻模型，由于視覺特征過于微弱，大概率只會生成翻書的摩擦聲或環境白噪音；此時，必須引入文本指令作為核心引導。這就要求通用模型必須具備極強的動態路由能力——它需要自主領悟出，在這個特定的瞬間，文本決定了生成什么音色，而視頻僅僅用來對齊什么時候發聲。

難點二：模態間的極端語義沖突與畫外音推理

在更復雜的開放場景中，輸入的文本和視頻甚至可能在語義上南轅北轍，或遭遇模態缺失。例如，畫面是一個人正平靜地喝著咖啡，但輸入的文本指令卻是：「窗外突然傳來巨大的爆炸聲」。此時，視覺和文本構成了極其嚴重的內部沖突。如果通用模型機械地將視覺和文本的特征強行融合，生成的音頻必然會陷入混亂崩潰。要完美處理這一場景，模型必須具備類似人類的邏輯推理能力，敏銳意識到這是一個畫外音場景，從而果斷切斷對無用視覺特征的依賴，將生成重心完全偏移到文本指令上。同理，當面臨某一模態完全缺失時，系統也必須能絲滑退化，穩健地完成單一的文本或視頻生音頻任務。

「通才困境」的爆發：

底層數據與訓練機制的坍塌

正因為通用 VT2A 生成任務本身要求模型在極其復雜的模態輸入中，時刻尋找動態的最優解（既要兼顧，又要懂得在矛盾時偏移重心），如果我們只是簡單粗暴地把所有數據揉在一起聯合訓練，模型必然會陷入崩潰。具體而言，這種復雜的建模需求在現有體系下，直接引爆了兩個災難性的基礎問題：

第一，數據基座的坍塌：多模態數據的「語義錯位與沖突」。要讓模型學會復雜的動態路由，前提是必須擁有精準對齊的高質量 V-A-T 數據。現有多模態數據中存在顯著的「模態語義沖突」，這主要由兩方面疊加導致：一方面，音頻信息天然具有多義性，許多在視覺和語義上截然不同的事件，其聲學特征卻高度重合（例如，「煎肉時的滋滋油煙聲」與「傾盆大雨的白噪音」極易混淆，「篝火燃燒的噼啪聲」與「揉搓塑料袋 / 踩碎干樹葉的聲音」在頻譜上極其相似）；另一方面，早期音頻 - 語言模型自身的幻覺率較高，容易遺漏關鍵事件或產生錯誤描述。在這兩層因素作用下，現有主流數據集僅靠音頻自動生成的文本標簽，經常與視頻畫面發生嚴重錯位。當模型長期在相互矛盾的監督信號下訓練時，其多模態對齊能力自然會受到限制。

音頻多義性導致的語義沖突。打網球聲常被錯誤標注為遠處的煙花聲，與視覺語義矛盾

原生多模態大模型的視覺偏置。畫面里兩個人物會讓模型幻覺出男女對話，即便音頻中只有女聲

第二，聯合訓練中固有的「任務競爭」。當把多個子任務置于同一框架下優化時，模型內部會發生顯著的資源競爭與內耗：

跨任務競爭（Cross-task Competition）：文本生音頻（T2A）和視頻生音頻（V2A）在聯合優化時常面臨相互牽制的局面，提升一方往往以犧牲另一方為代價。
模態偏置（Intra-task Modality Bias）：在處理圖文聯合生成（VT2A）時，模型極易產生依賴單一模態的偏置現象。若模型過度依賴文本，生成的音頻往往與畫面動作脫節，喪失時空同步性；若過度依賴視覺信息，在遇到畫外音（畫面中無可視發聲源，需依賴文本提示）場景時，模型便會忽略文本指令，產生顯著的生成幻覺。

Omni2Sound 的破局思路

面對上述挑戰，Omni2Sound 的核心思路在于：不過度依賴復雜的網絡結構設計，而是通過「高質量數據與漸進式訓練」的底層方案來打破通才困境。圍繞這一目標，研究團隊沒有對模型架構進行復雜的定制化修改（全篇僅采用標準的 Vanilla DiT 骨干），而是從數據源頭、多任務調度以及客觀評測三個維度，進行了一整套協同設計。

1. 破局數據稀缺：構建高質量 V-T-A 音頻標注數據集 SoundAtlas

要解決語義沖突，首先需要構建高質量的對齊數據?；仡櫮壳暗淖詣踊瘮祿俗⒎桨?，早期主要依賴純音頻生成文本，但受限于音頻模態的歧義性，這類方法幻覺率較高、準確度不足，難以滿足統一模型對跨模態對齊的要求。近期的研究趨勢是，直接將原視頻畫面與音頻輸入給原生多模態大模型（如 Gemini），借助其強大能力生成字幕。

然而，研究團隊在實踐中發現，直接輸入原視頻面臨兩大瓶頸：一是高昂的計算成本，密集的視頻幀會帶來極大的 Token 消耗，難以支持百萬級數據的規模化構建；二是大模型存在明顯的視覺偏置（Visual Bias）。例如，畫面里出現靜止的樂器或揮棒的指揮（實際并未發聲），大模型也極易錯誤推斷出對應的音樂；反之，對畫面中看不見的真實音源（畫外音），模型又容易直接忽略。

為在控制成本的同時克服視覺幻覺，團隊設計了一套高效的多輪智能體流水線（Agentic Pipeline），并以此構建了包含 47 萬對高質量 V-A-T 聯合對齊的數據集SoundAtlas

視覺到語言壓縮（Vision-to-Language Compression）：團隊放棄直接輸入原視頻，轉而利用視覺模型（如 Qwen-2.5-VL）先將視頻畫面「壓縮」為一段精簡的文本描述。這一設計的核心優勢在于，它不僅大幅削減了視頻 Token 成本，還將強烈的視覺刺激降維成輔助上下文，從而有效約束了大模型過度依賴畫面產生的幻覺傾向。

SoundAtlas 智能體標注流水線

初高級智能體接力（Junior-Senior Agent Handoff）：在獲取壓縮文本與音頻后，系統首先調用高性價比的輕量級模型（Junior Agent）生成基礎字幕；僅當檢測到復雜場景或高頻幻覺詞匯時，才會將任務路由給推理能力更強的模型（Senior Agent）進行復核。

通過這套協同流水線，SoundAtlas 在將數據生成成本降低約 5 倍的同時，產出了高保真度的多模態對齊樣本。主客觀評測均顯示，其文本-音頻的對齊質量甚至優于開源社區中的人類專家標注水平。

2. 化解任務競爭：三階段漸進式多任務訓練

在構建高質量數據之后，若直接對 T2A、V2A 和 VT2A 進行常規的聯合訓練，模型性能并不能達到最優。實驗表明，直接聯合訓練會引發顯著的任務內耗：一方面，V2A 與 T2A 任務間存在明顯的性能權衡（Trade-off）；另一方面，模型在聯合生成時容易產生模態偏置。

為系統性化解上述問題，Omni2Sound 團隊從優化動力學的角度出發，設計了三階段漸進式訓練策略（Three-stage Progressive Training）：

Omni2Sound 三階段漸進式訓練框架

Stage 1：大規模 T2A 預訓練。在引入異構的視頻條件之前，模型首先利用海量文本-音頻數據進行獨立的 T2A 訓練，為模型建立穩健的音頻生成先驗。同時，擁有這一基礎底座后，在后續多任務階段僅需保持極低頻率的 T2A 數據采樣，即可有效防止「災難性遺忘」，將更多計算資源分配給視頻相關任務。
Stage 2：多任務交織訓練。該階段旨在解決 V2A 與 T2A 的跨任務競爭。團隊采用按任務采樣的交織訓練策略（Task-Balanced Sampling），避免不同任務在同一批次內發生梯度沖突。更重要的是，研究發現高質量的 VT2A 數據在聯合訓練中起到了關鍵的「語義橋梁」作用。由于 VT2A 強迫模型同時對齊文本、視頻與音頻，它有效拉平了視覺特征與語言特征的異構空間，將原本相互競爭的跨任務目標轉化為了底層特征的協同優化。
Stage 3：解耦的魯棒性訓練。盡管第二階段緩解了跨任務競爭，但模型在處理具體輸入時仍存在對單一模態的依賴傾向。研究發現，若在第二階段直接引入數據增強，會破壞聯合優化的穩定性，因此團隊將其解耦至第三階段獨立進行。該階段采用兩種互補策略：一是文本 Dropout，通過隨機遮蔽文本提示，迫使模型更多地依賴視覺流，顯著增強音視頻的時空同步性；二是畫外音合成（Off-screen Synthesis），通過引入無可視發聲源的合成數據，強制模型在缺乏視覺線索時提升對文本指令的依賴，從而有效緩解畫外音場景下的幻覺問題。

3. 填補評測空白：構建 VGGSound-Omni 全景基準

由于缺乏包含高質量文本描述的多任務基準，統一音頻生成模型長期難以得到全面的評估?，F有的評估基準（如原始的 VGGSound）通常僅提供稀疏的事件標簽，無法客觀驗證模型對復雜指令的細粒度理解。

為解決這一問題，研究團隊基于前期打磨的智能體流水線，并結合嚴謹的人工校驗，構建了多軌道的全景式基準測試VGGSound-Omni，為 T2A、V2A 和 VT2A 任務提供了統一的度量標準。

尤為值得注意的是，針對現有模型在缺乏可視發聲源時普遍表現不佳的問題，該基準引入了具有挑戰性的畫外音（Off-screen）專屬評測賽道。該賽道不僅嚴格篩選了天然音畫相關性較低的真實視頻（如純環境音），還專門構建了背景音樂（BGM）合成子集。這一賽道的設立，為評估模型在非理想視覺條件下的文本忠實度與抗幻覺能力，提供了可靠的客觀依據。

核心實驗表現

在未添加任何額外架構設計的前提下，Omni2Sound 展現出了優異的性能。在嚴苛的 VGGSound-Omni 基準測試中，它不僅在音頻質量、時空同步性等客觀指標上處于領先地位，在人類主觀盲測中同樣獲得了最高評價。

VGGSound-Omni 基準上三任務客觀指標對比：Omni2Sound 在分布匹配（KL/FD/FAD）、音頻質量（PQ/IS）、模態對齊（DS/IB/MS-CLAP）三大維度全面領先

最終，Omni2Sound 在 T2A、V2A、VT2A 三大任務上一致優于現有的專業模型與統一模型，取得了全新的 SOTA 性能。此外，在 Kling-Audio-Eval 等第三方獨立測試集上，Omni2Sound 依然展現出了良好的泛化魯棒性。

第三方基準 Kling-Audio-Eval 上的泛化測試：Omni2Sound 在不同視頻與字幕風格下依然取得最優表現

總結

從 Omni2Sound 這項工作可以看出，阻礙多模態音頻生成走向統一的核心瓶頸，或許并非網絡架構不夠復雜，而是底層模態對齊的缺失與多任務訓練方式的粗放。Omni2Sound 的核心價值在于，它證明了「大道至簡（Data & Strategy is all you need）」的有效性。通過高質量的基石數據搭橋，配合科學的漸進式任務調度，一個樸素的標準 DiT 模型完全可以打破「通才困境」，成為性能卓越的統一架構。這不僅為統一音視頻生成樹立了新的標桿，也為未來更廣泛的多模態融合大模型提供了一條清晰且優雅的探索路徑。

作者介紹

代宇盛，澳大利亞 Monash University 博士生，導師為 Jianfei Cai 教授，主要研究方向為音視頻生成模型，交互式世界模型。在多模態和語音領域的重要會議上持續發表相關研究工作。

陳澤華，清華大學計算機系水木學者博士后、助理研究員，博士畢業于英國帝國理工學院電氣與電子工程系，主要研究方向為概率生成模型，及其在音頻、視覺、健康監測等方面的應用。在機器學習和內容生成方向持續在重要會議與期刊上發表相關研究工作。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.