網易首頁 > 網易號 > 正文申請入駐

國產模型悄無聲息地贏得了一場多模態戰役

2026-03-26 07:32:41　來源: 硅基星芒AI

北京舉報

分享至

就在昨天，國產模型悄無聲息地贏得了一場多模態戰役。

正當字節跳動的Seedance 2.0視頻生成模型揚名海外，OpenAI卻突然宣布即將關停旗下視頻生成模型Sora的相關服務。

在這個智能體時代，人們已經逐漸意識到多模態能力的重要性。

Seedance 2.0憑借它的強大能力，已經被人們視為未來制作電影的“神器”，而它現在唯一存在的尷尬之處，就在于缺少配音。

音頻生成看起來比視頻生成要簡單，但給視頻精準配音（Video-to-Audio, V2A）卻十分困難：完美的配音不僅要“貼臉（語義與聲音同步）”，還要做到“好聽（美學質量）”和“身臨其境（空間立體聲）”。

為了補齊視頻生成模型“走向電影”的短板，阿里通義實驗室和香港科技大學、香港中文大學的研究團隊共同進行了一項有里程碑意義的研究：PrismAudio。

這是業內首個將強化學習（RL）與專門的多維思維鏈（CoT）規劃深度集成到V2A生成中的框架。

研究團隊不僅提出了能夠大幅降低擴散模型強化學習訓練成本的Fast-GRPO算法，還開源了高難度基準測試數據集AudioCanvas。

更驚人的事實是，PrismAudio憑借僅僅518M的參數量，擊敗了眾多數十億參數級別的模型，在所有感知維度上全面刷新了SOTA。

V2A生成的“不可能四角”

全球范圍內，AI的多模態目前仍然局限于文本、圖像、音頻和視頻四類核心模態。

在過去的一年中，文生圖、文生視頻和圖生視頻的模型已經變得常見，唯有音頻這個模態與其他核心模態的通路尚未完全打通。

盡管市面上已經有不少AI音樂生成的產品，但視頻生成音頻的本質不同于“看圖說話”，在人類的感知世界，一段合格的視頻配音至少要經過以下四個維度的考驗：

一是語義一致性：這是最簡單的要求，畫面里說的是中文，聲音就不能是英文；

二是時間同步性：類似于影視作品中的“對口型”，保證發出聲音的時間與視頻一致；

三是美學質量：聲音需要具有主觀的豐富度、保真度和藝術感，而不能是單調的電子音；

四是空間準確性：左右聲道需要跟隨畫面中的運動物體形成完美的聲像移動。

早期的V2A-Mapper等模型直接將畫面映射為音頻，但缺乏對中間過程“黑盒”的控制能力。

近期的MMAudio、MovieGenAudio等模型雖然引入了文本提示詞控制，但控制能力仍然略顯薄弱。

直到2025年7月，阿里通義實驗室的劉華戴博士開源了ThinkSound模型，開創性地將思維鏈（CoT）引入多模態大模型，讓模型在生成聲音前先“思考”應該發出什么聲音，大大提高了模型的邏輯性。

盡管如此，ThinkSound也存在三個致命缺陷：

一是思維鏈極其混亂：它把識別物體、對齊時間、判斷美感、計算空間位置這些過程全都放在同一個思考過程中。

這就像讓一個學生同時做語文、數學、英語、物理等不同科目的卷子，結果可想而知，模型容易出現“多模態幻覺”。

二是目標糾纏（Objective Entanglement）：在訓練過程中，模型使用的是單一的重建損失函數，但感知目標之間往往存在競爭關系。

也就是說，模型為了把發聲時間對準，可能生成了一個難聽的噪音；生成了好聽的聲音，可能又無法與畫面吻合。

三是缺乏人類偏好對齊：現有的模型只會照本宣科地擬合訓練數據，但沒有引入人類反饋強化學習（RLHF）來學習什么才是人類覺得“好聽”的聲音。

這一點也是多模態模型面臨的最大難點之一：

對于大語言模型，回答的正確與錯誤一目了然；但對于圖像、音頻和視頻，人類能輕易判斷出何為“壞”，但無法準確定義何為“好”。

PrismAudio：像頂級音效師一樣思考

PrismAudio給出了優雅的解法，而核心思想并不復雜：分而治之的思維鏈規劃+對癥下藥的強化學習優化。

它的架構建立在一個強大的基礎模型之上。

為了提升模型對視頻模態和復雜邏輯的理解能力，研究團隊不僅把傳統的視覺編碼器CLIP換成了專門用于理解視頻的VideoPrism（Google，2024），還把文本編碼器也一并升級為具備強大邏輯推理能力的T5-Gemma（Google，2025）。

接下來，就輪到它的核心技術大顯身手：

1.分解式多維思維鏈

既然把各種V2A需求都放到同一個思考過程中行不通，PrismAudio干脆直接將思考過程拆解成了四個獨立且專業的CoT鏈路。

在音頻生成之前，模型需要按順序提交四份“分析報告”：

語義CoT：專注于內容識別，例如“畫面中的一匹馬開始奔跑，馬蹄聲逐漸增強，最后停下伴有喘息聲”。

時間CoT：專注于時序排序，例如“起初是緩慢的步伐，隨后加速進入穩定的節奏，最后步伐放緩直至停止。”

美學CoT：專注于音質感受，例如“音頻保持清晰、干脆的馬蹄聲，帶有自然的混響。”

空間CoT：專注于聲場定位，例如“聲音從左側聲像出現，穿過中心，最后在右側淡出。”

四個維度的“分析報告”拼接起來，就可以作為一份極強的文本條件輸入給擴散基礎模型。

這種顯式的邏輯推理不僅解決了思維混亂的問題，還能讓生成過程的“黑盒”更加可控和可解釋。

2.多維度強化學習

思考過程已經理順，下一步就該解決目標糾纏的問題，并讓模型生成的音頻符合人類的偏好。

為此，針對已有的四個CoT，團隊設計了與之對應的四個獨立的獎勵模型：

對語義CoT，使用微軟的MS-CLAP模型評估音頻和文本內容是否一致；

對時間CoT，使用高度敏銳的Synchformer模型檢查音畫是否同步；

對美學CoT，使用Meta的音頻質量評估工具Audiobox Aesthetics預測人類主觀打分；

對空間CoT，使用StereoCRM方法驗證立體聲方向定位的精確度。

如此一來，模型生成的音頻就有了一個具體的評判標準，強化學習機制也就有了理想的訓練目標。

3.Fast-GRPO算法

研究團隊首先將目光鎖定在DeepSeek團隊在2024年提出的輕量級高效強化學習算法GRPO上。

不過，GRPO只能應用在離散自回歸生成的大語言模型上，要想在多模態擴散模型上應用，就得使用Flow-GRPO，即應用于流匹配模型的GRPO。

但即便如此，這里還有一個關鍵的根本性問題沒有解決：

無論是生成圖像還是音頻，模型都是從一團純噪聲開始，經過幾十步或幾百步的去噪過程，最終還原出清晰的信號。

為了讓模型在去噪過程中能夠發現“好”的聲音，Flow-GRPO把這幾百步過程全部變成了隨機微分方程，模型在每一步去噪過程中都要加入一點隨機噪聲并計算策略比率。

這個過程帶來的后果是災難性的，神經網絡的反向傳播梯度變得極深，顯存和訓練時間都會指數級爆炸，計算復雜度也達到O(T)，其中T是去噪過程的總步數。

如今，算力就等同于成本，為了填補這個算力“黑洞”，研究團隊采用了一個看似投機取巧的方法：Fast-GRPO。

這是一種混合采樣路徑，在模型開始將噪聲轉化為音頻之前，隨機在總步數中圈定一個極其狹窄的時間段，這個只有幾步的小區間被稱為“優化窗口”。

在優化窗口內，模型使用隨機微分方程，引入隨機噪聲探索更“好”的聲音；在優化窗口外，模型使用常微分方程進行確定性采樣，極度高效、路徑唯一且不需要計算復雜的策略概率。

乍一看，Fast-GRPO只在去噪過程中間抽取了一小段進行隨機探索，可能會影響擴散模型最后生成的概率分布。

實際上，這個方法有極其嚴密的數學論證。

而當這個方法被實際應用到模型中，得到的結果令人驚喜：

首先是算力消耗斷崖式下跌：時間復雜度從O(T)直接降到接近線性，顯存占用和訓練時間也降低到普通實驗室可以接受的范圍之內，免得像Sora一樣入不敷出。

除此之外，收斂速度和最終效果同樣有所提升：Fast-GRPO使得模型只需要200步即可完成原先需要600步的去噪過程，分數也從0.47提升至0.51。

以小博大，全面碾壓

真金不怕火煉。在極其嚴苛的實驗環境下，PrismAudio仍然展現出了強大的統治力：

在牛津大學VGG團隊2020年發布的大規模音視頻數據集VGGSound上，僅有518M參數的PrismAudio與通義實驗室研發的前代模型ThinkSound（1.3B）、騰訊混元的Video-Foley（5.31B）以及開源模型MMAudio（1.03B）展開了正面交鋒。

無論是語義對齊（CLAP）、音畫同步誤差（DeSync）、空間精度誤差（CRW）等客觀指標，還是人類評估的音質（MOS-Q）、音畫一致性（MOS-C）等主觀指標，PrismAudio都超越了包含上一代SOTA模型在內的所有競爭對手。

不過，前面已經說過，相比文本、圖像和視頻，音頻模態的發展其實略顯落后。現有的評測數據集，大多標注粗糙、場景單一。

為此，研究團隊耗費巨大精力構建了一個包含3177個真實世界視頻的高難度基準測試：AudioCanvas。

這個測試集中的音視頻經過嚴格的人工過濾，徹底剔除了畫外音和BGM的干擾，并精心設計了501個多事件復雜場景，用以考驗模型區分和融合多種聲音的能力。

除此之外，研究團隊還使用Gemini 2.5 Pro為視頻生成了詳盡的思維鏈推理文本，經過人工驗證，準確率高達94%以上。

面對AudioCanvas中復雜的多時間場景，前代模型在時間同步和空間準確性上幾乎直接崩潰。

但PrismAudio仍然不動如山，展現出了驚人的健壯性，各項指標穩居第一。

值得注意的是，在語義對齊和時間同步等一些客觀指標上，PrismAudio的表現甚至超越真實視頻的原聲音。

也就是說，真實世界的雜音會干擾客觀指標，而PrismAudio經過強化學習反而生成了高度符合人類理想預期的聲音。

表格中的最后一行，則是對獎勵函數的消融實驗結果：

如果去掉了多維思維鏈和Fast-GRPO算法，PrismAudio瞬間變得表現平平，和競爭對手幾乎沒有區別，這些核心機制能發揮多大的作用，已經鐵證如山。

阿里在多模態領域的選擇

PrismAudio的誕生，不僅讓音頻生成技術正式告別了“黑盒”的不可控時代，更在商業落地上展現出了巨大的想象空間。

站在智能體時代的十字路口審視國產大模型的出路，其實留給各家AI大廠的出路已經極其有限，核心無非兩條路：代碼能力和多模態能力。

PrismAudio，恰恰是阿里在千問APP營銷無果、深思熟慮后打出的一張底牌。

在代碼和邏輯推理賽道，以Claude Code為首的國際頂尖模型目前依然占據絕對的統治地位。

這條路研發壁壘極高、推理成本昂貴，國內短期內看不到推出平替產品的可能性。

而在多模態賽道，文生視頻已經進入激烈的內卷階段，字節跳動憑借Seedance 2.0躋身全球第一梯隊，可靈和Sora也緊隨其后。

相比之下，通義萬相顯得不溫不火，在沒有抖音這種短視頻平臺的數據加持下，此時在這條擁擠的視覺賽道上與競爭對手死磕算力絕非明智的戰略選擇。

因此，阿里給出的解法是繞道而行：既然其他人都在制造“無聲的軀殼”，那我就去制造“聲音的靈魂”。

在人類的感知中，視頻和音頻往往存在強綁定關系。

無論AI生成的視頻畫面有多震撼，只要它還缺少必要的聲音，就永遠只是一個半成品。

PrismAudio展現出的極強可控性、完美時間對齊和高保真音質，讓阿里直接切入了多模態賽道的最后一個賽段。

這種繞道而行的打法，不僅避開了正面的同質化競爭，還讓通義系列的模型產品成為了AI影視工作流中不可或缺的核心。

在“模型即服務”的生態環境競爭中，誰掌握了標準，誰就擁有了定義權。

通義實驗室的研究團隊已經承諾，在論文發表后將完全開源PrismAudio的所有代碼、模型權重和AudioCanvas基準測試數據集。

表面上是學術風險，實際上商業占位：開源現有的難度最高、標準最嚴格的測試基準，正是阿里試圖定義V2A行業標準的體現。

Sora丟失王座，Seedance 2.0新王登基，高質量、細粒度控制的音頻生成注定將成為多模態領域下一個萬億賽道的核心。

阿里已經探索出了正確的道路，至于怎么走、能否走得好，仍然值得期待。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

挑戰擴散自回歸！字節提出視覺生成第三種路線，讓模型邊畫邊改

量子位 2026-05-13 21:52:31
2 跟貼 2
2026 AI最佳場景滲透案例重磅揭曉

36氪 2026-05-13 19:23:26
0 跟貼 0

澳洲放羊大叔引爆AI編程革命！Claude Code急推goal模式，不干完不許停

新智元 2026-05-13 18:31:06
103 跟貼 103

“這是一次我們從未見過的大變革”，李彥宏稱“代碼正在變得不值錢”

紅星資本局 2026-05-13 16:42:26
99 跟貼 99
8歲小學生idea直接變應用，秒噠3.0剛剛把AI應用門檻打沒了

量子位 2026-05-13 22:05:37
6 跟貼 6

全面升級的百度智能云，要搶下智能體Token效率之戰？

財聯社 2026-05-13 19:41:13
0 跟貼 0

8歲小孩哥「聊出」操作系統，一部手機、幾句話，原生App直接生成

機器之心Pro 2026-05-13 22:01:47
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

英偉達押注AlphaGo研發主管新公司摸索大模型行業未來前沿

財聯社 2026-05-14 00:32:11
0 跟貼 0
林俊旸果然創業了！一個“Qwen負責人”頭銜值135億

量子位 2026-05-13 16:51:05
1 跟貼 1
快手OneSearch-V2全量上線，生成式搜索進入「懂你」時代

機器之心Pro 2026-05-13 18:45:51
0 跟貼 0
市場監管總局：嚴查算法違規亂象

央視新聞 2026-05-13 17:52:30
3 跟貼 3
700萬刀成本時代，這位老炮說AI"沒有創作靈魂"

奶兇的小霸王 2026-05-14 03:48:43
0 跟貼 0
刀片豎起來過安檢機，安檢機完全看不到刀片的圖像，真的可以嗎

趣拍匣子 2026-05-09 16:07:42
1 跟貼 1
生存游戲大挑戰，沒有算法全憑運氣

腿毛影視劇 2026-05-09 16:11:36
10 跟貼 10
俄軍："世界上最強大導彈"試射成功射程超35000公里

紅星新聞 2026-05-13 13:21:19
39994 跟貼 39994
露臺框架終于完成了

小新的視界 2026-05-12 07:53:12
0 跟貼 0
男子理發付款，魔鬼算法把老板娘繞進去，最后竟然還賺錢了

豆莢看生活 2026-05-12 10:20:09
0 跟貼 0
中方對無核武國家鼓吹擁核言論表示關切

環球網資訊 2026-05-13 07:54:25
15117 跟貼 15117
為了逃避考試，他發明了最好的壓縮算法，zip的歷史可謂一波三折

量子位 2026-04-29 06:41:21
0 跟貼 0
豆包收費了！大模型將告別免費時代？有何考量？

大象新聞 2026-05-13 10:26:14
5705 跟貼 5705
新來小工按章框架

默默世界 2026-05-13 13:07:51
1 跟貼 1
兩千年以下對上的生存邏輯，只給框架，不給結論

星際軍武 2026-05-12 16:26:54
0 跟貼 0
面條模型，做的和真的一模一樣

牛道影視剪輯 2026-05-12 13:54:02
1 跟貼 1
頭皮發麻！廣東飛蟻大爆發住30幾樓都逃不掉

看看新聞Knews 2026-05-13 12:04:06
226 跟貼 226
191高考數學北京卷 6 函數不等式的解集

我服子佩 2026-05-13 14:23:10
3 跟貼 3
U17國足勝卡塔爾驚險晉級亞洲杯淘汰賽，中國足球時隔21年重返世界大賽

文匯報 2026-05-13 07:48:10
1889 跟貼 1889
光速為何是一個整數？巧合嗎？并不是，因為本來就有人為因素！

宇宙時空 2026-05-13 22:30:07
0 跟貼 0
識字不多，邏輯清晰！萌娃自創圖文手繪梳理運動會要求

星辰視頻 2026-05-13 08:57:34
1 跟貼 1
九寨溝將實行“雙向檢票”？工作人員：出園檢票并非新政策，一直嚴禁溝內住宿

上游新聞 2026-05-11 15:40:24
2953 跟貼 2953
方程豹豹5/豹8閃充版上市權益后售29.98萬元起

太平洋汽車 2026-05-13 21:40:50
1 跟貼 1
AI假扮女兒打視頻稱“媽媽開門”！母親看監控發現門口無人，電詢學校得知女兒正考試

紅星新聞 2026-05-13 11:58:24
1 跟貼 1
法國新法落地：歸還?“260萬被搶文物”有多艱難？｜重建現場

新京報動新聞 2026-05-11 01:46:32
910 跟貼 910
大輪盤帶動彈簧往復運動，看似永動機，實則巧妙機械模型

木子奇趣 2026-05-13 10:48:00
4 跟貼 4
Kimi總裁張予彤北大實錄：我們想要有抽象能力和偏執的人｜甲子光年

甲子光年 2026-05-13 19:23:59
0 跟貼 0
男子走夜路發現劇毒白頭蝰，毒性遠超五步蛇，至今無抗毒血清

星視頻 2026-05-13 15:03:50
564 跟貼 564
孫銘陽正式宣布退出國家隊：我隨時都在，有召必回！

現代快報 2026-05-13 15:38:07
229 跟貼 229
智界V9官宣搭載華為非凡系列音響，將應用獨立音區技術

IT之家 2026-05-13 15:51:28
7 跟貼 7
物理AI重塑汽車從感知世界到讀懂世界

車質網 2026-05-12 18:33:42
0 跟貼 0
漢邦高科拿下27億GPU大單，合作方成立不到1年、探訪注冊地“查無此司”

紅星資本局 2026-05-13 20:05:36
251 跟貼 251

硅基星芒AI

錦緞旗下人工智能研究與媒體服務平臺

59文章數 7關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

家居

本地

親子

手機

公開課

家居要聞

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

國產模型悄無聲息地贏得了一場多模態戰役

阿里年營收首破萬億，AI終于不再是畫大餅

女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

女子閃婚獲千萬房產99%份額閃離后起訴分割 法院判了

14年半，74萬，何冰嬌沒選那條更安穩的路

白鹿掉20萬粉，網友為李晨鳴不平

美國總統特朗普抵達北京

C級純電轎跑 吉利銀河"TT"申報圖來了

態度原創

內在自敘，無域有方

用蘇繡的方式，打開江西婺源

農村童趣日常，樹上果糖拌奶吃，一口下去太解饞

iOS 27新功能全面爆料！相機App界面支持定制，Siri將徹底重塑

女子閃婚獲千萬房產99%份額閃離后起訴分割法院判了

女子閃婚獲千萬房產99%份額閃離后起訴分割法院判了

C級純電轎跑吉利銀河"TT"申報圖來了