阿里通義實(shí)驗室開源影視級配音多模態(tài)大模型Fun-CineForge

2026-03-16 15:39:14　來源: 龔叔評車

江西舉報

分享至

IT之家 3 月 16 日消息，今日，阿里通義實(shí)驗室宣布發(fā)布并開源首個支持影視級多場景配音的多模態(tài)大模型Fun-CineForge。此外，還配套開放了高質(zhì)量數(shù)據(jù)集的構(gòu)建方法。官方稱，通過“數(shù)據(jù) + 模型”的一體化設(shè)計，F(xiàn)un-CineForge 正嘗試解決影視級 AI 配音長期面臨的關(guān)鍵問題。

IT之家附官方介紹如下：

在真實(shí)影視制作場景中，一段高質(zhì)量的配音，需要同時通過四大嚴(yán)苛考驗：

口型同步：合成的語音需要和畫面中人物唇部運(yùn)動高度同步；
情緒表達(dá)：依賴角色面部形象和指令描述，實(shí)現(xiàn)情感和語氣的擬人化呈現(xiàn)和自由控制；
音色一致：在多角色配音的復(fù)雜場景下要保持每個角色音色的相似度和一致性；
時間對齊：即便畫面中說話人被遮擋或不存在，語音也必須在正確的時間區(qū)間內(nèi)合成；

然而，現(xiàn)有 AI 配音方法普遍面臨兩大瓶頸：

01、高質(zhì)量多模態(tài)數(shù)據(jù)集稀缺。

高質(zhì)量的配音數(shù)據(jù)集依賴多種模態(tài)的信息，現(xiàn)有的配音數(shù)據(jù)集數(shù)據(jù)量過小、標(biāo)注類型有限，難以滿足大模型的有效訓(xùn)練；高度依賴人工標(biāo)注成本較高，難以大規(guī)模生產(chǎn)；缺乏對話和多人場景的長視頻數(shù)據(jù)使大模型難以應(yīng)對復(fù)雜配音場景。

02、模型能力不足。

傳統(tǒng)配音模型在方法上，僅依賴視頻畫面中清晰可見的唇部區(qū)域來學(xué)習(xí)音畫同步。但真實(shí)影視配音制作中，存在大量復(fù)雜場景，如多人對話、頻繁鏡頭切換、人臉遮擋、面部模糊，現(xiàn)有技術(shù)難以在說話人面部缺失的場景實(shí)現(xiàn)音畫同步。

為了解決上述問題，通義實(shí)驗室提出了 Fun-CineForge 。本次開源內(nèi)容核心包含兩部分，旨在打通影視配音的“數(shù)據(jù) - 模型”閉環(huán)：

1?? 模型側(cè)：面向復(fù)雜影視場景的多模態(tài)配音大模型

2?? 數(shù)據(jù)側(cè)：大規(guī)模多模態(tài)配音數(shù)據(jù)集構(gòu)建流程（CineDub）

在數(shù)據(jù)基礎(chǔ)之上，F(xiàn)un-CineForge 基于 CosyVoice3 強(qiáng)大的語音合成底層能力，構(gòu)建了一個面向復(fù)雜影視場景的配音大模型，完成視頻 + 文本 → 語音的任務(wù)。

輸入包括：

無聲視頻片段
配音文本
角色屬性和情感線索
時間信息
參考語音

模型即可以參考語音的音色來合成與時間和視頻信息高度對齊的語音。

Fun-CineForge 首先構(gòu)建了一套自動化的數(shù)據(jù)集生產(chǎn)流程，可以將原始影視素材轉(zhuǎn)化為結(jié)構(gòu)化多模態(tài)數(shù)據(jù)。

該流程包括人聲分離、文本轉(zhuǎn)錄、長視頻分段、音視頻聯(lián)合說話人分離等，其中，基于通用大模型思維鏈的雙向矯正機(jī)制，大幅降低了轉(zhuǎn)錄文本和說話人分離結(jié)果的錯誤率。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.