![]()
阿里旗下HappyHorse(快樂(lè)馬)、HappyOyster兩款模型爆紅出圈,發(fā)布未滿(mǎn)一月,字節(jié)就悄然出手正面應(yīng)戰(zhàn)。
5月6日消息,智能紀(jì)元AGI獨(dú)家獲悉,字節(jié)跳動(dòng)日前低調(diào)公布全球首個(gè)25B級(jí)、基于混合專(zhuān)家 (MoE) -擴(kuò)散自注意力機(jī)制(DiT) 的開(kāi)源增強(qiáng)統(tǒng)一多模態(tài)模型Mamoda2.5。
Mamoda2.5依托Qwen3-VL-8B、128 個(gè)專(zhuān)家,Top-8 路由的MoE+DiT架構(gòu)搭建,最終模型參數(shù)高達(dá)250億,而每次僅激活約30億參數(shù)(約12%)。
基于稀疏激活優(yōu)勢(shì),單設(shè)備下,Mamoda2.5模型推理速度比阿里Wan2.2 A14B快12倍以上,比美團(tuán)LongCat Video快18倍。
視頻編輯層面,新的Mamoda2.5模型采用4步方案,將編輯延遲降至僅9.2秒,比VInO快95.9倍,比OmniVideo2快41.7倍。
同時(shí),統(tǒng)一視覺(jué)生成與編輯層面,Mamoda2.5將多模態(tài)理解、生成和編輯結(jié)合在一起,形成統(tǒng)一多模態(tài)模型架構(gòu)。
所以,該模型僅激活3B參數(shù),就實(shí)現(xiàn)文生圖、文生視頻、文生圖像、視頻編輯全任務(wù)SOTA,模型性能接近閉源的Sora和快手Kling。
![]()
谷歌Omni全模態(tài)還沒(méi)登場(chǎng),阿里快樂(lè)馬剛刷屏完圈,字節(jié)直接甩出Mamoda2.5開(kāi)源王炸。
這波操作太明顯了:
不管是谷歌、阿里還是字節(jié),最終路線(xiàn)全都指向同一個(gè)終點(diǎn):
開(kāi)源+統(tǒng)一全模態(tài)。
誰(shuí)能想到,曾經(jīng)各走各路的AI巨頭,如今竟在同一條賽道上徹底會(huì)師。
![]()
追成本和速度優(yōu)勢(shì),新模型實(shí)現(xiàn)95.9倍提速
事實(shí)上,統(tǒng)一的視覺(jué)模型正在經(jīng)歷從“單任務(wù)專(zhuān)家”到具備理解與生成能力的集成系統(tǒng)的范式轉(zhuǎn)變。
然而,目前大多數(shù)統(tǒng)一的模型聚焦于圖像領(lǐng)域,主要將視覺(jué)理解與圖像生成和編輯相結(jié)合。
雖然這些模型在靜態(tài)視覺(jué)生成方面取得了顯著進(jìn)展,但針對(duì)視頻生成和編輯的統(tǒng)一框架仍處于早期階段,主要受限于數(shù)據(jù)復(fù)雜性和計(jì)算瓶頸。
從專(zhuān)業(yè)視頻生成模型的角度看,HunyuanVideo和WanVideo表明,在DiT范式內(nèi)擴(kuò)展參數(shù)能顯著提升視頻質(zhì)量和對(duì)現(xiàn)實(shí)世界物理規(guī)律的建模能力。
而工業(yè)級(jí)系統(tǒng)如Aquarius進(jìn)一步驗(yàn)證了在生產(chǎn)環(huán)境中部署大規(guī)模視頻生成的可行性。
領(lǐng)先的閉源模型如Sora被認(rèn)為參數(shù)規(guī)模可達(dá)數(shù)十億甚至更高。
然而,視頻任務(wù)本質(zhì)上是計(jì)算密集型:視覺(jué)Tokens數(shù)量隨空間分辨率和時(shí)間長(zhǎng)度同步增長(zhǎng),而DiT對(duì)這些tokens的全注意力計(jì)算帶來(lái)二次方成本。
因此,訓(xùn)練和推理成本隨著模型規(guī)模和視頻長(zhǎng)度的增加急劇上升,使得高質(zhì)量、長(zhǎng)時(shí)視頻生成在稠密架構(gòu)下的實(shí)際部署變得極其昂貴。
為了解決規(guī)模擴(kuò)展帶來(lái)的質(zhì)量提升與時(shí)空建模爆炸式計(jì)算成本之間的矛盾,專(zhuān)家混合(MoE)提供了一種可擴(kuò)展的解決方案。
實(shí)際上,大型語(yǔ)言模型已成功采用路由機(jī)制實(shí)現(xiàn)稀疏激活,在不成比例增加計(jì)算成本的情況下擴(kuò)展能力。
DeepSeekMoE的細(xì)粒度專(zhuān)家分割進(jìn)一步增強(qiáng)了專(zhuān)業(yè)化與可擴(kuò)展性。MoE在圖像生成中也展現(xiàn)出巨大潛力。
例如,DiT?MoE成功將擴(kuò)散Transformer擴(kuò)展至數(shù)十億參數(shù),而Race?DiT和DiffMoE優(yōu)化了路由策略,進(jìn)一步提升了生成質(zhì)量和訓(xùn)練效率。
在視頻領(lǐng)域,WanVideo 2.2探索了一種粗粒度的雙專(zhuān)家MoE,通過(guò)去噪時(shí)間步進(jìn)行路由。
![]()
然而,細(xì)粒度MoE在視頻生成中尚未得到系統(tǒng)性研究。
與此同時(shí),以現(xiàn)有生成模型為基礎(chǔ)進(jìn)行高質(zhì)量視覺(jué)編輯已成為一個(gè)關(guān)鍵的研究焦點(diǎn)。
在圖像編輯領(lǐng)域,獲取配對(duì)數(shù)據(jù)的相對(duì)簡(jiǎn)易性推動(dòng)了快速進(jìn)展,近期的閉源和開(kāi)源模型已取得了強(qiáng)勁成果。
相比之下,視頻編輯仍處于早期階段,這主要源于構(gòu)建高質(zhì)量配對(duì)訓(xùn)練數(shù)據(jù)的復(fù)雜性,以及生成效率的挑戰(zhàn),顯著增加內(nèi)存占用和推理延遲。
基于這些觀察,團(tuán)隊(duì)推出統(tǒng)一的自回歸?擴(kuò)散(AR–Diffusion)框架模型Mamoda2.5,核心就是:顯著降低了訓(xùn)練成本,同時(shí)擴(kuò)展了模型容量。
該 AR-Diffusion 框架以 Qwen3-VL-8B 多模態(tài)理解模型為底座、MoE DiT 為生成骨干網(wǎng)絡(luò),既引入高效細(xì)粒度 MoE 架構(gòu),又實(shí)現(xiàn)了視覺(jué)生成與編輯任務(wù)的統(tǒng)一。
盡管總參數(shù)量規(guī)模達(dá)25B,但模型每次前向傳播僅激活約3B參數(shù)。這種極致的稀疏性帶來(lái)了卓越的訓(xùn)練和推理效率,直接應(yīng)對(duì)了視頻生成模型中固有的高昂時(shí)間復(fù)雜性挑戰(zhàn)。
![]()
新的Mamoda2.5模型,30步編輯模型比VInO的推理速度快12.8倍;而精簡(jiǎn)后的4步模型則將編輯延遲降至僅9.2秒,比VInO快95.9倍,比OmniVideo2快41.7倍。
下面是基準(zhǔn)測(cè)試。
字節(jié)Mamoda團(tuán)隊(duì)昨日公布的技術(shù)報(bào)告顯示,在VBench 2.0測(cè)試中,Mamoda2.5視頻生成方面達(dá)到61.64分,與騰訊HunyuanVideo 1.5和美團(tuán)LongCat-Video水平相當(dāng),延遲僅為110秒,快于Wan2.2,稱(chēng)是“頂級(jí)開(kāi)源模型水平”。
而視頻編輯方面,Mamoda2.5模型達(dá)到了SOTA水平:在OpenVE-Bench測(cè)試中排名第一,超越快手可靈Kling O1;在FiVE-Bench測(cè)試中排名第一,達(dá)87.41分,并在Reco-Bench測(cè)試中整體表現(xiàn)最佳——所有這些測(cè)試的推理速度都比同類(lèi)編輯基線(xiàn)快約10倍。
![]()
值得一提的是,此次Mamoda2.5引入了一個(gè)聯(lián)合的少步蒸餾和強(qiáng)化學(xué)習(xí)框架,將30步編輯模型壓縮為4步模型,極大地加速了模型推理。
因此,視頻編輯速度層面,Mamoda2.5模型相比上交&快手&南洋理工VinO模型最高提升95.9倍,同時(shí)保持頂尖多模態(tài)理解能力。
![]()
真實(shí)世界被顛覆了
下面欣賞幾個(gè)案例:
把人變成樹(shù)人。
![]()
將馬換成冰馬。
![]()
將手變成機(jī)械手
![]()
編輯天氣環(huán)境,從夏天到冬雪天。
![]()
編輯性別,從男生視頻生成為穿同樣衣服的女生。
![]()
當(dāng)然還支持文字轉(zhuǎn)視頻能力。
Mamoda 團(tuán)隊(duì)表示,該模型具備一流的文生視頻生成效果,推理速度比同規(guī)格稠密模型快 12 倍以上。
![]()
更多案例推薦你們到官方GitHub上看。
團(tuán)隊(duì)透露,在實(shí)際應(yīng)用中,Mamoda2.5已成功部署于廣告場(chǎng)景的內(nèi)容審核和創(chuàng)意修復(fù)任務(wù)中,在內(nèi)部廣告視頻編輯場(chǎng)景中取得了98%的成功率。
![]()
總結(jié)
今年4月,阿里ATH創(chuàng)新事業(yè)部團(tuán)隊(duì)連續(xù)發(fā)布了兩個(gè)爆火的多模態(tài)開(kāi)源模型:HappyHorse(快樂(lè)馬)和可實(shí)時(shí)構(gòu)建和交互的世界模型產(chǎn)品 HappyOyster(快樂(lè)生蠔)。
這直接對(duì)標(biāo)字節(jié)剛發(fā)布不到3個(gè)月的Seedance 2.0。
![]()
但這輪競(jìng)爭(zhēng)遠(yuǎn)遠(yuǎn)未結(jié)束,Mamoda2.5就是最好的證明之一。
目前字節(jié)并未公布Mamoda2.5更詳細(xì)的情況。
但早在2025年10月1日,該團(tuán)隊(duì)就利用Qwen3VL-8B發(fā)布了MammothModa2-Dev版本。
去年底,開(kāi)源的MammothModa2發(fā)布,采用MoE DiT架構(gòu),支持視頻生成,今年2月發(fā)布了視頻生成和視頻編輯推理代碼。
如今,Mamoda2.5更是一個(gè)新的開(kāi)源模型——不過(guò)依然基于Qwen3VL進(jìn)行訓(xùn)練,模型能力遠(yuǎn)超快手可靈等多個(gè)閉源模型。
然而,盡管Mamoda2.5在生成和編輯任務(wù)上表現(xiàn)出強(qiáng)大性能,但仍存在一些值得未來(lái)探索的可行方向:
1. 全模態(tài)音頻?視頻生成與編輯。
Mamoda2.5 目前支持統(tǒng)一的圖像和視頻生成與編輯。一個(gè)自然的下一步是將音頻處理整合到框架中,實(shí)現(xiàn)在單一模型中同步進(jìn)行音頻?視頻生成和編輯。這將使模型能夠生成具有連貫配樂(lè)、對(duì)話(huà)和音效的視頻,極大地?cái)U(kuò)展其在現(xiàn)實(shí)世界內(nèi)容創(chuàng)作場(chǎng)景中的應(yīng)用范圍。
2. 更深度的理解與生成統(tǒng)一。
最近的系統(tǒng)如GPT?Image?2和Vision Banana已表明,深度整合理解與生成能夠解鎖涌現(xiàn)能力——將生成作為多樣化視覺(jué)任務(wù)的通用接口,并利用推理來(lái)提高生成質(zhì)量,因此,Mamoda2.5的統(tǒng)一架構(gòu)內(nèi)進(jìn)一步探索理解與生成之間的協(xié)同作用,使這兩種能力能夠相互強(qiáng)化。
從谷歌Omni的全模態(tài)野心,到阿里快樂(lè)馬的落地突襲,再到字節(jié) Mamoda2.5 的開(kāi)源重拳。
現(xiàn)在已經(jīng)看得很明白:
AI 的終局,就是統(tǒng)一全模態(tài),而且必須開(kāi)源。
巨頭們嘴上各說(shuō)各的,身體卻無(wú)比誠(chéng)實(shí)。
未來(lái)世界的AI模型,統(tǒng)一、開(kāi)源、全能,才是唯一答案。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.