網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

獨(dú)家｜字節(jié)迎戰(zhàn)阿里快樂(lè)馬：開(kāi)源多模統(tǒng)一模型，推理速度快18倍

2026-05-06 10:37:21　來(lái)源: 智能紀(jì)元AGI

遼寧舉報(bào)

分享至

阿里旗下HappyHorse（快樂(lè)馬）、HappyOyster兩款模型爆紅出圈，發(fā)布未滿(mǎn)一月，字節(jié)就悄然出手正面應(yīng)戰(zhàn)。

5月6日消息，智能紀(jì)元AGI獨(dú)家獲悉，字節(jié)跳動(dòng)日前低調(diào)公布全球首個(gè)25B級(jí)、基于混合專(zhuān)家 (MoE) -擴(kuò)散自注意力機(jī)制(DiT) 的開(kāi)源增強(qiáng)統(tǒng)一多模態(tài)模型Mamoda2.5。

Mamoda2.5依托Qwen3-VL-8B、128 個(gè)專(zhuān)家，Top-8 路由的MoE+DiT架構(gòu)搭建，最終模型參數(shù)高達(dá)250億，而每次僅激活約30億參數(shù)（約12%）。

基于稀疏激活優(yōu)勢(shì)，單設(shè)備下，Mamoda2.5模型推理速度比阿里Wan2.2 A14B快12倍以上，比美團(tuán)LongCat Video快18倍。

視頻編輯層面，新的Mamoda2.5模型采用4步方案，將編輯延遲降至僅9.2秒，比VInO快95.9倍，比OmniVideo2快41.7倍。

同時(shí)，統(tǒng)一視覺(jué)生成與編輯層面，Mamoda2.5將多模態(tài)理解、生成和編輯結(jié)合在一起，形成統(tǒng)一多模態(tài)模型架構(gòu)。

所以，該模型僅激活3B參數(shù)，就實(shí)現(xiàn)文生圖、文生視頻、文生圖像、視頻編輯全任務(wù)SOTA，模型性能接近閉源的Sora和快手Kling。

谷歌Omni全模態(tài)還沒(méi)登場(chǎng)，阿里快樂(lè)馬剛刷屏完圈，字節(jié)直接甩出Mamoda2.5開(kāi)源王炸。

這波操作太明顯了：

不管是谷歌、阿里還是字節(jié)，最終路線(xiàn)全都指向同一個(gè)終點(diǎn)：

開(kāi)源+統(tǒng)一全模態(tài)。

誰(shuí)能想到，曾經(jīng)各走各路的AI巨頭，如今竟在同一條賽道上徹底會(huì)師。

追成本和速度優(yōu)勢(shì)，新模型實(shí)現(xiàn)95.9倍提速

事實(shí)上，統(tǒng)一的視覺(jué)模型正在經(jīng)歷從“單任務(wù)專(zhuān)家”到具備理解與生成能力的集成系統(tǒng)的范式轉(zhuǎn)變。

然而，目前大多數(shù)統(tǒng)一的模型聚焦于圖像領(lǐng)域，主要將視覺(jué)理解與圖像生成和編輯相結(jié)合。

雖然這些模型在靜態(tài)視覺(jué)生成方面取得了顯著進(jìn)展，但針對(duì)視頻生成和編輯的統(tǒng)一框架仍處于早期階段，主要受限于數(shù)據(jù)復(fù)雜性和計(jì)算瓶頸。

從專(zhuān)業(yè)視頻生成模型的角度看，HunyuanVideo和WanVideo表明，在DiT范式內(nèi)擴(kuò)展參數(shù)能顯著提升視頻質(zhì)量和對(duì)現(xiàn)實(shí)世界物理規(guī)律的建模能力。

而工業(yè)級(jí)系統(tǒng)如Aquarius進(jìn)一步驗(yàn)證了在生產(chǎn)環(huán)境中部署大規(guī)模視頻生成的可行性。

領(lǐng)先的閉源模型如Sora被認(rèn)為參數(shù)規(guī)模可達(dá)數(shù)十億甚至更高。

然而，視頻任務(wù)本質(zhì)上是計(jì)算密集型：視覺(jué)Tokens數(shù)量隨空間分辨率和時(shí)間長(zhǎng)度同步增長(zhǎng)，而DiT對(duì)這些tokens的全注意力計(jì)算帶來(lái)二次方成本。

因此，訓(xùn)練和推理成本隨著模型規(guī)模和視頻長(zhǎng)度的增加急劇上升，使得高質(zhì)量、長(zhǎng)時(shí)視頻生成在稠密架構(gòu)下的實(shí)際部署變得極其昂貴。

為了解決規(guī)模擴(kuò)展帶來(lái)的質(zhì)量提升與時(shí)空建模爆炸式計(jì)算成本之間的矛盾，專(zhuān)家混合（MoE）提供了一種可擴(kuò)展的解決方案。

實(shí)際上，大型語(yǔ)言模型已成功采用路由機(jī)制實(shí)現(xiàn)稀疏激活，在不成比例增加計(jì)算成本的情況下擴(kuò)展能力。

DeepSeekMoE的細(xì)粒度專(zhuān)家分割進(jìn)一步增強(qiáng)了專(zhuān)業(yè)化與可擴(kuò)展性。MoE在圖像生成中也展現(xiàn)出巨大潛力。

例如，DiT?MoE成功將擴(kuò)散Transformer擴(kuò)展至數(shù)十億參數(shù)，而Race?DiT和DiffMoE優(yōu)化了路由策略，進(jìn)一步提升了生成質(zhì)量和訓(xùn)練效率。

在視頻領(lǐng)域，WanVideo 2.2探索了一種粗粒度的雙專(zhuān)家MoE，通過(guò)去噪時(shí)間步進(jìn)行路由。

然而，細(xì)粒度MoE在視頻生成中尚未得到系統(tǒng)性研究。

與此同時(shí)，以現(xiàn)有生成模型為基礎(chǔ)進(jìn)行高質(zhì)量視覺(jué)編輯已成為一個(gè)關(guān)鍵的研究焦點(diǎn)。

在圖像編輯領(lǐng)域，獲取配對(duì)數(shù)據(jù)的相對(duì)簡(jiǎn)易性推動(dòng)了快速進(jìn)展，近期的閉源和開(kāi)源模型已取得了強(qiáng)勁成果。

相比之下，視頻編輯仍處于早期階段，這主要源于構(gòu)建高質(zhì)量配對(duì)訓(xùn)練數(shù)據(jù)的復(fù)雜性，以及生成效率的挑戰(zhàn)，顯著增加內(nèi)存占用和推理延遲。

基于這些觀察，團(tuán)隊(duì)推出統(tǒng)一的自回歸?擴(kuò)散（AR–Diffusion）框架模型Mamoda2.5，核心就是：顯著降低了訓(xùn)練成本，同時(shí)擴(kuò)展了模型容量。

該 AR-Diffusion 框架以 Qwen3-VL-8B 多模態(tài)理解模型為底座、MoE DiT 為生成骨干網(wǎng)絡(luò)，既引入高效細(xì)粒度 MoE 架構(gòu)，又實(shí)現(xiàn)了視覺(jué)生成與編輯任務(wù)的統(tǒng)一。

盡管總參數(shù)量規(guī)模達(dá)25B，但模型每次前向傳播僅激活約3B參數(shù)。這種極致的稀疏性帶來(lái)了卓越的訓(xùn)練和推理效率，直接應(yīng)對(duì)了視頻生成模型中固有的高昂時(shí)間復(fù)雜性挑戰(zhàn)。

新的Mamoda2.5模型，30步編輯模型比VInO的推理速度快12.8倍；而精簡(jiǎn)后的4步模型則將編輯延遲降至僅9.2秒，比VInO快95.9倍，比OmniVideo2快41.7倍。

下面是基準(zhǔn)測(cè)試。

字節(jié)Mamoda團(tuán)隊(duì)昨日公布的技術(shù)報(bào)告顯示，在VBench 2.0測(cè)試中，Mamoda2.5視頻生成方面達(dá)到61.64分，與騰訊HunyuanVideo 1.5和美團(tuán)LongCat-Video水平相當(dāng)，延遲僅為110秒，快于Wan2.2，稱(chēng)是“頂級(jí)開(kāi)源模型水平”。

而視頻編輯方面，Mamoda2.5模型達(dá)到了SOTA水平：在OpenVE-Bench測(cè)試中排名第一，超越快手可靈Kling O1；在FiVE-Bench測(cè)試中排名第一，達(dá)87.41分，并在Reco-Bench測(cè)試中整體表現(xiàn)最佳——所有這些測(cè)試的推理速度都比同類(lèi)編輯基線(xiàn)快約10倍。

值得一提的是，此次Mamoda2.5引入了一個(gè)聯(lián)合的少步蒸餾和強(qiáng)化學(xué)習(xí)框架，將30步編輯模型壓縮為4步模型，極大地加速了模型推理。

因此，視頻編輯速度層面，Mamoda2.5模型相比上交&快手&南洋理工VinO模型最高提升95.9倍，同時(shí)保持頂尖多模態(tài)理解能力。

真實(shí)世界被顛覆了

下面欣賞幾個(gè)案例：

把人變成樹(shù)人。

將馬換成冰馬。

將手變成機(jī)械手

編輯天氣環(huán)境，從夏天到冬雪天。

編輯性別，從男生視頻生成為穿同樣衣服的女生。

當(dāng)然還支持文字轉(zhuǎn)視頻能力。

Mamoda 團(tuán)隊(duì)表示，該模型具備一流的文生視頻生成效果，推理速度比同規(guī)格稠密模型快 12 倍以上。

更多案例推薦你們到官方GitHub上看。

團(tuán)隊(duì)透露，在實(shí)際應(yīng)用中，Mamoda2.5已成功部署于廣告場(chǎng)景的內(nèi)容審核和創(chuàng)意修復(fù)任務(wù)中，在內(nèi)部廣告視頻編輯場(chǎng)景中取得了98%的成功率。

總結(jié)

今年4月，阿里ATH創(chuàng)新事業(yè)部團(tuán)隊(duì)連續(xù)發(fā)布了兩個(gè)爆火的多模態(tài)開(kāi)源模型：HappyHorse（快樂(lè)馬）和可實(shí)時(shí)構(gòu)建和交互的世界模型產(chǎn)品 HappyOyster（快樂(lè)生蠔）。

這直接對(duì)標(biāo)字節(jié)剛發(fā)布不到3個(gè)月的Seedance 2.0。

但這輪競(jìng)爭(zhēng)遠(yuǎn)遠(yuǎn)未結(jié)束，Mamoda2.5就是最好的證明之一。

目前字節(jié)并未公布Mamoda2.5更詳細(xì)的情況。

但早在2025年10月1日，該團(tuán)隊(duì)就利用Qwen3VL-8B發(fā)布了MammothModa2-Dev版本。

去年底，開(kāi)源的MammothModa2發(fā)布，采用MoE DiT架構(gòu)，支持視頻生成，今年2月發(fā)布了視頻生成和視頻編輯推理代碼。

如今，Mamoda2.5更是一個(gè)新的開(kāi)源模型——不過(guò)依然基于Qwen3VL進(jìn)行訓(xùn)練，模型能力遠(yuǎn)超快手可靈等多個(gè)閉源模型。

然而，盡管Mamoda2.5在生成和編輯任務(wù)上表現(xiàn)出強(qiáng)大性能，但仍存在一些值得未來(lái)探索的可行方向：

1. 全模態(tài)音頻?視頻生成與編輯。

Mamoda2.5 目前支持統(tǒng)一的圖像和視頻生成與編輯。一個(gè)自然的下一步是將音頻處理整合到框架中，實(shí)現(xiàn)在單一模型中同步進(jìn)行音頻?視頻生成和編輯。這將使模型能夠生成具有連貫配樂(lè)、對(duì)話(huà)和音效的視頻，極大地?cái)U(kuò)展其在現(xiàn)實(shí)世界內(nèi)容創(chuàng)作場(chǎng)景中的應(yīng)用范圍。

2. 更深度的理解與生成統(tǒng)一。

最近的系統(tǒng)如GPT?Image?2和Vision Banana已表明，深度整合理解與生成能夠解鎖涌現(xiàn)能力——將生成作為多樣化視覺(jué)任務(wù)的通用接口，并利用推理來(lái)提高生成質(zhì)量，因此，Mamoda2.5的統(tǒng)一架構(gòu)內(nèi)進(jìn)一步探索理解與生成之間的協(xié)同作用，使這兩種能力能夠相互強(qiáng)化。

從谷歌Omni的全模態(tài)野心，到阿里快樂(lè)馬的落地突襲，再到字節(jié) Mamoda2.5 的開(kāi)源重拳。

現(xiàn)在已經(jīng)看得很明白：

AI 的終局，就是統(tǒng)一全模態(tài)，而且必須開(kāi)源。

巨頭們嘴上各說(shuō)各的，身體卻無(wú)比誠(chéng)實(shí)。

未來(lái)世界的AI模型，統(tǒng)一、開(kāi)源、全能，才是唯一答案。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.