網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

商湯發(fā)布多模態(tài)“效率怪獸”，開(kāi)源即SOTA！最小僅8B，比肩商用

2026-04-28 22:16:02　來(lái)源: 智東西

北京舉報(bào)

分享至

智東西
作者江宇
編輯漠影

當(dāng)GPT images 2.0又再一次搶占頭條，人們對(duì)多模態(tài)模型的關(guān)注也在悄然變化：“畫(huà)得好”已經(jīng)不再是問(wèn)題了，我們還想要“速度快、效率高、成本低”。

過(guò)去很長(zhǎng)一段時(shí)間里，視覺(jué)理解與圖像生成，往往被拆分為兩套體系：前者負(fù)責(zé)“看懂”，后者負(fù)責(zé)“畫(huà)出”，中間通過(guò)不同模塊進(jìn)行銜接。這種在底層邏輯上的割裂，是阻礙模型效率的核心。

商湯這次的思路，是從架構(gòu)層面直接處理這個(gè)問(wèn)題。

他們剛剛開(kāi)源了原生理解生成統(tǒng)一模型SenseNova U1，便基于自研的NEO-unify架構(gòu)，將圖像與文本的理解與生成能力統(tǒng)一到同一體系中，沒(méi)有了“中間商”之后，效率得到大幅提升。

在圖像理解與生成的多項(xiàng)基準(zhǔn)測(cè)試中，SenseNova U1 Lite在同量級(jí)開(kāi)源模型中達(dá)到SOTA水平，并在多項(xiàng)指標(biāo)上逼近商業(yè)閉源模型表現(xiàn)。以8B參數(shù)規(guī)模，實(shí)現(xiàn)接近更大模型的能力，得到“以小搏大”的表現(xiàn)。

▲高密度信息圖（en）

▲高密度信息圖（zh）

目前，用戶(hù)可以在Hugging Face、GitHub獲取開(kāi)源模型。同時(shí)，商湯AI辦公智能體“辦公小浣熊3.0”也即將接入SenseNova U1，用戶(hù)可直接體驗(yàn)相關(guān)能力。

一、不靠堆參數(shù)，靠效率取勝：8B模型拿下開(kāi)源SOTA

本次開(kāi)源包含兩個(gè)版本：SenseNova-U1-8B-MoT與SenseNova-U1-A3B-MoT，均基于統(tǒng)一的多模態(tài)理解、推理與生成架構(gòu)，面向圖文理解、生成及復(fù)雜交互任務(wù)。

如果從測(cè)評(píng)結(jié)果來(lái)看，SenseNova U1最突出的優(yōu)勢(shì)，在于整體效率——在理解、生成、推理與圖文交錯(cuò)多個(gè)維度上，用更小的模型規(guī)模，跑出了接近甚至逼近商業(yè)閉源模型的表現(xiàn)。

在理解側(cè)，SenseNova-U1-8B-MoT在AI2D、IFBench等基準(zhǔn)上均取得領(lǐng)先表現(xiàn)，例如在AI2D上達(dá)到91.7分。結(jié)合空間理解相關(guān)測(cè)試，可以看到模型在復(fù)雜結(jié)構(gòu)與關(guān)系判斷等任務(wù)中表現(xiàn)穩(wěn)定，具備一定的邏輯推理能力。

在生成側(cè)，模型在GenEval、OneIG、LongTextBench等任務(wù)中表現(xiàn)穩(wěn)定，能夠同時(shí)兼顧復(fù)雜結(jié)構(gòu)生成與文本一致性。尤其是在信息圖生成（Infographics）任務(wù)中，平均得分達(dá)到50.7，是開(kāi)源模型最強(qiáng)，媲美部分閉源商業(yè)模型。

進(jìn)一步看編輯與圖文交錯(cuò)能力，在Editing、Visual Reasoning等任務(wù)中，SenseNova U1在WISE、VBVR、OpenING、GEdit-Bench等測(cè)試中表現(xiàn)突出。例如在OpenING相關(guān)任務(wù)中達(dá)到91分，在視覺(jué)推理任務(wù)中也明顯優(yōu)于傳統(tǒng)圖像生成模型。

但相比這些分項(xiàng)成績(jī)，更關(guān)鍵的是它的“性能—效率比”。

從對(duì)比結(jié)果來(lái)看，在信息圖生成與長(zhǎng)文本等任務(wù)中，SenseNova U1在約15秒延遲下即可取得接近60分的平均成績(jī)，整體屬于“高性能、低延遲”。對(duì)比Qwen-Image 2.0 Pro、Seedream 4.5等模型，其在生成質(zhì)量接近商業(yè)閉源模型的同時(shí)，響應(yīng)速度更快。

▲Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench

▲Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench

這些性能表現(xiàn)背后，主要還是來(lái)自底層架構(gòu)的優(yōu)勢(shì)。SenseNova U1基于商湯自研的NEO-unify原生統(tǒng)一架構(gòu)，在設(shè)計(jì)上減少了中間環(huán)節(jié)帶來(lái)的信息損耗，因此在數(shù)據(jù)利用效率和推理開(kāi)銷(xiāo)上更有優(yōu)勢(shì)。

最終呈現(xiàn)出來(lái)的，才得以是“以小搏大”的優(yōu)勢(shì)：僅用8B參數(shù)規(guī)模，在多個(gè)維度達(dá)到同量級(jí)開(kāi)源模型SOTA，并在部分任務(wù)上逼近商業(yè)閉源模型。

從測(cè)評(píng)結(jié)果來(lái)看，這種優(yōu)勢(shì)已經(jīng)比較清晰。至于落到真實(shí)使用場(chǎng)景中，SenseNova U1是否同樣穩(wěn)定、好用，我們來(lái)實(shí)測(cè)一番。

二、一手實(shí)測(cè)揭秘：從立體排版到“言出法隨”

智東西選取了多個(gè)不同類(lèi)型的任務(wù)進(jìn)行測(cè)試，覆蓋高密度信息圖、趣味創(chuàng)意圖以及技術(shù)流程圖等典型場(chǎng)景。

創(chuàng)作信息圖可以說(shuō)是最能“精準(zhǔn)擊中”職場(chǎng)人的能力。用戶(hù)只需要輸入文章、資料或文字說(shuō)明，模型就能將其中的關(guān)鍵信息提煉出來(lái)，并生成一張具備結(jié)構(gòu)、層級(jí)和視覺(jué)重點(diǎn)的信息圖。

在“蘇超出圈之路”這一案例中，模型就生成了一張多層蛋糕式信息圖。不同階段以立體分層形式呈現(xiàn)，文字隨著結(jié)構(gòu)自然分布在不同空間層級(jí)中，而不是簡(jiǎn)單平鋪。

這背后其實(shí)反映的是模型對(duì)結(jié)構(gòu)的理解能力。更關(guān)鍵的是，在這種復(fù)雜排版下，整張圖沒(méi)有出現(xiàn)明顯的文字錯(cuò)位、遮擋或渲染錯(cuò)誤，整體可讀性很高。

換一個(gè)更復(fù)雜的文本場(chǎng)景來(lái)看，模型對(duì)富文本結(jié)構(gòu)的理解能力，體現(xiàn)得更明顯：哪些信息需要突出，哪些適合做流程，哪些更適合用圖表表達(dá)，哪些需要用圖標(biāo)輔助理解。

“龍蝦使用指南”這個(gè)案例，就更能體現(xiàn)細(xì)節(jié)處理能力。

這一任務(wù)中包含大量中英文混排、不同字號(hào)文本以及情緒化表達(dá)。模型不僅把“禁止模糊指令”“禁止無(wú)限重試”這些核心文案寫(xiě)對(duì)了，還自動(dòng)匹配了對(duì)應(yīng)的圖標(biāo)和帶情緒的畫(huà)面，比如龍蝦被“壓榨”、被“投喂指令”等。

不同模塊之間的文字大小、間距和布局都處理得較為合理，沒(méi)有擠在一起，已經(jīng)達(dá)到直接商用的水準(zhǔn)了。

在人物與指令理解方面，“馬斯克vs奧特曼”這一案例更具代表性。

在提示詞中僅輸入“奧特曼”這一昵稱(chēng)，模型直接生成了一個(gè)穿西裝的“奧特曼形象”，與旁邊的馬斯克形成對(duì)比，既符合語(yǔ)義又帶有明顯的趣味性。與此同時(shí)，馬斯克的表情、動(dòng)作以及整個(gè)對(duì)峙氛圍也都比較到位，可見(jiàn)模型在人物理解和場(chǎng)景構(gòu)建上具備較強(qiáng)的語(yǔ)義對(duì)齊能力。

到了技術(shù)表達(dá)這一步，難度其實(shí)更高。在“SenseNova U1技術(shù)解讀”這一案例中，模型需要生成的是一張邏輯清晰的技術(shù)流程圖。

從結(jié)果來(lái)看，整體結(jié)構(gòu)層級(jí)清晰，信息分區(qū)明確、表達(dá)直觀，對(duì)于非技術(shù)讀者也較為友好。

一輪實(shí)測(cè)下來(lái)，另一個(gè)比較直觀的感受是速度。這類(lèi)圖像的生成基本都在十幾秒內(nèi)完成，有點(diǎn)接近“言出法隨”的感覺(jué)。

在這樣的生成效率下，各種應(yīng)用場(chǎng)景也不在話下。目前，SenseNova U1可生成信息圖譜、專(zhuān)業(yè)簡(jiǎn)歷、生活指南、產(chǎn)品說(shuō)明、百科知識(shí)、漫畫(huà)創(chuàng)作等多種內(nèi)容。對(duì)營(yíng)銷(xiāo)、辦公、設(shè)計(jì)、商業(yè)分析等場(chǎng)景來(lái)說(shuō)，這類(lèi)能力直接對(duì)應(yīng)的是內(nèi)容生產(chǎn)效率提升。

三、告別“縫合”，NEO-unify架構(gòu)如何成為理解與生成的“通才”？

測(cè)評(píng)集成績(jī)有優(yōu)勢(shì)，實(shí)測(cè)效果也毫不遜色，這個(gè)原生框架究竟好在哪里，我們來(lái)拆解一下。

過(guò)去，多模態(tài)模型的工作方式更像是“分工協(xié)作”：視覺(jué)編碼器負(fù)責(zé)理解圖像，變分自編碼器負(fù)責(zé)生成圖像。前者看圖，后者畫(huà)圖，中間再通過(guò)不同模塊完成銜接。

理解與生成更像兩條并行的流程，能配合，但很難真正融合，所以SenseNova U1這次選擇直接推倒重建，從底層架構(gòu)上直接改掉這套“拼接式”體系。

其采用的自研NEO-unify架構(gòu)，不再把語(yǔ)言和視覺(jué)當(dāng)作需要中間轉(zhuǎn)換的兩種信號(hào)，而是從一開(kāi)始就把它們當(dāng)作同一類(lèi)信息來(lái)建模。

換句話說(shuō)，語(yǔ)言與視覺(jué)不再各走各路，在同一套表征體系里共同參與理解、推理和生成。

這種設(shè)計(jì)本質(zhì)上回到了“多模態(tài)AI第一性原理”：不同模態(tài)之間本來(lái)就是內(nèi)在關(guān)聯(lián)的。

在具體實(shí)現(xiàn)上，模型盡量減少中間壓縮與轉(zhuǎn)換環(huán)節(jié)，直接從接近原始的像素和文本信息中學(xué)習(xí)，讓信息在傳遞過(guò)程中損耗更小。

同時(shí)，它的數(shù)據(jù)和推理效率也更高。這也是SenseNova U1值得關(guān)注的地方：并不是單純靠堆參數(shù)規(guī)模換效果，而是在底層架構(gòu)上重新處理多模態(tài)模型的協(xié)作方式。

四、當(dāng)AI學(xué)會(huì)“帶圖思考”，展開(kāi)空間智能更多想象

不同于GPT-image2單純圖像上的“卷王體質(zhì)”，SenseNova U1也展示了另一種可能：讓圖像成為邏輯的一部分，并在推理過(guò)程中引入對(duì)空間結(jié)構(gòu)的理解。

這也是其“連續(xù)性圖文創(chuàng)作輸出”的能力核心。

SenseNova U1是業(yè)內(nèi)首個(gè)能夠在單一模型上進(jìn)行連貫圖文交錯(cuò)生成的模型。這意味著，在處理復(fù)雜任務(wù)時(shí)，模型可以一邊解釋邏輯，一邊生成對(duì)應(yīng)的示意圖、流程圖、草圖或設(shè)計(jì)圖。

例如在教程、在繪本故事等場(chǎng)景中，它可以讓文字?jǐn)⑹隆⒉鍒D風(fēng)格、人物事件等保持一致性與連貫。

同時(shí)，SenseNova-U1并不是先生成一段完整文字，再去“補(bǔ)圖”，而是從材料準(zhǔn)備或構(gòu)圖草稿開(kāi)始，一步步輸出關(guān)鍵操作，并同步生成對(duì)應(yīng)畫(huà)面。

整個(gè)生成過(guò)程是連續(xù)的：步驟之間有承接關(guān)系，圖像之間保持風(fēng)格一致，文字和視覺(jué)內(nèi)容也始終圍繞同一上下文展開(kāi)。這種連貫性，在過(guò)去依賴(lài)多模型串聯(lián)的方案中很難穩(wěn)定實(shí)現(xiàn)，往往會(huì)出現(xiàn)風(fēng)格漂移或信息斷裂。

本質(zhì)上，這得益于SenseNova U1所具備的原生圖文理解生成能力，能天然將圖像和文本底層融合信號(hào)完整的保留上下文中，在統(tǒng)一表征空間進(jìn)行高效連貫思考。

這也讓它和空間智能產(chǎn)生了更直接的聯(lián)系。空間智能關(guān)注的是模型如何理解位置、方向、布局、關(guān)系和結(jié)構(gòu)，而這些能力恰恰會(huì)在圖像生成、高密度信息圖排版、流程圖構(gòu)建和場(chǎng)景示意中反復(fù)出現(xiàn)。

如果繼續(xù)往后看，這類(lèi)能力也可能成為具身智能的重要基礎(chǔ)。機(jī)器人要在真實(shí)環(huán)境中完成任務(wù)，不僅要“看見(jiàn)”物體，還要理解物體之間的關(guān)系、判斷行動(dòng)路徑，并根據(jù)任務(wù)目標(biāo)做出連續(xù)決策。

從這個(gè)角度看，SenseNova U1的意義不只是生成更好看的圖，而是在單一模型中嘗試打通理解、推理和視覺(jué)表達(dá)。它距離真正成為機(jī)器人的“具身大腦”還有距離，但這類(lèi)統(tǒng)一架構(gòu)，至少提供了一條更接近多模態(tài)閉環(huán)的技術(shù)路徑。

結(jié)語(yǔ)：理解與生成走向統(tǒng)一，多模態(tài)模型進(jìn)入分岔口

從底層架構(gòu)的NEO-unify創(chuàng)新，到應(yīng)用層面的原生圖文交錯(cuò)與高密度信息圖生成，商湯的全面開(kāi)源，不僅是參數(shù)規(guī)模上的“以小搏大”，更是對(duì)多模態(tài)第一性原理的深度回歸。

當(dāng)行業(yè)還在討論生圖模型的真實(shí)邊界時(shí)，SenseNova U1已經(jīng)通過(guò)理解與生成的統(tǒng)一，為AGI的到來(lái)鋪就了一條更具效率的路徑。

開(kāi)源的力量將讓這種原生多模態(tài)能力迅速滲透進(jìn)每一個(gè)垂直行業(yè)，我們正在見(jiàn)證的是一個(gè)“圖文同構(gòu)、思畫(huà)合一”的全新時(shí)代的開(kāi)啟。

在大模型全球競(jìng)賽的下半場(chǎng)，國(guó)產(chǎn)模型正在輸出屬于自己的硬核解法。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.