商湯SenseNova U1深度拆解，原生統(tǒng)一架構(gòu)終結(jié)縫合時代

2026-05-15 17:13:40　來源: 機(jī)器之心Pro

河北舉報

分享至

編輯｜杜偉

當(dāng) AI 行業(yè)的目光集中在 Agent、工具調(diào)用、長程任務(wù)這些上層應(yīng)用之時，底層的多模態(tài)架構(gòu)正在經(jīng)歷一次更安靜、也更徹底的范式轉(zhuǎn)變 —— 它要回答的是一個看似樸素的問題：理解與生成，是否天生就該是兩件事

長期以來，多模態(tài)系統(tǒng)大都是拼起來的 —— 感知與理解、生成各自承擔(dān)一部分能力，再把它們串起來跑。問題也很明顯：理解通過預(yù)訓(xùn)練視覺編碼器（VE）實(shí)現(xiàn)，生成依賴變分自編碼器（VAE），兩套系統(tǒng)的學(xué)習(xí)目標(biāo)不同、表示空間各異，信息在不同模塊之間來回傳遞，難免出現(xiàn)損耗、走樣。這不只是工程上的笨拙，更是一種結(jié)構(gòu)性限制，阻礙了真正原生多模態(tài)智能的形成。

最近的一系列工作釋放出了全新的信號，不執(zhí)著「將系統(tǒng)拼的更好」，轉(zhuǎn)而從底層入手，把圖像、文本、視頻甚至動作放進(jìn)同一個表示空間去學(xué)習(xí)和對齊。商湯科技開源的新一代模型「日日新 SenseNova U1」正是這一方向上的集中實(shí)踐。

上個月，Google DeepMind 用一個通用模型 Vision Banana，證明了「生成即理解」。SenseNova U1 基于行業(yè)首創(chuàng)的 NEO-Unify 原生統(tǒng)一架構(gòu)，讓多模態(tài)理解、推理與生成在模型內(nèi)部形成一條完整的鏈路，而非依靠外部模塊拼接。

此次開源的輕量版 SenseNova U1 Lite 系列包含兩個不同規(guī)格的模型：基于稠密骨干網(wǎng)絡(luò)的 SenseNova-U1-8B-MoT基于 MoE 骨干網(wǎng)絡(luò)的 SenseNova-U1-A3B-MoT（總參數(shù) 38B，理解生成激活參數(shù)各 3B）

模型規(guī)格概覽

模型在 Hugging Face 與 GitHub 開源后，在海外開發(fā)者社區(qū)迅速引發(fā)討論。在 X、Reddit 等平臺，「完全去掉 VE 和 VAE 的統(tǒng)一架構(gòu)」被視為近期多模態(tài)領(lǐng)域最值得關(guān)注的工程實(shí)踐之一；開發(fā)者尤其關(guān)注其在 8B 規(guī)模下能挑戰(zhàn)更大商業(yè)閉源模型的圖文生成與編輯能力，以及完全開源（含代碼、權(quán)重、技術(shù)報告）的策略選擇。

就在日前，商湯科技放出了完整的技術(shù)報告：

技術(shù)報告：https://arxiv.org/abs/2605.12500
模型下載：https://huggingface.co/collections/sensenova/sensenova-u1
GitHub 代碼倉庫：https://github.com/OpenSenseNova/SenseNova-U1

回歸第一性原理

多模態(tài)從拼接走向耦合

語言與視覺并非異質(zhì)信號，而是對同一現(xiàn)實(shí)世界的不同編碼 —— 這是 NEO-Unify 的出發(fā)點(diǎn)，也是商湯科技在設(shè)計 SenseNova U1 時所回歸的底層原則

基于這一原理，NEO-Unify 讓模型直接從接近原始形態(tài)的信息（像素與文字本身）中學(xué)習(xí)，在學(xué)習(xí)過程中形成統(tǒng)一的內(nèi)部表示。理解與生成不再被拆開處理，而在同一體系中統(tǒng)一建模。

下圖為 SenseNova U1 模型及 NEO-Unify 架構(gòu)概覽：

為了實(shí)現(xiàn)這一目標(biāo)，NEO-Unify 需要同時解決以下三組主要矛盾，三者呈遞進(jìn)關(guān)系：從輸入輸出接口層的表示統(tǒng)一，到訓(xùn)練穩(wěn)定性的保障，再到理解與生成參數(shù)層的協(xié)同。

矛盾一（接口層）：消除模塊割裂，打造近無損視覺接口。

傳統(tǒng)模型依賴預(yù)訓(xùn)練的視覺編碼器（如 CLIP）或解碼器（如 VAE），這是語義理解與像素生成之間存在天然表示鴻溝的根源。NEO-Unify 采用了 Encoder-free 設(shè)計：輸入端放棄預(yù)訓(xùn)練 VE，改用兩層卷積加 GELU 激活將圖像轉(zhuǎn)化為 token（每個 token 對應(yīng) 32×32 像素塊）；輸出端同樣放棄 VAE 解碼器，直接用 MLP 預(yù)測原始像素塊。

這種反傳統(tǒng)設(shè)計讓模型擁有了在「統(tǒng)一表示空間」自主學(xué)習(xí)的能力 —— 在提煉高層語義進(jìn)行理解的同時，精確保留局部紋理和文字邊緣以供生成。技術(shù)報告中的消融實(shí)驗(yàn)證實(shí)了這一點(diǎn)：NEO-unify（2B）在 MS COCO 2017 上的圖像重建 PSNR 達(dá) 31.56、SSIM 達(dá) 0.85，接近 Flux VAE 的 32.65 和 0.91，說明近無損輸入既能支持語義理解，也能維持像素級精度，無需依賴任何預(yù)訓(xùn)練編碼器。

矛盾二（訓(xùn)練層）：解決動態(tài)分辨率的信噪比失衡，實(shí)現(xiàn)生成穩(wěn)定性。

在多模態(tài)理解與生成的統(tǒng)一架構(gòu)中，模型需要處理從 256×256 到 2048×2048 的大跨度動態(tài)分辨率。傳統(tǒng)擴(kuò)散模型或 Flow Matching 往往基于固定噪聲先驗(yàn)，當(dāng)分辨率變化劇烈時，像素點(diǎn)數(shù)量級差異會導(dǎo)致模型在不同尺度下信噪比（SNR）不一致 —— 高分辨率下易結(jié)構(gòu)崩壞或過飽和，低分辨率下可能丟失細(xì)節(jié)。

NEO-Unify 的解法是引入分辨率自適應(yīng)噪聲尺度：分辨率越高，生成的 token 數(shù)越多，噪聲標(biāo)準(zhǔn)差就按平方根比例同步上調(diào)，從而使每個 token 在不同尺度下承受大致相同的噪聲能量，保證 Flow Matching 過程中 SNR 分布的一致性。與此同時，這一自適應(yīng)尺度被編碼后作為條件引入去噪器，讓模型在面對不同分辨率輸入時始終保持一致的推理視角。

兩者結(jié)合，保證模型在各種分辨率下生成更加穩(wěn)定，避免尺度切換帶來的訓(xùn)練不收斂和輸出偽影。

矛盾三（參數(shù)層）：以原生 MoT 架構(gòu)實(shí)現(xiàn)「知識共享、專才專用」。

理解任務(wù)需要從圖像中提取語義，生成任務(wù)需要將語義轉(zhuǎn)化為像素 —— 二者目標(biāo)不同，直接共享所有參數(shù)會產(chǎn)生梯度干擾。NEO-Unify 引入原生 Mixture-of-Transformers（MoT）架構(gòu)：理解流與生成流在底層共享自注意力上下文，但在具體的 Q/K/V/O 投影、歸一化及 MLP 層進(jìn)行完全參數(shù)解耦，每層根據(jù) token 類型動態(tài)路由。

這實(shí)現(xiàn)了「知識共享、專才專用」—— 理解與生成從互不干涉走向協(xié)同推進(jìn)，技術(shù)報告的消融實(shí)驗(yàn)顯示，兩種能力在 MoT 骨干中協(xié)同演化，本質(zhì)沖突極小。

此外，為讓一維語言序列與二維圖像結(jié)構(gòu)在同一個 Transformer 架構(gòu)下共存，NEO-Unify 引入了三維 RoPE 旋轉(zhuǎn)位置編碼（T/H/W 三軸各有獨(dú)立頻率基），從底層對齊語言順序和空間結(jié)構(gòu)；采用混合注意力（Mask）模式，文本 token 走標(biāo)準(zhǔn)因果注意力，同塊圖像 token 之間雙向關(guān)注并保持對前置上下文的因果條件 —— 這在保證語言生成的邏輯連貫性，滿足了圖像塊之間空間一致性的需求。

通過一系列架構(gòu)上的創(chuàng)新，SenseNova U1 告訴行業(yè)：真正的多模態(tài)智能不應(yīng)只是給語言模型安上眼睛，要讓模型從誕生的第一天起，就用同一套感官去認(rèn)知和創(chuàng)造世界

數(shù)據(jù)、訓(xùn)推三位一體

打造原生統(tǒng)一引擎

架構(gòu)上的創(chuàng)新構(gòu)成了 SenseNova U1 的設(shè)計核心，而數(shù)據(jù)、訓(xùn)練與推理的深度協(xié)同支撐起了模型的高效運(yùn)行。

訓(xùn)練數(shù)據(jù)：超 3.4 萬億 token 的全感官語料

SenseNova U1 在數(shù)據(jù)層面堪稱「全感官大腦」。其中預(yù)訓(xùn)練語料約 2.1 萬億 token—— 在同類開源統(tǒng)一模型中屬頂量級 —— 涵蓋圖文對、圖注、信息圖理解和純文本，來源經(jīng)過跨源去重、內(nèi)容安全過濾、圖像質(zhì)量過濾和 CLIP 比率平衡重標(biāo)注等。

中期訓(xùn)練階段采用內(nèi)部 SenseNova V6.5 數(shù)據(jù)集，覆蓋通用、Agent 與空間、知識推理和純文本四大類，并通過三階段策劃管道確保質(zhì)量：基于 CLIP 的多樣性采樣→提示增強(qiáng)（從語義表達(dá)、格式約束、角色場景、任務(wù)復(fù)雜度四維擴(kuò)展）→多標(biāo)準(zhǔn)質(zhì)量篩選（正確性、幻覺檢測、指令執(zhí)行三維評估）。

SFT 階段進(jìn)行了高強(qiáng)度指令微調(diào)訓(xùn)練，數(shù)據(jù)覆蓋空間智能、多模態(tài)理解、推理等十個垂直領(lǐng)域。在理解預(yù)熱、生成預(yù)訓(xùn)練、中期訓(xùn)練與 SFT 四個訓(xùn)練階段中，模型累計 token 數(shù)超過 3.4 萬億。

在生成和交錯數(shù)據(jù)側(cè)，語料涵蓋視頻、生活方式、信息圖和推理四類，確保用視覺概念覆蓋的同時強(qiáng)化了人物身份等一致性。一套「隱式 prompt→ 推理過程 → 顯式視覺 prompt」訓(xùn)練流程，將抽象常識和邏輯轉(zhuǎn)化為可驗(yàn)證的畫面。豐富數(shù)據(jù)的引入，讓模型在處理相應(yīng)任務(wù)時游刃有余。

訓(xùn)練過程：「先穩(wěn)態(tài)、再耦合、再對齊、后加速」四步走

SenseNova U1 拋棄了傳統(tǒng)意義上的多任務(wù)混合，采取「漸進(jìn)式能力演進(jìn)」策略，通過一套「先穩(wěn)態(tài)、再耦合、再對齊、后加速」的能力棧，解決了大規(guī)模原生統(tǒng)一模型在多模態(tài)協(xié)同中的不穩(wěn)定性。

第一步，理解預(yù)熱（Warmup）：基于預(yù)訓(xùn)練 NEO 理解模型進(jìn)行注意力融合與全模型繼續(xù)訓(xùn)練，將 NEO 中分離的文本和圖像 QK 投影整合為統(tǒng)一共享布局，恢復(fù)注意力效率，構(gòu)建 SenseNova U1 的語義骨干。

第二步，生成預(yù)訓(xùn)練：凍結(jié)理解分支、專攻生成分支，讓模型在 256 到 2048 的動態(tài)分辨率下掌握穩(wěn)定的圖像生成與編輯能力。

第三步，統(tǒng)一中期訓(xùn)練：兩個分支同時激活，在理解、生成及圖文交錯混合下端到端聯(lián)合訓(xùn)練 84k 步，實(shí)現(xiàn)模態(tài)間的深度耦合。

第四步，統(tǒng)一 SFT：在高質(zhì)量指令執(zhí)行數(shù)據(jù)上微調(diào) 9k 步，強(qiáng)化指令跟隨能力，確保模型精準(zhǔn)執(zhí)行復(fù)雜多模態(tài)任務(wù)。

訓(xùn)練末端引入后期訓(xùn)練（Post-training）：利用 Flow-GRPO 機(jī)制，分兩階段進(jìn)行強(qiáng)化學(xué)習(xí)。

此外，利用改進(jìn)的分布匹配蒸餾（DMD2）技術(shù)將生成步數(shù)從約 100 步蒸餾到 8 步，在保證生成質(zhì)量的前提下，大幅跨越從實(shí)驗(yàn)室模型到工業(yè)級落地的鴻溝

推理系統(tǒng)：解耦部署，F(xiàn)lashAttention3 后端高吞吐

可以將 SenseNova U1 的推理系統(tǒng)想象成一個「復(fù)合大腦」，在對外保持統(tǒng)一接口的同時，對內(nèi)實(shí)現(xiàn)了 LightLLM（負(fù)責(zé)多模態(tài)理解、文本流式輸出和請求調(diào)度）與 LightX2V（負(fù)責(zé)圖像生成）的深度解耦。

這兩個引擎通過鎖頁共享內(nèi)存和優(yōu)化輸出內(nèi)核來高效交換狀態(tài)。解耦設(shè)計帶來三方面實(shí)用優(yōu)勢：第一，允許理解引擎使用面向大模型的張量并行（TP），生成引擎則采用 CFG 并行或序列并行；第二，支持獨(dú)立資源分配，包括分開的 GPU 組、內(nèi)存預(yù)算和批處理策略；第三，使文本密集型和圖像密集型流量能夠獨(dú)立擴(kuò)展、分析與調(diào)優(yōu)。

在關(guān)鍵優(yōu)化上，該系統(tǒng)用到了混合注意力機(jī)制：純文本部分走標(biāo)準(zhǔn)的因果 fast path，僅在處理包含圖像 token 的塊時才動態(tài)擴(kuò)展 key range，按需分配計算量，大幅降低推理冗余開銷。加上 FlashAttention3 后端的加速，在統(tǒng)一多模態(tài) Prefill 階段比傳統(tǒng) Triton 方案快。對于 2048×2048 圖像生成，在 5090 和 L40S GPU 上的每步延遲分別是 0.415 秒和 0.443 秒。這意味著，底層算子得到了進(jìn)一步調(diào)優(yōu)，復(fù)雜的推理和生成在實(shí)際部署中跑得很順。

整個看下來，SenseNova U1 在數(shù)據(jù)、訓(xùn)練與推理的深度協(xié)同中完成了一次工業(yè)級底層范式的「蛻變」：海量知識經(jīng)過四階能力棧精準(zhǔn)轉(zhuǎn)化為跨模態(tài)理解與生成能力，并依托算子級優(yōu)化與解耦的推理系統(tǒng)，打造成高效適配各類商用場景的 AI 生產(chǎn)力工具。

全維度試煉場

開源小模型新頂流來了

為驗(yàn)證原生統(tǒng)一架構(gòu) NEO-Unify 的成色， SenseNova U1 在覆蓋理解、生成、編輯、交錯和智能體的任務(wù)上進(jìn)行了全方位測試。結(jié)果可歸納為三個層次：核心突破性成績、能力無損證明，以及交錯 / 協(xié)同等擴(kuò)展能力。

在拆解技術(shù)細(xì)節(jié)之前，先看一個能直觀感受 SenseNova U1 能力的案例。

模型先理解「雙城記」「生活反差」的 PPT 主題，在符合邏輯與一致性基礎(chǔ)上，進(jìn)行文字與對應(yīng)畫面的連續(xù)輸出。這背后是統(tǒng)一架構(gòu)帶來的「看懂 — 推理 — 生成」的完整鏈路。同時畫面中中文文字密集、版式分區(qū)清晰、配圖與圖標(biāo)完整。文字不錯位、不糊字，這是過去圖像生成模型長期跨不過去的痛點(diǎn)。

這恰好對應(yīng)了接下來的評測數(shù)據(jù)。

核心突破：理解能力不因統(tǒng)一而退化，反超更大規(guī)模模型

在行業(yè)傳統(tǒng)認(rèn)知中，將生成能力整合進(jìn)模型可能會因占用參數(shù)容量而導(dǎo)致理解能力下降。SenseNova U1 的實(shí)戰(zhàn)表現(xiàn)打破了這一擔(dān)憂

在 MMMU、MMMU-Pro 和 MathVision 等高難度專業(yè)推理基準(zhǔn)上，A3B-MoT 成績分別達(dá)到 80.55、72.83 和 79.63，在 MMMU 上超越了 Qwen 3.5-9B 整整 2.15 分，在 MMMU-Pro 上以 2.73 分的優(yōu)勢領(lǐng)先。在空間智能（VSI-Bench：56.9、ViewSpatial：58.52、MindCube-Tiny：70.86）上同樣顯著領(lǐng)先 Qwen 3-VL-30B-A3B 和 Gemma 4-26B-A4B 等同體量的模型。

得益于像素級建模能力，模型對微小文字和復(fù)雜布局有了更強(qiáng)的把握，在文本密集圖像和結(jié)構(gòu)化視覺信息任務(wù)上也沒有因統(tǒng)一架構(gòu)而出現(xiàn)能力退化：OCRBench 達(dá) 91.90 分、OCRBench-v2 達(dá) 68.64 分、MMBench-EN 達(dá) 91.59 分，均超過多個更大規(guī)模的競品。

統(tǒng)一范式也沒有犧牲語言能力。在 MMLU-Pro（84.04）、IFEval（92.39）和 IFBench（79.79）等語言理解與指令執(zhí)行基準(zhǔn)上，A3B-MoT 均處于開源領(lǐng)先水平 —— 尤其是 IFBench 比 Qwen 3.5 - 9B 高出 15.29 分。在 τ2-bench 評測中，總分得分 75.39，證明其具備不錯的長程交互與工具調(diào)用能力。

能力無損證明：生成任務(wù)同樣跑出 SOTA 成績

既然理解能力未受削弱，生成側(cè)的表現(xiàn)更令人期待。結(jié)果同樣沒有令我們失望。

在通用生成基準(zhǔn) GenEval 上，兩款模型均以 0.91 的總分領(lǐng)跑開源陣營（Qwen-Image 為 0.87、BAGEL 為 0.82）；在 DPG-Bench 上，A3B-MoT 以 88.14 分進(jìn)入頂尖開源模型行列，Global 分?jǐn)?shù)更以 94.19 排名所有對比模型第一，體現(xiàn)了在復(fù)雜提示下強(qiáng)大的全局語義規(guī)劃能力。

文字渲染長期是圖像生成模型的軟肋，多語言混排更是難中之難。SenseNova U1 在這一領(lǐng)域取得了突破性成績：在 LongText-Bench 中，8B-MoT 英文和中文得分分別達(dá)到 0.979 和 0.962；CVTG-2K（多區(qū)域復(fù)雜文字）最佳平均詞匯準(zhǔn)確率 0.940，位列開源第一；TIIF-Bench 整體得分 89.74，為所有對比方法最高。在中英文長文本與多區(qū)域文字渲染上達(dá)到開源 SOTA，努力解決中英文混排、長文本排版等商用痛點(diǎn)。

在知識驅(qū)動圖像生成基準(zhǔn) WISE（評測文化、時間、空間、生物、物理、化學(xué)等領(lǐng)域的世界知識利用能力）上，啟用 CoT 后 A3B-MoT 以 0.81 的整體得分達(dá)到所有對比方法最佳，與 GPT-Image-1（0.80）持平，遠(yuǎn)超多數(shù)開源模型 —— 原生統(tǒng)一架構(gòu)不僅支持高質(zhì)量生成，還能將知識理解轉(zhuǎn)化為更準(zhǔn)確的視覺輸出。

擴(kuò)展能力：復(fù)雜信息圖、交錯生成與協(xié)同效應(yīng)一展無余

在衡量圖文交錯生成的 openING 測試中，A3B-MoT 結(jié)合 CoT 以 9.16 的整體得分超越 Nano Banana（8.85）、Wan-Weaver（8.67）和 GPT-4o+DALL-E3（8.20），憑借更強(qiáng)的內(nèi)容完整性、圖像質(zhì)量、圖文連貫性和跨步驟邏輯一致性，在長序列、復(fù)雜情境任務(wù)中表現(xiàn)突出。

在理解與生成協(xié)同的 RealUnify 基準(zhǔn)（考察理解增強(qiáng)生成 UEG 和生成增強(qiáng)理解 GEU 兩個方向）上，8B-MoT 整體平均得分 52.4，領(lǐng)先所有開源競品（BAGEL 為 42.9、Ovis-U1 為 35.4），證明 SenseNova U1 能在復(fù)雜統(tǒng)一任務(wù)中真正整合理解與生成能力，而不是簡單將兩種能力放在同一主干中。

商業(yè)視覺內(nèi)容基準(zhǔn) BizGenEval 中，SenseNova U1 在布局、屬性、文字渲染和知識準(zhǔn)確性多個維度均顯著領(lǐng)先主流開源模型，原生統(tǒng)一架構(gòu)在高復(fù)雜度專業(yè)視覺內(nèi)容生成上展現(xiàn)出顯著潛力。

編輯能力同樣突出，模型在 GEdit-Bench（7.47/7.32）與 ImgEdit（3.90/3.91）等主流榜單上表現(xiàn)穩(wěn)健，全面覆蓋了物體添加、局部替換、風(fēng)格轉(zhuǎn)換、背景變更等常見操作。

值得一提的是推理驅(qū)動編輯 ——模型并不是盲目修圖，文字渲染、因果、空間和邏輯等方面均需先理解再修改。RISEBench 測試中，A3B-MoT 在開啟 CoT 后以 30.0 的開源最優(yōu)得分，遠(yuǎn)超 BAGEL（6.1）和 FLUX.1-Kontext-Dev（5.8），表明 SenseNova U1 的優(yōu)勢不僅在于執(zhí)行編輯，更在于編輯前所需的理解與推理能力。

一個個基準(zhǔn)成績的突破，是對 SenseNova U1 代表的「原生統(tǒng)一」范式可行性的有力自證。

結(jié)語

SenseNova U1 的表現(xiàn)固然亮眼，但比指標(biāo)更值得關(guān)注的，是它所指向的技術(shù)路徑。

多模態(tài)正在從過去依賴模塊拼接、逐步對齊的工程思路，轉(zhuǎn)向更一體化的原生建模。能力不靠單純拼接而來，開始「長在一起」。圖像和語言不只是放在同一個系統(tǒng)里使用，更在同一條鏈路中被協(xié)同理解與生成。過去多模態(tài)主要解決的是「能不能用」的問題，現(xiàn)在回答的是「能不能更接近人類的使用方式」。

在原生統(tǒng)一架構(gòu)逐漸成熟的背景下，「以小搏大」將不再是偶發(fā)現(xiàn)象，而是模型設(shè)計哲學(xué)轉(zhuǎn)變帶來的必然結(jié)果。消融實(shí)驗(yàn)已經(jīng)表明，NEO-Unify 在數(shù)據(jù)擴(kuò)展效率上明顯優(yōu)于同類方法 —— 以更少的訓(xùn)練 token 實(shí)現(xiàn)更高的性能，這意味著隨著數(shù)據(jù)規(guī)模進(jìn)一步擴(kuò)大，這一架構(gòu)的優(yōu)勢還將持續(xù)放大。

下一個值得關(guān)注的問題，是原生統(tǒng)一范式在視頻、音頻乃至具身動作等更多模態(tài)上的擴(kuò)展邊界 —— 技術(shù)報告中已披露了 VLA（視覺 - 語言 - 動作）和世界建模（WM）的初步實(shí)驗(yàn)，方向隱約可見。從這個角度來看，以 NEO-unify 為代表的原生統(tǒng)一架構(gòu)探索，重新定義了多模態(tài)模型該如何被構(gòu)建、以及最終會走向哪里。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.