![]()
編輯|杜偉
當(dāng) AI 行業(yè)的目光集中在 Agent、工具調(diào)用、長程任務(wù)這些上層應(yīng)用之時,底層的多模態(tài)架構(gòu)正在經(jīng)歷一次更安靜、也更徹底的范式轉(zhuǎn)變 —— 它要回答的是一個看似樸素的問題:理解與生成,是否天生就該是兩件事
長期以來,多模態(tài)系統(tǒng)大都是拼起來的 —— 感知與理解、生成各自承擔(dān)一部分能力,再把它們串起來跑。問題也很明顯:理解通過預(yù)訓(xùn)練視覺編碼器(VE)實(shí)現(xiàn),生成依賴變分自編碼器(VAE),兩套系統(tǒng)的學(xué)習(xí)目標(biāo)不同、表示空間各異,信息在不同模塊之間來回傳遞,難免出現(xiàn)損耗、走樣。這不只是工程上的笨拙,更是一種結(jié)構(gòu)性限制,阻礙了真正原生多模態(tài)智能的形成。
最近的一系列工作釋放出了全新的信號,不執(zhí)著「將系統(tǒng)拼的更好」,轉(zhuǎn)而從底層入手,把圖像、文本、視頻甚至動作放進(jìn)同一個表示空間去學(xué)習(xí)和對齊。商湯科技開源的新一代模型「日日新 SenseNova U1」正是這一方向上的集中實(shí)踐。
上個月,Google DeepMind 用一個通用模型 Vision Banana,證明了「生成即理解」。SenseNova U1 基于行業(yè)首創(chuàng)的 NEO-Unify 原生統(tǒng)一架構(gòu),讓多模態(tài)理解、推理與生成在模型內(nèi)部形成一條完整的鏈路,而非依靠外部模塊拼接。
此次開源的輕量版 SenseNova U1 Lite 系列包含兩個不同規(guī)格的模型:基于稠密骨干網(wǎng)絡(luò)的 SenseNova-U1-8B-MoT基于 MoE 骨干網(wǎng)絡(luò)的 SenseNova-U1-A3B-MoT(總參數(shù) 38B,理解生成激活參數(shù)各 3B)
![]()
模型規(guī)格概覽
模型在 Hugging Face 與 GitHub 開源后,在海外開發(fā)者社區(qū)迅速引發(fā)討論。在 X、Reddit 等平臺,「完全去掉 VE 和 VAE 的統(tǒng)一架構(gòu)」被視為近期多模態(tài)領(lǐng)域最值得關(guān)注的工程實(shí)踐之一;開發(fā)者尤其關(guān)注其在 8B 規(guī)模下能挑戰(zhàn)更大商業(yè)閉源模型的圖文生成與編輯能力,以及完全開源(含代碼、權(quán)重、技術(shù)報告)的策略選擇。
![]()
就在日前,商湯科技放出了完整的技術(shù)報告:
![]()
- 技術(shù)報告:https://arxiv.org/abs/2605.12500
- 模型下載:https://huggingface.co/collections/sensenova/sensenova-u1
- GitHub 代碼倉庫:https://github.com/OpenSenseNova/SenseNova-U1
回歸第一性原理
多模態(tài)從拼接走向耦合
語言與視覺并非異質(zhì)信號,而是對同一現(xiàn)實(shí)世界的不同編碼 —— 這是 NEO-Unify 的出發(fā)點(diǎn),也是商湯科技在設(shè)計 SenseNova U1 時所回歸的底層原則
基于這一原理,NEO-Unify 讓模型直接從接近原始形態(tài)的信息(像素與文字本身)中學(xué)習(xí),在學(xué)習(xí)過程中形成統(tǒng)一的內(nèi)部表示。理解與生成不再被拆開處理,而在同一體系中統(tǒng)一建模。
下圖為 SenseNova U1 模型及 NEO-Unify 架構(gòu)概覽:
![]()
![]()
為了實(shí)現(xiàn)這一目標(biāo),NEO-Unify 需要同時解決以下三組主要矛盾,三者呈遞進(jìn)關(guān)系:從輸入輸出接口層的表示統(tǒng)一,到訓(xùn)練穩(wěn)定性的保障,再到理解與生成參數(shù)層的協(xié)同。
矛盾一(接口層):消除模塊割裂,打造近無損視覺接口。
傳統(tǒng)模型依賴預(yù)訓(xùn)練的視覺編碼器(如 CLIP)或解碼器(如 VAE),這是語義理解與像素生成之間存在天然表示鴻溝的根源。NEO-Unify 采用了 Encoder-free 設(shè)計:輸入端放棄預(yù)訓(xùn)練 VE,改用兩層卷積加 GELU 激活將圖像轉(zhuǎn)化為 token(每個 token 對應(yīng) 32×32 像素塊);輸出端同樣放棄 VAE 解碼器,直接用 MLP 預(yù)測原始像素塊。
這種反傳統(tǒng)設(shè)計讓模型擁有了在「統(tǒng)一表示空間」自主學(xué)習(xí)的能力 —— 在提煉高層語義進(jìn)行理解的同時,精確保留局部紋理和文字邊緣以供生成。技術(shù)報告中的消融實(shí)驗(yàn)證實(shí)了這一點(diǎn):NEO-unify(2B)在 MS COCO 2017 上的圖像重建 PSNR 達(dá) 31.56、SSIM 達(dá) 0.85,接近 Flux VAE 的 32.65 和 0.91,說明近無損輸入既能支持語義理解,也能維持像素級精度,無需依賴任何預(yù)訓(xùn)練編碼器。
矛盾二(訓(xùn)練層):解決動態(tài)分辨率的信噪比失衡,實(shí)現(xiàn)生成穩(wěn)定性。
在多模態(tài)理解與生成的統(tǒng)一架構(gòu)中,模型需要處理從 256×256 到 2048×2048 的大跨度動態(tài)分辨率。傳統(tǒng)擴(kuò)散模型或 Flow Matching 往往基于固定噪聲先驗(yàn),當(dāng)分辨率變化劇烈時,像素點(diǎn)數(shù)量級差異會導(dǎo)致模型在不同尺度下信噪比(SNR)不一致 —— 高分辨率下易結(jié)構(gòu)崩壞或過飽和,低分辨率下可能丟失細(xì)節(jié)。
NEO-Unify 的解法是引入分辨率自適應(yīng)噪聲尺度:分辨率越高,生成的 token 數(shù)越多,噪聲標(biāo)準(zhǔn)差就按平方根比例同步上調(diào),從而使每個 token 在不同尺度下承受大致相同的噪聲能量,保證 Flow Matching 過程中 SNR 分布的一致性。與此同時,這一自適應(yīng)尺度被編碼后作為條件引入去噪器,讓模型在面對不同分辨率輸入時始終保持一致的推理視角。
兩者結(jié)合,保證模型在各種分辨率下生成更加穩(wěn)定,避免尺度切換帶來的訓(xùn)練不收斂和輸出偽影。
矛盾三(參數(shù)層):以原生 MoT 架構(gòu)實(shí)現(xiàn)「知識共享、專才專用」。
理解任務(wù)需要從圖像中提取語義,生成任務(wù)需要將語義轉(zhuǎn)化為像素 —— 二者目標(biāo)不同,直接共享所有參數(shù)會產(chǎn)生梯度干擾。NEO-Unify 引入原生 Mixture-of-Transformers(MoT)架構(gòu):理解流與生成流在底層共享自注意力上下文,但在具體的 Q/K/V/O 投影、歸一化及 MLP 層進(jìn)行完全參數(shù)解耦,每層根據(jù) token 類型動態(tài)路由。
這實(shí)現(xiàn)了「知識共享、專才專用」—— 理解與生成從互不干涉走向協(xié)同推進(jìn),技術(shù)報告的消融實(shí)驗(yàn)顯示,兩種能力在 MoT 骨干中協(xié)同演化,本質(zhì)沖突極小。
此外,為讓一維語言序列與二維圖像結(jié)構(gòu)在同一個 Transformer 架構(gòu)下共存,NEO-Unify 引入了三維 RoPE 旋轉(zhuǎn)位置編碼(T/H/W 三軸各有獨(dú)立頻率基),從底層對齊語言順序和空間結(jié)構(gòu);采用混合注意力(Mask)模式,文本 token 走標(biāo)準(zhǔn)因果注意力,同塊圖像 token 之間雙向關(guān)注并保持對前置上下文的因果條件 —— 這在保證語言生成的邏輯連貫性,滿足了圖像塊之間空間一致性的需求。
通過一系列架構(gòu)上的創(chuàng)新,SenseNova U1 告訴行業(yè):真正的多模態(tài)智能不應(yīng)只是給語言模型安上眼睛,要讓模型從誕生的第一天起,就用同一套感官去認(rèn)知和創(chuàng)造世界
數(shù)據(jù)、訓(xùn)推三位一體
打造原生統(tǒng)一引擎
架構(gòu)上的創(chuàng)新構(gòu)成了 SenseNova U1 的設(shè)計核心,而數(shù)據(jù)、訓(xùn)練與推理的深度協(xié)同支撐起了模型的高效運(yùn)行。
訓(xùn)練數(shù)據(jù):超 3.4 萬億 token 的全感官語料
SenseNova U1 在數(shù)據(jù)層面堪稱「全感官大腦」。其中預(yù)訓(xùn)練語料約 2.1 萬億 token—— 在同類開源統(tǒng)一模型中屬頂量級 —— 涵蓋圖文對、圖注、信息圖理解和純文本,來源經(jīng)過跨源去重、內(nèi)容安全過濾、圖像質(zhì)量過濾和 CLIP 比率平衡重標(biāo)注等。
中期訓(xùn)練階段采用內(nèi)部 SenseNova V6.5 數(shù)據(jù)集,覆蓋通用、Agent 與空間、知識推理和純文本四大類,并通過三階段策劃管道確保質(zhì)量:基于 CLIP 的多樣性采樣→提示增強(qiáng)(從語義表達(dá)、格式約束、角色場景、任務(wù)復(fù)雜度四維擴(kuò)展)→多標(biāo)準(zhǔn)質(zhì)量篩選(正確性、幻覺檢測、指令執(zhí)行三維評估)。
![]()
SFT 階段進(jìn)行了高強(qiáng)度指令微調(diào)訓(xùn)練,數(shù)據(jù)覆蓋空間智能、多模態(tài)理解、推理等十個垂直領(lǐng)域。在理解預(yù)熱、生成預(yù)訓(xùn)練、中期訓(xùn)練與 SFT 四個訓(xùn)練階段中,模型累計 token 數(shù)超過 3.4 萬億。
在生成和交錯數(shù)據(jù)側(cè),語料涵蓋視頻、生活方式、信息圖和推理四類,確保用視覺概念覆蓋的同時強(qiáng)化了人物身份等一致性。一套「隱式 prompt→ 推理過程 → 顯式視覺 prompt」訓(xùn)練流程, 將抽象常識和邏輯轉(zhuǎn)化為可驗(yàn)證的畫面。豐富數(shù)據(jù)的引入,讓模型在處理相應(yīng)任務(wù)時游刃有余。
![]()
訓(xùn)練過程:「先穩(wěn)態(tài)、再耦合、再對齊、后加速」四步走
SenseNova U1 拋棄了傳統(tǒng)意義上的多任務(wù)混合,采取「漸進(jìn)式能力演進(jìn)」策略,通過一套「先穩(wěn)態(tài)、再耦合、再對齊、后加速」的能力棧,解決了大規(guī)模原生統(tǒng)一模型在多模態(tài)協(xié)同中的不穩(wěn)定性。
第一步,理解預(yù)熱(Warmup):基于預(yù)訓(xùn)練 NEO 理解模型進(jìn)行注意力融合與全模型繼續(xù)訓(xùn)練,將 NEO 中分離的文本和圖像 QK 投影整合為統(tǒng)一共享布局,恢復(fù)注意力效率,構(gòu)建 SenseNova U1 的語義骨干。
第二步,生成預(yù)訓(xùn)練:凍結(jié)理解分支、專攻生成分支,讓模型在 256 到 2048 的動態(tài)分辨率下掌握穩(wěn)定的圖像生成與編輯能力。
第三步,統(tǒng)一中期訓(xùn)練:兩個分支同時激活,在理解、生成及圖文交錯混合下端到端聯(lián)合訓(xùn)練 84k 步,實(shí)現(xiàn)模態(tài)間的深度耦合。
第四步,統(tǒng)一 SFT:在高質(zhì)量指令執(zhí)行數(shù)據(jù)上微調(diào) 9k 步,強(qiáng)化指令跟隨能力,確保模型精準(zhǔn)執(zhí)行復(fù)雜多模態(tài)任務(wù)。
![]()
訓(xùn)練末端引入后期訓(xùn)練(Post-training):利用 Flow-GRPO 機(jī)制,分兩階段進(jìn)行強(qiáng)化學(xué)習(xí)。
此外,利用改進(jìn)的分布匹配蒸餾(DMD2)技術(shù)將生成步數(shù)從約 100 步蒸餾到 8 步,在保證生成質(zhì)量的前提下,大幅跨越從實(shí)驗(yàn)室模型到工業(yè)級落地的鴻溝
推理系統(tǒng):解耦部署,F(xiàn)lashAttention3 后端高吞吐
可以將 SenseNova U1 的推理系統(tǒng)想象成一個「復(fù)合大腦」,在對外保持統(tǒng)一接口的同時,對內(nèi)實(shí)現(xiàn)了 LightLLM(負(fù)責(zé)多模態(tài)理解、文本流式輸出和請求調(diào)度)與 LightX2V(負(fù)責(zé)圖像生成)的深度解耦。
![]()
這兩個引擎通過鎖頁共享內(nèi)存和優(yōu)化輸出內(nèi)核來高效交換狀態(tài)。解耦設(shè)計帶來三方面實(shí)用優(yōu)勢:第一,允許理解引擎使用面向大模型的張量并行(TP),生成引擎則采用 CFG 并行或序列并行;第二,支持獨(dú)立資源分配,包括分開的 GPU 組、內(nèi)存預(yù)算和批處理策略;第三,使文本密集型和圖像密集型流量能夠獨(dú)立擴(kuò)展、分析與調(diào)優(yōu)。
在關(guān)鍵優(yōu)化上,該系統(tǒng)用到了混合注意力機(jī)制:純文本部分走標(biāo)準(zhǔn)的因果 fast path,僅在處理包含圖像 token 的塊時才動態(tài)擴(kuò)展 key range,按需分配計算量,大幅降低推理冗余開銷。加上 FlashAttention3 后端的加速,在統(tǒng)一多模態(tài) Prefill 階段比傳統(tǒng) Triton 方案快。對于 2048×2048 圖像生成,在 5090 和 L40S GPU 上的每步延遲分別是 0.415 秒和 0.443 秒。這意味著,底層算子得到了進(jìn)一步調(diào)優(yōu),復(fù)雜的推理和生成在實(shí)際部署中跑得很順。
整個看下來,SenseNova U1 在數(shù)據(jù)、訓(xùn)練與推理的深度協(xié)同中完成了一次工業(yè)級底層范式的「蛻變」:海量知識經(jīng)過四階能力棧精準(zhǔn)轉(zhuǎn)化為跨模態(tài)理解與生成能力,并依托算子級優(yōu)化與解耦的推理系統(tǒng),打造成高效適配各類商用場景的 AI 生產(chǎn)力工具。
全維度試煉場
開源小模型新頂流來了
為驗(yàn)證原生統(tǒng)一架構(gòu) NEO-Unify 的成色, SenseNova U1 在覆蓋理解、生成、編輯、交錯和智能體的任務(wù)上進(jìn)行了全方位測試。結(jié)果可歸納為三個層次:核心突破性成績、能力無損證明,以及交錯 / 協(xié)同等擴(kuò)展能力。
在拆解技術(shù)細(xì)節(jié)之前,先看一個能直觀感受 SenseNova U1 能力的案例。
模型先理解「雙城記」「生活反差」的 PPT 主題,在符合邏輯與一致性基礎(chǔ)上,進(jìn)行文字與對應(yīng)畫面的連續(xù)輸出。這背后是統(tǒng)一架構(gòu)帶來的「看懂 — 推理 — 生成」的完整鏈路。同時畫面中中文文字密集、版式分區(qū)清晰、配圖與圖標(biāo)完整。文字不錯位、不糊字,這是過去圖像生成模型長期跨不過去的痛點(diǎn)。
![]()
這恰好對應(yīng)了接下來的評測數(shù)據(jù)。
核心突破:理解能力不因統(tǒng)一而退化,反超更大規(guī)模模型
在行業(yè)傳統(tǒng)認(rèn)知中,將生成能力整合進(jìn)模型可能會因占用參數(shù)容量而導(dǎo)致理解能力下降。SenseNova U1 的實(shí)戰(zhàn)表現(xiàn)打破了這一擔(dān)憂
在 MMMU、MMMU-Pro 和 MathVision 等高難度專業(yè)推理基準(zhǔn)上,A3B-MoT 成績分別達(dá)到 80.55、72.83 和 79.63,在 MMMU 上超越了 Qwen 3.5-9B 整整 2.15 分,在 MMMU-Pro 上以 2.73 分的優(yōu)勢領(lǐng)先。在空間智能(VSI-Bench:56.9、ViewSpatial:58.52、MindCube-Tiny:70.86)上同樣顯著領(lǐng)先 Qwen 3-VL-30B-A3B 和 Gemma 4-26B-A4B 等同體量的模型。
得益于像素級建模能力,模型對微小文字和復(fù)雜布局有了更強(qiáng)的把握,在文本密集圖像和結(jié)構(gòu)化視覺信息任務(wù)上也沒有因統(tǒng)一架構(gòu)而出現(xiàn)能力退化:OCRBench 達(dá) 91.90 分、OCRBench-v2 達(dá) 68.64 分、MMBench-EN 達(dá) 91.59 分,均超過多個更大規(guī)模的競品。
![]()
統(tǒng)一范式也沒有犧牲語言能力。在 MMLU-Pro(84.04)、IFEval(92.39)和 IFBench(79.79)等語言理解與指令執(zhí)行基準(zhǔn)上,A3B-MoT 均處于開源領(lǐng)先水平 —— 尤其是 IFBench 比 Qwen 3.5 - 9B 高出 15.29 分。在 τ2-bench 評測中,總分得分 75.39, 證明其具備不錯的長程交互與工具調(diào)用能力。
![]()
能力無損證明:生成任務(wù)同樣跑出 SOTA 成績
既然理解能力未受削弱,生成側(cè)的表現(xiàn)更令人期待。結(jié)果同樣沒有令我們失望。
在通用生成基準(zhǔn) GenEval 上,兩款模型均以 0.91 的總分領(lǐng)跑開源陣營(Qwen-Image 為 0.87、BAGEL 為 0.82);在 DPG-Bench 上,A3B-MoT 以 88.14 分進(jìn)入頂尖開源模型行列,Global 分?jǐn)?shù)更以 94.19 排名所有對比模型第一,體現(xiàn)了在復(fù)雜提示下強(qiáng)大的全局語義規(guī)劃能力。
![]()
文字渲染長期是圖像生成模型的軟肋,多語言混排更是難中之難。SenseNova U1 在這一領(lǐng)域取得了突破性成績:在 LongText-Bench 中,8B-MoT 英文和中文得分分別達(dá)到 0.979 和 0.962;CVTG-2K(多區(qū)域復(fù)雜文字)最佳平均詞匯準(zhǔn)確率 0.940,位列開源第一;TIIF-Bench 整體得分 89.74,為所有對比方法最高。在中英文長文本與多區(qū)域文字渲染上達(dá)到開源 SOTA,努力解決中英文混排、長文本排版等商用痛點(diǎn)。
在知識驅(qū)動圖像生成基準(zhǔn) WISE(評測文化、時間、空間、生物、物理、化學(xué)等領(lǐng)域的世界知識利用能力)上,啟用 CoT 后 A3B-MoT 以 0.81 的整體得分達(dá)到所有對比方法最佳,與 GPT-Image-1(0.80)持平,遠(yuǎn)超多數(shù)開源模型 —— 原生統(tǒng)一架構(gòu)不僅支持高質(zhì)量生成,還能將知識理解轉(zhuǎn)化為更準(zhǔn)確的視覺輸出。
擴(kuò)展能力:復(fù)雜信息圖、交錯生成與協(xié)同效應(yīng)一展無余
在衡量圖文交錯生成的 openING 測試中,A3B-MoT 結(jié)合 CoT 以 9.16 的整體得分超越 Nano Banana(8.85)、Wan-Weaver(8.67)和 GPT-4o+DALL-E3(8.20),憑借更強(qiáng)的內(nèi)容完整性、圖像質(zhì)量、圖文連貫性和跨步驟邏輯一致性,在長序列、復(fù)雜情境任務(wù)中表現(xiàn)突出。
![]()
在理解與生成協(xié)同的 RealUnify 基準(zhǔn)(考察理解增強(qiáng)生成 UEG 和生成增強(qiáng)理解 GEU 兩個方向)上,8B-MoT 整體平均得分 52.4,領(lǐng)先所有開源競品(BAGEL 為 42.9、Ovis-U1 為 35.4),證明 SenseNova U1 能在復(fù)雜統(tǒng)一任務(wù)中真正整合理解與生成能力,而不是簡單將兩種能力放在同一主干中。
![]()
商業(yè)視覺內(nèi)容基準(zhǔn) BizGenEval 中,SenseNova U1 在布局、屬性、文字渲染和知識準(zhǔn)確性多個維度均顯著領(lǐng)先主流開源模型,原生統(tǒng)一架構(gòu)在高復(fù)雜度專業(yè)視覺內(nèi)容生成上展現(xiàn)出顯著潛力。
![]()
編輯能力同樣突出,模型在 GEdit-Bench(7.47/7.32)與 ImgEdit(3.90/3.91)等主流榜單上表現(xiàn)穩(wěn)健,全面覆蓋了物體添加、局部替換、風(fēng)格轉(zhuǎn)換、背景變更等常見操作。
![]()
值得一提的是推理驅(qū)動編輯 ——模型并不是盲目修圖,文字渲染、因果、空間和邏輯等方面均需先理解再修改。RISEBench 測試中,A3B-MoT 在開啟 CoT 后以 30.0 的開源最優(yōu)得分,遠(yuǎn)超 BAGEL(6.1)和 FLUX.1-Kontext-Dev(5.8),表明 SenseNova U1 的優(yōu)勢不僅在于執(zhí)行編輯,更在于編輯前所需的理解與推理能力。
![]()
一個個基準(zhǔn)成績的突破,是對 SenseNova U1 代表的「原生統(tǒng)一」范式可行性的有力自證。
結(jié)語
SenseNova U1 的表現(xiàn)固然亮眼,但比指標(biāo)更值得關(guān)注的,是它所指向的技術(shù)路徑。
多模態(tài)正在從過去依賴模塊拼接、逐步對齊的工程思路,轉(zhuǎn)向更一體化的原生建模。能力不靠單純拼接而來,開始「長在一起」。圖像和語言不只是放在同一個系統(tǒng)里使用,更在同一條鏈路中被協(xié)同理解與生成。過去多模態(tài)主要解決的是「能不能用」的問題,現(xiàn)在回答的是「能不能更接近人類的使用方式」。
在原生統(tǒng)一架構(gòu)逐漸成熟的背景下,「以小搏大」將不再是偶發(fā)現(xiàn)象,而是模型設(shè)計哲學(xué)轉(zhuǎn)變帶來的必然結(jié)果。消融實(shí)驗(yàn)已經(jīng)表明,NEO-Unify 在數(shù)據(jù)擴(kuò)展效率上明顯優(yōu)于同類方法 —— 以更少的訓(xùn)練 token 實(shí)現(xiàn)更高的性能,這意味著隨著數(shù)據(jù)規(guī)模進(jìn)一步擴(kuò)大,這一架構(gòu)的優(yōu)勢還將持續(xù)放大。
下一個值得關(guān)注的問題,是原生統(tǒng)一范式在視頻、音頻乃至具身動作等更多模態(tài)上的擴(kuò)展邊界 —— 技術(shù)報告中已披露了 VLA(視覺 - 語言 - 動作)和世界建模(WM)的初步實(shí)驗(yàn),方向隱約可見。從這個角度來看,以 NEO-unify 為代表的原生統(tǒng)一架構(gòu)探索,重新定義了多模態(tài)模型該如何被構(gòu)建、以及最終會走向哪里。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.