網易首頁 > 網易號 > 正文申請入駐

去掉 VAE 之后，商湯用 8B 參數重新定義了開源生圖的上限

2026-05-12 18:17:31　來源: AI科技評論

廣東舉報

分享至

多模態理解與生成的真統一。

作者丨吳海明

編輯丨馬曉寧梁丙鑒

開源一周多，GitHub 破 1,500 Star，沖上HuggingFace趨勢榜——商湯SenseNova U1 在開發者社區引發的熱度，和這個模型本身的技術野心一樣不尋常。它做的事情，是把多模態理解和生成這兩件事，真正塞進同一個大腦。

開發者在討論什么？除了效果有多驚艷，還有一個更底層的問題：為什么這次把VAE也去掉了？從 Stable Diffusion 到 FLUX，幾乎所有主流擴散模型都依賴變分自編碼器（VAE）把圖像壓進潛空間，這是近年來整個圖像生成技術棧的地基。SenseNova U1 的 NEO-unify 架構選擇把它整個拆掉，直接在像素層面端到端建模語言與視覺。這不是工程優化，是架構層面的重新選邊站。

HuggingFace 社區的熱門討論包括「能否在單張 RTX 5090 上運行」、「是否會有更輕量版本」等極具落地指向的問題，說明已經有大量開發者在認真跑通它。有開發者評價稱，這是「終于有人在原生統一方向上認真做了工程落地」，和此前的偽統一架構完全不可同日而語。

與此同時，模型以 Apache 2.0 協議完全開源，支持商用，發布后不到兩周，團隊已陸續推出 8 步推理加速版、LoRA 微調版、GGUF 量化版及低顯存layer-offload 推理模式，迭代節奏之快，也是社區熱度持續的原因之一。

多模態的「兩條腿走路」，走了太久

多模態的理解與生成，長期以來都是“兩條腿走路”。在多模態理解方面，以GPT-4V、LLaVA、Qwen-VL 為代表的視覺語言模型（VLM）能夠執行復雜的圖像描述、視覺問答和推理任務，而圖像生成技術，則有Stable Diffusion、FLUX、DALL-E 3 為代表的擴散模型。兩條技術路線雖然各有突破，但長期以來因獨立演進，形成了截然不同的架構范式，是不爭的事實。

變革最初發生在 2025 年，GPT-4o 的統一多模態能力引爆了業界對統一架構的追求，也就是用一款模型既能理解圖像內容，又能生成高質量圖像。不過業界普遍推測，GPT-4o的圖像理解能力仍然是依賴視覺編碼器提取圖像特征實現，這款模型本身也并不原生生成高質量圖像，而是依賴集成的DALL-E 3。

實現路徑之所以重要，是因為它關系到模型的多模態能力是否真正實現了統一。以 GPT-4o 為代表的混合架構雖然在物理上共享部分參數，但是理解與生成在特征表示和計算路徑上仍相對獨立。這種不同模塊接力完成任務的路徑，不可避免地導致了模型冗余、能力割裂和交互障礙。

NEO-unify：真正靠同一個大腦做到這件事

真正靠同一個大腦做到這件事，曾經是很多人的設想，今天被商湯實現了。SenseNova U1 系列模型基于商湯于今年 3月自主研發的NEO-unify 架構，率先在單一模型架構上統一多模態理解、推理與生成，實現了從「模態集成」向「原生統一」的范式跨越。

NEO-unify 架構的核心突破在于，它徹底摒棄了視覺編碼器（VE）和變分自編碼器（VAE），直接從像素和文本進行端到端學習。商湯在官方文章里打了個比方，傳統架構像“說不同語言的人組成的工作組”，而SenseNova U1更像「一個從一開始就同時掌握多項技能的人」。

這一設計的技術意義在于：VAE 的壓縮過程本質上是有損的，開發者為此花了數年時間調參和打補丁；而 NEO-unify 直接在像素層面建模語言與視覺信息，像素與詞語的信息從一開始就在同一個表征空間里共同參與每一層計算，消除了跨模塊傳遞帶來的信息損耗。

圖注：該框架結合了（1）近無損視覺接口，（2）由兩層卷積編碼與類 MLP 編碼層實現，以及（3）原生的混合 Transformer（MoT）主干架構。架構重點在于同時解決三組?盾：語義抽象與像素細節的共同表征、理解與?成的協同、語?因果性與圖像空間?致性。

到此為止，我們才能說端到端統一框架真正得到了實現。下到一次圖像生成的效果，上到整個多模態模型的智能上限，都和這一里程碑的實現與否休戚相關。

本次開源的 SenseNova U1 Lite，包含兩個不同規格的模型：

? 基于稠密骨干網絡的 SenseNova-U1-8B-MoT：理解與生成兩條分支參數約 9.37B / 8.19B

? 基于混合專家（MoE）骨干網絡的 SenseNova-U1-A3B-MoT：理解分支約 30.54B，生成分支約 8.2B，每 token 激活 top-8 專家，實際活躍參數約 3B

模型測評：數據說話

在商湯最新發布的U1技術報告中，有一些數據格外亮眼。在涵蓋圖像理解、圖像生成與編輯、空間智能和視覺推理的多項基準測試中，8B-MoT均達到同量級開源模型SOTA 水平，甚至在部分指標上超越了部分大型商業閉源模型。

圖注：SenseNova-U1 與其他頂級多模態理解模型在多模態基準測試（Benchmarks）上的對比。

圖注：SenseNova-U1 與僅具備理解能力的頂級模型在純文本基準測試（Benchmarks）上的對比

圖注：GenEval 上的定量評估結果

從上表可以看出，SenseNova U1 實現了理解、生成、編輯、交錯和智能體能力的一體融合，形成了相對均衡的能力譜系。關鍵數據上，GenEval總分約0.91-0.92，OneIG中文文字渲染達0.977，信息圖生成領先多數開放模型，多模態理解MMMU達80.55——這些數字發生在同一個模型內部，而不是多個專用模型的拼接。

技術報告中一個值得單獨拿出來說的結論是：統一架構具備更高數據效率。NEO-unify相比類似統一模型BAGEL，在更少訓練token 下取得了更好表現。原因在于原生像素-文本接口減少了跨模塊對齊成本，MoT 又讓兩類能力共享上下文、互相提供監督信號，訓練數據利用率因此更高。

在生成延遲與平均性能的綜合對比中，SenseNova U1 Lite 在保證圖像生成質量比肩 Qwen-Image 2.0 Pro、Seedream 4.5 等大型閉源模型的同時，推理響應速度也展現出顯著優勢，尤其在復雜信息圖（Infographic）生成任務中，控制力超出預期。

更值得注意的是，作為最強開源生圖模型的SenseNova U1 Lite，僅僅只有8B的體量。光是這個數字本身，就意味著落地上的巨大潛力。

實測與部署方案

回到生產場景，SenseNova U1 對長文檔和數據圖表進行總結分析、生成高質量信息圖表的能力，有著廣闊的應用空間。我們也針對性地設計了一個任務，看看SenseNova U1 在實際工作流中的表現。

先讓U1畫一幅云南的水彩風景畫，用連續圖文創作輸出的方式，展示從線稿到上色完稿的逐步過程。SenseNova U1 能夠很好的理解要求，進行符合邏輯的連貫輸出，并保持畫面信息的一致性。

同樣是在生產場景，圖文交錯生成、帶圖思考背后的一致性也讓 SenseNova U1 帶來了更多可能性。在下面這個用例中，我們請它為一座建筑群設計了7步分鏡，覆蓋了從二維底圖到帶有好萊塢級CG效果的人視街景。

信息圖生成方面，我們先讓 SenseNova U1 根據公開信息，做了一份 5 月院線電影觀影指南。

觀影指南是一個關鍵信息高度密集的場景，每部電影的片名、日期、主題等標簽都需要保證可讀，在文字渲染準確性的難關之上，這又對SenseNova U1 處理多對象結構化排版的能力提出了考驗。

此時文字的清晰呈現已經成為了最基本要求，更進一步的表現，是在高信息密度的約束下，仍然保持雜志級的排版審美。平面設計師的排版能力，與產品經理的信息架構能力，這二者的交叉點，恰恰是最容易暴露AI 能力的短板。

為了進一步測試 SenseNova U1 的結構化敘事和設計能力，我們又讓它做了一份介紹《甄嬛傳》中“滴血驗親”這場戲的信息圖，并且把關鍵臺詞融入設計中。

兩份信息圖都沒有拿模板套作的痕跡，每一頁都做到了根據內容密度自適應，信息圖表和數據可視化都有對應的視覺呈現，字體、顏色、元素比例在視覺效果上也很協調。

這兩項任務真正的難點有兩個。首先是異構素材的知識合并能力，公開信息來源涵蓋了文本、圖像等多種格式，SenseNova U1 需要讓重疊的知識點相互印證、合并，最終得到差異化的分層信息。沒有真正的理解能力，做不到這一點。其次是邏輯感，提示詞非常簡練，SenseNova U1卻能自主對搜集的內容進行取舍，找到一條合理的敘述邏輯，這一點在總結“滴血驗親”劇情的用例中，體現得更為明顯。

見慣了漢字在 AI 圖片里扭曲成麻花，SenseNova U1 在如此高密度的信息輸出之下，準確率居然也已經達到了落地級別。手搓信息圖乃至PPT，或許很快就要成為一種正在消失的技能。

ComfyUI快速部署方案：5分鐘上手

在SenseNova U1 的最近一次更新中，商湯正式上線了 ComfyUI 部署支持，開發者可以將 U1 作為自定義節點直接嵌入 ComfyUI 工作流，實現從 “ 提示詞構建 → 圖像生成 → 結果預覽 ” 的全鏈路可視化操作。值得一提的是， U1 在 ComfyUI 中提供了 “ 帶圖思考 ” 的交錯生成節點，復雜邏輯的可視化推理過程一目了然。

環境要求? Python ≥ 3.10，ComfyUI 最新版

? GPU：推薦 16GB 顯存（8B-MoT 標準版）

? 低顯存用戶：8B-MoT-GGUF 版本可在 8GB 顯存下運行；支持 layer-offload，進一步降低顯存占用

安裝步驟

# 1. 進入 ComfyUI 的 custom_nodes 目錄

cd ComfyUI/custom_nodes

# 2. 克隆官方倉庫

git clone https://github.com/OpenSenseNova/SenseNova-U1

# 3. 安裝依賴（推薦 uv）

uv pip install -r requirements.txt

# 4. 配置 API Key（本地推理可跳過此步）

export SENSENOVA_API_KEY=your_key_here

# 5. 啟動 ComfyUI，拖入 workflow_demo.json 即可運行

▎核心節點說明

▎加速與量化選項

? 8 步推理加速版（SenseNova-U1-8B-MoT-8step-preview）：大多數場景下生成質量與基礎模型接近，推理速度大幅提升

? LoRA 微調版（SenseNova-U1-8B-MoT-LoRA-8step-V1.0）：支持風格定制與場景適配

? GGUF 量化版：由社區貢獻者 @smthem 提供，權重已發布于 HuggingFace，適合消費級 GPU 本地推理

對于偏好免安裝體驗的用戶，商湯還同步提供了辦公小浣熊https://office.xiaohuanxiong.com/home的體驗方式，無需 GPU，直接在瀏覽器中即可試用 U1 的核心功能。

生產級任務新選擇

過去一年，主流大模型廠商在多模態理解側的表現已相對趨同，GPT-4V、Gemini Pro、Qwen-VL 等模型在圖像理解、視頻解析、文檔理解等任務上的差距日益收窄。但生成側始終是短板——理解一個數據集，然后生成信息圖或制作一份 PPT，往往需要調用多個專用模型串聯完成，不僅延遲高、風格一致性差，而且交付質量也參差不齊。

SenseNova U1 的差異化正在于此。把 SenseNova U1 放進多模態當前的競爭格局，你幾乎無法找到同樣的定位：

? GPT 系列多模態理解能力一流，但原生圖像生成仍然依賴獨立模塊，走專用模型協作的路子

? Qwen-VL 開源生態龐大，但生成以文本輸出為主

? DeepSeek-V4 行業翹首以盼，但多模態生成亦不是其核心賣點

此前頭部玩家的核心能力多集中在理解側，SenseNova U1 率先實現了生成和理解的原生融合。在端到端交付已經成為Agent落地共識的今天，只要理解與生成之間還橫亙著跨模塊的鴻溝，反映在落地上，就是交付質量和生產效率的真實痛點。SenseNova U1 一己之力，將這場拼交付的競爭，拉到了底層架構創新的高度。

技術階段的代差本身就意味著生產力。SenseNova U1 針對企業辦公場景做了定向優化，將信息圖、PPT、研究報告這類高頻交付物作為重要戰場，技術優勢直接轉化為了落地能力。由此，SenseNova U1 才能在已經是一片紅海的生圖市場占據一席之地，成為生產級任務的全新選擇。

結語

NEO-unify 的核心創新，就是讓語言和視覺在同一個表征空間里共同參與每一層計算。此后模型在生成圖像時，不是在翻譯文字指令，而是在同一個思維框架之下，使語言與視覺信息能夠作為一個統一的復合體被直接建模。

統一架構會打破理解與生成之間的信息壁壘，消除模塊邊界本身帶來的信息損耗。當理解和生成成為同一種認知能力的兩面，協同效應就不再是設計的結果，而只是統一表征自然涌現的屬性。這些革新共同支撐了應用層面的全新體驗：統一架構首先意味著更強的復雜指令遵循能力，同時多輪交互中跨模態推理的可視化，也增強了輸出的可解釋性，對于抽象推理過程尤其如此。

商湯還在技術報告中通過一系列消融實驗，回答了一個核心問題：理解生成統一是否帶來了真正的收益？

實驗結論明確：統一架構在表示、訓練穩定性和數據效率上確實有收益，而不是一種折中。

?原生像素-文本設計能同時保留語義和像素信息。實驗驗證了 encoder-free 架構不僅能學到理解所需的語義表示，也能支持像素級重建與編輯。即使凍結理解分支，生成路徑仍能恢復細節并完成較好的圖像編輯——說明理解端訓練的內在表征并不只是「理解 token」，也具備生成所需的細粒度信息。

?MoT讓理解與生成協同，而不是互相干擾。在聯合 mid-training 和 SFT 階段，即使生成數據和理解數據共同訓練，理解能力仍保持穩定，生成能力還收斂更快。MoT 的參數解耦加共享注意力上下文，能有效降低理解/生成之間的內在沖突。

?統一架構具備更高數據效率。NEO-unify 相比類似統一模型 BAGEL，在更少訓練 token 下取得更好表現。原因在于原生像素-文本接口減少了跨模塊對齊成本，MoT 又讓兩類能力共享上下文、互相提供監督信號，訓練數據利用率因此更高。

單一模型替代專用模型協作的傳統范式，能夠顯著降低存儲、計算和部署成本，不過這還只是真原生架構革命性的一角。

而更深遠的意義在于，原生統一的多模態智能，仍然是一條被寄予厚望的AGI之路。多模態智能的未來突破，并不只是簡單的規模擴大，更重要的是朝著深度融合進化的內核架構創新。今天底層范式和模型架構的創新正變得越來越珍貴。開原生統一架構之先河的SenseNova U1，或許會有與其歷史地位相匹配的表現——而這，才剛剛開始。

SenseNova U1：https://github.com/OpenSenseNova/SenseNova-U1/

SenseNova-Skills：https://github.com/OpenSenseNova/SenseNova-Skills

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社區進行轉載！

公眾號轉載請先在「AI科技評論」后臺留言取得授權，轉載時需標注來源并插入本公眾號名片。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.