網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

這張信息圖，居然是8B開源模型做的？？

2026-04-29 17:30:46　來源: AI進(jìn)化論花生

北京舉報

分享至

最近，我的女媧.skill 和 Huashu Design 似乎太出圈了。

前者已經(jīng)分別被騰訊、智譜、Kimi 旗下的龍蝦產(chǎn)品作為默認(rèn) skill 之一，后者則是聽聞很多公司都在研究我那個 skill 的設(shè)計邏輯

于是呢，我也沒少在各個社交平臺再去宣傳介紹這些 skill 究竟是什么、工作原理如何。尤其是隨著圖像生成模型能力變強(qiáng)，我挺愛做類似下面這樣的信息圖來介紹我做的東西。

給你 5 秒鐘，猜一下這張圖是什么模型做的？

是 GPT-Image-2？

是 Nano Banana 2？

還是 Seedream 5？

答案揭曉——其實是商湯這周才開源的一個 8B 多模態(tài)模型：SenseNova U1。

我猜很多人對這個模型還相當(dāng)陌生，所以呢，我們再讓它自己來介紹下自己

它叫 SenseNova U1，來自商湯

這個模型昨天剛開源，分兩個尺寸，一個是 8B 的 dense 版本，一個是 A3B 的 MoE 版本，協(xié)議是 Apache 2.0，inference code 全開。

它背后的架構(gòu)叫NEO-Unify。我來嘗試簡單解釋下這個東西。一般主流的多模態(tài)模型處理任務(wù)的流程有點(diǎn)像請翻譯官幫忙：圖像先經(jīng)過一個視覺編碼器（Visual Encoder）翻成 token 給模型理解，模型生成的 token 再經(jīng)過 VAE 翻回像素。U1 把這兩個翻譯官都辭了，讓模型直接讀原始像素、直接輸出像素，自己學(xué)一套近乎無損的視覺表征。

商湯公布的官方分?jǐn)?shù)也挺有意思。8B 這個體量，在圖像理解和圖像生成兩條評測線上都拿到了開源同量級的 SoTA，部分指標(biāo)接近商業(yè)閉源大模型。

最值得關(guān)注的是「信息圖」這條專項。文字密度高、排版要求精準(zhǔn)，這歷來是生圖模型的硬骨頭。U1 在這個維度上的得分跟 Qwen-Image 2.0、Seedream 4.5 這種大模型基本持平，但延遲顯著更低。

簡單說，同樣出一張 2K 信息圖，U1 大概只要十幾秒，對比 GPT-Image-2 這種閉源大模型的幾十秒，單位時間能多出好幾倍的產(chǎn)能。

為什么我會想試它

我對多模態(tài)生圖模型這個賽道的看法，說起來挺簡單。

一年前，文生圖模型要跑出穩(wěn)定的中文表現(xiàn)有多難，大家應(yīng)該都有體感。直到最近，能把這件事真正做對的也只有 OpenAI、Google、字節(jié)這少數(shù)幾家大公司，而且全是閉源大模型。

所以這周看到一個 8B 的開源小模型，敢把「信息圖」當(dāng)主打能力來發(fā)布，我是有點(diǎn)意外的。意外到想自己上手試試。

讓我更感興趣的是另一件事。本地能跑的小模型一旦質(zhì)量上來，它的隱私性、速度、幾乎零邊際成本，正好能覆蓋一些閉源 SaaS 難以觸達(dá)的場景。

回到我自己。我最在意的是它能不能按我的 prompt 穩(wěn)定復(fù)現(xiàn)風(fēng)格，比如剛才那張女媧 skill 的 Anthropic 編輯風(fēng)；以及能不能用合理速度批量出圖，我的 agent workflow 里一次任務(wù)可能要 10-20 張圖，每張多等 30 秒，整個鏈路就拖死了。

至于本地部署、可微調(diào)這些，我自己暫時沒剛需。但我接觸過的不少行業(yè)（醫(yī)療、金融、法務(wù)）確實非常需要本地能力，他們的素材根本不能上傳到云。

這幾件事里，前兩件 GPT-Image-2 做得不錯，后兩件它做不到。這不是它的錯，閉源 SaaS 本來就不是干這個的。

而 U1 剛好坐在了那個空位上。它在跑分上肯定打不過 GPT-Image-2 的單張極致質(zhì)量，但它能跑本地、能被改造、還能在十幾秒里出一張 2K 信息圖。這就夠了。

我讓它做了什么

理論說完，看東西。

文章開頭那張女媧 skill 的圖，是我讓 U1 做的第三張。我給它的 prompt 寫得很具體：「米白底，炭黑手繪線，赤陶橙強(qiáng)調(diào)色，三段式 16:9 橫向布局，無 sci-fi 無暗模式……」也就是 Anthropic blog 的那種編輯插畫風(fēng)。它第一次跑就接住了。

然后我又讓它做了一張更細(xì)顆粒度的「女媧三階段」工作流圖：

這種復(fù)雜版式 U1 處理得比我預(yù)期的穩(wěn)定。

最近我在跟出版社合作，嘗試做新一批帶圖解示例的橙皮書，所以這陣子比較頻繁在測各種生圖模型。U1 跑下來，速度和穩(wěn)定性都比我預(yù)想的好。

它真正不一樣的地方：圖文交錯

前面我讓 U1 做的都是單張信息圖。但它真正不一樣的能力，其實是「圖文交錯」：一次輸出里包含多張圖和段落正文的連貫混排。

商湯管這個能力叫「帶圖思考」。模型在推理過程中自動生成中間示意圖，把復(fù)雜邏輯可視化。這件事 GPT-Image-2、Nano Banana、Seedream 都做不到，它們都是「一次 prompt 出一張圖」的單點(diǎn)能力。

舉兩個官方公布的例子。

「幫我設(shè)計幾款適合的發(fā)型」：用戶上傳一張自己的照片，U1 不直接給圖，而是先做面部特征分析，然后生成多種不同的發(fā)型推薦圖，每張圖旁邊配一段為什么適合的解釋，最后給一組對比圖。

「設(shè)計一個建在海南萬寧懸崖邊的圖書館」：U1 自主構(gòu)思并生成了四個不同視角的連貫建筑圖（外部全景、低角度仰視、高空俯瞰、室內(nèi)框景），每個視角配一段精準(zhǔn)的設(shè)計說明，相當(dāng)于一次給你完整的建筑設(shè)計交付。

這種能力很難在閉源 SaaS 上穩(wěn)定實現(xiàn)。你得自己寫一個 agent，讓 LLM 調(diào)多次生圖 API，再把圖和文拼起來。而且人物在多張圖之間未必一致。U1 把這件事壓到了單模型一次推理里。

我自己也跑了兩個測試。一個是給小朋友介紹怎么做飛機(jī)的4格漫畫《第一次坐飛機(jī)》

另一個算是我的真實場景，在嘗試給我新書《圖解 Agent Skills》做配圖。

讓我意外的幾件事：速度極快，基本是邊想邊出圖；人物和風(fēng)格的一致性維持得很好；最關(guān)鍵的是——一個8B 的開源模型同時具備這種程度的思考能力和圖像生成能力，這件事老實說我之前沒怎么見過。

對我來講，最實用的場景是寫橙皮書：一章里經(jīng)常需要「概念 → 概念圖 → 解釋段落 → 對比圖 → 總結(jié)」這樣的混排。以前要在 LLM 和生圖 API 之間來回切，現(xiàn)在 U1 一次就能出整頁。

它的真實邊界

當(dāng)然，U1 也不是沒有短板。

我讓它換種風(fēng)格，做一張「達(dá)爾文.skill」的循環(huán)結(jié)構(gòu)圖。這次要的是技術(shù)藍(lán)圖風(fēng)、深色背景、循環(huán)箭頭加 8 個評分維度環(huán)繞。它出來是這樣：

有幾件事值得說一下。

這張圖跟前面女媧那張的 Anthropic 編輯風(fēng)完全是兩套體系。同一個模型能在不同風(fēng)格之間切換，說明訓(xùn)練語料的數(shù)據(jù)還挺豐富，這也意味著它更有機(jī)會執(zhí)行不同需求的人物。很多模型有強(qiáng)烈的默認(rèn)風(fēng)格傾向，怎么都掰不出來。

文字渲染也挺讓我意外。這種環(huán)形排列還能基本不出錯，挺難得的。我之前用別的模型試過類似layout，文字常常錯位。

不過 U1 也確實有少量錯字。比如讓它寫 Karpathy 這個名字，它會寫成 Karpthy；讓它寫「蒸餾」的「餾」，常常寫成「漓」。這些都是 prompt 工程可以繞開的小問題，把 Karpathy 改成「卡帕西」、把「蒸餾」改成「提煉」就行。

但這些邊界相對都不致命。真正重要的是它讓我能用一個 8B 的開源模型，在本地跑出可以直接用的書籍級配圖。這件事兩個月前我都不敢想。

這個模型適合誰、適合什么場景

那 U1 真正適合誰用？我自己想了下，幾個最直接的場景：

自媒體和獨(dú)立創(chuàng)作者。每天要出文章配圖、信息圖、海報，U1 的速度讓「試 10 個版本選 1 個」變成可行的工作流，試錯成本接近零。

有數(shù)據(jù)敏感性的行業(yè)：醫(yī)療、金融、法務(wù)，或者做內(nèi)部知識庫、內(nèi)部培訓(xùn)材料的團(tuán)隊。本地部署最大的好處就是內(nèi)部數(shù)據(jù)不上云，閉源 API 在這些場景下直接是 deal-breaker。

Agent 長鏈路場景。一個任務(wù)要生成 10-50 張圖（教程、報告、繪本、漫畫都可能），調(diào) GPT-Image-2 走 API 不僅貴還慢，U1 跑本地幾乎零成本，就讓這種鏈路真的能跑通。

商湯自己也提了一嘴，下一步會把 U1 接入「辦公小浣熊」。這其實就是上面這些場景的產(chǎn)品化路徑。

怎么上手

想試的話，有幾個入口：

在線體驗：sensenova.sensetime.com（每天 5 小時、1500 次的免費(fèi)配額）
開源代碼：github.com/OpenSenseNova/SenseNova-U1
HuggingFace：huggingface.co/collections/sensenova/sensenova-u1

模型本身 8B，對硬件要求其實不算高。性能稍好一些的本地機(jī)器都能跑得動，不需要專業(yè)卡。官方文檔里說支持 vLLM 和 sglang，已經(jīng)在用這些工具的同學(xué)應(yīng)該能很快跑起來。

最近一年，多模態(tài)模型的發(fā)布我看了不下三十輪，每一輪都在說自己是 SoTA、是顛覆、是革命。U1 這次沒說那么多大詞，但它把 Visual Encoder 和 VAE 都砍了。這種敢于重新畫路線的事，在已開源的多模態(tài)模型里其實不常見。

它現(xiàn)在還有邊界，錯字會有，復(fù)雜圖表也不絕對穩(wěn)定。但它給我的體感是：有些場景，確實從這周開始變得不一樣了。以及我們完全可以期待他下一階段的快速進(jìn)化。

至少，我下一本橙皮書的配圖，可能不再需要走 API 了。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.