最近,我的女媧.skill 和 Huashu Design 似乎太出圈了。
前者已經(jīng)分別被騰訊、智譜、Kimi 旗下的龍蝦產(chǎn)品作為默認(rèn) skill 之一,后者則是聽聞很多公司都在研究我那個 skill 的設(shè)計邏輯
于是呢,我也沒少在各個社交平臺再去宣傳介紹這些 skill 究竟是什么、工作原理如何。尤其是隨著圖像生成模型能力變強(qiáng),我挺愛做類似下面這樣的信息圖來介紹我做的東西。
![]()
給你 5 秒鐘,猜一下這張圖是什么模型做的?
是 GPT-Image-2?
是 Nano Banana 2?
還是 Seedream 5?
答案揭曉——其實是商湯這周才開源的一個 8B 多模態(tài)模型:SenseNova U1。
我猜很多人對這個模型還相當(dāng)陌生,所以呢,我們再讓它自己來介紹下自己
![]()
它叫 SenseNova U1,來自商湯
這個模型昨天剛開源,分兩個尺寸,一個是 8B 的 dense 版本,一個是 A3B 的 MoE 版本,協(xié)議是 Apache 2.0,inference code 全開。
它背后的架構(gòu)叫NEO-Unify。我來嘗試簡單解釋下這個東西。一般主流的多模態(tài)模型處理任務(wù)的流程有點(diǎn)像請翻譯官幫忙:圖像先經(jīng)過一個視覺編碼器(Visual Encoder)翻成 token 給模型理解,模型生成的 token 再經(jīng)過 VAE 翻回像素。U1 把這兩個翻譯官都辭了,讓模型直接讀原始像素、直接輸出像素,自己學(xué)一套近乎無損的視覺表征。
商湯公布的官方分?jǐn)?shù)也挺有意思。8B 這個體量,在圖像理解和圖像生成兩條評測線上都拿到了開源同量級的 SoTA,部分指標(biāo)接近商業(yè)閉源大模型。
![]()
最值得關(guān)注的是「信息圖」這條專項。文字密度高、排版要求精準(zhǔn),這歷來是生圖模型的硬骨頭。U1 在這個維度上的得分跟 Qwen-Image 2.0、Seedream 4.5 這種大模型基本持平,但延遲顯著更低。
![]()
簡單說,同樣出一張 2K 信息圖,U1 大概只要十幾秒,對比 GPT-Image-2 這種閉源大模型的幾十秒,單位時間能多出好幾倍的產(chǎn)能。
為什么我會想試它
我對多模態(tài)生圖模型這個賽道的看法,說起來挺簡單。
一年前,文生圖模型要跑出穩(wěn)定的中文表現(xiàn)有多難,大家應(yīng)該都有體感。直到最近,能把這件事真正做對的也只有 OpenAI、Google、字節(jié)這少數(shù)幾家大公司,而且全是閉源大模型。
所以這周看到一個 8B 的開源小模型,敢把「信息圖」當(dāng)主打能力來發(fā)布,我是有點(diǎn)意外的。意外到想自己上手試試。
讓我更感興趣的是另一件事。本地能跑的小模型一旦質(zhì)量上來,它的隱私性、速度、幾乎零邊際成本,正好能覆蓋一些閉源 SaaS 難以觸達(dá)的場景。
回到我自己。我最在意的是它能不能按我的 prompt 穩(wěn)定復(fù)現(xiàn)風(fēng)格,比如剛才那張女媧 skill 的 Anthropic 編輯風(fēng);以及能不能用合理速度批量出圖,我的 agent workflow 里一次任務(wù)可能要 10-20 張圖,每張多等 30 秒,整個鏈路就拖死了。
至于本地部署、可微調(diào)這些,我自己暫時沒剛需。但我接觸過的不少行業(yè)(醫(yī)療、金融、法務(wù))確實非常需要本地能力,他們的素材根本不能上傳到云。
這幾件事里,前兩件 GPT-Image-2 做得不錯,后兩件它做不到。這不是它的錯,閉源 SaaS 本來就不是干這個的。
而 U1 剛好坐在了那個空位上。它在跑分上肯定打不過 GPT-Image-2 的單張極致質(zhì)量,但它能跑本地、能被改造、還能在十幾秒里出一張 2K 信息圖。這就夠了。
我讓它做了什么
理論說完,看東西。
文章開頭那張女媧 skill 的圖,是我讓 U1 做的第三張。我給它的 prompt 寫得很具體:「米白底 ,炭黑手繪線,赤陶橙 強(qiáng)調(diào)色,三段式 16:9 橫向布局,無 sci-fi 無暗模式……」也就是 Anthropic blog 的那種編輯插畫風(fēng)。它第一次跑就接住了。
然后我又讓它做了一張更細(xì)顆粒度的「女媧三階段」工作流圖:
![]()
這種復(fù)雜版式 U1 處理得比我預(yù)期的穩(wěn)定。
最近我在跟出版社合作,嘗試做新一批帶圖解示例的橙皮書,所以這陣子比較頻繁在測各種生圖模型。U1 跑下來,速度和穩(wěn)定性都比我預(yù)想的好。
它真正不一樣的地方:圖文交錯
前面我讓 U1 做的都是單張信息圖。但它真正不一樣的能力,其實是「圖文交錯」:一次輸出里包含多張圖和段落正文的連貫混排。
商湯管這個能力叫「帶圖思考」。模型在推理過程中自動生成中間示意圖,把復(fù)雜邏輯可視化。這件事 GPT-Image-2、Nano Banana、Seedream 都做不到,它們都是「一次 prompt 出一張圖」的單點(diǎn)能力。
舉兩個官方公布的例子。
「幫我設(shè)計幾款適合的發(fā)型」:用戶上傳一張自己的照片,U1 不直接給圖,而是先做面部特征分析,然后生成多種不同的發(fā)型推薦圖,每張圖旁邊配一段為什么適合的解釋,最后給一組對比圖。
![]()
「設(shè)計一個建在海南萬寧懸崖邊的圖書館」:U1 自主構(gòu)思并生成了四個不同視角的連貫建筑圖(外部全景、低角度仰視、高空俯瞰、室內(nèi)框景),每個視角配一段精準(zhǔn)的設(shè)計說明,相當(dāng)于一次給你完整的建筑設(shè)計交付。
![]()
這種能力很難在閉源 SaaS 上穩(wěn)定實現(xiàn)。你得自己寫一個 agent,讓 LLM 調(diào)多次生圖 API,再把圖和文拼起來。而且人物在多張圖之間未必一致。U1 把這件事壓到了單模型一次推理里。
我自己也跑了兩個測試。一個是給小朋友介紹怎么做飛機(jī)的4格漫畫《第一次坐飛機(jī)》
![]()
另一個算是我的真實場景,在嘗試給我新書《圖解 Agent Skills》做配圖。
![]()
讓我意外的幾件事:速度極快,基本是邊想邊出圖;人物和風(fēng)格的一致性維持得很好;最關(guān)鍵的是——一個8B 的開源模型同時具備這種程度的思考能力和圖像生成能力,這件事老實說我之前沒怎么見過。
對我來講,最實用的場景是寫橙皮書:一章里經(jīng)常需要「概念 → 概念圖 → 解釋段落 → 對比圖 → 總結(jié)」這樣的混排。以前要在 LLM 和生圖 API 之間來回切,現(xiàn)在 U1 一次就能出整頁。
它的真實邊界
當(dāng)然,U1 也不是沒有短板。
我讓它換種風(fēng)格,做一張「達(dá)爾文.skill」的循環(huán)結(jié)構(gòu)圖。這次要的是技術(shù)藍(lán)圖風(fēng)、深色背景、循環(huán)箭頭加 8 個評分維度環(huán)繞。它出來是這樣:
![]()
有幾件事值得說一下。
這張圖跟前面女媧那張的 Anthropic 編輯風(fēng)完全是兩套體系。同一個模型能在不同風(fēng)格之間切換,說明訓(xùn)練語料的數(shù)據(jù)還挺豐富,這也意味著它更有機(jī)會執(zhí)行不同需求的人物。很多模型有強(qiáng)烈的默認(rèn)風(fēng)格傾向,怎么都掰不出來。
文字渲染也挺讓我意外。這種環(huán)形排列還能基本不出錯,挺難得的。我之前用別的模型試過類似layout,文字常常錯位。
不過 U1 也確實有少量錯字。比如讓它寫 Karpathy 這個名字,它會寫成 Karpthy;讓它寫「蒸餾」的「餾」,常常寫成「漓」。這些都是 prompt 工程可以繞開的小問題,把 Karpathy 改成「卡帕西」、把「蒸餾」改成「提煉」就行。
但這些邊界相對都不致命。真正重要的是它讓我能用一個 8B 的開源模型,在本地跑出可以直接用的書籍級配圖。這件事兩個月前我都不敢想。
這個模型適合誰、適合什么場景
那 U1 真正適合誰用?我自己想了下,幾個最直接的場景:
自媒體和獨(dú)立創(chuàng)作者。每天要出文章配圖、信息圖、海報,U1 的速度讓「試 10 個版本選 1 個」變成可行的工作流,試錯成本接近零。
有數(shù)據(jù)敏感性的行業(yè):醫(yī)療、金融、法務(wù),或者做內(nèi)部知識庫、內(nèi)部培訓(xùn)材料的團(tuán)隊。本地部署最大的好處就是內(nèi)部數(shù)據(jù)不上云,閉源 API 在這些場景下直接是 deal-breaker。
Agent 長鏈路場景。一個任務(wù)要生成 10-50 張圖(教程、報告、繪本、漫畫都可能),調(diào) GPT-Image-2 走 API 不僅貴還慢,U1 跑本地幾乎零成本,就讓這種鏈路真的能跑通。
商湯自己也提了一嘴,下一步會把 U1 接入「辦公小浣熊」。這其實就是上面這些場景的產(chǎn)品化路徑。
怎么上手
想試的話,有幾個入口:
在線體驗:sensenova.sensetime.com(每天 5 小時、1500 次的免費(fèi)配額)
開源代碼:github.com/OpenSenseNova/SenseNova-U1
HuggingFace:huggingface.co/collections/sensenova/sensenova-u1
模型本身 8B,對硬件要求其實不算高。性能稍好一些的本地機(jī)器都能跑得動,不需要專業(yè)卡。官方文檔里說支持 vLLM 和 sglang,已經(jīng)在用這些工具的同學(xué)應(yīng)該能很快跑起來。
最近一年,多模態(tài)模型的發(fā)布我看了不下三十輪,每一輪都在說自己是 SoTA、是顛覆、是革命。U1 這次沒說那么多大詞,但它把 Visual Encoder 和 VAE 都砍了。這種敢于重新畫路線的事,在已開源的多模態(tài)模型里其實不常見。
它現(xiàn)在還有邊界,錯字會有,復(fù)雜圖表也不絕對穩(wěn)定。但它給我的體感是:有些場景,確實從這周開始變得不一樣了。以及我們完全可以期待他下一階段的快速進(jìn)化。
至少,我下一本橙皮書的配圖,可能不再需要走 API 了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.