網易首頁 > 網易號 > 正文申請入駐

全網熱議的GPT image 2平替？不止是信息圖，它讓連續的圖文創作一步到位

2026-04-30 12:32:12　來源: 硅星人

北京舉報

分享至

作者｜董道力
郵箱｜ dongdaoli@pingwest.com

不知道最近你們的朋友圈里，有沒有突然出現很多好看的信息圖，排版干凈，文字清晰，圖標對齊，放進 PPT 直接能用。

不是你們的朋友藝術細胞爆炸了，而是 OpenAI 新模型的功勞。有設計師在 X 上問：“我還有存在的必要嗎？”，評論區不語一味地發圖。

引起如此高的熱度，是因為 AI 生圖終于過了一道門檻。

過去幾年，生圖模型最大的硬傷不是畫不好，是寫不好。圖里但凡出現文字，不是缺筆少畫就是亂碼，信息圖這種文字密度高的內容根本沒法用。更麻煩的是角色一致性，同一張信息圖里反復出現的圖標、人物、配色，生成一次一個樣，根本無法量產。

這兩個問題，隨著GPT Images 2.0出生，基本都解決了。文字渲染準了，風格能保持住，復雜排版也能跟著指令走。

但它的API 按量計費，用量一大賬單很嚇人。國內訪問也有門檻，團隊要想把它接進工作流，幾乎是不可能的。

解決方案有嗎？有的。商湯帶來了 SenseNova U1 系列。

像是拋下重磅炸彈，U1一發布就全網討論度飆升，它不但像GPT Image 2.0一樣能做信息圖，而且還免費、還開源。

SenseNova U1 連圖帶字的思考

SenseNova U1 系列，是商湯發布的采用全新架構的多模態模型。它不是單純的圖像生成模型，而是把圖文理解、圖文推理和圖文生成放進同一套架構里處理。

這也是它發布時反復強調的關鍵詞：原生統一。

過去很多多模態模型，大致是幾塊東西拼起來的：語言模型負責理解和推理，視覺編碼器負責把圖片轉成模型能讀懂的表示，圖像生成部分再把結果轉回像素。

這樣當然能用，而且現在不少主流產品都是這么做的。但問題也很明顯：理解是理解，生成是生成，中間需要不斷做模態轉換。

U1 的思路更激進一點，基于商湯的 NEO-Unify，去掉傳統的視覺編碼器 VE 和圖像生成里常見的 VAE，讓模型直接從原始像素和文字里學習。文字和圖像不再被看作兩套東西，而是在同一個模型邏輯里被處理。

這次開源的是 SenseNova U1 Lite 系列，包含8B-MoT和A3B-MoT兩個版本。

從定位上看，U1 Lite 并不是要和最大規模的閉源模型硬拼參數，而是想做一個“夠強、夠輕、能開源、能接進工作流”的多模態模型。

跑分上，SenseNova U1 Lite 均達到同量級開源模型 SOTA 水平。

圖像理解、圖像生成、視覺推理基準測試結果

拋開跑分，它有兩個最值得關注的能力。

一個是連續圖文創作輸出。

這也是最能體現U1這個模型的原生統一架構特征的。不是簡單“先寫一段話，再配一張圖”。傳統圖文內容生成，很多時候是文本模型先完成文案，再把其中某些段落交給圖像模型生成插圖。U1 是在一個模型內部完成文字和圖像的連續生成，這屬于是行業首創。

另一個是高密度信息的處理，常見的就是信息圖。

這也是GPT Images 2.0 最為人稱贊的。信息圖不是簡單生一張好看的圖，它要求模型同時處理文字結構、視覺層級、版式布局、圖標關系和信息密度。以前 AI 畫圖最容易翻車的地方，恰好就是文字渲染和排版。

一手實測 SenseNova U1

就在剛剛，SenseNova U1 已經上線到辦公小浣熊，通過點擊首頁上的【一圖讀懂】功能，就可以免費體驗SenseNova U1的最新能力。

高密度的信息圖

我們也在U1接入辦公小浣熊的第一時間，進行了實測。

當你需要生成一張2026 年世界杯的信息圖海報，用作公眾號文章配圖。

Prompt:

生成一張中文信息圖海報，主題為：“2026 年世界杯：北美足球盛會”整體風格：深藍色科技感體育海報，搭配熒光綠、金色和白色高光。畫面要有足球、球場燈光、北美地圖、城市節點、航線、賽程表和觀眾燈海。整體清晰、有沖擊力，適合公眾號文章配圖。頂部大標題：“2026 年世界杯：北美足球盛會”副標題：“48 支球隊，3 個主辦國，16 座城市”畫面分成四個主要模塊，不要太復雜，信息清楚即可。模塊一：三國聯合主辦位置：左上視覺元素：北美地圖，美國、加拿大、墨西哥三個國家用發光線條連接。文字： “2026 年世界杯將由美國、加拿大、墨西哥聯合舉辦，這是世界杯首次由三個國家共同承辦。”模塊二：48 支球隊參賽位置：右上視覺元素：一個足球放在中心，周圍環繞 48 個小圓點或球衣圖標，表現參賽隊伍擴容。文字： “本屆世界杯參賽球隊擴展到 48 支，更多國家將登上世界足球最高舞臺。”模塊三：16 座主辦城市位置：左下視覺元素：城市天際線、體育場、發光坐標點，表現多城市承辦。文字： “比賽將在 16 座主辦城市舉行，賽事將連接球場、城市、球迷和轉播網絡。”模塊四：冠軍之路位置：右下視覺元素：一條發光賽程路徑通向金色獎杯輪廓，周圍有球員剪影和觀眾燈光。文字： “更長賽程、更大規模、更復雜的旅行距離，將考驗每支球隊的陣容深度與穩定性。”底部放一條簡單流程線：“三國主辦 → 48 隊參賽 → 16 城開賽 → 冠軍誕生”

整體完成度較高，符合體育海報要求，深藍科技感、球場燈光、熒光綠線條、金色獎杯等視覺元素風格統一。四宮格結構清晰，有視覺沖擊力，符合公眾號文章配圖要求。

圖片生成后，辦公小浣熊還能幫你預測一波哪支球隊晉級，繼續生成信息圖。

我們再測試一張風格更精致的信息圖，做一個仿美食雜志風格的高端酒吧菜單設計。

Prompt:

生成一張高級感、現代極簡的 Espresso Martini 中文信息圖。畫面中心是一杯裝在淺碟香檳杯中的濃縮咖啡馬提尼，非俯視圖，微傾角度。酒液呈深濃縮咖啡棕色，頂部有厚實細膩的咖啡脂泡沫，表面放置三顆咖啡豆。玻璃杯有細微冷凝水珠和高光反射，質感真實精致。圍繞酒杯做干凈的信息圖排版。左側是“配料”，右側是“步驟”，頂部角落放“信息徽章”。整體層級清晰：主飲品 > 步驟 > 配料 > 數據。配料包括：伏特加 40ml咖啡利口酒 20ml新鮮濃縮咖啡 30ml糖漿 10ml冰塊適量裝飾：3 顆咖啡豆步驟包括：將所有液體與冰塊加入搖酒壺充分搖勻至起泡雙重過濾倒入淺碟香檳杯用三顆咖啡豆裝飾信息徽章包括：酒精度約 18%準備時間 5 分鐘風味：濃郁、微甜、咖啡香杯型：淺碟香檳杯風格要求：美食雜志排版 + 高端雞尾酒酒吧菜單設計，寫實酒吧攝影與極簡矢量信息圖結合。色調以深咖啡棕、奶油米色、溫暖中性色為主。柔和影棚燈光，留白充足，現代無襯線字體，毛玻璃面板，柔和陰影，高級、藝術、干凈。

這次生成的主杯質感明顯更好：泡沫層次、深棕色酒液、玻璃高光都有“高端酒單”的質感，整體色調也對——奶油米色背景配深咖啡棕。圍繞酒杯做干凈的信息圖排版，視覺上更接近美食雜志的風格。

接下來測試一下，如果只給一句話 prompt ，模型是如何自由發揮能力的。

Prompt:

做一張漫畫風格的，深圳旅游攻略。

基于大模型自身的能力，哪怕你的提示詞簡單，依然能生成好用的信息圖。

我們還發現，它還可以基于對長文檔、數據圖表等的數據分析結果，生成高質量的信息圖。

Prompt:

分析一日三餐的營養結構。三餐內容：- 早餐：兩片全麥吐司 + 一個煮雞蛋 + 一杯牛奶 + 幾顆藍莓 - 午餐：一碗糙米飯 + 清炒西蘭花 + 香煎雞胸肉 + 一碗紫菜蛋花湯 - 晚餐：一份蕎麥面 + 清蒸魚 + 涼拌菠菜 + 半個牛油果營養數據匯總：- 全天總熱量約1800大卡 - 三大營養素比例：碳水50%、蛋白質25%、脂肪25% - 膳食纖維約28g，達到每日推薦量 - 三餐熱量分配：早餐30%、午餐40%、晚餐30%。

Prompt:

介紹咖啡的一生，內容從咖啡豆的種植開始，到最終端上桌的一杯咖啡結束。

Prompt:

制作一個垃圾分類速查指南，內容簡明易懂。

類似的圖還有很多玩法，比如教小朋友分辨鸚鵡性格。

給科普文章配圖，拆解。 VR頭顯是如何組成的等。

連續圖文創作輸出

接下來，我們體驗了SenseNova U1的另一個亮點能力——連續圖文創作輸出。

我們制作菜譜教程時候，以往還需要編輯點文字湊湊數，現在可以用SenseNova U1一步搞定，并且可以保持很好的一致性。

Prompt:

提拉米蘇制作流程。

除了有教程邏輯外，SenseNova U1還能生成不同攝影風格的圖文講解。

Prompt:

介紹不同風格的攝影藝術。

文章配圖工作流

我們還嘗試了將SenseNova U1 Skill加入辦公智能體的工作流。

隨著 OpenClaw 等 Agent 的普及，出現了越來越多自動化工作流，比如自動回答用戶提問、根據兒童需求生成繪本等。以往這類流程需要先調用大模型處理文章內容，再生成適合生圖的提示詞；現在只需調用 SenseNova U1 Lite 的 skill，即可完成配圖。

以完成一篇大氣循環科普文章為例：

可以看到，無需過多干預，OpenClaw 會自動調用 skill，在合適的位置插入對應的信息圖。

效果對比也很明顯：以往給文章配圖，OpenClaw 通常會調用 Python 畫圖庫生成較為簡陋的示意圖。接入 SenseNova U1 Lite 的 skill 后，OpenClaw 具備了在合適位置自動插入信息圖的能力，大幅減少了用戶的手動操作和復雜工作流的編寫成本。

SenseNova U1 的架構做了什么

U1 系列值得關注的地方，其實不只它會生成信息圖，而是它把"看圖、理解、推理、生成"統一放進了同一套架構里。

過去的多模態模型更像拼裝系統：語言模型負責推理，視覺編碼器負責感知，圖像生成模塊負責輸出。每一塊都能用，但理解和生成之間始終隔著模態轉換，做信息圖、圖文混排時，容易出現文字不穩、布局混亂、圖文關系割裂的問題。

U1 背后的 NEO-Unify 要解決的就是這種割裂。它去掉了傳統視覺編碼器VE和變分自編碼器VAE，以統一表征取而代之，在保留語義豐富性的同時維持像素級視覺保真度。語言與視覺信息不再被分開處理，而是作為一個統一的復合體被直接建模。

這帶來了一個關鍵結果：理解能力和生成能力可以同步增強，而不是此消彼長。

這意味著，圖像不只是最后被“畫出來”的結果，也可以參與模型的推理過程。所以它能做真正的連續的圖文創作輸出——在同一個生成過程中，文字輸出和圖片插入交替進行。做信息圖時，它也不只是畫得漂亮，而是要理解標題、模塊、圖標、流程線與信息密度之間的關系。

尤其對內容行業，這一點尤為關鍵。公眾號配圖、PPT、產品說明、教程圖、商業分析圖，很多都不是純粹的審美問題，而是信息組織問題。SenseNova U1把 AI 生圖向“可視化表達工具”又推進了一步。

體驗方式：

辦公小浣熊：https://office.xiaohuanxiong.com/home

其他測試和體驗渠道還包括：

GitHub：https://github.com/OpenSenseNova/SenseNova-U1

Hugging Face：https://huggingface.co/collections/sensenova/SenseNova-U1

調用 SenseNova U1 Skill https://github.com/OpenSenseNova/SenseNova-Skills

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.