網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

首個(gè)國產(chǎn)芯片訓(xùn)練的多模態(tài) SOTA 模型，已免費(fèi)開源！

2026-01-14 20:10:41　來源: 蒼何

湖北舉報(bào)

分享至

這是蒼何的第 471 篇原創(chuàng)！

大家好，我是蒼何。

看到智譜聯(lián)合華為開源了新一代圖像生成模型 GLM-Image 的消息，我還挺興奮的。

這意味著，AI 生圖的價(jià)格可能會被打下來，我的感觸是很深的，因?yàn)樽罱恢痹诮o我的產(chǎn)品薯圖尋找性價(jià)比高的生圖 API。

試了很多的中轉(zhuǎn)站，目前pro 的價(jià)格大概在 0.3-1.2 元之間，總是在穩(wěn)定和價(jià)格之間反復(fù)衡量。

看了 GLM-Image 的 API，價(jià)格只要 0.1 元一張圖，我整個(gè)人都精神了。

于是我花時(shí)間內(nèi)測了一下 GLM-Image，也順帶來看看這個(gè)首個(gè)在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型有幾斤幾兩。

先說下整體感受：

1、中文指令理解能力好，文字生成準(zhǔn)確率高，特別是多區(qū)域文字生成上。
2、在繪制包含復(fù)雜邏輯的原理圖、科普插畫上表現(xiàn)好。
3、具備一定的設(shè)計(jì)和審美能力，

但是在長 prompt 的輸入下，就會被限制，也希望后面官方可以優(yōu)化下，就拿薯圖來說，提示詞非常的長，就非常需要支持。

這篇文章主要給大家?guī)硪皇值膶?shí)測，以及對 GLM-Image 的 API 調(diào)用教程。并且我把基于GLM-Image API 的生圖平臺也開源了，大家可以去 GitHub 上使用，見文末。

如果文章對你有幫助，歡迎點(diǎn)贊收藏，并轉(zhuǎn)發(fā)給需要的朋友。

GLM-Image 介紹

在開始實(shí)測前，還是有必要來了解下 GLM-Image。

模型基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成從數(shù)據(jù)到訓(xùn)練的全流程，是首個(gè)在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型。

GLM-Image采用自主創(chuàng)新的「自回歸+擴(kuò)散解碼器」混合架構(gòu)，實(shí)現(xiàn)了圖像生成與語言模型的聯(lián)合，

這也是首個(gè)開源的工業(yè)表現(xiàn)級離散自回歸圖像生成模型。

GLM-Image 引入了「自回歸+擴(kuò)散解碼器」混合架構(gòu)，創(chuàng)新地融合了9B大小的自回歸模型與7B大小的DiT擴(kuò)散解碼器。

同時(shí)，GLM-Image 在文字渲染的權(quán)威榜單中達(dá)到開源 SOTA 水平。

GLM-Image 實(shí)測

下面給大家?guī)硪徊ㄎ矣?API 做的實(shí)測 GLM-Image，內(nèi)含提示詞。

黑板報(bào)制作

提示詞：
?板粉筆?格的科學(xué)信息圖插畫，采?橫向構(gòu)圖，背景為深??板，帶有明顯的粉筆灰、擦拭

痕跡與顆粒質(zhì)感，整體呈現(xiàn)?學(xué)?年級或中學(xué)科學(xué)教室中常?的教學(xué)?板?格。頂部居中位置

為?個(gè)?標(biāo)題，使?彩?粉筆?寫字體?格，標(biāo)題內(nèi)容為：“?頓的三棱鏡實(shí)驗(yàn)：光的『七?

?變』”，字體顏?包括紅、藍(lán)、綠、?、紫等多種粉筆?，邊緣略帶粗糙感，呈現(xiàn)??書寫

的真實(shí)質(zhì)感。 \n\n畫?左側(cè)放置?個(gè)???粉筆畫出的矩形光源裝置，?束強(qiáng)烈?光以?平?

向射出，旁邊標(biāo)注?字：“?束?光（?禮包）”，字體采?簡潔的粉筆字，略帶?寫?格。

\n\n畫?中央繪有?塊透明的三棱鏡，???粉筆線條勾勒出清晰的?體結(jié)構(gòu)，具有輕微的透

視效果。?光進(jìn)?三棱鏡后，在其內(nèi)部發(fā)?折射并分離，表現(xiàn)出光的分解過程。 \n\n畫?右側(cè)

展??光分解為紅、橙、?、綠、?、藍(lán)、紫七道彩?光束，呈扇形展開，顏?采?粉筆質(zhì)感

渲染，??真實(shí)的光效。在彩?光束的右側(cè)，??括號標(biāo)注：“七?光譜（真相??！）”。

在彩?光束的上?和下?分別?粉筆?字標(biāo)注解釋：“紅光：拐彎最?”“紫光：拐彎最

?”。 \n\n在三棱鏡頂部或彩?光束上?，加?兩個(gè)擬?化的卡通??（簡單粉筆涂鴉?），

分別為紅?和紫?，兩個(gè)??像滑滑梯?樣順著折射路徑滑下，表情夸張、有趣但不過于低

幼，?于直觀表現(xiàn)光的折射差異，增強(qiáng)趣味性和理解性。 \n\n底部中央位置繪制?個(gè)粉筆畫出

的對?框或講解框，內(nèi)含多?中?說明?字：“原來，?光不是‘單?狗’，?是‘七?合

體’的復(fù)?光！不同顏?的光‘性格’不同（折射率不同），過三棱鏡時(shí)拐彎?度就不同，紫

光最容易拐?彎！” \n\n整體畫??格為?繪?格，線條略帶抖動感，強(qiáng)調(diào)粉筆的質(zhì)感與??

感，不追求真實(shí)光學(xué)模擬，?是注重信息傳達(dá)與教學(xué)直觀性。信息圖結(jié)構(gòu)清晰，具有強(qiáng)烈的教

學(xué)感，融合?點(diǎn)幽默元素，適合?于科普插畫、知識卡?或課堂海報(bào)。圖幅?分辨率，?攝影

?格，?3D渲染，不包含真實(shí)?物形象。

黑板粉筆風(fēng)格

提示詞：

提示詞：
黑板粉筆風(fēng)格科學(xué)信息圖，橫向構(gòu)圖，深色黑板背景，帶有粉筆灰與擦拭痕跡。

頂部標(biāo)題： 彩色粉筆手寫體“植物的魔法廚房”。

左側(cè)（原料）： 戴墨鏡的卡通太陽（陽光）、藍(lán)色水滴（水）、白色氣泡（CO2）。

中央（加工）： 巨大的綠色葉子剖面圖，內(nèi)部畫成工廠車間，有一個(gè)戴廚師帽的綠色“葉綠體”卡通角色正在大鍋里攪拌烹飪。

右側(cè)（產(chǎn)物）： 飄出的O2氣泡（氧氣）和堆積的白色方塊（糖/淀粉）。

底部： 粉筆畫的講解框，內(nèi)含中文說明文字。

風(fēng)格： 2D手繪涂鴉風(fēng)，線條粗糙，高對比度粉筆質(zhì)感，色彩鮮艷（綠、黃、白為主），幽默通俗，非寫實(shí)，無真實(shí)人物，教育插圖風(fēng)格。

仿真 3D 圖

提示詞：
畫個(gè)航空發(fā)動機(jī)的仿真3d圖，其中的字體有中英雙語注程

生成清明上河圖部分

提示詞：
請你幫我生成一張清明上河圖的照片

電商宣傳圖

提示詞：
高端極簡護(hù)膚品攝影。畫面中央豎立著一瓶半透明的粉色液體潔面乳，配有白色按壓泵頭。瓶身浸潤在柔和的粉色泡沫中，輕盈的泡沫向外擴(kuò)散，形成光滑圓潤的形狀。細(xì)小的透明氣泡漂浮在泡沫表面。干凈的啞光粉色背景，
帶有微妙的漸變效果。柔和的漫射頂光和柔和的輪廓光透過液體，營造出明亮的光澤，并突出瓶內(nèi)的按壓泵頭。畫面清晰銳利，清晰度高，呈現(xiàn)逼真的液體折射效果，光滑的塑料和玻璃質(zhì)感，展現(xiàn)出奢華美妝廣告風(fēng)格，符合現(xiàn)代化妝品品牌形象，超逼真，8K細(xì)節(jié)，高動態(tài)范圍。 否定提示： 
手、人、臉、雜物、刺眼的反光、標(biāo)簽變形、無法辨認(rèn)的文字、扭曲的泵、生硬的陰影、顆粒感、噪點(diǎn)、低分辨率、電腦特效風(fēng)格、卡通風(fēng)格、凌亂的泡沫、光線不均、水印

提示詞：
視覺構(gòu)建：Tip-Top 核心系列果汁包裝 第一層：核心定調(diào)（Core Intent） 一套高品質(zhì)商業(yè)級的果汁包裝視覺。不僅是產(chǎn)品展示，更是充滿動感與食欲的商業(yè)海報(bào)。統(tǒng)一采用 2:3 的縱橫比，旨在通過強(qiáng)烈的視覺張力驅(qū)動消費(fèi)購買欲望。 第二層：場景構(gòu)建（Context & Lighting） 構(gòu)建一個(gè)**動態(tài)飛濺（Splash）**的虛擬空間。果汁流在包裝周圍呈螺旋狀旋轉(zhuǎn)，伴隨著新鮮果塊的飛舞。燈光通透且明亮，完美還原商業(yè)攝影中對液體晶瑩剔透質(zhì)感的捕捉。 
第三層：視覺系統(tǒng)（Aesthetic & Subject） 色彩矩陣： 采用色彩映射邏輯。草莓味對應(yīng)清新莫蘭迪粉，芒果味對應(yīng)熱帶橙黃漸變，葡萄味對應(yīng)優(yōu)雅深紫漸變。 視覺語言： 走超寫實(shí)、高飽和度的活力商業(yè)風(fēng)，強(qiáng)調(diào)色彩的純凈度與誘惑力。 第四層：文字/符號系統(tǒng)（Graphics） 
畫面視覺中心為 "Tip-Top" 品牌包裝盒。包裝設(shè)計(jì)與背景元素?zé)o縫融合，品牌 Logo 位于包裝醒目位置，下方標(biāo)注對應(yīng)的草莓、金芒果或紫色葡萄口味名稱。 第五層：細(xì)節(jié)增強(qiáng)（Material & Texture） 極致質(zhì)感： 包裝盒呈現(xiàn)真實(shí)的紙質(zhì)/復(fù)合材料觸感；果肉細(xì)節(jié)需達(dá)到毛孔級寫實(shí)（如草莓表面的顆粒、芒果的潤澤）。 動態(tài)特效： 飛濺的液體帶有寫實(shí)的光澤反射與通透的折射效果，包裝邊緣伴有動感旋轉(zhuǎn)的水流微粒。

人物生成

提示詞：
9:16，超現(xiàn)實(shí)電影感自拍攝影，嚴(yán)格保留參考圖臉部、皮膚、頭發(fā)、眼鏡、年齡性別，無合成皮膚/雕塑感；女性全身自拍，一腳觸地，一手伸直上舉持機(jī)（相機(jī)不可見）、一手伸鏡頭前持佳能相機(jī)（產(chǎn)品最突出），頭微傾、表情放松；極端俯拍（相機(jī)正上方）+胸部高度自拍視角，強(qiáng)制透視讓女性極度巨大，
建筑最高及膝，行人/車輛為真實(shí)尺度；背景是真實(shí)城市十字路口（含人行橫道、交通標(biāo)志等），自然日光（晴/輕微多云）、陰影柔和真實(shí)；佳能相機(jī)無畸變、logo完整、僅自然反光；畫面無AI藝術(shù)感、塑料皮膚、
肢體扭曲、多余肢體、文字水印，前景/主體/背景清晰分離，主體視覺主導(dǎo)全場景

提示詞：
傳統(tǒng)藝術(shù)掃描，紋理紙上的原始石墨鉛筆素描。藝術(shù)風(fēng)格明顯為荒木飛呂彥，《JOJO的奇妙冒險(xiǎn)》美學(xué)。粗獷、黑白漫畫分鏡感。全身鏡頭，擺出夸張、戲劇化的“JOJO立”，肢體扭曲、不可能解剖結(jié)構(gòu)、
強(qiáng)烈動態(tài)透視。高級時(shí)尚雕塑姿態(tài)。強(qiáng)調(diào)肌肉結(jié)構(gòu)與張力。厚重棱角交叉影線陰影，大膽鑿刻粗輪廓，極其細(xì)致的面部特征，厚唇銳利眼神。可見的侵略性鉛筆筆觸。高對比度。強(qiáng)烈氣場。9:16

海報(bào)

提示詞：
我要舉辦一場活動，主題為“A賦能發(fā)明創(chuàng)新”，時(shí)間為2025年11 月20日上午10點(diǎn)，地點(diǎn)在北京體育中心，請幫我畫一張宣傳海 報(bào)，要求有科技感。

做菜步驟

提示詞：
為「{紅燒魚}」生成一張分步驟菜譜信息圖，要求： - 俯視圖，極簡風(fēng)格，白色背景 - 頂部居中顯示菜品中文名 - 標(biāo)注所有食材的中文名稱、用量和熱量 - 用虛線和圖標(biāo)展示烹飪步驟 - 底部展示成品擺盤效果圖 請根據(jù)該菜品的傳統(tǒng)做法，自動匹配合適的： 1. 食材清單（包含精確用量和熱量） 2. 烹飪步驟圖標(biāo)（如：切菜、炒制、調(diào)味等） 3. 成品呈現(xiàn)方式 2:3

如何接入 API

目前 GLM-Image 的 API 還處于內(nèi)測階段，為了方便大家體驗(yàn)，我用 Claude Code 配合 GLM-4.7 開發(fā)了個(gè)測試平臺，并且在 GitHub 上開源了。

輸入需求生成圖片，大家可以在 bigmodel 上用自己的 API 試試。

開源地址：https://github.com/freestylefly/glm_image_platform

說實(shí)話，寫到這里，我心里挺感慨的。

曾幾何時(shí)，國產(chǎn)算力在很多 AI 開發(fā)者眼里，往往意味著適配難、生態(tài)弱、甚至跑不動。

但這回，GLM-Image 這個(gè)完全基于國產(chǎn)芯片訓(xùn)練出來的 SOTA 模型，實(shí)實(shí)在在地證明了一件事：哪怕路再難走，只要有人肯沉下心去死磕，路總是能走通的。

它可能還不是終點(diǎn)，甚至可能在某些場景下還有瑕疵，但它邁出的這一步，讓咱們看到了國產(chǎn) AI 生態(tài)“自主造血”的希望。

風(fēng)起于青萍之末，我很期待看到大家用它玩出什么新花樣。

模型鏈接和部署教程我都打包好了，感興趣的兄弟們自取。

好啦，今天的文章就到這，感謝你喜歡我的文章，我們下一期見。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.