這是蒼何的第 471 篇原創(chuàng)!
大家好,我是蒼何。
看到智譜聯(lián)合華為開源了新一代圖像生成模型 GLM-Image 的消息,我還挺興奮的。
![]()
這意味著,AI 生圖的價(jià)格可能會被打下來,我的感觸是很深的,因?yàn)樽罱恢痹诮o我的產(chǎn)品薯圖尋找性價(jià)比高的生圖 API。
![]()
試了很多的中轉(zhuǎn)站,目前pro 的價(jià)格大概在 0.3-1.2 元之間,總是在穩(wěn)定和價(jià)格之間反復(fù)衡量。
![]()
看了 GLM-Image 的 API,價(jià)格只要 0.1 元一張圖,我整個(gè)人都精神了。
于是我花時(shí)間內(nèi)測了一下 GLM-Image,也順帶來看看這個(gè)首個(gè)在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型有幾斤幾兩。
![]()
先說下整體感受:
1、中文指令理解能力好,文字生成準(zhǔn)確率高,特別是多區(qū)域文字生成上。
2、在繪制包含復(fù)雜邏輯的原理圖、科普插畫上表現(xiàn)好。
3、具備一定的設(shè)計(jì)和審美能力,
但是在長 prompt 的輸入下,就會被限制,也希望后面官方可以優(yōu)化下,就拿薯圖來說,提示詞非常的長,就非常需要支持。
這篇文章主要給大家?guī)硪皇值膶?shí)測,以及對 GLM-Image 的 API 調(diào)用教程。并且我把基于GLM-Image API 的生圖平臺也開源了,大家可以去 GitHub 上使用,見文末。
![]()
如果文章對你有幫助,歡迎點(diǎn)贊收藏,并轉(zhuǎn)發(fā)給需要的朋友。GLM-Image 介紹
在開始實(shí)測前,還是有必要來了解下 GLM-Image。
模型基于昇騰Atlas 800T A2設(shè)備和昇思MindSpore AI框架完成從數(shù)據(jù)到訓(xùn)練的全流程,是首個(gè)在國產(chǎn)芯片上完成全程訓(xùn)練的SOTA多模態(tài)模型。
![]()
GLM-Image采用自主創(chuàng)新的「自回歸+擴(kuò)散解碼器」混合架構(gòu),實(shí)現(xiàn)了圖像生成與語言模型的聯(lián)合,
這也是首個(gè)開源的工業(yè)表現(xiàn)級離散自回歸圖像生成模型。
GLM-Image 引入了「自回歸+擴(kuò)散解碼器」混合架構(gòu),創(chuàng)新地融合了9B大小的自回歸模型與7B大小的DiT擴(kuò)散解碼器。
![]()
同時(shí),GLM-Image 在文字渲染的權(quán)威榜單中達(dá)到開源 SOTA 水平。
![]()
GLM-Image 實(shí)測
下面給大家?guī)硪徊ㄎ矣?API 做的實(shí)測 GLM-Image,內(nèi)含提示詞。
黑板報(bào)制作
![]()
提示詞:
?板粉筆?格的科學(xué)信息圖插畫,采?橫向構(gòu)圖,背景為深??板,帶有明顯的粉筆灰、擦拭
痕跡與顆粒質(zhì)感,整體呈現(xiàn)?學(xué)?年級或中學(xué)科學(xué)教室中常?的教學(xué)?板?格。頂部居中位置
為?個(gè)?標(biāo)題,使?彩?粉筆?寫字體?格,標(biāo)題內(nèi)容為:“?頓的三棱鏡實(shí)驗(yàn):光的『七?
?變』”,字體顏?包括紅、藍(lán)、綠、?、紫等多種粉筆?,邊緣略帶粗糙感,呈現(xiàn)??書寫
的真實(shí)質(zhì)感。 \n\n畫?左側(cè)放置?個(gè)???粉筆畫出的矩形光源裝置,?束強(qiáng)烈?光以?平?
向射出,旁邊標(biāo)注?字:“?束?光(?禮包)”,字體采?簡潔的粉筆字,略帶?寫?格。
\n\n畫?中央繪有?塊透明的三棱鏡,???粉筆線條勾勒出清晰的?體結(jié)構(gòu),具有輕微的透
視效果。?光進(jìn)?三棱鏡后,在其內(nèi)部發(fā)?折射并分離,表現(xiàn)出光的分解過程。 \n\n畫?右側(cè)
展??光分解為紅、橙、?、綠、?、藍(lán)、紫七道彩?光束,呈扇形展開,顏?采?粉筆質(zhì)感
渲染,??真實(shí)的光效。在彩?光束的右側(cè),??括號標(biāo)注:“七?光譜(真相??!)”。
在彩?光束的上?和下?分別?粉筆?字標(biāo)注解釋:“紅光:拐彎最?”“紫光:拐彎最
?”。 \n\n在三棱鏡頂部或彩?光束上?,加?兩個(gè)擬?化的卡通??(簡單粉筆涂鴉?),
分別為紅?和紫?,兩個(gè)??像滑滑梯?樣順著折射路徑滑下,表情夸張、有趣但不過于低
幼,?于直觀表現(xiàn)光的折射差異,增強(qiáng)趣味性和理解性。 \n\n底部中央位置繪制?個(gè)粉筆畫出
的對?框或講解框,內(nèi)含多?中?說明?字:“原來,?光不是‘單?狗’,?是‘七?合
體’的復(fù)?光!不同顏?的光‘性格’不同(折射率不同),過三棱鏡時(shí)拐彎?度就不同,紫
光最容易拐?彎!” \n\n整體畫??格為?繪?格,線條略帶抖動感,強(qiáng)調(diào)粉筆的質(zhì)感與??
感,不追求真實(shí)光學(xué)模擬,?是注重信息傳達(dá)與教學(xué)直觀性。信息圖結(jié)構(gòu)清晰,具有強(qiáng)烈的教
學(xué)感,融合?點(diǎn)幽默元素,適合?于科普插畫、知識卡?或課堂海報(bào)。圖幅?分辨率,?攝影?格,?3D渲染,不包含真實(shí)?物形象。
黑板粉筆風(fēng)格
![]()
提示詞:
提示詞:
黑板粉筆風(fēng)格科學(xué)信息圖,橫向構(gòu)圖,深色黑板背景,帶有粉筆灰與擦拭痕跡。
頂部標(biāo)題: 彩色粉筆手寫體“植物的魔法廚房”。
左側(cè)(原料): 戴墨鏡的卡通太陽(陽光)、藍(lán)色水滴(水)、白色氣泡(CO2)。
中央(加工): 巨大的綠色葉子剖面圖,內(nèi)部畫成工廠車間,有一個(gè)戴廚師帽的綠色“葉綠體”卡通角色正在大鍋里攪拌烹飪。
右側(cè)(產(chǎn)物): 飄出的O2氣泡(氧氣)和堆積的白色方塊(糖/淀粉)。
底部: 粉筆畫的講解框,內(nèi)含中文說明文字。風(fēng)格: 2D手繪涂鴉風(fēng),線條粗糙,高對比度粉筆質(zhì)感,色彩鮮艷(綠、黃、白為主),幽默通俗,非寫實(shí),無真實(shí)人物,教育插圖風(fēng)格。
仿真 3D 圖
![]()
提示詞:
畫個(gè)航空發(fā)動機(jī)的仿真3d圖,其中的字體有中英雙語注程
生成清明上河圖部分
![]()
提示詞:
請你幫我生成一張清明上河圖的照片
電商宣傳圖
![]()
提示詞:
高端極簡護(hù)膚品攝影。畫面中央豎立著一瓶半透明的粉色液體潔面乳,配有白色按壓泵頭。瓶身浸潤在柔和的粉色泡沫中,輕盈的泡沫向外擴(kuò)散,形成光滑圓潤的形狀。細(xì)小的透明氣泡漂浮在泡沫表面。干凈的啞光粉色背景,
帶有微妙的漸變效果。柔和的漫射頂光和柔和的輪廓光透過液體,營造出明亮的光澤,并突出瓶內(nèi)的按壓泵頭。畫面清晰銳利,清晰度高,呈現(xiàn)逼真的液體折射效果,光滑的塑料和玻璃質(zhì)感,展現(xiàn)出奢華美妝廣告風(fēng)格,符合現(xiàn)代化妝品品牌形象,超逼真,8K細(xì)節(jié),高動態(tài)范圍。 否定提示:
手、人、臉、雜物、刺眼的反光、標(biāo)簽變形、無法辨認(rèn)的文字、扭曲的泵、生硬的陰影、顆粒感、噪點(diǎn)、低分辨率、電腦特效風(fēng)格、卡通風(fēng)格、凌亂的泡沫、光線不均、水印![]()
提示詞:
視覺構(gòu)建:Tip-Top 核心系列果汁包裝 第一層:核心定調(diào)(Core Intent) 一套高品質(zhì)商業(yè)級的果汁包裝視覺。不僅是產(chǎn)品展示,更是充滿動感與食欲的商業(yè)海報(bào)。統(tǒng)一采用 2:3 的縱橫比,旨在通過強(qiáng)烈的視覺張力驅(qū)動消費(fèi)購買欲望。 第二層:場景構(gòu)建(Context & Lighting) 構(gòu)建一個(gè)**動態(tài)飛濺(Splash)**的虛擬空間。果汁流在包裝周圍呈螺旋狀旋轉(zhuǎn),伴隨著新鮮果塊的飛舞。燈光通透且明亮,完美還原商業(yè)攝影中對液體晶瑩剔透質(zhì)感的捕捉。
第三層:視覺系統(tǒng)(Aesthetic & Subject) 色彩矩陣: 采用色彩映射邏輯。草莓味對應(yīng)清新莫蘭迪粉,芒果味對應(yīng)熱帶橙黃漸變,葡萄味對應(yīng)優(yōu)雅深紫漸變。 視覺語言: 走超寫實(shí)、高飽和度的活力商業(yè)風(fēng),強(qiáng)調(diào)色彩的純凈度與誘惑力。 第四層:文字/符號系統(tǒng)(Graphics)
畫面視覺中心為 "Tip-Top" 品牌包裝盒。包裝設(shè)計(jì)與背景元素?zé)o縫融合,品牌 Logo 位于包裝醒目位置,下方標(biāo)注對應(yīng)的草莓、金芒果或紫色葡萄口味名稱。 第五層:細(xì)節(jié)增強(qiáng)(Material & Texture) 極致質(zhì)感: 包裝盒呈現(xiàn)真實(shí)的紙質(zhì)/復(fù)合材料觸感;果肉細(xì)節(jié)需達(dá)到毛孔級寫實(shí)(如草莓表面的顆粒、芒果的潤澤)。 動態(tài)特效: 飛濺的液體帶有寫實(shí)的光澤反射與通透的折射效果,包裝邊緣伴有動感旋轉(zhuǎn)的水流微粒。人物生成
![]()
提示詞:
9:16,超現(xiàn)實(shí)電影感自拍攝影,嚴(yán)格保留參考圖臉部、皮膚、頭發(fā)、眼鏡、年齡性別,無合成皮膚/雕塑感;女性全身自拍,一腳觸地,一手伸直上舉持機(jī)(相機(jī)不可見)、一手伸鏡頭前持佳能相機(jī)(產(chǎn)品最突出),頭微傾、表情放松;極端俯拍(相機(jī)正上方)+胸部高度自拍視角,強(qiáng)制透視讓女性極度巨大,
建筑最高及膝,行人/車輛為真實(shí)尺度;背景是真實(shí)城市十字路口(含人行橫道、交通標(biāo)志等),自然日光(晴/輕微多云)、陰影柔和真實(shí);佳能相機(jī)無畸變、logo完整、僅自然反光;畫面無AI藝術(shù)感、塑料皮膚、
肢體扭曲、多余肢體、文字水印,前景/主體/背景清晰分離,主體視覺主導(dǎo)全場景![]()
提示詞:
傳統(tǒng)藝術(shù)掃描,紋理紙上的原始石墨鉛筆素描。藝術(shù)風(fēng)格明顯為荒木飛呂彥,《JOJO的奇妙冒險(xiǎn)》美學(xué)。粗獷、黑白漫畫分鏡感。全身鏡頭,擺出夸張、戲劇化的“JOJO立”,肢體扭曲、不可能解剖結(jié)構(gòu)、
強(qiáng)烈動態(tài)透視。高級時(shí)尚雕塑姿態(tài)。強(qiáng)調(diào)肌肉結(jié)構(gòu)與張力。厚重棱角交叉影線陰影,大膽鑿刻粗輪廓,極其細(xì)致的面部特征,厚唇銳利眼神。可見的侵略性鉛筆筆觸。高對比度。強(qiáng)烈氣場。9:16
海報(bào)
![]()
提示詞:
我要舉辦一場活動,主題為“A賦能發(fā)明創(chuàng)新”,時(shí)間為2025年11 月20日上午10點(diǎn),地點(diǎn)在北京體育中心,請幫我畫一張宣傳海 報(bào),要求有科技感。做菜步驟
![]()
提示詞:
為「{紅燒魚}」生成一張分步驟菜譜信息圖,要求: - 俯視圖,極簡風(fēng)格,白色背景 - 頂部居中顯示菜品中文名 - 標(biāo)注所有食材的中文名稱、用量和熱量 - 用虛線和圖標(biāo)展示烹飪步驟 - 底部展示成品擺盤效果圖 請根據(jù)該菜品的傳統(tǒng)做法,自動匹配合適的: 1. 食材清單(包含精確用量和熱量) 2. 烹飪步驟圖標(biāo)(如:切菜、炒制、調(diào)味等) 3. 成品呈現(xiàn)方式 2:3如何接入 API
目前 GLM-Image 的 API 還處于內(nèi)測階段,為了方便大家體驗(yàn),我用 Claude Code 配合 GLM-4.7 開發(fā)了個(gè)測試平臺,并且在 GitHub 上開源了。
![]()
輸入需求生成圖片,大家可以在 bigmodel 上用自己的 API 試試。
開源地址:https://github.com/freestylefly/glm_image_platform
![]()
說實(shí)話,寫到這里,我心里挺感慨的。
曾幾何時(shí),國產(chǎn)算力在很多 AI 開發(fā)者眼里,往往意味著適配難、生態(tài)弱、甚至跑不動。
但這回,GLM-Image 這個(gè)完全基于國產(chǎn)芯片訓(xùn)練出來的 SOTA 模型,實(shí)實(shí)在在地證明了一件事:哪怕路再難走,只要有人肯沉下心去死磕,路總是能走通的。
它可能還不是終點(diǎn),甚至可能在某些場景下還有瑕疵,但它邁出的這一步,讓咱們看到了國產(chǎn) AI 生態(tài)“自主造血”的希望。
風(fēng)起于青萍之末,我很期待看到大家用它玩出什么新花樣。
模型鏈接和部署教程我都打包好了,感興趣的兄弟們自取。
好啦,今天的文章就到這,感謝你喜歡我的文章,我們下一期見。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.