網易首頁 > 網易號 > 正文申請入駐

模型即審美：生圖模型們正建起自己的“視覺方言”

2026-05-05 11:15:41　來源: 硅星人

北京舉報

分享至

作者｜趙舟辰
郵箱｜ zhaozhouchen@pingwest.com

最近在測試各種AI生圖模型的時候，我們發現了一個現象：同樣一個提示詞，丟給不同的模型，出來的圖片風格差異大到像是出自不同攝影流派。

Image-2生成的圖就像我昨天隨手拍的，但Nano Banana生成的圖感覺像某個家居品牌的廣告大片。有些模型執著于捕捉現實的每一絲瑕疵，有些則癡迷于把日常場景變成精致的藝術品。這背后反映的不是能力差別，而是每個模型對"什么值得被看"有了不同的商業假設。

這就是"模型味"，也就是這種模型特點的底色——一種被量化、被大規模復制、正在成為下一代視覺內容底色的審美偏執。

Image-2：隱藏于真實世界的間諜

Image-2的核心邏輯很簡單：放棄所有攝影技巧，只生成人眼真實看到的樣子。

從商業角度看，這意味著最低的視覺加工成本。

下雨天的公交站不需要電影級打光——就是淅淅瀝瀝、蕭瑟的樣子。

吃了一半的外賣不需要精修——油膩、不怎么美觀就是它的真實成本結構。

深夜的便利店黑漆漆一片，只有711亮著燈的詭異感。

垃圾桶周圍天色微微沙塵，柏油馬路有些年頭的感覺。

城中村那種根本沒有管制，小商小戶們一起在小小地方無規則的擁擠的感覺非常真實。

這些"不完美"其實是成本最低的表達方式——因為它們就是現實本身。

陽臺的晾衣桿雖然有點穿幫，但是那種黑云壓城城欲摧的低氣壓感表達的很到位，那些現實的瑕疵、不規則感，別的模型可能視為缺陷要修正，Image-2卻把握得很到位。為什么？因為這些不規則本身就是真實的證明，也是最省算力的渲染方案。它不會給你打光、調色、精心構圖，它就是你的眼睛——你瞥到什么，它就生成什么。

這就是Image-2的商業密碼：看它的輸出，你的第一反應永遠是"這好像是我昨天看過的"，而不是"這是AI生的"。它成功地把自己隱沒在了日常生活里，成為最隱形的攝像機。對于需要大量真實素材的產品（比如Adobe的設計工具），這種"不被認出來"反而是最大的價值——用戶不需要二次加工，直接可用。

Nano Banana2：楚門世界的藝術總監

Nano的邏輯完全相反——把現實變成一個被精心擺拍的世界，讓每一個物體都配得上被凝視和轉化。

同樣是垃圾堆，Image-2給你的是真實的臟亂臭味，Nano給你的是一個藝術布景。

一杯水在Image-2里是一杯普通的水，在Nano里就是擺在這里要拍輕松閑適氛圍的廣告道具。

半個西紅柿不是隨便切的——二十精挑萬選、打了面光、噴了水、特意固定了位置。

一塊泥巴也是，有人找了平整的土地，噴了點水，團了一把泥巴，塑了塑形，擺到正當間，調整了構圖才拍的。

這個剛起床的臥室根本毫無睡了一夜的雜亂感，而是感覺這是一個臥室家居用品的廣告拍攝現場

這幾張塑料拖鞋，生銹的鐵釘，洗手臺上的肥皂，都有一種精心的擺拍感

這不是無用功。Nano Banana的核心商業假設是：如果要大規模生成內容，不如直接生成"已經被設計過的現實"。對Google的Cosmic這樣的web端產品來說，這意味著素材可以直接用，無需二次打磨。售樓處的宣傳圖就該這樣——精致、無暇、充滿了"生活在這里很舒服"的心理暗示。這是一種更直接的商業轉化邏輯。

Nano Banana 的世界觀很清晰：本該自然無序的一切，都被調教得更適合被觀看、被欣賞、被購買。這是一個過度設計的烏托邦，也是互聯網產品想要呈現給用戶的那個理想世界。

豆包/即夢：不太全能的情感闡述高手

字節系的這兩個模型遇到了一個典型的商業難題：把大部分算力投給了人物情緒和面部特征，其他維度的成本控制就顯得很吃力。

優勢很明顯。望著窗外的女孩那張，舒適和愜意表達得精準。

流浪貓那張，把可憐無助、還有點懼怕人而保持一點攻擊性的感覺表達得很精確。這種對人物細微情緒的洞察力在競品中很難復現。對于需要"打動人"的內容場景（比如短視頻封面、社交媒體素材），這種能力是真正的稀缺資源。

但短板也很直白。色調比較濃重，暖調和冷調十分失衡。最能暴露問題的是光影處理——光線要么極度強烈，要么幾乎沒有光影。影子一多了，豆包就干脆只精心生成有光線的地方。在生成智能手機、舊書店角落、黑咖啡這些圖片中，這個成本分配的不均衡表現得最突出。

桌面橘子這張圖片的背景處理問題更嚴重。縱深感表達不好，有一種背景要翻上來的感覺。最極端的是智能手機那一張，背景直接變成大白板——這樣手機這種狹窄的光影才能比較不費算力地生成。還有個有意思的現象：豆包過于愛渲染"氛圍"，有時會按照自己對"氛圍"的理解去改寫你的需求，而不是真正聽你的。

這其實反映了一個更大的問題：當模型在某個維度投入過多，就會被迫在其他維度做出妥協。字節的選擇是用"情感打動"來補償"場景還原"的不足，這在內容創意場景可能有效，但在需要全方位精致度的場景就會顯得單薄。

可靈：追求幀幀充滿故事感的好萊塢導演

可靈作為短視頻的主力生成工具，遵循的是完全不同的商業邏輯——每一幀都必須在講故事。

所有的圖都被放置在了一個已有的世界觀或語境里，每一個畫面都在暗示：接下來會發生什么。這種"預敘事"能力體現在細節里。正在系鞋帶的男人，你一看就感覺他發現你在看他了。走廊盡頭那張，透視感極強，感覺是高檔酒店的短劇現場，你能想象有人會從那頭走出來。地下停車場給人安靜的詭異感，下一秒燈就會從遠處一個個快速熄滅。

這種故事感體現在對攝影技巧的精準運用上。掉在地上的雨傘用側逆光、死角做了黑暗虛化處理，像案發現場證物。后視鏡里的眼睛，構圖壓迫感極強，直接聚焦在后視鏡。空蕩的地鐵車廂調色真實到電影級別，有《黑客帝國》的感覺。

可靈的成本結構是：用光影、構圖、虛化、調色等所有攝影語言服務于敘事，把靜止畫面轉化成正在展開的故事。這對短視頻、游戲角色、廣告創意這類"需要視覺沖擊"的場景是理想的。但如果你只是想要一張干凈的產品圖，可靈會強行給你加上故事性——這種"過度設計"在某些場景反而成了負擔。

使用越多，越會發現今天各個模型都有了它自己的一套視覺“方言”，而這些視覺語言都是審美的直接反映，模型逐漸在審美品味上直接區分開來。

而除了各種數據和訓練方法帶來的審美不同，選擇不同模型時，還有不同的成本考量。

需要真實/電影級素材用Image-2——現實感強，瑕疵本身就是素材，省去了后期精修的成本。需要3A游戲場景或房屋中介宣傳圖用Nano Banana 2——那種真實華麗但又一眼看出不是現實的感覺，正好適配售樓處"理想化呈現"的成本結構。需要表達人物情緒和面部特征用豆包或即夢——這兩個模型在"情感轉化"上的成本最低。需要游戲人物或短視頻素材用可靈——敘事感和視覺沖擊力的ROI最高。

這都會使得接下來AI生圖的競爭從"誰更強"轉向"誰的味兒更對口"。而且，這種視覺傾向和偏好在使用中會再被加強，形成一個個風格的閉環。最終，最多用戶的幾個主要的模型很可能會一起改變人們對于審美的最根本理解。

點個“愛心”，再走吧

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.