太牛逼了
![]()
本文封面就是 GPT-Image-2 自己畫的,非常強大
凌晨,OpenAI 正式發布 ChatGPT Images 2.0,ChatGPT、Codex、API 三端同時全量上線,API 模型名gpt-image-2
![]()
文字精細度,能騙過人眼
在正式發布前,我做了一輪全面實測,簡直是效果夯爆了:
同時,OpenAI 在推特上甩了一張截圖當預告,配文「This is not a screenshot」,這張截圖本身就是 ChatGPT Images 2.0 畫的
![]()
接下來,我會具體說一說這個模型的更多信息、效果以及局限性
這應該是全網最詳實的一篇解讀
哪里能用 · 價格 · 權限
ChatGPT Images 2.0 今天對所有 ChatGPT 和 Codex 用戶開放。帶思考模式(Thinking)的進階版本,僅 ChatGPT Plus、Pro、Business 用戶能用
API 端的模型字符串叫gpt-image-2,通過 Image API(generations / edits)和 Responses API(image_generation 工具)都能調用。Codex 內置了圖像生成,不需要單獨申請 API key,ChatGPT 訂閱直接覆蓋
API 價格(按圖按尺寸按質量,單位美元)
質量
1024×1024
1024×1536
1536×1024
Low
$0.006
$0.005
$0.005
Medium
$0.053
$0.041
$0.041
High
$0.211
$0.165
$0.165
跟上代 gpt-image-1.5 比,high 檔方圖從 $0.133 漲到$0.211(+59%);medium 檔方圖從 $0.034 漲到$0.053(+56%);low 檔基本持平
尺寸約束
最大邊長 ≤ 3840px,長短邊比 ≤ 3:1,總像素在 65 萬到 829 萬之間,每邊都是 16px 的倍數。常用的 2K 方圖、2K 長方圖、4K 橫屏、4K 豎屏都能跑,但 2K 以上當前是 beta 階段,結果可能不穩定
編輯參數變化
gpt-image-2的圖像編輯模式默認對所有參考圖按 high fidelity 處理,所以input_fidelity這個參數已經移除。帶參考圖的編輯請求 token 消耗會比上代略高
調用示例
以本文開頭那張封面右半邊為例,21:9 的橫版雜志頁,high 檔質量。完整調用如下:
from openai import OpenAI
import base64
client = OpenAI(api_key="sk-...")
result = client.images.generate(
model="gpt-image-2",
prompt="A horizontal magazine cover, ...",
size="1920x816",
quality="high",
img_bytes = base64.b64decode(result.data[0].b64_json)
open("cover.png", "wb").write(img_bytes)
就這么短。high 檔每張圖大約 60 秒、$0.165。封面整圖分兩次畫(左 1024×1024 + 右 1920×816),加起來不到三毛錢人民幣
第一個會思考的圖像模型
這是這次發布最大的范式變化
ChatGPT Images 2.0 是 OpenAI 第一個帶思考能力的圖像模型。在 ChatGPT 里選 thinking 或 pro 模型時觸發,做三件事:聯網搜索實時信息、一次產出最多 8 張連貫圖、自我檢查輸出質量
OpenAI 給出五個思考模式的代表演示
演示一扒 OpenAI 官網當前在售的 merch,做一張產品海報
![]()
整張海報上的 10 周年球衣、Diagram 帽衫、Chrome Blossom T 恤、Blue Chair 鑰匙扣、GPT-5 火焰帽、OpenAI 筆記本、辦公咖啡杯、Thinking Deeply 帽子,全是模型實時去 OpenAI Supply Co 網站搜出來的真實在售商品。模型不僅畫了圖,還知道這些商品在哪、長什么樣
演示二在 35mm 黑板照片上證明「奇數之和等于平方數」
![]()
這是數學可視化推理。模型先要算清楚證明步驟,再把推導畫進黑板,最后整張圖按 35mm 膠片攝影風格輸出
演示三一次畫完四頁連貫漫畫
![]()
水豚和水獺去南法度假,主角形象在四頁漫畫里保持穩定。這是漫畫工作流第一次跑通的標志
演示四抹茶店在不同社交平臺的多尺寸廣告
![]()
布魯克林海茨新開的抹茶店 Kizuki,一次出 Twitter、IG 故事、IG 信息流、LinkedIn 四個尺寸的草莓抹茶物料,風格統一。以前要分四次提示詞
演示五基于上傳的論文 PDF 做學術海報
![]()
模型讀完整篇 PDF,提取關鍵圖表,按學術海報版式輸出
思考模式的核心價值不是「畫得更好」,是「替你想清楚」。idea 到成品之間那段繁瑣的腦力活,模型自己接下了
文字渲染:從英文跨到非拉丁文字
這是普通用戶最直接能感受到的變化
之前的圖像模型在英文和拉丁字母語言上一直比較穩,日文、中文、韓文、印地文、孟加拉文一旦密度上來就崩。ChatGPT Images 2.0 在這五種文字上有顯著提升
日文連環漫畫主角找到一支「GPT 畫像生成的羽筆」,戲劇化設定,全篇日文,整張圖當物理印刷的漫畫書頁處理
![]()
印度書店印地、孟加拉、馬拉地、泰盧固、泰米爾、烏爾都、古吉拉特、卡納達、奧利亞九種印度語言的書封陳列,所有文字清晰可讀,出版社統一標 OpenAI
![]()
中文連環漫畫研究員陳博遠在調試中文渲染,最后被 Sam Altman 發的「穩穩地接住你」式中文氣哭。每個漢字都準,包括底部那段超小字號的「(此處為極小字號測試)無錫是作者的故鄉,所以做了這幅海報,中文總算是修好了」
![]()
韓文廣告韓屋酒店預訂卡片,三幕場景串聯,韓文標題清晰
![]()
多語言印刷海報慶祝世界各地語言的字體藝術,日本編輯風格
![]()
中文不再是圖像模型的二等公民。這是這一代國內用戶最該關心的變化
指令服從和細節渲染
ChatGPT Images 2.0 在「按你說的精確去做」這件事上提升明顯
特別是圖像模型一向頭疼的幾個細節:小字、圖標、UI 元素、密集排版、微妙的風格約束。API 端最高支持 2K 分辨率
狼的科學雜志頁「關于北美狼遠沒有想象中那么危險」的編輯頁,光面、流暢、排版克制的科學雜志風
![]()
手寫棒球史用鉛筆在 8.5×11 橫線紙上寫多倫多棒球史,筆畫粗細帶人為不均,右上角一塊淡淡的咖啡漬
![]()
米堆找字上千粒米的特寫,其中一粒上刻著「GPT Image 2」,跟其他米粒一樣大,遠看完全找不到
![]()
多元視覺雜志頁這次發布的封面海報。主題是「visual polyglot」,把科學圖表、元素周期表、太陽系、中世紀手稿、植物插畫、解剖圖、古地圖、氣候圖、工程示意圖、交通指示、漫畫格、UI 截圖、蝴蝶標本、餅圖、建筑藍圖全堆在一張 4:5 海報上,標題「Create Everything at Once」居中
![]()
風格保真度
模型在多種視覺風格上的還原度提升明顯,包括攝影、電影、像素藝術、漫畫。重點是能捕捉到風格里那些微妙的細節,膠片顆粒、鏡頭眩光、光線的不完美都能保留
海岸邊的電影感旁拍35mm 膠片,自然不完美的取景,可見顆粒,烏云早晨的氛圍
![]()
超現實雙胞胎肖像中畫幅模擬相機,85mm f/4,霧蒙蒙的美國鄉村公路上一對雙胞胎的特寫
![]()
怪誕郊區肖像戶外、室內、私密郊區場景,畫幅推到中產階級的奇異感
![]()
2015 年 UBC 大學講堂教授在講 GPT imagegen 2,幻燈片里又是教授在講 GPT imagegen 2,無限遞歸
![]()
iPhone 拍的外星人喝咖啡傍晚戶外咖啡館,兩個外星人坐在桌邊,半空的飲料、不均的陽光、隨意的姿勢
![]()
高級時尚攝影集35mm 拍攝的時尚攝影書
![]()
2002 年高中機房架空歷史,每個學生都在用 ChatGPT,米色 CRT 顯示器、Windows XP 瀏覽器、球鼠標、纏繞的電纜、地上的雙肩包,左下角帶橘色日期戳「02 18 04」
![]()
70 年代紐約街拍攝影集35mm 膠片書頁
![]()
風格化方面,從青年漫畫到法國新浪潮,從中世紀粉彩到現代獨立漫畫,模型都能精準捕捉
![]()
![]()
![]()
![]()
少年動漫角色設定頁基于上傳的真人照片,做漫畫角色 character sheet,名字叫 Adele
![]()
GPT Image 2 工作室物料審稿單、釘在墻上的樣張、印刷打樣、版式研究、筆記、各種發布前的設計衍生物,看起來像一個嚴肅創意工作室準備發布前的桌面
![]()
寬高比拉到 3:1 到 1:3
之前的圖像模型一律以方圖為主,這次把寬高比拉開,從 3:1 超寬到 1:3 超高都能跑
3:1 超寬籃球扣籃的連環動作分解
![]()
iPhone 全景泰國都市,故意帶輕微的拼接錯位
![]()
iPhone 全景法國南部夏日
![]()
Art Deco 風格書簽完整帶尺寸標注,含出血、裁切、安全邊距,可以直接拿去印刷
![]()
3:1 橫版中國傳統山水畫
![]()
1:3 超高 9 人站位日式漫畫長脖子、小臉、最簡線稿、圍一張大白紙做畫
![]()
1:3 超高童書風路線圖黑色細線在白底上蜿蜒,穿過各種童書角色和「not yet」之類的短語
![]()
真實世界的智能
ChatGPT Images 2.0 的知識截止是 2025 年 12 月,比上代新很多
做信息圖、教育插畫、視覺摘要這類內容時,模型給出的具體內容是 up-to-date 的
康托對角線證明信息圖把數學證明從「假設」「對角線」「構造」「矛盾」四步可視化
![]()
2025 年六大設計趨勢壁畫風海報,每個面板尺寸一致
![]()
人物色彩分析基于上傳的肖像,做個人色彩適配診斷,文字最少化
![]()
在 Codex 里直接畫圖
Codex 現在內置了 ChatGPT Images 2.0
可以在 Codex 工作區直接生成、迭代、ship 應用、做幻燈片,多個 UI 方向、概念、原型一次跑出來對比,挑最好的轉成正式產品。不需要單獨申請 API key,ChatGPT 訂閱直接覆蓋
適用場景從設計、營銷、產品、銷售一直延伸到學習培訓
客戶驗證
API 已經在四家創意軟件商手里跑過
Canva用 GPT Image 2 做一支美妝品牌的 lip balm 廣告,模型自己加了「viral on TikTok」貼紙,沒人提示
![]()
模型不只在渲染。它在理解 brief、理解受眾,背后做創意決策。我們以前評估 AI 看技術輸出,真正的變化是創意推理和設計審美
Dwayne Koh / Canva 創意策略師
Figma從文字密集的視覺到逼真場景的全流程支持
![]()
編輯能力和美學層面的提升給設計師更多塑形空間
Loredana Crisan / Figma 首席設計官
Adobe Firefly電影感旅店航拍圖,一排粉色海岸 motel,每家有不同形狀的泳池,旅店名是「Firefly Motel」「Firefly Lodge」「Firefly Stay」「Casa Firefly」
![]()
從單圖生成升級到結構化視覺內容
Mike Folgner / Adobe Firefly 產品高級總監
OpenArt用 GPT Image 2 做電影級視頻生產 Smart Shot 的「創意總監」,宙斯 vs 黑帝斯的史詩戰斗序列分鏡
![]()
本來需要整個創意團隊的工作,現在瞬間完成
Chloe Fang / OpenArt 合作主管
還做不到的事
ChatGPT Images 2.0 不是完美。OpenAI 在博客里把短板單獨寫了一節,沒回避
![]()
![]()
![]()
需要完整、連貫的物理世界模型的任務(折紙指南、魔方拼圖)依然吃力
極密、極重復的視覺細節(沙粒級別)會逼到模型上限
帶精確箭頭和零件標簽的標注圖、示意圖,準確度仍需人工復核
API 端 2K 以上分辨率當前是 beta,結果可能不穩定。復雜提示詞的延遲最高可達 2 分鐘。重復角色或品牌元素的連續生成偶爾會失穩
安全
ChatGPT Images 2.0 的安全棧延續 1.5 的三層結構:上游文本拒絕、下游圖像/輸入雙重檢查、最終輸出審查
按照 OpenAI 自己發布的 System Card 數據:
InstantInstant 模式 99.1% 的對抗 prompt 能輸出安全圖像(3085/3112)
ThinkingThinking 模式 99.2%(6886/6944)
Thinking 模式有個有意思的差異:它從源頭產生的違規圖本來就少(6.7% vs Instant 的 22.0%),原因是 thinking 模型用 Safe Completions 把對抗 prompt 轉譯成安全版本,而不是直接拒絕
生物領域單獨應用了圖像版的生物風險安全策略。OpenAI 找了生物武器專家來評估,結果顯示模型在某些場景下輸出的信息密度足以「為新手提供幫助」,因此按 high capability 級別配置防護。配套了實時阻斷、離線對話審查、賬號封禁三道關
繼續堅持 C2PA metadata 和不可見水印,便于內容溯源
參考資料
官方發布博客openai.com/index/introducing-chatgpt-images-2-0
API 文檔developers.openai.com/api/docs/guides/image-generation
定價說明developers.openai.com/api/docs/pricing
模型卡片deploymentsafety.openai.com/chatgpt-images-2-0
我前兩天的 50+ Case 實測
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.