網易首頁 > 網易號 > 正文申請入駐

從特點到 API，Image2 最完整解讀

2026-04-22 10:17:38　來源: 賽博禪心

北京舉報

分享至

太牛逼了

本文封面就是 GPT-Image-2 自己畫的，非常強大

凌晨，OpenAI 正式發布 ChatGPT Images 2.0，ChatGPT、Codex、API 三端同時全量上線，API 模型名gpt-image-2

文字精細度，能騙過人眼

在正式發布前，我做了一輪全面實測，簡直是效果夯爆了：

同時，OpenAI 在推特上甩了一張截圖當預告，配文「This is not a screenshot」，這張截圖本身就是 ChatGPT Images 2.0 畫的

接下來，我會具體說一說這個模型的更多信息、效果以及局限性

這應該是全網最詳實的一篇解讀

哪里能用 · 價格 · 權限

ChatGPT Images 2.0 今天對所有 ChatGPT 和 Codex 用戶開放。帶思考模式（Thinking）的進階版本，僅 ChatGPT Plus、Pro、Business 用戶能用

API 端的模型字符串叫gpt-image-2，通過 Image API（generations / edits）和 Responses API（image_generation 工具）都能調用。Codex 內置了圖像生成，不需要單獨申請 API key，ChatGPT 訂閱直接覆蓋

API 價格（按圖按尺寸按質量，單位美元）

質量

1024×1024

1024×1536

1536×1024

Low

$0.006

$0.005

Medium

$0.053

$0.041

High

$0.211

$0.165

跟上代 gpt-image-1.5 比，high 檔方圖從 $0.133 漲到$0.211（+59%）；medium 檔方圖從 $0.034 漲到$0.053（+56%）；low 檔基本持平

尺寸約束

最大邊長 ≤ 3840px，長短邊比 ≤ 3:1，總像素在 65 萬到 829 萬之間，每邊都是 16px 的倍數。常用的 2K 方圖、2K 長方圖、4K 橫屏、4K 豎屏都能跑，但 2K 以上當前是 beta 階段，結果可能不穩定

編輯參數變化

gpt-image-2的圖像編輯模式默認對所有參考圖按 high fidelity 處理，所以input_fidelity這個參數已經移除。帶參考圖的編輯請求 token 消耗會比上代略高

調用示例

以本文開頭那張封面右半邊為例，21:9 的橫版雜志頁，high 檔質量。完整調用如下：

from openai import OpenAI

import base64

client = OpenAI(api_key="sk-...")

result = client.images.generate(

model="gpt-image-2",

prompt="A horizontal magazine cover, ...",

size="1920x816",

quality="high",

img_bytes = base64.b64decode(result.data[0].b64_json)

open("cover.png", "wb").write(img_bytes)

就這么短。high 檔每張圖大約 60 秒、$0.165。封面整圖分兩次畫（左 1024×1024 + 右 1920×816），加起來不到三毛錢人民幣

第一個會思考的圖像模型

這是這次發布最大的范式變化

ChatGPT Images 2.0 是 OpenAI 第一個帶思考能力的圖像模型。在 ChatGPT 里選 thinking 或 pro 模型時觸發，做三件事：聯網搜索實時信息、一次產出最多 8 張連貫圖、自我檢查輸出質量

OpenAI 給出五個思考模式的代表演示

演示一扒 OpenAI 官網當前在售的 merch，做一張產品海報

整張海報上的 10 周年球衣、Diagram 帽衫、Chrome Blossom T 恤、Blue Chair 鑰匙扣、GPT-5 火焰帽、OpenAI 筆記本、辦公咖啡杯、Thinking Deeply 帽子，全是模型實時去 OpenAI Supply Co 網站搜出來的真實在售商品。模型不僅畫了圖，還知道這些商品在哪、長什么樣

演示二在 35mm 黑板照片上證明「奇數之和等于平方數」

這是數學可視化推理。模型先要算清楚證明步驟，再把推導畫進黑板，最后整張圖按 35mm 膠片攝影風格輸出

演示三一次畫完四頁連貫漫畫

水豚和水獺去南法度假，主角形象在四頁漫畫里保持穩定。這是漫畫工作流第一次跑通的標志

演示四抹茶店在不同社交平臺的多尺寸廣告

布魯克林海茨新開的抹茶店 Kizuki，一次出 Twitter、IG 故事、IG 信息流、LinkedIn 四個尺寸的草莓抹茶物料，風格統一。以前要分四次提示詞

演示五基于上傳的論文 PDF 做學術海報

模型讀完整篇 PDF，提取關鍵圖表，按學術海報版式輸出

思考模式的核心價值不是「畫得更好」，是「替你想清楚」。idea 到成品之間那段繁瑣的腦力活，模型自己接下了

文字渲染：從英文跨到非拉丁文字

這是普通用戶最直接能感受到的變化

之前的圖像模型在英文和拉丁字母語言上一直比較穩，日文、中文、韓文、印地文、孟加拉文一旦密度上來就崩。ChatGPT Images 2.0 在這五種文字上有顯著提升

日文連環漫畫主角找到一支「GPT 畫像生成的羽筆」，戲劇化設定，全篇日文，整張圖當物理印刷的漫畫書頁處理

印度書店印地、孟加拉、馬拉地、泰盧固、泰米爾、烏爾都、古吉拉特、卡納達、奧利亞九種印度語言的書封陳列，所有文字清晰可讀，出版社統一標 OpenAI

中文連環漫畫研究員陳博遠在調試中文渲染，最后被 Sam Altman 發的「穩穩地接住你」式中文氣哭。每個漢字都準，包括底部那段超小字號的「（此處為極小字號測試）無錫是作者的故鄉，所以做了這幅海報，中文總算是修好了」

韓文廣告韓屋酒店預訂卡片，三幕場景串聯，韓文標題清晰

多語言印刷海報慶祝世界各地語言的字體藝術，日本編輯風格

中文不再是圖像模型的二等公民。這是這一代國內用戶最該關心的變化

指令服從和細節渲染

ChatGPT Images 2.0 在「按你說的精確去做」這件事上提升明顯

特別是圖像模型一向頭疼的幾個細節：小字、圖標、UI 元素、密集排版、微妙的風格約束。API 端最高支持 2K 分辨率

狼的科學雜志頁「關于北美狼遠沒有想象中那么危險」的編輯頁，光面、流暢、排版克制的科學雜志風

手寫棒球史用鉛筆在 8.5×11 橫線紙上寫多倫多棒球史，筆畫粗細帶人為不均，右上角一塊淡淡的咖啡漬

米堆找字上千粒米的特寫，其中一粒上刻著「GPT Image 2」，跟其他米粒一樣大，遠看完全找不到

多元視覺雜志頁這次發布的封面海報。主題是「visual polyglot」，把科學圖表、元素周期表、太陽系、中世紀手稿、植物插畫、解剖圖、古地圖、氣候圖、工程示意圖、交通指示、漫畫格、UI 截圖、蝴蝶標本、餅圖、建筑藍圖全堆在一張 4:5 海報上，標題「Create Everything at Once」居中

風格保真度

模型在多種視覺風格上的還原度提升明顯，包括攝影、電影、像素藝術、漫畫。重點是能捕捉到風格里那些微妙的細節，膠片顆粒、鏡頭眩光、光線的不完美都能保留

海岸邊的電影感旁拍35mm 膠片，自然不完美的取景，可見顆粒，烏云早晨的氛圍

超現實雙胞胎肖像中畫幅模擬相機，85mm f/4，霧蒙蒙的美國鄉村公路上一對雙胞胎的特寫

怪誕郊區肖像戶外、室內、私密郊區場景，畫幅推到中產階級的奇異感

2015 年 UBC 大學講堂教授在講 GPT imagegen 2，幻燈片里又是教授在講 GPT imagegen 2，無限遞歸

iPhone 拍的外星人喝咖啡傍晚戶外咖啡館，兩個外星人坐在桌邊，半空的飲料、不均的陽光、隨意的姿勢

高級時尚攝影集35mm 拍攝的時尚攝影書

2002 年高中機房架空歷史，每個學生都在用 ChatGPT，米色 CRT 顯示器、Windows XP 瀏覽器、球鼠標、纏繞的電纜、地上的雙肩包，左下角帶橘色日期戳「02 18 04」

70 年代紐約街拍攝影集35mm 膠片書頁

風格化方面，從青年漫畫到法國新浪潮，從中世紀粉彩到現代獨立漫畫，模型都能精準捕捉

少年動漫角色設定頁基于上傳的真人照片，做漫畫角色 character sheet，名字叫 Adele

GPT Image 2 工作室物料審稿單、釘在墻上的樣張、印刷打樣、版式研究、筆記、各種發布前的設計衍生物，看起來像一個嚴肅創意工作室準備發布前的桌面

寬高比拉到 3:1 到 1:3

之前的圖像模型一律以方圖為主，這次把寬高比拉開，從 3:1 超寬到 1:3 超高都能跑

3:1 超寬籃球扣籃的連環動作分解

iPhone 全景泰國都市，故意帶輕微的拼接錯位

iPhone 全景法國南部夏日

Art Deco 風格書簽完整帶尺寸標注，含出血、裁切、安全邊距，可以直接拿去印刷

3:1 橫版中國傳統山水畫

1:3 超高 9 人站位日式漫畫長脖子、小臉、最簡線稿、圍一張大白紙做畫

1:3 超高童書風路線圖黑色細線在白底上蜿蜒，穿過各種童書角色和「not yet」之類的短語

真實世界的智能

ChatGPT Images 2.0 的知識截止是 2025 年 12 月，比上代新很多

做信息圖、教育插畫、視覺摘要這類內容時，模型給出的具體內容是 up-to-date 的

康托對角線證明信息圖把數學證明從「假設」「對角線」「構造」「矛盾」四步可視化

2025 年六大設計趨勢壁畫風海報，每個面板尺寸一致

人物色彩分析基于上傳的肖像，做個人色彩適配診斷，文字最少化

在 Codex 里直接畫圖

Codex 現在內置了 ChatGPT Images 2.0

可以在 Codex 工作區直接生成、迭代、ship 應用、做幻燈片，多個 UI 方向、概念、原型一次跑出來對比，挑最好的轉成正式產品。不需要單獨申請 API key，ChatGPT 訂閱直接覆蓋

適用場景從設計、營銷、產品、銷售一直延伸到學習培訓

客戶驗證

API 已經在四家創意軟件商手里跑過

Canva用 GPT Image 2 做一支美妝品牌的 lip balm 廣告，模型自己加了「viral on TikTok」貼紙，沒人提示

模型不只在渲染。它在理解 brief、理解受眾，背后做創意決策。我們以前評估 AI 看技術輸出，真正的變化是創意推理和設計審美

Dwayne Koh / Canva 創意策略師

Figma從文字密集的視覺到逼真場景的全流程支持

編輯能力和美學層面的提升給設計師更多塑形空間

Loredana Crisan / Figma 首席設計官

Adobe Firefly電影感旅店航拍圖，一排粉色海岸 motel，每家有不同形狀的泳池，旅店名是「Firefly Motel」「Firefly Lodge」「Firefly Stay」「Casa Firefly」

從單圖生成升級到結構化視覺內容

Mike Folgner / Adobe Firefly 產品高級總監

OpenArt用 GPT Image 2 做電影級視頻生產 Smart Shot 的「創意總監」，宙斯 vs 黑帝斯的史詩戰斗序列分鏡

本來需要整個創意團隊的工作，現在瞬間完成

Chloe Fang / OpenArt 合作主管

還做不到的事

ChatGPT Images 2.0 不是完美。OpenAI 在博客里把短板單獨寫了一節，沒回避

需要完整、連貫的物理世界模型的任務（折紙指南、魔方拼圖）依然吃力

極密、極重復的視覺細節（沙粒級別）會逼到模型上限

帶精確箭頭和零件標簽的標注圖、示意圖，準確度仍需人工復核

API 端 2K 以上分辨率當前是 beta，結果可能不穩定。復雜提示詞的延遲最高可達 2 分鐘。重復角色或品牌元素的連續生成偶爾會失穩

安全

ChatGPT Images 2.0 的安全棧延續 1.5 的三層結構：上游文本拒絕、下游圖像/輸入雙重檢查、最終輸出審查

按照 OpenAI 自己發布的 System Card 數據：

InstantInstant 模式 99.1% 的對抗 prompt 能輸出安全圖像（3085/3112）

ThinkingThinking 模式 99.2%（6886/6944）

Thinking 模式有個有意思的差異：它從源頭產生的違規圖本來就少（6.7% vs Instant 的 22.0%），原因是 thinking 模型用 Safe Completions 把對抗 prompt 轉譯成安全版本，而不是直接拒絕

生物領域單獨應用了圖像版的生物風險安全策略。OpenAI 找了生物武器專家來評估，結果顯示模型在某些場景下輸出的信息密度足以「為新手提供幫助」，因此按 high capability 級別配置防護。配套了實時阻斷、離線對話審查、賬號封禁三道關

繼續堅持 C2PA metadata 和不可見水印，便于內容溯源

參考資料

官方發布博客openai.com/index/introducing-chatgpt-images-2-0

API 文檔developers.openai.com/api/docs/guides/image-generation

定價說明developers.openai.com/api/docs/pricing

模型卡片deploymentsafety.openai.com/chatgpt-images-2-0

我前兩天的 50+ Case 實測

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.