網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

深扒GPT Image 2：疑似“吞”下了GPT-4o，OpenAI沒把它當(dāng)“生圖”模型訓(xùn)練

2026-05-03 10:43:17　來源: 硅星人

北京舉報(bào)

分享至

作者｜樊雅婷
郵箱｜ fanyating@pingwest.com

GPT Image 2 憑什么這么強(qiáng)？

是擴(kuò)散模型又迭代了一版？是把 DiT 的參數(shù)量從 7B 擴(kuò)到 20B？是訓(xùn)了更多高質(zhì)量數(shù)據(jù)？

這些答案都對(duì)，但都不夠。

以下是我們與多位從業(yè)者交流后，提煉出的幾個(gè)值得關(guān)注的技術(shù)方向，并嘗試做出更清晰的解釋。

先給結(jié)論：OpenAI 很可能已經(jīng)不在“純擴(kuò)散模型”這條主賽道上了。他們已經(jīng)把圖像生成從“美術(shù)課”調(diào)到了“語文課”——用一個(gè)能讀懂指令、能記住上下文、能理解物體關(guān)系的 LLM 主導(dǎo)語義規(guī)劃，至于最后一步的像素生成，可能由擴(kuò)散組件或其他解碼器完成。

而這個(gè)LLM，極大可能是GPT-4o。

支撐這個(gè)推論的，首先是兩條直接線索。

1. 模型自述

2. C2PA溯源驗(yàn)證

C2PA 是一種內(nèi)容溯源標(biāo)準(zhǔn)，相當(dāng)于給每張 AI 生成的圖打上一個(gè)數(shù)字身份證。任何人拿到這張圖，都能查到它是由 GPT Image 2 生成的、生成時(shí)間是什么、經(jīng)過了哪些修改。

有專業(yè)人士在metadata2go.com上對(duì)image 2生成的圖片進(jìn)行元數(shù)據(jù)提取。發(fā)現(xiàn)在actions_software_agent_name一欄上記錄著GPT-4o。

這也能理解為什么這次image 2的表現(xiàn)驚人了。

圖片源于：【深入調(diào)查：OAI最新圖像模型底層是GPT-4o - 祈星函 | 小紅書 - 你的生活興趣社區(qū)】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share

單憑這兩條當(dāng)然不足以拆解全部秘密。但當(dāng)我們帶著“LLM 主導(dǎo)”的假定回頭審視它的每一項(xiàng)能力躍遷時(shí)，這些變化，忽然有了統(tǒng)一的解釋。

一、圖像語義，從像素到token

1.1

過去兩年，AI 生圖領(lǐng)域有一條不成文的鄙視鏈：Midjourney 負(fù)責(zé)美學(xué)，Stable Diffusion 負(fù)責(zé)可控性，DALL·E 負(fù)責(zé)……嗯，負(fù)責(zé)被 OpenAI 發(fā)布。但不管你站哪一隊(duì)，有一件事是所有人的共識(shí)——文字是 AI 的鬼門關(guān)。

你能讓 AI 畫出逆光下緬因貓毛發(fā)的半透明質(zhì)感，卻無法讓它寫對(duì)招牌上的“Coffee”六個(gè)字母。一個(gè)能理解頂級(jí)光影描述的模型，在文字上給出的結(jié)果仿佛楔形文字。這件事的荒誕與根源，就藏在擴(kuò)散模型的工作原理里。

先說擴(kuò)散模型為什么寫不好字？

因?yàn)樗暮诵氖且粋€(gè)從噪聲中還原圖像的“雕塑家”：

訓(xùn)練時(shí)，向清晰照片逐步撒噪聲，直到變成純電視雪花，模型學(xué)習(xí)逆向去噪。
生成時(shí)，從一片隨機(jī)噪聲開始，每步都靠 U-Net 預(yù)測(cè)并擦除噪聲，幾十步迭代后“雕”出毛發(fā)、虹膜和光影。

這個(gè)過程本質(zhì)上在還原連續(xù)的、可以用概率無限逼近的紋理。毛發(fā)可以稍微硬一點(diǎn)或軟一點(diǎn)，顏色可以偏暖 5%，無傷大雅。

但文字是離散符號(hào)，不存在“像不像”，只有“是不是”。字母 A 就是 A，你不能給它加 15% 的 B 和 8% 的 C 還指望它依然是 A。擴(kuò)散模型的每一步去噪都是一個(gè)微小“估計(jì)”，用在紋理上是風(fēng)格，用在文字上就是 O 變 0，或是拼出 WElcOm e。

最終就成了外行眼中的“楔形文字”。

不僅如此，擴(kuò)散模型天然缺乏跨輪編輯的穩(wěn)定一致性。你讓它改一個(gè)局部，它本質(zhì)上是整張圖重新畫一遍，沒改動(dòng)的地方也會(huì)悄悄漂移。

但GPT Image 2現(xiàn)在不僅能“寫對(duì)字”，還能保持“有記憶”的一致性例如：你修改一個(gè)字之后，周圍的文字會(huì)自動(dòng)調(diào)整間距；當(dāng)你把“咖啡”改成“紅茶”，它不只是替換那個(gè)詞，而是連帶把杯子的顏色從深棕調(diào)成了琥珀色。

這說明文字在它的系統(tǒng)里不是圖層標(biāo)注，而是畫面語義的一部分。文字內(nèi)容的改動(dòng)會(huì)像語言中的主語替換一樣，連鎖驅(qū)動(dòng)畫面其他元素的合理變化。

GPT Image 2 與其他模型對(duì)比圖

1.2

它不再把圖像當(dāng)圖像看，而是把圖像當(dāng)語言看。

這聽起來像玄學(xué)，但其實(shí)是個(gè)很具體的工程選擇。要理解這件事，得先搞明白一個(gè)概念：Tokenizer。

Tokenizer 的作用是把一種東西“翻譯”成另一種東西。GPT 處理文字前，會(huì)先把“你好”這個(gè)詞切碎編號(hào)，變成一個(gè)數(shù)字 ID，比如 [11892]。這是文本 token 化。

圖像能不能也這么干？當(dāng)然能。你把一張圖切成 16×16 的網(wǎng)格，每個(gè)格子編個(gè)號(hào)，也是一種 token 化。但這種做法太笨重——一張 1024×1024 的圖會(huì)變成幾千個(gè) token，LLM 還沒開始畫就先被淹死了。

所以過去兩年，各家大模型公司在拼一件事：怎么把一張圖壓成盡量少的 token，同時(shí)還不丟關(guān)鍵信息。

這事有多難呢？想象你是一個(gè)情報(bào)員，要把《蒙娜麗莎》用一封電報(bào)發(fā)出去。電報(bào)局規(guī)定你最多只能發(fā) 256 個(gè)字。你怎么辦？你不能說“一個(gè)女人在笑”，因?yàn)閷?duì)方畫不出來；你也不能逐個(gè)像素描述，因?yàn)樽謹(jǐn)?shù)不夠。你必須發(fā)明一套只有你和對(duì)方懂的密語——“52號(hào)微笑、3號(hào)背景、17號(hào)手勢(shì)”——對(duì)方收到后能八九不離十地還原出來。

這就是 OpenAI 在 tokenizer 上干的事。從 CLIP 到 DALL·E 再到 GPT-4o，他們逐漸構(gòu)建了一種能夠在視覺與語言之間進(jìn)行映射的語義表示體系。

這意味著：圖像和文本被投影到了同一個(gè)對(duì)齊后的語義 embedding 空間。

現(xiàn)在在 LLM 眼里，“一只逆光的緬因貓”這行字，和一張逆光緬因貓的照片，是同一個(gè)語義空間里的兩套坐標(biāo)。它能像理解文字一樣理解圖像，也能像生成文字一樣生成圖像。

所以當(dāng)你說“把第三行公司名改成團(tuán)伙名”，它不是在修圖軟件里找那個(gè)圖層，而是在改寫一段描述這個(gè)畫面的密文。改完后，解碼器再把密文翻譯回像素。

這就是為什么文字突然能寫對(duì)了。因?yàn)閷?duì) LLM 來說，寫一個(gè)W和寫一個(gè)我，沒有任何本質(zhì)區(qū)別——都是它在密語系統(tǒng)里調(diào)整幾個(gè) token 的事。

1.3

既然 GPT Image 2 很可能把圖像變成了語義密文，那這串密文怎么變回一張能看的圖？

如果直接把 token 映射成像素，畫質(zhì)必然一塌糊涂，這是自回歸模型的通病：它極度擅長決定畫什么，卻不太擅長畫得好看——就像建筑系教授徒手畫效果圖，空間關(guān)系全對(duì)，筆觸就是不及美院學(xué)生。

而擴(kuò)散模型正好相反，紋理光影以假亂真，卻經(jīng)常不知道自己在畫啥。因此，一個(gè)高度自洽的推測(cè)浮現(xiàn)：讓兩款模型打配合。

自回歸負(fù)責(zé)定調(diào)：根據(jù)你的 prompt 生成那幾百個(gè)語義 token，敲定畫面里有什么、它們的位置關(guān)系、整體構(gòu)圖邏輯。這一步?jīng)Q定了“聽得懂”，也保證了多輪編輯時(shí)對(duì)修改對(duì)象的記憶與一致性。
擴(kuò)散負(fù)責(zé)潤色：拿到這串語義 token 后，不再負(fù)責(zé)理解內(nèi)容，只負(fù)責(zé)填充高保真像素，把既定框架變成光影自然的成圖。這一步?jīng)Q定了“畫得好”。

這不是理論空想。Google 發(fā)過一篇叫 Transfusion 的論文，Meta 搞過 Chameleon，走的都是類似路線。

當(dāng)然，這一切都是基于公開信息和模型表現(xiàn)的推斷。

OpenAI 有沒有在用？2026 年 4 月的媒體會(huì)上，OpenAI 拒絕回答任何關(guān)于模型架構(gòu)的問題。拒絕本身就是一個(gè)信號(hào)。

如果這個(gè)假設(shè)成立，那就解釋了一切——文字寫對(duì)是因?yàn)樽曰貧w天然懂離散符號(hào)；多輪編輯一致是因?yàn)樽曰貧w記住了那一串 token；畫質(zhì)沒崩是因?yàn)閿U(kuò)散在最后一關(guān)做了精細(xì)渲染。

二、數(shù)據(jù)飛輪，GPT-4o 自己教自己生圖

2.1

但上文那個(gè)能把圖像壓成幾百個(gè) token 的“密語系統(tǒng)”，到底是怎么訓(xùn)出來的？為什么不是別的模型，偏偏是GPT-4o？

答案藏在一件看起來最沒有技術(shù)含量的事里：數(shù)據(jù)標(biāo)注。

在 AI 圈，數(shù)據(jù)標(biāo)注長期處于鄙視鏈底端。研究員聊架構(gòu)可以聊一晚上，聊數(shù)據(jù)標(biāo)注三句話就冷場(chǎng)。但 GPT Image 2 這次的表現(xiàn)，甚至表明OpenAI 可能已經(jīng)不需要人工標(biāo)注了。

而GPT-4o 本身就是全世界最強(qiáng)的圖像理解模型之一。你給它一張圖，它能寫出一段比真人標(biāo)注師還細(xì)膩的描述。所以O(shè)penAI 可以把過去幾年積累的幾十億張圖片，重新“過一遍水”——用 GPT-4o 生成新的、高維度的標(biāo)注。

但到這里，只解決了“描述”的問題，沒解決“篩選”的問題。一個(gè)模型生成一百張圖，并不是每一張都值得拿來當(dāng)下一輪訓(xùn)練的教材。這里需要一套嚴(yán)格的“質(zhì)檢”機(jī)制——在機(jī)器學(xué)習(xí)里，這叫拒絕采樣。

具體來說就是，GPT-4o 先根據(jù)一段 prompt 生成一批圖像，然后根據(jù)美學(xué)偏好、指令匹配度、物理合理性等多條標(biāo)準(zhǔn)，逐張打分。批到符合條件的才“收下”，連同它為自己撰寫的詳細(xì)解析，一起塞進(jìn)下一輪訓(xùn)練集。批到不及格的就直接扔掉。這保證飛輪里的數(shù)據(jù)不是在低水平循環(huán)，而是在有選擇地自我提純。

上一代模型給下一代模型當(dāng)老師，下一代模型再給下下代當(dāng)老師。每轉(zhuǎn)一圈，對(duì)世界的理解就深一層。

大家的差距也在這個(gè)過程中越來越大。這也解釋了為什么Midjourney在畫質(zhì)上能和OpenAI掰手腕，但在指令遵循和文字渲染上被拉開代差。

當(dāng)然，聽上去像個(gè)永動(dòng)機(jī)騙局——自己教自己，那不得越教越傻？學(xué)術(shù)界確實(shí)有這個(gè)擔(dān)憂，管它叫模型崩潰：模型反復(fù)吃自己吐出來的東西，會(huì)逐漸丟失分布的尾部信息，生成結(jié)果越來越單一、越來越平庸。

但OpenAI在文本側(cè)已經(jīng)證明：只要老師模型足夠強(qiáng)，并且配合拒絕采樣這樣的嚴(yán)格篩選機(jī)制，這事不但不會(huì)崩，還能加速，形成數(shù)據(jù)飛輪。

2.2

這個(gè)飛輪里還有一個(gè)重要且難搞的角色——RLHF 在圖像側(cè)的質(zhì)檢員。

我們?cè)谖谋緜?cè)已經(jīng)習(xí)慣了 RLHF（Reinforcement Learning from Human Feedback，基于人類反饋的強(qiáng)化學(xué)習(xí)）：給一段文字打分，判斷它有用、有趣、符合人類偏好，這件事 GPT-4o 做得很好。

但在圖像側(cè)，難度驟升。因?yàn)橘|(zhì)檢員需要同時(shí)盯住三條線：美學(xué)偏好；指令遵循；安全過濾。

三條線的標(biāo)準(zhǔn)各不相同，甚至互相沖突。一道強(qiáng)光影可能很“好看”，但壓暗了 prompt 里要求的某個(gè)細(xì)節(jié)，就會(huì)被“指令遵循”扣分。一層安全濾鏡可能誤傷正常的醫(yī)學(xué)解剖圖，又得回頭調(diào)閾值。這種多維度權(quán)衡，在文本側(cè)已經(jīng)跑通，但在圖像側(cè)變得前所未有的復(fù)雜。

而 OpenAI 之所以能做成，很可能是因?yàn)樗麄儼褕D像側(cè)的問題全部拉回了自己最擅長的戰(zhàn)場(chǎng)：語言理解。

美學(xué)偏好被轉(zhuǎn)譯成一段構(gòu)圖評(píng)語，指令遵循被轉(zhuǎn)譯成一組約束條件的核對(duì)清單，安全過濾被轉(zhuǎn)譯成一套規(guī)則判例。所有判斷最終都落到了 LLM 的語義空間里。

可能這才是數(shù)據(jù)飛輪真正的底牌。不是數(shù)據(jù)多，而是從標(biāo)注、篩選到打分，全鏈路都被統(tǒng)一到了一個(gè)理解框架里。拒絕采樣負(fù)責(zé)海選淘汰，RLHF 負(fù)責(zé)精修調(diào)優(yōu)，兩者共享一套語義標(biāo)準(zhǔn)，飛輪才轉(zhuǎn)得起來。

三、工程解法，兼顧推理速度和對(duì)話整合

3.1

到這里，我們聊的都是效果。接下來聊一個(gè)經(jīng)常被刻意繞開的話題：推理速度。

先不說審美和一致性上的飛躍，且說一個(gè)看似矛盾的現(xiàn)象：生圖質(zhì)量躍升了一個(gè)代際，但速度并沒有明顯變慢。這本身就是一種工程奇跡——OpenAI 是怎么做到的？

自回歸模型的運(yùn)作方式是逐 token 生成——每個(gè) token 都依賴上一個(gè) token 的完成。擴(kuò)散模型則不同，它可以在整張畫布上并行去噪，一次處理所有像素。按理論推算，如果 GPT Image 2 確實(shí)用了自回歸架構(gòu)，它的推理延遲應(yīng)該比純擴(kuò)散模型高出一個(gè)數(shù)量級(jí)。

但實(shí)際體驗(yàn)是：沒有。

第一條線索：Token 壓縮率可能遠(yuǎn)超預(yù)期。 如果一張 1024×1024 的圖只需要 256 個(gè) token 就能完整描述，對(duì) Transformer 來說就是一次呼吸的事。這意味著 OpenAI 不僅做到了語義對(duì)齊，更在壓縮率上做到了極致，把高信息密度濃縮到幾行字的程度。

第二條線索：推理架構(gòu)的深度優(yōu)化。 混合架構(gòu)中，自回歸生成的是粗粒度的語義 token，決定“畫什么”，不負(fù)責(zé)“畫成什么樣”。生成步驟大幅縮短，擴(kuò)散模型只用在最后一小段“按圖施工”，而不是從頭噪到尾。

第三條線索：投機(jī)解碼（Speculative Decoding）可能被用到了圖像側(cè)。 用一個(gè)更小的“草稿模型”快速生成候選 token，再由大模型一次性驗(yàn)證，這套 LLM 推理加速經(jīng)典技巧如果用在圖像 token 上，速度可以成倍提升。OpenAI 在 GPT-4 時(shí)代已把這套玩熟，移植到圖像側(cè)沒有原理障礙。

所以結(jié)論是：GPT Image 2 的快，不是因?yàn)閿U(kuò)散模型變快了，而是因?yàn)榭赡芩炎盥恼Z義規(guī)劃，從擴(kuò)散模型手里搶了過來，交給了擅長快速推理的 LLM。

3.2

比速度更影響體驗(yàn)的，是與對(duì)話系統(tǒng)的整合。

在傳統(tǒng)圖像生成工具中，例如 Midjourney 或基于 Stable Diffusion 的工作流，用戶通常通過編寫 prompt 來控制輸出結(jié)果。雖然這些工具已經(jīng)支持諸如variations、inpainting和歷史記錄等功能，但整體流程仍然以“單次輸入 → 單次輸出”為主，用戶需要通過多次嘗試逐步逼近目標(biāo)效果。

這種過程在實(shí)踐中往往表現(xiàn)為反復(fù)試錯(cuò)：

用戶根據(jù)結(jié)果調(diào)整 prompt，但模型對(duì)指令的理解程度并不完全透明，因此需要多輪迭代來校正偏差。

相比之下，集成在對(duì)話系統(tǒng)中的圖像生成引入了連續(xù)上下文機(jī)制，改變了交互方式。

用戶可以在多輪對(duì)話中逐步細(xì)化需求
模型能夠利用對(duì)話歷史理解“當(dāng)前修改”對(duì)應(yīng)的對(duì)象或?qū)傩?/p>
修改請(qǐng)求可以以更自然語言的形式表達(dá)，而不需要一次性寫出完整 prompt

例如，在多輪交互中，用戶可以先生成一個(gè)基礎(chǔ)場(chǎng)景，再逐步提出局部修改（如顏色、位置、風(fēng)格）。最后，模型基于上下文生成新的結(jié)果。

對(duì)話式交互還帶來另一個(gè)優(yōu)勢(shì)：需求澄清能力clarification。將模糊的自然語言意圖，逐步轉(zhuǎn)化為更具體的生成條件，從而提高生成結(jié)果與用戶預(yù)期之間的一致性。

結(jié)語

在 GPT Image 2 出現(xiàn)之前，AI 生圖領(lǐng)域的討論框架是這樣的：

“擴(kuò)散模型的縮放定律還能走多遠(yuǎn)？”

“DiT 架構(gòu)和 UNet 架構(gòu)誰更優(yōu)？”

“Flow Matching 會(huì)不會(huì)取代 DDPM？”

“多模態(tài)對(duì)齊的損失函數(shù)怎么設(shè)計(jì)？”

這些問題都有價(jià)值，但它們共享一個(gè)隱含前提：圖像生成是一個(gè)獨(dú)立的、需要專門架構(gòu)來解決的問題。

而GPT Image 2 給出的的回答是：不一定。

如果我們把鏡頭再拉遠(yuǎn)一點(diǎn)，GPT Image 2 的出現(xiàn)其實(shí)指向了一個(gè)更大的命題：世界模型。

讓我們重新思考什么是生成，以及世界。

點(diǎn)個(gè)“愛心”，再走吧

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.