凌晨三點(diǎn),我又被炸醒了。
這次不是產(chǎn)品爆火,是OpenAI在凌晨發(fā)布了ChatGPT Images 2.0。真正讓我睡不著的原因很簡單:這次AI畫圖,終于不是上來就畫,而是先想再畫了。
![]()
你可能覺得這有什么了不起的?不就是畫圖嗎?
但如果你還記得兩年前用DALL-E 3生成菜單的樣子,大概會對那些憑空捏造的菜名記憶猶新。什么enchuita、churiros、burrto、margartas。。。沒有一個詞拼對的。那時候的AI畫圖,本質(zhì)上是在從噪聲里重建像素,文字只是畫面中微不足道的一小部分,模型壓根學(xué)不會把這些像素排對。
現(xiàn)在呢?同樣的墨西哥菜單,出來的成品可以直接拿去印刷。菜品名稱拼寫正確,排版清晰規(guī)整,連價格都老老實(shí)實(shí)標(biāo)在上面。雖然13.5美元的酸橘汁腌魚可能讓你對食材產(chǎn)生懷疑,但至少菜單本身看不出任何破綻。
![]()
這不是畫得更像了,是畫得更對了。
從黑箱到思考者
傳統(tǒng)圖像模型的工作方式,就像一個只會抄作業(yè)的學(xué)生。你給它提示詞,它直接吐出圖像,中間發(fā)生了什么,沒人知道。
ChatGPT Images 2.0不一樣。它在渲染第一個像素之前,會先花時間做準(zhǔn)備工作:搜索網(wǎng)絡(luò)獲取最新信息,分析你上傳的文件內(nèi)容,通過推理規(guī)劃圖像的結(jié)構(gòu)布局,甚至對生成結(jié)果做一遍自我檢查。
![]()
就像一個真正的設(shè)計師,先打草稿,再動筆。
OpenAI的產(chǎn)品負(fù)責(zé)人在演示中上傳了一份復(fù)雜的產(chǎn)品策略演示文稿。模型沒有簡單配張圖了事,而是綜合了文檔里的核心數(shù)據(jù),識別了正確的標(biāo)志,最終生成了一張專業(yè)海報,完整保留了原始文件的風(fēng)格特征。
這種能力,讓模型可以承擔(dān)從想法到圖像之間更多的中間活。
一張圖,看清差距
更直觀的對比來自開發(fā)者的測試。
他讓新舊模型分別生成一張"沃利在哪里"風(fēng)格的尋物圖,目標(biāo)是找到一只拿著業(yè)余無線電的浣熊。
舊版模型生成的畫面內(nèi)容豐富,但翻遍整張圖也找不到浣熊的影子。
新版模型在設(shè)置為高畫質(zhì)后,吐出了一張17MB的復(fù)雜圖像。那只浣熊正安安靜靜地坐在左下角的業(yè)余無線電攤位里,清晰可辨。
一個找不到,一個一眼看到。這不是技術(shù)進(jìn)步,這是認(rèn)知升級。
小字、海報、信息圖,終于能用了
過去最容易翻車的菜單、小字、海報和信息圖,這一次突然都有了能直接拿來用的味道。
小號文字、圖標(biāo)、用戶界面元素、密集構(gòu)圖、微妙的風(fēng)格限制,這些過去讓圖像模型頻頻翻車的精細(xì)內(nèi)容,現(xiàn)在都能穩(wěn)定渲染。分辨率最高支持2K。
![]()
沃頓商學(xué)院教授伊桑·莫利克過去幾周一直在測試這個新模型。他說自己原本不覺得更好的圖像生成器是什么大事,但事實(shí)證明存在一個他沒預(yù)料到的質(zhì)量門檻。一旦跨過去,就能生成高質(zhì)量的文字內(nèi)容、幻燈片、學(xué)術(shù)海報。
這次升級意味著什么?
從今天起,所有ChatGPT和Codex用戶都能使用基礎(chǔ)版本,付費(fèi)訂閱用戶則可解鎖思考模式等高級功能。底層模型gpt-image-2也已通過API對外開放。
![]()
但我覺得最重要的不是這些功能本身,而是AI畫圖終于從"像素堆砌"進(jìn)化到了"真正理解"。
它不再只是把你的提示詞翻譯成圖像,而是會思考:你真正想要什么?需要哪些信息?怎么布局才合理?有沒有遺漏什么?
這才是真正的智能。
AI計算服務(wù)公司Hyperbolic Labs的聯(lián)合創(chuàng)始人試用后說:"OpenAI終于再次在圖像生成領(lǐng)域引領(lǐng)了方向。"
我覺得他說得對,但還不夠準(zhǔn)確。
這不是引領(lǐng)方向,這是重新定義了游戲規(guī)則。當(dāng)AI學(xué)會先思考再行動,當(dāng)它能夠理解上下文、獲取實(shí)時信息、自我檢查結(jié)果,圖像生成就從"玩具"變成了"工具"。
AIGC的童年時代,結(jié)束了。歡迎來到,AIGC的青年時代。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.