人類被AI嚇到的瞬間,這些年越來越多。
但這次不太一樣。
以前是“哇,這都能生成”,驚嘆中帶著點難以置信;而GPT Image2一出,很多人下意識的反應(yīng)卻是沉默——因為你發(fā)現(xiàn)自己竟然真的分不清是AI還是事實。
(注:以下文中圖片均由網(wǎng)友生成,非真實圖片)
![]()
GPT Image2到底變態(tài)在哪?
4月21日深夜,OpenAI幾乎毫無預(yù)告地發(fā)布了ChatGPT Images 2.0,即GPT-Image-2。
一夜之間,社交媒體被各種神圖刷屏——馬斯克在抖音直播間帶貨老干媽、庫克在蘋果園區(qū)發(fā)布iPhone 20、奧特曼賣課、學(xué)術(shù)論文截圖、偽造的轉(zhuǎn)賬記錄……一大堆圖片讓無數(shù)網(wǎng)友直呼“根本分不出真假”。
![]()
![]()
![]()
圖源:小紅書、抖音、微博評論區(qū)
過去兩年,AI圖像生成領(lǐng)域其實已經(jīng)卷到了天花板。
Midjourney畫風(fēng)景一絕,DALL-E 3創(chuàng)意十足,但絕大部分模型都有一個死穴——文字。招牌上的字是亂碼、海報上的標(biāo)題扭曲變形、中文直接變鬼畫符。
擴散模型把文字當(dāng)作紋理來處理,它“看到”HELLO,學(xué)到的只是幾種常見的筆畫組合,至于字母順序、拼寫規(guī)則這些約束,根本不在它的表達(dá)體系里。
但GPT-Image-2在技術(shù)路徑上做了一次根本性的切換。它不再依賴傳統(tǒng)的擴散模型,而是將圖像生成整合進(jìn)了自回歸架構(gòu),文本和圖像共享同一套表征空間。
通俗點說,過去的模型是“先聽懂你說什么,再動手畫”,中間有一次信息壓縮;GPT-Image-2是“邊理解邊畫”,語言理解和圖像生成在同一個過程中完成。
這項技術(shù)讓它做到了一件事——文字渲染準(zhǔn)確率從前代的90-95%躍升至約99%。
所以這意味著什么?以往AI生成的菜單、海報、UI截圖,需要設(shè)計師逐字逐句檢查修正;現(xiàn)在,它生成的東西可以跳過人工修正,直接交付使用。
![]()
圖源:抖音評論區(qū)
![]()
圖源:差評
但這還不是最關(guān)鍵的突破。
GPT-Image-2最恐怖的地方,在于它具備了推理能力。
用戶輸入提示詞之后,模型不再簡單地去噪、拼接像素,而是先在后臺完成一次思維建模,再動筆。
不信你看這張來自Linux.do社區(qū)的實測圖——有人用模型生成了雷軍直播跑步的畫面,不僅直播間細(xì)節(jié)高度還原,還準(zhǔn)確顯示了“直播目標(biāo)1313km、已跑里程425.7km、剩余里程887.3km”,甚至連海拔3658米這個數(shù)字都恰好對應(yīng)北京到拉薩進(jìn)藏區(qū)的典型海拔。
![]()
圖源:36Kr
也許你覺得這有什么?但請想想,這些在人類眼里不過是簡單的數(shù)學(xué)加減法和地理常識,對于一個圖像模型來說究竟意味著什么?
意味著在生成第一個像素之前,GPT-Image-2已經(jīng)完成了一輪推理。它理解了“里程”的含義,理解了加減法的邏輯關(guān)系,也理解了高海拔地區(qū)的視覺特征。
這哪里是畫圖,這是思考。
![]()
“有圖有真相”的時代,結(jié)束了
如果說網(wǎng)友玩些爛梗還在預(yù)料之中,那么GPT-Image-2上線之后發(fā)生的一些事,讓很多人開始感到不安。
例如,澎湃新聞對齊Lab僅用83個字的提示詞,就讓模型一鍵生成了iPhone 17 Pro的拆解信息圖——每個零件都有引線指向中英文標(biāo)注,旁邊還有材質(zhì)與顏色表格。
測試結(jié)果顯示,它在文字、圖片、可視化和排版等效果上,已經(jīng)到了真假難辨的階段。
![]()
圖源:澎湃新聞
但經(jīng)仔細(xì)核查,模型生成的信息存在明顯錯誤:手機外觀顏色從官方的三種加到了六種,將鋁金屬一體成型機身拆分成若干零件,并把材質(zhì)寫成了鈦金屬。
換言之,畫面即使再逼真,內(nèi)容卻可以是捏造的。
![]()
圖源:澎湃新聞
更讓人脊背發(fā)涼的是,當(dāng)下的互聯(lián)網(wǎng)上已經(jīng)出現(xiàn)了大量偽造截圖。
有人生成了“庫克官宣卸任蘋果CEO,由羅永浩接任”的微博截圖,底下還自動生成王自如的評論;
![]()
圖源:微博評論區(qū)
有人生成了“小米任命庫克為汽車CEO”的熱搜圖,上百萬人看過,一度導(dǎo)致官方下場辟謠;
![]()
圖源:微信評論區(qū)
4月22日,小米集團(tuán)董事長特別助理徐潔云在微博上直斥P圖亂搞現(xiàn)象,但評論區(qū)里依舊有網(wǎng)友在傳播同類的高仿圖。
可以說,當(dāng)前互聯(lián)網(wǎng)已經(jīng)被大家玩成了一個巨大的狼人殺游戲。有博主大膽斷言:“圖片的公信力崩塌了,人與人之間的信任也崩塌了。”
過去很長一段時間,雖然我們每天都會接收大量信息時,但有一個默認(rèn)的底層假設(shè)——截圖應(yīng)該是真的,照片應(yīng)該是真的,聊天記錄應(yīng)該是真的。
“有圖有真相”這句話被流傳了很久。這個默認(rèn)信任,是整個互聯(lián)網(wǎng)信息生態(tài)運轉(zhuǎn)的基石。
如今這塊基石正在松動。因為這張圖可能是AI一秒生成的,那張可能是十秒后偽造的。沒有破綻,沒有水印,沒有任何肉眼可見的線索。
AI第一次真正做到了“以假亂真”,而代價是——我們再也無法相信自己看到的東西了。
![]()
當(dāng)證據(jù)不再是證據(jù),誰在為我們證明真相?
當(dāng)然,凡事都有好的一面:GPT-Image-2的出現(xiàn),成功把幾個長期懸而未決的問題推到了必須面對的地步。
第一個問題是版權(quán)。當(dāng)AI能一鍵生成商業(yè)級海報時,誰來為這張圖片的知識產(chǎn)權(quán)負(fù)責(zé)?中國的司法實踐正在給出初步答案。
2025年,鷹潭市月湖區(qū)人民法院審理了全國首例AI生成圖片侵權(quán)案——用戶用AI“一鍵生成”圖片后被他人擅自使用,法院最終認(rèn)定這張圖片不構(gòu)成著作權(quán)法意義上的“作品”,因為生成機制具有“不可控的隨機性”,用戶沒有付出與傳統(tǒng)創(chuàng)作相稱的智力性勞動。
這意味著,當(dāng)你的設(shè)計被AI復(fù)刻的時候,你可能無法維權(quán)。最高人民法院正在起草相關(guān)司法政策文件,但距離形成完整法律框架還有很長的路要走。
第二個問題是檢測。如果肉眼無法分辨AI生成的圖像,我們能否依靠技術(shù)手段來甄別?答案并不樂觀。
據(jù)了解,OpenAI在Images 2.0中延續(xù)了C2PA數(shù)字水印技術(shù),每張生成的圖片都攜帶不可見的元數(shù)據(jù)標(biāo)識,可通過專業(yè)工具溯源驗證。
但這種機制很容易被截圖、壓縮破壞,官方也承認(rèn)這不是萬能的解決辦法。
更嚴(yán)重的是,最前沿的深度偽造檢測方法在面對語義保持的圖像優(yōu)化時,已經(jīng)出現(xiàn)失效。檢測技術(shù)永遠(yuǎn)在追趕生成技術(shù),而這條差距正在拉大。
有消息稱,專業(yè)醫(yī)生在未被告知的情況下,只有41%能主動識別出AI生成的醫(yī)學(xué)影像。
第三個問題,也是最根本的問題,即前面提到的信任機制崩塌。
技術(shù)發(fā)展至今,我們已經(jīng)習(xí)慣了一系列驗證機制:微信聊天記錄可以作為法庭證據(jù),社交媒體截圖可以佐證新聞事實,轉(zhuǎn)賬記錄可以證明交易存在。
但當(dāng)這些都可以被AI一鍵偽造時,整個社會的信息驗證體系將面臨重建。
有觀點認(rèn)為,應(yīng)對之策應(yīng)該是嚴(yán)懲造成實際危害的使用者,而非限制工具本身的發(fā)展。
但“造成實際危害”的認(rèn)定本身就充滿挑戰(zhàn)——一張偽造的輿論截圖可能在幾分鐘內(nèi)引發(fā)股市波動,而始作俑者可能只是一個隨手嘗試的普通用戶。
當(dāng)造假成本趨近于零,追責(zé)成本卻居高不下時,這種威懾機制能發(fā)揮多大作用,是一個巨大的問號。
或許,GPT-Image-2真正讓人恐懼的,不是它有多聰明,而是我們還沒有準(zhǔn)備好迎接它的聰明。
每一次技術(shù)躍遷都伴隨著陣痛,但這一次,疼痛來得比預(yù)想中更早、更直接。
我們正在失去一個最基礎(chǔ)的能力——相信自己的眼睛。
作者| 劉峰
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.