<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.4發布,AI的最強之爭已經結束了!

      0
      分享至

      GPT-5.4發布了。

      說實話,我猶豫了半天要不要寫這篇。真的被模型發布搞疲了。隔幾周一個新版本,每次都是「史上最強」,但你真用起來,體感差異越來越小。靠跑一兩個benchmark,已經越來越難測出模型的真實能力了,需要更長時間的日常使用才有體感。
      而且就拿我最常用的agentic能力和coding能力來說,我不太相信GPT一個小版本的更新能超過Claude。所以對我日常使用最多的模型,其實沒什么影響。

      但看完GPT-5.4的數據之后,我還是決定寫。不是因為它有多強,而是因為我發現了一個更有意思的事。我打開了三個網頁:OpenAI的博客、Anthropic的定價頁、Google的Gemini文檔,把三家的數據攤在一起看。

      結論讓我有點意外:它們已經不在同一條賽道上了。

      先說結論:不再有「最好的AI」

      一年前,「哪個AI最好」還是個合理的問題。各家模型能力分布還比較均勻,都在同一條賽道上跑。

      現在這個問題過時了。

      想操控電腦、做PPT、跑知識工作?GPT-5.4。想寫代碼、跑Agent、做復雜開發?Claude Opus 4.6。想要最強推理、圖片視頻理解、最大上下文、最低價格?Gemini 3.1 Pro。

      我自己就是這么用的。平時寫代碼,左邊開著Codex做審查,中間跑Claude Code寫實際代碼,右邊還有個Cursor兜底。Codex的上下文工程優化比Claude Code好不少,能在一個窗口下不停布置任務不用擔心上下文撐爆。但Opus的天花板更高,獨立解決復雜問題的能力沒有對手。所以日常就是混著用,各取所長。

      說個更直觀的數據:我今年和ChatGPT的對話量比去年減少了90%以上。不是ChatGPT變差了,是我的需求被Claude Code、Cursor、Gemini分走了。不同任務交給不同模型,你不會拿錘子去擰螺絲。

      之前有人問我:「花叔,你推薦哪個AI?」

      我的回答是:這取決于你是誰。

      產品經理或分析師,日常做報告、處理數據?ChatGPT Plus大概率是你的最優解,GPT-5.4的知識工作能力確實強。

      開發者,寫代碼是主要需求?Claude Code + Opus 4.6,目前沒有對手。YC剛公布的Winter 26批次數據也印證了這一點:Anthropic占比52%,首次超過OpenAI。去年OpenAI還占90%以上,一年完全逆轉了。

      對價格敏感,或者需要處理超長文本、音視頻分析?Gemini。$2/$12的價格加2M token上下文,性價比無敵。

      如果你是資深用戶,可能最終會像我一樣:三個都用,看菜下鍋。

      結論說完了。下面看看GPT-5.4到底做了什么,以及三家是怎么走到這一步的。

      GPT-5.4到底做了什么

      先過一遍GPT-5.4的數據。說實話,有幾個確實讓我眼前一亮。

      Computer Use,就是讓AI直接操控你的電腦。GPT-5.4在OSWorld基準測試上拿到75.0%,超過了人類基準的72.4% 。這是所有AI模型第一次在這個測試上超越人類。上一代GPT-5.2才47.3%,一個版本漲了快一倍,這個提升幅度我覺得是這次最值得關注的。


      知識工作也很猛。GDPval達到83.0%,意思是在44個職業的專業任務里,GPT-5.4有八成以上能打平或超越行業專家。投行建模從68.4%跳到87.3%,做PPT時人類評審有68%的概率更喜歡GPT-5.4的版本。這個數據要是真的,華爾街的junior analyst該緊張了。


      上下文窗口拉到了100萬token,OpenAI迄今最大。還出了個叫Tool Search的新功能,跑Agent的時候不用把所有工具定義塞進prompt了,模型自己按需查找,token消耗直接減了47%。做Agent開發的應該會很開心。

      但你仔細看,這些最亮眼的提升都指向同一個方向:讓AI替你干白領的活。操控電腦、做PPT、投行建模、知識工作。OpenAI押的注很明確:AI不只是聊天工具,它要做你的數字員工。

      但編程呢?

      這是我最關心的部分,也是最有意思的部分。

      GPT-5.4在SWE-Bench Pro上的成績是57.7%。上一代GPT-5.2是56.8%。

      提升了0.9個百分點。

      你沒看錯。一個做了Computer Use超越人類、1M上下文、投行建模87%的模型,編程能力只漲了0.9%。Claude Opus 4.6在SWE-Bench Verified上是80.8%,依然世界第一。(這倆是不同難度的測試,Pro更難,但0.9%的提升本身就說明問題。)


      OpenAI不是做不好,是選擇把資源放在了別的地方。

      這和我實際用下來的感受完全對得上。Codex的gpt-5.2-codex選high模式時,后端能力確實強,能跑一個多小時完全沒bug。但速度太慢了,思考時間過久,審美也差,讓它做前端基本不行。Opus雖然貴,但處理創意代碼工作時天花板明顯更高,經常能獨立解決我好幾個月沒搞定的功能問題。

      所以我日常就是混著用:Opus處理需要創造力的代碼,Codex做規劃和審查。

      但我不覺得OpenAI是「編程不行」或「不想打這仗」。恰恰相反,OpenAI的野心比編程大得多,它想替代的是更廣泛的白領工作。你看它這次選的benchmark就知道了:Computer Use、投行建模、PPT評審、44個職業的知識工作。編程只是其中一個,甚至不是最重要的那個。

      三張成績單

      我把三家的數據都扒了一遍,攤在一起看,格局就很清楚了。


      GPT-5.4贏了Computer Use和知識工作,Claude Opus 4.6贏了編程和Agent,Gemini 3.1 Pro贏了推理和性價比。沒有一家全贏。GPT-5.4贏了5個benchmark類別,Gemini贏了4個,Opus贏了3個。

      但比誰贏了什么更有意思的,是各自的短板。

      GPT-5.4編程就不說了,0.9%的提升。定價也是三家最貴的,Pro版輸出$180/百萬token,是Opus的7倍多。你用Pro版跑一個稍微復雜的Agent任務,賬單看了可能會心疼。


      Claude Opus 4.6呢,上下文窗口只有200K(1M還在beta),也沒有原生Computer Use。寫代碼無敵,但你讓它幫你操作電腦,目前還不行。

      Gemini 3.1 Pro沒有Computer Use,編程也不如前兩家。但推理能力真的強,ARC-AGI-2上77.1%,甩了另外兩家一條街。多模態理解也是三家最強,圖片視頻分析這塊沒對手。加上$2/$12的定價和2M token上下文,Google這波性價比打得很猛。

      看到這,你可能和我一樣想到了一件事:三家的強項和短板,剛好指向了三條完全不同的路。

      三條路

      GPT-5.4走的是白領替代路線

      操控電腦、做PPT、投行建模、知識工作。ChatGPT付費用戶超過千萬,這些人不寫代碼,他們寫報告、做分析、處理數據。GPT-5.4就是為他們做的。

      Claude走的是開發者搭檔路線

      編程世界第一、Claude Code在開發者圈子里口碑炸裂、Agent能力最強。我自己從去年8月開始用Claude Code搭了自動化寫作工作流,現在寫文章的效率提升太多了。Anthropic不追求ChatGPT那種C端規模,在開發者生態里做到不可替代就夠了。

      Gemini走的是推理+多模態+性價比路線

      推理能力領先,多模態理解也是三家最強的。我現在分析圖片、理解視頻內容都交給Gemini做,這塊確實沒對手。加上2M上下文和$2/$12的定價,性價比碾壓。國內字節的Seed 2.0模型也在往這個方向走,多模態+低價正在成為一條清晰的賽道。

      為什么Google敢定最低價、給最大上下文?因為Gemini不需要單獨賺錢。Google有搜索、有YouTube、有Android,Gemini的作用是讓整個生態更強。它的ROI不是用API收入算的。

      三條路,三種賭注。


      但OpenAI最大的問題不是技術

      GPT-5.4技術上確實強。但OpenAI現在面對的最大挑戰,和模型能力無關。

      2月28日,OpenAI和美國國防部簽了正式合同。幾天前Anthropic剛剛公開拒絕了同一份合同,理由是五角大樓不愿加入「明確禁止自主武器部署」的條款。然后QuitGPT運動就爆發了。

      超過250萬人取消了ChatGPT訂閱或承諾停用,OpenAI舊金山總部門口有了抗議,900多名OpenAI和Google員工聯名簽公開信。

      時機很微妙。GPT-5.4恰好在QuitGPT最高潮的時候發布。ChatGPT的市場份額已經從高峰期的87%降到約68% ,Gemini從不到5%漲到18%以上。模型做得再好,用戶在流失,這個問題比任何benchmark都嚴重。

      最強之爭,結束了

      過去三年,AI的故事一直是「通用智能」:一個模型什么都能做,而且越來越強。

      GPT-5.4打破了這個敘事。

      它確實強,但它強的方式說明了一件事:即便是最頂尖的AI公司,也得做取舍了。Computer Use超越人類,但編程只漲了0.9%。Claude編程無敵,但上下文只有競品的五分之一。Gemini推理最強價格最低,但Agent和Computer Use都不行。

      每家都在自己選的賽道上做到了極致,同時接受了其他賽道的平庸。

      我之前寫GPT-5發布時說過,AI的iPhone 4時刻已經過去了。現在回頭看,不只是「Wow時刻」沒了,連「誰是最強」這個問題本身都過時了。

      對我們這些日常在用AI的人來說,這反而是好事。不用再糾結「到底選哪個」,根據自己的需求選就行。寫代碼用Claude,做知識工作用ChatGPT,省錢或跑長文本用Gemini。就像你不會只用一把刀做所有菜。

      GPT-5.4發布了。但AI的「最強之爭」,已經結束了。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      張本智和腸子悔青!8-3領先叫暫停,反被梁靖崑連得8分打崩

      觀星娛記
      2026-05-11 11:28:30
      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      “孕婦泰國墜崖案”當事人王暖暖解約,她一個人總是很慘

      九方魚論
      2026-05-11 12:47:23
      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      涉漢坦病毒郵輪乘客陸續疏散歸國 世衛組織:全球傳播風險“低”

      財聯社
      2026-05-11 11:32:14
      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      0-4恥辱出局!布倫森就是恩比德的嚴父,76人被罵都是群軟貨

      聽我說球
      2026-05-11 09:43:11
      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      失眠真兇竟是缺鎂!扔掉牛奶蜂蜜,吃這2物酣睡到天亮

      今日養生之道
      2026-05-10 20:13:01
      抓了那么多貪官,錢呢?跟我們有關系嗎?

      抓了那么多貪官,錢呢?跟我們有關系嗎?

      細說職場
      2026-05-08 22:15:45
      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      iPhone系統垃圾一鍵清理,26G變8G,告別卡頓超耐用

      小柱解說游戲
      2026-04-28 16:31:31
      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      比TNT廉價,比石油致命:白糖憑什么成為人類文明最危險戰略物資

      丁丁鯉史紀
      2026-05-05 10:33:14
      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      臺灣省人均GDP四萬美元,超過日韓,但為什么給人感覺比較落后

      狐貍先森講升學規劃
      2026-05-06 05:35:03
      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      熱搜上那個“白嫖榴蓮”事件,作惡者真實身份讓人驚訝……

      桌子的生活觀
      2026-05-11 12:12:44
      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      研究表明:性生活次數不達標,不管男女容易早衰且癌癥風險增高!

      番外行
      2026-05-11 08:49:20
      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      官宣!19歲全紅嬋全面退賽,背后緣由不簡單,印證父親的擔憂

      看盡落塵花q
      2026-05-09 14:29:21
      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      別罵巴爾韋德了!皇馬真正擺爛巨星曝光,他正親手毀掉傳奇

      瀾歸序
      2026-05-11 00:51:39
      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      “這環境,咋敢生孩子?”女孩因充電器被碰掉絕食,窮人家的公主

      妍妍教育日記
      2026-05-09 13:31:49
      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      OPPO就母親節文案致歉后,段永平、武漢大學及廣告協會相繼發聲

      界面新聞
      2026-05-11 12:33:18
      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      當年的嶺南首府,宋徽宗封地,如今卻成了珠三角最落寞的城市

      抽象派大師
      2026-05-05 15:31:50
      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      毛主席遺體防腐每年耗費巨資,永久保存水晶棺純度高達99.9999%

      時分秒說
      2026-05-07 16:00:09
      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      7年敗光2億!鄒市明冉瑩穎共同發文:二人最終還是邁出了這一步!

      拳擊時空
      2026-04-16 06:04:48
      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      老吳教育課堂
      2026-05-11 08:40:10
      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      3小時!40人!印度炸出一條震撼國際的暗訪猛料!

      安安說
      2026-05-10 11:18:13
      2026-05-11 13:35:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      200文章數 112關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      頭條要聞

      姑娘海底撈吃完飯遭多名男子毆打 兩顆門牙被一拳打斷

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      謝霆鋒沒想到,王菲靠張藝謀重返巔峰

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      全球化成國內車企未來勝負手,誰是出海最強"水手"?

      態度原創

      房產
      手機
      親子
      教育
      軍事航空

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      手機要聞

      榮耀600系列開啟全渠道預約 幸運星設計實錘了

      親子要聞

      孩子心疼父母,反而是對家的傷害?

      教育要聞

      奔赴一場英法教育之旅,遇見更好的未來

      軍事要聞

      伊朗革命衛隊深夜警告

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 非洲黑人最猛性xxxx交| 国产成人自拍小视频在线| 成人中文网| 日本怡春院一区二区三区| 黄色三级亚洲男人的天堂| 九九热色| 色综合久久久高清综合久久久| 一本色道久久综合熟妇人妻| 无码专区 人妻系列 在线| 日本人妻伦在线中文字幕| 91热视频在线观看| 被灌满精子的少妇视频| 人伦中文字幕| 丝袜美女国产精品一区二区| 日本东京热不卡一区二区| 操日本屄| 欧美日韩精品无码7777| 乱伦导航| 九九热在线免费播放视频| 国产对白老熟女正在播放| 精品无码人妻久久久一区二区三区| 亚洲精品久久久无码aⅴ片恋情| 不卡一区二区国产在线| 豆国产97在线 | 亚洲| 亚洲精品无线乱码一区| 国产乱码一区二区三区免费 | 凹凸XX凹凸爽凹凸| 黄频视频大全免费的国产| 精品国产制服丝袜高跟| 中文字幕一区二区三区久久蜜桃| 国产成人a∨| 亚洲va无码va在线va天堂| 亚洲人成网站免费播放| 岛国一级| 91水蜜桃网站在线观看| 国产午夜亚洲精品午夜鲁丝片| 国产精品女生自拍第一区| 亚洲日韩精品一区二区三区无码| 99久久久国产精品免费牛牛| 国产美女在线观看大长腿| www.视频一区|