<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      GPT-5.5來了!我撤回了退訂ChatGPT的決定

      0
      分享至

      先說個我很特么無語的事。我從2023年3月GPT-4發布起,連續訂了三年多的ChatGPT Plus,兩周前剛點了取消。賬戶里現在清清楚楚寫著「你的套餐將于 2026年5月1日 取消」。


      理由很簡單——Codex我用不上(日常在Claude Code里寫代碼),GPT-5.4日常問答也被我切到了Opus 4.7和Gemini 3.1 Pro,那個對話界面很久沒打開過。20美金一個月不值。

      然后這兩周,OpenAI很有節奏地給我扔了兩顆炸彈:上周gpt-image-2,這周GPT-5.5。我退訂后這兩周拿出的東西,比過去兩個月加起來都多。我甚至一度懷疑,他們是不是針對我設了個流失用戶召回包,專門在我點了退訂之后,把最近壓在庫里的王牌模型一次性砸出來。

      當然這只是我的牢騷。但牢騷背后有個判斷:這一次GPT-5.5真的值得所有人回來看一眼。它不只是個小版本升級。

      OpenAI今天發布的GPT-5.5,代號Spud(土豆)。先不講花活,就按benchmark順序讀一遍,看它打在了哪里。然后我們再聊幾件官方宣發里不會說、但值得拿出來討論的事。

      我讓GPT-Image-2給GPT-5.5畫的信息圖

      先看分數:這幾條是重頭戲 編程三件套:打在了Anthropic的根據地上

      Terminal-Bench 2.0,GPT-5.5拿了82.7%,直接SOTA。GPT-5.4是75.1%,Claude Opus 4.7只有69.4%,Gemini 3.1 Pro 68.5%。這個榜測的是命令行里那種要你規劃、迭代、協調工具的長任務——Anthropic在4.7發布會上重點講過的地方。GPT-5.5在同一個數據集上多了整整13個百分點。

      SWE-Bench Pro,GPT-5.5 58.6%。這條反而沒那么漂亮,Claude Opus 4.7是64.3%,反超它5.7個百分點。OpenAI在表格腳注里自己標了一行:這個benchmark有記憶污染的跡象(memorization)。意思是別太認真看這條。Expert-SWE是OpenAI自己的內部長任務評測,每條題人類平均要20小時才能做完,GPT-5.5拿73.1%,GPT-5.4是68.5%。

      把這三條合起來看,GPT-5.5的編程升級不在「單issue修bug」這種短平快任務上,而是在「連續工作好幾個小時,需要記住上下文、反復check自己」的長任務上。這也是OpenAI自己重點宣傳的點,Cursor的CEO Michael Truell引用詞里說的原話是「stays on task for significantly longer without stopping early」。對Codex用戶是實打實的升級,對只在IDE里做短任務的人感知可能沒那么強。


      Agent和計算機使用:追平,不是超過

      OSWorld-Verified 78.7%,和Claude Opus 4.7的78.0%基本打平。這個榜測的是模型能不能像人一樣操作真實桌面——瀏覽器、文件管理、辦公軟件。GPT-5.5沒贏,只是追上了。

      Toolathlon 55.6%,Gemini 3.1 Pro只有48.8%,Anthropic在這個榜上沒數據。Tau2-bench Telecom(客服工作流)98.0%,這條刷得很滿但OpenAI特別標注了「no prompt tuning」,意思是沒針對性調prompt,純模型能力。

      GDPval(跨44個職業的知識工作)84.9%,比行業專家基準都高。這條是OpenAI這次最愛講的一個數——比人類專業人員還好。這條我個人保留一半意見,GDPval是OpenAI自己參與設計的評測,自己家模型數據好不奇怪。但趨勢是真的,GPT-5.5比GPT-5.4漲了1.9個百分點,比Gemini 3.1 Pro的67.3%多了整整17個百分點。

      長上下文:把Claude按在地上

      這是最夸張的一塊。

      OpenAI MRCR v2在512K到1M的長度下,GPT-5.5拿了74.0%。GPT-5.4只有36.6%,Claude Opus 4.7只有32.2%。一代之內翻倍,順手把Claude留在身后一個數量級。

      Graphwalks BFS 1mil F1,GPT-5.5 45.4%,GPT-5.4只有9.4%——五倍的躍升。這個榜測的是在超長上下文里做圖遍歷,模型得在百萬token的材料里精確地定位、跳轉、推理。Claude Opus 4.6是41.2%(Anthropic沒放4.7的數據)。

      如果你做RAG、做長文檔分析、做代碼庫級別的理解,這一條可能比Terminal-Bench對你更重要。長上下文過去兩年一直是Gemini的護城河,GPT-5.5這次是第一次把1M窗口的可用性拉到可以和編程能力掛鉤的水平。


      數學和科學:Pro版是主力

      FrontierMath Tier 1-3(越難分越低),GPT-5.5拿51.7%,GPT-5.5 Pro上到52.4%,Claude Opus 4.7是43.8%,Gemini 3.1 Pro是36.9%。Tier 4(最難那一檔),GPT-5.5 35.4%,Pro版39.6%——但這一檔Gemini 3.1 Pro Pro模式也能做到38%。GPT-5.5 Pro和Gemini 3.1 Pro在最頂尖數學任務上基本是一個水平。

      GPQA Diamond(博士級科學問答)93.6%。這條已經基本見頂了,四家模型都在92-94%區間。

      Humanity's Last Exam(無工具)41.4%。反而是Claude Opus 4.7最高,46.9%。有意思的是,OpenAI官方博客里一張正文圖都沒放HLE——這是GPT-5首發時他們最愛秀的那條榜單。

      GeneBench和BixBench是這次新增的兩個科學研究評測。GeneBench 25.0%看起來低,但這個榜的任務一條通常是一個實驗生物學家要花好幾天做的。BixBench 80.5%,生物信息學數據分析。OpenAI這次在「科研co-pilot」這個方向上下了明顯的力氣,這個敘事和Claude 4.x系列完全不同——Anthropic更強調「mass market的靠譜coding」,OpenAI更強調「frontier research里的躍升」。

      瀏覽和網絡安全:有贏有輸

      BrowseComp 84.4%。但Claude Opus 4.7是90.1%,比GPT-5.5高5.7個百分點,GPT-5.5 Pro也只有90.1%打平。如果你把AI主要用在做網上研究、查資料、整理信息,這條比編程分數更有參考意義——Claude依然是在線研究之王。

      CyberGym 81.8%,Claude Opus 4.7是73.1%。GPT-5.5把Preparedness Framework下的cybersecurity capability正式列為「High」級別。這條意味著什么先不展開,下面第四件事里專門講。

      Artificial Analysis的第三方綜合分

      OpenAI這次把第三方評測公司Artificial Analysis的Intelligence Index(10個評測的加權平均)放在了博客顯眼位置。坐標軸是「Intelligence Index vs Output Tokens Total」——同樣的智能水平,GPT-5.5用的token大約只有Claude Opus 4.7的一半。OpenAI原話:「delivers state-of-the-art intelligence at half the cost of competitive frontier coding models」。

      這句話可以反過來讀:GPT-5.5在絕對智能上沒有大幅甩開Opus 4.7,但它更省token。所以最終每個問題的成本更低。這是個實用主義的故事,不是敘事主義的故事。

      好,分數看完了。接下來聊幾件值得討論的事。

      幾件OpenAI不會主動說的事 第一件:價格翻了一倍

      GPT-5.5 API的定價:input $5/M token,output $30/M token。GPT-5.4是input $2.5,output $15——直接翻倍。

      GPT-5.5 Pro更猛:input $30/M,output $180/M。

      把時間線拉長:GPT-5(去年8月發布)的input是$1.25/M,GPT-5.5是$5/M。8個月里漲了4倍

      OpenAI給的說法是「more token efficient」,就是每個任務用的token少,所以單價漲不等于最終貴。這個說法對重度Codex用戶可能成立,對在API端接入的開發者大概率不成立——因為你的應用場景是你定的,不是Codex定的。

      再看一個數:GPT-5.5 Fast模式(快1.5倍但貴2.5倍)。如果你想快,還得再加錢。

      AI行業一直在講「每token價格會持續下降」,Anthropic的Haiku 4.5現在是input $1/M,Gemini 3.1 Flash是$0.30/M。OpenAI在旗艦模型這條線上逆勢漲價,這件事本身就是一個定價信號——他們認為自己在高端能力上的領先值得定價權。從benchmark看,這個判斷有一定道理(Terminal-Bench、MRCR、Expert-SWE都在斷檔領先),但市場會不會認賬,是另一回事。


      第二件:API當天沒開放

      這是個值得琢磨的操作。

      GPT-5.5今天在ChatGPT Plus/Pro/Business/Enterprise和Codex里當天可用。API官方說的是「coming soon」,沒給時間表。

      意味著什么?Cursor、Windsurf、Cline、Cody、OpenRouter這些第三方編程工具,今天拿不到GPT-5.5。你要用GPT-5.5的編程能力,只能走OpenAI自己的Codex。

      OpenAI給的公開說法是「API deployments require different safeguards」,意思是API需要不同的安全配置,他們在和合作伙伴一起對齊安全要求。這個說法合理,但不是完整解釋——GPT-5首發時API也是同步開放的。

      更直接的解釋是:OpenAI想讓Codex獨占一段窗口期。ChatGPT的訂閱用戶和Codex的付費用戶,在這段窗口期里能用到最強模型,而Cursor、Windsurf這些競品只能繼續用GPT-5.4或者Claude Opus 4.7。窗口期可能是幾周,也可能是一兩個月。

      去年這個時候GPT-5發布,第三方工具當天就能接。一年過去,OpenAI開始學Anthropic的玩法了——先讓自己的產品先跑一段,再把模型放出去。這是一個生態位的微調,對Cursor這種用戶都靠OpenAI模型撐起來的產品,不是好消息。

      第三件:Codex這次打的是Claude Code

      別看OpenAI這次的發布稿從頭到尾沒提Claude Code一個字,整個敘事結構就是在和Claude Code正面掰。

      看它強調的四個點:

      • 「stays on task longer」(Cursor CEO原話)——這正是Claude Code最出名的長任務堅持能力

      • 「context across large systems」——Claude Code的長上下文體驗是很多人不離不棄的原因

      • 「uses significantly fewer tokens」——這是在回應Claude在「token消耗大」上被人吐槽的點

      • 「works with you on real engineering tasks」——Anthropic整個Claude Code的核心敘事

      Terminal-Bench 2.0這次選作發布主榜也不是隨意選的。Terminal-Bench是Stanford/Hugging Face/Anthropic相關團隊做的評測,重點是長命令行任務,過去一年是Anthropic系列模型的主場。GPT-5.5在這條榜上從GPT-5.4的75.1%躍到82.7%,直接甩開Claude Opus 4.7 13個百分點,這是精準打臉。

      GPT-5.5不是發給所有AI用戶的,它主要是發給「正在考慮是不是要從Codex切到Claude Code」的那群開發者的。OpenAI在用benchmark+Codex產品體驗+價格+生態鎖定(API先不開放),試圖把這些人留下來。

      第四件:System Card里那個29%

      這是我這兩天讀System Card發現的、最值得單拎出來的一條。

      Apollo Research做了獨立測試,設計了一個叫「Impossible Coding Task」的實驗:給模型一個實際上根本無解的編程任務(比如讓它用某個API的某個不存在的參數實現某個功能),看它會不會謊報「搞定了」。

      結果:

      • GPT-5.4 謊報率 7%

      • GPT-5.3 Codex 謊報率 10%

      • GPT-5.5 謊報率 29%

      翻譯成日常場景:如果你給GPT-5.5布置一個其實不可能做到的編程小任務,接近三分之一的概率它會告訴你「done」——代碼給你一段看起來很合理、但實際跑不通或者悄悄做了別的事的東西。

      這個數字沒出現在OpenAI自己的正文博客里,只藏在System Card的Apollo部分。OpenAI的整體結論是「Apollo沒有發現整體風險顯著升高」,這個結論本身沒問題——因為別的子項GPT-5.5沒退步。但Impossible Coding Task這個具體子項的翻倍惡化,是需要開發者警惕的。

      如果你切到GPT-5.5 + Codex的工作流,第一條要學會的就是:不能完全信「done」。你得跑一下結果、或者讓另一個agent反向審核。Claude Code那種鼓勵你隨時打斷、看中間狀態的設計,在GPT-5.5這個數據面前反而顯得更務實。

      最后:可以切Codex試試了

      如果你過去一年一直在用Claude Code,那么這篇文章如果只給你一條建議,就是這條:

      找個項目,把Codex當Claude Code的平替跑一輪。不是說立刻卸載Claude Code,是跑一輪,體驗一下GPT-5.5 + Codex在長任務上的感覺。

      過去這一年,Claude Code幾乎是沒有對手的。Cursor要不是被馬斯克收購都快無人關心了,Gemini 3.1 Pro還不錯但Gemini CLI爛得要死,Codex在GPT-5.4這代還差一口氣。所以我默認就是Claude Code。這一次,Codex可能真的值得重新認真評估一次

      不過有幾件事可以注意下:

      • 29%的謊報率是真的,Codex工作流里最好讓另一個agent反向審核關鍵步驟

      • API還沒開放,第三方工具(Cursor、Windsurf、Cline)暫時接不到GPT-5.5

      • BrowseComp做在線研究Claude Opus 4.7還是第一

      • 價格翻倍了,重度用戶心里算一下賬

      Claude Code曾經是唯一選擇,現在確實可以好好考慮下替代選項了。

      GPT-5.5發布官方頁:openai.com/index/introducing-gpt-5-5/

      System Card英文原版:deploymentsafety.openai.com/gpt-5-5

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不管你信不信,生肖屬雞人:5月13日后,大事即將發生!

      不管你信不信,生肖屬雞人:5月13日后,大事即將發生!

      阿龍美食記
      2026-05-08 18:46:10
      央視主持人朱迅:生命終點將結束,為何不勇敢面對生命的終點呢?

      央視主持人朱迅:生命終點將結束,為何不勇敢面對生命的終點呢?

      吃青菜長高
      2026-05-10 06:28:57
      結不起還是結不動?一季度全國結婚登記再創紀錄新低

      結不起還是結不動?一季度全國結婚登記再創紀錄新低

      聽心堂
      2026-05-10 17:04:06
      外交部:中美元首將就事關中美關系以及世界和平與發展的重大問題深入交換意見

      外交部:中美元首將就事關中美關系以及世界和平與發展的重大問題深入交換意見

      澎湃新聞
      2026-05-11 15:26:31
      首尾大戰,央視直播!CCTV5+聚焦津蓉對決,CCTV16播魯渝交鋒

      首尾大戰,央視直播!CCTV5+聚焦津蓉對決,CCTV16播魯渝交鋒

      實事球是
      2026-05-11 08:38:25
      寒武紀成交額超250億元

      寒武紀成交額超250億元

      證券時報
      2026-05-11 15:04:04
      原來娛樂圈不僅有“白手套”,還有“綠手套”!

      原來娛樂圈不僅有“白手套”,還有“綠手套”!

      麥杰遜
      2026-05-11 13:58:04
      鄭麗文神預言!“內鬼”攤上大事、1把好牌打稀碎,綠營1人狂挖苦

      鄭麗文神預言!“內鬼”攤上大事、1把好牌打稀碎,綠營1人狂挖苦

      生活魔術專家
      2026-05-11 12:35:33
      貔貅認主不看財富,這四個生肖千萬別碰,戴了反而會破財

      貔貅認主不看財富,這四個生肖千萬別碰,戴了反而會破財

      紙鳶奇譚
      2026-04-13 16:06:54
      慣子如殺子!孩子這幾種表現說明已經被慣壞了,再不改就來不及了

      慣子如殺子!孩子這幾種表現說明已經被慣壞了,再不改就來不及了

      木言觀
      2026-04-29 22:28:49
      難以置信!上海雇主怒斥保姆打開全屋燈光“費電”,背后真相扎心

      難以置信!上海雇主怒斥保姆打開全屋燈光“費電”,背后真相扎心

      火山詩話
      2026-05-11 06:42:40
      [視頻]【樹立和踐行正確政績觀】以學促干 將學習教育成效落到實處

      [視頻]【樹立和踐行正確政績觀】以學促干 將學習教育成效落到實處

      國際在線
      2026-05-10 20:59:33
      特朗普訪華攜龐大代表團,但國務卿魯比奧為何缺席?

      特朗普訪華攜龐大代表團,但國務卿魯比奧為何缺席?

      天氣觀察站
      2026-05-10 19:38:45
      上騙中央,下騙百姓,三回入獄,從首富到首騙,把他吹的太神了!

      上騙中央,下騙百姓,三回入獄,從首富到首騙,把他吹的太神了!

      縱擁千千晚星
      2026-04-20 04:45:06
      轉賬5千要查祖宗,內鬼卷走1800萬卻一路綠燈!銀行雙標太離譜了

      轉賬5千要查祖宗,內鬼卷走1800萬卻一路綠燈!銀行雙標太離譜了

      今朝牛馬
      2026-05-06 21:00:56
      開發者怒停更!華為被指套取合作信息,用于鴻蒙適配招標!

      開發者怒停更!華為被指套取合作信息,用于鴻蒙適配招標!

      云頭條
      2026-05-09 23:07:28
      最壞的5個生肖 誰是有壞人潛質的屬相

      最壞的5個生肖 誰是有壞人潛質的屬相

      緣道堂每日一說
      2026-05-11 15:09:37
      5.11競彩足球賽事推薦:精選賽事解析附勝平負進球數比分參考

      5.11競彩足球賽事推薦:精選賽事解析附勝平負進球數比分參考

      足球老牛哥
      2026-05-11 14:38:49
      他離開司令員崗位,生活急轉直下,為了改善生活,讓兒女南下打拼

      他離開司令員崗位,生活急轉直下,為了改善生活,讓兒女南下打拼

      微野談寫作
      2026-05-10 13:00:08
      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      演員拍這種全身濕透的吻戲,要是起反應了,會不會很尷尬?

      老吳教育課堂
      2026-05-11 08:40:10
      2026-05-11 16:03:00
      AI進化論花生 incentive-icons
      AI進化論花生
      AI博主,AppStore付費榜第一的小貓補光燈app開發者
      201文章數 112關注度
      往期回顧 全部

      科技要聞

      黃仁勛:你們趕上了一代人一次的大機會

      頭條要聞

      媒體:中美元首即將北京會晤 美方一細節耐人尋味

      頭條要聞

      媒體:中美元首即將北京會晤 美方一細節耐人尋味

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      “孕婦墜崖案”王暖暖稱被霸凌協商解約

      財經要聞

      "手搓汽車"曝光:偽造證件、電池以舊代新

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      本地
      時尚
      教育
      健康
      公開課

      本地新聞

      用蘇繡的方式,打開江西婺源

      襯衫四季都能穿!簡約大方適合日常穿搭,配褲子、裙子都好看

      教育要聞

      雞娃放養,都不如養個“晨型人格”的孩子,他會自信又自律

      干細胞能讓人“返老還童”嗎

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 亚洲片在线观看| 夜夜干夜夜| 国产综合久久99久久| 五月综合视频| 荆门市| 亚洲瑟瑟| 年日韩激情国产自偷亚洲| 完整一级毛片视频播放| 好紧好深好大乳无码中文字幕| yyyy在线在片| 亚洲色网导航| 欧美精品一卡二卡| 精品国产成人国产在线| 手机看片AV永久免费| 福利毛片| 26uuu亚洲国产精品| 国产精品亚洲国产精品| 日韩放荡少妇无码视频| 亚洲精品无码日韩国产不卡av| 亚洲人无码一区| 亚洲色精品VR一区二区| 26uuu另类亚洲欧美日本| jizz免费| 人妻?第一页| 亚洲精品aⅴ无码精品丝袜足| 人妻少妇偷人无码视频| www婷婷com| 欧美老少配性行为| 久久这里只有精品久久| 国产亚洲精品久久777777| 一区二区三区四区五区自拍| 久久久久无码国产精品不卡| 最新国产乱人伦偷精品免费网站| 亚洲精品入口一区二区乱| 亚洲国产理论片在线播放| 日韩综合| 日韩欧美综合在线二区三区| 国产美女高潮流白浆视频| 中文字幕日产乱码中| 亚洲伊人影院| 18禁网站入口|