<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      Claude Opus 4.6和GPT 5.3 Codex同時更新,這波貪了,應(yīng)該留到春晚再看的

      0
      分享至

      AI圈迎來了新年的第一個雙響炮啊,

      Anthropic剛發(fā)了Claude Opus 4.6,OpenAI也發(fā)了GPT?5.3-Codex,在Codex app里已經(jīng)能用了。我這稿子寫一半直接重新寫啊。馬上來看看這兩模型的評分,它們強化了那些點,以及除了模型本身,還帶來了什么更新。

      先看跑分。

      Anthropic是第一次給Opus系列模型上100萬tokens的上下文窗口,在MRCRv2八針1M (大海撈針)測試里,比Sonnet 4.5高了57個點,我第一反應(yīng)就是我一定要在clawdbot體驗一把Opus 4.6。

      除了記憶好,Opus 4.6在GDPval-AA(44個不同崗位的知識工作任務(wù))上也超了GPT5.2 200多分,感覺Cowork又可以升級一波了。


      隔壁的GPT?5.3-Codex定位是個編程模型,融合了GPT-5.2-Codex的編碼性能和GPT-5.2的推理能力及專業(yè)知識,速度提升了 25%(codex有救了),離譜的是OSWorld-Verified(視覺桌面操作)上提升了快30個點,

      夯爆了。


      我仔細對比了一下兩張官方表,發(fā)現(xiàn)它們重合的數(shù)據(jù)集只有一個,Terminal-Bench 2.0,是在終端命令行里進行編程的測試。光看這個評分,GPT-5.3-Codex可以說是把Claude Opus 4.6給拉爆了,高了12個點。

      其他展示出來的數(shù)據(jù)不能直接拿來硬比,

      SWE-Bench(Agent編程)數(shù)據(jù)集人OpenAI用的是Pro版本,包含了四種語言。Claude Opus 4.6測評的SWE-Bench Verified只測試Python。

      OpenAI測試OSWorld-Verified比Claude Opus 4.6測的OSWorld測評出來的分數(shù)會更加可信,因為Verified修復(fù)了300多個數(shù)據(jù)問題。

      還是來看看它們單個都更新了啥,

      Claude Opus 4.6還在高難度Agent 搜索(DeepSearchQA / BrowseComp)上單 Agent比GPT-5.2 Pro多6個點,在多學(xué)科推理(Humanity's Last Exam / ARC AGI 2)上,同樣是工具配置拉滿的狀態(tài)下,比GPT5.2Pro多了3個點。



      GPT-5.3-Codex有個指標(biāo)高到離譜,

      OSWorld-Verified(視覺桌面操作),

      用人話說就是讓AI看截圖換成各種電腦任務(wù),人類基準是72%,GPT-5.2-Codex是38.2%,GPT-5.2是37.9%,

      融合這個兩個模型的優(yōu)勢的GPT-5.3-Codex直接干到64.7%,跟這個比起來,其他的SWE-Bench Pro(Agent編程),Cybersecurity Capture The Flag Challenges(Agent安全攻防)和SWE-Lancer IC Diamond(修bug賺100萬挑戰(zhàn))的5,6個點的提升都是常規(guī)操作了。


      再來看看應(yīng)用案例。

      Anthropic這次都沒有放出Claude Opus 4.6跑的case,而且選擇把自家產(chǎn)品線更新了,

      Claude Code新功能agent teams(智能體團隊),可以讓多個Agent并行工作,適合用在像大規(guī)模代碼檢查之類可以被拆成很多個獨立子任務(wù)的場景。

      Claude in Excel也更新了,更新了規(guī)劃模式,還能給亂七八糟的非結(jié)構(gòu)化數(shù)據(jù),自動做一個合適的表格結(jié)構(gòu)。

      還給PPT新出了 research preview,Claude能識別公司品牌的ppt模版,保證布局,字體,顏色都不會變,能針對單張幻燈片簡化文本和添加圖表,也可以一次性生成10張幻燈片再微調(diào)。


      OpenAI把更多時間放在showcase上,

      他們放了兩個用GPT-5.3-Codex構(gòu)建的新游戲,但沒有像GPT-5.2-Codex那樣把完整提示語放出來。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/racing_v2.html

      兩個游戲我都完整打了一把,這個賽車真的不是抄馬里奧賽車的嗎,道具箱里還有泡泡和香蕉。

      https://cdn.openai.com/gpt-examples/7fc9a6cb-887c-4db6-98ff-df3fd1612c78/diving_game.html

      潛水我也玩了,本來是想當(dāng)個超人,一口氣潛到最底的,但是潛到一半就體驗到為什么神秘園會說,那些專業(yè)人士潛進去就出不來了。。。

      他們還放出來一個我覺得很蠢的網(wǎng)頁case,理由是GPT-5.3-Codex做這個價格頁面的時候,會把年費展示成打個折的月費,而不是總金額。。。

      奧特曼沒活了可以去咬個打火機

      關(guān)于API和定價,Anthropic這次給API加了Adaptive thinking(自適應(yīng)思考),由Claude 來判斷什么時候打開thinking模式。

      還有四檔Effort(努力程度)可選,默認是high(高),還有l(wèi)ow(低),medium(中)和max(最大)。

      還有一個beta功能,當(dāng)長期對話或者Agent任務(wù)快到打到上下文上限的時候,會自動把上下文壓縮成摘要,用摘要替換上下文。價格我做成表格了,


      GPT-5.3-Codex還沒有API,不過在app,CLI,IDE插件and網(wǎng)頁版都能用了,上線就全量,這很不openai。

      說句題外話,api形式的gpt4o一周后就沒了,這波屬于是時代的眼淚了。


      最后說說安全。

      這次兩家都花了不小的篇幅來談安全問題。我們還是用人話來解讀一下。


      Anthropic上來先亮了個圖,說這次升級沒有影響我們模型的安全性,這段時間我們做了兩件事。

      第一件事,努力搞清楚模型腦子里到底在想什么。

      他們在做一種可解釋性的新方法,目標(biāo)是讓研究人員能看見模型為什么會在某些情況下給出某種回答。這樣做的好處是,很多問題在標(biāo)準測評里不一定暴露,但當(dāng)你能追到原因,就更容易提前發(fā)現(xiàn)風(fēng)險,比如模型在某些邊緣場景會突然變得很會誤導(dǎo)人。

      第二件事,在模型擅長的領(lǐng)域加了更嚴的防護。

      他們發(fā)現(xiàn) Opus 4.6 在網(wǎng)絡(luò)安全上能力更強,能修bug,也能拿去攻擊。所以他們做了六個新的網(wǎng)絡(luò)安全探針,用來檢測模型有沒有在輸出可能被濫用的內(nèi)容。

      隔壁OpenAI在安全上也下了苦功夫,

      他們現(xiàn)在給開源項目免費做體驗,把一些熟悉的壞套路整理成話術(shù)識別規(guī)則,當(dāng)我們給gpt發(fā)的問題跟某個套路很像的時候,模型就會自動降低問答的詳細程度。

      這次模型更新后,

      明顯感覺我的預(yù)期值變高了,以前更新模型我通常還會去測一下文本,代碼,3D的表現(xiàn),

      但現(xiàn)在隨著Claude Code,Cowork,Clawdbot三連擊,我對于模型的表現(xiàn)處于薛定諤的貓狀態(tài)。

      太簡單的測起來沒意思,

      我們現(xiàn)在用Claude Code加一些模型,

      也能夠做到這樣的上限。

      太復(fù)雜的,我想以Agent的形式,

      放到我們已有的工作流里長時間來評估它的差異。

      說不定后面模型的更新會成為一種日常的迭代,

      發(fā)布會也不開了,

      開始卷Agent形態(tài)了,

      我就一個愿望,

      別光跟整理桌面較勁了,

      我桌面都快沒文件了。

      @ 作者 / 卡爾

      最后,感謝你看到這里如果喜歡這篇文章,不妨順手給我們點贊|在看|轉(zhuǎn)發(fā)|評論

      如果想要第一時間收到推送,不妨給我個星標(biāo)

      如果你有更有趣的玩法,歡迎在評論區(qū)和我聊聊

      更多的內(nèi)容正在不斷填坑中……


      特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關(guān)推薦
      熱點推薦
      官宣!6月1日起車管所“下崗”?3.3億車主迎來特大喜訊

      官宣!6月1日起車管所“下崗”?3.3億車主迎來特大喜訊

      阿芒娛樂說
      2026-05-14 12:19:34
      央視主持人朱迅:生命終點將結(jié)束,為何不勇敢面對生命的終點呢?

      央視主持人朱迅:生命終點將結(jié)束,為何不勇敢面對生命的終點呢?

      吃青菜長高
      2026-05-10 06:28:57
      蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

      蔣介石孫子召開發(fā)布會,提出“兩蔣”移靈大陸,2句話讓世人唏噓

      老謝談史
      2026-03-18 18:33:35
      海南的房價到底會漲還是會繼續(xù)下跌?看看這篇文章的觀點對不對

      海南的房價到底會漲還是會繼續(xù)下跌?看看這篇文章的觀點對不對

      阿離家居
      2026-05-15 13:52:56
      白宮鏡頭對著解放軍拍了5秒,美國網(wǎng)友看傻了

      白宮鏡頭對著解放軍拍了5秒,美國網(wǎng)友看傻了

      溫言拾光
      2026-05-15 13:25:36
      27分10板3助!24分7板3斷!馬刺榜眼兌現(xiàn)天賦,文班沖冠需要你

      27分10板3助!24分7板3斷!馬刺榜眼兌現(xiàn)天賦,文班沖冠需要你

      世界體育圈
      2026-05-14 21:29:03
      “巴菲特慈善午餐”回歸,以900萬美元(約合人民幣6100萬元)成交,買家的個人信息暫未公開

      “巴菲特慈善午餐”回歸,以900萬美元(約合人民幣6100萬元)成交,買家的個人信息暫未公開

      瀟湘晨報
      2026-05-15 13:43:41
      絕不退讓!中方當(dāng)面插旗,沉默72小時后,日本在境外發(fā)射導(dǎo)彈

      絕不退讓!中方當(dāng)面插旗,沉默72小時后,日本在境外發(fā)射導(dǎo)彈

      嘆為觀止易
      2026-05-15 11:48:38
      宏遠速遞!杜鋒開展續(xù)約談判,徐杰拿頂薪生變,拉科正式離隊

      宏遠速遞!杜鋒開展續(xù)約談判,徐杰拿頂薪生變,拉科正式離隊

      多特體育說
      2026-05-14 23:34:18
      穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

      穆鐵柱的最后一天:在家中蹬自行車健身,突然兩眼一黑癱倒在地

      大運河時空
      2026-04-21 16:30:03
      1978年300名農(nóng)業(yè)專家參觀大寨,卻發(fā)現(xiàn):大寨是一場驚天謊言!

      1978年300名農(nóng)業(yè)專家參觀大寨,卻發(fā)現(xiàn):大寨是一場驚天謊言!

      溫讀
      2025-03-20 10:58:55
      ROG首款內(nèi)存來了!幻刃DDR5 RGB 20周年版發(fā)布:5999元中國獨享

      ROG首款內(nèi)存來了!幻刃DDR5 RGB 20周年版發(fā)布:5999元中國獨享

      快科技
      2026-05-15 16:15:49
      李善長問劉伯溫:朱元璋稱帝前會先殺誰?劉伯溫直接說了3個字

      李善長問劉伯溫:朱元璋稱帝前會先殺誰?劉伯溫直接說了3個字

      掠影后有感
      2026-05-15 11:09:15
      中美會談結(jié)束,特朗普給出4字評價,鄰國總統(tǒng):中美穩(wěn)定利好全球

      中美會談結(jié)束,特朗普給出4字評價,鄰國總統(tǒng):中美穩(wěn)定利好全球

      黑鷹觀軍事
      2026-05-15 16:04:41
      被逼去相親,男方竟是我老板,我轉(zhuǎn)身就跑,他急喊:再跑就降薪

      被逼去相親,男方竟是我老板,我轉(zhuǎn)身就跑,他急喊:再跑就降薪

      那年秋天
      2026-05-08 19:15:13
      馬斯克兒子一身新中式火了!虎頭包338元“廣西制造”,馬甲定價970元

      馬斯克兒子一身新中式火了!虎頭包338元“廣西制造”,馬甲定價970元

      上觀新聞
      2026-05-15 09:28:11
      中美會談圓滿結(jié)束,中方當(dāng)面對臺灣問題定調(diào),特朗普反應(yīng)值得細品

      中美會談圓滿結(jié)束,中方當(dāng)面對臺灣問題定調(diào),特朗普反應(yīng)值得細品

      夢想的現(xiàn)實
      2026-05-15 08:12:09
      太豪橫了!浙江游客一句菜太咸,山東老板全額退款,網(wǎng)友坐不住了

      太豪橫了!浙江游客一句菜太咸,山東老板全額退款,網(wǎng)友坐不住了

      小鋭有話說
      2026-05-15 16:44:08
      “空軍一號”下的中國軍人,何以“穩(wěn)如磐石”?

      “空軍一號”下的中國軍人,何以“穩(wěn)如磐石”?

      大象新聞
      2026-05-14 16:54:12
      陳布雷拜讀論持久戰(zhàn)后感嘆道:毛公若在南京主政,蔣公無立身之地

      陳布雷拜讀論持久戰(zhàn)后感嘆道:毛公若在南京主政,蔣公無立身之地

      睡前講故事
      2026-04-21 11:38:12
      2026-05-15 17:24:49
      卡爾的AI沃茨 incentive-icons
      卡爾的AI沃茨
      前大廠算法工程師,3家科技公司技術(shù)總監(jiān)|致力打造最系統(tǒng)的Al學(xué)習(xí)體系,讓1萬人通過Al提高生產(chǎn)力
      263文章數(shù) 134關(guān)注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      銀行買"雇員忠誠險"后員工騙走客戶393萬 欲理賠被拒

      頭條要聞

      銀行買"雇員忠誠險"后員工騙走客戶393萬 欲理賠被拒

      體育要聞

      德約科維奇買的球隊,從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經(jīng)要聞

      特朗普的北京時刻

      汽車要聞

      標(biāo)桿級乘坐感受 駕駛智界V9需要再細膩一點?

      態(tài)度原創(chuàng)

      親子
      藝術(shù)
      教育
      家居
      公開課

      親子要聞

      東城發(fā)布2026年幼兒園招生公告

      藝術(shù)要聞

      一個北大 “反卷教授” 的意外走紅

      教育要聞

      既要學(xué)校穩(wěn),又要同學(xué)好,還要門檻低?這所學(xué)校滿足你!

      家居要聞

      110㎡淡而有致的生活表達

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 国产XX00| 爱爱福利社| 久久熟女| 久久一亚色院精品全部免费| 婷婷激情综合| 日产精品一区二区| 国产免费丝袜调教视频| 久久国内精品自在自线观看| 美女禁区a级全片免费观看| 国产午夜影视大全免费观看| 亚洲国产长腿丝袜av天堂| 天天干夜夜谈| 五月丁香成人网| 国产精品麻豆欧美日韩ww| 伊人av超碰伊人久久久| 精品国产91久久久久久亚瑟| 国产农村一国产农村无码毛片| 国产精品久久精品第一页| 色综合久久久久综合体桃花网| 大肉大捧一进一出好爽视频动漫| 粉嫩蜜臀av一区二区绯色| 69精品人人人人| 无码精品人妻| 密臀午夜Av在线| 国产小视频在线观看| 777奇米四色成人影视色区| 亚洲欧美日韩综合一区在线| 尤物tv国产精品看片在线| 激情99| 亚洲a人片在线观看网址| 人妻在线免费公开视频| 国产精品久久久久精| 性色在线视频精品| 亚洲性日韩精品一区二区三区 | 一区二区三三精品视频| 久久久精品国产麻豆一区二区无限| 日韩网站免费观看高清完整版在线观看 | 国产av不卡一区二区| 老子午夜精品无码| 狠狠亚洲狠狠欧洲2019| 亚洲最大三级网站|