<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      DeepSeek-V4和GPT-5.5第一波實測對決,結果出人意料!

      0
      分享至


      新智元報道

      編輯:Aeneas KingHZ

      【新智元導讀】昨夜,GPT-5.5果然按期發布了,全網沒有白等。更炸裂的是,就在同一天,DeepSeek-V4緊隨其后發布了!實測后,結果出人意料。

      2026年4月24日,這是屬于全球AI開發者的「瘋狂星期五」,也是科技史上注定被銘記的一天。

      凌晨時分,OpenAI的GPT-5.5如約空降,試圖以絕對的參數再次定義智能邊界。

      然而,就在大洋彼岸的余震還未平息時,那個曾經數次單挑閉源巨頭的國產「價格屠夫」與「效率天才」——DeepSeek,帶著全新的V4系列來正面硬剛了!

      當GPT-5.5還在試圖用更昂貴的算力堆砌未來時,DeepSeek-V4已經用1M超長上下文、比肩頂級閉源模型的Agent能力,以及僅為前代10%的KV緩存占用,直接把大模型推向了「平民化智能」的極境。

      一邊是科技春晚般的華麗登場,一邊是開源領域近乎「掀桌子」的絕地反擊。我們見證了一場精彩的「暴力美學」與「算法巧思」的巔峰對決。

      通往AGI的賽道,瞬間被這兩大巨頭縮短了不少。

      接下來,中國開源之光DeepSeek-V4和GPT-5.5,要來一場真刀實槍的實測大PK了。

      GPT-5.5和DeepSeek-V4巔峰對決

      第一題,一道可以肉眼判斷模型差異的電梯謎題,測的是「真假話+身份推理」。

      有四個人 A、B、C、D,其中只有一個人偷了寶石。

      他們分別說了下面四句話: A:不是我偷的。 B:是C偷的。 C:是D偷的。 D:B在說謊。

      已知: 1. 四句話中恰好有兩句是真的。 2. 小偷說的話一定是假話。 3. 非小偷不一定說真話,也可能說假話。

      請問:誰偷了寶石?

      這道題看似簡單,但其實,在給出的條件下,B和C都滿足。因此,這是一道故意設計的「陷阱題」:如果模型直接給出唯一答案C,說明它沒有認真驗證唯一性。

      真正想測的是,模型會不會發現題目本身不充分。

      更強模型應該回答:無法唯一確定,小偷可能是B或C。題目條件不足。

      這道題給GPT-5.5后,它成功發現了陷阱。


      把這道題給DeepSeek-V4后,一個直觀感受就是:它的思考過程,真的十分長長長長長。

      GPT-5.5十幾秒就出了答案,四分鐘了DeepSeek-V4還在跑。

      不過好在,V4最終也給出了正確答案。結果是好的,就是過程比較慢。


      第二題,我們用數字競賽題,來測試CoT的思考上限。重點比拼兩個模型的數學邏輯推理和思考模式效能。

      既然DeepSeek-V4宣稱在STEM和競賽型代碼上比肩頂級閉源模型,那我們就看看V4和GPT-5.5在面對人類智力天花板題目時,誰的推導過程更嚴密,誰會出現更多幻覺。

      我們選了去年國際奧數決賽的一道真題:

      Alice和Bob正在玩一個名為inekoalaty的雙人游戲,這個游戲的規則依賴于一個雙方都知道的正實數λ。

      在游戲的第n輪(從n=1開始),會發生以下情況:

      ? 如果n是奇數,Alice選擇一個非負實數x?,使得x? + x? + ? + x?的總和不超過λn。

      ? 如果n是偶數,Bob選擇一個非負實數x?,使得x?2 + x?2 + ? + x?2的總和不超過n。

      如果一個玩家無法選擇一個合適的x?,游戲結束,另一個玩家獲勝。如果游戲無限進行下去,沒有玩家獲勝。所有選定的數字對兩個玩家都是已知的。

      需要確定的是,哪些λ的值能確保Alice有獲勝策略,以及哪些λ的值能確保Bob有獲勝策略。


      原題和答案:https://web.evanchen.cc/exams/IMO-2025-notes.pdf

      在進階思考深度下,GPT-5.5得到了正確答案:


      全程耗時2分鐘51秒,思路清晰,輸出格式也很漂亮。


      在專家模式下,開啟思考模式,同樣的題目輸入DeepSeek──


      DeepSeek在思考過程結束前,沒有給出明確的輸出。

      點擊繼續后,DeepSeek也發現了答案的線索:


      最后,DeepSeek也成功證明了這道IMO決賽真題。


      可以看出,DeepSeek推理能力、思考深度的確進步明顯。

      接下來,我們考驗一下兩個模型的可視化能力。

      生成一個HTML網頁介紹人類的起源和生物的進化,要圖文并茂,好理解。

      DeepSeek這次效果更佳,GPT-5.5生成格式有些問題。




      接下來,要求兩個模型開發一個游戲網站,測試它們在動態圖形、3D空間交互、碰撞檢測和整體游戲架構方面的能力。

      通過最終呈現,可以清晰對比兩個模型在2D細膩特效與3D場景構建、光照與實時粒子系統方面的代碼生成能力、架構合理性以及視覺審美水平。

      跟上面一樣,GPT-5.5很快完成了這個任務,在預覽中呈現了網站效果。


      上下滾動查看更多


      DeepSeek-V4的思考時間不長,最終效果不如GPT-5.5,這一輪V4完敗。



      GPT-5.5:更像個人了

      接下來,我們還搜羅了一波AI大V和開發者們對GPT-5.5的實測。

      在今天發布之前,多位早期測試者已經用了兩周。他們的結論高度一致:在編程、推理、長任務三個維度上,GPT-5.5全面登頂。

      但真正讓人坐不住的不是它更聰明了,是它更「像個人」了。

      更貴的單價,反而更省錢;更強的能力,反而更會聊天;更高的自主性,反而更聽話。這一次,OpenAI拆掉了舊時代的發動機,直接給模型裝上了「靈魂」。

      Codex,直接淘汰「AI輔助編程」!

      可以說,GPT-5.5的Codex模式,直接把「AI輔助編程」這個詞淘汰了。

      一位測試者扔給它一份完整的PRD文檔,只說了一個詞:go。

      幾個小時后,GPT-5.5就獨立完成了整個項目構建。

      更關鍵的,是GPT-5.5的工作方式。

      它并不是寫完代碼等人審,而是自己形成了閉環——構建,視覺檢查,發現問題,再迭代。

      這種自主性,在其他模型上從未見過。

      OpenAI研究員Noam Brown的反饋,相信大家都已經看過了。

      用他的話說,「有了GPT-5.5,我的IC效率比以往任何時候都高。我現在可以像專業人士一樣編寫CUDA kernels,可以依靠它來運行我的研究實驗。」


      后端開發、復雜Bug定位、大型代碼庫理解,GPT-5.5在這些維度全面領先。

      有測試者專門讓它用Svelte寫了一個自定義虛擬滾動實現,完美調用了所有bind原語。

      他的評價是:「我見過AI寫出的最好的代碼,來自這個模型?!?/p>

      在世界上最難的電子表格任務上,GPT-5.5實現全新SOTA:速度最快、效率最高。



      更狠的是,GPT-5.5的持續研究能力,已有跡象表明AI已經能勝任研究合作者——

      人類研究人員只需要提出構想,全程無需寫一行代碼,GPT-5.5全部自主完成。


      甚至可以自主運行31個小時!


      這意味著,AI正從「助理」變為「雇傭兵」。你不需要告訴它怎么走,你只需要給它一個終點。

      不過短板同樣存在。

      前端設計仍然不如Opus,響應速度不如Opus 4.6 Fast。


      復雜布局有時候直接甩一張img了事,SVG硬編碼把自己繞暈。

      而且變得過度謹慎——動不動就問你問題,prompt稍有不慎就會觸發「瘋狂寫單元測試」模式。

      總結就是:能力很強,但需要馴服。

      沃頓商學院的教授Ethan Mollick測試了GPT-5.5好幾周,得出結論:目前,GPT-5.5 Pro就是解決復雜問題的最佳模型。


      更貴的模型,怎么反而更便宜

      GPT-5.5的定價比5.4更高。


      紙面上看不是好消息。

      但一位深度測試兩周的開發者給出了關鍵數據:達到GPT-5.4同等智能水平,GPT-5.5消耗的Token顯著更少。綜合算下來,整體運行成本反而更低。

      「這可能比大多數人意識到的更重要?!?/p>


      在Artificial Analysis指數的成本性能前沿上,GPT-5.5模型系列占據絕對主導地位。


      速度端的提升,就更加直觀了。

      早期測試者的實測數據擺在這里——

      GPT-5.5 Thinking Heavy模式,2分鐘出的答案,比GPT-5.4 Thinking Heavy花10分鐘出的更好。

      GPT-5.5 Pro,8分鐘的輸出質量,超過GPT-5.4 Pro花30分鐘的結果。

      同樣的活,時間砍了80%,質量還漲了。

      Token效率這件事為什么重要?因為它直接決定了AI Agent的經濟可行性。

      一個每跑一次任務就燒掉幾美元Token的模型,沒法大規模部署到真實工作流里?,F在,GPT-5.5把這個門檻往下壓了一大截。


      為什么GPT-5.5感覺不一樣?

      GPT-5.5建立在一次新的預訓練(pre-train)之上。

      所謂預訓練,就是那種規模龐大、成本高昂的基礎訓練過程:在指令微調、工具使用和推理腳手架等后訓練步驟加入之前,它先教會基礎模型底層模式。

      后訓練可以讓模型更聽話、更安全,或者更具智能體能力;但一次新的預訓練,則可能改變模型本身的「重心」。

      其實,OpenAI已經通過GPT-5.4證明,自己重新具備了強競爭力。

      GPT-5.4使用的仍然是早期GPT-5.x模型的同一套預訓練。

      而現在發布一個新的預訓練。


      此外,有國外科技媒體報道,GPT-5.5也就是Spud「將是更智能的預訓練模型」。


      現在,GPT-5.5的正式發布,更貴反而更便宜,編程效果又好得出奇,推測GPT-5.5可能只是新預訓練模型的初始強化學習Checkpoint。


      奧特曼直接攤牌了:GPT-5.5還會快速迭代。


      這說明OpenAI想繼續向Anthropic施壓:它押注的是,回應Claude的下一步,不只是圍繞同一個底座做更好的腳手架,而是換一個不同的基礎模型。

      GPT-5.5就是GPT-5.5,但無人關心了

      整個GPT-5.5發布中,最重要的成果可能是前所未有的網絡安全能力:

      在一次網絡攻防評估中,GPT-5.5在10次試驗中有1次成功接管了模擬的企業網絡,預算為1億個token。


      此前,唯一能夠完成此任務的模型Claude Mythos,它在10次嘗試中成功了3次。

      Opus 4.6和Opus 4.7都做不到,GPT-5.4、GPT-5.3-Codex也做不到。

      在衡量AI長時間跨度內經營業務能力的Vending-Bench Arena中,GPT-5.5再次擊敗Opus 4.7。


      而Opus 4.7依舊延續Opus 4.6的策略:撒謊賴賬,拒不退貨;GPT-5.5贏得堂堂正正。

      這說明GPT的對齊和能力同步提升,堪稱「德才兼備、文武雙全」。


      GPT終于通關《寶可夢》!


      GPT-5.4曾在一個循環迷宮里反復讀檔,像個陷入算法死循環的孤魂。

      而GPT-5.5不僅第一次嘗試就輕松打贏了勁敵,甚至展現出真正的「人類邏輯」——它會主動拿取道具、購物、規劃路徑,而不是暴力試錯。

      在網友定制的超級難度的《寶可夢 水晶》中,GPT-5.5依舊輕松通關。


      別被版本號里的「+0.1」騙了,GPT-5.5是一次重大更新。

      詭異的是,對于99%的用戶而言,這些都不重要。

      最重要的亮點在于能力范圍。GPT-5.5彌補了GPT系列在某些方面的不足:

      基于現有上下文進行設計、iOS/原生Mac應用、安全等方面。


      這次發布有一種心理上很奇怪的地方。

      GPT-5感覺像一次相變,因為它抬高了「可能性」的天花板。

      GPT-5.3-Codex感覺像一次相變,因為它讓長時間運行的自主工程在操作層面變得真實可用。

      GPT-5.5并非如此。

      它更像把粗糙邊緣磨平,讓薄弱類別不再那么弱,讓模型在更多真實世界的混亂工作中變得更有用。

      它并不完美,它沒有突然變成最好的設計模型,它不是魔法。

      如果你想認真完成重要工作,你仍然需要給它明確目標、真實上下文和驗證方式。

      對大多數人、在大多數任務上,GPT-5.5與其說是一種全新能力,不如說是讓現有能力變得更寬、更安全、更可靠。它把這個模型補圓了。

      參考資料:

      https://x.com/nicochristie/status/2047476237464211721

      https://x.com/MatthewBerman/status/2047375703516361174

      https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55

      https://www.reddit.com/r/singularity/comments/1sttcbf/is_the_ai_subscription_bubble_starting_to_crack/

      https://x.com/ArtificialAnlys/status/2047378419282034920

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      宴會上,毛主席問溥儀:傳國玉璽去哪了?溥儀的回答引起一片嘩然

      宴會上,毛主席問溥儀:傳國玉璽去哪了?溥儀的回答引起一片嘩然

      浩渺青史
      2026-05-01 01:14:21
      石宇奇捧杯臉都笑爛!翁泓陽透露帶傷取分 梁王送小夫球拍超開心

      石宇奇捧杯臉都笑爛!翁泓陽透露帶傷取分 梁王送小夫球拍超開心

      顏小白的籃球夢
      2026-05-04 11:00:30
      29歲趙心童攜女友觀戰世乒賽!為好友王楚欽加油,目睹國乒2連敗

      29歲趙心童攜女友觀戰世乒賽!為好友王楚欽加油,目睹國乒2連敗

      我愛英超
      2026-05-04 10:31:56
      5月2日俄烏最新:令人震驚的一次縱深打擊

      5月2日俄烏最新:令人震驚的一次縱深打擊

      西樓飲月
      2026-05-02 14:25:35
      胡錫進以安全代言沃爾沃,是整個社會的恥辱

      胡錫進以安全代言沃爾沃,是整個社會的恥辱

      黔有虎
      2026-04-19 17:34:12
      釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

      釋永信“開光”真相大白,過程不堪入目,易中天也被牽連

      往史過眼云煙
      2026-03-24 17:05:24
      回首才發現,原來馬斯克早就在中國埋下“重磅炸彈”,且效果顯著

      回首才發現,原來馬斯克早就在中國埋下“重磅炸彈”,且效果顯著

      青煙小先生
      2026-04-04 10:18:44
      今晚打響!中國U17女足vs越南:中國女足全力沖擊2連勝提前出線

      今晚打響!中國U17女足vs越南:中國女足全力沖擊2連勝提前出線

      愛奇藝體育
      2026-05-04 09:34:06
      《寒戰1994》回答了蔡元祺說不可以打亂的接班部署到底是什么部署

      《寒戰1994》回答了蔡元祺說不可以打亂的接班部署到底是什么部署

      手工制作阿殲
      2026-05-04 11:25:10
      2026下半年,霉運散盡,一路走高的三個星座,好日子從此開始

      2026下半年,霉運散盡,一路走高的三個星座,好日子從此開始

      小晴星座說
      2026-05-04 14:49:39
      米切爾取代杜鋒?廣東隊打滿3場狂賺1500萬,教練組大洗牌成定局

      米切爾取代杜鋒?廣東隊打滿3場狂賺1500萬,教練組大洗牌成定局

      緋雨兒
      2026-05-04 14:55:06
      印度產能狂漲17倍:中國光伏產業被印度從內部“偷家”真相

      印度產能狂漲17倍:中國光伏產業被印度從內部“偷家”真相

      小蘭聊歷史
      2026-05-04 15:20:48
      河南南陽張廷哲主動投案:叢“優秀教育管理人才”到階下囚的墜落

      河南南陽張廷哲主動投案:叢“優秀教育管理人才”到階下囚的墜落

      飛鶴傳媒
      2026-05-03 15:24:13
      馬斯克當庭講述:名字我取,錢我出,人我招,最后OpenAI卻被偷走了

      馬斯克當庭講述:名字我取,錢我出,人我招,最后OpenAI卻被偷走了

      新浪財經
      2026-05-02 11:53:42
      18歲張恨水新婚夜嫌妻丑,卻頻繁同房,妻子生下女兒,他怒罵晦氣不祥

      18歲張恨水新婚夜嫌妻丑,卻頻繁同房,妻子生下女兒,他怒罵晦氣不祥

      文史明鑒
      2026-03-27 20:03:13
      上海女主持司雯嘉女兒慶生,11歲米粒太像高山峰,母女同框似姐妹

      上海女主持司雯嘉女兒慶生,11歲米粒太像高山峰,母女同框似姐妹

      阿訊說天下
      2026-05-04 16:09:15
      《奔跑吧》:這仨人全程劃水,不撕名牌,鏡頭全是白鹿沒看點

      《奔跑吧》:這仨人全程劃水,不撕名牌,鏡頭全是白鹿沒看點

      一娛三分地
      2026-05-04 15:29:11
      上交所公開譴責7名主管人員

      上交所公開譴責7名主管人員

      極目新聞
      2026-05-04 10:59:33
      朱溫被殺前夜,叫兒媳王氏前來服侍,兒媳告誡:小心你父親要殺你

      朱溫被殺前夜,叫兒媳王氏前來服侍,兒媳告誡:小心你父親要殺你

      銘記歷史呀
      2026-05-02 00:11:01
      賴清德偷竄斯威士蘭,去時容易回時難,退路已被徹底堵死

      賴清德偷竄斯威士蘭,去時容易回時難,退路已被徹底堵死

      愛意隨風起呀
      2026-05-04 15:01:16
      2026-05-04 17:08:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15129文章數 66835關注度
      往期回顧 全部

      科技要聞

      OpenAI“復活”了QQ寵物,網友直接玩瘋

      頭條要聞

      宇樹機器人在美坐飛機電池超標被拆卸暫扣 致航班延誤

      頭條要聞

      宇樹機器人在美坐飛機電池超標被拆卸暫扣 致航班延誤

      體育要聞

      騎士破猛龍:加雷特·阿倫的活力

      娛樂要聞

      張敬軒還是站上了英皇25周年舞臺

      財經要聞

      魔幻的韓國股市,父母給嬰兒開戶買股票

      汽車要聞

      同比大漲190% 方程豹4月銷量29138臺

      態度原創

      教育
      時尚
      本地
      公開課
      軍事航空

      教育要聞

      小升初附加題,求四邊形面積,難倒了不少人

      這幾條裙子太適合度假了,減齡又時髦!

      本地新聞

      用青花瓷的方式,打開西溪濕地

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      特朗普回絕伊朗新方案

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 日本无遮挡边做边爱边摸| 丰满岳乱妇一区二区三区| 最新国产精品亚洲| 亚洲日本国产| 久久精品人人槡人妻人人玩AV| 国产乱子伦农村xxxx| 老司机免费的精品视频| 国产成人a在线观看视频| 女人的天堂av青青草| 欧美老熟妇乱子伦牲交视频| 91青青草视频在线观看| 四虎影成人精品a片| 久久久久成人精品免费播放网站| 国产一区二区三区小说| 亚洲首页一区任你躁xxxxx| 色综合 图片区 小说区| 日韩精品人妻AV一区二区三区| 久久伊人色av天堂九九 | 第一自拍国内一区| 五月香婷婷| 亚洲AV综合A国产AV中文| 精品亚洲国产成人痴汉av| 国产综合久久| 亚州av无码| 人人妻人人藻人人爽欧美一区| 国色天香成人一区二区| 国产AV日韩AV| 色欧美片视频在线观看| 亚洲线精品一区二区三区八戒| 亚洲乱人伦中文字幕无码| 粉嫩一区二区三区国产精品| 亚洲欧洲中文日韩乱码av| 亚洲日韩AV一区| 亚洲男人在线天堂| 人妻无码久久久久久久久久久 | 亚洲日韩AV无码专区影院| 天天澡日日澡狠狠澡欧美老妇| 情侣国产精品视频自拍| 国产精品自在自线视频| 无码精品人妻一区二区三区中| 久久精品亚洲精品国产色婷|