<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      這套題,GPT-5.5、Opus 4.7加起來沒考到「1分」,人類卻拿了滿分100?

      0
      分享至

      機器之心編輯部

      在大模型「卷生卷死」的今天,大家似乎已經習慣了模型在各大榜單上刷出逼近滿分準確率。然而,在一項名為 ARC-AGI-3 的基準測試中,堪稱當下「最紅炸子雞」的兩款頂尖模型 ——OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7,卻雙雙「折戟」……

      近日,ARC Prize 官方發布了針對這兩款頂級模型的詳細分析報告,結果令人震驚:在面對未見過的邏輯任務時,兩者的表現得分均低于 1%,GPT-5.5 得分 0.43%,Claude Opus 4.7 得分 0.18%。


      這意味著,即便擁有千億級參數和近乎無限的算力,這些模型在處理「全新邏輯環境」時的表現,甚至不如一個 6 歲的兒童。

      這是怎么一回事?

      ARC-AGI-3:智能的「真偽試金石」

      為了更好理解這一成績,首先我們來了解一下 ARC-AGI-3,這是由 Keras 之父 Fran?ois Chollet 創立的基準測試系列的最新一代,于今年 3 月分布。

      Fran?ois Chollet 當時稱,當一個 AI 系統在首次接觸所有環境時,其行動效率能夠達到或超過人類水平,才算真正「攻克」ARC-AGI-3。

      而根據團隊進行的大量的人類測試結果來看:在沒有任何先驗訓練、沒有任何說明的情況下,人類在第一次接觸時可以 100% 解決這些環境中難題,與此同時,目前所有前沿的 AI 推理模型在這一測試上的表現都低于 1%。


      彼時,OpenAI 的 GPT-5.5 和 Anthropic 的 Claude Opus 4.7 還沒有發布,如今來看,這兩個模型也同樣難逃這一結果。

      具體來看,ARC-AGI-3 是由 135 個全新環境組成的測試集,每個環境都由人類手工設計,用來測試模型面對「未知」的能力。

      對于測試者來說,無論人類還是 AI,進入環境中將不會獲得任何的玩法說明,要前進,取得進展,必須做到以下幾點:

      • 探索未知界面 ;

      • 從稀疏反饋中推斷規則(構建世界模型) ;

      • 提出并驗證假設 ;

      • 從錯誤中恢復 ;

      • 將經驗遷移到下一關(持續學習)。

      每個環境的構建都缺乏模型通常依賴的文化知識,只保留「抽象推理能力本身」。

      換句話說,可以把 ARC-AGI-3 理解為,一個在「新穎性、模糊性、規劃、適應性」上的最低共同測試集合,而這些,正是現實世界任務對智能體的核心要求。因此,ARC-AGI-3 也被公認為目前最接近「人類智能本質」的測試。

      頂尖模型紛紛「敗北」背后的三大失敗模式

      此次,GPT-5.5 和 Claude Opus 4.7 的表現得分均低于 1% 的成績固然令人「心痛」,但比起成績,知道背后的失敗原因似乎更重要。

      ARC Prize 研究團隊通過分析 160 組完整運行軌跡,包括模型的每一步操作和推理過程,總結出了導致模型「崩潰」的三大核心失敗模式:

      一、真實的局部反饋,虛假的世界模型

      模型能夠理解哪一步動作產生了變化(局部反饋),但無法將這種因果效應轉化為一套通用的全局規則。

      這是一個最為明顯的原因。比如,在一個需要旋轉物體以匹配插槽的任務中,模型能夠識別出「我按下這個鍵,物體可以旋轉」這一局部規律,但它無法將此邏輯上升為全局目標,進一步推理出:「旋轉會影響結果,因此我需要在行動前調整物體方向以匹配目標。」

      換句話說,模型失敗不是因為它們「看不見」,而在于無法把觀察的事物整合成一個完整的世界模型。

      比例,Claude Opus 4.7 在運行任務 「cd82」 時,在第 4 步已經意識到執行 「ACTION3」 可以旋轉容器,隨后在第 6 步也觀察到執行 「ACTION5」 可以傾倒或蘸取油漆。然而,它始終無法將這些碎片化的認知轉化為一個完整的邏輯策略,即「先調整桶的方向,然后再蘸取油漆,以還原左上角的目標圖像」。


      Claude Opus 4.7 理解 ACTION3 旋轉物體,但未能理解游戲的概念。

      或者在任務 「cn04」 中,Claude Opus 4.7 雖然發現了一個成功的「旋轉后放置」交互邏輯(這是正確的假設,見第 23 步),但隨后卻陷入了追求「整體形狀重疊」的誤區(錯誤假設),并為了追求「頂行進度」的假象而偏離了目標(見第 60 步)。


      二、被訓練數據「綁架」的抽象思維

      模型對當前環境產生了誤判,由于受到訓練數據的影響,它們會將一個全新的「ARC-AGI-3」任務誤認為是在玩另一種已知的游戲。

      這種失敗模式源于模型對訓練數據的「錯誤抽象」,在多次運行中,模型反復嘗試通過將其映射到已知游戲來解釋陌生的機制,這些游戲包括:「俄羅斯方塊」「青蛙過河」「推箱子」「粉末游戲」「填充顏色」「打磚塊」等。

      雖然從核心先驗知識中提取抽象概念在理論上有助于解決問題,但這些來自訓練數據的字面類比反而「綁架」了模型的動作選擇,從而演變成:局部視覺相似、導致被誤認為完整的游戲規則、行動方向被帶偏。

      比如,在任務 「cd82」 中,GPT-5.5 的思維被錨定在了流沙、物理模擬或 「填充顏色」的游戲機制上;而在任務 「ls20」 中,它將本應是按鍵組合的邏輯誤判為了「打磚塊」。


      三、通關了關卡,卻沒學會規則

      模型僥幸通過了某個特定關卡,卻無法利用那個成功的獎勵信號來強化并執行正確的后續操作。這說明,「通關并不等于理解」。

      Claude Opus 4.7 的兩次記錄很好地說明了這一點。

      在任務「ka59」中,Claude Opus 4.7 用 37 步完成了 Level 1,但它對「點擊」這一操作的理解其實是錯誤的 —— 它認為點擊是在「傳送當前角色」。雖然結果看起來像是一次干凈利落的勝利,但本質上只是對底層機制的誤讀,恰好碰上了一個比較寬容的關卡。

      因此,當進入 Level 2,需要真正的機制(形狀匹配與推動)時,Opus 將這種錯誤理解進一步固化為「點擊每個目標來填充它」,結果可想而知,整個過程徹底偏離、崩潰,且無法恢復。


      Opus 4.7 正在運行任務 「ka59」,陷入了「盲目點擊(Click-fishing)」的死循環,游戲得分:2.04%。

      在「ar25」任務中也是如此。Opus 在 Level 1 通過對「鏡像移動」的正確解讀成功通關(見第 4 步);隨后在 Level 2,它實際上已經發現了新的「可移動軸」機制(見第 227 步),但緊接著它又陷入了幻覺,開始臆想出諸如「打孔」或「需要翻轉」等并不存在的規則。


      在這兩種情況下,Level 1 的成功掩蓋了模型對底層機制的缺失或扭曲,這種「局部勝利」反而為錯誤的 Level 2 策略提供了一個看似自信的支撐框架。

      這也說明,早期關卡的推進并不能可靠反映模型是否真正理解了任務。如果沒有明確檢驗模型「為什么能過關」,它就會把錯誤的認知帶入下一關,并在此基礎上不斷放大偏差。

      GPT-5.5 vs Opus 4.7:不同的「翻車」姿勢

      有意思的是,雖然 GPT-5.5 和 Opus 4.7 的得分成績都不盡如人意,但研究團隊通過對比兩者的運行記錄發現,它們的失敗方式完全不同。

      簡單來說就是,Claude Opus 4.7 的問題是「壓縮錯了」,而 GPT-5.5 的問題則在于「壓縮不了」。

      具體來看,Opus 4.7 在短周期的機制發現方面表現更強。例如在任務「ar25」中,它幾乎立刻識別出鏡像結構,并順利通過 Level 1;在任務「ka59」中,即便世界模型并不完整,它也能讀出「雙角色、雙目標」的布局,并完成較短的 Level 1 操作序列。

      但問題在于,它也更容易抓住一個錯誤的「恒定特征」,并堅定執行下去。

      比如在任務「cn04」中,它構建了一套「進度 / 計時 / 轉換」的錯誤理論,并在這一假設下不斷嘗試操作(第 60 步)。它確實形成了一套「可運行的解釋」,只是這套解釋是錯的。

      GPT-5.5 則是另一個極端。它的「假設生成」更廣泛,這使得它更有可能說出正確的思路,但同時也更難將其轉化為具體行動。

      比如在任務「ar25」中,它識別出了鏡像效應,但不斷重新打開「可能的游戲類型空間」,在「俄羅斯方塊」「青蛙過河」「乒乓球」「漢諾塔」之間反復橫跳,始終無法堅定地執行鏡像邏輯。而在任務「ka59」中,它也構建出了正確的對象結構 —— 兩個目標輪廓和一個可切換的第二角色 —— 但始終沒有真正執行這一理解。

      換句話說,Claude Opus 4.7 有點像「過度自信的直覺主義者」,GPT-5.5 則像「思維發散的理論家」。

      而歸根結底,兩者之間的這種差異在于「壓縮」能力的區別:Claude Opus 4.7 將觀察壓縮成了一個「自信但錯誤」的理論,而 GPT-5.5 則幾乎無法完成壓縮,始終停留在分散的可能性之中。

      不得不說,此次 Claude Opus 4.7 和 GPT-5.5 雙雙在 ARC-AGI-3,這一堪稱目前最接近「人類智能本質」的測試上的低分表現,揭示了一個事實:AGI 之路「道阻且長」啊。

      你呢,如何看待 AI 的這一成績?歡迎在評論區留言、交流!

      https://x.com/fchollet/status/2050328852107612559

      https://arcprize.org/blog/arc-agi-3-gpt-5-5-opus-4-7-analysis

      https://x.com/GregKamradt/status/2050262126120632554

      ? THE END

      轉載請聯系本公眾號獲得授權

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      隨著騎士4-3淘汰活塞,NBA季后賽4強全部誕生!最新奪冠排行出爐

      隨著騎士4-3淘汰活塞,NBA季后賽4強全部誕生!最新奪冠排行出爐

      小火箭愛體育
      2026-05-18 10:51:24
      斯嘉麗這部科幻片12年后仍讓人不安

      斯嘉麗這部科幻片12年后仍讓人不安

      赴一場山海啊
      2026-05-17 02:00:59
      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      約會時女人說去廁所,其實是在給你兩個暗示,聽懂的都不是凡人

      心理觀察局
      2026-05-18 09:11:14
      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      最高院:提供 “口交” “肛交”等進入式性服務,是否屬賣淫行為?

      周軍律師聊案子
      2026-04-21 09:50:16
      國乒新情報 5月18 樊振東 王曼昱 林詩棟 王楚欽教練消息! 向鵬報名沒成

      國乒新情報 5月18 樊振東 王曼昱 林詩棟 王楚欽教練消息! 向鵬報名沒成

      野渡舟山人
      2026-05-19 00:52:24
      A股,尾盤傳來一個“重大利好”信號,明天,或將迎來大變盤!

      A股,尾盤傳來一個“重大利好”信號,明天,或將迎來大變盤!

      夜深愛雜談
      2026-05-18 21:32:26
      國乒15人出戰!WTT公布美國大滿貫首批名單,王楚欽、孫穎莎入圍

      國乒15人出戰!WTT公布美國大滿貫首批名單,王楚欽、孫穎莎入圍

      乒談
      2026-05-18 21:39:58
      發生了什么?汽車股全線暴跌!

      發生了什么?汽車股全線暴跌!

      電動知家
      2026-05-18 18:48:59
      毒楊梅風波蔓延全國!多人或判刑,最致命的那一刀還沒落下

      毒楊梅風波蔓延全國!多人或判刑,最致命的那一刀還沒落下

      素衣讀史
      2026-05-18 21:27:56
      大手筆,亞歷山大當選MVP后送全隊AP手表+Burberry風衣

      大手筆,亞歷山大當選MVP后送全隊AP手表+Burberry風衣

      懂球帝
      2026-05-18 09:37:54
      湖北荊州遇極端暴雨天氣,荊州站候車大廳大量漏水,進展:沒漏了,車站已恢復正常運營

      湖北荊州遇極端暴雨天氣,荊州站候車大廳大量漏水,進展:沒漏了,車站已恢復正常運營

      瀟湘晨報
      2026-05-18 12:25:30
      深圳輸G2揪出頭號罪人!2罰不中+連續犯規送分,球迷:戰犯表現

      深圳輸G2揪出頭號罪人!2罰不中+連續犯規送分,球迷:戰犯表現

      弄月公子
      2026-05-18 22:27:20
      柳州再次發生5.2級地震!南寧、廣州等多地有震感!

      柳州再次發生5.2級地震!南寧、廣州等多地有震感!

      海峽網
      2026-05-18 22:55:23
      后續!新娘換裝拖46分鐘賓客散場,監控曝光,她竟無視多次提醒

      后續!新娘換裝拖46分鐘賓客散場,監控曝光,她竟無視多次提醒

      寶哥精彩賽事
      2026-05-18 07:00:43
      4-2中國!5-1日本!朝鮮U17女足遭質疑:阿姨們太猛 肯定改年齡了

      4-2中國!5-1日本!朝鮮U17女足遭質疑:阿姨們太猛 肯定改年齡了

      風過鄉
      2026-05-18 07:28:30
      紅利曼失守!俄軍砸碎談判桌,用大炮給歐洲上了一堂“清零課”

      紅利曼失守!俄軍砸碎談判桌,用大炮給歐洲上了一堂“清零課”

      咣當地球
      2026-05-17 06:24:58
      難怪馬筱梅不提玥兒姐弟!汪徐兩家和解僅 3 天,小 S 曬全家福

      難怪馬筱梅不提玥兒姐弟!汪徐兩家和解僅 3 天,小 S 曬全家福

      橙星文娛
      2026-05-18 10:54:26
      CCTV5調整直播!U17國足VS澳大利亞傳來好消息,再贏一場將爭冠

      CCTV5調整直播!U17國足VS澳大利亞傳來好消息,再贏一場將爭冠

      何老師呀
      2026-05-18 22:17:55
      諾蘭新片被比《阿拉伯的勞倫斯》,期待值拉滿過分嗎?

      諾蘭新片被比《阿拉伯的勞倫斯》,期待值拉滿過分嗎?

      影視情報室
      2026-05-18 00:19:09
      太牛!成都蓉城胸前廣告賣出超1000萬歐:排進意甲前5位

      太牛!成都蓉城胸前廣告賣出超1000萬歐:排進意甲前5位

      邱澤云
      2026-05-18 15:02:52
      2026-05-19 02:04:49
      人工智能學家 incentive-icons
      人工智能學家
      人工智能領域權威媒體
      4744文章數 37464關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      賴清德要求美國繼續向臺出售武器 外交部表態

      頭條要聞

      賴清德要求美國繼續向臺出售武器 外交部表態

      體育要聞

      58順位的保羅,最強第三中鋒

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      中國芯片,怎么突然不便宜了?

      汽車要聞

      40.98萬起!充電5分鐘純電續航420km 騰勢N9閃充版勝算有多少?

      態度原創

      房產
      時尚
      教育
      數碼
      藝術

      房產要聞

      突發!??谥匕跽{規!碧桂園要解套;新埠島要起飛了!

      夏天別總穿黑衣黑褲,這幾款格紋單品也很實用,百搭又高級

      教育要聞

      新鮮出爐!今年各區公辦高中招生計劃變化匯總!

      數碼要聞

      索尼十周年紀念耳機The ColleXion曝光 設計全面奢華升級

      藝術要聞

      震驚!日本80后畫家畫少女,超寫實美到窒息!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 麻花传媒剧电影| 国产精品久久香蕉免费播放| www国产成人免费观看视频| 日韩在线欧美| 中文字幕无码视频手机免费看| 国产在线98福利播放视频免费| 亚洲欧美综合| 人妻系列无码专区69影院| 国产卡一卡二卡三免费入口| 久久国产国内精品国语对白| 狠狠人妻久久久久久综合| 欧美一区二区三区在线观看| 丰满多毛的大隂户视频| 亚洲国产色一区二区三区| 精品乱码一区二区三四五区| 在线精品动漫一区二区无码| 婷婷伊人綜合中文字幕小说| 亚洲男人AV香蕉爽爽爽爽| 亚洲视频在线观看网站| 久久精品蜜芽亚洲国产av| 日本边添边摸边做边爱| 亚洲AV成人无码久久精品黑人| 狠狠色丁香婷婷综合尤物| 欧美日韩成人网站 | 丰满少妇人妻久久久久久| 国产黄色带三级在线观看| 人妻日韩精品中文字幕| 色播婷婷影音先锋| 西丰县| 亚洲国产欧美国产第一区二区三区| 日韩一欧美内射在线观看| 18禁亚洲一区二区三区| 成人无码潮喷在线观看| 久久香蕉国产线看观看亚洲卡| 色亚洲成人| aⅴ色综合久久天堂av色综合| 爰上碰23在线视频| 国产成人精品免费视频大全| 久久精品激情亚洲一二区| 午夜国产精品福利一二| 年日韩激情国产自偷亚洲|