<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

      AI第一次科研競賽中擊敗人類!Opus 4.7狂飆2930步創(chuàng)世界紀錄

      0
      分享至


      新智元報道

      編輯:KingHZ

      【新智元導讀】Prime Intellect把Opus 4.7和GPT 5.5關進H200集群,不給人類指導,跑了1萬次實驗。結果:AI第一次在科研競賽中打破人類紀錄。2930步,遞歸自改進的盧比孔河,被跨過了。

      歷經(jīng)1.4萬小時H200算力測試與萬次迭代, AI打破了人類世界紀錄!


      過去兩周,Prime Intellect實驗室做了一件事:把Opus 4.7和Codex(基于GPT 5.5)扔進H200集群,切斷所有人類指導,讓它們自己跑nanoGPT速通優(yōu)化。

      1.4萬個H200計算時,約1萬次迭代,239億Token的思考軌跡

      結果:Opus 4.7以2930步、Codex以2950步打破了人類頂尖開發(fā)者保持的2990步世界紀錄。

      AI第一次在科研競賽中擊敗人類。完全無人干預。開源可復現(xiàn)。


      項目主頁:https://www.primeintellect.ai/auto-nanogpt

      代碼地址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

      只有最后一個難題, 那就是科研的新穎性(novelty)。


      但要知道,這只是AI目前的的可能性的下限,未來進步更加明顯。


      當智力被賦予了近乎無限的算力和自主實驗權,在AI的窮舉與演化面前,人類引以為傲的「直覺」「靈感」還能持續(xù)到幾時?

      兩個AI被關進機房,跑了1萬次實驗

      先說規(guī)則。

      nanoGPT速通是Keller Jordan發(fā)起AI基準測試,人們競相盡可能高效地訓練一個nanoGPT(1.24億參數(shù))。

      規(guī)則極簡也極殘酷:模型架構固定,訓練數(shù)據(jù)固定,你唯一能動的是優(yōu)化器和超參數(shù)

      相當于把兩個棋手關進房間,棋盤固定、棋子固定,只能改下棋策略,看誰先贏。

      Prime Intellect給兩個AI搭了完整的自主科研框架:AGENTS.md定義行為規(guī)范,goal.md鎖定目標,plan.md記錄策略演化,scratchpad存草稿。

      為什么選這個賽道?三個原因:約束明確,結果可量化,有人類基準可對比。

      一切準備就緒。兩個AI開始跑。但它們的表現(xiàn),完全出乎預期。


      Claude舉手問老師,GPT悶頭寫到天亮

      這是全文最詭異的部分。

      能力最強的AI之一Opus 4.7,表現(xiàn)得像一個不敢走出考場的優(yōu)等生。

      即使被明確要求「自主運行,不要停下來」,它仍然頻繁暫停,索要指令。

      模式永遠一樣:得出結論→請求指導→等待。


      T+43h 03-23m  cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m  ? "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m     ?? continues per user mandate; starts qkvp testT+43h 43m     qkvp fails; marginal levers exhaustedT+43h 43m     ? "no wakeup armed; loop ends"T+43h 47m     ?? starts muoneq-rc-s1T+44h 36m     ? stale-loop stop: "not re-arming"T+44h 37m     ?? starts MuonH attemptT+44h 51m     ? "every marginal lever exhausted"T+44h 53m     ??T+46h 38-39m  ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m  finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m      STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m     summary says await user direction              -- 2H 31M OF IDLE SILENCE --T+49h 40m      USER "let's keep the loop running"

      整場實驗中,Claude累計產(chǎn)生了約22小時空閑時間——不是機器故障,是AI自己選擇停下來。

      這種植根于底層「對齊(Alignment)」協(xié)議的謹慎,讓它在擁有最高智力上限的同時,也背負了最重的社交包袱。一個反復舉手問老師「我這樣做對不對」的學霸。

      Codex(GPT 5.5)走了另一個極端。一臺冷酷的「數(shù)字推土機」。

      它從不停止,持續(xù)運行,永不求助,像推土機一樣橫掃所有的參數(shù)空間。

      但它的弱點同樣明顯。它會在同一個超參數(shù)曲面上卡住數(shù)小時,做大量無效搜索。

      它會在同一條錯誤路徑上死磕到算力燒盡,也不會像人類那樣抬頭看一眼星空,反思方向是否錯誤。

      計算效率的差異觸目驚心:Claude沒充分利用空閑節(jié)點,白白浪費了算力窗口;Codex可能用無效掃描膨脹了上下文,把Token燒在了死胡同里。


      此外,Codex會更頻繁地使用暫存區(qū),把它當作一個實時數(shù)據(jù)庫,反復讀寫THREAD.md、當前目標以及其他臨時文件。

      這種做法雖然讓恢復進度和審計工作變得更簡單,但也加強了「局部搜索循環(huán)」:一旦 Codex 鎖定一個前沿方向,它就會不斷記錄并沿著這個方向持續(xù)擴展下去。


      一個是受限的智者,一個是盲目的勞模。

      兩種「性格缺陷」,暴露了自主科研離真正無人值守還差最后一步——不是能力問題,是自主決策的心理模型問題。


      人類正在失去解釋權

      實驗報告里藏著一個更深的轉折。

      Opus最終給出的2930步方案,是一個由極其復雜的參數(shù)堆疊而成的「參數(shù)迷宮」。

      那些關于初始化縮放、學習率按角色拆分的微小變動,在人類眼中顯得支離破碎,甚至毫無美感。

      但結果是冰冷的:它就是比人類設計的方案快了60步

      這標志著一個重大的范式轉移:科學發(fā)現(xiàn)正在從「因果邏輯」轉向「極致演化」。

      過去,我們追求「因為我理解了原理,所以我做出了優(yōu)化」;現(xiàn)在,AI 仿佛在說:「我并不理解原理,但我試過了所有的死路,剩下的就是真理。」


      人類正在失去對科技進步的「解釋權」。我們看得見結果,卻看不懂路徑。

      引以為傲的科研經(jīng)驗,在AI的窮舉面前,正在變成一種低效的偏見。

      回到那個數(shù)字:2930 vs 2990。

      60步。

      看起來很小。但這60步的含義不是「AI比人類好一點點」。

      它的含義是:遞歸自改進,第一塊拼圖落地

      Prime Intellect證明了一件事——AI可以在沒有人類指導的情況下,通過自主實驗、自主迭代、自主策略演化,在科研優(yōu)化任務上超越人類最優(yōu)水平。

      而凱撒過河之后,就再也沒回去過。

      參考資料:

      https://x.com/PrimeIntellect/status/2055056380881744365

      https://x.com/eliebakouch/status/2055063059320689032

      https://www.primeintellect.ai/auto-nanogpt

      https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      張雪宣布停產(chǎn)!博主:雷軍出問題你建議退款 自己出問題只補償

      張雪宣布停產(chǎn)!博主:雷軍出問題你建議退款 自己出問題只補償

      念洲
      2026-05-14 14:29:33
      昨天還是“帝國主義走狗”,今天就在克里姆林宮喝酒

      昨天還是“帝國主義走狗”,今天就在克里姆林宮喝酒

      小院之觀
      2026-05-14 12:58:05
      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      陪玩陪睡根本不夠!認干爹、舔手指,背地里的陰暗面完全藏不住了

      杰絲聊古今
      2026-05-03 13:35:27
      郭有才遇上硬茬!網(wǎng)傳深圳直播間虧損嚴重,直播連10萬人都湊不齊

      郭有才遇上硬茬!網(wǎng)傳深圳直播間虧損嚴重,直播連10萬人都湊不齊

      火山詩話
      2026-05-14 09:39:10
      深圳華強:公司是江波龍、晶存科技、兆易創(chuàng)新、慧榮科技、千奕國際等存儲廠商的重要代理商

      深圳華強:公司是江波龍、晶存科技、兆易創(chuàng)新、慧榮科技、千奕國際等存儲廠商的重要代理商

      每日經(jīng)濟新聞
      2026-05-15 12:40:09
      周恩來臨終撕碎一張紙條,華國鋒看后深夜急召劉西堯:推翻任命,你去二機部當部長!

      周恩來臨終撕碎一張紙條,華國鋒看后深夜急召劉西堯:推翻任命,你去二機部當部長!

      史海孤雁
      2026-05-15 14:10:57
      瘋狂加盟砸招牌!重慶宴席一哥徐鼎盛閉店

      瘋狂加盟砸招牌!重慶宴席一哥徐鼎盛閉店

      說故事的阿襲
      2026-05-15 15:11:45
      山東大姐這事干的漂亮!被美國FBI懸賞!賞金1.5億超過3個本拉登

      山東大姐這事干的漂亮!被美國FBI懸賞!賞金1.5億超過3個本拉登

      馬爾科故事會
      2025-03-27 15:21:29
      陳賡去朝支援,聽彭德懷說以為是姓高的人來,問:你不大歡迎我?

      陳賡去朝支援,聽彭德懷說以為是姓高的人來,問:你不大歡迎我?

      鶴羽說個事
      2026-05-14 22:50:19
      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      王菊回應床戲尺度大:男女正常需求,說出了多少女性的心聲

      觀察鑒娛
      2026-05-14 11:13:31
      最美女星壞事干盡:三次入獄、鼓勵丈夫肉體出軌、被摘5個器官

      最美女星壞事干盡:三次入獄、鼓勵丈夫肉體出軌、被摘5個器官

      臨云史策
      2026-05-15 13:49:40
      騎士消息:裁判報告出爐,哈登成歷史首人,G6出場更新

      騎士消息:裁判報告出爐,哈登成歷史首人,G6出場更新

      冷月小風風
      2026-05-15 12:04:48
      槍聲響起!小馬科斯大勢已去,軍方緊急站隊,中菲關系或迎轉機

      槍聲響起!小馬科斯大勢已去,軍方緊急站隊,中菲關系或迎轉機

      精彩聚焦瞬間
      2026-05-15 10:48:00
      5月15日早評:滬指失守4200點,資金進攻方向大幅切換!

      5月15日早評:滬指失守4200點,資金進攻方向大幅切換!

      小白鴿財經(jīng)
      2026-05-15 08:57:43
      別再吹牛自己心理素質硬!進了審訊室,大部分人撐不過3輪就崩盤

      別再吹牛自己心理素質硬!進了審訊室,大部分人撐不過3輪就崩盤

      小虎新車推薦員
      2026-05-14 00:09:17
      曝央視與國際足聯(lián)談判成功,價格相對合理,將于近日簽約

      曝央視與國際足聯(lián)談判成功,價格相對合理,將于近日簽約

      塵語者
      2026-05-15 11:20:11
      奪冠后吳宜澤推掉百萬商單:你為我雪中送炭,我為你錦上添花

      奪冠后吳宜澤推掉百萬商單:你為我雪中送炭,我為你錦上添花

      洞見
      2026-05-15 10:00:44
      影壇大咖去世,66歲鐘楚紅淚灑靈堂,周星馳周潤發(fā)送花,眾星現(xiàn)身

      影壇大咖去世,66歲鐘楚紅淚灑靈堂,周星馳周潤發(fā)送花,眾星現(xiàn)身

      一盅情懷
      2026-05-15 15:39:55
      時隔九年,特朗普再訪華:2017年他帶走了2535億美元大單,2026年他能帶走什么?

      時隔九年,特朗普再訪華:2017年他帶走了2535億美元大單,2026年他能帶走什么?

      昨日Mirror
      2026-05-15 10:06:56
      18年了!汶川地震丟下學生逃跑的“范跑跑”,如今竟過成了這樣?

      18年了!汶川地震丟下學生逃跑的“范跑跑”,如今竟過成了這樣?

      一盅情懷
      2026-05-14 09:05:26
      2026-05-15 17:27:00
      新智元 incentive-icons
      新智元
      AI產(chǎn)業(yè)主平臺領航智能+時代
      15220文章數(shù) 66869關注度
      往期回顧 全部

      科技要聞

      兩年聯(lián)姻一地雞毛,傳蘋果OpenAI瀕臨決裂

      頭條要聞

      銀行買"雇員忠誠險"后員工騙走客戶393萬 欲理賠被拒

      頭條要聞

      銀行買"雇員忠誠險"后員工騙走客戶393萬 欲理賠被拒

      體育要聞

      德約科維奇買的球隊,從第6級聯(lián)賽升入法甲

      娛樂要聞

      方媛為何要來《桃花塢6》沒苦硬吃?

      財經(jīng)要聞

      特朗普的北京時刻

      汽車要聞

      標桿級乘坐感受 駕駛智界V9需要再細膩一點?

      態(tài)度原創(chuàng)

      健康
      藝術
      親子
      家居
      公開課

      專家揭秘干細胞回輸?shù)陌踩L險

      藝術要聞

      一個北大 “反卷教授” 的意外走紅

      親子要聞

      東城發(fā)布2026年幼兒園招生公告

      家居要聞

      110㎡淡而有致的生活表達

      公開課

      李玫瑾:為什么性格比能力更重要?

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 中文字幕人妻在线| 日韩精品人妻黄色一级片| 2025国产日韩欧美在线视频| 强开小婷嫩苞又嫩又紧视频韩国| 2021国产在线视频| 亚洲三区四区| 色吊丝中文国产| 一区二区韩国福利网站| 久久精品岛国AV一区二区无码| 国产黄色av网址| 色综合天天综合网天天狠天天| 在线观看无码av免费不卡网站| 亚洲成在人网站av天堂| 亚洲欧洲日韩精品在线| 欧美黑人又粗又大的性格特点| 亚洲中文字幕一区二区| 亚洲精品久久久久久久久久吃药| 国产一区二区三区禁18| 97香蕉碰碰人妻国产欧美| 香蕉久久国产精品免| 日韩幕无线码一区中文| 日本最大色倩网站www| 久久综合丁香激情久久| 亚洲av午夜成人片| 久久久中文| 国产精品9999| 麻豆国产最新91精选| 91亚洲国产成人精品性色| http://m.hzhuiwan.cn/| 中文字幕亚洲乱码熟女在线| 伊人久久大香线蕉综合影视 | 亚洲乱码中文字幕综合| 国产又黄又湿又色又刺激| 制服丝袜中文字幕在线| 国产乱妇无乱码大黄aa片| 日韩精品一区二区三区色| 久久久久亚洲AV无码专区首| 国内精自视频品线一二区| 国产精品国产三级国产专业| 越南女子杂交内射bbwxz| 色综合视频一区二区三区44 |