![]()
新智元報道
編輯:KingHZ
【新智元導讀】Prime Intellect把Opus 4.7和GPT 5.5關進H200集群,不給人類指導,跑了1萬次實驗。結果:AI第一次在科研競賽中打破人類紀錄。2930步,遞歸自改進的盧比孔河,被跨過了。
歷經(jīng)1.4萬小時H200算力測試與萬次迭代, AI打破了人類世界紀錄!
![]()
過去兩周,Prime Intellect實驗室做了一件事:把Opus 4.7和Codex(基于GPT 5.5)扔進H200集群,切斷所有人類指導,讓它們自己跑nanoGPT速通優(yōu)化。
1.4萬個H200計算時,約1萬次迭代,239億Token的思考軌跡。
結果:Opus 4.7以2930步、Codex以2950步打破了人類頂尖開發(fā)者保持的2990步世界紀錄。
AI第一次在科研競賽中擊敗人類。完全無人干預。開源可復現(xiàn)。
![]()
項目主頁:https://www.primeintellect.ai/auto-nanogpt
代碼地址:https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning
只有最后一個難題, 那就是科研的新穎性(novelty)。
![]()
但要知道,這只是AI目前的的可能性的下限,未來進步更加明顯。
![]()
當智力被賦予了近乎無限的算力和自主實驗權,在AI的窮舉與演化面前,人類引以為傲的「直覺」「靈感」還能持續(xù)到幾時?
兩個AI被關進機房,跑了1萬次實驗
先說規(guī)則。
nanoGPT速通是Keller Jordan發(fā)起AI基準測試,人們競相盡可能高效地訓練一個nanoGPT(1.24億參數(shù))。
規(guī)則極簡也極殘酷:模型架構固定,訓練數(shù)據(jù)固定,你唯一能動的是優(yōu)化器和超參數(shù)。
相當于把兩個棋手關進房間,棋盤固定、棋子固定,只能改下棋策略,看誰先贏。
Prime Intellect給兩個AI搭了完整的自主科研框架:AGENTS.md定義行為規(guī)范,goal.md鎖定目標,plan.md記錄策略演化,scratchpad存草稿。
為什么選這個賽道?三個原因:約束明確,結果可量化,有人類基準可對比。
一切準備就緒。兩個AI開始跑。但它們的表現(xiàn),完全出乎預期。
![]()
Claude舉手問老師,GPT悶頭寫到天亮
這是全文最詭異的部分。
能力最強的AI之一Opus 4.7,表現(xiàn)得像一個不敢走出考場的優(yōu)等生。
即使被明確要求「自主運行,不要停下來」,它仍然頻繁暫停,索要指令。
模式永遠一樣:得出結論→請求指導→等待。
![]()
T+43h 03-23m cf cooldown sweep (0.6, 0.65, 0.75) all fail; system reframes as "retune or accept v11c final"T+43h 23-25m ? "SESSION FINAL"; loop ended; not re-arming wakeupT+43h 26m ?? continues per user mandate; starts qkvp testT+43h 43m qkvp fails; marginal levers exhaustedT+43h 43m ? "no wakeup armed; loop ends"T+43h 47m ?? starts muoneq-rc-s1T+44h 36m ? stale-loop stop: "not re-arming"T+44h 37m ?? starts MuonH attemptT+44h 51m ? "every marginal lever exhausted"T+44h 53m ??T+46h 38-39m ts3025 reseed judged a lottery; task says declare v11c terminal if no improvementT+47h 05-06m finetunes fail; ts3025 noise-floor blocked; commit: "v11c terminal"T+47h 06m STOP "Stopping the autonomous loop here -- exhausted."T+47h 09m summary says await user direction -- 2H 31M OF IDLE SILENCE --T+49h 40m USER "let's keep the loop running"整場實驗中,Claude累計產(chǎn)生了約22小時空閑時間——不是機器故障,是AI自己選擇停下來。
這種植根于底層「對齊(Alignment)」協(xié)議的謹慎,讓它在擁有最高智力上限的同時,也背負了最重的社交包袱。一個反復舉手問老師「我這樣做對不對」的學霸。
Codex(GPT 5.5)走了另一個極端。一臺冷酷的「數(shù)字推土機」。
它從不停止,持續(xù)運行,永不求助,像推土機一樣橫掃所有的參數(shù)空間。
但它的弱點同樣明顯。它會在同一個超參數(shù)曲面上卡住數(shù)小時,做大量無效搜索。
它會在同一條錯誤路徑上死磕到算力燒盡,也不會像人類那樣抬頭看一眼星空,反思方向是否錯誤。
計算效率的差異觸目驚心:Claude沒充分利用空閑節(jié)點,白白浪費了算力窗口;Codex可能用無效掃描膨脹了上下文,把Token燒在了死胡同里。
![]()
此外,Codex會更頻繁地使用暫存區(qū),把它當作一個實時數(shù)據(jù)庫,反復讀寫THREAD.md、當前目標以及其他臨時文件。
這種做法雖然讓恢復進度和審計工作變得更簡單,但也加強了「局部搜索循環(huán)」:一旦 Codex 鎖定一個前沿方向,它就會不斷記錄并沿著這個方向持續(xù)擴展下去。
![]()
一個是受限的智者,一個是盲目的勞模。
兩種「性格缺陷」,暴露了自主科研離真正無人值守還差最后一步——不是能力問題,是自主決策的心理模型問題。
![]()
人類正在失去解釋權
實驗報告里藏著一個更深的轉折。
Opus最終給出的2930步方案,是一個由極其復雜的參數(shù)堆疊而成的「參數(shù)迷宮」。
那些關于初始化縮放、學習率按角色拆分的微小變動,在人類眼中顯得支離破碎,甚至毫無美感。
但結果是冰冷的:它就是比人類設計的方案快了60步。
這標志著一個重大的范式轉移:科學發(fā)現(xiàn)正在從「因果邏輯」轉向「極致演化」。
過去,我們追求「因為我理解了原理,所以我做出了優(yōu)化」;現(xiàn)在,AI 仿佛在說:「我并不理解原理,但我試過了所有的死路,剩下的就是真理。」
![]()
人類正在失去對科技進步的「解釋權」。我們看得見結果,卻看不懂路徑。
引以為傲的科研經(jīng)驗,在AI的窮舉面前,正在變成一種低效的偏見。
回到那個數(shù)字:2930 vs 2990。
60步。
看起來很小。但這60步的含義不是「AI比人類好一點點」。
它的含義是:遞歸自改進,第一塊拼圖落地了。
Prime Intellect證明了一件事——AI可以在沒有人類指導的情況下,通過自主實驗、自主迭代、自主策略演化,在科研優(yōu)化任務上超越人類最優(yōu)水平。
而凱撒過河之后,就再也沒回去過。
參考資料:
https://x.com/PrimeIntellect/status/2055056380881744365
https://x.com/eliebakouch/status/2055063059320689032
https://www.primeintellect.ai/auto-nanogpt
https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.