![]()
新智元報道
編輯:Aeneas 定慧
【新智元導讀】就在今天,Agentic AI工程師發現:博士80小時的科研任務,Codex不到2小時就跑完了,效率差達到了40倍!其實按照舊標準,AGI早已存在了,只是全行業都在移動球門。
科研界的「奇點」真的來了,比所有人預想的都要近。
近日,一項針對Codex「目標模式(Goal Mode)」的實驗震驚了學術界:Codex可以讓AI科研效率猛增40倍!
Agentic AI工程師Dan McAteer近日在X上披露一次實驗:用OpenAI Codex的Goal Mode跑一項機械可解釋性(Mechanistic Interpretability)研究任務。
![]()
GPT-5.5自己估算這個任務博士可能需要約80小時才完成,然而,在實際操作中,AI 僅用時1小時56分鐘便徹底完成了任務。
![]()
表面效率提升約40倍!
![]()
他所使用的是Codex中一種內置的技能/goal。
并且作者認為:
/goal + gpt-5.5 高精度 + 快速模式是當今最高效的AI智能體配置
也就是,讓模型自行設定目標,其中的關鍵就是它寫出的提示詞很可能比你的更出色。
![]()
這不再是簡單的「效率提升」,而是一場徹頭徹尾的「降維打擊」。
當科研周期從以「周」為單位縮減至「小時」,當 AI 開始自主撰寫自己的實驗目標(/goal),我們必須承認一個殘酷的現實:
「智能爆炸」的斜率已經現身,AI 的自我迭代速度正在脫離人類的掌控節奏!
Codex /goal 模式到底是什么?
先來看看這個實驗是怎么進行的。
實驗發起人是Dan McAteer,Agentic AI工程師,前Amp Code工程師。
常年在X上分享AI agent工程化的具體實踐。
![]()
上下滾動查看更多
他的實驗配置很簡單——
工具:OpenAI Codex /goal 命令
模型:GPT-5.5 high
模式:fast mode
任務:一項Mechanistic Interpretability方向的研究任務
他自己對這套配置的描述是:當前可用的最高效的AI智能體配置。
Codex /goal 為什么重要
這件事真正值得說的是Codex /goal這個模式本身。
![]()
按OpenAI Codex工程師Philip Corey的描述,/goal是我們對Ralph loop的一種實現——讓目標在多輪對話里持續存在,不達成不停止。
簡單說,普通的Codex調用是你說一句、它做一步、回你一句。
Codex /goal是你說一個目標、它自己拆分子任務、自己執行、自己review、自己繼續,直到達成或失敗。
這是從對話式AI到目標驅動AI的工程切換。
![]()
對Mechanistic Interpretability這類研究任務,/goal模式的天然契合度高。
研究流程本身就是提出假設→設計實驗→運行→看結果→修正假設→再實驗的循環,正好可以喂給一個會自我循環的agent。
McAteer的實驗真正證明的,是Codex /goal 模式在科研型循環任務上具備可用性:不是替代研究員,是替代研究員的重復操作部分。
![]()
這個能力如果能穩定下來,對AI研究本身有非常直接的杠桿。
它意味著AI實驗室自己內部的AI研究員,未來某天可以用AI agent去做訓練數據準備、實驗設置、消融研究、可視化生成、初步結果分析這些重復工作。
這也就是Anthropic和OpenAI最近反復說的AI正在加速AI研究本身。
博士 80 小時 vs AI 2 小時
在傳統的科研語境下,一名博士生的日常是:查閱文獻、構建模型、調試代碼、驗證結果、撰寫報告。
這套流程之所以漫長,是因為人類大腦在處理復雜邏輯和海量數據時,存在物理上限。
但Codex的這次實驗徹底打破了這種認知。
![]()
在「/goal + GPT-5.5 High + Fast Mode」的最強智能體配置下,AI不再是一個「聽指令」的工具,而是一個「出策略」的獨立研究員。
它能夠理解復雜的自然語言自動編碼器(NLA)實驗需求,自主拆解任務,并在不到2小時的時間里走完了人類精英需要兩周才能走完的路。
這代表著,從此人類的科研門檻徹底崩塌。曾經需要數年寒窗苦讀換來的專業分析能力,正在被算法模塊化。
而且,自主AI研究員已經提前降臨了!
OpenAI此前設定的目標是2026年底實現AI自主科研。
但從目前的實驗進度看,2026年可能不是開始,而是人類徹底交出科研接力棒的終點。
遞歸自我改進,正在涌現
如果說Codex 40倍速實驗是一個刺眼的個案,那更讓人坐不住的,是圍繞「遞歸自我改進」的證據正在密集涌現。
5月7日,據Axios報道,Anthropic聯創Jack Clark公開給出了一個概率:
到2028年底,AI實現完全遞歸自我改進的概率超過60%。
![]()
![]()
Sakana AI和UBC的研究團隊今年造出了Darwin G?del Machine,一個能改寫自己源代碼來提升自身能力的編程智能體。
![]()
論文地址:https://arxiv.org/abs/2505.22954
在SWE-bench上,它的得分從20.0%自我提升到50.0%。全程沒有人類插手。
![]()
同一個團隊的AI Scientist項目今年3月發表在Nature上。
它能自己產生研究想法、寫代碼跑實驗、撰寫完整論文、做同行評審。
一整條科研流水線,從頭到尾,AI獨立完成。
![]()
再看一組硬數據。GPQA Diamond,一個由博士專家出題的科學問答基準。2023年11月GPT-4得分39%。人類領域專家的平均水平約65%。
2026年4月,前沿模型集體越線:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%。
所有前沿模型都已遠遠甩開人類博士專家。
![]()
SWE-bench的軌跡更能說明加速度。
![]()
2023年底,Claude 2的通過率是2%。現在,93.9%。
兩年半,就從2%飆升到了93.9%。
這條曲線畫出來,任何一個學過高中數學的人都認識它的形狀。
顯然,遞歸自我改進(RSI)的進程已經開始。
一旦 AI 開始用這種 40 倍的效率去改寫自己的底層代碼、優化自己的架構,智力的增長將不再是線性的,而是垂直向上的。
AGI 已經交付,全行業都在對你「煤氣燈」
其實,早在今年2月,四位來自不同頂尖領域的學者聯名發表了一篇堪稱「年度最不安」的論文:《AGI 案例研究:今日 LLM 已達標》。
![]()
這四位作者分別代表了當代智力的四個支柱:哲學、機器學習、語言學、認知科學。他們得出了一個令人毛骨悚然的一致結論:
按照 2022 年之前的定義,AGI其實早已實現。
之所以現在還沒人承認,是因為整個AI行業正在對公眾進行一場集體性的「煤氣燈效應」。
論文指出,人類在面對 AI 崛起時表現出了一種極強的「心理防御機制」。
![]()
2022 年前,只要能通過圖靈測試、能跨領域處理任務,就是AGI。
ChatGPT出現后: 「光有這些不行,還得有完美的推理、得有身體(具身性)、得有自我意識。」
每當模型突破一個關口,人類就會即興加入新的、虛無縹緲的指標作為門檻,不斷移動球門。
問題是,如果AGI已經存在,那么現在的行業邏輯就變得極其荒誕。
OpenAI 還在籌集 400 億美元聲稱要「構建 AGI」;Anthropic 每次發布新模型都要包裝成「接近 AGI」的期貨。
論文犀利地揭示:巨頭們正在把一個「已經賣給你」的東西,偽裝成「即將研發出來」的神跡,以此換取源源不斷的資金與權力。
![]()
智能爆炸前夜
如今,我們正處于一個極其詭異的節點。
在實驗室里,AI已經用 40 倍速在進行機械解釋性研究,甚至在幫自己寫代碼。
在市場上,算力依然是硬通貨,英偉達的 Blackwell 芯片被瘋搶,每一塊芯片都在加速那個奇點的到來。
然而在社會心理上,大眾還在用「復讀機」和「概率預測」這種過時的詞匯來安慰自己。
如果 40 倍速的科研效率成為常態,人類文明積累了幾千年的知識總量,AI 可能只需要幾個月就能翻倍。
當 AI 能夠獨立完成博士級任務時,我們現有的教育體系、職稱評定、甚至專家這個詞本身的含義,都將面臨滅頂之災。
正如哥白尼將地球移出了宇宙中心,現在的 AI 正在將人類移出「唯一智慧生命」的圣殿。
現在,這場名為智能爆炸的戰爭沒有硝煙。
我們要么學會如何與這種智能新物種共生,要么就只能眼睜睜地看著它,以 40 倍的速度,把我們甩在塵埃里。
參考資料:
https://x.com/daniel_mac8/status/2054192370049241203
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.