<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      博士80小時熬夜改代碼,Codex 2小時交卷!科研奇點來了

      0
      分享至


      新智元報道

      編輯:Aeneas 定慧

      【新智元導讀】就在今天,Agentic AI工程師發現:博士80小時的科研任務,Codex不到2小時就跑完了,效率差達到了40倍!其實按照舊標準,AGI早已存在了,只是全行業都在移動球門。

      科研界的「奇點」真的來了,比所有人預想的都要近。

      近日,一項針對Codex「目標模式(Goal Mode)」的實驗震驚了學術界:Codex可以讓AI科研效率猛增40倍!

      Agentic AI工程師Dan McAteer近日在X上披露一次實驗:用OpenAI Codex的Goal Mode跑一項機械可解釋性(Mechanistic Interpretability)研究任務。


      GPT-5.5自己估算這個任務博士可能需要約80小時才完成,然而,在實際操作中,AI 僅用時1小時56分鐘便徹底完成了任務。


      表面效率提升約40倍!


      他所使用的是Codex中一種內置的技能/goal

      并且作者認為:

      /goal + gpt-5.5 高精度 + 快速模式是當今最高效的AI智能體配置

      也就是,讓模型自行設定目標,其中的關鍵就是它寫出的提示詞很可能比你的更出色。


      這不再是簡單的「效率提升」,而是一場徹頭徹尾的「降維打擊」。

      當科研周期從以「周」為單位縮減至「小時」,當 AI 開始自主撰寫自己的實驗目標(/goal),我們必須承認一個殘酷的現實:

      「智能爆炸」的斜率已經現身,AI 的自我迭代速度正在脫離人類的掌控節奏!

      Codex /goal 模式到底是什么?

      先來看看這個實驗是怎么進行的。

      實驗發起人是Dan McAteer,Agentic AI工程師,前Amp Code工程師。

      常年在X上分享AI agent工程化的具體實踐。


      上下滾動查看更多

      他的實驗配置很簡單——


      • 工具:OpenAI Codex /goal 命令

      • 模型:GPT-5.5 high

      • 模式:fast mode

      • 任務:一項Mechanistic Interpretability方向的研究任務


      他自己對這套配置的描述是:當前可用的最高效的AI智能體配置。

      Codex /goal 為什么重要

      這件事真正值得說的是Codex /goal這個模式本身。


      按OpenAI Codex工程師Philip Corey的描述,/goal是我們對Ralph loop的一種實現——讓目標在多輪對話里持續存在,不達成不停止。

      簡單說,普通的Codex調用是你說一句、它做一步、回你一句。

      Codex /goal是你說一個目標、它自己拆分子任務、自己執行、自己review、自己繼續,直到達成或失敗。

      這是從對話式AI到目標驅動AI的工程切換。


      對Mechanistic Interpretability這類研究任務,/goal模式的天然契合度高。

      研究流程本身就是提出假設→設計實驗→運行→看結果→修正假設→再實驗的循環,正好可以喂給一個會自我循環的agent

      McAteer的實驗真正證明的,是Codex /goal 模式在科研型循環任務上具備可用性:不是替代研究員,是替代研究員的重復操作部分。


      這個能力如果能穩定下來,對AI研究本身有非常直接的杠桿。

      它意味著AI實驗室自己內部的AI研究員,未來某天可以用AI agent去做訓練數據準備、實驗設置、消融研究、可視化生成、初步結果分析這些重復工作。

      這也就是Anthropic和OpenAI最近反復說的AI正在加速AI研究本身。

      博士 80 小時 vs AI 2 小時

      在傳統的科研語境下,一名博士生的日常是:查閱文獻、構建模型、調試代碼、驗證結果、撰寫報告。

      這套流程之所以漫長,是因為人類大腦在處理復雜邏輯和海量數據時,存在物理上限。

      但Codex的這次實驗徹底打破了這種認知。


      /goal + GPT-5.5 High + Fast Mode的最強智能體配置下,AI不再是一個「聽指令」的工具,而是一個「出策略」的獨立研究員。

      它能夠理解復雜的自然語言自動編碼器(NLA)實驗需求,自主拆解任務,并在不到2小時的時間里走完了人類精英需要兩周才能走完的路。

      這代表著,從此人類的科研門檻徹底崩塌。曾經需要數年寒窗苦讀換來的專業分析能力,正在被算法模塊化。

      而且,自主AI研究員已經提前降臨了!

      OpenAI此前設定的目標是2026年底實現AI自主科研。

      但從目前的實驗進度看,2026年可能不是開始,而是人類徹底交出科研接力棒的終點。

      遞歸自我改進,正在涌現

      如果說Codex 40倍速實驗是一個刺眼的個案,那更讓人坐不住的,是圍繞「遞歸自我改進」的證據正在密集涌現。

      5月7日,據Axios報道,Anthropic聯創Jack Clark公開給出了一個概率:

      到2028年底,AI實現完全遞歸自我改進的概率超過60%。



      Sakana AI和UBC的研究團隊今年造出了Darwin G?del Machine,一個能改寫自己源代碼來提升自身能力的編程智能體。


      論文地址:https://arxiv.org/abs/2505.22954

      在SWE-bench上,它的得分從20.0%自我提升到50.0%。全程沒有人類插手。


      同一個團隊的AI Scientist項目今年3月發表在Nature上。

      它能自己產生研究想法、寫代碼跑實驗、撰寫完整論文、做同行評審。

      一整條科研流水線,從頭到尾,AI獨立完成。


      再看一組硬數據。GPQA Diamond,一個由博士專家出題的科學問答基準。2023年11月GPT-4得分39%。人類領域專家的平均水平約65%。

      2026年4月,前沿模型集體越線:Gemini 3.1 Pro得分94.3%,Claude Opus 4.7得分94.2%。

      所有前沿模型都已遠遠甩開人類博士專家。


      SWE-bench的軌跡更能說明加速度。


      2023年底,Claude 2的通過率是2%。現在,93.9%。

      兩年半,就從2%飆升到了93.9%。

      這條曲線畫出來,任何一個學過高中數學的人都認識它的形狀。

      顯然,遞歸自我改進(RSI)的進程已經開始。

      一旦 AI 開始用這種 40 倍的效率去改寫自己的底層代碼、優化自己的架構,智力的增長將不再是線性的,而是垂直向上的。

      AGI 已經交付,全行業都在對你「煤氣燈」

      其實,早在今年2月,四位來自不同頂尖領域的學者聯名發表了一篇堪稱「年度最不安」的論文:《AGI 案例研究:今日 LLM 已達標》。


      這四位作者分別代表了當代智力的四個支柱:哲學、機器學習、語言學、認知科學。他們得出了一個令人毛骨悚然的一致結論:

      按照 2022 年之前的定義,AGI其實早已實現。

      之所以現在還沒人承認,是因為整個AI行業正在對公眾進行一場集體性的「煤氣燈效應」。

      論文指出,人類在面對 AI 崛起時表現出了一種極強的「心理防御機制」。


      2022 年前,只要能通過圖靈測試、能跨領域處理任務,就是AGI。

      ChatGPT出現后: 「光有這些不行,還得有完美的推理、得有身體(具身性)、得有自我意識。」

      每當模型突破一個關口,人類就會即興加入新的、虛無縹緲的指標作為門檻,不斷移動球門。

      問題是,如果AGI已經存在,那么現在的行業邏輯就變得極其荒誕。

      OpenAI 還在籌集 400 億美元聲稱要「構建 AGI」;Anthropic 每次發布新模型都要包裝成「接近 AGI」的期貨。

      論文犀利地揭示:巨頭們正在把一個「已經賣給你」的東西,偽裝成「即將研發出來」的神跡,以此換取源源不斷的資金與權力。


      智能爆炸前夜

      如今,我們正處于一個極其詭異的節點。

      在實驗室里,AI已經用 40 倍速在進行機械解釋性研究,甚至在幫自己寫代碼。

      在市場上,算力依然是硬通貨,英偉達的 Blackwell 芯片被瘋搶,每一塊芯片都在加速那個奇點的到來。

      然而在社會心理上,大眾還在用「復讀機」和「概率預測」這種過時的詞匯來安慰自己。

      如果 40 倍速的科研效率成為常態,人類文明積累了幾千年的知識總量,AI 可能只需要幾個月就能翻倍。

      當 AI 能夠獨立完成博士級任務時,我們現有的教育體系、職稱評定、甚至專家這個詞本身的含義,都將面臨滅頂之災。

      正如哥白尼將地球移出了宇宙中心,現在的 AI 正在將人類移出「唯一智慧生命」的圣殿。

      現在,這場名為智能爆炸的戰爭沒有硝煙。

      我們要么學會如何與這種智能新物種共生,要么就只能眼睜睜地看著它,以 40 倍的速度,把我們甩在塵埃里。

      參考資料:

      https://x.com/daniel_mac8/status/2054192370049241203

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      博士肄業生把985院長拉下馬:同濟剛免職,又有三所高校被爆造假

      博士肄業生把985院長拉下馬:同濟剛免職,又有三所高校被爆造假

      妍妍教育日記
      2026-05-13 09:55:04
      不能二次加熱的6種食物!醫生提醒:吃不完或倒掉,別亂節儉

      不能二次加熱的6種食物!醫生提醒:吃不完或倒掉,別亂節儉

      冷眼看世界728
      2026-05-12 20:46:26
      沒錯,我就是“基本盤”

      沒錯,我就是“基本盤”

      星空區塊鏈
      2026-05-13 13:12:12
      女演員千萬別整容,看央視《主角》觀眾對秦海璐的評價,就懂了

      女演員千萬別整容,看央視《主角》觀眾對秦海璐的評價,就懂了

      陳述影視
      2026-05-11 23:58:30
      “摸奶子”惹爭議!OPPO的流量反噬開始了

      “摸奶子”惹爭議!OPPO的流量反噬開始了

      廣告創意
      2026-05-13 08:25:55
      特朗普專機即將飛向北京,噩耗傳出,他最不想看到的局面,出現了

      特朗普專機即將飛向北京,噩耗傳出,他最不想看到的局面,出現了

      共工之錨
      2026-05-13 11:59:55
      華南理工男生上課偷錄女生裙底:全程30分鐘,現場畫面,細節曝光

      華南理工男生上課偷錄女生裙底:全程30分鐘,現場畫面,細節曝光

      李晚書
      2026-05-13 18:02:04
      美國特勤局警衛或隨特朗普來華!他們能在中國境內隨身帶槍嗎?

      美國特勤局警衛或隨特朗普來華!他們能在中國境內隨身帶槍嗎?

      儒雅隨和老泰勒
      2026-05-13 17:19:37
      創業板歷史新高!外資集體重倉6家低價算力股,最高8元,最低5元

      創業板歷史新高!外資集體重倉6家低價算力股,最高8元,最低5元

      長風價值掘金
      2026-05-13 15:44:04
      A股:今天4242.57點,尾盤很明顯,明天,5月14日,很可能這樣走

      A股:今天4242.57點,尾盤很明顯,明天,5月14日,很可能這樣走

      虎哥閑聊
      2026-05-13 15:02:20
      閃婚閃離 千萬房產該怎么分?法院判了

      閃婚閃離 千萬房產該怎么分?法院判了

      北青網-北京青年報
      2026-05-13 15:12:10
      英偉達宣布黃仁勛隨特朗普訪華,最后一刻如何加入?

      英偉達宣布黃仁勛隨特朗普訪華,最后一刻如何加入?

      紅星新聞
      2026-05-13 11:47:14
      最新畫面!黃仁勛“趕上”正在加油的“空軍一號”,最后一刻登機!白宮回應:黃仁勛臨時更改行程,“就剛好安排上了”

      最新畫面!黃仁勛“趕上”正在加油的“空軍一號”,最后一刻登機!白宮回應:黃仁勛臨時更改行程,“就剛好安排上了”

      浙江之聲
      2026-05-13 12:58:57
      一個美國青年的中國情緣

      一個美國青年的中國情緣

      新華社
      2026-05-13 16:51:15
      外交部評日本幾十年來最大規模反戰抗議:重走軍國主義回頭路是不歸路

      外交部評日本幾十年來最大規模反戰抗議:重走軍國主義回頭路是不歸路

      澎湃新聞
      2026-05-13 15:30:26
      特朗普專機落地!抵達北京開啟訪華行程

      特朗普專機落地!抵達北京開啟訪華行程

      看看新聞Knews
      2026-05-13 20:44:02
      別只盯特朗普專機,魯比奧還是來了,釋放比訪問更重要的信號

      別只盯特朗普專機,魯比奧還是來了,釋放比訪問更重要的信號

      蘭妮搞笑分享
      2026-05-13 09:06:32
      U16國少3-2塔吉克斯坦U16迎二連勝,袁博涵傳射+造點,楊宸碩破門

      U16國少3-2塔吉克斯坦U16迎二連勝,袁博涵傳射+造點,楊宸碩破門

      懂球帝
      2026-05-13 21:34:35
      扎心!朋友孩子的班34人處于“零就業”狀態,引熱議

      扎心!朋友孩子的班34人處于“零就業”狀態,引熱議

      火山詩話
      2026-05-13 15:02:14
      上海警方通告:5月13日至5月19日,部分路段交通臨時管制

      上海警方通告:5月13日至5月19日,部分路段交通臨時管制

      上觀新聞
      2026-05-13 19:31:05
      2026-05-13 22:40:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15202文章數 66865關注度
      往期回顧 全部

      科技要聞

      騰訊一季度營收1964.6億元 同比增9%

      頭條要聞

      為杜特爾特家族出頭 菲參議員遭ICC通緝被困參院大樓

      頭條要聞

      為杜特爾特家族出頭 菲參議員遭ICC通緝被困參院大樓

      體育要聞

      14年半,74萬,何冰嬌沒選那條更安穩的路

      娛樂要聞

      白鹿掉20萬粉,網友為李晨鳴不平

      財經要聞

      美國總統特朗普抵達北京

      汽車要聞

      C級純電轎跑 吉利銀河"TT"申報圖來了

      態度原創

      家居
      親子
      房產
      手機
      旅游

      家居要聞

      內在自敘,無域有方

      親子要聞

      孤獨癥特教老師的工作,遠不止“教說話”! (上)

      房產要聞

      卷瘋了!最低殺到7字頭!手握30萬,海口樓市橫著走!

      手機要聞

      消息稱vivo Pocket手持云臺相機Q4發布,備貨預期百萬臺

      旅游要聞

      文旅視評|“串串游”走紅:解鎖“小而美”的文旅新風尚

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 国产精品大全中文字幕| www.99riav| 99热这里只有成人精品国产| 2021亚洲国产精品无码| 欧美性xxxx狂欢老少配| 狠狠狠色丁香婷婷综合久久俺| 日本肥老妇色xxxxx日本老妇| 亚洲一区在线观看青青蜜臀| 国产无遮挡又黄又爽在线视频| 国产精品00校花H视频| 亚洲欧美日韩成人高清在线一区 | 精品一区二区三区波多野结衣| 一本色道综合久久欧美日韩精品| 国产午夜51tv福利在线 | 国产一区二区三区小说| 中文字幕乱码中文乱码毛片| 欧美、另类亚洲日本一区二区| 95色色| 日本一区二区三区在线观看视频| 国产亚洲精品自在久久蜜TV| 超碰97人人天天蜜芽| 天天狠天天透天天伊人| 亚州AV一区二区| 国产精品高清视亚洲中文| 东京热一精品无码av| 欧美人与动人物牲交免费观看| 久热久精久品这里在线观看| 鲁一鲁色一色| 日本欧美一区二区免费视频| 99久久成人亚洲精品| 无码精品国产一区二区免费| av天堂午夜精品一区| 99久久精品午夜一区二区| 亚洲人成网网址在线看| 天色综合久久久久久久噜噜| 一区二区三区网址| 人人澡人人爽欧美一区| 久热re国产手机在线观看| 亚洲精品久久久久国产| 国产精品一品二区三四区| 成人A片在线观看|