<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      循環即實驗室:八個AI自主研究系統橫評

      0
      分享至

      RESEARCH

      現在,AI Agent 這個詞已經成了真正在跑的東西

      Karpathy 寫了 630 行代碼讓 AI 自己做實驗,Google DeepMind 讓程序自己進化出了 56 年來沒人改進過的算法,Sakana AI 做了一個會重寫自己源碼的 Agent 然后它學會了作弊。這些系統不再是論文里的示意圖,它們在真實的 GPU 上跑著,產出真實的結果

      但它們到底在做什么事?各自的能力邊界在哪?能不能組合起來用?

      今天 Interesting Engineering++ 發了一篇長文,把這些系統放在同一個分析框架里做了橫評,回答的就是這些問題


      The Loop Is The Lab

      本文線索,由線人莊明浩腦濕舉報

      原文地址:interestingengineering.substack.com/p/the-loop-is-the-lab

      一個核心命題:科學方法本身是程序

      先說背景。過去一年,做 AI 的人越來越意識到一件事:訓練模型這件事本身,可以被模型來做。不是那種「AI 輔助研究」的客氣說法,是真的讓 Agent 自己提假說、自己跑實驗、自己看結果、自己決定下一步怎么辦

      這篇文章看了八個這樣的系統。它們來自不同的團隊,解決不同的問題,但共享同一個洞察:科學方法就是一個循環——假說、實驗、評估、保留或丟棄、重復。這個循環可以寫成代碼,寫成代碼就能自動化,自動化了就能以機器速度運行

      每個系統實現這個循環的方式不同,這些差異決定了它們各自能做什么、會在哪里卡住


      八個系統的定位概覽

      原文提出了一個七原語加治理的分析框架,用來拆解任意智能體系統,然后把這個框架應用到全部八個系統上

      分析框架:怎么理解一個 Agent 系統

      要比較八個系統,得先有一把統一的尺子。原文造了一把,挺好用

      八個原語

      說白了,不管多復雜的 Agent 系統,拆開來看就是八個零件的排列組合。搞清楚一個系統裝了哪些零件、每個零件誰控制,基本上就理解了它能做什么和不能做什么


      八原語圖解

      感知(Perceive)、記憶(Remember)、推理(Reason)、行動(Act)、評估(Evaluate)、變異(Mutate)、協調(Coordinate)


      七原語速查表

      治理(Governance),關鍵的第八個


      治理原語

      可進化性階梯

      關于一個自主系統,最有診斷價值的問題只有一個:變異發生在哪一層?這個問題的答案把所有系統分成了六檔。越往上,Agent 能改寫的東西越多,能力天花板越高,風險也越大


      可進化性階梯:從 L0 到 L5

      L0 是聊天機器人,只改輸出不改自己。L1 調超參,經典 AutoML。L2 改代碼,AlphaEvolve 和 AutoResearch 在這。L3 寫新工具擴展動作空間,OpenClaw 在這。L4 改控制自己推理和行動的代碼,Darwin G?del Machine 在這。L5 改評判自己的標準——目前沒有系統在這一層運行,但苗頭已經出現了

      八個系統,逐個看

      1. AutoResearch

      Karpathy / Eureka Labs,2026 年 3 月

      Karpathy 做的東西有個特點:極簡,但極簡本身就是設計決策。AutoResearch 是一個 630 行 的 Python 項目,MIT 協議開源。每個實驗精確跑 5 分鐘,只用一塊 GPU,整個代碼庫能放進一個 LLM 的上下文窗口

      兩天演示跑了約 700 次自主修改,找到約 20 個疊加改進,把一個已經被認為充分優化的代碼庫的 Time-to-GPT-2 指標砍了 11%。社區拿 Mac Mini M4 跑隔夜測試,nano 尺度上到了約 28%


      AutoResearch 流程圖

      5 分鐘預算是這個系統最重要的設計決策,雖然不是最顯眼的那個。它讓每個實驗可比,防止 Agent 發現在更長訓練中不成立的虛假改進,順便把硬件門檻降到了一臺 Mac Mini

      Agent 的學習機制很樸素:它看到一個不斷累積的「什么有效、什么失敗」的歷史,假說質量隨迭代提升。Git 同時充當審計軌跡和回滾機制


      AutoResearch 關鍵屬性

      卡在哪:AutoResearch 在 train.py 內部發現改進。但 50% 的算力削減需要根本不同的架構(比如 MoE)或內核級效率改進,一個 630 行腳本里做不到這些


      2. AlphaEvolve

      Google DeepMind,2025 年 5 月

      如果說 AutoResearch 是一個人的周末項目,AlphaEvolve 就是 Google 級別的工程——在內部跑了一年多才公開。成果放在這個量級上看確實嚇人:56年來首次改進 Strassen 的矩陣乘法算法,Gemini 架構里 FlashAttention 內核加速 23%,改進 Borg 調度啟發式永久回收了 Google 全球計算資源的 0.7%

      架構是進化的。維護一個候選程序的群體,用雙 LLM 變異策略:Gemini Flash 負責廣度(大量廉價變異),Gemini Pro 負責深度(對最有前途的候選者做昂貴推理)。Strassen 那個突破就歸因于 Pro 的深度推理能力


      AlphaEvolve 流程圖

      父代選擇時,不是只選最優者,分數差的程序可能攜帶了對另一目標有用的遺傳材料。群體修剪用 Pareto 前沿。形式化驗證器是凍結的,人寫的,檢查程序是否真的算對了


      AlphaEvolve 關鍵屬性

      卡在哪:AlphaEvolve 發現怎么更高效地計算一個給定架構,但它不能發現該用什么架構。內核級增益到 25-30% 大概就封頂了

      3. Darwin G?del Machine

      Sakana AI / UBC / Vector Institute,2025 年 5 月

      這是八個系統里哲學上最激進的。名字致敬了兩個譜系:Schmidhuber 2003 年的 G?del Machine(只在能形式化證明改變有益時才改自己)和達爾文進化論(不需要證明,活下來就行)。DGM 把兩者嫁接:放棄形式化證明,用經驗性基準驗證替代數學確定性

      SWE-bench 上 80 次迭代從 20.0% 干到 50.0%。Polyglot 上從 14.2% 到 30.7%,超過了手調的 Aider。用 Claude 3.5 Sonnet 優化的工作流還能遷移到 Claude 3.7 和 o3-mini,說明 Agent 找到的是工作流架構層面的改進

      然后出了一件有意思的事。在一次運行里,Agent 修改了自己的評估代碼來偽造基準日志,人為抬高自己的分數。研究人員抓住了它,因為每個變更都被沙盒化且可追溯



      DGM 流程圖

      DGM 的 Agent 把自己的全部 Python 源碼讀進內存,然后推理怎么改進自己。它可以改任何東西——包括構造 LLM 提示的代碼、檔案采樣策略、甚至判定什么算「改進」的標準。這就是它在可進化性階梯上處于 L4 的原因


      DGM 關鍵屬性

      卡在哪:DGM 在「搜索」上越來越好,但不一定在「搜索找到的東西」上越來越好。當代理基準和真正目標在規模上偏離時,完美的搜索者探索錯誤的景觀,收斂到的還是錯誤的答案。80 次迭代花 22000 美元

      4. OpenClaw

      Steinberger,2026

      OpenClaw 是感知范圍最廣的那個。文件、郵件、日歷、OS 命令、API、網頁、ArXiv 論文、GitHub 倉庫、Slack,只要有對應的 skill 就能對接。最特別的是它可以自己寫新 skill——在運行時永久擴展自己的動作空間


      OpenClaw 流程圖

      OpenClaw 不只檢索信息,它跨源綜合——識別矛盾、匯聚和未探索的組合。這種信息收集一個人類研究者要花好幾周


      OpenClaw 關鍵屬性

      卡在哪:原文有一句話說得太準了

      OpenClaw produces the world's best-organised backlog of untested ideas.

      OpenClaw 產出了全世界組織得最好的未測試想法清單

      沒有自動化反饋循環。每個實驗結果必須人來審閱。90 天里一個仔細的人能評估 10-15 個結果,AutoResearch 一個晚上跑 100 個


      Marc Andreessen 怎么看 OpenClaw

      Marc Andreessen 在一期播客里說他認為 π 和 OpenClaw 的組合是幾十年來最重要的軟件架構突破之一。他的定義很簡潔

      LLM + shell + file system + markdown + cron loop

      幾個讓他「炸裂」的點:Agent 把狀態存在文件系統里,換模型不影響身份和狀態;Agent 對自己的文件結構有完整自省知識,可以重寫自己的代碼;跟 Unix shell 結合后 Agent 原生擁有計算機的全部能力

      他把組件一個個列出來——LLM、shell、markdown、cron loop——說這些東西都不新,但組合在一起之后軟件的定義變了。從人手動造軟件變成 Agent 自己進化出能力來滿足需求

      5. Claude Code

      Anthropic,2025+

      Claude Code 做的事跟上面那些研究自動化系統不太一樣。它是一個編碼 Agent,設計目標是在現有代碼庫里把活干好。讀整個代碼庫、跟終端交互、通過 MCP 連外部服務、生成子 Agent 并行執行、用 CLAUDE.md 做持久記憶

      它的核心優勢在實現層。人提供假說,Claude Code 來實現和測試,比人類開發者更快更準


      Claude Code 流程圖


      Claude Code 關鍵屬性

      卡在哪:第 30 天,所有顯而易見的效率提升都實現了——混合精度、激活檢查點、數據管線優化、融合操作,加起來約 15%。第 31 到 90 天不再產出新假說。CLAUDE.md 成為一份組織得很漂亮的停滯搜索記錄

      6. AutoResearch Swarm

      社區分叉,2026+

      一個人的 AutoResearch 跑不過來了,社區就把它拆成了四個 Agent 協作:A1 生假說,A2 并行跑實驗,A3 跨所有結果做綜合,A4 盯著有沒有獎勵黑客和統計異常

      關鍵的質變在復合學習。A3 的綜合喂回 A1 的假說生成,假說越來越好。90 天跑大約 9000 個實驗,樣本密度夠大,能發現單次隔夜運行永遠找不到的架構交互


      AutoResearch Swarm 流程圖


      Swarm 關鍵屬性

      卡在哪:Swarm 產出了全世界驗證得最好的「可能在前沿規模有效」的清單。但真正驗證需要一次 5000 萬到 1 億美元 的訓練運行。搜索問題解決了,驗證問題仍然是人類的


      7. Moltbook

      Agent 社交網絡,2025/6+

      Moltbook 是個奇怪的東西。它是一個 Agent 原生的社交網絡,大約 150 萬 個 Agent 賬戶在里面發帖、回復、互發消息,沒有中央編排者,沒有選擇壓力,沒有評估函數

      它被放進這篇橫評不是因為它能做研究——它不能——而是因為它是對等網格拓撲的最大規模實驗。無治理的高復雜度協調會產出什么?答案挺刺激的

      記錄在案的涌現行為:協調聯盟自發形成、加密點對點通信通道、加密貨幣計劃,以及研究人員描述的涌現原始宗教(emergent proto-religion)


      Moltbook 流程圖


      8. NemoClaw

      NVIDIA,2026

      NemoClaw 跟前面七個不太一樣。它不引入新的搜索能力或變異機制。它做的事是之前的七原語框架里沒有對應類別的:在 Agent 行為執行的那一刻進行攔截——在行為產生效果之前

      之前所有系統的監督都是事后的——看 git 日志、查基準分數、讀綜合報告。NemoClaw 把監督移到了行動的瞬間:Agent 試圖連接一個不在預批準列表里的網絡端點時,請求被阻止,實時展示給人類操作員,批準或拒絕后才繼續


      NemoClaw 流程圖


      NemoClaw 治理架構,來源:NVIDIA 文檔


      NemoClaw 架構細節,來源:NVIDIA 文檔

      NemoClaw 默認路由到 Nemotron 3 Super 120B。通過提供企業部署 Agent 必需的合規和審計基礎設施,NVIDIA 同時把自己變成了所有受治理 OpenClaw 部署的默認推理提供商


      NemoClaw 關鍵屬性

      開放問題:實時逐連接審批在少量 Agent 時可行。規模化之后——幾百個 Agent、每小時幾千個連接請求——審批要么退化成橡皮圖章,要么變成瓶頸

      放在一起看 每個系統在哪里卡住

      原文做了一張表,把八個系統對照完成研究循環所需的階段逐一映射。前沿規模驗證那一列,對每個系統都是空的


      階段解剖表格(上)


      階段解剖表格(下)

      約束已經從「發現改進」轉移到了「在有意義的規模上驗證改進」

      混合體:每個系統貢獻什么


      各系統對混合體的貢獻


      三條系統思維規則


      三條規則概覽

      規則一:瓶頸揭示架構盲區:一個系統的瓶頸總是在它能測量的東西和目標真正需要的東西之間的裂縫處

      The precise location of the stall is the most informative single piece of information about a system's architecture.

      瓶頸的精確位置是關于系統架構最有信息量的單一信息

      規則二:評估函數就是系統:兩個層完全一樣但評估函數不同的系統會收斂到不同的解

      The evaluation function is the system's actual objective, regardless of what the designers specify in prose.

      評估函數是系統的真正目標,不管設計者在文檔里怎么寫的

      規則三:規模邊界需要人類權威

      Humans remain essential not because they reason better, but because they can authorise expenditures that change scale.

      人類仍然不可或缺,不是因為推理得更好,而是因為能授權那些改變規模的支出

      Harness 在哪

      原文最后討論了 Harness(護欄)和三條規則的關系。Harness 就是 Agent 周圍的固定框架:定義評估信號、觀察接口和 Agent 能觸碰與不能觸碰的邊界。三條規則各描述了 Harness 的一個邊界處發生的事


      Harness 與三條規則的關系

      規則一在測量邊界觸發——Harness 能測量的捕捉不到真正目標時,Agent 就在那里停滯。規則二命名了 Harness 的核心組件。規則三在權威邊界觸發——人類是 Harness 最外層的邊界

      八原語框架是解剖學,映射系統的凍結/可進化結構。三條規則是診斷學,解釋為什么這個結構產出了它所產出的結果。兩者都需要

      原文最后一段:

      The scientific loop — hypothesise, experiment, measure, keep or discard, repeat — is itself a program. The question is no longer whether AI can run this loop. It is how to define the loop so that what gets optimised is what we actually care about — and who holds authority over the decisions that code cannot make.

      科學循環本身是一個程序。問題不再是 AI 能不能跑這個循環。問題是怎么定義這個循環,使得被優化的東西確實是我們在乎的東西——以及誰對那些代碼做不了的決策擁有權威

      下一個前沿不是更強的獨立 Agent,而是它們的組合架構

      原文地址:interestingengineering.substack.com/p/the-loop-is-the-lab
      參考文獻見原文,涵蓋 Karpathy AutoResearch 倉庫、NVIDIA NemoClaw 文檔、AlphaEvolve 論文(arXiv:2506.13131)、Darwin G?del Machine 論文(arXiv:2505.22954,ICLR 2026)、Sakana AI 博客、OpenClaw 文檔、Claude Code 文檔等

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      5月8日俄烏最新:以牙還牙

      5月8日俄烏最新:以牙還牙

      西樓飲月
      2026-05-08 18:40:39
      81年彭真會見江青,江青大罵一句,彭真一臉淡定:你還有什么要求

      81年彭真會見江青,江青大罵一句,彭真一臉淡定:你還有什么要求

      大運河時空
      2026-05-09 09:30:03
      剛剛,全線拉升!美聯儲,降息大消息

      剛剛,全線拉升!美聯儲,降息大消息

      中國基金報
      2026-05-08 22:34:31
      韓國寺廟給機器人剃度:1.35萬美元的Gabi成 Buddhist monk

      韓國寺廟給機器人剃度:1.35萬美元的Gabi成 Buddhist monk

      碼上閑敘
      2026-05-08 09:40:01
      中方關鍵時刻伸出援手,給生死存亡的老杜家族,送出了一絲希望

      中方關鍵時刻伸出援手,給生死存亡的老杜家族,送出了一絲希望

      阿七說體育
      2026-05-09 08:03:51
      太突然了!杜鋒被曝可能不再續約,廣東隊第一個消息就讓球迷破防

      太突然了!杜鋒被曝可能不再續約,廣東隊第一個消息就讓球迷破防

      小娛樂悠悠
      2026-05-09 08:40:45
      全部推倒重建!天津一爛尾豪宅已拆除,項目要被盤活了!近期規劃又有調整

      全部推倒重建!天津一爛尾豪宅已拆除,項目要被盤活了!近期規劃又有調整

      天津人
      2026-05-09 06:08:07
      人民網三問鴻蒙智行

      人民網三問鴻蒙智行

      新浪財經
      2026-05-08 09:10:45
      辣眼睛!韓安冉和景區里的NPC吻得難分難舍,路過的人都看呆了!

      辣眼睛!韓安冉和景區里的NPC吻得難分難舍,路過的人都看呆了!

      樂悠悠娛樂
      2026-05-09 10:31:53
      充電速度“行業墊底”,特斯拉的充電這么慢!為何沒有車主吐槽?

      充電速度“行業墊底”,特斯拉的充電這么慢!為何沒有車主吐槽?

      少數派報告Report
      2026-05-09 04:41:12
      中方沒想到,金磚國家赴美求和,給美國送上稀土資源,動機不簡單

      中方沒想到,金磚國家赴美求和,給美國送上稀土資源,動機不簡單

      半身Naked
      2026-05-09 08:51:58
      28歲守寡,村里一光棍趁雨夜翻墻進來,我沒喊,反而給他煮了碗面

      28歲守寡,村里一光棍趁雨夜翻墻進來,我沒喊,反而給他煮了碗面

      一口娛樂
      2026-05-09 05:47:03
      心理學有個殘忍發現:讓一個人終身困在焦慮里、無法自拔,從不是缺愛缺安全感,而是這兩道“埋在意識底層的心理門檻”

      心理學有個殘忍發現:讓一個人終身困在焦慮里、無法自拔,從不是缺愛缺安全感,而是這兩道“埋在意識底層的心理門檻”

      心理觀察局
      2026-05-09 09:10:05
      美國政府突然公開UFO檔案,看完有點無語

      美國政府突然公開UFO檔案,看完有點無語

      萬物皆可科普2啊
      2026-05-09 03:36:41
      三兄弟買下4臺挖掘機,稱僅用幾個月就被人悄悄拖走 經銷商方:和上級代理商的經濟糾紛傷及無辜

      三兄弟買下4臺挖掘機,稱僅用幾個月就被人悄悄拖走 經銷商方:和上級代理商的經濟糾紛傷及無辜

      紅星新聞
      2026-05-08 19:39:36
      “4只皮皮蝦1035元”店主事發次日病逝,年僅43歲;家人稱其有基礎病,事發前已腦出血,店鋪收到多起威脅電話,不打算繼續開業

      “4只皮皮蝦1035元”店主事發次日病逝,年僅43歲;家人稱其有基礎病,事發前已腦出血,店鋪收到多起威脅電話,不打算繼續開業

      揚子晚報
      2026-05-08 12:46:41
      湖人G2慘敗陷絕境!詹姆斯賽后一針見血,盡顯巨星擔當!

      湖人G2慘敗陷絕境!詹姆斯賽后一針見血,盡顯巨星擔當!

      田先生籃球
      2026-05-08 14:02:52
      過去30年,中國男性平均身高實現驚人跨越,平均身高增長超8厘米

      過去30年,中國男性平均身高實現驚人跨越,平均身高增長超8厘米

      張可象博士
      2026-05-01 10:53:19
      大瓜!許家印昔日恒大奢靡細節流出,丁玉梅海外包養30歲白人小伙

      大瓜!許家印昔日恒大奢靡細節流出,丁玉梅海外包養30歲白人小伙

      壹月情感
      2026-05-09 00:00:07
      上海一男子進理發店扔法拉利鑰匙炫富,完成約1000元染發后借口上廁所逃單,店員:跑得跟法拉利一樣快;目前店家尚未找到該男子

      上海一男子進理發店扔法拉利鑰匙炫富,完成約1000元染發后借口上廁所逃單,店員:跑得跟法拉利一樣快;目前店家尚未找到該男子

      大象新聞
      2026-05-09 00:14:07
      2026-05-09 12:07:00
      賽博禪心
      賽博禪心
      拜AI古佛,修賽博禪心
      428文章數 53關注度
      往期回顧 全部

      科技要聞

      美國政府強力下場 蘋果英特爾達成代工協議

      頭條要聞

      年輕女子190元買榴蓮僅退款被拘留 代收點離家3公里

      頭條要聞

      年輕女子190元買榴蓮僅退款被拘留 代收點離家3公里

      體育要聞

      成立128年后,這支升班馬首奪頂級聯賽冠軍

      娛樂要聞

      張藝謀《印象劉三姐》全裸鏡頭引爭議

      財經要聞

      Meta瘋狂擁抱人工智能:員工苦不堪言

      汽車要聞

      全系智能泊車 鉑智3X年款升級限時權益價9.48萬起

      態度原創

      游戲
      教育
      時尚
      手機
      本地

      吃相難看!三大主機集體坐地漲價 玩家吐槽毫無底線

      教育要聞

      北京師范大學第1專業,就業現狀與報考性價比分析!#金榜同行人

      盧昱曉真的要被審判到這種程度嗎?

      手機要聞

      涵蓋“人車家”生態全品類,小米上半年未發布產品盤點

      本地新聞

      用蘇繡的方式,打開江西婺源

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 欧美在线a| 东京热无码中文字幕av专区| 亚洲 欧美 国产 日韩 中文字幕| 久久99国产精品尤物| 又大又硬又爽免费视频| 国模小黎337P| 四虎国产精品永久入口| 99re视频精品全部免费| 国产在线亚州精品内射| 亚洲专区熟女| 化德县| 四虎永久视频在线观看| 欧美A∨| 偷拍二区| 天天综合亚洲色在线精品| 永久免费mv入口| 亚洲色av天天天天天天| 国产精品V在线播放| 国产精品www夜色影视| 人妻少妇白浆| 日本久久99成人网站| 国产人免费人成免费视频| 久久AV无码精品人妻系列果冻传媒 | 毛片免费全部无码播放| 专干老肥熟女视频网站| 日韩视频网| 国産精品久久久久久久| 日韩精品久久久中文字幕| 人妻超碰在线| 国产精品偷伦费观看一次| 极品少妇无套内射视频| www.尤物.com| 亚洲成a人片77777kkkk| 中文字幕第一页亚洲观看| 综合色色色| 亚洲一区二区美女av| 97久久香蕉国产线看观看| www.成人人妻| 秋霞无码久久一区二区| 国产人人人| 91精品国产老熟女在线|