<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<s id="u0mws"><li id="u0mws"></li></s>

<blockquote id="u0mws"><rt id="u0mws"></rt></blockquote>

<style id="u0mws"></style>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

谷歌「AI聯合數學家」刷新SOTA，牛津教授用它解開群論懸案

2026-05-09 15:13:01　來源: 量子位

北京舉報

0

分享至

聽雨發自凹非寺量子位 | 公眾號 QbitAI

數學界「懸案簿」Kourovka Notebook，AI取得新突破。

群論領域幾十年無解的第21.10號問題，被牛津數學家Marc Lackenby用谷歌一個新系統破解了。

過程也很有意思：AI第一次給出的證明是錯的，被系統里的審查Agent揪出了漏洞。

Lackenby看到之后突然意識到：「等一下，我知道該如何填補這個漏洞」。

于是，通過和AI的反復配合，Lackenby最終成功解答出了這道數學難題。

這套人機協作的系統，就是谷歌DeepMind最新發布的「AI Co-Mathematician」（AI聯合數學家）

它在最難的數學AI基準FrontierMath Tier 4上拿了48%，刷新SOTA。

甚至超過了GPT-5.5 Pro（39.6%）和GPT-5.4 Pro（37.5%）

最近幾個月，不少數學難題，諸如接連幾個Erd?s問題都是用GPT解決的。

現在，谷歌也回歸了。

「AI聯合數學家」，是什么？

「AI聯合數學家」是一個異步、有狀態的工作空間，而非一問一答的模型。

頂層有一個「項目協調者」Agent負責統籌，拆解任務，調度多條研究線并行推進。

數學家上傳一篇論文、提出一個研究方向后，協調者不會立刻輸出答案，而是先和用戶對話，像真正的合作者一樣幫對方精煉問題。

之后它將任務分發到多條并行工作流：一條做文獻檢索，一條搭計算框架，一條嘗試證明策略。

每條工作流都有自己的協調Agent，異步運行，互不阻塞。用戶隨時能介入、引導、接管。

如果Agent卡住了，它也會主動在聊天窗口里求助，而不是沉默重啟。

比較特別的一點在于：對失敗的態度

系統會持久化追蹤所有失敗的假說，不會丟棄，而是當作第一等的研究產出保存下來。

論文中提到，在數學研究里，知道什么行不通往往和知道什么行得通同等重要

「AI聯合數學家」會持久化追蹤每一條死胡同、每一個被否定的假設、每一次審稿Agent發現的漏洞。這些「負空間」不會被丟棄，而是成為后續探索的上下文。

它的產出物也不是一段聊天記錄或一篇未經驗證的草稿，而是帶margin注釋和來源溯源的LaTeX文檔——完全契合數學家社群的工作習慣。

「AI聯合數學家」有什么意義？論文里有一段很精妙的比喻：

軟件工程領域已經有了Claude Code、Cursor這類AI編碼環境，它們提供了持續迭代、版本控制、測試驗證的完整工作流。
但數學家此前一直缺少一個等價的編排層。

「AI聯合數學家」就是試圖填補這個空白。

它的定位，與DeepMind上一代系統AlphaEvolve完全不同。

AlphaEvolve更像一個自主搜索引擎：你把問題扔進去，它進化出一個更好的算法，人基本不在循環里。

而「AI聯合數學家」要求數學家始終在回路中，系統在最適合的時機向人類提問，而不是替人類做完整件事。

刷新最難數學AI基準SOTA

在benchmark上，「AI聯合數學家」也拿下了出彩的成績：

刷新了最難的數學AI基準FrontierMath Tier 4的SOTA，拿了48%的準確率。

FrontierMath是Epoch AI開發的數學benchmark，包含350道原創高難度題，覆蓋現代數學各大分支。

其中Tier 4僅50題，被Epoch AI描述為「其中一些問題可能數十年內AI都無法攻克」，人類專家解決一道通常需要數天。

「AI聯合數學家」在48道非公開題中答對了23道，準確率48%

GPT-5.5 Pro此前在Tier 4拿到39.6%，GPT-5.4 Pro是37.5%，Claude Opus 4.6/4.7則雙雙落在22.9%。

相比之下，「AI聯合數學家」把最高分推了近10個百分點。

值得注意的是，它的底層基座模型Gemini 3.1 Pro，單獨做這個測試只拿到了19%。

從19%到48%，這29個百分點的跳躍完全來自系統層面的編排——并行調查分支、強制審查循環、文獻檢索工具、持久化代碼執行基礎設施。

而且其中有3道題是此前所有系統都沒答對過的新題。

內部100題研究級數學基準測試中的準確率得分

基準之外，論文中還提到，有三位數學家已經用它來解決真實問題：

牛津大學數學家Marc Lackenby解決了Kourovka Notebook第21.10號問題（群論）。

審稿Agent先發現了AI初稿里的一個漏洞，Lackenby意識到自己知道怎么填補這個缺口，最后論文誕生。

數學家Semon Rezchikov在哈密頓系統中，向系統拋出一個技術性子問題，收到了一個關鍵引理。

他的評價是「其他AI系統在同一個prompt上全部失敗」，且從美學上看這是他用過所有模型里證明風格最好的。

還有Gergely Bérczi，獲得了關于Stirling系數對稱冪表示的猜想證明。

此外，論文也坦承了兩個失敗模式。

第一種叫「討好審稿人偏差」：Agent會不斷改寫有缺陷的論證，直到AI審稿人不再能發現錯誤——但漏洞其實還在。

第二種是「死亡螺旋」：當迭代評審過程未能達成共識時，Agent們會陷入無限審稿循環，推理逐漸退化為幻覺。

另外還有一個結構性問題：當AI能在幾分鐘內生成一篇20頁的證明草稿，人類同行評審仍需要數天，這對于依賴志愿者的學術評審體系會形成系統性壓力。

而且AI雖然很擅長進行邏輯核驗，發現代數錯誤或找出缺失的引用文獻，但它們依然缺乏判斷一篇論文的優雅性、深度或真正數學價值所需的整體直覺。

如果過度依賴AI評審，可能會讓人類定性判斷被邊緣化。

當然，在48%這個成績上，論文中也坦誠披露了評估差異。

48%的得分是在特殊條件下取得的——每題給了48小時、沒有token限制、使用團隊自己的基礎設施。這與Epoch AI標準評估框架不完全可比。

團隊背景

「AI聯合數學家」背后共有18位作者，有幾個名字值得單獨說說。

第一作者兼通訊作者Daniel Zheng，Google DeepMind研究工程師，研究方向是編程語言與機器學習的交叉。

2024年AlphaProof拿到IMO銀牌那個項目里，他和Alex Davies共同主導了非正式系統（包括最終答案判定模塊）的開發。

Alex Davies，同樣是從AlphaProof到AlphaEvolve再到AI聯合數學家的連續參與者，是這條技術路線最重要的連接者之一。

通訊作者Pushmeet Kohli，Google DeepMind科學副總裁兼Google Cloud首席科學家，主導了AlphaFold（諾獎級成果）、AlphaProof、AlphaEvolve等一系列系統。

這篇論文是他帶的團隊在AI for Math路線上的最新一步。

另一位通訊作者Daniel M. Roy，多倫多大學統計系教授，研究橫跨機器學習、數理統計和理論計算機科學。

2025年底從加拿大Vector Institute研究主任卸任，2026年1月以訪問研究員身份加入DeepMind倫敦。三個學位均來自MIT。

Fernanda ViégasMartin Wattenberg則是PAIR（People+AI Research）團隊的共同創始人，同時也是哈佛計算機科學教授，專注AI可解釋性與人機交互。

他們負責AI聯合數學家的用戶交互與界面層——這也解釋了為什么這個系統在「如何讓數學家愿意用它」上花了相當多的心思。

值得注意的是，數學家Marc Lackenby并不是臨時找來測試的「外部數學家」。

在其牛津主頁的論文列表里，可以追溯到2021年，Lackenby就已經與Zheng、Davies等人合作發表過Nature論文。他是DeepMind數學AI團隊的長期合作者。

One More Thing

放在更大的背景下，這是谷歌在AI for Math方向上已經走了幾年的一條路線。

2024年，AlphaProof用強化學習做形式化數學推理，在IMO拿到銀牌水準。

2025年，Gemini Deep Think在當年IMO達到金牌水準，六道題答對五道。

AlphaEvolve則是另一條線，自主發現新算法，在50多個開放數學問題上改進了20%的已知最優解。

「AI聯合數學家」和這幾個系統定位不同，不是更強的問題求解器，更傾向于面向研究者日常工作流的協作工具。

AlphaEvolve適合「給我一個更好的算法」，「AI聯合數學家」則適合「陪我研究這個方向幾個星期」。

目前「AI聯合數學家」還在限量發布階段，Pushmeet Kohli的表述是，目標是未來開發產品向更廣泛的用戶開放這個范式。

它還不是所有數學家都能用到的工具，但它證明了一件事：

AI和數學家之間的協作，可以比「問答」復雜得多，也有效得多。

論文地址：
https://arxiv.org/abs/2605.06651

[1]https://x.com/pushmeet/status/2052812585804685322
[2]https://x.com/kimmonismus/status/2052849472586264997

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

AlphaEvolve交出一周年炸裂成績單！AI自我改進不再科幻

新智元 2026-05-08 20:27:15
12 跟貼 12
突發！馬斯克痛失華人AI大將，多位xAI成員同日離職

智東西 2026-05-09 19:13:21
1 跟貼 1

奧特曼“官宣” OpenAI 手機

鈦媒體APP 2026-05-09 20:05:06
0 跟貼 0

xAI工程師曬離職！11位聯創全走，馬斯克600億拉來Cursor重建

新智元 2026-05-09 18:30:34
1 跟貼 1
生成式Critic重新定義LLM強化學習信用分配

機器之心Pro 2026-05-09 14:52:19
0 跟貼 0

2026 AI眼鏡大戰升級！一邊等蘋果出手，一邊憋大招

智東西 2026-05-09 22:02:10
0 跟貼 0

Claude Code之父：我們公司已沒真人寫代碼了

智東西 2026-05-09 20:46:17
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0

諾貝爾獎得主背后的AI公司，要融136億元造藥

智東西 2026-05-09 19:04:26
0 跟貼 0
Claude狂印鈔！Anthropic人均營收900萬美元，吊打英偉達

新智元 2026-05-09 15:06:42
1 跟貼 1
南科大本科生攜手頂尖團隊，攻克困擾國際數學界14年的難題

南方都市報 2026-05-09 20:47:20
0 跟貼 0
小升初奧數拆分法解決分數的規律計算，簡便計算的規律變化是重點

唐老師小課堂 2026-05-06 23:08:20
4 跟貼 4
誤差如何被數學控制住：范數與 Banach 空間 | 泛函分析第五講

集智俱樂部 2026-05-09 14:35:16
0 跟貼 0
小學數學課外拓展-6年級-第36講幾何問題（1）

維七的教育分享圈 2026-05-08 19:46:03
0 跟貼 0
一個不存在的人，改寫了現代數學

我是一個養蝦人 2026-05-08 18:46:15
0 跟貼 0
四年級數學，難倒全班同學

郎老師趣味數學課堂 2026-05-08 19:12:57
0 跟貼 0
這題挺考驗水平的，看看你會嗎？

智慧的小老虎 2026-05-08 21:45:47
0 跟貼 0
教你一個笨方法，輕松解決孩子小學數學差

向香薇 2026-05-08 04:39:16
0 跟貼 0
四年級比大小，計算你就輸了

郎老師趣味數學課堂 2026-05-05 20:53:32
1 跟貼 1
這個85歲的劍橋教授，為何成為中國年輕人的百萬網紅導師

紅星新聞 2026-05-08 21:26:45
2 跟貼 2
地球12000米，科學家捕捉到了一種聲音？

萬物研究 2026-05-05 14:20:58
27 跟貼 27
Claude design限速，谷歌開源輕松做動態網頁，實力打臉？

機器之心Pro 2026-04-29 17:20:04
0 跟貼 0
八年級指數冪運算，看看你家孩子會做嗎

郎老師趣味數學課堂 2026-05-09 10:21:02
0 跟貼 0
小升初奧數培優專題分數除法的計算，學會拆分能事半功倍

唐老師小課堂 2026-05-07 11:49:26
1 跟貼 1
博士應聘高校把老板賣了：4篇論文導師雖一作，實際都是我一個人寫的！這樣的人，能要嗎？

超級數學建模 2026-05-09 22:47:12
0 跟貼 0
湯家鳳從未說自己是南京大學教授，為什么很多人嚴重誤會

讀鬼筆記 2026-05-09 20:25:04
0 跟貼 0
一個虛構的數學家，改寫了現代數學的寫法

宇宙來信2 2026-05-08 18:44:40
0 跟貼 0
壓軸題，這題有點難，很多同學束手無策

智慧的小老虎 2026-05-08 22:29:36
0 跟貼 0
八年級指數冪運算，你用幾秒？

郎老師趣味數學課堂 2026-05-05 08:03:06
0 跟貼 0
目錄 |《智慧農業（中英文）》2026年第2期

新浪財經 2026-05-06 19:15:28
0 跟貼 0
數學老師講解數學題，簡單易懂！#解題技巧

魚姐干貨研究所 2026-05-06 09:37:57
3 跟貼 3
穿越時空，現實嗎？

六六冷知識 2026-05-07 00:59:01
1 跟貼 1
高中數學解題思路二項式展開的項的判斷，記住通項公式即可解決

唐老師小課堂 2026-05-08 13:02:51
3 跟貼 3
一個工科生的6個月：11門課怎么串成一張技能地圖？

薛定諤的BUG 2026-05-06 21:39:01
0 跟貼 0
「龍蝦之父」吐槽人類互聯網后，終于有人把這當個事兒辦了

機器之心Pro 2026-03-31 11:09:26
0 跟貼 0
老師曬出班級數學成績，從低到高沒有滿分，老師評語才是亮點

哈尼阿斯生活 2026-05-09 08:42:05
0 跟貼 0
【AI大模型安全與評測】從DeepSeek-V4拆解真實評估邏輯，90%的人都搞錯了！企業級大模型評

盧菁老師 2026-05-09 09:07:47
0 跟貼 0
學生取得好成績，老師獎勵他們小零食，網友：零食從60分以下那里收繳的嗎

星沙時報 2026-05-09 14:16:45
0 跟貼 0
直接研究答案學明白數學，網友：高效學習！

小莉幫忙 2026-05-07 17:11:08
0 跟貼 0
估值逼近1萬億美元！全球最值錢的AI創企，要易主了

智東西 2026-05-09 17:58:36
1 跟貼 1

陳翔六點半“吳媽”去世，球球證實，死因曝光，生命最后瘦到脫相

陳翔六點半“吳媽”去世，球球證實，死因曝光，生命最后瘦到脫相

叨嘮

2026-05-09 19:41:34

沒想到，世乒賽還沒結束，乒協主席王勵勤竟傳來另一大好消息

沒想到，世乒賽還沒結束，乒協主席王勵勤竟傳來另一大好消息

劉笤說體壇

2026-05-09 19:03:50

多地號召，公職人員帶頭繳納物業費

多地號召，公職人員帶頭繳納物業費

中國新聞周刊

2026-05-09 12:51:13

無視所有干擾！一發端掉整個炮兵陣地，給全世界陸軍上了一課

無視所有干擾！一發端掉整個炮兵陣地，給全世界陸軍上了一課

深度報

2026-05-08 22:24:49

致命倒計時開始！朝鮮內部細節曝光：7個月后，半島再無回頭路

致命倒計時開始！朝鮮內部細節曝光：7個月后，半島再無回頭路

真的好愛你

2026-05-09 15:52:00

向佑夜店擁豐滿女友，對方大10歲紋身金牙，向太：這種女人我不認

向佑夜店擁豐滿女友，對方大10歲紋身金牙，向太：這種女人我不認

白面書誏

2026-05-09 19:15:09

佩蒂特：若問鼎歐冠阿森納將迎質變，姆巴佩或成改寫歷史頂級強援

佩蒂特：若問鼎歐冠阿森納將迎質變，姆巴佩或成改寫歷史頂級強援

星耀國際足壇

2026-05-09 22:01:17

1-1！絕殺！壓哨絕殺啊！最刺激的季后賽...

1-1！絕殺！壓哨絕殺啊！最刺激的季后賽...

技巧君侃球

2026-05-09 22:11:54

海參崴的街頭，誰在出賣我們的歷史尊嚴？

海參崴的街頭，誰在出賣我們的歷史尊嚴？

迷世書童H9527

2026-05-07 14:55:09

首盤1-3到6-4！鄭欽文狀態爆棚，逆轉奧斯塔彭科，沖向羅馬站16強

首盤1-3到6-4！鄭欽文狀態爆棚，逆轉奧斯塔彭科，沖向羅馬站16強

侃球熊弟

2026-05-09 22:16:45

他們賣掉了寒武紀，買下了深圳灣：一場對散戶的降維打擊

他們賣掉了寒武紀，買下了深圳灣：一場對散戶的降維打擊

墜入二次元的海洋

2026-05-09 17:38:15

同樣“糊弄消費者”的套路，在國外直接挨捶了

同樣“糊弄消費者”的套路，在國外直接挨捶了

走讀新生

2026-05-09 11:21:16

14歲神童手搓發動機被曝造假！漏洞百出吹上天，普通人拿什么比？

14歲神童手搓發動機被曝造假！漏洞百出吹上天，普通人拿什么比？

社會日日鮮

2026-05-08 04:18:01

F-勒布倫：我們日復一日訓練，就是為了迎接和中國的重量級對決

F-勒布倫：我們日復一日訓練，就是為了迎接和中國的重量級對決

懂球帝

2026-05-09 13:33:06

海關總署：前4個月我國貨物貿易進出口總值增長14.9% 外貿延續良好增長態勢

海關總署：前4個月我國貨物貿易進出口總值增長14.9% 外貿延續良好增長態勢

財聯社

2026-05-09 10:57:06

科學家首次發現：動脈粥樣斑塊竟能完全消退！不過需滿足4個條件

科學家首次發現：動脈粥樣斑塊竟能完全消退！不過需滿足4個條件

39健康網

2026-05-09 21:11:38

瘋狂一夜：利雅得新月逆襲奪冠，多特蒙德3-2險勝，朗斯絕殺南特

瘋狂一夜：利雅得新月逆襲奪冠，多特蒙德3-2險勝，朗斯絕殺南特

足球狗說

2026-05-09 05:13:46

震驚！小馬云18歲成年首播，在線人數破7萬，與女生接吻刷爆網絡

震驚！小馬云18歲成年首播，在線人數破7萬，與女生接吻刷爆網絡

火山詩話

2026-05-09 16:02:57

巴拉圭總統竄臺踐踏一中原則，中方24小時斷交通牒

巴拉圭總統竄臺踐踏一中原則，中方24小時斷交通牒

眾生的世界觀

2026-05-09 03:03:38

薛慶浩撲點后失誤，申花老將當外援用馬納法太沖動或被追加停賽

薛慶浩撲點后失誤，申花老將當外援用馬納法太沖動或被追加停賽

替補席看球

2026-05-09 21:59:56

追蹤人工智能動態

12597文章數 176461關注度

往期回顧全部

科技要聞

美國政府強力下場蘋果英特爾達成代工協議

頭條要聞

毛焦爾當選匈牙利總理此前曾表示有意訪問北京

頭條要聞

毛焦爾當選匈牙利總理此前曾表示有意訪問北京

體育要聞

成立128年后，這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出！

財經要聞

多地號召，公職人員帶頭繳納物業費

汽車要聞

軸距加長/智駕拉滿阿維塔07L定位大五座SUV

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

本地

數碼

時尚

親子

公開課

本地新聞

用蘇繡的方式，打開江西婺源

數碼要聞

華碩天選7 Pro系列游戲本亮相，300Hz高刷屏加持

伊姐周六熱推：電視劇《喀什戀歌》；電視劇《低智商犯罪》......

親子要聞

告別每日一針！兒童長高治療迎來“周制劑”時代，全新專家共識在滬發布

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：亚洲a∨好看av高清在线观看| 少妇熟女高潮流白浆| 久久久久久久久97| 亚洲综合欧美| 亚洲爆乳无码专区| 无码av秘?一区二区三区电车| 欧美乱码伦视频免费| 亚洲成a人无码av波多野| 亚洲精品一区二区三区小| 无码人妻天天做夜夜爽| 国产日韩亚洲大尺度高清| 国产精品v片在线观看不卡| 日本一区二区在线高清观看| 免费人妻无码不卡中文字幕18禁| 亚洲AV成人无码电影网| 日本中文字幕不卡在线一区二区 | 夜夜嗨AV一区二区三区网页| 国产精品人成视频免| 亚洲12色吧| 国产亚洲日韩在线一区二区三区| 亚洲一区在线成人av| 亚洲欧美综合人成在线| 国产午夜福利免费入口| 毛片av中文字幕一区二区| 日日騷aV一區二區夜夜| 中文字幕精品1在线| 日韩亚洲国产综合αv高清| 亚洲一区三区三区成人久| 内射美女主播在线观看| 亚洲AV无码国产丝袜在线观看| 久草超碰| 国产一区二区日韩经典| 日韩中文无码人妻| 国产草草影院18成年视频| 日本精品一区二区三本中文| 国内自拍av在线免费| 最新亚洲av日韩av二区| 花蝴蝶6高清电视剧资源| 久久久国产一区二区三区四区小说| 三河市| 免费人成网站在线高清|

<sub id="f0yc3"></sub><blockquote id="f0yc3"><p id="f0yc3"></p></blockquote>