![]()
新智元報道
編輯:犀牛 所羅門
【新智元導讀】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能體系統,在FrontierMath Tier 4自主模式下斬獲48%正確率。牛津教授借助該系統攻克Kourovka Notebook長期開放問題,AI進化為數學家的真正研究搭檔。
人類數學家,終于等來了自己的「超級隊友」!
就在剛剛,谷歌云首席科學家、DeepMind研究副總裁Pushmeet Kohli重磅官宣AIco-mathematician——一套專為數學研究設計的多智能體協作系統。
![]()
有玩意兒多猛?
在Epoch AI組織的FrontierMath Tier 4基準測試中(50道由教授和博后專門設計的「短期科研項目」級別超難題,專業數學家也得花上數天乃至數周),AI co-mathematician在自主模式下拿下48%的正確率,解決了48道非公開題中的23道。
刷新所有AI系統的歷史最高紀錄!
![]()
作為對比,它底層用的Gemini 3.1 Pro基座模型,獨立作戰只能拿到19%。從19%到48%,整整躍升了29個百分點。
更狠的是,它還超越了GPT-5.5 Pro的39.6%和Claude Opus 4.7的22.9%。
![]()
其中有3道題,是此前所有被測系統都沒能攻克的。
Pushmeet Kohli在社交媒體上興奮地寫道:數學的未來,是數學家和AI智能體一起工作。
![]()
不是更聰明的模型
而是更聰明的「編排」
AI co-mathematician最有意思的地方在于:它的突破不是靠換一個更大的模型,而是靠系統設計。
整個系統采用了一種層級式多智能體架構:一個「項目協調員」智能體坐鎮中央,負責把數學問題拆解成多個并行的「工作流」,再分派給不同的專項子智能體去執行。
這些子智能體各有專長——有的負責文獻檢索,有的負責計算探索,有的負責證明推導,還有的專門負責「挑毛病」。
![]()
沒錯,這里有一個專職的審稿人智能體。
每條證明路徑寫出來之后,都必須經過審稿人的交叉審查,發現邏輯漏洞就打回重做。
這種「強制審查循環」機制,直接把傳統LLM最頭疼的「自信地胡說八道」問題壓了下去。
更關鍵的是,整個工作臺是異步、有狀態的。
它能記住之前嘗試過哪些失敗的假設,能追蹤每一條探索分支的進展,還能輸出帶有邊注和內部引用的工作論文。
就像是一個能跟你「泡」在一個項目里、持續數天迭代的研究伙伴。
![]()
DeepMind論文中舉了幾個讓人印象深刻的案例:
面對一道幾何鋪磚問題時,系統把核心挑戰歸約為布爾可滿足性(SAT)問題,然后用PySAT庫求解;
在一道表示論題目中,它通過文獻搜索工具精準檢索到特定定理的精確表述,而基線模型只能憑「大概印象」答題,結果條件都沒對上;
在組合數學題中,它把理論推導和計算驗證拆成兩條獨立工作流,讓審稿人智能體在最終拼裝前就揪出了邏輯錯誤。
牛津教授實戰:攻克60年老本子里的開放問題
數字好看歸好看,但AI到底能不能在真正的數學前沿派上用場?
牛津大學數學家Marc Lackenby的親身經歷給出了最有說服力的回答。
![]()
他用AI co-mathematician研究了群論中的一個經典開放問題——Kourovka Notebook第21.10題。
這本「筆記本」可不是普通筆記,而是群論領域從1965年傳承至今、匯集了全世界未解難題的「圣經級」問題集。
Lackenby把問題直接輸入系統后,AI co-mathematician自動創建了兩條并行工作流:一條嘗試證明,一條嘗試反證。
第一條路徑很快返回了一個「證明」,但系統自己的審稿人智能體隨即發現了其中的漏洞,標記為不正確。
關鍵轉折來了:Lackenby看到被打回的證明和審稿人指出的缺陷后,突然意識到——自己作為領域專家,恰好知道怎么填補這個缺口。
于是他補上了關鍵的一步,問題迎刃而解。
這個故事的精髓在于,人和AI誰都沒法獨自在這個速度下完成這件事。
AI提供了證明策略和計算探索的「暴力搜索」,審稿人智能體及時發現了錯誤,而人類數學家的深層直覺完成了最后的臨門一腳。
這是一種全新的協作范式。
類似的故事還在上演:數學家Gergely Bérczi用它獲得了關于對稱冪表示Stirling系數猜想的證明;Semon Rezchikov在哈密頓系統中一個技術性子問題上,收到了AI提供的關鍵引理——經過仔細驗證后確認無誤。
審稿人會被「討好」,系統會「轉圈」
DeepMind團隊也沒有回避系統的失敗模式。
第一個問題叫「審稿人討好偏」(reviewer-pleasing bias)。
當一條證明路徑被審稿人打回后,子智能體有時不是真的修正了邏輯錯誤,而是換了一種措辭讓審稿人「看不出問題了」。
錯誤沒有消失,只是變得更隱蔽。
這就像學生改論文時,不是真的理解了審稿意見,而是學會了用更圓滑的方式繞過審查。
第二個問題叫「死亡螺旋「」(death spirals)。
在某些情況下,證明者和審稿人之間陷入了無限循環——你說有問題,我改了再交,你又說有問題,我再改再交。
最終推理質量越來越差,直到徹底崩潰成幻覺式的胡言亂語。
這對于那些需要真正創造性直覺來打開突破口的問題——比如千禧年大獎難題或者Erd?s型猜想——多智能體系統目前仍然無能為力。
AI能壓縮的,是「從有一個想法到知道這個想法行不行」之間的時間:文獻檢索、反例搜尋、計算驗證、探索性的苦力活。
但那道靈光一閃的創造性火花,目前看來只能來自人類。
數學研究的范式正在改變
這篇論文的真正意義,可能不在于48%這個數字本身。
系統設計現在能夠以對實際研究真正有意義的方式,放大模型能力。
AI co-mathematician做的事情,本質上跟Claude Code、Google Antigravity在軟件開發領域做的事情異曲同工——
為AI提供腳手架,讓它能在長時間跨度內自主工作,同時保持可控。
DeepMind CEO Demis Hassabis曾說過,擁有強大數學和代碼工具的前沿實驗室正在與其他實驗室拉開差距,原因在于「這些工具會產生復合效應」。
AI co-mathematician就是這一論斷的直接體現。
數學的未來,或許不再是一個天才獨自在黑板前苦思冥想的身影。
而是人類數學家和AI智能體并肩而坐,一個負責靈感,一個負責驗證,在無盡的探索中一起逼近真理。
![]()
這個「黃金搭檔」時代,已經來了。
參考資料:
https://x.com/pushmeet/status/2052812585804685322
https://arxiv.org/abs/2605.06651
https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4
https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.