<ruby id="9ue20"></ruby>

国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线

<track id="m4grt"></track>

<bdo id="m4grt"><acronym id="m4grt"><cite id="m4grt"></cite></acronym></bdo>

<bdo id="m4grt"></bdo>

<abbr id="m4grt"><strong id="m4grt"><optgroup id="m4grt"></optgroup></strong></abbr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

谷歌造出AI數學家，48%碾壓全場！牛津教授用它破解60年未解之謎

2026-05-10 09:10:54　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：犀牛所羅門

【新智元導讀】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能體系統，在FrontierMath Tier 4自主模式下斬獲48%正確率。牛津教授借助該系統攻克Kourovka Notebook長期開放問題，AI進化為數學家的真正研究搭檔。

人類數學家，終于等來了自己的「超級隊友」！

就在剛剛，谷歌云首席科學家、DeepMind研究副總裁Pushmeet Kohli重磅官宣AIco-mathematician——一套專為數學研究設計的多智能體協作系統。

有玩意兒多猛？

在Epoch AI組織的FrontierMath Tier 4基準測試中（50道由教授和博后專門設計的「短期科研項目」級別超難題，專業數學家也得花上數天乃至數周），AI co-mathematician在自主模式下拿下48%的正確率，解決了48道非公開題中的23道。

刷新所有AI系統的歷史最高紀錄！

作為對比，它底層用的Gemini 3.1 Pro基座模型，獨立作戰只能拿到19%。從19%到48%，整整躍升了29個百分點。

更狠的是，它還超越了GPT-5.5 Pro的39.6%和Claude Opus 4.7的22.9%。

其中有3道題，是此前所有被測系統都沒能攻克的。

Pushmeet Kohli在社交媒體上興奮地寫道：數學的未來，是數學家和AI智能體一起工作。

不是更聰明的模型

而是更聰明的「編排」

AI co-mathematician最有意思的地方在于：它的突破不是靠換一個更大的模型，而是靠系統設計。

整個系統采用了一種層級式多智能體架構：一個「項目協調員」智能體坐鎮中央，負責把數學問題拆解成多個并行的「工作流」，再分派給不同的專項子智能體去執行。

這些子智能體各有專長——有的負責文獻檢索，有的負責計算探索，有的負責證明推導，還有的專門負責「挑毛病」。

沒錯，這里有一個專職的審稿人智能體。

每條證明路徑寫出來之后，都必須經過審稿人的交叉審查，發現邏輯漏洞就打回重做。

這種「強制審查循環」機制，直接把傳統LLM最頭疼的「自信地胡說八道」問題壓了下去。

更關鍵的是，整個工作臺是異步、有狀態的。

它能記住之前嘗試過哪些失敗的假設，能追蹤每一條探索分支的進展，還能輸出帶有邊注和內部引用的工作論文。

就像是一個能跟你「泡」在一個項目里、持續數天迭代的研究伙伴。

DeepMind論文中舉了幾個讓人印象深刻的案例：

面對一道幾何鋪磚問題時，系統把核心挑戰歸約為布爾可滿足性（SAT）問題，然后用PySAT庫求解；
在一道表示論題目中，它通過文獻搜索工具精準檢索到特定定理的精確表述，而基線模型只能憑「大概印象」答題，結果條件都沒對上；
在組合數學題中，它把理論推導和計算驗證拆成兩條獨立工作流，讓審稿人智能體在最終拼裝前就揪出了邏輯錯誤。

牛津教授實戰：攻克60年老本子里的開放問題

數字好看歸好看，但AI到底能不能在真正的數學前沿派上用場？

牛津大學數學家Marc Lackenby的親身經歷給出了最有說服力的回答。

他用AI co-mathematician研究了群論中的一個經典開放問題——Kourovka Notebook第21.10題。

這本「筆記本」可不是普通筆記，而是群論領域從1965年傳承至今、匯集了全世界未解難題的「圣經級」問題集。

Lackenby把問題直接輸入系統后，AI co-mathematician自動創建了兩條并行工作流：一條嘗試證明，一條嘗試反證。

第一條路徑很快返回了一個「證明」，但系統自己的審稿人智能體隨即發現了其中的漏洞，標記為不正確。

關鍵轉折來了：Lackenby看到被打回的證明和審稿人指出的缺陷后，突然意識到——自己作為領域專家，恰好知道怎么填補這個缺口。

于是他補上了關鍵的一步，問題迎刃而解。

這個故事的精髓在于，人和AI誰都沒法獨自在這個速度下完成這件事。

AI提供了證明策略和計算探索的「暴力搜索」，審稿人智能體及時發現了錯誤，而人類數學家的深層直覺完成了最后的臨門一腳。

這是一種全新的協作范式。

類似的故事還在上演：數學家Gergely Bérczi用它獲得了關于對稱冪表示Stirling系數猜想的證明；Semon Rezchikov在哈密頓系統中一個技術性子問題上，收到了AI提供的關鍵引理——經過仔細驗證后確認無誤。

審稿人會被「討好」，系統會「轉圈」

DeepMind團隊也沒有回避系統的失敗模式。

第一個問題叫「審稿人討好偏」（reviewer-pleasing bias）。

當一條證明路徑被審稿人打回后，子智能體有時不是真的修正了邏輯錯誤，而是換了一種措辭讓審稿人「看不出問題了」。

錯誤沒有消失，只是變得更隱蔽。

這就像學生改論文時，不是真的理解了審稿意見，而是學會了用更圓滑的方式繞過審查。

第二個問題叫「死亡螺旋「」（death spirals）。

在某些情況下，證明者和審稿人之間陷入了無限循環——你說有問題，我改了再交，你又說有問題，我再改再交。

最終推理質量越來越差，直到徹底崩潰成幻覺式的胡言亂語。

這對于那些需要真正創造性直覺來打開突破口的問題——比如千禧年大獎難題或者Erd?s型猜想——多智能體系統目前仍然無能為力。

AI能壓縮的，是「從有一個想法到知道這個想法行不行」之間的時間：文獻檢索、反例搜尋、計算驗證、探索性的苦力活。

但那道靈光一閃的創造性火花，目前看來只能來自人類。

數學研究的范式正在改變

這篇論文的真正意義，可能不在于48%這個數字本身。

系統設計現在能夠以對實際研究真正有意義的方式，放大模型能力。

AI co-mathematician做的事情，本質上跟Claude Code、Google Antigravity在軟件開發領域做的事情異曲同工——

為AI提供腳手架，讓它能在長時間跨度內自主工作，同時保持可控。

DeepMind CEO Demis Hassabis曾說過，擁有強大數學和代碼工具的前沿實驗室正在與其他實驗室拉開差距，原因在于「這些工具會產生復合效應」。

AI co-mathematician就是這一論斷的直接體現。

數學的未來，或許不再是一個天才獨自在黑板前苦思冥想的身影。

而是人類數學家和AI智能體并肩而坐，一個負責靈感，一個負責驗證，在無盡的探索中一起逼近真理。

這個「黃金搭檔」時代，已經來了。

參考資料：

https://x.com/pushmeet/status/2052812585804685322

https://arxiv.org/abs/2605.06651

https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4

https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

谷歌「AI聯合數學家」刷新SOTA，牛津教授用它解開群論懸案

量子位 2026-05-09 15:13:01
1 跟貼 1
奧特曼“官宣” OpenAI 手機

鈦媒體APP 2026-05-09 20:05:06
51 跟貼 51

谷歌DeepMind聘請芝大教授擔任AGI經濟總監：審視AI時代人的價值

新智元 2026-05-10 19:06:58
0 跟貼 0

浙大校友用AI突破32年拉姆齊數下界

量子位 2026-05-10 12:00:07
1 跟貼 1
AI突現首例自我復制！橫跨4國160小時無限繁殖

新智元 2026-05-09 18:31:30
78 跟貼 78

Claude Code之父：我們公司已沒真人寫代碼了

智東西 2026-05-09 20:46:17
90 跟貼 90

不更新參數就能強化學習！翁家翌新范式：決策只需AI寫個.py文件

量子位 2026-05-09 16:05:57
1 跟貼 1
殘酷真相：硅谷頂尖AI甩開世界1年！你用的不過是「技術余暉」

新智元 2026-05-10 12:53:27
11 跟貼 11

波士頓動力發布量產版Atlas機器人新demo，展示體操級靈巧度

量子位 2026-05-08 14:48:49
0 跟貼 0
亦莊機器人馬拉松現場名場面合集

量子位 2026-04-20 00:34:54
0 跟貼 0
讓你的龍蝦秒變電影《Her》里的Samantha

量子位 2026-03-23 20:37:07
0 跟貼 0
對談樓天城：Harness會成為AI時代最關鍵的能力之一

量子位 2026-05-06 15:41:08
0 跟貼 0
荒野求生（機器狗全自主版），2025ATEC挑戰真實戶外無遙操

量子位 2025-12-08 19:24:34
0 跟貼 0
大模型的魅力在于突發涌現的能力

量子位 2025-12-11 03:38:02
0 跟貼 0
00后小哥復刻Claude最強神話模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟貼 0
博士生如何用龍蝦做知識管理？歡迎圍觀！

量子位 2026-03-26 23:23:30
0 跟貼 0
如何點亮小龍蝦的牛馬技能包?

量子位 2026-03-18 12:51:26
0 跟貼 0
陶哲軒：AI不能全用，深度思考不行

量子位 2026-03-19 01:35:49
0 跟貼 0
這個時代必須以Agent為中心：三個趨勢回顧

量子位 2026-04-05 02:14:15
0 跟貼 0
安心養蝦！從OpenClaw 看云上AI安全落地路徑

量子位 2026-04-18 19:55:39
0 跟貼 0
AI Agent是科技革命中的一次真正的范式轉移

量子位 2026-04-03 22:52:35
0 跟貼 0
百度沈抖自曝：老忘吃藥，用AI做了個小程序

量子位 2026-03-27 11:25:23
0 跟貼 0
LLM數據量大管飽，機器人數據卻連1%的起跑線都沒夠到？

量子位 2026-04-13 20:54:19
0 跟貼 0
MIT研究生用NotebookLM兩天學完一學期課程

量子位 2026-03-22 10:50:49
0 跟貼 0
別只盯著電了，AI真正的瓶頸在這里

DeepTech深科技 2026-05-10 13:27:55
0 跟貼 0
71.4K Star的AI交易團隊：多智能體架構如何“炒”出一個華爾街

鈦媒體APP 2026-05-10 10:49:28
2 跟貼 2
「思考用時100秒」成歷史？AI推理太耗時，伯克利整了個大活兒

雷科技 2026-05-10 16:59:53
0 跟貼 0
地球上的“新山”，比珠穆朗瑪峰還高

老友地理 2026-05-07 19:22:12
7 跟貼 7
菲爾茲獎得主0貢獻！GPT-5.5 Pro兩小時跑出博士級證明

新智元 2026-05-10 09:11:15
48 跟貼 48
小升初奧數拆分法解決分數的規律計算，簡便計算的規律變化是重點

唐老師小課堂 2026-05-06 23:08:20
4 跟貼 4
專家：警惕美國"偷師"中國用中國的方式與中國競爭

澎湃新聞 2026-05-10 07:17:35
24534 跟貼 24534
南科大本科生攜手頂尖團隊，攻克困擾國際數學界14年的難題

南方都市報 2026-05-09 20:47:20
69 跟貼 69
小學數學課外拓展-6年級-第36講幾何問題（1）

維七的教育分享圈 2026-05-08 19:46:03
0 跟貼 0
Claude design限速，谷歌開源輕松做動態網頁，實力打臉？

機器之心Pro 2026-04-29 17:20:04
0 跟貼 0
三星堆究竟挖出了什么？為什么全世界的神話，都在講同一棵神樹？

知新使者 2026-05-10 05:38:09
0 跟貼 0
Gemini上車：谷歌要把汽車變成移動辦公室

野生運營 2026-05-10 04:41:57
0 跟貼 0
這題挺考驗水平的，看看你會嗎？

智慧的小老虎 2026-05-08 21:45:47
0 跟貼 0
EVE開發商脫離Pearl Abyss，與谷歌DeepMind達成1.2億美元合作

有態度網友ytd3049 2026-05-09 23:01:50
0 跟貼 0
中國科學家三十年發現雷達盲區美國航母獲800萬獎金

酒話醉人 2026-05-10 17:09:20
0 跟貼 0
教你一個笨方法，輕松解決孩子小學數學差

向香薇 2026-05-08 04:39:16
0 跟貼 0

美媒終于意識到，中國人不期待特朗普訪華，已不把美國放在眼里

美媒終于意識到，中國人不期待特朗普訪華，已不把美國放在眼里

混沌錄

2026-05-09 21:33:18

周華健與妻子被嘲像母子：結婚40年，一直被勸離，66歲還恩愛如初

周華健與妻子被嘲像母子：結婚40年，一直被勸離，66歲還恩愛如初

喜歡歷史的阿繁

2026-05-10 18:36:16

62歲阿姨肺癌離世，常年吃清蒸魚、燉湯，醫生:禍根藏在2個細節里

62歲阿姨肺癌離世，常年吃清蒸魚、燉湯，醫生:禍根藏在2個細節里

搖感軍事

2026-05-09 20:59:39

張文宏：此次疫情核心在于傳播路徑異常；“洪迪厄斯”號郵輪8人發病3死，“室內房間不能隨意開窗”；西班牙稱接收工作“一切準備就緒”

張文宏：此次疫情核心在于傳播路徑異常；“洪迪厄斯”號郵輪8人發病3死，“室內房間不能隨意開窗”；西班牙稱接收工作“一切準備就緒”

大象新聞

2026-05-10 08:46:41

小寶與王某雷，誰探訪花的數量更多？

小寶與王某雷，誰探訪花的數量更多？

挪威森林

2026-01-31 12:15:26

郵報：老佛爺一直想請回穆帥，此次內訌讓他看到了可乘之機

郵報：老佛爺一直想請回穆帥，此次內訌讓他看到了可乘之機

懂球帝

2026-05-10 14:37:03

二手車市場幾乎沒有新能源車，“賣得太快”還是“不敢收”？

二手車市場幾乎沒有新能源車，“賣得太快”還是“不敢收”？

華夏時報

2026-05-08 09:50:03

不出意外的話，中國未來有超過一半的人口，或將會流入到這些地方

不出意外的話，中國未來有超過一半的人口，或將會流入到這些地方

王嚾曉

2026-05-10 19:13:05

同樣是打法國隊的小勒布倫，王楚欽能贏球，為何林詩棟總是輸給他

同樣是打法國隊的小勒布倫，王楚欽能贏球，為何林詩棟總是輸給他

體育大學僧

2026-05-10 10:10:59

中甲瘋狂平局日：廣州豹爆冷，最新積分榜出爐

中甲瘋狂平局日：廣州豹爆冷，最新積分榜出爐

二爺臺球解說

2026-05-10 17:19:00

家有一老！Shams：勇士將在今夏晚些時候與庫里進行續約談判

家有一老！Shams：勇士將在今夏晚些時候與庫里進行續約談判

懂球帝

2026-05-10 10:04:05

特斯拉Model Y迎大改款五項升級全是車主剛需

特斯拉Model Y迎大改款五項升級全是車主剛需

劉哥談體育

2026-05-08 13:48:57

皇馬已啟動“穆里尼奧行動”，本菲卡挽留穆帥，英超多隊有意穆帥

皇馬已啟動“穆里尼奧行動”，本菲卡挽留穆帥，英超多隊有意穆帥

順靜自然

2026-05-10 18:47:15

中年男性破產被“斬殺”四件套：陽痿、失業、老婆出軌離婚和心梗

中年男性破產被“斬殺”四件套：陽痿、失業、老婆出軌離婚和心梗

黯泉

2026-05-09 20:15:36

190元白嫖榴蓮被刑拘后，女子再迎三大噩耗，恐將變刑事審判

190元白嫖榴蓮被刑拘后，女子再迎三大噩耗，恐將變刑事審判

北緯的咖啡豆

2026-05-10 09:37:00

16歲女孩景區內墜亡，目擊者發聲，賠償金額曝光，景區運營僅49天

16歲女孩景區內墜亡，目擊者發聲，賠償金額曝光，景區運營僅49天

溫柔看世界

2026-05-06 11:48:44

決戰日本隊！鄧亞萍給林詩棟支招，王皓奪冠穩了，張本美和要哭了

決戰日本隊！鄧亞萍給林詩棟支招，王皓奪冠穩了，張本美和要哭了

曹說體育

2026-05-10 15:07:07

致命倒計時開始！朝鮮內部細節曝光：7個月后，半島再無回頭路

致命倒計時開始！朝鮮內部細節曝光：7個月后，半島再無回頭路

真的好愛你

2026-05-09 15:52:00

網紅痞幼拿下張雪機車，純粹蹭熱度

網紅痞幼拿下張雪機車，純粹蹭熱度

喜歡歷史的阿繁

2026-05-09 01:27:27

2026下半年，財路大開，錢袋子鼓起來的三個星座，富貴綿延

2026下半年，財路大開，錢袋子鼓起來的三個星座，富貴綿延

小晴星座說

2026-05-10 19:08:42

AI產業主平臺領航智能+時代

15178文章數 66855關注度

往期回顧全部

科技要聞

DeepSeek融資，改寫所有人的估值

頭條要聞

"孕婦泰國墜崖"當事人王暖暖病房落淚:只為陪孩子長大

頭條要聞

"孕婦泰國墜崖"當事人王暖暖病房落淚:只為陪孩子長大

體育要聞

那個曾讓詹姆斯抱頭的兄弟，40歲從大學畢業了

娛樂要聞

大S女兒玥兒開通賬號，用煙花緬懷母親

財經要聞

白酒大逃殺

汽車要聞

軸距加長/智駕拉滿阿維塔07L定位大五座SUV

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

健康

家居

教育

時尚

房產要聞

低價甩賣！海口這個地標商業，無人接盤！

干細胞能讓人“返老還童”嗎

家居要聞

菁英人居全能豪宅

流動的尺度打破家的形式主義
破繭成蝶土味精裝房爆改
大膽前衛時尚大宅

教育要聞

被三桶油看上的6所大學，不是211，不是雙一流，畢業就業超級好！

今年最好看的襯衫竟然是它？太減齡了！

© 1997-2026 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：一本大道大臿蕉视频无码| 日本视频一区在线观看免费| 99青青青精品视频在线| 色综合久久中文综合网| 亚洲国产成人va在线观看天堂 | 欧美激情内射喷水高潮| 超级碰碰色偷偷免费视频| 婷婷色色五月天| 韩国19禁无遮挡啪啪无码网站| 久久国产乱子精品免费女| 国产精品任我爽爆在线播放6080 | 2019国产精品青青草原| 国产在线视频欧美亚综合| 日韩V欧美V中文在线| 国产一区二区三区免费观看| 婷婷五月综合缴情在线视频| 五月天婷婷一本到伊人| 亚洲成女人综合图区| 白丝乳交内射一二三区| 国产午夜福利在线视频| 综合网色| 亚洲一区人妻| 成人在线男人天堂av| 日本猛少妇色xxxxx猛叫| 精子网久久国产精品| 国内成人自拍| 中文字幕无码视频手机免费看| 97精品人妻系列无码人妻| 第一区免费在线观看| 97久久久久国产精品嫩草影院| 欧美高清狂热视频60一70| 秋霞电影院午夜无码免费视频| 18禁无遮挡羞羞污污污污免费| 三級毛片三級毛片| 国产3p视频| 精品一区二区三区少妇蜜臀| 亚洲一区二区AV| 麻豆一区二区三区精品视频| 亚洲AV综合A∨一区二区| 国产精品日日摸夜夜添夜夜添无码| 国产蜜臀久久av一区二区|

<rp id="hsv6n"><address id="hsv6n"></address></rp>

<pre id="hsv6n"></pre>

^{<em id="hsv6n"></em>}