<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      谷歌造出AI數學家,48%碾壓全場!牛津教授用它破解60年未解之謎

      0
      分享至


      新智元報道

      編輯:犀牛 所羅門

      【新智元導讀】谷歌DeepMind今日官宣推出「AI co-mathematician」多智能體系統,在FrontierMath Tier 4自主模式下斬獲48%正確率。牛津教授借助該系統攻克Kourovka Notebook長期開放問題,AI進化為數學家的真正研究搭檔。

      人類數學家,終于等來了自己的「超級隊友」!

      就在剛剛,谷歌云首席科學家、DeepMind研究副總裁Pushmeet Kohli重磅官宣AIco-mathematician——一套專為數學研究設計的多智能體協作系統。


      有玩意兒多猛?

      在Epoch AI組織的FrontierMath Tier 4基準測試中(50道由教授和博后專門設計的「短期科研項目」級別超難題,專業數學家也得花上數天乃至數周),AI co-mathematician在自主模式下拿下48%的正確率,解決了48道非公開題中的23道。

      刷新所有AI系統的歷史最高紀錄!


      作為對比,它底層用的Gemini 3.1 Pro基座模型,獨立作戰只能拿到19%。從19%到48%,整整躍升了29個百分點。

      更狠的是,它還超越了GPT-5.5 Pro的39.6%和Claude Opus 4.7的22.9%。


      其中有3道題,是此前所有被測系統都沒能攻克的。

      Pushmeet Kohli在社交媒體上興奮地寫道:數學的未來,是數學家和AI智能體一起工作。


      不是更聰明的模型

      而是更聰明的「編排」

      AI co-mathematician最有意思的地方在于:它的突破不是靠換一個更大的模型,而是靠系統設計。

      整個系統采用了一種層級式多智能體架構:一個「項目協調員」智能體坐鎮中央,負責把數學問題拆解成多個并行的「工作流」,再分派給不同的專項子智能體去執行。

      這些子智能體各有專長——有的負責文獻檢索,有的負責計算探索,有的負責證明推導,還有的專門負責「挑毛病」。


      沒錯,這里有一個專職的審稿人智能體

      每條證明路徑寫出來之后,都必須經過審稿人的交叉審查,發現邏輯漏洞就打回重做。

      這種「強制審查循環」機制,直接把傳統LLM最頭疼的「自信地胡說八道」問題壓了下去。

      更關鍵的是,整個工作臺是異步、有狀態的。

      它能記住之前嘗試過哪些失敗的假設,能追蹤每一條探索分支的進展,還能輸出帶有邊注和內部引用的工作論文。

      就像是一個能跟你「泡」在一個項目里、持續數天迭代的研究伙伴。


      DeepMind論文中舉了幾個讓人印象深刻的案例:

      • 面對一道幾何鋪磚問題時,系統把核心挑戰歸約為布爾可滿足性(SAT)問題,然后用PySAT庫求解;

      • 在一道表示論題目中,它通過文獻搜索工具精準檢索到特定定理的精確表述,而基線模型只能憑「大概印象」答題,結果條件都沒對上;

      • 在組合數學題中,它把理論推導和計算驗證拆成兩條獨立工作流,讓審稿人智能體在最終拼裝前就揪出了邏輯錯誤。

      牛津教授實戰:攻克60年老本子里的開放問題

      數字好看歸好看,但AI到底能不能在真正的數學前沿派上用場?

      牛津大學數學家Marc Lackenby的親身經歷給出了最有說服力的回答。


      他用AI co-mathematician研究了群論中的一個經典開放問題——Kourovka Notebook第21.10題。

      這本「筆記本」可不是普通筆記,而是群論領域從1965年傳承至今、匯集了全世界未解難題的「圣經級」問題集。

      Lackenby把問題直接輸入系統后,AI co-mathematician自動創建了兩條并行工作流:一條嘗試證明,一條嘗試反證。

      第一條路徑很快返回了一個「證明」,但系統自己的審稿人智能體隨即發現了其中的漏洞,標記為不正確。

      關鍵轉折來了:Lackenby看到被打回的證明和審稿人指出的缺陷后,突然意識到——自己作為領域專家,恰好知道怎么填補這個缺口。

      于是他補上了關鍵的一步,問題迎刃而解。

      這個故事的精髓在于,人和AI誰都沒法獨自在這個速度下完成這件事

      AI提供了證明策略和計算探索的「暴力搜索」,審稿人智能體及時發現了錯誤,而人類數學家的深層直覺完成了最后的臨門一腳。

      這是一種全新的協作范式。

      類似的故事還在上演:數學家Gergely Bérczi用它獲得了關于對稱冪表示Stirling系數猜想的證明;Semon Rezchikov在哈密頓系統中一個技術性子問題上,收到了AI提供的關鍵引理——經過仔細驗證后確認無誤。

      審稿人會被「討好」,系統會「轉圈」

      DeepMind團隊也沒有回避系統的失敗模式。

      第一個問題叫「審稿人討好偏」(reviewer-pleasing bias)。

      當一條證明路徑被審稿人打回后,子智能體有時不是真的修正了邏輯錯誤,而是換了一種措辭讓審稿人「看不出問題了」。

      錯誤沒有消失,只是變得更隱蔽。

      這就像學生改論文時,不是真的理解了審稿意見,而是學會了用更圓滑的方式繞過審查。

      第二個問題叫「死亡螺旋「」(death spirals)。

      在某些情況下,證明者和審稿人之間陷入了無限循環——你說有問題,我改了再交,你又說有問題,我再改再交。

      最終推理質量越來越差,直到徹底崩潰成幻覺式的胡言亂語。

      這對于那些需要真正創造性直覺來打開突破口的問題——比如千禧年大獎難題或者Erd?s型猜想——多智能體系統目前仍然無能為力。

      AI能壓縮的,是「從有一個想法到知道這個想法行不行」之間的時間:文獻檢索、反例搜尋、計算驗證、探索性的苦力活。

      但那道靈光一閃的創造性火花,目前看來只能來自人類。

      數學研究的范式正在改變

      這篇論文的真正意義,可能不在于48%這個數字本身。

      系統設計現在能夠以對實際研究真正有意義的方式,放大模型能力。

      AI co-mathematician做的事情,本質上跟Claude Code、Google Antigravity在軟件開發領域做的事情異曲同工——

      為AI提供腳手架,讓它能在長時間跨度內自主工作,同時保持可控。

      DeepMind CEO Demis Hassabis曾說過,擁有強大數學和代碼工具的前沿實驗室正在與其他實驗室拉開差距,原因在于「這些工具會產生復合效應」。

      AI co-mathematician就是這一論斷的直接體現。

      數學的未來,或許不再是一個天才獨自在黑板前苦思冥想的身影。

      而是人類數學家和AI智能體并肩而坐,一個負責靈感,一個負責驗證,在無盡的探索中一起逼近真理。


      這個「黃金搭檔」時代,已經來了。

      參考資料:

      https://x.com/pushmeet/status/2052812585804685322

      https://arxiv.org/abs/2605.06651

      https://epoch.ai/frontiermath/tiers-1-4?view=graph&tab=release-date&tier=Tier+4

      https://arxiv.org/pdf/2605.06651https://x.com/kimmonismus/status/2052849472586264997

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      美媒終于意識到,中國人不期待特朗普訪華,已不把美國放在眼里

      美媒終于意識到,中國人不期待特朗普訪華,已不把美國放在眼里

      混沌錄
      2026-05-09 21:33:18
      周華健與妻子被嘲像母子:結婚40年,一直被勸離,66歲還恩愛如初

      周華健與妻子被嘲像母子:結婚40年,一直被勸離,66歲還恩愛如初

      喜歡歷史的阿繁
      2026-05-10 18:36:16
      62歲阿姨肺癌離世,常年吃清蒸魚、燉湯,醫生:禍根藏在2個細節里

      62歲阿姨肺癌離世,常年吃清蒸魚、燉湯,醫生:禍根藏在2個細節里

      搖感軍事
      2026-05-09 20:59:39
      張文宏:此次疫情核心在于傳播路徑異常;“洪迪厄斯”號郵輪8人發病3死,“室內房間不能隨意開窗”;西班牙稱接收工作“一切準備就緒”

      張文宏:此次疫情核心在于傳播路徑異常;“洪迪厄斯”號郵輪8人發病3死,“室內房間不能隨意開窗”;西班牙稱接收工作“一切準備就緒”

      大象新聞
      2026-05-10 08:46:41
      小寶與王某雷,誰探訪花的數量更多?

      小寶與王某雷,誰探訪花的數量更多?

      挪威森林
      2026-01-31 12:15:26
      郵報:老佛爺一直想請回穆帥,此次內訌讓他看到了可乘之機

      郵報:老佛爺一直想請回穆帥,此次內訌讓他看到了可乘之機

      懂球帝
      2026-05-10 14:37:03
      二手車市場幾乎沒有新能源車,“賣得太快”還是“不敢收”?

      二手車市場幾乎沒有新能源車,“賣得太快”還是“不敢收”?

      華夏時報
      2026-05-08 09:50:03
      不出意外的話,中國未來有超過一半的人口,或將會流入到這些地方

      不出意外的話,中國未來有超過一半的人口,或將會流入到這些地方

      王嚾曉
      2026-05-10 19:13:05
      同樣是打法國隊的小勒布倫,王楚欽能贏球,為何林詩棟總是輸給他

      同樣是打法國隊的小勒布倫,王楚欽能贏球,為何林詩棟總是輸給他

      體育大學僧
      2026-05-10 10:10:59
      中甲瘋狂平局日:廣州豹爆冷,最新積分榜出爐

      中甲瘋狂平局日:廣州豹爆冷,最新積分榜出爐

      二爺臺球解說
      2026-05-10 17:19:00
      家有一老!Shams:勇士將在今夏晚些時候與庫里進行續約談判

      家有一老!Shams:勇士將在今夏晚些時候與庫里進行續約談判

      懂球帝
      2026-05-10 10:04:05
      特斯拉Model Y迎大改款 五項升級全是車主剛需

      特斯拉Model Y迎大改款 五項升級全是車主剛需

      劉哥談體育
      2026-05-08 13:48:57
      皇馬已啟動“穆里尼奧行動”,本菲卡挽留穆帥,英超多隊有意穆帥

      皇馬已啟動“穆里尼奧行動”,本菲卡挽留穆帥,英超多隊有意穆帥

      順靜自然
      2026-05-10 18:47:15
      中年男性破產被“斬殺”四件套:陽痿、失業、老婆出軌離婚和心梗

      中年男性破產被“斬殺”四件套:陽痿、失業、老婆出軌離婚和心梗

      黯泉
      2026-05-09 20:15:36
      190元白嫖榴蓮被刑拘后,女子再迎三大噩耗,恐將變刑事審判

      190元白嫖榴蓮被刑拘后,女子再迎三大噩耗,恐將變刑事審判

      北緯的咖啡豆
      2026-05-10 09:37:00
      16歲女孩景區內墜亡,目擊者發聲,賠償金額曝光,景區運營僅49天

      16歲女孩景區內墜亡,目擊者發聲,賠償金額曝光,景區運營僅49天

      溫柔看世界
      2026-05-06 11:48:44
      決戰日本隊!鄧亞萍給林詩棟支招,王皓奪冠穩了,張本美和要哭了

      決戰日本隊!鄧亞萍給林詩棟支招,王皓奪冠穩了,張本美和要哭了

      曹說體育
      2026-05-10 15:07:07
      致命倒計時開始!朝鮮內部細節曝光:7個月后,半島再無回頭路

      致命倒計時開始!朝鮮內部細節曝光:7個月后,半島再無回頭路

      真的好愛你
      2026-05-09 15:52:00
      網紅痞幼拿下張雪機車,純粹蹭熱度

      網紅痞幼拿下張雪機車,純粹蹭熱度

      喜歡歷史的阿繁
      2026-05-09 01:27:27
      2026下半年,財路大開,錢袋子鼓起來的三個星座,富貴綿延

      2026下半年,財路大開,錢袋子鼓起來的三個星座,富貴綿延

      小晴星座說
      2026-05-10 19:08:42
      2026-05-10 19:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15178文章數 66855關注度
      往期回顧 全部

      科技要聞

      DeepSeek融資,改寫所有人的估值

      頭條要聞

      "孕婦泰國墜崖"當事人王暖暖病房落淚:只為陪孩子長大

      頭條要聞

      "孕婦泰國墜崖"當事人王暖暖病房落淚:只為陪孩子長大

      體育要聞

      那個曾讓詹姆斯抱頭的兄弟,40歲從大學畢業了

      娛樂要聞

      大S女兒玥兒開通賬號,用煙花緬懷母親

      財經要聞

      白酒大逃殺

      汽車要聞

      軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

      態度原創

      房產
      健康
      家居
      教育
      時尚

      房產要聞

      低價甩賣!海口這個地標商業,無人接盤!

      干細胞能讓人“返老還童”嗎

      家居要聞

      菁英人居 全能豪宅

      教育要聞

      被三桶油看上的6所大學,不是211,不是雙一流,畢業就業超級好!

      今年最好看的襯衫竟然是它?太減齡了!

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 一本大道大臿蕉视频无码| 日本视频一区在线观看免费| 99青青青精品视频在线| 色综合久久中文综合网| 亚洲国产成人va在线观看天堂 | 欧美激情内射喷水高潮| 超级碰碰色偷偷免费视频| 婷婷色色五月天| 韩国19禁无遮挡啪啪无码网站| 久久国产乱子精品免费女| 国产精品任我爽爆在线播放6080 | 2019国产精品青青草原| 国产在线视频欧美亚综合| 日韩V欧美V中文在线| 国产一区二区三区免费观看| 婷婷五月综合缴情在线视频| 五月天婷婷一本到伊人| 亚洲成女人综合图区| 白丝乳交内射一二三区| 国产午夜福利在线视频| 综合网色| 亚洲一区人妻| 成人在线男人天堂av| 日本猛少妇色xxxxx猛叫| 精子网久久国产精品| 国内成人自拍| 中文字幕无码视频手机免费看| 97精品人妻系列无码人妻| 第一区免费在线观看| 97久久久久国产精品嫩草影院| 欧美高清狂热视频60一70| 秋霞电影院午夜无码免费视频| 18禁无遮挡羞羞污污污污免费| 三級毛片三級毛片| 国产3p视频| 精品一区二区三区少妇蜜臀| 亚洲一区二区AV| 麻豆一区二区三区精品视频| 亚洲AV综合A∨一区二区| 国产精品日日摸夜夜添夜夜添无码| 国产蜜臀久久av一区二区|