![]()
過度炒作會導致倦怠和冷漠。如果一切都被描繪成某種奇跡般的突破,真正重要的進步就不會被認可。
AI自主解決有嚴肅學術背景的數學問題,這是今年第一季度最重要,至少是最引人注目的數學大事件。
撰文 | 嘉偉
AI大潮一日千里,許多技術還未流行就已過時。有人曾半開玩笑地總結現代AI工具的學習經驗:“你越不學,就越不用學。”
2025年夏天,AI模型在國際數學奧林匹克(IMO)上解出6道試題中的5道(相當于獲得了金牌),震驚了數學界。此后若干團隊開始深入研究,在當年年末,已經訓練出可以完美解答USAMO(美國數學奧林匹克競賽)試題,乃至著名的普特南數學競賽試題的AI模型[1, 2]。然而,為他們獻上的只有寥寥掌聲。因為就在同一時期,已經有AI能完全自主解決傳奇數學家保羅·埃爾德什(Paul Erd?s)遺留的數學問題。相較之下,僅僅是在有標準答案的考試中拿到滿分,這個水平就有些尷尬了。
AI模型自主解決開放的數學問題(以及AI輔助人類解決數學問題),堪稱是今年上半年最重要的數學事件。它從一開始就經歷了一連串的烏龍、炒作和反轉。
2025年10月18日,OpenAI旗下研究員Mark Sellke在社交平臺X上高調宣布:他們借助 GPT-5 成功解答了10個著名的埃爾德什問題(Erd?s problems)。
“經過對GPT-5的數千次查詢,我們發現了10個原本還處于開放狀態的問題的解答,分別是#223、#339、#494、#515、#621、#822、#883(第二部分)、#903、#1043、#1079。此外,還有11個難題取得了重要的部分進展,已更新到官網。甚至在第827題上,我們還發現埃爾德什本人原始論文里存在錯誤,這個錯誤由Martínez和Roldán-Pensado兩位學者后來進行了修正。看來,未來的科學研究要變得有趣了!”
OpenAI高管Kevin Weil和OpenAI另一知名研究員Sebastien Bubeck也興奮地應和:“由AI驅動的科學加速時代正式開啟了!兩位研究員僅一個周末就借助GPT-5成功解決了10個埃爾德什問題……”
不過Google DeepMind的CEO Demis Hassabis則在Mark Sellke的推文下意味深長地評論道:“太尷尬了(this is embarrassing)!”
原來OpenAI的宣傳夸大其詞,GPT-5只是通過網絡搜索,找到了早已存在的論文,這些論文解答了那些問題。只不過論文本身并不廣為人知。
幾個月后,還有位數學教授以這個烏龍事件為例,斷言現階段AI無法獨立攻克有真實學術背景的數學難題。未曾想話音未落,就有不止一個團隊站出來表示,他們已經讓AI獨立解決了某些埃爾德什問題。
經過一番甄別與審校,最終認定第一個做到此事的,是一位來自劍橋的21歲數學系本科生與他的合作伙伴。
不過在開始他們的故事之前,還是要解釋一下什么是埃爾德什問題,以及那些#號數字又代表什么。
先把問題放到一起
“埃爾德什問題”通常并不是指某一個特定的數學難題,而是指由20世紀最具傳奇色彩的匈牙利數學家保羅·埃爾德什生前提出的一大批數學猜想。
埃爾德什是一位“游俠數學家”,沒有固定住所,也沒有全職工作。他總是提著行李箱在世界各地的大學和研究所之間穿梭,常常不請自來地突然出現在數學家的家門口,嚷嚷“我的大腦隨時開放!”他被認為是數學史上最多產的合作者,一生中與超過500名數學家聯合發表過1500多篇論文。
許多著名的埃爾德什問題并非獨出機杼,而是他在別人客廳里、在咖啡館的餐巾紙上,與當地數學家熱烈討論時共同構思出來的。埃爾德什有一個非常著名的習慣——為未解問題開出懸賞。獎金金額從25美元(代表難度較低但仍需巧思)到10000美元(代表難度極高)不等。
如果在旅途中,他聽到別的數學家提出了一個非常優美、重要但尚未解決的問題,即使這個問題不是自己想出來的,他也會自掏腰包為它懸賞,并在各種國際會議上宣揚。
可以說,埃爾德什問題是埃爾德什以獨特的個人魅力、敏銳的直覺和慷慨的懸賞,在整個數學界建立起的一個問題寶庫。涉及的領域從加性組合、解析數論、極值圖論,到一般的集合論、數論、組合學和概率論。
近幾年非常有建樹的數學家Thomas Bloom(曼徹斯特大學的皇家學會大學研究員,解析數論和加性組合領域的專家)決定建立一個網站[3],用于收錄埃爾德什未解決的開放性難題。
這個網站最初創建于2023年3月底,問題以“#+數字”編號。一開始Bloom只私下分享鏈接,后來于2023年5月28日正式上線。筆者當時在微博上介紹過這個網站。當時它僅收錄了200多道問題,網站本身僅能瀏覽和查找。
因為這些問題來源不一,所以有些問題或許早已得到解決,只不過相關論文被埋沒在歷史之中。如下面著名的問題#707,是埃爾德什懸賞1000美元求解的難題。但后來發現,甚至早在埃爾德什提出這個問題的30年前,就有人想過這個問題并解決了它。這揭示了文獻檢索的困難——即使是頂級數學家也可能忽略已有的成果。
![]()
有賞格的數學問題。| 圖源:T. F. Bloom, Erd?s Problem #707
追求完美的Thomas Bloom每每想到自己會遺漏多少重要的資料,都會渾身難受。但沒有辦法,他只能默念伏爾泰的名言“完美是善的敵人”來勸慰自己。先把網站開起來,盡可能把問題收錄在冊;先統一標記為開放問題,再隨緣或借助網絡的力量,為已有答案的問題補上解答。這也是前面OpenAI搞了個大烏龍的原因。
因為網站全依賴他一人維護,每天光是手動錄入各種文獻就要耗費大量寶貴的時間。2025年8月,Bloom才為這個網站添加了評論功能,結果當天菲爾茲獎得主陶哲軒和Stijn Cambie、Vjeko Kovac在評論區討論一番,就為#379找到了一個簡短的解決方案。那些對話還保留了數學家的思考痕跡。
![]()
交流是有價值的。僅僅是添加了一個評論區供人們討論,一個猜想就從open變成了solved。Erd?s Problem #379的證明已通過Lean語言校驗得到確認。| 圖源:T. F. Bloom, Erd?s Problem #379
截至目前,erdosproblems.com網站上有超過1200個問題(只有約100個問題設有獎金),其中約44%已得到解決。
需要澄清的是,埃爾德什問題的難度跨度極大,有些極其困難,有些則“唾手可得”。有媒體動輒冠以“AI破解N年難題”,暗示這個問題非常困難,在N年間抵擋住了人類所有的破解嘗試。然而實際情況可能只是問題十分冷門,在數學界N年無人問津。
把問題放到一起,讓故紙堆中的問題被更多數學家看見,這大大加速了這些“遺留問題”的破解進程。有人開始意識到,這個網站恰好可以作為一塊試金石,來檢驗AI在真實學術活動中的潛力。
第一個吃螃蟹的AI
早在2024年,諸如Google DeepMind開發的強大AI模型已經可以輔助人類證明新的數學定理。但AI,或者說現在的大語言模型(LLM),能否在不需要人類提示的情況下獨立解答一個至今未解的埃爾德什問題?
名為Axiom Math的初創公司正試圖將數學中的“解謎”環節自動化。它在去年9月份宣布獲得6400萬美元的種子輪融資。
今年年初,這家公司表示他們的AI模型AxiomProver解決了兩個困擾數學界數十年的埃爾德什問題——#124和#481。
然而,這似乎是為了向投資人展示企業業務能力的一次炒作。
真正解決#124的AI是另一家公司Harmonic名為Aristotle(亞里士多德)的模型。不過Aristotle也投機取巧了:問題#124表述有歧義,其中一種理解方式會讓問題變得非常簡單。現在網站上收錄的#124是消除了歧義的版本,至今未有解答。
AxiomProver解決的#481,實際上早在1982年就已由David Klarner給出了證明。
所以上述兩例的記錄難以服眾(不過AxiomProver和Aristotle非常善于將數學證明轉為Lean語言),但他們啟發了更多的研究者。
Kevin Barreto,網名Acer,線上是亞文化社區里的“furry控”,線下是劍橋大學數學系21歲的本科生。他自13歲起就喜歡解析數論這門學科,早就翻過埃爾德什問題網站上所有未解題目。但他從未想過由自己來證明其中的某個猜想。
2025年11月,他看到Harmonic的Aristotle解決了簡化版的#124,就有些坐不住了。因為他當時對人工智能系統的能力還不太信服,覺得如果這些系統能在這些問題上取得進展,那么自己也有機會摘下一枚“低垂的果實”。
低垂的果實,low-hanging fruit。用于形容那些容易實現、成本低、風險小的目標或任務。陶哲軒在去年用這個短語來描述那些可被AI解決的數學問題,它也就成為數學界和AI領域的熱詞。
除了扎實的數學功底,Barreto還是Aristotle最早的測試用戶之一。
在連續兩次為早有解答的問題提交證明后,Kevin Barreto與合作伙伴Liam Price借助OpenAI當時新推出的GPT-5.2 Pro解決了#728。
2026年1月7日,Barreto使用Aristotle把證明過程自動轉為Lean語言并完成校驗,這一成果被陶哲軒稱為里程碑式的成就。這是第一個AI自主完成的,有嚴肅學術背景的埃爾德什問題的證明!
![]()
實際上,確認這個證明也是經過了一番波折。| 圖源:T. F. Bloom, Erd?s Problem #728
來勢洶洶
這兩人的成功,激發了大家的熱情。好奇的人們涌向了Bloom的網站。高峰時期,每天總計有15萬不同的訪客訪問這個網站。要知道,這可是一個純數學平臺。
很多人遞交了自己用AI生成的證明,可惜大部分網絡用戶缺少必要的數學知識,難以辨別AI的證明是胡言亂語還是真材實料。
陶哲軒建立了資源庫[4],用于記錄那些真正的證明。
從1月初到2月10日前后的一個多月里,他收到了大量針對這些問題的新解答,其中既有純AI生成的證明,也有人機協作的產物。有些被證明是錯誤的,還有一些被發現與已有方案相似,但盡管如此,還是有很多新解法被驗證——在此期間,網站上又有近50個問題被標記為已解決。AI工具對埃爾德什問題的真正成功率實際上只有一兩個百分點;但由于有600多個懸而未決的開放問題,這仍然帶來了令人印象深刻的實際貢獻,盡管這些貢獻絕大多數集中在難度天平里“容易”的那一端。
這里展示幾個有趣的結果。
Boris Alexeev、Mehtaab Sawhney等人使用OpenAI的內部模型一次解決了5個埃爾德什問題[5]。
![]()
#1091:如果一個圖的色數為4,而每個小子圖的色數至多為 3,那么它是否必須包含一個帶有許多對角線的奇圈?內部模型給出了一個非常啟發性的反例。| 圖源: Short proofs in combinatorics, probability and number theory II
美國17歲的高中生Enrique Barschkis在埃爾德什問題網站的評論區正確解答了一個開放問題#347。兩個月后,他又用AI自主解決了#1197。這個少年經常和數學家通信,向其請教諸如橢圓曲線等問題。因此很多美國數學家都知道他,還給予過指導和鼓勵。
![]()
這個問題,提交者沒有使用AI。| 圖源:T. F. Bloom, Erd?s Problem #347
同樣17歲的Sky Yang 未用AI,證明了#369。
![]()
這個問題,提交者同樣17歲,沒有使用AI。|圖源:T. F. Bloom, Erd?s Problem #369
Ulam.ai是一家專注于前沿AI推理數據與評估的平臺,主要服務對象是AI實驗室和開發者。Ulam.ai研究員Przemek Chojecki先解決了#258,又解決了#1148。
后一個問題問,對于所有足夠大的正整數n,是否存在整數三元組(x,y,z),滿足max(x^2,y^2,z^2)≤n且n=x^2+y^2-z^2?(答案是肯定的)
這種高中生也能充分理解題意的成果真的令我喜歡。順便一提,證明方法則完全相反,是非初等的。
Przemek Chojecki還公布了他使用AI研究數學的方法。這與Kevin Barreto和Liam Price的方法論大體相同,不過后者要更加細節化。我整理后分享如下。
使用AI做數學的方法論
1. 你必須具備一種能力或素養,大致能看出哪些問題是足夠簡單的。
2. 使用當下最前沿的AI。其實就是最貴的AI。如果是GPT系列,推薦訂閱月費200美元那一款。
3. 在把開放問題丟給AI時,要明令禁止它檢索。強迫它進入“思考”而不是搜索模式。避免模型識別出問題是開放的,因“膽怯”而拒絕嘗試。
4. 明確任務指令,告訴模型這是一個復雜的數學問題,每一步都需要嚴謹證明或反駁。
5. 用一個模型實例進行“研究問題陳述+頭腦風暴思路”。輸出簡短的提示(例如用LaTeX表達核心思路),供后續實例使用。
6. 用另一個模型實例根據提示嘗試寫出完整證明。
7. 交叉檢查,再用一個模型審查證明,指出潛在錯誤或缺口。通過迭代修正,逐步逼近正確解。
8. 避免幻覺的策略是鼓勵誠實,讓模型在遇到困難時說明“未能證明某個引理”,而不是編造。
9. 分步驗證,每個階段都要求模型解釋邏輯,而不是直接給最終答案。
10. 形式化與排版,將最終證明轉為LaTeX,保證表達清晰、規范。如果條件允許,可以進一步用Lean或其他證明助手進行形式化驗證。
11. 人類監督。即使不是專業數學家,也要檢查證明是否“看起來合理”,避免明顯的胡說八道。
最終迭代改進,人類反饋+模型修正,形成閉環。有志于數學研究的朋友都應嘗試一下,尤其是數學專業的學弟學妹。
價值幾何
那么現代AI工具到底能力如何?
陶哲軒在去年的時候曾表示,現在的AI大體上相當于聰明的博士研究生。這句話到今天仍未過時。
Kevin Barreto本人在前段時間也忍不住感嘆,AI給出的證明沒有真正讓他眼前一亮的新穎東西。但也不應該低估AI的潛力。
他們令AI提交的證明,與美國數學家Carl Bernard Pomerance 在2014 年的一篇論文所使用的方法非常相似。事實上,Pomerance 現在已發布了一份簡短的說明[6],展示了該論文中的方法如何可用于#728的證明。 不過,AI生成的方案確實是第一次把該技術用于這一問題。有關情況的完整概述,請參見 Nat Sothanaphan(曾是泰國IMO國家隊成員,并在 2012 年代表泰國參賽獲得銀牌)的完整報告[7]。
AI的貢獻,性質相當微妙;無論從單個案例看,還是考察整體趨勢,它們都不符合人工智能自主解決重大數學開放性問題這一被夸大的目標,但它們也不能都被視為無關緊要的小把戲。AI有一個顯而易見的價值,就是降低了數學愛好者進入前沿領域的門檻。
Kevin Barreto和Liam Price不同,是一位非常外向,樂于交流的青年。因此本文對前者著墨較多,在他還沒有出名之前,筆者就和他在線短暫交流過。他平時喜歡解復雜的積分作為娛樂,他特別喜歡陳景潤關于哥德巴赫猜想“1+2”的證明,找到“1+1”的證明是他的數學理想之一。
但實際上,Liam Price是技術力非常強的極客,只不過不愿透露個人的信息。他在團隊的貢獻,并不在Kevin Barreto之下。
他們兩人連續解決幾個埃爾德什問題后,又在專門為評估AI高階數學推理能力而設計的基準測試數據集FrontierMath項目里拔得頭籌。一次可以說是運氣,兩次那就是實力。
Kevin Barreto又加入Google DeepMind的團隊,在Gemini上也第一次實現了AI自主證明埃爾德什問題。
隨后他本想安心學業,但OpenAI拋來了橄欖枝。他果斷休學一年,進入當前AI領域的旗艦企業實習。
![]()
分享在OpenAI的工作生活。| 圖源:Kevin Barreto
OpenAI的高管邀請Kevin Barreto正式入職,但劍橋不允許無故連續休學2年。Barreto想留在企業,就只能選擇退學。
糾結不已的他在4月18日前后,甚至向網友求助,詢問如果現在退學,以后是否有辦法能繼續讀研。沒想到正應了本文最開頭的話:AI時代,瞬息萬變。就在Barreto猶豫的時候,向他發出邀請的OpenAI高管Kevin Weil在19日左右宣布離職(此君也是前面烏龍事件里的出場人物)。
與此同時,繼續獨立研究埃爾德什問題的Liam Price用AI自主解決了#1196。
![]()
一個有嚴肅學術背景的問題。| 圖源:T. F. Bloom, Erd?s Problem #1196
AI在證明過程中,出乎所有人意料地使用到了馬爾可夫鏈與通常不會用在此類問題的數論函數馮·曼戈爾特函數。這令人耳目一新、印象深刻,是數學家以前未曾設想過的思路。
菲爾茲獎得主、當今解析數論領域新一代領軍人物James Maynard的學生Jared Duker Lichtman對這個證明贊不絕口,甚至認為這相當于AI在數學領域里的Move 37時刻。
Move 37是指在2016年3月AlphaGo與李世石對決的第二局中,由AlphaGo(執白)下出的一步。這步棋被公認為是圍棋AI發展史上人工智能的棋力超越人類經驗的里程碑時刻。這是一手罕見的“肩沖”(shoulder hit),被視為出乎意料且具有高創造力的行棋。
不過,或許因為Lichtman曾長時間思考過這個問題未果,所以他對這個問題的價值是高估的。很多人并不太認可Move 37的看法,尤其是陶哲軒在簡化證明的時候發現,可以給出表面上不用馬爾可夫鏈的證明。
不過就在本文即將完稿的時候,前文提過的OpenAI研究員Sebastien Bubeck用當天剛上線的ChatGPT Images 2.0為#1196繪制了證明路線圖。稱之為AI第一個非平凡的數學成果。
![]()
#1196證明路線圖。| 圖源:Sebastien Bubeck
最后,有讀者可能會誤以為埃爾德什問題#728是第一個被AI自主解決的開放性數學問題。但據筆者考證,它并不是。
#728很可能是第二個。
蘇黎世聯邦理工學院的數學家Johannes Schmitt的團隊,他們更早(宣稱)實現了AI首次在沒有人類提示、沒有輔助框架的情況下,獨立給出一個開放數學問題的完整有效證明。
題目涉及曲線模空間上的交數,屬于枚舉幾何的研究方向。他們稱AI做出了“小但新穎的貢獻”。
不過因為這個問題沒有大數學家埃爾德什帶來的光環,所以并未引起大量關注。
![]()
枚舉幾何 | 圖源:Johannes Schmitt
后記
就在本文編輯的過程中,自GPT-5.5的發布不到48小時,就有20個埃爾德什問題的新答案提交。
前文提到的美國17歲的高中生Enrique Barschkis,把一個開放問題提交給GPT-5.5,自己出去散步80分鐘。回來之后,AI就為一個此前未知結果的數學問題找到了答案。甚至只需人手執行簡單的復制粘貼操作,AI提供的證明就能轉為編輯好的LaTeX格式并經過Lean語言校驗。
從5月1日到2日,24小時里就有5個問題的狀態從“開放”轉為“已解決”。實際上,Thomas Bloom的網站因AI提交答案太多(很多是毫無意義的),已經瀕臨癱瘓。他說:“我希望,在近期AI解決埃爾德什問題的大量宣傳中,至少能有幾個人真正閱讀了其中的數學內容,并學習了一些背后的理論,例如primitive sets。AI新聞頭條是次要的,它們背后蘊含的優美數學才是真正的主角!”
另外,關于#1196——可能是第一個被AI用獨創方法解決的問題,它的方法可以推廣,過幾天會有更多報告和論文[8]。但并非某些自媒體報道的那么夸張。
雖然中獎率還不高,但現在確實已經進入到大眾都可以研究前沿數學的時代。
這場AI盛宴,國內團隊普遍缺席。或許目前唯一大放異彩的參與者,是來自西安交通大學、今年剛剛大四的本科生湯泉宇。那就是另外一個精彩的故事了。
參考文獻
[1] From Seeing Why to Checking Everything | Axiom,https://axiommath.ai/territory/from-seeing-why-to-checking-everything
[2] Olympiad-level formal mathematical reasoning with reinforcement learning | Nature
[3] https://www.erdosproblems.com/
[4] https://github.com/teorth/erdosproblems/wiki/AI-contributions-to-Erd%C5%91s-problems
[5] Short proofs in combinatorics, probability and number theory II,https://arxiv.org/abs/2604.06609
[6] https://math.dartmouth.edu/~carlp/binom.pdf
[7] https://arxiv.org/abs/2601.07421
[8] [2605.00301] Primitive sets and von Mangoldt chains: Erd?s Problem #1196 and beyond,https://arxiv.org/abs/2605.00301
注:本文封面圖片來自版權圖庫,轉載使用可能引發版權糾紛。
![]()
特 別 提 示
1. 進入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。
2.『返樸』提供按月檢索文章功能。關注公眾號,回復四位數組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。
版權說明:歡迎個人轉發,任何形式的媒體或機構未經授權,不得轉載和摘編。轉載授權請在「返樸」微信公眾號內聯系后臺。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.