![]()
新智元報道
![]()
【新智元導讀】OpenAI用125頁思維鏈踹開Erd?s 80年猜想的門,Mythos如今找到了一條更短更優雅的路。最離譜的是,它拿到第一個可行解就停手了——面對名滿天下的開放問題,AI也會緊張。
AI做數學這件事,速度已經徹底「失控」了!
OpenAI前腳剛推翻了一個懸了80年的數學猜想,Anthropic后腳就亮出證明。同一周,DeepMind還一口氣啃下了9道同類難題。
就在剛剛,Anthropic研究員Levent Alpoge在上甩出十條推文:
OpenAI花了125頁才解開,他周末拿Mythos隨手一試。
不僅分分鐘搞定,而且路徑還更短更簡潔!
![]()
斷網隔離,Mythos開測
這位Levent Alpoge來頭可不小。
1992年出生,哈佛本科4.0滿分、劍橋Part III、普林斯頓博士(導師是菲爾茲獎得主Manjul Bhargava),2015年拿了Morgan Prize(美國本科生數學研究最高獎),哈佛Junior Fellow,并且解決了希爾伯特第十問題在所有數域上的推廣。
2023年GPT-4發布,他立刻被擊中了。
對我來說,它瞬間成了人類有史以來創造的最有趣的東西。回到CS!
緊接著,他便加入了Anthropic。
![]()
這周OpenAI破解Erd?s難題之后,Levent做了一件「顯而易見的事」——讓Mythos也試試。
為了確保公平,測試條件很嚴格。
多個Claude Code實例各自獨立工作,全程斷網,杜絕從OpenAI公開解法里「抄作業」的可能。
![]()
結果,模型不止一次找到了和OpenAI類似的解法,但它更偏愛另一條完全不同但更加簡潔的路。
更有意思的是,模型明明已經找到了一個能推翻猜想的方案,卻在第一個可行答案上就停了下來。
明明往前再走一步,就能拿到更強的結果。但Mythos太緊張了!
面對這道名滿天下的開放問題,它不敢相信自己的結論,保守地停在了第一個可行方案上。
看到這,Levent直接樂了:「這種感覺,所有數學家都懂!」
![]()
目前,Opus 4.7已完成了證明全文的整理排版:
![]()
https://www-cdn.anthropic.com/files/4zrzovbb/website/ca35f196125c899a5ad11f011080202a652aef02.pdf
80年沒人贏過的賭注
時間撥回1946年。
匈牙利數學家Paul Erd?s提了一個聽起來極簡單的問題,在平面上撒n個點,最多能有多少對點之間的距離恰好是1?
舉個例子,你在桌上擺100枚硬幣,每兩枚硬幣圓心之間如果剛好隔一個硬幣直徑,就算一對「單位距離」。100枚硬幣最多能湊出多少對?
Erd?s自己給了一個答案:把點排成方格網格,經過適當縮放后,單位距離對的數量大約是n^(1+c/log log n)。
也就是,100枚硬幣大概能湊出100多一丟丟對。
然后他下了賭注,這就是極限了,沒人能做得更好。
![]()
之所以這么自信,因為這里有個關鍵瓶頸——高斯整數Z[i]。
Erd?s的方格網格依賴這個數系,而一個固定范數在Z[i]里能分解出多少種方式,取決于除數函數,上限大約是 exp(O(log n / log log n))。
這就是那個「多出一丁點」的天花板。
80年來,所有人都在這個框架里打轉。
![]()
數論重武器,降維打擊幾何學
對于人類數學家來說,代代相傳的直覺是「答案要在高斯整數Z[i]里找」。
Mythos沒讀過這個傳統,一上來就把Z[i]換成了次數遠比2大的數域K的整數環O_K。
聽起來像「用大炮打蚊子」,但就是這種跨學科的暴力,撬開了80年的僵局。
![]()
方法是,先利用Golod-Shafarevich判則,在一個二次域上面搭一座無限高的「數域塔」K? ? K? ? K? ?……
然后對每一層K_n取一個四次根擴張F_n = K_n(D^{1/4}),次數為d_n。
這座塔之所以管用,靠的是一個關鍵性質:
不管塔造多高,數域的「復雜度密度」始終有界,結構始終可控。一旦參數夠大,幾何計數就能啟動。
![]()
接下來是整個證明的核心。
在Erd?s的Z[i]里,單位群只有{±1, ±i}四個元素。能往外伸的「單位距離方向」就這么幾個,直接被除數函數死死卡住。
但在高維數域里,單位群的秩隨維度增長,van der Corput定理直接把秩轉化成方向數。
如此一來,4個方向就變成隨維度爆炸式增長。
![]()
這段看不懂沒關系,記住一件事就行——
Erd?s被困在一個只有4個出口的房間里,Mythos把墻拆了。
![]()
接下來是具體的構造。
首先,選一個實嵌入把這些數投射到平面上,就得到了點集P。
然后,取一個單位向量平移這些點,新舊兩點之間的距離恰好是1。
因為方向數增長極快,滿足條件的點對數量遠超Erd?s的上限。
兩者相乘,就得到了多項式增益。
![]()
更直覺地說:
單位距離方向數增長為exp(Ω(d log log d)),而所有其他損耗全是exp(O(d))量級。d log log d碾壓d。
Erd?s的猜想,就這樣被推翻了。
整個論證沒有任何解析上的復雜性。和OpenAI那條125頁路徑相比,簡潔得多。
![]()
用Levent自己的話說:
高層來看,這本質上還是Erd?s原始構造加上一座類域塔。
只不過這里做的是字面意義上最蠢的事——把大小不超過半徑一半的點加到大小不超過半徑一半的單位上。
而它之所以管用,是因為類域塔的幾何計數增長實在太快了。
![]()
一周三連,各自破城
過去這一周的時間線,信息密度高到離譜。
5月20日OpenAI官宣,一個未公開名稱的通用推理模型,自主反駁了Erd?s單位距離猜想。
同一天,普林斯頓教授Will Sawin在arXiv貼出手工改進版,把指數從6×10?3?干到了0.014。103?倍的差距。
Georgia Tech數學家Tom Trotter,Erd?s本人的合作者感慨道:「如果Erd?s還活著,他一定會激動到發瘋。」
5月21日DeepMind上場,AlphaProof Nexus一口氣啃下9道Erd?s題,每道推理成本最多只需幾百美元。
5月26日,Anthropic也宣布實現獨立證明,路徑比OpenAI的125頁短得多。
三家路線完全不同,但結果都收斂到了同一個點。
![]()
從笑話到《數學年刊》
要知道,在七個月前AI做數學還是個笑話。
2025年10月,OpenAI時任VP Kevin Weil在上宣稱GPT-5解決了10個Erd?s問題。
看到推文后,負責維護erdosproblems.com的數學家Thomas Bloom當場回懟「嚴重歪曲事實」,模型只是檢索到了已知解法。Yann LeCun和Demis Hassabis都跟著嘲諷了一波。
很快,Weil就刪了帖,并在四個月后離開了OpenAI。
![]()
當時所有人的判斷都一樣:模型會做題,但不會做研究。
轉眼到了今天。
Bloom簽了驗證報告。Gowers寫下了「提交到《數學年刊》我會毫不猶豫推薦接受」的盛贊。Litt說這是「AI自主產出的第一個讓我覺得本身就有意思的結果」。
甚至,Litt還在Nature的采訪中表示:「沒有人類能像LLM那樣吸收全部數學文獻。AI正在打破學科之間的壁壘。」
![]()
三年前GPT-4還做不了本科數學題。
如今,讓最偉大的數學家都感到絕望的Erd?s問題,卻正在變成AI的入學考試!
打破80年僵局的,是一個不知道「這題應該怎么想」的模型。
沒有包袱,反而能從代數數論里借來重武器去打一道幾何題。
Erd?s留下了超過1000道未解題。這周又解了1道。
參考資料:
https://x.com/__alpoge__/status/2059298565093196012?s=20
https://x.com/_sholtodouglas/status/2059303540150137244?s=20
https://www-cdn.anthropic.com/files/4zrzovbb/website/ca35f196125c899a5ad11f011080202a652aef02.pdf
編輯:摩西
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.