<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      LLM助力突破60年數學猜想!北大王立威團隊大幅刷新斯坦納比下界

      0
      分享至



      本文的共同第一作者包括北京大學信息科學技術學院圖靈班本科生柯繹思、疏彥凱、數學科學學院本科生黃天域;共同通訊作者為北京大學王立威老師、卡內基梅隆大學博士生蓋景初;其他作者還包括北京大學賀笛老師。

      近期,LLM 已經在 IMO 上取得了很好的成績,在一些研究級數學上(如短程證明、組合構造)也有所進展。但如果真正讓 LLM 去處理提出數十年的數學猜想,結果會是如何?在本工作中,北大王立威教授團隊構建了一套基于 LLM 的框架,聚焦Gilbert-Pollak 猜想(斯坦納比猜想),成功將二維平面的斯坦納比從 1985 年證明的 0.824 改進到了,距離猜想目標僅差 0.01,一步之遙!

      該進展已被陶哲軒 Terence Tao收錄組合數學優化中的常數列表中!問題編號 43。

      • 倉庫鏈接:https://github.com/teorth/optimizationproblems

      這個問題有多大影響力?在上個世紀,該問題由貝爾實驗室科學家 Gilbert 和 Pollak 提出。著名數學家、美國數學學會(AMS)前主席 Ronald Graham(葛立恒)、美國國家科學院院士 Fan Chung(金芳蓉)都對該問題進行過系統深入的研究。1990 年,堵丁柱教授和 Frank Hwang(黃光明)研究員進行了一系列相關研究,曾被譽為 1989 年 - 1990 年度美國離散數學界和理論計算機科學界重大成果。圍繞該問題的研究論文眾多,是一個飽受數學家關注的猜想。

      目前該工作已被 ICML 2026 接收,相關代碼和數學證明均已開源。



      • 論文標題:Towards Solving the Gilbert-Pollak Conjecture via Large Language Models
      • 論文地址:https://arxiv.org/abs/2601.22365
      • 項目倉庫:https://github.com/keyisi2006/Steiner-Ratio

      困擾人類 60 年的 Gilbert-Pollak 猜想





      形象點說:給定平面上 n 個城市,最小生成樹(MST)就是修建 n - 1 條鐵路將它們連起來。最小斯坦納樹(SMT)就是可以額外修建若干個中轉站,再修建鐵路將它們連起來。可以看出,合適地建立中轉站會讓路程變短,但猜想指出:并不會短太多。





      問題 1:直接寫成 prompt 問 LLM,行不行?

      之前一系列 AI4Math 的工作,要么是數學證明的長度較短(如 IMO 問題),要么是針對構造性的、非嚴謹證明性的組合構造問題。



      讓 LLM 直接去寫幾十頁的嚴謹數學證明,還要有創新性,對于目前 LLM 能力來說為時過早。為了解決斯坦納比猜想,必須減少證明長度,或者向構造性的方向轉換。

      步驟 1.1:看看人類數學家怎么做?

      回顧人類數學家的工作,發現大家都是采取了歸納法:對于一棵很大的斯坦納樹,只去考慮一個局部,從中摘除(prune)掉一小部分的點,并將剩下的點重連成斯坦納樹。



      那么,只要剩下的部分滿足比例(歸納假設)+ 摘除過程的變化量滿足比例,就可以合并得到原問題滿足比例!寫成一行公式就是:



      從而,問題的關鍵就是找到更好的摘除 / 分割樹的方式。

      步驟 1.2:整理一下?這就是 Max-Min 問題!

      本工作中提出了一個叫做驗證函數(verification functions)的數學工具,一個驗證函數就代表了一種分割樹的方式。歸納法就是要求:任意的樹形態,存在一種分割,使得比例成立。其實這就是一個max-min 問題:最大的樹形態 w ——最小的驗證函數 F。



      人類數學家嘗試了 10 種不同的 F,可以得到 0.824 的下界。如果 LLM 能幫助人類嘗試 1000 種不同的 F,就有機會得到更好的下界!

      本工作設計了一個Reward Model,自動化了這一 max-min 問題的求解過程,通過證明單調性,并配合分治法,為所有樹形態 w 找到一個驗證函數 F 進行覆蓋。以前人類數學家需要手動進行啟發式的參數空間劃分,現在一個代碼自動搞定。下圖是假設參數空間是 2 維的一個例子:



      至此,LLM 不再需要證明完整的猜想,它只需要找到更多的驗證函數 F,再與 reward model 交互就可以了!

      問題 2:找來的這么多 F,正確性怎么保證?

      想要生成 1000+ 個 F,只需要反復調用 LLM 即可。但基于自然語言推理的 LLM,你能相信它的嚴謹性嗎?如果讓人類一個一個檢查,時間開銷不可估量,難以 scale up。



      因此,我們必須讓 LLM 在正確性可驗證的框架中運行。

      步驟 2.1:給 LLM 一個引理模板

      本工作通過數學變換,證明了一個事實:找更多的 F 函數,可以通過找兩類引理的方式實現:一類是 Trapped Regular Point Lemma,另一類是 4-Point Steiner Tree Lemma。



      LLM 只需要負責填入結構化的參數,通過代碼片段進行表達,系統就可以通過翻譯(嵌入代碼片段)的方式產生一系列合法的 F。以第 1 類為例,這個翻譯過程可以是構造分段函數:



      步驟 2.2:光有模板還不夠,讓 LLM 徹底「搭積木」

      生成結構化的代碼片段仍然可能會出錯。必須要讓 LLM 像「搭積木」一樣,拼湊人類提供的規則(rules),讓數學軟件 Mathematica「合成」保對的引理,才能從根本上保證正確性。

      以第 1 類引理為例,本工作提出了 A、B 兩類規則,分別代表斯坦納樹必須滿足的性質,和確保點存在性的條件。LLM 要做的,就是去選擇 2 - 3 個規則,調用 Mathematica 去化簡「什么條件下,若干個 A 能推出一個 B」。



      通過這種方法,LLM 能在多輪的 tools 調用中,充分探索這個推理空間。而且這是保對的——任何的創意搭建,都不會產生邏輯的錯誤。

      問題 3:正確的 F 就能提升下界嗎,有沒有「渾水摸魚」?

      目前為止,系統看似很完美,實則還有一個隱藏的大問題:只是重復運行,生成 1000+ 個 F,很可能其中很多是平凡的甚至重復的,根本對斯坦納比沒有提升!



      如何讓 LLM 真正生成有效的 F?必須給它針對性的迭代引導信號

      步驟 3:針對問題的瓶頸反省機制

      本工作提出了瓶頸(bottleneck)的概念:在 reward model 運行完成后,把得到的提升一個小量 δ(比如 0.0001),再讓 reward model 運行——此時必然反饋失敗,未被 F 覆蓋的部分的 bounding box,就是瓶頸區域。



      換言之,瓶頸就是讓 ρ += δ 必須克服的參數區域。在下一輪生成 F 時,LLM 必須確保能夠覆蓋瓶頸區域。從而為每一輪的高效提升提供了保障。

      迭代系統框架和成果

      通過「重復生成 Reward → 確定瓶頸 → LLM Agent 提出引理 → 翻譯并開始下一輪」這個迭代范式,系統成功在 ~10 輪迭代中,將斯坦納比改進到了 0.8559。最終的成果通過了人類的檢查。



      本文基于 GPT-5 系列構建了系統,并驗證了模型魯棒性:其余模型如 Gemini 3 和 Claude 4.6 均可得到類似的結果。下圖展示了迭代輪次和斯坦納比的關系。



      結語

      本工作證明了 LLM 有能力為研究級數學提供幫助,但要設計合適的運作框架。

      在這個過程中,人類的 insight 仍然是必要的。同時,人類檢查也是必不可少的部分。

      如果要用 LLM 去處理其他數學問題,可以參考的內容包括,設計一個「搭積木」式的結構化推理空間,以及設計瓶頸反省機制。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      索要頂薪!里夫斯跳出合同,豪賭自由市場,佩林卡恐選擇妥協

      索要頂薪!里夫斯跳出合同,豪賭自由市場,佩林卡恐選擇妥協

      體育大朋說
      2026-05-18 14:52:45
      雙向奔赴!要降薪換長約!登哥這回穩了!

      雙向奔赴!要降薪換長約!登哥這回穩了!

      柚子說球
      2026-05-18 08:08:30
      昔日中超冠軍新主帥上任!國安前任正式接手,保級壓力大他能行么

      昔日中超冠軍新主帥上任!國安前任正式接手,保級壓力大他能行么

      林子說事
      2026-05-18 15:39:44
      涉嫌嚴重違紀違法,鄭宗暉被查

      涉嫌嚴重違紀違法,鄭宗暉被查

      都市快報橙柿互動
      2026-05-18 13:04:57
      重慶警方通報“一男子毆打嬰兒”:酒后與妻子發生口角,繼而毆打未滿兩個月的女兒,男子已被刑拘

      重慶警方通報“一男子毆打嬰兒”:酒后與妻子發生口角,繼而毆打未滿兩個月的女兒,男子已被刑拘

      環球網資訊
      2026-05-18 17:33:28
      兒童患癌越來越多!多名院士呼吁:這些東西少給孩子吃!危害大!

      兒童患癌越來越多!多名院士呼吁:這些東西少給孩子吃!危害大!

      蜉蝣說
      2026-05-17 21:59:37
      比克斯塔夫:球隊已拼盡全力,為隊員成長感到無比驕傲

      比克斯塔夫:球隊已拼盡全力,為隊員成長感到無比驕傲

      寶哥精彩賽事
      2026-05-18 16:00:24
      恭喜哈登!東決賽程出爐:超8.2w人看好晉級總決賽!

      恭喜哈登!東決賽程出爐:超8.2w人看好晉級總決賽!

      運籌帷幄的籃球
      2026-05-18 16:13:04
      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      公然拒掛國旗,訂單全給日韓,長榮如今的結局早已注定

      瀲滟晴方DAY
      2026-05-11 06:31:37
      贊達亞又拍一部R級新片,太抓馬了

      贊達亞又拍一部R級新片,太抓馬了

      來看美劇
      2026-05-18 17:13:23
      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      馬斯克、黃仁勛空軍一號上合影曝光,馬斯克評論

      霹靂炮
      2026-05-16 22:40:30
      搶七大勝挺進東決!騎士更衣室狂歡,哈登成隱形MVP

      搶七大勝挺進東決!騎士更衣室狂歡,哈登成隱形MVP

      鴻錦籃球
      2026-05-18 16:17:55
      殲20A新畫面,已經換裝渦扇15成為最強五代機

      殲20A新畫面,已經換裝渦扇15成為最強五代機

      三叔的裝備空間
      2026-05-18 15:13:06
      紅船觀察丨曾任湖北省長,正部級王曉東被查

      紅船觀察丨曾任湖北省長,正部級王曉東被查

      紅船融媒
      2026-05-18 17:12:09
      大反轉?中國人赴烏參戰被俘,外交部最新回應,結局意想不到

      大反轉?中國人赴烏參戰被俘,外交部最新回應,結局意想不到

      安珈使者啊
      2026-05-18 09:27:25
      《主角》直到兒子墜樓而亡,憶秦娥才知,楚嘉禾的算計有多狠

      《主角》直到兒子墜樓而亡,憶秦娥才知,楚嘉禾的算計有多狠

      老吳教育課堂
      2026-05-18 15:54:16
      何超蕸追悼會:大姐何超瓊全家安排,郭晶晶李澤楷數百位富商送別

      何超蕸追悼會:大姐何超瓊全家安排,郭晶晶李澤楷數百位富商送別

      素素娛樂
      2026-05-17 15:24:42
      柳州5.2級地震多名居民親歷:房屋垮塌、連夜避險不敢歸家,震前已有微震預警

      柳州5.2級地震多名居民親歷:房屋垮塌、連夜避險不敢歸家,震前已有微震預警

      封面新聞
      2026-05-18 15:00:31
      合資團滅!4月車市銷量前五驚變,小米把誰擠下去了?

      合資團滅!4月車市銷量前五驚變,小米把誰擠下去了?

      凡兮說
      2026-05-17 14:01:36
      國產DDR5顆粒大批進入供應鏈!內存廠加緊生產

      國產DDR5顆粒大批進入供應鏈!內存廠加緊生產

      3DM游戲
      2026-05-17 11:36:17
      2026-05-18 18:32:49
      機器之心Pro incentive-icons
      機器之心Pro
      專業的人工智能媒體
      13027文章數 142650關注度
      往期回顧 全部

      科技要聞

      同一公司,有人獎金是6年工資,我卻只有半年

      頭條要聞

      5人在馬爾代夫洞穴潛水時身亡 3名專家將下水尋找遺體

      頭條要聞

      5人在馬爾代夫洞穴潛水時身亡 3名專家將下水尋找遺體

      體育要聞

      41歲,他還想第5次踢世界杯

      娛樂要聞

      票房會破14億!口碑第一電影出現了

      財經要聞

      前4月工業生產較快增長 失業率5.3%

      汽車要聞

      有五座有七座全系配四驅 哈弗猛龍PLUS限時售16.18萬起

      態度原創

      時尚
      家居
      親子
      藝術
      軍事航空

      夏天褲子不用多買,提前準備幾條休閑的闊腿褲,百搭舒適顯瘦

      家居要聞

      觀山隱秀 心靈沉淀

      親子要聞

      婆婆總是干涉兒媳婦帶娃?寶媽別置氣,3個方法巧化解婆媳矛盾

      藝術要聞

      嚇一跳!京東上海總部大樓歪了?最新官方把事說清楚了

      軍事要聞

      莫斯科遭一年多來最大規模無人機襲擊 3死18傷

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 最新亚洲人成网站在线观看| 一区二区三区内射美女毛片| 超碰狠狠操| 激情综合网激情国产av| 欧美人与禽2o2o性论交| 大香蕉久久综合| 日本高清天码一区在线播放| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区 | 国产成人亚洲无码淙合青草| 亚洲精品久久久久久久蜜桃臀| 无码av波多野结衣久久| 最新av中文字幕无码专区| 久久这里有精品国产电影网| 亚洲精品久久久无码一区二区| 国产一区二区丝袜在线播放国产日韩欧美色综合 | 自拍偷拍网| 99久久免费精品国产色| 免费超爽大片黄| 欧美综合精品久久久久成人影院| 日本三码电影在线| 亚洲高清aⅴ日本欧美视频| 精品国产中文字幕第一页| 日本韩国国产精品视频| 国产午夜福利在线观看视频_| 国产精品亚洲一区二区z| 久久久精品人妻一区二区三区日本| 六间房隐藏房间入口网站| 香蕉久久夜色精品国产尤物| 国产精品一区在线免费看| 99啪啪| 亚洲色久悠悠av在线观看| 男人天堂av在线一区| 国产三级精品福利久久| 少妇精品视频| 国产人妻精品一二区| 91精品国产91久久久无码色戒 | 91福利在线观看视频| 国产一区二区在线激情往| 男人天堂二区| 西藏| 夫妻一起自拍内射小视频|