![]()
![]()
上海人工智能實驗室(上海AI實驗室)聯合團隊近日公布了一項面向奧賽級科學推理的新成果:他們提出一套通專融合訓練方案,并基于30B-A3B架構構建出科學推理模型SU-01。在完全不調用外部工具、不執行代碼、不依賴專用符號求解器的純自然語言推理條件下,這一模型在數學和物理雙學科奧賽評測中均達到金牌水平。
![]()
IMO-Bench所含ProofBench結果。SU-01在直接生成時取得57.6%,經推理階段擴展提升至70.2%,顯著超越同尺寸模型,并接近Gemini 3.1 Pro Thinking等強閉源模型
在第66屆國際數學奧林匹克(IMO 2025)和2026年美國數學奧林匹克(USAMO 2026)中,SU-01均取得35分,超過金牌線。其中,USAMO 2026第三題拿到滿分,而該題所有人類選手的平均分僅為0.01分,最高分不到5分。在2024年和2025年國際物理奧林匹克(IPhO)評測中,模型得分同樣超越金牌線。
這一表現背后,是上海AI實驗室“通專融合”理念的直接驗證:奧賽級科學推理不一定需要超大規模模型,也不必為數學、物理等學科分別搭建繁瑣的專用系統。通過統一的訓練目標、獎勵設計以及“生成—驗證—修正”推理機制,一般尺寸的模型也可以在數學證明、物理推導等高難度任務中形成可復用的專家級推理能力。
研究團隊將這一過程設計為“先塑造行為,再擴展能力”的后訓練閉環,分三步遞進實現——
第一步是行為塑造。利用約33.8萬條高質量解題軌跡進行反向困惑度課程監督微調,讓通用模型學會如何組織證明、檢查假設和修復漏洞,把“嚴謹證明”的行為范式植入模型。
第二步是能力強化。經過200步兩階段強化學習:第一階段提升直接求解能力,第二階段引入證明級獎勵模型,使模型不僅“答對”,更學會給出完整、可檢驗的推理過程。
第三步是推理擴展。面對奧賽級難題時,模型啟動多輪“生成—驗證—修正”循環,將訓練階段學到的自驗證與自修正行為延伸至長程證明搜索中。
評測結果直觀反映了這套方法的有效性。在證明質量基準ProofBench上,SU-01直接生成得分為57.6%,經推理擴展后提升至70.2%,顯著優于同尺寸模型,并接近Gemini-3.1-Pro等前沿模型的表現。
更值得關注的是其長程推理能力:在USAMO 2026的解題過程中,模型單次生成證明的中位長度達到10.6萬個詞元,修正階段也長達8.3萬個詞元。這意味著一個30B量級的通用模型,能夠持續進行超過十萬詞元量級的有效推理,把計算資源集中用于構建邏輯、定位漏洞和完善論證。
![]()
USAMO 2026推理階段擴展流程中不同動作的生成長度分布
在與人類選手的直接對比中,SU-01同樣經受住了“地獄難度”的考驗。USAMO 2026人類選手平均分8.59分,中位數僅6分;第三題平均分更是低至0.01分,無一人超過5分。SU-01正是在這道題上拿到滿分,說明它的推理能力并非靠簡單題目拉高分數,而是真正具備攻克超高難度證明題的實力。
除數學奧賽外,研究團隊還將AMO-Bench、FrontierScience等基準納入評測范圍。結果顯示,同一套證明搜索、驗證和修正機制可以直接遷移到物理建模以及更廣泛的科學推理任務上,展現出跨學科復用價值。這恰恰是通專融合相較于垂直領域定制系統的核心優勢。
據悉,這一工作也延續了上海AI實驗室2024年提出的通專融合技術架構SAGE(智者)。SAGE包含基礎模型、融合協同與探索進化三個層次,其中融合協同層負責動態協調直覺式“快思考”與邏輯性“慢思考”,通過精確獎勵和智能體自進化,決定何時泛化、何時專精。SU-01的表現,正是這種思路在奧賽級科學推理上的落地。
![]()
SU-01訓練與推理流程,以一般尺寸30B-A3B推理主干為基礎,依次經過監督微調、兩階段強化學習和推理階段擴展,使模型形成證明搜索、自我驗證和多輪修正能力
研究團隊認為,科學發現是對智能的終極考驗,也是驗證通專融合的舞臺。當AI能夠像科學家一樣進行嚴謹、長程且可自我驗證的思考時,就向“AGI for Science”的目標更近了一步。
【上海AI實驗室科研進展】
AI出手,石墨“增厚”三倍!我國科研團隊“造”出200微米高質量單晶石墨
“書生”跨界造膠:高純度、高一致、高效率,這種芯片核心材料能穩定量產了
原標題:《裸考奧賽也能奪金?人類集體“交白卷”的數學題,被一個中等尺寸AI做對了》
欄目編輯:王蕾 題圖來源:海螺AI 圖片來源:上海AI實驗室
來源:作者:新民晚報 郜陽
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.