周三晚,一個評測結(jié)果在運籌學圈炸了鍋。測試人員把優(yōu)化建模題目分別丟給推理大模型和普通大模型,等來的答案讓人大跌眼鏡:那些擅長解數(shù)學題的推理型選手,這回反而被普通模型甩在了身后。
這個“揭短”的評測工具叫ORGEval,一篇ICML workshop論文。它不直接看模型生成的模型能不能解出最優(yōu)值——因為傳統(tǒng)做法里,求解器評價存在三個坑:偶然正確、不可行問題、速度瓶頸。ORGEval換了個思路,用圖論來給大模型的建模能力“驗明正身”。
![]()
核心方法是這樣的:把模型輸出的優(yōu)化模型和標準答案都轉(zhuǎn)化成二分圖,然后用WL-test(Weisfeiler-Lehman同構(gòu)測試)和SD條件比較圖結(jié)構(gòu)。簡單說,不看模型算出來的數(shù)字對不對,而是看它“構(gòu)建問題”的結(jié)構(gòu)是否與標準一致。這就繞過了求解器偶然蒙對、或模型生成的約束自相矛盾導致不可行的干擾。
這個設(shè)計點破了之前的盲區(qū):大模型做運籌學建模,強的未必是“推理”,而是對問題結(jié)構(gòu)的理解。論文發(fā)現(xiàn),非推理模型在這個任務(wù)上整體表現(xiàn)更穩(wěn),推理模型反而因過度發(fā)散、產(chǎn)生不合邏輯的約束,在圖結(jié)構(gòu)比對中漏洞百出。
結(jié)果雖然有點反直覺,但邏輯很直白。運籌建模需要先把現(xiàn)實問題抽象成變量與約束,這一步更多依賴對關(guān)系的把握,而非逐步推演。推理模型習慣給出長鏈條答案,在需要“快準狠”的結(jié)構(gòu)生成環(huán)節(jié)反而容易跑偏。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.