網易首頁 > 網易號 > 正文申請入駐

上交大師生聯手"整AI"：當學生把AI解決不了的作業變成測試題

2026-05-08 20:01:16　來源: 科技行者

天津舉報

分享至

這項由上海交通大學主導、聯合SII與GAIR研究團隊完成的研究，于2026年5月以預印本形式發布，論文編號為arXiv:2605.02661。有興趣深入了解的讀者可以通過該編號查詢完整論文。

**研究概要**

每個用過AI助手做作業的學生，大概都有這樣的經歷：把題目喂給AI，得到的答案要么驢唇不對馬嘴，要么做到一半就卡住了，最后還是得自己動手。上海交通大學的研究團隊把這個令學生們頭疼的現象變成了一個嚴肅的科學問題——既然AI總是在某些作業上翻車，那么把這些"翻車現場"系統地收集起來，是不是就能測出AI的真實能力邊界？

這就是AcademiClaw誕生的邏輯。研究團隊邀請了大量本科生，把自己親身經歷過的、讓AI束手無策的真實學業任務整理成題目，最終篩選出80道橫跨25個以上專業領域的考題，搭建出一個專門考驗AI"智力上限"的測試平臺。為了讓這套測試經得起推敲，每道題都運行在隔離的虛擬環境里，用六種不同的評分方法打分，還有一套安全審查機制全程盯著AI的一舉一動。

結果怎么樣？即使是當前最強的AI模型，及格率也只有55%。這個數字背后藏著很多值得細看的故事。

一、為什么已有的AI測試都不夠用

現在市面上不缺AI測試工具。SWE-bench讓AI去修GitHub上的真實代碼漏洞，WebArena讓AI在真實網頁環境里完成操作任務，還有各種各樣的問答榜單。但這些測試有一個共同的問題：它們基本上都在考"秘書級別"的任務，也就是幫人發郵件、整理日歷、填寫表格、從PDF里提取信息之類的活兒。

這些任務當然有用，但它們并不能告訴我們AI在真正燒腦的工作上表現如何。一個能幫你安排會議的AI，未必能幫你推導數學競賽題目；一個能整理表格的AI，未必能調試一個跑在GPU上的強化學習訓練代碼。然而在現有的測試體系里，后面這些"高含金量"任務幾乎是缺席的。

研究團隊梳理了OpenClaw生態系統（一個被廣泛使用的開源AI代理框架）下的所有現有測試基準，發現情況確實如此。PinchBench、Claw-Eval、ClawBench、WildClawBench、LiveClawBench，這些測試的任務來源無一例外都是研究者自己設計的，難度停留在"助手級別"，沒有一個涉及GPU運算，也沒有一個真正需要深厚專業知識才能完成。這就導致一個荒謬的現象：AI在這些測試上表現不錯，讓人誤以為AI已經很厲害了，但一到真實的學術場景就露餡。

AcademiClaw要填補的正是這個空缺。它的核心思路不是讓研究者坐在書桌前設計題目，而是去找那些真正被AI"坑過"的用戶——也就是學生，讓他們把自己吃的虧變成考題。

二、怎么從學生的"翻車經歷"里收集到好題目

題目收集的過程本身就很有意思。研究團隊面向正在修讀大型語言模型技術課程的本科生發出邀請，請他們提交自己在課業、競賽、科研或個人項目中遭遇過的、曾經把當前AI難倒的任務。

有一個硬性門檻：提交者必須親自用過至少一款主流AI代理工具（比如Claude Code、Codex或Cursor），并且可以確認那個AI要么直接做不出來，要么需要經過大量反復交互才勉強湊出一個差強人意的結果。換句話說，題目不能是研究者憑感覺覺得AI做不了的，而是學生真刀真槍測試過確實做不好的。

這樣征集來的原始候選題目共有230道。但原始提交良莠不齊，有的題目說不清楚要做什么，有的評分標準寫得模糊，有的難度太低或者難度失控，有的在某一個領域堆了太多題。于是專家團隊對每道題進行了嚴格審核，從五個維度逐一把關：題目描述是否清晰完整，評分邏輯是否準確，同樣的提交是否每次都能打出一致的分數，難度是否合適，以及各領域是否分布均衡。

審核并不只是看紙面。每道通過初審的題目，都要用AI實際跑一遍，確認整個流程沒有問題，評分腳本不會出現"做了一堆事情最后還是0分"或者"隨便寫點什么就能騙到高分"這樣的情況。

經過兩輪篩選，230道候選題最終剩下80道，其中49道英文題、31道中文題。被淘汰的主要原因依次是：評分邏輯有缺陷（57道），題目描述不清晰（34道），難度不合適（28道），某個領域題目太集中（18道），以及環境依賴難以復現（13道）。

最終留下的80道題，平均每道需要AI調用33次工具，最復雜的題目需要調用136次；平均耗時11.7分鐘，最長的一道超過40分鐘。這不是隨便問幾個問題就能搞定的測試，而是需要AI持續思考、反復嘗試、像人一樣工作很長時間的考驗。

三、80道題都考什么——從奧數到強化學習的跨越

這80道題被分成六大類，覆蓋25個以上的專業方向，構成了一幅相當壯觀的學科版圖。

第一大類是研究與分析，共21道題。這里有需要分析ESP32-S3微控制器多外設固件的嵌入式系統題，有要在剝離掉大量環境因素之后估算F1賽車手真實優勢的數據分析題，還有各類技術報告寫作和文獻綜述任務。

第二大類是機器學習與AI工程，共17道題。包括在昇騰NPU硬件上部署多語言語音識別系統、實現同構奇異值分解多任務模型合并、訓練強化學習代理等。這一類里有16道題需要真正的GPU才能跑，這在現有所有AI基準測試里都是獨一無二的存在——此前沒有任何一個OpenClaw生態的測試基準包含GPU任務。

第三大類是軟件工程，同樣17道題。從用BVH加速結構實現蒙特卡洛路徑追蹤渲染器，到對包含混淆載荷的安全事件進行取證分析，考的都是需要深度工程經驗的硬活。

第四大類是STEM推理，11道題。這里有中國數學奧林匹克2024年的證明題，有國際語言學奧林匹克2025年的題目，還有需要邏輯推導解決的謀殺謎題。這一類是整個測試里最難的，沒有一個模型能在這里拿到高分。

第五大類是語言與創意，7道題。有把古典唐詩改編成現代流行歌詞的任務，有為特定音樂曲目設計鎖定舞編排并配上音樂分析的任務——這些題目的中文版本尤其有趣，因為它們本質上是文化性的，不能簡單翻譯成其他語言，考的是對漢語聲韻、典故意象和當代流行文化的綜合理解。

第六大類是應用與專業領域，7道題，包括日本麻將立直計算器和多約束條件旅行路線規劃這樣高度專業化的任務。

四、怎么給AI打分——六種方法聯合出擊

給AI的工作打分是一件很微妙的事情。對于"1+1等于幾"這種問題，對就是對，錯就是錯。但對于"幫我寫一首把李白詩改編成流行歌詞的曲子"，或者"實現一個能跑在GPU上的強化學習訓練框架"，單純用對錯來判斷就太粗糙了。

研究團隊為每道題設計了定制化的評分方案，滿分100分，分成3到6個相互獨立的評分維度，最終加總得出總分。75分以上算通過。更關鍵的是，他們把六種不同的評分技術組合在一起使用，每種技術各司其職。

第一種是模式匹配，用正則表達式、關鍵詞檢測和代碼結構分析來驗證代碼或文本的格式是否正確。第二種是代碼執行，把AI寫的程序真正編譯運行起來，對著已知答案逐一檢查輸出結果。第三種是大模型評判，對于報告、分析文章、創意寫作這類開放性輸出，用另一個AI模型充當評審，根據結構化評分表給出評價，同時保留一套確定性的兜底規則，防止評判模型出故障時整個評分癱瘓。第四種是視覺模型評判，專門用來檢查圖表、可視化效果或界面截圖，和參考圖像比對。第五種是端到端瀏覽器測試，用Playwright工具在無界面瀏覽器里打開AI開發的網頁應用，模擬真實用戶操作，看頁面有沒有報錯、交互有沒有響應、顯示效果像不像樣。第六種是結構化輸出驗證，檢查JSON格式、CSV文件內容、BibTeX參考文獻條目、Excel表格數據是否符合規范。

用這六種方法打出來的分數，能夠精確告訴我們AI在哪一個環節出了問題，而不只是給一個籠統的"失敗"結論。

除了評分，研究團隊還對每次AI運行進行了安全審計，追蹤五類潛在風險：AI有沒有亂刪文件或修改系統，有沒有泄露敏感信息，有沒有超出指定工作目錄的范圍行事，有沒有試圖提升自己的權限，以及有沒有從不明來源安裝未經驗證的軟件包。這些安全記錄獨立于任務評分之外，構成了對AI行為的另一個維度的觀察。

五、六大AI模型的真實成績單

研究團隊選了六款當前主流的前沿模型來參加這場考試：Anthropic家的Claude Opus 4.6和Claude Sonnet 4.6，OpenAI的GPT-5.4，Google DeepMind的Gemini 3.1 Pro，阿里巴巴的Qwen3.5-397B，以及MiniMax的M2.7。每道題每個模型只有一次機會，沒有重試。

成績單出來之后，最顯眼的數字是這樣的：成績最好的Claude Opus 4.6平均得了71.9分，通過率55%；Claude Sonnet 4.6平均68.3分，通過率同樣是55%；GPT-5.4平均65.6分，通過率42.5%；Gemini 3.1 Pro平均64.3分，通過率43.8%；Qwen3.5-397B平均64.7分，通過率40%；MiniMax M2.7平均63.1分，通過率37.5%。

第一梯隊和末位之間的平均分差只有8.8分，但通過率差距達到17.5個百分點。這說明分數相差不大的模型，在"能不能過關"這個問題上差別其實挺大的——很多題目是那種"要么做出來要么做不出來"的性質，不存在太多中間地帶。

在不同分數段的分布上，排名靠后的模型有更多題目落在50到74分的"半成品"區間（Qwen3.5和MiniMax約35.6%，兩個Claude模型約29.4%），同時也有更多題目直接低于50分（25.6%對比15.6%）。如果把及格線提高到80分，Claude Opus的通過率還有46.2%，而MiniMax只剩23.8%，差距進一步拉大。

整套測試里有23道題讓所有六個模型都沒能通過，其中8道題所有模型的得分都低于50分。這部分題目是當前AI技術真正的盲區。

六、哪類題難、哪類題容易——差距大得出乎意料

把成績按題目類別拆開看，會發現一個規律性很強的現象：題目類別對成績的影響，遠遠大于選哪個模型的影響。

六大類題目的平均分從76.9分到50.6分不等，跨度達到26.3分。而六個模型之間的平均分差，只有8.8分。換一種說法：換一個更好的AI模型，帶來的提升有限；但換一種類型的題目，對成績的影響可以是換模型的三倍。

語言與創意類題目平均分最高，達到76.9分，說明AI在生成文本、進行創意寫作方面已經相當靠譜了，哪怕是專業化的細分場景也能應付。軟件工程類平均分也不錯，處于第二梯隊，說明代碼工程任務只要邊界清晰、接口明確，AI還是能干得不錯的。

STEM推理類則是徹底的重災區，平均分只有50.6分，而且這還是平均數，有很多題目的得分遠低于這個數字。第36屆化學奧林匹克競賽題是一個典型案例：六個模型的得分集中在23到27分之間，標準差只有1.4，意味著所有AI在這道題上都擠在同一個糟糕的分數區間，誰也沒有明顯優勢——這不是某個模型運氣不好，而是整體性的能力缺失。還有一道React加FastAPI的全棧調試題，六個模型全部得了精確的25分，標準差為零。這種"集體相同的失敗"說明的是系統性的短板，而不是隨機錯誤。

模型之間的排名并不固定，在不同類型的題目上會發生翻轉。Claude Opus在四個類別里排名第一，但在語言與創意類里被GPT-5.4以83.7分超越。Claude Sonnet在ML與AI工程類拿了所有模型里的最高分74.1，卻在應用與專業領域類跌到58.4，前后相差15.7分。GPT-5.4的內部落差最夸張，在語言類和應用類之間的分差達到34.3分，比最好模型和最差模型的整體平均分差還要大。

少數題目展現出極端的分化。從《百年孤獨》里提取多代家族樹的任務，Claude、GPT和Gemini打出86到92分，而MiniMax和Qwen只有3分，分差達到驚人的90分。這種極端分化揭示的是長文本文學理解能力上的根本性差距，不是細節上的高下之分。TensorFlow轉PyTorch框架遷移任務則出現了另一種有趣的情況：GPT-5.4直接得了0分，其他所有模型都在74到90分之間——這暗示GPT-5.4存在特定框架上的盲點，只有包含足夠多樣類型的測試才能把這種盲點暴露出來。

七、三種不同的做事風格——AI的"行事流派"

除了分數之外，研究團隊還仔細觀察了每個AI在完成任務時的行為模式，發現六個模型可以歸入三種截然不同的"做事流派"。

Claude Opus 4.6走的是"讀透再動手"路線。它所有工具調用中，有41%用于讀取文件，是排名最后的Gemini的8.6倍。它的執行次數和讀取次數大體相當，比例接近1:1——這是六個模型里唯一一個在閱讀和執行之間保持平衡的。這種策略需要在前期投入大量時間理解任務，但換來的是最高的平均分（71.9分）。研究團隊把這種效果叫做"理解紅利"：多讀一些，做得更好。

Gemini 3.1 Pro走的是"先跑起來再說"路線。它74.3%的工具調用都是shell執行命令，執行次數和讀取次數的比例高達28:1，而且進程管理調用的次數是其他模型平均值的4.2倍。這種策略像是一個習慣于"試了再看"的工程師——第一次跑失敗了就修改參數再跑，跑失敗了再換個方式再跑，靠反復嘗試來接近答案。結果是Gemini消耗的token數量最多（每道題平均286萬），成績卻只有64.3分，低于消耗token數量是它五分之一的GPT-5.4。快速執行不僅沒能帶來更好的結果，還帶來了更多的安全風險——大量未經檢查的shell執行命令，更容易觸碰到工作范圍的邊界。

GPT-5.4走的是"能省則省"路線。它每道題平均只調用19次工具，是六個模型里最少的；消耗的token也最少，平均每題52.5萬；完成時間最短，平均只要240秒。但它的得分是65.6分，排名第三。沒有一個工具類別的使用比例超過45%，說明它在內部"想清楚"再出手，而不是邊想邊做。最終用最少的資源，拿到了排名中游的成績。

其余三個模型在這兩個極端之間各有側重：Sonnet和Qwen靠近中間，MiniMax則偏向"先執行"一側，執行調用占比65.9%。

八、更多token等于更好的結果嗎

這是整篇研究里最反直覺的發現之一。

把480次模型與任務的配對評分全部放在一起，計算token消耗量和任務得分之間的相關系數，結果是-0.03，p值0.49。-0.03接近于零，意味著幾乎完全沒有相關性；p值0.49意味著這個結果連統計顯著性的門檻都沒過。換一句話說：一個AI在一道題上花了多少token，和它最后得了多少分，沒有任何規律性的關聯。

這個結論在每個模型內部單獨檢驗時也成立。六個模型各自的token-成績相關系數全部落在-0.077到+0.051之間，沒有一個超過0.08，所有p值都遠高于0.05的顯著性門檻。Gemini消耗token最多，但成績不是最好的；GPT-5.4消耗token最少，但成績排在第三位，高于比它消耗更多token的Gemini。

這個現象指向一個深層問題：AI目前普遍缺乏"知道什么時候該停下來"的機制。它們會在找到答案之后繼續嘗試，在陷入錯誤路徑時也會繼續執行，直到時間耗盡或者token用完，而不是在事情變得沒有意義時主動終止。學術界把這種現象叫做"過度思考懲罰"——花了更多力氣，換來的反而是效率下降，而不是質量提升。

九、安全行為——哪里最容易出問題

在安全審計這個維度上，五類風險項目里有四項表現相對均勻：破壞性操作（各模型得分85到95之間），信息泄露（87到90之間），權限升級（90到98之間），供應鏈風險（73到83之間）。權限升級這一項是最讓人放心的——所有模型都很少試圖執行需要管理員權限的命令，這說明當前AI的安全訓練在這個方面做得相當到位，沒有AI會試圖在做任務的過程中"順手"給自己升級權限。

然而邊界合規這一項出現了53分的巨大落差。兩個Claude模型的邊界合規得分在83到85之間，表現最好；Gemini只有31.6分，Qwen3.5只有34.4分，表現最差。Gemini在這項測試里積累了217次高嚴重級別的違規，Qwen3.5則有146次，主要表現都是訪問了被劃定工作目錄之外的文件和路徑。

Gemini的安全問題和它的行為風格有直接關聯。因為它傾向于大量執行命令，當某次執行失敗后，它會嘗試往更廣的范圍里尋找資源，結果一不小心就越過了工作目錄的邊界。大量無約束的shell執行為這種越界行為創造了條件。

一個值得關注的發現是：安全得分和任務得分之間幾乎沒有相關性（相關系數絕對值小于0.29，大多數模型的p值也沒能達到統計顯著性）。這意味著安全和能力并不是魚和熊掌的關系——一個AI可以同時做到安全且能干，也可以同時做到危險且低效，兩者沒有必然的取舍關系。

十、不同AI之間，能力有多相似

研究團隊還計算了六個模型在80道題上得分的兩兩相關系數，發現了一個有意思的結構。

相關性最高的一對是Qwen3.5和MiniMax，相關系數達到0.729。這兩個模型在哪道題上得高分、在哪道題上得低分，有高度一致的規律。研究團隊推測，這可能反映了兩者在訓練數據或者微調策略上的相似性。相關性最低的一對是GPT-5.4和Gemini，相關系數只有0.275，意味著這兩個模型在很多題目上的表現走向相反——Gemini做得好的，GPT-5.4未必能做好，反之亦然。

用統計檢驗確認這兩對之間的差異是否真實可靠，結果是顯著的（p值約為6.5×10??），兩對模型的置信區間完全不重疊。這說明六個前沿模型并不是在同一條能力軸上排成一列，而是占據著截然不同的能力版圖，彼此的長處和短處互有交叉但并不重合。

說到底，這項研究揭示了什么

歸根結底，這項研究告訴我們，AI在"好用"和"好用得了難題"之間，還存在相當大的鴻溝。當前最強的模型在這套來自真實學生作業的測試里及格率只有55%，而且在競賽級別的推理題目面前集體失守——這不是某一個模型的問題，而是當前這一代AI技術的共同局限。

更值得思考的是，多用token并不等于多出結果。AI在"知道什么時候該停下來、什么時候該調整策略"這件事上，仍然欠缺可靠的判斷力。大量的計算資源投入，最終換不來對應的成績提升，這提示了一個方向：未來AI的改進，或許不在于讓它"想得更多"，而在于讓它"想得更準"。

對于普通用戶來說，這意味著把AI用于日常輔助是沒問題的，但如果你遇到了真正需要深厚專業積累的難題，現階段的AI很可能沒法替代領域專家。對于AI研究者來說，這套測試提供的不只是分數，還有精確的診斷信息——哪類任務是整體性盲區，哪個模型在哪種情況下有特異性弱點，都一目了然。

有興趣深入了解這項研究的讀者，可以通過arXiv編號2605.02661查閱完整論文，代碼和數據也已經在GitHub上開放，地址是GAIR-NLP/AcademiClaw。

Q&A

Q1：AcademiClaw和其他AI測試基準相比，最大的不同是什么？

A：AcademiClaw的題目全部來自真實學生的學業困境，而不是研究者憑空設計的場景。每道題都經過學生本人用真實AI工具驗證確實難以解決。此外，它是目前唯一包含GPU計算任務的OpenClaw生態測試基準，也是唯一對AI行為進行五類安全審計的測試。

Q2：為什么AI用了更多的token，成績反而沒有變好？

A：研究發現，當前AI缺乏判斷"何時停止"的能力，常常在已經找到答案或陷入死胡同之后繼續無效地消耗資源。成績好壞取決于推理的質量和策略，而不是計算量的多少。Gemini消耗token是GPT-5.4的五倍多，但得分反而更低，就是典型案例。

Q3：AcademiClaw測試結果對普通學生使用AI有什么實際參考意義？

A：這項測試說明，用AI完成日常作業（整理資料、寫報告草稿）通常沒問題，但遇到奧數證明題、GPU程序調試、跨框架代碼遷移等需要深度專業積累的任務，當前AI仍然有明顯短板，及格率只有55%。遇到這類問題時，不應完全依賴AI，最好結合領域專業知識或人工檢驗。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.