阿里Qwen3.7競技場殺至國產(chǎn)第一！一手實測：分分鐘破解奧賽難題，圖文視覺全都難不倒

2026-05-19 22:51:11　來源: 智東西

北京舉報

分享至

智東西
作者陳駿達(dá)
編輯云鵬

智東西5月19日報道，今天，阿里的Qwen3.7系列預(yù)覽版模型已上線，共有Max和Plus兩個版本。大模型競技場也放出了Qwen3.7-Max-Preview的評測結(jié)果。在大模型競技場覆蓋主流基座大模型的總榜上，Qwen3.7-Max-Preview排名第13，介于GPT 5.5和Grok 4.2之間，是這一榜單上排名最高的國產(chǎn)模型。

在具體的細(xì)分榜單上，Qwen3.7-Max-Preview在數(shù)學(xué)領(lǐng)域排名第7、在專家任務(wù)中排名第9、在軟件與信息技術(shù)任務(wù)中排名第9、在編程任務(wù)中排名第10。

▲Arena.ai公布Qwen3.7-Max-Preview的成績

Qwen3.7-Plus-Preview的總榜排名暫未公布。不過，在競技場的視覺排行榜上，我們能看到Qwen3.7-Plus-Preview的成績。這一模型排名第16，得分介于GPT 5.4和Gemini-3 Flash之間。

阿里暫時并未披露Qwen3.7系列模型的具體技術(shù)細(xì)節(jié)，在明天的阿里云峰會上，這兩款模型的更多信息或許會發(fā)布。

目前，在Qwen Studio上，用戶已經(jīng)可以體驗到Qwen3.7-Max-Preview與Qwen3.7-Plus-Preview，這兩款模型采取了閉源發(fā)布的模式。Qwen3.7-Max-Preview目前僅支持推理模式，不支持圖片上傳。

智東西第一時間對這兩款模型進(jìn)行了體驗。Qwen3.7-Max-Preview的實測涉及數(shù)學(xué)、編程、推理等多種類型的任務(wù)，Qwen3.7-Plus-Preview的實測則以視覺任務(wù)為主。

從我們的體驗來看，這一代Qwen模型的響應(yīng)更為直接、迅速，思考節(jié)奏也比此前的Qwen模型更果斷，在編程、視覺方面的能力有可感的提升。

體驗鏈接：chat.qwen.ai/

一、4分鐘做對IMO難題，還給我寫了個能跑的EXE

在多領(lǐng)域的排名中，Qwen3.7-Max-Preview在數(shù)學(xué)方面的得分較為突出。我們拿2025年IMO的一道難題，考察它的數(shù)學(xué)能力。

Qwen3.7-Max-Preview拿到題目后，進(jìn)行了多輪分析和反復(fù)核驗，最終得出了正確答案，思考速度也還不錯，大概只花了4分鐘。

Qwen目前只提供思維鏈總結(jié)，我們看不到模型的真實思考過程。不過，從思維鏈總結(jié)中可以發(fā)現(xiàn)，和之前的Qwen模型相比，Qwen3.7-Max-Preview似乎更自信了，反復(fù)自我核查的環(huán)節(jié)減少了一些。

Qwen3.7-Max-Preview在編程任務(wù)上的表現(xiàn)也不錯。不過，由于目前這款模型只能在網(wǎng)頁中體驗，我們暫時沒有嘗試較為復(fù)雜的開發(fā)任務(wù)。

首個編程任務(wù)是讓Qwen3.7-Max-Preview生成一個番茄鐘的桌面應(yīng)用，并直接打包成EXE。Qwen3.7-Max-Preview沒有在思考環(huán)節(jié)花許多時間，而是很快進(jìn)行了開發(fā)，設(shè)計了一個具備工作計時、短休息、長休息、自動切換、聲音提醒、任務(wù)統(tǒng)計的應(yīng)用。

Qwen3.7-Max-Preview稱它無法輸出EXE，但向我提供了逐步的指引，最終我自己完成了打包的工作。運(yùn)行后，這一應(yīng)用無法正常啟動。

閱讀報錯信息后，Qwen3.7-Max-Preview判斷，報錯是因為Tkinter底層（Tcl/Tk）在打包后，不支持帶透明度的十六進(jìn)制顏色代碼。

問題修復(fù)后，這一桌面應(yīng)用可以正常運(yùn)行，核心功能都正常，但應(yīng)用本身的設(shè)計比較粗糙。

用HTML輸出內(nèi)容成為最近AI圈的一大熱點，我讓Qwen3.7-Max-Preview的設(shè)計一個AI社交媒體應(yīng)用的產(chǎn)品需求文檔，并輸出為HTML樣式的網(wǎng)頁。

拿到任務(wù)后，Qwen3.7-Max-Preview沒有輸出文字版的產(chǎn)品需求，再轉(zhuǎn)為HTML，而是直接用HTML輸出了所有內(nèi)容。

從最終結(jié)果來看，Qwen3.7-Max-Preview的這份產(chǎn)品需求文檔結(jié)構(gòu)完整，還配上了產(chǎn)品原型設(shè)計，但在產(chǎn)品定義上似乎有些大而全，顯得沒有焦點。

我們還跑了跑其他類型的任務(wù)。SVG圖繪制上，Qwen3.7-Max-Preview能順利生成一張動態(tài)的鵜鶘騎自行車圖片，畫面內(nèi)容基本準(zhǔn)確。

通用推理任務(wù)中，Qwen3.7-Max-Preview一下看穿了這道“海龜湯”的謎底，判斷出女孩是紅綠色盲，并且應(yīng)該不是父親親生的孩子。

二、有驚無險攻克視覺版“洗車店難題”，還靠一張圖復(fù)刻微信

在接下來的測試中，我們主要考察了Qwen3.7-Plus-Preview在視覺能力上的表現(xiàn)。

首個實測任務(wù)是一道進(jìn)階版的洗車店難題。我們用AI生成了一張衛(wèi)星地圖風(fēng)格的圖片，圖中只有兩個地點的距離。

我告訴Qwen3.7-Plus-Preview左側(cè)地點是我家，右側(cè)是洗車店，并詢問它，如果我去洗車，該走路還是開車呢？

從Qwen3.7-Plus-Preview的思考過程中可以看到，它準(zhǔn)確地看到了圖片中的文字和視覺信息，并評估了各種不同的選項，甚至還在某一思考階段得出了走路才是最高效合理的方式，險些陷入險境。

不過，最后它還是給出了正確的回答，方案是開車去洗車，然后走路回家，不用在店里干等。

此前，我們在實測DeepSeek視覺模式過程中發(fā)現(xiàn)，如今的多模態(tài)大模型在看圖猜地點上做得很不錯，我們也讓Qwen3.7-Plus-Preview試了試一樣的題目。

看到圖片后，Qwen3.7-Plus-Preview先是通過建筑風(fēng)格判斷這里應(yīng)該是在中國北方某大型城市，然后在依據(jù)山脈形態(tài)判斷遠(yuǎn)處的山應(yīng)該屬于燕山余脈。最終它認(rèn)為遠(yuǎn)處的山是軍都山，并據(jù)此判斷我所在的地方應(yīng)該是昌平南邵。

這一判斷其實是錯誤的，但離正確答案也不遠(yuǎn)了。圖中的山脈是北京的鳳凰嶺，而我所在的觀察地位于馬池口鎮(zhèn)，Qwen3.7-Plus-Preview的猜測與正確地點相距不到10公里。

視覺能力還可以與編程任務(wù)結(jié)合。我隨手截取了一張微信的截圖，讓Qwen3.7-Plus-Preview復(fù)刻出一個類似的網(wǎng)頁版聊天工具。

執(zhí)行過程中，即便圖中沒有明顯的微信字樣，Qwen3.7-Plus-Preview也通過UI風(fēng)格的視覺因素判斷出這是微信，并據(jù)此規(guī)劃了設(shè)計風(fēng)格。

從最終的復(fù)刻效果來看，Qwen3.7-Plus-Preview很好地把握了微信的設(shè)計特點，外觀還原度很高，不過圖中的按鈕無法正常使用。

結(jié)語：Qwen系列模型加速迭代

今年，阿里的Qwen系列模型迭代速度，相較以往有明顯提升。從2026年2月至今，阿里已經(jīng)陸續(xù)發(fā)布了Qwen3.5、Qwen3.6、Qwen3.7三代模型，而2025年全年Qwen只發(fā)布了Qwen3和Qwen-Next兩個主要版本。

相比過去以“大版本發(fā)布”為核心的節(jié)奏，如今的Qwen更像是在沿著技術(shù)路線持續(xù)快跑，通過高頻預(yù)覽版和能力增量更新，讓模型更快進(jìn)入真實場景接受檢驗。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.