![]()
智東西
作者 楊京麗
編輯 李水青
智東西6月2日消息,今天,阿里通義千問發布多模態智能體模型Qwen3.7-Plus。相比傳統“看圖說話”式多模態模型,Qwen3.7-Plus在識別圖像的基礎上,進一步打通界面感知、工具調用、代碼生成和任務交付,讓AI從“讀懂世界”,走向“動手完成任務”。
智東西第一時間體驗并結合官方案例發現,Qwen3.7-Plus在視覺推理、圖片搜索、工具調用等方面展現出不少亮點。不過實測中,復雜頁面仍會出現圖片文字亂碼、交互失效、3D預覽黑屏等問題,最終結果仍需要人工檢查和調試。
此前,5月20日,阿里發布Qwen3.7系列旗艦模型Qwen3.7-Max。在第三方機構Artificial Analysis公布的全球大模型總榜中,Qwen3.7-Max的Artificial Analysis Intelligence Index目前得分為57,與GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等海外模型分數接近,領先Kimi K2.6、Mimo-V2.5-Pro等國產模型,位列國產模型第一。
![]()
▲Artificial Analysis全球大模型榜單(圖源:Artificial Analysis)
今天發布的Qwen3.7-Plus補齊Qwen3.7系列的視覺識別能力,現已在阿里云百煉平臺上線,支持OpenAI兼容API與Anthropic協議。開發者可以直接調用API完成多模態交互、智能體任務和視覺編程等場景,也可以通過Claude Code、OpenClaw或Qwen Code直接調用,無需修改原有Prompt或工具鏈。同時,Qwen Studio也已開放Qwen3.7-Plus在線體驗。
![]()
API地址:
https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.7-plus?serviceSite=asia-pacific-china
Qwen Studio體驗地址:
https://chat.qwen.ai/?models=qwen3.7-plus
一、融合視覺、語言和Agent能力,多項測試得分超GPT-5.4和Gemini 3.1 Pro
Qwen3.7-Plus是在Qwen3.7文本與Agent能力基礎上,進一步融合視覺與語言能力形成的多模態智能體模型。
Qwen3.7-Plus不僅能看懂圖形界面、文檔和真實場景,還能直接上手操作,調用命令行、自主編寫代碼、驗證運行結果。另外,千問還將GUI操作、CLI調用、代碼生成和自我驗證放進同一個智能體循環中,形成“看、想、寫、做、驗”的端到端閉環。
基準測試中,Qwen3.7-Plus在多模態推理、視覺Agent與編程以及通用視覺理解方面都有不錯的表現。
![]()
▲Qwen3.7-Plus在12項核心基準測試中的綜合表現(圖源:通義實驗室)
在多模態推理方面,Qwen3.7-Plus在BabyVision中得分70.4/64.7,領先Gemini 3.1 Pro的55.9和GPT-5.4(xhigh)的53.1;MathVision得分90.3,與GPT-5.4(xhigh)的91分得分接近,高于Gemini-3.1 Pro的87.4和Qwen3.6-Plus的88.0。
在視覺Agent與編程方面,Qwen3.7-Plus在ScreenSpot Pro中得分79.0,超過GPT-5.4(xhigh)的67.4、Gemini 3.1 Pro的68.1;AndroidWorld得分81.0,高于Gemini-3.1 Pro的70.7。
在通用視覺理解方面,Qwen3.7-Plus在RealWorldQA中得分86.9,高于Qwen3.6-Plus的85.4和GPT-5.4(xhigh)的83.8;OCR-Bench-V2英文和中文測試分別取得70.7和67.1,說明其在開放世界視覺問答、真實場景解析和OCR能力上具備優勢。
智東西第一時間體驗了Qwen3.7-Plus的網頁生成和視覺編程能力。
我們先讓Qwen3.7-Plus完成一個防曬產品網頁前端設計。模型生成的頁面結構較完整,包含產品介紹、核心優勢、明星產品等模塊,也生成了配套產品圖片。不過體驗中我們也發現,生成圖片中的部分文字出現亂碼,頁面交互功能未能正常使用,說明其在靜態頁面搭建上完成度較高,但圖片中文字渲染和前端交互細節仍需人工調試。
▲Qwen3.7-Plus生成的網頁
后面,我們又讓Qwen3.7-Plus生成“騎自行車的鵜鶘”3D像素藝術作品。我們先使用快速模式,比較有意思的是,Qwen3.7-Plus沒有一開始直接生成HTML代碼,而是先生成了一張圖片,畫面中已經呈現出鵜鶘騎車、樹木、道路和春日場景等元素。隨后,模型補充生成了HTML代碼。不過在預覽時,頁面中只有標題和黑色畫布,3D主體未能正常渲染。
![]()
▲快速模式下,Qwen3.7-Plus的3D鵜鶘任務執行情況
任務失敗后,我們改用思考模式重新生成同一任務,效果明顯更穩定。5分鐘后,Qwen3.7-Plus按照要求生成可運行的HTML,畫面中可以看到夜空背景、像素化鵜鶘、自行車、草地平臺和動態氛圍效果,可以拖拽旋轉。相比快速模式,思考模式下的代碼完整性和可預覽效果更好,已經能生成一個可運行、可交互的網頁作品。
![]()
▲思考模式下,Qwen3.7-Plus生成的3D像素藝術作品
整體看,Qwen3.7-Plus在視覺創意轉代碼方面具備較強可用性,但復雜前端和3D場景仍存在一定不穩定性,需要通過思考模式、多輪迭代或人工修正來提升交付質量。
二、穩定運行11小時寫完App,還能復刻macOS Stocks應用
為了驗證Qwen3.7-Plus的實際落地能力,通義千問基于該模型構建了智能體系統Hybrid-Agent,并讓其獨立完成一款類似多鄰國、百詞斬的英語單詞學習App的完整研發流程。
官方測試中,Hybrid-Agent連續穩定運行超過11小時,累計生成代碼超10000行,觸發工具調用超1000次。整個流程覆蓋需求文檔生成、代碼編寫、自動部署、測試用例創建、GUI自動化測試、多場景并行測試、產品說明更新和版本迭代等環節。
![]()
▲Qwen3.7-Plus設計的英語單詞學習App(圖源:通義實驗室)
最終,Qwen3.7-Plus完成了App的全流程設計,具備單詞本、單詞消消樂、每日單詞背誦、限時挑戰等功能,用戶可以根據需求設置每日速記目標,提醒時間等。整個App的設計均由Qwen3.7-Plus獨立完成,體現出模型在真實任務場景下,具備成熟的編程能力、工具調用能力和視覺設計能力。
在桌面應用場景中,千問官方讓Qwen3.7-Plus復刻macOS原生Stocks股市應用。
復刻過程中,Qwen3.7-Plus能夠自主交互原生應用,理解其UI布局和功能細節,再基于交互記錄生成SwiftUI源碼,并接入LongBridge真實行情API獲取實時市場數據,系統能夠自動完成編譯構建,并復刻應用。
▲模型自主復刻App(圖源:通義實驗室)
Qwen3.7-Plus自主執行了10項功能驗證測試,包括實時行情加載、股票選擇與切換、多周期視圖切換、搜索過濾、詳細數據面板展示等,最終全部通過。交付結果復現了原生Stocks的暗色主題、分欄布局、實時行情數據和完整交互體驗。案例充分展示出,多模態智能體在觀察真實軟件、理解交互邏輯、生成應用代碼、驗證功能結果等方面,具備不錯的遷移能力。
三、找不同、查病害、畫路線,看完圖還能搜索、執行
視覺能力上,Qwen3.7-Plus不僅能識別圖像,看完圖像后,還能繼續解決問題。
在找不同、華容道、迷宮、拼圖等需要推理的視覺任務中,Qwen3.7-Plus會先提取圖像中的幾何結構與空間約束,將視覺問題轉化為可計算邏輯,隨后調用代碼解釋器,編寫并執行求解程序,形成視覺感知、空間建模、代碼求解和結果校驗的自動化流程。
在官方的找不同案例中,Qwen3.7-Plus能夠加載圖片,調整大小匹配左右兩張圖片,并形成不同點地圖,后續進行思考分析。通過代碼解釋器,仔細核對坐標及圖像,在差異圖中標注差異中心點,經過多次比對與反復思考,最終找出5處不同點,準確完成找不同任務。
![]()
▲Qwen3.7-Plus完成找不同任務(圖源:通義實驗室)
在搜索增強視覺問答場景中,當問題超出圖像本身,Qwen3.7-Plus可以從單圖、多圖或視頻中提取關鍵實體與上下文線索,再聯網檢索外部知識,將視覺證據與實時信息交叉驗證。這一能力適用于多類開放世界問題,例如識別陌生地標、追溯事件背景、分析復雜商品參數等。
針對判斷植物疾病的案例,Qwen3.7-Plus先觀察葉片上的棕褐色斑塊、黃化區域和病斑邊緣形態,初步分析其可能對應的病害類型。
隨后,模型調用網頁搜索,查找相似圖片和相關資料,并把搜索結果與圖片中的細節進行對照。經過7次檢索后,Qwen3.7-Plus綜合圖像觀察、搜索資料和特征對比,給出最終判斷,并整理成表格,列出病斑顏色、紋理、形狀和葉片變化等關鍵信息。
![]()
▲Qwen3.7-Plus判斷植物疾病(圖源:通義實驗室)
此外,Qwen3.7-Plus還可以把視覺輸入直接轉化為代碼。對于圖標、插畫、動效或網頁參考圖,模型可以把畫面中的形狀、顏色、布局關系轉成SVG或前端代碼。
![]()
▲Qwen3.7-Plus根據參考圖復刻并輸出代碼(圖源:通義實驗室)
在網頁設計場景中,Qwen3.7-Plus可基于參考圖、視頻素材或設計意圖,組織頁面布局、編寫前端代碼、處理交互動效,并調用工具補全缺失素材,從而生成可以運行的交互式網頁原型。
![]()
▲Qwen3.7-Plus設計的網頁(圖源:通義實驗室)
在更接近真實場景的任務中,Qwen3.7-Plus也能處理復雜圖表。以地鐵線路圖為例,模型可以在密集交錯的線路中定位起點和終點,識別不同線路的顏色和換乘關系,并規劃出完整路線。它會沿線路逐站追蹤,在需要換乘的位置切換線路,最終給出從出發站到目的站的完整乘車路徑。
![]()
▲Qwen3.7-Plus根據新加坡地鐵線路圖規劃路線(圖源:通義實驗室)
四、瀏覽器智能助手可自動比價下單,完成網頁多步操作
除上述能力外,通義還基于Qwen3.7-Plus構建了瀏覽器智能助手,并通過Qwen for Chrome插件提供體驗。
用戶安裝插件后,可以在瀏覽器側邊欄中直接與Qwen對話,授權后切換至Agent模式。在該模式下,Qwen可以感知當前網頁內容、理解任務意圖、規劃操作步驟,并在真實瀏覽器環境中自動執行點擊、輸入、跳轉、配置和驗證,完成頁面感知、任務規劃、GUI自動化執行的閉環。
在ECS采購自動化案例中,面對非技術用戶提出的“采購一臺最便宜的云服務器”需求,Agent會登錄云控制臺,自動比價、選型、配置鏡像與安全組并確認訂單。遇到缺貨或價格波動時,模型會調整策略,直到任務完成。
![]()
▲瀏覽器智能助手根據用戶需求購買服務器(圖源:通義實驗室)
結語:多模態模型逐步勝任真實任務場景
從上述案例中,可以看出Qwen3.7-Plus具備較強的視覺理解、編程、任務執行等能力。多模態模型具備識別圖像、理解視頻、回答問題的能力,同時還能夠繼續完成操作應用、調用工具、生成代碼和驗證結果等后續步驟。
這也意味著,多模態模型的競爭重點正在從“看得準”轉向“做得成”。對于開發者和企業來說,真正重要的是,模型能夠在真實工具鏈和業務流程中持續執行,并交付一個可運行、可驗證的結果。隨著模型同時具備視覺理解、工具調用、代碼生成和自我驗證能力,AI能承擔的工作將逐步進入軟件開發、辦公自動化、瀏覽器操作、數據處理等更具體的執行場景。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.