網易首頁 > 網易號 > 正文申請入駐

阿里又發了款智能體模型：11小時造出學英語App，還能看懂地鐵線路圖

2026-06-02 22:15:06　來源: 智東西

北京舉報

分享至

智東西
作者楊京麗
編輯李水青

智東西6月2日消息，今天，阿里通義千問發布多模態智能體模型Qwen3.7-Plus。相比傳統“看圖說話”式多模態模型，Qwen3.7-Plus在識別圖像的基礎上，進一步打通界面感知、工具調用、代碼生成和任務交付，讓AI從“讀懂世界”，走向“動手完成任務”。

智東西第一時間體驗并結合官方案例發現，Qwen3.7-Plus在視覺推理、圖片搜索、工具調用等方面展現出不少亮點。不過實測中，復雜頁面仍會出現圖片文字亂碼、交互失效、3D預覽黑屏等問題，最終結果仍需要人工檢查和調試。

此前，5月20日，阿里發布Qwen3.7系列旗艦模型Qwen3.7-Max。在第三方機構Artificial Analysis公布的全球大模型總榜中，Qwen3.7-Max的Artificial Analysis Intelligence Index目前得分為57，與GPT-5.5(medium)、Claude Opus 4.7(max)、Gemini 3.1 Pro Preview等海外模型分數接近，領先Kimi K2.6、Mimo-V2.5-Pro等國產模型，位列國產模型第一。

▲Artificial Analysis全球大模型榜單（圖源：Artificial Analysis）

今天發布的Qwen3.7-Plus補齊Qwen3.7系列的視覺識別能力，現已在阿里云百煉平臺上線，支持OpenAI兼容API與Anthropic協議。開發者可以直接調用API完成多模態交互、智能體任務和視覺編程等場景，也可以通過Claude Code、OpenClaw或Qwen Code直接調用，無需修改原有Prompt或工具鏈。同時，Qwen Studio也已開放Qwen3.7-Plus在線體驗。

API地址：

https://bailian.console.aliyun.com/cn-beijing/?tab=model#/model-market/detail/qwen3.7-plus?serviceSite=asia-pacific-china

Qwen Studio體驗地址：

https://chat.qwen.ai/?models=qwen3.7-plus

一、融合視覺、語言和Agent能力，多項測試得分超GPT-5.4和Gemini 3.1 Pro

Qwen3.7-Plus是在Qwen3.7文本與Agent能力基礎上，進一步融合視覺與語言能力形成的多模態智能體模型。

Qwen3.7-Plus不僅能看懂圖形界面、文檔和真實場景，還能直接上手操作，調用命令行、自主編寫代碼、驗證運行結果。另外，千問還將GUI操作、CLI調用、代碼生成和自我驗證放進同一個智能體循環中，形成“看、想、寫、做、驗”的端到端閉環。

基準測試中，Qwen3.7-Plus在多模態推理、視覺Agent與編程以及通用視覺理解方面都有不錯的表現。

▲Qwen3.7-Plus在12項核心基準測試中的綜合表現（圖源：通義實驗室）

在多模態推理方面，Qwen3.7-Plus在BabyVision中得分70.4/64.7，領先Gemini 3.1 Pro的55.9和GPT-5.4（xhigh）的53.1；MathVision得分90.3，與GPT-5.4（xhigh）的91分得分接近，高于Gemini-3.1 Pro的87.4和Qwen3.6-Plus的88.0。

在視覺Agent與編程方面，Qwen3.7-Plus在ScreenSpot Pro中得分79.0，超過GPT-5.4（xhigh）的67.4、Gemini 3.1 Pro的68.1；AndroidWorld得分81.0，高于Gemini-3.1 Pro的70.7。

在通用視覺理解方面，Qwen3.7-Plus在RealWorldQA中得分86.9，高于Qwen3.6-Plus的85.4和GPT-5.4（xhigh）的83.8；OCR-Bench-V2英文和中文測試分別取得70.7和67.1，說明其在開放世界視覺問答、真實場景解析和OCR能力上具備優勢。

智東西第一時間體驗了Qwen3.7-Plus的網頁生成和視覺編程能力。

我們先讓Qwen3.7-Plus完成一個防曬產品網頁前端設計。模型生成的頁面結構較完整，包含產品介紹、核心優勢、明星產品等模塊，也生成了配套產品圖片。不過體驗中我們也發現，生成圖片中的部分文字出現亂碼，頁面交互功能未能正常使用，說明其在靜態頁面搭建上完成度較高，但圖片中文字渲染和前端交互細節仍需人工調試。

▲Qwen3.7-Plus生成的網頁

后面，我們又讓Qwen3.7-Plus生成“騎自行車的鵜鶘”3D像素藝術作品。我們先使用快速模式，比較有意思的是，Qwen3.7-Plus沒有一開始直接生成HTML代碼，而是先生成了一張圖片，畫面中已經呈現出鵜鶘騎車、樹木、道路和春日場景等元素。隨后，模型補充生成了HTML代碼。不過在預覽時，頁面中只有標題和黑色畫布，3D主體未能正常渲染。

▲快速模式下，Qwen3.7-Plus的3D鵜鶘任務執行情況

任務失敗后，我們改用思考模式重新生成同一任務，效果明顯更穩定。5分鐘后，Qwen3.7-Plus按照要求生成可運行的HTML，畫面中可以看到夜空背景、像素化鵜鶘、自行車、草地平臺和動態氛圍效果，可以拖拽旋轉。相比快速模式，思考模式下的代碼完整性和可預覽效果更好，已經能生成一個可運行、可交互的網頁作品。

▲思考模式下，Qwen3.7-Plus生成的3D像素藝術作品

整體看，Qwen3.7-Plus在視覺創意轉代碼方面具備較強可用性，但復雜前端和3D場景仍存在一定不穩定性，需要通過思考模式、多輪迭代或人工修正來提升交付質量。

二、穩定運行11小時寫完App，還能復刻macOS Stocks應用

為了驗證Qwen3.7-Plus的實際落地能力，通義千問基于該模型構建了智能體系統Hybrid-Agent，并讓其獨立完成一款類似多鄰國、百詞斬的英語單詞學習App的完整研發流程。

官方測試中，Hybrid-Agent連續穩定運行超過11小時，累計生成代碼超10000行，觸發工具調用超1000次。整個流程覆蓋需求文檔生成、代碼編寫、自動部署、測試用例創建、GUI自動化測試、多場景并行測試、產品說明更新和版本迭代等環節。

▲Qwen3.7-Plus設計的英語單詞學習App（圖源：通義實驗室）

最終，Qwen3.7-Plus完成了App的全流程設計，具備單詞本、單詞消消樂、每日單詞背誦、限時挑戰等功能，用戶可以根據需求設置每日速記目標，提醒時間等。整個App的設計均由Qwen3.7-Plus獨立完成，體現出模型在真實任務場景下，具備成熟的編程能力、工具調用能力和視覺設計能力。

在桌面應用場景中，千問官方讓Qwen3.7-Plus復刻macOS原生Stocks股市應用。

復刻過程中，Qwen3.7-Plus能夠自主交互原生應用，理解其UI布局和功能細節，再基于交互記錄生成SwiftUI源碼，并接入LongBridge真實行情API獲取實時市場數據，系統能夠自動完成編譯構建，并復刻應用。

▲模型自主復刻App（圖源：通義實驗室）

Qwen3.7-Plus自主執行了10項功能驗證測試，包括實時行情加載、股票選擇與切換、多周期視圖切換、搜索過濾、詳細數據面板展示等，最終全部通過。交付結果復現了原生Stocks的暗色主題、分欄布局、實時行情數據和完整交互體驗。案例充分展示出，多模態智能體在觀察真實軟件、理解交互邏輯、生成應用代碼、驗證功能結果等方面，具備不錯的遷移能力。

三、找不同、查病害、畫路線，看完圖還能搜索、執行

視覺能力上，Qwen3.7-Plus不僅能識別圖像，看完圖像后，還能繼續解決問題。

在找不同、華容道、迷宮、拼圖等需要推理的視覺任務中，Qwen3.7-Plus會先提取圖像中的幾何結構與空間約束，將視覺問題轉化為可計算邏輯，隨后調用代碼解釋器，編寫并執行求解程序，形成視覺感知、空間建模、代碼求解和結果校驗的自動化流程。

在官方的找不同案例中，Qwen3.7-Plus能夠加載圖片，調整大小匹配左右兩張圖片，并形成不同點地圖，后續進行思考分析。通過代碼解釋器，仔細核對坐標及圖像，在差異圖中標注差異中心點，經過多次比對與反復思考，最終找出5處不同點，準確完成找不同任務。

▲Qwen3.7-Plus完成找不同任務（圖源：通義實驗室）

在搜索增強視覺問答場景中，當問題超出圖像本身，Qwen3.7-Plus可以從單圖、多圖或視頻中提取關鍵實體與上下文線索，再聯網檢索外部知識，將視覺證據與實時信息交叉驗證。這一能力適用于多類開放世界問題，例如識別陌生地標、追溯事件背景、分析復雜商品參數等。

針對判斷植物疾病的案例，Qwen3.7-Plus先觀察葉片上的棕褐色斑塊、黃化區域和病斑邊緣形態，初步分析其可能對應的病害類型。

隨后，模型調用網頁搜索，查找相似圖片和相關資料，并把搜索結果與圖片中的細節進行對照。經過7次檢索后，Qwen3.7-Plus綜合圖像觀察、搜索資料和特征對比，給出最終判斷，并整理成表格，列出病斑顏色、紋理、形狀和葉片變化等關鍵信息。

▲Qwen3.7-Plus判斷植物疾病（圖源：通義實驗室）

此外，Qwen3.7-Plus還可以把視覺輸入直接轉化為代碼。對于圖標、插畫、動效或網頁參考圖，模型可以把畫面中的形狀、顏色、布局關系轉成SVG或前端代碼。

▲Qwen3.7-Plus根據參考圖復刻并輸出代碼（圖源：通義實驗室）

在網頁設計場景中，Qwen3.7-Plus可基于參考圖、視頻素材或設計意圖，組織頁面布局、編寫前端代碼、處理交互動效，并調用工具補全缺失素材，從而生成可以運行的交互式網頁原型。

▲Qwen3.7-Plus設計的網頁（圖源：通義實驗室）

在更接近真實場景的任務中，Qwen3.7-Plus也能處理復雜圖表。以地鐵線路圖為例，模型可以在密集交錯的線路中定位起點和終點，識別不同線路的顏色和換乘關系，并規劃出完整路線。它會沿線路逐站追蹤，在需要換乘的位置切換線路，最終給出從出發站到目的站的完整乘車路徑。

▲Qwen3.7-Plus根據新加坡地鐵線路圖規劃路線（圖源：通義實驗室）

四、瀏覽器智能助手可自動比價下單，完成網頁多步操作

除上述能力外，通義還基于Qwen3.7-Plus構建了瀏覽器智能助手，并通過Qwen for Chrome插件提供體驗。

用戶安裝插件后，可以在瀏覽器側邊欄中直接與Qwen對話，授權后切換至Agent模式。在該模式下，Qwen可以感知當前網頁內容、理解任務意圖、規劃操作步驟，并在真實瀏覽器環境中自動執行點擊、輸入、跳轉、配置和驗證，完成頁面感知、任務規劃、GUI自動化執行的閉環。

在ECS采購自動化案例中，面對非技術用戶提出的“采購一臺最便宜的云服務器”需求，Agent會登錄云控制臺，自動比價、選型、配置鏡像與安全組并確認訂單。遇到缺貨或價格波動時，模型會調整策略，直到任務完成。

▲瀏覽器智能助手根據用戶需求購買服務器（圖源：通義實驗室）

結語：多模態模型逐步勝任真實任務場景

從上述案例中，可以看出Qwen3.7-Plus具備較強的視覺理解、編程、任務執行等能力。多模態模型具備識別圖像、理解視頻、回答問題的能力，同時還能夠繼續完成操作應用、調用工具、生成代碼和驗證結果等后續步驟。

這也意味著，多模態模型的競爭重點正在從“看得準”轉向“做得成”。對于開發者和企業來說，真正重要的是，模型能夠在真實工具鏈和業務流程中持續執行，并交付一個可運行、可驗證的結果。隨著模型同時具備視覺理解、工具調用、代碼生成和自我驗證能力，AI能承擔的工作將逐步進入軟件開發、辦公自動化、瀏覽器操作、數據處理等更具體的執行場景。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.