網易首頁 > 網易號 > 正文申請入駐

35小時智能體自主進化！千問旗艦模型Qwen3.7-Max重磅發(fā)布

2026-05-20 11:44:40　來源: 數智前線

甘肅舉報

分享至

5月20日，阿里巴巴發(fā)布全新一代千問旗艦模型Qwen3.7-Max，在三方機構Arena全球大模型盲測總榜中，Qwen3.7-Max超過Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1，與GPT、Claude、Gemini最強模型接近，位列國產模型第一。千問3.7面向當下智能體（Agent）全新設計，實現了編程、推理等核心能力的持續(xù)突破，甚至可全自主完成35小時的超長程智能體復雜任務：在一個全新的芯片平臺上，Qwen3.7-Max通過自主編程和超1000次工具調用，實現了一個關鍵內核的自我進化，推理速度較原版本提升10倍。

圖說：Qwen3.7-Max發(fā)布，位列國產模型第一

阿里大模型研發(fā)顯著加速，近3個月內，千問旗艦大模型已穩(wěn)定迭代了3.5、3.6、3.7三個版本，不斷抬高國產模型的性能上限，Qwen3.7-Max在數項權威評測中位居前列：在編程智能體方面，Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual等測評中均取得領先表現，在Terminal Bench 2.0-Terminus得分69.7，超過了DeepSeek-v4-pro-Max、Claude-Opus4.6等一眾模型；在通用智能體方面，Qwen3.7-Max提升顯著，在MCP-Atlas、MCP-Mark、Skillbench等現實能力測試中表現優(yōu)異，超越GLM5.1、Kimi-K2.6等，創(chuàng)下國產新高，并在 Kernel Bench L3上展示了強大的 GPU 內核優(yōu)化能力；推理能力上， Qwen3.7-Max 在GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench等推理核心測評中均超越了Claude-Opus4.6及所有國產模型；在通用能力與多語言方面，Qwen3.7-Max 在指令遵循 IFBench 評測中得分79.1分突破新高，在多語言理解和翻譯的WMT24++、MAXIFE評測中領先。

當下，編程能力已成為衡量LLM大語言模型的核心指標，Qwen3.7-Max較上代模型實現了大幅提升，從前端原型開發(fā)到復雜的多文件工程均能駕馭。在評估AI解決真實世界的實戰(zhàn)編程任務SWE-bench系列測評、面向真實科學問題的編程測評SciCode中，Qwen3.7-Max較Qwen3.6-Plus大幅提升，并超越了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等模型。千問3.7是出色的編程智能體，可自主編寫代碼創(chuàng)造工具，精準執(zhí)行任務，完成復雜編程的自我糾錯迭代，就像個資深工程師，跑完從需求分析到測試迭代的全流程，自主產出可用的工業(yè)級成果。

不斷提升的編程能力，也為智能體完成更復雜、更長周期的任務打下堅實基礎。千問3.7本身具有極強的Agent能力，并涌現出跨多種智能體框架的泛化能力，在 Claude Code、OpenClaw、Qwen Code 等框架下都能穩(wěn)定發(fā)揮，有望成為各類智能體系統(tǒng)的可靠底座。通過MCP集成和多智能體協(xié)作，Qwen3.7-Max在企業(yè)級辦公場景實現工作流自動化，在辦公自動化基準 SpreadSheetBench-v1上斬獲87分，處于頂尖水平，是可靠的辦公與生產力助手。以往需專業(yè)團隊耗時一至兩周的復雜項目，現由 Qwen3.7-Max 驅動的智能體可在數小時內完成端到端交付閉環(huán)。

實戰(zhàn)任務測試中，Qwen3.7-Max還展示了當下智能體所能達到的長程任務極限。對大模型而言，推理速度與推理框架息息相關，AI Infra工程師最重要的工作之一就是進行推理框架中的算子優(yōu)化，這需要極強的經驗、知識、算法能力以及反復調試、糾錯迭代。如今，千問3.7也嘗試自主解決這一難題。在一個模型訓練時從未接觸過的全新硬件平臺——平頭哥真武M890芯片上，千問3.7自主完成了一個復雜的推理內核優(yōu)化任務。在沒有任何性能分析數據、硬件文檔或新架構的示例內核情況下，千問3.7僅從一個包含任務描述、SGLang Triton 參考實現和評測腳本的空白工作空間出發(fā)，從“零”開始持續(xù)編程 35 小時，獨立進行了 432 次內核評估、1158 次工具調用，完全自主地完成了編寫、編譯、性能分析與迭代改進的全流程。

圖說：Qwen3.7-Max可獨立執(zhí)行35小時的長程復雜任務

最終，在平頭哥新AI芯片上，經千問優(yōu)化后的推理內核比 SGLang Triton 官方參考實現取得了 10 倍的加速。測試軌跡還顯示，模型在獨立運行超過 30 小時后仍發(fā)現了有效優(yōu)化點，甚至主動發(fā)起了一次關鍵的架構重設計——這充分體現千問在復雜任務中長周期自主迭代的能力，為未來模型與智能體的自我演進打開了全新的想象空間。

在2026阿里云峰會現場，阿里云宣布面向Agentic時代全面升級，重磅發(fā)布全新的“芯-云-模型-推理”技術體系。據了解，Qwen3.7-Max模型API即將上線阿里云百煉，同時，千問3.7系列還將推出Qwen3.7-Plus等不同版本模型，擁有極強的多模態(tài)推理、視覺理解能力，實現從編程智能體到視覺智能體的全覆蓋，為下一代AI提供全能智能體新基座。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.