文 | 強調Next
5月20日,阿里云發布新一代旗艦模型Qwen3.7-Max。當晚蔡崇信和吳泳銘發布股東信表態,再次強調阿里云的戰略地位。
兩周前,火山引擎剛剛披露一組數字:根據IDC報告 2025年全年,火山引擎在中國企業級MaaS市場的Token調用量份額達到49.5%,阿里云28%,百度10%。
阿里云的模型更強了。但在調用量這張榜單上,它還落在火山引擎后面將近二十個百分點。
而就在Qwen3.7-Max發布會的前一天,阿里云高調發布了另一個行業榜單。Omdia統計的包含IaaS、PaaS、MaaS全鏈條的AI云整體收入,阿里云以35.8%排在第一,火山引擎14.8%。
兩張榜單,兩個第一,兩種敘事,足以窺見雙方的競爭烈度。兩張榜單背后,誰在建真正的護城河,還沒有答案。
![]()
01.評測的游戲,已經不只是跑分
昨天的發布會上,阿里云列出的評測清單比以往長了很多。除了GPQA、數學、代碼這些通用項,還出現了SWE-Pro、MCP-Mark、Qwen SVG、Qwen World Bench、Qwenclaw、ClawEval等一批更偏Agent場景的測試。
![]()
大模型行業跑了三年基準測試,MMLU、HumanEval、Arena已經被磨得快沒有區分度了,回答不了“誰更強”這個問題。
于是新一輪競爭轉移到了出題權上。Agent任務的評測更復雜,變量更多:模型本身的能力、工具接口質量、任務拆解方式、評分規則,每一個環節都能影響最終結果。這給了有研發余量的大廠足夠的操作空間,他們把自己擅長的任務形態寫進評測框架,在新賽道上先占有利位置。
OpenAI有自己的Evals,Anthropic有Claude工程任務集,Google有AIME和代碼競賽系列。阿里云這次密集推出Qwen前綴的專項測試,邏輯一樣。火山引擎的豆包大模型2.0在今年2月密集更新了多模態能力評測維度,重點強調OS Agent和復雜指令遵循,刻意回避了與Qwen正面競爭的賽道選擇。
各家都在用自己擅長的題目給自己打分。阿里出的題阿里能贏,火山出的題火山能贏,有參考意義,但不大。
旗艦模型之間的能力差距還在快速收窄,benchmark的邊際解釋力也在同步下降。一個模型在某張榜單領先0.5分,未必能轉化為真實業務中的穩定優勢。企業客戶最終關心的不是誰拿了第一,而是模型能不能持續完成任務、出錯后能不能自己改正、成本能不能算清楚。
Agent競爭的重心正在從“回答質量”遷移到“執行可靠性”。這是Qwen3.7-Max這次想證明的東西,但僅靠發布會數字還不夠。
02.開發者入口:三條截然不同的路
阿里云強調,Qwen3.7-Max具備跨框架泛化能力,并點名支持Claude Code、OpenClaw、Qwen Code等工具。
Claude Code是Anthropic今年增長最快的產品線之一,用戶基數和粘性越來越高。
阿里云的切入方式是把工具層和模型層顯式拆開。開發者繼續用Claude Code,但底層調用換成Qwen。
阿里云的如意算盤是,讓Anthropic做生態,自己做替換。這個邏輯能不能跑通,取決于Anthropic愿不愿意配合,而Anthropic現在正在把Claude和Claude Code綁得越來越緊。
![]()
火山引擎走的是另一條路。2026年3月,它正式發布ArkClaw。這是一款云端SaaS版的OpenClaw托管服務。
字節的策略是不讓開發者折騰本地環境、配API、裝Python,在火山方舟控制臺開通會員、點“立即創建”,兩分鐘內一個云端OpenClaw實例就跑起來了。ArkClaw深度綁定飛書生態,支持飛書應用市場一鍵安裝,聊天窗口里直接@智能體就能訂會議室、批量生成文檔、管理多維表格。
DeepSeek也在同一時間節點出手。近日DeepSeek發布了Harness產品經理和Harness研發工程師兩個新崗位,崗位 JD直接寫明:“除模型本身以外,所有工作都屬于Harness的范疇”,相關人員將參與“DeepSeek桌面端Agent產品”的全過程,并“定義DeepSeek對Harness的理解”。更早的3月,DeepSeek曾一口氣放出17個Agent方向崗位,要求候選人“深度使用過Claude Code、OpenClaw、Manus等知名Agent”。從大量招聘到組建專項團隊,DeepSeek從“只做模型”到“也做上層產品”的轉變,現在已經夠明確了。
![]()
阿里云盯住全球開發者工具鏈里的模型替換空間,火山引擎把Agent能力嵌進中國企業最常用的辦公IM,DeepSeek則直接做桌面端Agent產品,正面和Claude Code競爭。三家的目標客群有交叉,核心打法差異很大。
這三種路徑各有壁壘,也各有弱點。ArkClaw的優勢在低門檻和飛書生態的自然滲透,弱點是字節的B端客戶以前沿開發者和AI創業公司為主,進入金融、制造、政府等重型企業客戶的能力還有限,也很難像阿里云那樣把模型服務和存儲、數據庫、安全等周邊云產品打包銷售。阿里云的全棧布局讓它在企業客戶里有更強的話語權,但這也意味著銷售周期更長、客制化交付更重。DeepSeek的強項是模型本身的技術聲譽,但產品、運營、用戶留存,這些都不是做模型的公司天然擅長的事。
有開發者坦言,即便阿里推出了百煉平臺也沒有遷移的打算。“遷移本身就是成本。除非千問的能力強到明顯碾壓其他模型,或者完全免費,我才會考慮遷移。”
Anthropic已經開始把Claude模型和Claude Code綁定得更深:更穩定的項目級上下文、更精細的工具調用協議,以及一些設計上只有Claude才能完整激活的能力。工具層和模型層一旦重新耦合,第三方模型即便能接入,也只是“能跑”,而不是“好用”。
![]()
03.模型強不等于云收入強
發布Qwen3.7-Max的同一天,阿里巴巴集團主席蔡崇信和CEO吳泳銘聯合發布致股東信,措辭罕見地直接:“AI業務已跨越初期投入階段,正式邁入商業化回報周期。”信中還寫道,阿里正在加大對全棧AI能力的投資,要“打造更強大的MaaS產品,來更高效地實現模型與應用的連接”。
這是阿里云最想講的資本故事:模型越強,云業務越受益。
阿里的布局從云基礎設施、大模型、企業客戶、電商和辦公場景、芯片到服務器全覆蓋,是國內云廠商中最接近真正意義上“AI全棧”的。去年11月,阿里啟動“百煉戰役”,目標是短期內將百煉Token調用規模提升三倍以上;今年3月,集團CEO吳泳銘直接帶隊成立Alibaba Token Hub事業群。市場大體上認可這個方向。
但增長數字并不意味著增長質量。
回到開頭那兩張榜單。IDC按Token調用量統計,火山引擎2025年全年占49.5%,阿里云28%;Omdia按全鏈條AI云收入統計,阿里云35.8%,火山引擎14.8%。這種“雙第一”格局的背后,是兩套完全不同的商業邏輯。
![]()
有數據顯示,按Token計費的MaaS服務收入,目前僅占整個AI云市場規模的不到1%。Token調用量增速驚人,但它還沒有成為真正的收入大頭。這意味著,火山引擎“MaaS Token調用量第一”的標簽,和“AI云收入第一”之間,還有相當長的距離需要穿越。同樣,阿里云“全棧AI云收入領先”,也不能直接轉譯為Qwen的模型價值被充分兌現。
一個企業選擇阿里云的AI服務,可能是因為Qwen能力夠強,也可能是因為價格低、合規要求、或者原本就在阿里云采購體系里。三種來源,只有第一種值得講故事,后兩種不過是傳統云業務的收入換了個AI的殼。阿里云目前沒有披露,也沒有辦法輕松披露,這三類收入各占幾成。
![]()
AI云業務最危險的一種形態是:增長數字好看,但質量不扎實。試用量大、留存少;調用量漲、毛利被GPU成本吃掉;項目簽了不少,多數是重定制交付,規模化復制難。這種情況下,Qwen再強,也只是幫阿里云多賣了一些算力,并沒有真正建立模型層的護城河。
這個問題對火山引擎同樣存在。Token調用量不一定轉化出高質量的企業級收入。據媒體報道,阿里云的一線銷售直言,2024年以后,火山引擎對阿里云的威脅最大,雙方經常激烈爭奪同一個客戶。但爭奪的是哪類客戶,是利潤薄、易流失的AI創業公司,還是金融、制造這類黏性高、采購周期長的企業客戶?兩者的含金量差距很大。
百度是另一個參照系。它曾是AI公有云服務市場的連續多年第一,但正在悄悄轉換策略。百度智能云今年北京機場的廣告從“AI公有云市場份額領先”改成了“中國云廠商大模型市場項目數量&金額中標王“。這隱含的信息是:央國企客戶才是百度云的舒適區,MaaS的硬碰硬已經不是它的主戰場。
有質量的AI云收入特征應該是:客戶持續調用、使用深度遞增、遷移成本隨時間上升、單位成本隨規模下降,并且模型能力能帶動存儲、數據庫、安全、數據治理等周邊云服務協同增長。
這條鏈路,幾家AI云廠商目前都還沒有在財報層面講清楚。
04.誰在建真正的護城河
Qwen3.7-Max發布后,外界還會繼續比較它和Claude、GPT、DeepSeek誰更強,但結果的重要性會下降。
Agent時代的競爭,已經不是單純的模型能力競賽。模型能力是基礎,評測權決定話語權,開發者入口決定調用權,云基礎設施決定交付能力,收入質量決定商業價值。
從這個視角來看,中國AI云形成了大致四種路徑。
火山引擎的路徑是用豆包App的C端海量用戶打磨B端能力,用極致價格和低門檻工具快速跑量,把“Token調用量第一”建立成認知壁壘,再從調用量反推企業深度合作。這條路的風險是,客戶結構偏淺,一旦有更低價的競爭者出現,切換成本不高。Token第一的標簽,護城河還是流量泡沫,現在還說不清楚。
阿里云的路徑是用模型能力爭奪技術話語權,用百煉平臺和全棧產品矩陣綁定企業工作負載,通過支持Claude Code這樣的主流工具爭奪開發者,最終讓模型、工具鏈、云基礎設施形成閉環。這條路的風險是,鏈路長、節點多,任何一環出問題都會影響整體,而“全棧”意味著每個細分戰場都要維持競爭力,資源消耗巨大。
百度走的是第三條路,放棄MaaS的正面消耗,守住政企和央國企市場,用合規和安全能力筑壁壘。這條路最穩,但也最沒有彈性。
DeepSeek選擇正面和Claude Code競爭。這條路如果走通,DeepSeek就不再是一個給各家云廠商和開發者提供底層模型的“公共基礎設施”,而是一個有自己產品入口的Agent玩家。它要挑戰的,本質上是Anthropic,而不是阿里云或火山引擎。
![]()
阿里云在這四條路徑里的特殊性在于,它不能只證明Qwen強,還要證明Qwen能進入真實工作流,能留住開發者,能帶動企業工作負載遷移,最后能變成高質量云收入。
蔡崇信和吳泳銘在股東信里說,AI業務已經邁入商業化回報周期。這個判斷對不對,Qwen3.7-Max是重要的測試變量。
Qwen3.7-Max的看點不是今天超過了誰,而是半年后有多少開發者把它寫進了自己的工作流,有多少企業的工作負載因為它而不想走。
這場競爭最終檢驗的,不是哪家模型跑贏了哪張榜單,而是誰先把模型能力轉化成了客戶不愿離開的理由。這才是AI云競爭真正的終局問題。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.