網易首頁 > 網易號 > 正文申請入駐

阿里發布Qwen3.5-Omni，多模態能力超越Gemini-3.1 Pro

2026-03-31 09:09:05　來源: 白鯨實驗室one

北京舉報

分享至

3月30日，阿里發布千問新一代全模態大模型Qwen3.5-Omni，在音視頻理解、識別、交互等215項任務中取得SOTA（性能最佳），超越Gemini-3.1 Pro，成為目前全球最強的全模態大模型之一。

新模型擁有極強的音視頻理解與實時交互能力，能夠對音視頻內容生成詳細且可控的結構化描述，可識別語言和方言數量多達113種，還驚喜地涌現出了音視頻Vibe Coding能力，用戶對著鏡頭闡述需求，就能讓模型自主生成APP、網頁、游戲等復雜產品代碼。目前，阿里云百煉已上新Qwen3.5-Omni的Plus、Flash、Light三種API，可廣泛應用于短視頻/直播平臺、游戲、自媒體等行業。

Qwen3.5-Omni采用混合注意力MoE架構，在海量文本、視覺以及超過1億小時的音視頻數據上進行了原生多模態預訓練，可實現圖片、視頻、語音、文字等全模態內容的輸入與輸出。新模型在音視頻理解、跨模態推理、Agent方面實現了性能飛躍，在音視頻理解、語音識別、多語種翻譯、對話等215項第三方性能測試任務中取得SOTA。

比如，在聚焦視聽交互能力的DailyOmni、QualcommInteractive、Omni Cloze等測試中，Qwen3.5-Omni得分大幅領先Gemini-3.1 Pro；在檢測嘈雜環境抗干擾能力的WenetSpeech測試中，Qwen3.5-Omni錯誤率遠低于Gemini，識別準確率極高；在考察多語言語音生成質量的Multi-Lingual (30lang) 測試中，Qwen3.5-Omni同樣顯著優于Gemini-2.5-Pro-TTS。

Qwen3.5-Omni擁有極強的語言能力，支持113種語言及方言的語音識別和36種語言及方言的語音生成，就連使用人數不足一百萬的毛利語和國內的海南方言，也能精準識別。新模型還大幅增強了實時交互體驗，能高情商聽懂用戶對話意圖，準確區分有效回應和隨口附和，就像和真人聊天一樣。

同時，模型還可以根據指令自由調節語音、語調，并基于創新的ARIA技術，使生成的語音更自然、更穩定。在面對類似“今天的天氣怎樣”的實時提問時，模型還能自主判斷并調用工具，確保回復內容準確且時效性強。

基于一系列技術創新，Qwen3.5-Omni將Vibe Coding推入下一階段。與純文本或圖片驅動的Vibe Coding不同，千問可以實現音視頻編程：打開攝像頭，用戶對著草圖口述需求，哪怕是包括復雜產品邏輯的描述，模型也能直接生成帶有復雜UI的產品原型界面，真正實現“動動嘴即可編程”。這一能力并非刻意設計，而是模型在原生多模態能力持續擴展過程中自然涌現出的結果。

Qwen3.5-Omni頂尖的全模態能力，還能為專業領域帶來超級生產力。新模型可對畫面主體、人物關系、對話邏輯、乃至人物情緒起伏進行極細的拆解，并自動完成視頻章節切片與時間戳標注，支持超過10小時的音頻輸入，將繁瑣的視頻后期梳理工作縮短至秒級，大幅降低了企業的內容管理成本，在視頻創作、內容審核等領域具有極高的落地價值。

目前，普通用戶也可前往Qwen Chat免費體驗，開發者和企業可通過阿里云百煉平臺調用Qwen3.5-Omni模型，每百萬Tokens輸入不到0.8元，比Gemini-3.1 Pro的1/10還低。據了解，千問穩居中國企業級大模型調用市場第一，服務涵蓋互聯網、金融、消費電子及汽車等重點行業超100萬家客戶。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.