3月30日,阿里發布千問新一代全模態大模型Qwen3.5-Omni,在音視頻理解、識別、交互等215項任務中取得SOTA(性能最佳),超越Gemini-3.1 Pro,成為目前全球最強的全模態大模型之一。
新模型擁有極強的音視頻理解與實時交互能力,能夠對音視頻內容生成詳細且可控的結構化描述,可識別語言和方言數量多達113種,還驚喜地涌現出了音視頻Vibe Coding能力,用戶對著鏡頭闡述需求,就能讓模型自主生成APP、網頁、游戲等復雜產品代碼。目前,阿里云百煉已上新Qwen3.5-Omni的Plus、Flash、Light三種API,可廣泛應用于短視頻/直播平臺、游戲、自媒體等行業。
Qwen3.5-Omni采用混合注意力MoE架構,在海量文本、視覺以及超過1億小時的音視頻數據上進行了原生多模態預訓練,可實現圖片、視頻、語音、文字等全模態內容的輸入與輸出。新模型在音視頻理解、跨模態推理、Agent方面實現了性能飛躍,在音視頻理解、語音識別、多語種翻譯、對話等215項第三方性能測試任務中取得SOTA。
比如,在聚焦視聽交互能力的DailyOmni、QualcommInteractive、Omni Cloze等測試中,Qwen3.5-Omni得分大幅領先Gemini-3.1 Pro;在檢測嘈雜環境抗干擾能力的WenetSpeech測試中,Qwen3.5-Omni錯誤率遠低于Gemini,識別準確率極高;在考察多語言語音生成質量的Multi-Lingual (30lang) 測試中,Qwen3.5-Omni同樣顯著優于Gemini-2.5-Pro-TTS。
![]()
Qwen3.5-Omni擁有極強的語言能力,支持113種語言及方言的語音識別和36種語言及方言的語音生成,就連使用人數不足一百萬的毛利語和國內的海南方言,也能精準識別。新模型還大幅增強了實時交互體驗,能高情商聽懂用戶對話意圖,準確區分有效回應和隨口附和,就像和真人聊天一樣。
同時,模型還可以根據指令自由調節語音、語調,并基于創新的ARIA技術,使生成的語音更自然、更穩定。 在面對類似“今天的天氣怎樣”的實時提問時,模型還能自主判斷并調用工具,確保回復內容準確且時效性強。
基于一系列技術創新,Qwen3.5-Omni將Vibe Coding推入下一階段。與純文本或圖片驅動的Vibe Coding不同,千問可以實現音視頻編程:打開攝像頭,用戶對著草圖口述需求,哪怕是包括復雜產品邏輯的描述,模型也能直接生成帶有復雜UI的產品原型界面,真正實現“動動嘴即可編程”。這一能力并非刻意設計,而是模型在原生多模態能力持續擴展過程中自然涌現出的結果。
Qwen3.5-Omni頂尖的全模態能力,還能為專業領域帶來超級生產力。新模型可對畫面主體、人物關系、對話邏輯、乃至人物情緒起伏進行極細的拆解,并自動完成視頻章節切片與時間戳標注,支持超過10小時的音頻輸入,將繁瑣的視頻后期梳理工作縮短至秒級,大幅降低了企業的內容管理成本,在視頻創作、內容審核等領域具有極高的落地價值。
目前,普通用戶也可前往Qwen Chat免費體驗,開發者和企業可通過阿里云百煉平臺調用Qwen3.5-Omni模型,每百萬Tokens輸入不到0.8元,比Gemini-3.1 Pro的1/10還低。據了解,千問穩居中國企業級大模型調用市場第一,服務涵蓋互聯網、金融、消費電子及汽車等重點行業超100萬家客戶。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.