![]()
OpenAI發布全新語音模型!GPT-Realtime-2 來了
OpenAI近日在API中推出三款全新音頻模型,標志著語音應用進入新時代。其中,GPT-Realtime-2作為首款具有GPT-5級推理能力的語音模型,能夠處理更復雜的語音請求,引發業界廣泛關注。
![]()
核心產品亮點
此次OpenAI推出的三款音頻模型各具特色:GPT-Realtime-2具備GPT-5級推理能力,能處理更復雜的請求;GPT-Realtime-Translate是實時翻譯模型,支持70+種語言翻譯成13種輸出語言;而GPT-Realtime-Whisper則提供流式語音轉文字服務,延遲極低。
技術突破與應用成效
根據測試數據,Zillow使用新模型后,復雜語音交互成功率提升26個百分點,從69%躍升至95%。此外,新模型支持128K超長上下文(此前為32K),并提供從minimal到xhigh五檔可調節的推理強度,為不同場景提供靈活選擇。
定價信息
三款新模型的價格分別為:GPT-Realtime-2為32美元/百萬音頻輸入tokens;實時翻譯為0.034美元/分鐘;實時轉錄為0.017美元/分鐘。這一價格體系旨在推動語音技術在更廣泛領域的應用。
行業展望
語音正在成為人與軟件交互的新界面。OpenAI不再滿足于"你問我答"的語音助手,而是要讓AI能邊聽、邊想、邊行動。從Zillow的房產助手,到Priceline的旅行管家,再到Deutsche Telekom的跨語言客服,語音版應用可能成為下一個爆款,重塑人機交互的未來格局。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.