<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      AI有嘴了!OpenAI連發三語音模型

      0
      分享至



      昨天凌晨,OpenAI發布了三款音頻模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper。

      OpenAI官網的表述是,新模型可以讓開發者構建能在用戶說話時“推理、翻譯和轉寫”的實時語音產品。三款模型已經開放給開發者測試。



      這次更新的重點在于三款模型不同場景分工。

      GPT-Realtime-2面向實時語音Agent場景,它是OpenAI首個具備“GPT-5級推理”的語音模型,可以處理復雜請求,調用工具,處理中途打斷,并在更長語音會話中維持上下文。

      GPT-Realtime-Translate面向實時語音翻譯場景,支持70多種輸入語言到13種輸出語言。

      GPT-Realtime-Whisper面向實時語音轉寫,可以在人說話時生成文本,用于字幕、會議記錄和工作流更新。

      價格也同步公布。GPT-Realtime-2按token計費,音頻輸入起價為32美元/百萬token,音頻輸出為64美元/百萬token;GPT-Realtime-Translate按分鐘計費,價格為0.034美元/分鐘;GPT-Realtime-Whisper同樣按分鐘計費,價格為0.017美元/分鐘。

      相關報道顯示,一些企業用戶包括Zillow、Priceline和德國電信在內的知名廠商已經在測試這些模型。

      這是OpenAI過去一年語音路線的一次延伸。

      2024年,OpenAI先把ChatGPT高級語音模式背后的低延遲語音能力開放給開發者;2025年8月,OpenAI推出首個正式版Gpt-Realtime,開始面向生產級語音Agent。

      今年2月,Gpt-Realtime-1.5成為上一代主力模型,用于語音Agent和客服場景。再到今天的2.0版本的三大模型矩陣,這更像Realtime產品線從體驗功能走向企業API的一次版本升級。



      01

      從對話走向執行

      先來看GPT-Realtime-2,按照OpenAI官方的說法,這是第一款具備“GPT-5級推理”的語音模型。這個模型被設計用于處理復雜請求、調用工具、處理中斷,并在更長的語音會話里保持上下文。

      這些能力對應的是語音Agent落地時最常見的問題。

      GPT-Realtime-2把上下文窗口從32K提升到128K。這個參數對長會話場景有直接意義。比如一個用戶想要針對某套房產做咨詢、或者想要改簽機票,這些場景都可能包含大量條件和多輪確認。

      上下文窗口擴大后,模型可以在更長的實時對話里保留前面出現過的限制、偏好和業務信息。

      工具調用也是這次更新里的關鍵詞。RealtimeAPI可以用于構建會調用工具的語音體驗。應用可以保持實時會話連接,連續發送音頻,接收模型事件,更新會話狀態,并把外部系統返回的結果再交給模型繼續回應。

      美國房地產信息查詢網站Zillow,成為了OpenAI官方的首批企業案例。

      OpenAI在官網中提到,Zillow正在用GPT-Realtime-2構建可以理解住房條件并安排看房的語音助手。Zillow方面表示,在最困難的對抗性測試中,經過prompt優化后,電話任務成功率從69%提升到95%,FairHousing相關合規表現也更穩定。

      Fair Housing指美國住房交易中的反歧視合規要求,房產平臺不能在買賣、租賃、貸款或經紀服務中,基于種族、宗教、性別、殘障、家庭狀況、國籍等因素區別對待用戶。

      從“能說”到“會說”,這可能是GPT-Realtime-2給予行業的最大震撼。

      Booking子公司、知名旅行優惠平臺Priceline,則代表另一類語音模型的落地場景。

      據了解,Priceline也在測試GPT-Realtime-2系列。旅游預訂的鏈條很長,用戶可能要查航班、訂酒店、調整日期、處理延誤、比較價格,還可能在境外需要翻譯。語音Agent如果能穩定接入后臺系統,就有機會把“問答”推進到“辦事”。

      OpenAI提到的另一個已知客戶是德國電信。電信行業有大規模坐席、復雜套餐、故障處理、多語言服務和賬單解釋,也是語音模型落地的天然場景。



      GPT-Realtime-2還有一個細節是可調推理強度。

      OpenAI開發者文檔提到,GPT-Realtime-2把推理能力帶入語音到語音工作流。多數生產場景可以先使用較低的推理強度,優先保證通話里的響應速度;遇到更復雜的客服、預訂、排障任務,再提高推理強度,用更多計算換取更完整的判斷。

      這個細節很重要。語音交互比文字聊天更怕停頓。用戶在電話里等待一兩秒,會明顯感到卡頓。推理越強,延遲壓力越大。在性能和響應的平衡上,不同的開發者在這個問題上會有一定取舍。。

      官方也給出了一些測試數據。OpenAI稱,GPT-Realtime-2在Big Bench Audio上比GPT-Realtime-1.5高15.2%,在Audio MultiChallenge上高13.8%。這兩個指標用于衡量模型在音頻輸入、多輪語音、復雜指令和上下文整合方面的能力。

      第二款模型是GPT-Realtime-Translate。

      按OpenAI面向開發者的示例說明,GPT-Realtime-Translate主打實時語音到語音翻譯,適合廣播、直播、電話和視頻對話。它會自動識別輸入語言,并輸出翻譯后的語音和文本。開發者只需要設定目標語言。

      這個模型支持70多種輸入語言到13種輸出語言。OpenAI稱,它可以在說話人講話時跟上節奏。開發者文檔還提到,傳統語音翻譯常常要求說話人停頓,系統等一句話結束后再翻譯;而GPT-Realtime-Translate更接近連續口譯的形態。

      OpenAI把它的場景分成兩類。

      一類是廣播式翻譯,比如直播、網絡研討會、講座、財報電話會和大型會議演講。另一類是對話式翻譯,比如呼叫中心、視頻通話和電話工作流。這兩個類別基本覆蓋了企業最愿意付費的跨語言場景:客服、教育、國際會議、內容平臺、跨境銷售和企業培訓。

      第三款模型是GPT-Realtime-Whisper。

      GPT-Realtime-Whisper強調實時流式轉寫。它可以在說話人講話時生成字幕、會議記錄和工作流更新。相比起前兩個模型,Whisper的商業門檻最低。它的價格僅為0.017美元/分鐘。

      三款模型放在一起看,OpenAI已經把實時音頻拆成了三個明確入口:GPT-Realtime-2處理語音Agent,GPT-Realtime-Translate處理跨語言溝通,GPT-Realtime-Whisper處理實時文本化。

      三者的價格、延遲要求和客戶場景都不同,奧特曼想要在差異化路線上“通吃”語音AI市場。

      02

      TTS市場卷完“聲音質量”卷“實時”

      這次發布還有一個很清楚的商業信號:OpenAI正在把語音AI能力,全面推向API市場和企業工作流。

      除了OpenAI官方提到的Zillow、Priceline和德國電信三大測試客戶,更多公司也在把這批語音模型接進自己的產品。

      比如視頻平臺Vimeo、企業知識管理工具Glean、客服軟件公司Intercom,以及面向企業語音Agent的BolnaAI,都出現在目前披露的相關案例中。

      換句話說,GPT-Realtime系列已經成為了OpenAI的一個成熟的商業化版圖,客戶覆蓋內容平臺、企業辦公、客服系統和語音Agent創業公司等多類開發者。

      OpenAI展示的是一組真實業務中的場景:AI在通話中理解需求、調用系統、翻譯語言,并把語音交互接進企業后臺。

      而這一切,正好發生在語音AI市場繼續升溫的周期里。

      過去兩年,語音AI賽道最受關注的公司之一是ElevenLabs。這家公司2022年成立,最早靠高度擬真的AI配音、聲音克隆、多語言配音和內容本地化出圈,后來又把產品往企業語音Agent延伸。今年2月,ElevenLabs宣布完成5億美元D輪融資,估值達到110億美元。

      這一估值較2025年1月的33億美元大幅上升。公司稱,這筆資金將用于全球擴張,并繼續投入情感化對話模型、配音、轉寫和AI語音Agent等方向。

      更近的動態是,ElevenLabs在近期披露,公司年化經常性收入已經超過5億美元,并公布了更多參與D輪融資的新投資方。

      其中既包括貝萊德、惠靈頓管理等大型機構,也包括英偉達、賽富時創投、德國電信等產業方。甚至演員Jamie Foxx、Eva Longoria以及《魷魚游戲》創作者黃東赫等個人投資者,也出現在這輪投資名單中。

      面對著日益增長的需求,語音AI已經不只是創作者的配音工具。影視、廣告、游戲、教育、企業培訓、無障礙服務、內容出海和電話Agent,都在消耗更自然、更便宜、更可控的機器聲音。

      Deepgram代表另一種路線。

      這家公司長期做語音識別基礎設施,客戶更多來自聯絡中心、會議、銷售、醫療、金融等高頻語音場景。近年,Deepgram開始補上文本轉語音和語音Agent接口,試圖打通語音模型的辦事場景。

      Deepgram披露的信息顯示,旗下Aura-2文本轉語音面向實時語音應用,流式延遲低于200毫秒,并支持對地址、電話號碼、字母數字組合等結構化內容做更自然的朗讀。

      它還把語音識別、語音合成、實時情緒分析、話題檢測和摘要能力,放進聯絡中心等企業場景。

      Cartesia則主打低延遲和實時交互。

      這家公司由前斯坦福AI實驗室成員創辦,技術標簽是狀態空間模型,主打更快、更低成本的實時多模態模型。

      它的語音產品Sonic系列,核心賣點是低延遲文本轉語音。Cartesia的Sonic 3文檔稱,它是一個流式文本轉語音模型,強調高自然度、準確跟隨文本和低延遲;Sonic 3支持42種語言,也支持音量、語速和情緒控制。

      在Cartesia官網上,可以看到這家公司把90毫秒低延遲作為實時對話體驗的賣點。

      這些公司共同推動了TTS市場的變化。

      早期TTS競爭主要看聲音像不像真人。之后,行業開始比多語言覆蓋、聲音克隆、情緒表達、版權授權和配音效率。

      現在,語音Agent把要求抬高了。企業不只要一個好聽的聲音,還要完整鏈路:語音識別要準,首字延遲要低,大模型要能理解上下文,工具調用要穩定,語音合成要自然,翻譯要連續,轉寫還要能進入后續工作流。

      一些行業材料也反映了這個趨勢。Deepgram在TTS對比文章中提到,面向語音Agent的文本轉語音,已經把“首段語音生成低于100毫秒”視為新的基線之一。

      在行業內都在競相卷“實時”的背景下,OpenAI最大的優勢來自模型棧。

      OpenAI可以把整個企業調用TTS的鏈路,放到同一個開發者平臺里。對開發者來說,少接幾個供應商,就少一些延遲、集成和運維成本。對企業來說,統一平臺也更容易做權限管理、日志留存、數據策略和安全審查。

      不過,OpenAI想要通吃企業語音市場,也沒那么容易。

      ElevenLabs已跑到110億美元估值、超過5億美元年化收入;Deepgram今年1月完成1.3億美元融資,估值13億美元,服務1300多家客戶;Cartesia也在2025年完成6400萬美元A輪融資,Sonic模型據稱已有1萬多客戶使用,并以90毫秒模型延遲、42種語言主打實時語音。

      OpenAI有模型棧優勢,但語音市場并不缺少強勢玩家。



      奧特曼對這次發布的公開表態很短。他在X上稱,GPT-Realtime-2進入API是“相當大的一步前進”,同時OpenAI還在繼續改進ChatGPT里的語音體驗。

      只是從各大企業用戶爭相測試的情況來看,OpenAI的新一代語音模型,足以讓人期待他在接下來這一年的市場表現。

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      知情人士稱江蘇鹽城一醫生與同事聚餐酒后墜入河溝溺亡,醫院工作人員證實:有醫生溺亡一事

      知情人士稱江蘇鹽城一醫生與同事聚餐酒后墜入河溝溺亡,醫院工作人員證實:有醫生溺亡一事

      都市快報橙柿互動
      2026-05-08 17:46:37
      安順大爺胡蘿卜攤因干凈整潔走紅,烤魚店主全部買下,網友:被爺爺的胡蘿卜可愛到了!

      安順大爺胡蘿卜攤因干凈整潔走紅,烤魚店主全部買下,網友:被爺爺的胡蘿卜可愛到了!

      瀟湘晨報
      2026-05-08 18:04:21
      碰掉充電器就絕食,窮人家養出長公主,到底是公主病還是抑郁癥?

      碰掉充電器就絕食,窮人家養出長公主,到底是公主病還是抑郁癥?

      今朝牛馬
      2026-05-08 16:14:02
      花生立大功!研究發現:每天60克,腦血流漲3.6%,記憶力提升

      花生立大功!研究發現:每天60克,腦血流漲3.6%,記憶力提升

      思思夜話
      2026-05-07 12:02:37
      世乒賽一夜之間,歐洲2隊全出局!亞洲3隊進四強,國乒戰韓國變陣

      世乒賽一夜之間,歐洲2隊全出局!亞洲3隊進四強,國乒戰韓國變陣

      侃球熊弟
      2026-05-08 08:38:36
      阿嬌在英皇25周年演唱會獻唱,胖的慘不忍睹!大腿太粗了個子又矮

      阿嬌在英皇25周年演唱會獻唱,胖的慘不忍睹!大腿太粗了個子又矮

      情感大頭說說
      2026-05-08 17:56:53
      湖南一28歲干部受邀釣魚溺亡,家屬稱其手機里有大量領導違紀證據,死后才知他欠銀行37萬元,多名領導長期賭博,并帶領其參與

      湖南一28歲干部受邀釣魚溺亡,家屬稱其手機里有大量領導違紀證據,死后才知他欠銀行37萬元,多名領導長期賭博,并帶領其參與

      極目新聞
      2026-05-07 21:48:08
      王小騫也沒想到,患上矮小癥的女兒,會在自己52歲這年迎來逆襲

      王小騫也沒想到,患上矮小癥的女兒,會在自己52歲這年迎來逆襲

      流云隨風去遠方
      2026-05-08 12:21:02
      30萬人突然沒活干!煙花廠全鏈停產,飯碗斷了,出路在哪?

      30萬人突然沒活干!煙花廠全鏈停產,飯碗斷了,出路在哪?

      三農雷哥
      2026-05-08 07:59:35
      孫穎莎差點翻車原因曝光,賽后央視解說道實情,真相和馬琳有關?

      孫穎莎差點翻車原因曝光,賽后央視解說道實情,真相和馬琳有關?

      林子說事
      2026-05-08 17:08:24
      日媒:中國對日反制“正在產生影響”

      日媒:中國對日反制“正在產生影響”

      參考消息
      2026-05-08 15:36:10
      美媒稱美軍襲擊伊朗南部多地

      美媒稱美軍襲擊伊朗南部多地

      財聯社
      2026-05-08 04:58:07
      高市早苗下跪不到48小時,日本街頭掀起反抗浪潮,中方回應很直接

      高市早苗下跪不到48小時,日本街頭掀起反抗浪潮,中方回應很直接

      風云人物看歷史
      2026-05-08 16:55:06
      馬卡電臺:老佛爺應召集選舉然后離任;巴爾韋德已經不能留隊

      馬卡電臺:老佛爺應召集選舉然后離任;巴爾韋德已經不能留隊

      懂球帝
      2026-05-08 18:58:17
      中方再次回應特朗普訪華事宜,一句話給大家吃了個定心丸

      中方再次回應特朗普訪華事宜,一句話給大家吃了個定心丸

      軍武咖
      2026-05-08 17:05:58
      21億大陸球迷憤怒!香港為何能拿下世界杯轉播權?

      21億大陸球迷憤怒!香港為何能拿下世界杯轉播權?

      菁菁子衿
      2026-05-08 13:36:51
      下賽季中國將舉辦7站斯諾克比賽,數量創歷史新高

      下賽季中國將舉辦7站斯諾克比賽,數量創歷史新高

      懂球帝
      2026-05-08 13:43:15
      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

      浩渺青史
      2026-04-17 13:55:15
      女子川西徒步遇難:全過程曝光,隊友恐擔責,網友怒斥不值得同情

      女子川西徒步遇難:全過程曝光,隊友恐擔責,網友怒斥不值得同情

      智慧生活筆記
      2026-05-08 11:37:52
      五一各地旅游收入排名,河南381億第二,北京沒進前五,第一是誰

      五一各地旅游收入排名,河南381億第二,北京沒進前五,第一是誰

      丁丁鯉史紀
      2026-05-07 14:04:42
      2026-05-08 19:47:00
      字母榜 incentive-icons
      字母榜
      讓未來不止于大。
      2443文章數 8062關注度
      往期回顧 全部

      科技要聞

      SK海力士平均獎金600萬 工服成相親神器

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發人們反思

      頭條要聞

      媒體:"4只皮皮蝦1035元"店主去世僅43歲 觸發人們反思

      體育要聞

      他把首勝讓給隊友,然后用一年時間還清賬單

      娛樂要聞

      古天樂被曝隱婚生子,新娘竟是她

      財經要聞

      輪到豆包收割了?

      汽車要聞

      MG 4X實車亮相 將于5月11日開啟盲訂

      態度原創

      數碼
      家居
      藝術
      公開課
      軍事航空

      數碼要聞

      三星家電退出大陸市場 部分門店已撤場 經銷商集體竟流入咸魚甩尾貨

      家居要聞

      流動的尺度 打破家的形式主義

      藝術要聞

      探索施密德的油畫,感受無法抵擋的藝術魅力!

      公開課

      李玫瑾:為什么性格比能力更重要?

      軍事要聞

      伊朗:最高領袖穆杰塔巴全面掌控局勢

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 无码囯产精品一区二区免费| 内射毛片内射国产夫妻| 精品国产第一国产综合精品| 亚洲综合色中文网| 精品人妻一区二区三区蜜桃AⅤ| 国内不卡一区二区三区| 美女网站免费观看视频| 成人影院免费观看在线播放视频| 欧美成人秋霞久久aa片| 久久久av波多野一区二区| 四虎永久在线精品8848a| 最近最新高清中文字幕大全2019| 亚洲一区二区无码偷拍| 亚洲日无码| 精品国产乱码久久久久久1区2区| 成人一区二区不卡国产| 最新亚洲人成网站在线影院| 亚洲国产成人AⅤ毛片奶水| 免费99精品久久七七桃花| 最新亚洲人AV日韩一区二区| 国产精品 视频一区 二区三区| 免费国产好深啊好涨好硬视频| 国产中文字幕在线一区| 日韩三级一区二区在线看| 国产精品视频午夜福利| 熟妇人妻激情偷爽文| 国产成人av一区二区三区不卡| 在线观看亚洲精品国产福利片| 99视频30精品视频在线观看23245| 亚洲国产日韩A在线亚洲| 五月婷婷影院| 国产在线观看网站萌白酱视频| 亚洲资源在线| 日本黄页网站免费观看| 亚洲AV成人无码一二三在线观看| 色窝窝亚洲AV网在线观看| 青青草一区二区免费精品| 国内精品久久毛片一区二区| 欧洲AV在线| а∨天堂一区中文字幕| 欧美偷拍精品|