<ruby id="9ue20"></ruby>

  1. 
    

      国产午夜福利免费入口,国产日韩综合av在线,精品久久人人妻人人做精品,蜜臀av一区二区三区精品,亚洲欧美中文日韩在线v日本,人妻av中文字幕无码专区 ,亚洲精品国产av一区二区,久久精品国产清自在天天线
      網易首頁 > 網易號 > 正文 申請入駐

      TTS也要真人感!首個字級內容、毫秒級停頓控制的語音合成系統

      0
      分享至


      新智元報道

      編輯:LRST

      【新智元導讀】語音合成這兩年發展迅速:把一段話順順當當地念完,已經不算難事;難的是該慢的時候慢,該頓的時候頓,該強調的時候真能把重點托出來。

      語音合成這些年最明顯的進展,是越來越會模擬真人輸出語音。

      自然度更高了,聲音更像真人了,零樣本克隆也越來越成熟了。可一旦要求模型別再只是平著往下讀,而是對一句話內部的節奏做有選擇的安排,問題就暴露出來了。很多系統能做到整體變快、整體變慢,也能給整段話套一個風格標簽,但真到關鍵位置,往往還是一起變,很難做到只改重點區域。

      而產品場景里,用戶在意的常常就是只改重點區域。

      驗證碼播報里,數字之間要不要刻意拉開;導航播報里,動作信息要不要被單獨頂出來;教學糾音里,兩個容易混淆的詞能不能被故意說出差別;劇情化表達里,結尾那個關鍵詞之前能不能多留半拍。這些需求都不是靠整句降速就能混過去的。

      華南理工最新工作MAGIC-TTS首次把字級時長和邊界停連同時拉到 token 級,做成了局部可控的語音生成能力。


      論文鏈接: https://arxiv.org/abs/2604.21164v1

      代碼鏈接: https://github.com/yongaifadian1/MAGIC-TTS/tree/main

      演示鏈接: https://yongaifadian1.github.io/MAGIC-TTS/

      所以,這篇工作真正值得看的點在于它在把一件以前很難穩定實現的能力往前推:讓模型不只是會發聲,還開始會安排一句話內部的節奏,同時不犧牲合成質量和克隆語音的相似程度。

      如果把MAGIC-TTS放回真實使用場景里看,它最先改動的,其實是三類任務。

      第一類,是高辨識播報。

      這一類任務的核心不是更自然,而是更不容易聽錯。論文里拿了驗證碼播報做例子。作者先給整句內容設置均勻時長,再刻意把中間分組的停頓拉開,最后進一步把數字本身也放慢。這樣做的結果不是簡單的整句慢下來,而是用戶先聽清分組,再聽清每個數字。換到產品里,這種處理顯然不只適用于驗證碼,還適用于訂單號、取件碼、地址、藥品名這類高辨識內容。

      地鐵播報也是同一路數。作者沒有讓整句一起拖慢,而是把站點出現前的停連做得更明顯,同時把真正需要乘客注意的站名壓得更重一些。對這類高實時任務來說,節奏是否準確,很多時候比聲音是否足夠像真人更有價值。

      第二類,是教學和糾錯。

      論文里給出的案例是英文近音詞糾正。作者通過縮短前一個詞、拉長后一個詞,并在糾正關系出現前加入短暫停頓,讓兩者之間的差異不再糊成一團。這個例子最關鍵的地方,不是能合成英文,而是模型開始能利用節奏本身去幫助區分語義關系。

      這類能力一旦成熟,對外語學習、兒童跟讀、口語訓練會很直接。因為教學場景需要的從來不是一臺平鋪直敘的朗讀器,而是一個能把差異做出來、把重點放出來的示范系統。

      第三類,是表達型語音。

      論文還展示了一個戲劇化場景:在句尾關鍵詞出現之前先留一小段空白,再把最后那個詞拉開。這個動作非常小,但聽感會一下從把句子讀完變成把情緒送出來。也就是說,局部節奏控制影響的不只是信息清晰度,還會開始影響敘事張力和表現力。

      過去,這類處理通常被認為屬于真人配音、導演調度或者后期剪輯的領地。現在,TTS 也開始往這個方向摸了。

      為什么這件事早就該有

      卻一直很難真正落地

      第一,整句控制和句內控制,根本不是一回事。讓一整段話慢一點,本質上還是全局調節;但讓某個詞多占幾十毫秒、讓某個邊界多留一段停頓,要求的是模型在局部位置精確地重新分配時間。

      第二,停頓和字時長也不是同一種難度。停頓更接近邊界留白,內容時長則直接涉及 token 內部的聲學展開。前者像在內容之間插空,后者則是改內容本身怎么展開。真正難啃的是后者。

      第三,局部控制越細,對訓練時的監督邊界越苛刻。假如在訓練中,一個 token 的起止位置本來就不穩,那么后面在推理時不管是要拉長它,還是要在它后面加停頓,都會變成一件漂浮不定的事。

      所以,這類問題真正卡住行業的,往往不是有沒有想法,而是能不能把它做成一個不會穩定的,可以應用在真實場景的模型。

      方法

      從方法上看,MAGIC-TTS 真正抓住的,是三個更底層的環節


      第一,是把一句話里的兩種時間因素拆開。

      這篇工作沒有再把節奏當成一個模糊的整體感覺去學,而是明確地區分每一個詞要占多久和每一個詞之后要停多久。前者對應 token 本身的展開長度,后者對應邊界停頓。把這兩件事拆開,等于承認了一句自然語音的節奏,本來就不是一個總時長數字能夠概括的。

      第二,是先把每個詞的邊界監督校準。

      論文里一個很關鍵的工程步驟,是先用 Stable-ts 在總時長為3萬小時大規模語音上構造 token 級時序標簽進行持續預訓練,再用 Stable-ts 和 MFA 做交叉驗證,篩掉不可靠樣本。最終留下來的高置信度子集總時長 230.72 小時,進行精細指令微調。這個步驟決定了后面的控制是不是建在堅實的基礎上。如果邊界不準,所有精細調節都會被噪聲吞掉。

      第三,是解決停頓控制會不會污染內容控制。

      這篇工作的一個現實問題:模型為每個位置都編碼了內容控制殘差和停頓殘差,但關鍵是,不是每個位置都應該有停頓,對于自然語音,大多數時候句子內的字都是黏連在一起發聲,因此很多位置的停頓殘差天然就該是 0。

      但是如果模型單純采用MLP去編碼停頓殘差,這會導致如果模型將這些不存在的停頓都編碼成有偏信號,整句里就會不斷積累無意義干擾,最后把更難學的內容時長控制的影響削弱。論文里的零值校正,本質上就是在處理這個問題:該沒有影響的時候,就盡量真的沒有影響。

      與此同時,作者還專門做了缺失控制魯棒性訓練。原因很現實,用戶不可能每次都給整句配一套精細時序。如果一個系統只有在滿配控制條件下才表現好,那它就更像實驗演示,而不是實際能力。把默認合成和局部調節同時保住,才更接近真正可用的方向。

      最值得看的證據,不只是會不會停,而是能不能穩穩地控字。

      這篇論文的數據結果里,最重要的其實不是停頓,而是內容時長。

      在顯式給出token級內容時長和停頓條件之后,每個字的內容時長 MAE(平均絕對誤差) 從36.88ms 降到了10.56 ms,相關性從0.588提升到0.918。停頓方面,MAE從18.92 ms 降到8.32ms,相關性從0.283提升到0.793。

      為什么說內容時長更關鍵?因為會停一下相對容易理解,也更容易被實現成邊界層面的動作;但把這個 token 本身說得更長一點、又不把整句帶壞,難度明顯更高。也正因為如此,內容時長指標的大幅提升,比單純的停頓跟隨更能說明問題。

      應用場景

      如果這條路線跑通,最先吃到紅利的那幾類產品

      最先受益的,還是那些聽錯一個字都麻煩的場景。

      高辨識播報會是第一批,包括驗證碼、訂單號、地址、藥品名、導航、車載播報。比起聲音不擬人,這些地方最怕的是信息沒聽清。過去很多系統只能靠整句放慢來保底,但那往往會犧牲效率,且對于重點的突出效果不是那么好;如果節奏能局部編排,系統就能把該重點聽的地方單獨拉出來。

      第二批會是教學糾音。兒童跟讀、外語學習、示范式朗讀,都更需要一個會示范差異的系統,而不是一個把文本順著念完的系統。誰能把停連、重音、對比關系更清楚地演示出來,誰在這一類產品里就更有優勢。

      再往后,是表達型語音。數字人、劇情化配音、音頻內容生成、故事講述,這些方向對局部節奏的要求更高,但一旦能力成熟,帶來的產品觀感提升也會更明顯。

      小結

      MAGIC-TTS的核心價值在于把語音合成從「把話念自然」推進到「能精細安排句內節奏」,如何同時控制 token 級字時長和邊界停頓,讓現實應用場景中的重點內容被更清楚、更有表現力地說出來,是下一階段要重視的問題。

      參考資料:

      https://arxiv.org/abs/2604.21164

      特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

      Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

      相關推薦
      熱點推薦
      不能二次加熱的6種食物!醫生提醒:吃不完或倒掉,別亂節儉

      不能二次加熱的6種食物!醫生提醒:吃不完或倒掉,別亂節儉

      冷眼看世界728
      2026-05-12 20:46:26
      北京地下城重新向市民開放!免費!地址——

      北京地下城重新向市民開放!免費!地址——

      首都之窗
      2026-05-12 18:55:37
      梁安琪帶奚夢瑤掃貨豪宅,同層豪擲1.68億,拿下三套李澤楷新樓盤

      梁安琪帶奚夢瑤掃貨豪宅,同層豪擲1.68億,拿下三套李澤楷新樓盤

      素衣讀史
      2026-05-12 21:57:21
      美媒披露:阿聯酋秘密對伊朗發動軍事打擊

      美媒披露:阿聯酋秘密對伊朗發動軍事打擊

      參考消息
      2026-05-12 20:36:12
      以前叫人家強哥,現在請叫植物

      以前叫人家強哥,現在請叫植物

      阿亮評論
      2026-05-12 12:18:33
      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      浙大鄭強教授:我不承認中國大學生就業難,是舒服的工作難找,建議少點抱怨少點索取

      TOP大學來了
      2026-05-11 16:39:00
      周星馳又做短劇了!與抖音集團短劇版權中心聯手,翻拍《食神》

      周星馳又做短劇了!與抖音集團短劇版權中心聯手,翻拍《食神》

      新腕兒
      2026-05-11 19:13:21
      打破常規 國內航線燃油附加費5月16日起再上調

      打破常規 國內航線燃油附加費5月16日起再上調

      財聯社
      2026-05-12 16:55:15
      日系供應鏈集體失守!豐田日產大舉采用中國零部件:成本低3成、質量還一樣

      日系供應鏈集體失守!豐田日產大舉采用中國零部件:成本低3成、質量還一樣

      快科技
      2026-05-12 12:20:06
      一個東北人,在遠東承包了1200畝地,種植來自東北的大豆

      一個東北人,在遠東承包了1200畝地,種植來自東北的大豆

      正面連接
      2026-05-12 17:55:48
      人沒到先點名!特朗普還沒落地,內塔尼亞胡竟提前對中國發出警告

      人沒到先點名!特朗普還沒落地,內塔尼亞胡竟提前對中國發出警告

      小叨娛樂
      2026-05-12 13:39:10
      宇樹發布GD01載人變形機甲 定價390萬元起

      宇樹發布GD01載人變形機甲 定價390萬元起

      財聯社
      2026-05-12 12:27:07
      無憂傳媒創始人凌晨發朋友圈 配圖文字:無情無義的人不能交往

      無憂傳媒創始人凌晨發朋友圈 配圖文字:無情無義的人不能交往

      快科技
      2026-05-12 16:13:29
      曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

      曝東契奇要求湖人留下里夫斯!詹姆斯去留棘手:騎勇很可能招攬他

      羅說NBA
      2026-05-12 21:43:19
      出乎眾人預料,中方提前48小時官宣特朗普訪華,高市早苗心愿落空

      出乎眾人預料,中方提前48小時官宣特朗普訪華,高市早苗心愿落空

      策前論
      2026-05-11 18:13:56
      女子退禮服被商家曝光后續:女方長相扒出,主動退演,稱情緒低落

      女子退禮服被商家曝光后續:女方長相扒出,主動退演,稱情緒低落

      李晚書
      2026-05-12 18:54:35
      黃仁勛真是被白宮徹底封殺了

      黃仁勛真是被白宮徹底封殺了

      大貓財經Pro
      2026-05-12 14:04:28
      京滬高鐵漲價,罵聲一片

      京滬高鐵漲價,罵聲一片

      鳳眼論
      2026-05-12 16:53:49
      女子推搡哨兵后續:官媒發聲,知情人爆料,恐不止坐牢這么簡單

      女子推搡哨兵后續:官媒發聲,知情人爆料,恐不止坐牢這么簡單

      千言娛樂記
      2026-05-12 15:10:56
      吃他汀一顆南瓜子不能碰?提醒:不止南瓜子,這4樣食物也要小心

      吃他汀一顆南瓜子不能碰?提醒:不止南瓜子,這4樣食物也要小心

      芹姐說生活
      2026-05-12 16:25:54
      2026-05-13 00:56:49
      新智元 incentive-icons
      新智元
      AI產業主平臺領航智能+時代
      15194文章數 66863關注度
      往期回顧 全部

      科技要聞

      宇樹發布載人變形機甲,定價390萬元起

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      頭條要聞

      特朗普稱將同中方討論對臺軍售和黎智英案 外交部回應

      體育要聞

      騎士終于玩明白了?

      娛樂要聞

      白鹿風波升級!掉粉20萬評論區淪陷

      財經要聞

      利潤再腰斬 京東干外賣后就沒過過好日子

      汽車要聞

      吉利銀河“TT”申報圖曝光 電動尾翼+激光雷達

      態度原創

      教育
      時尚
      健康
      本地
      數碼

      教育要聞

      求求你試試「5+1+1」學習法!!!

      普通人真該學學如何穿搭!多穿裙子比褲子更時髦,大方提氣質

      干細胞能讓人“返老還童”嗎

      本地新聞

      用蘇繡的方式,打開江西婺源

      數碼要聞

      2000W電源來了!AI工作站供電新選擇

      無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 91偷拍视频| 一区二区二区三区av| 亚洲精品日本一区二区| 国产成AV人片久青草影院| 久久亚洲精品23p| 色综合久88| 曰韩无码无遮挡A级毛片| 色人妻中文字幕| 免费费很色大片欧一二区| 国产成人午夜福利院| 国产播放91色在线观看| 成人在线一本之道| 国内精品久久久久激情影院| 综合色色色| 成人啪精品视频网站午夜| 亚洲成A人片在线观看的电影| 777米奇色8888狠狠俺去啦| 国产视频1区2区| 人妻无码系列一区二区三区| 亚洲男人的天堂2019| 噜妇插内射精品| 亚洲综合久久精品国产高清| 亚洲欧美日韩综合久久久| 亚洲一区二区三区| 精品?一区?卡| 亚洲AV日韩AV高潮噴潮无码| 久久强奷乱码老熟女网站| 精品av无码国产一区二区| 麻豆精品一区二区视频在线 | 亚洲一区二区三区无码| 亚洲国产成人综合精品2020| 日韩一卡2卡3卡4卡新区亚洲| 性欧美牲交在线视频| 男女xx00xx的视频免费观看| 青青久草| 天天躁狠狠躁av| 亚洲熟妇中文字幕五十中出| 亚洲 国产 制服 丝袜 一区| 人人人澡人人肉久久精品| 亚洲日韩亚洲另类激情文学| 麻豆人妻|