網易首頁 > 網易號 > 正文申請入駐

Praxel Ventures突破：AI實現跨語言說話人統一身份識別

2026-05-08 20:18:45　來源: 科技行者

天津舉報

分享至

這項由印度Praxel Ventures公司獨立完成的研究，于2026年5月1日以預印本形式發布在arXiv平臺，論文編號為arXiv:2605.00777v1，研究方向歸屬于語音信號處理領域（cs.SD）。有興趣深入了解的讀者可通過該編號在arXiv上查閱完整原文。

一、同一張嘴，AI卻認不出來

假設你是一名客服中心的員工，工作中需要在印地語和英語之間自如切換。對于你的同事來說，你說話的聲音特征始終是"你"——那種特有的音調、節奏和腔調，無論你說什么語言都不會變。然而對于一套智能語音識別系統而言，當你從印地語切換到英語時，它可能突然"認不出"你了，甚至把同一個電話里的"你"標記為兩個不同的人。

這不是科幻場景，而是當前所有主流AI語音系統普遍存在的真實缺陷。這個問題背后的核心技術叫做"說話人編碼器"——簡單理解，就是AI把一段語音轉化成一串數字指紋的過程。一個人的聲紋特征會被壓縮進這串數字里，理論上同一個人說的話，無論內容是什么，轉化出來的數字指紋都應該彼此相近。問題在于，現有的編碼器除了記錄"誰在說話"，還悄悄記錄了"在用哪種語言說話"，導致同一個人換了語言之后，數字指紋發生了明顯偏移，系統就誤以為換了一個人。

這個問題對于印度語言環境尤其嚴重。印度擁有數十種語言，使用著完全不同的書寫系統——印地語用天城文（Devanagari），泰盧固語和泰米爾語各有其獨特的字母體系，英語則用拉丁字母。Praxel Ventures的研究人員對此進行了精確測量，發現當同一個人從英語切換到印地語時，當前最流行的語音識別工具之一WavLM-base-plus-sv給出的"相似度得分"從0.927驟降至0.845，足足跌落了0.082個百分點。而另一款被業界廣泛使用的工具ECAPA-TDNN表現更差，相似度從0.499跌到了0.394，下跌了0.105。

這些數字本身可能讓人感覺不那么直觀，換個說法就清晰了：如果把"完全確定是同一個人"定為滿分1分，把"完全確定是不同人"定為0分，那么僅僅因為說話語言改變，AI的判斷就從"很有把握是同一個人"滑向了"說不準"。在實際產品里，這意味著印度客服人員會被系統錯誤地拆成多個"不同人"，跨語言的聲音克隆產品會被用戶吐槽"換了個人的腔調"，而需要追蹤同一位顧客跨語言發言的分析系統也會產生大量錯誤數據。

Praxel Ventures的研究團隊針對這個問題提出了一個叫做LASE（Language-Adversarial Speaker Encoder，語言對抗說話人編碼器）的解決方案，并在實驗中將上述相似度差距壓縮到了0.013，效果幾乎等同于語言切換對AI的判斷完全沒有影響。

二、AI為什么會"記住"你說的是哪門語言

要理解LASE為何有效，得先搞清楚那些主流編碼器為什么會出問題。

現有的說話人編碼器，比如WavLM和ECAPA-TDNN，幾乎全部是用大量英語語音數據訓練出來的，其中最核心的數據集叫VoxCeleb，里面幾乎都是英語內容。訓練過程中，AI學會了識別"人"——它掌握了哪些聲學特征能區分不同說話者，比如聲帶厚薄、共鳴腔大小、說話節奏等。

但問題來了：AI在學習"人"的同時，也無意間把語言的特征學進去了。泰盧固語里有一種叫"卷舌音"的發音方式，英語里幾乎不存在；泰米爾語有著獨特的元音長度規律；印地語有復雜的送氣與不送氣輔音對立。當一個用英語訓練的AI第一次聽到一段印地語時，這些陌生的語音模式會讓它"不確定"——它會把說話者的聲紋映射到一個偏離原位置的地方，因為這些聲音組合在訓練數據里從來沒出現過。

打個比方，好比你花了十年時間學會從人的走路姿勢認人。突然有一天，你認識的一個朋友穿上了厚底鞋，走路姿勢變了——你可能一時間會猶豫"這還是他嗎？"。對AI來說，語言切換就相當于換了一雙鞋。

Praxel Ventures的團隊還發現了一個更有趣的細節：這個問題的嚴重程度取決于說話者原本的口音。當一個本身有印度口音的人在印地語和英語之間切換時，AI受到的干擾相對較小——因為印度式英語本身就帶有大量印度語音的底色，比如卷舌音和特有的聲調模式，和其他印度語言共享了很多聲學特征。但如果一個西方口音的人被要求用泰米爾語說話，AI就會大幅"走神"，因為兩者的聲學世界差距太大了。實驗數據印證了這一點：西方口音的說話者在跨語言時，WavLM-SV的相似度差距高達0.082，而印度口音說話者的差距僅為0.006，相差整整14倍。

這意味著，在實際產品部署中，損失最慘的恰恰是那些"用非印度口音的聲音去克隆印度語語音"的場景——而這在商業上偏偏是最常見的需求之一。

三、一個聰明的"反訓練"技巧

LASE的核心思路借鑒了機器學習領域一個經典的"對抗"策略，原理并不復雜：既然AI會同時學到"語言特征"和"說話人特征"，那就專門訓練一個"語言偵探"來監督AI，每次AI的輸出里還藏著語言信息時，就給它一個懲罰信號——迫使它逐漸把語言信息從聲紋里剔除出去。

具體來說，LASE由三個部分組成，可以理解為一條流水線：

第一段是一個被"鎖住"的基礎模型。團隊采用了WavLM-base-plus這個預訓練模型作為底座，處理16kHz采樣率的音頻，把原始聲音波形轉化成每個時間幀對應768個數字的特征序列。這個底座的參數在訓練過程中完全不動，團隊只在它上面加裝新機構，就像在一臺現有的收音機上加裝一個新的信號處理模塊，而不改動收音機本身的電路。

第二段是一個可以訓練的"翻譯頭"。這是一個由兩層神經網絡組成的轉換器（768個維度→512個→256個），它的任務是把底座輸出的復雜特征壓縮成一個256維的"聲紋向量"——也就是最終代表說話人身份的那串數字。在壓縮過程中，網絡會先對底座輸出的第10到12層特征做平均，因為根據已有研究，這幾層對說話人識別最有用。

第三段是一個"語言偵探"，也叫梯度反轉分類器。這個偵探的任務是根據那串256維聲紋向量來判斷：這段音頻是英語、印地語、泰盧固語還是泰米爾語？它的輸出是一個4選1的分類結果。但關鍵在于：這個偵探判斷得越準，對"翻譯頭"的懲罰就越重。用一個比喻來說——如果偵探能從你提交的聲紋報告里猜出"這份報告來自印度語音頻"，說明你的報告質量不達標，需要重做，直到偵探完全無法從報告里看出任何語言痕跡為止。

實現這種"越猜準越懲罰"的機制依靠的是一個叫"梯度反轉層"的數學技巧：在訓練時，偵探的誤差信號傳回"翻譯頭"之前，符號會被翻轉——也就是說，本來應該讓翻譯頭"往猜對語言的方向走"的力，被反轉成了"往猜不對語言的方向走"的力。于是翻譯頭就被迫學會生成一種讓偵探無從下手的聲紋向量。

與此同時，LASE還有另一個訓練目標：用一種叫"監督對比學習"的方法確保聲紋向量依然能區分不同的人。這個目標會把同一個人說的不同音頻（無論什么語言）的向量拉近，把不同人的向量推遠。兩個目標共同作用，結果就是：聲紋向量保留了"誰說話"的信息，丟掉了"用什么語言說話"的信息。

訓練策略上還有一個細節值得關注：對抗訓練的強度不是從一開始就全力開啟的，而是有一個預熱階段——前200步先讓對比學習自由運行，建立起基本的聲紋空間結構；然后在接下來的500步里逐漸把對抗強度從0提升到0.1；之后保持穩定。這樣做的原因是，如果一開始就強迫聲紋向量不包含任何語言信息，對比學習連一個穩定的結構都還沒建立起來，系統就會陷入混亂。

這套訓練總共進行了1000步，在一塊A10G GPU上只需要大約17分鐘，花費約0.31美元——比買一杯咖啡還便宜。

四、數據從哪里來：用AI生成數據來訓練AI

訓練LASE需要一種特殊的數據：同一個人用四種不同語言說同樣內容的音頻。然而這種數據在現實中幾乎不存在。

印度現有的語音數據集，如IndicTTS，里面的說話者大多只用一種語言；FLEURS數據集里不同語言的說話者被明確分割開，互相不重疊；Common Voice雖然有說話者ID，但也沒有強制要求同一個人錄制多種語言。要從頭錄制這樣的數據，成本極高。

研究團隊采取了一個務實的辦法：用ElevenLabs Multilingual v3這款商業TTS（文字轉語音）系統來合成數據。這款系統支持23種語言，并且能用同一個聲音風格生成不同語言的音頻，研究人員主觀聽起來跨語言的聲音特征保持得相當一致。他們選取了8個經過驗證的多語言ElevenLabs聲音：Rachel、Drew、Clyde、Paul、Domi、Fin、Bella、Antoni。針對這8個聲音，每個聲音在英語、印地語、泰盧固語、泰米爾語各合成50個句子，共1600段名義上的訓練音頻，另有1600段作為測試集（使用不同句子）。

合成出來的音頻不是全部直接使用，而是經過一道"質量門"篩選：用WavLM-base-plus-sv計算每段非英語音頻與該聲音第一段英語音頻的余弦相似度，低于0.90閾值的一律丟棄。通過篩選的比例是：訓練集1118/1600（70%），測試集1043/1600（65%）。

這30%的淘汰率本身就很有信息量——它說明即便是ElevenLabs這樣高質量的商業產品，在跨語言時也有近三分之一的音頻發生了聲紋漂移，嚴重到連標準編碼器都認為"不是同一個人"。這個數字等于是對當前跨語言語音合成系統的一次側面審計。

為了更全面地測試LASE的表現，研究團隊還另外準備了一個包含1369對音頻的"印度口音測試集"，使用的是8個全新的、帶有印度口音的ElevenLabs聲音，這些聲音在訓練階段完全沒有出現過。這個測試集專門用來檢驗LASE對"從未見過的聲音"的泛化能力。

五、怎么判斷好不好：三條參照線的故事

評估說話人編碼器是否能跨語言保持身份一致，需要一套明確的測量方法。研究團隊設計了一個三條參照線的框架，邏輯非常清晰。

第一條線叫"同語言上界"：隨機抽取同一個聲音說同一種語言的兩段不同音頻，計算其聲紋相似度。這是一個理想狀態下的參照——同樣的人、同樣的語言，相似度理應最高。

第二條線叫"跨語言測試線"：隨機抽取同一個聲音說兩種不同語言的音頻，計算相似度。這條線與第一條線之間的差距，就是"語言切換造成的身份混淆程度"，差距越小越好。

第三條線叫"跨人噪音底線"：隨機抽取不同聲音說同一種語言的兩段音頻，計算相似度。這代表"完全不同的人"應該有多低的相似度，也就是系統的辨別底線。

由此產生兩個關鍵指標：差距（Gap）是第一條線減去第二條線，越小說明跨語言時身份越穩定；間距（Margin）是第二條線減去第三條線，越大說明跨語言時同一個人與不同人之間的區別越清晰，越不容易混淆。

一個好的跨語言編碼器應該差距趨近于零，同時間距盡可能寬。

六、實驗結果：數字背后的真實故事

在西方口音測試集（1043對，8個訓練聲音，內容未見過的新句子）上，三個系統的表現如下：

WavLM-base-plus-sv在同語言時相似度為0.927，跨語言時下降到0.845，差距0.083；與不同人之間的間距為0.245。ECAPA-TDNN在同語言時為0.499，跨語言時跌到0.394，差距0.107；間距0.202。LASE r1的同語言相似度為0.757，跨語言時僅微降至0.745，差距僅0.013；間距0.662。

LASE的差距比WavLM縮小了約84%，比ECAPA縮小了約88%。更重要的是，LASE的間距（0.662）是WavLM的2.7倍、ECAPA的3.3倍——不同說話人之間在LASE的向量空間里被推得更遠，而同一個說話人的跨語言音頻則被拉得更近。研究團隊還通過統計方法（1000次自舉抽樣）驗證了LASE的0.013差距在統計上與零無顯著區別，也就是說語言切換對LASE的影響在測量精度范圍內可以認為不存在。

在印度口音測試集（1369對，全新聲音，LASE從未見過）上，LASE的差距為0.026，同樣在統計上與零無顯著區別，間距為0.344，是ECAPA-TDNN（差距0.044，間距0.256）的1.3倍。這說明LASE在沒見過的聲音上也具備良好的泛化能力。

研究團隊還做了一個消融實驗，專門分析"是梯度反轉的訓練策略有效，還是WavLM這個底座模型本身就更好"。他們用完全相同的訓練流程，但把底座從WavLM換成了ECAPA-TDNN，得到了"ECAPA+GRL"這個中間版本。結果顯示，在西方口音測試集上，ECAPA+GRL的差距從原來的0.107降到了0.027，縮小了約75%；但仍然比LASE的0.013要大。在印度口音測試集上，ECAPA+GRL的效果改善更有限（從0.044降到0.037）。這說明梯度反轉策略本身確實有效，但WavLM底座更容易被訓練成語言無關的表示——在訓練日志中可以看到，用WavLM做底座時，語言分類器的損失值始終穩定在接近隨機猜測的水平，而用ECAPA做底座時，分類器的損失值在訓練過程中劇烈震蕩，有時能猜對，有時又完全懵掉，說明ECAPA的表示里語言信息更頑固，更難被對抗訓練剔除干凈。

七、在真實任務上的考驗：誰說話，AI能認出來嗎

光看相似度數字還不夠，研究團隊還設計了一個接近實際應用場景的測試：多說話人混合通話的"說話人分割"任務。

具體做法是這樣的：構建50段人工合成的"對話"，總時長23.7分鐘，平均每段對話有2.9個說話人。每段對話由2至4個不同的ElevenLabs聲音隨機混合，各聲音的音頻片段隨機拼接，中間留0.3秒的間隔；部分對話中，同一個說話人會在對話中途切換語言。每個音頻片段的"誰說的"標注已知，共411段。

評估方式是：用各編碼器對每個片段提取聲紋向量，然后用層次聚類算法（以說話人的真實數量為基準）把所有片段分成若干組，看分出來的組與真實標注的吻合程度。用兩個指標衡量：ARI（調整蘭德指數）衡量總體聚類質量，越高越好；跨語言召回率衡量那些在對話中切換了語言的說話人有多大比例被正確歸入同一組，越高越好。

結果是：WavLM-base-plus-sv的跨語言召回率只有0.604，也就是有將近40%的跨語言語音片段被錯誤地劃分到"另一個人"那里。ECAPA-TDNN的跨語言召回率達到0.789，總體ARI為0.693。LASE r1的跨語言召回率為0.788，和ECAPA幾乎一模一樣，但總體ARI為0.640，略低于ECAPA。

這里有一個值得細細品味的背景：ECAPA-TDNN的訓練數據超過100萬段VoxCeleb音頻，而LASE的訓練數據只有1118對，差了超過1000倍。用遠不到ECAPA百分之一的數據，在跨語言說話人追蹤這個最核心的指標上打成平手——這正是"明確的目標訓練"勝過"依靠海量數據碰運氣"的典型案例。

八、誠實面對局限：還有哪些問題沒解決

研究團隊在論文中非常坦率地列出了當前版本的局限，這種坦誠本身也值得關注。

整個訓練和測試數據集都來自ElevenLabs合成的語音，沒有使用任何真實人類錄音。因此，LASE所解決的跨語言差距問題，是存在于這批合成音頻里的差距。真實世界的語音還有更多變量——說話人的情緒狀態、背景噪音、麥克風質量、年齡變化引起的音色變化、方言差異——這些都沒有經過系統測試。研究團隊明確指出，目前還沒有證據表明LASE在真實人類跨語言語音上同樣有效。

此外，雖然測試集用的是訓練中沒出現過的新句子，但用的依然是訓練時見過的那8個聲音。對于全新的、從未見過的聲音，測試集換成了印度口音組，結果是積極的，但這也是商業TTS生成的聲音，與真實人類聲音仍有距離。

語言覆蓋范圍目前只有英語、印地語、泰盧固語和泰米爾語四種。孟加拉語、卡納達語、古吉拉特語、馬拉雅拉姆語等主要印度語言都還沒覆蓋，研究團隊表示這是下一版本（v2）的計劃。

另外，LASE在總體說話人分割質量（ARI=0.640）上仍然略低于ECAPA（ARI=0.693），所以它目前還不是一個可以直接替換掉ECAPA的通用說話人識別系統。它的優勢專門體現在跨語言身份一致性這一個維度上。

還有一種在印度語境中非常普遍的情況沒有被測試：同一句話里混合使用多種語言，比如一段泰盧固語文本里夾雜著英語品牌名。這種"代碼混合"場景的處理，也留到了后續版本。

說到底，LASE是一個精確的工具，解決的是一個精確的問題。如果你的系統需要在英語、印地語、泰盧固語、泰米爾語之間追蹤同一個說話人的聲紋，LASE以極低的訓練成本提供了一個在合成數據上效果顯著的解決方案。但如果你的場景更復雜，比如需要處理真實錄音里的環境噪音、或者辨認完全陌生的聲音，現階段還需要謹慎評估。

研究團隊已經將LASE r1的模型權重、所有訓練和測試數據集、以及全套復現腳本公開發布，模型權重使用MIT許可證（允許商用），數據集使用CC-BY-4.0許可證，完整的復現流程在單塊A10G GPU上約25分鐘可以跑完，成本不超過一美元。這種徹底的開放態度，讓任何人都可以在此基礎上繼續完善，把這項技術推向更廣泛的語言覆蓋和真實場景驗證。

歸根結底，這項研究揭示的核心問題是：當AI的耳朵被一種語言的數據"定型"之后，它聽另一種語言時會產生系統性的偏見，這種偏見在印度多語言環境下帶來的實際危害遠比我們想象的更大。而修復這個問題不需要重新訓練一個巨型模型，只需要一個聰明的對抗訓練機制、一個合適的預訓練基座，以及不到1200對音頻樣本。這對于那些需要在有限資源下構建多語言語音系統的開發者來說，是一個非常值得關注的方向。

Q&A

Q1：LASE編碼器和普通說話人編碼器相比，主要解決了什么問題？

A：普通說話人編碼器在識別同一個人時，會因為語言切換產生聲紋漂移，比如同一個人從英語換成印地語，系統的相似度得分會大幅下降，嚴重時甚至把同一個人識別成兩個不同的人。LASE通過"對抗訓練"強迫編碼器只保留說話人身份特征，剔除語言特征，使得同一個人無論用哪種語言說話，得到的聲紋向量都保持高度一致。

Q2：LASE的訓練數據是怎么來的？

A：由于現實中幾乎不存在同一個人用多種印度語言錄音的數據集，研究團隊使用ElevenLabs商業語音合成系統生成了8個聲音在英語、印地語、泰盧固語、泰米爾語四種語言下的音頻，再經過質量篩選，最終得到1118對訓練樣本，30%的合成音頻因質量不達標被淘汰。

Q3：LASE只適合印度語言場景嗎？

A：目前LASE的訓練和測試專門針對英語與印地語、泰盧固語、泰米爾語之間的切換場景。研究團隊指出，只要能用TTS系統合成出高質量的跨語言同聲音音頻對，這套訓練方法原則上可以推廣到任何語言組合。但在真實人類錄音和更多語言（如孟加拉語、卡納達語等）上的驗證還是后續版本的工作。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.