網易首頁 > 網易號 > 正文申請入駐

聽得見，更“慧”聽：揭秘AI+聲學的無限可能

2026-03-30 17:28:33　來源: 科技導報

北京舉報

分享至

原文發表于《科技導報》2026 年第4 期《人工智能在聲學中的應用及展望》

人工智能（AI），正與聲學中的水聲學、超聲學和空氣聲學深度交叉融合，持續推動著聲學技術的革新?！犊萍紝蟆费堉袊茖W院大學鄭成詩研究員團隊撰寫文章，重點探討了AI在聲學，尤其是在空氣聲學領域中的應用。針對應用過程中可能出現并致使其難以滿足實際應用需求的核心問題展開討論。最后，總結了AI在聲學應用中所面臨的挑戰和未來的發展方向。

聲學作為物理學的一個重要分支，按照聲波傳播媒介分為水聲學、超聲學和空氣聲學，分別研究聲波在液體中（水中）、固體中和空氣中的科學問題與實踐應用。相較于聲學的悠久歷史，AI則是始于20世紀40年代的新興交叉學科，已與計算機科學、數學、神經科學等領域深度融合。近年來，以深度學習（ DL）為核心技術路線的NAI已經在視覺和聽覺等領域接連取得突破，甚至部分任務（如中英文語音識別）性能已超越人類水平。隨著DL的飛速發展，能夠在眾多領域模擬人類處理問題的通用人工智能（AGI）應運而生，成為科技巨頭競爭的焦點，同時也已成為大國綜合國力競爭的制高點。

AI與聲學的結合始于20世紀50年代，早期主要應用于語音識別和語音合成領域，典型代表為貝爾實驗室在1952年開發的首個人工語音識別系統“Audrey”。經過70余年的融合發展，其在聲學領域的應用已超越語音信號處理范疇，深度融入語音處理、聲源定位、空間音頻、聲學場景檢測與分類及聲學仿真與優化等多個分支領域，全面推動水聲學、超聲學和空氣聲學的技術革新，顯著提升各分支領域的性能表現。

我們的研究聚焦AI在聲學中的應用，重點闡述“AI+聲學”技術的發展現狀，并與傳統聲學技術展開對比分析，剖析該領域所面臨的多重挑戰，并對“AI+聲學”技術的未來發展方向進行展望。

1 基本概念

1.1 聲學基本概念

聲學主要研究聲音的產生、傳播、接收和效應等。不同類型的聲音通常在頻率、聲壓級、頻譜等物理屬性上存在差異，在心理屬性上則對應于音調、響度和音色的差異。

對在空間中傳播的聲音進行接收、處理、識別和定位及調控是當前聲學的研究熱點。對語音進行撿拾、定位、增強、識別和合成，已成為聲學領域最為重要的研究分支之一；對其他類型的聲音信號進行有效撿拾、處理、檢測和定位，也得到了廣泛的關注和研究。

1.2 AI基本技術

AI技術源于對人類智能的模擬與探索，其早期演進為現代核心模型架構奠定了重要基礎。經過數十年演進，AI領域形成了以經典模型為核心的技術體系，各模型憑借獨特結構適配不同數據處理需求，如圖1所示。

圖1 不同AI基本模型結構示意

卷積神經網絡（CNN）以“局部感知+參數共享”為核心，通過卷積核捕獲數據局部關聯特征，在減少參數量的同時保留關鍵信息。其結構在局部相關性數據處理中表現突出，可高效提取層級化特征，適配多通道信號、圖像等數據類型。

長短期記憶網絡（LSTM）是適配時序數據的循環神經網絡（RNN）變體，通過遺忘門、輸入門、輸出門的門控機制，解決傳統RNN面臨的長序列梯度消失（gradient vanishing）問題。

Transformer模型于2017年由Google提出，核心為自注意力（SA）機制，通過計算數據不同位置間的關聯權重，實現全局信息的并行捕獲與動態聚焦。相較于LSTM的時序漸進式處理，其可同步整合全局上下文信息，強化關鍵信息的特征表達，在長時長、高冗余的復雜數據處理中優勢顯著。

這些核心技術從早期簡單模型逐步演進為復雜高效的架構體系，為不同類型數據的解析提供了針對性工具，與聲學概念互補，共同支撐起了“AI+聲學”的融合應用與創新發展。

2 應用現狀

從技術應用現狀來看，傳統聲學處理整體圍繞5大核心需求展開，為后續細分應用場景提供基礎支撐：針對語音信號的“采集?特征提取?語義解析”需求；針對聲音空間位置確定的需求；針對聲場空間信息還原與個性化體驗需求；針對環境中有效噪聲信號與分類的需求；針對聲學組件性能評估與結構設計需求。

2.1 AI+語音信號處理

語音信號處理作為AI與聲學交叉融合的核心領域，其發展歷程見證了從統計信號模型到數據驅動范式的轉變。早期的語音信號處理技術如語音識別主要基于隱馬爾可夫模型（HMM）處理常用語音特征。隨著AI技術的興起，CNN憑借分層時頻特征提取能力展現出顯著優勢，而LSTM因自回歸處理模式，契合語音分幀處理模式和時間序列信號特性，被廣泛應用于各類語音信號處理任務中。

2.1.1 語音識別

在語音識別領域，2012年，微軟研究院與Google率先使用深度神經網絡（ DNN），將語音識別錯誤率降低20%~30%。這一突破標志著語音識別從依賴手工設計特征與傳統模型，轉向基于數據驅動的DNN范式。2015年，百度公司提出DeepSpeech 2，在中文語音識別任務中首次超越人類專業速記員水平。2023年，OpenAI推出了Whisper模型，實現了語音識別、轉寫與翻譯的一體化突破，顯著提升了復雜環境與低資源語種識別的魯棒性。

隨著研究深入，多模態融合的語音識別技術成為新的研究熱點。在語音與視覺聯合建模中，研究人員通過攝像頭捕捉說話人的唇動信息，利用跨模態特征融合技術實現唇動特征與語音特征的精準對齊（圖2）。近年來，腦機接口與語音識別的融合也取得了突破性進展，例如，Kamble等嘗試結合腦電圖（EEG）信號進行語音識別，取得了一些進展。但由于腦電信號具有高噪聲、個體差異大等復雜性，該技術在性能與泛化性方面仍存在巨大的研究提升空間。

圖2 唇動?語音多模態識別系統示意

2.1.2 語音增強

隨著深度學習技術的發展，數據驅動的語音增強技術通過構建帶噪與純凈語音的非線性映射關系，實現了從“模型假設”到“數據學習”的范式轉變。2014年，Xu等利用多層DNN學習帶噪語音對數譜到干凈對數譜的非線性映射（圖3），相比傳統算法，其在各項指標上實現顯著提升。近年來，一系列相關比賽也為該方向的發展注入新的活力，微軟公司于2020年發起深度降噪（DNS）挑戰賽，迄今已連續舉辦5年，該比賽的舉辦進一步推動了該領域進步。然而，面對實際場景中可能出現的模態缺失問題，如何提升多模態語音增強方法的魯棒性，仍是亟待解決的關鍵問題。

圖3 基于DNN的語音增強示意

2.1.3 語音合成

語音合成技術經歷了從參數化統計語音合成到端到端生成的跨越式演進。隨著AI技術在生成式建模領域的突破，語音合成實現了從“參數驅動”到“數據驅動”的根本性轉變。2016年，DeepMind推出的WaveNet模型取得了合成語音質量的突破性進展（圖4），顯著提升了合成語音的自然度，平均意見得分（MOS）從傳統參數化合成方法的3.6提升至4.0以上。浙江大學研究人員提出FastSpeech系列工作，通過時長預測與聲學特征解耦的設計，在保持高自然度的同時，將語音合成速度提升了數十倍。近年來，LLM和DM為語音合成帶來了新的技術突破。此外，多模態融合與個性化合成已成為當前研究熱點，為定制化語音生成與高表現力語音提供了可能，在娛樂、人機交互等領域具有重要應用價值。

圖4 WaveNet結構示意

2.2 AI+聲源定位

人類僅用單耳就可實現聲源定位，源于不同方向入射的聲源受頭部、軀干及耳廓等的散射與濾波效應差異；受此仿生啟發，有研究人員將單個傳聲器嵌入預設計的三維超材料結構中，實現了多聲源實時定位和分離。現有的絕大多數聲源定位系統均通過多傳感器拾取信號，并利用時延等特征估計聲源位置。

1916年，法國科學家Paul Langevin發明了首臺實用化聲吶定位系統，可同步測定目標方位與距離。1794年，意大利科學家Lazzaro Spallanzani研究了蝙蝠進行空間定位的基本機制，證實其不依賴視覺導航。1913年，Richardson基于超聲波原理發明了回聲定位器，奠定了主動式超聲定位基礎。20世紀10年代，空氣聲學定位方法興起。盡管早年的聲源定位系統大多源于軍事用途，但如今已廣泛應用于海洋通信導航、醫學診斷、消費電子等民用領域。

2.2.1 傳統聲源定位方法

傳統聲源定位方法包括可控波束響應（SRP）、基于高分辨率譜估計和基于時間差（TDOA）等方法。

可控波束響應的典型方法為延遲相加波束形成（DSB），這類方法通常需要預先計算某一方向聲源的每個頻帶兩兩傳感器之間的傳播時延，補償傳播時延后求和所有頻帶所有兩兩傳感器之間的互功率譜；再搜尋全空間所有方向的最大值以定位聲源方位。由于可控波束相應方法需要在全空間進行波束掃描，并搜尋最大值，因此該類方法運算復雜度較高。

基于高分辨率譜估計的定位方法，包括最小方差（ MV）譜估計和基于特征值分析的方法如MUSIC、ESPRIT以及MODE等算法。這類方法通常需要首先估計空間相關矩陣，且假定聲源具備統計平穩，當聲源位置移動或者聲源二階統計特性不平穩如語音信號，這類算法的定位性能會呈現不同程度的退化。相比于可控波束響應方法，基于高分辨率譜估計的定位方法每次迭代所需要的運算復雜度更低。

基于TDOA的定位方法有2個階段：第一階段估計任意2個傳感器接收信號的相對時延，第二階段根據傳感器的相對位置以及第一階段估計得到的相對時延通過解一組非線性方程得到聲源位置的極大似然估計值。這類方法的性能取決于第一階段估計的相對時延的準確性，Knapp等提出的廣義互相關（GCC）方法是應用最為廣泛的相對時延估計方法。已有研究結果表明，基于時間差的定位方法在多聲源、強噪聲或者中等混響以上聲學場景性能不佳。

2.2.2 AI聲源定位方法

Grumiaux等對基于深度學習的室內聲源定位進行了全面的總結，涵蓋神經網絡架構、輸入特征與輸出目標、訓練及測試數據生成與獲取途徑，以及深度學習方法。

如圖5所示，基于AI的聲源定位方法的處理流程與傳統TDOA定位方法類似，可分為2個階段：第一階段提取定位所需特征，第二階段通過預訓練模型映射輸出聲源位置。Krause等對比了不同輸入特征的聲事件檢測與定位性能。第二階段通常采用主流的MLP、CNN、Transformer等網絡結構或其組合形式以實現更高的定位精度。

圖5 AI聲源定位處理流程

AI聲源定位方法的位置信息輸出常采用分類或回歸的方式：前者需將整個位置區域劃分為多個子區域，通過神經網絡輸出各子區域的聲源存在概率；后者則通過神經網絡直接輸出聲源坐標信息。相較于分類方法給出的定位是離散值，回歸方法給出的定位是連續值，因此其定位精度更高。由于在基于AI的聲源定位中，輸入特征與輸出位置信息維度通常較低，神經網絡架構相對簡單，因而運算復雜度通常較低。

AI聲源定位方法通常需要大量訓練數據優化模型參數，常用數據獲取方式包括真實實驗錄制、仿真生成與數據增廣3類。錄制真實場景典型實驗數據的工作量極大。通過仿真生成訓練數據是一種比較低成本的方案。研究表明，僅依賴仿真數據訓練的模型在真實聲學場景下存在魯棒性不足的問題，而完全采用真實實驗數據成本高昂，因此通過數據增廣擴充有限真實數據成為折衷方案。

在學習方法方面，當前AI聲源定位模型訓練以有監督學習為主。目前，基于AI的聲源定位已應用于水下目標定位、空中目標定位及超聲病灶定位等領域，在諸多場景中展現出優于傳統方法的性能，因而具備潛在的研究價值與工程應用價值。

2.3 AI+空間音頻

空間音頻（spatial audio）旨在通過電聲和信號處理手段，實現聲場空間信息的撿拾、處理和重放，為聽者提供身臨其境的沉浸式聽覺體驗。作為聲學、聽覺心理和信息處理的交叉領域，空間音頻技術已廣泛應用于科學研究、消費電子、虛擬/增強現實等場景。Cobos等討論了AI技術在空間音頻領域多個任務中的應用現狀。

空間音頻核心流程包括信號撿拾（合成）、處理和重放3個主要環節。目前，AI技術主要應用于空間音頻的信號處理環節，下面闡述相關的應用現狀，重點放在取得了一定進展的方向，簡要技術流程圖如圖6所示。

圖6 空間音頻不同任務的AI應用技術流程示意

2.3.1 聲場重構

傳聲器采集的聲場信號是空間離散的，而許多應用場合如聲場空間信息分析、6自由度聲重放等需重構任意連續位置的聲場信號。傳統的聲場重構方法依賴線性內插或外插，其重構性能在采樣密度較低時會顯著下降。深度學習的引入為該問題提供了高效解決方案。得益于神經網絡對聲場共性統計特性強大的學習能力，在稀疏采樣下，AI方法的重構精度已逐步超越傳統方法。

2.3.2 音頻信號上混

空間音頻信號上混（upmixing）是將通路數較少的音頻信號（通常為雙通路立體聲）轉換為通路數更多的音頻格式（如 5.1 通路環繞聲）的過程，其技術本質在于拓展原音頻信號的空間信息。鑒于AI在聲源識別與分離任務中的優勢，相關技術被逐步應用于上混領域：Park等采用DNN，以信號子帶對數譜為輸入，訓練中央與環繞通路模型，實現立體聲到5.1通路的轉換；Choi等設計雙DNN架構，分別負責信號分離與渲染，并將包含空間信息的通路ILD特征融入損失函數，強化網絡空間信息提取能力。實驗結果表明，AI方法在主客觀評價中均表現出較傳統方法更優的性能，且該優勢可能源于更強的方向性與環境氛圍分離能力。

2.3.3 個性化頭相關函數預測

HRTF是空間音頻耳機重放的核心數據，具有顯著個體差異性。個性化HRTF的測量需特定設備與場地，過程耗時費力。鑒于HRTF與人體生理參數（人頭尺寸、耳廓外形等）高度相關，基于生理參數的個性化HRTF預測成為簡便方案。為提升性能，相關研究利用AI技術來實現基于生理參數的個性化HRTF預測。Lee等提出一種MLP?CNN混合模型，利用CNN從耳部圖像中提取耳廓生理參數，然后利用MLP預測個性化的頭相關脈沖相應（ HRIR）。Yao等提出一種基于變分自動編碼器（VAE）的方法，并用于實現利用生理參數對HRTF的個性化預測。上述研究結果表明，借助DNN的非線性建模能力，基于AI的HRTF方法普遍取得了較傳統線性映射更優異的性能。

2.3.4 視聽信息融合的多模態處理

多模態AI技術通過融合視頻信息補充缺失的空間維度，實現單通路音頻到空間音頻的生成。Gao等采用U?Net網絡，從視頻及對應單通路音頻中生成雙耳音頻信號；Morgado等則利用360°全景視頻與自監督學習，通過生成時頻掩碼分離單通路信號中的方向性分量，進而將其編碼為一階Ambisonics信號。迄今為止，AI已在空間音頻的多個任務中得到應用，并在特定場景下展現出優于傳統方法的性能，凸顯了其在空間音頻領域的應用潛力。

2.4 AI+聲學環境聲檢測、分類與噪聲智能監測

聲學環境聲檢測分類與監測以聲學信號為核心研究對象，旨在通過技術手段實現對復雜聲學環境的精準感知與解讀。作為聲學、心理聽覺與AI的交叉融合產物，該技術已廣泛應用于智能安防、生態環境治理、智能家居、城市精細化管理等多個領域，成為支撐多場景智能化升級的關鍵基礎技術，尤其在環境噪聲污染防治等實際場景中發揮著不可替代的作用。

2.4.1 傳統機器學習方法

早期聲學環境聲檢測、分類及監測工作，依賴人工設計聲學特征與淺層機器學習分類器，這類方法面對復雜混合聲學環境（例如城市中多源疊加噪聲、相似聲事件干擾）時，存在特征適應性差、抗干擾能力弱、泛化性能不足等局限，難以滿足精準化、智能化的應用訴求。

2.4.2 深度學習方法

AI技術為聲學環境聲檢測與分類帶來了系統性革新，推動聲學環境聲檢測、分類與噪聲智能檢測從“人工驅動”向“數據驅動”轉型，基于DL的端到端技術路徑逐漸成為主流。其核心優勢體現在3方面：

一是特征提取的自動化；
二是復雜環境的適配性；
三是推動監測模式的智能化升級，實現噪聲源實時定位、等效聲級動態計算，改變傳統監測依賴人工分析、效率低下的局面。

2016年，IEEE SPS發起的首次國際聲學場景和事件檢測及分類挑戰賽（DCASE）挑戰賽，成為該領域標準化與規模化發展的重要里程碑，推動了聲學環境聲檢測與分類及噪聲監測技術的快速迭代。

環境聲的多樣性、復雜性，以及高質量標注數據集的稀缺性，導致模型泛化能力面臨挑戰。預訓練與遷移學習技術的應用有效緩解了這一問題。2017年，Google公司推出AudioSet數據集，為模型的預訓練提供了海量數據支撐?；诖?，Kong等提出預訓練音頻模型PANN，如圖7所示，其基于AudioSet預訓練，可靈活遷移至其他6種音頻任務，并在聲事件分類上取得當時最好的性能。

圖7 PANN采用的預訓練模型結構示意

此外，針對實際場景中噪聲、小眾聲事件等標注稀缺問題，無監督、半監督及自監督學習方法陸續涌現，這類方法通過大量無標簽聲學數據中的潛在規律，有效擴展了技術在數據缺乏場景中的應用邊界。

2.5 AI+聲學仿真優化

聲學仿真與結構優化是聲學工程中的關鍵任務之一，廣泛應用于建筑聲學、交通降噪、聽覺增強設備以及新型聲學材料的研發。隨著問題復雜度的增加，如結構多樣性提升、優化目標增多、設計空間高維化，傳統方法逐漸暴露出不足。AI技術的興起為這一需求提供了一種可行路徑，尤其在數據量不斷積累、計算資源持續提升的背景下，AI正逐步成為聲學結構優化的重要引擎。

聲學仿真通常涉及從結構參數到性能指標的映射，即正向問題（forward problem），而實際工程往往需要解決逆向問題（inverse problem），即從目標性能出發反推結構設計。隨著DL和強化學習（RL）的興起，研究者開始借助AI技術在復雜系統中實現反向設計、高維參數映射以及快速性能預測。

2.5.1 傳統聲學仿真與優化方法

有限元法是聲學結構分析中應用最廣泛的數值技術，能夠求解復雜邊界條件下的聲場分布。然而其缺點也非常突出：每次更改結構參數都需重新建模和求解，導致大量冗余計算。拓撲優化是一種數學驅動的結構形貌優化方法，常用于最大化某一目標（如吸收系數、阻抗匹配等）。然而，這類方法往往依賴梯度信息，難以適應非線性材料行為，且不易擴展至多目標情形。為提升優化效率，部分研究結合了遺傳算法、粒子群算法等啟發式搜索方法，緩解了參數空間維度高帶來的問題。但這些算法本質仍是黑盒搜索，計算效率低、收斂性差，且在復雜結構多目標優化中仍需大量仿真樣本支持。

2.5.2 AI聲學仿真優化

AI反向優化的基本思想是利用神經網絡擬合性能與結構參數之間的映射關系。Donda等指出MLP適用于低維連續參數預測，而CNN適合處理網格結構的拓撲優化問題，在預測聲學帶隙、吸聲頻率等方面效果顯著。近年來興起的PINN備受關注。該類模型將物理定律（如聲波傳播方程）嵌入損失函數中，使訓練過程兼具數據驅動與物理約束，提高了泛化能力與物理一致性。

在具體應用場景中，AI技術已深度融入周期性聲子晶體、聲學超材料等領域。Shi等采用LSTM?Transformer串聯的類自編碼器模型，如圖8所示，實現了空間折疊聲學超材料（SFAM）的中低頻寬帶隔聲反設計與空間優化，為空間受限場景下的聲學超材料高效設計提供了可行方案，其預測性能如圖9所示。Zea等借鑒ResNet架構，實現寬頻率范圍、不同尺寸與流阻率的矩形吸聲材料在強邊緣衍射場景下的吸聲系數的精準估計，且在400 Hz以下低頻段及小尺寸吸聲材料上的性能顯著優于傳統雙麥傳聲器。隨著AI與物理建模的融合深化，越來越多研究開始探索多物理場（如聲?熱、電?聲）的耦合優化。未來，基于小樣本學習、自監督預訓練與遷移學習的算法將進一步降低對大量仿真數據的依賴。

圖8 用于隔聲材料設計的網絡結構示意

圖9 經過AI模型優化前后隔聲量結果對比

3 面臨挑戰

3.1 泛化性問題

泛化性是制約AI在聲學領域落地的核心瓶頸，其本質是模型對“未見場景”的適配能力不足。Rohlfs等將泛化分為樣本泛化、分布泛化、域泛化、任務泛化、跨模態泛化及范圍泛化6類。

3.2 數據依賴與質量問題

數據是AI技術的燃料和基礎，其依賴與質量問題直接制約模型的性能上限。對于聲學模型而言，數據相關難題主要集中在2個方面：

一是高質量標注數據的獲取瓶頸；
二是數據質量的固有缺陷。

近年來，大模型的出現進一步加劇了該挑戰，其對數據規模的需求呈指數級增長，需以數十萬乃至億小時級的海量音頻數據為支撐，遠超傳統模型的數萬至百萬級需求，使得數據缺口被進一步放大。此外，數據依賴問題還延伸至合規性和安全層面。

3.3 復雜度問題

AI模型的復雜度與聲學應用場景的資源約束間存在突出矛盾。從模型層面看，現有通用AI模型的參數規模已達千億級至萬億級，運算復雜度往往隨參數規模非線性增長，導致云端部署的算力與能源成本居高不下。從應用場景看，聲學技術的落地場景日益多元，對模型提出了嚴苛的要求，現有解決方案可分為3類：

一是模型壓縮技術，知識蒸餾（knowledge distillation）通過“教師?學生”架構實現性能遷移；
二是模型架構，如結合聲學先驗設計輕量級網絡架構；
三是硬件協同，存算一體芯片通過集成存儲與運算單元，降低數據搬運帶來的功耗與延時，為低功耗場景提供硬件支撐。

這些技術的核心是在模型性能與復雜度之間尋求最優平衡，但在極端低資源場景下的性能損失控制仍需進一步研究。

3.4 實時性問題

實時性是AI聲學技術面向實際應用的關鍵指標，其需求差異源于聲學信號的傳播特性與應用場景的功能定位。從時延要求看，不同場景的閾值跨度極大。實時性的核心瓶頸包括2方面：一是算法復雜度，二是算法延遲。因而解決方案需針對性優化：針對復雜度問題，可采用輕量化模型設計、模型壓縮等技術降低運算量；針對延遲問題，可選擇時域處理方法或在時頻域中采用短幀移與重疊保持法（OLS）。值得注意的是，實時性往往與性能存在平衡，如何在極端時延約束下保證處理效果，是當前研究的重點方向。

3.5 多模態融合問題

多模態融合已成為提升聲學技術性能的重要路徑，但在聲學領域的應用仍面臨3類核心挑戰。其一，模態異構性；其二，融合效率與性能的平衡；其三，低資源場景的多模態數據稀疏。當前研究主要聚焦跨模態精準對齊、輕量化融合架構和低資源適配技術，未來需進一步結合聲學物理規律優化，推動跨模態技術實用化。

4 結論與展望

AI與聲學的深度融合，推動了聲學從基礎研究到工程應用的全面革新。

在語音信號處理領域，AI已實現從特征工程到端到端建模的范式轉變。其中，基于深度學習的語音識別、增強和合成技術，不僅在特定任務中超越了人類水平，還通過多模態融合和生成式模型拓展了應用邊界。然而，這些技術在實際部署中仍受限于數據依賴性和計算資源需求。

AI在聲學中的應用將呈現以下發展趨勢：首先，跨模態與多任務協同將成為技術突破的關鍵方向。其次，小樣本與自監督技術將緩解強數據依賴問題。未來，基于自監督學習和元學習的框架可以廣泛應用于聲學任務中，通過挖掘數據內在規律和跨領域知識遷移，降低算法對數據的依賴。此外，物理信息引導的生成式模型有望生成更符合真實聲學規律的數據，進一步提升模型泛化能力；再者，邊緣計算與輕量化部署將推動基于AI的聲學技術的普及。

AI在聲學中的應用和發展也面臨諸多挑戰。在基礎理論層面，聲學與AI的交叉研究尚未建立完善的理論框架，需要重點研究以指導模型的設計和性能評估。在技術層面，如何平衡算法復雜度與性能，實現可擴展性的實時處理，仍是亟待解決的關鍵技術難題。此外，在倫理與隱私保護方面也需要行業規范和技術防護的雙重保障。

未來，隨著基礎理論的突破、技術的迭代和跨學科合作的深化，“AI+聲學”將在海洋探測、醫療診斷、虛擬現實、環境聲學等領域進一步發揮重要的作用，以最終實現從實驗室研究、單點技術落地到大規模產業化應用的跨越。

本文作者：鄭成詩、李安冬、饒丹、袁旻忞、江峰、李曉東

作者簡介：鄭成詩，中國科學院聲學研究所，噪聲與音頻聲學實驗室，中國科學院大學，研究員，研究方向為通信聲學。

文章來源：鄭成詩, 李安冬, 饒丹, 等. 人工智能在聲學中的應用及展望[J]. 科技導報, 2026, 44(4): 62?78 .

本文有刪改，

內容為【科技導報】公眾號原創，歡迎轉載
白名單回復后臺「轉載」

《科技導報》創刊于1980年，中國科協學術會刊，主要刊登科學前沿和技術熱點領域突破性的研究成果、權威性的科學評論、引領性的高端綜述，發表促進經濟社會發展、完善科技管理、優化科研環境、培育科學文化、促進科技創新和科技成果轉化的決策咨詢建議。常設欄目有院士卷首語、科技新聞、科技評論、本刊專稿、特色專題、研究論文、政策建議、科技人文等。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.