靳韡赟,詹 毅*,樊曉華,3
(1. 中國科學院微電子研究所 北京 朝陽區(qū) 100029;2. 中國科學院大學集成電路學院 北京 石景山區(qū) 100049;3. 江蘇集萃智能集成電路設(shè)計技術(shù)研究所有限公司 江蘇 無錫 214115)
助聽器使用者的使用環(huán)境通常不是單一固定的環(huán)境,環(huán)境的變換會導致聲音場景的變化,不同的聲音場景會給助聽器帶來不同影響從而導致助聽器性能偏差,通過調(diào)整和改變不同環(huán)境下助聽器的參數(shù)可以改善助聽器的性能。因此在使用助聽器的過程中,助聽器需要持續(xù)檢測使用者當前所屬的環(huán)境,通過對環(huán)境中的背景噪聲進行分類和識別,來調(diào)整和選取合適的參數(shù)及算法,以提高助聽器產(chǎn)品的整體性能[1]。噪聲場景分類問題的本質(zhì)是模式識別,主要由特征提取和分類兩個過程組成,噪聲場景分類采用的特征主要包括時域特征、頻域特征以及倒譜域特征等,分類過程中使用的模型主要包括K 近鄰(K-nearest neighbor, KNN)模型[2],高斯混合模型(Gaussian mixed model, GMM)[3-5]、隱馬爾科夫模型[6](hidden Markov model, HMM)、人工神經(jīng)網(wǎng)絡(luò)模型[7-8](artificial neural network, ANN)、支持向量機[9-11](support vector machine, SVM)等。文獻[12]基于隨機森林集成學習算法和子帶特征進行背景噪聲場景識別,在滿足系統(tǒng)實時性要求的同時實現(xiàn)了高分類準確率。目前的噪聲場景分類過程中使用的音頻信號特征大部分是單通道音頻信號特征,而文獻[13-14]使用雙通道音頻信號特征可以有效地進行音頻場景分類,其中包含從雙通道差分信號中提取出的特征。2020 年,德國聽力系統(tǒng)能力中心提出了一個雙耳助聽器聲學環(huán)境識別數(shù)據(jù)集,適用于助聽器的環(huán)境分類與識別需求,并且基于深度神經(jīng)網(wǎng)絡(luò)驗證了所提供數(shù)據(jù)集的有效性和可分離性[15]。
針對雙耳佩戴數(shù)字助聽器接收到的雙通道環(huán)境聲音信號相對于單通道聲音信號包含更多的環(huán)境聲音信息,同時,助聽器場景分類算法需具備實時性和高分類準確率,提出基于LightGBM 集成學習算法實現(xiàn)助聽器的背景噪聲場景分類,并使用基于雙耳差分信號的子帶譜聯(lián)合特征進行信號表征,充分利用不同環(huán)境中雙耳信號差異信息完成背景噪聲場景的識別。
不同種類的噪聲場景信號在頻域中不同的頻帶范圍內(nèi)具有不同的分布特性,如白噪聲是功率譜密度在整個頻域內(nèi)均勻分布的噪聲,所有頻率具有相同的能量密度,而粉紅噪聲的功率譜密度則與頻率成反比。因此,使用信號子帶譜特征可以更全面地表達信號在各個頻帶上所具有的特性,信號子帶譜特征提取過程如圖1 所示。其中,N表示頻帶劃分數(shù)目;m表示子帶特征種類數(shù)目。在提取過程中,首先對輸入音頻信號進行分幀加窗等預處理,然后對信號進行傅里葉變換得到相應(yīng)的頻譜信號,將頻譜信號劃分為N個互不重疊的等帶寬子帶后,分別對每個子帶進行m種類的特征提取,最后將不同子帶提取出的子帶譜特征進行特征融合,得到用于場景分類的信號特征。
圖1 信號子帶特征提取過程
采用LightGBM (light gradient boosting machine,LightGBM)集成學習算法模型進行場景分類與識別,LightGBM 是一種基于決策樹算法的梯度提升集成學習框架,由于LightGBM 基于梯度的單側(cè)采樣(gradient based one side sampling, GOSS)移除了梯度較小的數(shù)據(jù)實例,保留了在信息增益的計算中起著更重要作用的梯度較大的數(shù)據(jù)實例,同時利用特征捆綁方法(exclusive feature bundling, EFB)捆綁互斥的特征,所以模型可以在較小的數(shù)據(jù)量下獲得準確的信息增益估計并且降低模型分裂過程中的復雜度,減少樣本和特征數(shù)量,具有訓練速度快和內(nèi)存占用率低的特點[16]。圖2 為基于LightGBM 的背景噪聲分類框架,對于多種背景噪聲的場景識別系統(tǒng),分為模型訓練和場景識別兩個過程,在模型訓練階段,首先對背景噪聲音頻信號進行特征提取,構(gòu)建特征數(shù)據(jù)集。然后使用數(shù)據(jù)集中的數(shù)據(jù)對LightGBM 模型進行訓練。在場景識別階段,對需要分類與識別的音頻信號提取相應(yīng)的特征,并且使用訓練好的LightGBM 模型進行場景分類與識別。
圖2 基于LightGBM 的背景噪聲分類框架
子帶特征能較好地描述音頻信號頻域的局部特性,由于不同種類噪聲的音頻信號頻譜特性具有差異性,因此提取噪聲信號子帶特征可以反映信號在不同頻域范圍內(nèi)的細節(jié)特性。圖3 給出了Noisex-92 噪音數(shù)據(jù)集中3 種噪聲信號babble 噪聲、volvo噪聲和white 噪聲的語譜圖,由圖中可以看出不同種類噪聲在不同頻率范圍內(nèi)的頻譜分布具有明顯差異。
圖3 噪聲信號語譜圖
文獻[12]已證明使用信號子帶周期特征和信號子帶熵特征可以有效地對背景噪聲場景進行分類。信號子帶周期特征可以根據(jù)信號每個子帶中的周期性特征來區(qū)分不同場景的背景噪聲,這個特征可以反映信號中平穩(wěn)的音頻特性,能夠有效識別音樂信號。信號子帶熵特征由不同子帶的能量熵構(gòu)成,可以反映信號中非平穩(wěn)的音頻特性,二者結(jié)合可以有效地對不同場景的音頻信號進行表征從而實現(xiàn)場景分類。
為了充分利用音頻信號頻譜信息,本文給出一種基于頻譜子帶信號的子帶譜相關(guān)性特征,并且結(jié)合子帶譜熵特征形成聯(lián)合特征來進行助聽器的場景識別過程。其中,子帶譜相關(guān)性特征可以反映信號不同頻率分量之間的相關(guān)程度,而子帶譜熵特征可以反映信號在頻域內(nèi)不同頻率范圍內(nèi)的波動特性。
信號頻譜相鄰子帶的相關(guān)性(spectral correlation, SC)使用歸一化相關(guān)函數(shù)來計算。一幀音頻信號頻譜兩個相鄰頻帶之間的歸一化相關(guān)函數(shù)為:
式中, Corrfr(b)表示一幀信號兩個相鄰子帶譜之間的歸一化相關(guān)函數(shù);b表示頻帶索引;fr 表示幀索引;F(·)為 輸 入 信 號 的 離 散 傅 里 葉 變 換;Fb(·)和Fb+1(·)表示傅里葉變換后兩個連續(xù)頻帶對應(yīng)的子帶信號; |·|表示對應(yīng)幅值;L表示每個頻帶內(nèi)所包含的頻點數(shù)目;l表示每個頻帶內(nèi)的頻點索引。噪聲信號的子帶譜相關(guān)性特征計算如下:
式中,Nf表示音頻信號中包含的總幀數(shù)。信號子帶譜相關(guān)性特征與信號子帶周期特征的計算過程雖然都是基于歸一化自相關(guān)函數(shù),但計算子帶譜相關(guān)性特征不需要遍歷所有延時點數(shù)并求取最大值。因此,可以有效減少特征計算過程中的運算量,降低計算時間,對于幀長為FL,均勻劃分為N個子帶的音頻信號,假設(shè)傅里葉變換為FL 點,則每個頻譜子帶包含的頻點數(shù)目為L= FL/N,計算一幀信號兩個相鄰頻帶間的相關(guān)性特征只需要計算一次L點的歸一化自相關(guān)函數(shù),N個子帶需要計算N?1個譜相關(guān)性特征,所以對于幀長FL 的一幀信號只需要計算N?1次L點的自相關(guān)函數(shù)。而對于信號子帶周期性特征,每個子帶信號需要計算FL 次FL 點的歸一化自相關(guān)函數(shù)并尋找最大值,因此對于幀長FL 的一幀信號,N個子帶信號需要計算N×FL次FL 點的歸一化自相關(guān)函數(shù),并且每個子帶信號都需要找到歸一化自相關(guān)函數(shù)的最大值。因此,相對于子帶周期特征,子帶譜相關(guān)性特征可以有效地減少特征提取時間,提高計算效率。
譜熵(spectral entropy, SE)特征可以分析信號的功率譜和熵率之間的關(guān)系。熵特征是對隨機進行試驗不確定性的一種度量,事件概率分布的熵越大,試驗可能出現(xiàn)的結(jié)果確定性越小。子帶譜熵特征提供了噪聲信號每個子帶譜的熵度量,即:
音頻信號的子帶譜熵特征可以反映出信號在頻域子帶內(nèi)的穩(wěn)定特性。在頻域均勻劃分為8 個子帶時,Noisex-92 噪音數(shù)據(jù)集中babble、volvo、white這3 類噪聲頻域子帶間譜相關(guān)性特征和子帶譜熵特征的概率密度差異如圖4 所示。不同場景中的聲信號特征概率密度曲線分布具有明顯的差別,因此可以通過子帶譜相關(guān)性特征和子帶譜熵特征對聲音場景信號進行分類。
圖4 3 類噪聲頻域子帶間譜相關(guān)性特征和子帶譜熵特征的概率密度曲線
在雙耳佩戴助聽器時,雙耳信號往往包含更多的環(huán)境聲音信息,因此,對雙耳接收到的聲音信息進行整合與利用也是非常重要的一個環(huán)節(jié)。假設(shè)助聽器左耳通道接收到的聲音信號是SL,右耳通道接收到的聲音信號是SR,對左右耳接收到的聲音信號分別進行子帶特征提取,假設(shè)提取出的子帶特征維數(shù)為d,共包含d1 維子帶譜相關(guān)性特征和d2 維子帶譜熵特征。提取出的左耳接收信號子帶特征表示為:
右耳接收信號子帶特征為:
1)雙耳信號聯(lián)合子帶特征
文獻[17]通過雙耳信號特征互聯(lián)的方式構(gòu)成場景分類特征,基于雙耳信號的聯(lián)合子帶特征同時保留左右耳接收信號子帶特征的完整信息,并且對BFleft和 B Fright按順序依次進行拼接,聯(lián)合特征的長度為單聲道子帶特征長度的2 倍,因此2d維雙耳信號聯(lián)合子帶特征表示為:
2)雙耳信號均值子帶特征
文獻[15]分別對雙耳信號提取特征后,采用取算數(shù)平均值的方法構(gòu)成助聽器的場景分類特征,均值特征可以消除單個信號特征的誤差給信號特征表示所帶來的影響,表示為:
兩者只存在相位差異,幅值相同,文中統(tǒng)一使用式(11)的差分信號形式作為左右耳通道時域差分信號。對左右耳差分信號進行子帶特征提取,時域差分信號子帶特征表示為:
雙耳差分信號子帶特征主要通過左右耳聲道接收到的信號之間的差異來對場景特征進行表征,不需要分別提取左右耳接收到的信號特征。表1 給出了使用不同層面雙耳助聽器信息在內(nèi)存效率、計算效率和離線訓練工作量方面的對比。其中決策層面信息結(jié)合表示左右耳助聽器進行場景識別后,對雙耳場景識別結(jié)果進行判斷與決策。對比結(jié)果顯示差分信號特征在內(nèi)存占用率、計算效率以及離線工作量方面均表現(xiàn)優(yōu)異。助聽器設(shè)備對存儲以及計算資源有一定限制,因此減少資源消耗有利于助聽器信號處理過程中的算法與模型部署。
表1 內(nèi)存效率、計算效率、離線訓練工作量對比
1) 雙耳助聽器聲學環(huán)境識別數(shù)據(jù)集
實驗數(shù)據(jù)來自德國聽力系統(tǒng)能力中心給出的雙耳助聽器聲學環(huán)境識別數(shù)據(jù)集,選取常見的安靜室內(nèi)、交通環(huán)境、風噪聲、音樂、雞尾酒會、汽車噪聲場景中的背景聲音信號,每一組背景聲音信號分別包含左右耳兩個通道的音頻數(shù)據(jù)信號,信號采樣率為16 000 Hz,每個信號片段持續(xù)時間為10 s,總計4 241 組雙耳接收音頻信號,共8 482 個音頻數(shù)據(jù)片段。對單個音頻信號片段進行預加重、分幀和加窗的預處理,幀長25 ms,幀重疊為0,對信號進行傅里葉變換,并且劃分為8 個子帶信號,取8 個子帶中相鄰子帶的譜相關(guān)性特征和前 4 個子帶的頻帶譜熵特征構(gòu)成子帶信號特征。分別對左耳接收信號、右耳所接收信號以及雙耳差分信號進行子帶特征提取,并且構(gòu)成基于單聲道的信號子帶特征數(shù)據(jù)集和基于雙耳信號的均值特征數(shù)據(jù)集、聯(lián)合子帶特征數(shù)據(jù)集以及差分信號子帶特征數(shù)據(jù)集。數(shù)據(jù)集中80%的數(shù)據(jù)用來訓練LightGBM模型,剩下20%的數(shù)據(jù)用于對訓練好的模型進行測試。
2)模型設(shè)置
實驗仿真過程中基于隨機森林的分類模型與基于LightGBM 的分類模型均使用50 個子估計器進行實驗。并且,在進行模型訓練與測試前先對數(shù)據(jù)集進行缺失值與異常值過濾預處理去掉數(shù)據(jù)集中的異常特征向量。
基于LightGBM 模型進行單聲道信號子帶特征場景分類,并與文獻[12]中使用的子帶特征與分類模型實驗結(jié)果進行對比,特征提取過程使用一組濾波器對輸入音頻信號進行濾波,分別得到不同頻率范圍內(nèi)的子帶信號,提取子帶信號的周期性特征與熵特征,選取前6 個子帶的周期性特征和前4 個子帶的熵特征構(gòu)成場景分類特征。表2 給出了使用子帶周期性特征和子帶熵特征時,基于隨機森林模型和基于LightGBM 模型在整個單聲道信號特征數(shù)據(jù)集上進行場景分類得到的測試集分類準確率與運行時間(包括訓練和預測過程)對比。LightGBM 模型相對于RF 準確率可以提高約0.53%,模型訓練和預測時間可以減少約40%。因此,基于LightGBM模型進行助聽器的背景噪聲分類在維持場景分類準確率的情況下可以提高信號處理的實時性。
表2 背景噪聲場景分類結(jié)果對比
表3 給出了基于LightGBM 算法對雙耳信號子帶特征進行場景分類,對比子帶周期與子帶熵聯(lián)合特征和在單聲道特征提取數(shù)據(jù)集上使用信號子帶譜聯(lián)合特征在安靜室內(nèi)、交通環(huán)境、風噪聲、音樂、雞尾酒會、汽車噪聲場景下以及整個測試集上的分類準確率。表4 給出了基于子帶譜聯(lián)合特征使用雙耳信號聯(lián)合特征、雙耳信號均值特征以及雙耳差分信號子帶特征進行分類的實驗結(jié)果,實驗結(jié)果表明,相對于采用子帶周期與子帶熵特征,使用信號子帶譜聯(lián)合特征可以有效提高助聽器的場景分類準確率,測試集上的分類準確率可以提升約9%。此外,使用信號子帶譜聯(lián)合特征進行場景分類在6 種背景噪聲環(huán)境中分類準確率均有顯著提升。使用雙耳差分信號子帶特征進行場景分類與聯(lián)合特征和均值特征相比,在部分場景中分類準確率有所下降,如風噪聲和汽車噪聲場景,而在部分場景中有所提升,如音樂和雞尾酒會場景,但是,在整個測試數(shù)據(jù)集上基本保持不變。
表3 信號特征分類準確率對比 %
表4 雙耳信號特征分類準確率對比 %
為了驗證基于LightGBM 與子帶譜聯(lián)合特征聲場景分類算法的有效性和普適性,根據(jù)日常聽覺場景調(diào)查[2]給出的20 種人們?nèi)粘=佑|的環(huán)境聲(分別是車站內(nèi)、公交車內(nèi)、汽車內(nèi)、馬路上、臥室、辦公室、會議室、教室、酒店內(nèi)、酒吧、餐廳、電影院、超市、集市、公園內(nèi)、體育場館、工地、田野、山林和車間)以及助聽器常見噪聲風聲,構(gòu)建了一個包含8 種聲音類別的環(huán)境聲數(shù)據(jù)集,音頻數(shù)據(jù)來自NOISEX-92 噪聲數(shù)據(jù)集、NOIZEUS 語音增強數(shù)據(jù)庫[18]、ESC-50 環(huán)境聲數(shù)據(jù)集[19]、UrbanSound8K城市環(huán)境聲分類公共數(shù)據(jù)集、AISHELL-2 中文語音數(shù)據(jù)庫[20],除NOISEX-92 中數(shù)據(jù)進行了數(shù)據(jù)切分,其余數(shù)據(jù)均保持原時間長度和原始采樣率。數(shù)據(jù)集中的數(shù)據(jù)保留了原始數(shù)據(jù)的多樣性,具有不同的采樣率和數(shù)據(jù)長度。在驗證過程中,數(shù)據(jù)集中80%的數(shù)據(jù)特征用來訓練模型,剩下20%的數(shù)據(jù)特征用于對訓練好的模型進行測試。對8 種常見環(huán)境聲音的分類結(jié)果如表5 所示。實驗結(jié)果顯示基于LightGBM 與子帶譜聯(lián)合特征聲場景分類算法在日常生活環(huán)境聲音分類中也表現(xiàn)良好。
表5 8 種常見環(huán)境聲音的分類結(jié)果 %
針對助聽器應(yīng)用中背景噪聲場景分類算法需同時具備低延時性和高分類準確率的問題,提出一種基于LightGBM 集成學習模型的助聽器場景分類算法以減少分類過程中的計算時間,給出一種新的子帶譜相關(guān)性特征并且聯(lián)合子帶譜熵特征構(gòu)成分類特征來提高助聽器場景分類的準確率,使用雙耳差分信號提取子帶譜特征減少計算過程中的內(nèi)存占用率以及模型離線訓練工作量,提高計算效率。實驗結(jié)果表明,與隨機森林模型相比,基于LightGBM 算法的場景分類可以在維持算法準確率的情況下減少約40%的程序運行時間,使用子帶譜相關(guān)性特征聯(lián)合子帶譜熵特征進行場景分類可以進一步提高場景分類的準確率,與子帶周期和子帶熵特征相比,場景分類準確率在整個測試集上可以提高約9%。通過對8 種常見環(huán)境聲分類,結(jié)果顯示了算法具有一定的魯棒性。與雙耳信號均值子帶特征以及雙耳信號聯(lián)合子帶特征相比,采用雙耳差分信號子帶特征進行場景分類可以在維持高分類準確率的條件下減少內(nèi)存與計算資源的占用。因此,基于LightGBM和雙耳差分信號子帶譜聯(lián)合特征的場景分類算法更適用于對實時性、準確率要求高的應(yīng)用場景。本文工作對助聽器場景分類等相關(guān)研究具有意義,但研究工作還缺少實際數(shù)據(jù)的驗證,未來將在此基礎(chǔ)上做進一步的研究和開發(fā),考慮基于FPGA 平臺通過硬件測試算法的有效性和實時性。