楊雄 雷幫軍 徐文發(fā)
摘要:在三維聲音事件檢測任務(wù)中,不同的聲音事件相互影響,難以從復(fù)雜聲音信號中提取出全局特征。基于注意力機(jī)制的聲音事件定位與檢測算法,能夠?qū)⑻卣魈崛〖訌?qiáng)模塊進(jìn)行降采樣操作和卷積操作,捕獲聲音特征,利用卷積注意力模塊對序列數(shù)據(jù)中所有特征建模,利用全連接層輸出聲音事件的位置信息。方法結(jié)果預(yù)測值為0.616,相較L3DAS22 Challenge Task2中第二名預(yù)測值提升1.6%。
關(guān)鍵詞:深度學(xué)習(xí);聲音事件檢測;注意力機(jī)制
一、前言
智能語音處理廣泛應(yīng)用于聲音事件定位與檢測,其主要目的在于檢測到聲音事件的類型以及所在的空間位置。隨著智能語音處理的發(fā)展,聲音事件定位與檢測應(yīng)用更加廣泛。聲音作為人們獲取信息的重要途徑之一,常常應(yīng)用于工業(yè)生產(chǎn)以及平常的生活中。但是,聲音事件的定位與檢測(Sound Event Localization and Detection,SELD)在機(jī)器學(xué)習(xí)中越來越受人們關(guān)注,用于檢測和定位產(chǎn)生的異常聲音,不僅在于對其他傳感器檢測的補(bǔ)充,而且在檢測精度上有所提升。SELD常常在多媒體、游戲開發(fā)及設(shè)備故障檢測等領(lǐng)域有所應(yīng)用和發(fā)展。
SELD由兩個子任務(wù)組成,分別是聲音事件檢測(Sound Event Detection,SED)和聲源定位(Sound Source Localization,SSL)。SED能夠在不同環(huán)境下的音頻序列中識別出各個聲音事件的開始和結(jié)束時間。文獻(xiàn)[1-2]中的算法只能檢測出部分音頻序列中置信度最高的一種事件,無法在真實聲音環(huán)境下同時反映出可能出現(xiàn)的多個聲音事件。當(dāng)前較為主流的SED是基于深度學(xué)習(xí)的方法,針對卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)不能捕捉音頻段中的長時依賴性的問題,文獻(xiàn)[3-4]將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)捕獲時序信息以及分析語義信息的能力和CNN特征提取相結(jié)合的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolution Recurrent Neural Network,CRNN)可以有效提取時序數(shù)據(jù)的特征,從而實現(xiàn)多聲音時間檢測。文獻(xiàn)[ 5]利用多尺度卷積網(wǎng)絡(luò)引入了特征融合模塊,針對特征圖信息弱和目標(biāo)漏檢率大的問題,多尺度卷積神經(jīng)網(wǎng)絡(luò)通過特征金字塔組件在CRNN中提高SED的精度。
常見SSL算法在波束的基礎(chǔ)上生成定位算法、在高分辨譜的基礎(chǔ)上估計定位算法,以及基于到達(dá)時延差(Time Difference of Arrival,TDOA)。例如:端到端TDOA估計,基于深度學(xué)習(xí)高分辨譜估計算法。本文基于深度學(xué)習(xí)高分辨譜估計算法。傳統(tǒng)循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的聲音事件定位與檢測方法對于長時間序列數(shù)據(jù)特征提取能力有限,導(dǎo)致定位和檢測精度較低。本文利用改進(jìn)注意力機(jī)制來提取時間序列模型的局部特征和全局特征,改進(jìn)網(wǎng)絡(luò)中結(jié)構(gòu)從而減少數(shù)據(jù)冗余。
二、算法原理及網(wǎng)絡(luò)結(jié)構(gòu)
(一)注意力機(jī)制的聲音事件與定位算法架構(gòu)
將Log-Mel譜圖作為SED任務(wù)的輸入和Log-Mel四通道信號的短時間傅里葉變換譜圖,計算Log-Mel譜圖。通過運算作為DOA估計的輸入特征,再將兩種類型的特征用于集成模型,如圖1(a)模塊所示。
圖1是本實驗聲音事件與定位算法的架構(gòu)示意圖,它主要包含深層特征提取模塊、時序特征提取模塊和輸出模塊。其中,深層特征提取模塊由雙重卷積模塊組成。
(二)雙重卷積深度特征提取模塊
系統(tǒng)將得到的兩種特征分別送入Conv-Conformer網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,提取的特征IIV輸入四個雙重卷積塊中再和降采樣塊進(jìn)行拼接,最終得到深層特征FC,如圖1(b)模塊所示,其過程可以表示為:
Fc=Conv23x3(Conv23x3(Conv23x3(Conv23x3(IIV)))+
Fdown1(IIV))+Fdown2(IIV) (1)
其中,Conv23x3(·)表示大小為3×3的雙重卷積核,F(xiàn)down1(·)為第i個降采樣塊,如圖2所示。
圖2是雙重卷積深度特征提取模塊示意圖,包含卷積層、歸一化和激活函數(shù)三個模塊。
其中,降采樣塊結(jié)構(gòu)平均池化大小為1×2、步長為1×2,表示為:
Fdown2=Conv(Avg1*2 (Conv(Avg(Conv(Conv(Avg(IVI))))))) (2)
(三)坐標(biāo)注意力
在圖1(c)模塊中Conformer時序特征提取網(wǎng)絡(luò)包含F(xiàn)eed Forward模塊、卷積模塊、自注意力模塊和第二個Feed Forward模塊等四個模塊,如圖3所示。
圖3是Conformer時序特征提取模塊示意圖,包含F(xiàn)eed Forward、多頭自注意力機(jī)制模塊、卷積層和層歸一化四個模塊。
在Feed Forward模塊中,通過層歸一化維度為512的輸入特征,再經(jīng)過線性層,引入Activation Balancer和激活函數(shù)Doubleswish,其中Activation Balancer在特征提取的前向計算過程中,統(tǒng)計特征激活值的范圍包括其中正數(shù)比例以及絕對值大小。在反向求梯度的過程中,根據(jù)前向統(tǒng)計結(jié)果,對應(yīng)地放縮梯度大小,從而降低激活函數(shù)Doubleswish中產(chǎn)生的激活值異常,降低參數(shù)的浪費,如圖4所示。
在卷積模塊中,首先,通過一個點向卷積,點卷積的膨脹系數(shù)為2,再經(jīng)過一個門控線性單元(GLU)維度為1,接下來是一個一維深度卷積層,卷積核大小為31。Batchnorm層在卷積層之后幫助訓(xùn)練深度模型,在得到FC深層特征后輸入時序,將輸出深層時序特征輸入全連接層分別得到DOA位置坐標(biāo)向量和SED結(jié)果,最后通過線性層將SED特征寬度減小到14,將DOA特征寬度減小到3,再分別將SED和DOA時序特征進(jìn)行拼接輸出,得到輸出結(jié)果。
三、實驗與結(jié)果分析
(一)實驗數(shù)據(jù)集及評價指標(biāo)
本文采用L3DAS22 Challenge Task2官方提供的數(shù)據(jù)集。羅馬薩皮恩扎大學(xué)負(fù)責(zé)匯總數(shù)據(jù)集,采樣的頻率為16kHz。其中,600個長為一分鐘的錄音文件也包含在內(nèi),從FSD50K中選擇了1440個噪音文件。數(shù)據(jù)集包含了大約98小時的MSMP b格式音頻錄音。在一個近似尺寸為6米(長度)、5米(寬)和3米(高度)的真實辦公樓的聲場進(jìn)行了采樣,房間里有典型的辦公家具、木制拼花地板、油漆過的混凝土墻壁和天花板。數(shù)據(jù)集分為一個訓(xùn)練集和一個測試集,訓(xùn)練集有5個小時的音頻,測試集有2.5個小時的音頻。OV1、OV2和OV3分別表示為最大重疊聲音事件為1個、2個和3個。本文對聲音事件類別進(jìn)行識別時運用兩種數(shù)據(jù),第一是標(biāo)準(zhǔn)度量F分?jǐn)?shù)(F-Score),第二是精度(Precision),使用召回率(Recall)來評估聲源位置信息作為本文算法的評價指標(biāo)。
(二)實驗環(huán)境及參數(shù)設(shè)置
實驗過程中,運行環(huán)境方面運用的硬件設(shè)施包含CPU主頻為3.6GHz、顯卡型號為NVIDIA RTX 3060、內(nèi)存大小為16G。操作系統(tǒng)為Windows10的軟件環(huán)境,深度學(xué)習(xí)框架為 PyTorch=1.8.0,編程語言采用Python3.7。SED、DOA估計的損失權(quán)重分別設(shè)置為λ=0.3和γ=0.7,訓(xùn)練數(shù)據(jù)集過程中運用Adamw算法,進(jìn)一步完善模型收斂速度。實驗的學(xué)習(xí)率具體數(shù)值設(shè)置為3×10?3,訓(xùn)練的總和數(shù)量為 200個epoch。
(三)實驗結(jié)果分析
一般來說,聲音事件不一樣,持續(xù)時間也不一樣。所以,訓(xùn)練環(huán)節(jié)中使用時間的長短對模型的性能會產(chǎn)生一定的影響。 L3DAS22 一般來說,Challenge Task2 數(shù)據(jù)集上的聲音事件時間保持在0.2到40.0秒,中位數(shù)的數(shù)值為3.2秒,平均數(shù)的數(shù)值為8.3秒。本文在4秒、8秒、12秒、16秒輸入時間長度不一樣的情況下對注意力機(jī)制模型進(jìn)行訓(xùn)練,得出的模塊數(shù)據(jù)見表1。
為了驗證本文提出的算法的有效性,進(jìn)行不同模塊的消融實驗。由表1可知在相同baseline下,相較于其他模塊,本文所采用的模型在Percision分別提高了0.11、0.02、0.01,在Recall上分別提高了0.06、0.05, 在F-sore上提升了0.13、0.05、0.18。因此,本文提出的算法在結(jié)合不同模塊上具有更好的效果。
為對本文提到的算法有效性進(jìn)行驗證,對比本文算法和其他先進(jìn)的網(wǎng)絡(luò)模型,對兩種算法展開對比實驗工作,最終確定 CRNNNet、CNN-Conformer、SELD-RCnet作為網(wǎng)絡(luò)模型。從表2能夠觀察到,本文算法比其他模型 Precision以及F-score有所增強(qiáng),Recall只略低于SELD-RCnet模型 0.03%,優(yōu)于其他模型。
四、結(jié)語
關(guān)于 SELD 定位面臨難題且效果不好等問題,本文采用的基線模型為CNN-Conformer,與殘差以及改進(jìn)Conformer注意力機(jī)制設(shè)計模型相結(jié)合。這種網(wǎng)絡(luò)模型具備一定的優(yōu)勢,將高效注意力和降采樣融入其中,進(jìn)而能夠?qū)μ卣鲌D以及時間序列上的信息進(jìn)行匯總,使得SELD 的指標(biāo)性能得到顯著提升。
參考文獻(xiàn)
[1]A. J. Eronen et al., Audio-based context recognition[/OL], in IEEE Transactions on Audio, Speech, and Language Processing, vol. 14, no. 1, pp. 321-329, Jan. 2006.
[2]HEITTOLA T,MESAROS A,VIRTANEN T,et al. Sound event detection in multisource environments using source separation[C]// First International Workshop on Machine Listening in Multisource Environments ( CHiME 2011 ) .Florence: CHiME,2011: 36-40.
[3]Turpault N , Serizel R , Salamon J , et al. Sound Event Detection in Domestic Environments with Weakly Labeled Data and Soundscape Synthesis [C]// 4th Workshop on Detection and Classification of Acoustic Scenes and Events (DCASE 2019). 2019.
[4]RSANet: Towards Real-Time Object Detection with Residual Semantic-Guided Attention Feature Pyramid Network[J]. Mobile Networks and Applications, 2021, 26(01):77-87.
[5]Iqbal T, Xu Y, Kong Q, et al. Capsule routing for sound event detection[C].2018 26th European Signal Processing Conference (EUSIPCO). Rome, Italy, 2018: 2255-2259.
作者單位:楊雄、雷幫軍,三峽大學(xué)計算機(jī)與信息學(xué)院、水電工程智能視覺監(jiān)測湖北省重點實驗室;徐文發(fā),武昌首義學(xué)院信息科學(xué)與工程學(xué)院
■ 責(zé)任編輯:張津平、尚丹