国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的環(huán)境聲事件識(shí)別

2022-08-10 08:12李芳足羅麗燕
關(guān)鍵詞:鳴笛聲學(xué)分類(lèi)器

李芳足 羅麗燕 王 玫,2*

1(桂林電子科技大學(xué)認(rèn)知無(wú)線(xiàn)電與信息處理教育部重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004) 2(桂林理工大學(xué)信息科學(xué)與工程學(xué)院 廣西 桂林 541007)

0 引 言

視頻監(jiān)控在公共安全管理中發(fā)揮著重要作用,為保護(hù)人民生命財(cái)產(chǎn)安全提供了有力支撐。但由于室外環(huán)境下視頻數(shù)據(jù)的采集過(guò)程易受環(huán)境因素的干擾,且視頻采集設(shè)備通常布點(diǎn)固定,所以會(huì)出現(xiàn)“監(jiān)控盲區(qū)”的問(wèn)題。單純地以增加視頻采集設(shè)備為代價(jià)解決“監(jiān)控盲區(qū)”問(wèn)題,無(wú)疑會(huì)較大地增加設(shè)備成本與存儲(chǔ)成本。因此,如何在低成本的條件下實(shí)現(xiàn)監(jiān)控?zé)o死角覆蓋成為了急需解決的問(wèn)題。而聲傳播的全向性、聲接收設(shè)備成本較低等優(yōu)點(diǎn)使得基于聲的監(jiān)控手段得到了廣泛關(guān)注,例如針對(duì)道路交通環(huán)境下的異常聲事件監(jiān)測(cè)[1]、針對(duì)動(dòng)物聲識(shí)別的動(dòng)物習(xí)性和生活區(qū)域監(jiān)測(cè)[2]、針對(duì)地鐵環(huán)境的異常聲事件監(jiān)測(cè)[3]等。

環(huán)境聲事件識(shí)別是指對(duì)采集的環(huán)境聲數(shù)據(jù)進(jìn)行分析進(jìn)而識(shí)別出其中包含的聲學(xué)事件的技術(shù)。經(jīng)過(guò)近年來(lái)對(duì)該技術(shù)的研究,研究人員借鑒語(yǔ)音識(shí)別框架總結(jié)出一套環(huán)境聲事件識(shí)別框架。該框架包含兩個(gè)重要部分:聲學(xué)特征提取和分類(lèi)器識(shí)別[4]。早期的環(huán)境聲事件識(shí)別的研究中,由于識(shí)別任務(wù)較為簡(jiǎn)單加之計(jì)算機(jī)的算力不足,常使用K近鄰算法(K-Nearest Neighbor,KNN)[5]、支持向量機(jī)(Support Vector Machines,SVMs)[6-7]和隨機(jī)森林算法(Random Forest,RF)[8]等作為分類(lèi)器,梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCCs)作為聲學(xué)特征。但是隨著將環(huán)境聲事件識(shí)別投入實(shí)際場(chǎng)景應(yīng)用的需求增加,環(huán)境聲事件識(shí)別技術(shù)所面臨的應(yīng)用場(chǎng)景更加復(fù)雜多變,上述分類(lèi)器由于對(duì)復(fù)雜數(shù)據(jù)的建模能力有限,無(wú)法滿(mǎn)足當(dāng)前的環(huán)境聲事件識(shí)別的要求。

近些年,隨著計(jì)算機(jī)的算力提升,深度學(xué)習(xí)受到環(huán)境聲事件識(shí)別領(lǐng)域研究人員的廣泛關(guān)注,目前主流的環(huán)境聲事件識(shí)別技術(shù)常使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[9-12]作為分類(lèi)器,對(duì)數(shù)梅爾譜(Log-mel spectrogram,Log-mel)作為聲學(xué)特征,卷積神經(jīng)網(wǎng)絡(luò)因具有強(qiáng)大的特征提取能力和復(fù)雜函數(shù)建模能力而使得環(huán)境聲事件識(shí)別性能得到有效的提升。然而在機(jī)器學(xué)習(xí)領(lǐng)域中,數(shù)據(jù)、特征和分類(lèi)算法是決定機(jī)器學(xué)習(xí)性能的關(guān)鍵因素,文獻(xiàn)[9-12]盡管采用了不同的卷積策略和不同的激活函數(shù)提升了分類(lèi)算法的性能,但其只采用Log-mel特征作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,使得環(huán)境聲事件識(shí)別性能受限。針對(duì)這個(gè)問(wèn)題,許多研究人員對(duì)多特征融合進(jìn)行了調(diào)研,并指出融合特征的表現(xiàn)要優(yōu)于單一特征[13],例如文獻(xiàn)[2]將投影特征和局部二元模式變化特征進(jìn)行融合從而完成了低信噪比環(huán)境下動(dòng)物聲的自動(dòng)識(shí)別任務(wù)。文獻(xiàn)[14]融合梅爾頻率倒譜系數(shù)(MFCC)和Gammatone倒譜系數(shù)(GFCC)解決了有噪聲環(huán)境下的說(shuō)話(huà)人識(shí)別問(wèn)題。然而上述文獻(xiàn)的特征融合方式均采用前融合方式(early fusion-based method),盡管此類(lèi)融合方式已經(jīng)取得一定成效,但是并不適合于卷積神經(jīng)網(wǎng)絡(luò),因?yàn)檫@種融合方式存在如下缺陷:?jiǎn)挝换虺叨炔煌膬煞N特征拼接在一起會(huì)使得融合特征存在內(nèi)部數(shù)值差異較大以及產(chǎn)生無(wú)規(guī)律的拼接邊界,從而影響卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。文獻(xiàn)[13,15]使用不同的聲學(xué)特征對(duì)不同的模型進(jìn)行訓(xùn)練,然后將訓(xùn)練好的模型使用DS證據(jù)理論(Dempster-Shafer evidence theory)進(jìn)行融合,經(jīng)Urbansound8K、ESC-10和ESC-50數(shù)據(jù)集評(píng)估結(jié)果表明基于DS證據(jù)理論的后融合方式(late fusion-based method)具有較好的識(shí)別表現(xiàn)。這種基于DS證據(jù)理論的后融合方式盡管避免了前融合方式帶來(lái)的弊端,但是需要對(duì)兩個(gè)模型分開(kāi)訓(xùn)練使得識(shí)別方法更繁瑣并且無(wú)法保證特征進(jìn)行有效的融合。因此,尋找一種適合卷積神經(jīng)網(wǎng)絡(luò)的特征融合方式成為必要。

為解決上述問(wèn)題,本文作出如下貢獻(xiàn):(1) 提出一種基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架,該框架的核心是為MFCCs特征和Log-mel特征匹配合適的卷積和池化策略。(2) 通過(guò)實(shí)景實(shí)驗(yàn),探索了該融合框架在實(shí)際場(chǎng)景中應(yīng)用的可行性。

1 MFCCs和Log-mel特征提取

聲學(xué)特征是影響環(huán)境聲事件識(shí)別性能的重要因素,不同類(lèi)型的聲學(xué)特征可以從不同角度描述聲音信號(hào),該融合框架選擇MFCCs特征和Log-mel特征作為融合對(duì)象,兩種特征提取流程如圖1所示。Log-mel特征是經(jīng)過(guò)梅爾濾波器過(guò)濾后的頻譜特征,符合人耳的聽(tīng)覺(jué)特性,描述了聲音信號(hào)頻譜的全局信息,被廣泛應(yīng)用于環(huán)境聲事件識(shí)別和聲場(chǎng)景識(shí)別中;MFCCs特征是Log-mel特征經(jīng)過(guò)離散余弦變換之后得到的倒譜特征,該特征反映了信號(hào)的倒譜特征,被廣泛應(yīng)用于語(yǔ)音識(shí)別和說(shuō)話(huà)人識(shí)別中。圖2是對(duì)汽車(chē)?guó)Q笛聲、槍聲和尖叫聲分別提取Log-mel特征和MFCCs特征得到的特征圖,可以看出,Log-mel特征圖可以更直觀(guān)地看到三種聲音的區(qū)別,在圖像上更具辨識(shí)度,而MFCCs特征由于只保留了低頻部分的譜包絡(luò)信息無(wú)法直觀(guān)地分辨出三種聲音。對(duì)這兩種特征進(jìn)行融合不僅可以從全局的頻譜信息中對(duì)聲音信號(hào)進(jìn)行區(qū)分,還可以通過(guò)低頻的包絡(luò)信息對(duì)特征進(jìn)行補(bǔ)充,有效地提高了特征的描述能力和抗噪能力。除此之外,Log-mel特征是MFCCs特征的中間產(chǎn)物,同時(shí)提取這兩種特征時(shí)不會(huì)增加額外的計(jì)算消耗,可以滿(mǎn)足在實(shí)際應(yīng)用中對(duì)特征提取的實(shí)時(shí)性要求,因此選擇這兩種聲學(xué)特征來(lái)描述環(huán)境聲信號(hào)。兩種特征的提取步驟如下[16]。

圖1 MFCCs和Log-mel特征提取流程

圖2 Log-mel和MFCCs特征圖

(1) 分幀和加窗:將一段聲音信號(hào)分為一系列重疊的短幀s(n),幀長(zhǎng)設(shè)為1 024,幀移設(shè)為512。然后對(duì)幀信號(hào)s(n)加漢明窗ω(n)來(lái)減輕邊界效應(yīng),漢明窗ω(n)為:

(1)

式中:N為總的采樣點(diǎn)數(shù)。

(2) 快速傅里葉變換:進(jìn)行快速傅里葉變換(Fast Fourier Transform,FFT)得到其復(fù)數(shù)譜。假設(shè)輸入信號(hào)為x(n),該信號(hào)的離散傅里葉變換(Discrete Fourier Transform,DFT)公式為:

(2)

式中:N表示進(jìn)行DFT變換的點(diǎn)數(shù);X(k)表示第k個(gè)頻率點(diǎn)的值。然后將得到的復(fù)數(shù)譜取模平方得到功率譜。

(3) 梅爾濾波器濾波:將功率譜通過(guò)一組梅爾濾波器,即:

(3)

式中:Hm(k)為梅爾濾波器組;M為濾波器組中三角濾波器的數(shù)量,取M=40。梅爾濾波器組計(jì)算公式為:

(4)

式中:f(m)為第m個(gè)三角濾波器的中心頻率,1≤m≤M。

然后將梅爾頻譜取對(duì)數(shù),得到對(duì)數(shù)梅爾譜特征。

(4) 離散余弦變換:對(duì)數(shù)梅爾譜做離散余弦變換得到MFCCs系數(shù),即:

(5)

本文取前12個(gè)系數(shù)作為最終的MFCCs特征,即L=12。

2 基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架

不同聲學(xué)特征的描述能力不同,經(jīng)過(guò)有效的融合可以極大地提高環(huán)境聲事件識(shí)別的性能,本文采用基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架,通過(guò)雙輸入方式為L(zhǎng)og-mel和MFCCs匹配不同的卷積和池化策略,然后通過(guò)展平和拼接操作對(duì)提取到的高階特征進(jìn)行融合。同時(shí),使用Batch Normalization、正則化、Dropout等技巧提升了網(wǎng)絡(luò)的訓(xùn)練速度以及泛化能力。

2.1 雙輸入卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)及特征融合方式

本文借鑒經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)[9,17]和BP神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了如圖3所示的雙輸入卷積神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)有兩條輸入并分別使用MFCCs特征和Log-mel特征作為輸入數(shù)據(jù),其數(shù)據(jù)維度分別為Xmfcc∈R12×80、Xlogmel∈R40×80。詳細(xì)的模型結(jié)構(gòu)描述如下。

圖3 雙輸入卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

在前向傳播過(guò)程中,每次輸入Xmfcc和Xlogmel,數(shù)據(jù)從前一層網(wǎng)絡(luò)流向下一層網(wǎng)絡(luò),直到輸出層得到分類(lèi)結(jié)果,并且前一層流向下一層網(wǎng)絡(luò)的數(shù)據(jù)需經(jīng)過(guò)非線(xiàn)性映射F(·|Θ),從輸入層X(jué)mfcc和Xlogmel到Max-pool2和Max-pool4的操作分別為:

Zmax-pool2=F(Xmfcc|Θ)=

fl(…f2(f1(Xmfcc|θ1)|θ2)|θl)l=4

(6)

Zmax-pool4=F(Xlogmel|Θ)=

fl(…f2(f1(Xlogmel|θ1)|θ2)|θl)l=4

(7)

式中:fl(·|θl)表示對(duì)第l層網(wǎng)絡(luò)的操作,例如l∈{Conv.1,Conv.2,Conv.3,Conv.4}為卷積層,其卷積運(yùn)算為:

Zl=fl(Xl|θl)=h(W*Xl+b),θl=[W,b]

(8)

式中:Xl為輸入的三維張量;W為卷積核;*表示卷積操作;b為偏置向量;h(·)表示激活函數(shù)。然后在每層卷積層后接最大池化層l∈{Max-pool.1,Max-pool.2,Max-pool.3,Max-pool.4},用來(lái)減小特征映射的維度和提升訓(xùn)練速度。

Zconcatenate=concatanate(Zmax-pool2,Zmax-pool4)

(9)

最后,將融合后的一維張量與輸出層進(jìn)行全連接,操作為:

Zl=fl(Xl|θl)=h(WXl+b),θl=[W,b]

(10)

式中:Xl表示Concatenate層輸出的一維張量;W表示權(quán)重;b為偏置參數(shù);h(·)表示激活函數(shù)。

基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合方式可歸為后融合方式。而前融合方式是在卷積神經(jīng)網(wǎng)絡(luò)輸入前對(duì)聲學(xué)特征進(jìn)行如圖4所示的操作。這種融合方式會(huì)存在如下缺點(diǎn):?jiǎn)挝换虺叨炔煌膬煞N特征拼接在一起會(huì)使得融合特征存在內(nèi)部數(shù)值差異較大以及產(chǎn)生無(wú)規(guī)律的拼接邊界的問(wèn)題,從而干擾卷積核更新有效的權(quán)值,影響卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力。針對(duì)這個(gè)缺點(diǎn),基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架的優(yōu)勢(shì)在于為不同的特征匹配不同的卷積和池化策略,充分發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力,最后將得到高階特征進(jìn)行融合并輸送到Softmax層,對(duì)提取到的高階特征進(jìn)行選擇和非線(xiàn)性擬合,極大地提高了網(wǎng)絡(luò)的分類(lèi)性能。

圖4 以前融合方式融合Log-mel和MFCCs

2.2 網(wǎng)絡(luò)參數(shù)分析

本文提出的卷積神經(jīng)網(wǎng)絡(luò)有兩個(gè)特點(diǎn):(1) 雙輸入結(jié)構(gòu),不同的輸入經(jīng)過(guò)不同的卷積層和池化層,充分發(fā)揮不同特征的描述能力,從而提高網(wǎng)絡(luò)的分類(lèi)性能;(2) 無(wú)額外的全連接層,這種結(jié)構(gòu)可以有效地減少模型的參數(shù)和降低模型的復(fù)雜度,提高模型的泛化能力[18]。具體的網(wǎng)絡(luò)參數(shù)設(shè)置如下。

(1) Conv.1和Conv.2:這兩層卷積層均使用40個(gè)3×3的卷積核,卷積核的滑動(dòng)步長(zhǎng)為2。這種小尺寸卷積核用于提取MFCCs特征圖中的局部高階特征并且有效地減少了模型的參數(shù)。然后將卷積核的輸出用修正線(xiàn)性單元(Rectified Linear Unit, ReLU)[19]進(jìn)行非線(xiàn)性映射,其映射關(guān)系為:

f(x)=max(0,x)

(11)

同時(shí),在每個(gè)卷積核和激活函數(shù)之間引入Batch Normalization技術(shù)[20],用來(lái)提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練的速度和穩(wěn)定性。

(2) Conv.3和Conv.4:這兩層卷積層均使用40個(gè)5×5的卷積核用于提取Log-mel特征圖的深層特征,卷積核滑動(dòng)步長(zhǎng)為2,同樣采用ReLU作為激活函數(shù)并且在激活函數(shù)前引入Batch Normalization技術(shù)。

(3) Max-pool.1和Max-pool.2:這兩層池化層均采用2×2的最大池化濾波器來(lái)下采樣上層輸出,以達(dá)到減小輸出數(shù)據(jù)的尺寸和特征選擇的目的。

(4) Max-pool.3和Max-pool.4:這兩層池化層均采用3×3的最大池化濾波器。

為了進(jìn)一步提高模型的泛化能力,本模型在輸出層前添加概率為0.5的Dropout機(jī)制,即在每批次的訓(xùn)練過(guò)程中,隨機(jī)地讓網(wǎng)絡(luò)中的某些隱藏層節(jié)點(diǎn)的權(quán)重暫時(shí)失效,通過(guò)Dropout機(jī)制可以減輕網(wǎng)絡(luò)節(jié)點(diǎn)之間的聯(lián)合適應(yīng)性,防止網(wǎng)絡(luò)發(fā)生過(guò)擬合現(xiàn)象[21]。此外,網(wǎng)絡(luò)還使用了L2參數(shù)范數(shù)懲罰,使得權(quán)重更加接近原點(diǎn),防止過(guò)擬合[21],即通過(guò)向目標(biāo)函數(shù)添加一個(gè)正則項(xiàng):

(12)

式中:向量w表示所有應(yīng)受范數(shù)懲罰影響的權(quán)重;向量θ表示所有參數(shù)(包括w和無(wú)須正則化的參數(shù))。

針對(duì)多分類(lèi)任務(wù),本模型使用目標(biāo)函數(shù)-分類(lèi)交叉熵?fù)p失(Categorical Cross-entropy)來(lái)衡量當(dāng)前訓(xùn)練得到的概率分布與真實(shí)分布之間的距離,交叉熵?fù)p失函數(shù)定義為:

C=-∑ylog(a)

(13)

式中:y表示期望輸出;a表示模型得到的輸出,而a=σ(z),其中σ(·)表示激活函數(shù),z=∑WX+b。輸出層的激活函數(shù)使用Softmax函數(shù),即每個(gè)神經(jīng)元的輸出映射為:

(14)

而且要保證:

(15)

式中:J為輸出層神經(jīng)元個(gè)數(shù),要求與預(yù)定義的類(lèi)別數(shù)量保持一致。

在做反向傳播時(shí),采用Adam[22]優(yōu)化器來(lái)訓(xùn)練網(wǎng)絡(luò),Adam是一種學(xué)習(xí)率自適應(yīng)的優(yōu)化算法,它采用了偏置修正,修正從原點(diǎn)初始化的一階矩(動(dòng)量項(xiàng))和(非中心的)二階矩的估計(jì),使得其對(duì)超參數(shù)的選擇更魯棒[20]。

3 基于環(huán)境聲數(shù)據(jù)集的實(shí)驗(yàn)分析

3.1 環(huán)境聲數(shù)據(jù)集

實(shí)驗(yàn)使用公開(kāi)的環(huán)境聲數(shù)據(jù)集Google AudioSet[23],該數(shù)據(jù)集是目前聲音種類(lèi)最豐富、數(shù)量最多的聲音數(shù)據(jù)集,常用于評(píng)估環(huán)境聲事件識(shí)別方法。本文從該數(shù)據(jù)集中選取了三種比較典型的環(huán)境聲:槍聲、尖叫聲和汽車(chē)?guó)Q笛聲,每種類(lèi)別的聲音樣本數(shù)量均為900余條,每條聲音樣本均采用44.1 kHz采樣和16 bits位深度編碼為WAV格式。然后按照7∶3將聲音樣本隨機(jī)劃分為訓(xùn)練集和測(cè)試集。

3.2 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)使用公開(kāi)的環(huán)境聲數(shù)據(jù)集對(duì)如下十種環(huán)境聲事件識(shí)別方法進(jìn)行評(píng)估對(duì)比。

方法一:使用文獻(xiàn)[11]中的識(shí)別方法作為Baseline方法,該方法使用對(duì)數(shù)梅爾譜作為聲學(xué)特征,使用卷積神經(jīng)網(wǎng)絡(luò)作為分類(lèi)算法。

方法二:采用MFCCs作為聲學(xué)特征,單輸入卷積神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其中卷積層和池化層結(jié)構(gòu)與本文設(shè)計(jì)的雙輸入卷積神經(jīng)網(wǎng)絡(luò)中關(guān)于MFCCs輸入部分的卷積層和池化層結(jié)構(gòu)保持一致,在Flatten層與輸出層之間添加一層全連接層。

圖5 以MFCCs特征作為輸入的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

方法三:采用Log-mel作為聲學(xué)特征,單輸入卷積神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器,其結(jié)構(gòu)如圖6所示。該網(wǎng)絡(luò)中卷積層和池化層與本文設(shè)計(jì)的雙輸入卷積神經(jīng)網(wǎng)絡(luò)中有關(guān)Log-mel輸入部分中的卷積層和池化層結(jié)構(gòu)保持一致,同樣在Flatten與輸出層之間添加一層全連接層。

圖6 以L(fǎng)og-mel特征作為輸入的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

方法四:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類(lèi)器采用K近鄰算法。

方法五:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類(lèi)器采用支持向量機(jī)算法。

方法六:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類(lèi)器采用隨機(jī)森林算法。

方法七:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類(lèi)器采用包含兩個(gè)隱含層的多層感知機(jī)。

方法八:聲學(xué)特征采用前融合方式融合MFCCs特征與Log-mel特征,分類(lèi)器采用圖6所示的卷積神經(jīng)網(wǎng)絡(luò)。

方法九:使用文獻(xiàn)[13,15]中采用的DS證據(jù)理論對(duì)方法一和方法二中訓(xùn)練好的模型進(jìn)行融合,以此作為基于后融合的對(duì)比方法。

方法十:即本文方法,采用MFCCs和Log-mel作為聲學(xué)特征,雙輸入卷積神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器。

所有的實(shí)驗(yàn)均在Windows平臺(tái)下完成,硬件設(shè)備使用酷睿i7 6800K處理器和GTX1080TI顯卡,軟件部分中涉及到的特征提取和分類(lèi)算法的建模和應(yīng)用借助Python 語(yǔ)言中的librosa、sklearn和TensorFlow等模塊完成。

3.3 評(píng)估指標(biāo)

評(píng)估環(huán)境聲事件識(shí)別方法常采用如下的評(píng)估指標(biāo)[24]:

(1) 查全率(Recall):正確識(shí)別到的鳴笛聲數(shù)量占鳴笛聲真實(shí)發(fā)生數(shù)量的比率。

(16)

(2) 查準(zhǔn)率(Precision): 正確識(shí)別到的鳴笛聲數(shù)量占識(shí)別到鳴笛聲數(shù)量的比率。

(17)

(3) F1-度量(F1-measure):

(18)

式中:TP稱(chēng)為真正例(True Positive);FP稱(chēng)為假正例(False Positive);TN稱(chēng)為真反例(True Negative);FN稱(chēng)為假反例(False Negative)。在評(píng)估指標(biāo)中,查全率和查準(zhǔn)率越高說(shuō)明檢測(cè)系統(tǒng)性能越好,但是這兩者是相互矛盾的,因此引入F1-度量來(lái)權(quán)衡兩者。

3.4 實(shí)驗(yàn)結(jié)果分析

將實(shí)驗(yàn)結(jié)果以混淆矩陣圖的形式呈現(xiàn)在圖7中,其中圖7(a)-圖7(j)是使用十種方法得到的評(píng)估結(jié)果。并將實(shí)驗(yàn)結(jié)果以查全率、查準(zhǔn)率、F1度量的形式呈現(xiàn)在表1中。

圖7 十種識(shí)別方法得到的混淆概率矩陣

表1 十種方法的評(píng)估結(jié)果(%)

對(duì)比方法二和方法三的實(shí)驗(yàn)結(jié)果可以得出,使用MFCCs特征的方法僅對(duì)汽車(chē)?guó)Q笛聲的識(shí)別表現(xiàn)優(yōu)于Log-mel特征,而從整體識(shí)別表現(xiàn)看,其識(shí)別表現(xiàn)不如使用Log-mel特征的方法,因此可以得出,Log-mel特征和MFCCs特征對(duì)不同聲音信號(hào)的描述能力不同,而且使用Log-mel特征的方法要優(yōu)于使用MFCCs特征的方法,通過(guò)將兩種特征進(jìn)行融合可以對(duì)特征的描述能力進(jìn)行互補(bǔ)從而提高識(shí)別方法的性能。方法二和方法三的實(shí)驗(yàn)結(jié)果要優(yōu)于Baseline方法,驗(yàn)證了本文所設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)性能突出。

通過(guò)比較方法四-方法八的實(shí)驗(yàn)結(jié)果,可以對(duì)使用前融合方式的不同分類(lèi)算法進(jìn)行比較。分析實(shí)驗(yàn)結(jié)果,使用傳統(tǒng)分類(lèi)算法的方法相比使用深度學(xué)習(xí)的方法存在一定差距。因此證明了深度學(xué)習(xí)技術(shù)更適合處理環(huán)境聲信號(hào)。

通過(guò)對(duì)比Baseline、方法二、方法三、方法八、方法九、方法十(本文方法)的實(shí)驗(yàn)結(jié)果,可以對(duì)單特征方法、基于前融合方式的融合特征方法和基于DS證據(jù)理論的后融合方法與本文提出的基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行對(duì)比。分析實(shí)驗(yàn)結(jié)果,方法二和方法三的識(shí)別結(jié)果優(yōu)于方法八,因此驗(yàn)證了基于前融合的特征融合方式對(duì)卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)性能產(chǎn)生了負(fù)面影響。方法九的表現(xiàn)優(yōu)于方法二和方法三,證明了基于DS證據(jù)理論的融合方式是一種有效的特征融合手段。而本文方法在各項(xiàng)指標(biāo)的表現(xiàn)相較于其他的方法有明顯提升,因此本文提出的特征融合框架是有效且性能突出的。

4 基于實(shí)際場(chǎng)景的汽車(chē)?guó)Q笛聲識(shí)別實(shí)驗(yàn)

為了評(píng)估本文方法在實(shí)際場(chǎng)景中應(yīng)用的性能,通過(guò)實(shí)景實(shí)驗(yàn)對(duì)上述性能較好的識(shí)別方法與本文方法進(jìn)行對(duì)比。

4.1 環(huán)境聲數(shù)據(jù)的采集

為了保證實(shí)驗(yàn)的真實(shí)性,在桂林電子科技大學(xué)金雞嶺校區(qū)正門(mén)前放置聲音采集設(shè)備,對(duì)過(guò)往車(chē)輛的鳴笛聲進(jìn)行采集,采集場(chǎng)景及采集設(shè)備如圖8所示。經(jīng)過(guò)長(zhǎng)時(shí)間的采集,最終得到1 742條鳴笛聲數(shù)據(jù),每條聲音數(shù)據(jù)持續(xù)時(shí)間為0.6 s~1.5 s,均采用44.1 kHz的采樣頻率和16 bits的位深度保存為WAV格式。使用采集到的汽車(chē)?guó)Q笛聲數(shù)據(jù)用于訓(xùn)練分類(lèi)算法,最終使用一段未參與訓(xùn)練的時(shí)長(zhǎng)為10 min的街道環(huán)境聲數(shù)據(jù)對(duì)該網(wǎng)絡(luò)進(jìn)行評(píng)價(jià)。

圖8 聲音采集場(chǎng)景

4.2 評(píng)估方式

汽車(chē)?guó)Q笛聲識(shí)別類(lèi)似于跌倒聲識(shí)別[25]屬于二分類(lèi)任務(wù),要求在一段聲音信號(hào)中檢測(cè)并識(shí)別出是否存在汽車(chē)?guó)Q笛聲,因此采用如圖9所示的評(píng)估方法。圖9中上方的黑線(xiàn)表示鳴笛聲檢測(cè)的真實(shí)結(jié)果,中間的虛線(xiàn)表示模型檢測(cè)得到的結(jié)果,底部的粗黑線(xiàn)表示時(shí)間軸,凸起的線(xiàn)條表示有汽車(chē)?guó)Q笛聲發(fā)生。圖9中展示了在模型的識(shí)別結(jié)果中會(huì)出現(xiàn)的四種情況:TP、FP、TN、FN,當(dāng)模型識(shí)別結(jié)果和真實(shí)結(jié)果均為汽車(chē)?guó)Q笛聲時(shí)表示為T(mén)P,反之表示為T(mén)N。當(dāng)模型識(shí)別結(jié)果為汽車(chē)?guó)Q笛聲而真實(shí)結(jié)果中無(wú)汽車(chē)?guó)Q笛聲時(shí)表示為FP,反之為FN。

圖9 鳴笛聲識(shí)別評(píng)估策略

4.3 實(shí)驗(yàn)結(jié)果分析

表2呈現(xiàn)了汽車(chē)?guó)Q笛聲識(shí)別的實(shí)景實(shí)驗(yàn)結(jié)果,基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的環(huán)境聲事件識(shí)別方法對(duì)汽車(chē)?guó)Q笛聲的識(shí)別擁有較高的查全率(Recall=87.7%),而且其查準(zhǔn)率(Precision=84.7%)相比查全率也僅僅低了3百分點(diǎn),綜合這兩個(gè)指標(biāo)得到的F1-度量也能達(dá)到86.2%,而且相比Baseline、方法二、方法三、方法六、方法八和方法九表現(xiàn)也有較大提升。綜合實(shí)驗(yàn)結(jié)果,基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架在實(shí)際環(huán)境聲中仍具有較好識(shí)別性能,而且該識(shí)別方法明顯優(yōu)于單特征方法、基于前融合的融合特征方法和基于DS證據(jù)理論的模型后融合方法。

表2 鳴笛聲識(shí)別的評(píng)估結(jié)果(%)

5 結(jié) 語(yǔ)

本文針對(duì)前融合的特征融合方式不利于卷積神經(jīng)網(wǎng)絡(luò)提取高階特征的問(wèn)題,提出一種基于雙輸入卷積神經(jīng)網(wǎng)絡(luò)的特征融合框架。經(jīng)公開(kāi)數(shù)據(jù)集評(píng)估以及實(shí)景實(shí)驗(yàn)驗(yàn)證,所提出的融合框架是有效的,并具備在實(shí)際場(chǎng)景中應(yīng)用的可行性。但是,本文工作仍存在不足,例如還需對(duì)特征的選擇做進(jìn)一步探索。在以后的工作中將對(duì)更多的特征進(jìn)行研究,探索性能更優(yōu)以及魯棒性更強(qiáng)的融合特征,推動(dòng)環(huán)境聲事件識(shí)別在實(shí)際場(chǎng)景中的應(yīng)用。

猜你喜歡
鳴笛聲學(xué)分類(lèi)器
少樣本條件下基于K-最近鄰及多分類(lèi)器協(xié)同的樣本擴(kuò)增分類(lèi)
基于振動(dòng)聲學(xué)方法的高壓開(kāi)關(guān)機(jī)械缺陷診斷技術(shù)
學(xué)貫中西(6):闡述ML分類(lèi)器的工作流程
基于樸素Bayes組合的簡(jiǎn)易集成分類(lèi)器①
庚子清明國(guó)祭(二)
12bZM12BC2020102_p26
基于AdaBoost算法的在線(xiàn)連續(xù)極限學(xué)習(xí)機(jī)集成算法
2014年中考聲學(xué)預(yù)測(cè)題
2016年中考聲學(xué)預(yù)測(cè)題
江山萬(wàn)里心