国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)殘差網(wǎng)絡(luò)的低空無人機(jī)聲音識(shí)別方法

2022-11-15 03:45:04薛珊衛(wèi)立煒顧宸瑜孟憲宇賈冰
關(guān)鍵詞:差分音頻準(zhǔn)確率

薛珊,衛(wèi)立煒,顧宸瑜,孟憲宇,賈冰

(1.長春理工大學(xué) 機(jī)電工程學(xué)院,長春 130022;2.長春理工大學(xué) 重慶研究院,重慶 400000;3.西安交通大學(xué) 信息與通信工程學(xué)院,西安 710049)

隨著現(xiàn)代科技的快速發(fā)展,無人機(jī)的使用門檻變得越來越低,無人機(jī)越來越普遍。由于缺乏統(tǒng)一的行業(yè)標(biāo)準(zhǔn)和規(guī)范,無人機(jī)“黑飛”問題日益嚴(yán)重,使得無人機(jī)被濫用的可能性大大增加。無人機(jī)在低空空域的非合作入侵飛行事件在國內(nèi)外屢見不鮮,不僅傷害了公民的隱私和生命財(cái)產(chǎn)安全,更對(duì)公共安全和國家安全構(gòu)成了極大威脅[1]。因此,對(duì)無人機(jī)的檢測和識(shí)別就顯得尤為重要。

目前為止,無人機(jī)的識(shí)別方法多種多樣,包括圖像識(shí)別[2-3]、雷達(dá)數(shù)據(jù)分析[4-6]以及無線電信號(hào)識(shí)別[7-9]等方面。圖像識(shí)別無人機(jī)時(shí),無人機(jī)在遠(yuǎn)距離上的視覺特征較弱,尺寸較小,易受到遮擋,并且容易受到外在環(huán)境的影響。雷達(dá)探測主要是運(yùn)用雷達(dá)信號(hào)的回波來探測目標(biāo),但存在固有的探測盲區(qū),而且價(jià)格昂貴、體積大、放射性強(qiáng),不適合城市環(huán)境。出于便利性和經(jīng)濟(jì)性考慮,運(yùn)用麥克風(fēng)陣列,這種基于聲學(xué)的低空無人機(jī)探測識(shí)別方法[10-12]正在被越來越多地研究,它不取決于無人機(jī)的大小和位置,而是取決于螺旋槳的聲音,可以有效地探測識(shí)別無人機(jī)[13-15]。如何運(yùn)用聲音識(shí)別無人機(jī),如何能夠更準(zhǔn)地識(shí)別無人機(jī)成為了研究的熱點(diǎn)。

基于此,提出了一種基于殘差網(wǎng)絡(luò)改進(jìn)的低空民用無人機(jī)聲音識(shí)別方法(Improved Residual Block Network,IRBNet),旨在更準(zhǔn)地識(shí)別無人機(jī)。

1 無人機(jī)聲音數(shù)據(jù)集的建立及特征提取

1.1 無人機(jī)聲音數(shù)據(jù)集的建立

由于目前并沒有開源且成熟的無人機(jī)數(shù)據(jù)集供使用,因此需要建立無人機(jī)聲音數(shù)據(jù)集。

運(yùn)用聲音采集設(shè)備,在現(xiàn)實(shí)環(huán)境中對(duì)實(shí)驗(yàn)無人機(jī)聲音進(jìn)行錄制采集,保證獲得的聲音信號(hào)都是真實(shí)數(shù)據(jù)。然后對(duì)采集到的音頻數(shù)據(jù)進(jìn)行濾波、預(yù)加重、分幀、加窗等預(yù)處理。將較長的聲音信號(hào)分割為4 s的聲音片段,保持50%的重疊,保證最后的無人機(jī)聲音片段全部有4 s的持續(xù)時(shí)間[16]。最終,得到將近600個(gè)長度為4 s的無人機(jī)聲音片段。之后對(duì)聲音樣本進(jìn)行人工標(biāo)記,獲得標(biāo)簽數(shù)據(jù)。

Urbansound8K 數(shù)據(jù)集[17]是由 8 732個(gè)帶標(biāo)簽的聲音片段組成的數(shù)據(jù)集,每個(gè)聲音片段具有最大4 s的持續(xù)時(shí)間。8 732段錄音來自十個(gè)聲音類別,它們是汽車?yán)?、狗吠、發(fā)動(dòng)機(jī)空轉(zhuǎn)、風(fēng)鉆、空調(diào)、街頭音樂、兒童玩耍、鉆探、槍聲和警笛。

Urbansound8K數(shù)據(jù)集中的汽車?yán)群蛢和嫠煞N聲音數(shù)據(jù)被調(diào)用以充當(dāng)無人機(jī)數(shù)據(jù)集中的負(fù)樣本。然后把處理過的無人機(jī)聲音片段加入其中,構(gòu)成最終的數(shù)據(jù)集。數(shù)據(jù)集中的所有樣本長度都小于等于4 s,共3類。在三類樣本信號(hào)中隨機(jī)各選取一個(gè)片段,其語譜圖及波形圖如圖1所示。

圖1 三類音頻的語譜圖及波形圖

1.2 音頻特征提取

卷積神經(jīng)網(wǎng)絡(luò)識(shí)別模型需要輸入選定的特征進(jìn)行訓(xùn)練和測試,預(yù)測結(jié)果。合適的特征不僅可以以非常緊湊的方式模擬信號(hào)的屬性,降低運(yùn)算維度,還可以更精準(zhǔn)地表征聲音信號(hào)。因此,特征的好壞對(duì)網(wǎng)絡(luò)模型有著很重要的影響。

常用的表征聲音信號(hào)的特征有線性預(yù)測倒譜 系 數(shù)(Linear Prediction Cepstral Coefficients,LPCC)[18-19]、Log-Mel[20]、MFCC[21-22]以 及 小 波(Wavelet)[23]等。本文研究并比較了 MFCC 和Log-Mel及其一階差分特征,最終采用最合適的提取特征。

MFCC提取過程為:首先對(duì)信號(hào)進(jìn)行預(yù)加重、分幀、加窗和傅里葉變換;然后計(jì)算功率譜,并將功率譜通過三角帶通濾波器進(jìn)行濾波,輸出結(jié)果運(yùn)用Mel域頻率與線性域頻率間的關(guān)系轉(zhuǎn)換為對(duì)數(shù)形式;最后進(jìn)行離散余弦變換(DCT),得到MFCC[24]。其提取流程如圖2所示。

圖2 MFCC提取流程示意圖

Log-Mel特征與MFCC的計(jì)算步驟基本一致,區(qū)別在于前者少進(jìn)行一步DCT操作。從計(jì)算量上看,MFCC是在Log-Mel特征的基礎(chǔ)上進(jìn)行的,所以MFCC的計(jì)算量更大。從特征區(qū)分度上看,Log-Mel特征相關(guān)性更高。高斯混合模型(GMM)由于忽略了不同特征維度的相關(guān)性,MFCC更適用。而卷積神經(jīng)網(wǎng)絡(luò)(CNN)可以更好地利用這些相關(guān)性,使用Log-Mel特征可以更多地降低錯(cuò)誤指標(biāo)。故最終采用Log-Mel特征。

由于聲音信號(hào)在時(shí)域中是連續(xù)的,因此通過分割幀提取的特征信息僅反映了該幀信號(hào)中聲音的特性。為了使特征更好地反映信號(hào)的時(shí)域連續(xù)性,通常選擇加入其差分特征。本文選擇一階差分作為補(bǔ)充。分別提取Log-Mel特征和MFCC及其一階差分特征矩陣一起作為雙通道提供給網(wǎng)絡(luò)。汽車?yán)取和嫠R约盁o人機(jī)信號(hào)的其中一個(gè)片段的log-Mel譜圖及一階差分譜圖如圖3所示,MFCC及其一階差分的表示見圖4。從特征譜圖中看出每個(gè)信號(hào)的特征都是特定的,可以被區(qū)分。

圖3 三類音頻的Log-Mel譜圖及一階差分

圖4 三類音頻的MFCC及一階增量

2 基于殘差網(wǎng)絡(luò)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)IRBNet的設(shè)計(jì)

進(jìn)行音頻特征提取后,需要設(shè)計(jì)用于聲音識(shí)別無人機(jī)的網(wǎng)絡(luò),也就是設(shè)計(jì)一種聲音識(shí)別的算法。目前,在環(huán)境聲音識(shí)別任務(wù)中,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別的方法比較流行[25-26]?;诖耍疚幕谶h(yuǎn)跳連接構(gòu)建IRTBlock,設(shè)計(jì)了基于殘差網(wǎng)絡(luò)的改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)IRBNet,對(duì)無人機(jī)進(jìn)行聲音識(shí)別。

2.1 設(shè)計(jì)遠(yuǎn)跳連接IRTBlock

輸入x,經(jīng)過若干層卷積和激活后,得到的輸出F(x),再加上原來的輸入,最終輸出為F(x)+x,這就是遠(yuǎn)跳連接(Skip Connection)[27]。它可以解決由于網(wǎng)絡(luò)深度增加而導(dǎo)致的網(wǎng)絡(luò)退化問題,使得深層網(wǎng)絡(luò)的表現(xiàn)優(yōu)于淺層網(wǎng)絡(luò)?;诖?,本文構(gòu)建了如下兩種模塊:IRTBlock-A和IRTBlock-B。這兩種模塊的結(jié)構(gòu)示意圖如圖5所示。其中num_filtes代表設(shè)置的過濾器數(shù)量;CONV表示卷積層;BN表示批歸一化(Batch Normalization)層[28],它能夠減少內(nèi)部變量偏移從而加速深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

圖5 設(shè)計(jì)的IRTBlock的結(jié)構(gòu)示意圖

IRTBlock-A:主通路為 1×1 Conv+BN+Re-LU+3×3 Conv+BN+ReLU+3×3 Conv+BN(其 中 1×1 Conv表示核大小為1×1的卷積層);遠(yuǎn)跳連接通路為1×1 Conv+BN+ReLU,通過1×1卷積來調(diào)整大小,使得維度相等;然后,把兩者的輸出進(jìn)行逐元素相加(Add)融合,并通過ReLU激活函數(shù)來引入非線性,這一部分被稱為IRes-Model;最后,把融合結(jié)果在輸入?yún)R聚層之前,運(yùn)用1×1卷積進(jìn)行降維,這一部分記作Trans-Model,用于連接各個(gè)IRes-Model以及進(jìn)行特征降維。

IRes-Model中所有卷積層的步長均為1,卷積核數(shù)目相同,使用“SAME”填充。因此,各層輸出具有相同尺寸,可以進(jìn)行Add運(yùn)算,構(gòu)成深度融合層(add layer)。模塊中所有卷積層都加入了BN層,用于加快收斂速度。把IRes-Model和Trans-Model統(tǒng)稱為IRTBlock-A.

IRTBlock-B:先進(jìn)行 1×n卷積再進(jìn)行 n×1卷積,與直接進(jìn)行 n×n卷積的結(jié)果是等價(jià)的[29]。非對(duì)稱卷積可以減少網(wǎng)絡(luò)參數(shù),降低運(yùn)算量,加快訓(xùn)練,而且可以進(jìn)一步增加網(wǎng)絡(luò)的非線性。本文頂層模塊運(yùn)用非對(duì)稱卷積來代替IRTBlock-A中的 3×3對(duì)稱卷積,即3×3卷積變?yōu)?×3和 3×1的順序堆疊;其余結(jié)構(gòu)不發(fā)生改變,與IRTBlock-A一致,被記作IRTBlock-B。

2.2 設(shè)計(jì)IRBNet網(wǎng)絡(luò)

基于IRTBlock-A和IRTBlock-B,構(gòu)建基于殘差網(wǎng)絡(luò)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)IRBNet。其中所有卷積層都加入BN層,來加快收斂速度。除輸出層使用Softmax激活函數(shù)外,所有隱藏層都采用整流線性單元(ReLU)激活函數(shù)。所有填充均設(shè)為“SAME”。網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖6所示,框圖上方數(shù)字代表輸出特征圖尺寸大小?!癈onv”表示卷 積 層 ;“s”代表 步 長 ;“num_filters”表示 設(shè)定的濾波器數(shù)量,“FC”表示全連接層。網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示(其中,Maxpool表示最大池化;s表示步長)。詳細(xì)結(jié)構(gòu)如下:

圖6 IRBNet結(jié)構(gòu)示意圖

表1 包含IRBNet在內(nèi)的幾種網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)表

L1:第一層,包含32個(gè)核大小為3×3的卷積核,填充設(shè)為“SAME”。不使用最大池化。運(yùn)用ReLU作為激活函數(shù)。

L2:第二層,IRTBlock-A,其中“num_filters”設(shè)置為32。

L3:第三層,IRTBlock-A,其“num_filters”設(shè)置為64。

L4:第四層,IRTBlock-B,其“num_filters”設(shè)置為128。

L5:第五層,也是第一個(gè)全連接層,由64個(gè)隱藏單元組成,其激活函數(shù)為ReLU。使用值為0.4的丟棄率來防止過擬合。

L6:第六層,是第二個(gè)全連接層,也被稱為輸出層。它的數(shù)量等于數(shù)據(jù)集中的類別總數(shù)。該層中使用的激活函數(shù)為Softmax。

3 實(shí)驗(yàn)與分析

本研究設(shè)置了兩個(gè)實(shí)驗(yàn)。第一個(gè)實(shí)驗(yàn)重點(diǎn)比較幾種特征的優(yōu)劣,網(wǎng)絡(luò)模型保持一致,均選用設(shè)計(jì)的IRBNet,旨在找出適合的特征;另一個(gè)實(shí)驗(yàn)為了對(duì)比本文設(shè)計(jì)的基于殘差網(wǎng)絡(luò)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)IRBNet與其他網(wǎng)絡(luò)的優(yōu)劣性,輸入特征保持一致。

3.1 實(shí)驗(yàn)準(zhǔn)備

所有的實(shí)驗(yàn)都是在Python語言環(huán)境下完成的,版本為3.7.6。主要運(yùn)用Keras庫從頭開始訓(xùn)練網(wǎng)絡(luò),運(yùn)用Librosa庫實(shí)現(xiàn)各種特征提取操作。采用的是Windows10平臺(tái)。運(yùn)行設(shè)備CPU型號(hào)為i7-9750H,顯卡為GTX1660TiMQ。

實(shí)驗(yàn)中,幾種網(wǎng)絡(luò)的優(yōu)化方法都使用帶有動(dòng)量的小批量隨機(jī)梯度下降(SGD),歷元數(shù)設(shè)為150,批次大小設(shè)為128,動(dòng)量設(shè)為0.9。損失函數(shù)均采用交叉熵?fù)p失函數(shù)。采用指數(shù)衰減學(xué)習(xí)率來提高模型的收斂速度及其泛化能力,以此來獲得更好的效果。加入Dropout層來減輕因數(shù)據(jù)集小而網(wǎng)絡(luò)模型層數(shù)較多帶來的過擬合問題。

3.2 幾種特征的對(duì)比實(shí)驗(yàn)

本實(shí)驗(yàn)旨在找出合適的特征,故均使用IRBNet作為基準(zhǔn)網(wǎng)絡(luò),只改變輸入網(wǎng)絡(luò)的音頻特征。方法一:輸入Log-Mel特征及一階差分(雙通道);方法二:輸入Log-Mel特征;方法三:輸入MFCC特征;方法四:輸入MFCC特征及一階差分(雙通道)。實(shí)驗(yàn)結(jié)果如表2所示,識(shí)別準(zhǔn)確率曲線如圖7所示。

表2 幾種方法的識(shí)別精度比較表

從表2和圖7可以看出,選擇Log-Mel特征及一階差分輸入IRBNet時(shí),準(zhǔn)確率最高,可以達(dá)到97.45%。在時(shí)間上,Log-Mel以及其差分組合特征和Log-Mel特征用時(shí)少,雖然前者時(shí)間略高于后者,但前者準(zhǔn)確率要比后者高很多。實(shí)驗(yàn)結(jié)果表明,Log-Mel特征及一階差分組合特征的性能最好,故本文選取Log-Mel特征及其一階差分來表征無人機(jī)聲音。

圖7 IRBNet上幾種特征的準(zhǔn)確率曲線

3.3 幾種網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn)

本實(shí)驗(yàn)旨在驗(yàn)證本文設(shè)計(jì)的IRBNet和其他幾種基準(zhǔn)網(wǎng)絡(luò)的優(yōu)劣性,輸入特征保持一致。網(wǎng)絡(luò)的詳細(xì)介紹如下。

3.3.1 基準(zhǔn)網(wǎng)絡(luò)

設(shè)計(jì)IRBNet-1作為一種基準(zhǔn)網(wǎng)絡(luò),比較兩種IRTBlock對(duì)網(wǎng)絡(luò)性能的影響。IRBNet-1是把IRBNet的第四層模塊IRTBlock-B用IRTBlock-A代替,其余與IRBNet一致。搭建ResNet作為一種基準(zhǔn)網(wǎng)絡(luò),來比較IRBNet與殘差網(wǎng)絡(luò)的性能優(yōu)劣。IRBNet-1和ResNet的結(jié)構(gòu)參數(shù)如表1所示。

除此之外,還設(shè)計(jì)了兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)CNN-1、CNN-2作為基準(zhǔn)網(wǎng)絡(luò)。CNN-1由2個(gè)卷積層、2個(gè)最大池化層和2個(gè)全連接層構(gòu)成。兩個(gè)卷積層中卷積核大小均為5×5,步長為1;池化核大小為2×2,步長為2。第一個(gè)全連接層有64個(gè)神經(jīng)元,且使用值為0.4的Dropout來減輕過擬合現(xiàn)象。第二個(gè)全連接層即為輸出層。所有填充均設(shè)為“SAME”。除輸出層使用Softmax激活函數(shù)外,其他層都采用ReLU激活函數(shù)。CNN-2只是把CNN-1中5×5大小的卷積變?yōu)閮蓚€(gè)3×3大小卷積的堆疊,其余結(jié)構(gòu)不進(jìn)行改變。兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)參數(shù)如表3所示。

表3 兩個(gè)CNN的結(jié)構(gòu)及參數(shù)表

3.3.2 實(shí)驗(yàn)結(jié)果與分析

本實(shí)驗(yàn)的主要目的是比較幾種基準(zhǔn)網(wǎng)絡(luò)與IRBNet的性能優(yōu)劣。幾個(gè)網(wǎng)絡(luò)同時(shí)輸入相同音頻特征(Log-Mel特征及一階差分)。實(shí)驗(yàn)比較了幾種基準(zhǔn)網(wǎng)絡(luò)與IRBNet在無人機(jī)聲音數(shù)據(jù)集上的識(shí)別準(zhǔn)確率,其對(duì)比統(tǒng)計(jì)結(jié)果如表4所示。幾種方法的準(zhǔn)確率曲線如圖8所示。

表4 幾種方法的識(shí)別精度比較表

圖8 幾個(gè)方法的準(zhǔn)確率曲線

從圖8以及表4可以看到,相同特征輸入IRBNet和幾種基準(zhǔn)網(wǎng)絡(luò),設(shè)計(jì)的IRBNet和IRBNet-1準(zhǔn)確率更高。其中,IRBNet的準(zhǔn)確率最高,可達(dá)97.45%。結(jié)果表明,非對(duì)稱卷積使得網(wǎng)絡(luò)的非線性特性增強(qiáng),使得信息的流通得到了優(yōu)化,可以學(xué)習(xí)音頻信號(hào)中更多的局部特征,使得對(duì)于特征的學(xué)習(xí)能力增強(qiáng),從而提高了實(shí)驗(yàn)效果。實(shí)驗(yàn)結(jié)果表明,IRBNet的識(shí)別準(zhǔn)確率最高,性能更好。

4 結(jié)論

(1)針對(duì)無人機(jī)分類識(shí)別問題,提出了一種基于殘差網(wǎng)絡(luò)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)的低空民用無人機(jī)聲音識(shí)別方法,即IRBNet。

(2)采集低空無人機(jī)聲音數(shù)據(jù)并進(jìn)行預(yù)處理,得到低空無人機(jī)聲音數(shù)據(jù)集,提取特征參數(shù)輸入IRBNet進(jìn)行識(shí)別,實(shí)驗(yàn)結(jié)果表明所設(shè)計(jì)的網(wǎng)絡(luò)能夠更準(zhǔn)確地識(shí)別無人機(jī),其識(shí)別精度可以達(dá)到要求。

猜你喜歡
差分音頻準(zhǔn)確率
數(shù)列與差分
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
電子制作(2017年9期)2017-04-17 03:00:46
Pro Tools音頻剪輯及修正
人間(2015年8期)2016-01-09 13:12:42
基于差分隱私的大數(shù)據(jù)隱私保護(hù)
军事| 大荔县| 修文县| 三门县| 南溪县| 达州市| 沙坪坝区| 青阳县| 宾川县| 阿拉善左旗| 裕民县| 丹凤县| 弋阳县| 碌曲县| 新建县| 淄博市| 安徽省| 丹阳市| 嫩江县| 兴化市| 朝阳区| 周至县| 临潭县| 三台县| 茂名市| 青铜峡市| 新宾| 长丰县| 靖边县| 扎赉特旗| 北碚区| 房产| 额尔古纳市| 迭部县| 榆社县| 象州县| 张北县| 汪清县| 镇沅| 西和县| 江陵县|