王勇,孟華,陳正武,魏春華,劉壘
(1.中國空氣動力研究與發(fā)展中心 氣動噪聲控制重點實驗室,四川綿陽 621000;2.西南交通大學(xué) 數(shù)學(xué)學(xué)院,四川 成都 611756)
直升機具有獨特的高機動、低空或超低空飛行能力,不易被雷達(dá)、紅外等探測識別手段發(fā)現(xiàn).但直升機輻射的噪聲,特別是其旋翼產(chǎn)生的強中低頻噪聲,在空氣中的衰減速率慢、傳播距離遠(yuǎn),極易被地面人員感知,也極易被專用的噪聲預(yù)警系統(tǒng)探測和識別.
直升機聲信號的識別與一般模式識別過程一樣,通常包含特征提取和分類識別兩個階段.特征提取的主要目的是通過變換或映射的方法,在大幅度降低數(shù)據(jù)維數(shù)的同時提取出能反映待識別對象本質(zhì)的最有效或最具代表的個性特征,減輕分類器負(fù)擔(dān)和識別系統(tǒng)的設(shè)計難度.在前期的研究中,自相關(guān)分析[1]、參數(shù)化譜估計[2]、小波和小波包分析[3]等各種方法都被用于直升機聲信號的特征提取,但是這些特征提取方法并未考慮人耳的聽覺處理特性.眾所周知,人類的聽覺系統(tǒng)具有十分優(yōu)異的聲音信號識別能力,在復(fù)雜噪聲環(huán)境下可靠、便捷地辨識對象的能力.因此,近年來,融入人耳聽覺感知特性的聲信號特征提取方法吸引了眾多研究者的興趣[4-5].
Gammatone 倒譜系數(shù)特征提取方法采用一組相互交疊、中心頻率呈對數(shù)均勻分布的帶通Gammatone 濾波器對人耳基底膜的沖激響應(yīng)和幅頻特性等進(jìn)行仿真,可以模擬人耳聽覺的動態(tài)、非線性響應(yīng)過程以及頻譜分析和頻率選擇特性[6],是一種重要的聽覺感知特征提取方法,已被廣泛應(yīng)用于說話人識別[7]和水下目標(biāo)識別[8]中.本文將Gammatone 倒譜系數(shù)特征提取方法應(yīng)用于直升機聲信號的識別,詳細(xì)研究了參數(shù)設(shè)置對識別系統(tǒng)的性能影響,以及識別算法在噪聲環(huán)境下的魯棒性、對各種分類器的普遍適用性和相對其他特征提取方法的優(yōu)越性,對實驗結(jié)果給出了合理的解釋.仿真實驗結(jié)果表明:本文提出的Gammatone 倒譜系數(shù)特征提取方法能夠根據(jù)聲信號有效地辨識直升機的類別,具有很好的抗噪聲干擾能力;窗函數(shù)長度、Gammatone 倒譜系數(shù)特征數(shù)量和低頻聲信號分量對識別率的影響較大,高頻聲信號分量對目標(biāo)識別的影響較小.
人類聽覺的生理學(xué)研究表明,聽覺感知系統(tǒng)中的耳蝸基底膜的振動響應(yīng)與受刺激的聲音信號的頻率有關(guān);基底膜具有的這種頻率分解功能是人耳進(jìn)行聲信號處理的關(guān)鍵環(huán)節(jié).Gammatone 聽覺模型采用一組相互交疊的帶通Gammatone 濾波器組[9]模擬耳蝸基底膜的頻率分解功能,以提取聲音信號的個性特征.
Gammatone 濾波器由Aertsen 等[10]提出,該濾波器的連續(xù)沖激響應(yīng)為:
式中:a 為濾波器的振幅因子;t≥0 為時間;n=4 是模擬人耳聽覺的濾波器階數(shù);φi為相位因子,通常設(shè)為φi=0;fi為第i 個濾波器對應(yīng)的中心頻率;bi=1.019BER(fi)是第i 個濾波器的帶寬,由它決定沖激響應(yīng)的衰減速度.BER(f)為等效矩形帶寬(Equivalent Rectangular Bandwidth,ERB),它與頻率f 的關(guān)系為[11]:
N≥2 為濾波器個數(shù),由整個濾波器組的頻率覆蓋范圍[flow,fhigh]決定.
式中:flow和fhigh分別為頻率下界和上界;ceil 是向上取整函數(shù).
Gammatone 濾波器組中,濾波器的中心頻率在ERB 域上呈等間隔分布.因此,在由濾波器組的頻率覆蓋范圍[flow,fhigh]確定濾波器個數(shù)N 后,有
據(jù)此,可以利用式(2)反算出第i 個濾波器對應(yīng)的中心頻率fi.
圖1 給出了頻率覆蓋范圍為10~12 800 Hz 的Gammatone 濾波器組(從第3 個濾波器開始,每間隔2 個濾波器顯示1 個Gammatone 濾波器)的頻率響應(yīng)示意圖及其每個濾波器對應(yīng)的中心頻率和ERB尺度值.從圖1 可以看出,Gammatone 濾波器是一個在中心頻率位置具有最大幅度的帶通濾波器,濾波器組在ERB 尺度上等間距分布,而在頻率域上呈非線性分布,實現(xiàn)了對人耳聽覺模型處理聲音信號的非線性響應(yīng)過程的模擬.由圖1(a)可知,低頻段的濾波器數(shù)量多、帶寬窄,而高頻段的濾波器數(shù)量少但帶寬隨之變大.這種特性使得經(jīng)過Gammatone 濾波器組處理后的直升機聲信號在低頻段有較高的頻率分辨率而高頻段的頻率分辨率則較低,很好地模擬了人耳對中低頻聲信號更敏感的頻譜分析能力.此外,每個濾波器中心頻率兩側(cè)的邊沿較陡而拖尾較長,使得Gammatone 濾波器在具有較為尖銳的頻率選擇能力的同時能避免濾波器交界處的共振峰結(jié)構(gòu)破壞.
圖1 Gammatone 濾波器組的頻率響應(yīng)示意圖及其每個濾波器對應(yīng)的中心頻率和ERB 尺度值Fig.1 Frequency response of the Gammatone filter bank and its corresponding center frequency and ERB scale
基于Gammatone 倒譜系數(shù)特征提取的直升機聲信號識別,采用Gammatone 濾波器提取聲信號的聽覺感知特征,隨后送入分類器進(jìn)行分類識別得到直升機的類別信息,其流程如圖2 所示.
圖2 基于Gammatone 倒譜系數(shù)特征提取的直升機聲信號識別流程Fig.2 Recognition of helicopter acoustic signal based on Gammatone cepstral coefficients
具體過程如下:
1)分幀和加窗.根據(jù)直升機聲信號的短時平穩(wěn)特性,把輸入的聲信號分成長度為L 的若干幀,幀移通常設(shè)為50%以使幀與幀之間平穩(wěn)過渡,避免相鄰兩幀間的聲信號變化過大.
為了抑制信號分析過程中的“頻譜泄漏”,對直升機的時域聲信號增加窗函數(shù),通常選擇hanning 窗:
2)FFT 變換.對加窗后的直升機聲信號進(jìn)行快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT),將數(shù)據(jù)從時域轉(zhuǎn)換到頻域,進(jìn)而取絕對值得到聲信號的離散能量譜.
3)Gammatone 濾波器組濾波.在指定的頻率覆蓋范圍[flow,fhigh]內(nèi),用Gammatone 濾波器組對頻譜進(jìn)行濾波處理,得到聲信號在不同頻率分量上的特征.
4)對數(shù)壓縮.對每個Gammatone 濾波器的輸出進(jìn)行對數(shù)壓縮,濾除乘性噪聲,得到一組對數(shù)能量譜.
5)DCT 變換.對上述能量譜進(jìn)行離散余弦變換(Discrete Cosine Transform,DCT),去除噪聲和特征分量之間的相關(guān)性,得到Gammatone 倒譜系數(shù).
6)分類器識別.將訓(xùn)練集和測試集上的Gammatone 倒譜系數(shù)沿頻率方向取均值得到Gammatone 倒譜系數(shù)特征;然后,將訓(xùn)練集的前M 維Gammatone倒譜系數(shù)特征送入分類器進(jìn)行訓(xùn)練,并利用訓(xùn)練好的分類器對測試集的前M 維Gammatone 倒譜系數(shù)特征進(jìn)行分類識別得到直升機的類別信息.
本文實驗采用的直升機聲信號數(shù)據(jù)庫包含低背景噪聲環(huán)境下采集的3 類直升機在10 種不同工況時輻射的聲音信號,采樣率為25.6 kHz,采樣時間為10 s.將數(shù)據(jù)庫中的聲信號每隔0.5 s 截取1 s 時間段的數(shù)據(jù)組成共597 段長度為25 600 的聲信號數(shù)據(jù)集,進(jìn)而將每一類中的75%數(shù)據(jù)作為訓(xùn)練集,剩下的25%數(shù)據(jù)作為測試集.因此,訓(xùn)練集和測試集的樣本數(shù)分別為448 和149.
為研究本文提出的聲信號識別方法在噪聲背景下的魯棒性,對原始干凈數(shù)據(jù)加入不同信噪比(Signal-to-Noise Ratio,SNR)的高斯白噪聲,信噪比分別為0 dB、±5 dB、±10 dB、±20 dB 和±40 dB.圖3 給出了不同信噪比下的聲信號頻譜.從圖中可以看出,直升機聲信號的能量主要集中在1 000 Hz 以下的低頻段,且在槳葉通過頻率及其諧波頻率附近存在明顯的尖峰.隨著信噪比的降低,低頻段的能量不再明顯高于高頻段的能量,同時槳葉通過頻率及其諧波頻率附近的尖峰逐漸消失;信噪比為-40 dB 時,已經(jīng)沒有明顯的頻譜尖峰.
圖3 不同信噪比下的聲信號頻譜Fig.3 Acoustic signal spectrum under different signal-to-noise ratios
由于本文重點關(guān)注聲信號的特征提取,如無特別說明,則采用簡單的最近鄰(Nearest Neighbor,NN)分類器.
從1.2 節(jié)的算法描述中可以看出,基于Gammatone 倒譜系數(shù)特征提取的直升機聲信號識別方法包含4 個參數(shù):窗函數(shù)長度L、頻率范圍[flow,fhigh]和特征向量數(shù)M.下面逐一考察它們的設(shè)置對識別結(jié)果的影響,在考察某一參數(shù)的影響時,其他參數(shù)采用默認(rèn)設(shè)置.
圖4 給出了不同窗函數(shù)長度下的識別準(zhǔn)確率結(jié)果.從圖中可以看出,窗函數(shù)的長度并不是越大越好,而是有個合適的中間值,這說明在直升機聲信號識別中,加窗后的數(shù)據(jù)幀不僅需要包含足夠的有用信息,還需要滿足短時平穩(wěn)條件.此外,從圖中還可以看出,本文提出的聲信號識別方法具有很好的抗干擾能力,即使信噪比為0 dB 時仍具有較好的識別準(zhǔn)確率.只有當(dāng)信噪比進(jìn)一步降低,有效信號逐漸淹沒于噪聲后,所提出方法的識別率才開始逐漸降低.
圖4 不同窗函數(shù)長度下的識別準(zhǔn)確率Fig.4 Recognition accuracy under different window lengths
圖5 給出了不同頻率范圍的上界fhigh和下界flow設(shè)置下的識別準(zhǔn)確率結(jié)果.從圖中可以看出,盡管頻率上界的變化范圍更大,但其不同設(shè)置對識別率的影響卻并不大,識別率對頻率下界更敏感.這與直升機聲信號輻射中低頻能量大、衰減慢、傳播遠(yuǎn)的固有特性是相符的,也印證了直升機聲目標(biāo)識別的有效信息主要聚集于低頻段.
圖5 不同頻率范圍下的識別準(zhǔn)確率Fig.5 Recognition accuracy under different frequency ranges
圖6 給出了不同特征向量數(shù)時的識別準(zhǔn)確率結(jié)果.從圖中可以看出,隨著特征向量數(shù)的增加,識別準(zhǔn)確率呈增加的趨勢;只在信噪比極低為-40 dB 時,識別準(zhǔn)確率隨特征向量數(shù)的增加在30%左右波動.同時可以看出,當(dāng)特征向量數(shù)較少時,新特征向量的加入能明顯提升識別準(zhǔn)確率;而當(dāng)特征向量數(shù)足夠多時,新特征向量的加入對識別準(zhǔn)確率的提升并不明顯.存在這種現(xiàn)象的原因在于:一方面,從圖1(b)中可以看出,前幾個特征向量對應(yīng)的Gammatone 濾波器的中心頻率較低,而后續(xù)特征向量對應(yīng)的Gammatone 濾波器的中心頻率逐漸增大.此外,圖5 已經(jīng)表明低頻分量對直升機聲信號的識別非常重要,而高頻分量則幫助較小.再加上特征向量越多提供的有效信息也越足,這些因素相互作用使得識別準(zhǔn)確率隨特征向量數(shù)目的增加先迅速提升再緩慢增加.另一方面,從圖3(b)中可以看出,信噪比極低時,有用的低頻聲信號已淹沒于噪聲之中,因此更多特征向量的加入并不會提升識別性能.
圖6 不同特征向量數(shù)時的識別準(zhǔn)確率Fig.6 Recognition accuracy under different number of features
由于本文的重點是基于Gammatone 倒譜系數(shù)的特征提取及其在直升機聲信號識別中的應(yīng)用,前述仿真研究中均采用最近鄰(Nearest Neighbor,NN)分類器進(jìn)行分類判決.為驗證所提出的Gammatone 倒譜系數(shù)特征提取對于各種分類器的普遍適用性,圖7給出了本文提出的特征提取方法在不同分類器下的識別準(zhǔn)確率.除了最近鄰分類器外,還對比了4 種分類器[12]:二元決策樹(Binary Decision Tree,BDT)分類器、線性判別分析(Linear Discriminant Analysis,LDA)分類器、線性支撐向量機(Linear Support Vector Machine,LSVM;其中采用“一對一”分類策略的簡記為LSVM1,采用“一對多”分類策略的簡記為LSVM2)分類器.從圖中可以看出,不同分類器下的識別準(zhǔn)確率基本一致,只在信噪比為負(fù)值時存在一定的差異.當(dāng)信噪比為-5~-20 dB 時,二元決策樹的分類結(jié)果略差;而當(dāng)信噪比為-5~-40 dB 時,采用“一對一”分類策略的LSVM1 的分類結(jié)果略優(yōu).
圖7 不同分類器下的識別準(zhǔn)確率Fig.7 Recognition accuracy under different classifiers
為對比本文提出的Gammatone 倒譜系數(shù)(Gammatone Cepstral Coefficients,GTCC)特征提取方法與其他相關(guān)的聲音信號特征提取方法的性能,仿真實驗中還考察了幾種文獻(xiàn)報道中采用的典型的直升機聲信號特征提取方法,包括:自相關(guān)系數(shù)(Auto-correlation Coefficients,AC)[1]、自回歸(Auto Regressive,AR)模型參數(shù)(與文獻(xiàn)[2]一致,采用前40 個AR 參數(shù)作為特征)、小波變換(Wavelet Transform,WT)能量特征(與文獻(xiàn)[3]一致,采用db5 小波進(jìn)行10 層小波分解)以及另一種基于聽覺感知特性的Mel 頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients,MFCC)特征[4],圖8 給出了相應(yīng)的識別準(zhǔn)確率結(jié)果.從圖中可以看出,本文提出的GTCC 特征提取方法優(yōu)于其他方法,特別是在信噪比分別為-10 dB 和-20 dB 時,其識別準(zhǔn)確率最多比其他方法高10.7%和48.3%,具有很好的抗噪聲干擾能力;當(dāng)信噪比大于0 dB 時各種方法的識別準(zhǔn)確率基本一致,而當(dāng)信噪比極低為-40 dB 時,各種方法的識別準(zhǔn)確率均不高.
圖8 不同特征提取方法得到的識別準(zhǔn)確率Fig.8 Recognition accuracy under different feature extraction methods
本文提出了基于Gammatone 倒譜系數(shù)特征提取的直升機聲信號識別方法.通過仿真實驗,詳細(xì)研究了4 個參數(shù)的設(shè)置對識別系統(tǒng)性能的影響,以及識別算法在噪聲環(huán)境下的魯棒性、對各種分類器的普遍適用性和相對其他特征提取方法的優(yōu)越性,并對實驗結(jié)果給出了合理的解釋.仿真實驗結(jié)果表明:本文提出的直升機聲信號識別方法能夠根據(jù)聲信號有效地辨識直升機的類別,且具有很好的抗噪聲干擾能力,有一定的應(yīng)用前景.參數(shù)影響分析表明:窗函數(shù)長度、Gammatone 倒譜系數(shù)特征數(shù)量和低頻聲信號分量對識別準(zhǔn)確率的影響較大,而高頻聲信號分量對目標(biāo)識別的影響較小.