曾金芳,黃費(fèi)貞,白 冰,徐林濤
(湘潭大學(xué)物理與光電工程學(xué)院,湖南湘潭411105)
聲音事件識(shí)別具有廣泛的應(yīng)用領(lǐng)域,例如在安全監(jiān)控[1]、音頻取證[2]、醫(yī)療診斷[3-4]、環(huán)境聲分類[5-7]、目標(biāo)識(shí)別[8]等方面具有重要的意義。在早期的研究工作中,許多方法借鑒較為成熟的語(yǔ)音識(shí)別技術(shù),并取得了豐富的成果[9-13]。Temko 等[9]利用梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)、信號(hào)短時(shí)能量、頻率濾波帶能量的混合特征,使用基于支持向量機(jī)(Support Vector Machine, SVM)的聚類方法,對(duì)16 種會(huì)議室聲音事件進(jìn)行分類識(shí)別。Chu 等[10]將匹配追蹤(Matching Pursuit, MP)結(jié)合MFCC 的方法分析提取環(huán)境聲音特征,分別使用 k-最近鄰(k-Nearest Neighbor,KNN)和高斯混合模型(Gaussian Mixture Model,GMM)兩種分類器對(duì)環(huán)境聲進(jìn)行識(shí)別,取得了較高的識(shí)別準(zhǔn)確度。Guo 等[12]利用功率峰值瞬時(shí)頻譜和時(shí)域功率模式的一維組合作為多級(jí)感知器型神經(jīng)網(wǎng)絡(luò)系統(tǒng)的輸入進(jìn)行環(huán)境聲識(shí)別。Chu 等[13]通過(guò)線性預(yù)測(cè)編碼(Linear Predictive Coding, LPC)提取噪聲環(huán)境下的鳥(niǎo)類聲的有效特征。然而,這些特征往往僅單一地集中在時(shí)域或頻域中研究,忽略了時(shí)頻兩域的相關(guān)性。
在聲音的時(shí)頻域中,聲譜圖之類的表示方法[14-15]能夠很好地捕捉聲音的能量隨時(shí)間頻率的變化,其連通了聲音的時(shí)頻兩域,并且提供了非常豐富的視覺(jué)信息。當(dāng)聲音信號(hào)被變換為類似圖像的二維(時(shí)間-頻率)數(shù)據(jù)的聲譜圖時(shí),則可利用圖像特征探討聲音的時(shí)頻關(guān)系。許多研究方法將聲音的聲譜圖作為紋理圖像,并提取譜圖的圖像特征對(duì)聲音事件分類[16-17]。Dennis 等[17]通過(guò)短時(shí)傅里葉變換(Short Time Fourier Transform, STFT)生成聲音信號(hào)的聲譜圖,將其映射成單色圖像并分成固定塊,計(jì)算每個(gè)塊的中心矩,并將各中心矩連接構(gòu)成頻譜圖像特征(Spectral Image Feature,SIF)。文獻(xiàn)[17]在文獻(xiàn)[16]的基礎(chǔ)上,提出了基于子帶功率分布(Sub-band Power Distribution,SPD)圖像作為一種新的二維圖像,使用與SIF 相同的方法從SPD 中提取圖像特征,使用KNN 的特征分類方法。
但是,聲譜圖不是自然圖像,而是將聲音信號(hào)通過(guò)時(shí)頻轉(zhuǎn)換,在時(shí)頻空間形成了廣義圖像,它表示不同時(shí)間、不同頻率下信號(hào)的能量分布。譜圖和自然圖像之間的差異在現(xiàn)有方法中尚未充分探索,因此,可以在這些方法的基礎(chǔ)上尋求新的方法捕捉譜圖的紋理信息。聲譜圖是一種連接時(shí)域和頻域的聲音能量隨時(shí)間頻率分布的可視化表達(dá)方式,通過(guò)將聲譜圖的時(shí)頻信息建模為圖像的像素點(diǎn),利用圖像特征來(lái)研究聲音能量與時(shí)間、頻率之間的聯(lián)系。在各種方法生成的譜圖中,發(fā)現(xiàn)利用伽馬通(Gammatone)濾波器組生成的耳蝸?zhàn)V圖[18]提供了比利用其他方法生成的譜圖更豐富的紋理信息。鑒于耳蝸?zhàn)V圖獨(dú)特的圖像屬性,本文提出了一種耳蝸?zhàn)V圖紋理特征的聲音事件識(shí)別方法。首先,將聲音信號(hào)通過(guò)Gammatone 濾波器組,導(dǎo)出原始聲音樣本的灰度耳蝸?zhàn)V圖;其次,對(duì)譜圖進(jìn)行曲波變換(Curvelet)變換,得到不同尺度、不同方向的Curvelet 子帶,采用改進(jìn)完全局部二值模式(Improved Completed Local Binary Pattern, ICLBP)從Curvelet 子帶中提取紋理信息且用分塊統(tǒng)計(jì)直方圖作為特征,將各特征級(jí)聯(lián)作為一種新的聲音事件特征。最后,使用SVM 作為分類器對(duì)16 種聲音事件在不同噪聲及不同信噪比下進(jìn)行識(shí)別。算法的總體流程框架如圖1 所示。
圖1 算法的流程框架圖Fig.1 Flow framework of the algorithm
Gammatone 濾波器的脈沖響應(yīng)是Gamma 分布函數(shù)與以特定頻率為中心的正弦曲線的乘積,其近似于人類耳蝸聽(tīng)覺(jué)系統(tǒng)的響應(yīng)[19],其時(shí)域脈沖響應(yīng)的典型表達(dá)式為
其中:A 是濾波器增益;α 是濾波器階數(shù);通常取α =4;b 是衰減因子, b =1.019* BER( f ), BER( f )為濾波器的等效矩形帶寬(Equivalent Rectangular Bandwidth, ERB)。
濾波器的ERB 近似對(duì)應(yīng)于人類聽(tīng)覺(jué)系統(tǒng)中濾波器的臨界頻帶位置,其值為
式中,濾波器中心頻率f 的最低頻率 fmin= 50 Hz,最高頻率fmax由聲音信號(hào)的采樣頻率決定。這里采用一組64 個(gè)4 階Gammatone 濾波器,各濾波器的中心頻率按ERB 標(biāo)度,從fmin到fmax之間等間隔分布,各頻帶濾波器疊加組成64 通道的Gammatone濾波器組。各濾波器中心頻率依次為: f2= 50.0 Hz,f2=69.8 Hz, ? ??, f64=20.6 kHz ,對(duì)應(yīng)的ERB 依次為BER( f1)=30.1 Hz,BER( f2)=32.2 Hz,…,BER( f3)=2 245.7 Hz。
將原始的聲音樣本通過(guò)濾波器組并將輸出響應(yīng)表示成耳蝸?zhàn)V圖G( f , t )。為確保不同聲音片段的相對(duì)音量均衡,通過(guò)式(3)將聲譜圖歸一化為[0,1]范圍內(nèi)以獲得灰度耳蝸?zhàn)V圖。
圖2 是一段歸一化之后的嬰兒哭聲的STFT 灰度聲譜圖和灰度耳蝸?zhàn)V圖。通過(guò)對(duì)比可以看出,耳蝸?zhàn)V圖具有比STFT 聲譜圖更清晰的分辨效果,聲音的高頻分量更加明顯,能更好地反映聲音能量隨時(shí)間、頻率的分布。
Curvelet 變換考慮了尺度、角度、位置信息,使其在表達(dá)圖像中的曲線時(shí)明顯優(yōu)于小波變換。同時(shí),Curvelet 變換克服了小波變換的局限性,具有比小波變換更寬的幾何特征。Curvelet 變換之后得到的系數(shù)具有多尺度、多方向特點(diǎn),能夠更好地凸顯圖像像素間的變化??紤]到耳蝸?zhàn)V圖表征聲音信息的有限性,而Curvelet 變換的多尺度分析能力,將譜圖分解為不同尺度層,各尺度層分別表示譜圖不同頻率的信息。這樣,可以獲取關(guān)于譜圖的更多細(xì)節(jié)信息。
圖2 嬰兒哭聲的STFT 聲譜圖和耳蝸?zhàn)V圖Fig.2 STFT spectrogram and cochleagram of baby crying
設(shè)f ( m, n) 表示圖像信號(hào),則其基于Wrapping的離散Curvelet 變換可表示為
式中:φj,l,k1,k2(m , n)表示Curvelet 基函數(shù);參數(shù)j 表示Curvelet 函數(shù)的尺度;參數(shù)l 表示Curvelet 函數(shù)的方向;參數(shù)( k1, k2)表示空間位置。
將從聲音信號(hào)中提取的灰度耳蝸?zhàn)V圖進(jìn)行Curvelet 分解,分解為不同尺度、不同方向的Curvelet 子帶,各尺度分別表示譜圖的不同頻率信息。對(duì)于尺度j,隨著j 的增大,尺度由最佳向最粗變化,此時(shí)空域或時(shí)域分辨率增加,而頻域分辨率減小。方向l 的取值必須是4 的整數(shù)倍。經(jīng)試驗(yàn),
當(dāng)j= 4、l= 8時(shí),實(shí)驗(yàn)中取得最好的識(shí)別效果。
由于聲譜圖是聲音信號(hào)的時(shí)間頻率特性的圖形表達(dá),因此許多圖像處理的方法也可以應(yīng)用于聲音事件識(shí)別中。在局部二值模式(Local Binary Pattern,LBP)的基礎(chǔ)上,Guo 等[20]提出了一種新的圖像紋理特征描述符-完全局部二值模式(Completed Local Binary Pattern, CLBP)。CLBP 的局部紋理描述子可分為符號(hào)模式(CLBP Sign, CLBP_S),記為SCLBP,以及幅度模式(CLBP Magnitude, CLBP_M)記為MCLBP。與LBP 相比,CLBP 對(duì)圖像的單調(diào)變化具有魯棒性,因?yàn)樗A袅薒BP 對(duì)圖像中心像素與鄰域像素的相對(duì)強(qiáng)度進(jìn)行編碼的方法來(lái)提取圖像的差值符號(hào)特征CLBP_S。此外,它還將鄰域像素的相對(duì)強(qiáng)度進(jìn)行編碼作為圖像的差值幅度特征CLBP_M。SCLBP和MCLBP的計(jì)算方法分別為
式(5)~(8)中:SCLBP,P,R稱作差值符號(hào)模式;MCLBP,P,R稱作差值幅度模式;gp是周邊領(lǐng)域上規(guī)則間隔的像素的灰度值;gc是中心像素的灰度值;P 是周邊鄰域像素的個(gè)數(shù);R 表示gp與gc之間的距離;c 表示閾值,通常取mp和的均值。
CLBP 與傳統(tǒng)LBP 相比,盡管提取的圖像信息更為豐富,但 CLBP 是傳統(tǒng) LBP(CLBP_S)與CLBP_M 的組合,如果直接使用CLBP 的編碼方式提取圖像的特征,則所提取的特征維數(shù)也相應(yīng)增加,且通常高維的數(shù)據(jù)特征不僅對(duì)識(shí)別結(jié)果產(chǎn)生不利影響,反而會(huì)減慢后續(xù)的識(shí)別速度。為了避免提取的特征維數(shù)過(guò)高,本文對(duì)CLBP_M 進(jìn)行改進(jìn),改進(jìn)的CLBP_M(ICLBP_M)為
ICLBP_M 的編碼方式是將中心對(duì)稱的兩幅度差值相減后再與閾值比較。為使閾值c1保持原閾值c 的性質(zhì)且適合改進(jìn)的CLBP_M,c1的選取為
這樣,經(jīng)過(guò)ICLBP_M 編碼后,編碼圖像的灰度級(jí)由原來(lái)的0~2P減少到0~2P /2。
考慮到數(shù)據(jù)特征維數(shù)及編碼圖像中起主要作用的CLBP_S 碼只占少數(shù)部分,因此,使用式(11)的均勻CLBP_S(Uniform CLBP Sign, UCLBP_S)編碼方式,記為MUCLBP:
式中:P 是周邊鄰域像素的個(gè)數(shù);R 表示gp與gc之間的距離。經(jīng)式(11)處理后,編碼圖像的灰度級(jí)由2P減少到 P( P?1 ) + 3。
對(duì)得到的UCLBP_S 編碼圖像和ICLBP_M 編碼圖像進(jìn)行分塊,并從每塊中采用式(12)分別提取UCLBP_S 和ICLBP_M 統(tǒng)計(jì)直方圖,以捕獲每塊圖像的局部紋理信息。
其中:
由于聲音信號(hào)隨時(shí)間變化很大,所以,編碼圖像不容易沿著時(shí)間軸劃分。因此,對(duì)編碼圖像沿著頻率軸劃分,使得提取的統(tǒng)計(jì)直方圖不隨時(shí)間變化。并將每塊的統(tǒng)計(jì)直方圖特征級(jí)聯(lián)起來(lái)作為聲音事件的最終的特征描述符。
(1) 預(yù)處理:將聲音信號(hào)分為訓(xùn)練樣本和測(cè)試樣本,樣本的幀長(zhǎng)設(shè)置為25 ms,幀移設(shè)置為10 ms,采用64 通道Gammatone 濾波器組,濾波器階數(shù)設(shè)置為4。將聲音信號(hào)通過(guò)Gammatone 濾波器組以獲得耳蝸?zhàn)V圖,采用式(3)將譜圖歸一化后量化為0~255 灰度級(jí)的灰度圖像。對(duì)耳蝸?zhàn)V圖進(jìn)行尺寸歸一化,尺寸歸一化后的圖像大小為64×64。隨后,將灰度耳蝸?zhàn)V圖進(jìn)行Curvelet 分解,得到多尺度、多方向的Curvelet 子帶。當(dāng)尺度j=4、方向l=8 時(shí),Gammatone 灰度圖像經(jīng)Curvelet 分解得到各尺度各方向的Curvelet 子帶個(gè)數(shù)為26,其中第1 尺度的方向數(shù)為1,第2、3 尺度設(shè)定的方向數(shù)分別為8、16,第4 尺度的方向數(shù)為1。
(2) 特征提?。簩?duì)Curvelet 子帶進(jìn)行UCLBP_S和ICLBP_M 編碼,獲取UCLBP_S 和ICLBP_M編碼圖像,并分別將編碼圖像沿頻率軸均勻地不重疊劃分為7 塊,提取每塊編碼圖像的統(tǒng)計(jì)直方圖特征,將各統(tǒng)計(jì)直方圖特征級(jí)聯(lián),作為聲音事件最終的特征描述符UCLBP_S/ICLBP_M,用于分類識(shí)別??紤]到特征向量維數(shù),實(shí)驗(yàn)中鄰域個(gè)數(shù)P=8,半徑R=1,這樣,對(duì)于單個(gè)聲音樣本,提取的UCLBP_S 特征和ICLBP_M 特征的維數(shù)分別為 10 738 維和 2 912 維,最終級(jí)聯(lián)特征UCLBP_S/ICLBP_M 的維數(shù)為13 650 維。
(3) 分類識(shí)別:提取的UCLBP_S/ICLBP_M 特征使用SVM 分類器,對(duì)16 種聲音事件進(jìn)行識(shí)別。SVM 是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的結(jié)構(gòu)風(fēng)險(xiǎn)最小化的近似實(shí)現(xiàn),它的思想是通過(guò)建立一個(gè)分類超平面作為決策曲面,使得正例和反例之間的隔離邊緣被最大化[21]。實(shí)驗(yàn)中SVM 使用的是LIBSVM 工具箱,核函數(shù)采用線性核函數(shù),使用“一對(duì)一”的分類策略,通過(guò)粒子群優(yōu)化算法得到最佳懲罰因子c=1.02、核參數(shù)g=0.01,迭代次數(shù)為200 次。
MFCC 方法:使用32 通道Mel 濾波器組,提取每幀13 維離散余弦變換系數(shù)及一階、二階導(dǎo)數(shù)組成39 維特征。各幀的特征級(jí)聯(lián)組成MFCC 特征的維數(shù)為7 722 維。
OMP+MFCC 方法:稀疏度設(shè)置為20,從重建聲音中提取MFCC 特征,然后形成OMP+MFCC 的復(fù)合特征,維數(shù)為7 722 維。
SIF 方法:將STFT 頻譜圖映射為單色圖像,劃分為9×9 塊,然后計(jì)算每個(gè)塊的二階和三階中心矩以形成特征向量。將各塊的特征向量級(jí)聯(lián)形成486 維的特征向量。
SPD 方法:將子帶功率分布圖劃分為9×9 塊,然后逐塊提取二階和三階中心矩作為特征,維數(shù)為486 維。
實(shí)驗(yàn)中所用到的環(huán)境聲音數(shù)據(jù)均從http://www.freesound.org 網(wǎng)站下載[22],總共包括16類聲音事件,每類聲音事件20 個(gè)樣本,具體如表1所示。所有聲音均采用量化精度為16 位、采樣率為44.1 kHz 的單通道“.wav”格式,聲音樣本長(zhǎng)度為2 s。為了保證實(shí)驗(yàn)的真實(shí)性,每類聲音樣本均無(wú)重復(fù),且聲音的訓(xùn)練樣本和測(cè)試樣本均無(wú)重復(fù)。從每類樣本中隨機(jī)選取10 個(gè)純凈樣本作為訓(xùn)練樣本,剩余10 個(gè)樣本添加不同噪聲作為測(cè)試樣本。實(shí)驗(yàn)時(shí)在純凈聲音中加入信噪比分別為0、5、10、20 dB的4 種噪聲。用到的噪聲均來(lái)源于NOISEX-92 噪聲庫(kù),分別為factory 噪聲、babble 噪聲、volvo 噪聲、white 噪聲。
表1 聲音事件樣本集Table 1 Sample set of sound events
3.4.1 無(wú)噪聲條件下不同特征比較
在無(wú)噪聲環(huán)境中,把UCLBP_S/ICLBP_M 特征與SPD、OMP+MFCC、MFCC 和CLBP_S_M 共5種特征進(jìn)行對(duì)比。對(duì)5 種聲音特征分別進(jìn)行SVM 訓(xùn)練與識(shí)別。訓(xùn)練樣本和測(cè)試樣本的抽取方法以及后續(xù)實(shí)驗(yàn)樣本抽取均與3.3 節(jié)相同。由于訓(xùn)練樣本和測(cè)試樣本都是隨機(jī)抽取的,所以,為避免在識(shí)別時(shí)某次的識(shí)別率出現(xiàn)過(guò)高或過(guò)低的情況,對(duì)每種特征分別進(jìn)行100 次識(shí)別實(shí)驗(yàn),取平均值作為最終識(shí)別率。在無(wú)噪聲環(huán)境下,不同特征的識(shí)別結(jié)果如表2所示。
表2 無(wú)噪聲環(huán)境下不同特征識(shí)別結(jié)果對(duì)比Table 2 Comparison of recognition results with different features in a noise-free environment
由表2 可知,SIF 特征識(shí)別率偏低,其他5 種特征提取方法對(duì)環(huán)境聲音的識(shí)別率均達(dá)到90%以上。其中,UCLBP_S/ICLBP_M、CLBP_S_M 特征對(duì)環(huán)境聲音事件識(shí)別率達(dá)到98.43%和97.61%。UCLBP_S/ICLBP_M 與 CLBP_S_M 特征相比,識(shí)別率相差不大,但CLBP_M 特征的維數(shù)為256 維,而改進(jìn)的ICLBP_M 特征的維數(shù)為16 維,ICLBP_M特征的維數(shù)與CLBP_M 特征的維數(shù)相比降低了93.7%,且 UCLBP_S/ICLBP_M 特征的維數(shù)與CLBP_S_M 特征的維數(shù)相比降低了76.2%。
3.4.2 不同噪聲、不同信噪比條件下不同特征比較由于UCLBP_S/ICLBP_M 和 CLBP_S_M 特征的識(shí)別效果接近, 所以后續(xù)只給出UCLBP_S/ICLBP_M 和其他4 種特征的識(shí)別效果對(duì)比。為測(cè)試所提方法對(duì)噪聲的魯棒性,隨機(jī)選取10個(gè)測(cè)試樣本,分別添加0、5、10、20 dB 信噪比的4 種噪聲以模擬真實(shí)的環(huán)境噪聲,分別對(duì)提取的UCLBP_S/ICLBP_M、SPD、SIF、OMP+MFCC、MFCC 5 種特征進(jìn)行識(shí)別,結(jié)果如圖3 所示。
從圖3 可以看出,不同噪聲環(huán)境不同信噪比條件下5 種特征的識(shí)別率差異明顯。相比起來(lái),MFCC特征在不同信噪比條件下識(shí)別率最低,且隨著噪聲的增大,MFCC 特征的識(shí)別率急劇下降,說(shuō)明MFCC特征易受噪聲影響,不利于噪聲環(huán)境下的聲音事件識(shí)別。OMP+MFCC 特征在不同信噪比條件下的識(shí)別率稍高于MFCC 特征的識(shí)別率,但同樣受噪聲干擾嚴(yán)重,效果也不理想。不同信噪比條件下的UCLBP_S/ICLBP_M、SPD、SIF 3 種特征的識(shí)別率明顯高于MFCC、OMP+MFCC 特征。在白噪聲環(huán)境下,UCLBP_S/ICLBP_M、SPD 特征識(shí)別率明顯高于SIF 特征,說(shuō)明白噪聲對(duì)SIF 特征識(shí)別率影響較大。在各噪聲環(huán)境下,UCLBP_S/ICLBP_M 特征的識(shí)別率明顯高于SIF 特征,也優(yōu)于SPD 特征。當(dāng)信噪比為10 dB 時(shí),UCLBP_S/ICLBP_M 特征的識(shí)別率已接近純凈聲音環(huán)境的識(shí)別率。
圖4 表示在干擾為babble 噪聲、信噪比為0 dB時(shí),使用UCLBP_S/ICLBP_M 特征得到16 類測(cè)試樣本某次的混淆矩陣。從圖4 中可以算出在0 dB babble 噪聲環(huán)境下,16 類聲音事件的識(shí)別率為77.50%,圖中坐標(biāo)數(shù)字從小到大依次對(duì)應(yīng)表1 中16類環(huán)境聲音。從圖4 可以看出,在0 dB babble 噪聲環(huán)境下,2-腳步聲、4-玻璃破碎聲、11-槍聲易被檢測(cè)錯(cuò)誤。其中第2 類分別有5 個(gè)和4 個(gè)測(cè)試樣本被誤判為第5 類和第9 類,第4 類分別有2 個(gè)和7 個(gè)測(cè)試樣本被誤判為第15 類和第16 類,第11 類測(cè)試樣本全都被誤判為第15 類。在0 dB babble 噪聲環(huán)境下,槍聲被誤判為咳嗽聲的可能原因是,babble噪聲的頻率范圍主要集中在低頻段,疊加0 dB babble 噪聲后,低信噪比下,槍聲和咳嗽聲的低頻區(qū)域基本被噪聲覆蓋,而兩者的高頻部分的譜圖相似度又接近,從而可能會(huì)造成提取的特征十分相近或相等。由于babble 噪聲對(duì)咳嗽聲的影響較小,對(duì)槍聲的破壞性較大,所以容易造成槍聲被誤判為咳嗽聲。
圖3 5 種特征在4 種噪聲4 種信噪比環(huán)境下的識(shí)別率Fig.3 Recognition rate of five features in four kinds of noises and four different SNRs
圖4 信噪比為0 時(shí),babble 噪聲測(cè)試樣本的混淆矩陣Fig.4 Confusion matrix of the test samples of babble noise under signal to noise ratio is 0
表3 5 種特征在4 種噪聲環(huán)境下的平均識(shí)別率Table 3 Average recognition rate of five features in four kinds of noises
同時(shí),表3 給出了4 種噪聲環(huán)境條件下,UCLBP_S/ICLBP_M 特征與SPD 等其他4 種特征在不同信噪比下的平均識(shí)別率。從表3 可知,當(dāng)信噪比為0 時(shí),UCLBP_S/ICLBP_M 特征的平均識(shí)別率達(dá)到80%,依然能夠保持較高的識(shí)別率。且在4 種信噪比下的平均識(shí)別率達(dá)到92.03%,比SPD 特征、SIF 特征、OMP+MFCC 特征、MFCC 特征分別高出6.06%、18.04%、40.49%、46.98%。從表3 中的各特征對(duì)比說(shuō)明,UCLBP_S/ICLBP_M 特征是一個(gè)性能較好的特征,在不同噪聲環(huán)境及不同信噪比條件下,仍然能取得較好的識(shí)別結(jié)果,具有較優(yōu)的魯棒性。這是因?yàn)镃urvelet 變換可以更好表示譜圖中出現(xiàn)的邊緣和其他變化,獲取譜圖中更多的細(xì)節(jié)信息。此外,使用UCLBP_S 和ICLBP_M 提取特征,串聯(lián)得到融合的UCLBP_S/ICLBP_M 特征,降低了特征維數(shù),減少了特征冗余,從而使提取的特征更具有鑒別性。
實(shí)驗(yàn)結(jié)果表明,本文在Curvelet 子帶上提取UCLBP_S/ICLBP_M 特征,用來(lái)表示耳蝸?zhàn)V圖的紋理特征,能有效識(shí)別各種噪聲環(huán)境下不同信噪比的聲音事件。在不同噪聲及不同信噪比下,本文方法與現(xiàn)有聲音事件的SPD、SIF 等特征結(jié)合SVM 進(jìn)行比較,可體現(xiàn)本文方法對(duì)各噪聲環(huán)境下不同信噪比條件下聲音事件的識(shí)別率具有一定優(yōu)勢(shì)。下一步工作將繼續(xù)采用基于譜圖等方法,研究分析噪聲環(huán)境更為復(fù)雜的聲音事件,提取較低的特征維數(shù),提高低信噪比條件下聲音事件的識(shí)別性能。