基于優(yōu)化的正交匹配追蹤聲音事件識別

2017-10-13 10:56:01陳秋菊

電子與信息學(xué)報(bào) 2017年1期

李應(yīng) 陳秋菊

李應(yīng)*陳秋菊

(福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)學(xué)院福州 350116)

針對各種環(huán)境聲對聲音事件識別的影響，該文提出一種基于優(yōu)化的正交匹配追蹤(Orthogonal Matching Pursuit, OMP)聲音事件識別方法。首先，利用OMP稀疏分解并重構(gòu)聲音信號，保留聲音信號的主體部分，減小噪聲的影響。其中，使用粒子群(Particle Swarm Optimization, PSO)算法優(yōu)化搜索最優(yōu)原子，實(shí)現(xiàn)OMP的快速稀疏分解。接著，對重構(gòu)聲音信號提取Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCCs)，與OMP時(shí)-頻特征和基頻(PITCH)特征，組成優(yōu)化OMP的復(fù)合特征。最后，通過優(yōu)化OMP復(fù)合特征，使用隨機(jī)森林(Random Forests, RF)對40種聲音事件在不同環(huán)境不同信噪比下進(jìn)行識別。實(shí)驗(yàn)結(jié)果表明，優(yōu)化OMP復(fù)合特征結(jié)合RF的方法能有效地識別各種環(huán)境下的聲音事件。

聲音事件識別；正交匹配追蹤；稀疏分解；粒子群優(yōu)化；隨機(jī)森林

1 引言

近年來聲音事件識別引起廣泛的關(guān)注。聲音事件的識別在音頻取證[1]、環(huán)境聲音識別[2]、聲場景分析[3]、環(huán)境安全監(jiān)控[4]、定位跟蹤和聲源分類[5]、病人監(jiān)護(hù)[6]和非正常事件檢測[7]等領(lǐng)域具有重要意義。

上述方法在聲音事件識別上取得一定的效果。然而，真實(shí)環(huán)境中存在著復(fù)雜多變的噪聲，它們對聲音事件識別產(chǎn)生較大的干擾。常用的降低噪聲影響的方法有維納濾波[13]，卡爾曼濾波[14]，小波增強(qiáng)[15]，多頻帶譜減法[16]等。這些方法需要先驗(yàn)地獲得待檢測信號或噪聲信號的統(tǒng)計(jì)特性。基于匹配追蹤(Matching Pursuit, MP)的方法利用信號的稀疏性，將信號稀疏分解重構(gòu)進(jìn)行自適應(yīng)表示，不需要先驗(yàn)地獲得待檢測信號和噪聲信號的統(tǒng)計(jì)特性，適合于各種環(huán)境下聲音事件的識別。

關(guān)于MP的研究，主要有：Chu等人[17]把MP結(jié)合Mel頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients, MFCCs)，用kNN和高斯混合模型(Gaussian Mixture Model, GMM)分類器對聲音事件進(jìn)行分類識別；Wang等人[18]利用MP從Gabor字典中選擇重要的原子，用主成分分析(Principal Component Analysis, PCA)和線性判別分析(Linear Discriminant Analysis, LDA)確定聲音事件的特征，采用SVM分類器對聲音事件進(jìn)行分類識別；Mallat等人[19]提出利用過完備原子字典將原信號進(jìn)行稀疏分解，通過稀疏逼近重構(gòu)信號。由于MP在稀疏分解時(shí)需要迭代次數(shù)較多，收斂較慢，文獻(xiàn)[20]在MP的基礎(chǔ)上提出正交匹配追蹤(Orthogonal Matching Pursuit, OMP)算法，該算法可以在較少的迭代中完成信號的收斂。

然而，OMP稀疏分解在搜索最優(yōu)原子時(shí)存在計(jì)算復(fù)雜度高的問題。為了實(shí)現(xiàn)OMP快速稀疏分解，本文提出基于優(yōu)化的OMP聲音事件識別方法。首先，從聲音事件樣本庫中選擇聲音事件，將其分為訓(xùn)練樣本集和測試樣本集；然后，在保證收斂精度的前提下，采用粒子群優(yōu)化算法(Particle Swarm Optimization, PSO)對選擇的樣本進(jìn)行OMP稀疏分解；接著，對重構(gòu)信號提取優(yōu)化OMP復(fù)合特征；最后，使用隨機(jī)森林[21](Random Forests, RF)對優(yōu)化OMP復(fù)合特征進(jìn)行分類識別。為此，本文進(jìn)行如下組織：第2節(jié)介紹OMP稀疏分解重構(gòu)的基本原理；第3節(jié)提出基于優(yōu)化的OMP聲音事件識別架構(gòu)；第4節(jié)給出各種環(huán)境下，聲音事件識別的實(shí)驗(yàn)設(shè)計(jì)；第5節(jié)為實(shí)驗(yàn)的結(jié)果與分析；第6節(jié)對本文進(jìn)行總結(jié)。

2 OMP稀疏分解

OMP算法在MP算法的基礎(chǔ)上利用Gram- Schmidt方法將選擇的最優(yōu)原子與已選擇原子集合進(jìn)行正交化處理，以保證在相同精度的前提下，收斂速度更快。

2.1 OMP字典

實(shí)現(xiàn)OMP稀疏分解的關(guān)鍵在于選擇一個(gè)過完備的字典。本文選擇的Gabor字典[19]是由一個(gè)調(diào)制的高斯窗函數(shù)構(gòu)成。

(2)

圖1 不同時(shí)-頻參數(shù)的原子波形

2.2 OMP信號稀疏分解

(4)

即對聲音信號進(jìn)行OMP稀疏分解重構(gòu)。

如果以重構(gòu)信號和原始信號的均方誤差(Mean Squared Error, MSE)

圖2為褐雨燕聲音信號經(jīng)過OMP稀疏分解重構(gòu)后的質(zhì)量MSE圖。從圖2中可以看出，隨著稀疏度增加，MSE值逐漸減小，即重構(gòu)信號的質(zhì)量越來越好。當(dāng)稀疏度在10以上時(shí)，MSE下降逐漸平緩，并且逐漸趨于0。

3 優(yōu)化的OMP聲音事件識別架構(gòu)

3.1 PSO最優(yōu)原子搜索策略

PSO的基本思想是利用粒子之間的協(xié)作與競爭，實(shí)現(xiàn)對復(fù)雜空間最優(yōu)解的搜索[22,23]。在每一次的搜索中，粒子通過跟蹤兩個(gè)“極值”來更新自己的信息，一個(gè)是當(dāng)前粒子的極值點(diǎn)；另一個(gè)是當(dāng)前整個(gè)粒子種群找到的最優(yōu)解，即全局極值點(diǎn)。

圖2 OMP稀疏分解重構(gòu)信號的MSE

對OMP稀疏分解，瓶頸主要集中在2.2節(jié)步驟(2)的最優(yōu)原子搜索過程。為此，我們利用PSO對最優(yōu)原子搜索過程進(jìn)行優(yōu)化。

PSO優(yōu)化搜索詳細(xì)過程如下：

(2)更新每個(gè)粒子的速度與位置。判斷粒子的速度是否超出界限，如果出界更新；判斷粒子的位置是否在過完備原子字典中，如果不在，則取邊界值代替粒子的位置。

(10)

重復(fù)多次上述過程，實(shí)現(xiàn)優(yōu)化的OMP信號稀疏分解，保存分解結(jié)果并重構(gòu)信號。

3.2 優(yōu)化OMP復(fù)合特征提取

OMP稀疏分解采用的Gabor原子是由調(diào)制的高斯窗函數(shù)構(gòu)成，而高斯型函數(shù)在時(shí)域和頻域都是局部化的，其局部特性保證了原子時(shí)-頻參數(shù)能夠較好地刻畫信號的非平穩(wěn)時(shí)變特性。OMP稀疏分解將待提取的有用信息作為稀疏成分，將噪聲作為殘差成分，對噪聲進(jìn)行低維投影后，噪聲不具有稀疏性[24]。在重構(gòu)信號時(shí)，殘差部分的噪聲很難恢復(fù)，從而達(dá)到消除噪聲成分，增強(qiáng)聲音事件信號的目的。

通過優(yōu)化OMP稀疏分解聲音信號，獲得表示該信號的時(shí)-頻參數(shù)組中伸縮因子和頻率因子的均值和標(biāo)準(zhǔn)差，構(gòu)成OMP特征。對于長度為幀的聲音信號，,，其中，第幀OMP特征可以表示為

對于聲音信號，重構(gòu)精度隨著稀疏度的增加而不斷提升。但是，稀疏度過高，在重構(gòu)聲音信號主體時(shí)，噪聲信號的重構(gòu)比例也會相應(yīng)地提升。所以，在保證重構(gòu)精度的前提下，本文經(jīng)過實(shí)驗(yàn)確定OMP稀疏分解稀疏度為20時(shí)重構(gòu)效果最好。

由于OMP特征維數(shù)較少，單獨(dú)使用OMP特征的識別效果不理想。MFCCs將線性頻譜映射到基于聽覺感知的Mel非線性頻譜中再轉(zhuǎn)換到倒譜上，能夠較好地刻畫聲音特征，但是在噪聲環(huán)境下，MFCCs的性能大幅下降。此外，真實(shí)環(huán)境中不同聲音存在不同的PITCH范圍，而PITCH作為特征描述聲音具有很好的區(qū)分性。針對這些問題，本文提取優(yōu)化OMP稀疏分解后重構(gòu)聲音信號的MFCCs特征和PITCH特征，來補(bǔ)充OMP特征，組成一個(gè)優(yōu)化OMP復(fù)合特征。

3.3 RF識別

RF是一種利用多個(gè)決策樹分類器來對數(shù)據(jù)進(jìn)行判別的集成分類器算法[21]。其原理是通過自助重采樣(Bootstrap)技術(shù)[21]，對原始訓(xùn)練樣本集有放回地隨機(jī)抽樣次，生成新的個(gè)訓(xùn)練數(shù)據(jù)集。然后這些新生成的個(gè)訓(xùn)練數(shù)據(jù)集，按照決策樹的構(gòu)建方法生長成棵決策樹，并組合在一起形成森林。測試數(shù)據(jù)的判別結(jié)果由森林中棵樹投票形成的分?jǐn)?shù)而定。

本文通過提取的優(yōu)化OMP復(fù)合特征訓(xùn)練RF，進(jìn)行各種環(huán)境下聲音事件的識別。使用RF對未知測試樣本的識別過程如下：首先，將待測試聲音樣本的特征置于RF中所有棵決策樹的根節(jié)點(diǎn)處；然后，按照決策樹的分類規(guī)則，從根節(jié)點(diǎn)處向下傳遞到一個(gè)葉節(jié)點(diǎn)處，這個(gè)葉節(jié)點(diǎn)對應(yīng)的類標(biāo)簽就是這棵決策樹對特征所屬類別所做的投票；最后，RF中的棵決策樹均對每一個(gè)待測試聲音樣本的特征的類別進(jìn)行投票，統(tǒng)計(jì)這個(gè)投票，其中票數(shù)最多的便成為特征對應(yīng)的類標(biāo)。

4 實(shí)驗(yàn)設(shè)計(jì)

4.1聲音樣本

實(shí)驗(yàn)采用的40類聲音均來自Freesound[25]聲音數(shù)據(jù)庫。分為哺乳動物叫聲、鳥叫聲和昆蟲叫聲3大類，每類聲音有30個(gè)樣本，具體如表1所示。每個(gè)樣本是單聲道“.wav”格式，采樣率為44.1 kHz，聲音長度為2 s，量化精度為16位的聲音片段。為了保持實(shí)驗(yàn)數(shù)據(jù)的相對獨(dú)立性，訓(xùn)練聲音樣本和測試聲音樣本沒有重復(fù)數(shù)據(jù)。從每一類樣本中隨機(jī)選取20個(gè)純凈聲音樣本作為訓(xùn)練樣本，剩余的10個(gè)樣本混合不同的環(huán)境噪聲組成多組測試樣本。實(shí)驗(yàn)用到的3種噪聲為SONY ICD-UX512F錄音棒以44.1 kHz的采樣頻率錄取的真實(shí)環(huán)境噪聲，分別為風(fēng)聲、雷雨聲和雨天湖邊聲。按信噪比0 dB, 10 dB, 20 dB, 30 dB混入純凈聲音用于測試。

表1聲音事件樣本集

類別聲音構(gòu)成種類樣本數(shù) 哺乳動物蝙蝠、熊、貓、猩猩、奶牛、鹿、狗、海豚、驢、大象、獅子、猴子、馬、豬、海豹、海獅、羊、老虎、鯨、羚羊、狼21630 鳥類赭紅尾鴝、禿鷹、烏鴉、杜鵑、鴿子、喜鵲、貓頭鷹、海鷗、鴨子、天鵝、燕鷗、褐雨燕、知更鳥13390 昆蟲蜜蜂、蚊子、蟋蟀、蟬、蚱蜢、蒼蠅6180 環(huán)境噪聲風(fēng)聲、雨天湖邊聲、雷雨聲33

4.2 參數(shù)設(shè)定

(1)提取MFCCs特征中，采用24階Mel三角帶通濾波器組，提取12維離散余弦變換系數(shù)，加上對數(shù)能量作為第13維特征；采用循環(huán)平均幅度差函數(shù)(Circle Average Magnitude Difference Function, CAMDF)提取每幀聲音信號的1維PITCH特征；對于APNCC特征，采用32階的Gammatone濾波器，提取12維離散余弦變換系數(shù)。

(2)PSO算法中的參數(shù)根據(jù)文獻(xiàn)[22,23]以及多次實(shí)驗(yàn)的經(jīng)驗(yàn)做如下設(shè)定：種群大小為20，最大迭代次數(shù)為20次，粒子搜索范圍最大值為聲音長度，速度最大值為，收斂因子為0.729，學(xué)習(xí)因子為2，權(quán)重最大值為0.95，最小值為0.4，變異概率為0.2。

(3)在對比實(shí)驗(yàn)中用到APNCC方法[11]和MP方法[18]。其中，APNCC方法[11]是對聲音信號提取APNCC特征，放入SVM分類器進(jìn)行分類識別；MP方法[18]是采用PCA和LDA對聲音信號做降維處理后提取MP特征，放入SVM分類器進(jìn)行分類識別。這兩種方法中用到的SVM分類器參數(shù)設(shè)置是直接利用LIBSVM[26]工具箱進(jìn)行SVM的訓(xùn)練和測試建模。其中，核函數(shù)為徑向基核函數(shù)，懲罰因子，核參數(shù)。

(4) RF分類器中的兩個(gè)參數(shù)：決策樹的個(gè)數(shù)和分類屬性個(gè)數(shù)，綜合考慮本文實(shí)驗(yàn)樣本數(shù)量和特征維度以及文獻(xiàn)[21]建議，分別設(shè)置為500和5。

5 實(shí)驗(yàn)與結(jié)果分析

5.1 優(yōu)化OMP稀疏分解計(jì)算量

優(yōu)化OMP稀疏分解和原始OMP稀疏分解計(jì)算量比較。表2給出一個(gè)包含2個(gè)有效音節(jié)、長度為2 s的山斑鳩聲音信號，在稀疏度為20時(shí)，采用原始OMP方法和優(yōu)化OMP方法，對聲音信號進(jìn)行稀疏分解時(shí)的計(jì)算量和重構(gòu)信號的質(zhì)量評估。其中，重構(gòu)信號的質(zhì)量評估采用2.2節(jié)中提到的均方誤差MSE。

從表2可以看出，原始OMP方法的MSE值為0.005，而優(yōu)化OMP方法的MSE值為0.007，比原始OMP方法的MSE值高0.002。也就是說，在重構(gòu)質(zhì)量相近的前提下，經(jīng)過PSO優(yōu)化后的OMP方法，在時(shí)耗上比原始OMP提高近70倍，在搜索次數(shù)和內(nèi)積次數(shù)的計(jì)算量上比原始OMP提高近300倍。其機(jī)理在于原始OMP搜索找到全部原子，而PSO優(yōu)化OMP后找到的原子都是最優(yōu)的，原子較少，是原始OMP的部分原子。從而也說明了經(jīng)過PSO優(yōu)化的OMP能有效降低最優(yōu)原子搜索過程的計(jì)算復(fù)雜度，提高了搜索效率，實(shí)現(xiàn)了OMP的快速稀疏分解。

表2 OMP稀疏分解計(jì)算量與重構(gòu)信號的質(zhì)量評估

5.2優(yōu)化OMP稀疏分解對聲音信號的增強(qiáng)

優(yōu)化OMP稀疏分解重構(gòu)信號與小波[15]和多頻帶譜減法[16]兩種聲音增強(qiáng)方法的對比。圖3(a)和圖3(f)是一段包含2個(gè)有效音節(jié)的山斑鳩聲音信號的波形和聲譜圖，圖3(b)和圖3(g)是對該聲音信號添加10 dB的流水噪聲的波形和聲譜圖。圖3(c)和圖3(h)是采用小波增強(qiáng)對圖3(b)和圖3(g)進(jìn)行重構(gòu)后的波形和聲譜圖。圖3(d)和圖3(i)是采用多頻帶譜減法進(jìn)行重構(gòu)后的波形和聲譜圖。而圖3(e)和圖3(j)是經(jīng)過優(yōu)化OMP稀疏分解后進(jìn)行重構(gòu)的波形和聲譜圖。從圖3中可以看出，采用小波增強(qiáng)和多頻帶譜減法對帶噪聲音信號增強(qiáng)后，噪聲殘留成分較多。經(jīng)過優(yōu)化OMP稀疏分解重構(gòu)后，聲音信號的主體部分得到保留，而與信號相關(guān)度低的噪聲信號被去除，聲音增強(qiáng)效果較好。圖3(e)和圖3(j)初步說明，優(yōu)化OMP稀疏分解在聲音增強(qiáng)性能上優(yōu)于小波增強(qiáng)和多頻帶譜減法。

圖3 優(yōu)化OMP稀疏分解重構(gòu)信號與相關(guān)方法的波形和聲譜圖對比

5.3在無環(huán)境聲和不同環(huán)境不同信噪比下比較

這里，我們選取OMP特征、MFCCs特征、OMP+MFCCs特征和優(yōu)化OMP復(fù)合特征(表、圖中的CFeature)，進(jìn)行識別率對比。在無噪聲條件下進(jìn)行的識別率實(shí)驗(yàn)，結(jié)果如表3所示。由表3可知，在無噪聲條件下，除了OMP特征外，其它3個(gè)特征對聲音事件的識別率都較高。單獨(dú)使用OMP特征，由于特征維數(shù)過低，識別效果不理想。而采用OMP特征和MFCCs特征結(jié)合后，識別效果得到大幅提升，再用PITCH特征補(bǔ)充后，優(yōu)化OMP復(fù)合特征識別效果達(dá)到最佳。

表3無噪聲條件下不同特征的比較

方法MFCCsOMPOMP+MFCCsCFeature 識別率(%)89.053.392.398.5

對測試樣本分別添加信噪比為0 dB, 10 dB, 20 dB和30 dB的3種環(huán)境聲，4個(gè)不同特征的平均識別率如表4所示。從表4中可以看出，MFCCs特征的平均識別率最低，說明MFCCs特征不適合噪聲環(huán)境下的聲音事件識別。OMP特征的平均識別率稍好于MFCCs特征，但是效果也不理想。而優(yōu)化OMP復(fù)合特征平均識別率比MFCCs特征、OMP特征和OMP+MFCCs特征分別高38.5%, 35.2%和11.8%，說明經(jīng)過OMP特征、MFCCs特征和PITCH特征的結(jié)合，形成的優(yōu)化OMP復(fù)合特征，能有效地提高識別性能，具有較好的抑制環(huán)境噪聲的特性。

表4不同特征在不同噪聲環(huán)境下的平均識別率

噪聲類型不同特征提取方法的平均識別率(%) MFCCsOMPOMP+MFCCsCFeature 風(fēng)聲43.947.668.183.7 雷雨聲40.143.673.282.4 雨天湖邊37.740.160.371.2 均值40.543.867.279.0

圖4表示4個(gè)特征在3種環(huán)境聲下，不同信噪比的識別率。從圖4我們可以看出，不同的噪聲環(huán)境，對識別性能的影響不一樣。相比起來，雨天湖邊噪聲環(huán)境對識別率的影響最大，而風(fēng)聲和雷雨聲噪聲的影響相對較小。優(yōu)化OMP復(fù)合特征識別率遠(yuǎn)高于單獨(dú)的OMP特征和MFCCs特征，也優(yōu)于OMP+MFCCs特征，從而說明優(yōu)化OMP復(fù)合特征是一個(gè)較好的特征，適合用于各種環(huán)境下的聲音事件識別。

5.4不同聲音增強(qiáng)方法在不同環(huán)境和信噪比下比較

利用風(fēng)聲、雷雨聲和雨天湖邊聲來模擬真實(shí)的環(huán)境聲音。分別對測試樣本添加信噪比為0 dB, 10 dB和20 dB的3種環(huán)境聲，提取它們的優(yōu)化OMP復(fù)合特征(圖中的CFeature)，同樣，也分別提取它們經(jīng)小波[15]和多頻帶譜減法[16]增強(qiáng)后的兩組MFCCs。采用RF分別對3組特征進(jìn)行識別。圖5給出3種方法和不同噪聲環(huán)境下得到的識別率。從圖5可以看出，3種聲音增強(qiáng)方法中，在各種環(huán)境各種信噪比下，小波增強(qiáng)的性能相對來說較差，其平均識別率為42.6%。多頻帶譜減法的平均識別率為57.6%，而優(yōu)化OMP復(fù)合特征的平均識別率為69.2%，從而說明了在各種環(huán)境及各種信噪比下，優(yōu)化OMP復(fù)合特征抑制噪聲的效果優(yōu)于小波和多頻帶譜減法。

圖4 4種特征在3種噪聲環(huán)境下不同信噪比的識別率

圖5 3種噪聲環(huán)境下不同方法的識別率

圖6 本文方法與新方法在3種環(huán)境下的識別率

表5不同方法3種噪聲下不同信噪比的平均識別率

方法3種噪聲下不同信噪比的平均識別率(%) 0 dB10 dB20 dB30 dB均值本文方法43.771.889.895.275.1 APNCC-SVM[11]33.454.570.176.958.7 MP-SVM[18]18.747.159.467.148.1

5.5 與新方法的比較

我們把優(yōu)化OMP復(fù)合特征結(jié)合RF的方法與文獻(xiàn)[11]中APNCC結(jié)合SVM的方法和文獻(xiàn)[18]中MP結(jié)合SVM的方法分別進(jìn)行比較。在3種噪聲環(huán)境下的識別效果如圖6所示。同時(shí)，在表5中也給出在3種噪聲下，本文方法與APNCC結(jié)合SVM的方法[11]和MP結(jié)合SVM的方法[18]在不同信噪比下的平均識別率。從圖6及表5可以看出，在3種噪聲環(huán)境下，MP結(jié)合SVM的方法的識別率最低，尤其在0 dB時(shí)，都無法正常地進(jìn)行聲音事件的識別。APNCC結(jié)合SVM的方法的識別效果高于MP結(jié)合SVM的方法，但其識別效果還是差于本文優(yōu)化OMP復(fù)合特征結(jié)合RF的方法。本文提出的方法，在3種噪聲環(huán)境下，無論是高信噪比還是低信噪比，識別率都高于APNCC結(jié)合SVM和MP結(jié)合SVM的方法。

6 結(jié)束語

實(shí)驗(yàn)表明，本文提出的優(yōu)化OMP復(fù)合特征結(jié)合RF的聲音事件識別方法，能有效進(jìn)行各種環(huán)境下不同信噪比聲音事件的識別。而且在不同環(huán)境不同信噪比下，本文方法與現(xiàn)有的APNCC結(jié)合SVM的方法和MP結(jié)合SVM方法進(jìn)行比較，識別性能有一定優(yōu)勢。說明本文提出的方法對于各種環(huán)境下聲音事件識別具有一定效果。下一階段，我們將結(jié)合聲譜圖等方法，研究分析聲音信號更為微弱，環(huán)境更為復(fù)雜和信噪比更低的聲音事件識別。

[1] MALIK H. Acoustic environment identification and its applications to audio forensics[J]., 2013, 8(11): 1827-1837. doi: 10.1109/tifs.2013.2280888.

[2] HEITTOL T, MESAROS A, VIRTANEN T,. Sound event detection in multisource environments using source separation[C]. CHiME 2011 Workshop on Machine Listening in Multisource Environments, Florence, Italy, 2011: 36-40.

[3] SHI Z, HAN J, ZHENG T,. Identification of objectionable audio segments based on pseudo and heterogeneous mixture models[J].,,, 2013, 21(3): 611-623. doi: 10.1109/tasl.2012.2229980.

[4] NTALAMPIRAS S, POTAMITIS I, and FAKOTAKIS N. An adaptive framework for acoustic monitoring of potential hazards[J].,,, 2009, 2009(1): 1-15. doi: 10.1155/2009/594103.

[5] ZHAO H and MALIK H. Audio recording location identification using acoustic environment signature[J]., 2013, 8(11): 1746-1759. doi: 10.1109/tifs.2013.2278843.

[6] VARGHEES V N and RAMACHANDRAN K I. A novel heart sound activity detection framework for automated heart sound analysis[J]., 2014, 13: 174-188. doi: 10.1016/j.bspc.2014.05.002.

[7] NTALAMPIRAS S, POTAMITIS I, and FAKOTAKIS N. On acoustic surveillance of hazardous situations[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, Taipei, China, 2009: 165-168. doi: 10.1109/icassp. 2009.4959546.

[8] MCLOUGHLIN I, ZHANG H, XIE Z,. Robust sound event classification using deep neural networks[J].,,, 2015, 23(3): 540-552. doi: 10.1109/taslp.2015.2389618.

[9] SHARAN R V and MOIR T J. Robust audio surveillance using spectrogram image texture feature[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, South Brisbane, Australia, 2015: 1956-1960. doi: 10.1109/icassp.2015.7178312.

[10] DENNIS J, TRAN H D, and CHNG E S. Image feature representation of the subband power distribution for robust sound event classification[J].,,, 2013, 21(2): 367-377. doi: 10.1109/tasl.2012.2226160.

[11] 顏鑫, 李應(yīng). 利用抗噪冪歸一化倒譜系數(shù)的鳥類聲音識別[J]. 電子學(xué)報(bào), 2013, 41(2): 295-300. doi: 10.3969/j.issn.0372-2112. 2013.02.014.

YAN X and LI Y. Anti-noise power normalized cepstral coefficients in bird sounds recognition[J]., 2013, 41(2): 295-300. doi: 10.3969/j.issn.0372-2112. 2013.02.014.

[12] LI Y and WU Z. Animal sound recognition based on double feature of spectrogram in real environment[C]. IEEE International Conference on Wireless Communications & Signal Processing, Nanjing, China, 2015: 1-5. doi: 10.1109/ wcsp.2015.7341003.

[13] CHANG K M and LIU S H. Gaussian noise filtering from ECG by Wiener filter and ensemble empirical mode decomposition[J]., 2011, 64(2): 249-264. doi: 10.1007/s11265-009-0447-z.

[14] LEE Y K, JUNG G W, and KWON O W. Speech enhancement by Kalman filtering with a particle filter-based preprocessor[C]. IEEE International Conference on Consumer Electronics, Las Vegas, NV, USA, 2013: 340-341. doi: 10.1109/ice.2013.6486919.

[15] VERMA N and VERMA A K. Real time adaptive denoising of musical signals in wavelet domain[C]. Nirma University International Conference on Engineering, Ahmedabad, India, 2012: 1-5. doi: 10.1109/nuicone.2012.649323.

[16] 周曉敏, 李應(yīng). 基于 Radon 和平移不變性小波變換的鳥類聲音識別[J]. 計(jì)算機(jī)應(yīng)用, 2014, 34(5): 1391-1396. doi: 10. 11772/j.issn.1001-9081.2014.05.1391.

ZHOU X and LI Y. Bird sounds recognition based on Radon and translation invariant discrete wavelet transform[J]., 2014, 34(5): 1391-1396. doi: 10.11772/j.issn.1001-9081.2014.05.1391.

[17] CHU S, NARAYANAN S, and KUO C C J. Environmental sound recognition with time-frequency audio features[J].,,, 2009, 17(6): 1142-1158. doi: 10.1109/tasl.2009. 2017438.

[18] WANG J C, LIN C H, CHEN B W,. Gabor-based nonuniform scale-frequency map for environmental sound classification in home automation[J]., 2014, 11(2): 607-613. doi: 10.1109/tase.2013.2285131.

[19] MALLAT S G and ZHANG Z. Matching pursuits with time-frequency dictionaries[J]., 1993, 41(12): 3397-3415. doi: 10.1109/78.258082.

[20] SOUSSEN C, GRIBONVAL R, IDIER J,. Joint k-step analysis of orthogonal matching pursuit and orthogonal least squares[J]., 2013, 59(5): 3158-3174. doi: 10.1109/tit.2013.2238606.

[21] BREIMAN L. Random forests[J]., 2001, 45(1): 5-32. doi: 10.1023/A:1010933404324.

[22] KENNEDY J. Particle Swarm Optimization[M]. Washington, US: Springer, 2011: 760-766. doi: 10.1007/978-0-387-30164- 8_630.

[23] 馬超, 鄧超, 熊堯, 等. 一種基于混合遺傳和粒子群的智能優(yōu)化算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 50(11): 2278-2286. doi: 10.7544/issn1000-1239.2013.20111484.

MA C, DENG C, XIONG Y,. An intelligent optimization algorithm based on hybrid of GA and PSO[J]., 2015, 50(11): 2278-2286. doi: 10.7544/issn1000-1239.2013.20111484.

[24] LI S and FANG L. Signal denoising with random refined orthogonal matching pursuit[J]., 2012, 61(1): 26-34. doi: 10.1109/tim.2011.2157547.

[25] Universitat Pompeu Fabra. Repository of sound under the creative commons license[OL]. http://www.freesound.org, 2012.5.14.

[26] CHANG C C and LIN C J. LIBSVM: A library for support vector machines[J]., 2011, 2(3): 1-27. doi: 10.1145/1961189. 1961199.

李應(yīng)：男，1964年生，教授，研究方向?yàn)槎嗝襟w數(shù)據(jù)檢索、信息安全.

陳秋菊：女，1989年生，碩士生，研究方向?yàn)槎嗝襟w數(shù)據(jù)檢索.

Sound Event Recognition Based on Optimized Orthogonal Matching Pursuit

LI Ying CHEN Qiuju

(,,350116,)

A sound event recognition method based on optimized Orthogonal Matching Pursuit (OMP) is proposed for decreasing the influence of sound event recognition on various environments. Firstly, OMP is used for sparse decomposition and reconstruction of sound signal to decrease the influence of noise and reserve the main body of sound signal, where Particle Swarm Optimization (PSO) is adopted to accelerate the best atom searching in the process of sparse decomposition. Then, an optimized composited feature of Mel-Frequency Cepstral Coefficients (MFCCs), time-frequency OMP feature, and PITCH feature is extracted from reconstructed signal. Finally, Random Forests (RF) classifier is employed to recognize 40 classes of sound events in different environments and Signal-to-Noise Rates (SNRs). The experiment result shows that the proposed method can effectively recognize sound events in various environments.

Sound event recognition; Orthogonal Matching Pursuit (OMP); Sparse decomposition; Particle Swarm Optimization (PSO); Random Forests (RF)

TP391.42

1009-5896(2017)01-0183-08

10.11999/JEIT160120

2016-01-26；改回日期：2016-12-06；

2016-12-14

李應(yīng) fj_liying@fzu.edu.cn

國家自然科學(xué)基金(61075022)

The National Natural Science Foundation of China (61075022)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于優(yōu)化的正交匹配追蹤聲音事件識別

1 引言

2 OMP稀疏分解

3 優(yōu)化的OMP聲音事件識別架構(gòu)

4 實(shí)驗(yàn)設(shè)計(jì)

5 實(shí)驗(yàn)與結(jié)果分析

6 結(jié)束語