宋坤等
摘 要: 提出一種基于聲譜圖的特征提取方法,獲取沖擊聲的聲譜圖,預(yù)處理后將其轉(zhuǎn)換為偽彩色圖,提高聲譜圖細(xì)節(jié)表現(xiàn)力,進(jìn)而提取局部區(qū)域k階矩作為特征;將該特征的識(shí)別效果與MFCC等傳統(tǒng)特征進(jìn)行了對(duì)比和分析。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)相似板材沖擊聲有較好的識(shí)別效果,并且具有較好的噪聲魯棒性。
關(guān)鍵詞: 沖擊聲; 聲譜圖; 偽彩色映射; 特征提取
中圖分類號(hào): TN964?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)08?0008?04
Method of impact sound feature extraction based on spectrogram
SONG Kun1, YIN Xue?fei1, CHEN Ke?an2
(1. School of Electronics and Information, Northwestern Polytechnical University, Xian 710129, China;
2. School of Marine Science and Technology, Northwestern Polytechnical University, Xian 710072, China)
Abstract: A new method of feature extraction based on spectrogram is proposed. With the method, the spectrogram of impact sound can be obtained, and converted into pseudo?color image after preprocessing to improve the expressive force spectrogram details and realize extraction of k?th moment in partial region as the feature. The recognition result of the proposed features, MFCCs and other traditional features are compared and analyzed. The experimental results show that the proposed method can accurately distinguish impact sound of similar sheet material and has nice noise robustness.
Keyword: impact sound; spectrogram; pseudo color Mapping; feature extraction
0 引 言
沖擊聲是瞬態(tài)聲的一種,是物體受到?jīng)_擊作用發(fā)出的聲音,與沖擊響應(yīng)類似,物體的沖擊聲包含著許多聲源信息,如物體的結(jié)構(gòu)、材質(zhì)屬性等,其在設(shè)備故障的無(wú)損檢測(cè)、公共安全事件監(jiān)測(cè)、軍事斗爭(zhēng)領(lǐng)域具有重要意義,因此針對(duì)沖擊聲的自動(dòng)識(shí)別技術(shù)收到人們廣泛重視[1]。沖擊聲識(shí)別不同于以往的語(yǔ)音識(shí)別技術(shù),例如,考慮到背景聲音的復(fù)雜性,識(shí)別系統(tǒng)需要更高的噪聲魯棒性,另外沖擊聲具有強(qiáng)烈的非穩(wěn)態(tài)性,以往針對(duì)語(yǔ)音識(shí)別的方法不再合適。聲譜圖是一類表示聲音時(shí)頻結(jié)構(gòu)的灰度圖,其橫縱坐標(biāo)代表時(shí)間和頻率,灰度代表聲信號(hào)的幅值,自1 940 s出現(xiàn)以來(lái),聲譜圖作為水下聲目標(biāo)探測(cè)的重要手段吸引著來(lái)自各領(lǐng)域的人們的興趣,但主要集中在如何從背景聲中區(qū)別出可疑目標(biāo)聲(低水平特征檢測(cè))[2]。隨著圖像處理技術(shù)的發(fā)展和新的聲目標(biāo)識(shí)別任務(wù)的出現(xiàn),人們嘗試從聲譜圖中提取更多的聲信息。如梁澤等將PCNN應(yīng)用語(yǔ)音信號(hào)的情感識(shí)別中,通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)同一說(shuō)話人的同一句話在不同的情感下有不同的語(yǔ)譜圖,提取的特征序列存在差異并且具有某種規(guī)律性[3];曾向陽(yáng)等人采用脈沖耦合網(wǎng)絡(luò)提取語(yǔ)音和多種噪聲的特征[4]取得了較好的識(shí)別率,并發(fā)現(xiàn)可以該特征可以對(duì)說(shuō)話人進(jìn)行識(shí)別;Souli Sameh等人使用log?gabor濾波器提取聲譜圖特征,采用10種環(huán)境噪聲數(shù)據(jù)庫(kù),證明了其方法的有效性[5]。
本文利用聲譜圖提出一種沖擊聲特征提取方法。以板材沖擊聲為對(duì)象,提取多種聲譜圖特征進(jìn)行目標(biāo)識(shí)別,并對(duì)結(jié)果進(jìn)行比較分析。特征提取流程如圖1所示,首先對(duì)取沖擊聲信號(hào)的進(jìn)行降噪和端點(diǎn)檢測(cè),然后獲取灰度聲譜圖,利用偽彩色映射將其轉(zhuǎn)換為彩色聲譜圖,增加聲譜圖細(xì)節(jié)表現(xiàn)力,然后對(duì)其分塊,最后計(jì)算各塊局部圖像的k階中心矩作為聲譜圖特征。并將這種特征與MFCC等傳統(tǒng)特征進(jìn)行比較,評(píng)價(jià)特征性能。
1 聲譜圖的生成
1.1 沖擊聲的預(yù)處理
在利用聲譜圖提取聲音特征,信號(hào)的無(wú)聲段和噪聲都會(huì)影響特征的性能,無(wú)聲段會(huì)影響聲信號(hào)在聲譜圖中的位置,而噪聲將會(huì)湮沒(méi)信號(hào)的部分信息,因此在產(chǎn)生聲譜圖之前需要進(jìn)行降噪和無(wú)聲段檢測(cè)。本文著重從噪聲對(duì)識(shí)別精度方面來(lái)分析特征的性能,因此這里只對(duì)端點(diǎn)檢測(cè)技術(shù)進(jìn)行敘述。如圖2所示,沖擊聲在起始點(diǎn)附近會(huì)有一個(gè)極大的峰值,然后迅速衰減為0,本文利用沖擊聲的這個(gè)性質(zhì)進(jìn)行端點(diǎn)檢測(cè)。取每30 ms為一幀(這個(gè)長(zhǎng)度包含從無(wú)聲段到最大值的變化的時(shí)間范圍),計(jì)算每幀的能量,求這些幀的能量與最開(kāi)始的一幀的平均能量的比值,當(dāng)比值大于設(shè)定的閾值[c0]時(shí),即認(rèn)為該幀包含沖擊聲的起始點(diǎn),當(dāng)比值小于設(shè)定閾值[c1]時(shí)認(rèn)為該幀包含生信號(hào)的結(jié)束點(diǎn)。
1.2 聲譜圖的生成
聲譜圖是一類按照頻率和時(shí)間對(duì)聲音進(jìn)行二維可視化得到的圖像。按照頻率的種類,有如下幾類聲譜圖:短時(shí)傅里葉變換時(shí)頻圖、gammatone濾波器組聲譜圖、梅爾頻率聲譜圖、小波變換尺度圖。
本文以短時(shí)傅里葉變換時(shí)頻圖為對(duì)象提取特征,其生成過(guò)程如下。
設(shè)沖擊聲的離散時(shí)域采樣信號(hào)為[x(n)],采樣頻率為[fs],n為時(shí)域采樣點(diǎn)序列,[n=0,1,2,…,N-1],N為信號(hào)長(zhǎng)度。對(duì)信號(hào)分幀處理得[xn(m),m=0,1,…,M-1],其中n是幀序號(hào);m是幀同步時(shí)間序號(hào);M為幀長(zhǎng)(1幀內(nèi)的采樣點(diǎn)數(shù));于是信號(hào)的短時(shí)離散傅里葉變換定義
[X(n,k)=m=0M-1xn(m)w(m)e-j2πkm] (1)
式中:[0≤k≤N-1];[wm,m=1,2,…,][M-1]為窗函數(shù)。[X(n,k)]為[x(n)]的短時(shí)幅度譜估計(jì),取[f=k?fs],[t=n?Ts],有[Slin(f,t)=X(n,k)],將其以灰度圖像表現(xiàn)出來(lái)即得到聲譜圖,這種聲譜圖也叫幅度譜圖,當(dāng)取[Slin(f,t)=X(n,k)2]時(shí),得到能量譜圖,如圖3所示,為玻璃板沖擊聲的聲譜圖。
1.3 聲譜圖的預(yù)處理
使用聲譜圖提取特征時(shí),通常要根據(jù)使用的方法需求對(duì)聲譜圖進(jìn)行預(yù)處理,將聲譜圖映射到[0,1]區(qū)間時(shí),聲譜圖中的某些異常大的點(diǎn)將會(huì)將其他的點(diǎn)的灰度值往0附近擠壓,這樣會(huì)造成偽彩色變換時(shí)對(duì)比度的下降。因此本文設(shè)計(jì)了一種對(duì)數(shù)映射方法,式(2),對(duì)聲譜圖進(jìn)行預(yù)處理,降低異常點(diǎn)對(duì)對(duì)比度的影響。圖3是對(duì)聲譜圖進(jìn)行預(yù)處理前后的效果圖,可以看出預(yù)處理后的能量譜變得更加清晰。
[S(f,t)=log(Slin(f,t)+e)-1] (2)
2 基于偽彩色映射的聲譜圖特征提取
2.1 偽彩色處理
偽彩色處理是將灰度圖像線性或非線性映射到一定的調(diào)色板上,以達(dá)到彩色顯示效果的處理方式。由于人眼對(duì)彩色的分辨率遠(yuǎn)遠(yuǎn)高于對(duì)灰度的分辨率,所以可用于識(shí)別灰度較小的像素。偽彩色處理的關(guān)鍵在于調(diào)色板的編碼方式,常用的RGB空間的編碼方式有兩種:灰度分割法和空間域?彩色變換法?;叶确指罘ㄆ鋵D像灰度值劃分若干段,每一段對(duì)應(yīng)一種顏色,其形成的色彩是不連續(xù)的,這將丟失聲譜圖上很多細(xì)節(jié)信息??臻g域?彩色變換法,通過(guò)紅、綠、藍(lán)(RGB)三個(gè)顏色映射[qc(x),c∈(red,blue,green)]將每個(gè)像素灰度值對(duì)應(yīng)到紅、綠、藍(lán)(RGB)色彩空間三個(gè)分量,從而只要保證映射函數(shù)的連續(xù)性,彩色編碼就是連續(xù)的[6]。如圖4所示本文采用JET映射進(jìn)行偽彩色處理。
首先,將聲譜圖[S(f,t)]按照式(3)進(jìn)行歸一化,使其灰度變化范圍為[0,1],得到歸一化后的圖像[I(x,y)]。
[I(x=f,y=t)=S(f,t)-min(S(f,t))max(S(f,t))-min(S(f,t))] (3)
然后將用使用三元色映射[qc(x)]將[I(x,y)]映射
到RGB多色空間,得到[mc(x,y)]。
[mc(x,y)=qc(I(x,y)),?c∈(r,g,b)] (4)
[qc(I(x,y))=I(x,y)-l1l2-l1, l1
這里[l1,l2,u1,u2]的取值不同將得到不同的偽彩色映射,當(dāng)取[r=38,58,78,98],[g=18,38,58,78],[b=-18,18,38,58]為JET映射,其函數(shù)如圖4所示。
2.2 基于偽彩色聲譜圖的特征提取的方法
首先將聲譜圖進(jìn)行分塊,如圖5所示,沿著圖像的x軸化分為[Dx]份,y軸分為[Dy]份,整幅圖像可以得到[Dx×Dy]個(gè)局部塊,每一個(gè)小塊表示為[Lij]。將每個(gè)局部區(qū)域[Lij]看為一個(gè)隨機(jī)變量,則其中的每個(gè)像素可以看做隨機(jī)變量的一個(gè)樣本,這樣就可以用[Lij]的統(tǒng)計(jì)參數(shù)來(lái)描述聲譜圖的局部區(qū)域,這里采用多個(gè)k階中心矩來(lái)描述[Lij],如式(6)所示。
[xki,j=E[Li,j], k=1E[(Li,j-E[Li,j])k], k=2,3,...] (6)
當(dāng)是彩色圖像時(shí),分別對(duì)三個(gè)顏色分量做同樣的處理,計(jì)算同樣的局部k階矩,然后將所有的結(jié)果依次排列成向量,即得到彩色聲譜圖的特征向量。如圖5所示的分塊,當(dāng)選擇[k=1,k=2],得到特征向量的維數(shù)為[3*Dx*Dy*2=54]。在完成所有樣本的特征變量的計(jì)算后,使用主成份分析(PCA)進(jìn)行降維。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 沖擊聲樣本的獲取
本文以板材沖擊聲為對(duì)象進(jìn)行實(shí)驗(yàn),為了更好地評(píng)價(jià)彩色聲譜圖特征對(duì)沖擊聲的識(shí)別效果,這里使用兩種不同的聲樣本進(jìn)行實(shí)驗(yàn):虛擬板材沖擊聲與真實(shí)板材沖擊聲。使用虛擬沖擊聲有兩個(gè)好處:
(1) 可以得到任意參數(shù)的板材沖擊聲樣本,這樣可以得到非常相似的聲樣本;
(2) 可以控制單一變量進(jìn)行設(shè)計(jì)實(shí)驗(yàn),可以驗(yàn)證特征對(duì)材料的哪些屬性有效。由于虛擬沖擊聲忽略了一些諧波,最后需要通過(guò)真實(shí)材料沖擊聲對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證。
虛擬沖擊聲:隨機(jī)選擇3個(gè)阻尼系數(shù),分為3類,A類0.795區(qū)性2,B類0.765 2,C類0.823 4,采樣頻率為10 kHz,每類板材樣本30個(gè)。
實(shí)驗(yàn)錄取沖擊聲:選擇玻璃板、木板、鋁板三種材料,獲取消聲室、混響室、教室三種條件下的聲樣本,采樣率為65.536 kHz,每類板材樣本30個(gè)。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
圖像分塊的數(shù)目和k階矩與個(gè)數(shù)的選擇,都會(huì)影響實(shí)驗(yàn)的結(jié)果,通過(guò)實(shí)驗(yàn)選擇最優(yōu)的參數(shù),取[Dx=9,Dy=9,k=1,k=2],PCA閾值設(shè)置為0.99。
本文以支持向量機(jī)作為分類器,采用10次十字交叉驗(yàn)證法和100次蒙特卡羅方法獲得平均識(shí)別率,訓(xùn)練樣本和測(cè)試樣本數(shù)如表1所示。
3.3 實(shí)驗(yàn)結(jié)果對(duì)比及分析
為了充分評(píng)價(jià)特征的性能,以幅度聲譜圖和能量聲譜圖為原始聲譜圖,分別將預(yù)處理前后彩色特征和灰度特征的分類性能相比較,再將彩色特征與MFCC等傳統(tǒng)聲學(xué)特征進(jìn)行比較。
由表2和表3可以看出,無(wú)論是幅度譜圖和能量譜圖,基于偽彩色映射的聲譜圖特征在各個(gè)噪聲環(huán)境下識(shí)別率均優(yōu)于灰度圖特征,證明偽彩色變換顯著地提高了灰度聲譜圖的表現(xiàn)力。經(jīng)過(guò)log映射處理后的聲譜圖的在搞信噪比(大于20 dB)情況下優(yōu)于未經(jīng)過(guò)預(yù)處理的聲譜圖,這是因?yàn)閘og映射處理后的聲譜圖相對(duì)于未處理的情況,增加了聲譜圖的對(duì)比度[7],如圖6所示,(b)中的各個(gè)灰度級(jí)的頻率比(a)中的要更均衡,因此在高信噪比下,均優(yōu)于未處理的情況。而當(dāng)在低信噪比(0 dB)時(shí),由于噪聲的污染,聲譜圖中信息體現(xiàn)在高亮度點(diǎn)上,而log映射降低了高亮度的點(diǎn)在聲譜圖中的表現(xiàn)力,因此log聲譜圖的性能低于未處理的聲譜圖。
4 結(jié) 語(yǔ)
本文在分析沖擊聲信號(hào)的時(shí)頻特性的基礎(chǔ)上,提出一種基于聲譜圖的特征提取方法。該方法采用偽彩色映射將聲譜圖映射為偽彩色圖,提高聲譜圖細(xì)節(jié)分辨率,然后對(duì)聲譜圖分塊計(jì)算局部k階矩作為特征。實(shí)驗(yàn)中采用三種虛擬材料和真實(shí)材料的沖擊聲作為目標(biāo)對(duì)象,驗(yàn)證了基于聲譜圖特征的對(duì)于沖擊聲的有效性,結(jié)果表明該特征對(duì)板材沖擊聲具有較好的識(shí)別效果,尤其在低信噪比下,該方法具有較好的噪聲穩(wěn)健性。
參考文獻(xiàn)
[1] 張冰瑞.沖擊聲的特征提取及其在聲源材料識(shí)別中的應(yīng)用[J].噪聲與震動(dòng)控制,2012(S1):152?156.
[2] LAMPERT T A. On the detection of tracks in spectrogram images [J]. Pattern Recognition, 2013, 46: 1396?1408.
[3] 梁澤.一種基于脈沖耦合神經(jīng)網(wǎng)絡(luò)的語(yǔ)音情感識(shí)別新方法[J].計(jì)算機(jī)應(yīng)用,2008,28(3):710?713.
[4] 何佳若,曾向陽(yáng).聲信號(hào)的可視化特征提取方法[J].數(shù)字信號(hào)處理,2011,35(7):61?74.
[5] SAMEH Souli, LACHIRI Zied. Multiclass wupport vector machines for environmental sounds classification in visual domain based on log?gabor filters [J]. International Journal of Speech Technol, 2013, 16: 203?213.
[6] 李全越,王芳.偽彩色圖像在醫(yī)學(xué)上的應(yīng)用[J].微計(jì)算機(jī)信息,2008(3):299?300.
[7] RAFAEL C. Gonzalez digital image processing second edition [M].北京:電子工業(yè)出版社,2009.