陳金龍 范影樂 倪紅霞 武 薇
(杭州電子科技大學(xué)智能控制與機(jī)器人研究所,杭州,310018)
語音在采集傳輸以及通信過程中不可避免的會引入各種噪聲,噪聲的存在將降低語音的清晰度和可懂度。因此含噪語音輸出質(zhì)量的改善程度,將直接影響到后續(xù)語音識別[1-2]、語音編碼[3]等算法的準(zhǔn)確性和復(fù)雜度。目前語音處理方法主要包括短時傅立葉變換、小波分析和 Wigner-Ville分布等,上述方法考慮了語音信號在時頻域上的特征表達(dá),但他們?nèi)曰谡Z音信號具有短時線性平穩(wěn)的假設(shè),在語音的靜態(tài)特征描述上具有較好的性能,但忽略了語音的非線性和非平穩(wěn)特性。
1998年,Huang NE.[4]提出了一種適用于非線性、非平穩(wěn)信號的Hilbert-Huang變換(Hilberthuang transform,HHT)時頻分析方法。其在語音信號的時頻特性分析中得到了廣泛的應(yīng)用。例如文獻(xiàn)[5]將HHT方法應(yīng)用于語音信號的周期估計,有效地提高了基音識別的準(zhǔn)確性與分辨率。KI.Molla等人將Hilbert譜作為音頻信號的時頻描述,結(jié)果表明其與短時傅立葉變換相比具有顯著的優(yōu)勢[6]。但在語音時頻特性描述的上述應(yīng)用中,HHT也暴露了存在模態(tài)混疊以及低頻覆蓋等局限性[7]。針對上述問題,本文在HHT基礎(chǔ)上,利用小波包對語音信號進(jìn)行分解以及對固有模態(tài)函數(shù)的自適應(yīng)篩選,能夠有效的將頻帶進(jìn)行細(xì)分,避免模態(tài)混疊,改善含噪語音的時頻分辨率;引入相關(guān)系數(shù)閾值準(zhǔn)則對固有模態(tài)函數(shù)(Intrinsic mode function,IMF)分量進(jìn)行篩選,避免 Hilbert譜中出現(xiàn)虛假頻率。
小波包分解(Wavelet package decomposition,WPD)具有良好的正交性、完備性、局部性,可將WPD視為函數(shù)空間中逐級正交剖分的擴(kuò)展。WPD在所有的頻率范圍內(nèi)聚集的特性,使其具有更好的局部時頻濾波特性,適合對語音進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical mode decomposition,EMD)前的寬帶細(xì)化。
正交小波包分解如式(1)
式中:g(k)=(-1)kh(1-k),g(k)和h(1-k)是一對正交鏡像濾波器。當(dāng)n=0時,u0(t)和u1(t)分別為尺度函數(shù)φ(t)和小波函數(shù)ψ(t)。
Hilbert-Huang變換包括兩部分:EMD和Hilbert譜分析。
1.2.1 經(jīng)驗(yàn)?zāi)B(tài)分解
EMD分解是把復(fù)雜的信號分解為有限個固有模態(tài)函數(shù)IMF分量之和,經(jīng)過一系列分解后,信號x(t)被分解成n個固有模態(tài)函數(shù)ci(t)和一個余項(xiàng)rn(t),如式(2)所示
1.2.2 Hilbert譜
分解后得到的IMF分量通過Hilbert變換,求得瞬時頻率,得到Hilbert譜。對每個固有模態(tài)分量ci(t)作 Hilbert變換
根據(jù)式(4)構(gòu)造解析信號zi(t)
式中:ai(t)為解析信號幅值,θi(t)為相角
瞬時頻率定義為
從而原始信號可以表示為
式(7)表明信號的幅值和瞬時頻率都是時間的函數(shù),從而可以在時頻平面中將幅值表示成時間和瞬時頻率的函數(shù)H(w,t),即原始信號的Hilbert譜。H(w,t)對時間積分,就得到Hilbert邊際譜(Marginal spectrum,MS)
Hilbert瞬時能量譜(Instantaneous energy spectrum,IES)為H(w,t)對頻率w的積分,其定義為
1.2.3 相關(guān)系數(shù)閾值準(zhǔn)則IMF分量篩選
由于IMF分量和剩余信號rn(t)是原始信號的正交分量,因此相應(yīng)的IMF與原信號具有很強(qiáng)的相關(guān)性。依次計算每個IMF與原信號的相關(guān)系數(shù)ri作為判別相關(guān)性的依據(jù),表達(dá)式為
式中:i=1,…,n,Xi為IMF分量序列,Yi為重構(gòu)信號序列,N為采樣點(diǎn)數(shù),為Xi序列的均值,為Yi序列的均值。
對于n個IMF的相關(guān)系數(shù)ri(i=1,…,n),剔除閾值為
式中:η為比例因子。計算每個IMF的相關(guān)系數(shù),篩選準(zhǔn)則如下:若大于λ,則保留該IMF,否則剔除該IMF加入到剩余分量中。通過該方法,可以有效去除IMF中相關(guān)性較差的分量,避免希爾伯特譜中出現(xiàn)虛假頻率分量[8]。
本文實(shí)驗(yàn)數(shù)據(jù)為自采集數(shù)據(jù)庫中的孤立詞語:對象為50名來自全國各大區(qū)的大學(xué)生,每人讀5次,每次讀26個英文字母各一遍,采樣頻率為8kHz,16bit量化,wav格式。背景噪聲數(shù)據(jù)來源于NOISEX92標(biāo)準(zhǔn)噪聲數(shù)據(jù)庫[9],選擇其中3種噪聲,分別為飛機(jī)噪聲(F16)、工廠噪聲(Factory1)和辦公室噪聲(Babble)。對含噪語音均采用數(shù)字濾波器H(z)=1-μz-1(μ=0.937 5)進(jìn)行預(yù)加重處理,用于消除低頻交流電工頻等干擾。
為了說明相關(guān)系數(shù)閾值準(zhǔn)則的有效性,對含噪語音(工廠噪聲,下同)用db3小波基進(jìn)行3層分解,對分解的各個信號進(jìn)行重構(gòu),得到重構(gòu)信號,記為 WPDi(i=1,2…,8),對重構(gòu)信號進(jìn)行 EMD分解,計算對應(yīng)的IMF分量以及相關(guān)系數(shù),結(jié)果如表1所示,其中η=50。
從表1可以看出,EMD分解具有自適應(yīng)性,表現(xiàn)為較高的相關(guān)系數(shù)一般集中于前幾個EMD分解出來的IMF分量中。因此根據(jù)式(11)篩選出來的IMF分量在所有的IMF分量中占主導(dǎo)作用,也進(jìn)一步說明相關(guān)系數(shù)閾值準(zhǔn)則的有效性。通過相關(guān)系數(shù)閾值準(zhǔn)則篩選有效的IMF分量,剔除相關(guān)系數(shù)較差的IMF分量,避免在Hilbert譜中出現(xiàn)虛假頻率分量。
表1 各IMF與對應(yīng)WPD分量的相關(guān)系數(shù)對比表Table 1 Correlation coefficient comparsion of each component of IMF and corresponding WPD
基于小波包分解的HHT變換方法,采用相關(guān)系數(shù)閾值準(zhǔn)則篩選IMF分量,分別對純凈語音和含噪語音進(jìn)行Hilbert譜分析,如圖1所示。圖1(a,b)分別為純凈語音和含噪語音 WPD1的Hilbert譜,可以發(fā)現(xiàn)純凈語音在時間軸上2 000~5 000采樣點(diǎn)之間有低頻能量分布,而含噪語音在整個時間軸采樣點(diǎn)上都存在低頻能量分布。圖1(c,d)顯示了純凈語音和含噪語音 WPD1的瞬時能量譜,可以發(fā)現(xiàn)它們的瞬時能量譜差異較大;純凈語音的瞬時能量譜主要集中于語音區(qū)域;而含噪語音的瞬時能量譜在整個時間軸采樣點(diǎn)上都有分布,但語音區(qū)域段的瞬時能量譜占主導(dǎo)地位,而噪聲段瞬時能量譜相對語音區(qū)域較弱。因此語音和噪聲的瞬時能量譜特征具有較好的區(qū)分度,后文將此特征作為語音端點(diǎn)檢測的依據(jù)。
為便于比較,本文對含噪語音分別按如下兩種方法進(jìn)行處理:(1)HHT變換;(2)小波包分解后的HHT變換,其結(jié)果如圖2所示。圖2(a-c)分別為含噪語音HHT邊際譜、含噪語音 WPD1的邊際譜以及含噪語音 WPD8的邊際譜,未引入小波包分解的邊際譜(圖2(a))的頻帶范圍分布較廣,在整個頻帶范圍都有分布,而引入小波包分解的WPD1和 WPD8的邊際譜(圖2(b,c))分布的頻帶范圍較窄,分別集中于低頻和高頻段分布。由實(shí)驗(yàn)結(jié)果可知:小波包分解在含噪語音Hilbert譜分析中具有顯著的優(yōu)勢,將頻帶范圍細(xì)分,避免模態(tài)混疊,使其滿足HHT模態(tài)的單一組分要求,由于小波包分解具有正交性與自適應(yīng)性,從而提高EMD的分解能力,改善時頻分辨率。
圖1 純凈語音和含噪語音時頻譜Fig.1 Time-frequency spectrum of pure speech and noise-corrupted speech
圖2 含噪語音HHT邊際譜和含噪語音WPD HHT邊際譜Fig.2 HHT and WPD HHT marginal spectrum of noise-corrupted speech
2.4.1 實(shí)驗(yàn)步驟
為了驗(yàn)證小波包分解HHT方法在分析含噪語音時頻特征方面的有效性,本文提出了基于小波包分解的HHT變換瞬時能量譜方法,用于含噪語音的端點(diǎn)檢測,詳細(xì)步驟如下:
(1)對含噪語音進(jìn)行預(yù)加重處理,選用db3小波基進(jìn)行3層分解,將分解的信號重構(gòu)記為WPDi(i=1,2…,8)。
(2)對重構(gòu)的 WPD1進(jìn)行EMD分解并運(yùn)用相關(guān)系數(shù)閾值準(zhǔn)則篩選獲得有效的IMF分量。
(3)對有效的IMF分量進(jìn)行Hilbert變換并進(jìn)行分幀處理。
(4)計算相應(yīng)的瞬時能量譜E(t),將前5幀瞬時能量譜均值作為噪聲能量譜Enoise。
(5)采用起-止雙門限閾值法進(jìn)行端點(diǎn)檢測,若E(t)<aEnoise,則繼續(xù)檢測,如果E(t)≥aEnoise,則記錄為語音開始點(diǎn),直到E(t)<bEnoise,則記錄為語音結(jié)束點(diǎn);其中a和b分別為比例因子。
如果語音結(jié)束點(diǎn)與語音開始點(diǎn)之差小于長度閾值c,則認(rèn)為檢測得到的語音起點(diǎn)和終點(diǎn)均為干擾點(diǎn),將它們舍棄;然后對后續(xù)瞬時能量譜序列繼續(xù)重復(fù)步驟(5)進(jìn)行語音端點(diǎn)檢測,直到檢測到有效的語音端點(diǎn)或語音序列結(jié)束為止。
2.4.2 實(shí)驗(yàn)結(jié)果與分析
設(shè)幀長為240,幀移為80,參數(shù)a=1.5,b=1,c=5。在端點(diǎn)檢測時,如果自動檢測的前后端點(diǎn)與手工標(biāo)定的端點(diǎn)差別在±5幀以內(nèi),則視為正確[10]。
為了說明本文方法的可行性,對不同類型以及不同強(qiáng)度的含噪語音引入傳統(tǒng)廣義維數(shù)(Original generalized dimension,OGD)以及譜熵(Spectral entropy,SE)的端點(diǎn)檢測方法,如表2所示。可以發(fā)現(xiàn),當(dāng)信噪比為20db時,小波包分解的HHT瞬時能量譜算法的準(zhǔn)確率要略低于傳統(tǒng)廣義維數(shù)和譜熵算法,但是當(dāng)信噪比降到10db以下時,本文端點(diǎn)檢測算法的準(zhǔn)確率較其他兩種算法具有顯著的優(yōu)勢,尤其當(dāng)信噪比為0db時,譜熵算法的準(zhǔn)確率已經(jīng)下降到50%左右,傳統(tǒng)廣義維數(shù)在70%左右,而本文的算法仍舊保持在90%左右(F16時只有74%,但是仍高于其他兩種方法)。傳統(tǒng)廣義維數(shù)與譜熵算法在高信噪比的情況下,語音端點(diǎn)檢測的效果較理想,但是對于信噪比較低的情況下,端點(diǎn)檢測效果不是很理想,而本文的算法相對于信噪比的變化,端點(diǎn)檢測效果較為穩(wěn)定,具有較好的檢測能力、自適應(yīng)性及較強(qiáng)的魯棒性。
表2 本文方法與傳統(tǒng)方法的語音端點(diǎn)檢測準(zhǔn)確率對比表(%)Table 2 Correct rate comparison of speech endpoint detection with different methods(%)
本文提出對含噪語音信號進(jìn)行小波包分解,以改善Hilbert-Huang變換方法的模態(tài)混疊問題,提高時頻分辨率;另外提出相關(guān)系數(shù)閾值準(zhǔn)則對IMF分量進(jìn)行篩選,將避免Hilbert譜中出現(xiàn)的虛假頻率。通過含噪語音的端點(diǎn)檢測應(yīng)用,驗(yàn)證了本文語音時頻分析方法的有效性。本文方法將為后續(xù)語音復(fù)原、語音識別以及語音編碼的研究提供一個新的思路。
[1]Kim K,Kim M Y.Robust speaker recognition against background noise in an enhanced multi-condition domain[J].IEEE Transactions on Consumer E-lectronics,2010,56(3):1684-1688.
[2]余華,黃程韋,金赟,等.基于粒子群優(yōu)化神經(jīng)網(wǎng)絡(luò)的語音情感識別[J].數(shù)據(jù)采集與處理,2011,26(1):57-62.
Yu Hua,Huang Chengwei,Jin Yun,et al.Speech emotion recognition based on particle swarm optimizer neural network[J].Journal of Data Acquisition and Processing,2011,26(1):57-62.
[3]Backstrom T,Magi C.Effect of white-noise correction on linear predictive coding[J].IEEE Signal Processing Letters,2007,14(2):148-151.
[4]Huang N E,Shen Z,Long S R,et al.The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proc.R.Soc.Lond.A,1998,454:903-995.
[5]Huang H,Pan J Q.Speech pitch determination based on Hilbert-Huang transform[J].Signal Processing,2006,86(4):792-803.
[6]Molla K I,Shaikh M,Hirose K.Time-frequency representation of audio signals using Hilbert spectrum with effective frequency scaling[C]∥Proceeding of 11th International Conference on Computer and Information Technology(ICCIT). Khulna:IEEE,2008:335-340.
[7]Peng Z K,Tse P W,Chu F L.An improved Hilbert-Huang transform and its application in vibration signal analysis[J].Journal of Sound and Vibration,2005,186(2):187-205.
[8]Yuan L,Yang B H,Ma S W,et al.Combination of wavelet packet transform and Hilbert-Huang transform for recognition of continuous EEG in BCIs[C]∥Proceeding of the 2nd IEEE International Conference Computer Science and Information Technology.Beijing,China:IEEE,2009:594-599.
[9]Varga A.Assessment for automatic speech recognition:Ⅱ.NOISEX-92:A database and an experiment to study the effect of additive noise on speech recognition systems[J].Speech Communication,1993,12(3):247-251.
[10]武薇,范影樂,龐全.基于廣義維數(shù)距離的語音端點(diǎn)檢測方法[J].電子與信息學(xué)報,2007,29(2):465-468.
Wu Wei,F(xiàn)an Yingle,Pang Quan.A speech endpoint detection method based on the feature distance of generalized dimension[J].Journal of Electronics &Information Technology,2007,29(2):465-468.