鄭 艷, 高 爽
(東北大學(xué) 信息科學(xué)與工程學(xué)院, 遼寧 沈陽 110819)
復(fù)雜背景下語音信號(hào)精確的端點(diǎn)檢測是語音識(shí)別領(lǐng)域一個(gè)非常重要的研究分支[1].所謂端點(diǎn)檢測,就是要對(duì)一段原始聲音數(shù)據(jù)中的語音段進(jìn)行定位,找到語音段的起止點(diǎn)[2].語音識(shí)別系統(tǒng)的性能、魯棒性以及處理時(shí)間可通過精確高效的端點(diǎn)檢測來大幅度提高,因此,該領(lǐng)域的研究具有重要的理論意義和實(shí)際應(yīng)用價(jià)值[3].傳統(tǒng)的檢測方法主要是根據(jù)語音的短時(shí)能量、過零率等語音特征來確定端點(diǎn)[4],但這些特征只局限于無噪聲或信噪比較高的情況,在低信噪比時(shí)就會(huì)失去效果[5-6].
隨著聲學(xué)和空氣動(dòng)力學(xué)等領(lǐng)域研究工作的不斷深入,語音信號(hào)已被證明是一個(gè)復(fù)雜的非線性過程,其中存在著產(chǎn)生混沌的機(jī)制.而描述混沌信號(hào)有效的手段就是分形理論[7],它的基本特征就是局部與整體保持自相似性,語音時(shí)域波形也具有自相似性,且表現(xiàn)出周期性和隨機(jī)性,因此將分形維數(shù)引入語音信號(hào)分析具有很好的理論基礎(chǔ).文獻(xiàn)[8]將分形維數(shù)用于語音起止點(diǎn)的檢測中,為了提高檢測的準(zhǔn)確性,算法從短時(shí)頻域上提取分形維數(shù)來區(qū)分語音和噪聲,雖然在檢測準(zhǔn)確率上有所提高,但由于選取的是固定門限值,使得魯棒性較差.本文在此基礎(chǔ)上,給出了一種基于自適應(yīng)門限的分形維數(shù)語音端點(diǎn)檢測算法,在低信噪比下提高了語音端點(diǎn)檢測的準(zhǔn)確性和魯棒性.
分形維數(shù)是描述分形理論特征的重要參數(shù),從測度的角度將維數(shù)從整數(shù)擴(kuò)大到分?jǐn)?shù),突破了一般拓?fù)浼S數(shù)為整數(shù)的界限[9].
n維空間子集F的分形維數(shù)DB定義為
(1)
其中:r為單元大??;N(F)表示用單元大小r來覆蓋子集F所需的個(gè)數(shù).
計(jì)算步驟如下:
1)將原始語音信號(hào)歸一化,得到信號(hào)x(t).
2)設(shè)r足夠小,取邊長為r的正方形,可以得到x(t)波形圖被N(F)個(gè)正方形網(wǎng)格所覆蓋,多次改變r(jià)的值,計(jì)算出相應(yīng)的lgN(F),lg(1/r).
3)令xi=lg(1/r),yi=lgN(F),i=1,2,,M,利用(xi,yi)最小均方差擬合直線y=kx+b,此直線的斜率即為分形維數(shù)DB.令
(2)
(3)
分形維數(shù)對(duì)于信號(hào)的復(fù)雜程度很敏感,體現(xiàn)了信號(hào)波形的精細(xì)度和規(guī)律性,越規(guī)律、細(xì)節(jié)越不豐富的信號(hào)其分形維數(shù)越小.在噪聲語音信號(hào)中,語音信號(hào)的波形較噪聲信號(hào)(如高斯白噪聲)的波形具有較大的周期性和規(guī)則性[10-14].因此語音的分形維數(shù)小于噪聲的分形維數(shù),由此來設(shè)計(jì)算法進(jìn)行端點(diǎn)檢測.算法流程圖如圖1所示.
在Matlab環(huán)境下,輸入內(nèi)容為“長度”的純凈音頻,格式為wav,采樣頻率為8 kHz,由噪聲庫提供高斯白噪聲.在無背景噪聲和信噪比(SNR)分別為0,10 dB的情況下,用文獻(xiàn)[8]采用固定門限值的短時(shí)頻域分形維數(shù)算法來進(jìn)行端點(diǎn)檢測的實(shí)驗(yàn).固定的門限按照傳統(tǒng)方法選取,即選前20幀的分形維數(shù)的平均值作為門限值,是一個(gè)固定值,得到的實(shí)驗(yàn)結(jié)果如圖2~圖4所示.
由圖2可知,在無背景噪聲下,利用語音信號(hào)的自身特點(diǎn),分形維數(shù)算法得到了較高的檢測率.圖3為SNR=10 dB,語音和噪聲相比精細(xì)度更小,規(guī)則度更高,兩者的分形維數(shù)差別明顯,也能找到語音的起止點(diǎn),有效地進(jìn)行端點(diǎn)檢測.從圖4可見,當(dāng)SNR=0時(shí),原始語音信號(hào)中幅值低的部分已經(jīng)被噪聲所覆蓋,尤其體現(xiàn)在語音的起止和結(jié)束部分,無法檢測出語音端點(diǎn).究其原因,算法中所使用的門限是一個(gè)固定值,而固定門限對(duì)于波動(dòng)過大的背景噪聲處理能力有限,失去了理想的效果.因此將自適應(yīng)門限引入分形維數(shù)中來改進(jìn)算法.
自適應(yīng)門限的基本思想是讓門限隨信噪比變化而變化.本文通過對(duì)大量語音數(shù)據(jù)進(jìn)行擬合分析,由每一時(shí)刻的分形維數(shù)確定信噪比,從而確定門限,以達(dá)到自適應(yīng)的效果.計(jì)算過程如下:
1) 采用曲線擬合來估計(jì)語音信號(hào)的SNR.
SNR定義為
(4)
其中,Ps和Pn分別為語音和噪聲的功率.
對(duì)安靜環(huán)境下錄制的大量純凈語音段加入平穩(wěn)高斯白噪聲,分別混音SNR為0~40 dB的帶噪語音,然后在較純凈語音信號(hào)波形上手工標(biāo)記語音段的起止點(diǎn),依照手工標(biāo)記的端點(diǎn)分別統(tǒng)計(jì)不同SNR下帶噪語音的語音段和噪聲段的均值Ds,mean和Dn,mean,采用多項(xiàng)式擬合方法,設(shè)抽樣信號(hào)的SNR的估計(jì)值為
SNR=10lgf(Ds,mean/Dn,mean) .
(5)
其中f為待擬合n階多項(xiàng)式,式(5)等價(jià)于
10(SNR/10)=f(Ds,mean/Dn,mean),
(6)
令snr=10(SNR/10),代入式(6)中得
snr=f(Ds,mean/Dn,mean) .
(7)
擬合結(jié)果如圖5所示,綜合考慮運(yùn)算量和擬合誤差兩個(gè)因素,選擇三階多項(xiàng)式作為擬合結(jié)果,將結(jié)果代入式(5)中,得到分形維數(shù)和信噪比的關(guān)系式為
SNR=10lg[1.002 5(Ds,mean/Dn,mean)3-3.023 9(Ds,mean/Dn,mean)2+3.038 2(Ds,mean/Dn,mean)-1.016 8].
(8)
2) 確定SNR和門限的關(guān)系.
對(duì)平穩(wěn)高斯白噪聲環(huán)境下SNR從0~40 dB的語音信號(hào)分別測試出端點(diǎn)檢測的最佳門限值G.對(duì)語音信號(hào)序列進(jìn)行中值濾波兩次,然后取序列前后各20幀,計(jì)算平均值,平均值即最佳門限值.利用直線擬合,可以得到SNR在0~40 dB范圍內(nèi)的最佳門限G和SNR擬合曲線,如圖6所示.
由圖6可得最佳門限G和SNR的函數(shù)關(guān)系如式(9)所示:
(9)
步驟1 計(jì)算起始若干幀的分形維數(shù),求得Dn,mean.
步驟2 設(shè)定一個(gè)初始門限G.
步驟3 開始端點(diǎn)檢測,同時(shí)逐幀對(duì)SNR估計(jì)式(8)中的Dn,mean進(jìn)行實(shí)時(shí)更新,公式為
(10)
其中:D(i)為前一噪聲幀的分形維數(shù);ki為調(diào)整因子,初始值為1,且每更新一幀,ki加1.
步驟4 當(dāng)檢測到語音起點(diǎn)時(shí),停止對(duì)Dn,mean的更新.
步驟5 由下一幀開始對(duì)Ds,mean進(jìn)行更新,更新公式為
(11)
步驟6 根據(jù)1.3節(jié)所述的檢測方法用門限來判決是否為語音的終止點(diǎn),若是則停止對(duì)Ds,mean的更新,之后更新Dn,mean.重復(fù)上述過程,直至采樣幀結(jié)束.
其中,每執(zhí)行一次更新操作,由式(8)計(jì)算SNR,進(jìn)而計(jì)算門限G.
在該算法中,每一幀的分形維數(shù)是變化的,由此計(jì)算出的門限也是變化的,達(dá)到了自適應(yīng)的效果.通過每一幀分形維數(shù)和門限的比較,可以確定每一幀是語音還是噪聲,實(shí)現(xiàn)了實(shí)時(shí)檢測.
為了檢測算法的有效性,本文再次對(duì)SNR=0時(shí)的語音進(jìn)行端點(diǎn)檢測,結(jié)果如圖7所示,并采用改進(jìn)的自適應(yīng)門限的分形維數(shù)算法與傳統(tǒng)短時(shí)能量算法進(jìn)行仿真對(duì)比實(shí)驗(yàn).圖8給出了仿真對(duì)比實(shí)驗(yàn)的結(jié)果.
由圖7和圖4對(duì)比可見,自適應(yīng)門限的加入在低信噪比的情況下實(shí)現(xiàn)了有效的語音端點(diǎn)檢測.
由圖8可知自適應(yīng)門限的分形維數(shù)算法在低信噪比下能夠有效地進(jìn)行端點(diǎn)檢測,并具有魯棒性;而短時(shí)能量算法,因語音和噪聲都具有能量,端點(diǎn)檢測效果并不理想.為了更直觀衡量改進(jìn)算法的實(shí)際性能,將其與短時(shí)能量算法進(jìn)行檢測準(zhǔn)確率的對(duì)比,檢測準(zhǔn)確率的計(jì)算公式為
(12)
在不同信噪比下,用兩種算法分別對(duì)抽樣語音信號(hào)進(jìn)行檢測,并計(jì)算準(zhǔn)確率.圖9給出了信噪比為-5~20 dB時(shí)兩種算法檢測的準(zhǔn)確率.
從圖9中可以清晰地看出,改進(jìn)的算法明顯優(yōu)于傳統(tǒng)短時(shí)能量算法.當(dāng)信噪比大于15 dB時(shí),也就是語音主觀上不受噪聲影響,兩種檢測算法都得到了較高的準(zhǔn)確率,但是在低信噪比下,語音中存在著明顯的噪聲,傳統(tǒng)短時(shí)能量算法的準(zhǔn)確率下降到很低的水平,而基于自適應(yīng)門限的分形維數(shù)算法的準(zhǔn)確率只受到了輕微的影響,說明改進(jìn)的算法在低信噪比下仍有良好的準(zhǔn)確率和魯棒性.
本文利用分形維數(shù)對(duì)信號(hào)的敏感程度來區(qū)分語音和噪聲,并使用自適應(yīng)門限進(jìn)行判斷,不僅有效地實(shí)現(xiàn)了端點(diǎn)檢測,而且更具有魯棒性,提高了檢測的正確率.與傳統(tǒng)檢測算法相比,本文所采用的自適應(yīng)門限的分形維數(shù)算法更具有有效性.然而,在漢語語音中,某些具有噪聲行為特征的輔音,在低信噪比的條件下仍然很難與噪聲進(jìn)行區(qū)分,有待進(jìn)一步研究.