基于自適應(yīng)門限的分形維數(shù)語音端點(diǎn)檢測

2020-02-15 06:17鄭艷，高爽

東北大學(xué)學(xué)報(bào)（自然科學(xué)版） 2020年1期

鄭艷，高爽

(東北大學(xué) 信息科學(xué)與工程學(xué)院，遼寧沈陽 110819)

復(fù)雜背景下語音信號(hào)精確的端點(diǎn)檢測是語音識(shí)別領(lǐng)域一個(gè)非常重要的研究分支[1].所謂端點(diǎn)檢測，就是要對(duì)一段原始聲音數(shù)據(jù)中的語音段進(jìn)行定位，找到語音段的起止點(diǎn)[2].語音識(shí)別系統(tǒng)的性能、魯棒性以及處理時(shí)間可通過精確高效的端點(diǎn)檢測來大幅度提高，因此，該領(lǐng)域的研究具有重要的理論意義和實(shí)際應(yīng)用價(jià)值[3].傳統(tǒng)的檢測方法主要是根據(jù)語音的短時(shí)能量、過零率等語音特征來確定端點(diǎn)[4]，但這些特征只局限于無噪聲或信噪比較高的情況，在低信噪比時(shí)就會(huì)失去效果[5-6].

隨著聲學(xué)和空氣動(dòng)力學(xué)等領(lǐng)域研究工作的不斷深入，語音信號(hào)已被證明是一個(gè)復(fù)雜的非線性過程，其中存在著產(chǎn)生混沌的機(jī)制.而描述混沌信號(hào)有效的手段就是分形理論[7]，它的基本特征就是局部與整體保持自相似性，語音時(shí)域波形也具有自相似性，且表現(xiàn)出周期性和隨機(jī)性，因此將分形維數(shù)引入語音信號(hào)分析具有很好的理論基礎(chǔ).文獻(xiàn)[8]將分形維數(shù)用于語音起止點(diǎn)的檢測中，為了提高檢測的準(zhǔn)確性，算法從短時(shí)頻域上提取分形維數(shù)來區(qū)分語音和噪聲，雖然在檢測準(zhǔn)確率上有所提高，但由于選取的是固定門限值，使得魯棒性較差.本文在此基礎(chǔ)上，給出了一種基于自適應(yīng)門限的分形維數(shù)語音端點(diǎn)檢測算法，在低信噪比下提高了語音端點(diǎn)檢測的準(zhǔn)確性和魯棒性.

1 基于分形維數(shù)的端點(diǎn)檢測

1.1 分形維數(shù)的定義

分形維數(shù)是描述分形理論特征的重要參數(shù)，從測度的角度將維數(shù)從整數(shù)擴(kuò)大到分?jǐn)?shù)，突破了一般拓?fù)浼S數(shù)為整數(shù)的界限[9].

n維空間子集F的分形維數(shù)DB定義為

(1)

其中:r為單元大??；N(F)表示用單元大小r來覆蓋子集F所需的個(gè)數(shù).

1.2 語音信號(hào)分形維數(shù)的計(jì)算

計(jì)算步驟如下：

1)將原始語音信號(hào)歸一化，得到信號(hào)x(t).

2)設(shè)r足夠小，取邊長為r的正方形，可以得到x(t)波形圖被N(F)個(gè)正方形網(wǎng)格所覆蓋，多次改變r(jià)的值，計(jì)算出相應(yīng)的lgN(F)，lg(1/r).

3)令xi=lg(1/r)，yi=lgN(F)，i=1,2，，M，利用(xi,yi)最小均方差擬合直線y=kx+b，此直線的斜率即為分形維數(shù)DB.令

(2)

(3)

1.3 帶噪語音信號(hào)的端點(diǎn)檢測

分形維數(shù)對(duì)于信號(hào)的復(fù)雜程度很敏感，體現(xiàn)了信號(hào)波形的精細(xì)度和規(guī)律性，越規(guī)律、細(xì)節(jié)越不豐富的信號(hào)其分形維數(shù)越小.在噪聲語音信號(hào)中，語音信號(hào)的波形較噪聲信號(hào)(如高斯白噪聲)的波形具有較大的周期性和規(guī)則性[10-14].因此語音的分形維數(shù)小于噪聲的分形維數(shù)，由此來設(shè)計(jì)算法進(jìn)行端點(diǎn)檢測.算法流程圖如圖1所示.

1.4 實(shí)驗(yàn)仿真

在Matlab環(huán)境下，輸入內(nèi)容為“長度”的純凈音頻，格式為wav，采樣頻率為8 kHz，由噪聲庫提供高斯白噪聲.在無背景噪聲和信噪比(SNR)分別為0，10 dB的情況下，用文獻(xiàn)[8]采用固定門限值的短時(shí)頻域分形維數(shù)算法來進(jìn)行端點(diǎn)檢測的實(shí)驗(yàn).固定的門限按照傳統(tǒng)方法選取，即選前20幀的分形維數(shù)的平均值作為門限值，是一個(gè)固定值，得到的實(shí)驗(yàn)結(jié)果如圖2～圖4所示.

由圖2可知，在無背景噪聲下，利用語音信號(hào)的自身特點(diǎn)，分形維數(shù)算法得到了較高的檢測率.圖3為SNR=10 dB，語音和噪聲相比精細(xì)度更小，規(guī)則度更高，兩者的分形維數(shù)差別明顯，也能找到語音的起止點(diǎn)，有效地進(jìn)行端點(diǎn)檢測.從圖4可見，當(dāng)SNR=0時(shí)，原始語音信號(hào)中幅值低的部分已經(jīng)被噪聲所覆蓋，尤其體現(xiàn)在語音的起止和結(jié)束部分，無法檢測出語音端點(diǎn).究其原因，算法中所使用的門限是一個(gè)固定值，而固定門限對(duì)于波動(dòng)過大的背景噪聲處理能力有限，失去了理想的效果.因此將自適應(yīng)門限引入分形維數(shù)中來改進(jìn)算法.

2 基于自適應(yīng)門限的分形維數(shù)端點(diǎn)檢測算法設(shè)計(jì)

2.1 自適應(yīng)門限的設(shè)計(jì)

自適應(yīng)門限的基本思想是讓門限隨信噪比變化而變化.本文通過對(duì)大量語音數(shù)據(jù)進(jìn)行擬合分析，由每一時(shí)刻的分形維數(shù)確定信噪比，從而確定門限，以達(dá)到自適應(yīng)的效果.計(jì)算過程如下：

1) 采用曲線擬合來估計(jì)語音信號(hào)的SNR.

SNR定義為

(4)

其中，Ps和Pn分別為語音和噪聲的功率.

對(duì)安靜環(huán)境下錄制的大量純凈語音段加入平穩(wěn)高斯白噪聲，分別混音SNR為0～40 dB的帶噪語音，然后在較純凈語音信號(hào)波形上手工標(biāo)記語音段的起止點(diǎn)，依照手工標(biāo)記的端點(diǎn)分別統(tǒng)計(jì)不同SNR下帶噪語音的語音段和噪聲段的均值Ds,mean和Dn,mean,采用多項(xiàng)式擬合方法，設(shè)抽樣信號(hào)的SNR的估計(jì)值為

SNR=10lgf(Ds,mean/Dn,mean) .

(5)

其中f為待擬合n階多項(xiàng)式，式(5)等價(jià)于

10(SNR/10)=f(Ds,mean/Dn,mean)，

(6)

令snr=10(SNR/10)，代入式(6)中得

snr=f(Ds,mean/Dn,mean) .

(7)

擬合結(jié)果如圖5所示，綜合考慮運(yùn)算量和擬合誤差兩個(gè)因素，選擇三階多項(xiàng)式作為擬合結(jié)果，將結(jié)果代入式(5)中，得到分形維數(shù)和信噪比的關(guān)系式為

SNR=10lg[1.002 5(Ds,mean/Dn,mean)3-3.023 9(Ds,mean/Dn,mean)2+3.038 2(Ds,mean/Dn,mean)-1.016 8].

(8)

2) 確定SNR和門限的關(guān)系.

對(duì)平穩(wěn)高斯白噪聲環(huán)境下SNR從0～40 dB的語音信號(hào)分別測試出端點(diǎn)檢測的最佳門限值G.對(duì)語音信號(hào)序列進(jìn)行中值濾波兩次，然后取序列前后各20幀，計(jì)算平均值，平均值即最佳門限值.利用直線擬合，可以得到SNR在0～40 dB范圍內(nèi)的最佳門限G和SNR擬合曲線，如圖6所示.

由圖6可得最佳門限G和SNR的函數(shù)關(guān)系如式(9)所示：

(9)

2.2 端點(diǎn)檢測步驟

步驟1 計(jì)算起始若干幀的分形維數(shù)，求得Dn,mean.

步驟2 設(shè)定一個(gè)初始門限G.

步驟3 開始端點(diǎn)檢測，同時(shí)逐幀對(duì)SNR估計(jì)式(8)中的Dn,mean進(jìn)行實(shí)時(shí)更新，公式為

(10)

其中：D(i)為前一噪聲幀的分形維數(shù)；ki為調(diào)整因子，初始值為1，且每更新一幀，ki加1.

步驟4 當(dāng)檢測到語音起點(diǎn)時(shí)，停止對(duì)Dn,mean的更新.

步驟5 由下一幀開始對(duì)Ds,mean進(jìn)行更新，更新公式為

(11)

步驟6 根據(jù)1.3節(jié)所述的檢測方法用門限來判決是否為語音的終止點(diǎn)，若是則停止對(duì)Ds,mean的更新，之后更新Dn,mean.重復(fù)上述過程，直至采樣幀結(jié)束.

其中，每執(zhí)行一次更新操作，由式(8)計(jì)算SNR,進(jìn)而計(jì)算門限G.

在該算法中，每一幀的分形維數(shù)是變化的，由此計(jì)算出的門限也是變化的，達(dá)到了自適應(yīng)的效果.通過每一幀分形維數(shù)和門限的比較，可以確定每一幀是語音還是噪聲，實(shí)現(xiàn)了實(shí)時(shí)檢測.

2.3 實(shí)驗(yàn)仿真

為了檢測算法的有效性，本文再次對(duì)SNR=0時(shí)的語音進(jìn)行端點(diǎn)檢測，結(jié)果如圖7所示，并采用改進(jìn)的自適應(yīng)門限的分形維數(shù)算法與傳統(tǒng)短時(shí)能量算法進(jìn)行仿真對(duì)比實(shí)驗(yàn).圖8給出了仿真對(duì)比實(shí)驗(yàn)的結(jié)果.

由圖7和圖4對(duì)比可見，自適應(yīng)門限的加入在低信噪比的情況下實(shí)現(xiàn)了有效的語音端點(diǎn)檢測.

由圖8可知自適應(yīng)門限的分形維數(shù)算法在低信噪比下能夠有效地進(jìn)行端點(diǎn)檢測，并具有魯棒性；而短時(shí)能量算法，因語音和噪聲都具有能量，端點(diǎn)檢測效果并不理想.為了更直觀衡量改進(jìn)算法的實(shí)際性能，將其與短時(shí)能量算法進(jìn)行檢測準(zhǔn)確率的對(duì)比，檢測準(zhǔn)確率的計(jì)算公式為

(12)

在不同信噪比下，用兩種算法分別對(duì)抽樣語音信號(hào)進(jìn)行檢測，并計(jì)算準(zhǔn)確率.圖9給出了信噪比為-5～20 dB時(shí)兩種算法檢測的準(zhǔn)確率.

從圖9中可以清晰地看出，改進(jìn)的算法明顯優(yōu)于傳統(tǒng)短時(shí)能量算法.當(dāng)信噪比大于15 dB時(shí)，也就是語音主觀上不受噪聲影響，兩種檢測算法都得到了較高的準(zhǔn)確率，但是在低信噪比下，語音中存在著明顯的噪聲，傳統(tǒng)短時(shí)能量算法的準(zhǔn)確率下降到很低的水平，而基于自適應(yīng)門限的分形維數(shù)算法的準(zhǔn)確率只受到了輕微的影響，說明改進(jìn)的算法在低信噪比下仍有良好的準(zhǔn)確率和魯棒性.

3 結(jié) 語

本文利用分形維數(shù)對(duì)信號(hào)的敏感程度來區(qū)分語音和噪聲，并使用自適應(yīng)門限進(jìn)行判斷，不僅有效地實(shí)現(xiàn)了端點(diǎn)檢測，而且更具有魯棒性，提高了檢測的正確率.與傳統(tǒng)檢測算法相比，本文所采用的自適應(yīng)門限的分形維數(shù)算法更具有有效性.然而，在漢語語音中，某些具有噪聲行為特征的輔音，在低信噪比的條件下仍然很難與噪聲進(jìn)行區(qū)分，有待進(jìn)一步研究.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡