基于連續(xù)小波閾值函數(shù)的語音增強(qiáng)技術(shù)

2016-04-13 02:00:06裴東興

山西電子技術(shù) 2016年1期

關(guān)鍵詞：小波變換信噪比

陸　真，裴東興

(1.中北大學(xué) 電子測試技術(shù)國家重點(diǎn)實(shí)驗(yàn)室，山西太原 030051；

2.中北大學(xué) 儀器科學(xué)與動(dòng)態(tài)測試教育部重點(diǎn)實(shí)驗(yàn)室，山西太原 030051)

基于連續(xù)小波閾值函數(shù)的語音增強(qiáng)技術(shù)

陸真1，2，裴東興1，2

(1.中北大學(xué) 電子測試技術(shù)國家重點(diǎn)實(shí)驗(yàn)室，山西太原 030051；

2.中北大學(xué) 儀器科學(xué)與動(dòng)態(tài)測試教育部重點(diǎn)實(shí)驗(yàn)室，山西太原 030051)

摘要：在語音信號(hào)處理過程中，語音增強(qiáng)目的是盡可能恢復(fù)出純凈的原始語音信號(hào)。針對(duì)純凈語音易被環(huán)境噪聲污染的問題，提出一種連續(xù)的閾值函數(shù)，并給出具體推導(dǎo)過程。該函數(shù)在一定程度上克服了傳統(tǒng)函數(shù)的非連續(xù)不可導(dǎo)等問題。語音小波系數(shù)經(jīng)過該函數(shù)處理后，語音質(zhì)量得到改善。仿真結(jié)果表明：該函數(shù)在一定程度上提高了語音識(shí)別系統(tǒng)前端預(yù)處理的抗干擾能力，輸入語音的信噪比得到了提高。

關(guān)鍵詞：語音增強(qiáng)；閾值函數(shù)；信噪比；小波變換

在通信系統(tǒng)中語音會(huì)不可避免地受到來自周圍環(huán)境、傳輸媒介引入的噪聲干擾。這些干擾信號(hào)最終導(dǎo)致接收到的語音信號(hào)并非是純凈的原始語音信號(hào)。由于噪聲導(dǎo)致語音質(zhì)量的下降會(huì)使許多語音處理系統(tǒng)的性能急劇惡化，所以，采用語音增強(qiáng)技術(shù)進(jìn)行預(yù)處理，將有效地改善系統(tǒng)性能[1，2]。

小波分析是近年來迅速發(fā)展起來的一種時(shí)頻域局部分析法。在低頻部分具有較高的頻率分辨率和較低的時(shí)間分辨率，在高頻部分具有較高的時(shí)間分辨率和較低的頻率分辨率?？朔硕虝r(shí)傅里葉變換固定分辨率的缺點(diǎn)，能夠?qū)⑿盘?hào)在多尺度分辨率上進(jìn)行小波分解，特別適合用來分析處理語音這種非平穩(wěn)信號(hào)[3]。目前小波變換法實(shí)現(xiàn)語音增強(qiáng)主要有三種方法：小波閾值去噪法、小波模極大值去噪法、基于小波系數(shù)尺度空間相關(guān)性去噪法。

目前小波閾值去噪法的應(yīng)用最廣，而噪聲閾值估計(jì)和合理的閾值函數(shù)是該算法的關(guān)鍵技術(shù)。Donoho D.L.在理論上證明了利用小波閾值去噪的合理性[4]。之后又提出了小波閾值變換法并提出了軟硬閾值函數(shù)[5]。隨后，學(xué)者們相互又提出多種改進(jìn)的閾值函數(shù)[6]，取得了一定的語音增強(qiáng)效果，克服了傳統(tǒng)函數(shù)的不足，但這些函數(shù)的不連續(xù)性，容易導(dǎo)致語音產(chǎn)生附加噪聲，降低了語音的舒適度。本文提出一種連續(xù)可導(dǎo)的小波閾值函數(shù)，結(jié)合最佳閾值估計(jì)，來達(dá)到對(duì)噪聲污染語音進(jìn)行增強(qiáng)的目的。

1小波閾值去噪技術(shù)

1.1語音信號(hào)特征

人的發(fā)聲器官由三部分組成：肺和氣管產(chǎn)生氣源；喉和聲帶組成聲源；咽腔、口腔、鼻腔組成聲道?？諝庥煞尾颗湃牒聿?，經(jīng)過聲帶進(jìn)入聲道，最后由嘴輻射出聲波，從而形成語音。在聲帶開啟時(shí)，空氣流從聲門噴射出來，形成一個(gè)脈沖，聲帶閉合時(shí)相應(yīng)于脈沖序列的間隙期。此時(shí)，在聲門處產(chǎn)生一個(gè)準(zhǔn)周期脈沖狀的空氣流，該空氣流經(jīng)過聲道后最終從嘴唇輻射出聲波，產(chǎn)生濁音?；l是語音特征中的一個(gè)重要參數(shù)，聲帶張開閉合的周期決定了基音頻率。男性的基因頻率為50~250 Hz，女性基音頻率一般為100~500 Hz。清音是肺部發(fā)出的空氣流不受影響的通過聲道或聲道突然完全閉合而形成。語音的共振峰是聲音在聲道傳輸中，其頻譜會(huì)受到聲道共振特性的影響，聲道而具有的一組共振頻率[7]。

聽覺感知主要是測試響度、音高和掩蔽效應(yīng)。人耳界限頻率范圍大約為20 Hz~20 kHz，語音的感知強(qiáng)度范圍為0~130 dB[8]。圖1為聽覺模型的一般原理框圖。響度是頻率和強(qiáng)度級(jí)的函數(shù)，音高被稱作基音，與響度互為補(bǔ)充。掩蔽效應(yīng)是兩個(gè)響度不等的聲音作用于人耳時(shí)，響度較高的頻率成分會(huì)影響對(duì)響度較低頻率成分的感受，使其不容易被察覺。

圖1　聽覺模型一般原理框圖

1.2小波閾值去噪的理論

小波變換的定義為：

(1)

小波重構(gòu)是小波變換的逆過程。由于處理的數(shù)字語音信號(hào)，為了減小計(jì)算量，縮減小波系數(shù)信息量的冗余，需要對(duì)小波變換進(jìn)行離散化，即將(1)式中a=2-j，b=k2-j，j，k∈Z。為了提高小波變換的速度，Mallat提出了mallat算法。該算法大大降低了小波變換的計(jì)算量，成為處理非平穩(wěn)信號(hào)的一種強(qiáng)有力的工具。

小波閾值去噪法的基本思想是對(duì)小波變換后的語音高頻信號(hào)設(shè)定最優(yōu)閾值，大于該閾值的信號(hào)保留，屏蔽掉小于閾值的信號(hào)，經(jīng)過閾值處理后的高頻小波系數(shù)和近似低頻信號(hào)重構(gòu)出增強(qiáng)的語音。

1.3小波閾值的估計(jì)

小波語音增強(qiáng)過程是比較關(guān)鍵的，小波閾值的選取在整個(gè)語音增強(qiáng)過程中是比較關(guān)鍵的一步，一般需要通過經(jīng)驗(yàn)選取。閾值估計(jì)一般有局部閾值估計(jì)法、全局閾值估計(jì)法和區(qū)域閾值估計(jì)法。其中全局閾值估計(jì)更能適應(yīng)于實(shí)際情況，但是其計(jì)算量要高于局部閾值估計(jì)[9]。通常選用閾值為：sqtwolog、rigrsure、heursure和minimaxi規(guī)則。

1) sqtwolog規(guī)則：被測信號(hào)中含有獨(dú)立同分布的噪聲時(shí)，經(jīng)過小波變換后，其噪聲的小波變換系數(shù)是獨(dú)立同分布的。若具有獨(dú)立同分布的噪聲經(jīng)過小波分解后，它的系數(shù)序列長度很長，根據(jù)通用閾值理論，存在一個(gè)閾值，使得該序列的所有小波系數(shù)都小于它。隨著分解層數(shù)的增大，小波系數(shù)的長度也越來越短，故在噪聲獨(dú)立分布的情況下，可以通過設(shè)置閾值函數(shù)來達(dá)到增強(qiáng)的目的。

2) rigrsure規(guī)則：該閾值是利用Stein的無偏估計(jì)求出的SURE閾值。其根據(jù)其閾值產(chǎn)生的風(fēng)險(xiǎn)函數(shù)曲線和最小風(fēng)險(xiǎn)點(diǎn)來確定Stein無偏風(fēng)險(xiǎn)閾值。

3) heursure規(guī)則：啟發(fā)式閾值是通用閾值和regrsure閾值的綜合體，是最優(yōu)的預(yù)測變量閾值選擇。當(dāng)輸入信號(hào)的信噪比較小時(shí)，SURE的估計(jì)會(huì)有很大的誤差，此時(shí)應(yīng)該采取固定的閾值準(zhǔn)則。

4) minimaxi規(guī)則：極大極小閾值采用的是一種比較固定的閾值，它將產(chǎn)生一個(gè)最小均方誤差的極值，是有一定的誤差。

2閾值函數(shù)的選取

2.1傳統(tǒng)小波閾值函數(shù)

閾值函數(shù)與重構(gòu)信號(hào)的精度和連續(xù)性有關(guān)，影響著小波去噪的效果。硬閾值函數(shù)和軟閾值函數(shù)是目前最常用的兩種閾值函數(shù)，圖2(a)為硬閾值方法，圖2(b)為軟閾值方法，其中，ω是小波系數(shù)的大小，ωλ是施加閾值后小波系數(shù)的大小。

(a) 硬閾值函數(shù)示意圖(b) 軟閾值函數(shù)示意圖

圖2最常用的兩種閾值函數(shù)

硬閾值的性質(zhì)決定了它處理的信號(hào)具有不連續(xù)性，軟閾值的性質(zhì)決定了它具有比硬閾值更好的連續(xù)性，但它的導(dǎo)數(shù)卻是不連續(xù)的，估計(jì)小波系數(shù)與帶噪小波系數(shù)存在恒定偏差，而且對(duì)于大于閾值的系數(shù)進(jìn)行定值壓縮與噪聲隨小波系數(shù)增大而減小的事實(shí)不符合。

2.2新的閾值函數(shù)

傳統(tǒng)的小波函數(shù)由于存在自身的不足，在處理信號(hào)后不能達(dá)到理想的效果。本文提出一種新的閾值函數(shù)，它既能實(shí)現(xiàn)閾值函數(shù)的功能，又具有二階甚至更高階以上的連續(xù)導(dǎo)數(shù)。

利用指數(shù)函數(shù)的特點(diǎn)，引入一種新閾值函數(shù)為：

(2)

其中，α為一待求常數(shù)?？梢姡鲜脚c軟閾值函數(shù)的趨勢相符。令β=1，分別等于1、2、3代入上式，當(dāng)α取不同值時(shí)，所對(duì)應(yīng)的函數(shù)圖形差別較大，因此，在應(yīng)用中必須選擇合適的α值才能得到最佳效果。

令x=-x代入上式后，得：

(3)

所以，改進(jìn)的閾值函數(shù)是一個(gè)奇函數(shù)。若要求改進(jìn)閾值函數(shù)單調(diào)遞增，則需要滿足：

(4)

對(duì)于分母，滿足：

(5)

(6)

由以上分析，進(jìn)一步可得：

(7)

故當(dāng)α=2/β時(shí)，f(x)取得最小值，故改進(jìn)的閾值函數(shù)為：

(8)

圖3　本文閾值函數(shù)示意圖

如圖3所示，該函數(shù)對(duì)比閾值較小值進(jìn)行一定的平滑度處理，并且在選定閾值處具有連續(xù)性，克服了傳統(tǒng)閾值函數(shù)的缺點(diǎn)，在大于選定閾值處，閾值趨于y=x直線，減小了固定偏差的問題。該函數(shù)具有連續(xù)性，且高階可導(dǎo)，減小了自身對(duì)語音信號(hào)的影響。

3實(shí)驗(yàn)結(jié)果分析及評(píng)價(jià)

實(shí)驗(yàn)條件：語音樣本通過Praat軟件錄制“中北大學(xué)電子測試重點(diǎn)實(shí)驗(yàn)室”2.25 s語音，采樣頻率為8 kHz。通過高斯添加高斯白噪聲來控制語音信號(hào)的輸入信噪比。語音分析采用的幀長為256，選擇50%的重疊，窗函數(shù)為漢明窗，小波基選用db4，對(duì)語音幀進(jìn)行3級(jí)分解。評(píng)價(jià)標(biāo)準(zhǔn)選用信噪比和均方誤差[10]。信噪比反映的是信號(hào)的感知質(zhì)量，表達(dá)式如式(9)；而均方誤差反映了估計(jì)值和實(shí)際值的相似程度，其值越小相似度越高，表達(dá)式如式(10)。以上評(píng)價(jià)指標(biāo)定義如下：

(9)

(10)

表1為不同輸入信噪比下，三種閾值函數(shù)在Stein無偏風(fēng)險(xiǎn)估計(jì)閾值下增強(qiáng)語音的輸出信噪比SNRout和均方誤差MSE。

表1　三種閾值函數(shù)增強(qiáng)語音SNRout和MSE的數(shù)據(jù)比較

圖4　(a)原始語音波形,(b)輸入信噪比為1.68被污染的語音波形,

圖5　三種閾值函數(shù)語音增強(qiáng)效果的比較

圖4是輸入信噪比為1.68時(shí)，分別對(duì)其進(jìn)行硬閾值函數(shù)、軟閾值函數(shù)和本文閾值函數(shù)得到的語音增強(qiáng)后歸一化波形。圖5為三種閾值函數(shù)下輸出信噪比與輸入信噪比的趨勢圖。

1) 在三種閾值函數(shù)去噪方法下，可以看出，改進(jìn)閾值函數(shù)明顯優(yōu)于其它兩種方法；

2) 在輸入信噪比相同的情況下，本文閾值函數(shù)法的語音增強(qiáng)效果明顯，特別是在輸入信噪比小于零時(shí)；

3) 從語音的舒適感和可懂度上看，本文閾值函數(shù)的效果優(yōu)于軟、硬閾值函數(shù)。

4結(jié)論

由于噪聲來源眾多，在不同的應(yīng)用場合其特性又各不相同，其增加了語音增強(qiáng)算法的復(fù)雜性。要實(shí)現(xiàn)對(duì)語音增強(qiáng)質(zhì)量的客觀評(píng)價(jià)，需從語音的清晰度和可懂度兩個(gè)方面入手。傳統(tǒng)的閾值函數(shù)一般是分段函數(shù)，由于它的不連續(xù)性容易導(dǎo)致處理后的語音產(chǎn)生畸變，如殘留的音樂噪聲，而影響了語音的質(zhì)量。本文提出了一種閾值函數(shù)，該函數(shù)具有連續(xù)可導(dǎo)性，并給出具體的數(shù)學(xué)推導(dǎo)表達(dá)式，并結(jié)合rigrsure規(guī)則下的閾值來對(duì)污染的語音信號(hào)增強(qiáng)。仿真結(jié)果表明：新閾值函數(shù)克服了傳統(tǒng)的閾值去噪的缺點(diǎn)，引入更少的噪聲且語音舒適感更強(qiáng)。

參考文獻(xiàn)

[1]李軼南，張雄偉，曾理，等.改進(jìn)的稀疏字典學(xué)習(xí)單通道語音增強(qiáng)算法[J].信號(hào)處理,2014(1):44-50.

[2]趙力，黃程韋.實(shí)用語音情感識(shí)別中的若干關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理,2014(2):157-170.

[3]陶華偉，査誠，梁瑞宇，等.面向語音情感識(shí)別的語譜圖特征提取算法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(5):817-821.

[4]Donoho D L.De-noising by Soft-thresholding[J].IEEE Trans Inform Theory,1995,41(3):613-627.

[5]Donoho D L,Johnstone I M.Ideal Spatial Adaption by Wavelet Shrinkage[J].Biometrika,1994,81(2):425-455.

[6]徐志奪.基于小波變換的語音增強(qiáng)算法研究[D].哈爾濱：哈爾濱工程大學(xué),2013.

[7]玄成君.基于語音頻率特性抑制音素影響的說話人特征提取[D].天津：天津大學(xué),2014.

[8]顏利君.基于噪聲估計(jì)和掩蔽效應(yīng)的語音增強(qiáng)[D].成都：西南交通大學(xué),2014.

[9]周氏青香.聽覺特性及噪聲估計(jì)在語音增強(qiáng)算法中的研究[D].上海：華東理工大學(xué),2013.

[10]張波.基于DSP助聽器的響度補(bǔ)償技術(shù)研究[D].太原：中北大學(xué),2014.

The Algorithm of Image Denoising Based on the Optimized Wavelet Thresholding Function

Lu Zhen1,2, Pei Dongxing1,2

(1.NationalKeyLaboratoryforElectronicMeasurementTechnology,NorthUniversityofChina,TaiyuanShanxi030051,China;2.KeyLaboratoryofInstrumentationScience&DynamicMeasurementofMinistryofEducation,NorthUniversityofChina,TaiyuanShanxi030051,China)

Abstract:For the problem that the signal of digital hearing aid is interfered by background noise in the process of receiving and processing, a kind of optimized de-noising algorithm is put forward based on traditional method of wavelet threshold. It has the feature of higher order continuous differentiable, and additionally, the problem of indifferentiable with the traditional method of wavelet thresholding is solved. This threshold function can be used to process the wavelet coefficient of speech signal with noise to have a speech de-noising effect. Eventually, the simulation results show that compared to the noise ratio(SNR),the mean square error(MSE) and speech intelligibility of the speech de-noising signal with the new threshold function the signal are superior to the other non continuous differentiable thresholding function.

Key words:speech signal de-noising; wavelet transform; speech intelligibility; threshold de-noising

中圖分類號(hào)：TN912.35

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1674- 4578(2016)01- 0040- 03

作者簡介：陸真(1988- )，男，湖北襄陽人，碩士研究生，研究方向：動(dòng)態(tài)測控與智能儀器、數(shù)字語音與圖像信號(hào)處理。

收稿日期：2015-09-21修回日期：2015-10-29

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于連續(xù)小波閾值函數(shù)的語音增強(qiáng)技術(shù)