張小宇,劉云清,趙馨
(長春理工大學(xué) 電子信息工程學(xué)院,長春 130022)
基于時(shí)域?yàn)V波多頻段譜減法的語音增強(qiáng)
張小宇,劉云清,趙馨
(長春理工大學(xué) 電子信息工程學(xué)院,長春 130022)
傳統(tǒng)的多頻段語音增強(qiáng)是將頻域分割成各個(gè)頻段,并對(duì)每個(gè)頻段單獨(dú)進(jìn)行語音增強(qiáng),但是因?yàn)橄噜忣l帶的共振峰影響清晰語音估計(jì),導(dǎo)致了語音識(shí)別效果不理想,為了減少相鄰頻帶的共振峰帶來的影響,提出了一種時(shí)域?yàn)V波中多頻帶語音增強(qiáng)的方法,通過將時(shí)域中的未處理語音過濾成各種等效的基于矩形帶寬的子帶,然后在每個(gè)頻帶中使用基于離散余弦變換(DCT)譜減法來估計(jì)清晰語音,并結(jié)合使用各個(gè)頻帶信噪比(SNR)獲得頻帶特定加權(quán)因子。在SNR為0~10dB的汽車噪聲、餐廳噪聲、列車噪聲、白色噪聲和工廠噪聲的環(huán)境下基于時(shí)域多頻段語音增強(qiáng)算法增強(qiáng)效果優(yōu)于現(xiàn)有的技術(shù)。
譜減法;多頻帶;DCT
語音通信系統(tǒng)的性能特征在于語音質(zhì)量和可懂度,然而,這些因素容易受到外部噪聲源干擾而劣化。在這些源中,背景噪聲是最常見的,并且其以加法方式影響語音信號(hào)。這需要有效的語音增強(qiáng)算法來提高語音信號(hào)的質(zhì)量和可理解性,從而提高系統(tǒng)的性能并降低聽眾的疲勞[1]。語音增強(qiáng)算法的作用是去除噪聲并增強(qiáng)語音特定分量,從而產(chǎn)生清晰、無噪聲的語音。目前的工作重點(diǎn)是頻譜處理方法,其比較成功的方法是譜減法[2]。在文獻(xiàn)[4-7]中有對(duì)基本譜減法的一些改進(jìn),這些語音增強(qiáng)算法需要對(duì)噪聲頻譜進(jìn)行估計(jì),可以使用語音活動(dòng)檢測器[3]或使用噪聲估計(jì)算法[4]來估計(jì)。
頻域語音增強(qiáng)的噪聲去除方法主要使用傅里葉變換(FT)衍生的頻譜。這種方法不僅可以增強(qiáng)未處理語音的幅度頻譜,同時(shí)可以保持未處理語音的相位不受干擾,因?yàn)檫@是純凈語音可能的最佳相位[5]。然而,當(dāng)使用未處理語音的相位信息時(shí),語音可以被增強(qiáng)的程度是有限的[6]。為了克服該限制,可以從提供符號(hào)信息的方法入手,而不是用相位的實(shí)際變換(諸如離散余弦變換(DCT))導(dǎo)出頻譜。此外,與FT相比,DCT提供了高分辨率和能量壓縮[7]。在文獻(xiàn)[8,9]中,作者使用閾值方法去除DCT域中的未處理語音中的噪聲。DCT的能量壓縮屬性在語音增強(qiáng)中是非常重要的,因?yàn)檎Z音的整體質(zhì)量受到有聲段質(zhì)量的影響,對(duì)于該有聲段,大多數(shù)能量被限制為低頻分量而不是無聲語音段。
雖然這些技術(shù)顯著改善了語音質(zhì)量,但是它們作為單個(gè)實(shí)體作用于整個(gè)頻帶,而語音和噪聲分量并不是均勻地分布在所有的頻帶上。因此提出了改進(jìn)的多頻譜譜減法,將未處理語音頻譜線性或非線性的劃分各個(gè)子帶,并且獨(dú)立地對(duì)每個(gè)子帶執(zhí)行噪聲去除。同時(shí)因?yàn)榇艠O相互作用的問題,一個(gè)頻帶中的頻譜分量對(duì)相鄰頻帶中的頻譜分量是有影響的;并且與純凈語音不同,增強(qiáng)語音不能通過直接組合每個(gè)子帶中的頻率而使用逆傅里葉變換,即:通過傅里葉變換給每個(gè)頻帶不同的權(quán)重,將信號(hào)分解成含有不同權(quán)重的頻率分量;未處理語音由于噪聲的不均勻分布,頻域頻帶劃分將導(dǎo)致子帶具有不同的信噪比(SNR),當(dāng)每個(gè)子帶中的語音分量被增強(qiáng)時(shí),每個(gè)子帶的SNR改變,即頻率分量的分布也與之前的不同。所以在使用導(dǎo)出原始未處理語音的權(quán)重就會(huì)導(dǎo)致純凈語音的不準(zhǔn)確估計(jì)。為了克服這些問題,使用時(shí)域?yàn)V波可能更合適。
本文提出了改進(jìn)的語音增強(qiáng)技術(shù),通過使用DCT在語音段中能量壓縮方面的優(yōu)點(diǎn),以及用于時(shí)域?yàn)V波生成的多頻帶可以減少頻譜域?yàn)V波中極點(diǎn)之間的相互作用的優(yōu)點(diǎn)。在譜減法中,由于噪聲分量不均勻分布在所有的頻帶上,因此將頻帶特定的加權(quán)因子分配給每一個(gè)子帶,該帶特定加權(quán)因子在低SNR頻帶上大于高SNR頻帶,并且基于相應(yīng)頻帶SNR來計(jì)算。
譜減法是通過從未處理語音頻譜分量中減去噪聲分量來估計(jì)干凈的語音頻率分量。假設(shè)語音s(n)和噪聲分量d(n)不相關(guān),并且所考慮的噪聲是背景噪聲,其本質(zhì)上是加性。
即:
一般使用FT將未處理語音變換到頻域,然而現(xiàn)在主要是利用DCT的優(yōu)點(diǎn),使用DCT(類型II):
其中,X(k),S(k)和D(k)分別表示未處理語音,純凈語音和噪聲的DCT導(dǎo)出的幅度譜。噪聲的幅度D(k)是從未處理語音中的無音段估計(jì)的。
使用譜減法估計(jì)純凈語音頻譜幅度:
其中,α為增強(qiáng)高信噪比段的過減因子,β是噪聲的頻譜下限參數(shù),類似于離散傅里葉變換(DFT),處理后的頻譜和相位(未處理語音頻譜分量的符號(hào)信息)組合以獲得增強(qiáng)的語音信號(hào)。
圖1 基于SSFT和SSDCT的譜減法算法的比較
為了進(jìn)行比較,該系統(tǒng)實(shí)現(xiàn)了基于全波段FT的譜減法(SSFT)算法[10]。如圖1(a)-(e)所示,給出了受0dB的餐廳噪聲影響的語音信號(hào)、噪聲語音信號(hào)的頻譜圖,通過SSFT和SSDCT算法增強(qiáng)的語音信號(hào)以及干凈的語音信號(hào)的頻譜圖。在圖1(c)中通過SSFT增強(qiáng)的語音中,話語的幾個(gè)低頻分量不被保留。然而,在圖1(d)中通過SSDCT增強(qiáng)的這些信息分量,通過保留提高語音質(zhì)量。為了進(jìn)一步改善語音質(zhì)量,在各種SNR水平下對(duì)未處理語音數(shù)據(jù)執(zhí)行時(shí)域?yàn)V波多頻帶譜減法(TMB-SS)。
由于噪聲和語音頻譜分量不均勻分布在所有頻帶上,因此多頻帶譜減法優(yōu)于全頻譜減法。從子帶中的語音分量減去噪聲分量,則可以更好的降低噪聲。子帶語音頻譜可以通過將頻率段分成不同的頻帶或通過在時(shí)域中將信號(hào)濾波到不同的頻帶,然后估計(jì)頻譜來獲得。在這個(gè)系統(tǒng)中是通過時(shí)域?yàn)V波獲得多個(gè)子帶,因?yàn)樗梢詼p少相鄰頻帶頻譜分量的影響。提出的語音增強(qiáng)算法TMB-SS的框圖如圖2所示。為了進(jìn)一步改善子頻帶級(jí)別的降噪,基于等效矩形帶寬(ERB)尺度提取多個(gè)子帶。ERB尺度與人類聽覺系統(tǒng)高度相關(guān),并且與其他臨界頻帶尺度相比,它能更精確地模擬低頻分量[11]。ERB濾波器的帶寬計(jì)算為:
其中,fc是以Hz為單位的濾波器的中心頻率。濾波器的上限截止頻率和下限截止頻率(fu和fl)為:
然后未處理語音信號(hào)通過這些濾波器獲得臨界頻帶信號(hào),未處理語音信號(hào)以臨界頻帶信號(hào)的組合表示:
其中,M表示臨界頻帶的數(shù)目,xi(n)是第i個(gè)臨界頻帶中的未處理語音信號(hào)。
在這個(gè)系統(tǒng)中,使用時(shí)域?yàn)V波是為了減少相鄰頻帶的影響,并且基于ERB將未處理語音信號(hào)劃分為子帶。SS-DCT單獨(dú)地應(yīng)用于每個(gè)頻帶,用于估計(jì)在臨界頻帶級(jí)的純凈語音頻譜。由于噪聲頻譜分量并不是均勻分布在所有臨界頻帶內(nèi),因此在每個(gè)子帶信號(hào)中需要實(shí)現(xiàn)的噪聲減少量和信號(hào)失真(SD)是不同的。所以應(yīng)該在其它頻帶上增強(qiáng)一個(gè)子帶,減小低SNR頻帶與高SNR頻帶的SD,加權(quán)因子是在頻帶級(jí)別上提供對(duì)噪聲減少和SD的附加程度的控制。所以,基于相應(yīng)的頻帶SNR將頻帶特定加權(quán)因子γi引入每個(gè)臨界頻帶。過減因子(αi)通過僅處理子帶信號(hào)來強(qiáng)調(diào)段中的噪聲去除,而γi在頻帶級(jí)上提供對(duì)噪聲去除的附加程度的控制。因此,除了過減因子之外,在當(dāng)前工作中提出帶特定加權(quán)因子(γi)。估計(jì)的純凈語音頻譜由下式給出:
圖2 語音增強(qiáng)算法TMB-SS的框圖
其中,βi是取決于在每個(gè)臨界頻帶中估計(jì)的噪聲的頻譜下限參數(shù)。高SNR頻帶與低SNR頻帶相比具有較低的加權(quán)因子,并且基于使用單獨(dú)頻帶SNR計(jì)算的平均SNR來分類。根據(jù)經(jīng)驗(yàn)觀察,當(dāng)加權(quán)因子的范圍在1和2.5之間時(shí),可以實(shí)現(xiàn)更好的噪聲去除。因此取最高SNR的頻帶的加權(quán)因子為1,最低SNR的頻帶的加權(quán)因子為2.5。對(duì)于具有中間SNR的頻帶,使用在1.08和2.04之間(步長為0.08)的加權(quán)因子。使用客觀測量法來評(píng)估頻帶特定加權(quán)因子對(duì)所提出的語音增強(qiáng)算法(TMB-SS)的性能影響,所獲得的分?jǐn)?shù)在表1中列出。從得分可以看出,當(dāng)使用γi時(shí),SD(SD)和背景失真(BD)的量減少,說明改進(jìn)了語音增強(qiáng)的質(zhì)量。
最后,組合每個(gè)臨界頻帶估計(jì)的清晰語音信號(hào),獲得如下式中的增強(qiáng)語音信號(hào)
語音增強(qiáng)算法使用從TIMIT語料庫和NOIZEUS數(shù)據(jù)庫隨機(jī)選擇的句子進(jìn)行評(píng)估。NOIZEUS是一個(gè)未處理語音語料庫,包含30個(gè)話語,由三個(gè)男性和三個(gè)女性說話者說話,被來自AURORA數(shù)據(jù)庫的八個(gè)真實(shí)世界噪聲破壞。NOISEX-92是一個(gè)噪聲數(shù)據(jù)庫,包括八種不同的非固定噪聲,如工廠、機(jī)槍、白噪聲、粉紅噪聲等。將來自NOISEX-92和AURORA數(shù)據(jù)庫的噪聲以不同的SNR水平添加到TIMIT和NOIZEUS數(shù)據(jù)庫中干凈的語音中,獲得未處理語音信號(hào)。在這個(gè)系統(tǒng)中,以0-10dB的SNR水平,添加五個(gè)不同的噪聲,即:餐廳噪聲、白噪聲、工廠噪聲(選自NOISEX-92)、汽車噪聲和火車噪聲(選自AURORA)。
從SSFT和SSDCT算法的目標(biāo)質(zhì)量測量獲得的觀察結(jié)果討論如下:
從PESQ值(參見表2)可以看出,在考慮所有的SNR條件下,對(duì)于列車噪聲(改善為0.1-0.4),SSDCT產(chǎn)生的質(zhì)量優(yōu)于SSFT的語音。對(duì)于汽車,工廠和多余噪聲,SSDCT的性能與SSFT的性能非常相似。
?對(duì)于除白噪聲之外的所有噪聲,SSDCT獲得的整體質(zhì)量分?jǐn)?shù)與SSFT更接近,如表2所示。
?SSDCT的性能在SD和BD方面與SSFT相當(dāng),如表3所示。對(duì)于餐廳噪聲,SSDCT將BD降低到與SSFT相比相當(dāng)大的量,并且通過較高的BD分?jǐn)?shù)來反映。
從FMB-SS和TMB-SS算法的客觀質(zhì)量測量,得出以下觀察結(jié)果:
?TMB-SS算法在所有SNR水平上從受列車、餐廳噪聲、白噪聲和工廠噪聲影響的語音中得出高度增強(qiáng)的語音,PESQ分?jǐn)?shù)比FMB-SS提高了0.1-0.4,如表2所示。
在汽車噪聲的情況下,TMB-SS執(zhí)行更接近FMB-SS,并且在SNR>4dB(在PESQ值中改善0.1-0.3)時(shí)產(chǎn)生更好的性能。
由于TMB-SS比FMB-SS引入的背景和SD低,在表2中觀察到增強(qiáng)語音的整體質(zhì)量改善為0.1-0.3。
對(duì)于TMB-SS,在所有SNR級(jí)別的白噪聲和工廠噪聲,以及高于5dB SNR水平的汽車、火車和餐廳噪聲,增強(qiáng)語音信號(hào)中的殘留噪聲(由BD分?jǐn)?shù)測量)較低(參見表3),從而提高整體質(zhì)量。
在所考慮的大多數(shù)噪聲條件下,在語音增強(qiáng)中使用TMB-SS具有比FMB-SS低的SD量。
表1 具有和不具有帶特定加權(quán)因子γi的TMB-SS的性能比較
表2 0-10dB各種噪聲PESQ和整體質(zhì)量的平均值
表3 0-10dB各種噪聲SD和BD的平均值
為了解決頻域多頻帶方法中的相鄰頻帶頻率分量的影響,提出了基于時(shí)域多頻段語音增強(qiáng)算法,從實(shí)驗(yàn)結(jié)果可以看出,本文提出的算法比傳統(tǒng)的語音增強(qiáng)方法增強(qiáng)效果好。PESQ值驗(yàn)證了改進(jìn)的算法具有更好的語音質(zhì)量,使用改進(jìn)的算法具有比傳統(tǒng)算法低的SD量和BD量。
[1]Lim JS,Oppenheim AV.Enhancement and bandwidth compression of noisy speech[J].Proceeding of the IEEE,2005,67(12):1586-1604.
[2]Boll S.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transactions on Acoustics Speech and Signal Process,1979,27(2):13-120.
[3]陳歡,邱曉暉.改進(jìn)譜減法語音增強(qiáng)算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2014(04):69-71+76.
[4]Plapous C,Marro C,Scalart P.Improved signal-tonoise ratio estimation for speech enhancement[J].IEEE Trans Audio,Speech,Lang Process,2006,14(6):2098-2108.
[5]符成山.一種改進(jìn)譜減法語音增強(qiáng)算法的研究[J].信息通信,2016(06):21-22.
[6]McAulay R,Malpass M.Speech enhancement using a soft-decision noise suppression filter[J].IEEE Trans Acoust Speech Signal Process,1980,28(2):137-145.
[7]Junqua JC,Reaves B,Mak B.A study of endpoint detection algorithms in adverse condition:incidence on a DTW and HMM recognizer[J].Proc Of European Conf on Speech Communication and Technology,1991,3(2):1371-1374.
[8]Martin R.Noise power spectral density estimation based on optimal smoothing and minimum statistics[J].IEEE Trans Speech Audio Process,2001,9(5):504-512.
[9]寧礦鳳,王景芳.DCT域維納濾波語音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(8):226-230.
[10]Cohen I,Berdugo B.Noise estimation by minima controlled recursive averaging for robust speech enhancement[J].IEEE Signal Process Lett,2002,9(1):12-15.
[11]張君昌,劉海鵬,樊養(yǎng)余.一種自適應(yīng)時(shí)移與閾值的DCT語音增強(qiáng)算法[J].西安電子科技大學(xué)學(xué)報(bào),2014,41(6):155-159.
Speech Enhancement Based on Time Domain Filtering Multi-band Spectrum Subtraction
ZHANG Xiaoyu,LIU Yunqing,ZHAO Xin
(School of Electronic and Information Engineering,Changchun University of Science and Technology,Changchun 130022)
The traditional multi-band speech is enhanced due to the problem of the pole interaction between the various frequency bands,which leads to the unsatisfactory speech recognition effect.A method of multi-band speech enhancement in time domain filtering is proposed,clean speech is estimated by filtering unprocessed speech in the temporal domain into various equivalent rectangular bandwidth based subbands followed by discrete cosine transform(DCT)based spectral speech enhancement in each band using spectral subtraction and incorporates band-specific weighting factor obtained using respective band signal-tonoise ratio(SNR).It is observed that DCT-derived spectrum based temporal-domain multiband speech enhancement algorithm outperforms the existing techniques for car,babble,train,white,and factory noise in the 0–10 dB SNR levels.
spectral subtraction;multi–band;DCT
TN912.35
A
1672-9870(2017)04-0078-05
2017-06-05
吉林省科技攻關(guān)項(xiàng)目(20160204003GX)
張小宇(1990-),女,碩士研究生,E-mail:1179353525@qq.com