張衛(wèi)強(qiáng),郭 璁,張 喬,康 健,何 亮,劉 加,Johnson Michael T,
(1. 清華大學(xué)電子工程系,北京 100084;2. 馬凱特大學(xué)電氣與計算機(jī)工程系,密爾沃基 53233)
一種基于計算聽覺場景分析的語音增強(qiáng)算法
張衛(wèi)強(qiáng)1,郭 璁1,張 喬1,康 健1,何 亮1,劉 加1,Johnson Michael T1,2
(1. 清華大學(xué)電子工程系,北京 100084;2. 馬凱特大學(xué)電氣與計算機(jī)工程系,密爾沃基 53233)
選取ETSI語音增強(qiáng)系統(tǒng)作為研究對象.該系統(tǒng)使用傳統(tǒng)維納濾波方法,在信噪比較高時降噪性能優(yōu)秀,但在信噪比較低的情況下,降噪能力弱,對于脈沖噪聲無較好抑制.而模擬人耳聽覺特性的計算聽覺場景分析技術(shù)能夠比較好地彌補(bǔ)這一缺陷.故在ETSI算法的基礎(chǔ)上,結(jié)合計算聽覺場景分析技術(shù),提出一種新的算法,將維納濾波器參數(shù)估計由原本的Mel域變換到Gammatone域,并進(jìn)一步利用理想率掩蔽估計對帶噪信號進(jìn)行信噪分離,抑制脈沖噪聲.該算法在TIMIT語音庫上進(jìn)行了實(shí)驗,結(jié)果證明,與原算法相比,提出的新算法使聽覺質(zhì)量在低信噪比下提升較大,脈沖噪聲抑制亦明顯.在低信噪比的情況下,后端語音識別系統(tǒng)的識別率得到提升.
語音增強(qiáng);計算聽覺場景分析;Gammatone濾波器;理想率掩蔽
隨著數(shù)字信號處理技術(shù)的成熟,語音處理領(lǐng)域迅速發(fā)展,自動語音識別、語音合成、人機(jī)語音交互等技術(shù)也日趨普及.作為前端處理模塊,語音增強(qiáng)算法的改進(jìn)可以大大提升整體系統(tǒng)性能.
語音增強(qiáng)算法種類很多,有基于信號級別,例如非負(fù)矩陣分解[1]、維納(Wiener)濾波[2]等方法;還有在特征層面抑制噪聲影響,例如在說話人識別中構(gòu)造對噪聲魯棒的特征[3]進(jìn)行降噪.而近期比較熱門的是基于計算聽覺場景分析(computational auditory scene analysis,CASA)[4]的語音增強(qiáng)算法,其模擬人類聽覺的生理特性,加入語音時頻域的掩碼,從帶噪語音中盡可能重建出純凈的語音信號,并提高聽音感知質(zhì)量.因為這種類型的算法基于人耳聽音感知系統(tǒng),能夠有效地在低信噪比下對于帶噪語音進(jìn)行語音增強(qiáng).這一技術(shù)的發(fā)展,對語音識別系統(tǒng)、助聽器設(shè)計[5]、海底聲吶探測[6]等應(yīng)用都有重要意義.
傳統(tǒng)的信號處理多采用梅爾(Mel)濾波器組[7],由于其符合人耳對于頻率對數(shù)特性,在基于信噪比(SNR)的評價指標(biāo)下,Mel濾波器有較好的表現(xiàn).但是其無法模擬耳蝸基底膜對于語音信號的頻率分解作用,使之在性能上弱于人耳的聽音感知特性.在CASA體系中,使用的是仿人耳聽覺特性的伽馬通(Gammatone)濾波器組[4],能夠?qū)τ诓煌l率的噪聲似人耳頻響特性一樣有效地濾除.同樣有所缺陷的是,現(xiàn)有的聽覺場景分析算法多采用頻域加窗時域合成的方法,不如傳統(tǒng)Wiener濾波的輸出穩(wěn)定.所以本文在基線系統(tǒng)上,選取了一種現(xiàn)有的語音增強(qiáng)系統(tǒng)ETSI[8],其本質(zhì)上是利用Wiener濾波的方式構(gòu)建有限長單位沖激響應(yīng)(finite impulse response,F(xiàn)IR)濾波器;然后加入了Gammatone濾波器,旨在用人耳仿真特性增強(qiáng)降噪能力;最后加入了時頻域掩碼,旨在加強(qiáng)對于脈沖噪聲的抑制作用.
本文首先簡要介紹了語音增強(qiáng)的研究背景、原有算法及常用評價方式,之后在第1節(jié)對ETSI基線系統(tǒng)已有的算法框架進(jìn)行闡述,第2節(jié)給出了在此基礎(chǔ)上提出的基于CASA算法的改進(jìn)方法,然后在第3節(jié)將降噪后的語音通過語音增強(qiáng)和語音識別兩個平臺的評價,給出詳細(xì)的實(shí)驗環(huán)境和平臺參數(shù),對實(shí)驗結(jié)果進(jìn)行表格繪制和評估分析,最后給出了得到的結(jié)論,并對下一步研究方向進(jìn)行了規(guī)劃.
1.1 整體系統(tǒng)
在所有的系統(tǒng)框圖中,虛線表示增加或者替換的子模塊,黑框內(nèi)的模塊為原本ETSI基線系統(tǒng).
ETSI系統(tǒng)的整體架構(gòu)如圖1的實(shí)線部分,分為2個階段.
ETSI基線系統(tǒng)采用的降噪算法如下描述.首先在Wiener濾波的部分,采用了2階段的模式.第1階段主要進(jìn)行噪聲幀與語音幀的鑒別,如圖2實(shí)線部分所示,對平均能量、功率譜密度、分幀分頻帶的短時SNR、Wiener濾波器參數(shù)進(jìn)行了初步的估計,同時對于每一幀粗略地進(jìn)行語音活動檢測(voice activity detection,VAD),然后將濾波器參數(shù)通過設(shè)計的三角窗頻窗函數(shù)進(jìn)行加窗變換到Mel域,再經(jīng)過IDCT生成時域的FIR濾波器系數(shù),即第1階段的輸出.
圖1 系統(tǒng)示意Fig.1 System architecture
圖2 第1階段整體示意Fig.2 System architecture of stage 1
第2階段利用了第1階段輸出的結(jié)果,其絕大多數(shù)結(jié)構(gòu)與第1階段一致,如圖3的實(shí)線部分,不同的地方在于更為精細(xì)地估計了SNR,并且根據(jù)區(qū)分開的語音幀和噪聲幀,分別設(shè)計在Mel域的Wiener濾波器增益系數(shù),使用了二次動態(tài)自適應(yīng)的方式降噪,對于噪聲幀進(jìn)行抑制,對于語音幀進(jìn)行保留.
下面重點(diǎn)介紹基線ETSI系統(tǒng)中幾個重要的模塊:兩階段Wiener濾波的設(shè)計思路,濾波器組參數(shù)向Mel域的變換,濾波器組參數(shù)增益.
1.2 兩階段Wiener濾波
Wiener濾波用于語音增強(qiáng)算法由來已久,ETSI基線系統(tǒng)將這一傳統(tǒng)算法分別運(yùn)用在兩個階段.第1階段主要根據(jù)式(1)利用當(dāng)前幀的數(shù)據(jù)和VAD甄別結(jié)果迭代更新噪聲幀的功率譜密度.式中:b為子帶數(shù),通過FFT計算得到;t為幀數(shù);tn為最后一個非語音幀的幀數(shù);為噪聲的功率譜密度;為輸入信號的功率譜密度;λNSE為一種噪聲功率譜與信號功率譜的加權(quán)系數(shù);EPS為一固定常數(shù).
由此可估計出計算濾波器參數(shù)所需用到的語音幀信噪比為
再根據(jù)式(3)初步估計出線性譜域的Wiener濾波器參數(shù)H,并變換到Mel域以濾去人耳不敏感信息.
由于此時第1階段已對全部信號分析了1遍,可以求得該信號的信噪比上限,以及初步降噪的信號.第2階段則利用這一結(jié)果再次更新噪聲的功率譜和信噪比,對濾波器參數(shù)重新進(jìn)行計算,并最終應(yīng)用在濾波器上,實(shí)現(xiàn)噪聲抑制.
圖3 第2階段以及改進(jìn)部分整體示意Fig.3 System architectures of stage 2 and the modification part
1.3 濾波器組參數(shù)向Mel域的變換
生理學(xué)研究表明,聲音的頻率和人耳感知的音高之間并不是線性關(guān)系,而是一條對數(shù)曲線,也就是說人耳對不同頻段聲音的敏感度不同.ETSI基線系統(tǒng)原始算法在線性頻域內(nèi)進(jìn)行Wiener濾波器參數(shù)設(shè)計,再將線性頻域求得的濾波器參數(shù)依式(4)變換到Mel域,即式中:H2_mel(k)為Mel域頻標(biāo)為k頻點(diǎn)的值;k為Mel域的頻標(biāo);i為線性頻域的頻標(biāo);W( k, i)是對濾波器參數(shù)進(jìn)行加權(quán)的頻窗函數(shù),設(shè)計上為多個三角窗;NSPEC為線性頻域的離散頻率上限.
以Mel頻譜的線性劃分作為所關(guān)注頻段的中心頻率,計算式為
式中:fcenter(k)為變換的中心頻率在線性頻域的頻率值;fmel(k)為變換的中心頻率在Mel域的頻率值;fcenter(0)=0;fcenter(FFB+1)=flin_samp/2;FFB為其他中心頻率的個數(shù),所有三角窗的數(shù)量為KFB+2.
這樣做可以充分利用人耳聽覺曲線的對數(shù)特性,比較在線性頻域內(nèi)設(shè)計出的濾波器,這樣做濾除了人耳不敏感信息.不足之處在于,變換到Mel域的做法無法模擬耳蝸基底膜的頻率分解作用,無法做到對不同頻率信號基于不同增益的響應(yīng).
1.4 濾波器參數(shù)增益
系統(tǒng)已在VAD模塊通過平均能量和當(dāng)前幀能量的比較甄別出了語音幀與噪聲幀,噪聲的抑制則主要來源于在增益分解模塊對兩種信號施加不同的增益,即
ETSI的實(shí)驗已經(jīng)證明,如依式(7)對語音幀和噪聲幀分別設(shè)定常數(shù)增益,則沒有考慮到信號的幀間相關(guān)性和連續(xù)性,去噪效果一般.
因此提出了如式(8)的算法,先對SNR進(jìn)行平滑和自適應(yīng)迭代更新,通過SNR的比較更精確地在此甄別語音幀,再迭代自適應(yīng)地計算增益參數(shù),使幀間過渡更平滑不突兀,既減少了增益參數(shù)大幅度階躍引入的毛刺和噪聲,又對噪聲幀施加了較大的抑制,最大程度地保留了語音幀的原有信息.為
加入了CASA算法后的整體框圖見圖1.首先考慮到Mel域更多地反映人耳對于音高的敏感程度,Gammatone域更能夠仿真人耳對于不同頻率的頻響特性,則首先將其中對濾波器加三角窗頻窗的部分(即Mel濾波器組模塊)替換為Gammatone頻窗函數(shù),將濾波器參數(shù)變換到Gammatone域.同時,由于原有基線系統(tǒng)處理方式都較為平滑,處理比較穩(wěn)定的噪聲有優(yōu)勢,處理脈沖噪聲可能有所不足,故在第2階段增益分解的部分之后,引入了IRM抑噪的模塊,具體修改內(nèi)容見圖2和圖3.下面分別介紹變換到Gammatone域的方式和IRM的引入.
2.1 濾波器組參數(shù)向Gammatone域的變換
原有的ETSI系統(tǒng)中使用到的是三角窗進(jìn)行頻域的變換,而在CASA算法中,其核心思想在于人耳具有優(yōu)秀的語音處理能力,仿真人耳的聽覺特性能夠提升系統(tǒng)性能.Gammatone濾波器在Johannesma[9]的研究中被用來仿真聽覺神經(jīng)細(xì)胞脈沖響應(yīng),故選取Gammatone濾波器.這種仿真聽覺神經(jīng)脈沖響應(yīng)的濾波器,作為替代的頻窗函數(shù),將線性頻域變換到Gammatone域.筆者認(rèn)為這種變換能夠在低信噪比下更為有效地模擬人耳抑制噪聲的作用.
Gammatone濾波器的沖擊響應(yīng)[10]為
式中:τ為濾波器階數(shù);cf為濾波器中心頻率;?為相位;c()B f為對應(yīng)中心頻率為cf的濾波器的帶寬.在本次實(shí)驗中,筆者使用的是Gammatone濾波器的近似頻域響應(yīng)[11],即
式中f為頻標(biāo)數(shù).當(dāng)4τ=時,其頻響特性與人耳的最為符合.此時的4階濾波器等效帶寬為
從設(shè)計上,中心頻率按照臨界帶寬尺度均勻分布,即
式中c()E f為等效帶寬.則替換為Gammatone濾波器之后,Wiener濾波器參數(shù)在Gammatone域中可表示
2.2 IRM的引入
CASA算法一般估計一種時頻掩蔽來分離噪聲與聲源,相比較于濾波器而言,時頻掩蔽對于脈沖噪聲的抑制更為明顯,而且對于有諧波特性的噪聲也有更好的抑制作用,故筆者選取此模塊作為基線系統(tǒng)的補(bǔ)充.
這種掩蔽一般分為理想二進(jìn)制掩蔽(ideal binary mask,IBM)與理想率掩蔽(ideal ratio mask,IRM).二者表示上都為二維矩陣M={m( f, t )}.對于IBM,m取值為0或1;對于IRM,m取值[0,1].相比較于濾波器,掩蔽(mask)能夠更加直接地分離語音幀與噪聲幀.但是由于筆者無法在降噪中得到原始語音,故只能估計IBM或IRM.
此處筆者選取的模型是Hu和Wang[12]在2004年提出的,是一種基于Brown等[13]模型并引入高頻頻子帶內(nèi)幅度調(diào)制的算法.與之不同的是,由于筆者后端依舊是一個FIR濾波器,所以筆者使用的是IRM作為掩蔽的輸出,即
采用文獻(xiàn)[11]提供的算法能夠更好地計算{(,)}m f t剝離出語音與噪聲,同時,其算法將IRM的計算放在了Gammatone域,所以得到的(,)m f t的物理意義正好與改進(jìn)后的ETSI系統(tǒng)中Gammatone域的濾波器參數(shù)相對應(yīng).所以筆者在Gammatone域?qū)τ跒V波器加窗之后,再通過一次IRM掩蔽,即
3.1 語音增強(qiáng)測試
本次實(shí)驗使用的是TIMIT數(shù)據(jù)庫,噪聲庫選取的是實(shí)驗室自主采集的公交車(bus)噪聲,噪聲包括人聲、汽車發(fā)動機(jī)運(yùn)轉(zhuǎn)的穩(wěn)定背景噪聲,以及汽車啟動、剎車、超車等脈沖噪聲.筆者使用的是filter_add_ noise開源加噪程序[14]對純凈的TIMIT語音加噪,最終語音的信噪比SNR分別為-5,db、0,db和5,db.評價指標(biāo)上,因為使用的是CASA的體系,所以筆者以描述聽感質(zhì)量的主觀語音質(zhì)量評估[15](perceptual evaluation of speech quality,PESQ)作為評價指標(biāo).
在細(xì)節(jié)參數(shù)上,F(xiàn)FT長度為128,Mel濾波器的上下限截止頻率為0~4,000,Hz,Gammatone濾波器的上下限截止頻率為80~4,000,Hz,為了增加兩種域的對比性,使用的濾波器數(shù)量都為25個.3.1.1 IRM對于脈沖噪聲抑制的實(shí)驗
筆者從TIMIT數(shù)據(jù)集中選取了編號為DR1_FAKS0_SX313.wav的信號,在圖4中給出的是0,db信噪比下,其純凈信號、加噪信號和3種降噪信號的時域波形對比.
圖4 DR1_FAKS0_SX313.wav信號的原始信號、帶噪信號和去噪信號的波形對比Fig.4 Comparison between the wave forms of the original signal,noisy signal and the denoised signal of DR1_ FAKS0_ SX313.wav
能夠看出,原始語音有1個脈沖噪聲.這個脈沖噪聲在合成的帶噪語音中保留下來.由于原有的2個算法,對于這種短時的脈沖噪聲,沒有辦法將第1.4節(jié)中討論的濾波器參數(shù)增益αGF(t)迅速地降低,還維持在一個比較高的αGF(t)下,故這種噪聲被保留下來.但是使用了IRM之后,這個脈沖噪聲由于沒有諧波結(jié)構(gòu),起止點(diǎn)的檢測也發(fā)現(xiàn)是非常小,則在IRM中給出的mIRM(k, t)=0.1,脈沖噪聲很好地被抑制.
3.1.2 PESQ評價指標(biāo)的統(tǒng)計數(shù)據(jù)
TIMIT庫實(shí)驗下的PESQ評價指標(biāo)的統(tǒng)計數(shù)據(jù)見表1,此處計算的是有參考語音的PESQ,表中給出的數(shù)據(jù)為降噪前后的PESQ平均絕對增益.
表1 不同信噪比下不同算法的PESQTab.1PESQ through different algorithms in different SNRs
首先從實(shí)際中聽感上分析.5,db加噪后可懂度依舊不受到影響,同時原本基線系統(tǒng)的降噪性能就極佳,可以非常有效地去除噪聲,只有在個別發(fā)聲的部分有殘留的諧波噪聲,3種方法從聽感上區(qū)別不大.0,db的加噪已經(jīng)對可懂度有比較大的影響,需要更多次數(shù)地聽才能夠聽懂.整體上說,降噪之后,能夠感覺到噪聲降低明顯,可懂度略有提升.3種方法也略微有所區(qū)別,與基線系統(tǒng)相比較,加入Gammatone濾波器后的系統(tǒng),增強(qiáng)后音頻的噪聲有明顯降低,其降低幅度人耳可感受到,可懂度略有提升,加入IRM后的系統(tǒng)音強(qiáng)明顯下降,并且噪聲抑制度超過前兩者,脈沖噪聲數(shù)極少,雖然噪聲幾乎聽不見,但純凈語音也需要辨識.最后是-5,db加噪,加噪后其本身的可懂度已經(jīng)非常差,對于未知文本的語音,在這種信噪比下完全無法聽懂,對應(yīng)的降噪結(jié)果也十分不理想,從聽感上,已經(jīng)基本無法分辨說話的內(nèi)容.3種方法中,前兩種處理不完全,降噪后的音頻仍帶有很多的噪聲,最后一種方法幾乎聽不到語音.所以說從聽感上,整體系統(tǒng)的能力暫時對于處理0,db以上的帶噪語音還是效果明顯的,對于0,db以下的噪聲音頻幾乎無作用.Gammatone濾波器改進(jìn)后的系統(tǒng)從性能上更為優(yōu)秀,而如第3.1.1節(jié)中體現(xiàn)的,IRM由于其抗噪性能太強(qiáng),不是特別適用于低信噪比下,其對于脈沖噪聲的抗噪性會更為優(yōu)越一些.
從評價指標(biāo)角度上來說,將Mel域的變換替換為Gammatone域的變換能夠提升PESQ,因為其更為符合人耳的聽覺特性.而IRM的加入?yún)s使得PESQ有所下降.首先從聽感上來說,經(jīng)過IRM處理后的語音普遍的音量都會降低,這一點(diǎn)從式(15)可以看出來.其原因可能是因為IRM使用到onset/offset、諧波頻率等檢測方式,對于噪聲的檢測更為嚴(yán)格,使得過分地降噪將語音部分也抑制了很多,使得聽感上也有所下降.比較值得關(guān)注的地方在于,在0,db信噪比輸入的情況,使用Gammatone的方法對于PESQ的提升最大.其原因應(yīng)該是因為此時Gammatone抗噪性能優(yōu)于Wiener濾波器抗噪性能,對系統(tǒng)有一個較大補(bǔ)償.這也與人耳在“雞尾酒噪聲”下的情況相一致,所以說在低信噪比的情況下,使用Gammatone濾波器對于PESQ的提升更為明顯.最后則是-5,db的情況.實(shí)驗數(shù)據(jù)表明,PESQ幾乎沒有提升.原因應(yīng)該是因為在極低信噪比的情況下,語音已經(jīng)難以分辨,系統(tǒng)是用來仿真人耳的,人耳在這種信噪比下也已經(jīng)超過了可識別的范圍,故系統(tǒng)也難以分辨.
3.2 語音識別測試
語音識別使用到的是TIMIT數(shù)據(jù)集.由于純凈的語音信號、帶噪語音信號與去噪語音信號都包含全部TIMIT數(shù)據(jù)集,共6,300條,故每一組語音識別實(shí)驗選取一次全新TIMIT數(shù)據(jù)集,此組信號所有處理條件一致.對于每一組實(shí)驗,使用462位說話人訓(xùn)練,并不使用每一位說話人說的SA部分的內(nèi)容.開發(fā)集選取50位說話人,測試集選取24位說話人,與其他TIMIT語音識別系統(tǒng)選取方式基本一致.語音識別后端系統(tǒng)采用神經(jīng)網(wǎng)絡(luò)構(gòu)建,網(wǎng)絡(luò)層數(shù)為4層,每層1,024節(jié)點(diǎn),特征為39維MFCC特征,由5±幀拼接而成;網(wǎng)絡(luò)使用DBN預(yù)訓(xùn)練,使用61×3狀態(tài)數(shù)的Monophone對音素進(jìn)行標(biāo)注,評價標(biāo)準(zhǔn)為詞錯誤率(word error rate,WER).
首先,對于純凈語音,WER經(jīng)過測試為22.86%,遠(yuǎn)遠(yuǎn)優(yōu)于表2的所有數(shù)據(jù).對于語音識別的效果來說,高信噪比的情況下,帶噪語音的WER將會低于降噪之后的語音.原因是對于神經(jīng)網(wǎng)絡(luò)來說,降噪對于其WER的影響不明顯[16].從降噪程序之間比較,Gammatone的性能較好,應(yīng)該是由于其在降噪的同時,保留了更多的語音原本信息,更符合神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的需要.
表2 不同信噪比下不同算法的識別詞錯誤率Tab.2Recognition WER of the signals through different algorithms in different SNRs
筆者對ETSI的語音增強(qiáng)算法進(jìn)行了修改.首先,用Gammatone濾波器組替換原有的三角窗濾波器組,在Gammatone域處理Wiener濾波器參數(shù);其次,將IRM作用在Wiener濾波器系數(shù)上,對噪聲進(jìn)行二次過濾.結(jié)果表明,在語音增強(qiáng)方面,Gammatone濾波器對于語音增強(qiáng)有較大改進(jìn)效果,在低信噪比時更為明顯,IRM對于噪聲抑制更強(qiáng),適合脈沖噪聲的抑制,但是兩者都不適應(yīng)超低信噪比的實(shí)驗環(huán)境;改進(jìn)后的降噪算法與原有算法相比在聽感知質(zhì)量和可懂度上都有提高,加入該前端處理的識別系統(tǒng),在低信噪比下識別率也有所提升.
參考文獻(xiàn):
[1] Williamson D S,Wang Y,Wang D L. A two-stage approach for improving the perceptual quality of separated speech [C]//2014 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). Florence,Italy,2014:7034-7038.
[2] El-Fattah M A A,Dessouky M I,Diab S M,et al. Adaptive wiener filtering approach for speech enhancement [J]. Journal of Ubiquitous Computing and Communication,2008,2(3):23-31.
[3] Liu Y,He L,Liu J. Improved multitaper PNCC feature for robust speaker verification [C]//2014 9th International Symposium on Chinese Spoken Language Processing(ISCSLP). Singapore,2014:168-172.
[4] Brown G J,Wang D L. Speech Enhancement [M]. USA:Springer Berlin Heidelberg,2005.
[5] Wang D L. Time-frequency masking for speech separation and its potential for hearing aid design [J]. Trends in Amplification,2008,12(4):332-353.
[6] 李朝暉,遲惠生. 聽覺外周計算模型研究進(jìn)展 [J].聲學(xué)學(xué)報,2006,31(5):449-465.
Li Zhaohui,Chi Huisheng. Progress in computational modeling of auditory periphery[J]. Acta Acustica,2006,31(5):449-465(in Chinese).
[7] Narayanan A,Wang D L. Ideal ratio mask estimation using deep neural networks for robust speech recognition [C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). Vancouver,Canada,2013:7092-7096.
[8] ETSI. ES. 202 050 V1. 1. 5 Speech Processing,Transmission and Quality Aspects(STQ),Distributed Speech Recognition(2007)[S]. European Telecommunications Standards Institution,2007.
[9] Johannesma P I M. The pre-response stimulus ensemble of neurons in the cochlear nucleus[C]//Symposium on Hearing Theory. Eindhoven,Holland,1972.
[10] 張衛(wèi)強(qiáng),劉 加. 基于聽感知特征的語種識別[J]. 清華大學(xué)學(xué)報:自然科學(xué)版,2009,49(1):78-81.
Zhang Weiqiang,Liu Jia. Language identification based on auditory features[J]. Journal of Tsinghua University:Science and Technology,2009,49(1):78-81(in Chinese).
[11] 胡 琦. 基于計算聽覺場景分析的單信道語音分離研究[D]. 北京:北京交通大學(xué)計算機(jī)與信息技術(shù)學(xué)院,2013.
Hu Qi. Single-Channel Speech Separation Based on Computational Auditory Scene Analysis [D]. Beijing:Institute of Information Science,Beijing Jiaotong University,2013(in Chinese).
[12] Hu G N,Wang D L. Monaural speech segregation based on pitch tracking and amplitude modulation [J]. IEEE Transactions on Neural Networks,2004,15(5):1135-1150.
[13] Brown Guy J,Cooke Martin. Computational auditory scene analysis [J]. Computer Speech & Language,1994,8(4):297-336.
[14] Hirsch H G. FaNT—Filtering and Noise Adding Tool [EB/OL]. http://dnt. kr. hsnr. de/download/ fant_ manual. pdf,2015-01-15.
[15] ITU-T P. 862—2002 Perceptual Evaluation of Speech Quality(PESQ):An Objective Method for End-to-End Speech Quality Assessment of Narrow-Band Telephone Networks and Speech Codecs [S].
[16] Deng L,Li J,Huang J T,et al. Recent advances in deep learning for speech research at Microsoft [C]//2013 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). Vancouver,Canada,2013:8604-8608.
(責(zé)任編輯:金順愛)
A Speech Enhancement Algorithm Based on Computational Auditory Scene Analysis
Zhang Weiqiang1,Guo Cong1,Zhang Qiao1,Kang Jian1,He Liang1,Liu Jia1,Johnson Michael T1,2
(1.Department of Electronic Engineering,Tsinghua University,Beijing 100084,China;2.Department of Electrical and Computer Engineering,Marquette University,Milwaukee 53233,USA)
Research on the ETSI speech enhancement system was conducted using traditional Wiener filter for noise reduction, which performed well when signal-noise ratio was high enough. However, when SNR decreased to a certain extent, it failed to suppress pulse noise effectively. Computational auditory scene analysis (CASA) simulating human auditory characteristics could make up for this weakness. Therefore, based on ETSI combined with CASA, a new speech enhancement algorithm was proposed, which performed feature extraction and spectrum estimation in the Gammatone domain rather than the original Mel domain as well as filtered out noise by an ideal ratio mask (IRM). On the noisy subset of the TIMIT corpus, the proposed enhancement achieves higher objective acoustic quality and proven ability to inhibit pulse noise under low SNR conditions compared to the original system. It also obtains an improvement in terms of the reduction of word error rates under low SNR conditions in the back-end speech recognition system.
speech enhancement;computational auditory scene analysis;Gammatone filter;idea ratio mask
TN912.3
A
0493-2137(2015)08-0663-07
10.11784/tdxbz201507029
2015-03-15;
2015-07-13.
國家自然科學(xué)基金資助項目(61370034,61273268,61403224).
張衛(wèi)強(qiáng)(1979— ),男,博士,副研究員.
張衛(wèi)強(qiáng),wqzhang@tsinghua.edu.cn.
時間:2015-07-15.
http://www.cnki.net/kcms/detail/12.1127.N.20150715.1655.002.html.