孫寶印,周 強(qiáng),朱俊杰,倪賽華,陶 智,顧濟(jì)華
(蘇州大學(xué)物理科學(xué)與技術(shù)學(xué)院,江蘇蘇州 215006)
我國(guó)大約有600萬完全耳聾患者,其中包括300萬聾兒,而且每年還有約3萬多新生聾兒,聾人的康復(fù)是醫(yī)學(xué)界關(guān)注的熱點(diǎn)問題。電子耳蝸(Cochlear Implant,CI)是目前唯一能夠使完全耳聾者恢復(fù)部分聽力的醫(yī)學(xué)手段,其主要原理是將聲音信號(hào)轉(zhuǎn)換成電信號(hào),通過電極刺激聾人的聽覺神經(jīng)纖維,從而產(chǎn)生聽覺。語音編碼算法是CI的核心技術(shù),目前安靜環(huán)境下電子耳蝸語句識(shí)別率達(dá)到80%左右,但在實(shí)際噪聲環(huán)境中,耳蝸使用者的聽覺感知能力隨著信噪比的降低而急劇下降[1],嚴(yán)重時(shí)甚至無法有效地接收到聲音信息,通過改進(jìn)語音編碼算法提高噪聲環(huán)境下的語音識(shí)別率對(duì)耳蝸患者來說具有重要意義。
對(duì)于噪聲環(huán)境下的單麥克風(fēng)系統(tǒng),針對(duì)目前常用的編碼型算法語音處理器,一種基于語音停頓檢測(cè)和非線性譜減法的語音增強(qiáng)算法被應(yīng)用在電子耳蝸中[2];同時(shí)另一種電子耳蝸?zhàn)涌臻g算法被提出[3],把帶噪語音信號(hào)矢量投影到信號(hào)子空間和噪聲子空間,通過消除噪聲子空間分量并最大程度保留語音信號(hào)子空間分量來實(shí)現(xiàn)語音增強(qiáng)。以上2種算法都是CI前端預(yù)處理算法,語音句子識(shí)別率取得很大提高,但預(yù)處理算法會(huì)引入不必要的失真,而且計(jì)算復(fù)雜、耗電量大,與現(xiàn)有CI算法不兼容,不易針對(duì)單個(gè)用戶特點(diǎn)對(duì)算法進(jìn)行優(yōu)化[4]。為此,集成在CI編碼算法中的語音增強(qiáng)算法被廣泛研究并應(yīng)用。
在電子耳蝸?zhàn)宇l帶中,一種基于S型對(duì)數(shù)壓縮函數(shù)的去噪算法被提出[5],在連續(xù)交替取樣(Continuous Interleaved Sampling,CIS)算法基礎(chǔ)上采用S型壓縮函數(shù)抑制語音被掩蔽(噪聲為主)的通道,同時(shí)最大程度保留語音未被掩蔽(目標(biāo)語音為主)的通道,該算法的語音識(shí)別率取得顯著提高。文獻(xiàn)[6]提出基于信噪比感知增益函數(shù)的電子耳蝸降噪算法,在先進(jìn)的組合編碼(Advanced Combinational Encoding,ACE)算法基礎(chǔ)上,先在子通道中進(jìn)行噪聲估計(jì),求出信噪比,再計(jì)算與信噪比相關(guān)的增益函數(shù),最后用帶噪信號(hào)乘以增益函數(shù)作為輸出信號(hào)實(shí)現(xiàn)去噪,得到了較好的語音增強(qiáng)效果,并具有很好的系統(tǒng)兼容特性,但此方法中增益函數(shù)的求取未考慮到人耳的聽覺掩蔽效應(yīng),這會(huì)造成嚴(yán)重的語音失真,而在語音增強(qiáng)系統(tǒng)中,增益函數(shù)的選擇直接決定著語音增強(qiáng)的效果。
本文運(yùn)用基于約束方差的噪聲功率譜估計(jì)法估計(jì)噪聲,同時(shí)計(jì)算出更為準(zhǔn)確的掩蔽閾值和先驗(yàn)信噪比,并在頻帶中運(yùn)用掩蔽閾值和先驗(yàn)信噪比改善增益函數(shù)。
噪聲功率譜估計(jì)直接影響先驗(yàn)信噪比估計(jì)和人耳掩蔽閾值求取的準(zhǔn)確性,進(jìn)而影響增益函數(shù),決定語音增強(qiáng)的最終效果。本文采用基于約束方差的實(shí)時(shí)噪聲譜估計(jì)算法,對(duì)平滑參數(shù)進(jìn)行修改,限制了短時(shí)平滑功率譜的方差,從而降低了最小值跟蹤所造成的估計(jì)偏差,然后通過語音活性檢測(cè)進(jìn)行噪聲功率譜的更新及估計(jì),得出最終的噪聲功率譜[7-8]。
設(shè)s(i)和n(i)分別表示純凈語音信號(hào)和加性噪聲信號(hào),且兩者相互獨(dú)立。利用快速傅里葉變換估計(jì)得到短時(shí)譜,則含噪語音的短時(shí)譜可表示為:
其中,S(k,l)和N(k,l)分別為純凈信號(hào)和噪聲的短時(shí)譜;k為頻點(diǎn);l為幀序號(hào)。
利用一階遞歸公式計(jì)算含噪語音平滑功率譜P(k,l),則有:
本文以最小統(tǒng)計(jì)噪聲估計(jì)原理為基礎(chǔ),設(shè)計(jì)了3個(gè)平滑濾波器[9]。第1個(gè)平滑了濾波器通過約束平滑后的帶噪語音功率譜的方差,使得噪聲估計(jì)的方差被約束在一定值范圍內(nèi),既保證了帶噪語音功率譜最小值能及時(shí)追蹤到噪聲強(qiáng)度的變化,又提高了最小統(tǒng)計(jì)值的準(zhǔn)確度;第2個(gè)平滑濾波器則根據(jù)得到的最小值,對(duì)信噪比進(jìn)行估計(jì),從而實(shí)現(xiàn)在低信噪比時(shí)平滑得多,而在高能量語音成分中幾乎不進(jìn)行平滑;為了讓平滑譜可以快速地回到語音音節(jié)間隙的噪聲水平,進(jìn)行了第3次平滑。
其中,平滑系數(shù)αN設(shè)置為0.8。
人耳聽覺掩蔽效應(yīng)是人的聽覺系統(tǒng)的一個(gè)重要特性,本文在電子耳蝸語音增強(qiáng)系統(tǒng)中結(jié)合聽覺掩蔽閾值自適應(yīng)調(diào)整增益函數(shù),使得能量低于噪聲掩蔽閾值且不可聞的殘余噪聲被保留,減少了語音失真。
本文采用與聽覺掩蔽閾值與瞬時(shí)性噪比相關(guān)的感知增益函數(shù),公式推導(dǎo)過程如下:
語音失真ES(k,l)表示為:
殘留噪聲ER(k,l)表示為:
其中,S(k,l)表示語音信號(hào)的頻譜;D(k,l)為噪聲信號(hào)的頻譜。
為了推導(dǎo)出增益參數(shù)G(k,l),代價(jià)函數(shù)JP(k,l)根據(jù)語音失真和殘留噪聲的形式表述如下:
其中,每個(gè)臨界帶的拉格朗日乘數(shù)μ(k,l)可看作殘留噪聲的權(quán)重因子。聯(lián)立 JP(k,l),ES(k,l),ER(k,l)3式,可得:
對(duì)應(yīng)于增益函數(shù)G(k,l)將JP(k,l)進(jìn)行偏微分,得到感知增益函數(shù)[10],公式表述如下:
連續(xù)幀內(nèi)的隨機(jī)譜峰值能引起音樂噪聲,而在低能量語音區(qū)域中控制頻譜變化可以有效阻止音樂噪聲的產(chǎn)生。本文提出對(duì)上述中的感知增益函數(shù)進(jìn)行調(diào)整,使其根據(jù)連續(xù)幀中的信噪比自適應(yīng)變化,上式的感知增益函數(shù)以瞬時(shí)信噪比的形式可以改寫為:
ACE編碼方案是一種波形編碼方案,應(yīng)用于澳大利亞Nucleus24產(chǎn)品中,集中了傳統(tǒng)的譜峰提取(Spectral PEAK,SPEAK)編碼方案和CIS編碼方案的優(yōu)點(diǎn),在保持較高刺激速率的同時(shí)提高了信號(hào)分解的頻率分辨率,從而使得合成語音信號(hào)具有更好的音質(zhì)[11]。首先語音信號(hào)經(jīng)過預(yù)處理,提升高頻成分,然后利用N最大為22個(gè)子帶互補(bǔ)的帶通濾波器對(duì)預(yù)加重后的信號(hào)進(jìn)行濾波,分別提取每個(gè)通道內(nèi)的信號(hào)包絡(luò)。根據(jù)聲音譜的變化選擇M(M<N)個(gè)能量最大的頻帶作為刺激信號(hào)。每個(gè)頻帶與固定的電極相對(duì)應(yīng),按照非線性的方法將刺激電流調(diào)整到合適的動(dòng)態(tài)范圍內(nèi),最后用調(diào)制時(shí)間上交替的雙相脈沖序列刺激電極附近的聽覺神經(jīng)纖維,從而誘發(fā)聽覺。ACE編碼算法原理如圖1所示。
圖1 電子耳蝸ACE算法原理示意圖
本文在ACE基礎(chǔ)上加以改進(jìn),在子頻帶中對(duì)帶噪信號(hào)進(jìn)行去噪,即結(jié)合幀內(nèi)的人耳聽覺掩蔽特性和幀間的先驗(yàn)信噪比變化值自適應(yīng)調(diào)整增益函數(shù),再采用此增益函數(shù)增強(qiáng)被加性噪聲損壞的語音信號(hào)。為改善先驗(yàn)信噪比的估計(jì),設(shè)計(jì)了隨時(shí)頻變化的3個(gè)平滑濾波器;并用先驗(yàn)信噪比估計(jì)調(diào)整增益函數(shù),減少了連續(xù)幀的頻譜變化,減少殘留音樂噪聲對(duì)于語音的影響。此外,人耳聽覺掩蔽特性使得能量低于噪聲掩蔽閾值且不可聞的殘余噪聲被保留,從而減少了語音失真,因此,在最大限度去除背景噪聲消除的同時(shí)降低了語音失真。基于改進(jìn)增益函數(shù)的電子耳蝸ACE語音增強(qiáng)算法原理如圖2所示。
圖2 基于改進(jìn)增益函數(shù)的電子耳蝸語音增強(qiáng)原理
在實(shí)驗(yàn)仿真中,原始白噪聲從標(biāo)準(zhǔn)噪聲庫(kù)Noisex92中選取,干凈語音為標(biāo)準(zhǔn)語音庫(kù)的女生“他去無錫市,我到黑龍江”,將噪聲信號(hào)和干凈語音信號(hào)進(jìn)行混和,信噪比分別為5 dB,0,-5 dB(噪聲與語音信號(hào)的采樣率都是16 kHz,256點(diǎn)分幀,幀移128點(diǎn)),運(yùn)用Matalab對(duì)語音進(jìn)行仿真,選取10位正常聽力者測(cè)試句子的字正確率,計(jì)算10個(gè)人的平均識(shí)別率。將本文算法與采用傳統(tǒng)譜減法及傳統(tǒng)增益函數(shù)的ACE算法進(jìn)行比較,如圖3所示。通過觀察平均識(shí)別率能發(fā)現(xiàn),相比基于基本譜減法的前端預(yù)處理算法和采用傳統(tǒng)增益函數(shù)的電子耳蝸語音增強(qiáng)算法,本文算法的平均識(shí)別率分別平均提高53%和22%,特別是在低信噪比條件下提升較大,音樂噪聲得到了明顯的抑制,輸出語音具有更好的清晰度和可辨識(shí)度,取得了較好的語音增強(qiáng)效果。
圖3 4種算法的平均識(shí)別率
語譜圖可以顯示語音的頻譜隨時(shí)間變化的過程,其中包含了大量與語句特性有關(guān)的信息。圖4(a)左中右均為原始語音語譜圖,圖4(b)從左至右為加-5 dB,0,5 dB白噪聲語音語譜圖,圖4(c)從左至右為采用傳統(tǒng)譜減法對(duì)加-5 dB,0,5 dB白噪聲的帶噪語音去噪后通過ACE算法的合成語譜圖,圖4(d)從左至右為采用基于傳統(tǒng)增益函數(shù)的ACE算法對(duì)加-5 dB,0,5 dB白噪聲的帶噪語音處理后合成語譜圖,圖4(e)從左至右為對(duì)加-5 dB,0,5 dB白噪聲的帶噪語音采用本文算法得到的合成語譜圖??梢钥闯觯鄬?duì)于其他2種算法,本文算法在各種噪音環(huán)境下達(dá)到很好的去噪效果,得出的語譜圖極大地去除了音樂噪聲,保留了更多的語音成分,與原始語音語譜圖相似度更大,實(shí)現(xiàn)了較好的去噪性能,因而耳蝸使用者能取得更為清晰的聽覺效果。
為衡量本文算法語音增強(qiáng)的效果,引入分段信噪比SegSNR和改進(jìn)型巴克譜失真(Modified Bark Spectral Dis-tortion,MBSD)距離測(cè)度2種語音質(zhì)量客觀評(píng)價(jià)指標(biāo)。分段信噪比rSegSNR與主觀評(píng)價(jià)相關(guān)度較高,定義如下:
其中,M表示語音幀數(shù);L是一幀語音長(zhǎng)度;mL表示語音幀的開始點(diǎn)。由上式可知,分段信噪比的值越大說明算法增強(qiáng)的接近度越高,即性能越好。改進(jìn)型巴克譜失真考慮了人耳對(duì)聲音的感覺特性以及頻域噪聲掩蔽效應(yīng),它的評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)的擬合度更高。
圖4 實(shí)驗(yàn)語譜
MBSD 測(cè)試值 rMBSD的計(jì)算公式為[12]:
其中,N為處理語音的總幀數(shù);Lx(n,i)和Ly(n,i)分別為原始語音和失真語音第n幀信號(hào)的第i個(gè)臨界帶的響度值;M(n,i)為掩蔽效應(yīng),當(dāng)?shù)趎幀信號(hào)的第i個(gè)臨界帶的失真可以被感知時(shí),M(n,i)取1,否則M(n,i)取0。
表1為分別加-5 dB、0及5 dB White噪聲情況下,基本譜減法的ACE前端預(yù)處理、基于傳統(tǒng)增益函數(shù)的ACE語音增強(qiáng)以及本文提出的基于改進(jìn)增益函數(shù)的語音增強(qiáng)3種算法處理后語音的客觀評(píng)價(jià)參數(shù)值。
表1 不同信噪比情況下語音增強(qiáng)后的客觀評(píng)價(jià)
從表1可以看出,本文算法的SegSNR值最大,說明它與純凈語音的接近度最高;而且本文算法的MBSD譜失真度最小,尤其在低信噪比下,這種優(yōu)勢(shì)更為明顯,這說明了相比前2種增強(qiáng)算法,本文算法不僅在去除噪聲效果上表現(xiàn)最佳,而且能有效地減少語音失真,驗(yàn)證了本文算法的有效性。
本文提出了基于改進(jìn)增益函數(shù)的電子耳蝸語音增強(qiáng)算法,在電子耳蝸ACE算法的子頻帶中,采用基于約束方差的噪聲功率譜估計(jì)方法準(zhǔn)確估計(jì)先驗(yàn)信噪比,并結(jié)合人耳聽覺掩蔽特性改進(jìn)決定語音增強(qiáng)效果的增益函數(shù),使得在減少背景噪聲和殘留噪聲的同時(shí)降低了語音失真。相比其他電子耳蝸語音增強(qiáng)算法,該算法更適合電子耳蝸的實(shí)際工作環(huán)境,可有效提取有用語音信號(hào)成分,更好地抑制背景噪聲,從而提高最終合成語音的清晰度和辨識(shí)度,進(jìn)一步提高電子耳蝸系統(tǒng)的性能。
[1]黃雅婷,陶 智,顧濟(jì)華,等.基于人耳掩蔽效應(yīng)的電子耳蝸語音增強(qiáng)方法[J].計(jì)算機(jī)工程,2008,34(10):280-282.
[2]Yang Liping,F(xiàn)u Qianjie.Spectral Subtraction-based Speech Enhancement for Cochlear Implant Patients in Background Noise[J].Journal of Acoustic Society of America,2005,117:1001-1004.
[3]Loizou P C,Lobo A,Hu Y.Subspace Algorithms for Noise Reduction in Cochlear Implants[J].Journal of Acoustic Society of America,2005,118:2791-2793.
[4]Loizou P.Speech Processing in Vocoder-centric Cochlear Implants[J].Advance in Oto-Rhino-Laryngology,2006,64:109-143.
[5]Hu Yi,Loizou P C,Li Ning,et al.Use of a Sigmoidalshaped Function for Noise Attenuation in Cochlear Implants[J].Journal of the Acoustical Society of America,2007,122:128-134.
[6]Dawson P W,Mauger S J,Hersbach A A.Clinical Evaluation of Signal-to-Noise Ratio Based Noise Reduction in Nucleus Coch lear-implant Recipients[J].Ear Hear,2011,32(3):382-390.
[7]Derakhshan N,Akbari A,Ayatollahi A.Noise Power Spectrum Estimation Using Constrained Variance Spectral Smoothing and Minima Tracking[J].Speech Communication,2009,51:1098-1113.
[8]周成燕,周 強(qiáng),顧濟(jì)華,等.基于約束方差的噪聲譜估計(jì)算法[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(18):127-131.
[9]Martin R.Bias Compensation Methods for Minimum Statistics Noise Power Spectral Density Estimation[J].Signal Processing,2006,86(6):1215-1229.
[10]Hasan M K,Salahuddin S,Khan M R.A Modified a Priori SNR for Speech Enhancement Using Spectral Subtraction Rules[J].IEEE Signal Processing Letters,2004,11(4):450-453.
[11]Waldo N,Andreas B,Thomas L,et al.A Psychoacoustic“N of M”-type Speech Coding Strategy for Cochlear Implants[J].EURASIP Journal on Applied Signal Processing,2005,18:3004-3059.
[12]孫建新,鄒 霞,曹鐵勇,等.基于加權(quán)巴克譜失真的語音質(zhì)量客觀評(píng)價(jià)算法[J].數(shù)據(jù)采集與處理,2006,21(3):303-306.