廖逢釵 盧昌荊
(三明學(xué)院 數(shù)學(xué)與計算機(jī)科學(xué)系,福建 三明 365004)
基于譜減的雙元指向傳聲器陣列語音增強(qiáng)
廖逢釵 盧昌荊
(三明學(xué)院 數(shù)學(xué)與計算機(jī)科學(xué)系,福建 三明 365004)
設(shè)計了一種結(jié)構(gòu)簡單的用于語音增強(qiáng)的雙元指向性傳聲器陣列,利用陣列中不同方位陣元對目標(biāo)信號和干擾信號的增益不同的特點(diǎn),有效估計噪聲信號的功率譜,再利用傳統(tǒng)譜減算法的思想,實現(xiàn)語音增強(qiáng)。實驗結(jié)果表明提出的算法是有效的,與經(jīng)典的譜減算法相比具有更佳的語音增強(qiáng)效果。
譜減;傳聲器陣列;語音增強(qiáng);傅立葉變換;衰減系數(shù)
在實際應(yīng)用中,由于環(huán)境噪聲的干擾,許多語音信號處理系統(tǒng)的性能急劇下降,導(dǎo)致語音的質(zhì)量變差。語音增強(qiáng)算法就是從被污染的帶噪語音信號中提取盡可能純凈的目標(biāo)信號,改善語音信號的質(zhì)量,它可分單通道語音增強(qiáng)和多通道語音增強(qiáng)。基于短時幅度譜估計的語音增強(qiáng)算法[1][2]、基于語音生成模型的語音增強(qiáng)算法[3]、基于聽覺模型的語音增強(qiáng)研究[4]和基于人工神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算法[5]等都屬于單通道語音增強(qiáng)。傳統(tǒng)譜減法[1](Classical Spectral Subtraction,CSS)是最常用的單通道語音增強(qiáng)算法,它具有計算量小、易于實時實現(xiàn)等優(yōu)點(diǎn),在魯棒語音識別、助聽器、語音編碼技術(shù)、信號分離等領(lǐng)域得到了廣泛的應(yīng)用[6-10]。但在傳統(tǒng)的譜減算法中,噪聲的估計是用無音期間的加權(quán)平均值來代替當(dāng)前分析幀中各頻點(diǎn)的噪聲頻譜分布。由于噪聲頻譜服從高斯分布,其幅度隨機(jī)變化的范圍很寬,因此在相減時,如果某頻點(diǎn)處噪聲分量較大,就會產(chǎn)生很大的殘留噪聲,即 “音樂噪聲”,這是譜減法中常出現(xiàn)的問題。近幾年,在高檔的語音信號處理系統(tǒng)中,引進(jìn)多通道語音增強(qiáng)算法,它可以有效解決上述問題,但它在數(shù)據(jù)采集時需要較多的通道數(shù),設(shè)備復(fù)雜,計算量隨著通道數(shù)的增加而增大。
針對以上不同算法存在的問題,本文結(jié)合傳統(tǒng)譜減算法,提出二元指向性傳聲器陣列譜減 (Dual Directivity Microphone Array Spectral Subtraction,DDMASS)語音增強(qiáng)算法。DDMA-SS算法在硬件方面要求不高,只要能雙通道錄音即可。在算法方面,計算量和CSS相當(dāng),它利用陣列中不同方位的陣元對目標(biāo)信號和干擾信號的增益不同來估計目噪聲信號的功率譜,最終實現(xiàn)語音增強(qiáng)的目標(biāo)。DDMA-SS算法與傳統(tǒng)的單通道譜減算法相比,不論目標(biāo)語音是否存在,它都可以實時估計噪聲功率譜密度,增強(qiáng)后語音的殘留音樂噪聲明顯削弱。
經(jīng)典譜減法[1]的基本思想是:假設(shè)噪聲是平穩(wěn)的加性噪聲,并且假設(shè)目標(biāo)信號和噪聲是相互獨(dú)立的,那么就可以從帶噪語音的幅度譜(或功率譜)中減去噪聲的幅度譜(或功率譜),從而得到較為純凈的目標(biāo)信號的頻譜。假設(shè)信號模型是:
s(k)、n(k)是時域信號經(jīng)過加窗處理后的目標(biāo)語音信號和加性噪聲信號,x(k)是合成后的信號。(1)式傅立葉變換得到:
經(jīng)典譜減可以用以下式子表示:
其中,H(ejω)是譜減濾波器,可以通過以下方法計算:
這里,μ(ejω)代表噪聲的頻譜,它的幅度是用無語音活動期間的噪聲平均值來代替,相位用X(ejω)的相位替代。譜減之后用逆傅立葉變換和幀疊加處理即可獲得增強(qiáng)后的語音。
基本譜減算法用靜音時的幅度譜(或功率譜)作為噪聲幅度譜(或功率譜)的估計值,在平穩(wěn)噪聲場合可以獲得滿意的效果,而在非平穩(wěn)噪聲的情況下效果變差,有殘留音樂噪聲產(chǎn)生。為此,下面引入DDMA-SS算法。
1.2.1 傳聲器陣列的拓?fù)浣Y(jié)構(gòu)
圖1是用于實現(xiàn)DDMA-SS算法的傳聲器陣列的拓?fù)浣Y(jié)構(gòu)示意圖,A和B是指向性傳聲器,它們的間距為d,它們的極性圖相差π,設(shè)目標(biāo)信號S在A傳聲器的正前方,干擾信號n在另一側(cè)。
圖1.DDMA-SS算法的傳聲器陣列的拓?fù)浣Y(jié)構(gòu)示意圖
1.2.2 DDMA-SS算法
圖2是DDMA-SS算法流程的示意圖,算法主要由快速傅立葉變換(FFT)、譜減(SS)、衰減系數(shù)估計(attenuation coefficient estimate,ACE)、逆傅立葉變換-疊加(IFFT-ADD),語音活動檢測(Voice Activity Detection,VAD)等幾個模塊構(gòu)成。下面介紹算法的原理。
設(shè)純凈目標(biāo)語音和加性干擾噪聲分別是s、n,兩個指向性傳聲器A、B接收到的時域信號x1、x2可以近似表示為(在下文為了敘述方便,分別稱對應(yīng)的兩個通道為A通道和B通道):
圖2.DDMA-SS算法流程示意圖
這里λ和μ分別是干擾噪聲和目標(biāo)語音的相對衰減系數(shù)(0≤λ≤1,0≤μ≤1),它主要由傳聲器的指向特性決定的。式(5)、(6)離散傅立葉變換后得:
其中,i是頻點(diǎn) (1≤i≤ L,L=2mm ∈Z+,L 是幀長)。由(7)、(8)可得:
其中,Re(·)表示求互相關(guān)值。由于目標(biāo)語音s和加性干擾噪聲n是獨(dú)立的、所以si和ni也是獨(dú)立的,所以有:
(14)式的分母部分只與衰減系數(shù)有關(guān),可以看作常數(shù),只影響最終總體信號的強(qiáng)弱。另外,在實際應(yīng)用中往往(λiμi)2<<1,所以忽略分母部分得:
(15)式的物理意義是:一幀內(nèi),目標(biāo)信號s的i第頻點(diǎn)的功率譜可以通過以下兩個步驟獲得:
①傳聲器B接收信號的第i頻點(diǎn)的功率譜衰減(即乘以(λi)2)后作為噪聲功率譜的估計值;
②從傳聲器A接收信號的第i頻點(diǎn)的功率譜減去①估計的噪聲功率譜,即可得到目標(biāo)語音頻譜的估計值。
以上兩個步驟的關(guān)鍵是確定衰減系數(shù)λi,它可以通過目標(biāo)語音不存在時,兩個通道第i頻點(diǎn)的功率比值獲得,即令(15)式左邊等于零,并整理得:
這里,下標(biāo)VNA表示目標(biāo)語音不活動 (Voice No Activity),即只有干擾噪聲。
求得λi后,由(15)式可以獲得目標(biāo)語音幅度的估計值:
最后,si的相位用的相位代替,使用逆傅立葉變換及合成處理得到增強(qiáng)后的語音:
實驗數(shù)據(jù)是利用USB總線接口的2路同步數(shù)據(jù)采集系統(tǒng)錄制的,采樣頻率8KHz,采樣位數(shù)16bit。實驗環(huán)境是一房間,長、寬、高分別是3500mm、3100mm和2650mm。為了方便控制信噪比,用兩個揚(yáng)聲器分別播放錄制好的噪聲和語音。
語音的內(nèi)容是中文 “近似”、“景致”、“進(jìn)行曲”、“酒家”、“舉例”等詞組。選用的噪聲是機(jī)場噪聲、計算機(jī)噪聲、風(fēng)扇噪聲等。實驗時,A通道的信噪比控制在0dB左右,總共采集30組實驗數(shù)據(jù)。對信號進(jìn)行處理時,采用漢明窗進(jìn)行分幀,每幀256個采樣點(diǎn)(32ms),幀移40%。
圖3是實驗的一個語音信號波形實例,(a)、(b)、(c)、(d)、(e)分別是純凈的參考語音波形、通道A的時域波形、通道B的時域波形、CSS算法的輸出波形、DDMA-SS算法的輸出波形。圖4是圖3對應(yīng)的譜圖。相比于A通道信號,用CSS算法和DDMA-SS算法增強(qiáng)后的語音信號信噪比平均改善分別是2.1dB和2.6dB,增強(qiáng)后的語音清晰,背景噪聲基本被抑制。通過人工反復(fù)試聽發(fā)現(xiàn),DDMA-SS算法采用了兩個指向性傳聲器對噪聲信號和目標(biāo)信號的不同抑制作用來估計噪聲的功率譜,所以它與CSS算法相比,殘余音樂噪聲得到明顯的改善。
在譜減算法的基礎(chǔ)上,提出基于譜減的二元指向傳聲器陣列語音增強(qiáng)算法,實驗結(jié)果表明,該算法可以有效抑制殘留音樂噪聲。但本文研究的聲源比較單一,對復(fù)雜聲源的情況有待進(jìn)一步研究。
圖3.語音信號波形實例
圖4.語音信號譜圖實例
[1]S.F.Boll.Suppression of acoustic noise in speech using spectral subtraction [J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1979,vol.27(no.2):113.
[2]EPHTSIM Y ,MALAH D .Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1984,vol.32(no.6):1109.
[3]LIM F,OPPENHEIM A V .All-pole modeling of degraded speech [J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1978,vol.26(no.3):197.
[4]VIRAG N.Single channel speech enhancement based on masking properties of the human auditory system[J].IEEE Transactions on Speech and Audio Processing,1999,vol.7(no.2):126.
[5]TAMURA S.An analysis on a noise reduction neural network[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1989,vol.3:2001.
[6]Xu,H.;Tan,Z.-H.;Dalsgaard,P.;Lindberg,B..Robust Speech Recognition by Nonlocal Means Denoising Processing[J].IEEE signal processing letters,2008,vol.15:701.
[7]IOSIF MPORAS;TODOR GANCHEV;OTILIA KOCSIS;NIKOS FAKOTAKIS.SPEECH ENHANCEMENT FOR ROBUST SPEECH RECOGNITION IN MOTORCYCLE ENVIRONMENT [J].International Journal of Artificial Intelligence Tools,2010,vol.19(no.2):159.
[8]Fa-Long Luo;Arye Nehorai.Recent Developments in Signal Processing for Digital Hearing Aids[J].IEEE Signal Processing Magazine,2006,vol.23(no.5):103.
[9]Chatree BUDSABATHON;Akinori NISHIHARA.Dithered Subb and Coding with Spectral Subtraction [J].IEICE Transactionson Fundamentals of Electronics,Communications and Computer Sciences,2006,vol.E89-A(no.6):1788.
[10]Hsu,C.-L.On the Improvement of Singing Voice Separation for Monaural Recordings Using the MIR-1K Dataset[J].IEEE transactions on audio,speech,and language processing,2010,vol.18(no.2):310.
Spectral Subtraction Based on Dual Directivity Microphone Array Speech Enhancement
LIAO Fengchai LU Changjing
(Mathematics and Computer Department,Sanming University,Sanning,F(xiàn)ujian 365004)
A simple dual directivity microphone array used to speech enhancement is designed,noise power spectral is est mated availably using the characteristic that difference azimuth element in array has difference gain to object signal and interfere signal.Any more,achieves speech enhancement using the idea of classical Spectral Subtraction.Experiment result indicates that proposal algorithm is effective,and it’s speech enhance ment effect is better than classical Spectral Subtraction algorithm.
Spectral Subtraction ;microphone array;speech enhancement;Fourier transform ;attenuation coefficient
TN641
A
1674-2109(2011)02-0073-04
2011-01-31
福建省自然科學(xué)基金(2009J01296)。
廖逢釵(1968-),男,漢族,副教授,主要研究方向:語音信號處理和嵌入式技術(shù)。
book=4,ebook=242