李云飛, 全海燕, 肖春梅
(昆明理工大學 信息工程與自動化學院, 昆明 650093)
?
基于EMD的ICA語音增強
李云飛, 全海燕*, 肖春梅
(昆明理工大學 信息工程與自動化學院, 昆明 650093)
傳統(tǒng)ICA方法是將所有源信號都從混合信號中都提取出來,而參考獨立分量分析(ICA-R)通過將一些先驗信息引入到ICA學習算法中,從混合信號中僅提取期望源信號.本文為了從混合語音信號中提取出期望的語音信號,采取的是基于經(jīng)驗模態(tài)分解(EMD)方法來獲取功率譜包絡作為參考信號,繼而把參考信號運用到ICA-R算法中,達到語音增強的目的.計算機仿真和性能分析結果表明,此方法在有噪聲干擾的情況下達到語音增強的目的.
盲源分離; 獨立分量分析(ICA); 參考獨立分量分析(ICA-R); 經(jīng)驗模式分解(EMD); 語音增強
獨立分量分析(Independent component analysis,ICA)是一種重要的盲源分解方法,其目的是從多通道測量所得到的由若干獨立信源線性組合成的觀測信號中,將其中的獨立成分分解開來[1-3].參考獨立分量分析(ICA-R)是一種根據(jù)一些先驗信息即參考信號,從諸多的源信號中提取我們感興趣的源信號的方法,從而消除傳統(tǒng)ICA輸出順序不確定性和顯著減低運算,大大節(jié)省處理時間等優(yōu)點.因此,提供或者構造一個合適的參考信號對期望信號的提取有著至關重要的影響[4-5].
由于語音的功率譜是不連續(xù)的(主要分布在300 Hz~4 KHz之間),而噪聲的頻譜范圍在300 Hz~4 KHz之間),而噪聲的頻譜范圍分布較寬,分布也比較均勻,與語音的功率譜有明顯的區(qū)別.因此,我們可以利用語音信號功率譜來獲得語音信號近似功率譜包絡來作為參考信號,從線性混合噪聲中提取目標語音信號.
經(jīng)驗模態(tài)分解(Empirical Mode Decomposition,EMD)是非線性、非平穩(wěn)信號處理方法,通過多次移動過程把信號分解成一系列本征模函數(shù)(IMFs),可以通過部分IMFs來重構原信號,本文EMD被用作低通濾波器來獲得語音信號功率譜包絡,相比于傳統(tǒng)的低通濾波器而言,EMD的方法分解的速度很快,而且EMD得到的包絡更加細膩,能夠追蹤語音功率譜短暫急劇變化的邊緣,這對于精確提出期望語音信號至關重要[6-7].因此本文中提出了基于EMD參考信號的選取,并把EMD提取的功率譜包絡作為參考信號運用到ICA算法中,實現(xiàn)了語音信號增強的目的[8].
ICA-R的基本思路是將輸出信號與參考信號的接近性度量引入到ICA算法中的差異函數(shù)中,從而得到一個約束最優(yōu)化問題,再利用拉格朗日乘子算法找到約束優(yōu)化問題的最大值,得到解混向量[5].設分離矩陣為W,使得M維輸出矢量ym(k)滿足:
y(k)=WTx(k)=WTAs(k).
(1)
設參考信號為r,那么r與ym(k)接近性度量函數(shù)ε(y,r)當且僅當輸出信號是期望源信號的估計取到最小值,即應滿足一下不等式:
(2)
因此存在一個閾值δ使得g(w)=ε(y,r)-δ≤0 當且僅當輸出信號y(k)=WTx(k) 時成立,從而在約束獨立分析的框架內,將輸出信號與參考信號的接近性度量引入到ICA的差異函數(shù)中,可得出一單元ICA-R的約束最優(yōu)化問題:
Max:j(y)≈ρ[E{G(y)}-E{G(v)}]2.
(3)
St:g(w)=ε(y,r)-δ≤0,
h(w)=E{y2}-1=0.
(4)
本文選用G(y)=log(cosh(y)/a),ε(y,r)為輸出信號y和參考信號r的接近度量,本文選用均方誤差函數(shù)ε(y,r)=E{(y-r)2}-δ作為輸出信號和相應的參考信號之間的緊密性的量度.利用拉格朗日乘子算法找到上述約束優(yōu)化問題的最大值,可以得到ICA-R算法如下:
(5)
(6)
(7)
其中,k是迭代下標,是學習速率,RXX是輸入混合信號的協(xié)方差陣,最佳乘數(shù)μ和λ可以由以下迭代算法得到:
μk+1=max{0,μk+γg(wk)},
(8)
λk+1=λk+γh(wk).
(9)
其中,γ為標量懲罰因子.
2.1EMD分解算法
經(jīng)驗模態(tài)分解(EMD)是非線性,非平穩(wěn)信號處理方法,是基于信號的局部變化特征,通過對非線性非平穩(wěn)信號的分解獲得一系列表征信號特征的時間尺度固有模態(tài)函數(shù)(intrinsic mode functions,IMFs)[6-7].EMD方法的存在基于以下3個假設:(1)數(shù)據(jù)中至少有兩個極值點:一個最小值、一個最大值;(2)特征時間尺度由兩個相鄰極值點的時間間隔所決定;(3)如果數(shù)據(jù)沒有極值點只有拐點,則通過一階或多階微分得到極值點.下面給出EMD的算法步驟如下:
1)求得信號x(t)有的所有極值點,確定數(shù)據(jù)序列的局部極大值集Xmax和局部極小值集Xmin.
2)在極值點間用3次樣條函數(shù)進行插值,得到上下包絡線emax(t)和emin(t),在上下包絡之間是原始數(shù)據(jù)x(t).
3)計算均值線m(t)=[e(t)max+emin(t)]/2和求出原始數(shù)據(jù)x(t)的局部均值m(t),原始信號與局部極值的差值記為d(t)=x(t)-m(t).
4)檢查d(t)的特性,如果不滿足IMFs定義,則用d(t)代替x(t),重復以上步驟,直到滿足停止準則.
5)如果d(t)滿足IMFs的兩個條件,則得到第一個IMFs,用參r(t)=x(t)-d(t)取代x(t),重復上面步驟,直到r(t)=x(t)-d(t)至多有兩個極值點.
2.2 參考信號的構建
語音的功率譜是不連續(xù)的,而噪聲的頻譜分布較寬且較均勻,兩者的功率譜有明顯的區(qū)別,于是依據(jù)期望語音信號頻譜特性來構建參考信號.下面對語音信號的功率譜包絡進行EMD分解,并構建參考信號.
圖1 語音信號波形
圖2 語音信號的功率譜
圖3 本征模態(tài)函數(shù)c1~c5
圖4 本征模態(tài)函數(shù)c6~c10
圖5 部分IMFs的合成語音功率譜
圖1、2為語音信號波形及其功率譜,對圖中的語音信號的功率譜進行EMD分解,得到各IMFs分量,如圖3和4所示.依據(jù)EMD原理,我們分別選擇、、求和得到合成信號,如圖5所示.而對于基于EMD構造的參考信號不需要準確的近似功率譜,僅僅只要能夠含有語音信號的能量分布信息即可,因此小數(shù)量的IMFs,足以包含此類信息[9-10].
為了驗證基于EMD構建參考信號方法的混疊語音增強效果,我們做了大量基于EMD的ICA-R語音增強的仿真實驗,以其中一些例子進行介紹.期望增強的源語音信號s1及其功率譜,分別如圖6(a)和6(b)所示.四路干擾噪聲信號依此為:白噪聲(a)、工廠機械噪聲(b)、雞尾酒會噪聲(c)、純語音噪聲(d),分別如圖7(a)~(d)所示.實驗中對于基于EMD構造的參考信號的語音增強,我們選用c3~c8本征模態(tài)函數(shù)之和來近似功率譜,并以此參考信號,如圖8所示.實驗中用到的語音信號以及噪聲信號均來源于Loizou語音實驗室的語音庫,每路信號的采樣頻率都為8 kHz,采樣點為18 000個.
圖6 目標語音信號s1及其功率譜
圖7 四路噪聲信號
圖8 基于EMD構建的參考信號
隨機二維混合矩陣A選取為[0,1]上的隨機矩陣,源語音信號和四路干擾噪聲分別經(jīng)過矩陣A混合得到含噪聲的觀測信號及基于EMD參考信號輸出語音信號分別如圖9-圖12所示.
從下如圖9~圖12可以直觀的看到基于EMD的語音增強信號波形與源語音信號都大體相同,為了定量的評價算法分離性能,我們利用PESQ-MOS語音質量評估算法對得到的結果進行語音質量評估.源信號s1在四種加性噪聲下ICA語言增強后的SNR和PESQ-MOS分值分別如下表1所示.
圖9 語音與白噪聲兩路混合信號以及ICA-R恢復的語音信號
圖10 語音與工廠機械噪聲兩路混合信號及ICA-R恢復的語音信號
圖11 語音與雞尾酒會噪聲兩路混合信號及ICA-R恢復的語音信號
圖12 語音與純語言噪聲兩路混合信號及ICA-R恢復語音信號
表1 SNR、PESQ-MOS性能指標結果
從表1中可以看出,在4種加性噪聲下,得到的PESQ-MOS值還是比較高的.由于在聽覺上和原語音并無多大的差異,該實驗還是可行的.因此,基于EMD參考信號的選取及其在ICA-R中的應用是一種可行的語音增強方法.
本文提出了基于EMD構建參考信號的ICA-R語音增強方法,選用小數(shù)量的IMFs求和可以得到原始語音信號近似功率譜,就可以構建合理的ICA-R參考信號,提取期望語音信號.計算機仿真和性能分析都表明,此方法在加性噪聲干擾下可以取得比較好的語音增強效果.盡管實驗的結果還是比較讓人滿意,但是還存在一些不足,比如說在和純語音噪聲混合后取得的效果就不是很理想,以及在沒有加性噪聲的情況下怎么增強語音信號等等,都值得進一步研究.
[1] Zhang Zhilin. Morphological constrained ICA for extracting weak temporally correlated signals [J]. Neurocomputing, 2008.71. 1669-1679.
[2] Hyvarinen A, Oja E. A Fast Fixed-point Algorithm for Independent Component Analysis [J]. Neural Computation, 1997, 9(7):1483-1492.
[3] 黃燦輝. 獨立分量分析在盲信號分離中的應用研究[D].重慶:重慶大學, 2006.
[4] Lu Wei, Rajapakse J C. ICA with Reference[C]//Proc of the 3rd International Conference on ICA and Blind Source Separation. [S. l.]: Springer, 2001: 120-125.
[5] 鄭永瑞. 參考獨立分量分析算法及其應用研究[D]. 大連:大連理工大學, 2005.
[6] 羅飛雪. 基于EMD與ICA的GPS動態(tài)變形檢測數(shù)據(jù)處理方法研究[D].長沙:中南大學,2011.
[7] 李寧寧. 基于EMD和ICA的感應電動機故障檢測研究[D].天津:天津理工大學,2011.
[8] 林秋華, 鄭永端, 殷福亮. 基于參考獨立分量分析的語音增強方法[J].大連理工大學學報, 2005, 46(6):915-1000.
[9] 林秋華. 參考獨立分量分析算法及其應用研究[D].大連:大連理工大學, 2005.
[10] Yongrui Zheng, Qiuhua Lin, Fuliang Yin, et al. Speech Enhancement Using ICA with EMD-based reference.[J]. Computer Science, 2006, 3889: 739-746.
Speech enhancement using ICA with EMD
LI Yunfei, QUAN Haiyan, XIAO Chunmei
(Institute of information engineering and automation,Kunming University of Science and Technology, Kunming 650093)
The traditional ICA that recovers all the source signals simultaneously, Independent component analysis with reference( ICA-R) can extract only some desired source signal from mixtures of all source signals by incorporating a prior information into the separation process. In this paper, in order to extract the desired speech signal from the mixed speech signals, is based on empirical mode decomposition (EMD) method to get the power spectrum envelope as a reference signal, and then apply the reference signal in the ICA-R algorithm, achieve the purpose of speech enhancement. Computer simulation and performance analysis results show that this method can achieve the purpose of speech enhancement when in a case with noise interference.
Blind source separation; Independent component analysis(ICA); ICA with reference(ICA-R); empirical mode decomposition(EMD); speech enhancement
2014-05-25.
國家自然科學基金項目(41364002),云南省自然科學基金項目(2009ZC048M).
1000-1190(2015)01-0042-05
TN911.25
A
*通訊聯(lián)系人. E-mail: quanhaniyan@163.com.