龐 宇,劉志偉,林嘉宇(.國防科技大學(xué)電子科學(xué)與工程學(xué)院,長沙 40073;2.武警860部隊(duì),盤錦 2400)
?
基于波束形成器輸出比的自適應(yīng)語音分離方法
龐 宇1,2,劉志偉1,林嘉宇1
(1.國防科技大學(xué)電子科學(xué)與工程學(xué)院,長沙410073;2.武警8610部隊(duì),盤錦124010)
摘 要:運(yùn)用波束形成的方法能夠有效地從干擾和噪聲中提取所需的語音信號(hào),如最小方差無失真響應(yīng)的方法。然而,為了避免應(yīng)用波束形成器進(jìn)行語音分離時(shí)所產(chǎn)生的信號(hào)抵消現(xiàn)象,當(dāng)目標(biāo)講話者處于活動(dòng)狀態(tài)的時(shí)候,該波束形成器的適應(yīng)性應(yīng)處于暫停狀態(tài),這就需要對(duì)目標(biāo)講話者的語音活動(dòng)狀態(tài)進(jìn)行分類?;谶@種思想,首先從信號(hào)模型和系統(tǒng)模型出發(fā),介紹了“波束形成器輸出比”這個(gè)新量的相關(guān)概念和基于波束形成輸出比的“BOR-VAC”新方法。而后對(duì)窗口值、閾值的選取和VAC模塊的實(shí)現(xiàn)過程進(jìn)行了詳述。最后通過仿真實(shí)驗(yàn)實(shí)現(xiàn)并驗(yàn)證了這種基于波束形成器輸出比的自適應(yīng)語音分離新方法的高效性和可靠性。
關(guān)鍵詞:語音分離;波束形成;雙波束;語音活動(dòng)性分類;波束形成器輸出比;自適應(yīng)控制
語音分離的目的是從嘈雜背景中提取出目標(biāo)講話者的聲音。目前用于語音分離最普遍的三種方法是:①波束形成方法;②基于獨(dú)立成分分析(ICA)的盲源分離(BSS)方法;③單聲道分離方法。其中,波束形成技術(shù)利用了空間信息,BSS利用了信號(hào)的統(tǒng)計(jì)獨(dú)立性,而單聲道分離則利用了二進(jìn)制掩蔽或者基于混合模型的技術(shù)。
盡管從20世紀(jì)50年代后的長期發(fā)展中出現(xiàn)了諸多算法,但語音分離仍然是實(shí)踐中的一個(gè)難題。一個(gè)不可忽略的原因是,分離算法實(shí)際性能的好壞取決于前提條件。對(duì)目標(biāo)講話者活動(dòng)性的判斷作為其中重要的一項(xiàng),在通常情況下仍然是一種假設(shè)[1]。這里所研究的算法就在于消除這一假設(shè),并應(yīng)用解決方案來實(shí)現(xiàn)基于波束形成方法的自適應(yīng)語音分離系統(tǒng)。
眾所周知,波束形成是一個(gè)使用傳感器陣列的多功能空間濾波方法。在語音分離中,波束形成系統(tǒng)對(duì)輸入信號(hào)應(yīng)用權(quán)向量(即波束形成器)來獲得輸出。其權(quán)向量應(yīng)滿足預(yù)先定義在不同方向上的功率響應(yīng)要求[2]。例如,一個(gè)MVDR波束形成器的權(quán)向量就應(yīng)滿足:在與目標(biāo)講話者的方向上功率響應(yīng)一致的同時(shí),化[3]。這使得MVDR波束形成器可以對(duì)非平穩(wěn)信號(hào)進(jìn)行高性能分離,如語音信號(hào)。然而,應(yīng)用MVDR波束形成器進(jìn)行語音分離時(shí)最常見的問題是信號(hào)抵消現(xiàn)象,即當(dāng)目標(biāo)講話者的狀態(tài)是活動(dòng)的同時(shí)波束形成器的適應(yīng)性也為開啟狀態(tài),那么所需信號(hào)在輸出時(shí)將被抵消掉[4]。
為了減小這種現(xiàn)象的發(fā)生,這里提出了一種暫停策略。由于人們在交談過程中的語音活動(dòng)狀態(tài)會(huì)無規(guī)律的改變,因此必須首先確定在每個(gè)輸入音段中的講話者,稱其為“語音活動(dòng)性分類”(VAC)的問題。為使波束形成器擁有自適應(yīng)機(jī)制,對(duì)于語音活動(dòng)性分類問題的自動(dòng)解決方案至關(guān)重要。
2.1信號(hào)模型
設(shè)麥克風(fēng)陣列為M元,P(P≥2)個(gè)聲源中的兩個(gè)為主要講話者,hp,m為講話者p(p∈{1,2,...,P})與麥克風(fēng)m(m∈{1,2,...,M})之間的室內(nèi)脈沖響應(yīng),sp為來自講話者p的原始信號(hào)的矢量樣本,vm為麥克風(fēng)m所接收到的噪聲,k(k∈{1,2,...,Nf})為頻率窗口指數(shù),q(q∈{1,2,...})為幀指數(shù),X,S,H,V為時(shí)域中相關(guān)分量的頻域系數(shù),則其信號(hào)在頻域中的多路徑模型為:
X(k,q)=∑pp =1Sp(k,q)Hp(k)+ V(k,q)(1)
如果只使用兩個(gè)波束形成器來記錄兩個(gè)目標(biāo)講話者,那么該系統(tǒng)被稱作“雙波束系統(tǒng)”(BiBeam){W1,W2},其中Wp(p∈{1,2})是目標(biāo)講話者p所對(duì)應(yīng)的波束形成器。
如果雙波束系統(tǒng)被賦予一個(gè)多路徑輸入信號(hào)X(k,p),那么該系統(tǒng)的輸出包含兩個(gè)波束形成器的輸出{Y1(k,p),Y2(k,p)},其中
Yp(k,p)= WHp(k,p)X(k,p)(2)
2.2系統(tǒng)模型
圖1展示了所提出的用于兩個(gè)主要講話者語音分離的自適應(yīng)波束形成系統(tǒng)。該系統(tǒng)包含兩個(gè)模塊:①用來識(shí)別活動(dòng)講話者的VAC模塊;②語音分離模塊。當(dāng)給定一個(gè)多路徑輸入信號(hào)X后,VAC模塊首先識(shí)別兩個(gè)講話者的語音活動(dòng)狀態(tài)。然后VAC模塊將處理結(jié)果送入第二個(gè)模塊,以便系統(tǒng)決定W1和W2這兩個(gè)適應(yīng)性波束成形器各自的開關(guān)狀態(tài)。最后,每個(gè)適應(yīng)性波束形成器從輸入信號(hào)中分離出想要的信號(hào)。
第二個(gè)模塊中的兩個(gè)適應(yīng)性波束形成器是兩個(gè)MVDR波束形成器,其中波束形成器Wp負(fù)責(zé)分離講話者p的語音,其值為[2]:
圖1 自適應(yīng)波束形成系統(tǒng)示意圖
這里的R~I(xiàn)pN是干擾和噪聲協(xié)方差矩陣的一個(gè)估計(jì),Ap是講話者p的方向向量。為了保持較高的語音分離性能,MVDR的權(quán)矢量需要定期與不斷更新的R~I(xiàn)pN相適應(yīng)。設(shè)u(u∈(0,1))為遺忘速率,則有R~I(xiàn)pN的更新依據(jù)下列公式[5]:
3.1波束形成器輸出比
對(duì)雙波束系統(tǒng)加載一個(gè)多路徑輸入信號(hào)X(k,p),則輸出信號(hào)中兩個(gè)波束形成器的輸出功率之比叫做“波束形成器輸出比”(BOR)。那么,在長度為k的頻率窗口中,幀長為q的兩個(gè)輸出信號(hào),則一個(gè)長度為l的片段的BOR為:
這里的Ql是片段l中幀指數(shù)的集合。注意到,在此定義中,雙波束系統(tǒng)可以使用任何波束形成方法。
在圖2中,輸入信號(hào)中包含兩個(gè)講話者和白噪聲,它們合成一個(gè)無混響的記錄環(huán)境。上圖展示了基于MVDR雙波束系統(tǒng)計(jì)算出的BOR值,下圖展示了兩個(gè)講話者語音的原始參照信號(hào)。圖中的BOR值展示了兩個(gè)講話者的語音活動(dòng)性不斷變化時(shí)所表現(xiàn)出的特性,即當(dāng)只有1號(hào)講話者(SP1)是活動(dòng)的時(shí)候,BOR達(dá)到一個(gè)很大的值;當(dāng)只有2號(hào)講話者(SP2)是活動(dòng)的時(shí)候,BOR達(dá)到一個(gè)很小的值;當(dāng)兩個(gè)講話者同時(shí)是活動(dòng)的時(shí)候,BOR在中間值范圍內(nèi)波動(dòng)。從而根據(jù)BOR的值可以辨別不同的語音活動(dòng)性事件。
3.2BOR-VAC方法
進(jìn)一步注意到,由于SP1-BOR和OVL的支集能被很好的分離開來,所以上面的SP1-OVL-SP2三種事件分類問題可以被簡化為SP1-OVL和SP2-OVL兩個(gè)子分類事件。特別地,將SP1中的BOR記作r1,將SP2中的BOR記作r2。每個(gè)子分類SP1-OVL(SP2-OVL)都使用一個(gè)閾值θ1(θ2)和一個(gè)頻率窗k1(k2)來實(shí)現(xiàn)。對(duì)于給定一個(gè)長度為l的輸入片段,VAC所做出的決策如下,并稱其為BOR-VAC方法:
圖2 MVDR雙波束系統(tǒng)中BOR分布示意圖
3.3窗口值和閾值選取
在頻率k下,令f(Rk0)(r),g(Rk0)(r),f(Rk2)(r),g(R
k2(r)分別為OVL-BOR和SP2-BOR的概率密度函數(shù)和累積密度函數(shù)。在一個(gè)值為k的頻率窗中,如果SP2-OVL有一個(gè)閾值θ2,令α為當(dāng)OVL為真時(shí)決策為SP2的概率(誤報(bào)率),β為當(dāng)SP2為真時(shí)決策為OVL的概率(漏報(bào)率),則有:
在一個(gè)分類問題中,總是試圖將誤判概率最小化。當(dāng)給定一個(gè)期望的誤報(bào)率α后,遵循以下步驟可以找到最優(yōu)的窗口值k2和閾值θ2:
(1)在每個(gè)值為k的頻率窗中,計(jì)算誤報(bào)點(diǎn)θ2(k):g(k)R0(θ2)=α
(2)在每個(gè)值為k的頻率窗中,計(jì)算β(k,θ2(k))
(3)選擇最優(yōu)的窗口值k2,使得:k2= argminkβ (k,θ2(k))
(4)選擇閾值:θ2=θ2(k)
鑒于BOR的精確分布難以獲取,這里利用語音活動(dòng)性事件z(z∈{0,1,2})近似為高斯分布的對(duì)數(shù)分布log-BOR[6],RL,z(k)為其隨機(jī)變量,則有RL,z(k)~N(μz(k),σ2z(k))。令erf為誤判函數(shù),則RL,z(k)的累積密度函數(shù)為[7]:
3.4VAC模塊
圖3中的ABS系統(tǒng)應(yīng)用BOR-VAC方法實(shí)現(xiàn)自動(dòng)AC機(jī)制的詳細(xì)處理過程:
(1)多路徑輸入信號(hào)X通過噪聲檢測組件,其中的非純噪聲信號(hào)被長度為、重參數(shù)為的FFT變換為頻域信號(hào);
(2)在所選擇的值為k1和k2的頻率窗(分別對(duì)應(yīng)子分類SP1-OVL和SP2-OVL)中,CBF雙波束組件{W~1,W~2}對(duì)兩個(gè)講話者進(jìn)行波束形成處理,而后輸出{Y~1,Y~2};
(3)在BOR-VAC組件中,計(jì)算每個(gè)長度為LS、重疊參數(shù)為L~S的片段在以上兩個(gè)頻率窗中的log-BOR值rL(k1,l)、rL(k2,l),并將其與閾值θ1、θ2比較,從而利用分類規(guī)則(6)確定該片段均衡的VAC決策。
(4)在VAC模塊的最后階段,由于log-BOR值是針對(duì)重疊參數(shù)為L~S的片段計(jì)算所得,因此結(jié)果中將出現(xiàn)輸入樣本與片段一對(duì)多的情況,時(shí)域轉(zhuǎn)換器根據(jù)多數(shù)投票算法從眾多片段中選取相應(yīng)片段作為樣本的最終分類結(jié)果。
(5)VAC模塊將信息傳遞給AC組件,MVDR雙波束組件立即對(duì)兩個(gè)講話者進(jìn)行語音分離,并得出結(jié)果。)
圖3 VAC模塊處理過程
現(xiàn)有兩個(gè)講話者位于距麥克風(fēng)陣列中心的距離大約80cm,分開角度為50°的兩個(gè)位置。在仿真實(shí)驗(yàn)中,針對(duì)SP1、OVL和SP2三類事件,BOR-VAC系統(tǒng)使用各事件1分鐘長的數(shù)據(jù)進(jìn)行訓(xùn)練。將合成數(shù)據(jù)的誤報(bào)率設(shè)定為0.01,CBF雙波束中使用的FFT長度大約32ms,具有50%的重疊。合成錄音使用的片段長度為60幀(大約1s),實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 基于BOR的自適應(yīng)語音分離
研究并實(shí)現(xiàn)了一個(gè)基于語音活動(dòng)性分類自適應(yīng)機(jī)制的新型語音分離系統(tǒng),基于新式的VAC可行性解決方案設(shè)計(jì)的自動(dòng)VAC模塊是該系統(tǒng)的重要組成部分,該方法的核心元素是BOR這個(gè)新的量值。通過利用基于BOR-VAC方法所得的VAC結(jié)果,實(shí)現(xiàn)了MVDR波束形成器適應(yīng)性的自動(dòng)控制。這種單獨(dú)基于波束形成方法的VAC解決方案不僅具有較低的復(fù)雜性,而且分別在合成語音和真實(shí)記錄數(shù)據(jù)中都實(shí)現(xiàn)了較高的分類精度。
參考文獻(xiàn):
[1]E Vincent,S Araki,F(xiàn) Theis,G Nolte,P Bofill,H Sawada,A Ozerov,V Gowreesunker,D Lutter,N Q Duong.The signal separation evaluation campaign(2007-2010):achievements and remaining challenges[J].Signal Process,2012,92(8):1928-1936.
[2]H L V Trees.Optimum Array Processing Part IV of Detection,Estimation,and Modulation Theory[M].1st ed.Wiley-Interscience,2002.
[3]K Kumatani,T Gehrig,U Mayer,E Stoimenov,J McDonough,M Wolfel.Adaptive beamforming with a minimum mutual information criterion[C].IEEE Trans.Audio Speech Lang.Proc,2007,15(8):2527-2541.
[4]H Cox.Resolving power and sensitivity to mismatch of optimum array processors[M].J.Acoust.Soc.Am.,1973,54(3):771-785.
[5]I McCowan.Robust speech recognition using microphone array(Ph.D.thesis)[D].Queensland University of Technology,Australia,2001.
[6]N T Thuy,W Cowley,A Pollok.Voice activity classification using Beamformer-Output-Ratio[J].2012 Australian Communications Theory Workshop,IEEE,2012:105-110.
[7]M H DeGroot,M J Schervish.Probability and Statistics [M].3rd ed.Addison Wesley,2002.
Automatic Adaptive Speech Seperation Method Based on Beamformer-output-ratio
Pang Yu1,2,Liu Zhiwei1,Lin Jiayu1
(1.College of Electronic Science and Engineering,National Defense Technology University,Changsha 410073,China;2.The Armed Police 8610,Panjin 124010,China)
?
Abstract:The beamforming method can be used to effectively extract the desired speech signal from interference and noise.However,to avoid signal cancellation,the classification for the speakers' voice activity status is required.In this paper,we study and implement a new method based on beamformer-output-ratio,and construct an automatic adaptive beamforming system to implement speech separation.The simulation verifies the reliablity of the algorithm.
Key words:Speech separation;Beamforming;BiBeam;Voice activity classification;Beamformer-output-ratio;Adaption control
DOI:10.3969/j.issn.1002-2279.2016.02.011
中圖分類號(hào):TN912.3
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1002-2279(2016)02-0037-04
作者簡介:龐宇(1987-),男,遼寧省盤錦市人,工程碩士,主研方向:現(xiàn)代通信技術(shù)。
收稿日期:2015-06-25