丁 猛
(海軍醫(yī)學(xué)研究所,上海 200433)
基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)算法概述
丁 猛
(海軍醫(yī)學(xué)研究所,上海 200433)
麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)是將陣列信號(hào)處理與語(yǔ)音信號(hào)處理相結(jié)合,利用語(yǔ)音信號(hào)的空間相位信息對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng)的一種技術(shù)。文章介紹了各種基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)基本算法,概述了各算法的基本原理,并總結(jié)了各算法的特點(diǎn)及其所適用的聲學(xué)環(huán)境特性。
麥克風(fēng)陣列;陣列信號(hào)處理;語(yǔ)音增強(qiáng)
在日常生活和工作中,語(yǔ)音通信是人與人之間互相傳遞信息溝通不可缺少的方式。近年來(lái),雖然數(shù)據(jù)通信得到了迅速發(fā)展,但是語(yǔ)音通信仍然是現(xiàn)階段的主流,并在通信行業(yè)中占主導(dǎo)地位。在語(yǔ)音通信中,語(yǔ)音信號(hào)不可避免地會(huì)受到來(lái)自周?chē)h(huán)境和傳輸媒介的外部噪聲、通信設(shè)備的內(nèi)部噪聲及其他講話(huà)者的干擾。這些干擾共同作用,最終使聽(tīng)者獲得的語(yǔ)音不是純凈的原始語(yǔ)音,而是被噪聲污染過(guò)的帶噪聲語(yǔ)音,嚴(yán)重影響了雙方之間的交流。
應(yīng)用陣列信號(hào)處理技術(shù)的麥克風(fēng)陣列能夠充分利用語(yǔ)音信號(hào)的空時(shí)信息,具有靈活的波束控制、較高的空間分辨率、高的信號(hào)增益與較強(qiáng)的抗干擾能力等特點(diǎn),逐漸成為強(qiáng)噪聲環(huán)境中語(yǔ)音增強(qiáng)的研究熱點(diǎn)。美國(guó)、德國(guó)、法國(guó)、意大利、日本、香港等國(guó)家和地區(qū)許多科學(xué)家都在開(kāi)展這方面的研究工作,并且已經(jīng)應(yīng)用到一些實(shí)際的麥克風(fēng)陣列系統(tǒng)中,這些應(yīng)用包括視頻會(huì)議、語(yǔ)音識(shí)別、車(chē)載聲控系統(tǒng)、大型場(chǎng)所的記錄會(huì)議和助聽(tīng)裝置等。
文章將介紹各種麥克風(fēng)陣列語(yǔ)音增強(qiáng)算法的基本原理,并總結(jié)各個(gè)算法的特點(diǎn)及存在的局限性。
1.基于固定波束形成的麥克風(fēng)陣列語(yǔ)音增強(qiáng)
固定波束形成技術(shù)是最簡(jiǎn)單最成熟的一種波束形成技術(shù)。1985年美國(guó)學(xué)者 Flanagan 提出采用延時(shí)-相加(Delay-and-Sum)波束形成方法進(jìn)行麥克風(fēng)陣列語(yǔ)音增強(qiáng),該方法通過(guò)對(duì)各路麥克風(fēng)接收到的信號(hào)添加合適的延時(shí)補(bǔ)償,使得各路輸出信號(hào)在某一方向上保持同步,并在該方向的入射信號(hào)獲得最大增益。此方法易于實(shí)現(xiàn),但要想獲取較高的噪聲抑制能力則需要增加麥克風(fēng)數(shù)目,然而對(duì)非相干噪聲沒(méi)有抑制能力,環(huán)境適應(yīng)性差,因此實(shí)際中很少單獨(dú)使用。后來(lái)出現(xiàn)的微分麥克風(fēng)陣列(Differential Microphone Arrays)、超方向麥克風(fēng)陣列(Superairective Microphone Arrays)和固定頻率波束形成(Frequency-Invariant Beamformers) 技術(shù)也屬于固定波束形成。
2.基于自適應(yīng)波束形成器的麥克風(fēng)陣列語(yǔ)音增強(qiáng)
自適應(yīng)波束形成是現(xiàn)在廣泛使用的一類(lèi)麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法。最早出現(xiàn)的自適應(yīng)波束形成算法是 1972年由Frost提出的線(xiàn)性約束最小方差(Linearly Constrained Minimum Variance,LCMV)自適應(yīng)波束形成器。其基本思想是在某方向有用信號(hào)的增益一定的前提下,使陣列輸出信號(hào)的功率最小。在線(xiàn)性約束最小方差自適應(yīng)波束形成器的基礎(chǔ)上,1982年 Griffiths和 Jim提出了廣義旁瓣消除器(Generalized Sidelobe Canceller, GSC),成為了許多算法的基本框架(圖1)。
圖1 廣義旁瓣消除器的基本結(jié)構(gòu)
廣義旁瓣消除器是麥克風(fēng)陣列語(yǔ)音增強(qiáng)應(yīng)用最廣泛的技術(shù),即帶噪聲的語(yǔ)音信號(hào)同時(shí)通過(guò)自適應(yīng)通道和非自適應(yīng)通道,自適應(yīng)通道中的阻塞矩陣將有用信號(hào)濾除后產(chǎn)生僅包含多通道噪聲參考信號(hào),自適應(yīng)濾波器根據(jù)這個(gè)參考信號(hào)得到噪聲估計(jì),最后由這個(gè)被估計(jì)的噪聲抵消非自適應(yīng)通道中的噪聲分量,從而得到有用的純凈語(yǔ)音信號(hào)。
如果噪聲源的數(shù)目比麥克風(fēng)數(shù)目少,自適應(yīng)波束法能得到很好的性能。但是隨著干擾數(shù)目的增加和混響的增強(qiáng),自適應(yīng)濾波器的降噪性能會(huì)逐漸降低。
3.基于后置濾波的麥克風(fēng)陣列語(yǔ)音增強(qiáng)
1988年 Zelinski將維納濾波器應(yīng)用在麥克風(fēng)陣列延時(shí)—相加波束形成的輸出端,進(jìn)一步提高了語(yǔ)音信號(hào)的降噪效果,提出了基于后置濾波的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法(圖2)?;诤笾脼V波的方法在對(duì)非相干噪聲抑制方面,不僅具有良好的效果,還能夠在一定程度上適應(yīng)時(shí)變的聲學(xué)環(huán)境。它的基本原理是:假設(shè)各麥克風(fēng)接收到的目標(biāo)信號(hào)相同,接收到的噪聲信號(hào)獨(dú)立同分布,信號(hào)和噪聲不相關(guān),根據(jù)噪聲特性,依據(jù)某一準(zhǔn)則實(shí)時(shí)更新濾波器權(quán)系數(shù),對(duì)所接收到數(shù)據(jù)進(jìn)行濾波,從而達(dá)到語(yǔ)音增強(qiáng)的目的。
圖2 結(jié)合后置濾波的固定波束形成器
后置濾波方法存在以下不足:首先,算法的性能受到時(shí)延誤差的影響,使增強(qiáng)后的語(yǔ)音信號(hào)有一定失真;其次,該方法對(duì)方向性的強(qiáng)干擾抑制效果不佳。后置濾波方法極少單獨(dú)使用,常與其他方法聯(lián)合使用。
4.基于近場(chǎng)波束形成的麥克風(fēng)陣列語(yǔ)音增強(qiáng)
當(dāng)聲源位于麥克風(fēng)陣列近場(chǎng)(即陣列的入射波是球面波)情況下,聲波的波前彎曲率不能被忽略,如果仍然把入射聲波作為平面波考慮,采用常規(guī)的波束形成方法來(lái)拾取語(yǔ)音信號(hào),那么麥克風(fēng)陣列系統(tǒng)輸出效果會(huì)很不理想。解決這個(gè)問(wèn)題最直接的方法就是根據(jù)聲源位置和近場(chǎng)聲學(xué)的特性,對(duì)入射聲波進(jìn)行近場(chǎng)補(bǔ)償,但是這種方法需要已知聲源位置,這在實(shí)際應(yīng)用中難以滿(mǎn)足。由于近場(chǎng)聲學(xué)的復(fù)雜性,目前有關(guān)近場(chǎng)波束形成麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法的研究相對(duì)較少。
5.基于子空間的麥克風(fēng)陣列語(yǔ)音增強(qiáng)
子空間方法的基本思想是計(jì)算出信號(hào)的自相關(guān)矩陣或協(xié)方差矩陣,然后對(duì)其進(jìn)行奇異值分解,將帶噪聲語(yǔ)音信號(hào)劃分為有用信號(hào)子空間和噪聲子空間,利用有用信號(hào)子空間對(duì)信號(hào)進(jìn)行重構(gòu),從而得到增強(qiáng)后的信號(hào)。由 Asano等提出的基于相干子空間的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法是一種典型的子空間方法。該方法首先將語(yǔ)音信號(hào)劃分到不同頻帶,然后在每個(gè)頻帶再利用空間信息,進(jìn)行子空間處理。
基于子空間的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法雖然降噪性受噪聲場(chǎng)是否相關(guān)影響較小,在相干和非相干噪聲場(chǎng)中均有一定的消噪效果,但是由于計(jì)算量較大,實(shí)現(xiàn)實(shí)時(shí)處理具有一定困難。
6.基于盲源分離的麥克風(fēng)陣列語(yǔ)音增強(qiáng)
在很多實(shí)際應(yīng)用中,信號(hào)源情況和信道的傳遞參數(shù)都很難獲取,盲源分離技術(shù)(Blind Source Separation,BSS)就是在這種需求下提出的。盲源分離是根據(jù)輸入源信號(hào)和干擾的統(tǒng)計(jì)特性,從傳感器陣列接收到的混合信號(hào)中提取出各個(gè)獨(dú)立分量的過(guò)程。法國(guó)學(xué)者Herault.J和Jutten.C在信源與信道先驗(yàn)條件未知的情況下,利用人工神經(jīng)網(wǎng)絡(luò)分離出了有用信號(hào),開(kāi)創(chuàng)了盲源分離的先河。目前為止,已有許多學(xué)者將盲源分離技術(shù)應(yīng)用于麥克風(fēng)陣列語(yǔ)音增強(qiáng)。
經(jīng)過(guò)二十多年來(lái)國(guó)內(nèi)外學(xué)者的不斷深入研究,盲源分離技術(shù)已經(jīng)取得了巨大的進(jìn)步和發(fā)展,對(duì)盲信號(hào)分離問(wèn)題的研究己經(jīng)從瞬時(shí)混迭模型擴(kuò)展成為線(xiàn)性卷積模型和非線(xiàn)性瞬時(shí)混迭模型,然而由于盲源分離仍屬一個(gè)新興的研究方向,理論上還不成熟,這類(lèi)方法一般運(yùn)算量大,全局收斂性和漸進(jìn)穩(wěn)定性有待加強(qiáng),距離實(shí)際應(yīng)用有一段距離。
7.其他方法
90年代以來(lái),一些學(xué)者將各種信號(hào)處理算法與麥克風(fēng)陣列技術(shù)相融合,各種語(yǔ)音增強(qiáng)算法不斷涌現(xiàn),諸如倒譜分析、小波變換、神經(jīng)網(wǎng)絡(luò)、語(yǔ)音模型等方法已經(jīng)在語(yǔ)音信號(hào)處理領(lǐng)域得到應(yīng)用。雖然這些方法從不同角度對(duì)語(yǔ)音增強(qiáng)系統(tǒng)的性能進(jìn)行了不同程度的改善,但大多計(jì)算量龐大,不適合時(shí)變性較強(qiáng)的聲學(xué)環(huán)境,而且在需要實(shí)時(shí)處理的場(chǎng)合,對(duì)硬件的要求也將大大提高。
近年來(lái)國(guó)內(nèi)一些高校,如清華大學(xué)、大連理工大學(xué)、電子科技大學(xué)、西安電子科技大學(xué)等也做了一些關(guān)于麥克風(fēng)陣列技術(shù)的研究工作,取得了一定的研究成果。張麗艷等提出一種改進(jìn)的麥克風(fēng)陣列倒譜域語(yǔ)音去混響方法,改善混響環(huán)境下的語(yǔ)音質(zhì)量。崔瑋瑋等提出一種基于一階差分麥克風(fēng)陣列的實(shí)時(shí)噪聲譜估計(jì)和抵消方法,提高輸出信噪比的同時(shí)降低了計(jì)算量。曾慶寧等將陣列交叉串?dāng)_信號(hào)的自適應(yīng)噪聲抵消方法應(yīng)用于麥克風(fēng)陣列語(yǔ)音增強(qiáng),適用于在多種噪聲環(huán)境中實(shí)時(shí)實(shí)現(xiàn)。
語(yǔ)音信號(hào)增強(qiáng)是諸如智能控制、辦公自動(dòng)化、多媒體消費(fèi)品等領(lǐng)域的關(guān)鍵技術(shù)之一,將麥克風(fēng)陣列技術(shù)應(yīng)用于語(yǔ)音增強(qiáng),能夠取得傳統(tǒng)單麥克風(fēng)難以達(dá)到的增強(qiáng)效果。語(yǔ)音信號(hào)作為一種寬帶的非平穩(wěn)信號(hào),在傳輸過(guò)程中不可避免地會(huì)受到各種噪聲的干擾,所以采用麥克風(fēng)陣列系統(tǒng)時(shí)需滿(mǎn)足在一個(gè)比較寬的聲域范圍抑制各種噪聲干擾,減少語(yǔ)音的失真,同時(shí)也要降低系統(tǒng)成本和計(jì)算時(shí)間,以達(dá)到較好的實(shí)時(shí)性和實(shí)用性。在實(shí)際應(yīng)用中應(yīng)根據(jù)具體的使用環(huán)境的噪聲特性,設(shè)計(jì)合適的麥克風(fēng)陣列結(jié)構(gòu),選擇最佳的算法及其具體的實(shí)現(xiàn)形式。
[1] Flanagan J L, Johnston D J, Zahn R, et al. Computer-steered microphone arrays for sound transduction in large rooms[J].Journal of Acoustical Society of American,1985,78(5).
[2] O.L.Frost.An algorithm for linearly-constrained adaptive array processing[J].Proc.IEEE,1972,60(8).
[3] L. J. Griffiths, C. W. Jim. An alternative approach to linearly constrained adaptive beamforming[J]. IEEE Trans.On Antennas and Propagation. 1982,30(1).
[4] Khalil F, Jullien J P, Crilloire A. Microphone array for sound pickup in teleconference systems[J].Audio Engineering Society,1994,42( 9).
[5] 張麗艷,等.一種適用于混響環(huán)境的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法[J].信號(hào)處理,2009,25(5).
TN911.7
A
1008-1151(2011)03-0029-02
2010-12-30
丁猛(1983-),男,海軍醫(yī)學(xué)研究所研究實(shí)習(xí)員。