基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)算法概述

2011-10-25 07:57丁猛

大眾科技 2011年3期

關(guān)鍵詞：盲源麥克風(fēng)信號(hào)處理

丁猛

（海軍醫(yī)學(xué)研究所，上海 200433）

基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)算法概述

丁猛

（海軍醫(yī)學(xué)研究所，上海 200433）

麥克風(fēng)陣列語(yǔ)音增強(qiáng)技術(shù)是將陣列信號(hào)處理與語(yǔ)音信號(hào)處理相結(jié)合，利用語(yǔ)音信號(hào)的空間相位信息對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng)的一種技術(shù)。文章介紹了各種基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)基本算法，概述了各算法的基本原理，并總結(jié)了各算法的特點(diǎn)及其所適用的聲學(xué)環(huán)境特性。

麥克風(fēng)陣列；陣列信號(hào)處理；語(yǔ)音增強(qiáng)

（一）引言

在日常生活和工作中，語(yǔ)音通信是人與人之間互相傳遞信息溝通不可缺少的方式。近年來(lái)，雖然數(shù)據(jù)通信得到了迅速發(fā)展，但是語(yǔ)音通信仍然是現(xiàn)階段的主流，并在通信行業(yè)中占主導(dǎo)地位。在語(yǔ)音通信中，語(yǔ)音信號(hào)不可避免地會(huì)受到來(lái)自周?chē)h(huán)境和傳輸媒介的外部噪聲、通信設(shè)備的內(nèi)部噪聲及其他講話(huà)者的干擾。這些干擾共同作用，最終使聽(tīng)者獲得的語(yǔ)音不是純凈的原始語(yǔ)音，而是被噪聲污染過(guò)的帶噪聲語(yǔ)音，嚴(yán)重影響了雙方之間的交流。

應(yīng)用陣列信號(hào)處理技術(shù)的麥克風(fēng)陣列能夠充分利用語(yǔ)音信號(hào)的空時(shí)信息，具有靈活的波束控制、較高的空間分辨率、高的信號(hào)增益與較強(qiáng)的抗干擾能力等特點(diǎn)，逐漸成為強(qiáng)噪聲環(huán)境中語(yǔ)音增強(qiáng)的研究熱點(diǎn)。美國(guó)、德國(guó)、法國(guó)、意大利、日本、香港等國(guó)家和地區(qū)許多科學(xué)家都在開(kāi)展這方面的研究工作，并且已經(jīng)應(yīng)用到一些實(shí)際的麥克風(fēng)陣列系統(tǒng)中，這些應(yīng)用包括視頻會(huì)議、語(yǔ)音識(shí)別、車(chē)載聲控系統(tǒng)、大型場(chǎng)所的記錄會(huì)議和助聽(tīng)裝置等。

文章將介紹各種麥克風(fēng)陣列語(yǔ)音增強(qiáng)算法的基本原理，并總結(jié)各個(gè)算法的特點(diǎn)及存在的局限性。

（二）常見(jiàn)麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法

1.基于固定波束形成的麥克風(fēng)陣列語(yǔ)音增強(qiáng)

固定波束形成技術(shù)是最簡(jiǎn)單最成熟的一種波束形成技術(shù)。1985年美國(guó)學(xué)者 Flanagan 提出采用延時(shí)-相加（Delay-and-Sum）波束形成方法進(jìn)行麥克風(fēng)陣列語(yǔ)音增強(qiáng)，該方法通過(guò)對(duì)各路麥克風(fēng)接收到的信號(hào)添加合適的延時(shí)補(bǔ)償，使得各路輸出信號(hào)在某一方向上保持同步，并在該方向的入射信號(hào)獲得最大增益。此方法易于實(shí)現(xiàn)，但要想獲取較高的噪聲抑制能力則需要增加麥克風(fēng)數(shù)目，然而對(duì)非相干噪聲沒(méi)有抑制能力，環(huán)境適應(yīng)性差，因此實(shí)際中很少單獨(dú)使用。后來(lái)出現(xiàn)的微分麥克風(fēng)陣列（Differential Microphone Arrays）、超方向麥克風(fēng)陣列（Superairective Microphone Arrays）和固定頻率波束形成（Frequency-Invariant Beamformers）技術(shù)也屬于固定波束形成。

2.基于自適應(yīng)波束形成器的麥克風(fēng)陣列語(yǔ)音增強(qiáng)

自適應(yīng)波束形成是現(xiàn)在廣泛使用的一類(lèi)麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法。最早出現(xiàn)的自適應(yīng)波束形成算法是 1972年由Frost提出的線(xiàn)性約束最小方差（Linearly Constrained Minimum Variance,LCMV）自適應(yīng)波束形成器。其基本思想是在某方向有用信號(hào)的增益一定的前提下，使陣列輸出信號(hào)的功率最小。在線(xiàn)性約束最小方差自適應(yīng)波束形成器的基礎(chǔ)上，1982年 Griffiths和 Jim提出了廣義旁瓣消除器（Generalized Sidelobe Canceller, GSC），成為了許多算法的基本框架（圖1）。

圖1 廣義旁瓣消除器的基本結(jié)構(gòu)

廣義旁瓣消除器是麥克風(fēng)陣列語(yǔ)音增強(qiáng)應(yīng)用最廣泛的技術(shù)，即帶噪聲的語(yǔ)音信號(hào)同時(shí)通過(guò)自適應(yīng)通道和非自適應(yīng)通道，自適應(yīng)通道中的阻塞矩陣將有用信號(hào)濾除后產(chǎn)生僅包含多通道噪聲參考信號(hào)，自適應(yīng)濾波器根據(jù)這個(gè)參考信號(hào)得到噪聲估計(jì)，最后由這個(gè)被估計(jì)的噪聲抵消非自適應(yīng)通道中的噪聲分量，從而得到有用的純凈語(yǔ)音信號(hào)。

如果噪聲源的數(shù)目比麥克風(fēng)數(shù)目少，自適應(yīng)波束法能得到很好的性能。但是隨著干擾數(shù)目的增加和混響的增強(qiáng)，自適應(yīng)濾波器的降噪性能會(huì)逐漸降低。

3.基于后置濾波的麥克風(fēng)陣列語(yǔ)音增強(qiáng)

1988年 Zelinski將維納濾波器應(yīng)用在麥克風(fēng)陣列延時(shí)—相加波束形成的輸出端，進(jìn)一步提高了語(yǔ)音信號(hào)的降噪效果，提出了基于后置濾波的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法（圖2）?；诤笾脼V波的方法在對(duì)非相干噪聲抑制方面，不僅具有良好的效果，還能夠在一定程度上適應(yīng)時(shí)變的聲學(xué)環(huán)境。它的基本原理是：假設(shè)各麥克風(fēng)接收到的目標(biāo)信號(hào)相同，接收到的噪聲信號(hào)獨(dú)立同分布，信號(hào)和噪聲不相關(guān)，根據(jù)噪聲特性，依據(jù)某一準(zhǔn)則實(shí)時(shí)更新濾波器權(quán)系數(shù)，對(duì)所接收到數(shù)據(jù)進(jìn)行濾波，從而達(dá)到語(yǔ)音增強(qiáng)的目的。

圖2 結(jié)合后置濾波的固定波束形成器

后置濾波方法存在以下不足：首先，算法的性能受到時(shí)延誤差的影響，使增強(qiáng)后的語(yǔ)音信號(hào)有一定失真；其次，該方法對(duì)方向性的強(qiáng)干擾抑制效果不佳。后置濾波方法極少單獨(dú)使用，常與其他方法聯(lián)合使用。

4.基于近場(chǎng)波束形成的麥克風(fēng)陣列語(yǔ)音增強(qiáng)

當(dāng)聲源位于麥克風(fēng)陣列近場(chǎng)（即陣列的入射波是球面波）情況下，聲波的波前彎曲率不能被忽略，如果仍然把入射聲波作為平面波考慮，采用常規(guī)的波束形成方法來(lái)拾取語(yǔ)音信號(hào)，那么麥克風(fēng)陣列系統(tǒng)輸出效果會(huì)很不理想。解決這個(gè)問(wèn)題最直接的方法就是根據(jù)聲源位置和近場(chǎng)聲學(xué)的特性，對(duì)入射聲波進(jìn)行近場(chǎng)補(bǔ)償，但是這種方法需要已知聲源位置，這在實(shí)際應(yīng)用中難以滿(mǎn)足。由于近場(chǎng)聲學(xué)的復(fù)雜性，目前有關(guān)近場(chǎng)波束形成麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法的研究相對(duì)較少。

5.基于子空間的麥克風(fēng)陣列語(yǔ)音增強(qiáng)

子空間方法的基本思想是計(jì)算出信號(hào)的自相關(guān)矩陣或協(xié)方差矩陣，然后對(duì)其進(jìn)行奇異值分解，將帶噪聲語(yǔ)音信號(hào)劃分為有用信號(hào)子空間和噪聲子空間，利用有用信號(hào)子空間對(duì)信號(hào)進(jìn)行重構(gòu)，從而得到增強(qiáng)后的信號(hào)。由 Asano等提出的基于相干子空間的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法是一種典型的子空間方法。該方法首先將語(yǔ)音信號(hào)劃分到不同頻帶，然后在每個(gè)頻帶再利用空間信息，進(jìn)行子空間處理。

基于子空間的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法雖然降噪性受噪聲場(chǎng)是否相關(guān)影響較小，在相干和非相干噪聲場(chǎng)中均有一定的消噪效果，但是由于計(jì)算量較大，實(shí)現(xiàn)實(shí)時(shí)處理具有一定困難。

6.基于盲源分離的麥克風(fēng)陣列語(yǔ)音增強(qiáng)

在很多實(shí)際應(yīng)用中，信號(hào)源情況和信道的傳遞參數(shù)都很難獲取，盲源分離技術(shù)（Blind Source Separation,BSS）就是在這種需求下提出的。盲源分離是根據(jù)輸入源信號(hào)和干擾的統(tǒng)計(jì)特性，從傳感器陣列接收到的混合信號(hào)中提取出各個(gè)獨(dú)立分量的過(guò)程。法國(guó)學(xué)者Herault.J和Jutten.C在信源與信道先驗(yàn)條件未知的情況下，利用人工神經(jīng)網(wǎng)絡(luò)分離出了有用信號(hào)，開(kāi)創(chuàng)了盲源分離的先河。目前為止，已有許多學(xué)者將盲源分離技術(shù)應(yīng)用于麥克風(fēng)陣列語(yǔ)音增強(qiáng)。

經(jīng)過(guò)二十多年來(lái)國(guó)內(nèi)外學(xué)者的不斷深入研究，盲源分離技術(shù)已經(jīng)取得了巨大的進(jìn)步和發(fā)展，對(duì)盲信號(hào)分離問(wèn)題的研究己經(jīng)從瞬時(shí)混迭模型擴(kuò)展成為線(xiàn)性卷積模型和非線(xiàn)性瞬時(shí)混迭模型，然而由于盲源分離仍屬一個(gè)新興的研究方向，理論上還不成熟，這類(lèi)方法一般運(yùn)算量大，全局收斂性和漸進(jìn)穩(wěn)定性有待加強(qiáng)，距離實(shí)際應(yīng)用有一段距離。

7.其他方法

90年代以來(lái)，一些學(xué)者將各種信號(hào)處理算法與麥克風(fēng)陣列技術(shù)相融合，各種語(yǔ)音增強(qiáng)算法不斷涌現(xiàn)，諸如倒譜分析、小波變換、神經(jīng)網(wǎng)絡(luò)、語(yǔ)音模型等方法已經(jīng)在語(yǔ)音信號(hào)處理領(lǐng)域得到應(yīng)用。雖然這些方法從不同角度對(duì)語(yǔ)音增強(qiáng)系統(tǒng)的性能進(jìn)行了不同程度的改善，但大多計(jì)算量龐大，不適合時(shí)變性較強(qiáng)的聲學(xué)環(huán)境，而且在需要實(shí)時(shí)處理的場(chǎng)合，對(duì)硬件的要求也將大大提高。

近年來(lái)國(guó)內(nèi)一些高校，如清華大學(xué)、大連理工大學(xué)、電子科技大學(xué)、西安電子科技大學(xué)等也做了一些關(guān)于麥克風(fēng)陣列技術(shù)的研究工作，取得了一定的研究成果。張麗艷等提出一種改進(jìn)的麥克風(fēng)陣列倒譜域語(yǔ)音去混響方法，改善混響環(huán)境下的語(yǔ)音質(zhì)量。崔瑋瑋等提出一種基于一階差分麥克風(fēng)陣列的實(shí)時(shí)噪聲譜估計(jì)和抵消方法，提高輸出信噪比的同時(shí)降低了計(jì)算量。曾慶寧等將陣列交叉串?dāng)_信號(hào)的自適應(yīng)噪聲抵消方法應(yīng)用于麥克風(fēng)陣列語(yǔ)音增強(qiáng)，適用于在多種噪聲環(huán)境中實(shí)時(shí)實(shí)現(xiàn)。

（三）結(jié)論

語(yǔ)音信號(hào)增強(qiáng)是諸如智能控制、辦公自動(dòng)化、多媒體消費(fèi)品等領(lǐng)域的關(guān)鍵技術(shù)之一，將麥克風(fēng)陣列技術(shù)應(yīng)用于語(yǔ)音增強(qiáng)，能夠取得傳統(tǒng)單麥克風(fēng)難以達(dá)到的增強(qiáng)效果。語(yǔ)音信號(hào)作為一種寬帶的非平穩(wěn)信號(hào)，在傳輸過(guò)程中不可避免地會(huì)受到各種噪聲的干擾，所以采用麥克風(fēng)陣列系統(tǒng)時(shí)需滿(mǎn)足在一個(gè)比較寬的聲域范圍抑制各種噪聲干擾，減少語(yǔ)音的失真，同時(shí)也要降低系統(tǒng)成本和計(jì)算時(shí)間，以達(dá)到較好的實(shí)時(shí)性和實(shí)用性。在實(shí)際應(yīng)用中應(yīng)根據(jù)具體的使用環(huán)境的噪聲特性，設(shè)計(jì)合適的麥克風(fēng)陣列結(jié)構(gòu)，選擇最佳的算法及其具體的實(shí)現(xiàn)形式。

[1] Flanagan J L, Johnston D J, Zahn R, et al. Computer-steered microphone arrays for sound transduction in large rooms[J].Journal of Acoustical Society of American,1985,78(5).

[2] O.L.Frost.An algorithm for linearly-constrained adaptive array processing[J].Proc.IEEE,1972,60(8).

[3] L. J. Griffiths, C. W. Jim. An alternative approach to linearly constrained adaptive beamforming[J]. IEEE Trans.On Antennas and Propagation. 1982,30(1).

[4] Khalil F, Jullien J P, Crilloire A. Microphone array for sound pickup in teleconference systems[J].Audio Engineering Society,1994,42( 9).

[5] 張麗艷,等.一種適用于混響環(huán)境的麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法[J].信號(hào)處理,2009,25(5).

TN911.7

1008-1151(2011)03-0029-02

2010-12-30

丁猛（1983－），男，海軍醫(yī)學(xué)研究所研究實(shí)習(xí)員。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于麥克風(fēng)陣列的語(yǔ)音增強(qiáng)算法概述

（一）引言

（二）常見(jiàn)麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法

（三）結(jié)論