基于保留部分頻域鏡像分量的聲源定位算法

2016-07-19 02:14蔡衛(wèi)平劉瑞娟

計(jì)算機(jī)應(yīng)用與軟件 2016年6期

關(guān)鍵詞：混響譜峰麥克風(fēng)

蔡衛(wèi)平　劉瑞娟　周　琳

1(九江職業(yè)技術(shù)學(xué)院電氣工程學(xué)院　江西九江 332007)2(東南大學(xué)信息科學(xué)與工程學(xué)院　江蘇南京 210096)

基于保留部分頻域鏡像分量的聲源定位算法

蔡衛(wèi)平1劉瑞娟1周琳2

1(九江職業(yè)技術(shù)學(xué)院電氣工程學(xué)院江西九江 332007)2(東南大學(xué)信息科學(xué)與工程學(xué)院江蘇南京 210096)

摘要針對傳統(tǒng)的SRP-PHAT(Steered Response Power with Phase Transform)聲源定位算法容易受噪聲影響而導(dǎo)致定位性能降低的問題，提出一種頻域補(bǔ)零且保留部分鏡像分量的改進(jìn)算法。該算法首先通過傅里葉變換將接收信號變換到頻域，然后在高頻端補(bǔ)零至20倍幀長，同時保留部分鏡像分量。在此基礎(chǔ)上計(jì)算麥克風(fēng)對接收信號的互功率譜密度函數(shù)，作傅里葉逆變換得到相位變換加權(quán)的廣義互相關(guān)(GCC-PHAT)函數(shù)。保留的鏡像分量拓寬了信號頻域，使GCC-PHAT函數(shù)的峰更為尖銳，累加后得到的SRP-PHAT函數(shù)的空間譜峰也就更加尖銳，從而提高定位性能。實(shí)驗(yàn)表明，相比于傳統(tǒng)算法，改進(jìn)算法能顯著提高定位成功率。

關(guān)鍵詞相位變換聲源定位鏡像分量

0引言

由于噪聲和混響的影響，在真實(shí)環(huán)境中實(shí)現(xiàn)較高精度的聲源定位仍然是比較困難的，尤其是小型陣列，受陣列孔徑及陣元個數(shù)的限制，定位精度較低。在已有的聲源定位算法中，以多重信號分類MUSIC(MultipleSignalClassification)算法[5]為代表的高分辨率譜估計(jì)算法理論上可以達(dá)到很高的精度，但是該算法不能處理高度相關(guān)的信號，混響將使得定位性能急劇下降。文獻(xiàn)[6]提出導(dǎo)引響應(yīng)功率SRP-PHAT聲源定位算法。該算法的定位原理是根據(jù)接收信號計(jì)算假想聲源位置處的導(dǎo)引響應(yīng)功率，使其取最大值的點(diǎn)即為聲源位置估計(jì)。SRP-PHAT算法在混響環(huán)境中具有較強(qiáng)的魯棒性，但是計(jì)算復(fù)雜度較高，為提高算法的實(shí)時性，研究人員提出了多種減少其計(jì)算量的方法[7-9]。SRP-PHAT算法在低信噪比、強(qiáng)混響條件下的定位性能仍然較低，對此，研究人員也提出了多種改進(jìn)方法。文獻(xiàn)[10]提出了最大似然定位算法，該算法在低信噪比、弱混響條件下能較大幅度提高定位性能，而在高信噪比或強(qiáng)混響條件下定位性能與SRP-PHAT接近。針對分布式陣列的特點(diǎn)，文獻(xiàn)[11]提出加權(quán)SRP-PHAT算法，利用各陣元接收信號質(zhì)量的不同，對于信號質(zhì)量較好的陣元賦予較大權(quán)重，從而提高定位性能。文獻(xiàn)[12]則提出了更為簡單的加權(quán)算法。文獻(xiàn)[11,12]的算法只能用于分布式陣列，小型陣列中，各陣元接收信號質(zhì)量幾乎沒有差別，加權(quán)算法不能提高定位性能。文獻(xiàn)[13]提出了基于歸一化算術(shù)平均的寬帶SRP算法，該算法改善了噪聲環(huán)境下的定位性能，但不適用于有混響的室內(nèi)環(huán)境。

SRP-PHAT函數(shù)可表達(dá)成所有麥克風(fēng)對的廣義互相關(guān)GCC-PHAT(GeneralizedCrossCorrelationwithPhaseTransform)函數(shù)之和[6]。由于采用了相位變換PHAT(PhaseTransform)加權(quán)，GCC-PHAT函數(shù)應(yīng)該有尖銳的峰，從而SRP-PHAT函數(shù)有尖銳的空間譜峰，但是由于噪聲，實(shí)際的空間譜峰變得較寬，又由于反射聲的存在，其產(chǎn)生的虛假譜峰與直達(dá)聲的譜峰相互疊加，使得SRP-PHAT函數(shù)的最大值所在位置偏離了真實(shí)聲源的位置，導(dǎo)致定位誤差。根據(jù)上述分析，本文提出一種改進(jìn)的SRP-PHAT算法。該算法將麥克風(fēng)對接收信號的互功率譜拓寬，使得其相應(yīng)的互相關(guān)函數(shù)更加尖銳，累加后得到SRP-PHAT函數(shù)的空間譜峰也就更加尖銳，從而提高定位精度。

1信號模型

假設(shè)麥克風(fēng)陣列的陣元個數(shù)為M，用s(n)表示聲源信號，則在真實(shí)環(huán)境中，第m個陣元的接收信號為：

xm(n)=hm(n)*s(n)+bm(n)

(1)

其中hm(n)為聲源到第m個陣元的房間沖擊響應(yīng)，“*”表示線性卷積，bm(n)表示第m個陣元的背景噪聲。式(1)中的卷積運(yùn)算表征了陣元接收信號中既有聲源信號的直達(dá)聲也有多次反射聲。假設(shè)聲源信號與噪聲不相關(guān)，各通道的背景噪聲也不相關(guān)。

2SRP-PHAT算法

2.1SRP-PHAT的原理

如前文所述，SRP-PHAT函數(shù)可表達(dá)成所有麥克風(fēng)對的GCC-PHAT函數(shù)之和，即：

(2)

(3)

ζ=[cosφcosθ, cosφsinθ, sinφ]T

(4)

用rm=[x,y,z]T表示第m個麥克風(fēng)的直角坐標(biāo)矢量，c表示空氣中的聲速(約為342m/s)，則：

(5)

聲源位置估計(jì)為：

(6)

其中Q為聲源空間。

2.2SRP-PHAT的實(shí)現(xiàn)

竹林機(jī)械化經(jīng)營是一個全新的課題，不僅要有理念上的轉(zhuǎn)變，也要有模式和方法的創(chuàng)新。目前，雖然對上述3種模式進(jìn)行了初步的探索與實(shí)踐，但由于試驗(yàn)時間較短，樣地面積和規(guī)模都較小，其成果應(yīng)用仍有許多局限性。為此，需要業(yè)界朋友集思廣益，群策群力，以期早日形成具有共性的機(jī)械化經(jīng)營模式，為竹產(chǎn)業(yè)的振興和可持續(xù)發(fā)展做出新貢獻(xiàn)。

(7)

3改進(jìn)的SRP-PHAT算法

如前文所述，由于噪聲和混響的影響，SRP-PHAT函數(shù)的空間譜峰變寬，容易相互疊加，導(dǎo)致聲源位置估計(jì)誤差。眾所周知，互相關(guān)函數(shù)與互功率譜是一對傅里葉變換，令：

(8)

(9)

(10)

(11)

相應(yīng)的真實(shí)聲源位置估計(jì)為：

(12)

4實(shí)驗(yàn)與分析

4.1實(shí)驗(yàn)環(huán)境

為了比較改進(jìn)算法與原算法的性能，我們利用在真實(shí)環(huán)境中錄制的數(shù)據(jù)庫AV16.3[16]來做聲源定位實(shí)驗(yàn)。AV16.3是在會議室中錄制的，包括多種情景，專門供聲源定位研究人員使用。本實(shí)驗(yàn)取單個靜止聲源的一組數(shù)據(jù)，編號為“seq01_1p_0000”，錄制場景如圖1所示。

圖1　說話人區(qū)域與麥克風(fēng)陣列的位置

圖1中的陰影部分為聲源所在區(qū)域，說話人分別在16個位置說一段話。麥克風(fēng)陣列為具有八個陣元的均勻圓陣，半徑為0.1m，放置于會議桌上。由于陣列孔徑較小，滿足遠(yuǎn)場條件，即只估計(jì)聲源的到達(dá)方向角DOA(DirectionofArrival)，麥克風(fēng)陣列與DOA矢量的關(guān)系如圖2所示。

圖2　麥克風(fēng)陣列與DOA矢量

圖2中，坐標(biāo)原點(diǎn)位于陣列圓心，xoy平面就是陣列所在平面，小黑點(diǎn)表示麥克風(fēng)，DOA矢量由坐標(biāo)原點(diǎn)指向聲源，其單位矢量就是式(4)所描述的ζ。說話人為男性，說英語，信號采樣頻率fs=16kHz。信號幀長512點(diǎn)(32ms)，幀重疊率50%，加漢寧(Hanning)窗，去掉靜音間隙后，總計(jì)有5646幀信號用于聲源定位實(shí)驗(yàn)。水平角θ的搜索范圍為-180°～180°，仰角φ的搜索范圍為0°～90°，步長均為1°。

4.2性能評價準(zhǔn)則

(13)

(14)

(15)

4.3實(shí)驗(yàn)結(jié)果

我們用傳統(tǒng)的SRP-PHAT算法和本文提出的改進(jìn)算法處理前文描述的真實(shí)數(shù)據(jù)。為便于描述，改進(jìn)算法記為SRP-PHAT-PZ。IDIAP提供了實(shí)現(xiàn)傳統(tǒng)SRP-PHAT算法的MATLAB程序，其實(shí)現(xiàn)方法如2.2節(jié)所述，可直接使用該程序得到傳統(tǒng)算法的實(shí)驗(yàn)結(jié)果。我們修改IDIAP的程序?qū)崿F(xiàn)改進(jìn)算法。IDIAP的程序中，設(shè)置L=20，為便于比較，本文仍然采用該參數(shù)值。對于水平角，γ取1°～180°，對于仰角，γ取1°～90°，步長均為1°。兩種算法的定位成功率如圖3所示。

圖3　兩種算法的定位成功率比較

由圖3可見，在不同的允許誤差下，改進(jìn)算法的定位成功率都比傳統(tǒng)算法的要高，其中仰角的定位成功率提高幅度更大。比較實(shí)用的允許誤差角度通常為幾度到十幾度[10]，表1給出了幾種典型的允許誤差角度下，兩種算法定位成功率的具體數(shù)據(jù)。

表1　在典型的允許誤差角度下，兩種算法的定位成功率比較

表2　在典型的允許誤差角度下，兩種算法的均方根誤差比較

5結(jié)語

SRP-PHAT算法能實(shí)現(xiàn)真實(shí)環(huán)境中的聲源定位，但是在信噪比較低、混響較強(qiáng)的環(huán)境中，其定位性能仍然不高。本文提出一種保留部分頻域鏡像分量的改進(jìn)算法。采用在信號高頻端補(bǔ)零的方法來提高時域采樣率，在此過程中保留了部分頻域鏡像分量，從而拓寬了互功率譜的頻帶寬度，使得互相關(guān)函數(shù)的峰更加尖銳。SRP-PHAT函數(shù)可表示為所有麥克風(fēng)對接收信號的GCC-PHAT函數(shù)之和，更為尖銳的GCC-PHAT函數(shù)使得SRP-PHAT函數(shù)中真實(shí)聲源對應(yīng)的空間譜峰與反射聲對應(yīng)的譜峰不容易重疊，避免譜峰位置偏移。實(shí)驗(yàn)表明，本文提出的算法比傳統(tǒng)算法的定位成功率有較大幅度提高，同時減小了估計(jì)的均方根誤差。

參考文獻(xiàn)

[1]FaubelF,GeorgesM,KumataniK,etal.Improvinghands-freespeechrecognitionincarthroughaudio-visualvoiceactivitydetection[C]//ProceedingofJointWorkshoponHands-freeSpeechCommunicationandMicrophoneArrays.Edinburgh,UK:IEEE,2011:70-75.

[2]SunL,ChengQ.Real-timemicrophonearrayprocessingforsoundsourceseparationandlocalization[C]//ProceedingofIEEE47thAnnualConferenceonInformationSciencesandSystems(CISS).Baltimore,MD,USA:IEEE,2013:1-6.

[3]TourbabinV,RafaelyB.Theoreticalframeworkforthedesignofmicrophonearraysforrobotaudition[C]//ProceedingofIEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing(ICASSP).Vancouver,Canada:IEEE,2013:4290-4294.

[4]SeewaldLA,JrLG,VeronezMR,etal.CombiningSRP-PHATandtwoKinectsfor3Dsoundsourcelocalization[J].ExpertSystemswithApplications,2014,41(16):7106-7113.

[5]DmochowskiJP,BenestyJ,AffesS.BroadbandMUSIC:opportunitiesandchallengesformultiplesourcelocalization[C]//IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics.NewPaltz,NY,USA:IEEE,2007:18-21.

[6]DibiaseJH.Ahigh-accuracy,low-latencytechniquefortalkerlocalizationinreverberantenvironmentsusingmicrophonearrays[D].Providence:DivisionofEngineeringatBrownUniversity,2000.

[7]ZhaoY,ChenX,WangB.Real-timesoundsourcelocalizationusinghybridframework[J].AppliedAcoustics,2013,74(12):1367-1373.

[8]OualilY,FaubelF,KlakowD.Afastcumulativesteeredresponsepowerformultiplespeakerdetectionandlocalization[C]//ProceedingofEuropeanSignalProcessingConference(EUSIPCO).Marrakech,Morocco:IEEE,2013:1-5.

[9]NunesLO,MartinsWA,LimaMVS,etal.ASteered-responsepoweralgorithmemployinghierarchicalsearchforacousticsourcelocalizationusingmicrophonearrays[J].IEEETransactionsonSignalProcessing,2014,62(19):5171-5183.

[10]ZhangC,FlorencioD,BaDE,etal.Maximumlikelihoodsoundsourcelocalizationandbeamformingfordirectionalmicrophonearraysindistributedmeetings[J].IEEETransactionsonmultimedia,2008,10(3):538-548.

[11]MungamuruB,AarabiP.Enhancedsoundlocalization[J].IEEETransactionsonSystems,Man,andCybernetics-partB:Cybernetics,2004,34(3):1526-1540.

[12] 蔡衛(wèi)平,黃印君,陸澤櫞.基于分布式麥克風(fēng)陣列的聲源定位算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(5):132-135.

[13]SalvatiD,DrioliC,ForestiGL.Incoherentfrequencyfusionforbroadbandsteeredresponsepoweralgorithmsinnoisyenvironments[J].IEEESignalProcessingLetters,2014,21(5):581-585.

[14]KnappCH,CarterGC.Thegeneralizedcorrelationmethodforestimationoftimedelay[J].IEEETransactionsonAcoustics,Speech,andSignalProcessing,1976,24(4):320-327.

[15]DmochowskiJP,BenestyJ,AffesS.Ageneralizedsteeredresponsepowermethodforcomputationallyviablesourcelocalization[J].IEEETransactionsonAudio,Speech,andLanguageProcessing,2007,15(8):2510-2526.

[16]LathoudG,OdobezJM,Gatica-perezD.AV16.3:anaudio-visualcorpusforspeakerlocalizationandtracking[R].Martigny:IDIAPResearchInstitute,2004.

SOUND SOURCE LOCALISATION ALGORITHM BASED ON RETAINING PARTIALMIRRORCOMPONENTSINFREQUENCYDOMAIN

Cai Weiping1Liu Ruijuan1Zhou Lin2

1(School of Electrical Engineering,Jiujiang Vocational and Technical College,Jiujiang 332007,Jiangxi,China)2(School of Information Science and Engineering,Southeast University,Nanjing 210096,Jiangsu,China)

AbstractTo deal with the problem of the sound source localisation algorithm of traditional steered response power with phase transform weighting (SRP-PHAT) that its localisation performance is easily degraded due to noise influence, in this paper we propose an improved algorithm which pads the zeros in frequency domain and retains partial mirror components as well. First, the algorithm transforms the received signals to frequency domain through fast Fourier transform (FFT), and then pads the zeros to reach 20 times of the frame length in high-frequency band while preserving part of the mirror components. On this basis, the cross power spectral density function of the microphone pair on received signals can be estimated, and the corresponding generalised cross correlation with phase transform weighting (GCC-PHAT) function can be obtained by taking inverse fast Fourier transform (IFFT). The retained mirror components broaden the signal spectrum so that the peak of GCC-PHAT function becomes sharper. Consequently, the spatial spectrum peak of SRP-PHAT function, which is the accumulation of GCC-PHAT functions for all of the microphone pairs, becomes sharper, thus the localisation performance is improved. Experiments show that compared with conventional algorithms, the proposed algorithm can considerably enhance the success rates of sound source localisation.

KeywordsPhase transformSound source localisationMirror components

收稿日期：2015-01-18。國家自然科學(xué)基金青年基金項(xiàng)目(61201 345)。蔡衛(wèi)平，副教授，主研領(lǐng)域：陣列信號處理。劉瑞娟，講師。周琳，副教授。

中圖分類號TP391.4

文獻(xiàn)標(biāo)識碼A

DOI:10.3969/j.issn.1000-386x.2016.06.077

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于保留部分頻域鏡像分量的聲源定位算法