石超宇,王 濤,阮振裔
(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
近年來,環(huán)境立體聲(ambisonic)被廣泛地研究和應(yīng)用,它使用以一定方式組合的麥克風(fēng)陣列來記錄多通道聲音信號(hào),最終通過若干個(gè)聲道的信息運(yùn)算去生成三維的全景聲場(chǎng)。其中估計(jì)到達(dá)方向(DOA)對(duì)于分析聲學(xué)場(chǎng)景至關(guān)重要。其主要應(yīng)用包括聲源定位、波束成形、定向音頻編碼等。聲音由于其非窄帶性和非平穩(wěn)性,其分析一般建立在短時(shí)傅立葉變換(STFT)域中,并認(rèn)為每個(gè)時(shí)頻點(diǎn)上均包含多個(gè)DOA信息。因此,準(zhǔn)確地估計(jì)DOA至關(guān)重要。
由于非平穩(wěn)語音和混響環(huán)境,對(duì)DoA估計(jì)非常困難。消費(fèi)類電子產(chǎn)品中使用的小型麥克風(fēng)陣列將進(jìn)一步降低其性能。標(biāo)量傳感器陣列的DOA估計(jì)方法目前已較為成熟,并逐漸擴(kuò)展到矢量陣列,例如Capon方法[1-2]、MUSIC算法[3]和ESPRIT算法[4]等。其中,MUSIC和ESPRIT在分辨率和估計(jì)精度方面明顯優(yōu)于Capon和TDOA等方法。在文獻(xiàn)[5]-[8]中,提出了一種DOA估計(jì)器和該種估計(jì)器的改進(jìn),該估計(jì)器可以從“B-格式”麥克風(fēng)信號(hào)確定每個(gè)時(shí)間和頻率上兩個(gè)平面波的DOA,但估計(jì)器受噪聲和混響干擾較大;文獻(xiàn)[9]在“B-格式”麥克風(fēng)信號(hào)中使用聲密度矢量分離直達(dá)聲和漫射聲,并估計(jì)直達(dá)聲方向,但該方式只能針對(duì)單聲源場(chǎng)景,無法區(qū)分多個(gè)聲源的位置;文獻(xiàn)[10]、[11]提出了EB-ESPRIT算法,有效地解決了含混含噪環(huán)境下的多聲源DOA估計(jì),但其使用了價(jià)格昂貴且體積較大的球麥克風(fēng)陣列,這將不利于日漸小型化、微型化的應(yīng)用。
對(duì)實(shí)值子空間算法的應(yīng)用近年來已經(jīng)在某些陣列中有所突破,時(shí)勝國等[12]對(duì)矢量傳感器圓陣列的實(shí)值算法,利用聲壓與粒子速度的空間相關(guān)特性構(gòu)造一個(gè)實(shí)值互協(xié)方差矩陣來消除各向同性噪聲;柳艾飛等[13]提出了針對(duì)單組矢量信號(hào)的增強(qiáng)子空間MUSIC算法,考慮并抑制了由各通道功率不一致造成的偽像;Byeongho JO等[14]提出了實(shí)值化的EB-ESPRIT方法,通過球面諧波的半實(shí)值處理和額外的約束來克服回波數(shù)量不足和抑制噪聲干擾。但上述實(shí)數(shù)化的方法主要是根據(jù)陣列的中心對(duì)稱特性將復(fù)數(shù)陣列轉(zhuǎn)化為實(shí)數(shù)陣列,主要目標(biāo)是降低計(jì)算過程中的復(fù)雜程度。在含噪和含混響的環(huán)境中,空間譜算法的性能將顯著降低。本文提出了一種更高效的MUSIC估計(jì)算法,針對(duì)“B-格式”信號(hào),對(duì)MUSIC算法進(jìn)行實(shí)值化處理,將復(fù)數(shù)信號(hào)張成實(shí)數(shù)信號(hào)操作,提升其在含混含噪的多聲源DOA估計(jì)中的性能。結(jié)果表明,該方法可以有效減小DOA估計(jì)誤差。
全文結(jié)構(gòu)如下,第2節(jié)介紹“B-格式”麥克風(fēng)及聲信號(hào)模型;第3節(jié)介紹實(shí)值MUSIC算法;第4節(jié)對(duì)多種DOA方法進(jìn)行性能評(píng)估和對(duì)比;第5節(jié)全文總結(jié)。
環(huán)境立體聲采集最常使用的是四通道的“一階環(huán)境立體聲(FOA)”,是許多系統(tǒng)中用于高質(zhì)量環(huán)繞聲分析和聲場(chǎng)重建的首選錄音設(shè)備(例如Ambisonics[15-16]和DirAC[17])。它有兩種存儲(chǔ)格式,分別稱為“A-格式”和“B-格式”。四通道的“B-格式”麥克風(fēng)包含1個(gè)全向通道和個(gè)相互正交的“8字形”偶極子通道,可以同時(shí)記錄某處的聲壓和粒子速度。W通道表示該處聲壓,X、Y、Z通道表示該處三個(gè)相互正交軸向的粒子速度分量。圖1為“B-格式”聲信號(hào)通道的極化示意圖。
xdir(t)=A·s(t)
(1)
(2)
對(duì)接收信號(hào)進(jìn)行STFT操作變換到時(shí)頻域,麥克風(fēng)陣列接收到信號(hào)X(k,n)由直達(dá)聲Xdir(k,n)、漫射聲Xdiff(k,n)和麥克風(fēng)自噪聲Xr(k,n)構(gòu)成:
k、n分別表示時(shí)頻域中頻率和幀的索引,XW(k,n)為全向通道聲信號(hào),XX(k,n)、XY(k,n)、XZ(k,n)分別為X軸向、Y軸向和Z軸向的極化通道聲信號(hào)。假設(shè)Xdir(k,n)、Xdiff(k,n)和Xr(k,n)互不相關(guān),Xdiff(k,n)與Xr(k,n)的和統(tǒng)稱為信號(hào)噪聲Xn(k,n)。Xdiff(k,n)與Xr(k,n)的劃分有助于在實(shí)驗(yàn)中分別考慮性能在不同混響和麥克風(fēng)自噪聲條件下的差異。后續(xù)小節(jié)為簡化公式,將略去頻率和幀的索引。
MUSIC算法是一種被廣泛使用的特征空間方法。其對(duì)陣列自相關(guān)矩陣特征向量的展開空間進(jìn)行分解,構(gòu)建相互正交的信號(hào)子空間和噪聲子空間。
信號(hào)的功率譜密度Φx為:
Φx=E{XXH}
(4)
(·)H表示共軛轉(zhuǎn)置,E{·}表示統(tǒng)計(jì)期望。假設(shè)M小于通道數(shù),且信號(hào)自相關(guān)矩陣ΦS=E{SSH}非奇異。
Φx=AE{SSH}A+σ2I=AΦSA+σ2I=SΛSSH+GΛGGH
G為噪聲子空間,S為信號(hào)子空間。信號(hào)子空間可以通過對(duì)Φx進(jìn)行特征分解,其特征值為:
(5)
U=[SG]
(φ,θ)MUSIC=argmina(φ,θ)HGHGa(φ,θ)
(6)
則MUSIC算法的空間譜為:
(7)
或
(8)
以導(dǎo)向矢量a(φ,θ)為自變量進(jìn)行譜峰搜索,所有極大值點(diǎn)對(duì)應(yīng)的角度即為入射方向。
使用Ylm(φ,θ)表示復(fù)值球諧函數(shù):
(9)
m和l分別表示階數(shù)和模,Plm(·)為階數(shù)和模分別為m和l的勒讓德函數(shù),則實(shí)值球諧函數(shù)Rlm(φ,θ)可以如下表示:
(10)
零階球諧函數(shù)幅值|Y00(φ,θ)|與“B-格式”全向聲壓通道幅值響應(yīng)一致,一階球諧函數(shù)幅值|Y10(φ,θ)|與粒子速度通道的幅值響應(yīng)一致,即R00(φ,θ)=Y00(φ,θ),R10(φ,θ)=Y10(φ,θ),針對(duì)球諧信號(hào)的特征也適用于“B-格式”信號(hào)。
對(duì)于每個(gè)時(shí)頻點(diǎn)的“B-格式”信號(hào),每個(gè)通道均包含實(shí)部和虛部。當(dāng)X為接收到包含兩個(gè)聲源的復(fù)數(shù)信號(hào)時(shí),其可以分解為:
(11)
XR=[R{X},I{X}]
(12)
(13)
(14)
實(shí)值MUSIC算法的空間譜為:
(15)
本文使用FOA的“B-格式”麥克風(fēng)在三維空間內(nèi)采集兩個(gè)與麥克風(fēng)高度相同的聲源,即麥克風(fēng)通道為[XWXXXY0],并在仿真環(huán)境中加入混響和穩(wěn)態(tài)噪聲。兩個(gè)平面波信號(hào)分別為時(shí)長10 s、采樣率為16 kHz的聲源1(男聲)和聲源2(女聲),語料數(shù)據(jù)來自于TIMIT數(shù)據(jù)集。房間是7 m×6 m×4 m的長方體,聲源DOA將按照10組位置集設(shè)置于麥克風(fēng)周圍2~3m的位置,且聲源與麥克風(fēng)于同一水平面上,計(jì)算結(jié)果將取10組數(shù)據(jù)的平均值。混響時(shí)長(T60)分別設(shè)置為0、0.3 s和0.6 s,麥克風(fēng)穩(wěn)態(tài)自噪聲Xr分別設(shè)置為5、15 dB。本文實(shí)驗(yàn)依據(jù)室內(nèi)麥克風(fēng)沖激響應(yīng)生成器(Room impulse response generator[19])進(jìn)行仿真。麥克風(fēng)采集到的信號(hào)將被轉(zhuǎn)換到STFT域,選取幀長為1 024點(diǎn)(64ms)、50%重疊的Hamming窗,F(xiàn)FT長度為1024。
在每個(gè)時(shí)頻點(diǎn)上進(jìn)行DOA估計(jì)有助于對(duì)音頻信號(hào)分塊處理[7-8,18],實(shí)值MUSIC算法在每個(gè)時(shí)頻點(diǎn)上都進(jìn)行DOA估計(jì),我們選取800 Hz頻點(diǎn)作為實(shí)值MUSIC算法的估計(jì)值。
首先我們?cè)趩温曉磳?duì)比了復(fù)值MUSIC算法和實(shí)值MUSIC算法在“B-格式”麥克風(fēng)陣列中的性能。實(shí)驗(yàn)數(shù)據(jù)來自5組聲源1和5組聲源2數(shù)據(jù)的平均值,平均角度誤差展示在圖3中。從實(shí)驗(yàn)結(jié)果可以看出,相比于復(fù)數(shù)MUSIC算法,對(duì)于高信噪比和低混響條件下的性能差異不大,但隨著環(huán)境條件逐漸變差,實(shí)值MUSIC算法提升效果更加明顯,特別在高混響條件和低信噪比條件下,在精度上有10%~20%的提升。
平均角度誤差展示在表1和圖4中,取10組數(shù)據(jù)的平均值。與單聲源情況類似,實(shí)值MUSIC算法相比于復(fù)值MUSIC算法具有更低的估計(jì)誤差。盡管在低混響條件下出現(xiàn)了實(shí)值MUSIC算法性能劣于復(fù)值MUSIC算法,但在高信噪比和高混響時(shí)長條件下相比于低信噪比有顯著的角度估計(jì)誤差降低,總體上實(shí)值MUSIC算法具有更低的估計(jì)誤差。在高信噪比環(huán)境中,T60的增加對(duì)實(shí)值MUSIC算法影響不明顯,實(shí)值MUSIC算法魯棒性更強(qiáng)。
表1 DOA算法平均估計(jì)誤差(°)
SNR/dBT60=0 msT60=300msT60=600ms源1515復(fù)值MUSIC算法8.018.927.3實(shí)值MUSIC算法4.512.219.1復(fù)值MUSIC算法3.213.119.5實(shí)值MUSIC算法3.99.314.2源2515復(fù)值MUSIC算法3.910.217.0實(shí)值MUSIC算法7.19.011.7復(fù)值MUSIC算法3.88.311.3實(shí)值MUSIC算法4.44.68.6
另外,我們對(duì)[8]中使用的實(shí)數(shù)空間聲強(qiáng)方法進(jìn)行了同樣的DOA估計(jì)實(shí)驗(yàn)。圖5是本文提出的實(shí)數(shù)MUSIC算法的空間譜示意圖,圖5由實(shí)數(shù)空間的聲強(qiáng)法求解的概率密度分布圖(PDF)。以一組實(shí)驗(yàn)為例(φ1=44°,φ2=127°),在含噪、低混響(T60=0 ms、300ms)情況下,聲強(qiáng)法與實(shí)值MUSIC算法的分辨能力尚為接近,但聲強(qiáng)法的估計(jì)偏差依舊大于實(shí)值MUSIC算法;但在強(qiáng)混響條件下(T60=600ms),其性能顯著降低,角度估計(jì)誤差明顯增加。由圖6可以看出,聲強(qiáng)法對(duì)多個(gè)聲源的分辨能力顯著降低,對(duì)于此場(chǎng)景中的源2來說,在較為惡劣的場(chǎng)景下已經(jīng)無法分辨出其方位,漫射情況明顯。另一方面,如圖5所示,不同于傳統(tǒng)空間譜算法在性能上以空間譜值大小區(qū)分性能,實(shí)值MUSIC算法的性能以極值點(diǎn)相對(duì)于真實(shí)值的偏移進(jìn)行衡量。
此外,我們還對(duì)三聲源場(chǎng)景進(jìn)行性能分析,但結(jié)果顯示該方法將導(dǎo)致空間譜估計(jì)的較大偏差,并不能很好地適用于三聲源場(chǎng)景。
本文提出了一種基于“B-格式”聲信號(hào)的實(shí)值空間MUSIC算法。“B-格式”信號(hào)由于其特殊的構(gòu)成,可以降低對(duì)寬帶信號(hào)分頻處理的要求。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的復(fù)數(shù)空間MUSIC算法,它對(duì)DOA估計(jì)的性能有一定的提升,使用子空間算法也在多分離聲源的DOA估計(jì)中明顯優(yōu)于通過陣列屬性進(jìn)行聲強(qiáng)角度估計(jì)方法。同時(shí),該種方法在每個(gè)時(shí)頻點(diǎn)進(jìn)行計(jì)算,后續(xù)還可以根據(jù)能量統(tǒng)計(jì)、角度分布進(jìn)行后處理,用以提升音頻本身或者聲場(chǎng)重建的性能。