“B-格式”聲信號(hào)實(shí)值MUSIC算法的DOA估計(jì)

2020-06-18 08:50石超宇阮振裔

電聲技術(shù) 2020年3期

石超宇，王濤，阮振裔

(上海大學(xué) 通信與信息工程學(xué)院，上海 200444)

1 引言

近年來，環(huán)境立體聲(ambisonic)被廣泛地研究和應(yīng)用，它使用以一定方式組合的麥克風(fēng)陣列來記錄多通道聲音信號(hào)，最終通過若干個(gè)聲道的信息運(yùn)算去生成三維的全景聲場(chǎng)。其中估計(jì)到達(dá)方向(DOA)對(duì)于分析聲學(xué)場(chǎng)景至關(guān)重要。其主要應(yīng)用包括聲源定位、波束成形、定向音頻編碼等。聲音由于其非窄帶性和非平穩(wěn)性，其分析一般建立在短時(shí)傅立葉變換(STFT)域中，并認(rèn)為每個(gè)時(shí)頻點(diǎn)上均包含多個(gè)DOA信息。因此，準(zhǔn)確地估計(jì)DOA至關(guān)重要。

由于非平穩(wěn)語音和混響環(huán)境，對(duì)DoA估計(jì)非常困難。消費(fèi)類電子產(chǎn)品中使用的小型麥克風(fēng)陣列將進(jìn)一步降低其性能。標(biāo)量傳感器陣列的DOA估計(jì)方法目前已較為成熟，并逐漸擴(kuò)展到矢量陣列，例如Capon方法[1-2]、MUSIC算法[3]和ESPRIT算法[4]等。其中，MUSIC和ESPRIT在分辨率和估計(jì)精度方面明顯優(yōu)于Capon和TDOA等方法。在文獻(xiàn)[5]-[8]中，提出了一種DOA估計(jì)器和該種估計(jì)器的改進(jìn)，該估計(jì)器可以從“B-格式”麥克風(fēng)信號(hào)確定每個(gè)時(shí)間和頻率上兩個(gè)平面波的DOA，但估計(jì)器受噪聲和混響干擾較大；文獻(xiàn)[9]在“B-格式”麥克風(fēng)信號(hào)中使用聲密度矢量分離直達(dá)聲和漫射聲，并估計(jì)直達(dá)聲方向，但該方式只能針對(duì)單聲源場(chǎng)景，無法區(qū)分多個(gè)聲源的位置；文獻(xiàn)[10]、[11]提出了EB-ESPRIT算法，有效地解決了含混含噪環(huán)境下的多聲源DOA估計(jì)，但其使用了價(jià)格昂貴且體積較大的球麥克風(fēng)陣列，這將不利于日漸小型化、微型化的應(yīng)用。

對(duì)實(shí)值子空間算法的應(yīng)用近年來已經(jīng)在某些陣列中有所突破，時(shí)勝國等[12]對(duì)矢量傳感器圓陣列的實(shí)值算法，利用聲壓與粒子速度的空間相關(guān)特性構(gòu)造一個(gè)實(shí)值互協(xié)方差矩陣來消除各向同性噪聲；柳艾飛等[13]提出了針對(duì)單組矢量信號(hào)的增強(qiáng)子空間MUSIC算法，考慮并抑制了由各通道功率不一致造成的偽像；Byeongho JO等[14]提出了實(shí)值化的EB-ESPRIT方法，通過球面諧波的半實(shí)值處理和額外的約束來克服回波數(shù)量不足和抑制噪聲干擾。但上述實(shí)數(shù)化的方法主要是根據(jù)陣列的中心對(duì)稱特性將復(fù)數(shù)陣列轉(zhuǎn)化為實(shí)數(shù)陣列，主要目標(biāo)是降低計(jì)算過程中的復(fù)雜程度。在含噪和含混響的環(huán)境中，空間譜算法的性能將顯著降低。本文提出了一種更高效的MUSIC估計(jì)算法，針對(duì)“B-格式”信號(hào)，對(duì)MUSIC算法進(jìn)行實(shí)值化處理，將復(fù)數(shù)信號(hào)張成實(shí)數(shù)信號(hào)操作，提升其在含混含噪的多聲源DOA估計(jì)中的性能。結(jié)果表明，該方法可以有效減小DOA估計(jì)誤差。

全文結(jié)構(gòu)如下，第2節(jié)介紹“B-格式”麥克風(fēng)及聲信號(hào)模型；第3節(jié)介紹實(shí)值MUSIC算法；第4節(jié)對(duì)多種DOA方法進(jìn)行性能評(píng)估和對(duì)比；第5節(jié)全文總結(jié)。

2 “B-格式”

2.1 “B-格式”信號(hào)

環(huán)境立體聲采集最常使用的是四通道的“一階環(huán)境立體聲(FOA)”，是許多系統(tǒng)中用于高質(zhì)量環(huán)繞聲分析和聲場(chǎng)重建的首選錄音設(shè)備(例如Ambisonics[15-16]和DirAC[17])。它有兩種存儲(chǔ)格式，分別稱為“A-格式”和“B-格式”。四通道的“B-格式”麥克風(fēng)包含1個(gè)全向通道和個(gè)相互正交的“8字形”偶極子通道，可以同時(shí)記錄某處的聲壓和粒子速度。W通道表示該處聲壓，X、Y、Z通道表示該處三個(gè)相互正交軸向的粒子速度分量。圖1為“B-格式”聲信號(hào)通道的極化示意圖。

2.2 信號(hào)模型

xdir(t)=A·s(t)

(1)

(2)

對(duì)接收信號(hào)進(jìn)行STFT操作變換到時(shí)頻域，麥克風(fēng)陣列接收到信號(hào)X(k,n)由直達(dá)聲Xdir(k,n)、漫射聲Xdiff(k,n)和麥克風(fēng)自噪聲Xr(k,n)構(gòu)成：

k、n分別表示時(shí)頻域中頻率和幀的索引，XW(k,n)為全向通道聲信號(hào)，XX(k,n)、XY(k,n)、XZ(k,n)分別為X軸向、Y軸向和Z軸向的極化通道聲信號(hào)。假設(shè)Xdir(k,n)、Xdiff(k,n)和Xr(k,n)互不相關(guān),Xdiff(k,n)與Xr(k,n)的和統(tǒng)稱為信號(hào)噪聲Xn(k,n)。Xdiff(k,n)與Xr(k,n)的劃分有助于在實(shí)驗(yàn)中分別考慮性能在不同混響和麥克風(fēng)自噪聲條件下的差異。后續(xù)小節(jié)為簡化公式，將略去頻率和幀的索引。

3 MUSIC算法

3.1 復(fù)數(shù)MUSIC算法

MUSIC算法是一種被廣泛使用的特征空間方法。其對(duì)陣列自相關(guān)矩陣特征向量的展開空間進(jìn)行分解，構(gòu)建相互正交的信號(hào)子空間和噪聲子空間。

信號(hào)的功率譜密度Φx為：

Φx=E{XXH}

(4)

(·)H表示共軛轉(zhuǎn)置，E{·}表示統(tǒng)計(jì)期望。假設(shè)M小于通道數(shù)，且信號(hào)自相關(guān)矩陣ΦS=E{SSH}非奇異。

Φx=AE{SSH}A+σ2I=AΦSA+σ2I=SΛSSH+GΛGGH

G為噪聲子空間，S為信號(hào)子空間。信號(hào)子空間可以通過對(duì)Φx進(jìn)行特征分解，其特征值為：

(5)

U=[SG]

(φ,θ)MUSIC=argmina(φ,θ)HGHGa(φ,θ)

(6)

則MUSIC算法的空間譜為：

(7)

或

(8)

以導(dǎo)向矢量a(φ,θ)為自變量進(jìn)行譜峰搜索，所有極大值點(diǎn)對(duì)應(yīng)的角度即為入射方向。

3.2 實(shí)值MUSIC算法

使用Ylm(φ,θ)表示復(fù)值球諧函數(shù):

(9)

m和l分別表示階數(shù)和模，Plm(·)為階數(shù)和模分別為m和l的勒讓德函數(shù)，則實(shí)值球諧函數(shù)Rlm(φ,θ)可以如下表示：

(10)

零階球諧函數(shù)幅值|Y00(φ,θ)|與“B-格式”全向聲壓通道幅值響應(yīng)一致，一階球諧函數(shù)幅值|Y10(φ,θ)|與粒子速度通道的幅值響應(yīng)一致，即R00(φ,θ)=Y00(φ,θ)，R10(φ,θ)=Y10(φ,θ)，針對(duì)球諧信號(hào)的特征也適用于“B-格式”信號(hào)。

對(duì)于每個(gè)時(shí)頻點(diǎn)的“B-格式”信號(hào)，每個(gè)通道均包含實(shí)部和虛部。當(dāng)X為接收到包含兩個(gè)聲源的復(fù)數(shù)信號(hào)時(shí)，其可以分解為：

(11)

XR=[R{X},I{X}]

(12)

(13)

(14)

實(shí)值MUSIC算法的空間譜為：

(15)

4 性能分析

4.1 實(shí)驗(yàn)設(shè)置

本文使用FOA的“B-格式”麥克風(fēng)在三維空間內(nèi)采集兩個(gè)與麥克風(fēng)高度相同的聲源，即麥克風(fēng)通道為[XWXXXY0],并在仿真環(huán)境中加入混響和穩(wěn)態(tài)噪聲。兩個(gè)平面波信號(hào)分別為時(shí)長10 s、采樣率為16 kHz的聲源1(男聲)和聲源2(女聲)，語料數(shù)據(jù)來自于TIMIT數(shù)據(jù)集。房間是7 m×6 m×4 m的長方體，聲源DOA將按照10組位置集設(shè)置于麥克風(fēng)周圍2～3m的位置，且聲源與麥克風(fēng)于同一水平面上，計(jì)算結(jié)果將取10組數(shù)據(jù)的平均值。混響時(shí)長(T60)分別設(shè)置為0、0.3 s和0.6 s，麥克風(fēng)穩(wěn)態(tài)自噪聲Xr分別設(shè)置為5、15 dB。本文實(shí)驗(yàn)依據(jù)室內(nèi)麥克風(fēng)沖激響應(yīng)生成器(Room impulse response generator[19])進(jìn)行仿真。麥克風(fēng)采集到的信號(hào)將被轉(zhuǎn)換到STFT域，選取幀長為1 024點(diǎn)(64ms)、50%重疊的Hamming窗，F(xiàn)FT長度為1024。

在每個(gè)時(shí)頻點(diǎn)上進(jìn)行DOA估計(jì)有助于對(duì)音頻信號(hào)分塊處理[7-8，18],實(shí)值MUSIC算法在每個(gè)時(shí)頻點(diǎn)上都進(jìn)行DOA估計(jì)，我們選取800 Hz頻點(diǎn)作為實(shí)值MUSIC算法的估計(jì)值。

4.2 單聲源場(chǎng)景

首先我們?cè)趩温曉磳?duì)比了復(fù)值MUSIC算法和實(shí)值MUSIC算法在“B-格式”麥克風(fēng)陣列中的性能。實(shí)驗(yàn)數(shù)據(jù)來自5組聲源1和5組聲源2數(shù)據(jù)的平均值，平均角度誤差展示在圖3中。從實(shí)驗(yàn)結(jié)果可以看出，相比于復(fù)數(shù)MUSIC算法，對(duì)于高信噪比和低混響條件下的性能差異不大，但隨著環(huán)境條件逐漸變差，實(shí)值MUSIC算法提升效果更加明顯，特別在高混響條件和低信噪比條件下，在精度上有10%～20%的提升。

4.3 雙聲源場(chǎng)景

平均角度誤差展示在表1和圖4中，取10組數(shù)據(jù)的平均值。與單聲源情況類似，實(shí)值MUSIC算法相比于復(fù)值MUSIC算法具有更低的估計(jì)誤差。盡管在低混響條件下出現(xiàn)了實(shí)值MUSIC算法性能劣于復(fù)值MUSIC算法，但在高信噪比和高混響時(shí)長條件下相比于低信噪比有顯著的角度估計(jì)誤差降低，總體上實(shí)值MUSIC算法具有更低的估計(jì)誤差。在高信噪比環(huán)境中，T60的增加對(duì)實(shí)值MUSIC算法影響不明顯，實(shí)值MUSIC算法魯棒性更強(qiáng)。

表1 DOA算法平均估計(jì)誤差(°)

SNR/dBT60=0 msT60=300msT60=600ms源1515復(fù)值MUSIC算法8.018.927.3實(shí)值MUSIC算法4.512.219.1復(fù)值MUSIC算法3.213.119.5實(shí)值MUSIC算法3.99.314.2源2515復(fù)值MUSIC算法3.910.217.0實(shí)值MUSIC算法7.19.011.7復(fù)值MUSIC算法3.88.311.3實(shí)值MUSIC算法4.44.68.6

另外，我們對(duì)[8]中使用的實(shí)數(shù)空間聲強(qiáng)方法進(jìn)行了同樣的DOA估計(jì)實(shí)驗(yàn)。圖5是本文提出的實(shí)數(shù)MUSIC算法的空間譜示意圖，圖5由實(shí)數(shù)空間的聲強(qiáng)法求解的概率密度分布圖(PDF)。以一組實(shí)驗(yàn)為例(φ1=44°，φ2=127°)，在含噪、低混響(T60=0 ms、300ms)情況下，聲強(qiáng)法與實(shí)值MUSIC算法的分辨能力尚為接近，但聲強(qiáng)法的估計(jì)偏差依舊大于實(shí)值MUSIC算法；但在強(qiáng)混響條件下(T60=600ms)，其性能顯著降低，角度估計(jì)誤差明顯增加。由圖6可以看出，聲強(qiáng)法對(duì)多個(gè)聲源的分辨能力顯著降低，對(duì)于此場(chǎng)景中的源2來說，在較為惡劣的場(chǎng)景下已經(jīng)無法分辨出其方位，漫射情況明顯。另一方面，如圖5所示，不同于傳統(tǒng)空間譜算法在性能上以空間譜值大小區(qū)分性能，實(shí)值MUSIC算法的性能以極值點(diǎn)相對(duì)于真實(shí)值的偏移進(jìn)行衡量。

此外，我們還對(duì)三聲源場(chǎng)景進(jìn)行性能分析，但結(jié)果顯示該方法將導(dǎo)致空間譜估計(jì)的較大偏差，并不能很好地適用于三聲源場(chǎng)景。

5 結(jié)語

本文提出了一種基于“B-格式”聲信號(hào)的實(shí)值空間MUSIC算法。“B-格式”信號(hào)由于其特殊的構(gòu)成，可以降低對(duì)寬帶信號(hào)分頻處理的要求。實(shí)驗(yàn)結(jié)果表明，相比于傳統(tǒng)的復(fù)數(shù)空間MUSIC算法，它對(duì)DOA估計(jì)的性能有一定的提升，使用子空間算法也在多分離聲源的DOA估計(jì)中明顯優(yōu)于通過陣列屬性進(jìn)行聲強(qiáng)角度估計(jì)方法。同時(shí)，該種方法在每個(gè)時(shí)頻點(diǎn)進(jìn)行計(jì)算，后續(xù)還可以根據(jù)能量統(tǒng)計(jì)、角度分布進(jìn)行后處理，用以提升音頻本身或者聲場(chǎng)重建的性能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡