国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“B-格式”聲信號(hào)實(shí)值MUSIC算法的DOA估計(jì)

2020-06-18 08:50石超宇阮振裔
電聲技術(shù) 2020年3期
關(guān)鍵詞:混響聲源麥克風(fēng)

石超宇,王 濤,阮振裔

(上海大學(xué) 通信與信息工程學(xué)院,上海 200444)

1 引言

近年來,環(huán)境立體聲(ambisonic)被廣泛地研究和應(yīng)用,它使用以一定方式組合的麥克風(fēng)陣列來記錄多通道聲音信號(hào),最終通過若干個(gè)聲道的信息運(yùn)算去生成三維的全景聲場(chǎng)。其中估計(jì)到達(dá)方向(DOA)對(duì)于分析聲學(xué)場(chǎng)景至關(guān)重要。其主要應(yīng)用包括聲源定位、波束成形、定向音頻編碼等。聲音由于其非窄帶性和非平穩(wěn)性,其分析一般建立在短時(shí)傅立葉變換(STFT)域中,并認(rèn)為每個(gè)時(shí)頻點(diǎn)上均包含多個(gè)DOA信息。因此,準(zhǔn)確地估計(jì)DOA至關(guān)重要。

由于非平穩(wěn)語音和混響環(huán)境,對(duì)DoA估計(jì)非常困難。消費(fèi)類電子產(chǎn)品中使用的小型麥克風(fēng)陣列將進(jìn)一步降低其性能。標(biāo)量傳感器陣列的DOA估計(jì)方法目前已較為成熟,并逐漸擴(kuò)展到矢量陣列,例如Capon方法[1-2]、MUSIC算法[3]和ESPRIT算法[4]等。其中,MUSIC和ESPRIT在分辨率和估計(jì)精度方面明顯優(yōu)于Capon和TDOA等方法。在文獻(xiàn)[5]-[8]中,提出了一種DOA估計(jì)器和該種估計(jì)器的改進(jìn),該估計(jì)器可以從“B-格式”麥克風(fēng)信號(hào)確定每個(gè)時(shí)間和頻率上兩個(gè)平面波的DOA,但估計(jì)器受噪聲和混響干擾較大;文獻(xiàn)[9]在“B-格式”麥克風(fēng)信號(hào)中使用聲密度矢量分離直達(dá)聲和漫射聲,并估計(jì)直達(dá)聲方向,但該方式只能針對(duì)單聲源場(chǎng)景,無法區(qū)分多個(gè)聲源的位置;文獻(xiàn)[10]、[11]提出了EB-ESPRIT算法,有效地解決了含混含噪環(huán)境下的多聲源DOA估計(jì),但其使用了價(jià)格昂貴且體積較大的球麥克風(fēng)陣列,這將不利于日漸小型化、微型化的應(yīng)用。

對(duì)實(shí)值子空間算法的應(yīng)用近年來已經(jīng)在某些陣列中有所突破,時(shí)勝國等[12]對(duì)矢量傳感器圓陣列的實(shí)值算法,利用聲壓與粒子速度的空間相關(guān)特性構(gòu)造一個(gè)實(shí)值互協(xié)方差矩陣來消除各向同性噪聲;柳艾飛等[13]提出了針對(duì)單組矢量信號(hào)的增強(qiáng)子空間MUSIC算法,考慮并抑制了由各通道功率不一致造成的偽像;Byeongho JO等[14]提出了實(shí)值化的EB-ESPRIT方法,通過球面諧波的半實(shí)值處理和額外的約束來克服回波數(shù)量不足和抑制噪聲干擾。但上述實(shí)數(shù)化的方法主要是根據(jù)陣列的中心對(duì)稱特性將復(fù)數(shù)陣列轉(zhuǎn)化為實(shí)數(shù)陣列,主要目標(biāo)是降低計(jì)算過程中的復(fù)雜程度。在含噪和含混響的環(huán)境中,空間譜算法的性能將顯著降低。本文提出了一種更高效的MUSIC估計(jì)算法,針對(duì)“B-格式”信號(hào),對(duì)MUSIC算法進(jìn)行實(shí)值化處理,將復(fù)數(shù)信號(hào)張成實(shí)數(shù)信號(hào)操作,提升其在含混含噪的多聲源DOA估計(jì)中的性能。結(jié)果表明,該方法可以有效減小DOA估計(jì)誤差。

全文結(jié)構(gòu)如下,第2節(jié)介紹“B-格式”麥克風(fēng)及聲信號(hào)模型;第3節(jié)介紹實(shí)值MUSIC算法;第4節(jié)對(duì)多種DOA方法進(jìn)行性能評(píng)估和對(duì)比;第5節(jié)全文總結(jié)。

2 “B-格式”

2.1 “B-格式”信號(hào)

環(huán)境立體聲采集最常使用的是四通道的“一階環(huán)境立體聲(FOA)”,是許多系統(tǒng)中用于高質(zhì)量環(huán)繞聲分析和聲場(chǎng)重建的首選錄音設(shè)備(例如Ambisonics[15-16]和DirAC[17])。它有兩種存儲(chǔ)格式,分別稱為“A-格式”和“B-格式”。四通道的“B-格式”麥克風(fēng)包含1個(gè)全向通道和個(gè)相互正交的“8字形”偶極子通道,可以同時(shí)記錄某處的聲壓和粒子速度。W通道表示該處聲壓,X、Y、Z通道表示該處三個(gè)相互正交軸向的粒子速度分量。圖1為“B-格式”聲信號(hào)通道的極化示意圖。

2.2 信號(hào)模型

xdir(t)=A·s(t)

(1)

(2)

對(duì)接收信號(hào)進(jìn)行STFT操作變換到時(shí)頻域,麥克風(fēng)陣列接收到信號(hào)X(k,n)由直達(dá)聲Xdir(k,n)、漫射聲Xdiff(k,n)和麥克風(fēng)自噪聲Xr(k,n)構(gòu)成:

k、n分別表示時(shí)頻域中頻率和幀的索引,XW(k,n)為全向通道聲信號(hào),XX(k,n)、XY(k,n)、XZ(k,n)分別為X軸向、Y軸向和Z軸向的極化通道聲信號(hào)。假設(shè)Xdir(k,n)、Xdiff(k,n)和Xr(k,n)互不相關(guān),Xdiff(k,n)與Xr(k,n)的和統(tǒng)稱為信號(hào)噪聲Xn(k,n)。Xdiff(k,n)與Xr(k,n)的劃分有助于在實(shí)驗(yàn)中分別考慮性能在不同混響和麥克風(fēng)自噪聲條件下的差異。后續(xù)小節(jié)為簡化公式,將略去頻率和幀的索引。

3 MUSIC算法

3.1 復(fù)數(shù)MUSIC算法

MUSIC算法是一種被廣泛使用的特征空間方法。其對(duì)陣列自相關(guān)矩陣特征向量的展開空間進(jìn)行分解,構(gòu)建相互正交的信號(hào)子空間和噪聲子空間。

信號(hào)的功率譜密度Φx為:

Φx=E{XXH}

(4)

(·)H表示共軛轉(zhuǎn)置,E{·}表示統(tǒng)計(jì)期望。假設(shè)M小于通道數(shù),且信號(hào)自相關(guān)矩陣ΦS=E{SSH}非奇異。

Φx=AE{SSH}A+σ2I=AΦSA+σ2I=SΛSSH+GΛGGH

G為噪聲子空間,S為信號(hào)子空間。信號(hào)子空間可以通過對(duì)Φx進(jìn)行特征分解,其特征值為:

(5)

U=[SG]

(φ,θ)MUSIC=argmina(φ,θ)HGHGa(φ,θ)

(6)

則MUSIC算法的空間譜為:

(7)

(8)

以導(dǎo)向矢量a(φ,θ)為自變量進(jìn)行譜峰搜索,所有極大值點(diǎn)對(duì)應(yīng)的角度即為入射方向。

3.2 實(shí)值MUSIC算法

使用Ylm(φ,θ)表示復(fù)值球諧函數(shù):

(9)

m和l分別表示階數(shù)和模,Plm(·)為階數(shù)和模分別為m和l的勒讓德函數(shù),則實(shí)值球諧函數(shù)Rlm(φ,θ)可以如下表示:

(10)

零階球諧函數(shù)幅值|Y00(φ,θ)|與“B-格式”全向聲壓通道幅值響應(yīng)一致,一階球諧函數(shù)幅值|Y10(φ,θ)|與粒子速度通道的幅值響應(yīng)一致,即R00(φ,θ)=Y00(φ,θ),R10(φ,θ)=Y10(φ,θ),針對(duì)球諧信號(hào)的特征也適用于“B-格式”信號(hào)。

對(duì)于每個(gè)時(shí)頻點(diǎn)的“B-格式”信號(hào),每個(gè)通道均包含實(shí)部和虛部。當(dāng)X為接收到包含兩個(gè)聲源的復(fù)數(shù)信號(hào)時(shí),其可以分解為:

(11)

XR=[R{X},I{X}]

(12)

(13)

(14)

實(shí)值MUSIC算法的空間譜為:

(15)

4 性能分析

4.1 實(shí)驗(yàn)設(shè)置

本文使用FOA的“B-格式”麥克風(fēng)在三維空間內(nèi)采集兩個(gè)與麥克風(fēng)高度相同的聲源,即麥克風(fēng)通道為[XWXXXY0],并在仿真環(huán)境中加入混響和穩(wěn)態(tài)噪聲。兩個(gè)平面波信號(hào)分別為時(shí)長10 s、采樣率為16 kHz的聲源1(男聲)和聲源2(女聲),語料數(shù)據(jù)來自于TIMIT數(shù)據(jù)集。房間是7 m×6 m×4 m的長方體,聲源DOA將按照10組位置集設(shè)置于麥克風(fēng)周圍2~3m的位置,且聲源與麥克風(fēng)于同一水平面上,計(jì)算結(jié)果將取10組數(shù)據(jù)的平均值。混響時(shí)長(T60)分別設(shè)置為0、0.3 s和0.6 s,麥克風(fēng)穩(wěn)態(tài)自噪聲Xr分別設(shè)置為5、15 dB。本文實(shí)驗(yàn)依據(jù)室內(nèi)麥克風(fēng)沖激響應(yīng)生成器(Room impulse response generator[19])進(jìn)行仿真。麥克風(fēng)采集到的信號(hào)將被轉(zhuǎn)換到STFT域,選取幀長為1 024點(diǎn)(64ms)、50%重疊的Hamming窗,F(xiàn)FT長度為1024。

在每個(gè)時(shí)頻點(diǎn)上進(jìn)行DOA估計(jì)有助于對(duì)音頻信號(hào)分塊處理[7-8,18],實(shí)值MUSIC算法在每個(gè)時(shí)頻點(diǎn)上都進(jìn)行DOA估計(jì),我們選取800 Hz頻點(diǎn)作為實(shí)值MUSIC算法的估計(jì)值。

4.2 單聲源場(chǎng)景

首先我們?cè)趩温曉磳?duì)比了復(fù)值MUSIC算法和實(shí)值MUSIC算法在“B-格式”麥克風(fēng)陣列中的性能。實(shí)驗(yàn)數(shù)據(jù)來自5組聲源1和5組聲源2數(shù)據(jù)的平均值,平均角度誤差展示在圖3中。從實(shí)驗(yàn)結(jié)果可以看出,相比于復(fù)數(shù)MUSIC算法,對(duì)于高信噪比和低混響條件下的性能差異不大,但隨著環(huán)境條件逐漸變差,實(shí)值MUSIC算法提升效果更加明顯,特別在高混響條件和低信噪比條件下,在精度上有10%~20%的提升。

4.3 雙聲源場(chǎng)景

平均角度誤差展示在表1和圖4中,取10組數(shù)據(jù)的平均值。與單聲源情況類似,實(shí)值MUSIC算法相比于復(fù)值MUSIC算法具有更低的估計(jì)誤差。盡管在低混響條件下出現(xiàn)了實(shí)值MUSIC算法性能劣于復(fù)值MUSIC算法,但在高信噪比和高混響時(shí)長條件下相比于低信噪比有顯著的角度估計(jì)誤差降低,總體上實(shí)值MUSIC算法具有更低的估計(jì)誤差。在高信噪比環(huán)境中,T60的增加對(duì)實(shí)值MUSIC算法影響不明顯,實(shí)值MUSIC算法魯棒性更強(qiáng)。

表1 DOA算法平均估計(jì)誤差(°)

SNR/dBT60=0 msT60=300msT60=600ms源1515復(fù)值MUSIC算法8.018.927.3實(shí)值MUSIC算法4.512.219.1復(fù)值MUSIC算法3.213.119.5實(shí)值MUSIC算法3.99.314.2源2515復(fù)值MUSIC算法3.910.217.0實(shí)值MUSIC算法7.19.011.7復(fù)值MUSIC算法3.88.311.3實(shí)值MUSIC算法4.44.68.6

另外,我們對(duì)[8]中使用的實(shí)數(shù)空間聲強(qiáng)方法進(jìn)行了同樣的DOA估計(jì)實(shí)驗(yàn)。圖5是本文提出的實(shí)數(shù)MUSIC算法的空間譜示意圖,圖5由實(shí)數(shù)空間的聲強(qiáng)法求解的概率密度分布圖(PDF)。以一組實(shí)驗(yàn)為例(φ1=44°,φ2=127°),在含噪、低混響(T60=0 ms、300ms)情況下,聲強(qiáng)法與實(shí)值MUSIC算法的分辨能力尚為接近,但聲強(qiáng)法的估計(jì)偏差依舊大于實(shí)值MUSIC算法;但在強(qiáng)混響條件下(T60=600ms),其性能顯著降低,角度估計(jì)誤差明顯增加。由圖6可以看出,聲強(qiáng)法對(duì)多個(gè)聲源的分辨能力顯著降低,對(duì)于此場(chǎng)景中的源2來說,在較為惡劣的場(chǎng)景下已經(jīng)無法分辨出其方位,漫射情況明顯。另一方面,如圖5所示,不同于傳統(tǒng)空間譜算法在性能上以空間譜值大小區(qū)分性能,實(shí)值MUSIC算法的性能以極值點(diǎn)相對(duì)于真實(shí)值的偏移進(jìn)行衡量。

此外,我們還對(duì)三聲源場(chǎng)景進(jìn)行性能分析,但結(jié)果顯示該方法將導(dǎo)致空間譜估計(jì)的較大偏差,并不能很好地適用于三聲源場(chǎng)景。

5 結(jié)語

本文提出了一種基于“B-格式”聲信號(hào)的實(shí)值空間MUSIC算法。“B-格式”信號(hào)由于其特殊的構(gòu)成,可以降低對(duì)寬帶信號(hào)分頻處理的要求。實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的復(fù)數(shù)空間MUSIC算法,它對(duì)DOA估計(jì)的性能有一定的提升,使用子空間算法也在多分離聲源的DOA估計(jì)中明顯優(yōu)于通過陣列屬性進(jìn)行聲強(qiáng)角度估計(jì)方法。同時(shí),該種方法在每個(gè)時(shí)頻點(diǎn)進(jìn)行計(jì)算,后續(xù)還可以根據(jù)能量統(tǒng)計(jì)、角度分布進(jìn)行后處理,用以提升音頻本身或者聲場(chǎng)重建的性能。

猜你喜歡
混響聲源麥克風(fēng)
基于圓柱繞流的氣動(dòng)聲源識(shí)別方法
虛擬聲源定位的等效源近場(chǎng)聲全息算法
計(jì)算輻射噪聲的面聲源和點(diǎn)聲源結(jié)合方法
汽車內(nèi)麥克風(fēng)陣列布放位置優(yōu)化方法研究*
淺談在混音中混響插件的組合使用
基于GCC-nearest時(shí)延估計(jì)的室內(nèi)聲源定位
海洋混響特性分析與建模仿真研究?
一種工程化的海洋混響仿真模型研究
淺談音響效果器的應(yīng)用
麥克風(fēng)的藝術(shù)
鞍山市| 遵义县| 司法| 海门市| 和林格尔县| 铁力市| 交口县| 海南省| 蓬溪县| 丰台区| 三明市| 兴宁市| 徐州市| 常宁市| 华宁县| 海门市| 德州市| 岳阳市| 武宣县| 阳东县| 华容县| 横峰县| 大埔县| 乐山市| 灌阳县| 汕头市| 左权县| 太仆寺旗| 余庆县| 南雄市| 南汇区| 若尔盖县| 无锡市| 岐山县| 高邮市| 收藏| 恩平市| 兴文县| 迁安市| 历史| 肥乡县|