周龍杰, 趙思屹, 馬洪宇
(武漢大學(xué)物理科學(xué)與技術(shù)學(xué)院,武漢 430072)
聲源定位是指通過探測器探測聲源發(fā)出的聲波反向追溯聲源的位置。聲源定位系統(tǒng)不同于雷達(dá)等主動聲吶系統(tǒng),其不主動發(fā)出聲波,屬于一種被動聲吶系統(tǒng)。隨著科技的發(fā)展,越來越多的領(lǐng)域需要用到聲源定位:軍事[1-2]、視頻會議[3]、機(jī)器人搜救[4]和故障排除[5]等。
通常有兩種方法實(shí)現(xiàn)聲源定位:可控功率響應(yīng)法[6](Steered response power,SRP)、基于時延估計定位法[7](Time delay of arrival,TDOA)。這兩者均需要用到不同幾何形狀的麥克風(fēng)陣列(線陣、面陣,體陣),對錄制到的音頻使用不同的算法估計時延。不同的是,前者屬于直接定位方法,需要對待測空間的功率響應(yīng)進(jìn)行全局搜索,峰值位置即為估計出的聲源位置。后者屬于兩步間接定位法,在估計出時延后,結(jié)合麥克風(fēng)陣列的幾何分布求解非線性雙曲方程組或者求解四維空間中的超錐擬合問題[8]來估計聲源位置。
在間接定位中時延估計的準(zhǔn)確性將直接影響聲源定位的結(jié)果,如何準(zhǔn)確估計時延是該類定位問題的重中之重。通常在其他條件不變的情況下,麥克風(fēng)數(shù)量越多[9]、用于計算的音頻越長[10]得到的估計結(jié)果越準(zhǔn)確。在實(shí)時定位系統(tǒng)中,不可能一味地增加麥克風(fēng)數(shù)量和增長單次錄制的音頻長度,需要在有限的麥克風(fēng)數(shù)和音頻長度中得到準(zhǔn)確的估計結(jié)果?,F(xiàn)有的研究大多數(shù)都集中在提出更有效的定位方法,使定位系統(tǒng)具有較高的抗噪、抗混響以及準(zhǔn)確定位的性能。改進(jìn)定位方法費(fèi)時費(fèi)力且針對性過強(qiáng)不具有普適性。如能在時延估計算法中提出一種普適的反饋機(jī)制,使得系統(tǒng)在估計出時延之后自動評估結(jié)果的合理性,則可更簡單地提高定位方法的抗噪性、抗混響性和穩(wěn)定性。本文結(jié)合麥克風(fēng)陣列的幾何分布,在時延估計過程中提出簡單普適的反饋機(jī)制,并將其運(yùn)用在二維平面內(nèi)的五元十字麥克風(fēng)陣列定位的情形下。在Matlab 編譯環(huán)境下進(jìn)行實(shí)驗(yàn)仿真,搭建一套線下定位系統(tǒng)付諸實(shí)踐。
以距離為d的一對麥克風(fēng)為例(見圖1(a)),其中一個麥克風(fēng)接收到的聲音信號
圖1 基于廣義互相函數(shù)的時延估計
式中:αn為衰減系數(shù);Nn為線性無關(guān)的高斯白噪聲;tn為聲音信號傳到n號麥克風(fēng)所需時間(n=1,2);S(t)為聲源信號。所以到達(dá)兩麥克風(fēng)的時延τ12=t1-t2。對信號進(jìn)行傅里葉變換
定義廣義互相關(guān)函數(shù)
式中:G=X1(ω)X*2(ω);φ為加權(quán)函數(shù),最常用的是phat加權(quán)函數(shù),能夠起到銳化峰值的作用[11]。
在弱混響的情況下,式(3)可以近似為:
W(t)可近似地看成δ 函數(shù),且當(dāng)t=τ12時,W(t)取最大值。因此,可通過計算兩段音頻的互相關(guān)函數(shù)求得互功率譜,互功率譜峰值對應(yīng)的值即為時延的估計值(見圖1(b))。
傳統(tǒng)時延估計方法通常只是對信號的互功率譜尋峰估計,并不能立即判斷估計值的正確性?,F(xiàn)實(shí)生活中聲音信號復(fù)雜多變,可能在某一次估計的時候噪聲過大,導(dǎo)致傳統(tǒng)定位算法難以得到準(zhǔn)確結(jié)果。如能引入一個反饋機(jī)制,使得定位系統(tǒng)能在估計出時延后及時判斷并跳過噪聲過大導(dǎo)致定位不準(zhǔn)確的片段,則可大大提高定位結(jié)果的準(zhǔn)確率。
對于擁有n個麥克風(fēng)的陣列,具有一定的幾何分布,估計來的Num =個時延之間存在確定的內(nèi)在聯(lián)系。因此可基于這一內(nèi)在聯(lián)系,設(shè)計一個反饋機(jī)制檢驗(yàn)該次時延估計的合理性,提高時延估計的準(zhǔn)確性。
通常時延分布有以下特性:
(1)時延存在最值。對于任意2 個相距d的麥克風(fēng)M1、M2,如果已知聲音信號到達(dá)2 麥克風(fēng)的時延為τ12,則可計算聲源到2 個麥克風(fēng)的距離差Δr(見圖1(a))。對于同一組麥克風(fēng)(M1,M2),時延相等的聲源位置是雙曲線的一支(見圖2),其中時延在2 麥克風(fēng)連線的外側(cè)上取到最大值τmax=d/v(v為聲速)、在2麥克風(fēng)的垂直平分線上時延為0 s。由于麥克風(fēng)選取的任意性,一個擁有n個麥克風(fēng)的陣列對應(yīng)的Num =個時延均滿足上述性質(zhì)。
圖2 時延分布圖(d =80 cm)
(2)零時延值分布在垂直平分面上。當(dāng)聲源位于2 個麥克風(fēng)的垂直平分面時,其對應(yīng)的實(shí)際理想時延為0 s。如果考慮擁有n個麥克風(fēng)的陣列,則其Num個時延估計結(jié)果中零時延的數(shù)量并非是0-Num之間連續(xù)取值的。以五元十字麥克風(fēng)陣列為例,在單次估計的10 個時延中,為零值的數(shù)量只可能為0、1、2、4、6個(如圖3 所示,其中6 個零時延對應(yīng)的聲源位置在中心麥克風(fēng)處)。
圖3 五元十字麥克風(fēng)陣列的小時延位置分布
在實(shí)際情況中,由于噪聲等環(huán)境因素的影響和時間分辨率的限制,估計的時延值不可能剛好是0 s,而是接近于0 s的小值(時延估計值小于某一指標(biāo)h,這里h取1 個時間分辨率)。這些小值的分布情況與零時延值的分布類似,對于單次估計的Num 個估計值,其為小值的數(shù)量只可取0、1、2、4、6。出現(xiàn)小值的聲源位置相對來說定位更加困難,故稱這些位置為定位盲區(qū)。需要對于較小的估計值單獨(dú)進(jìn)行考慮。如果小值總數(shù)不滿足上述的規(guī)律,則該組時延估計結(jié)果一定不準(zhǔn)確。
(3)時延之間具有線性相關(guān)性。對于任意3 個麥克風(fēng)m、p、q,其到聲源的距離Rm、Rp、Rq有如下關(guān)系:
兩側(cè)同時除以聲速v可得
式中,τmp、τmq、τpq為指聲源信號到達(dá)不同麥克風(fēng)的理論時延值。
在實(shí)際情況中,時延的估計值總會存在誤差。在誤差允許范圍的情況下,式(6)應(yīng)該增加一個誤差修正項(xiàng):
式中:τ^為時延估計值;Δ 為人為給定的時延估計的誤差指標(biāo)。
在實(shí)際測試中,為準(zhǔn)確對聲源進(jìn)行定位往往需要用到多個麥克風(fēng),如果使用了n個麥克風(fēng),則有Num =個時延。這些時延并非完全獨(dú)立,或者說它們是線性相關(guān)的(即滿足式(7))。事實(shí)上,在傳統(tǒng)方法中只是代入對應(yīng)2 個麥克風(fēng)接收到的音頻進(jìn)行估計,并沒考慮同一次測量的不同時延之間內(nèi)在聯(lián)系,這會造成定位不準(zhǔn)確。
綜上所述,對于擁有n個麥克風(fēng)的陣列而言,一次合理的時延估計應(yīng)該同時滿足:
(1)存在最大值τmax=d/v。
(2)對于時延的估計值,小值的總數(shù)應(yīng)該滿足確定的分布。
(3)在誤差允許的情況下,各時延之間應(yīng)該滿足式(7)的線性關(guān)系。
在實(shí)時的定位過程中,可在錄制極短的音頻后就開始時延估計,經(jīng)過反饋機(jī)制的判斷,再確認(rèn)是輸出合理的結(jié)果還是錄制下一段音頻(見圖4)。
圖4 引入反饋機(jī)制后的時延估計流程
為驗(yàn)證反饋機(jī)制的引入是有效的,在Matlab 仿真程序中進(jìn)行預(yù)實(shí)驗(yàn)。預(yù)實(shí)驗(yàn)使用的是五元十字麥克風(fēng)陣列,通過改變聲源的位置來改變時延的真實(shí)值τ,估計值與真實(shí)值τ的偏小于1 倍分辨率(本實(shí)驗(yàn)為1/48 000 s)時,則認(rèn)為估計值是準(zhǔn)確的。在不同R0(聲源到2 麥克風(fēng)連線的中點(diǎn)的距離)處設(shè)置一系列信噪比(SNR),同一SNR 下進(jìn)行104次實(shí)驗(yàn),比較改進(jìn)前(有反饋)、后(無反饋)時延估計值的準(zhǔn)確率。其中改進(jìn)前是指采集0.1 s音頻直接代入定位算法;改進(jìn)后是指采集0.4 s音頻,然后將音頻平均分為4 段,按照圖4 的流程代入定位算法。
如圖5 所示,在信噪比相同的情況下,隨著距離R0的增加時延估計的準(zhǔn)確率在下降。在R0相同的情況下,時延估計的準(zhǔn)確率隨著SNR 的增大而增大,并且改進(jìn)后的準(zhǔn)確率均要高于改進(jìn)前。這說明引入反饋機(jī)制后能提升時延估計的準(zhǔn)確率,時延估計算法的抗噪性得到了提高,改進(jìn)是有效的。
圖5 算法改進(jìn)前、后時延估計準(zhǔn)確率對比
定位問題可總結(jié)為在最小誤差的情況下,求得聲源坐標(biāo)。上述問題是非線性的,難以直接解決,可利用球形插值法(Spherical-Interpolation Method)將問題轉(zhuǎn)化為線性最小二乘問題[12-13]。該最小二乘問題的解:
其投影矩陣:
式中,I為指單位矩陣。
利用時延估計算法得到的時延計算距離差的估計值δr^后,代入式(11)可解得聲源坐標(biāo)估計值。
本實(shí)驗(yàn)使用五元十字麥克風(fēng)陣列在二維平面上進(jìn)行聲源定位。麥克風(fēng)M1~M4到中心麥克風(fēng)M0的距離相等(見圖6(a)),記麥克風(fēng)陣列孔無特別申明后文實(shí)驗(yàn)中的d=80 cm。以M0為原點(diǎn)建立如圖6 所示的坐標(biāo)系后,即可使用式(11)求解聲源位置。
圖6 五元十字麥克風(fēng)陣列
在Matlab 仿真程序中使用五元十字麥克風(fēng)陣列進(jìn)行定位實(shí)驗(yàn),比較聲源坐標(biāo)的估計值X^、Y^和聲源坐標(biāo)的實(shí)際值X、Y,如果定位結(jié)果滿足,則認(rèn)為該次定位準(zhǔn)確。本實(shí)驗(yàn)利用image方法[14-15]在5 m×5 m×5 m房間內(nèi)產(chǎn)生聲音信號,聲源位于距離坐標(biāo)原點(diǎn)不同R0的多個環(huán)形區(qū)域,在不同SNR和混響時間的情況下進(jìn)行多次仿真,比較改進(jìn)前、后定位準(zhǔn)確率。在混響時間為0.25 s且SNR為-10 ~0 dB 的情況下進(jìn)行多次實(shí)驗(yàn)。如圖7(a)所示,在不同的距離R0處定位準(zhǔn)確率均隨著SNR 的增加而增加,且改進(jìn)后定位準(zhǔn)確率均要高于改進(jìn)前。如圖7(b)所示定位準(zhǔn)確率的增幅在0 ~0.25 之間不等。在SNR為0 dB且混響時間為0.15 ~0.40 s的情況下進(jìn)行多次仿真實(shí)驗(yàn)。如圖8(a)所示,在不同的距離R0處定位準(zhǔn)確率均隨著信混響時間的增加而增加,且改進(jìn)后定位準(zhǔn)確率均要高于改進(jìn)前。如圖8(b)所示,定位準(zhǔn)確率的增幅在0 ~0.20 之間不等。由此可見,改進(jìn)后的算法的抗混響性得到了較好的提高。
圖7 不同信噪比下實(shí)驗(yàn)結(jié)果
圖8 不同混響時間下的實(shí)驗(yàn)結(jié)果
在以坐標(biāo)原點(diǎn)為圓心,半徑為120 cm的圓形區(qū)域?qū)Χㄎ粶?zhǔn)確率進(jìn)行仿真(SNR =0 dB,混響時間t=0.25 s)。同樣的,如果定位結(jié)果滿足,就認(rèn)為本次定位是準(zhǔn)確的。
如圖9(a)、(b)所示,在某一個方向上,隨著聲源到原點(diǎn)的距離R0增大,準(zhǔn)確率下降。當(dāng)R0增大到1.5d=120 cm時,已經(jīng)難以得到較為準(zhǔn)確的結(jié)果。而在距離R0一定情況下,靠近軸的部分定位準(zhǔn)確率不佳(如圖9(c)、(d)所示)。該結(jié)果有很強(qiáng)的中心對稱性,這與麥克風(fēng)陣列中心對稱有關(guān)。相比較而言,改進(jìn)后的定位結(jié)果要明顯的優(yōu)于改進(jìn)前,并且原來盲區(qū)的定位準(zhǔn)確度有著大幅度的提升。
圖9 時延準(zhǔn)確率分布圖
圖9 顯示的定位準(zhǔn)確度是關(guān)于原點(diǎn)中心對稱,只需研究第1 象限中的定位結(jié)果。在第1 象限內(nèi)控制聲源到原點(diǎn)的連線與X軸的夾角φ =45°,改變聲源到原點(diǎn)的距離R0進(jìn)行定位仿真。同一個位置在SNR =0 dB、混響時間t=0.25 s的情況下重復(fù)103次,計算出定位結(jié)果的均值和標(biāo)準(zhǔn)差(結(jié)果見表1、2)。為直觀看到仿真定位結(jié)果,將定位結(jié)果表示為估計值-實(shí)際值圖。如圖10 所示,在R0=0 ~80 cm 的范圍內(nèi)改進(jìn)后的估計值要更加接近實(shí)際值,此外改進(jìn)后標(biāo)準(zhǔn)差要明顯小于改進(jìn)前,并且隨著R0的增大標(biāo)準(zhǔn)差的差異更明顯。這說明在R0=0 ~80 cm時,引入反饋機(jī)制后聲源定位算法的精確性和穩(wěn)定性均得到了提高。
表1 改進(jìn)前仿真定位實(shí)驗(yàn)結(jié)果
表2 改進(jìn)后仿真定位結(jié)果
圖10 改進(jìn)前仿真定位實(shí)驗(yàn)結(jié)果
圖11 改進(jìn)后仿真定位實(shí)驗(yàn)結(jié)果
為驗(yàn)證定位仿真的結(jié)果,本實(shí)驗(yàn)搭建了一套五元十字麥克風(fēng)陣列(見圖6(b)),并在室內(nèi)走廊進(jìn)行了定位實(shí)驗(yàn)。定位結(jié)果見表3,坐標(biāo)估計值保留到整數(shù)位,大多數(shù)估計值與實(shí)際值的偏差在1 cm以內(nèi),這一實(shí)驗(yàn)結(jié)果與仿真定位實(shí)驗(yàn)相符。這說明該設(shè)備能夠?qū)崿F(xiàn)厘米級精度的定位。
表3 定位結(jié)果(保留到整數(shù)位)
本文通過在時延估計算法中引入一種普適的反饋機(jī)制,提高了時延估計的準(zhǔn)確率,實(shí)現(xiàn)更高精度的聲源定位,在實(shí)驗(yàn)仿真的支持下最終搭建了一臺cm 級的聲源定位設(shè)備。實(shí)驗(yàn)仿真發(fā)現(xiàn),引入反饋機(jī)制后該聲源定位算法的抗噪性、抗混響性均有了不同程度的提升,定位的準(zhǔn)確率的增幅最大可達(dá)20%,并且改進(jìn)后對同一位置多次測量結(jié)果的標(biāo)準(zhǔn)差也要小于改進(jìn)前,這說明引入反饋機(jī)制后,定位的穩(wěn)定性更高。此外實(shí)驗(yàn)仿真表明,在SNR =0 dB、混響時間為0.25 s的情況下,對于孔徑d=80 cm 的五元十字麥克風(fēng)陣列來說,其最大定位極限在120 cm 處。實(shí)際搭建的設(shè)備對虛擬仿真結(jié)果進(jìn)行實(shí)際驗(yàn)證,發(fā)現(xiàn)可以實(shí)現(xiàn)cm 級的定位,與仿真定位實(shí)驗(yàn)的結(jié)果相符。該反饋機(jī)制只是根據(jù)麥克風(fēng)陣列的幾何形狀引入的,不依賴于時延估計方法的選取。通過引入這一普適的反饋機(jī)制,使得聲源定位算法的抗噪性、抗混響性和穩(wěn)定性均有提高。該反饋機(jī)制對于噪聲較大、混響較強(qiáng)環(huán)境下的聲源定位具有一定的應(yīng)用價值。