曾 帆, 黃惠祥,童 峰
(廈門大學 水聲通信與海洋信息技術教育部重點實驗室, 福建 廈門 361100)
基于麥克風陣列的聲源方位估計技術在音/視頻會議、語音增強、數(shù)字助聽器、狙擊手定位[1]、車輛/直升機定位[2]等領域應用十分廣泛,而狙擊手、車輛/直升機定位等遠場應用場景給聲源方位估計帶來更大的挑戰(zhàn)。
傳統(tǒng)麥克風陣列聲源定位技術主要分為3類:基于最大輸出功率的可控波束形成的聲源定位技術[3]、基于高分辨率譜估計的聲源定位技術[4]、基于時延估計的聲源定位技術[5]。
廣義互相關方法(GCC)是傳統(tǒng)的時延估計方法,該方法易于實現(xiàn),但在低信噪比或者混響環(huán)境中性能急劇降低。基于高分辨率譜估計的聲源定位方法一般用于處理窄帶信號,對于寬帶自然語音信號應用受限。相位變換加權的可控響應功率(SRP-PHAT)和延時-累加(DS)聲源方位估計均屬于波束形成的聲源定位技術,其中SRP-PHAT結合了可控響應功率和相位變換加權的優(yōu)點[6,7],DS原理簡單,運算量小,但是當混響和噪聲較強時,傳統(tǒng)的聲源定位算法性能降低,無法正確估計聲源位置。
當信號是稀疏或者可壓縮時,可線性投影到低維空間,并通過一定的重構算法對信號進行CS重建[8]??紤]到聲源方向向量具有稀疏性,眾多學者在壓縮感知DOA估計理論和實際應用方面展開了廣泛研究。文獻[9]提出了一種時域壓縮采樣的DOA估計算法。文獻[10]提出了基于壓縮感知的單快拍海底聲源DOA估計。文獻[11]將基于CS的DOA估計應用于聲矢量陣列。文獻[12]將壓縮感知DOA估計應用于衛(wèi)星干擾源定位。文獻[13]將壓縮感知理論用于麥克風陣列聲源定位。
文獻[13]建立了一種室內混響環(huán)境中麥克風陣列接收信號的稀疏表示模型,以聲源可能存在位置的沖激響應作為特征構建字典,利用正交匹配追蹤(OMP)算法重建信號,最后通過搜索矢量最大元素對應的空間位置確定聲源位置。但該文僅進行仿真實驗,仿真結果表明在高混響低信噪比環(huán)境下,CS-OMP定位精度明顯優(yōu)于SRP-PHAT。同時,該方法需要事先測量各聲源可能存在方位的沖激響應,實際推廣應用。文獻[14]在混響和噪聲背景下,通過對延遲相關矩陣進行自適應特征分解,從其零空間中辨識出沖激響應。
在上述工作基礎上,本研究首先將稀疏恢復方程混合矩陣中的房間沖激響應(RIP,room impulse response)[15]分解為時延部分和混響部分,并將其中混響部分移動至方向向量中,表明:通過頻域疊加抑制混響部分影響,在遠場條件下可直接利用陣列陣元間時延關系構造觀測矩陣,并進行了室內遠場條件下聲源方位估計實測實驗,對SRP-PHAT、DS、CS-OMP、FCS-OMP在不同信噪比下的方位估計性能進行對比和評估。
在遠場環(huán)境中,麥克風陣列接收到的信號可用聲源信號和聲傳播沖激響應的卷積結果與環(huán)境噪聲之和表示,即M元線性麥克風陣列,陣元間距為d,第m個陣元接收到的信號xm(n)為
xm(n)=hm(rs,n)*s(n)+wm(n),m=1,2,…,M
(1)
式中:n為離散時間序列;rs為聲源位置;s(n)為聲源信號;wm(n)為環(huán)境噪聲信號;hm(rs,n)為rs到第m個陣元的房間沖激響應RIP。在xm(n)中hm(rs,n)需事先測量,給實際應用帶來不便。
通過將RIP分解為時延部分和混響部分,則式(1)可寫為
xm(n)=hdm(rs,n)*hrm(rs,n)*s(n)+wm(n)
(2)
式中:hdm(rs,n)為時延部分,hrm(rs,n)為混響部分:以線性麥克風陣列為例,即
m=1,2,…,M
(3)
式中:θ為信號入射方向與陣列夾角;c為聲速;fs為采樣率[16-17]。則陣元接收信號xm(n)經(jīng)加窗和離散傅里葉變換后,若沖激響應長度遠小于窗函數(shù)長度,可得到接收信號的頻域表示,將頻域模型用矢量表示為:
X(k)=H(rs,k)S(k)+W(k)=
Hd(rs,k)Hr(rs,k)S(k)+W(k)
(4)
式中,X(k)={X1(k),X2(k),…,XM(k)}T為陣元接收信號的頻域矢量,H(rs,k)={H1(rs,k),H2(rs,k),…,HM(rs,k)}T為rs處的頻域傳輸響應矢量,Hd(rs,k)={Hd1(rs,k),Hd2(rs,k),…,HdM(rs,k)}T為rs處RIP中時延部分的頻域矢量,Hr(rs,k)={Hr1(rs,k),Hr2(rs,k),…,HrM(rs,k)}T為rs處RIP中混響部分的頻域矢量,W(k)={W1(k),W2(k),…,WM(k)}T為環(huán)境噪聲信號的頻域矢量。
以聲源可能存在位置的RIP作為特征構建字典D(k),則式(4)可改寫為
(5)
X(k)≈Dd(k)S′(k)+W(k)
(6)
式中:
(7)
(8)
實驗在大小為30 m×20 m×6 m的實驗室大廳進行,房間混響時間T60用賽賓公式[18]近似估算約為2.4 s。麥克風陣列為陣元間距13.5 cm的4元均勻線陣,語音信號為TIMIT標準語音信號[19],由Marshall藍牙音箱播放,采樣率為16 kHz。陣列與聲源處于同一水平線且距離聲源處10 m,將麥陣正前方0°~180°區(qū)域離散為13個空間位置即每間隔15°作為聲源可能存在的位置。
聲源信號分別采用頻率范圍為0~4 kHz的白噪聲和頻率范圍為300~3 400 Hz的TIMIT標準語音信號,信號時域/時頻圖見圖1。原始陣列接收到的白噪信號和語音信號信噪比分別為11.5 dB和10.5 dB,通過對原始陣列接收信號疊加實錄噪聲構造不同信噪比下的陣列接收信號,用于比較SRP-PHAT、DS、CS-OMP及本文FCS-OMP方法在不同信噪比下的聲源方位估計性能。其中,通過實測獲得聲源各可能方位到麥克風陣列的信道沖激響應以用于CS-OMP方法構造稀疏恢復方程。各算法實驗參數(shù)設置如表1所示。
圖1 聲源信號時域/時頻圖
采樣率16 kHz信號處理幀長128加窗漢明窗OMP算法頻點閾值30
實驗結果如圖2、圖3、圖4所示。圖2、圖3分別是當聲源為白噪聲和語音信號時不同信噪比下,F(xiàn)CS-OMP、CS-OMP、DS、SRP-PHAT將聲源分別位于13個方向的指向性結果按照不同方向進行調整對齊累加后的定位指向性結果,圖4是當語音信號SNR=2.5 dB時,F(xiàn)CS-OMP與CS-OMP在不同頻點數(shù)下的性能比較。
圖2(a)是在原始信噪比條件下各算法對遠場白噪聲源的方位估計結果,圖2(b)、圖2(c)是信噪比降低條件下,各算法對遠場白噪聲源的方位估計結果。從圖2(a)可以看出,F(xiàn)CS-OMP和CS-OMP曲線尖銳程度幾乎重疊,且明顯高于SRP-PHAT和DS。隨著信噪比降低,F(xiàn)CS-OMP曲線的尖銳程度逐漸高于CS-OMP,且仍高于SRP-PHAT和DS。
圖3給出了各算法對遠場語音聲源在不同信噪比條件下的方位估計結果。由圖3(a)、圖3(b)可見,當語音信號信噪比為10.5 dB和4.9 dB時,F(xiàn)CS-OMP的曲線尖銳程度明顯高于SRP-PHAT和DS,但低于CS-OMP,但在圖3(c)中,當SNR=2.5 dB時,F(xiàn)CS-OMP曲線的尖銳程度高于其他3種算法,這是由于在遠場低信噪比條件下測量獲得的沖激響應質量下降,使算法性能降低,但本文利用陣列空間關系構造沖激響應能很好地解決該問題,使算法在低信噪比環(huán)境下仍保持較好的性能。
圖4給出了不同頻點數(shù)下,語音信號信噪比為2.5 dB時FCS-OMP與CS-OMP性能的曲線圖。從圖4(a)可以看出,當頻點閾值η=10時,F(xiàn)CS-OMP的曲線尖銳程度明顯高于CS-OMP,而且CS-OMP幾乎不能估計出聲源的方位,這是由于此時頻點數(shù)較低,實測的沖激響應與真實值之間誤差很大,導致算法性能降低;而當η=20時,由圖4(b)可知,此時FCS-OMP曲線的尖銳程度小于CS-OMP,這可能是由于此時的頻點數(shù)使得實測的沖激響應更接近于真實值;當η=30時,F(xiàn)CS-OMP曲線尖銳程度又高于CS-OMP,這是由于隨著頻點數(shù)的增加,空間位置信息獲取越多,F(xiàn)CS-OMP構造的沖激響應越接近真實值,使得FCS-OMP算法的性能越好,而CS-OMP算法實測的沖激響應與真實值之間誤差較大。
圖2 不同信噪比條件下白噪聲源遠場方位估計結果
圖3 不同信噪比條件下語音聲源遠場方位估計結果
圖4 不同頻點數(shù)下FCS-OMP與CS-OMP的性能
將壓縮感知麥克風陣列聲源定位方法應用于遠場場景,并通過RIP分解與重組表明:基于頻點疊加可直接利用陣列空間關系構造聲源各可能方位對應的沖激響應進行稀疏恢復。實驗結果表明,與SRP-PHAT,DS算法比較,本研究提出的FCS-OMP算法在遠場低信噪比環(huán)境中有更好的方位估計性能。與傳統(tǒng)CS-OMP算法相比, FCS-OMP算法采用構造沖激響應替代實測,應用更為方便,可保證遠場條件下的估計性能。
[1] 蔣婷,劉建平,張一聞.基于多麥克風陣列的槍聲定位算法研究[J].計算機應用與軟件,2012,29(13):229-231.
[2] 左佑,于勝云,黃浩,等.低空目標光纖麥克風陣列無源測向技術[J].電子信息對抗技術,2013,28(3):18-21.
[3] WAX M,KAILATH T.Optimum localization of multiple sources by passive arrays[J].Acoustics Speech & Signal Processing IEEE Transaction on,1983,31(5):1210-1217.
[4] GUSTAFSSON T,RAO B D,TRIVEDI M.Source Localization in Reverberant Environments:Modeling And Statistical Analysis[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):791-803.
[5] HUANG L,WU S J,ZHANG L R.A Novel MUSIC Algorithm for Direction-of-Arrive Estimation without the Estimate of Covariance Matrix and Its Eigende Composition [C]//Proceedings
of IEEE International Conference on Vehicular Technology,Intercontinental Hotels Dallas,Dallas Texas,2005,1:16-19.
[6] DIBIASE T H.A high-accuracy,low-latency technique for talker localization environments using microphone arrays[D].Providence,Rhode Island,USA:Brown University,2000.
[7] ZHAO Xiaoyan,TANG Jie,ZHOU Lin,et al.Accelerated steered response power method for sound source localization via clustering search [J].Science China Physics,Mechanics and Astronomy,2013,56(7):1329-1338.
[8] CANDèS E J,WAKIN M B.An introduction to compressive sampling[J].IEEE Signal Processing Magazine,2008,25(2):21-30.
[9] GURBUZ L C,CEVHER V,MCCLELLAN J H.Bearing estimation via spatial sparsity using compressive sensing[J].IEEE Transaction on Aerospace and Electronic Systems,2012,48(2):1358-1369.
[10] XENAKI A,GERSTOFT P,MOSEGAARD K.Compressive beam-forming[J].The Journal of the Acoustical Society of America,2014,136(1):260-271.
[11] 付金山,李秀坤.聲矢量陣 DOA 估計的稀疏分解理論研究[J].哈爾濱工程大學學報,2013,34(3):280-286.
[12] 趙宏偉,劉波,劉恒.用于衛(wèi)星干擾源定位的壓縮感知DOA估計方法[J].火力與指揮控制,2016,41(10):25-28.
[13] 趙小燕,周琳,吳鎮(zhèn)揚.基于壓縮感知的麥克風陣列聲源定位算法[J].東南大學學報(自然科學版),2015,45(2):203-207.
[14] 張奕,殷福亮.混響和有色噪聲環(huán)境下的頑健時延估計方法[J].通信學報,2008,29(5):6-12.
[15] RéMI MIGNOT,GILLES CHARDON,LAURENT DAUDET.Low frequency interpolation of room impulse responses using compressed sensing[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(1):205-216.
[16] 李芳蘭,周躍海,童峰,等.采用可調波束形成器的GSC麥克風陣列語音增強方法[J].廈門大學學報(自然科學版),2013,52(2):186-189.
[17] 陳磊,江偉華,童峰,等.一種可跟蹤移動聲源方向的麥克風陣列語音增強算法[J].廈門大學學報(自然科學版),2015,54(4):551-555.
[18] 張武威.關于室內混響時間的計算問題[J].電聲技術,2005(3):17-20.
[19] GAROFOLO J,LAMEL L,FISHER W,et al.TIMIT Acoustic-Phonetic Continuous Speech (MS-WAV version)[J].Journal of the Acoustical Society of America,1993,88(88):210-221.