毛 琳,曾慶超,張 靜
(大連民族大學(xué) 機電工程學(xué)院,遼寧 大連 116605)
?
實時視頻定位的麥克風(fēng)陣列參數(shù)初始化算法
毛琳,曾慶超,張靜
(大連民族大學(xué) 機電工程學(xué)院,遼寧 大連 116605)
針對移動機器人近場聲源定位中,需要實時獲取聲源目標(biāo)與麥克風(fēng)陣列中心相對位置和角度的問題,提出一種基于視頻定位的室內(nèi)聲源位置測量算法,實時地為麥克風(fēng)陣列提供初始化參數(shù),為移動機器人快速建立室內(nèi)近場聲源環(huán)境認知實現(xiàn)輔助功能。該方法利用A4紙打印的位置定位板,通過攝像頭采集視頻數(shù)據(jù),逐幀尋找角點后搜索定位板中心點和頂點,以此計算出麥克風(fēng)陣列到聲源的實際距離和方位角度。經(jīng)仿真實驗分析,該算法能夠在室內(nèi)環(huán)境中實時快速地測量聲源目標(biāo)位置,為機器人后續(xù)語音定位、識別與跟蹤提供輔助與校準(zhǔn)功能,具有較強的工程實用價值。
移動機器人;聲源陣列;視頻定位
在室內(nèi)移動機器人聲源定位系統(tǒng)中,通常采用麥克風(fēng)陣列來計算聲源目標(biāo)所在的空間位置以及方向角度。但由于聲源定位易受房間大小、室內(nèi)布局等干擾的影響,需要在聲源定位前,采用測距儀等度量手段為聲源定位系統(tǒng)提供初始距離和角度等先驗參數(shù)。
近年來,如何快速為聲源定位系統(tǒng)提供初始化參數(shù)的研究一直得到廣泛關(guān)注[1-4]。文獻[5]提出一種基于空間域的麥克風(fēng)陣列近場聲源定位方法校準(zhǔn)定位精度,采用均勻圓形麥克風(fēng)陣列,融合近場3D-MUSIC算法對三維空間聲源進行定位及校準(zhǔn),但缺點在于3D-MUSIC算法計算量較大,算法復(fù)雜度高。文獻[6]通過多個攝像機聯(lián)合進行視頻定位,利用最大似然法對多個攝像機的觀測值進行融合定位,但由于多路視頻,計算復(fù)雜度也較高。文獻[7]利用視覺信息,提出一種基于電子標(biāo)識搜索匹配的目標(biāo)定位方法,由于目標(biāo)種類復(fù)雜,視覺信息無法準(zhǔn)確定位且精度不高。文獻[8]聯(lián)合音視頻信息進行目標(biāo)定位,通過貝葉斯過濾器對麥克風(fēng)陣列定位結(jié)果與視頻圖像定位結(jié)果進行處理,能夠解決部分目標(biāo)遮擋及聲源聲音不連續(xù)的問題,但定位精度有待提高。
本文則提出一種適用于室內(nèi)環(huán)境的快速視頻近場聲源定位參數(shù)快速初始化算法,能夠有效地輔助麥克風(fēng)陣列獲取室內(nèi)聲源的標(biāo)準(zhǔn)距離和方向角度等初始定位信息,為聲源定位提供輔助校準(zhǔn)手段。
本文所提出的視頻定位算法,是初始化麥克風(fēng)陣列,采用黑白四方塊定位板來實現(xiàn)攝像頭位置與角度的等效計算。算法中應(yīng)用角點檢測技術(shù)作為主要計算手段,計算量小,更適用于以機器人為載體的實時測量定位需求。
1.1初始化距離系數(shù)
黑白四方塊定位板如圖1。定位板中心點為O,四個頂點分別為A、B、C和D,設(shè)任一頂點到中心點O的實際測量長度為l(mm)。
圖1 黑白四方塊定位板
將攝像機固定于機器人聲源陣列中心后,置定位板中心O于攝像機鏡頭組中心線上,且定位板平行于鏡頭組焦平面,定義兩平面間距離為d0,如圖2。則距離的初始化距離系數(shù)ω為
(1)
式中,P0為任一頂點到中心點O的像素距離,d0可通過激光測距儀或者米尺獲取實際結(jié)果。
圖2 攝像頭定位系數(shù)ω求解方法
1.2定位距離與方向角
定位板距離與角度測量示意圖如圖3。
圖3 定位板距離與角度測量示意圖
實際應(yīng)用定位板進行位置測量時,應(yīng)將定位板垂直地面,O點置于聲源設(shè)備中心線上。此時,定位距離dKO和方向角α的計算,可以等效為直角三角形的邊和角求解的問題。于是,定位板中心點O距離攝像機鏡頭中心點K的距離dKO為
(2)
這里,
(3)
式中,POO'為定位板中心點O到攝像機中心線的垂直像素距離(即定位板中心到采集圖像中心的像素距離),POA為黑色方塊的像素邊長(像素距離)。相應(yīng)地,由式(3)可得定位板的方向角α為
(4)
1.3算法實現(xiàn)
基于上述定位板測量方法,視頻輔助定位的具體實現(xiàn)步驟如下:
第1步,安裝攝像頭于聲源陣列中心,利用定位板對攝像機進行標(biāo)定,求取距離定位系數(shù)ω;
第2步,將定位板與發(fā)聲聲源(如喇叭)中心點重合放置,計算黑色方塊的圖像像素邊長POA及定位板中心點O距離屏幕中心的像素距離POO';
第3步,采集灰度圖像,利用Harris方法檢測圖像角點,然后分別計算各角點左上、右上、左下和右下方像素均值,閾值劃分后對四個方向的灰度進行編碼(見表1),通過查表法,從全部角點中區(qū)分辨出定位板的中心點O和頂點;
第4步,根據(jù)式(2)和式(4),計算出定位板中心點距離攝像機鏡頭中心點的距離和方向角,此數(shù)值則為當(dāng)前聲源裝置的實際物理位置信息;
第5步,如需測量多個聲源裝置的空間位置,返回第2步,重新操作即可。
表1 角點編碼表
為驗證本文視頻定位算法的有效性,以輪式機器上固定攝像機為平臺,對靜態(tài)背景下單個聲源目標(biāo)進行測量。要求聲源裝置距離攝像機5 m
以內(nèi),測距誤差不大于20 mm,角度誤差不大于2°。本實驗假設(shè)定位板中心點O即為聲源裝置的中心位置,已知該室內(nèi)的初始化距離系數(shù)ω以及定位板黑色方塊的實際長度l。
2.1算法性能仿真
測定場景如圖4。定位板中心點水平偏移攝像頭中心O固定為300 mm,與攝像機的垂直距離為D∈[1 500,5 000] mm,測量對比結(jié)果見表2。由比較距離與方向角的計算結(jié)果與實測結(jié)果可知,距離誤差范圍在±15 mm內(nèi),角度誤差范圍在±1.2°內(nèi),均達到誤差允許范圍。
圖4 垂直距離為3 500 mm的實測效果圖
垂直距離/mm15002000250030003500400045005000實際距離/mm1520.702009.102529.803023.403518.804016.904520.805017.40測量距離/mm1529.702022.402517.903015.003512.804011.204510.005009.00實際角度/(°)12.468.346.435.464.884.414.214.06測量角度/(°)11.318.536.845.714.904.293.813.43距離誤差/mm-9.00-13.3011.908.44726.005.7010.808.40角度誤差/(°)1.15-0.19-0.42-0.26-0.020.120.390.63
2.2視頻實時測試仿真
對室內(nèi)近場聲源視頻定位進行場景仿真實驗,實驗仿真環(huán)境如圖5。仿真實例以攝像機固定于機器人上為平臺,測試者手持定位板在距離機器人5 m內(nèi)任意運動方向,速度約為1.5 m·s-1,攝像機輸出數(shù)字視頻信號為mpeg4video編碼,分辨率為320×240,幀速率為30 fps,視頻定位效果如圖6。
圖5 仿真環(huán)境圖(含6麥克風(fēng)陣列實物圖)
(a)第1幀 (b)第30幀 (c)第60幀 (d)第90幀
仿真實例結(jié)果見表3。可以看出,視頻定位能夠?qū)崟r地準(zhǔn)確找到定位板位置,距離絕對誤差小于15 mm,且角度絕對誤差小于1.2°,因此本文算法可以為麥克風(fēng)陣列提供可靠的初始化室內(nèi)定位參數(shù)信息。
表3 視頻定位距離、方向角計算結(jié)果
本文針對機器人室內(nèi)聲源定位時初始化參數(shù)快速獲取問題,提出一種近場聲源陣列的麥克風(fēng)陣列定位信息實時初始化算法,能夠快速定位聲源目標(biāo)的距離以及方向角,有效地簡化室內(nèi)聲源定位的初始化工作,為系統(tǒng)提供輔助校準(zhǔn)信息和參數(shù)修正信息,進而提高聲源定位的準(zhǔn)確性。本算法僅采用定位板來作為輔助,以角點檢測為主要數(shù)學(xué)手段,計算復(fù)雜度低,可行性強,適用于移動設(shè)備和低功耗設(shè)備應(yīng)用,方便應(yīng)用于機器人語音定位、識別與跟蹤系統(tǒng)中,具有較高的工程應(yīng)用價值。
[1] D'ARCA E, ROBERTSON N M, HOPWOOD J. Person tracking via audio and video fusion[C]// Data Fusion & Target Tracking Conference : Algorithms & Applications. Liverpool: IET, 2012:1-6.
[2] LIU C L, HANG H M. Direction of arrival estimation of speech signals using ICA and MUSIC methods[C]// Industrial Electronics and Applications (ICIEA). Taichung: IEEE, 2010:1768-1773.
[3] WANG Dongxia, ZHENG Jiachao, WU Tao. A Broadband Beam forming Method Based on Microphone Array for the Speech Enhancement[C]// International Conference on Signal Processing Systems. Dalian: IEEE, 2010, 1(2): 363-366.
[4] ARADHYA H V Ravish, MOHANA, KIRAN Anil Chikodi. Real time objects detection and positioning in multiple regions using single fixed camera view for video surveillance applications[C]// International Conference on Electrical, Electronics, Signals, Communication and Optimization(EESCO) . Visakhapatnam: IEEE(24-25 Jan.), 2015: 1-6.
[5] CHEN L W, HO Y F, CHANG C C, et al. A video-based metropolitan positioning system with centimeter-grade localization for VANETs[C]// International Conference on Pervasive Computing and Communication Workshops. Missouri: IEEE(23-27 March), 2015: 187-189.
[6] 關(guān)曉彬. 基于空間域的麥克風(fēng)陣列近場聲源定位與增強研究[D]. 成都:西南交通大學(xué), 2012.
[7] DIOS M D, JIMENEZ-GONZALEZ A, OLLERO A. Localization and Tracking Using Camera-Based Wireless Sensor Networks[M]. Vienna: Sensor Fusion - Foundation and Applications, 2011.
[8] ZHANG B, TENG J, ZHU J. EV-Loc: Integrating electronic and visual signals for accurate localization [J]. IEEE ACM Transactions on Networking, 2012, 22(4):1285-1296.
(責(zé)任編輯鄒永紅)
The Parameter Initialization of Microphone Array Based on Video Real-time Localization Algorithm
MAO Lin, ZENG Qing-chao, ZHANG Jing
(School of Electromechanical Engineering, Dalian Minzu University, Dalian Liaoning, 116605)
For obtaining the relative position and direction angle between sound source and the center of microphone array in real-time, the paper proposes an indoor video sound-source-localization measurement algorithm, in order to provide the initializing parameters for the microphone array so that offers the ability to realize the near field environment for a moving robot. This method uses the positioning plate which is printed on A4 paper, captures video-data through camera and searches the center point and the vertex points of the positioning plate frame by frame. According to the specified points, the actual distance and the direction angle of the microphone array to the sound sources have been derived. The simulation experiments show that this algorithm can measure source position indoor in real time, providing the auxiliary and calibration function for the subsequent voice location, identification and tracking and having a strong engineering practical value.
moving robot; sound source array; video localization
2096-1383(2016)05-0482-04
2016-07-24;最后
2016-07-28
遼寧省教育廳科學(xué)研究一般項目(L2014542);大連金州新區(qū)科技創(chuàng)新主體支持計劃(KJCX-ZTPY-2014-0005);中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目(DC201501093)。
毛琳(1977-),女,山東萊州人,副教授,博士,主要從事信息融合處理技術(shù)、目標(biāo)檢測與識別技術(shù)研究。
TP242.6
A