周 云,鄭慧峰,姚潤(rùn)廣,朱勤豐
(中國(guó)計(jì)量大學(xué)計(jì)量測(cè)試工程學(xué)院,浙江 杭州 310018)
鳴笛監(jiān)測(cè)系統(tǒng)是基于傳聲器陣列的聲源定位技術(shù)在交通執(zhí)法方面的應(yīng)用。 傳聲器陣列中心集成的小型攝像機(jī)抓拍光學(xué)圖像,與聲源識(shí)別定位系統(tǒng)計(jì)算的聲壓云圖(偽彩圖)疊加,以聲相云圖的方式直觀地將鳴笛聲與鳴笛車輛相對(duì)應(yīng)[1-3]。 隨著文明城市建設(shè)和智能化交通管理的進(jìn)一步深入,越來越多的城市在特定路口安裝了鳴笛監(jiān)測(cè)系統(tǒng)以協(xié)助交通部門取證執(zhí)法[4]。
1996 年,Silverman 和Brandstein[5]首次將傳聲器陣列應(yīng)用于噪聲源的定位。 隨后波音公司的Asano F、Asoh H 等[6]通過大型麥克風(fēng)陣列實(shí)現(xiàn)波音777 在滑行中的噪聲點(diǎn)監(jiān)測(cè)分析。 丹麥的B&K、荷蘭的Microflown 等單位[7]先后提出了“聲學(xué)照相機(jī)”這一概念,將聲場(chǎng)重建結(jié)果與光學(xué)照片合成,實(shí)現(xiàn)了聲場(chǎng)可視化。 為進(jìn)一步研究基于傳聲器陣列的聲源定位系統(tǒng),Barsikow B 等[8]通過改變傳聲器陣列的形狀,如水平、垂直線性、十字和X 形等來研究噪聲源的定位效果。 文獻(xiàn)[9]提出修正陣列中各傳聲器與標(biāo)準(zhǔn)傳聲器之間的幅值比和相位差,從而提高傳聲器陣列的定位精度。 文獻(xiàn)[10]設(shè)計(jì)了一種七元傳聲器陣列,并研究了陣列參數(shù)水平偏角、仰角等對(duì)定位誤差的影響。 以上方法是從傳聲器及其陣列設(shè)計(jì)上對(duì)聲源定位系統(tǒng)的定位誤差進(jìn)行研究。 鳴笛監(jiān)測(cè)系統(tǒng)作為聲源定位系統(tǒng)的分支,暫無統(tǒng)一的衡量標(biāo)準(zhǔn)或檢定規(guī)程對(duì)其進(jìn)行計(jì)量校準(zhǔn)。 生產(chǎn)廠家提供的傳統(tǒng)定位誤差檢測(cè)方法有兩種:一是采用偏差標(biāo)記框,在不同位置測(cè)試被檢系統(tǒng)的定位中心是否位于框內(nèi),僅能夠定性判斷系統(tǒng)合格與否。 二是利用圖像處理技術(shù)在聲相云圖上提取目標(biāo),與實(shí)際位置對(duì)比得到定位誤差[11],一定程度上提高了檢測(cè)效率和精度,但難以提取復(fù)雜背景環(huán)境中的目標(biāo)對(duì)象。
語義分割算法將圖像中不同類型的對(duì)象進(jìn)行語義信息標(biāo)注,可在復(fù)雜背景中識(shí)別出不同對(duì)象。 完全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)[12]的提出,促進(jìn)了深度學(xué)習(xí)語義分割模型的迅速發(fā)展,基于編碼器- 解碼器結(jié)構(gòu)的U-net、 SegNet 和DeepLab 系列網(wǎng)絡(luò)被廣泛應(yīng)用于醫(yī)學(xué)圖像處理、空間機(jī)器人、自動(dòng)駕駛等領(lǐng)域[13]。 其中DeepLabv3+網(wǎng)絡(luò)將深度可分離卷積添加到空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)和解碼器模塊中,提高了網(wǎng)絡(luò)的運(yùn)行速率和魯棒性,達(dá)到了目前最佳的分割效果。
本文以DeepLabv3+網(wǎng)絡(luò)為基礎(chǔ),增加通道注意力機(jī)制模塊,并結(jié)合幾何推導(dǎo)法提出了一種基于改進(jìn)DeepLabv3+網(wǎng)絡(luò)的鳴笛監(jiān)測(cè)系統(tǒng)定位誤差檢測(cè)方法。 將聲源定位結(jié)果分為橫向定位誤差與縱向定位誤差兩個(gè)指標(biāo),在室外道路上對(duì)動(dòng)靜態(tài)定位誤差檢測(cè)方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。
定位誤差定義為鳴笛監(jiān)測(cè)系統(tǒng)標(biāo)記的偽彩圖中心位置與鳴笛聲源中心位置平行于路面的誤差,此誤差包括垂直于車輛行進(jìn)方向的誤差及平行于車輛行進(jìn)方向的誤差,分別為橫向定位誤差和縱向定位誤差,如圖1 所示。
圖1 定位誤差示意圖
如圖1 所示,以鳴笛監(jiān)測(cè)系統(tǒng)的攝像頭到路面的豎直投影點(diǎn)為原點(diǎn)Ow,道路的橫向方向?yàn)閤軸,縱向方向?yàn)閥軸,建立直角坐標(biāo)系Owxwyw,S(X0,Y0)為鳴笛聲源的實(shí)際位置坐標(biāo),P(X1,Y1)為偽彩圖中心位置的世界坐標(biāo)。 則鳴笛監(jiān)測(cè)系統(tǒng)的橫向定位誤差定義為:
縱向定位誤差定義為:
2020 年中國(guó)計(jì)量科學(xué)研究院等單位起草的《機(jī)動(dòng)車?guó)Q笛監(jiān)測(cè)系統(tǒng)檢定規(guī)程》送審稿中規(guī)定:鳴笛監(jiān)測(cè)系統(tǒng)對(duì)聲源的橫向定位誤差不應(yīng)超過0.6 m,縱向定位誤差不應(yīng)超過1.5 m。
對(duì)鳴笛監(jiān)測(cè)系統(tǒng)生成的聲相云圖進(jìn)行算法處理,計(jì)算其Err(x)和Err(y),主要分為兩個(gè)步驟:一是運(yùn)用訓(xùn)練好的網(wǎng)絡(luò)模型預(yù)測(cè)聲相云圖,對(duì)鳴笛聲源與偽彩圖進(jìn)行識(shí)別分割,獲取兩者的預(yù)測(cè)像素點(diǎn)所占區(qū)域,采用加權(quán)平均的方法分別將像素橫縱坐標(biāo)累加求均值,得到鳴笛聲源和偽彩圖的中心像素坐標(biāo)。 二是結(jié)合相機(jī)參數(shù)和鳴笛監(jiān)測(cè)系統(tǒng)的安裝參數(shù),通過幾何關(guān)系將聲相云圖中的像素坐標(biāo)換算為對(duì)應(yīng)的世界坐標(biāo),進(jìn)而通過式(1)、式(2)計(jì)算Err(x)及Err(y)。 檢測(cè)方法的流程如圖2 所示。
圖2 檢測(cè)方法流程圖
DeepLabv3+在DeepLabv3 的基礎(chǔ)上添加一個(gè)解碼器模塊,使網(wǎng)絡(luò)沿對(duì)象邊緣的分割效果有明顯的提升。 并在編碼器部分引入了空洞卷積,加大感受野,豐富了每個(gè)卷積的輸出信息[14-15]。 然而,在模型分割過程中,DeepLabv3+對(duì)目標(biāo)區(qū)域及特征沒有側(cè)重學(xué)習(xí),容易漏檢感興趣的區(qū)域,而聲相云圖中鳴笛聲源與偽彩圖所占的像素范圍極為接近,不易分割。 因此,本文在主干特征提取網(wǎng)絡(luò)和ASPP 模塊之間添加了通道注意力機(jī)制模塊[16]。 該模塊可對(duì)特征圖中的不同通道賦予不同的權(quán)重,增加通道間的差異,并通過全局最大池化和全連接層等獲取相應(yīng)通道的權(quán)值特征,提高特征提取精度。 另外,本文需要分割的類別僅有聲源、偽彩圖及背景三種,故將主干網(wǎng)絡(luò)由傳統(tǒng)的Xception 更換為MobileNetV2,兩者均使用深度可分離卷積,而MobileNetV2 大大減少了參數(shù)量[17],并且使用ReLU6 激活函數(shù)保證網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)值分辨力,改進(jìn)的DeepLabv3+網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 改進(jìn)DeepLabv3+網(wǎng)絡(luò)
將鳴笛監(jiān)測(cè)系統(tǒng)在不同情況下抓拍的聲相云圖作為數(shù)據(jù)集(圖4),分辨率均為640×480。 選取500張圖片,使用LabelMe 軟件將其整理為VOC 格式。隨機(jī)選取數(shù)據(jù)集中350 張圖片用作訓(xùn)練集,75 張用作驗(yàn)證集,75 張用作測(cè)試集。
圖4 數(shù)據(jù)集中的聲相云圖
本文在深度學(xué)習(xí)框架Keras 環(huán)境下完成網(wǎng)絡(luò)的訓(xùn)練和測(cè)試,編程語言為python3.6,使用Intel(R)Core(TM)i7-8700 處理器,NVIDIA GeForce RTX 2060 顯 卡, 在 Windows10 操 作 系 統(tǒng) 下 運(yùn) 用CUDA10.0 與cuDNN7.4 加速改進(jìn)DeepLabv3+網(wǎng)絡(luò)訓(xùn)練。 模型收斂后,調(diào)用生成的權(quán)重文件對(duì)測(cè)試集圖片進(jìn)行測(cè)試,對(duì)測(cè)試圖片中的目標(biāo)物體進(jìn)行劃分并用不同顏色標(biāo)記,圖5 為實(shí)際測(cè)試效果。
圖5 改進(jìn)DeepLabv3+算法的定位結(jié)果
本文使用平均交并比(Mean Intersection over Union,mIoU)和平均像素精度(Mean Pixel Accuracy,mPA)作為模型的性能評(píng)價(jià)指標(biāo),具體公式如下:式中:k表示像素分類類別,Pii表示屬于i類被預(yù)測(cè)為i類的像素總數(shù),Pij表示屬于i類被誤判為j類的像素?cái)?shù)量,Pji表示屬于j類被誤判為i類的像素?cái)?shù)量。 式(3)得到各類別預(yù)測(cè)值與真實(shí)值之間重合度的均值,式(4)得到各類別被正確分類的像素?cái)?shù)量所占比例的均值。
將測(cè)試集的圖片輸入DeepLabv3+和增加注意力機(jī)制的改進(jìn)DeepLabv3+網(wǎng)絡(luò)模型,并計(jì)算其mIoU 和mPA,結(jié)果如表1 所示。
表1 改進(jìn)前后性能對(duì)比 單位:%
改進(jìn)DeepLabv3+算法較原始DeepLabv3+算法有更優(yōu)秀的表現(xiàn),mIoU 為87.82%,mPA 為93.85%。在各個(gè)類別的分割精度方面,改進(jìn)DeepLabv3+算法對(duì)偽彩圖的分割效果最優(yōu),IoU 可達(dá)83.12%,提升了5.7%。
鳴笛監(jiān)測(cè)系統(tǒng)安裝好后,其相機(jī)參數(shù)(水平視場(chǎng)角β、垂直視場(chǎng)角θ)、安裝參數(shù)(俯仰角α、安裝高度H)可測(cè)量標(biāo)定獲得,如圖6 所示。
圖6 鳴笛監(jiān)測(cè)系統(tǒng)參數(shù)示意圖
通過幾何推導(dǎo)法,得到像素坐標(biāo)與世界坐標(biāo)的映射關(guān)系[18],可將聲相云圖中的像素坐標(biāo)轉(zhuǎn)換為世界坐標(biāo)系下平行路面的坐標(biāo),以偽彩圖中心坐標(biāo)為例,原理如圖7 所示。
圖7 幾何轉(zhuǎn)換原理
已知鳴笛監(jiān)測(cè)系統(tǒng)的安裝參數(shù)和相機(jī)參數(shù)后,根據(jù)攝像頭的垂直視場(chǎng)角θ設(shè)定步進(jìn)小角度Δθ,可表示為:
式中:height 為聲相云圖的像素高度,y1為聲相云圖
中偽彩圖中心的縱坐標(biāo)值。 由此可得到Owxwyw坐標(biāo)系中的偽彩圖中心縱坐標(biāo)為:
定義Xmax為鳴笛監(jiān)測(cè)系統(tǒng)在距離Y1處對(duì)應(yīng)的實(shí)際水平視野寬度,如圖7(a)所示,其計(jì)算方式為:
式中:OwP可根據(jù)相似三角形經(jīng)簡(jiǎn)單運(yùn)算后求得,則Owxwyw坐標(biāo)系中的偽彩圖中心橫坐標(biāo)為:
式中:width 為聲相云圖的像素寬度,x1為聲相云圖中目標(biāo)點(diǎn)的橫坐標(biāo)值。 綜上,偽彩圖中心像素坐標(biāo)P(x1,y1)得以轉(zhuǎn)換為對(duì)應(yīng)的世界坐標(biāo)P(X1,Y1)。此外,在實(shí)際應(yīng)用場(chǎng)景中,鳴笛聲源往往距離地面有一定的高度,此時(shí)需要通過相似三角形原理計(jì)算出鳴笛聲源高度為h時(shí)的偽彩圖中心的世界坐標(biāo)P(X′,Y′)。
為研究鳴笛監(jiān)測(cè)系統(tǒng)在實(shí)際使用過程中的定位性能,設(shè)計(jì)鳴笛聲源分別在固定位置及運(yùn)動(dòng)狀態(tài)下開展實(shí)驗(yàn)。 實(shí)驗(yàn)系統(tǒng)如圖8(a)、8(b)所示,包括鳴笛監(jiān)測(cè)系統(tǒng)、鳴笛聲源、聲源支架、工具車和計(jì)算機(jī)等。 聲源頻率為3.18 kHz。
在室外道路上,將鳴笛監(jiān)測(cè)系統(tǒng)安裝于6.5 m的支撐桿上,在鳴笛監(jiān)測(cè)系統(tǒng)的視野范圍內(nèi)設(shè)置12個(gè)位置,如圖8(c)所示。 將鳴笛聲源固定于高0.6 m 的支撐架上,模擬汽車?yán)鹊母叨?,分別放置在各個(gè)位置上,依次鳴笛獲取定位數(shù)據(jù)。
圖8 定位誤差檢測(cè)實(shí)驗(yàn)
將聲相云圖送入改進(jìn)DeepLabv3+模型進(jìn)行預(yù)測(cè),獲得圖像中鳴笛聲源和偽彩圖所占的像素位置,再分別求取中心坐標(biāo),最后根據(jù)幾何推導(dǎo)法轉(zhuǎn)換為世界坐標(biāo),計(jì)算鳴笛監(jiān)測(cè)系統(tǒng)的Err(x)及Err(y)。將本文方法計(jì)算所得的結(jié)果與實(shí)際定位誤差對(duì)比,結(jié)果如圖9 所示。
圖9 本文方法與實(shí)際靜態(tài)定位誤差對(duì)比
由圖9 可知,本文方法求得的定位誤差與實(shí)際定位誤差對(duì)比差異較小,兩者Err(x)的差值和Err(y)的差值均在12 號(hào)位置處最大,分別為0.09 m和0.17 m。 在距離鳴笛監(jiān)測(cè)系統(tǒng)7.8 m ~16.8 m,橫向?qū)挾? m 的范圍內(nèi),本文方法能夠滿足聲源定位誤差檢測(cè)精度要求。
為檢測(cè)鳴笛監(jiān)測(cè)系統(tǒng)的動(dòng)態(tài)定位誤差,使用工具車搭載鳴笛聲源以30 km/h 的速度面向鳴笛監(jiān)測(cè)系統(tǒng)運(yùn)動(dòng),在經(jīng)過上述12 個(gè)位置點(diǎn)(圖8(c))的同時(shí)控制鳴笛聲源工作,觸發(fā)鳴笛監(jiān)測(cè)系統(tǒng)對(duì)其進(jìn)行抓拍,保存聲成像視頻,提取對(duì)應(yīng)幀圖像后運(yùn)用本文方法計(jì)算每個(gè)位置點(diǎn)的動(dòng)態(tài)定位誤差,與實(shí)際的定位誤差比較,結(jié)果如圖10 所示。
圖10 本文方法與實(shí)際動(dòng)態(tài)定位誤差對(duì)比
圖10 中將本文方法計(jì)算的動(dòng)態(tài)定位誤差求取平均值和標(biāo)準(zhǔn)差,作誤差棒圖。 與實(shí)際定位誤差對(duì)比,本文方法對(duì)動(dòng)態(tài)橫向定位誤差檢測(cè)結(jié)果與真實(shí)值的差值最大為0.1 m,標(biāo)準(zhǔn)差為0.05 m;對(duì)動(dòng)態(tài)縱向定位誤差檢測(cè)結(jié)果與真實(shí)值的差值最大為0.35 m,標(biāo)準(zhǔn)差為0.14 m,本文方法能夠滿足現(xiàn)場(chǎng)檢測(cè)要求且具有一定的穩(wěn)定性。
為進(jìn)一步研究鳴笛監(jiān)測(cè)系統(tǒng)對(duì)于不同運(yùn)動(dòng)方向聲源的抓拍能力,在圖8(c)的5 號(hào)~8 號(hào)位置點(diǎn)處,分別使鳴笛聲源以10 km/h、20 km/h 以及30 km/h的速度相對(duì)鳴笛監(jiān)測(cè)系統(tǒng)做運(yùn)動(dòng),經(jīng)本文方法計(jì)算Err(x)及Err(y),將結(jié)果進(jìn)行對(duì)比,如圖11 所示。
由圖11 可知,在不同的運(yùn)動(dòng)方向下,Err(x)的差異最大值為0.12 m。 Err(y)差異較大,具體表現(xiàn)為聲源靠近鳴笛監(jiān)測(cè)系統(tǒng)時(shí)的Err(y)為聲源遠(yuǎn)離時(shí)的21%~67%,且不同方向的定位誤差結(jié)果不同,聲源靠近鳴笛監(jiān)測(cè)系統(tǒng)時(shí),定位距離比實(shí)際距離大,聲源遠(yuǎn)離時(shí)比實(shí)際距離小。 這是由于聲源置于工具車前部,遠(yuǎn)離鳴笛監(jiān)測(cè)系統(tǒng)鳴笛時(shí),聲波經(jīng)過車體一系列吸收、反射后被傳聲器陣列接收,影響定位性能。
圖11 不同運(yùn)動(dòng)方向定位誤差對(duì)比
本文將語義分割算法應(yīng)用到聲相云圖中聲源和偽彩圖的識(shí)別定位,并結(jié)合幾何關(guān)系推導(dǎo)演算,提出了一種基于改進(jìn)DeepLabv3+的定位誤差檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,改進(jìn)DeepLabv3+網(wǎng)絡(luò)對(duì)聲相云圖的背景有更強(qiáng)的抗干擾能力,運(yùn)用本文方法對(duì)鳴笛監(jiān)測(cè)系統(tǒng)進(jìn)行定位誤差檢測(cè),在聲源固定的情況下,與真實(shí)值的最大誤差為0.17 m。 對(duì)動(dòng)態(tài)定位誤差檢測(cè)的最大引入誤差為0.35 m,能夠滿足鳴笛監(jiān)測(cè)系統(tǒng)定位誤差檢測(cè)精度要求。
本文對(duì)鳴笛監(jiān)測(cè)系統(tǒng)的動(dòng)靜態(tài)定位誤差進(jìn)行研究,而空間分辨力等其他參數(shù),涉及多個(gè)聲源同時(shí)鳴笛的情況,將在后續(xù)的研究工作中開展。