吳丙芳, 葉 兵, 汪仕銘
(合肥工業(yè)大學(xué) 電子科學(xué)與應(yīng)用物理學(xué)院,安徽 合肥 230601)
近年來隨著國民經(jīng)濟(jì)的快速發(fā)展和城鎮(zhèn)居民生活水平的提高,機(jī)動(dòng)車的數(shù)量也在快速增加。《中國機(jī)動(dòng)車環(huán)境管理年報(bào)(2018)》顯示:我國機(jī)動(dòng)車保有量達(dá)到3.1×108輛,機(jī)動(dòng)車污染物排放總量已達(dá)到4×104t。機(jī)動(dòng)車排放已成為PM2.5的首要來源,是造成細(xì)顆粒物污染的重要原因[1]。機(jī)動(dòng)車排氣污染監(jiān)測(cè)主要有定期環(huán)檢、道路抽檢等方式,需要投入大量的人力物力,難以實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè)。為了解決目前機(jī)動(dòng)車黑煙監(jiān)測(cè)中存在的問題,基于道路監(jiān)控視頻的機(jī)動(dòng)車黑煙識(shí)別方案應(yīng)運(yùn)而生。因而對(duì)行駛中的機(jī)動(dòng)車進(jìn)行黑煙識(shí)別具有重大的現(xiàn)實(shí)意義。
基于道路視頻的機(jī)動(dòng)車黑煙監(jiān)控技術(shù)仍然處于起步階段。文獻(xiàn)[2]采用一種可見光相機(jī)和遠(yuǎn)紅外相機(jī)相結(jié)合的方法來檢測(cè)黑煙,但是通過在紅外相機(jī)中尋找熱點(diǎn)并不能有效地定位排氣管,并且準(zhǔn)確融合可見光圖像和紅外圖像也是一個(gè)難點(diǎn)。文獻(xiàn)[3-4]設(shè)計(jì)黑煙的運(yùn)動(dòng)、顏色、形狀、紋理等視覺特征,將黑煙特征輸入到分類器中完成分類識(shí)別。相比常規(guī)方法,深度神經(jīng)網(wǎng)絡(luò)方法實(shí)現(xiàn)了從原始圖片到分類結(jié)果端到端的學(xué)習(xí),對(duì)圖像具有極強(qiáng)的數(shù)據(jù)表征能力,具有適應(yīng)性好、抗干擾能力強(qiáng)的特點(diǎn),已廣泛應(yīng)用于醫(yī)療、軍事、人臉識(shí)別和行為識(shí)別等領(lǐng)域[5-9]。
基于圖像處理技術(shù)的黑煙車識(shí)別難度主要體現(xiàn)在:① 機(jī)動(dòng)車尾氣黑煙的形態(tài)多樣,沒有固定形式;② 尾氣黑煙的邊緣和區(qū)域不規(guī)則變化;③ 尾氣輕煙與濃烈黑煙表現(xiàn)出來的特征差異較大。為了解決以上難點(diǎn),本文提出一種基于雙流卷積神經(jīng)網(wǎng)絡(luò)(two-stream convolutional neural networks,Two-Stream CNN)模型的機(jī)動(dòng)車黑煙識(shí)別方法。
在道路上方架設(shè)了監(jiān)控方向與車輛行駛方向相同的攝像機(jī)來獲取道路交通視頻。在視頻中,對(duì)視頻每幀不進(jìn)行預(yù)處理直接進(jìn)行黑煙識(shí)別判斷會(huì)導(dǎo)致黑煙識(shí)別率下降且算法復(fù)雜度高,難以滿足實(shí)際應(yīng)用中的實(shí)時(shí)性要求。本文先對(duì)監(jiān)控視頻進(jìn)行預(yù)處理獲取候選黑煙區(qū)域,然后針對(duì)候選黑煙區(qū)域進(jìn)行黑煙特征判斷,既能降低算法復(fù)雜度又能去除某些干擾物體。進(jìn)而通過背景建模提取運(yùn)動(dòng)前景,使用一定的規(guī)則進(jìn)行車輛判斷;最后在運(yùn)動(dòng)車輛上進(jìn)行霍夫直線檢測(cè),找到車輛尾部的直線即可定位候選黑煙區(qū)域。
車輛檢測(cè)是進(jìn)行黑煙車檢測(cè)的基礎(chǔ),目前準(zhǔn)確、魯棒的車輛檢測(cè)仍然是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[10-11]。綜合考慮常用背景模型算法準(zhǔn)確率和復(fù)雜度,本文機(jī)動(dòng)車視頻的分辨率為1 024×768,采用Vibe背景模型提取運(yùn)動(dòng)前景,得到運(yùn)動(dòng)前景最小外接矩形的長和寬分別為Rh和Rw。然后根據(jù)運(yùn)動(dòng)前景的長度、寬度以及長寬比Rhw判斷該運(yùn)動(dòng)前景是否為機(jī)動(dòng)車。邏輯判斷公式為:
(1)
其中:L1為機(jī)動(dòng)車的最小長度;L2為機(jī)動(dòng)車的最小寬度;[δ1,δ2]為機(jī)動(dòng)車邊界框長寬比的變化范圍。本文中L1、L2的大小分別為30和50個(gè)像素點(diǎn),δx取1.5,δy取5,L1、L2、δ1、δ2均為可調(diào)節(jié)的經(jīng)驗(yàn)值。根據(jù)車輛判別(1)式最終判斷出該運(yùn)動(dòng)前景是否為機(jī)動(dòng)車。
機(jī)動(dòng)車車身外形結(jié)構(gòu)有2個(gè)特點(diǎn):① 車廂絕大多數(shù)為立方體結(jié)構(gòu),車尾呈直線形狀;② 排氣管出口分布在機(jī)動(dòng)車尾部。因此,本文對(duì)每個(gè)機(jī)動(dòng)車圖像按如下方法進(jìn)行黑煙區(qū)域提取。首先在圖像上使用霍夫變換方法進(jìn)行直線檢測(cè),然后在檢測(cè)到的直線中,按規(guī)則確定車尾邊界直線信息,從而定位候選黑煙區(qū)域邊界框。
霍夫變換是一種通過計(jì)算圖像邊緣像素的梯度信息來檢測(cè)直線的有效方法。在傳統(tǒng)霍夫變換中,直線的極坐標(biāo)方程為:
ρ=xcosθ+ysinθ
(2)
由(2)式可以看出它是2個(gè)直線參數(shù)ρ和θ的霍夫變換。ρ為原點(diǎn)與直線的距離,稱作極徑;θ為直線垂線與x軸的角度,稱作極角,θ∈[-90°,90°]。首先建立二維參數(shù)ρ、θ的離散數(shù)組累加器A[ρ,θ],然后找到累加器峰值A(chǔ)[ρw,θw],其中ρw、θw是共線點(diǎn)最多的直線參數(shù)。
考慮到機(jī)動(dòng)車車尾直線一般接近水平直線,本文采取縮小θ取值范圍的方法來提高檢測(cè)效率。根據(jù)不同車輛的大量實(shí)驗(yàn),取θ∈[-90°,-75°]∪[75°,90°]在機(jī)動(dòng)車圖像上進(jìn)行直線檢測(cè)。將檢測(cè)到的直線作為候選直線,在候選直線中查找最接近車尾邊界的直線。機(jī)動(dòng)車車尾邊框位于機(jī)動(dòng)車圖像的最底部,因此本文選擇與原點(diǎn)距離最短的直線ρD作為目標(biāo)直線,即
ρD=min(ρ1,ρ2,…,ρk)
(3)
其中:ρD為目標(biāo)直線的極徑;ρk為候選直線的極徑。
檢測(cè)到車尾直線后,則可得到候選黑煙區(qū)域,如圖1所示。其中:外矩形為車輛目標(biāo)的邊緣矩形;中部直線為檢測(cè)到的車尾直線;內(nèi)矩形代表候選黑煙區(qū)域。
圖1 部分候選黑煙區(qū)域提取結(jié)果
當(dāng)人們觀察運(yùn)動(dòng)物體時(shí),視網(wǎng)膜上會(huì)形成物體一系列連續(xù)變化的圖像,這一連續(xù)變化的圖像包含了目標(biāo)的運(yùn)動(dòng)信息,它們好像光的“流”一樣不斷“流過”視網(wǎng)膜,故稱之為光流。光流法是一種非常經(jīng)典的運(yùn)動(dòng)估計(jì)方法。它通過相鄰視頻幀中像素的對(duì)應(yīng)關(guān)系來估計(jì)2張圖像的位移場(chǎng)。對(duì)于機(jī)動(dòng)車黑煙識(shí)別,機(jī)動(dòng)車排放的黑煙有一定的動(dòng)態(tài)特征,黑煙會(huì)伴隨著機(jī)動(dòng)車的行駛和風(fēng)向在空氣中擴(kuò)散,有擴(kuò)散性和不規(guī)則性的特點(diǎn)。在機(jī)動(dòng)車黑煙視頻中使用光流法能夠計(jì)算得到每個(gè)像素點(diǎn)的運(yùn)動(dòng)速度和運(yùn)動(dòng)方向,將目標(biāo)的運(yùn)動(dòng)信息用圖片的方式表示出來就是光流圖片。
本文采用了Opencv工具箱中比較常用的Lucas-Kanade光流算法。假設(shè)條件為:① 亮度恒定,即同一點(diǎn)在相鄰2幀里的亮度不變;② 小運(yùn)動(dòng),即相鄰幀之間同一個(gè)點(diǎn)的位置不會(huì)劇烈變化,據(jù)此灰度才能對(duì)位置求偏導(dǎo);③ 空間一致,一個(gè)場(chǎng)景上鄰近的點(diǎn)投影到圖像上也是鄰近點(diǎn),且鄰近點(diǎn)速度一致。圖像的約束方程為:
I(x,y,z,t)=I(x+Δx,y+Δy,z+Δz,t+Δt)
(4)
其中,I(x,y,z,t)為圖像在點(diǎn)(x,y,z,t)的像素強(qiáng)度。經(jīng)過以上過程由原始視頻幀得到候選黑煙區(qū)域和光流圖如圖2所示。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)區(qū)別于傳統(tǒng)手工設(shè)計(jì)物體特征的方法,可以實(shí)現(xiàn)從原始圖片到分類結(jié)果端到端的學(xué)習(xí),更加有效地提取物體的深度特征。通過增加深度網(wǎng)絡(luò)的層數(shù)可以在一定程度上提高網(wǎng)絡(luò)的性能,然而一味增加深度會(huì)造成梯度消失或梯度爆炸,致使網(wǎng)絡(luò)無法訓(xùn)練。如圖3所示,深度殘差神經(jīng)網(wǎng)絡(luò)(ResNet)[12]由多個(gè)殘差學(xué)習(xí)單元組合而成,這種模塊加入了直連通道,網(wǎng)絡(luò)輸入可以繞過網(wǎng)絡(luò)學(xué)習(xí)直接傳輸?shù)骄W(wǎng)絡(luò)輸出,它有效地解決了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中的這種問題。整個(gè)模塊的輸入為x,經(jīng)過2個(gè)卷積層W1、W2運(yùn)算后輸出為F(x,W1,W2),采用Relu激活函數(shù)后整個(gè)模塊的輸出y為:
y=F(x,W1,W2)+Wsx
(5)
其中:W1、W2為2個(gè)卷積層的權(quán)重參數(shù);Ws為將x從輸入維度變成輸出維度的矩陣。
圖3 殘差學(xué)習(xí)模塊
視頻內(nèi)容可以分解為空間信息成分和時(shí)間信息成分??臻g信息是指每幀圖片中的背景和前景的空間分布信息;時(shí)間信息是指幀與幀中之間對(duì)應(yīng)點(diǎn)的變化關(guān)系信息。為了讓網(wǎng)絡(luò)模型更具有特征學(xué)習(xí)能力,本文提出一種雙流卷積網(wǎng)絡(luò)結(jié)構(gòu),模型由空間流網(wǎng)絡(luò)和時(shí)間流網(wǎng)絡(luò)組成,如圖4所示。在空間流網(wǎng)絡(luò)中,以候選黑煙區(qū)域的RGB圖片為輸入信息,采用深度殘差網(wǎng)絡(luò)ResNet-50提取尾氣黑煙的空間特征;在時(shí)間流網(wǎng)絡(luò)中以尾氣黑煙的光流圖為輸入信息,同樣采用ResNet-50網(wǎng)絡(luò)提取尾氣黑煙的時(shí)間特征。ResNet-50包含了49個(gè)卷積層和1個(gè)全連接層,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。空間流網(wǎng)絡(luò)的Softmax輸出可以表示為:
Sspatial=F(X,W)
(6)
其中:X為從黑煙視頻幀中計(jì)算得到的黑煙圖像;W為深度殘差網(wǎng)絡(luò)對(duì)應(yīng)的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),通過優(yōu)化W的值來提取黑煙空間特征;F(X,W)為空間流網(wǎng)絡(luò)的輸出結(jié)果。同理,時(shí)間流網(wǎng)絡(luò)的Softmax輸出可以表示為:
Stemporal=F(Y,W)
(7)
其中,Y為空間流中黑煙圖像所對(duì)應(yīng)的光流圖。本文參考文獻(xiàn)[13]將2個(gè)網(wǎng)絡(luò)流的Softmax輸出進(jìn)行均值融合,最后雙流網(wǎng)絡(luò)的輸出結(jié)果為:
(8)
圖4 黑煙檢測(cè)雙流卷積神經(jīng)網(wǎng)絡(luò)模型
圖5 ResNet-50網(wǎng)絡(luò)結(jié)構(gòu)
目前還沒有統(tǒng)一的標(biāo)準(zhǔn)視頻黑煙數(shù)據(jù)集。為了驗(yàn)證本文所提出算法的普適性,收集了安徽、江西、廣東、河南等5個(gè)省份22個(gè)路口的監(jiān)控視頻。視頻由龍門架或固定桿件上的監(jiān)控?cái)z像機(jī)拍攝,包含了各種車型,覆蓋了各個(gè)季節(jié)、天氣、光照等環(huán)境條件,可以充分代表國內(nèi)各個(gè)路口的道路情況??偣菜鸭?32輛日間黑煙車樣本視頻,部分黑煙樣本如圖6所示。
圖6 黑煙樣本
根據(jù)拍攝到的機(jī)動(dòng)車視頻,本文建立了空間流數(shù)據(jù)集和時(shí)間流數(shù)據(jù)集??臻g流數(shù)據(jù)集包含正負(fù)樣本各17 500幅圖像,其中黑煙圖片是有煙的機(jī)動(dòng)車視頻中提取的候選黑煙區(qū)域圖片,無煙圖片是從無煙機(jī)動(dòng)車數(shù)據(jù)集中提取的候選黑煙區(qū)域圖片。隨機(jī)選擇80%作為訓(xùn)練集,余下的20%作為測(cè)試集。時(shí)間流數(shù)據(jù)集同樣包含正負(fù)樣本各17 500幅光流圖片,光流圖片由空間流數(shù)據(jù)集中相鄰幀的圖片計(jì)算得到。隨機(jī)選擇80%作為訓(xùn)練集,20%作為測(cè)試集。
本文通過以下幾組實(shí)驗(yàn)來驗(yàn)證所述雙流網(wǎng)絡(luò)框架的有效性:① 使用未提取候選黑煙區(qū)域的原始RGB視頻幀訓(xùn)練ResNet-50模型;② 使用提取的黑煙候選RGB圖片訓(xùn)練ResNet-50網(wǎng)絡(luò)模型;③ 使用候選黑煙圖片的光流圖訓(xùn)練ResNet-50網(wǎng)絡(luò)模型;④ 使用候選黑煙圖片和光流圖片訓(xùn)練雙流卷積神經(jīng)網(wǎng)絡(luò)模型。
文中模型的初始化權(quán)重均是由ImageNet數(shù)據(jù)集預(yù)訓(xùn)練得到,然后使用黑煙訓(xùn)練集微調(diào)網(wǎng)絡(luò)模型,大大減少了訓(xùn)練時(shí)間,促進(jìn)模型更快收斂。網(wǎng)絡(luò)訓(xùn)練的批大小設(shè)置為128,初始學(xué)習(xí)率為0.1,沖量設(shè)置為10-4。整個(gè)訓(xùn)練回?cái)?shù)設(shè)置為60,學(xué)習(xí)率每20個(gè)回合進(jìn)行10倍衰減。黑煙測(cè)試集分別包括3 500張黑煙圖片和3 500張非黑煙圖片,各個(gè)模型在測(cè)試集的準(zhǔn)確率見表1所列。
表1 不同實(shí)驗(yàn)的識(shí)別結(jié)果 單位:%
從表1可以看出,ResNet-50模型對(duì)于原始RGB圖片的黑煙識(shí)別率和非黑煙識(shí)別率都很低,而對(duì)候選區(qū)域RGB圖片識(shí)別較高,說明道路環(huán)境背景對(duì)黑煙識(shí)別有很大的影響,通過運(yùn)動(dòng)目標(biāo)檢測(cè)提取候選黑煙區(qū)域可以大大減少背景對(duì)模型的干擾。ResNet-50模型對(duì)光流圖的識(shí)別率也高于原始RGB圖片,但是比候選區(qū)域圖片差。這是由于黑煙光流圖片只有黑煙的運(yùn)動(dòng)特征和一定的空間特征,缺少了黑煙RGB圖片中的紋理和顏色等信息,導(dǎo)致單純用光流圖的黑煙識(shí)別效果并不是很好。本文的Two-Stream CNN網(wǎng)絡(luò)模型同時(shí)融合了黑煙圖片和光流圖片的信息,從而提高了黑煙檢測(cè)的準(zhǔn)確率。
將本文算法與現(xiàn)有文獻(xiàn)中的算法進(jìn)行對(duì)比,結(jié)果見表2所列。由表2可知,本文提出的Two-Stream CNN模型相比傳統(tǒng)的手工特征和原始的雙流神經(jīng)網(wǎng)絡(luò)[14]效果都有不同程度提升,表明了本模型能更好地檢測(cè)出機(jī)動(dòng)車黑煙行為。
表2 不同算法的識(shí)別準(zhǔn)確率對(duì)比 單位:%
本文提出了一種基于時(shí)空雙流卷積神經(jīng)網(wǎng)絡(luò)的方法Two-Stream CNN來完成視頻中的機(jī)動(dòng)車黑煙識(shí)別任務(wù)。Two-Stream CNN充分利用了視頻的空間維度和時(shí)間維度信息,且不需要人工設(shè)計(jì)機(jī)動(dòng)車黑煙視覺特征。實(shí)驗(yàn)結(jié)果表明,本文提出的機(jī)動(dòng)車黑煙檢測(cè)算法具有很好的效果,為道路機(jī)動(dòng)車排污監(jiān)控打下了基礎(chǔ),有利于推進(jìn)機(jī)動(dòng)車黑煙監(jiān)控的信息化和智能化。