王盼盼,李玉惠
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué) 信息工程與自動(dòng)化綜合實(shí)驗(yàn)室, 云南 昆明 650500)
車輛重識(shí)別技術(shù)旨在從不同的拍攝場(chǎng)景中識(shí)別出相同的車輛,是智能視頻監(jiān)控研究領(lǐng)域的重要分支,近年來(lái), 監(jiān)控視頻中車輛重識(shí)別問(wèn)題引起了廣大科研人員的興趣并對(duì)其進(jìn)行了相應(yīng)的研究。監(jiān)控視頻中攝像頭拍攝時(shí)存在著光照變化、視角變化以及攝像機(jī)自身屬性的問(wèn)題,導(dǎo)致同一目標(biāo)的車輛圖像的角度、顏色和輪廓等特征差別較大, 使得車輛重識(shí)別問(wèn)題遇到了很大的挑戰(zhàn)。為了解決這些問(wèn)題,研究者們提出了許多方法,大致可分為目標(biāo)特征的匹配法和機(jī)器學(xué)習(xí)的方法。
目標(biāo)特征匹配方法的主要目的是提取對(duì)不同車輛具有區(qū)分性和對(duì)視角、光照具有魯棒性的描述特征,利用這些提取的特征來(lái)直接或間接度量車輛圖像之間的相似度。文獻(xiàn)[1]將HSV顏色直方圖、RGB顏色直方圖和圖像塊LBP特征進(jìn)行組合,并使用PCA降維得到最后的特征描述子。文獻(xiàn)[2]將圖像進(jìn)行水平分塊,隨后提取每個(gè)小塊的HSV、RGB、YCbCr顏色直方圖和Schinidt、Gabor紋理特征進(jìn)行識(shí)別。文獻(xiàn)[3]提出了一種同一攝像機(jī)下已有圖像與示例圖像之間的圖像邊緣特征向量,然后用不同攝像機(jī)下相同車輛與不同車輛的特征向量來(lái)建立分類器。文獻(xiàn)[4]將重識(shí)別問(wèn)題轉(zhuǎn)化為計(jì)算目標(biāo)圖像和候選圖像之間的距離度量問(wèn)題。文獻(xiàn)[5]利用相同與不同車輛圖像子區(qū)域的位置信息,邊緣差異等特征來(lái)訓(xùn)練分類器。文獻(xiàn)[6]利用二維Gabor小波提取空間局部特性。目標(biāo)特征匹配法的優(yōu)點(diǎn)是方法原理比較簡(jiǎn)單,但其缺點(diǎn)也顯而易見(jiàn),對(duì)光照、視角的變化所帶來(lái)的圖像特征的變化沒(méi)有很好的魯棒性。
機(jī)器學(xué)習(xí)的方法用于車輛的重識(shí)別的一個(gè)重要分支是深度學(xué)習(xí),其基本思想是:訓(xùn)練一種多層的神經(jīng)網(wǎng)絡(luò)來(lái)解決由于光照、視角變化而引起的識(shí)別率低的問(wèn)題。如Ahmed等[7]提出的深層卷積結(jié)構(gòu)能夠同時(shí)實(shí)現(xiàn)訓(xùn)練圖片的特征的提取和相應(yīng)的相似性測(cè)度函數(shù)學(xué)習(xí)。文獻(xiàn)[8]使用簡(jiǎn)單的顏色直方圖特征,利用目標(biāo)圖像對(duì)訓(xùn)練相對(duì)距離比較模型,該模型可以使真正匹配對(duì)間的距離小于誤匹配對(duì)間的距離,從而具有較高的匹配率?;谏疃葘W(xué)習(xí)車輛重識(shí)別雖然不需要人工提取車輛的特征,但需要大量車輛圖片信息用于神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練,且運(yùn)算量大,訓(xùn)練時(shí)間長(zhǎng)。文獻(xiàn)[9]用支持向量機(jī)學(xué)習(xí)中層語(yǔ)義屬性的判斷,并確定各屬性的權(quán)重,形成以屬性為中心,基于部分特征的再識(shí)別模型。但由于該方法訓(xùn)練時(shí)需要手動(dòng)標(biāo)記屬性,且屬性分類較多,訓(xùn)練的復(fù)雜度較大,在只有少量樣本時(shí)又存在過(guò)擬合問(wèn)題。
本文所提出的方法針對(duì)車輛重識(shí)別時(shí)不同攝像機(jī)中同一車輛的圖像差異較大,單一特征難以穩(wěn)定地描述圖像的問(wèn)題,采用多種特征融合實(shí)現(xiàn)車輛特征的提取,該方法將車輛圖片的HSV特征和LBP特征進(jìn)行融合,并對(duì)融合特征矩陣進(jìn)行奇異值分解,提取特征值。針對(duì)傳統(tǒng)BP算法收斂速度慢,精度不高的問(wèn)題,采用L-M自適應(yīng)調(diào)整算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)。進(jìn)而對(duì)不同光照,不同視角的同一車輛圖片進(jìn)行識(shí)別。
由于車輛的顏色和幾何特征包含了車輛本身的一些個(gè)性化信息,所以本文提取的圖片特征為車輛的HSV和LBP特征,并將兩種類型的特征進(jìn)行串聯(lián),從而得到融合特征。并對(duì)融合特征矩陣進(jìn)行奇異值分解,提取特征值。
車輛的HSV特征即為車輛的一種顏色空間模型,該模型對(duì)目標(biāo)顏色的表達(dá)接近人類眼睛的視覺(jué)感知特性。它根據(jù)色彩的3個(gè)基本屬性(色調(diào)、飽和度和亮度)來(lái)表達(dá)顏色。由于不同品牌的車外形設(shè)計(jì)不盡相同,所以車輛的幾何特征在一定程度上可以代表車輛的個(gè)性化信息。本文在車輛幾何特征的描述上采用簡(jiǎn)單實(shí)用的LBP特征,LBP特征的提取過(guò)程是在圖像的某個(gè)區(qū)域內(nèi),將中心像素點(diǎn)的像素值作為閾值,相鄰像素點(diǎn)與其進(jìn)行對(duì)比,比閾值大的標(biāo)定為1,并生成8位二進(jìn)制數(shù),作為該區(qū)域中心像素點(diǎn)的LBP值。
考慮到車輛圖片的特征維數(shù)對(duì)重識(shí)別率有很大影響,故本文采用SVD即奇異值分解來(lái)提取車輛圖片分塊矩陣特征信息。奇異值分解的實(shí)現(xiàn)過(guò)程可通過(guò)式(1)表示
A=U∑VT
(1)
A為n×m的矩陣,代表待分解的特征矩陣,U是一個(gè)n×n的方陣,U中的向量稱為左奇異向量?!剖且粋€(gè)n×m矩陣,VT是一個(gè)n×n矩陣,V中的向量稱為右奇異向量。等式(1)右邊的3個(gè)矩陣相乘的結(jié)果為一個(gè)接近于A的矩陣,而這3個(gè)矩陣的面積之和要遠(yuǎn)小于矩陣A。這樣,特征矩陣就可以通過(guò)SVD分解達(dá)到降維的目的。
在BP神經(jīng)網(wǎng)絡(luò)中,多層前饋是其典型特征,多層是指該網(wǎng)絡(luò)由3部分組成,分別為輸入層、隱含層和輸出層。前饋是指信號(hào)正向傳播所得的誤差信號(hào)作為調(diào)整信號(hào)按先前的路線返回,根據(jù)預(yù)測(cè)誤差反復(fù)修正權(quán)值和閥值,使得誤差函數(shù)值達(dá)到最小。Robert Hecht Nielson證明了任意連續(xù)函數(shù)都可以由上述BP 神經(jīng)網(wǎng)絡(luò)有效的逼近。BP神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)是其具有自學(xué)習(xí)、自適應(yīng)和優(yōu)異的非線性映射能力[10-12]。其一般結(jié)構(gòu)如圖1所示。
圖1 3層BP網(wǎng)絡(luò)結(jié)構(gòu)圖
考慮到傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)采用的梯度下降法優(yōu)化學(xué)習(xí)方法易陷入局部最優(yōu),本文采用Levenberg - Marguardt優(yōu)化方法對(duì)傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,L-M算法是一種結(jié)合牛頓法和梯度下降法的非線性優(yōu)化算法,該方法能提供非線性最小化(局部最小)的數(shù)值解,并能有效解決過(guò)參數(shù)化和冗余參數(shù)問(wèn)題,避免代價(jià)函數(shù)陷入局部極小值,這些特性使得L-M算法在計(jì)算機(jī)視覺(jué)等領(lǐng)域得到廣泛應(yīng)用[13-15]。
本文利用L-M算法克服了線性搜索難以尋找下降方向的問(wèn)題,為了解決這一問(wèn)題該算法假設(shè)f(x)是非線性函數(shù),并把問(wèn)題轉(zhuǎn)化為約束線性化最小二乘問(wèn)題。即式(2)的信賴域模型。
(2)
其中,hk為信賴域半徑。這個(gè)方程的解可由求解式(3)得到。
(A(xk)TA(xk)+λkI)z=-A(xk)Tf(xk)
(3)
(A(xk)TA(xk)+λkI)
(4)
比例系數(shù)λk為常數(shù),I是單位矩陣。由于式(4)正定(適當(dāng)調(diào)整λk),從而式(3)產(chǎn)生的方向Z是下降方向。從式(3)可看出:如果比例系數(shù)λk為零時(shí),隨著每一步成功迭代,則依次減小,當(dāng)與誤差目標(biāo)較為接近時(shí),可以看作與高斯-牛頓法相似;當(dāng)λk的值很大的時(shí)L-M算法與梯度下降法相近。由于類似于二階導(dǎo)數(shù)的信息被運(yùn)用到L-M算法當(dāng)中,所以在權(quán)值數(shù)較少的情況下L-M算法比梯度下降法具有更快的收斂速度,此外,L-M算法還具有迭代次數(shù)相對(duì)較少,識(shí)別準(zhǔn)確率高的優(yōu)點(diǎn)。
本文所提出的車輛重識(shí)別方法的流程為:首先對(duì)車輛圖片進(jìn)行歸一化處理,然后提取車輛圖片的HSV特征和LBP特征,并采用串聯(lián)的方式實(shí)現(xiàn)特征的融合,對(duì)融合的特征矩陣進(jìn)行奇異值分解,并提取子矩陣特征值。最后采用Levenberg-Marguardt 自適應(yīng)調(diào)整算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò),對(duì)車輛庫(kù)圖像的特征進(jìn)行訓(xùn)練,進(jìn)而對(duì)不同光照,不同視角的同一車輛圖片進(jìn)行識(shí)別。具體步驟如圖2所示。
圖2 特征融合和L-M算法的車輛重識(shí)別流程圖
本文隨機(jī)采集車輛照片作為車輛數(shù)據(jù)庫(kù)進(jìn)行車輛重識(shí)別實(shí)驗(yàn)。該圖片庫(kù)共有40組車輛圖片,每組車輛圖片由同一車輛的10 幅92×112 圖像組成,共400張圖像。拍攝車輛的角度以及光照條件均有一定的變化。車輛圖片庫(kù)部分圖像如圖3所示。
圖3 車輛圖片庫(kù)中部分車輛圖片
本文在構(gòu)建BP神經(jīng)網(wǎng)絡(luò)時(shí)所取隱含神經(jīng)元個(gè)數(shù)為110,輸出的神經(jīng)元個(gè)數(shù)為40,學(xué)習(xí)速率為0.005。選擇車輛庫(kù)中每輛車的n(n<10)幅圖像用于訓(xùn)練,另外10-n幅圖像用于測(cè)試,得到本文所使用的特征融合改進(jìn)方法與傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)梯度下降方法的識(shí)別率對(duì)比圖,如圖4所示。
圖4 訓(xùn)練樣本數(shù)與識(shí)別率之間的關(guān)系
由圖4可以看出,本文的方法比傳統(tǒng)的BP算法在訓(xùn)練樣本數(shù)相同的情況下具有更高的識(shí)別率。另外,從該圖可以看出,隨著訓(xùn)練樣本數(shù)的增加,測(cè)試樣本的識(shí)別率也相應(yīng)的提高,最后趨于平穩(wěn),所以BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練模型時(shí)需要大量的樣本才能有效提取目標(biāo)的特征信息,即用于訓(xùn)練圖像數(shù)量對(duì)測(cè)試集的識(shí)別率有很大的影響。
另外,影響測(cè)試集識(shí)別率的因素還有車輛圖片的特征維數(shù)。實(shí)驗(yàn)證明當(dāng)特征維數(shù)為48維時(shí)車輛的測(cè)試集識(shí)別率最高為97.5%。車輛圖片特征維數(shù)與識(shí)別率之間的關(guān)系如圖5所示。
圖5 特征維數(shù)與識(shí)別率之間的關(guān)系
本文針對(duì)車輛重識(shí)別時(shí)不同攝像機(jī)中同一車輛的圖像差異較大,單一特征難以穩(wěn)定地描述圖像的問(wèn)題,采用多種特征融合實(shí)現(xiàn)車輛特征的提取,然后對(duì)圖像融合特征矩陣進(jìn)行奇異值分解,并提取特征值。最后采用L-M自適應(yīng)調(diào)整算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò),進(jìn)而對(duì)不同光照,不同視角的同一車輛圖片進(jìn)行重識(shí)別。由車輛重試別的驗(yàn)證實(shí)驗(yàn)結(jié)果可知,該方法在車輛的同一性識(shí)別方面具有較高的識(shí)別率,且對(duì)光照變化、視角變化都具有較好的魯棒性。本文所提出的方法在視頻監(jiān)控中無(wú)牌照或者牌照遮擋的車輛的同一性檢索方面具有一定的實(shí)用價(jià)值。
[1]Kostinger M, Hirzer M, Wohlhhart P, et al. Large scale metroc learning from equivalence constraints[C].Grace:IEEE Conference on Computer Vision and Pattern Recognition,IEEE,2012.
[2]Zheng W,Gong S,Xiang T. Re-identification by relave distance comparision[J].IEEE,2013,35(3):653-668.
[3]Shan Y,Sawhney H,Kumar R.Vehicle identification between non over-lapping cameras without direct feature matching[C].Hong Kong:IEEE International Conference on Computer Vision,2005.
[4]Zheng Weishi,Gong Shaogang,Xiang Tao.Re-identification by relative distance comparison[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(3):653-668.
[5]Friasvelazquez A,Ortiz C,Pizurica A,et al.Object identification by using or thonormal circus functions from the trace transform[C].France:IEEE International Conference on Image Processing,2012.
[6]Chai Zhenhua,Sun Zhenan, Mendez-Vazquez H,et al.Gabor ordinal measures for face recognition[J].IEEE Transactions on Information Forensics and Security,2014,9(1):14-26.
[7]Ahmed E,Jones M,Marks T K.An improved deep learning architecture for person re-identication[C].Boston:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),IEEE,2015.
[8]Heng W S,Gong S,Xiang T.Person reidentification by probabilistic relative distance comparison[C]. Providence:Proceedings of IEEE Conference on Computer Vision and Pauem Recognition,IEEE Press,2011.
[9]Layne R,Hospedales T M,Gong S.Person re-identification by attributes[C].Surrey:Proceedings of the British Machine Vision Conference,BMVA Press,2012.
[10] Robert Hecht-Nielsen.Theory of the back propagation neural network[C].Combridge:Proceedings of the International Joint Conference on Neural Networks,1989.
[11] 薛皓天.一種改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)在手寫體識(shí)別上的應(yīng)用[J].電子科技,2015,28(5):20-23.
[12] 白雪,田啟川.基于神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法[J].電子科技,2013,26(9):151-154.
[13] 吳福朝.計(jì)算機(jī)視覺(jué)中的教學(xué)方法[M].北京:高等教育出版社,2008.
[14] 袁亞湘,孫文瑜.最優(yōu)化理論與方法[M].北京:科學(xué)出版社,1997.
[15] Lwikipediaorg.Levenbers marquardt algorithm [EB/OL]. (2008-05-26)[2017-03-21]http://er.wikipedia.org/wiki/Levenberg Marquardt_algorithm.