代廣昭,孫偉,2,徐凡,張小瑞,陳旋,常鵬帥,湯毅,胡亞華
(1.南京信息工程大學(xué)自動(dòng)化學(xué)院,南京 210044;2.南京信息工程大學(xué)江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京 210044;3.南京信息工程大學(xué) 數(shù)字取證教育部工程研究中心,南京 210044;4.南京信息工程大學(xué) 無錫研究院,江蘇 無錫 214100;5.南京信息工程大學(xué) 計(jì)算機(jī)與軟件學(xué)院,南京 210044)
近年來,車輛重識(shí)別技術(shù)在智能視頻監(jiān)控系統(tǒng)中的應(yīng)用越來越廣泛,因此受到學(xué)術(shù)界以及工業(yè)界越來越多的關(guān)注。車輛重識(shí)別的目的是從互不重疊的攝像頭捕捉的圖庫集中找到與查詢車輛相同的所有車輛。雖然車牌識(shí)別[1]是區(qū)分不同車輛最簡(jiǎn)單直接的方法,但是在很多情況下,受分辨率低、車牌遮擋、視角變化大等因素影響,車牌信息無法被穩(wěn)定獲取。因此,以車輛的外觀信息為基礎(chǔ)的車輛重識(shí)別成為解決上述問題的主要途徑,甚至是唯一途徑。然而,由于在復(fù)雜的交通場(chǎng)景下進(jìn)行車輛重識(shí)別會(huì)不可避免地伴隨著劇烈視角變化,使得同一車輛在不同視角下要么外觀差異巨大,要么不同車輛由于顏色、車型相同在特定視角下外觀極為相似,給車輛重識(shí)別帶來了巨大的挑戰(zhàn)。
近年來,一些大規(guī)模車輛數(shù)據(jù)集[2-4]的提出促進(jìn)了基于深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)的車輛重識(shí)別的發(fā)展。為了解決上述挑戰(zhàn),一些研究人員利用DCNN 從整幅圖像中學(xué)習(xí)車輛的全局特征。文獻(xiàn)[2]和文獻(xiàn)[3]提出一個(gè)由粗到細(xì)漸進(jìn)式的網(wǎng)絡(luò)框架,將車輛的顏色、車型、紋理、車牌、時(shí)空信息等多特征融合進(jìn)行車輛重識(shí)別。文獻(xiàn)[4]將整幅車輛圖像輸入到歐式空間來計(jì)算車輛之間的距離,使用車輛ID 和車輛型號(hào)對(duì)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練進(jìn)行監(jiān)督,以提升模型對(duì)同一車型不同車輛進(jìn)行重識(shí)別的魯棒性。盡管上述基于全局特征的方法在背景簡(jiǎn)單的場(chǎng)景下取得了較好的重識(shí)別效果,但在復(fù)雜交通場(chǎng)景下,由于車輛視角改變引起全局外觀劇烈變化,導(dǎo)致車輛出現(xiàn)類內(nèi)差異大和類間差異小的現(xiàn)象,因此重識(shí)別模型很難僅根據(jù)車輛的全局特征區(qū)分車輛。
考慮到全局特征的不穩(wěn)定性,研究人員開始關(guān)注局部區(qū)域以提高模型特征表達(dá)能力。為此,許多高性能的車輛重識(shí)別方法依賴于預(yù)定義的顯著性局部區(qū)域標(biāo)注,如車輛關(guān)鍵點(diǎn)區(qū)域[5-6]和局部部件區(qū)域[7-9],這些都屬于強(qiáng)監(jiān)督局部學(xué)習(xí)方法。這些方法雖然在一定程度上提高了重識(shí)別模型的準(zhǔn)確度,但大量的人工手動(dòng)局部區(qū)域標(biāo)注使得局部特征學(xué)習(xí)變得主觀性強(qiáng)且成本昂貴。為節(jié)省標(biāo)注成本,文獻(xiàn)[10]不借助車輛局部標(biāo)注而通過將車輛圖片在空間上劃分成若干個(gè)子區(qū)域獲得局部特征。然而,為了對(duì)齊車輛圖片,無論是采用水平劃分還是垂直劃分,劃分后的子區(qū)域特征均會(huì)丟失車輛原有的視角信息,使得劃分后子區(qū)域更容易遭受視角變化的影響。
為獲取車輛的視角信息,文獻(xiàn)[11]利用預(yù)訓(xùn)練后的車輛視角預(yù)測(cè)網(wǎng)絡(luò)獲取車輛的視角特征,雖然能獲取到車輛前、后、左、右的視角信息,但無法學(xué)習(xí)到每個(gè)視角內(nèi)的所有顯著性特征。文獻(xiàn)[12]利用GAN[13]生成車輛視角信息以克服類內(nèi)差異,但由于生成的視角圖片仍源自可見視角,本質(zhì)上未能生成額外的局部信息,而只是簡(jiǎn)單地學(xué)習(xí)單一的視角特征,因此無法學(xué)習(xí)每個(gè)具體視角內(nèi)所有顯著性局部特征。此外,這些方法在重識(shí)別時(shí),所有視角均直接進(jìn)行重識(shí)別,而未考慮車輛間共同視角特征的重要性。例如,當(dāng)2 輛車出現(xiàn)外觀相似時(shí),除了找到每個(gè)具體視角下顯著性的局部區(qū)域并進(jìn)行對(duì)比,還應(yīng)該關(guān)注共同視角特征以區(qū)別車輛,這些共同視角特征往往具有更加豐富和完整的信息。
本文提出一種視角感知局部注意力網(wǎng)絡(luò)(View-Aware Part Attention Network,VPAN)對(duì)車輛進(jìn)行重識(shí)別,將車輛視角和局部部件信息整合到一個(gè)統(tǒng)一框架。不同于傳統(tǒng)的人工手動(dòng)局部區(qū)域標(biāo)注方法,本文通過弱監(jiān)督注意力學(xué)習(xí)方式生成注意力圖來表示視角內(nèi)所有顯著性局部部件位置分布,并基于獲得的注意力圖自適應(yīng)學(xué)習(xí)該視角內(nèi)顯著性局部特征。此外,提出一個(gè)共同視角的注意力增強(qiáng)模塊,根據(jù)視角的相似度匹配車輛視角間的注意力權(quán)重,增強(qiáng)共同視角的特征學(xué)習(xí)。
除了基于全局特征學(xué)習(xí)的方法之外,為擴(kuò)大同車型車輛之間的細(xì)微差異,一些依賴于人工參與的基于強(qiáng)監(jiān)督局部特征學(xué)習(xí)的方法也相繼推出。文獻(xiàn)[5]通過定義車身的20 個(gè)關(guān)鍵點(diǎn),將車輛方向基于模型提取的關(guān)鍵點(diǎn)信息聚類為前、后、左、右4 個(gè)方向,通過模型檢測(cè)預(yù)定義的關(guān)鍵點(diǎn)來提取局部特征。在文獻(xiàn)[5]的基礎(chǔ)上,文獻(xiàn)[6]采用一種雙分支的自適應(yīng)注意力模型,并基于車輛的關(guān)鍵點(diǎn)以及方向進(jìn)行局部有辨識(shí)信息的特征提取。為學(xué)習(xí)局部特征,受ROI 思想的啟發(fā),文獻(xiàn)[7-9]首先對(duì)車牌、車燈、年檢標(biāo)志、個(gè)性裝飾等局部部件進(jìn)行標(biāo)注,之后利用這些標(biāo)注信息訓(xùn)練目標(biāo)檢測(cè)算法,以獲取車輛的局部特征。
然而,這些預(yù)定義的局部區(qū)域標(biāo)注方法雖然在一定程度上提高了重識(shí)別模型的準(zhǔn)確度,但卻不可避免地存在一些限制。首先,在車輛跨視角運(yùn)動(dòng)時(shí),車輛姿態(tài)劇烈變化甚至出現(xiàn)遮擋,導(dǎo)致車輛局部標(biāo)注的工作很難正常展開。其次,這些局部區(qū)域標(biāo)注不僅標(biāo)注成本高,還大幅增加了訓(xùn)練成本和訓(xùn)練復(fù)雜度,導(dǎo)致其無法適應(yīng)車輛重識(shí)別數(shù)據(jù)集規(guī)模的不斷增長。最后,這些預(yù)定義局部區(qū)域均來自車輛固定位置,無法學(xué)習(xí)圖像中所有視角下有區(qū)別性的局部區(qū)域。當(dāng)車輛在跨攝像頭運(yùn)動(dòng)過程中遭遇劇烈視角變化時(shí),判斷2 輛車是否為同一輛車的關(guān)鍵線索可能隨機(jī)分布在任何視角下車輛上的任何一個(gè)區(qū)域。而這些問題導(dǎo)致基于強(qiáng)監(jiān)督的局部區(qū)域標(biāo)注方法難以達(dá)到令人滿意的效果。
近年來,計(jì)算機(jī)視覺領(lǐng)域中基于弱監(jiān)督的學(xué)習(xí)已經(jīng)取得了巨大的進(jìn)步。相比于需要大量人工標(biāo)注的強(qiáng)監(jiān)督方法,弱監(jiān)督僅需少量的標(biāo)簽,甚至只需少量的圖像類別標(biāo)簽就能取得和強(qiáng)監(jiān)督方法相近的識(shí)別精度。此外,弱監(jiān)督方法訓(xùn)練成本低并且能夠適用于多種任務(wù)中,如目標(biāo)分割[14]、行人重識(shí)別[15]、細(xì)粒度圖像識(shí)別[16]等任務(wù)。受上述方法的啟發(fā),本文通過弱監(jiān)督注意力學(xué)習(xí)方式生成注意力圖,以表示視角內(nèi)所有顯著性局部部件的位置分布。相比于傳統(tǒng)人工局部區(qū)域標(biāo)注的方法獲取到的固定局部信息,本文方法能更加容易地定位視角內(nèi)更多的局部區(qū)域,這不僅降低了標(biāo)注成本,而且能夠根據(jù)注意力圖更加靈活地學(xué)習(xí)車輛顯著性局部信息。
視角信息是車輛重識(shí)別的關(guān)鍵因素。在跨攝像頭運(yùn)動(dòng)時(shí)車輛視角遭遇劇烈變化,使得同一車輛在不同視角下遭受類內(nèi)差異大或不同車輛因顏色、車型相同在特定視角下出現(xiàn)類間差異小的現(xiàn)象,導(dǎo)致車輛重識(shí)別面臨挑戰(zhàn)。圖1 所示為車輛重識(shí)別面臨挑戰(zhàn)的樣例(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。
圖1 車輛重識(shí)別面臨挑戰(zhàn)的樣例Fig.1 Examples of challenges faced by vehicle re-identification
圖1(a)所示的所有車輛均為同一車輛,由于車輛視角劇烈變化導(dǎo)致同一車輛外觀差異大,重識(shí)別時(shí)面臨類內(nèi)差異大的問題。圖1 中第2 列~第4 列的每列車均為相同視角下的不同車輛,由于顏色、車型相同,這些車輛在特定視角下的外觀卻極為相似,紅色圈覆蓋局部區(qū)域?yàn)槠渚唧w差異。在進(jìn)行車輛重識(shí)別時(shí),與車輛的不同視角部分相比,車輛的共同視角往往具有更加豐富和完整的信息,其有效性已在最近的一些重識(shí)別方法[14-16]中成功得到驗(yàn)證。
文獻(xiàn)[17]提出視角感知網(wǎng)絡(luò)(Viewpoint Aware Network,VANet)學(xué)習(xí)相同視角的特征度量和不同視角的特征度量。文獻(xiàn)[18]提出基于解析下視角感知網(wǎng)絡(luò)(Parsing-Based View-Aware Embedding Network,PVEN),利用預(yù)訓(xùn)練后的U-Net[19]網(wǎng)絡(luò)獲取車輛的視角信息。對(duì)于獲得的視角信息,PVEN 認(rèn)為在車輛重識(shí)別過程,具有相同視角部分的特征比不同視角部分的特征更重要,應(yīng)該得到更多的關(guān)注。類似的,文獻(xiàn)[20]提出共現(xiàn)局部注意力距離度量(Co-Occurrence Part-Attentive Distance Metric,CPDM)以更好地利用車輛的視角特征,使相同視角圖像的特征在特征學(xué)習(xí)中得到更多關(guān)注。上述這些方法雖然能利用共同視角特征,在一定程度上提高重識(shí)別的精度,但仍然存在一些缺陷。例如當(dāng)2 輛車外觀均呈現(xiàn)前-側(cè)-頂視角時(shí),為匹配車輛圖片之間每個(gè)視角均為共同視角,容易導(dǎo)致每個(gè)視角都受到相同程度的關(guān)注,使得共同視角注意力模型無法按照識(shí)別車輛視角貢獻(xiàn)程度的不同進(jìn)行加權(quán)重要特征學(xué)習(xí)。在此前提下,由于這些方法無法額外自適應(yīng)地學(xué)習(xí)到每個(gè)視角下所有鑒別力的局部特征,從而輔助模型區(qū)分車輛,導(dǎo)致重識(shí)別任務(wù)依然很難順利進(jìn)行。
不同于上述方法,本文方法將車輛視角和局部部件兩類信息整合到一個(gè)統(tǒng)一的框架中,通過弱監(jiān)督注意力學(xué)習(xí)而非人工手動(dòng)標(biāo)注車輛局部部件,自適應(yīng)學(xué)習(xí)每個(gè)視角內(nèi)所有顯著性局部特征。此外,受PVEN[18]等方法中共同視角特征的啟發(fā),本文方法在重識(shí)別時(shí)根據(jù)匹配車輛視角的注意力權(quán)重增強(qiáng)共同視角的特征學(xué)習(xí),從而學(xué)習(xí)到更加豐富和有鑒別力的特征。
本節(jié)將詳細(xì)介紹視角感知局部注意力網(wǎng)絡(luò)。如圖2 所示,該網(wǎng)絡(luò)主要由3 個(gè)模塊組成,分別是車輛視角獲取模塊、視角感知下局部增強(qiáng)模塊以及共同視角注意力增強(qiáng)模塊。首先,通過訓(xùn)練車輛視角獲取網(wǎng)絡(luò),得到車輛前、后、左、右的視角特征。這些車輛視角特征隨后將被輸入到2 個(gè)分支中,并分別學(xué)習(xí)視角內(nèi)潛在的顯著性局部特征和共同視角特征。為挖掘視角內(nèi)細(xì)粒度的局部信息,本文提出一種視角感知下的局部增強(qiáng)模塊(View-Aware Part Enhancement Module,VPEM)以自適應(yīng)學(xué)習(xí)視角內(nèi)潛在的顯著性局部特征。最后,為增強(qiáng)視角特征的差異性,本文利用共同視角注意力增強(qiáng)模塊(Common-View Attentive Promote Module,CAPM)匹配車輛的視角間注意力權(quán)重,使同一視角下的特征學(xué)習(xí)得到增強(qiáng),不同視角特征學(xué)習(xí)受到抑制。
圖2 本文網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of network in this paper
車輛重識(shí)別任務(wù)在大多數(shù)情況下都是多任務(wù)學(xué)習(xí),主要分為2 個(gè)任務(wù),一個(gè)是構(gòu)建ID loss,通過分類損失學(xué)習(xí)對(duì)應(yīng)不同ID 的損失,另一個(gè)任務(wù)是以Triple loss[21]為主的通過特征向量直接構(gòu)建的損失,主要學(xué)習(xí)類內(nèi)的相似性和類間的區(qū)分性,讓不同特征向量的區(qū)分度更高,讓相同的特征向量更加趨同。因此,為優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),本文基于學(xué)習(xí)到的特征,采用多任務(wù)學(xué)習(xí)思想[3,18]設(shè)計(jì)損失函數(shù),即采用Triplet loss 和Softmax crossentropy loss(ID Loss)共同優(yōu)化VPAN。
受PVEN[18]獲取車輛視角特征的啟發(fā),本文訓(xùn)練U-Net 作為視角獲取網(wǎng)絡(luò),以提取數(shù)據(jù)集上車輛的視角信息。該視角獲取網(wǎng)絡(luò)運(yùn)行步驟主要包含如下兩步:
1)從車輛數(shù)據(jù)集中挑選部分車輛圖片并標(biāo)注它們的視角信息,即前、后、頂和側(cè)4 個(gè)視角。然后,利用標(biāo)注好的車輛圖片訓(xùn)練U-Net 視角獲取網(wǎng)絡(luò),并用訓(xùn)練好的算法分別提取數(shù)據(jù)集上每個(gè)樣本的車輛視角掩膜。對(duì)于一張車輛圖片,本文定義每個(gè)視角i覆蓋的空間區(qū)域?yàn)閷?duì)于每個(gè)視角區(qū)域i,將視角掩膜區(qū)域內(nèi)的元素賦值為1,區(qū)域外元素賦值為0。最終得到一個(gè)二元掩模矩陣,其表達(dá)式如式(1)所示:
其中:x表示視角掩膜的像素位置。
其中:⊙表示元素的點(diǎn)乘。
本文采用在ImageNet[22]上預(yù)訓(xùn)練后的ResNet[23]作為主干網(wǎng)絡(luò)用于特征提取。為獲得具有更多細(xì)節(jié)信息及更大尺寸的特征圖,本文把最后一個(gè)卷積層的stride 設(shè)置為1。
如圖2 所示,輸入車輛圖片經(jīng)過主干網(wǎng)絡(luò)輸出的特征F分別流入2 個(gè)分支。在第1 個(gè)分支中,F(xiàn)被直接輸入到全局平均池化層(Global Average Pooling,GAP),得到大小為2 048×16×16 的全局特征。在第2 個(gè)分支中,首先將視角特征Fvi輸入到掩膜全局平均池化(Mask Global Average Pooling,MGAP)進(jìn)行池化,其池化后的特征將被CAPM 模塊用于增強(qiáng)視角差異性。然后,將獲取到的視角特征Fvi輸入到VPEM 模塊中,以自適應(yīng)學(xué)習(xí)該視角內(nèi)潛在的顯著性局部特征。值得注意的是,不同于傳統(tǒng)局部方法依賴人工手動(dòng)的標(biāo)注學(xué)習(xí)車輛的局部位置信息,VPEM 模塊通過弱監(jiān)督注意力學(xué)習(xí)的方式生成注意力圖[24],從而獲取每個(gè)視角內(nèi)顯著性局部位置信息。
首先,通過視角提取網(wǎng)絡(luò)U-Net 獲取第i視角對(duì)應(yīng)的視角特征,其中:C、H和W分別表示特征通道、特征圖高和寬。接著,本文通過式(3)獲取視角內(nèi)顯著性部件注意力圖,其表示車輛第i視角中共M個(gè)局部位置的分布。
其中:f(·)為注意力計(jì)算操作,由一個(gè)1×1 卷積操作、一個(gè)Batch Normalization 層和一個(gè)ReLu 激活函數(shù)組成;表示中車輛局部部件注意力圖,如車燈、車窗和車標(biāo)等,M表示注意力圖的數(shù)量(特征通道數(shù)量);注意力圖中通道特征圖響應(yīng)越高,表示該通道特征越顯著,其對(duì)應(yīng)的局部部件注意力圖具有更細(xì)粒度的信息,因而得到模型較多的關(guān)注;低響應(yīng)區(qū)域則表示該通道特征為不重要的特征,具有較少的模型關(guān)注。
圖3 視角感知下局部增強(qiáng)模塊的結(jié)構(gòu)Fig.3 Structure of local enhancement module under view-aware
。
利用一個(gè)邊 界框Bi(k)覆蓋Ci(k)中所有值為1 的區(qū)域,裁剪原始圖像中Bi(k)覆蓋的區(qū)域。接著,放大裁剪后的區(qū)域尺寸為原圖大小后重新送入網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練。由于放大的這部分區(qū)域是該視角內(nèi)最顯著的局部區(qū)域,存在更多細(xì)節(jié),因此可以提取更多的細(xì)節(jié)特征。
將被標(biāo)記為0 的區(qū)域從原始圖像中抹除,通過局部注意力擦除操作使網(wǎng)絡(luò)提取圖像中其他具有識(shí)別度區(qū)域的特征,進(jìn)一步增強(qiáng)網(wǎng)絡(luò)的泛化性能。
當(dāng)2 輛不同車輛的圖像中包含相同視角信息時(shí),除了找到每個(gè)具體視角下顯著性的局部區(qū)域進(jìn)行對(duì)比,還應(yīng)該關(guān)注共同可見視角的特征,這些共同可見視角特征往往具有更加豐富和完整的信息,如果給予共同可見視角的圖像部分更大關(guān)注,模型能夠更快、更準(zhǔn)地實(shí)現(xiàn)車輛重識(shí)別。
基于上述發(fā)現(xiàn),本文提出CAPM 模塊學(xué)習(xí)車輛圖像中可見視角的相似度,并根據(jù)視角的相似度自適應(yīng)地給每個(gè)視角分配不同權(quán)重。根據(jù)所獲取的視角間權(quán)重,CAPM 模塊能夠自適應(yīng)地給予共同視角更多關(guān)注,給予不同視角較少關(guān)注。CAPM 模塊的計(jì)算流程如圖4 所示。
圖4 共同視角注意力增強(qiáng)模塊的計(jì)算流程Fig.4 Calculation procedure of common-view attentive promote module
如圖4 所示,當(dāng)查詢車輛和圖庫車輛圖片中對(duì)應(yīng)視角區(qū)域面積比越高時(shí),它們的視角相似度越高,即為共同視角,因而這部分區(qū)域可以得到更高的注意力權(quán)重;當(dāng)對(duì)應(yīng)區(qū)域的相似度低時(shí),則說明它們的視角不同,因而只能得到較少的注意力權(quán)重。需要指出的是,在通過注意力機(jī)制學(xué)習(xí)權(quán)重ω進(jìn)行加權(quán)特征學(xué)習(xí)時(shí),采用的是加權(quán)平均自適應(yīng)學(xué)習(xí)方法,即前、后、頂和側(cè)4 個(gè)視角的注意力權(quán)重和ω=因而在使共同視角得到更大關(guān)注和使其他不同視角得到更少關(guān)注的過程是同時(shí)進(jìn)行的,而非單獨(dú)增強(qiáng)共同視角(保持不同視角關(guān)注度不變)或者抑制不同視角(保持共同視角的關(guān)注度不變)。CAPM 模塊學(xué)習(xí)注意力權(quán)重的具體步驟如下:
1)給定一張查詢圖像Iq和圖庫圖像Ig;
2)按照式(7)計(jì)算圖像Iq和Ig的前、后、頂和側(cè)4 個(gè)視角掩膜區(qū)域的面積;
3)根據(jù)獲取的掩膜區(qū)域面積,通過式(8)計(jì)算Iq和Ig視角區(qū)域的注意力權(quán)重ωk(Iq,Ig),以獲取共同視角增強(qiáng)幅度或不同視角抑制的幅度。
本文使用注意力權(quán)重來自適應(yīng)調(diào)整特征匹配時(shí)所有視角特征的特征距離。Iq和Ig之間的最終特征距離Dv(Iq,Ig)的計(jì)算公式如式(9)所示:
在訓(xùn)練階段,本文采用ID loss 和Triplet loss 函數(shù)共同優(yōu)化全局特征,將以上2 個(gè)函數(shù)分別表示為局部特征采用Triplet loss 進(jìn)行優(yōu)化,其表示為在特征降維時(shí),全局特征Fg被輸入到一個(gè)由卷積層、Batch Normalization(BN)層和ReLU 組成的Conv1×1 Reduction 塊,用于生成512 維特征向量。受BNNeck[25]方法的啟發(fā),為避免損失函數(shù)ID loss和Triplet loss 優(yōu)化同一特征時(shí)出現(xiàn)異步收斂的情況發(fā)生,在連接ID loss 層優(yōu)化之前,先將特征輸入到一個(gè)額外的BN 層進(jìn)行歸一化處理。VPEN 總的損失函數(shù)計(jì)算公式如式(10)所示:
其中:α、β和ν為3 個(gè)損失函數(shù)之間的平衡參數(shù)。
3.1.1 數(shù)據(jù)集
將本文模型在VehicleID[4]和VeRi-776[2]2個(gè)主流數(shù)據(jù)集上進(jìn)行評(píng)價(jià)。VehicleID 為大規(guī)模車輛重識(shí)別數(shù)據(jù)集,主要從前、后2 種視角收集了約26 267 輛車的221 763 張圖片,其中訓(xùn)練集包含13 134 輛車的110 178 張圖片,而測(cè)試集包含13 133 輛車111 585 張圖片。VehicleID按照數(shù)據(jù)量將測(cè)試集劃分為大、中、小3 個(gè)子集。在標(biāo)注車輛屬性時(shí),VehicleID 中的每張圖像都標(biāo)注了車輛ID、攝像頭位置和車型的詳細(xì)信息。VeRi-776 也是車輛重識(shí)別中一個(gè)大規(guī)模車輛數(shù)據(jù)集。VeRi-776數(shù)據(jù)集包含了776輛車的50 000張圖片,這些圖片分別由20 個(gè)攝像頭的不同視角拍攝采集而來。VeRi-776 數(shù)據(jù)集的標(biāo)注信息豐富,除了包含邊界框、車型、顏色、廠商信息之外,還收集了車牌、時(shí)間戳和地理位置的信息,是車輛重識(shí)別中目前廣泛使用的數(shù)據(jù)集之一。
3.1.2 評(píng)價(jià)指標(biāo)
基于上述2 個(gè)數(shù)據(jù)集,本文使用平均精度值(mean Average Precision,mAP)和累計(jì)匹配曲 線(Cumulative Match Curve,CMC)2 個(gè)評(píng)價(jià)標(biāo)準(zhǔn)對(duì)提到的模型進(jìn)行驗(yàn)證。
mAP 指標(biāo)能度量車輛重識(shí)別模型的整體性能。mAP 可由式(11)計(jì)算得到:
其中:Q表示查詢集中圖像總數(shù);A(q)表示每個(gè)查詢車輛的檢索結(jié)果平均值。A可由式(14)計(jì)算得到:
其中:n為數(shù)據(jù)集圖像總數(shù);N表示目標(biāo)車輛的圖像總數(shù);P(k)表示在匹配序列中第k位的檢索精度,如果第k個(gè)結(jié)果正確匹配,則g(k)為1,否則g(k)為0。
CMC@k表示查詢圖像q在前k個(gè)檢索結(jié)果中找到正確結(jié)果的概率,例如CMC@1 表示查詢圖像q在前1 個(gè)檢索結(jié)果中找到正確結(jié)果的概率。CMC@k可通過式(13)計(jì)算得到:
其中:Q表示查詢集中圖像總數(shù);當(dāng)圖像q的正確匹配目標(biāo)出現(xiàn)在檢索結(jié)果序列的第k位之前,等于1。
受PVEN 網(wǎng)絡(luò)獲取車輛視角信息的啟發(fā),本文采用U-Net 提取數(shù)據(jù)集圖片的視角信息。在常用車輛數(shù)據(jù)集中,VehicleID 數(shù)據(jù)集中的車輛通常包含前和后兩種視角,而VeRi-776 數(shù)據(jù)集則通常包含更多的視角信息。為獲取更加豐富的視角信息,本文選擇在具有更多視角信息的VeRi-776 數(shù)據(jù)集上訓(xùn)練U-Net 網(wǎng)絡(luò)。在VeRi-776 數(shù)據(jù)集上,本文共標(biāo)注了2 000 張車輛圖片視角信息,其中包括訓(xùn)練集的1 500 張圖片和測(cè)試集的500 張圖片。
在重識(shí)別網(wǎng)絡(luò)訓(xùn)練時(shí),所有輸入的圖像尺寸被調(diào)整為256×256。優(yōu)化器使用Adam 優(yōu)化器[26],動(dòng)量為0.9。為提高收斂速度,本文將基礎(chǔ)學(xué)習(xí)率設(shè)為3.75×10-4,其在60 個(gè)epoch 和120 個(gè)epoch 時(shí)分別降為3.75×10-5和3.75×10-6,epoch 的總數(shù)為180。采用平衡采樣訓(xùn)練策略[27],將網(wǎng)絡(luò)訓(xùn)練的batch 大小設(shè)置為32,即每次隨機(jī)采樣8 輛車,每輛車選取4 張圖片。在處理數(shù)據(jù)時(shí),本文使用隨機(jī)水平翻轉(zhuǎn)和隨機(jī)擦除[28]方式進(jìn)行數(shù)據(jù)增強(qiáng)。在訓(xùn)練和測(cè)試階段,使用歐式距離來評(píng)估查詢圖像和圖庫圖像之間的特征相似度。在triplet loss 中,間隔參數(shù)被設(shè)為0.3。
為驗(yàn)證本文方法中各個(gè)模塊的有效性,本文在VeRi-776 數(shù)據(jù)集上進(jìn)行不同設(shè)置的消融實(shí)驗(yàn)。消融實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)分別是mAP、CMC@1 和CMC@5。
隨機(jī)挑選2 個(gè)車輛圖片,圖5 為VPAN 網(wǎng)絡(luò)與僅基于全局特征的網(wǎng)絡(luò)(Baseline)按照相似度評(píng)分后排名前10的檢索結(jié)果(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版),其中:紅色框?yàn)檎_匹配;藍(lán)色框則為錯(cuò)誤匹配。由圖5可知,本文網(wǎng)絡(luò)在重識(shí)別精度上明顯優(yōu)于Baseline網(wǎng)絡(luò)。
圖5 排名前10 的檢索結(jié)果Fig.5 Top 10 search results
3.3.1 基于視角感知下局部特征學(xué)習(xí)模塊的作用
表1 所示為本文網(wǎng)絡(luò)中各模塊作用的對(duì)比結(jié)果,其中:Baseline 網(wǎng)絡(luò)表示VPAN 網(wǎng)絡(luò)去除了所有模塊,僅學(xué)習(xí)車輛的全局特征;VPAN w/o Local 表示VPAN 網(wǎng)絡(luò)去除了視角下顯著性局部部件特征學(xué)習(xí)模塊;VPAN w/o View 表示VPAN 網(wǎng)絡(luò)去除了視角特征學(xué)習(xí)模塊。
表1 本文網(wǎng)絡(luò)中各模塊作用對(duì)比Table 1 Functional comparison of every module of network in this paper
由表1 可知,VPAN 在所有對(duì)比網(wǎng)絡(luò)中取得了最優(yōu)的重識(shí)別效果,這是因?yàn)閂PAN 網(wǎng)絡(luò)不僅能夠?qū)W習(xí)視角感知下有區(qū)別性的局部特征,而且能夠利用注意力機(jī)制增強(qiáng)共同視角特征,因此VPAN 網(wǎng)絡(luò)學(xué)習(xí)到的車輛特征更具完整性和鑒別性。由表1 還可知,VPAN w/o Local 和VPAN w/o View 由于僅學(xué)習(xí)單一車輛特征,嚴(yán)重影響了重識(shí)別的效果。相比于VPAN,去除視角感知下顯著性局部部件特征學(xué)習(xí)模塊的VPAN w/o Local 方法的重識(shí)別準(zhǔn)確度大幅降低,其mAP、CMC@1 和CMC@5 分別降低了2.9、1.3和0.9 個(gè)百分點(diǎn)。這說明在去除局部部件特征學(xué)習(xí)模塊后,不僅降低了所學(xué)習(xí)到車輛特征的完整性,而且降低了重識(shí)別的準(zhǔn)確性。與VPAN w/o Local 網(wǎng)絡(luò)相似,這種現(xiàn)象也出現(xiàn)在去除視角特征學(xué)習(xí)的VPAN w/o View 上。
3.3.2 共同視角注意力增強(qiáng)模塊的作用
表2 所示為本文網(wǎng)絡(luò)中共同視角注意力增強(qiáng)模塊的作用對(duì)比,其中:VPAN w/o CAPM 代表去除了共同視角注意力增強(qiáng)模塊后的VPAN 網(wǎng)絡(luò)。由表2可知,相較于VPAN 網(wǎng)絡(luò),去除共同視角注意力增強(qiáng)模塊后的VPAN w/o CAPM 網(wǎng)絡(luò)的重識(shí)別精度會(huì)降低。這是因?yàn)楣餐暯峭哂懈S富和完整的信息,如果給予共同視角的圖像部分更大關(guān)注,模型能夠更快更準(zhǔn)確地實(shí)現(xiàn)車輛重識(shí)別,否則,模型有可能會(huì)關(guān)注許多無用的圖像區(qū)域,降低重識(shí)別精度。
表2 本文網(wǎng)絡(luò)中共同視角注意力增強(qiáng)模塊的作用對(duì)比Table 2 Functional of common-view attentive promote module of network in this paper
3.3.3 不同視角特征的作用
本文通過逐漸增加視角特征的數(shù)量并重新訓(xùn)練模型,以驗(yàn)證每個(gè)視角特征的有效性,實(shí)驗(yàn)結(jié)果如表3 所示。其中,VPAN w/o View 表示模型去除了所有的視角特征,F(xiàn)ront 表示VPAN 僅使用車輛前視角特征,以此類推。
表3 不同視角數(shù)目的實(shí)驗(yàn)結(jié)果對(duì)比Table 3 Comparison of experimental results of different view number
由表3 可知,隨著視角特征數(shù)量逐漸增加,車輛重識(shí)別精度不斷提升,當(dāng)模型利用所有視角特征時(shí),精度達(dá)到最高值。具體來說,通過對(duì)比Front 和VPAN w/o View,可以看到添加前視角后模型的mAP 得到約1.5個(gè)百分點(diǎn)的提升。主要原因是前視角區(qū)域在區(qū)分車輛時(shí)往往包含更多且更顯著的關(guān)鍵性線索,如車燈、車擋風(fēng)玻璃上的年檢標(biāo)志、個(gè)性化裝飾、車標(biāo)等,這些信息能夠幫助模型區(qū)分車輛是否為同一輛車。在添加車輛的側(cè)視角后,mAP 提升了1.3 個(gè)百分點(diǎn),重識(shí)別的效果得到了較大的提升。由于拍攝到的車輛圖像大多呈現(xiàn)3 個(gè)方向,如前-頂-側(cè)或者后-頂-側(cè),因此,作為共同可見視角側(cè)面往往能夠提供區(qū)分車輛的有用信息,如個(gè)性化涂鴉和貼紙。然而,一些傳統(tǒng)的網(wǎng)絡(luò)[29-31]只關(guān)注車輛的前、后和頂3 個(gè)視角,忽略了側(cè)視角的信息。不同于這些傳統(tǒng)的網(wǎng)絡(luò),本文網(wǎng)絡(luò)不僅學(xué)習(xí)到更多有用的視角信息(前、后、頂和側(cè)),還在重識(shí)別時(shí)根據(jù)每個(gè)視角的注意力權(quán)重分配不同程度的關(guān)注,使車輛的視角特征得到更好的利用。
3.3.4 損失函數(shù)平衡參數(shù)的影響
文獻(xiàn)[14]和文獻(xiàn)[22]在利用多任務(wù)學(xué)習(xí)思想設(shè)計(jì)損失函數(shù)時(shí),采用的思路是通過固定全局特征的ID Loss 和Triplet loss 不變,改變其他特征(如局部特征)損失函數(shù)的參數(shù),從而得到較好的參數(shù)值。受上述文獻(xiàn)優(yōu)化多損失函數(shù)的啟發(fā),本文選擇先固定全局特征損失函數(shù)參數(shù),改變局部特征參數(shù)值,直到找到算法的最優(yōu)平衡參數(shù)?;诖?,本文設(shè)置消融實(shí)驗(yàn)驗(yàn)證損失函數(shù)平衡參數(shù)選擇對(duì)重識(shí)別的影響,結(jié)果如表4 所示。
表4 損失函數(shù)中平衡參數(shù)的影響Table 4 The effect of balance parameter in loss function
由式(8)可知,參數(shù)v越大,重識(shí)別結(jié)果越依賴于局部特征,而參數(shù)α和參數(shù)β越大,重識(shí)別結(jié)果越依賴于全局特征。當(dāng)參數(shù)α和參數(shù)β都為0 時(shí),模型僅學(xué)習(xí)視角局部特征。反之,當(dāng)參數(shù)v為0 時(shí),表示模型僅學(xué)習(xí)車輛的全局特征而忽略局部特征。因此,本文設(shè)置v∈[0,1],每隔0.2 重新訓(xùn)練模型并進(jìn)行測(cè)試。由表4 可知,當(dāng)α=β=1且v=0.6 時(shí),模型的重識(shí)別效果最好。因此,本文在后續(xù)實(shí)驗(yàn)中均采用v=0.6,α=β=1 的參數(shù)設(shè)置。
3.3.5 車輛視角內(nèi)局部注意力圖數(shù)量的影響
模型學(xué)習(xí)更多的局部區(qū)域特征通常能夠帶來更好的重識(shí)別效果。本文通過設(shè)計(jì)多組消融實(shí)驗(yàn)以驗(yàn)證視角內(nèi)局部注意力圖數(shù)量對(duì)重識(shí)別效果的影響,實(shí)驗(yàn)結(jié)果如表5 所示。為直觀地觀察車輛視角內(nèi)局部注意力圖個(gè)數(shù)與重識(shí)別效果的影響,本文可視化了表5 的實(shí)驗(yàn)結(jié)果,結(jié)果如圖6 所示。
表5 不同注意力圖數(shù)目的的實(shí)驗(yàn)結(jié)果對(duì)比Table 5 Comparison of experimental results of different number of attention map
圖6 注意力圖數(shù)目的性能比較Fig.6 Performance of comparison of the number of attention maps
由圖6 可知,隨著注意力圖數(shù)量的增加,重識(shí)別精度呈現(xiàn)上升后趨于平穩(wěn)的趨勢(shì)。其中,當(dāng)注意力圖數(shù)量小于6 時(shí),增加注意力圖數(shù)量能夠顯著提升重識(shí)別的精度。當(dāng)注意力圖數(shù)量超過6 時(shí),重識(shí)別精度逐漸趨于穩(wěn)定,最終mAP 值基本穩(wěn)定在0.812??紤]到模型訓(xùn)練資源和學(xué)習(xí)效率的因素,本文最終將VPAN 網(wǎng)絡(luò)中每個(gè)視角注意力圖數(shù)量設(shè)置為8。
為驗(yàn)證本文網(wǎng)絡(luò)的有效性,將VPAN 網(wǎng)絡(luò)分別在VeRi-776 和VehicleID 這2 個(gè)車輛公開數(shù)據(jù)集上與其他車輛重識(shí)別的網(wǎng)絡(luò)進(jìn)行對(duì)比,結(jié)果分別如表6和表7 所示。
表6 不同網(wǎng)絡(luò)在VeRi-776 數(shù)據(jù)集下的結(jié)果對(duì)比Table 6 Comparison of results of different networks under VeRi-776 dataset
表7 不同網(wǎng)絡(luò)在VehicleID 數(shù)據(jù)集下的結(jié)果對(duì)比Table 7 Comparison of results of different networks under VehicleID dataset
由表6 可知,相較于其他重識(shí)別網(wǎng)絡(luò),VPAN(本文網(wǎng)絡(luò))和PVEN 網(wǎng)絡(luò)在VeRi-776 數(shù)據(jù)集上的重識(shí)別精度均遠(yuǎn)超其他車輛重識(shí)別網(wǎng)絡(luò),取得了最高的mAP、CMC@1 和CMC@5。雖然PVEN 網(wǎng)絡(luò)能夠?qū)W習(xí)車輛視角特征,在一定程度上提高了重識(shí)別的精度,但該網(wǎng)絡(luò)不能學(xué)習(xí)到每個(gè)視角下所有鑒別力的局部特征,而這些細(xì)微局部對(duì)于區(qū)分2 輛外觀極其相似的車輛十分重要。不同于PVEN 網(wǎng)絡(luò),本文網(wǎng)絡(luò)不僅能夠?qū)W習(xí)到車輛視角特征,還能夠通過視角感知下的局部增強(qiáng)模塊自適應(yīng)學(xué)習(xí)每個(gè)視角下有區(qū)別性的局部特征。此外,在共同視角注意力增強(qiáng)模塊的幫助下,本文網(wǎng)絡(luò)增強(qiáng)了共同視角特征學(xué)習(xí)。
由表7可知,本文網(wǎng)絡(luò)在VehicleID的小、中和大3個(gè)測(cè)試子集上均取得了較優(yōu)的結(jié)果。在VehicleID 規(guī)模最大的子集上,本文網(wǎng)絡(luò)的CMC@1、CMC@5 值均比現(xiàn)有較好的PVEN 網(wǎng)絡(luò)高出了2.3個(gè)百分點(diǎn)。VehicleID大規(guī)模子集由于包含了更多車輛圖片視角變化、背景、遮擋等,因此相比于小和中兩個(gè)測(cè)試子集更難對(duì)車輛進(jìn)行重識(shí)別。綜上可知,相對(duì)于PVEN 等網(wǎng)絡(luò),本文網(wǎng)絡(luò)能夠更好地適應(yīng)車輛視角變化、背景、遮擋等惡劣條件,具有更強(qiáng)的特征表示能力。
本文通過構(gòu)建一種視角感知局部注意力網(wǎng)絡(luò)對(duì)車輛進(jìn)行重識(shí)別,采用視角感知下的局部增強(qiáng)模塊自適應(yīng)學(xué)習(xí)視角內(nèi)潛在的顯著性局部特征,通過共同視角注意力增強(qiáng)模塊,使重識(shí)別車輛共同視角下的特征學(xué)習(xí)得到增強(qiáng),不同視角下的特征學(xué)習(xí)得到抑制。在VeRi-776 和VehicleID 兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文網(wǎng)絡(luò)相比于PRN、PVEN、SAVER等網(wǎng)絡(luò)具有更高的識(shí)別精度和更強(qiáng)的泛化能力,在多視角場(chǎng)景下執(zhí)行重識(shí)別任務(wù)時(shí)的識(shí)別效果獲得了大幅提升。下一步將利用度量學(xué)習(xí)的方法設(shè)計(jì)更適合的損失函數(shù),以建模車輛的視角信息,實(shí)現(xiàn)無人工標(biāo)注下的車輛視角特征學(xué)習(xí)。