謝秀珍,羅志明,連 盛,李紹滋
(1.廈門大學(xué)信息學(xué)院,福建廈門361005;2.龍巖學(xué)院數(shù)學(xué)與信息工程學(xué)院,福建龍巖364002)
隨著城市車輛迅猛增加,對(duì)目標(biāo)車輛的快速查找、跟蹤和定位已成為公共交通安全管理的重要內(nèi)容之一.目前大部分道路交通監(jiān)控系統(tǒng)中,對(duì)車輛的識(shí)別主要是通過(guò)識(shí)別特定角度高清攝像頭拍攝的前后車牌號(hào)來(lái)完成的;但在實(shí)際環(huán)境中還存在大量攝像頭分辨率低、拍攝角度非特定、車牌被遮擋等情況,導(dǎo)致無(wú)法直接從視頻中提取車牌號(hào)來(lái)對(duì)車輛進(jìn)行識(shí)別,因此也需要采用其他方法實(shí)現(xiàn)對(duì)車輛的識(shí)別工作.車輛重識(shí)別也叫作車輛再識(shí)別,其主要目的是構(gòu)建一個(gè)跨攝像頭的車輛圖像檢索模型,能夠?qū)δ骋槐O(jiān)控?cái)z像頭下拍攝到的指定目標(biāo)車輛,實(shí)現(xiàn)快速準(zhǔn)確地檢索與識(shí)別該車輛在其他不同監(jiān)控?cái)z像頭下對(duì)應(yīng)出現(xiàn)的圖像[1].在真實(shí)的道路交通監(jiān)控場(chǎng)景中,車輛圖片不可避免受到各種因素的影響:光照明暗、拍攝角度、障礙物對(duì)目標(biāo)車輛的不同部位的遮蓋、攝像設(shè)備的分辨率不同等,都會(huì)導(dǎo)致很大的車輛外觀差異性.因此與其他目標(biāo)檢測(cè)識(shí)別[2-3]問(wèn)題相類似,要實(shí)現(xiàn)準(zhǔn)確的車輛重識(shí)別,其中的一個(gè)重要環(huán)節(jié)是提取車輛特征來(lái)作為重識(shí)別的主要依據(jù),特征的判別力強(qiáng)弱將直接影響重識(shí)別的結(jié)果.
在深度學(xué)習(xí)[4]方法被廣泛運(yùn)用之前,主要是通過(guò)手動(dòng)設(shè)計(jì)提取各種具有較強(qiáng)判斷性的視覺(jué)特征(整體或部分的顏色特征、紋理特征或關(guān)鍵敏感區(qū)域的特征).如:王盼盼等[5]手動(dòng)提取車輛圖片的HSV(hue,saturation,value)和局部二值模式(LBP)特征并進(jìn)行融合,再進(jìn)行奇異值分解,提取特征值;李熙瑩等[6]運(yùn)用部件檢測(cè)算法有針對(duì)性地檢測(cè)和提取區(qū)別性較強(qiáng)的車窗和車臉等部位的特征并將其進(jìn)行融合,生成新的融合特征,然后利用圖像特征之間的距離進(jìn)行分類識(shí)別.
隨著大規(guī)模車輛數(shù)據(jù)集的構(gòu)建,例如:VeRi-776數(shù)據(jù)集[7]、VehicleID數(shù)據(jù)集[8]、Toy Car RE-ID[9]數(shù)據(jù)集和VRIC[10]數(shù)據(jù)集,各種基于深度學(xué)習(xí)的車輛重識(shí)別模型也陸續(xù)被提出.Liu等[1]提出了“PROVID”模型來(lái)進(jìn)行漸進(jìn)式車輛重識(shí)別,實(shí)現(xiàn)在特征方面由粗到細(xì)以及監(jiān)控中由近及遠(yuǎn)相結(jié)合的搜索;Yan等[11]提出了一個(gè)基于多任務(wù)框架的模型,將車輛圖像建模成多粒度的關(guān)系,并提出了廣義的二元“相似/不相似”關(guān)系的成對(duì)排序和基于多粒度的列表排序方法,漸進(jìn)地利用多粒度排序約束來(lái)緩解精確車輛搜索問(wèn)題;Liu等[12]提出由4個(gè)分支構(gòu)成的“RAM”模型,把整體特征和區(qū)域特征聯(lián)合起來(lái),提取更詳細(xì)、更具辨別力的特征;Bai等[13]使用敏群三元組嵌入的方法,顯著減輕了類間相似和類內(nèi)方差對(duì)細(xì)粒度識(shí)別的影響;Zhou等[9]利用車輛角度信息,提出了兩種端到端深層架構(gòu),學(xué)習(xí)車輛不同視點(diǎn)角度的轉(zhuǎn)換;Shen等[14]結(jié)合時(shí)空信息,提出了一個(gè)兩階段框架,排除具有高相似度的不同車輛間的相互干擾,有效地規(guī)范了重識(shí)別結(jié)果;He等[15]通過(guò)訓(xùn)練一個(gè)額外的車輛部位檢測(cè)器,可以定位具有顯著判別能力的局部區(qū)域并提取相應(yīng)的特征,該方法可以有效地利用車輛的局部特征;Chen等[16]將車輛沿著水平、垂直以及特征通道方向劃分成多個(gè)不同的子部分,然后再將這些子部分的特征進(jìn)行融合,得到相對(duì)包含更多局部信息的車輛特征.
上述方法均有一定的代表性,說(shuō)明充分利用手動(dòng)提取或深度提取的特征,對(duì)車輛重識(shí)別工作中所依賴的車輛表觀信息或角度信息等特征進(jìn)行恰當(dāng)處理,均能夠取得不錯(cuò)的性能.目前大多數(shù)方法多從整體層面提取車輛特征,缺乏對(duì)局部細(xì)節(jié)的描述;或者使用額外的檢測(cè)分支來(lái)定位車輛局部區(qū)域,增加了人工標(biāo)注的工作量.此外,不同顏色或者不同車型的車輛肯定具有不同ID,且顏色與車型在變化的環(huán)境因素中亦能較容易被判斷和分類;但現(xiàn)有方法更多是將顏色、車型作為屬性信息加入到額外的監(jiān)督損失函數(shù)中,并沒(méi)有很好地將這些屬性信息融入到車輛的特征中用于提升車輛重識(shí)別的準(zhǔn)確率.
基于此,本文提出一種融合“多尺度表觀特征”與“車輛屬性信息”的車輛重識(shí)別算法模型.該模型以預(yù)訓(xùn)練的ResNet-50[17]作為骨干網(wǎng)絡(luò)提取車輛的基礎(chǔ)特征向量;通過(guò)兩個(gè)分支從中分別計(jì)算提取車輛顏色與車型相關(guān)的屬性特征、局部與整體融合的多尺度表觀特征;采用動(dòng)態(tài)自適應(yīng)加權(quán)的方式對(duì)這兩個(gè)分支的特征進(jìn)行融合,用于獲得更具有判別力和魯棒性的深度特征作為車輛的最終特征表示;并使用一個(gè)多任務(wù)目標(biāo)優(yōu)化函數(shù)對(duì)整個(gè)模型進(jìn)行參數(shù)優(yōu)化訓(xùn)練.
本文構(gòu)建了一個(gè)如圖1所示的車輛重識(shí)別網(wǎng)絡(luò)模型.該模型首先通過(guò)一個(gè)在ImageNet數(shù)據(jù)庫(kù)上構(gòu)建的骨干殘差網(wǎng)絡(luò)-50(ResNet-50)計(jì)算提取車輛基礎(chǔ)特征向量z;接下來(lái)分別從基礎(chǔ)特征向量中計(jì)算提取車輛顏色和車型屬性特征fattribute以及多尺度車輛表觀特征fappearance;然后將車輛屬性特征融合到車輛表觀特征以輔助提取強(qiáng)化提升的車輛特征向量f.本文通過(guò)一個(gè)多任務(wù)的損失函數(shù),在綜合考慮車輛分類、車輛顏色分類和車型分類的基礎(chǔ)上具體優(yōu)化網(wǎng)絡(luò)模型參數(shù).本節(jié)后續(xù)將分別介紹整個(gè)模型的具體計(jì)算流程.
圖1 融合表觀和屬性信息的車輛重識(shí)別網(wǎng)絡(luò)Fig.1The vehicle re-identification network fused appearance with attribute information
目前ImageNet數(shù)據(jù)庫(kù)上預(yù)訓(xùn)練的深度網(wǎng)絡(luò)模型被廣泛作為各種計(jì)算機(jī)視覺(jué)任務(wù)的特征提取骨干網(wǎng)絡(luò).預(yù)訓(xùn)練模型指的是已經(jīng)訓(xùn)練好的能執(zhí)行大量數(shù)據(jù)任務(wù)的深度學(xué)習(xí)框架卷積神經(jīng)網(wǎng)絡(luò)(CNN).預(yù)訓(xùn)練結(jié)束時(shí),會(huì)得到結(jié)果較好的一組權(quán)重值供他人研究共享.隨著深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)的增加,CNN表達(dá)力增強(qiáng),有利于提高分類準(zhǔn)確率;但層數(shù)并不是可以無(wú)限增加的,到達(dá)瓶頸值后網(wǎng)絡(luò)收斂緩慢,分類準(zhǔn)確率不升反降.這種情況下,采用ResNet能解決這個(gè)問(wèn)題:通過(guò)增加殘差結(jié)構(gòu)單元,讓網(wǎng)絡(luò)在層數(shù)增加的同時(shí)不會(huì)出現(xiàn)退化現(xiàn)象.本文綜合考慮準(zhǔn)確率和計(jì)算復(fù)雜度,采用了目前其中之一的ResNet-50[17]作為骨干特征提取器,用于提取車輛圖片的基礎(chǔ)特征向量z.實(shí)際計(jì)算過(guò)程中,為了提取局部特征,本文中刪除了ResNet-50網(wǎng)絡(luò)中的全局池化層及后續(xù)的全連接(FC)層,并把最后一個(gè)殘差模塊的步長(zhǎng)設(shè)置為1,因此對(duì)于一個(gè)256×256大小的輸入圖片,初始特征向量的維度為z∈R16×16×2 048.
車輛的顏色與車型是從整體上描述車輛的相關(guān)屬性信息,因此,在本文中從共享的全局特征向量z中計(jì)算提取出車輛的顏色車型屬性.首先通過(guò)一個(gè)全局的池化層將骨干網(wǎng)絡(luò)計(jì)算提取的初始基礎(chǔ)特征向量z轉(zhuǎn)換成一維的特征向量,然后再通過(guò)一個(gè)FC層映射成最終的屬性特征向量fattribute:
fattribute=δ(W1P(z)),
(1)
其中,W1∈R512×2 048為屬性特征對(duì)應(yīng)FC層的參數(shù)矩陣,P是全局平均池化操作,δ是ReLU激活函數(shù).
在車輛重識(shí)別過(guò)程中,車輛的全局表觀特征是從整體上識(shí)別車輛,在特定環(huán)境下具有較強(qiáng)的判斷力,是必不可少的重識(shí)別特征;但在環(huán)境影響下,同一個(gè)車輛的整體表觀特征差異較大,由于全局特征缺乏對(duì)局部細(xì)節(jié)的細(xì)節(jié)描述,在一定程度上降低了表達(dá)力.而局部特征是對(duì)車輛某個(gè)部分的具體描述,例如車輛前部的車標(biāo)、車尾的形狀、兩側(cè)的外觀等,對(duì)車輛的特征表達(dá)比較細(xì)膩具體,區(qū)分度明顯,能補(bǔ)充增加整體特征的表達(dá)力;尤其是在處理相同顏色、相同車型整體屬性的車輛時(shí),局部特征更是發(fā)揮了關(guān)鍵的輔助“點(diǎn)睛”作用.基于此,本文在提取車輛表觀特征時(shí),除了提取車輛的全局表觀特征外,同時(shí)分別沿著水平方向和垂直方向?qū)④囕v劃分成左、中、右和上、中、下等不同的區(qū)域提取對(duì)應(yīng)的局部特征,這里各區(qū)域的劃分不是平均分配,而是有所重疊.每個(gè)區(qū)域的劃分量占整體的1/2,其中水平方向的中部和垂直方向的中部各被使用2次(如圖1所示的虛線框部分).最后將各局部特征與整體特征進(jìn)行融合,得到最終的多尺度車輛表觀特征.
1) 全局特征提取.全局特征從整體上表示車輛的表觀信息,與屬性特征提取相類似,本文同樣通過(guò)一個(gè)全局的池化層將初始特征向量z轉(zhuǎn)換成一維的全局特征向量fg:
fg=P(z).
(2)
2) 水平方向的局部特征提取.車輛前部的車標(biāo)、車窗等局部區(qū)域能夠提供較為具體的車輛信息,這些局部信息對(duì)車輛的重識(shí)別非常有幫助,但精確地提取這些信息需要大量的人工標(biāo)注,工作量大.通過(guò)觀察,本文中發(fā)現(xiàn)一些比較固定的事實(shí)可利用,如車輛的車窗通常位于整個(gè)圖片的上半部分,車標(biāo)和車燈位于圖片的下半部分等.
因此,本文在提取水平方向局部特征時(shí),首先沿著水平方向把z重疊的部分分成左、中、右3個(gè)局部特征,即h1=z[0:7;:;:]、h2=z[4:11;:;:]、h3=z[8:15;:;:];然后通過(guò)池化操作分別把h1、h2和h3轉(zhuǎn)換成一維特征向量;最后使用求和操作把這3個(gè)局部特征融合成表示整個(gè)車輛水平方向的局部特征fh:
fh=P(h1)+P(h2)+P(h3).
(3)
3) 垂直方向的局部特征提取.在提取垂直方向的局部特征時(shí),本文采用與提取水平方向的局部特征相類似的方法.首先沿著垂直方向把z有重疊的分成上、中、下3個(gè)局部的特征,即v1=z[:;0:7;:]、v2=z[:;4:11;:]、v3=z[:;8:15;:];接下來(lái)也采用池化與求和操作得到融合后的垂直方向的局部特征fv:
fv=P(v1)+P(v2)+P(v3).
(4)
在計(jì)算得到fg、fh和fv之后,將這3種特征進(jìn)行融合,得到總的表觀特征fappearance.本文中主要通過(guò)一個(gè)串聯(lián)層和一個(gè)FC層計(jì)算得到車輛最終的fappearance.首先使用串聯(lián)層得到一個(gè)高維的特征向量,再通過(guò)FC層將高維的特征向量進(jìn)行降維,同時(shí)保持與屬性特征的維度一致.具體的計(jì)算式為:
fappearance=δ(W2[fg,fh,fv]),
(5)
其中W2∈R512×6 144為表觀特征對(duì)應(yīng)FC層的參數(shù)矩陣.
在完成屬性特征與多尺度表觀特征的提取工作之后,通過(guò)注意力的加權(quán)求和將屬性特征與表觀特征進(jìn)行融合.首先,通過(guò)一個(gè)注意力機(jī)制,利用多尺度表觀特征計(jì)算屬性特征的加權(quán)權(quán)重,使用該權(quán)重對(duì)屬性特征進(jìn)行加權(quán);再與多尺度表觀特征進(jìn)行融合得到車輛最終的特征向量f:
f=fappearance+φ1(W3fappearance)fattribute.
(6)
其中:W3∈R1×512為計(jì)算屬性特征注意力權(quán)重的FC層參數(shù);φ1是Sigmoid激活函數(shù),將權(quán)重值轉(zhuǎn)換到[0,1]之間.
針對(duì)車輛的顏色與車型屬性識(shí)別,本文在屬性特征fattribute的后面增加兩個(gè)并行FC層,用于計(jì)算將提取的屬性特征分類到不同的顏色和車型的概率:
pcolor=φ2(Wcolorfattribute),
(7)
ptype=φ2(Wtypefattribute),
(8)
其中,Wcolor∈RC×512是顏色分類FC層的參數(shù)矩陣,Wtype∈RT×512是車型分類FC的參數(shù)矩陣,φ2是Softmax激活函數(shù),C和T分別是整個(gè)數(shù)據(jù)庫(kù)中車輛顏色與車型的種類.
針對(duì)車輛ID標(biāo)簽分類部分,本文在特征向量f后面增加一個(gè)FC層,用于計(jì)算將不同的車輛圖片分類到對(duì)應(yīng)的車輛ID類別的概率.在訓(xùn)練過(guò)程中,將同一輛車的所有不同攝像頭拍攝得到的車輛圖片的ID分類標(biāo)簽設(shè)為一致,作為一個(gè)相同的類別,該類別的概率為:
pID=φ2(WIDf),
(9)
其中,WID∈RN×512,是車輛分類FC的參數(shù)矩陣,N是訓(xùn)練集中所有不同車輛的ID數(shù).
得到pcolor、ptype和pID后,使用交叉熵?fù)p失函數(shù)計(jì)算得出各自的分類損失Lcolor、Ltype和LID,計(jì)算如下:
L=-qTlog(p),
(10)
其中,q是訓(xùn)練數(shù)據(jù)的真實(shí)的獨(dú)熱(one-hot)標(biāo)簽,p是模型的輸出概率.
最后再使用了一個(gè)多任務(wù)的優(yōu)化目標(biāo)函數(shù)用于優(yōu)化整個(gè)網(wǎng)絡(luò)模型的參數(shù).該優(yōu)化目標(biāo)函數(shù)L由3個(gè)部分組成,分別是車輛的ID分類損失LID、顏色分類損失Lcolor和車型的分類損失Ltype:
L=λ1LID+λ2Lcolor+λ3Ltype,
(11)
其中,λ1、λ2和λ3為L(zhǎng)ID、Lcolor和Ltype相應(yīng)的權(quán)重.
另外,在車輛重識(shí)別模型的訓(xùn)練過(guò)程中,三元組Triplet損失函數(shù)[18]也經(jīng)常被用于減小相同ID車輛圖片的歐式距離,同時(shí)增加不同ID車輛圖片之間的歐式距離.錨點(diǎn)車輛圖片a、相同ID的其他車輛圖片p、其他ID的車輛圖片n構(gòu)成三元組(a,p,n),相應(yīng)的Triplet損失函數(shù)為:
(12)
其中:D為兩個(gè)樣本間的歐式距離;m是正負(fù)樣本之間的歐式距離間隔,在本文中取值為0.3;ya、yp、yn分別是車輛圖片a,p,n對(duì)應(yīng)的ID.
為進(jìn)一步增加特征的判別力,在優(yōu)化目標(biāo)函數(shù)(11)的基礎(chǔ)上,本文將Triplet損失函數(shù)引入模型的訓(xùn)練,得到最終的優(yōu)化目標(biāo)函數(shù):
L=λ1LID+λ2Lcolor+λ3Ltype+λ4Ltriplet,
(13)
其中λ4是Ltriplet對(duì)應(yīng)的權(quán)重.
為驗(yàn)證本文所提算法模型的有效性,在VeRi-776數(shù)據(jù)集上進(jìn)行了訓(xùn)練與測(cè)試,并與其他幾個(gè)目前性能較優(yōu)的算法進(jìn)行對(duì)比.
VeRi-776數(shù)據(jù)集是由北京郵電大學(xué)構(gòu)建的用于車輛重識(shí)別的數(shù)據(jù)集,該數(shù)據(jù)集有城市監(jiān)控場(chǎng)景下20個(gè)攝像頭拍攝的776輛汽車的50 000多張圖片,將其中576輛汽車的37 778張圖片用于構(gòu)建訓(xùn)練集,剩下的200輛汽車的11 579張和1 678張圖片分別用于構(gòu)建測(cè)試集和查詢集.數(shù)據(jù)庫(kù)中每一輛車的多張圖片均由2~18個(gè)攝像頭在不同角度、光照、分辨率和遮擋情況下拍攝得到,同時(shí)也標(biāo)注了每一輛車的顏色與車型信息.車輛的顏色有黑、灰、白、紅、綠、橙、黃、金、棕和藍(lán)10種顏色;車型有轎車、運(yùn)動(dòng)型多用途車(SUV)、兩廂車、多用途車(MPV)、廂式車、皮卡車、公共汽車、卡車和房車9種車型.
為評(píng)價(jià)模型的準(zhǔn)確率,本文采用平均精度均值(mean average precision,mAP)和Rank-k作為車輛重識(shí)別效果的評(píng)價(jià)指標(biāo).
1) mAP.車輛重識(shí)別是一種圖像檢索任務(wù),mAP是圖像檢索任務(wù)中常用的評(píng)測(cè)指標(biāo),通過(guò)綜合考慮召回率和準(zhǔn)確率來(lái)評(píng)價(jià)算法全局性能.對(duì)查詢集中的某一張圖片,假設(shè)在測(cè)試集中與之相關(guān)的正確圖片數(shù)為k,該圖片檢索的平均精度(average precision,AP)pav定義如下:
(14)
其中,Ri指按照相似度從高到低排序后包含前i個(gè)正確檢索結(jié)果所需的最少檢索圖片數(shù).在計(jì)算得到查詢集中每一張圖片的AP之后,對(duì)所有查詢圖片的AP求平均得到mAP.
2) Rank-k.車輛重識(shí)別任務(wù)就是要在車輛圖片數(shù)據(jù)集中尋找與被查詢車輛最相似的車輛.對(duì)于每一張被查詢圖像,計(jì)算它與數(shù)據(jù)庫(kù)中所有圖像的相似度.Rank-k即表示根據(jù)相似度進(jìn)行排序后的結(jié)果中,與被查詢車輛可能屬于同一ID的前k張圖像.
輸入到模型的圖片尺寸均縮放像素為256×256,批大小為64,使用隨機(jī)梯度下降法Nesterov訓(xùn)練參數(shù),新添加層的初始學(xué)習(xí)率為0.1,其他預(yù)訓(xùn)練層的初始學(xué)習(xí)率為0.01.網(wǎng)絡(luò)模型共訓(xùn)練40輪,在第20輪時(shí)把學(xué)習(xí)率乘以0.1.訓(xùn)練的過(guò)程中,本文也采用將圖片隨機(jī)翻轉(zhuǎn)和隨機(jī)擦除的數(shù)據(jù)增強(qiáng)方法.式(11)和(13)中的λ1、λ2、λ3和λ4的取值分別為1,0.5,0.5和0.5.在Triplet損失訓(xùn)練時(shí),采用困難樣本挖掘策略.
在進(jìn)行車輛重識(shí)別檢索測(cè)試時(shí),本文采用f的相似度作為判別標(biāo)準(zhǔn),相似度計(jì)算采用的度量距離為歐式距離.
本文提出的算法模型在提取特征時(shí)融合了屬性特征與表觀特征,其中多尺度表觀特征融合了根據(jù)水平方向和垂直方向劃分的多個(gè)局部特征和全局特征的多尺度特征,因此在第一部分實(shí)驗(yàn)中,主要分析網(wǎng)絡(luò)模型中不同特征模塊組合對(duì)車輛重識(shí)別準(zhǔn)確率的影響.只包含單一全局表觀特征,不包含屬性特征、水平方向和垂直方向局部特征的基準(zhǔn)模型記為Baseline;在Baseline模型的基礎(chǔ)上增加局部特征的模型記為Baseline+Part,增加屬性特征的模型記為Baseline+Attribute;增加局部特征與屬性特征的模型記為Baseline+Part & Attribute.
各模型的準(zhǔn)確率如表1所示.單獨(dú)增加局部特征和屬性特征時(shí),相比于Baseline模型,mAP分別提高了0.8和1.1個(gè)百分點(diǎn),Rank-1提高了1和1.2個(gè)百分點(diǎn);在同時(shí)增加這兩個(gè)特征時(shí),mAP可達(dá)到72.9%,Rank-1達(dá)到95.1%.該結(jié)果表明本文構(gòu)建的局部特征和屬性特征對(duì)車輛重識(shí)別的準(zhǔn)確率的提升有顯著作用,且這兩種特征互補(bǔ).
除了對(duì)比增加不同特征模塊對(duì)車輛重識(shí)別準(zhǔn)確率的影響外,本文也計(jì)算了Baseline+Part & Attribute模型對(duì)于車輛顏色和車型分類的準(zhǔn)確率.在VeRi-776數(shù)據(jù)集的測(cè)試集與查詢集上的顏色識(shí)別準(zhǔn)確率分別為94.7%和95.1%,車型識(shí)別準(zhǔn)確率分別為93.3%和93.9%.另外,通過(guò)對(duì)測(cè)試集上混淆矩陣分析發(fā)現(xiàn):在顏色識(shí)別過(guò)程中,易出現(xiàn)將白色分類為灰色,棕色分類為黑色的錯(cuò)誤;在車型識(shí)別過(guò)程中主要存在將SUV分類為轎車,兩廂車分類為轎車的錯(cuò)誤.
表1 不同特征組合得到的mAP和Rank-k準(zhǔn)確率Tab.1 The mAP and Rank-k accuracies of different feature combinations %
接下來(lái),本文比較了所構(gòu)建的車輛重識(shí)別算法模型與近年來(lái)性能較優(yōu)的算法模型的準(zhǔn)確率,按照取得的mAP排序,結(jié)果如表2所示.可以看出,本文提出的模型取得比其他大部分模型更高的mAP.其中,DenseNet121[19]、VAMI[20]、PROVID[1]、VGG+CTS[21]和VSTP[14]取得的mAP分別為:45.1%,50.1%,53.4%,58.3%和58.8%,遠(yuǎn)低于本文采用的ResNet-50骨干模型的準(zhǔn)確率78.2%.其中DenseNet121[19]和VGG+CTS[21]采用的DenseNet121和VGG模型,其提取的基礎(chǔ)特征判別力低,從而導(dǎo)致最終的準(zhǔn)確率偏低;VAMI[20]首先為每張輸入圖像提取單視圖特征,再使用單個(gè)角度的特征生成多角度的特征,最終得到全局多視圖特征,但生成多角度的特征與真實(shí)的多角度特征還是存在一定的差異,因此效果一般;PROVID[1]和VSTP[14]結(jié)合時(shí)間或空間信息,雖然能從時(shí)序上對(duì)檢索結(jié)果進(jìn)行一定的重排序,但是所使用的基礎(chǔ)網(wǎng)絡(luò)判別力以及時(shí)序信息的計(jì)算會(huì)增加相應(yīng)的計(jì)算復(fù)雜度.SSL[22]通過(guò)(GAN)生成大量的虛擬樣本用于數(shù)據(jù)擴(kuò)充,并使用半監(jiān)督的方法進(jìn)行訓(xùn)練,可以在一定程度提高識(shí)別的準(zhǔn)確率,但使用GAN會(huì)增加模型的訓(xùn)練時(shí)間和計(jì)算復(fù)雜度.RAM[12]提出了4個(gè)分支構(gòu)成的深度模型,也是通過(guò)把整體特征和區(qū)域特征進(jìn)行聯(lián)合起來(lái),用于提取更詳細(xì)、更具辨別力的特征,但該模型提取的特征維度更高,易造成對(duì)訓(xùn)練數(shù)據(jù)的過(guò)擬合.QD-DLF[23]設(shè)計(jì)四向深度學(xué)習(xí)網(wǎng)絡(luò)將基本特征映射壓縮為水平、垂直、對(duì)角線和反對(duì)角方向特征圖,最后將這些特征歸一化用于獲取多維度的表觀特征,但該方法并沒(méi)有考慮車輛的屬性等相關(guān)信息.MTCRO[24]使用多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)和新型排序優(yōu)化的方法,可以在一定程度上提高特征提取后的檢索精度.BS[25]中使用了聯(lián)合Triplet損失函數(shù)與交叉熵分類損失函數(shù)訓(xùn)練網(wǎng)絡(luò)模型,可以取得比單獨(dú)使用交叉熵分類損失函數(shù)更優(yōu)的性能,但整體性能并未見(jiàn)優(yōu)勢(shì).JDRN[26]提出了一種多域聯(lián)合學(xué)習(xí)框架,通過(guò)利用多個(gè)數(shù)據(jù)集的車輛圖片訓(xùn)練一個(gè)更加魯棒的模型,該方法雖然可以提高準(zhǔn)確率,但對(duì)數(shù)據(jù)集要求更高,需要利用多個(gè)不同的數(shù)據(jù)集來(lái)訓(xùn)練模型.最后,我們注意到:由于MRL+Softmax[27]在增加不同車輛之間基礎(chǔ)上通過(guò)度量學(xué)習(xí),使相同車輛在不同視角下的距離相對(duì)增大,使用Softmax函數(shù)訓(xùn)練后在Veri-776數(shù)據(jù)庫(kù)上的mAP和Rank-5可以達(dá)到78.5% 和99.0%,超過(guò)了本文的78.2%和97.0%,但MRL+Softmax通過(guò)聚類估計(jì)車輛視角時(shí)會(huì)引入新的數(shù)據(jù)噪聲,導(dǎo)致Rank-1指標(biāo)上要低于本文的95.8%,其次MRL+Softmax引入了視角約束也會(huì)增加模型的訓(xùn)練復(fù)雜度.
另外,Re-ranking[28]被作為一種后處理的方法,被用于提高重識(shí)別排序的準(zhǔn)確率,在本文中也將Re-ranking用于提高車輛重識(shí)別的準(zhǔn)確率.從表2中可以看到,SSL[22]與JDRN[26]以及本文所提方法在使用Re-ranking進(jìn)行后處理之后,mAP均有提高,其中,本文方法從75.0%提高到78.2%,優(yōu)于SSL[22]與JDRN[26]分別使用Re-ranking后的準(zhǔn)確率69.9%和73.1%.
最后,隨機(jī)選取7個(gè)不同車輛,使用本文方法結(jié)合Triplet損失進(jìn)行訓(xùn)練,重識(shí)別結(jié)果按照相似度從高到低進(jìn)行可視化排序,如圖2所示.可以看出,本文構(gòu)建的方法可以準(zhǔn)確地重識(shí)別不同角度、不同光照條件拍攝的同一車輛,同時(shí)也發(fā)現(xiàn)通過(guò)紅色框標(biāo)注出來(lái)的識(shí)別錯(cuò)誤主要集中在相同車型或相同顏色的車輛之間的區(qū)分錯(cuò)誤.
表2 不同車輛重識(shí)別方法的對(duì)比Tab.2 The comparison of differentRe-identification methods %
圖2 本文所構(gòu)建模型相似度排名前10的檢索結(jié)果Fig.2The top-10 retrieval result of our method
本文嘗試將車輛的顏色、車型屬性信息融合到多尺度車輛表觀信息來(lái)獲得既具判別力又具魯棒性的車輛特征.在改良的ResNet-50網(wǎng)絡(luò)計(jì)算基礎(chǔ)特征向量的基礎(chǔ)上,用兩個(gè)分支分別計(jì)算車輛屬性特征和多尺度表觀特征,再進(jìn)行融合得到最終特征向量,通過(guò)多任務(wù)優(yōu)化目標(biāo)函數(shù)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化.在VeRi-776測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了本文方法的識(shí)別效果遠(yuǎn)遠(yuǎn)優(yōu)于目前的大多數(shù)性能較優(yōu)的方法.然而,本文方法也不可避免地存在不足之處:在顏色識(shí)別過(guò)程中易將白色分類為灰色,棕色分類為黑色;在車型識(shí)別過(guò)程中的錯(cuò)誤主要有將SUV分類為轎車,將兩廂車分類為轎車等.后續(xù)的研究工作中將嘗試解決這些問(wèn)題.