秦曉飛,李 為,白永升,朱 玥,羅文彤,趙 剛,賈 程,李成名,魯小東,周堅(jiān)風(fēng)
(1.上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093;2.上海理工大學(xué) 機(jī)械工程學(xué)院,上海 200093;3.杭州億美實(shí)業(yè)有限公司,浙江 杭州 310000;4.杭州億美光電科技有限公司,浙江 杭州 310000)
行人再識(shí)別技術(shù)是指在非重疊攝像頭的場(chǎng)景給定一張行人圖片,檢索該行人在另一攝像頭出現(xiàn)的所有圖像。隨著視頻監(jiān)控和圖片檢索的普及,行人再識(shí)別技術(shù)得到越來(lái)越多的關(guān)注和研究。由于受到光照變化、被物遮擋、視角和姿態(tài)的變化,視頻中的行人外觀會(huì)發(fā)生改變,這對(duì)行人再識(shí)別帶來(lái)很大的技術(shù)挑戰(zhàn)。
在目前工作中,行人再識(shí)別的研究主要集中在特征提取和度量學(xué)習(xí)這兩個(gè)方面[1]。前者主要研究如何提取更具有代表性的特征,使特征表達(dá)更加魯棒和具有辨別性;后者則是優(yōu)化行人特征空間距離,提高空間距離判別性。隨著卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)在計(jì)算機(jī)視覺(jué)方面取得越來(lái)越多的成果,端到端的學(xué)習(xí)方法也被運(yùn)用到行人再識(shí)別任務(wù)中。Li等[2]利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)兩張輸入圖片進(jìn)行特征提取,并針對(duì)特征圖水平條紋進(jìn)行相似度比較。Ahmed等[3]提出將圖片分為不同的塊,利用一個(gè)淺層網(wǎng)絡(luò)比較相鄰塊的差異,再利用一個(gè)網(wǎng)絡(luò)層總結(jié)上層網(wǎng)絡(luò)的差異。Gray等[4]提出將行人再識(shí)別視為一個(gè)二分類(lèi)問(wèn)題,利用孿生網(wǎng)絡(luò)分別提取圖片的特征并進(jìn)行匹配。這些方法通過(guò)利用CNN(convolutional network)提取特征并結(jié)合空間對(duì)應(yīng)關(guān)系來(lái)進(jìn)行相似度比較。然而這些方法只是針對(duì)完整的行人圖片,沒(méi)有考慮光照、遮擋、姿態(tài)引起的空間信息的變化,也忽略了行人各部位的辨別性信息。卷積神經(jīng)網(wǎng)絡(luò)算法取得良好效果的同時(shí)也帶來(lái)了大量的模型參數(shù),應(yīng)用到行人再識(shí)別任務(wù)時(shí)由于較小的數(shù)據(jù)集會(huì)產(chǎn)生過(guò)擬合現(xiàn)象。為了解決這個(gè)問(wèn)題,Yi等[5]提出將行人圖片分割為重疊的三部分,然后利用孿生網(wǎng)絡(luò)比較對(duì)應(yīng)兩部分的相似度。然而該方法在特征層進(jìn)行相似度比較時(shí)容易帶來(lái)大量參數(shù),從而引起過(guò)擬合現(xiàn)象。為了解決這個(gè)問(wèn)題,通過(guò)充分利用局部部位的空間信息,Amores等[6]提出了將行人特征映射到距離空間的一種MIL算法,這樣可以減少背景噪聲的干擾并減輕過(guò)擬合的產(chǎn)生。
為了在行人外觀發(fā)生顯著變化的情況下進(jìn)一步提高行人再識(shí)別的準(zhǔn)確性,本文提出了一種基于孿生網(wǎng)絡(luò)和多距離融合的行人再識(shí)別算法。先利用孿生網(wǎng)絡(luò)提取行人子空間特征,同時(shí)采用改進(jìn)的inception模塊提取具有辨識(shí)性的行人特征,計(jì)算獲取行人局部特征空間距離,然后采取Chamfer距離變換進(jìn)行距離融合,并對(duì)獲取的行人空間距離進(jìn)行重排序,從而進(jìn)行行人再識(shí)別。
本文采用的整體網(wǎng)絡(luò)結(jié)構(gòu)是孿生網(wǎng)絡(luò)結(jié)構(gòu),孿生網(wǎng)絡(luò)由完全相同的兩個(gè)網(wǎng)絡(luò)分支組成,每個(gè)分支用來(lái)提取判別性特征,并且融合了contrastive loss(對(duì)比損失),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。對(duì)于輸入圖像,我們采用Yi等[5]所提的滑框的方法得到數(shù)量L=6的局部塊,每個(gè)局部塊我們標(biāo)記為,其中i表示分割的第i個(gè)局部塊,j表示所要比較的第j個(gè)空間距離。我們?cè)诿總€(gè)分支上采用改進(jìn)的inception模塊提取特征,并且權(quán)重共享。圖1是本文提出包括兩個(gè)分支的孿生網(wǎng)絡(luò)結(jié)構(gòu),每個(gè)CNN分支由conv1-conv3卷積層和三個(gè)inception模塊組成,其中conv1-conv3卷積層提取淺層特征,而三個(gè)inception模塊用來(lái)提取深層特征,最后通過(guò)兩個(gè)全連接層輸出300維的向量。
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig. 1 Network structure diagram of this paper
本文采取了inception模塊來(lái)提取特征,Inception模塊是2014年在GoogleNet中首先使用的一個(gè)模塊[7],具有增加特征表達(dá)和減少計(jì)算的優(yōu)點(diǎn)。由于其采用了多個(gè)尺寸的卷積核,可以增強(qiáng)網(wǎng)絡(luò)的適應(yīng)力,處理更多、更豐富的空間特性,增加特征提取多樣性。模塊加入了池化層和BN(batch norm),池化層主要用來(lái)降低空間維度,BN則是一種很有效的正則化方法,這樣可以加快網(wǎng)絡(luò)的訓(xùn)練速度。batch norm批處理化這種方式在ReLU層之前使用,可以大大加快收斂過(guò)程。由于攝像頭的視角轉(zhuǎn)換和行人姿態(tài)不同導(dǎo)致圖像差異,我們采用Max pooling池化方式取局部最大激活并作為接下來(lái)層的輸入,可以保持局部變形的不變性質(zhì)。由于原始的inception卷積核較大導(dǎo)致收斂速度變慢而影響算法性能,我們?cè)谠瓉?lái)inception模塊基礎(chǔ)上做了改進(jìn),將原來(lái)5×5的卷積核用兩個(gè)3×3卷積核替代,這樣可以節(jié)約大量的參數(shù),加速計(jì)算并且減輕過(guò)擬合。每個(gè)全連接組包含了一個(gè)全連接層、一個(gè)BN層以及激活函數(shù)ReLU層。改進(jìn)的inception模塊如圖2所示,基本網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
由于行人圖片受到光照、視角和姿態(tài)的差異,外觀變化顯著,整體特征無(wú)法描述一個(gè)人的局部信息,而且在訓(xùn)練的過(guò)程中由于數(shù)據(jù)集較小會(huì)出現(xiàn)過(guò)擬合等問(wèn)題。為了獲得更好的行人局部空間特征信息,提高跨攝像頭行人再識(shí)別的準(zhǔn)確率并減少過(guò)擬合現(xiàn)象,本文提出一種多距離融合的方法,利用孿生網(wǎng)絡(luò)提取圖片子空間特征,并將其映射到一個(gè)距離空間,這樣我們就能得到比整張圖片更有判別性的空間融合距離。本文距離融合網(wǎng)絡(luò)由三部分組成,分別為特征提取部分,距離融合部分和重排序部分。多距離融合算法可以更充分利用行人局部空間信息,并在映射的距離空間度量其相似度,減少了過(guò)擬合現(xiàn)象。其算法框架如圖3所示。
圖2 本文所采用的 inception 模塊Fig. 2 Basic structure of inception module of this paper
表1 基本網(wǎng)絡(luò)結(jié)構(gòu)Tab. 1 Basic network structure
通過(guò)孿生網(wǎng)絡(luò),我們對(duì)每個(gè)查詢圖片(probe image)和候選圖片(gallery image)提取特征,然后計(jì)算每個(gè)局部塊之間空間距離,其L2規(guī)范化特征空間距離我們可以通過(guò)式(1)求得。
由于采取了多距離融合算法,為了增強(qiáng)跨攝像頭下的行人距離度量的魯棒性。本文采用Chamfer距離變換。Chamfer距離變換具有對(duì)稱性,被運(yùn)用在邊緣檢測(cè)方面可以減少奇異距離對(duì)融合距離的影響,有效增強(qiáng)融合距離的魯棒性。對(duì)于每個(gè)局部塊對(duì)的空間距離,其空間距離如下:
圖3 本文所提多距離融合算法框架Fig. 3 The framework of multi-distance fusion algorithms
為了提高空間距離魯棒性,行人空間距離使用Chamfer變換式,即
為了得到最終融合距離,我們將每個(gè)圖像塊的空間融合距離表示如下:
由此我們可以計(jì)算行人圖片的空間距離,可以對(duì)候選圖片進(jìn)行重排序,最終得到排序的結(jié)果。
我們使用了Windows10操作系統(tǒng)和GPU1080的電腦,應(yīng)用Pytorch框架進(jìn)行編程,在最具有挑戰(zhàn)性的兩個(gè)公開(kāi)數(shù)據(jù)集VIPeR和CUHK03上進(jìn)行實(shí)驗(yàn),并且每個(gè)數(shù)據(jù)集在同等條件下訓(xùn)練10次,最后取平均值作為測(cè)試結(jié)果。采用累積匹配特性(CMC)曲線和平均精度均值mAP作為算法框架評(píng)價(jià)指標(biāo)。
我們?cè)诋?dāng)前廣泛使用的兩個(gè)公開(kāi)數(shù)據(jù)集VIPeR[8]和CUHK03[2]上測(cè)試了我們所提算法的有效性。VIPeR數(shù)據(jù)集是行人再識(shí)別領(lǐng)域最受歡迎和富有挑戰(zhàn)性的數(shù)據(jù)集。它包含了632個(gè)行人的1264張圖片,這些圖片是由兩個(gè)相互獨(dú)立的攝像頭在室外環(huán)境下采集得到,如果單個(gè)行人在其中一個(gè)攝像頭下出現(xiàn),則在另一個(gè)攝像頭下會(huì)采集到該行人相應(yīng)的人像。由于其具有豐富的視角變換、姿態(tài)轉(zhuǎn)換和不同的光照條件,VIPeR數(shù)據(jù)集充滿了挑戰(zhàn)性。CUHK03數(shù)據(jù)集是一個(gè)由5對(duì)攝像頭采集于香港科技大學(xué)的數(shù)據(jù)集,它包含了1 467個(gè)行人的共計(jì)超過(guò)14 000張圖片,每個(gè)行人都會(huì)在非重疊攝像頭下被采集并平均擁有4.8張圖片。CUHK03數(shù)據(jù)集應(yīng)用手工標(biāo)注和自動(dòng)標(biāo)注兩種標(biāo)注方式,本文在這兩種標(biāo)注方式下分別做了實(shí)驗(yàn)。CUHK03是當(dāng)前比較大的一個(gè)行人再識(shí)別數(shù)據(jù)集。
采取相同結(jié)構(gòu)的孿生網(wǎng)絡(luò)提取特征,在VIPeR和CUHK03兩個(gè)數(shù)據(jù)集上測(cè)試我們所提多距離融合算法的有效性,結(jié)果如圖4所示。由此得到,在VIPeR和CUHK03數(shù)據(jù)集(Labeled)下采取多距離融合算法達(dá)到的排序1的識(shí)別率分別為43.2%和62.3%,而未采取多距離融合算法的識(shí)別率分別為35.1%和48.4%。采用CUHK03數(shù)據(jù)集對(duì)不同的滑框尺度進(jìn)行性能比較,得到結(jié)果如表2所示。通過(guò)表2可以看出,當(dāng)局部塊數(shù)量L=6時(shí),在Labeled和Detected兩種標(biāo)注方式下的rank-1和mAP都最高,即效果最好。由此可見(jiàn),本文提出的基于孿生網(wǎng)絡(luò)和多距離融合的行人再識(shí)別算法能夠有效提高行人再識(shí)別準(zhǔn)確率。
圖4 采用不同空間距離在VIPeR和CUHK03數(shù)據(jù)集(Labeled)上的CMC性能比較Fig. 4 CMC performance comparison on VIPeR and CUHK03(Labeled)data sets using different spatial distances
本文分別在VIPeR和CUHK03兩個(gè)數(shù)據(jù)集下,與近幾年行人再識(shí)別的其他先進(jìn)算法進(jìn)行性能比較。在VIPeR數(shù)據(jù)集上我們和當(dāng)今的先進(jìn)算法比較,本文網(wǎng)絡(luò)結(jié)構(gòu)更深并且包含了更多的網(wǎng)絡(luò)參數(shù),但取得了更好的再識(shí)別準(zhǔn)確率,這表明本文算法有效地減輕了過(guò)擬合現(xiàn)象。表3、表4分別給出了相應(yīng)的CMC性能比較結(jié)果,其中rankn表示前n張圖片至少有一個(gè)正確檢索行人的概率,rank-1通常代表算法性能的好壞。由表3和表4可知,本文提出的算法在VIPeR和CUHK03兩個(gè)數(shù)據(jù)集下,性能都高于近幾年所提的行人再識(shí)別算法,說(shuō)明本文基于孿生網(wǎng)絡(luò)和多距離融合算法有助于提高行人再識(shí)別算法的準(zhǔn)確率。
表2 采用不同滑框尺度的性能對(duì)比Tab. 2 The Performance comparison of different scales of sliding windows %
表4 在CUHK03數(shù)據(jù)集本文算法和先進(jìn)算法對(duì)比Tab. 4 Comparisons between the proposed algorithm and the advanced algorithm on CUHK03 dataset %
本文提出了基于孿生網(wǎng)絡(luò)和多距離融合的行人再識(shí)別算法。利用孿生網(wǎng)路提取行人局部塊特征,比傳統(tǒng)手工特征更具有辨識(shí)性和魯棒性。在度量學(xué)習(xí)方面,采用將多個(gè)局部塊距離融合的多距離融合方法,并應(yīng)用于行人再識(shí)別方面,減輕了過(guò)擬合現(xiàn)象。在當(dāng)前流行的VIPeR和CUHK03兩個(gè)公開(kāi)行人再識(shí)別數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了本文所提算法能有效提高行人再設(shè)別的準(zhǔn)確率。
表3 在VIPeR數(shù)據(jù)集上本文算法和先進(jìn)算法對(duì)比Tab. 3 Comparisons between the proposed algorithm and the advanced algorithm on VIPeR dataset %