馮敏 張智成 呂進(jìn) 余磊 韓斌
摘 ?要:紅外圖像與可見光圖像的跨模態(tài)行人重識別是一個備受關(guān)注的任務(wù)問題。與傳統(tǒng)可見光條件下的單一模態(tài)行人重識別問題相比,跨模態(tài)行人重識別還包含成像原理導(dǎo)致的模態(tài)差異的難點(diǎn)。現(xiàn)有方法僅從特征級別增加約束,忽略了模態(tài)差異的獨(dú)特性。為此,文章將分別處理模態(tài)差異和外觀差異,使用循環(huán)生成對抗網(wǎng)絡(luò)減小模態(tài)差異,使用度量學(xué)習(xí)降低外觀差異。同時,還提出一個跨模態(tài)的圖像融合模塊。在RegDB和SYSU-MM01數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該方法的有效性。
關(guān)鍵詞:生成對抗網(wǎng)絡(luò);行人重識別;跨模態(tài)
中圖分類號:TP391.41 ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)04-0107-03
Abstract:The problem of cross modal pedestrian recognition of infrared image and visible image is a task of great concern. Compared with the single modal pedestrian recognition problem under traditional visible light,cross modal pedestrian recognition also involves the difficulty of modal difference caused by imaging principle. The existing methods only add constraints from the feature level,ignoring the uniqueness of modal differences. For this reason,the paper deals with the modal difference and appearance difference respectively,uses the cyclic generation countermeasure network to reduce the modal difference,and uses the metric learning to reduce the appearance difference. At the same time,a cross modal image fusion module is proposed. Experimental results on RegDB and SYSU-MM01 datasets show the effectiveness of the proposed method.
Keywords:generate countermeasure network;pedestrian recognition;cross modal
0 ?引 ?言
行人重識別任務(wù)的目的是跨設(shè)備檢索給定行人的圖像,在電力設(shè)備安全管理領(lǐng)域有著重要應(yīng)用。行人重識別技術(shù)可以彌補(bǔ)目前固定攝像頭的視覺局限,如拍攝角度、分辨率、目標(biāo)姿態(tài)以及障礙物遮擋等。該技術(shù)可與人物檢測、人物跟蹤技術(shù)相結(jié)合,能夠應(yīng)用于電力生產(chǎn)管理、運(yùn)行視頻監(jiān)控、安全防護(hù)等領(lǐng)域?,F(xiàn)有行人重識別方法主要依賴于良好光照條件下的行人外觀[1,2]。但在黑夜環(huán)境下,光照條件不佳會導(dǎo)致行人的外觀模糊,現(xiàn)有的行人重識別方法不能很好地處理這種環(huán)境。因此,可見光和紅外圖像的跨模態(tài)行人重識別任務(wù)是一個亟須解決的問題。
現(xiàn)有方法將模態(tài)差異看作是外觀差異的一部分,并試圖使用傳統(tǒng)的行人重識別方法中的特征級別的約束同時優(yōu)化兩種差異[3,4]。單模態(tài)行人重識別和跨模態(tài)行人重識別任務(wù)之間的性能差異巨大,同時存在的外觀差異和模態(tài)差異使得優(yōu)化任務(wù)更加困難,因此僅使用特征級別的約束不能有效地緩解模態(tài)差異。
由于待檢索圖像和圖庫來自不同的模態(tài),因此直接將兩種不同模態(tài)的圖片映射到同一特征空間性能不佳。為了緩解這個問題,本文提出了一個生成對抗網(wǎng)絡(luò)的跨模態(tài)行人重識別的方法,將模態(tài)差異和外觀差異分別處理。首先使用圖像級別的模態(tài)差異子模塊,生成可見光(紅外光)圖片對應(yīng)的紅外光(可見光)圖片,實(shí)現(xiàn)將不同模態(tài)的圖片映射到同一空間的目的,并通過一個基于生成對抗網(wǎng)絡(luò)的融合模塊將可見光(紅外光)生成的對應(yīng)模態(tài)結(jié)果融合。隨后,使用特征級別的外觀差異子模塊來處理外觀差異。本研究提出的此項(xiàng)基于生成對抗網(wǎng)絡(luò)的跨模態(tài)行人重識別方案,同時從圖像級別和特征級別緩解模態(tài)差異。該方案能夠幫助本企業(yè)以低成本高效率解決電力設(shè)備安全管理領(lǐng)域中的行人重識別問題,從而增加電力設(shè)備管理領(lǐng)域性的安全性,實(shí)現(xiàn)系統(tǒng)的平穩(wěn)運(yùn)行。
1 ?跨模態(tài)行人重識別方法
給定X和Y,分別代表可見光圖像集和紅外光圖像集,每一張圖片x∈X或者y∈Y對應(yīng)一個標(biāo)簽i∈{1,2,…,Np},其中Np是行人的總數(shù)。給定一張待檢索的可見光圖片x,或者紅外光圖片y,和對應(yīng)的需要檢索的紅外光圖庫Y,或者可見光圖庫X,跨模態(tài)紅外-可見光行人重識別任務(wù)的目標(biāo)是得出圖庫的排序列表R,其中和待檢索圖片有著相同身份的圖片應(yīng)該排序在頂部。常規(guī)的做法是通過特征嵌入將x和y投影到相同的特征空間,即fx=hx(x),fy=hy(y),隨后依據(jù)特征之間的距離得出一個排序列表R。
圖1展示了本文的總體框架,包含三個子模塊:
(1)用來降低模態(tài)差異的子模塊NI;
(2)用來將不同模態(tài)圖片進(jìn)行增強(qiáng)的融合子模塊;
(3)用來降低外觀差異的子模塊NF,三個子模塊之間是級聯(lián)的,并且能夠端到端聯(lián)合優(yōu)化。
1.1 ?圖像級別的差異緩解模塊NI
為了在圖像級別緩解差異,本文設(shè)計(jì)了圖像級別的差異緩解網(wǎng)絡(luò)NI,使用變分自編碼器(VAE)對兩種模態(tài)的圖片進(jìn)行特征映射,將紅外圖像和可見光圖像映射到同一特征空間中,這個特征空間中只保留兩種模態(tài)的圖片的共同特征,同時過濾兩種模態(tài)不同的特征。在獲得這樣的模態(tài)無關(guān)的高維特征后,使用生成對抗網(wǎng)絡(luò)來進(jìn)行特定域的圖像生成,包括兩個編碼器-解碼器結(jié)構(gòu),分別對應(yīng)可見光和紅外圖像模態(tài)的生成。變分自編碼器的損失函數(shù)LVAE定義如下,其中KL是Kullback-Leibler散度,第二項(xiàng)中的||.||代表L1損失:
LVAE(Ev,Gv)=λ0KL(qv(zv|x)|pn(z))-λ1Ezv~qv(zv|x)[||x-Gv(zv)||1]
1.2 ?融合模塊
在使用變分自編碼器獲得輸入圖片的對應(yīng)輸出結(jié)果后,還應(yīng)該考慮將輸入圖片和生成圖片融合。本文從生成對抗網(wǎng)絡(luò)的角度,將融合問題看作是對抗性問題,具體結(jié)構(gòu)如圖1中融合模塊所示。首先,將紅外圖像和可見光圖像拼接,輸入到生成器中,生成器生成對應(yīng)的融合圖像,可見光圖像和融合圖像輸入到鑒別器中,鑒別器鑒別圖像是來自可見光,還是來自融合后的圖像,直到鑒別器不能鑒定真假,融合模塊收斂。
1.3 ?特征級別的差異緩解模塊NF
特征級別的差異降低網(wǎng)絡(luò)NF在融合模塊的輸出基礎(chǔ)上,進(jìn)行特征提取和度量學(xué)習(xí)。給定一張融合后的圖片Ifusion,深度特征提取網(wǎng)絡(luò)提取判別特征。本文使用ResNet-50作為特征提取的骨干網(wǎng)絡(luò),最后一層1 000維的全連接層被替換為1 024維的全連接層,并使用Batch Normalization、ReLU和Dropout層。全連接層的輸出被送至兩個獨(dú)立的128維的全連接層中,兩種形式的損失函數(shù)分別作用于這兩個全連接層,其中一個是三元組損失函數(shù),用來監(jiān)督相似度學(xué)習(xí);另外一個是交叉熵?fù)p失函數(shù),用來監(jiān)督行人身份識別。
2 ?實(shí)驗(yàn)
本節(jié)將展示實(shí)驗(yàn)設(shè)置、和其他方法的結(jié)果對比、消去實(shí)驗(yàn)。
2.1 ?實(shí)驗(yàn)設(shè)置
本文在兩個公開的跨模態(tài)行人重識別數(shù)據(jù)集上驗(yàn)證提出的方法的有效性:RegDB和SYSU-MM01。RegDB數(shù)據(jù)集包含412位行人,每人有10張可見光圖像和10張紅外圖像;SYSU-MM01數(shù)據(jù)集包含395人,有22 258張可見圖像、11 909張紅外圖像;測試集包含96人,其中3 803張紅外圖像用于待檢索,301張隨機(jī)選擇的可見光圖像作為圖庫。
本文采用標(biāo)準(zhǔn)累積匹配特征曲線(CMC)和平均精度(mAP)來衡量本文方法的有效性。在測試期間,一種模態(tài)的圖像用作圖庫,而另外一種模態(tài)的圖片作為待檢索集合。
2.2 ?結(jié)果對比
為了驗(yàn)證本文提出方法的有效性,本文和現(xiàn)有的跨模態(tài)行人重識別方法進(jìn)行對比,這些方法包括Zero-padding、TONE和BDTR。除此之外,還包括幾種基于特征學(xué)習(xí)的方法進(jìn)行比較,HOG、LOMO以及一階段和兩階段方法。表1和表2展示了所有方法在兩個數(shù)據(jù)集上的結(jié)果,實(shí)驗(yàn)結(jié)果顯示,本文提出的方法在RegDB和SYSU-MM01數(shù)據(jù)集上的性能均超過了之前的方法,驗(yàn)證了本文提出的方法的有效性。
2.3 ?消去實(shí)驗(yàn)
本文的方法包括三個模塊:用于降低模態(tài)差異的子模塊、用于融合多模態(tài)圖像的融合模塊、用于降低外觀差異的子模塊。模態(tài)差異消除網(wǎng)絡(luò)使用變分自編碼器和循環(huán)一致?lián)p失進(jìn)行優(yōu)化,融合模塊采用對抗損失進(jìn)行優(yōu)化,外觀差異消除網(wǎng)絡(luò)采用交叉熵?fù)p失函數(shù)和三元組損失函數(shù)進(jìn)行優(yōu)化。表3展示了在RegDB數(shù)據(jù)集上,消去每一個損失,對CMC和mAP性能造成的影響。消去實(shí)驗(yàn)證明了本文提出的模態(tài)差異降低子模塊和融合模塊的有效性。
3 ?結(jié) ?論
本文提出基于生成對抗網(wǎng)絡(luò)的紅外-可見光跨模態(tài)行人重識別方法,首先將跨模態(tài)行人重識別任務(wù)的差異性分解為模態(tài)差異和外觀差異,并利用循環(huán)生成對抗網(wǎng)絡(luò)來降低圖像級別的模態(tài)差異。其次使用基于生成對抗網(wǎng)絡(luò)的融合模塊來對上一級網(wǎng)絡(luò)的輸出進(jìn)行增強(qiáng)。最后利用基于度量學(xué)習(xí)的特征嵌入層學(xué)習(xí)相似度,以此完成重識別任務(wù)。在兩個公開的數(shù)據(jù)集上的實(shí)驗(yàn)表明本文提出的方法能夠更好地處理模態(tài)差異,驗(yàn)證了本文方法的有效性。
參考文獻(xiàn):
[1] WANG Z,HU R M,CHEN C,et al.Person Reidentification via Discrepancy Matrix and Matrix Metric [J].IEEE Transactions on Cybernetics,2017:1-15.
[2] WANG Z,HU R M,LIANG C,et al.Zero-Shot Person Re-identification via Cross-View Consistency [J].IEEE Transactions on Multimedia,2015,18(2):260-272.
[3] WEI L H,ZHANG S L,GAO W,et al.Person Transfer GAN to Bridge Domain Gap for Person Re-Identification [C]//Proceedings of Conference on Computer Vision and Pattern Recognition,2018.
[4] WU A C,ZHENG W S,YU H X,et al.RGB-Infrared Cross-Modality Person Re-Identification [C]//2017 IEEE International Conference on Computer Vision (ICCV).IEEE,2017.
作者簡介:馮敏(1972-),男,漢族,江蘇如皋人,工程師,碩士研究生,主要研究方向:視頻圖像處理。