沈江霖,魏 丹,羅一平
(上海工程技術(shù)大學(xué)機械與汽車工程學(xué)院,上海 201620)
行人重識別是指利用計算機視覺技術(shù)判斷圖像或者視頻序列中是否存在特定行人的技術(shù)[1]。行人姿態(tài)訓(xùn)練魯棒性是行人重識別模型中的關(guān)鍵問題之一[2]?,F(xiàn)有方法僅包含有限數(shù)量的姿態(tài)變化,因此在訓(xùn)練過程中ReID模型容易出現(xiàn)過擬合的情況。與此同時,生成對抗網(wǎng)絡(luò)在圖像生成、圖像編輯方面都取得了令人印象深刻的成果。在文獻[3]中,生成對抗網(wǎng)絡(luò)用于生成具有不同背景的樣本以增強ReID模型,但該工作未考慮各種行人姿態(tài)。ZHENG等[4]使用生成的未標(biāo)記樣本改進生成對抗網(wǎng)絡(luò)的性能,但是生成樣本的嚴重失真限制了性能改進效果。本文提出了一種姿態(tài)可交換行人重識別框架(PSGNet),該框架將樣本中的每一個人編碼為姿態(tài)代碼和視覺代碼;通過切換姿態(tài)代碼,生成高質(zhì)量的姿態(tài)合成圖像。在相關(guān)數(shù)據(jù)集上的實驗結(jié)果表明,本文方法實現(xiàn)了性能改進,并優(yōu)于大多數(shù)先進的方法。
姿態(tài)交換圖像生成模型主要由生成模塊、增強模塊、判別模塊三個部分組成,如圖1所示。
生成模塊包括兩個部分:自我ID生成和交叉ID生成。自我ID生成表示生成模塊學(xué)習(xí)如何從自身重構(gòu)圖像。不同于以相同身份進行圖像重建的自我ID生成,交叉ID生成側(cè)重于以不同身份進行圖像生成。
1.1.1 自我ID生成
輸入兩幅不同身份的圖像x i和x j,基于生成模塊中的編碼器將每個行人圖像分解成兩個潛在空間:姿態(tài)空間和視覺空間。前者編碼姿態(tài)(骨架)和骨架關(guān)節(jié)點位置相關(guān)結(jié)構(gòu)信息,后者編碼除姿態(tài)信息之外的其他身份相關(guān)語義信息。由此,行人圖像被編碼為姿態(tài)掩碼p i、p j和視覺掩碼v i、v j,通過交換姿態(tài)掩碼p i和p j,利用解碼器將視覺掩碼和交換后的姿態(tài)掩碼生成高質(zhì)量的姿態(tài)合成圖像x ij和x ji。采用L rec表示自我重建圖像損失:
其中,E表示期望,G表示生成器,v i表示視覺空間編碼得到的視覺特征,p i表示姿態(tài)空間編碼得到的姿態(tài)特征。
1.1.2 交叉ID生成
自我身份圖像生成以同一身份編碼v i、p i進行圖像重建,交叉身份圖像生成側(cè)重于以不同身份編碼v i、p j進行圖像生成。學(xué)習(xí)過程中姿態(tài)編碼p i和p j可以交換信息。采用L cr-id表示交叉生成圖像損失:
其中,E表示期望,G表示生成器,E v是視覺特征的解碼器,v i是視覺空間編碼x i得到的視覺特征,p j是姿態(tài)空間編碼x j得到的姿態(tài)特征。利用解碼器將視覺編碼和交換后的姿態(tài)編碼生成姿態(tài)合成圖像x ij和x ji。
由于生成模塊已經(jīng)生成一幅圖像,雖然該圖像比較粗糙,但是在姿態(tài)和基本顏色上與目標(biāo)圖像接近,因此在增強階段,模型將通過糾正初始結(jié)果中的錯誤或缺失,專注于生成更多的細節(jié),并且更好地引導(dǎo)圖像的生成。增強模塊包括圖像的細化部分(增強器B1)和引導(dǎo)部分(增強器B2)。
1.2.1 圖像細化(增強器B1)
第一階段對生成具有交叉姿態(tài)的行人圖像進行外觀細節(jié)的填充和細化,其輸入是生成模塊中合成的粗糙圖像x ij和x ji??紤]到粗糙圖像x ij、x ji和目標(biāo)圖像在結(jié)構(gòu)上相似,使用條件DCGAN的衍生模型作為基線。針對全連接層壓縮輸入中包含的大量信息,移除U-Net(U-網(wǎng)絡(luò))中的全連接層,使用U-Net生成一個外觀差異映射,保留輸入圖像中更多的細節(jié),使細化結(jié)果更接近目標(biāo)圖像[5]。
在傳統(tǒng)的生成對抗網(wǎng)絡(luò)(GAN)中,判別器負責(zé)區(qū)分真實圖像和生成圖像(由隨機噪聲生成)。然而,在本文的條件網(wǎng)絡(luò)中,B1的輸入不是隨機噪聲而是條件圖像x ij、x i。因此,真實圖像不僅是自然的,而且滿足特定的要求。否則,B1將被誤導(dǎo)為直接輸出x i,x i本身是自然的,而不是細化第一階段x ij的粗略結(jié)果。
與傳統(tǒng)GAN的另一個不同之處在于,噪聲不再是必要的。因此,增強器B1具有以下?lián)p失函數(shù):
其中,L bce表示二進制交叉熵損失,D表示判別器,λ是生成器損失的權(quán)重。
1.2.2 圖像引導(dǎo)(增強器B2)
針對第一階段只考慮生成行人樣本的視覺真實性,無法保證生成樣本能夠增強行人重識別模型訓(xùn)練。為此,引出增強模塊的第二階段,即引導(dǎo)生成樣本(具有交叉姿態(tài)的樣本),使經(jīng)過訓(xùn)練的生成模型更適應(yīng)行人重識別問題,提高行人重識別的判別能力。增強模塊中的引導(dǎo)模塊是一個分類(即交叉熵損失)的子網(wǎng)絡(luò)。將第一階段生成的圖像輸入引導(dǎo)模塊B2中進行訓(xùn)練。引導(dǎo)模塊在目標(biāo)行人重識別數(shù)據(jù)集上進行預(yù)訓(xùn)練,并進行監(jiān)督和識別。在生成模塊的訓(xùn)練過程中,引導(dǎo)模塊傳遞有判別性的身份信息,并將監(jiān)督信號從引導(dǎo)模塊傳遞到生成模塊。增強器第二部分利用監(jiān)督信息使得細化后的圖像接近生成模塊生成的圖像x ij。
其中,d t表示類t的標(biāo)簽,v t表示類t圖像的視覺特征,p t表示t類圖像的姿態(tài),表示增強器B2的輸出概率分布。經(jīng)過細化和引導(dǎo)的生成圖像是適應(yīng)與行人重識別的具有辨識力的各種姿態(tài)的標(biāo)簽圖像。
通過交換姿態(tài)代碼生成的圖像,將生成的圖像視為與現(xiàn)有工作類似的訓(xùn)練樣本。為了更好地利用這些生成的圖像,可以進行主要特征學(xué)習(xí)。由于生成模塊交叉ID合成圖像中的類間差異,因此本文采用師生式監(jiān)督。其中,教師模型只是一個基線卷積神經(jīng)網(wǎng)絡(luò)(CNN),在原始訓(xùn)練集上進行識別丟失訓(xùn)練。為了訓(xùn)練用于主要特征學(xué)習(xí)的判別模塊,將判別模塊預(yù)測的概率分布l(xij)和教師模型預(yù)測的概率分布k(x ij)之間的KL散度最小化:
其中,N表示身份的數(shù)量。
因為生成器基于圖像x i,這同文獻[6]的研究結(jié)果類似,所以本文對判別器D提出以下?lián)p失函數(shù):
整個行人樣本生成網(wǎng)絡(luò)包含三個組件,即生成器、增強器和判別器,本文訓(xùn)練姿態(tài)和視覺編碼器、解碼器、判別器和增強器,用于訓(xùn)練該生成網(wǎng)絡(luò)的綜合損失函數(shù)是上述所有損失的加權(quán)和:
其中,α和β是控制相關(guān)損失項重要性的權(quán)重。在模型的訓(xùn)練過程中,增強器傳遞鑒別身份信息,并將該監(jiān)督信號從增強器傳播到生成器,從而形成更容易被分類到正確人物類別的行人樣本。
為了驗證模型的有效性,本文分別在三個公共行人重識別數(shù)據(jù)集上進行了實驗,其中包括Duke MTMC-reID[4]、CUHK03[7]和Market1501[8]數(shù)據(jù)集。實驗表明模型生成的圖像更加逼真和多樣,并且在所有基準(zhǔn)測試中,行人重識別準(zhǔn)確度優(yōu)于大多數(shù)現(xiàn)有新算法。
Duke MTMC-reID數(shù)據(jù)集是Duke MTMC數(shù)據(jù)集的一個子集,用于圖像的重識別,它的訓(xùn)練組包含702個身份的16 522張圖像。CUHK03數(shù)據(jù)集包含1 467個身份的14 096張照片,這些照片是由香港中文大學(xué)的兩臺攝像機拍攝的。Market1501是一個基于圖像的ReID數(shù)據(jù)集,它由12 936張用于訓(xùn)練的圖像組成,每個人在訓(xùn)練集中平均有17.2張圖像。本文使用兩個評估指標(biāo)評估ReID算法的性能,即rank-1識別率和均值平均精度(mAP)。
本文使用通道×高度×寬度表示特征圖的大小。編碼器E p是一個由4個卷積層和4個殘差塊組成淺層網(wǎng)絡(luò),輸出的是128×64×32的姿態(tài)代碼p。編碼器E v是基于ImageNet上預(yù)訓(xùn)練的Res Net-50,移除其全局平均池化層和全連接層,然后附加自適應(yīng)最大池化層以輸出2 048×4×1的視覺代碼v。解碼器G由4個殘差塊和4個卷積層組成,每個殘差塊包含兩個自適應(yīng)實例歸一化層,它們集成在一個尺度和偏差參數(shù)中。增強器B1包括N-2個卷積塊的全卷積架構(gòu),其中N取決于輸入的大小。每個殘差塊由兩個步幅為1的卷積層和1個步幅為2的子采樣卷積層組成。所有卷積層由3×3個濾波器組成,濾波器的數(shù)量隨每個塊線性增加。本文將線性修正單元激活函數(shù)(ReLU)應(yīng)用于除全連接層和輸出卷積層之外的每一層。增強器B2采用與文獻[9]相同的網(wǎng)絡(luò)架構(gòu),鑒別器D與文獻[10]相同,鑒別器具有簡單的堆疊結(jié)構(gòu)。
對于Duke MTMC-reID和Market1501數(shù)據(jù)集,使用Adam優(yōu)化器,β1=0.4,β2=0.999。初始學(xué)習(xí)率設(shè)置為e-2。在Duke MTMC-reID上,將卷積塊的數(shù)量設(shè)置為N=4,分別用8個小批量的模型訓(xùn)練10k次迭代。在Market-1501數(shù)據(jù)集上,將卷積塊的數(shù)量設(shè)為N=4,用14個小批量進行12k次迭代訓(xùn)練。對于CUHK03數(shù)據(jù)集,使用交叉熵損失訓(xùn)練Res Net-50。
生成器的輸入大小調(diào)整為256×256,并重新縮放為[-1,1],它們來自目標(biāo)數(shù)據(jù)集。生成器的輸出被發(fā)送到鑒別器和引導(dǎo)器。在本文所有實驗中,α和β分別設(shè)置為3.0和5.0。
2.3.1 消融研究
首先研究增強器B1和增強器B2的貢獻,將提出的方法與Res Net-50基線進行比較,結(jié)果如表1所示。可以觀察到,在基線上的性能得到顯著改進,主要特征在基線上有很大的改善。除此之外,增強器B2在基線性能上的提升比增強器B1顯著,三個數(shù)據(jù)集上的rank-1平均提升11.9%,mAP平均提升14.9%,結(jié)果詳見表1和表2。
表1 基線、增強器在Market1501與Duke MTMC-reID數(shù)據(jù)集上的組合的比較Tab.1 Comparison of baseline and booster on Market1501 and DukeMTMC-reID datasets
表2 基線、增強器在CUHK03數(shù)據(jù)集上的組合的比較Tab.2 Comparison of baseline and booster on CUHK03 dataset
2.3.2 與先進的方法進行比較
表3和表4中列出了姿態(tài)可交換行人重識別方法(PSGNet)與其他先進方法的比較結(jié)果。與使用單獨生成的圖像的方法相比,本文方法在Market-1501和Duke MTMC-reID數(shù)據(jù)集上的rank-1實現(xiàn)了明顯增益,結(jié)果詳見表3。
表3 將所提方法與Market1501和Duke MTMC-reID數(shù)據(jù)集上的最新技術(shù)進行比較Tab.3 Comparison of the proposed method with the state-o-f the-art technology on Market1501 and DukeMTMC-reID datasets
表4 將所提方法與CUHK03上的最新技術(shù)進行比較Tab.4 Comparison of the proposed method with the state-of-the-art technology on CUHK03
基于Res Net-50和交叉熵損失,PSG-Net優(yōu)于大多數(shù)先進方法。對于數(shù)據(jù)集CUHK03,PSG-Net的性能在rank-1 和mAP兩項指標(biāo)上分別優(yōu)于排第二的Pose-Transfer方法2.0%、3.0%,結(jié)果詳見表4。
2.4.1 姿勢交換樣本數(shù)N 的分析
本文分析目標(biāo)數(shù)據(jù)集中每個圖像的生成樣本數(shù)如何影響ReID模型的性能。使用經(jīng)過交叉熵損失訓(xùn)練的Res Net-50作為增強器,并改進ReID模型。對于每個圖像,PSG-Net分別測試1~10個姿勢交換樣本對性能的影響。三個數(shù)據(jù)集的實驗結(jié)果如圖2所示,可以觀察到當(dāng)N=4時,驗證準(zhǔn)確性最高。隨著擴展樣本的數(shù)量進一步增加,性能略有下降。
圖2 參數(shù)N 對行人重識別模型性能的影響Fig.2 Theimpact of the parameter N on the performance of pedestrian re-identification models
2.4.2 超參數(shù)μ 的分析
這里的超參數(shù)μ,即α和β之間的比率,用來控制L B2-ce和L dis在訓(xùn)練中的重要性。從Duke MTMC-reID數(shù)據(jù)集的原始訓(xùn)練集中分離出來的驗證集上驗證參數(shù)μ。根據(jù)圖3中的驗證結(jié)果,本文在所有實驗中選擇μ=0.6。
圖3 重識別學(xué)習(xí)相關(guān)超參數(shù)μ 的分析Fig.3 Analysis of hyper-parametersμrelated to re-identification learning
本文在圖4中演示了PSG-Net的生成結(jié)果,發(fā)現(xiàn)PSG-Net能夠在Market-1501數(shù)據(jù)集中生成逼真和多樣的圖像。
圖4 通過交換Market-1501數(shù)據(jù)集上的姿態(tài)代碼生成的圖像示例Fig.4 Examples of generated images by switching pose codes on the Market-1501 datasets
本文提出了一個姿態(tài)可交換行人重識別框架(PSG-Net),解決了現(xiàn)有基準(zhǔn)不能提供足夠的姿態(tài)覆蓋訓(xùn)練魯棒性行人重識別系統(tǒng)的問題。該框架將樣本中的每個行人編碼為姿態(tài)代碼和視覺代碼,通過切換姿態(tài)代碼,生成高質(zhì)量的姿態(tài)合成圖像。在三個基準(zhǔn)上的實驗表明,本文提出的方法在圖像生成質(zhì)量和行人重識別精度方面有實質(zhì)性的改進。