楊曉峰,張來福,王志鵬,薩旦姆,鄧紅霞,李海芳
(1.太原理工大學(xué)信息與計算機(jī)學(xué)院,山西 晉中 030600;2.山西工程科技職業(yè)大學(xué)計算機(jī)工程學(xué)院,山西 晉中 030600; 3.國網(wǎng)山西省電力公司電力科學(xué)研究院,山西 太原 030001)
行人再識別是在行人檢測的基礎(chǔ)上,對不同場景中的目標(biāo)行人進(jìn)行再次檢索。近幾年來,行人再識別受到國內(nèi)外學(xué)者的廣泛關(guān)注,并取得了很大進(jìn)步,但在跨域(數(shù)據(jù)集)測試中效果并不理想,在最新的跨域行人再識別研究中,R1平均準(zhǔn)確率mR1(Mean Rank-1)最高只有43.6%。行人圖像特征表示能力不強(qiáng)是跨域行人再識別準(zhǔn)確率不高的主要原因。
目前,基于圖像的行人再識別研究可以分為單一域行人再識別和跨域行人再識別。單一域行人再識別,按照分割圖像提取特征的方法可以細(xì)分為3類:僅使用行人整體信息進(jìn)行特征提取的方法[1 - 5]、僅使用行人局部信息進(jìn)行特征提取的方法[6,7],以及使用行人整體信息和局部信息結(jié)合進(jìn)行特征提取的方法[8 - 10]。鄭鑫等[3]將行人圖像的多種屬性與注意力機(jī)制相結(jié)合提高行人再識別準(zhǔn)確率;Zhao等[7]利用行人肢體分割網(wǎng)絡(luò)將行人圖像進(jìn)行分割;Zhao等[10]采用將人體骨架分割的思想,將人體分割成14個連接點(diǎn)后再組合成6個區(qū)域,用于提取局部特征。跨域行人再識別方法可以細(xì)分為5類:基于風(fēng)格遷移的方法[11 - 14]、基于圖卷積神經(jīng)網(wǎng)絡(luò)的方法[15]、基于字典學(xué)習(xí)的方法[16]、基于特征對齊的方法[17]和基于多屬性學(xué)習(xí)的方法[18,19]。Deng等[11 - 14]通過對抗生成網(wǎng)絡(luò)實(shí)現(xiàn)測試域樣本的風(fēng)格遷移,目的是使模型可以學(xué)習(xí)到測試域的風(fēng)格信息。潘少明等[15]利用圖卷積神經(jīng)網(wǎng)絡(luò)建立了訓(xùn)練域和測試域近鄰樣本的跨域相似度聯(lián)系方法,該方法在訓(xùn)練時需要聯(lián)合訓(xùn)練域和測試域。Peng等[16]提出在訓(xùn)練域和測試域上同時進(jìn)行字典學(xué)習(xí),獲取不同域之間的共有特征,用于跨域行人再識別。Lin等[17]在跨域行人再識別任務(wù)中采用了中間層特征對齊方法。Su等[18,19]分別通過采集行人的多種屬性來提高跨域行人再識別的準(zhǔn)確率。
這些跨域行人再識別方法存在一個共同點(diǎn),它們都采用了基于CNN(Convolutional Neural Networks)的特征提取方法。但是,基于CNN的特征提取方法依然存在問題:由于頻繁使用池化層,CNN各層之間傳遞信息損失大量存在[20];CNN模型過度依賴樣本的數(shù)量; CNN特征不能很好地反映特征與整體之間的空間關(guān)系[21]。由于上述這些問題,基于CNN提取的特征,其表示能力受到了限制。
為了彌補(bǔ)CNN的不足之處,Sabour等[21]提出了膠囊網(wǎng)絡(luò)。膠囊網(wǎng)絡(luò)具有良好的特征表示能力[20,22];在數(shù)據(jù)樣本較少和類不平衡的情況下,膠囊網(wǎng)絡(luò)也能保持良好的性能[20,21];膠囊網(wǎng)絡(luò)使用了新的動態(tài)路由算法,性能優(yōu)于反向傳播算法[20,21]。通過對比CNN網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò),本文選用膠囊網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)路并對其進(jìn)行改進(jìn)。膠囊網(wǎng)絡(luò)存在的不足之處主要有2點(diǎn):由于膠囊網(wǎng)絡(luò)屬于淺層網(wǎng)絡(luò),當(dāng)輸入空間維度較大時,膠囊網(wǎng)絡(luò)無法有效降低中間層特征維度,會消耗大量計算資源,導(dǎo)致算法運(yùn)行緩慢;膠囊網(wǎng)絡(luò)中耦合系數(shù)有極小化趨勢[23],不利于梯度反向傳播。
針對膠囊網(wǎng)絡(luò)存在的問題和跨域行人再識別任務(wù)的要求,模型改進(jìn)所面臨的最大挑戰(zhàn)是:既要增加網(wǎng)絡(luò)深度,降低特征空間維度,又要求模型具備淺層網(wǎng)絡(luò)的泛化性能。本文提出了深度膠囊網(wǎng)絡(luò),并且利用深度膠囊網(wǎng)絡(luò)實(shí)現(xiàn)了一種基于無監(jiān)督學(xué)習(xí)的跨域行人再識別方法。通過視角分類訓(xùn)練任務(wù),本文模型可以獲取圖像中更有鑒別性的特征,這些特征可以直接遷移到跨域行人再識別任務(wù)中。特征提取過程沒有利用測試域的任何信息,這是區(qū)別于目前所有跨域行人再識別方法的一個重要特點(diǎn)。在實(shí)驗(yàn)中,為了降低難度,本文設(shè)計的視角分類訓(xùn)練任務(wù)只設(shè)置了3種視角:正面、側(cè)面和背面。實(shí)驗(yàn)結(jié)果表明,本文方法優(yōu)于目前所有的無監(jiān)督學(xué)習(xí)行人再識別方法,具有良好泛化能力。
本文的主要貢獻(xiàn)是:
(1)采用乘法短連接結(jié)合改進(jìn)的動態(tài)路由算法,緩解了深度膠囊網(wǎng)絡(luò)梯度消失的問題;
(2)重新設(shè)計了特征提取層,充分利用乘法短連接的特性,提升了膠囊網(wǎng)絡(luò)的高維信息處理能力,并具有良好的泛化能力。
2017年,Sabour等[21]提出了膠囊網(wǎng)絡(luò),采用動態(tài)路由機(jī)制,在多個數(shù)據(jù)集上取得了最優(yōu)的分類性能。膠囊的概念在2011年由Hinton提出,膠囊是一組神經(jīng)元,可以表示特定類型的對象或?qū)ο蟛糠值膶?shí)例化參數(shù)[21],實(shí)例化參數(shù)包括位置、紋理、形狀和顏色等特征。目前,改進(jìn)膠囊網(wǎng)絡(luò)有很多方法,F(xiàn)ang等[24]設(shè)計了雙輸入端的Inception特征提取層,2種輸入包括HHBlits蛋白譜和形狀預(yù)測串;Chen等[25]將膠囊網(wǎng)絡(luò)應(yīng)用于原始震動信號的故障檢測;Yang等[26]研究了自然語言處理中膠囊網(wǎng)絡(luò)效率問題,提出了3種改進(jìn)策略;Zhang等[22]結(jié)合膠囊網(wǎng)絡(luò)設(shè)計了文檔語法規(guī)則網(wǎng)絡(luò)。
2.1.1 算法描述
膠囊網(wǎng)絡(luò)由3部分組成:
第1部分是特征提取層。特征提取層由一層卷積和ReLU 激活函數(shù)組成,卷積核尺寸是9×9,輸入通道數(shù)為3,輸出通道數(shù)為256。
第2部分是初級膠囊層,如式(1)所示。初級膠囊層由8組卷積和Squash激活函數(shù)組成,卷積核尺寸是9×9,輸入通道數(shù)為256,卷積輸出張量為z(6×6×32)。初級膠囊層輸出矩陣u(1152×8),其包含1 152(6×6×32)個膠囊,每個膠囊由包含8個特征維度的向量表示,如式(1)所示:
(1)
其中,ζ表示Squash激活函數(shù),如式(2)所示;zP表示第p組卷積輸出的張量,P表示膠囊中特征的維度,p∈{1,…,P},P=8[21]。
(2)
其中,o表示輸入向量(膠囊)。
第3部分是數(shù)字膠囊層(Digit Capsule Layer)。數(shù)字膠囊層由動態(tài)路由算法構(gòu)成,如算法1所示,其中輸入膠囊由ui表示,ui∈u,u表示所有輸入層的膠囊;輸出膠囊由vj表示,每個輸出膠囊表示一種分類。輸入膠囊和輸出膠囊關(guān)聯(lián)方式類似于全連接方式。bij表示第i個輸入膠囊對第j個輸出膠囊的關(guān)聯(lián)強(qiáng)度,bij∈bi,bi表示所有與輸入膠囊ui相關(guān)的關(guān)聯(lián)強(qiáng)度。關(guān)聯(lián)強(qiáng)度bij經(jīng)過Softmax函數(shù)運(yùn)算生成耦合系數(shù)cij,cij∈ci,ci表示所有與輸入膠囊ui相關(guān)的耦合系數(shù)。wij表示對輸入膠囊(ui)進(jìn)行仿射變換。
算法1動態(tài)路由算法
輸入:輸入膠囊向量ui。
輸出:輸出膠囊向量vj。
初始化:bij←0。
步驟1ci←Softmax(bi);/*i為輸入膠囊編號*/
步驟2sj←∑icijwijui;/*j為輸出膠囊編號*/
步驟3vj←Squash(sj);//定義如式(2)所示
步驟4bij←bij+wijuivj;
步驟5迭代r次執(zhí)行步驟1~步驟4;
步驟6迭代結(jié)束,輸出預(yù)測膠囊向量vj。
2.1.2 膠囊網(wǎng)絡(luò)缺陷
膠囊網(wǎng)絡(luò)模型主要有2個缺點(diǎn):
(1)由于膠囊網(wǎng)絡(luò)屬于淺層網(wǎng)絡(luò),當(dāng)輸入空間維度較大時,膠囊網(wǎng)絡(luò)將占用大量的計算資源和存儲空間;
(2)由于膠囊網(wǎng)絡(luò)中數(shù)字膠囊層的部分耦合系數(shù)(ci)有極小化的趨勢[23],導(dǎo)致梯度損失,網(wǎng)絡(luò)的中間層無法得到重分訓(xùn)練。
科研人員對短連接的研究已經(jīng)有很長的時間[27 - 29]。早期的短連接是將線性單元應(yīng)用于多層感知機(jī)網(wǎng)絡(luò)[28,29],連接網(wǎng)絡(luò)的輸入端和輸出端。Szegedy等[30,31]使用短連接將中間層與輔助分類器相連,解決了梯度消失和梯度爆炸的問題。文獻(xiàn)[30]中,Inception模塊也包含短連接,增強(qiáng)了特征的表示能力。He等[32 - 34]對短連接進(jìn)行了深入研究,通過短連接成功解決了深度神經(jīng)網(wǎng)絡(luò)梯度消失和梯度爆炸的問題。不同的是,He等[32]使用了加法短連接,而Srivastava等[33,34]使用了乘法短連接,乘法短連接也稱為門控機(jī)制或空間注意力機(jī)制。Wang等[35]將2種短連接方式融合,提出了殘差注意力學(xué)習(xí)。Yang等[36]在注意力行人再識別網(wǎng)絡(luò)中使用了短連接。
以二維輸入信息為例,乘法短連接的數(shù)學(xué)表示如式(3)所示,加法短連接的數(shù)學(xué)表示如式(4)所示:
Og(X)=X?G(X)
(3)
Or(X)=X+R(X)
(4)
其中,X表示二維輸入信息,Og(X)∈Rm×n表示乘法短連接的輸出信息,G(X)∈Rm×n表示X的門控信息,R(X)∈Rm×n表示殘差運(yùn)算單元,?表示矩陣對應(yīng)元素乘法,+表示矩陣加法。
Figure 1 Deep capsule network and feature metric圖1 深度膠囊網(wǎng)絡(luò)以及特征度量
針對2.1.2節(jié)中提到膠囊網(wǎng)絡(luò)的2個缺點(diǎn),本文通過重新設(shè)計特征提取層和改進(jìn)數(shù)字膠囊層動態(tài)路由算法,提出了深度膠囊網(wǎng)絡(luò)DCapNet(Deep Capsule Network)。
將膠囊網(wǎng)絡(luò)應(yīng)用于復(fù)雜任務(wù)時,由于其屬于淺層網(wǎng)絡(luò),無法對高維輸入空間進(jìn)行有效的降維,會導(dǎo)致初級膠囊層輸出過多的膠囊,進(jìn)而會導(dǎo)致數(shù)字膠囊層的運(yùn)算量成倍增加,膠囊網(wǎng)絡(luò)運(yùn)行效率十分低下。解決這個問題最直接的方法就是加深膠囊網(wǎng)絡(luò)的特征提取層,控制初級膠囊層輸入空間的維度。
本文設(shè)計的特征提取層結(jié)構(gòu)有6層(不包括ReLU層),結(jié)構(gòu)如圖1所示,關(guān)鍵參數(shù)如表1所示。其中包括:空洞卷積層、最大池化層,模塊1(B1)和模塊2(B2)??斩淳矸e層用于初次特征提取以及特征降維,空洞卷積核K=5×5,空洞系數(shù)D=2,跨步S=2。最大池化層用于特征降維,為了減少池化操作帶來的特征損失,設(shè)計中限制了池化層的數(shù)量。為了避免加深特征提取層帶來的梯度問題,本文將ResNet[32]中的殘差塊結(jié)構(gòu)作為B1和B2的基本結(jié)構(gòu),如圖2a所示。另外,鑒于Bottleneck[32]設(shè)計可以減少計算量,在殘差塊的基礎(chǔ)上,將B1和B2中卷積層(conv1.1和conv2.1)的輸出通道分別減少一半,卷積層(conv1.2和conv2.2)的輸入通道數(shù)減半,結(jié)構(gòu)參數(shù)如圖2b和表1所示,B1和B2整體計算量減少了一半。最后,考慮到跨域識別的應(yīng)用背景對模型的泛化能力要求較高,并且受到文獻(xiàn)[33,37]的啟發(fā),將B1和B2中的加法短連接替換為乘法短連接,B1和B2的最終設(shè)計如圖2c所示。下文從理論和實(shí)驗(yàn)兩個方面對比2種短連接方法,以證明乘法短連接更適用于解決跨域問題。
Figure 2 Basic block in feature extraction layer圖2 設(shè)計特征提取層基礎(chǔ)模塊
Table 1 Parameters of feature extraction layer
乘法短連接被Dauphin等[37]用于門控線性單元,有效緩解了梯度消失問題,模型收斂速度更快。乘法短連接如式(3)所示,對式(3)求導(dǎo)得到式(5):
(5)
加法短連接是目前解決梯度消失最常用的方法。對式(4)求導(dǎo)得到式(6):
(6)
通過理論對比,本文選擇了乘法短連接,不僅可以緩解梯度消失問題,還可以增強(qiáng)特征表達(dá)能力,增強(qiáng)模型泛化性能。本文實(shí)驗(yàn)中也對比了2種連接方式,以證實(shí)乘法短連接的泛化性能優(yōu)于加法短連接。
文獻(xiàn)[23]研究表明,數(shù)字膠囊層動態(tài)路由算法的耦合系數(shù)的極小化趨勢,會引起梯度消失問題。本文通過修改耦合系數(shù)生成函數(shù),緩解了耦合系數(shù)的極小化趨勢。
耦合系數(shù)由Softmax函數(shù)生成[21],Softmax函數(shù)定義如式(7)所示:
(7)
為了緩解極小化趨勢,本文為Softmax函數(shù)增加了線性修正項m(T),如式(8)所示:
(8)
本文定義的耦合系數(shù)函數(shù)如式(9)所示:
α> 0,β> 0
(9)
其中α和β為比例系數(shù),實(shí)驗(yàn)中分別選取9和1。
Softmax函數(shù)、m函數(shù)以及msoftmax函數(shù)的對比如圖3所示。從圖3中可以看出,輸入向量中較小元素對應(yīng)的輸出得到了一定提升,由圓圈標(biāo)出。
Figure 3 Comparition of softmax,m and msoftmax when input vector is (1,2,3)T圖3 輸入向量為(1,2,3)T 的Softmax函數(shù)、 m函數(shù)和msoftmax函數(shù)輸出對比圖
改進(jìn)的數(shù)字膠囊層動態(tài)路由算法如算法2所示。
算法2改進(jìn)的動態(tài)路由算法
輸入:輸入膠囊向量ui。
輸出:輸出膠囊向量vj。
初始化:bij←0。
步驟1ci←msoftmax(bi);/*定義如(9)式,i為輸入膠囊編號*/
步驟2sj←∑icijwijui;/*j為輸出膠囊編號*/
步驟3vj←Squash(sj);//定義如式(2)所示
步驟4bij←bij+wijuivj;
步驟5迭代r次執(zhí)行步驟1~步驟4;
步驟6迭代結(jié)束,輸出預(yù)測膠囊向量vj。
本文模型的損失函數(shù)由2部分組成:一是行人圖像視角分類損失函數(shù),二是行人分類損失函數(shù),如式(10)所示:
L=LMargin+ηLQuadCosine
(10)
其中,LMargin表示行人圖像視角分類損失函數(shù);LQuadCosine表示行人分類損失函數(shù);η為比例系數(shù),用于調(diào)節(jié)LMargin和LQuadCosine的權(quán)重比。
行人圖像視角分類損失函數(shù)LMargin具體表示如(11)式所示:
(11)
其中,V表示行人圖像特征向量集合;Tc表示是否為同一視角,如果V屬于該視角則Tc=1,否則Tc=0;Mt為正樣本分類值最大下界;Mb為負(fù)樣本分類值最小上界;λ為正負(fù)樣本分類損失權(quán)重。LMagin的值反映了行人圖像視角分類的可信度,其中特征向量vi的模長表示與某個視角的相似性。
行人分類損失函數(shù)LQuadCosine具體表示如式(12)所示:
β1(max(0,cos(vi,vk)-margin1)+
max(0,cos(vi,vl)-margin1))+
β2max(0,cos(vl,vk)-margin2)),
si=sj,si≠sl,si≠sk,
vi∈V,vj∈V,vk∈V,vl∈V
(12)
其中,si,sj,sk,sl分別表示vi,vj,vk,vl的行人ID,margin1表示正負(fù)樣本對特征最小距離,margin2表示負(fù)負(fù)樣本對特征最小距離,β1表示正負(fù)樣本對損失函數(shù)系數(shù),β2表示負(fù)負(fù)樣本對損失函數(shù)系數(shù)。LQuadCosine用于懲罰類內(nèi)距離大而類間距離小的情況。
本文通過實(shí)驗(yàn)確定了超參數(shù)Mt,Mb,λ,β1,β2,margin1和margin2的值,分別為:Mt=0.9,Mb=0.1,λ=0.5,β1=1,β2=1,α=0.2,margin1=0.5,margin2=0.5。
本文在CUHK03數(shù)據(jù)集上進(jìn)行有監(jiān)督訓(xùn)練生成模型,測試分別在Market1501、VIPeR和PRID450S數(shù)據(jù)集上單獨(dú)進(jìn)行。CUHK03數(shù)據(jù)集由香港中文大學(xué)采集,數(shù)據(jù)集中包含1 467個行人的28 194幅圖像。Market1501數(shù)據(jù)集由清華大學(xué)采集,數(shù)據(jù)集中包含1 501個行人的32 668 幅圖像。VIPeR數(shù)據(jù)集由加州大學(xué)圣克魯斯分校采集,數(shù)據(jù)集中包含632個行人的1 264幅圖像。PRID450S數(shù)據(jù)集由奧地利科技學(xué)院協(xié)助采集,數(shù)據(jù)集中包含450個行人的900幅圖像。CUHK03、Market1501、VIPeR和PRID450S這4個數(shù)據(jù)集在4種不同的環(huán)境中采集,分別屬于4個不同的域,模型的訓(xùn)練和測試分別在不同的域中進(jìn)行,所以稱之為“跨域”行人再識別。訓(xùn)練模型時,學(xué)習(xí)率LR設(shè)為0.000 01,批大小BS設(shè)置為4,動態(tài)路由算法迭代次數(shù)為1,輸入圖像尺寸為192×64。
本文選用的模型評價指標(biāo)為R1和mR1。R1表示在某個數(shù)據(jù)集上搜索結(jié)果中第1幅行人圖像即是正確結(jié)果的概率。mR1表示多數(shù)據(jù)集R1準(zhǔn)確率的平均值,綜合反映算法泛化能力。R1和mR1的計算方法分別如式(13)和式(14)所示:
R1=N1/N
(13)
(14)
其中,N1表示檢索結(jié)果中首位命中的數(shù)量,N表示被檢索的行人數(shù)量,M表示測試域的數(shù)量,R1i表示第i個域的R1準(zhǔn)確率。
表2為本文所提方法在VIPeR、PRID450S和Market1501數(shù)據(jù)集上與目前基于深度學(xué)習(xí)的最優(yōu)跨域?qū)W習(xí)行人再識別方法比較結(jié)果。
表2結(jié)果表明:在VIPeR數(shù)據(jù)集上,R1值從39.1%提高到50.2%,提高了11.1個百分點(diǎn)。在PRID450S數(shù)據(jù)集上,R1值從35.1%提高到58.6%,提高了23.5個百分點(diǎn)。在Market1501數(shù)據(jù)集上,雖然本文算法的R1值沒有超過PAN算法的,但只落后8.4個百分點(diǎn)。計算3個數(shù)據(jù)集上的R1平均準(zhǔn)確率mR1,本文方法的mR1為54.7%,比第2名MMFA的高出11.1個百分點(diǎn)。通過上述分析可得,本文提出的方法是目前最佳跨域行人再識別方法。
Table 2 Comparison of different unsupervised methods 表2 與跨域行人再識別方法對比 %
本節(jié)在Market1501數(shù)據(jù)集上測試加法短連接和乘法短連接對本文模型泛化能力的影響。將圖1中B1和B2中的乘法短連接改為加法短連接,測試結(jié)果如表3所示。
Table 3 Comparison of addition shortcut and multiplication shortcut表3 加法短連接和乘法短連接的泛化能力對比
從對比結(jié)果可以看出,采用加法短連接的R1準(zhǔn)確率(Market1501)為51.5%,而采用乘法短連接的R1準(zhǔn)確率(Market1501)為55.2%,高出3.7個百分點(diǎn)。對比說明,采用乘法短連接更有助于提高模型的泛化能力。
本文定義的msoftmax耦合系數(shù)函數(shù)(式(9))中包含2個超參數(shù)α和β。本節(jié)在Market1501數(shù)據(jù)集上,對于不同α和β數(shù)值組合進(jìn)行了對比實(shí)驗(yàn),結(jié)果如表4所示。超參數(shù)(α,β)選取3種不同組合:(1,0),(9,1),(8,2)。從對比結(jié)果可以看出,(9,1)組合測試結(jié)果最好,高出第2名(1,0)組合0.3個百分點(diǎn),說明改進(jìn)的耦合系數(shù)函數(shù)緩解了膠囊網(wǎng)絡(luò)的梯度問題。
Table 4 Comparison of different coupling coefficients表4 耦合系數(shù)函數(shù)不同參數(shù)組合對比
本文設(shè)計的特征提取過程分為2個階段S1和S2,如圖1所示。S1包括空洞卷積層和B1,S2包括池化層和B2,S2在S1的基礎(chǔ)上進(jìn)一步降維,確保特征提取層輸出特征的維度降到合理范圍。此外,還有另一種更為簡單的降維方法:只使用S1(空洞卷積層和B1)并且在圖像預(yù)處理時直接縮小圖像尺寸。這2種方法都可以有效降低特征提取層輸出維度,區(qū)別在于第2種方法使用預(yù)處理降維代替了S2降維。
第1種方法的輸入圖像尺寸為192×64,用DCapNet(B1+B2)表示。第2種方法的輸入圖像尺寸為120×40,用DCapNet(B1)表示。本節(jié)對比了這2種特征提取層方法對模型準(zhǔn)確率的影響,對比結(jié)果如表5所示。本文選用的結(jié)構(gòu)DCapNet(B1+B2)的準(zhǔn)確率高出DCapNet(B1)的0.8個百分點(diǎn)。對比說明,設(shè)計S2階段是非常有必要的,比直接減小輸入空間維度(圖像尺寸)效果好。
Table 5 Comparison of different feature extraction methods表5 不同的特征提取方法對比
圖4所示為本文方法在Martket1501數(shù)據(jù)集上的測試結(jié)果,從測試結(jié)果中可以看出:給定行人正面圖像可以正確找到側(cè)面和背面圖像,如圖4a所示;給定行人側(cè)面圖像可以正確找到正面和背面圖像,如圖4b所示;給定行人背面圖像可以正確找到側(cè)面和正面圖像,如圖4c所示。上述分析表明,本文方法可以通過正面、側(cè)面和背面行人圖像查找到其他角度的行人圖像,證明本方法有效。
Figure 4 Results on Martket1501圖4 在Martet1501數(shù)據(jù)集上的測試結(jié)果
本文提出了基于無監(jiān)督跨域行人再識別方法,通過視角分類任務(wù)訓(xùn)練,模型獲取的行人特征可以直接遷移到行人再識別任務(wù)中。本文方法基于改進(jìn)的膠囊網(wǎng)絡(luò)模型DCapNet實(shí)現(xiàn)。通過改進(jìn)膠囊網(wǎng)絡(luò)的特征提取層和動態(tài)路由算法,DCapNet提升了處理大維度輸入空間的能力,緩解了梯度消失問題。通過實(shí)驗(yàn)可知,本文提出的方法優(yōu)于其他無監(jiān)督行人再識別方法。后續(xù)工作將進(jìn)一步研究特征表示方法,提高跨域行人再識別準(zhǔn)確率。