陳代麗,許國良*
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065)(?通信作者電子郵箱xugl@cqupt.edu.cn)
基于注意力機(jī)制學(xué)習(xí)域內(nèi)變化的跨域行人重識(shí)別方法
陳代麗1,2,許國良1,2*
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065)(?通信作者電子郵箱xugl@cqupt.edu.cn)
針對(duì)行人重識(shí)別任務(wù)跨域遷移時(shí)性能嚴(yán)重衰退的問題,提出了一種基于注意力機(jī)制學(xué)習(xí)域內(nèi)變化的跨域行人重識(shí)別方法。首先,以ResNet50為基礎(chǔ)架構(gòu)并對(duì)其進(jìn)行調(diào)整使其適合行人重識(shí)別任務(wù),并引入實(shí)例-批歸一化網(wǎng)絡(luò)(IBN-Net)以提高模型的泛化能力,同時(shí)增加區(qū)域注意力分支以提取更具鑒別性的行人特征。對(duì)于源域的訓(xùn)練,將其作為分類任務(wù),使用交叉熵?fù)p失進(jìn)行源域的有監(jiān)督學(xué)習(xí),同時(shí)引入三元組損失來挖掘源域樣本的細(xì)節(jié),從而提高源域的分類性能。對(duì)于目標(biāo)域的訓(xùn)練,通過學(xué)習(xí)域內(nèi)變化來適應(yīng)源域和目標(biāo)域間的數(shù)據(jù)分布差異。在測(cè)試階段,以ResNet50 pool-5層的輸出作為圖像特征,并計(jì)算查詢圖像與候選圖像間的歐氏距離來度量兩者的相似度。在兩個(gè)大規(guī)模公共數(shù)據(jù)集Market-1501和DukeMTMC-reID上進(jìn)行實(shí)驗(yàn),所提方法的Rank-1準(zhǔn)確率分別達(dá)到80.1%和67.7%,平均精度均值(mAP)分別為49.5%和44.2%。實(shí)驗(yàn)結(jié)果表明,所提方法在提高模型泛化能力方面性能較優(yōu)。
無監(jiān)督域適應(yīng);域內(nèi)變化;行人重識(shí)別;注意力機(jī)制;鑒別特征
作為智能安防領(lǐng)域的一個(gè)基本任務(wù),行人重識(shí)別(Person re-identification)[1]得到了學(xué)術(shù)界和工業(yè)界的長期關(guān)注。它旨在給定查詢圖像的前提下,檢索出不同時(shí)間、不同地點(diǎn)包含該行人的圖像。早期行人重識(shí)別主要集中于手工設(shè)計(jì)結(jié)構(gòu)特征或者距離度量學(xué)習(xí),隨著深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于目標(biāo)檢測(cè)、目標(biāo)追蹤等領(lǐng)域,深度學(xué)習(xí)也逐漸應(yīng)用于重識(shí)別任務(wù)。在擁有良好的、足夠的訓(xùn)練數(shù)據(jù)的情況下,深度學(xué)習(xí)依靠強(qiáng)大的學(xué)習(xí)能力在大部分任務(wù)中可獲得較好的性能,包括行人重識(shí)別任務(wù)。然而,由于數(shù)據(jù)分布的較大偏差,在源域訓(xùn)練的模型直接部署于目標(biāo)域時(shí)將產(chǎn)生嚴(yán)重的性能衰退[2]。此外,有監(jiān)督學(xué)習(xí)需要大量有標(biāo)簽信息的訓(xùn)練數(shù)據(jù),這在實(shí)際場(chǎng)景中難以獲得。這些問題限制了有監(jiān)督重識(shí)別模型的應(yīng)用,因此研究者們提出了無監(jiān)督域適應(yīng)行人重識(shí)別方法以提高模型的泛化能力。
最近無監(jiān)督域適應(yīng)行人重識(shí)別方法的重要思路之一是為缺少標(biāo)簽信息的目標(biāo)域樣本分配偽標(biāo)簽,使無監(jiān)督學(xué)習(xí)等同于有監(jiān)督學(xué)習(xí),比如:文獻(xiàn)[3]中對(duì)樣本特征相似度進(jìn)行聚類,并根據(jù)聚類結(jié)果為其分配偽標(biāo)簽;文獻(xiàn)[4]中通過比較未標(biāo)記的行人圖像與輔助域的參考行人圖像,為每個(gè)未標(biāo)記的行人學(xué)習(xí)標(biāo)簽似然向量,實(shí)現(xiàn)不同攝像機(jī)視域內(nèi)的行人重識(shí)別。也有方法主要關(guān)注如何縮小域差,例如文獻(xiàn)[5-7]中將來自源域的圖像翻譯到目標(biāo)域,形成具有目標(biāo)域圖像風(fēng)格的中間數(shù)據(jù)集并保留源域固有身份,使模型在中間數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練時(shí)就學(xué)習(xí)了目標(biāo)域圖像風(fēng)格,從而緩解目標(biāo)域與源域數(shù)據(jù)風(fēng)格差異對(duì)模型性能的影響。除此之外,有研究通過考慮目標(biāo)域域內(nèi)變化,提升重識(shí)別模型的泛化能力,比如:文獻(xiàn)[8]中研究了三種不變性即樣本不變性、相機(jī)不變性及鄰居不變性;文獻(xiàn)[9]中挖掘目標(biāo)數(shù)據(jù)集存在的一致性約束,增強(qiáng)全局線索和局部線索的協(xié)調(diào)性,并鼓勵(lì)給定實(shí)例與其正樣本有相似的特征,從而適應(yīng)域內(nèi)變化。
總體來看,無監(jiān)督域適應(yīng)行人重識(shí)別研究基于解決思路和關(guān)注點(diǎn)不同,采用的方法也存在差異。從整體考慮,獲取更具鑒別性的行人特征是關(guān)注的基本問題;就考慮目標(biāo)域域內(nèi)變化的方法而言,不同樣本間的差異及不同攝像機(jī)所拍圖像風(fēng)格差異(攝像機(jī)編號(hào)分別為C1、C3、C6)如圖1所示,是影響模型跨域重識(shí)別性能的關(guān)鍵。
圖1 域內(nèi)行人圖像變化Fig.1 Person image changes in domain
針對(duì)上述問題,本文的主要工作如下:1)為提取更具鑒別性的行人特征,同時(shí)考慮樣本層級(jí)特征及區(qū)域注意力特征;2)引入實(shí)例-批歸一化網(wǎng)絡(luò)(Instance-Batch Normalization Network, IBN-Net),通過學(xué)習(xí)目標(biāo)域域內(nèi)變化,增強(qiáng)模型的泛化性。在兩個(gè)公開數(shù)據(jù)集Market-1501和DukeMTMC-reID上進(jìn)行了實(shí)驗(yàn),結(jié)果表明本文所提方法的綜合性能較優(yōu)。
就跨域行人重識(shí)別任務(wù)而言,一般有兩個(gè)數(shù)據(jù)域:一是有標(biāo)簽信息的源域,它有位行人共張圖像,每個(gè)樣本對(duì)應(yīng)的身份標(biāo)簽為;二是沒有標(biāo)簽信息的目標(biāo)域,共有張圖像。除這些信息外,本文還需要目標(biāo)域攝像頭編號(hào)?;谝陨闲畔?,本文的目的是通過提取更具鑒別性的行人信息來學(xué)習(xí)目標(biāo)域的域內(nèi)變化,從而提升模型從源域遷移到目標(biāo)域的重識(shí)別性能。
為估計(jì)目標(biāo)域樣本的相似性,本文首先構(gòu)建了一個(gè)樣本特征存儲(chǔ)庫,每一個(gè)位置存儲(chǔ)目標(biāo)域樣本的特征。在訓(xùn)練過程中,樣本特征存儲(chǔ)庫根據(jù)式(1)以迭代方式進(jìn)行更新:
域間風(fēng)格差異是影響跨域行人重識(shí)別性能衰退的重要因素,與生成中間風(fēng)格圖像的方法[6,10]不同,本文直接提取風(fēng)格不變特征緩解域間風(fēng)格差異的影響。由于批歸一化(Batch Normalization, BN)[11]可以保存與內(nèi)容相關(guān)的信息,實(shí)例歸一化(Instance Normalization, IN)[12]對(duì)目標(biāo)的外觀變化具有魯棒性,因此用IN來處理與風(fēng)格相關(guān)的淺層特征,用BN來處理與高層特征相關(guān)的深度特征。在淺層網(wǎng)絡(luò)中加入IN時(shí),同時(shí)加入BN層以保證與內(nèi)容相關(guān)的信息能順利通過深度網(wǎng)絡(luò)。IBN-Net結(jié)構(gòu)[13]如圖2所示。
圖2 IBN-Net結(jié)構(gòu)Fig. 2 Structure of IBN-Net
本文所提方法的總體結(jié)構(gòu)如圖3所示。該模型以ResNet50為基礎(chǔ)架構(gòu),其中ResNet50的殘差塊增加了IBN-Net,同時(shí)在ImageNet數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練。為進(jìn)行后續(xù)的重識(shí)別任務(wù),本文移除ResNet50-IBN用于分類的全連接層,并增加用于學(xué)習(xí)樣本特征的全局分支和用于學(xué)習(xí)區(qū)域注意力特征的區(qū)域注意力分支。
對(duì)于全局特征分支,本文將ResNet50-IBN的pool-5層輸出通過全局平均池化(Global Average Pooling, GAP)處理后,經(jīng)過包含卷積、BN層及整流線性單元(Rectified Linear Unit, ReLU)激活的降維操作,得到一個(gè)256維的全局特征。
圖3 所提方法的總體結(jié)構(gòu)Fig. 3 Overall structure of proposed method
在提取區(qū)域注意力特征時(shí),采用直接水平劃分特征圖的方式,將特征映射圖分為上下兩部分水平區(qū)域,再以注意力模塊CBAM(Convolutional Block Attention Module)[14]學(xué)習(xí)區(qū)域中重要特征并抑制其他無關(guān)特征,實(shí)現(xiàn)鑒別特征提取。CBAM依次使用通道和空間注意力模塊,以便每個(gè)分支可分別在通道和空間軸中學(xué)習(xí)要注意什么和注意哪里。將經(jīng)過切分后所得的上下部分區(qū)域特征圖、作為輸入,CBAM依次推斷1維通道注意映射圖、和2維空間注意映射圖、,如圖4所示。
圖4 CBAM 結(jié)構(gòu)Fig. 4 Structure of CBAM
當(dāng)?shù)玫絽^(qū)域注意力特征圖后,對(duì)每個(gè)特征圖使用全局最大池化(Global Max Pooling, GMP)和GAP的組合。與全局分支僅使用GAP不同,對(duì)區(qū)域注意力特征圖使用組合池化更有利于挖掘豐富的特征,之后再通過類似全局分支的降維操作獲得兩個(gè)256維的注意力特征。最后,將樣本特征與區(qū)域注意力特征沿通道維度連接,然后通過一個(gè)2 048維的全連接層,之后是BN層、ReLU層、Dropout層,最終得到行人鑒別特征。結(jié)合全局信息和區(qū)域注意信息可以彌補(bǔ)全局特征分支難以使用局部區(qū)域的語義信息[15]。利用主要特征并關(guān)注其中的關(guān)鍵特征,使得本文方法能識(shí)別相似度較高的難負(fù)樣本。
源域數(shù)據(jù)擁有身份信息,對(duì)該域數(shù)據(jù)的訓(xùn)練屬于有監(jiān)督范式。因此,本文使用交叉熵?fù)p失(Cross-entropy loss)和三元組損失(Triplet loss)的組合來進(jìn)行源域的有監(jiān)督學(xué)習(xí)。源域的交叉熵?fù)p失為:
一般來說,訓(xùn)練數(shù)據(jù)中存在正樣本和負(fù)樣本,最小化正樣本間的距離和最大化負(fù)樣本間的距離有助于優(yōu)化行人的嵌入特征。故本文使用Hermans等[16]提出的三元組損失來挖掘訓(xùn)練圖像中的樣本細(xì)節(jié),源域的三元組損失為:
通過聯(lián)合交叉熵?fù)p失和三元組損失得到源域有監(jiān)督損失為:
在有標(biāo)簽信息的源域訓(xùn)練的重識(shí)別模型在具有相同數(shù)據(jù)分布的測(cè)試集上有相似的分類準(zhǔn)確率。事實(shí)上,不同數(shù)據(jù)集間的數(shù)據(jù)分布存在較大差異,直接將訓(xùn)練好的模型遷移到未知數(shù)據(jù)集上,模型性能可能發(fā)生嚴(yán)重衰減。為緩解該問題,本文進(jìn)一步學(xué)習(xí)目標(biāo)域的域內(nèi)變化,以提高模型的泛化能力。
在真實(shí)場(chǎng)景下,背景、姿態(tài)、照明、視角、相機(jī)等條件變化很大[17],采集的行人圖像在外觀上具有差異,甚至是擁有相同身份的行人樣本也不盡相同,即一張圖像只和自身有最高的相似度,故本文將每張圖像看作單獨(dú)的一類。對(duì)于目標(biāo)圖像,首先計(jì)算與存儲(chǔ)在樣本特征庫中的特征間的相似性,然后使用softmax函數(shù)預(yù)測(cè)樣本屬于類的概率:
根據(jù)式(6),訓(xùn)練樣本被迫遠(yuǎn)離其他行人圖像,而同一身份的圖像特征應(yīng)該具有極高的相似性,強(qiáng)迫相同身份的行人具有明顯不同的表征將對(duì)模型產(chǎn)生消極影響[18]。為找到相同身份的行人,本文首先計(jì)算樣本與樣本特征庫中特征間的余弦相似性,并根據(jù)相似性,找到與最接近的個(gè)樣本作為它的最近鄰居集,并把對(duì)應(yīng)索引作為它的近鄰標(biāo)簽。不難想象,與樣本最相似的圖像是其本身,類別為。受ECN(Exemplar-invariance,Camera-invariance,Neighborhood-invariance)[8]的啟發(fā),目標(biāo)圖像應(yīng)和它對(duì)應(yīng)的最近鄰居共享相同身份,因此屬于鄰居標(biāo)簽的概率權(quán)重為:
通過最小化相似圖像間的距離,充分利用了正樣本,提高了模型面對(duì)目標(biāo)域域內(nèi)變化的魯棒性。該目標(biāo)函數(shù)是一個(gè)軟標(biāo)簽損失,為:
根據(jù)式(6)、(8),樣本間的損失為:
在行人重識(shí)別任務(wù)中,行人可能在不同時(shí)間出現(xiàn)在不同攝像機(jī)視域內(nèi)。由于環(huán)境以及相機(jī)參數(shù)的影響,不同攝像機(jī)所攝圖像具有較大的風(fēng)格差異,如圖1(b)所示,這種差異可能會(huì)影響模型的重識(shí)別性能。為此,本文將每個(gè)攝像機(jī)視為不同的子域,用循環(huán)生成對(duì)抗網(wǎng)絡(luò)(Cycle-consistent Generative Adversarial Network, CycleGAN)[19]為目標(biāo)域訓(xùn)練相機(jī)風(fēng)格(Camera Style, CamStyle)[20]模型。根據(jù)CamStyle模型,來自攝像機(jī)的圖像將生成張其他攝像機(jī)風(fēng)格的圖像,同時(shí)保留原圖像的身份,是目標(biāo)域相機(jī)數(shù)量。訓(xùn)練時(shí),從目標(biāo)域中選擇128張行人圖像作為模型輸入,其中部分圖像被隨機(jī)替換為對(duì)應(yīng)的風(fēng)格遷移圖像共同參與模型優(yōu)化。
目標(biāo)域訓(xùn)練將樣本間的變化和攝像機(jī)風(fēng)格差異同時(shí)考慮在內(nèi),故總的目標(biāo)域優(yōu)化函數(shù)為:
本文在常用的兩個(gè)大規(guī)模行人重識(shí)別數(shù)據(jù)集Martket-1501[21]和DukeMTMC-reID[22-23]上進(jìn)行驗(yàn)證。
Martket-1501包括由5個(gè)高清攝像頭和1個(gè)低清攝像頭共1 501位行人32 668幅行人圖像,其中用于訓(xùn)練的圖像有12 936張,分別來自于751位身份不同的行人,用于測(cè)試的數(shù)據(jù)來自750位行人共19 732張圖像數(shù)據(jù)。
DukeMTMC-reID數(shù)據(jù)集是DukeMTMC數(shù)據(jù)集[23]的一個(gè)子集。它由隨機(jī)從視頻中每120幀采樣而得的702個(gè)身份共16 522張訓(xùn)練樣本、702個(gè)身份2 228張查詢圖像以及17 661張候選圖像組成,其中1 404人出現(xiàn)在大于兩個(gè)攝像頭下,有408人僅出現(xiàn)在一個(gè)攝像頭下。
在訓(xùn)練過程中,以其中一個(gè)數(shù)據(jù)集作為源域,另一個(gè)數(shù)據(jù)集作為目標(biāo)域。在測(cè)試時(shí),提取融合樣本特征和區(qū)域注意力特征的行人信息,計(jì)算查詢圖像與候選圖像間的歐氏距離作為它們的相似性,然后根據(jù)相似性計(jì)算累積匹配特征(Cumulated Matching Characteristics, CMC)曲線和平均精度均值(mean Average Precision, mAP)。
本文使用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet50-IBN作為主要框架,輸出層維度設(shè)置為批量輸入大小,移除最后的池化層和全連接層,得到特征映射圖后通過一個(gè)全局特征分支和一個(gè)區(qū)域注意力分支,并分別通過降維操作得到256維的特征圖,按照通道方向級(jí)聯(lián)。在訓(xùn)練時(shí),固定ResNet50-IBN的layer1、layer2和layer3層的參數(shù),網(wǎng)絡(luò)輸出層參數(shù)則以正態(tài)分布初始化,并采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)來優(yōu)化模型。超參數(shù)的設(shè)置基本參照文獻(xiàn)[8]中,訓(xùn)練數(shù)據(jù)被重置為的大小,并經(jīng)過隨機(jī)翻轉(zhuǎn)、隨即裁剪及隨機(jī)擦除等常用數(shù)據(jù)增強(qiáng)操作,前40次迭代時(shí),ResNet50-IBN的基礎(chǔ)層學(xué)習(xí)率設(shè)為0.01,其他新增網(wǎng)絡(luò)層學(xué)習(xí)率設(shè)為0.1,在后續(xù)的20次迭代中,學(xué)習(xí)率分別縮小為原來的1/10,Dropout概率設(shè)為0.3。目標(biāo)域最近鄰居數(shù)量,樣本特征存儲(chǔ)庫的特征更新率隨迭代次數(shù)的增加而增加,即。本文設(shè)置特征分布平衡因子,源域與目標(biāo)域損失比例。
本文方法的構(gòu)建是基于Pytorch1.1.0的深度學(xué)習(xí)框架,所有實(shí)驗(yàn)均在GPU型號(hào)為Tesla K40m的Linux服務(wù)器上進(jìn)行訓(xùn)練和測(cè)試。
本文方法的各項(xiàng)參數(shù)可能對(duì)最終的行人重識(shí)別結(jié)果產(chǎn)生一定影響,如特征更新動(dòng)量、特征分布、源域與目標(biāo)域損失權(quán)重以及鄰居范圍,其中參數(shù)是學(xué)習(xí)目標(biāo)域域內(nèi)變化的關(guān)鍵因素,故下面主要分析鄰居范圍對(duì)模型性能的影響。
表1給出了本文方法主要部分對(duì)模型性能的影響。與直接將ResNet50-IBN網(wǎng)絡(luò)(Baseline)在目標(biāo)域進(jìn)行測(cè)試相比,僅考慮全局特征分支(Global Feature Branch, GFB)學(xué)習(xí)目標(biāo)域域內(nèi)變化時(shí),在Market-1501上Rank-1準(zhǔn)確率提高了33個(gè)百分點(diǎn),結(jié)果表明模型對(duì)樣本變化和圖像風(fēng)格差異具有一定的魯棒性。若僅引入?yún)^(qū)域注意力分支(Region Attention Branch, RAB),特征映射圖被劃分為上下兩部分,CBAM注意力模塊提取重要特征,在學(xué)習(xí)域內(nèi)變化后,模型性能比僅考慮全局特征分支時(shí)略有提升,且相較于直接使用Baseline,性能提升更為顯著。同時(shí)考慮全局特征分支和區(qū)域注意力分支,以DukeMTMC-reID為源域,Market-1501為目標(biāo)域,模型的Rank-1準(zhǔn)確率達(dá)到80.1%,表明本文方法能有效提高跨域重識(shí)別性能。
圖5 不同鄰居數(shù)在Rank-1準(zhǔn)確率上的評(píng)估Fig. 5 Evaluation of Rank-1 accuracy with different neighbor number
將基于注意力機(jī)制學(xué)習(xí)域內(nèi)變化的行人重識(shí)別方法在兩個(gè)基準(zhǔn)數(shù)據(jù)集上的結(jié)果與其他無監(jiān)督域適應(yīng)方法進(jìn)行對(duì)比,包括:1)基于手工特征的表征模型LOMO(LOcal Maximal Occurrence)[24]和BoW(Bag-of-Words)[21];基于偽標(biāo)簽生成的方法SSG(Self-Similarity Grouping)[3]和MAR(MultilAbel Reference learning)[4];2)基于風(fēng)格遷移的方法SPGAN(Similarity Preserving Generative Adversarial Network)[5]、PTGAN(Person Transfer Generative Adversarial Network)[6]、CamStyle[20]及CSGAN(Cross-domain Similarity Generative Adversarial Network)[7];3)關(guān)注域內(nèi)變化的方法ECN[8]、D-MMD(Dissimilarity-based Maximum Mean Discrepancy)[25]和ICE(Intra-domain Consistency Enhancement)[9]。分別以Market-1501和DukeMTMC-reID為源域,DukeMTMC-reID和Market-1501為目標(biāo)域,將本文方法與對(duì)比方法的性能進(jìn)行比較,結(jié)果如表2所示。
圖6 不同鄰居數(shù)在mAP上的評(píng)估Fig. 6 Evaluation of mAP with different neighbor number
表1 不同分支性能對(duì)比 單位: %Tab. 1 Performance comparison of different branches unit: %
表2 不同方法在Market-1501和DukeMTMC-reID上的性能比較 單位: %Tab. 2 Performance comparison of different methods on Market-1501 and DukeMTMC-reID unit: %
由表2可知,本文方法在DukeMTMC-reID遷移到Market-1501和Market-1501遷移到DukeMTMC-reID上分別獲得了80.1%和67.7%的Rank-1準(zhǔn)確率,49.5%及44.2%的mAP。與ECN相比,對(duì)于DukeMTMC-reID遷移到Market-1501,本文方法的Rank-1和mAP分別提高了5個(gè)百分點(diǎn)和6.5個(gè)百分點(diǎn);對(duì)于Market-1501遷移到DukeMTMC-reID,本文方法的Rank-1和mAP分別提高了4.4個(gè)百分點(diǎn)及3.8個(gè)百分點(diǎn)。雖然某些方法的性能優(yōu)于本文方法,比如模型ICE從DukeMTMC-reID遷移到Market-1501時(shí),Rank-1達(dá)到了90.8%,mAP達(dá)到了73.8%,但是該方法使用教師學(xué)生模型緩解噪聲標(biāo)簽的影響,相較于本文所提方法更為復(fù)雜,故本文方法的綜合性能更優(yōu)。
為分析本文方法的有效性,本文使用Grad-CAM (Gradient-weighted Class Activation Mapping)[26]對(duì)模型的全局特征和區(qū)域注意力特征進(jìn)行可視化分析,可視化結(jié)果如圖7所示,依次是原始查詢圖、全局特征映射圖、區(qū)域注意力特征映射圖和總體特征映射圖,圖中顏色越深表示權(quán)重越大。全局特征分支從樣本層級(jí)關(guān)注行人鑒別信息,區(qū)域注意力分支從部分層級(jí)學(xué)習(xí)關(guān)鍵特征并抑制其他干擾信息,聯(lián)合兩個(gè)分支有助于模型提取更具鑒別力的特征。本文從樣本層級(jí)和部分層級(jí)出發(fā),通過學(xué)習(xí)行人鑒別信息及目標(biāo)域域內(nèi)變化,使模型的泛化能力有所提升,如圖7中的總體特征映射圖顯然比全局特征和注意力特征映射圖含有更多的信息。
圖7 特征可視化結(jié)果Fig. 7 Feature visualization results
本文提出了基于注意力機(jī)制學(xué)習(xí)域內(nèi)變化的跨域行人重識(shí)別方法,不僅在ResNet50的殘差塊中引入IBN-Net緩解跨域適應(yīng)問題,還引入CBAM注意力機(jī)制學(xué)習(xí)行人鑒別特征,同時(shí)通過學(xué)習(xí)目標(biāo)域域內(nèi)變化適應(yīng)不同數(shù)據(jù)集的數(shù)據(jù)分布差異,并在兩個(gè)行人重識(shí)別數(shù)據(jù)集上進(jìn)行驗(yàn)證,驗(yàn)證了本文方法的有效性,在數(shù)據(jù)集Market-1501和DukeMTMC-reID上的Rank-1準(zhǔn)確率分別達(dá)到了80.1%和67.7%,mAP分別達(dá)到了49.5%和44.2%。接下來將進(jìn)一步研究如何有效緩解不同數(shù)據(jù)集圖像間的風(fēng)格差異,進(jìn)一步提升重識(shí)別模型的易泛化性。
[1] LI Y, WU Z Y, KARANAM S, et al. Real-world re-identification in an airport camera network [C]// Proceedings of the 2014 International Conference on Distributed Smart Cameras. New York: ACM,2014: 1-6.
[2] LUO C C, SONG C F, ZHANG Z X. Generalizing person re-identification by camera-aware invariance learning and cross-domain mixup [C]// Proceedings of the 2020 16th European Conference on Computer Vision, LNCS 12360. Cham:Springer, 2020: 224-241.
[3] FU Y, WEI Y C, WANG G S, et al. Self-similarity grouping: a simple unsupervised cross domain adaptation approach for person re-identification [C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 6111-6120.
[4] YU H X, ZHENG W S, WU A, et al. Unsupervised person re-identification by soft multi-label learning [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 2148-2157.
[5] DENG W J, ZHENG L, YE Q X, et al. Image-image domain adaptation with preserved self-similarity and domain-dissimilarity for person re-identification [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2018: 994-1003.
[6] WEI L H, ZHANG S L, GAO W, et al. Person transfer GAN to bridge domain gap for person re-identification [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 79-88.
[7] ZHANG W Y, ZHU L, LU L. Improving the style adaptation for unsupervised cross-domain person re-identification [C]// Proceedings of the 2020 International Joint Conference on Neural Networks. Piscataway: IEEE. 2020: 1-8.
[8] ZHONG Z, ZHENG L, LUO Z M, et al. Invariance matters: exemplar memory for domain adaptive person re-identification [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:598-607.
[9] LI Y Y, YAO H T, XU C S. Intra-domain Consistency Enhancement for Unsupervised Person Re-identification [J]. IEEE Transactions on Multimedia, 2021, 24: 415-425.
[10] WANG J Y, ZHU X T, GONG S G, et al. Transferable joint attribute-identity deep learning for unsupervised person re-identification [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:2275-2284.
[11] IOFFE S, SZEGEDY C. Batch normalization: accelerating deep network training by reducing internal covariate shift [C]// Proceedings of the 2015 32nd International Conference on Machine Learning. New York: ACM, 2015: 448-456.
[12] HUANG X, BELONGIE S. Arbitrary style transfer in real-time with adaptive instance normalization [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017:1510-1519.
[13] PAN X G, LUO P, SHI J P, et al. Two at once: enhancing learning and generalization capacities via IBN-Net [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11208. Cham: Springer, 2018:484-500.
[14] WOO S Y, PARK J C, LEE J-Y, et al. CBAM: convolutional block attention module [C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[15] 李佳賓,李學(xué)偉,劉宏哲,等.基于局部特征關(guān)聯(lián)與全局注意力機(jī)制的行人重識(shí)別[J].計(jì)算機(jī)工程,2022,48(1):245-252.(LI J B, LI X W, LIU H Z, et al. Person recognition based on local features relation and global attention mechanism [J]. Computer Engineering, 2022, 48(1): 245-252.)
[16] HERMANS A, BEYER L, LEIBE B. In defense of the triplet loss for person re-identification [EB/OL]. [2020-12-13]. https://arxiv.org/pdf/1703.07737.pdf.
[17] 廖華年,徐新.基于注意力機(jī)制的跨分辨率行人重識(shí)別[J].北京航空航天大學(xué)學(xué)報(bào),2021,47(3):605-612.(LIAO H N, XU X Cross-resolution person re-identification based on attention mechanism [J]. Journal of Beijing University of Aeronautics and Astronautics, 2021, 47(3): 605-612.)
[18] LIN Y T, XIE L X, WU Y, et al. Unsupervised person re-identification via softened similarity learning [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 3387-3396.
[19] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image to-image translation using cycle-consistent adversarial networks [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017:2242-2251.
[20] ZHONG Z, ZHENG L, ZHENG Z D, et al. Camera style adaptation for person reidentification [C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE,2018: 5157-5166.
[21] ZHENG L, SHEN L Y, TIAN L, et al. Scalable person re-identification: a benchmark [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2015:1116-1124.
[22] ZHENG Z D, ZHENG L, YANG Y. Unlabeled samples generated by GAN improve the person re-identification baseline in vitro [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 3774-3782.
[23] RISTANI E, SOLERA F, ZOU R S, et al. Performance measures and a data set for multi-target, multi-camera tracking [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9914. Cham: Springer, 2016:17-35.
[24] LIAO S C, HU Y, ZHU X Y, et al. Person re-identification by local maximal occurrence representation and metric learning [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE, 2015: 2197-2206.
[25] MEKHAZNI D, BHUIYAN A, ESKANDER G, et al. Unsupervised domain adaptation in the dissimilarity space for person re-identification [C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12372. Cham: Springer, 2020:159-174.
[26] SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization [J]. International Journal of Computer Vision, 2020, 128(2): 336-359.
Cross-domain person re-identification method based on attention mechanism with learning intra-domain variance
CHEN Daili1,2, XU Guoliang1,2*
(1.School of Communication and Information Engineering,Chongqing University of Posts and Telecommunications,Chongqing400065,China;2.Electronic Information and Networking Research Institute,Chongqing University of Posts and Telecommunications,Chongqing400065,China)
To solve severe performance degradation problem of person re-identification task during cross-domain migration, a new cross-domain person re-identification method based on attention mechanism with learning intra-domain variance was proposed. Firstly, ResNet50 was used as the backbone network and some modifications were made to it, so that it was more suitable for person re-identification task. And Instance-Batch Normalization Network (IBN-Net) was introduced to improve the generalization ability of model. At the same time, for the purpose of learning more discriminative features, a region attention branch was added to the backbone network. For the training of source domain, it was treated as a classification task. Cross-entropy loss was utilized for supervised learning of source domain, and triplet loss was introduced to mine the details of source domain samples and improve the classification performance of source domain. For the training of target domain, intra-domain variance was considered to adapt the difference in data distribution between the source domain and the target domain. In the test phase, the output of ResNet50 pool-5 layer was used as image features, and Euclidean distance between query image and candidate image was calculated to measure the similarity of them. In the experiments on two large-scale public datasets of Market-1501 and DukeMTMC-reID, the Rank-1 accuracy of the proposed method is 80.1% and 67.7% respectively, and its mean Average Precision (mAP) is 49.5% and 44.2% respectively. Experimental results show that, the proposed method has better performance in improving generalization ability of model.
unsupervised domain adaptation; intra-domain variance; person re-identification; attention mechanism; discriminative feature
TP391.41
A
1001-9081(2022)05-1391-07
10.11772/j.issn.1001-9081.2021030459
2021?03?26;
2021?06?22;
2021?06?23。
陳代麗(1996—),女,四川宜賓人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺; 許國良(1973—),男,浙江金華人,教授,博士,主要研究方向:計(jì)算機(jī)視覺、大數(shù)據(jù)分析與挖掘。
CHEN Daili, born in 1996,M. S. candidate. Her research interests include computer vision.
XU Guoliang, born in 1973,Ph. D., professor. His research interests include computer vision, big data analysis and mining.