薛麗霞,朱正發(fā),汪榮貴,楊 娟
基于多分區(qū)注意力的行人重識別方法
薛麗霞,朱正發(fā),汪榮貴,楊 娟*
合肥工業(yè)大學(xué)計算機(jī)與信息學(xué)院,安徽 合肥 230009
行人重識別是計算機(jī)視覺中一項具有挑戰(zhàn)性和實際意義的重要任務(wù),具有廣泛的應(yīng)用前景。背景干擾、任意變化的行人姿態(tài)和無法控制的攝像機(jī)角度等都會給行人重識別研究帶來較大的阻礙。為提取更具有辨別力的行人特征,本文提出了基于多分區(qū)注意力的網(wǎng)絡(luò)架構(gòu),該網(wǎng)絡(luò)能同時從全局圖像和不同局部圖像中學(xué)習(xí)具有魯棒性和辨別力的行人特征表示,能高效地提高行人重識別任務(wù)的識別能力。此外,在局部分支中設(shè)計了一種雙重注意力網(wǎng)絡(luò),由空間注意力和通道注意力共同組成,優(yōu)化提取局部特征。實驗結(jié)果表明,該網(wǎng)絡(luò)在Market-1501、DukeMTMC-reID和CUHK03數(shù)據(jù)集上的平均精度均值分別達(dá)到82.94%、72.17%、71.76%。
行人重識別;局部特征;雙重注意力網(wǎng)絡(luò);深度神經(jīng)網(wǎng)絡(luò)
行人重識別任務(wù)是在跨攝像頭中進(jìn)行指定行人檢索,即對于給定一個行人圖像,在多臺不同角度、沒有視野重疊覆蓋的攝像頭不同時間段拍攝的行人圖像數(shù)據(jù)庫中找到該行人目標(biāo)。隨著監(jiān)控攝像頭在公共區(qū)域的大量普及,行人重識別技術(shù)受關(guān)注程度越來越高,在視頻內(nèi)容檢索、視頻監(jiān)控以及智能安防等領(lǐng)域已成為一項核心技術(shù)。
解決行人重識別任務(wù)的常見方法是從特征提取和度量學(xué)習(xí)兩個方面考慮,首先是學(xué)習(xí)特征向量對行人圖像進(jìn)行特征表示[1-3],然后通過度量學(xué)習(xí)準(zhǔn)確的度量圖像間的相似性[4-8]。傳統(tǒng)的行人重識別方法[4]依賴于手工提取行人特征,再進(jìn)行相似性度量。但由于監(jiān)控攝像頭的分辨率低以及光照、角度等影響,同一個行人在不同攝像機(jī)中可能有很大差異,而不同的行人在外觀上可能很相似,這使得手工提取特征很難應(yīng)用到復(fù)雜的現(xiàn)實環(huán)境中。
近年來,由于深度學(xué)習(xí)強(qiáng)大的擬合和表征能力,在計算機(jī)視覺任務(wù)中都取得了出色的競爭表現(xiàn)[9-10]。通過深度卷積神經(jīng)網(wǎng)絡(luò)提取的行人特征比以前的手工編碼特征具有更高的泛化能力,使得應(yīng)用深度學(xué)習(xí)模型來解決行人重識別任務(wù)的準(zhǔn)確率提高到了一個新的水平。與此同時,帶有標(biāo)簽的行人重識別數(shù)據(jù)集(如CUHK03[11]、Market-1501[12]和DukeMTMC-reID[13])的出現(xiàn),為深度模型的訓(xùn)練在數(shù)據(jù)層面上提供了可行性。
在最初的基于深度學(xué)習(xí)的行人重識別研究方法中,研究者們主要使用最直接的從行人圖像的整體上提取識別特征方法,即通過網(wǎng)絡(luò)模型在圖像上提取行人全局特征向量用以相似性檢索[14-15]。雖然,這類方法在各大數(shù)據(jù)集上較傳統(tǒng)方法取得了突破性進(jìn)展,但是由于只考慮到整體圖像中捕獲最顯著的外觀特征來表示不同行人之間的區(qū)別,忽略了一些不顯著或不頻繁的細(xì)節(jié)信息,從而導(dǎo)致獲取的行人特征不足以準(zhǔn)確表示復(fù)雜場景中的行人身份信息。
因此,行人重識別研究并不僅僅只關(guān)注在全局特征上,也開始逐漸研究局部特征,并證明了結(jié)合局部特征的行人圖像表示是最有效的[16-17]。局部特征提取的關(guān)鍵是對整體圖像進(jìn)行分割及局部區(qū)域的精確定位。目前,效果較好的行人重識別方法在提取局部特征的功能上有所不同,大致可以概括為兩種:一是根據(jù)行人固有的身體結(jié)構(gòu),將圖像在水平方向上分割成若干條條帶,在其上提取局部特征[18-20];二是利用人體姿態(tài)估計和骨架關(guān)鍵點(diǎn)等先驗知識來預(yù)測行人身體結(jié)構(gòu)信息以裁剪出更準(zhǔn)確的局部區(qū)域[21-22]。但是上述方法都有各自的缺陷。第一種水平分塊方法沒有考慮局部之間不對齊問題;第二種局部劃分方法需要一個額外的骨架關(guān)鍵點(diǎn)或者姿態(tài)估計的模型,這會帶來額外的姿態(tài)估計誤差。
同時,研究者們還提出了針對行人重識別的注意力深度學(xué)習(xí)模型[23-24]。類似于人類視覺處理的注意力機(jī)制,有選擇性地傾向于注意圖像中的行人部分,而忽略其他不感興趣的區(qū)域,有助于解決行人重識別問題。Li等[25]為展現(xiàn)不同層次的注意力機(jī)制感知和學(xué)習(xí)行人特征,提出了HA-CNN網(wǎng)絡(luò)模型,用來學(xué)習(xí)互補(bǔ)的區(qū)域級硬注意力特征和像素級軟注意力特征,增強(qiáng)柔和和兼容性程度,優(yōu)化處理未對齊圖像的特征提取技術(shù)。Liu等[26]提出了一個多級別注意力模型HydraPlus-Net,將注意力機(jī)制映射到不同的特征層,使其挖掘多級別特征信息。上述此類方法大都將區(qū)域注意力網(wǎng)絡(luò)合并嵌入到深層的行人重識別模型中。大多數(shù)現(xiàn)有的行人重識別工作集中于使用全身圖像進(jìn)行注意力學(xué)習(xí),忽視了從行人身體的局部部位學(xué)習(xí)的注意力特征。同時,全局注意力更多地集中在全局信息區(qū)域上,這往往會抑制或忽略行人身體部位周圍的局部信息區(qū)域,從而導(dǎo)致當(dāng)人的圖像出現(xiàn)較大的姿態(tài)變化、嚴(yán)重的失調(diào)、局部遮擋等情況時,重識別效果不佳。
因而,本文重新考慮了如何利用局部特征和注意力機(jī)制學(xué)習(xí)到更加具有識別力的行人特征,設(shè)計了一個基于局部注意力的行人重識別網(wǎng)絡(luò),即多分區(qū)注意力網(wǎng)絡(luò)模型(multi-division attention network,MDA)。圖1展示了MDA網(wǎng)絡(luò)的整體框架圖。該網(wǎng)絡(luò)主要從兩個方面解決上述提及的困難:一是同時學(xué)習(xí)全局特征和不同分塊數(shù)量的局部特征,兼顧行人的整體信息和局部細(xì)節(jié)信息,優(yōu)化深度學(xué)習(xí)中的行人重識別;二是設(shè)計了一種雙重局部注意力網(wǎng)絡(luò),分為空間注意力網(wǎng)絡(luò)SANet和通道注意力網(wǎng)絡(luò)CANet,二者在功能上形成很強(qiáng)的互補(bǔ)性,提高行人重識別模型的性能。
圖1 MDA模型框架的概述
1) 主干網(wǎng)絡(luò)
本文中主干網(wǎng)絡(luò)采取的是ResNet50網(wǎng)絡(luò),借助其在行人重識別領(lǐng)域的優(yōu)勢。為適應(yīng)網(wǎng)絡(luò)模型中全局和局部特征融合需求,在網(wǎng)絡(luò)層上都對ResNet50原始版本進(jìn)行簡化改動,以及只采用conv 4_1層之前的網(wǎng)絡(luò)部分,后面連上conv和conv分別進(jìn)入三個獨(dú)立的分支。conv和conv結(jié)構(gòu)大體相同,都是由conv 5_層組成。不同點(diǎn)在于為了獲得更高粒度的特征圖,conv刪除了conv 5_1位置的下采樣操作,而conv不做任何改變。
這樣,進(jìn)入局部分支的特征圖尺寸比全局分支的特征圖尺寸大一倍,會強(qiáng)制這兩個局部分支學(xué)習(xí)更高粒度的特征和更多的細(xì)節(jié)信息。conv和conv模塊獨(dú)立訓(xùn)練,不共享參數(shù),最小化過度擬合的風(fēng)險。主干網(wǎng)絡(luò)的更多細(xì)節(jié)參數(shù)展示在表1中。
這樣,對于輸入訓(xùn)練圖像,首先使用主干網(wǎng)絡(luò)提取圖像的特征,該特征可以表示為
2)全局分支
全局分支的目的是從整個行人圖像中學(xué)習(xí)最優(yōu)的全局層次的特征表示。如圖1所示,F將會經(jīng)過兩條線路:一條是直接與局部分支的輸出做特征融合;另一條用于計算triplet損失。在計算損失這條線路上,F會經(jīng)過conv層(由核為12′4最大全局池化層、1′1卷積層、BN層和ReLU層組成),可以表示為
其中:W、b為卷積層的參數(shù)權(quán)重和偏置。式(4)的目的是將2048維的特征降維成256維y,用于計算triplet損失。
3) 局部分支
表1 Backbone network結(jié)構(gòu)
4) 特征融合
特征融合部分采用并行策略來實現(xiàn),同時考慮到融合過程可能會對局部注意力特征向量的某些特定維度產(chǎn)生過大的響應(yīng),加入一個非線性激活函數(shù)來平衡局部注意力特征響應(yīng)。融合特征可以定義為
在行人重識別任務(wù)中引入注意力機(jī)制,是希望通過類似于人腦注意力的機(jī)制,利用很小的感受野處理圖像中特定區(qū)域,降低了計算的維度,同時網(wǎng)絡(luò)學(xué)習(xí)圖像中高響應(yīng)區(qū)域的特征表示,使得該部分區(qū)域的特征得到增強(qiáng)。受此思想的影響,本文在局部分支中提出利用注意力機(jī)制進(jìn)一步提取出更具有分辨能力的局部特征,在具體實現(xiàn)過程中,運(yùn)用雙重局部注意力模型,即空間注意力(spatial attention network,SANet)和通道注意力(channel attention network,CANet)。
式中:U為Drop層的輸出,h、w、c為特征圖的高、寬和通道數(shù)。可以看出,Drop層是專門為后續(xù)卷積層的輸入大小而設(shè)計的對參數(shù)進(jìn)行壓縮,使得參數(shù)量只有原來的。實際上,這種跨通道壓縮是合理的,因為在模型設(shè)計中,所有通道共享相同的空間注意特征圖。
然后經(jīng)過一個卷積層和ReLU層,其目的是用于提取空間注意力特征,可以表示為
CANet是約束每一個通道上的所有特征值,最后輸出長度與通道數(shù)目相同的一維向量作為特征加權(quán)輸出。整個CANet有兩個支路:多通道分支和直連分支,如圖3所示。
多通道分支中的Sigmoid激活函數(shù)會導(dǎo)致其結(jié)構(gòu)①輸出歸一化為0到1之間,特征圖的輸出響應(yīng)變?nèi)酰@樣多通道疊加結(jié)構(gòu)①會使得最終輸出()的特征圖每一個點(diǎn)上的值變得很小。因此,式(10)中將()與1相加,可以很好地解決降低特征值問題。
圖3 CANet網(wǎng)絡(luò)結(jié)構(gòu)
本文在CUHK03[11]、Market-1501[12]和DukeMTMC-reID[13]數(shù)據(jù)集上進(jìn)行了充分的實驗,結(jié)果表明,與現(xiàn)有的網(wǎng)絡(luò)模型相比,本文提出的模型具有更好的魯棒性和有效性。本文使用首位命中率(Rank-1)和平均精度均值(mean average precision,mAP)作為行人重識別方法的評價指標(biāo)。同時,為提高結(jié)果所反映性能的準(zhǔn)確性,使用了Re-ranking評估方法[29]。
整個模型的實現(xiàn)是基于PyTorch框架來完成的,使用單個NVIDIA GEFORCE GTX 1080TI GPU來訓(xùn)練和測試模型。本文在ImageNet[28]數(shù)據(jù)集上預(yù)訓(xùn)練ResNet50網(wǎng)絡(luò)的權(quán)重參數(shù)用來初始化主干網(wǎng)絡(luò)。對于每個最小訓(xùn)練批次,隨機(jī)從數(shù)據(jù)集中選取個身份的行人和從每類行人中隨機(jī)選取張行人圖像。在訓(xùn)練階段,先將訓(xùn)練圖像大小調(diào)整為384′128,然后依概率=0.5進(jìn)行水平翻轉(zhuǎn),以及使用Random Erasing模擬物體遮擋情況進(jìn)行數(shù)據(jù)增強(qiáng)。在測試階段,只是將圖像大小調(diào)整為384′128。本文使用隨機(jī)梯度下降(SGD)進(jìn)行優(yōu)化,沖量為0.9,2正則化的權(quán)重衰減因子設(shè)為5E-4,初始學(xué)習(xí)率設(shè)為2E-3,每訓(xùn)練80個迭代次數(shù)下降10%。在每一個預(yù)測層之前使用dropout層,dropout比設(shè)置為0.5。
在Market-1501數(shù)據(jù)集上,將本文提出的方法與9種有代表性的方法進(jìn)行比較,實驗結(jié)果如表2所示。可以看出,本文提出的方法取得了較好的識別效果,mAP和Rank-1分別達(dá)到了82.94%和94.03%,在使用Re-ranking技術(shù)后更是達(dá)到了90.27%和94.98%,進(jìn)一步提高了識別準(zhǔn)確率。在這里選取的比較方法有以下幾種:水平分割方法(PCB+RPP[18])和借助行人姿態(tài)(Spindle[16]、PDC[22])來完成行人局部特征的提??;行人區(qū)域?qū)R方法提出的(Part-Aligned[24]);全局特征和局部特征的聯(lián)合學(xué)習(xí)(AlignedReID[31]);結(jié)合行人屬性解決行人重識別問題(APR[30]);注意力機(jī)制的引入(HA-CNN[25]、Hydraplus-net[26]、DuATM[32])。
表2 Market-1501數(shù)據(jù)集實驗結(jié)果
"RK" refers to implementing re-ranking[29]operation
在圖4中,顯示了某些給定行人圖像的前10個排序結(jié)果??梢钥闯觯词乖谥挥胁樵儓D像4(a)的背影圖時,大多數(shù)排名結(jié)果也是能夠保證準(zhǔn)確率的。對于具有相似外觀的查詢圖像4(b)和4(c),由于網(wǎng)絡(luò)可以提取足夠的行人特征信息,因此即使待查詢圖像中存在不對齊情況,也可以獲得良好的識別精度。在查詢圖像4(d)中的行人存在嚴(yán)重遮擋和姿態(tài)問題,本文提出的方法識別性能不是很好。
檢索的圖像全部來自Market-1501數(shù)據(jù)集中的圖像,而不是同一張相機(jī)拍攝的圖像。其中具有綠色邊框的圖像與給定查詢圖像屬于同一行人,而具有紅色邊框的圖像則不屬于同一行人。
對于更大的和更具有挑戰(zhàn)性的DukeMTMC-reID數(shù)據(jù)集,本文方法的重識別性能也很出色,分別與5種行人重識別方法進(jìn)行了比較,表3給出了實驗結(jié)果,其在Rank-1和mAP上的性能分別達(dá)到了84.68%和72.17%,在Rank-1指標(biāo)上比PCB+RPP和HA-CNN分別高出了1.38%和4.18%,在mAP指標(biāo)上比PCB+RPP和HA-CNN分別高出了2.97%和8.37%。在這個目前最具挑戰(zhàn)性的數(shù)據(jù)集上,進(jìn)一步驗證了本文方法的優(yōu)勢。
對于CUHK03數(shù)據(jù)集提供的兩種類型的標(biāo)簽,CUHK03-Labeled表示為手動標(biāo)記行人邊界框,CUHK03-Detected表示為DPM[33]檢測邊界框。本文提出的方法在CUHK03-Labeled上的Rank-1和mAP達(dá)到了75.36%和71.76%。同時,在CUHK03-Detected上的Rank-1和mAP達(dá)到了73.53%和65.91%。另外從表4中可以觀察到CUHK03-Labeled和CUHK03-Detected之間有明顯的差距。這足以證明行人圖像標(biāo)簽的標(biāo)注對行人重識別性能的重要影響,強(qiáng)調(diào)了高性能行人檢測器的重要性。
圖4 行人圖像前10個排序結(jié)果
表3 DukeMTMC-ReID數(shù)據(jù)集實驗結(jié)果
表4 CUHK03數(shù)據(jù)集實驗結(jié)果
為驗證本文設(shè)計的三分支網(wǎng)絡(luò)結(jié)構(gòu)的有效性,我們在Market-1501數(shù)據(jù)集上進(jìn)行了一系列不同分支設(shè)置策略的對比實驗,圖5展示了各分支不同組合的比較結(jié)果。將各分支的不同組合方法分為兩類,一是單個分支(全局分支、Part1局部分支和Part2局部分支),二是將各分支兩兩進(jìn)行自由組合(全局分支和Part1局部分支、全局分支和Part2局部分支、Part1局部分支和Part2局部分支)。從圖中可以直觀地看出,一方面,與所有的單個分支實驗結(jié)果相比,本文提出的分支組合方法效果更好。在僅保留全局分支時,行人重識別結(jié)果最差,Rank-1和mAP只達(dá)到84.89%和69.12%。在單個局部分支的對比實驗中,Part2分支比Part1分支在Rank-1指標(biāo)上高2.65%,在mAP指標(biāo)上高4.81%,這說明在一定程度上隨著局部劃分?jǐn)?shù)量的增加,行人重識別效果越來越好。另一方面,基于本文提出的多分區(qū)注意力網(wǎng)絡(luò),可以增加或減少局部分支的數(shù)量,即將三個分支自由組合,則會發(fā)現(xiàn)性能顯著下降。原因是提出的多分區(qū)注意力網(wǎng)絡(luò)的三個分支之間存在重疊,并且可以引入不同分區(qū)之間的相關(guān)性,從而可以學(xué)習(xí)更多差異信息。
我們進(jìn)一步評估提出的雙重局部注意力DLA的效果,同樣的是在Market-1501數(shù)據(jù)集進(jìn)行的對比實驗, 實驗結(jié)果如圖6所示。由圖可知,在沒有加任何注意力機(jī)制的全局和局部結(jié)合的純網(wǎng)絡(luò)GP中,Rank-1和mAP分別為85.33%和76.40%。在此基礎(chǔ)上開始引入注意力機(jī)制,結(jié)合純網(wǎng)絡(luò)GP和空間注意力網(wǎng)絡(luò)SANet可以使得Rank-1和mAP分別達(dá)到89.56%和80.52%,結(jié)合純網(wǎng)絡(luò)GP和通道注意力網(wǎng)絡(luò)CANet可以使得Rank-1和mAP分別達(dá)到91.07%和81.16%。這說明在網(wǎng)絡(luò)中嵌入注意力機(jī)制能提高行人重識別效果,但也反映出加入單一的注意力網(wǎng)絡(luò)對重識別結(jié)果影響不顯著。將本文提出的方法與前面三種網(wǎng)絡(luò)進(jìn)行比較,證實了提出的雙重局部注意力網(wǎng)絡(luò)能有效地幫助改進(jìn)行人重識別的性能,以及說明了空間注意力和通道注意力結(jié)合的優(yōu)勢和有效性。
行人重識別是一個具有挑戰(zhàn)性和實際意義的計算機(jī)視覺問題,本文將卷積神經(jīng)網(wǎng)絡(luò)和注意力思想引入行人重識別任務(wù),提出了一種基于多分區(qū)注意力的網(wǎng)絡(luò)模型,取得了顯著性的進(jìn)展。與大多數(shù)容易產(chǎn)生局部匹配錯位問題或利用全局的注意力機(jī)制的現(xiàn)有行人重識別方法相比,本文提出的網(wǎng)絡(luò)能夠以端到端的形式,運(yùn)用雙重注意力機(jī)制提取具有互補(bǔ)效果的行人局部注意力特征,并與全局特征進(jìn)行融合,從而獲得具有更好的行人重識別效果性能。同時,也注意到盡管均勻分塊方法簡單有效,但有待改進(jìn),在接下來的工作中,可以結(jié)合行人姿態(tài)估計和骨架關(guān)鍵點(diǎn)分析,提取更加有效的局部特征,繼續(xù)研究準(zhǔn)確率更高、魯棒性更好的行人重識別模型。
圖5 不同分支組合比較結(jié)果圖
圖6 DLA效果圖
[1] Sun R, Fang W, Gao J,. Person Re-identification in foggy weather based on dark channel prior and metric learning[J]., 2016, 43(12): 142–146.
孫銳, 方蔚, 高雋. 暗通道和測度學(xué)習(xí)的霧天行人再識別[J]. 光電工程, 2016, 43(12): 142–146.
[2] Su C, Zhang S L, Yang F,. Attributes driven tracklet-to-tracklet person re-identification using latent prototypes space mapping[J]., 2017, 66: 4–15.
[3] Matsukawa T, Okabe T, Suzuki E,. Hierarchical gaussian descriptor for person Re-identification[C]//, Las Vegas, NV, USA, 2016: 1363–1372.
[4] Zhao R, Ouyang W L, Wang X G. Person Re-identification by salience matching[C]//, Sydney, NSW, Australia, 2013: 2528–2535.
[5] Chen D P, Yuan Z J, Hua G,. Similarity learning on an explicit polynomial kernel feature map for person re-identification[C]//, Boston, MA, USA, 2015: 1565–1573.
[6] Sun Y F, Zheng L, Deng W J,. SVDNet for pedestrian retrieval[C]//, Venice, Italy, 2017: 3820–3828.
[7] Yang X, Wang M, Tao D C. Person Re-identification with metric learning using privileged information[J]., 2018, 27(2): 791–805.
[8] Zhang L, Xiang T, Gong S G. Learning a discriminative null space for person Re-identification[C]//, Las Vegas, NV, USA, 2016: 1239–1248.
[9] Liu H, Peng L, Wen J W. Multi-occluded pedestrian real-time detection algorithm based on preprocessing R-FCN[J]., 2019, 46(9): 180606.
劉輝, 彭力, 聞繼偉. 基于改進(jìn)R-FCN的多遮擋行人實時檢測算法[J]. 光電工程, 2019, 46(9): 180606.
[10] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//, Red Hook, NY, United States, 2012, 25: 1097–1105.
[11] Li W, Zhao R, Xiao T,. DeepReID: deep filter pairing neural network for person Re-identification[C]//, Columbus, OH, USA, 2014: 152–159.
[12] Zheng L, Shen L Y, Tian L,. Scalable person Re-identification: a benchmark[C]//, Santiago, Chile, 2015: 1116–1124.
[13] Zheng Z D, Zheng L, Yang Y. Unlabeled samples generated by GAN improve the person Re-identification baseline in Vitro[C]//, Venice, Italy, 2017: 3774–3782.
[14] Sudowe P, Spitzer H, Leibe B. Person attribute recognition with a jointly-trained holistic CNN model[C]//, Santiago, Chile, 2015: 329–337.
[15] Cheng D Q, Tang S X, Feng C C,. Extended HOG-CLBC for pedstrain detection[J]., 2018, 45(8): 180111.
程德強(qiáng), 唐世軒, 馮晨晨, 等. 改進(jìn)的HOG-CLBC的行人檢測方法[J]. 光電工程, 2018, 45(8): 180111.
[16] Zhao H Y, Tian M Q, Sun S Y,. Spindle net: person Re-identification with human body region guided feature decomposition and fusion[C]//, Honolulu, HI, USA, 2017: 907–915.
[17] Wei L H, Zhang S L, Yao H T,. GLAD: global-local-alignment descriptor for pedestrian retrieval[C]//, California, Mountain View, USA, 2017: 420–428.
[18] Sun Y F, Zheng L, Yang Y,. Beyond part models: person retrieval with refined part pooling[Z]. arXiv:1711.09349[cs:CV], 2017.
[19] Zheng Z D, Zheng L, Yang Y. Pedestrian alignment network for large-scale person Re-identification[J]., 2019, 29(10): 3037–3045.
[20] Cheng D, Gong Y H, Zhou S P,. Person Re-identification by multi-channel parts-based CNN with improved triplet loss function[C]//, Las Vegas, NV, USA, 2016: 1335–1344.
[21] Zheng L, Huang Y J, Lu H C,. Pose-invariant embedding for deep person Re-identification[J]., 2019, 28(9): 4500–4509.
[22] Su C, Li J N, Zhang S L,. Pose-driven deep convolutional model for person Re-identification[C]//, Venice, Italy, 2017: 3980–3989.
[23] Li D W, Chen X T, Zhang Z,. Learning deep context-aware features over body and latent parts for person Re-identification[C]//, Honolulu, HI, USA, 2017: 7398–7407.
[24] Zhao L M, Li X, Zhuang Y T,. Deeply-learned part-aligned representations for person Re-identification[C]//, Venice, Italy, 2017: 3239–3248.
[25] Li W, Zhu X T, Gong S G. Harmonious attention network for person Re-identification[C]//, Salt Lake City, UT, USA, 2018: 2285–2294.
[26] Liu X H, Zhao H Y, Tian M Q,. HydraPlus-Net: attentive deep features for pedestrian analysis[C]//, Venice, Italy, 2017: 350–359.
[27] Hermans A, Beyer L, Leibe B. In Defense of the triplet loss for person Re-Identification[Z]. arXiv: 1703.07737[cs:CV], 2017.
[28] Deng J, Dong W, Socher R,. ImageNet: a large-scale hierarchical image database[C]//, Miami, FL, USA, 2009: 248–255.
[29] Zhong Z, Zheng L, Cao D L,. Re-ranking person Re-identification with k-reciprocal encoding[C]//, Honolulu, HI, USA, 2017: 3652–3661.
[30] Lin Y T, Zheng L, Zheng Z D,. Improving person Re-identification by attribute and identity learning[Z]. arXiv: 1703.07220[cs:CV], 2017.
[31] Zhang X, Luo H, Fan X,. AlignedReID: surpassing human-level performance in person Re-identification[Z]. arXiv: 1711.08184[cs:CV], 2017.
[32] Si J L, Zhang H G, Li C G,. Dual attention matching network for context-aware feature sequence based person Re-identification[C]//, Salt Lake City, UT, USA, 2018: 5363–5372.
[33] Felzenszwalb P F, McAllester D A, Ramanan D. A discriminatively trained, multiscale, deformable part model[C]//, Anchorage, AK, USA, 2008: 1–8.
Person re-identification by multi-division attention
Xue Lixia, Zhu Zhengfa, Wang Ronggui, Yang Juan*
College of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China
Top-10 ranking list for some query images
Overview:With the popularity of surveillance cameras in public areas, person re-identification has become more and more important, and has become a core technology in video content retrieval, video surveillance, and intelligent security. However, in actual application scenarios, due to factors such as camera shooting angle, complex lighting changes, and changing pedestrian poses, occlusions, clothes, and background clutter in person images. It makes even the same person target have significant differences in different cameras, which poses a great challenge for person re-identification research. Therefore, in this paper we propose a research method based on deep convolutional networks, which combines global and local person feature and attention mechanisms to solve the problem of person re-identification. First, unlike traditional methods, we use ResNet50 network to initially extract person image features with more discriminating ability. Then, according to the person inherent body structure, the image is divided into several bands in the horizontal direction, and it is input into the local branch of the built-in attention mechanism to extract the person local attention features. At the same time, the global image is input to the global branch to extract the person global features. Finally, the person global features and local attention features are fused to calculate the loss function. In the network, in order to better extract the person local features, we design two local branches to segment the person images into different numbers of local area images. With the increase of the number of blocks, the network will learn more detailed and discriminative local features in each different local area, and at the same time, it can filter irrelevant information in local images to a large extent by combining the attention mechanism. Our proposed attention mechanism can make the network focus on the areas that need to be identified. The output person attention features usually have a stronger response than the non-target areas. Therefore, the attention networks we design include spatial attention networks and channel attention networks, which complement each other to learn the optimal attention feature, thereby extracting more discriminative local features. Experimental results show that the method proposed in this paper can effectively improve the performance of person re-identification.
Citation: Xue L X, Zhu Z F, Wang R G,. Person re-identification by multi-division attention[J]., 2020,47(11): 190628
Person re-identification by multi-division attention
Xue Lixia, Zhu Zhengfa, Wang Ronggui, Yang Juan*
College of Computer and Information, Hefei University of Technology, Hefei, Anhui 230009, China
Person re-identification is significant but a challenging task in the computer visual retrieval, which has a wide range of application prospects. Background clutters, arbitrary human pose, and uncontrollable camera angle will greatly hinder person re-identification research. In order to extract more discerning person features, a network architecture based on multi-division attention is proposed in this paper. The network can learn the robust and discriminative person feature representation from the global image and different local images simultaneously, which can effectively improve the recognition of person re-identification tasks. In addition, a novel dual local attention network is designed in the local branch, which is composed of spatial attention and channel attention and can optimize the extraction of local features. Experimental results show that the mean average precision of the network on the Market-1501, DukeMTMC-reID, and CUHK03 datasets reaches 82.94%, 72.17%, and 71.76%, respectively.
person re-identification; local features; dual attention network; deep neural networks
TP391.4;TP301.6
A
薛麗霞,朱正發(fā),汪榮貴,等. 基于多分區(qū)注意力的行人重識別方法[J]. 光電工程,2020,47(11): 190628
10.12086/oee.2020.190628
: Xue L X, Zhu Z F, Wang R G,Person re-identification by multi-division attention[J]., 2020, 47(11): 190628
2019-10-17;
2020-03-10
薛麗霞(1976-),女,博士,副教授,碩士生導(dǎo)師,主要從事智能視頻處理與分析、視頻大數(shù)據(jù)與云計算、智能視頻監(jiān)控與公共安全、嵌入式多媒體技術(shù)等的研究。E-mail:xixzzm@163.com
楊娟(1983-),女,博士,講師,碩士生導(dǎo)師,主要從事視頻信息處理、視頻大數(shù)據(jù)處理技術(shù)、深度學(xué)習(xí)與二進(jìn)神經(jīng)網(wǎng)絡(luò)理論與應(yīng)用等的研究。E-mail:yangjuan6985@163.com
* E-mail: yangjuan6985@163.com