李 杰
中國(guó)民航大學(xué) 信息網(wǎng)絡(luò)中心,天津300300
行人再識(shí)別旨在識(shí)別跨越不同監(jiān)控?cái)z像機(jī)下的同一行人目標(biāo),可廣泛應(yīng)用于視頻監(jiān)控、智能安防等領(lǐng)域中,如可疑人員的追蹤、特定人群的軌跡分析等。但由于不同攝像機(jī)下不同時(shí)間的圖像分辨率差異、光照影響、姿態(tài)和視角多樣等問(wèn)題,行人再識(shí)別仍然是一個(gè)具有較高研究?jī)r(jià)值和挑戰(zhàn)性的問(wèn)題。
為了克服上述問(wèn)題,行人再識(shí)別分別從兩個(gè)不同的方向發(fā)展:提取魯棒性的行人特征和學(xué)習(xí)合適的距離度量。近年來(lái)隨著深度學(xué)習(xí)的蓬勃發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的行人再識(shí)別方法逐步取代傳統(tǒng)的手工特征識(shí)別方法成為主流。在科研工作者的不斷努力探索下,行人再識(shí)別再次從通過(guò)CNN 提取行人特征應(yīng)用到單一行人再識(shí)別任務(wù)開(kāi)始,逐步發(fā)展為結(jié)合屬性等的多任務(wù)行人再識(shí)別階段。其中后者的代表工作:2019年Lin 等人在Market-1501這一主流行人再識(shí)別數(shù)據(jù)集上添加了行人的屬性標(biāo)簽,并設(shè)計(jì)實(shí)現(xiàn)了結(jié)合屬性特征的多任務(wù)識(shí)別模型(attribute person recognition,APR),可有效提高行人再識(shí)別的精度。Schumann等人分別設(shè)計(jì)了MultiView Attribute 和Attribute-Complementary Re-id Network 用于屬性識(shí)別和行人再識(shí)別。隨后,Liu 等人通過(guò)在Resnet50的基礎(chǔ)上級(jí)聯(lián)Densenet101網(wǎng)絡(luò)能夠更細(xì)致地獲取行人特征,進(jìn)而提高行人再識(shí)別的精度。但這些工作或者沒(méi)有考慮行人屬性包含信息的差異性,或者采用多網(wǎng)絡(luò)模型結(jié)合,導(dǎo)致訓(xùn)練相對(duì)復(fù)雜,應(yīng)用相對(duì)較難。
針對(duì)這些問(wèn)題,本文提出了基于空間注意力和紋理特征增強(qiáng)的多任務(wù)行人再識(shí)別算法。主要包括以下四方面:
(1)設(shè)計(jì)屬性識(shí)別網(wǎng)絡(luò)的空間注意力模塊,使網(wǎng)絡(luò)更注重與行人屬性相關(guān)的潛在圖像區(qū)域,同時(shí)抑制與行人無(wú)關(guān)的背景區(qū)域的影響,實(shí)現(xiàn)屬性特征挖掘從而提高行人屬性識(shí)別準(zhǔn)確性。
(2)設(shè)計(jì)行人再識(shí)別網(wǎng)絡(luò)的紋理特征增強(qiáng)模塊,通過(guò)結(jié)合不同空間級(jí)別的全局和局部行人表觀特征,融合輪廓性和顯著性特征來(lái)提高行人再識(shí)別準(zhǔn)確性。
(3)提出多任務(wù)加權(quán)損失函數(shù),使屬性識(shí)別網(wǎng)絡(luò)和行人再識(shí)別網(wǎng)絡(luò)有效聯(lián)合,并將屬性特征作為輔助信息融入行人特征,避免由屬性異質(zhì)性造成行人再識(shí)別精度損失。
(4)本文算法在Market-1501和DukeMTMC-reID兩大公開(kāi)行人再識(shí)別數(shù)據(jù)集的平均精度分別可以達(dá)到81.1%和70.1%。
本文方法的整體框架如圖1 所示,主要分為三部分:第一部分為采用ResNet50 作為骨干網(wǎng)絡(luò)提取特征;第二、三部分分別為基于空間注意力的屬性識(shí)別網(wǎng)絡(luò)和紋理特征增強(qiáng)的行人再識(shí)別網(wǎng)絡(luò)。引入屬性識(shí)別網(wǎng)絡(luò)的原因在于,包括性別、年齡等屬性特征與行人特征在一定程度上是緊密相連且互為補(bǔ)充的,可有效提高行人再識(shí)別的準(zhǔn)確率。在屬性識(shí)別網(wǎng)絡(luò)中添加空間注意力模塊是為了抑制無(wú)關(guān)背景區(qū)域,使網(wǎng)絡(luò)本身更注重于與特定屬性相關(guān)的,對(duì)識(shí)別更有利的潛在圖像區(qū)域。行人再識(shí)別網(wǎng)絡(luò)中的紋理特征增強(qiáng)模塊通過(guò)融合映射身體結(jié)構(gòu)分布的全局和局部特征,彌補(bǔ)因遮擋或姿態(tài)變換等特征不全情況下識(shí)別率低的短板。圖1 中“+”表示像素值點(diǎn)積的特征融合方式。
圖1 整體框架Fig.1 Overall structure
屬性識(shí)別網(wǎng)絡(luò)的引入是為了從行人圖像中學(xué)習(xí)更有判別性的屬性特征描述。特定的行人屬性可以從圖像中的一個(gè)甚至多個(gè)區(qū)域獲得。為了更好地學(xué)習(xí)這些屬性特征,需要卷積神經(jīng)網(wǎng)絡(luò)更注重于這些相對(duì)應(yīng)的區(qū)域。這些與屬性特征相關(guān)的區(qū)域不一定與標(biāo)注的目標(biāo)區(qū)域相對(duì)應(yīng)。與此同時(shí),行人各個(gè)屬性之間也是存在語(yǔ)義相關(guān)的,某個(gè)屬性的存在與否有助于推理其他屬性的存在與否。與此同時(shí),在文獻(xiàn)[11]中,通過(guò)實(shí)驗(yàn)證明了采用注意力模塊使得網(wǎng)絡(luò)能聚焦于更與行人相關(guān)的屬性特征區(qū)域,注意力分配概率分布更加偏向于關(guān)聯(lián)性強(qiáng)的屬性,以及在一定程度上減弱了網(wǎng)絡(luò)對(duì)行人無(wú)關(guān)的背景區(qū)域的關(guān)注。例如,女性和長(zhǎng)發(fā)同時(shí)出現(xiàn)的概率高,而手提一個(gè)包和背一個(gè)雙肩包同時(shí)出現(xiàn)的概率則低得多。這些特點(diǎn)有助于屬性識(shí)別并提高行人識(shí)別的精度。
為了使網(wǎng)絡(luò)更加關(guān)注與屬性相關(guān)的圖像區(qū)域以及挖掘?qū)傩蕴匦缘南嚓P(guān)性,本文提出了基于空間注意力的屬性識(shí)別網(wǎng)絡(luò)。其中空間注意力模塊的結(jié)構(gòu)圖如圖2 所示??臻g注意力模塊包括全局最大池化、全局中值池化和全局均值池化三個(gè)池化層,一個(gè)通道相加的特征融合操作,一個(gè)普通卷積層和激活函數(shù),一個(gè)統(tǒng)一特征的采樣操作和像素值點(diǎn)積的特征融合操作??臻g注意力模塊可用式(1)表示:
圖2 空間注意力模塊結(jié)構(gòu)圖Fig.2 Structure diagram of spatial attention module
其中,代表輸入特征圖;、、分別代表全局均值、中值和最大池化;、分別代表像素值點(diǎn)積和通道相加的特征融合方式;代表普通卷積,代表sigmod 激活函數(shù),代表雙線性差值的上采樣操作。該空間注意力模塊,采用包括全局、均值和中值的多層次池化來(lái)獲得空間上對(duì)行人更有效的顯著屬性特征,利用通道相加的特征融合操作來(lái)將多層次池化獲得的有效特征在通道層面實(shí)現(xiàn)融合,設(shè)計(jì)的卷積層和激活函數(shù)構(gòu)成的激勵(lì)將融合新特征的權(quán)重進(jìn)行再次優(yōu)化分配,最終再通過(guò)采樣和引入原始特征的點(diǎn)積融合操作來(lái)進(jìn)一步關(guān)注更具有判別性的、與行人相關(guān)的屬性特征。這樣的屬性挖掘方式不僅能提高重要屬性所對(duì)應(yīng)區(qū)域的權(quán)重,還能同時(shí)降低背景等對(duì)應(yīng)圖像特征的權(quán)重,進(jìn)而提高了屬性識(shí)別網(wǎng)絡(luò)的性能。
行人再識(shí)別的最終環(huán)節(jié)在于特征的相似度比較。而特征的有效獲取是相似度比較的基礎(chǔ)。引入的紋理特征增強(qiáng)模塊能夠更好地提取全局和局部行人特征,進(jìn)而實(shí)現(xiàn)快速準(zhǔn)確的行人特征匹配。其中紋理特征增強(qiáng)模塊的結(jié)構(gòu)圖見(jiàn)圖1 中的虛線框部分。其中全局特征是指行人的整體特征,包括顏色紋理等,是相關(guān)性較強(qiáng)的特征,在圖像遮擋的情況下表達(dá)能力較差。而與之相對(duì)的局部特征,包括邊緣、角點(diǎn)等,特征穩(wěn)定,特征相關(guān)性稍弱,遮擋時(shí)仍能通過(guò)部分特征來(lái)感知整體特點(diǎn)。本節(jié)通過(guò)紋理特征增強(qiáng)模塊中的多種操作使得行人再識(shí)別網(wǎng)絡(luò)獲得更全面的全局特征和更精準(zhǔn)的局部特征,進(jìn)而在一定程度上克服因遮擋等造成的行人再識(shí)別網(wǎng)絡(luò)性能下降的問(wèn)題。
紋理特征增強(qiáng)模塊主要包括可變形卷積操作、水平金字塔分割、全局均值、最大池化以及像素值點(diǎn)積的特征融合四部分。第一步引入可變形卷積操作不僅在一定程度上突破了固定采樣、固定感受野的限制,將特征聚集在行人等非剛體的姿態(tài)變化上,還能融入更合理的上下文信息以及邊緣信息。其中標(biāo)準(zhǔn)卷積和可變形卷積的感受野示例如圖3 所示。第二步采用水平金字塔分割操作,目的在于將特征分為與人體上下半身空間相對(duì)應(yīng)的水平局部特征。對(duì)于采用水平金字塔分割而不采用包括垂直分割等的其他分割方式,原因在于水平分割后的兩部分特征更能和人體的上下半身特征相對(duì)應(yīng)。同時(shí)在文獻(xiàn)[19]中的實(shí)驗(yàn)分析中,在保證實(shí)驗(yàn)公平,只有分割方式一種變量的前提下,對(duì)采用不分割、垂直分割、水平金字塔分割三種方式進(jìn)行對(duì)比,三種的平均精度分別為51.9%、59.6%和63.9%。第三步對(duì)由HPP(horizontal pyramid pooling)所得的局部特征和可表達(dá)顏色紋理以及形狀的行人全局特征進(jìn)行全局均值池化和全局最大池化。這一步操作一方面可以對(duì)多種特征進(jìn)行維度統(tǒng)一,便于后續(xù)對(duì)接固定數(shù)目的全連接層;另一方面可以進(jìn)一步獲得具有輪廓性和顯著性特點(diǎn)的特征。最后一步將這多種特征進(jìn)行像素值點(diǎn)積的特征融合操作,最終得到紋理特征增強(qiáng)模塊輸出的多路有效行人特征。紋理特征增強(qiáng)模塊不僅使網(wǎng)絡(luò)的關(guān)注點(diǎn)更聚焦在行人特征上,同時(shí)使模塊輸出特征兼具行人局部和全局特征的特點(diǎn),在一定程度上解決了因遮擋、姿態(tài)變化等引起的識(shí)別率降低的問(wèn)題。
圖3 兩種卷積的感受野示例Fig.3 Examples of two convolutional receptive fields
行人特征與屬性特征可互為補(bǔ)充,有效地利用行人屬性信息在一定程度上可以減弱視角、光照強(qiáng)度變化等的影響,進(jìn)而提高行人再識(shí)別任務(wù)的精度。但如果將屬性特征與行人特征直接進(jìn)行特征融合,雖然有包括像素值相加、像素值點(diǎn)積和通道相加等特征融合方式,但還是會(huì)由于屬性的異質(zhì)性及兩者特征的差異性影響到融合特征的有效性,進(jìn)而干擾行人再識(shí)別的精度。針對(duì)這一問(wèn)題,本文提出了多任務(wù)加權(quán)損失函數(shù)。
多任務(wù)加權(quán)損失函數(shù)主要分為兩大部分:一部分為屬性識(shí)別損失;另一部分為行人再識(shí)別損失,其中行人再識(shí)別損失可根據(jù)特征的劃分再分為行人的全局特征損失、上半身和下半身特征損失三部分。對(duì)于屬性識(shí)別部分,選擇與一般基于屬性的行人識(shí)別方法不同,這里對(duì)每一個(gè)屬性都采用了Softmax 損失。假定數(shù)據(jù)集中共有類(lèi)行人,每個(gè)行人有屬性種,其中每個(gè)屬性包含的類(lèi)別數(shù)為K,∈{1,2,…,}。如屬性為行人性別,則類(lèi)別數(shù)的值為2。那么行人屬性屬于其中第個(gè)類(lèi)別的預(yù)測(cè)概率值可用式(2)來(lái)表示,其中∈{1,2,…,K}。屬性經(jīng)過(guò)Softmax 后回歸所得的交叉熵?fù)p失即為式(3)。最終的屬性識(shí)別損失函數(shù)見(jiàn)式(4)。
其中,z() 為全連接層輸出的屬性的第個(gè)值。{·}是示性函數(shù),{}=1,{}=0 。 y為該樣本的第個(gè)屬性的真實(shí)屬性類(lèi)別。
對(duì)于行人再識(shí)別部分,按照劃分的行人特征分為全局特征、上半身和下半身特征。在訓(xùn)練過(guò)程中對(duì)每一部分特征都會(huì)計(jì)算一個(gè)分類(lèi)損失值,其中全局特征行人再識(shí)別的交叉熵?fù)p失函數(shù)如式(5)所示:
其中,∈{1,2,…,},p為該樣本屬于第類(lèi)行人的概率預(yù)測(cè)值,計(jì)算方法與式(2)一致,為該樣本的真實(shí)行人類(lèi)別。由上述公式最終可得多任務(wù)加權(quán)損失函數(shù)如式(6)所示:
其中,、分別代表行人的上半身和下半身特征損失,計(jì)算方法與式(5)一致。
上述1.2~1.4 節(jié)分別從為獲得更有判別力屬性特征的基于空間注意力的屬性識(shí)別網(wǎng)絡(luò)部分,可有效提取行人全局及局部特征的行人再識(shí)別網(wǎng)絡(luò)部分以及能充分發(fā)揮行人特征與屬性特征的多任務(wù)損失函數(shù)三方面進(jìn)行了分析。通過(guò)三部分的優(yōu)化設(shè)計(jì),聯(lián)合使用,在充分增強(qiáng)行人特征的基礎(chǔ)上,不斷挖掘?qū)傩蕴卣髦g的相關(guān)性,再利用多任務(wù)損失函數(shù)將兩個(gè)網(wǎng)絡(luò)同時(shí)訓(xùn)練,使行人特征融合與之契合的屬性特征,增強(qiáng)算法整體的魯棒性。
為了驗(yàn)證方法的有效性,分別采用Market-1501和DukeMTMC-reID 數(shù)據(jù)集進(jìn)行訓(xùn)練。為了使模型具有更好的魯棒性和泛化性能,在訓(xùn)練的過(guò)程中采用了隨機(jī)水平翻轉(zhuǎn)、裁剪等數(shù)據(jù)增強(qiáng)操作。訓(xùn)練過(guò)程中圖像大小統(tǒng)一為384×128,損失函數(shù)使用交叉熵?fù)p失,批處理數(shù)量設(shè)置為64,訓(xùn)練批次設(shè)置為60,學(xué)習(xí)率初始值設(shè)置為0.01,優(yōu)化過(guò)程采用隨機(jī)梯度下降算法,其中動(dòng)量設(shè)置為0.9。
為了驗(yàn)證本文算法的有效性,本文在Market-1501 和DukeMTMC-reID 兩大主流的行人再識(shí)別數(shù)據(jù)集上進(jìn)行多組實(shí)驗(yàn)分析。其中本文表中的評(píng)價(jià)指標(biāo)Rank-1 和mAP(mean average precision)的具體含義分別如下:Rank-表示對(duì)行人圖像特征按照相似度大小進(jìn)行排序后,在排序結(jié)果中前張圖像與查詢(xún)圖像具有相同行人ID 的準(zhǔn)確率。Rank-1 則表示為計(jì)算在排序后的測(cè)試集中前1 張圖像中能找到與查詢(xún)圖片相同標(biāo)簽的圖像的準(zhǔn)確率。mAP 是將多分類(lèi)任務(wù)中的平均精度(average precision,AP)求和再取平均,其中AP 的計(jì)算為查準(zhǔn)率(precision)和查全率(recall)構(gòu)成的P-R 曲線圖曲線下方的面積。
首先為了驗(yàn)證空間注意力模塊對(duì)于屬性識(shí)別網(wǎng)絡(luò)的有效性,通過(guò)對(duì)比移除空間注意力模塊前后,模型在DukeMTMC-attribute 數(shù)據(jù)集上的效果,來(lái)得出其對(duì)于屬性識(shí)別網(wǎng)絡(luò)的貢獻(xiàn)。具體評(píng)測(cè)結(jié)果見(jiàn)表1所示。
表1 中,L.up、B.pack、H.bag、C.shoes、C.up、C.low分別代表袖子長(zhǎng)度、背包、手提包、鞋子顏色、上半身衣服顏色、下半身衣服顏色。從表1 中可以看出,在包含空間注意力模塊之后,行人屬性的mAP 提高了7個(gè)百分點(diǎn)左右。而針對(duì)單個(gè)屬性而言,除了Bag 屬性有稍微的降低之外,其他的9 種屬性均有不同程度的提升。
表1 空間注意力模塊對(duì)屬性識(shí)別的有效性驗(yàn)證Table 1 Validity verification of spatial attention module for attribute recognition %
其次為了驗(yàn)證多任務(wù)加權(quán)損失函數(shù)中權(quán)重系數(shù)對(duì)于算法性能的影響,本文對(duì)不同的值進(jìn)行了多組實(shí)驗(yàn),具體實(shí)驗(yàn)結(jié)果見(jiàn)表2 所示。
從表2 可以看出,對(duì)于Market-1501 數(shù)據(jù)集,當(dāng)=4 時(shí)取得的效果最好,而在DukeMTMC 數(shù)據(jù)集上=2 時(shí)的效果最好,但是=4 的結(jié)果與=2 的結(jié)果相差只有0.1 個(gè)百分點(diǎn)。綜合考慮,本文最終選擇=4。
表2 不同λ 值在數(shù)據(jù)集上的結(jié)果Table 2 Results of different λ on datasets
為了進(jìn)一步驗(yàn)證文中提出的各個(gè)模塊的有效性,本文設(shè)計(jì)了4 組控制變量實(shí)驗(yàn)來(lái)分析不同情況對(duì)行人再識(shí)別平均準(zhǔn)確率的影響。4 組實(shí)驗(yàn)分別為不包含空間注意力模塊的屬性識(shí)別網(wǎng)絡(luò)、不包含紋理特征增強(qiáng)模塊的行人再識(shí)別網(wǎng)絡(luò)、單任務(wù)屬性識(shí)別網(wǎng)絡(luò)和單任務(wù)行人再識(shí)別網(wǎng)絡(luò)。其中第三組和第四組單任務(wù)識(shí)別網(wǎng)絡(luò)中都分別包含了空間注意力和紋理特征增強(qiáng)模塊。為了保證實(shí)驗(yàn)的公平性,4 組實(shí)驗(yàn)的訓(xùn)練過(guò)程都采用了隨機(jī)水平翻轉(zhuǎn)、裁剪等相同的數(shù)據(jù)增強(qiáng)操作。其中具體的評(píng)測(cè)結(jié)果見(jiàn)表3 所示。
在實(shí)驗(yàn)1 中,本文將屬性識(shí)別中的空間注意力模塊去掉,將輸入特征圖直接進(jìn)行屬性識(shí)別。從表3 中可以看到,缺少空間注意力模塊的mAP 值相對(duì)完整網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上相差2 個(gè)百分點(diǎn)左右。在實(shí)驗(yàn)2中,本文將紋理特征增強(qiáng)模塊去掉,主要去掉其中可變性卷積操作、全局最大池化、全局均值池化以及像素值點(diǎn)積的特征融合方法,但仍然進(jìn)行水平金字塔分割等操作,只對(duì)得到特征圖進(jìn)行普通池化,使得特征圖可輸入相對(duì)應(yīng)的全連接層。從表3 中可以看到,缺少紋理特征模塊的mAP值相對(duì)完整網(wǎng)絡(luò)在Market-1501 和DukeMTMC-reID 數(shù)據(jù)集分別相差約3 個(gè)百分點(diǎn)和4 個(gè)百分點(diǎn)。
為了進(jìn)一步驗(yàn)證本文算法的有效性,本文繼續(xù)設(shè)計(jì)了實(shí)驗(yàn)3 和實(shí)驗(yàn)4。在實(shí)驗(yàn)3 中,只利用單任務(wù)屬性識(shí)別網(wǎng)絡(luò)進(jìn)行行人再識(shí)別任務(wù)。通過(guò)表3 中結(jié)果可以看出,只使用單任務(wù)屬性識(shí)別網(wǎng)絡(luò)在行人再識(shí)別任務(wù)中表現(xiàn)相對(duì)較差。在實(shí)驗(yàn)4 中,只使用單任務(wù)行人再識(shí)別網(wǎng)絡(luò)進(jìn)行行人再識(shí)別任務(wù),通過(guò)表3 中結(jié)果看出,只利用了行人特征而不結(jié)合與之互為補(bǔ)充的屬性信息,在最終的識(shí)別精度上相較完整網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上相差4~5 個(gè)百分點(diǎn)。通過(guò)4 組對(duì)比實(shí)驗(yàn)的結(jié)果及分析,可以得出缺少行人再識(shí)別網(wǎng)絡(luò)對(duì)算法精度影響最大,缺少屬性識(shí)別網(wǎng)絡(luò)中的空間注意模塊影響最小。同時(shí)可以看出本文所設(shè)計(jì)的3個(gè)子模塊缺少其中任意一個(gè)都會(huì)影響算法的性能,只有聯(lián)合使用,構(gòu)成完整算法時(shí),效果最佳。綜上所述,本文提出的基于空間注意力的屬性識(shí)別網(wǎng)絡(luò)、紋理特征增強(qiáng)的行人再識(shí)別網(wǎng)絡(luò)及多任務(wù)加權(quán)損失函數(shù)對(duì)行人再識(shí)別任務(wù)的識(shí)別精度是有明顯提升的。
表3 Market-1501 和DukeMTMC-reID評(píng)測(cè)集結(jié)果對(duì)比Table 3 Results comparison of Market-1501 and DukeMTMC-reID evaluation sets
為了進(jìn)一步驗(yàn)證本文算法的性能,本節(jié)在Market-1501 和DukeMTMC-reID 兩大主流的行人再識(shí)別數(shù)據(jù)集上采用官方的評(píng)測(cè)程序,將本文的基于空間注意力和紋理特征增強(qiáng)的多任務(wù)行人再識(shí)別算法與多種目前流行的方法進(jìn)行對(duì)比。在比較過(guò)程中為了保證實(shí)驗(yàn)公平性,選取的比較方法在訓(xùn)練過(guò)程中同樣采用了隨機(jī)水平翻轉(zhuǎn)、裁剪等數(shù)據(jù)增強(qiáng)操作。同時(shí)為了充分體現(xiàn)本文算法的魯棒性,本節(jié)將對(duì)比實(shí)驗(yàn)分為兩組,分別為單任務(wù)行人再識(shí)別算法和多任務(wù)行人再識(shí)別算法。具體實(shí)驗(yàn)結(jié)果如表4 所示。
從表4中可以看出,在Market-1501和DukeMTMCreID 兩個(gè)數(shù)據(jù)集上的對(duì)比評(píng)測(cè)結(jié)果里,本文算法優(yōu)于其他單任務(wù)行人再識(shí)別算法。而在與其他多任務(wù)行人再識(shí)別算法的比較中,本文算法雖然在DukeMTMC-reID 數(shù)據(jù)集上稍弱于最好的CA3Net,但是在Market-1501 數(shù)據(jù)集上卻比JCM 和CA3Net 表現(xiàn)得更為優(yōu)異。其中JCM 的基礎(chǔ)網(wǎng)絡(luò)采用的是Resnet50 加Desnet101,而本文設(shè)計(jì)的行人再識(shí)別網(wǎng)絡(luò)模型僅采用Resnet50,在模型大小上要比JCM 模型小很多。而CA3Net在網(wǎng)絡(luò)中添加LSTM(long short-term memory)等模塊,在速度上并不占優(yōu)。CA3Net 需要在兩塊TitanXP 顯卡進(jìn)行70 個(gè)循環(huán)次數(shù)(epochs)才能達(dá)到表中所示精度,而本文方法只需要在一塊1080 顯卡上迭代60 個(gè)epochs 便可以達(dá)到目前的精度。這也從另一方面證明了本文所提出的基于空間注意力和紋理特征增強(qiáng)的多任務(wù)行人再識(shí)別算法的魯棒性。
表4 與現(xiàn)有方法在Market-1501 和DukeMTMC-reID 數(shù)據(jù)集上的結(jié)果對(duì)比Table 4 Comparison with existing methods on Market-1501 and DukeMTMC-reID datasets
本文提出的基于空間注意力和紋理特征增強(qiáng)的多任務(wù)行人再識(shí)別算法,通過(guò)基于空間注意力模塊的屬性識(shí)別網(wǎng)絡(luò)使網(wǎng)絡(luò)實(shí)現(xiàn)了屬性特征的挖掘,抑制了無(wú)關(guān)背景區(qū)域。通過(guò)融入行人再識(shí)別網(wǎng)絡(luò)的紋理特征增強(qiáng)模塊將特征聚集在行人等非剛體的姿態(tài)變化上,同時(shí)使特征兼具行人局部和全局特征的特點(diǎn)。最后通過(guò)多任務(wù)加權(quán)損失函數(shù)將屬性特征和行人特征有效融合,提高了行人再識(shí)別的識(shí)別精度,同時(shí)使得模型具有了更好的泛化性能。