廖華年,徐新,2,3,*
(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢430065;2.武漢科技大學(xué) 智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,武漢430065;3.武漢大學(xué) 深圳研究院,深圳518000)
隨著平安城市、雪亮工程、天網(wǎng)工程的推進(jìn),視頻監(jiān)控系統(tǒng)得到了發(fā)展和普及的同時(shí),視頻偵查技術(shù)也進(jìn)入了廣泛運(yùn)用階段,利用視頻智能分析技術(shù),自動(dòng)地從海量監(jiān)控?cái)?shù)據(jù)中對(duì)特定的行人目標(biāo)進(jìn)行檢索、分析、比對(duì)的方式正在逐漸取代人工判別。行人重識(shí)別[1](person Re-identification,Re-ID)作為智能視頻偵查的關(guān)鍵技術(shù)之一,在實(shí)際應(yīng)用方面對(duì)于預(yù)防犯罪、嫌犯追蹤和治安管理都具有積極作用。
行人重識(shí)別旨在匹配不同監(jiān)控?cái)z像頭視圖下相同身份類信息圖像,它不僅需要解決同一攝像頭下的行人遮擋、姿勢(shì)、角度、光線等問題,還需注意到不同攝像頭之間存在的攝像頭規(guī)格不同。無約束的成像條件給行人重識(shí)別帶來了一定的挑戰(zhàn),大多數(shù)現(xiàn)有的行人重識(shí)別方法都假設(shè)查詢圖像和圖庫圖像具有相似且足夠高的分辨率。然而,由于攝像頭和行人之間的距離不受約束且不同攝像頭之間的參數(shù)可能不同,導(dǎo)致行人圖像往往具有不同的分辨率,這種分辨率不匹配問題給行人重識(shí)別帶來了困難。與高分辨率(High Resolution,HR)圖像相比,低分辨率(Low Resolution,LR)圖像包含的身份細(xì)節(jié)要少得多,直接跨分辨率匹配圖像對(duì)將導(dǎo)致性能顯著下降。
為了解決分辨率不匹配問題,許多研究者開展了低分辨率行人重識(shí)別的研究[2-3],但性能提升不大。隨著深度學(xué)習(xí)的不斷發(fā)展,引入深度學(xué)習(xí)概念后的跨分辨率行人重識(shí)別任務(wù)[4-9]取得了較大的進(jìn)步。早期的工作主要是通過建立高分辨率圖像與低分辨率圖像特征之間的映射關(guān)系來解決跨分辨率的匹配問題,Jing等[2]設(shè)計(jì)了一種半耦合低秩字典學(xué)習(xí)方法構(gòu)建高低分辨率之間的聯(lián)系;Li等[3]則是先假設(shè)同一行人的不同圖像在某個(gè)特征空間具有相似的結(jié)構(gòu),從而得到一個(gè)跨分辨率圖像對(duì)齊網(wǎng)絡(luò),將高、低分辨率關(guān)系引入到距離度量方法中。但是在無約束的成像條件下,行人圖像分辨率是不同且多樣的,無法一一對(duì)應(yīng),查詢圖像與檢索圖像分辨率比例并不是一個(gè)固定的值,在實(shí)際場(chǎng)景中,多個(gè)行人圖像對(duì)之間的分辨率比例多樣,早期工作中提出的方法并不適用。
受上述工作的啟發(fā),Jiao等[4]提出的圖像超分辨率(Super-Resolution,SR)和行人身份識(shí)別聯(lián)合學(xué)習(xí)方法,通過2、3、4三個(gè)尺度的超分辨網(wǎng)絡(luò),恢復(fù)對(duì)應(yīng)尺度的低分辨率行人圖像中對(duì)身份識(shí)別有效的高頻外表信息,解決低分辨率行人重識(shí)別問題。Wang等[5]提出將2、4、8三個(gè)尺度的超分辨網(wǎng)絡(luò)級(jí)聯(lián)起來,通過逐步恢復(fù)低分辨率圖像細(xì)節(jié)信息,最后與圖庫圖像進(jìn)行距離度量。盡管這些方法在跨分辨率行人重識(shí)別上取得了一定的效果,但這些方法都需要預(yù)先定義圖像對(duì)之間的尺度比例,再通過與之適配的放大因子模塊進(jìn)行圖像超分辨率重建工作。
與上述工作不同,受人類視覺注意力機(jī)制(Attention mechanism,Attention)[13]的影響,本文提出了基于注意力機(jī)制的局部超分辨率聯(lián)合身份學(xué)習(xí)網(wǎng)絡(luò)解決上述問題。具體來說,Attention的目的是輔助網(wǎng)絡(luò)找到更利于識(shí)別的局部,但是即使是同一行人的不同分辨率圖像的顯著區(qū)域也會(huì)有一定的差異,因此提出了一個(gè)基于注意力機(jī)制的跨分辨率行人重識(shí)別方法,首先查詢圖像輸入到由編碼解碼網(wǎng)絡(luò)組成的Attention網(wǎng)絡(luò),目的是得到唯一的且利于識(shí)別任務(wù)的注意力圖;然后通過核動(dòng)態(tài)上采樣的方法[14],任意尺度的重建低分辨率圖像;最后經(jīng)過行人重識(shí)別網(wǎng)絡(luò)得到分類結(jié)果。本文主要貢獻(xiàn)如下:
1)提出了基于通道和空間注意力機(jī)制的跨分辨率行人重識(shí)別方法。該方法主要意圖在通過關(guān)注和比較不同分辨率行人圖像對(duì)相同位置的顯著區(qū)域,然后利用自編碼網(wǎng)絡(luò)的學(xué)習(xí),得到任意分辨率行人圖像的利于識(shí)別的局部區(qū)域。
2)使用任意上采樣因子的跨分辨率重識(shí)別方法,使得網(wǎng)絡(luò)能夠處理任意低分辨率的查詢圖像的重建。經(jīng)過注意力機(jī)制得到的局部區(qū)域能夠被重建到與圖庫圖像同一分辨率。
由于在真實(shí)場(chǎng)景下,背景[15]、姿態(tài)、照明[16]、視角、相機(jī)[17]等條件變化很大,在無約束的成像條件下,人的圖像分辨率的變化可能是最常見的,匹配不同分辨率的行人樣本需要行人重識(shí)別算法關(guān)注不同的視覺特征。例如,圖1展示了某商場(chǎng)不同攝像頭下的行人圖像,在高分辨率的圖像樣本中,可以通過發(fā)型或者衣服標(biāo)志來區(qū)分不同行人,如C分別與A、D進(jìn)行匹配,可以得出A和C是同一行人,D為不同行人。但在低分辨率圖像樣本中人眼都無法觀察到這些細(xì)節(jié),比如B難以判定和A、C是否為同一行人,對(duì)于機(jī)器而言這些用于區(qū)分行人的標(biāo)識(shí)在低分辨率圖像中是不可用的,ReID方法需要借助于剪影或全局紋理來進(jìn)行可靠的匹配。而且,同一個(gè)人的高分辨率和低分辨率樣本的差異甚至可能比不同人在相似分辨率下的樣本差異更大。因此,需要對(duì)ReID方法進(jìn)行專門的處理,以處理人物圖像的跨分辨率變化。
解決行人重識(shí)別方向中的分辨率問題,最簡(jiǎn)單的方法是使用更大的數(shù)據(jù)集覆蓋盡可能多的分辨率比例,從而構(gòu)建高低分辨率之間的關(guān)系,但是這需要大量的數(shù)據(jù)和標(biāo)注,且難以羅列出所有的分辨率比例場(chǎng)景。
圖1 跨分辨率行人圖像Fig.1 Cross-resolution pedestrian image
早期的工作主要是學(xué)習(xí)低、高分辨率圖像之間的映射關(guān)系。2015年,Jing等[2]使用字典學(xué)習(xí)的方法學(xué)習(xí)低、高分辨率圖像之間的映射函數(shù),通過得到的映射函數(shù)實(shí)現(xiàn)1/8尺度(低分辨率、高分辨率圖像分辨率比為1∶8)的LR圖像與HR圖像之間的轉(zhuǎn)換;Li等[3]通過尋找給定的1/4尺度的低、高分辨率圖像在某特征空間中的對(duì)齊關(guān)系計(jì)算圖像對(duì)之間的距離,從而判斷是否為同一行人,這種做法必須滿足同一行人的不同圖像應(yīng)該在某個(gè)特征空間具有相似的結(jié)構(gòu)這一假設(shè);Wang等[6]提出了將尺度漸變曲線投影到特征空間分類,解決多低分辨率行人重識(shí)別問題;Chen等[7]通過對(duì)低、高分辨率圖像的特征分布進(jìn)行對(duì)齊,解決跨分辨率行人重識(shí)別問題。但這幾種方法只涉及到粗糙的外觀信息和身份信息,豐富的高分辨率圖像的細(xì)粒度細(xì)節(jié)在學(xué)習(xí)過程中被丟棄了。
利用圖像超分辨率可以恢復(fù)圖像信息,解決細(xì)粒度區(qū)別信息丟失的問題。Jiao等[4]提出了超分辨率和行人身份識(shí)別聯(lián)合學(xué)習(xí)方法,能夠通過增強(qiáng)低分辨率行人圖像中對(duì)身份識(shí)別有用處的高頻外表信息解決低分辨率行人重識(shí)別問題中的由于分辨率不同帶來的信息量差異的問題。Wang等[5]提出了級(jí)聯(lián)超分辨網(wǎng)絡(luò)通過逐步恢復(fù)低分辨率圖像細(xì)節(jié)再與圖像檢索庫中的高分辨率圖像匹配。Li等[8]在低分辨率圖像和高分辨率圖像中提取的特征表示上添加了一個(gè)對(duì)抗損失用來學(xué)習(xí)分辨率不變的表示,同時(shí)通過端到端的方式恢復(fù)低分辨率輸入圖像中缺失的細(xì)節(jié)。盡管這些方法帶來了一些性能提升,但它們需要對(duì)預(yù)先定義的超分辨率模型進(jìn)行培訓(xùn),然而實(shí)際問題中查詢和圖庫圖像之間的分辨率差異通常是未知的,即無法預(yù)先定義圖像對(duì)之間分辨率差異的倍數(shù),并且梯度在這樣一個(gè)級(jí)聯(lián)的重模型[18]中反向傳播的難度要大得多,因此這類方法存在模型訓(xùn)練效果不佳的問題,直接使用超分辨率模型不太適合ReID任務(wù)。
為了解決超分辨率任務(wù)和ReID任務(wù)之間模型效果訓(xùn)練不佳的問題,受到低分辨率人臉識(shí)別工作[9-10]的啟發(fā),Cheng等[11]提出了一個(gè)正則化方法將超分辨率、ReID任務(wù)聯(lián)系起來,讓超分辨率作為ReID任務(wù)的輔助任務(wù),通過這種有效的結(jié)合訓(xùn)練方式解決訓(xùn)練不佳的問題。然而這種方法也是無差別的恢復(fù)低分辨率圖像中缺失的信息,不僅使得超分辨率任務(wù)的計(jì)算量龐大,而且低分辨率圖像中的部分不利于識(shí)別的信息被恢復(fù)也給行人匹配引入了干擾。Mao等[12]通過區(qū)分行人圖像的前景和背景信息解決了此問題,但這種簡(jiǎn)單的劃分行人為前景和其他物體為背景可能會(huì)丟失背景中的有用信息,比如路標(biāo)、特色建筑、隨身物品等。
針對(duì)以上問題,本文提出了基于注意力機(jī)制的跨分辨率行人重識(shí)別方法,利用空間、通道雙重注意力機(jī)制的特性,得到查詢圖像中利于身份識(shí)別的局部區(qū)域,采用動(dòng)態(tài)地預(yù)測(cè)上采樣濾波器權(quán)重的方法解決任意放大因子的圖像重建任務(wù),精準(zhǔn)獲取行人圖像中缺失的身份識(shí)別信息。
許多前期工作在行人重識(shí)別網(wǎng)絡(luò)前加入了圖像超分辨率網(wǎng)絡(luò),以恢復(fù)低分辨率圖像中的信息。這種方法可以通過對(duì)低分辨率圖像的重建恢復(fù)高頻細(xì)節(jié),但是也放大了其他信息的干擾。受文獻(xiàn)[19]的啟發(fā),本文提出基于注意力機(jī)制的局部跨分辨率聯(lián)合身份學(xué)習(xí)網(wǎng)絡(luò),其網(wǎng)絡(luò)架構(gòu)主要由2部分組成:注意力模塊和任意尺度超分辨率模塊。通過一個(gè)自編碼器,跳躍連接訓(xùn)練ID損失和注意力損失,逐步學(xué)習(xí)分辨率不變的特征,得到注意力模塊融合得到的前景等顯著區(qū)域信息,再通過任意尺度超分辨率模塊對(duì)該部分進(jìn)行重建,輸出特征以此來計(jì)算交叉熵?fù)p失。
與文獻(xiàn)[20]不同的是,本文首先利用編碼解碼網(wǎng)絡(luò)學(xué)習(xí)分辨率不變特征,不同分辨率圖像經(jīng)過編碼網(wǎng)絡(luò)學(xué)習(xí)得到中間特征fc,經(jīng)過解碼網(wǎng)絡(luò)得到特征F;然后將特征F輸入到通道注意力模塊中經(jīng)過一系列操作得到權(quán)重系數(shù)和特征F′,特征F′輸入到空間注意力模塊中得到相應(yīng)的權(quán)重系數(shù)和融合特征,即一個(gè)包含身份區(qū)分信息的局部特征圖。網(wǎng)絡(luò)結(jié)構(gòu)模型如圖2所示,本文將從2方面進(jìn)行具體的闡述。
圖2 注意力網(wǎng)絡(luò)框架Fig.2 Framework of attention network
通道注意力的作用是得到有利于識(shí)別的特征信息,利用特征的通道間關(guān)系生成通道注意圖。由于特征圖的每個(gè)通道都被認(rèn)為是特征檢測(cè)器,通道的注意力都集中在對(duì)輸入圖像有意義的地方。為了有效地計(jì)算通道注意力,壓縮了輸入特征圖的空間維數(shù),對(duì)于空間信息的聚合,一般采用平均池法。具體的流程如圖2所示,本文查詢圖像x首先會(huì)經(jīng)過自編碼器得到特征F,分別經(jīng)過全局最大池化和全局平均池化,再經(jīng)過多層感知機(jī)輸出特征,進(jìn)行向量相加操作,生成一個(gè)通道注意力圖Mc,與做乘法操作的結(jié)果輸入到空間注意力模塊。Mc為
將通道注意力模塊的輸出特征圖作為本模塊的輸入特征圖??臻g注意是通道注意的補(bǔ)充,如圖2右側(cè)所示,首先做一個(gè)基于通道的最大池化和平均池化,然后將結(jié)果基于通道做連接操作,通過一個(gè)卷積降維成單通道,最后激活生成空間特征Ms,并與本模塊的輸入特征做乘法,得到最終的生成特征。通過對(duì)通道注意特征的應(yīng)用池化可以有效地突出顯示信息區(qū)域[21]。Ms的計(jì)算方式為
式中:f表示在注意力模塊的最后經(jīng)過7×7的卷積操作。空間注意力機(jī)制的輸出需要與整個(gè)模塊輸入的特征F做一個(gè)乘法操作,得到最后的融合特征圖。
由于復(fù)雜的實(shí)際場(chǎng)景和無約束的成像條件,獲取到的行人圖像并不一定是相近的分辨率,往往獲得的分辨率跨度比較大,因此無法預(yù)先定義一個(gè)尺度因子解決所有場(chǎng)景的圖像重建問題。對(duì)于跨分辨率行人重識(shí)別而言,如何將任意分辨率的查詢圖像轉(zhuǎn)換至與圖庫圖像為同一分辨率是關(guān)鍵。受文獻(xiàn)[22-24]啟發(fā),采用一個(gè)動(dòng)態(tài)的上采樣模塊代替?zhèn)鹘y(tǒng)的放大模塊[14],動(dòng)態(tài)的預(yù)測(cè)上采樣濾波器的權(quán)重,然后用這些權(quán)重生成高分辨率圖像,即能夠以任意的上采樣因子放大任意的查詢圖像。
首先通過特征學(xué)習(xí)[25]模塊提取到特征,對(duì)于超分辨率圖像中的每一個(gè)像素,都是由查詢圖像在像素上的特征和對(duì)應(yīng)的濾波器權(quán)重決定的。通過FLR和ISR之間的映射函數(shù)—上采樣模塊,得到最終的超分辨率圖像。
上采樣模塊需要一個(gè)特定的卷積核或?yàn)V波器映射(i1,j1)和(i,j)的值,映射函數(shù)如下:
式中:ISR(i,j)為超分辨率圖像在(i,j)的像素值;f(·)表示計(jì)算像素值的特征映射函數(shù);w(i,j)為像素點(diǎn)(i,j)的權(quán)重預(yù)測(cè)模塊(與式(5)相對(duì)應(yīng));FLR(i1,j1)表示在低分辨率圖像中像素點(diǎn)(i1,j1)的特征向量。
對(duì)于超分辨率圖像中的每個(gè)像素(i,j),可以通過一個(gè)投影轉(zhuǎn)換函數(shù)T得到:
具體的可以看作一種可變步長(zhǎng)機(jī)制,比如說當(dāng)尺度因子s為2時(shí),一個(gè)(i1,j1)像素決定超分辨率圖像上的2個(gè)點(diǎn)。若尺度因子為非整數(shù)的1.5,則一些像素決定2個(gè)像素,一些像素決定一個(gè)像素。無論如何,每一個(gè)超分辨率圖像上的像素都能找到一個(gè)(i1,j1)。
確定查詢圖像和超分辨率圖像之間的位置關(guān)系后還需要得到兩者之間特定的權(quán)重以及偏移量,可以通過如下公式得到:
式中:W(i,j)為超分辨率圖像上像素(i,j)對(duì)應(yīng)的卷積核權(quán)重;vij為和(i,j)關(guān)聯(lián)的向量;φ為權(quán)重預(yù)測(cè)網(wǎng)絡(luò);θ為權(quán)重預(yù)測(cè)網(wǎng)絡(luò)的權(quán)重。
最后需要獲?。╥1,j1)像素點(diǎn)的像素值。其特征映射表述為
將輸出的超分辨率圖像與圖庫圖像輸入到基線網(wǎng)絡(luò)[26]中得到最后的匹配結(jié)果。
實(shí)驗(yàn)是在2塊TITAN Xp GPU上進(jìn)行的。該網(wǎng)絡(luò)基于Pytorch框架,網(wǎng)絡(luò)基本結(jié)構(gòu)為Res-Net[26],基線網(wǎng)絡(luò)參考了文獻(xiàn)[12],并使用Adam優(yōu)化器優(yōu)化參數(shù)并將原始學(xué)習(xí)速率設(shè)置為10-3。通過3種主流的數(shù)據(jù)集對(duì)本文方法進(jìn)行評(píng)價(jià):Market1501[27]、CUHK03[28-29]和CAVIAR[30]。首先對(duì)這3個(gè)數(shù)據(jù)集以及相應(yīng)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行說明。
MLRMarket1501:數(shù)據(jù)集包括了來自6個(gè)不同攝像機(jī)拍攝的1 501個(gè)行人。使用了DPM方法,將視頻中的行人裁剪出來。數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,其中訓(xùn)練集有751人,共12 936張圖片;測(cè)試集有750人,查詢圖像3 368張,圖庫圖像19 732張。然而該數(shù)據(jù)集所有圖像分辨率被處理至統(tǒng)一的大小128×64。因此通過下采樣的方法將數(shù)據(jù)集中的圖像處理為原尺度的1、1/2、1/4、1/8、1/16五種尺度。
MLRCUHK03:在實(shí)驗(yàn)中采用了新的數(shù)據(jù)集協(xié)議,新協(xié)議將CUHK03數(shù)據(jù)集分為類似于Market1501的劃分方法,將來自10個(gè)攝像頭的1 467個(gè)行,劃分為由767個(gè)身份和700個(gè)身份組成的訓(xùn)練集和測(cè)試集。數(shù)據(jù)集提供2種標(biāo)注:第1種是人類手工標(biāo)注行人框,第2種是通過DPM方法檢測(cè)得到行人框。雖然數(shù)據(jù)集中圖像分辨率是多樣的,但分辨率跨度不大,且其中尺度較低的圖像相較于低分辨率數(shù)據(jù)集分辨率偏高,因此通過下采樣的方法將數(shù)據(jù)集中的圖像處理至原尺度的1、1/2、1/4、1/8、1/16五種尺度。
CAVIAR:數(shù)據(jù)集包含由2臺(tái)攝像機(jī)捕獲的72個(gè)身份的1 220張圖像。丟棄了22個(gè)只出現(xiàn)在相機(jī)中的人,將剩下的人分成2部分,這2部分的身份標(biāo)簽沒有重疊。
在本文實(shí)驗(yàn)中,為了評(píng)價(jià)Re-ID的方法,計(jì)算出所有候選數(shù)據(jù)集的累積匹配曲線[27](Cumulative Matching Characteristics,CMC)的Rank1和Rank5。表1和表2展示了本文方法與主流的跨分辨率行人重識(shí)別方法在3個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比。表中最佳的2個(gè)結(jié)果分別用加粗和下劃線形式突出顯示。
在Market1501數(shù)據(jù)集上,本文方法和其他主流方法的定量結(jié)果對(duì)比如表1所示。對(duì)比近年來效果較好的行人重識(shí)別方法[31],以及大部分跨分辨率行人重識(shí)別方法,其中INTACT為近年來處理跨分辨率行人重識(shí)別問題的性能最優(yōu)的方法,該方法為基于多任務(wù)學(xué)習(xí)的方法,通過正則化改進(jìn)方法,使得模型訓(xùn)練更簡(jiǎn)單,其Rank1和Rank5分別為88.1%和95.0%,而本文方法獲得了90.2%和94.3%,Rank1準(zhǔn)確率提高了2.1%,優(yōu)于前面對(duì)比的方法。除了客觀數(shù)據(jù)的對(duì)比,還在Market1501數(shù)據(jù)集上分別進(jìn)行了實(shí)驗(yàn),由圖3可以看出RIPR[12]中幾個(gè)不匹配樣本的例子,使用本文方法得到了解決。圖3中三角標(biāo)“△”是指不匹配的樣本,“1”、“2”和“3”對(duì)應(yīng)于前3個(gè)檢索到的圖庫樣本。
表1 現(xiàn)有方法在Market1501和CUHK03數(shù)據(jù)集上的定量結(jié)果對(duì)比Table 1 Quantitative r esult comparison of existing methods on Market1501和CUHK 03 datasets%
表2 現(xiàn)有方法在CAVIAR數(shù)據(jù)集上的定量結(jié)果對(duì)比Table 2 Quantitative result comparison of existing methods on CAVIAR dataset %
圖3 各模型主觀性能對(duì)比Fig.3 Subjective performance comparison of various models
在CUHK03數(shù)據(jù)集上,本文方法使用了新的CUHK03協(xié)議[29]進(jìn)行訓(xùn)練,由于CUHK03數(shù)據(jù)集更接近真實(shí)情況,圖像是來自于幾個(gè)月來錄制的一系列視頻,無約束的成像條件也導(dǎo)致了圖像分辨率的多樣性。因此本文方法在此數(shù)據(jù)集上取得了比MLRMarket1501數(shù)據(jù)集更大的進(jìn)步。同基于局部超分辨率RIPR[12]方法對(duì)比,本文方法Rank1提高了15.9%,進(jìn)一步說明了只恢復(fù)前景區(qū)域會(huì)丟失背景中有利于識(shí)別的信息。相較于性能最優(yōu)的INTACT方法Rank1和Rank5分別提高了2.8%和0.1%。這些數(shù)據(jù)都證明了本文方法對(duì)在跨分辨率場(chǎng)景的有效性。
CAVIAR數(shù)據(jù)集是早期行人重識(shí)別主流數(shù)據(jù)集,由于早期的攝像頭性能較差,且攝像頭分布并不密集,采集數(shù)據(jù)也比較困難,數(shù)據(jù)集內(nèi)圖像數(shù)量較少,且質(zhì)量較差,一般的行人重識(shí)別方法在這一真實(shí)的數(shù)據(jù)集上性能很差。因此本文方法在此數(shù)據(jù)集上取得了比上述數(shù)據(jù)集更大的進(jìn)步:①同基于單一低分辨率的方法SLD2L、JUDEA對(duì)比,本文方法Rank1提高了30.9%和27.3%,體現(xiàn)了任意上采樣因子的超分辨率重建在跨分辨行人重識(shí)別方法中的優(yōu)越效果;②與基于級(jí)聯(lián)超分辨率的方法CSR-GAN、SING相比,本文方法Rank1提升了14.6%和15.8%,進(jìn)一步說明了任意上采樣因子的超分辨率重建和級(jí)聯(lián)超分辨率重建相比的有效性;③CAD是基于分辨率不變表示的方法,可以處理未訓(xùn)練過的尺度,本文方法在Rank1上也提高了6.5%,這有力地證明了基于注意力機(jī)制的方法和任意尺度因子的超分辨率重建相結(jié)合應(yīng)用于行人重識(shí)別方法上對(duì)于跨分辨率問題的有效性。
為了驗(yàn)證本文方法的注意力模塊和圖像超分辨率模塊在跨分辨率行人重識(shí)別問題上的有效性,采用不同的模型參數(shù)進(jìn)行訓(xùn)練,使用單一查詢模式在CUHK03數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。如表3所示,ResNet50為基線模型,CAM 為通道注意力模塊,SAM 為 空 間 注 意 力 模 塊,Non-Local[32]、SENet[20]是常用于圖像分類領(lǐng)域的2個(gè)易于集成的注意力模塊,對(duì)于圖像分類有一定的作用,MASR表示任意放大因子的圖像超分辨模塊。所有的實(shí)驗(yàn)均只改變了一個(gè)設(shè)置,其余設(shè)置與本文方法的設(shè)置相同。
首先,通過表3中不同注意力模塊的性能對(duì)比驗(yàn)證通道注意力模塊和空間注意力模塊聯(lián)合作用的有效性,單獨(dú)使用通道注意力模塊或者空間注意力模塊,都顯著地提高了跨分辨率行人重識(shí)別的性能,當(dāng)它們聯(lián)合使用時(shí)Rank1比主流的注意力機(jī)制Non-Local、SENet分別提升了8.2%、7.6%。同時(shí),由于空間注意力機(jī)制將圖像中的空間域信息做對(duì)應(yīng)的空間變換并保留關(guān)鍵信息,進(jìn)一步挖掘了圖像中顯著且關(guān)鍵的區(qū)域,相比于通道注意力機(jī)制更有助于模型魯棒性的提高,對(duì)于模型性能有更加顯著的提升。
表3 各模塊消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experimental r esults of each module%
本文提出了一個(gè)用于跨分辨率行人重識(shí)別的方法。使用基于通道注意力機(jī)制和空間注意力機(jī)制相融合的方法來獲取更利于識(shí)別的特征和區(qū)域,同時(shí)解決了不同分辨率查詢圖像關(guān)注區(qū)域不同的問題。網(wǎng)絡(luò)中任意上采樣模塊在超分辨率重建上的應(yīng)用極其有力地解決了圖像信息恢復(fù)過程中由于分辨率多樣性導(dǎo)致的網(wǎng)絡(luò)級(jí)聯(lián)訓(xùn)練困難、計(jì)算量大、模型復(fù)雜等問題,從而使本文方法適用于更廣泛的場(chǎng)景。這2個(gè)互補(bǔ)的模塊被聯(lián)合訓(xùn)練來優(yōu)化行人重識(shí)別方法,在3個(gè)公開的數(shù)據(jù)集上與大量先進(jìn)方法對(duì)比取得了最優(yōu)或次優(yōu)的效果,充分證明了本文引入的模塊的有效性。