羅浩 姜偉 范星 張思朋
行人重識(shí)別(Person re-identification)也稱(chēng)行人再識(shí)別,被廣泛認(rèn)為是一個(gè)圖像檢索的子問(wèn)題,是利用計(jì)算機(jī)視覺(jué)技術(shù)判斷圖像或者視頻中是否存在特定行人的技術(shù),即給定一個(gè)監(jiān)控行人圖像檢索跨設(shè)備下的該行人圖像.行人重識(shí)別技術(shù)可以彌補(bǔ)目前固定攝像頭的視覺(jué)局限,并可與行人檢測(cè)、行人跟蹤技術(shù)相結(jié)合,應(yīng)用于視頻監(jiān)控、智能安防等領(lǐng)域.
在深度學(xué)習(xí)技術(shù)出現(xiàn)之前,早期的行人重識(shí)別研究主要集中于如何手工設(shè)計(jì)更好的視覺(jué)特征和如何學(xué)習(xí)更好的相似度度量.近幾年隨著深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)技術(shù)在行人重識(shí)別任務(wù)上得到了廣泛的應(yīng)用.和傳統(tǒng)方法不同,深度學(xué)習(xí)方法可以自動(dòng)提取較好的行人圖像特征,同時(shí)學(xué)習(xí)得到較好的相似度度量.當(dāng)然深度學(xué)習(xí)相關(guān)的行人重識(shí)別方法也經(jīng)歷了一個(gè)從簡(jiǎn)單到復(fù)雜的發(fā)展過(guò)程.起初研究者主要關(guān)注用網(wǎng)絡(luò)學(xué)習(xí)單幀圖片的全局特征,根據(jù)損失類(lèi)型的不同可以分為表征學(xué)習(xí)(Representation learning)和度量學(xué)習(xí)(Metric learning)方法.而單幀圖片的全局特征遇到性能瓶頸之后,研究者引入局部特征和序列特征進(jìn)一步發(fā)展行人重識(shí)別研究.最近因?yàn)樯蓪?duì)抗網(wǎng)絡(luò)(Generative adversarial nets,GAN)[1]的逐漸成熟,一些基于GAN 的行人重識(shí)別研究工作表明:GAN 在擴(kuò)充數(shù)據(jù)集、解決圖片間的偏差等問(wèn)題上也有不錯(cuò)的效果.雖然目前大量工作仍然是屬于監(jiān)督學(xué)習(xí)(Supervised learning)的范疇,但是遷移學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)也同樣是一個(gè)值得研究的方向.
本文分析了近幾年深度學(xué)習(xí)相關(guān)的方法在行人重識(shí)別問(wèn)題上的發(fā)展,歸納整合了該領(lǐng)域的一些優(yōu)秀算法,并探討了未來(lái)可能的研究焦點(diǎn).
本文剩余內(nèi)容安排如下:第1 節(jié)簡(jiǎn)要回顧了行人重識(shí)別的發(fā)展歷程.第2 節(jié)介紹一些常見(jiàn)的行人重識(shí)別數(shù)據(jù)集,并分析一下主要的研究難點(diǎn).第3 節(jié)著重介紹近幾年比較典型的基于深度學(xué)習(xí)的行人重識(shí)別方法,并按照一定的發(fā)展歷程進(jìn)行歸納整合.第4 節(jié)我們展示目前一些方法在主流數(shù)據(jù)集上的性能表現(xiàn).第5 節(jié)簡(jiǎn)要探討一下未來(lái)可能的研究焦點(diǎn).
行人重識(shí)別可以應(yīng)用到刑事偵查、視頻監(jiān)控、行為理解等多個(gè)方面,但據(jù)我們所知,其在學(xué)術(shù)界的研究最先追溯到跨攝像頭多目標(biāo)跟蹤(Multi-target multi-camera tracking,MTMC tracking)問(wèn)題上.早在2005 年,文獻(xiàn)[2]探討了在跨攝像頭系統(tǒng)中,當(dāng)目標(biāo)行人在某個(gè)相機(jī)視野中丟失之后如何將其軌跡在其他相機(jī)視野下再次關(guān)聯(lián)起來(lái)的問(wèn)題.該文獻(xiàn)利用一個(gè)貝葉斯網(wǎng)絡(luò)根據(jù)行人特征(顏色、時(shí)空線索)的相似度將行人軌跡關(guān)聯(lián)起來(lái).而如何提取行人特征以及如何進(jìn)行特征相似度度量就是行人重識(shí)別需要解決的核心問(wèn)題,也可以合稱(chēng)為行人跨攝像頭檢索.因此行人重識(shí)別被研究者從MTMC 跟蹤問(wèn)題里抽取出來(lái),作為一個(gè)獨(dú)立的研究課題.行人重識(shí)別領(lǐng)域知名學(xué)者鄭良博士在論文[3]中將行人重識(shí)別系統(tǒng)總結(jié)為行人檢測(cè)加上行人重識(shí)別,如圖1 所示.隨著深度學(xué)習(xí)的發(fā)展,行人檢測(cè)技術(shù)已逐漸成熟,本文不再做具體闡述.目前大部分?jǐn)?shù)據(jù)集直接將檢測(cè)出來(lái)的行人圖片作為訓(xùn)練集和測(cè)試集,并且剔除了一些遮擋較嚴(yán)重的低質(zhì)量圖片.行人重識(shí)別技術(shù)將行人檢測(cè)結(jié)果作為先驗(yàn)知識(shí),直接對(duì)行人圖片進(jìn)行跨攝像頭檢索.
圖1 行人重識(shí)別系統(tǒng)Fig.1 Person ReID system
行人重識(shí)別任務(wù)主要包含特征提取和相似度度量?jī)蓚€(gè)步驟.傳統(tǒng)的方法思路為手工提取圖像特征,例如:顏色、HOG (Histogram of oriented gradient)[4]、SIFT (Scale invariant feature transform)[5]、LOMO (Local maximal occurrence)等.之后,利用XQDA (Cross-view quadratic discriminant analysis)[6]或者KISSME (Keep it simple and straightforward metric learning)[7]來(lái)學(xué)習(xí)最佳的相似度度量.然而,傳統(tǒng)的手工特征描述能力有限,很難適應(yīng)復(fù)雜場(chǎng)景下的大數(shù)據(jù)量任務(wù).并且,在數(shù)據(jù)量較大的情形下,傳統(tǒng)的度量學(xué)習(xí)方法求解也會(huì)變得非常困難.
近年來(lái),以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了極大的成功,在多項(xiàng)任務(wù)上都擊敗傳統(tǒng)的方法,甚至一定程度上超越了人類(lèi)的水平[8?9].在行人重識(shí)別問(wèn)題上,基于深度學(xué)習(xí)的方法可以自動(dòng)學(xué)習(xí)出復(fù)雜的特征描述,并且用簡(jiǎn)單的歐氏距離進(jìn)行相似度度量便可以取得很好的性能.換句話說(shuō),深度學(xué)習(xí)可以端對(duì)端地實(shí)現(xiàn)行人重識(shí)別任務(wù),這使得任務(wù)變得更加簡(jiǎn)單.目前,基于深度學(xué)習(xí)的行人重識(shí)別方法已經(jīng)在性能上大大超越了傳統(tǒng)的方法.這些優(yōu)勢(shì)使得深度學(xué)習(xí)在行人重識(shí)別領(lǐng)域變得流行,大量相關(guān)研究工作發(fā)表在高水平的會(huì)議或者期刊上,行人重識(shí)別的研究也進(jìn)入了一個(gè)新的階段.
由于CNN 網(wǎng)絡(luò)的訓(xùn)練依賴(lài)大量訓(xùn)練數(shù)據(jù),所以行人重識(shí)別研究從傳統(tǒng)的手工特征(Hand-crafted feature)方法發(fā)展為如今深度學(xué)習(xí)自提特征的方法,離不開(kāi)大規(guī)模數(shù)據(jù)集的發(fā)展.近年來(lái),涌現(xiàn)出了越來(lái)越多的大規(guī)模行人重識(shí)別數(shù)據(jù)集,數(shù)據(jù)集特點(diǎn)也各自不同,這也反映了該領(lǐng)域蓬勃的發(fā)展趨勢(shì)和巨大的現(xiàn)實(shí)需求.
目前常用于深度學(xué)習(xí)方法的行人重識(shí)別數(shù)據(jù)集有:
1)VIPeR[10]數(shù)據(jù)集是早期的一個(gè)小型行人重識(shí)別數(shù)據(jù)集,圖像來(lái)自2 個(gè)攝像頭.該數(shù)據(jù)集總共包含632 個(gè)行人的1 264 張圖片,每個(gè)行人有兩張不同攝像頭拍攝的圖片.數(shù)據(jù)集隨機(jī)分為相等的兩部分,一部分作為訓(xùn)練集,一部分作為測(cè)試集.由于采集時(shí)間較早,該數(shù)據(jù)集的圖像分辨率非常低,所以識(shí)別難度較大.
2)PRID2011[11]是2011 年提出的一個(gè)數(shù)據(jù)集,圖像來(lái)自于2 個(gè)不同的攝像頭.該數(shù)據(jù)集總共包含934 個(gè)行人的24 541 張行人圖片,所有的檢測(cè)框都是人工手動(dòng)提取.圖像大小的分辨率統(tǒng)一為128×64的分辨率.
3)CUHK03[12]在中國(guó)香港中文大學(xué)采集,圖像來(lái)自2 個(gè)不同的攝像頭.該數(shù)據(jù)集提供機(jī)器自動(dòng)檢測(cè)和手動(dòng)檢測(cè)兩個(gè)數(shù)據(jù)集.其中檢測(cè)數(shù)據(jù)集包含一些檢測(cè)誤差,更接近實(shí)際情況.數(shù)據(jù)集總共包括1 467 個(gè)行人的14 097 張圖片,平均每個(gè)人有9.6 張訓(xùn)練數(shù)據(jù).
4)Market1501[13]是在清華大學(xué)校園中采集的數(shù)據(jù)集,圖像來(lái)自6 個(gè)不同的攝像頭,其中有一個(gè)攝像頭為低分辨率.同時(shí)該數(shù)據(jù)集提供訓(xùn)練集和測(cè)試集.訓(xùn)練集包含12 936 張圖像,測(cè)試集包含19 732張圖像.圖像由檢測(cè)器自動(dòng)檢測(cè)并切割,所以包含一些檢測(cè)誤差(接近實(shí)際使用情況).訓(xùn)練數(shù)據(jù)中一共有751 人,測(cè)試集中有750 人.所以在訓(xùn)練集中,平均每類(lèi)(每個(gè)人)有17.2 張訓(xùn)練數(shù)據(jù).
5)CUHK-SYSU[14]是中國(guó)香港中文大學(xué)和中山大學(xué)一起收集的數(shù)據(jù)集.該數(shù)據(jù)集的特點(diǎn)是提供整個(gè)完整的圖片,而不像其他大部分?jǐn)?shù)據(jù)集一樣只提供自動(dòng)或者手動(dòng)提取邊框(Bounding box)的行人圖片,圖片來(lái)源于電影和電視.該數(shù)據(jù)集總共包括18 184 張完整圖片,內(nèi)含8 432 個(gè)行人的99 809張行人圖片.其中訓(xùn)練集有11 206 張完整圖片,包含5 532 個(gè)行人.測(cè)試集有6 978 張完整圖片,包含2 900 個(gè)行人.
6)MARS[15]數(shù)據(jù)集是Market1501 的擴(kuò)展.該數(shù)據(jù)集的圖像由檢測(cè)器自動(dòng)切割,包含了行人圖像的整個(gè)跟蹤序列(Tracklet).MARS 總共提供1 261個(gè)行人的20 715 個(gè)圖像序列,和Market1501 一樣來(lái)自同樣的6 個(gè)攝像頭.和其他單幀圖像數(shù)據(jù)集不一樣的地方是,MARS 是提供序列信息的大規(guī)模行人重識(shí)別數(shù)據(jù)集.需要特別注意的是,MARS 和Market1501 的訓(xùn)練集和測(cè)試集存在重疊,因此不能夠混在一起訓(xùn)練網(wǎng)絡(luò).
7)DukeMTMC-reID[16]在杜克大學(xué)內(nèi)采集,圖像來(lái)自8 個(gè)不同攝像頭,行人圖像的邊框由人工標(biāo)注完成.該數(shù)據(jù)集提供訓(xùn)練集和測(cè)試集.訓(xùn)練集包含16 522 張圖像,測(cè)試集包含17 661 張圖像.訓(xùn)練數(shù)據(jù)中一共有702 人,平均每個(gè)人有23.5 張訓(xùn)練數(shù)據(jù).該數(shù)據(jù)集是ICCV2017 會(huì)議之前最大的行人重識(shí)別數(shù)據(jù)集,并且提供了行人屬性(性別/長(zhǎng)短袖/是否背包等)的標(biāo)注.
除了以上幾個(gè)已經(jīng)開(kāi)源的常用數(shù)據(jù)集以外,目前還有幾個(gè)比較新的數(shù)據(jù)集,其中比較典型的有:1)中山大學(xué)采集的紅外ReID 數(shù)據(jù)集SYSUMM01[17],可以實(shí)現(xiàn)夜間的行人重識(shí)別.2)北京航空航天大學(xué)等采集的LPW 數(shù)據(jù)集[18],包含2 731個(gè)行人的7 694 個(gè)軌跡序列,總共有56 萬(wàn)多張圖片,該數(shù)據(jù)集的特點(diǎn)是有多個(gè)獨(dú)立的場(chǎng)景,每個(gè)場(chǎng)景都可以作為一個(gè)獨(dú)立的數(shù)據(jù)集,訓(xùn)練集和測(cè)試集按照?qǐng)鼍胺珠_(kāi),因此更加接近真實(shí)使用情況.3)北京大學(xué)采集的MSMT17 數(shù)據(jù)集[19],包含室內(nèi)室外15 個(gè)相機(jī)的12 萬(wàn)多張行人圖片,有4 千多個(gè)行人ID,是目前最大的單幀ReID 數(shù)據(jù)集.4)北京大學(xué)和微軟研究院聯(lián)合采集的LVreID 數(shù)據(jù)集[20],包含室內(nèi)室外15 個(gè)相機(jī)的3 千多個(gè)行人ID 的序列圖片,總共14 943 個(gè)序列的3 百多萬(wàn)張圖片,尚未開(kāi)放下載鏈接.
以上數(shù)據(jù)集的細(xì)節(jié)可以在表1 中查閱,其中大部分?jǐn)?shù)據(jù)集使用DPM (Deformable part-based model)或者手動(dòng)標(biāo)注的方法[21]檢測(cè)行人,兩個(gè)還未開(kāi)放下載的同源數(shù)據(jù)集MSMT17 和LVreID 使用了最新的Faster RCNN 檢測(cè)器[22],MARS 在提取序列的時(shí)候還輔助了GMMCP (Generalized maximum multi clique problem)跟蹤器[23].幾乎目前主流的數(shù)據(jù)集都使用累計(jì)匹配(Cumulative match characteristics,CMC)曲線和平均準(zhǔn)確度(Mean average precision,mAP)評(píng)估.由于ReID 的數(shù)據(jù)集數(shù)目繁多,本文也只能列舉一些比較常用的典型數(shù)據(jù)集,更多數(shù)據(jù)集的信息可以查閱文獻(xiàn)[24].
圖2 展示了一些行人重識(shí)別數(shù)據(jù)集的圖片,從圖中可以看出,行人重識(shí)別是一個(gè)非常有挑戰(zhàn)性的問(wèn)題.其中最主要的難點(diǎn)有:不同行人之間的外觀可能高度相似,而相同的行人在不同的時(shí)空下姿態(tài)也可能不同,行人主體遭遇遮擋以及不同相機(jī)拍攝的光線條件差異等.這些難點(diǎn)也使得行人重識(shí)別和一般的圖像檢索問(wèn)題有所不同,目前深度學(xué)習(xí)的方法除了擴(kuò)大訓(xùn)練數(shù)據(jù)和改善網(wǎng)絡(luò)結(jié)構(gòu)以外,也會(huì)針對(duì)于這些難點(diǎn)設(shè)計(jì)專(zhuān)用于ReID 任務(wù)的算法.
表1 典型行人重識(shí)別數(shù)據(jù)集Table 1 Typical ReID datasets
圖2 行人重識(shí)別數(shù)據(jù)集圖片及難點(diǎn)示例Fig.2 The examples of images and challenge of person ReID datasets
本小節(jié)總結(jié)概述基于深度學(xué)習(xí)的行人重識(shí)別方法.該類(lèi)方法根據(jù)訓(xùn)練損失可以分為基于表征學(xué)習(xí)和度量學(xué)習(xí),根據(jù)特征是否考慮局部特征可以分為基于全局特征和基于局部特征,根據(jù)數(shù)據(jù)不同可以分為基于單幀圖像和基于視頻序列的方法.此外,還有一類(lèi)基于GAN 的方法利用GAN 生成數(shù)據(jù)來(lái)解決一些行人重識(shí)別的難點(diǎn).在本小節(jié)的最后,我們還總結(jié)概述了一下這些方法的優(yōu)缺點(diǎn)以及如何結(jié)合這些方法來(lái)實(shí)現(xiàn)一個(gè)更好的行人重識(shí)別算法.
基于表征學(xué)習(xí)(Representation learning)的方法是一類(lèi)非常常用的行人重識(shí)別方法[3,25?31].雖然行人重識(shí)別的最終目標(biāo)是為了學(xué)習(xí)出兩張圖片之間的相似度,但是表征學(xué)習(xí)的方法并沒(méi)有直接在訓(xùn)練網(wǎng)絡(luò)的時(shí)候考慮圖片間的相似度,而把行人重識(shí)別任務(wù)當(dāng)做分類(lèi)(Classification)問(wèn)題或者驗(yàn)證(Verification)問(wèn)題來(lái)看待.這類(lèi)方法的特點(diǎn)就是網(wǎng)絡(luò)的最后一層全連接(Fully connected,FC)層輸出的并不是最終使用的圖像特征向量,而是經(jīng)過(guò)一個(gè)Softmax 激活函數(shù)來(lái)計(jì)算表征學(xué)習(xí)損失,前一層(倒數(shù)第二層)FC 層通常為特征向量層.具體言之,分類(lèi)問(wèn)題是指利用行人的ID 或者屬性等作為訓(xùn)練標(biāo)簽來(lái)訓(xùn)練模型,每次只需要輸入一張圖片;驗(yàn)證問(wèn)題是指輸入一對(duì)(兩張)行人圖片,讓網(wǎng)絡(luò)來(lái)學(xué)習(xí)這兩張圖片是否屬于同一個(gè)行人.
分類(lèi)網(wǎng)絡(luò)常用的兩種損失分別是行人ID 損失(Identification loss)和屬性損失(Attribute loss).文獻(xiàn)[3,29]將每一個(gè)行人當(dāng)做分類(lèi)問(wèn)題的一個(gè)類(lèi)別,用行人的ID 作為訓(xùn)練數(shù)據(jù)的標(biāo)簽來(lái)訓(xùn)練CNN網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)損失被稱(chēng)為ID 損失,而這種網(wǎng)絡(luò)被稱(chēng)為IDE (ID embedding)網(wǎng)絡(luò).IDE 網(wǎng)絡(luò)是行人重識(shí)別領(lǐng)域非常重要的baseline 基準(zhǔn).假設(shè)訓(xùn)練集擁有K個(gè)行人的n張圖片,將圖片x輸入IDE 網(wǎng)絡(luò)f,網(wǎng)絡(luò)最后一層輸出該圖片的ID 預(yù)測(cè)向量z[z1,z2,···,zk]RK.因此,圖片x屬于第k(1,2,3,···,K)個(gè)行人ID 的概率為為了方便描述,本文此后忽略k和x的相關(guān)性,默認(rèn)用p(k)來(lái)代表p(k|x).于是IDE 網(wǎng)絡(luò)的ID 損失為:
其中q(k)通過(guò)圖片x的ID 標(biāo)簽得到,若圖片x的ID 標(biāo)簽為y,則q(k)1,yk,而對(duì)于任何的都有q(k)0.
后來(lái)部分研究者認(rèn)為,光靠行人的ID 信息不足以學(xué)習(xí)出一個(gè)泛化能力足夠強(qiáng)的模型.因此,他們利用了額外標(biāo)注的行人圖片的屬性信息,例如性別、頭發(fā)、衣著等屬性,通過(guò)引入行人屬性標(biāo)簽計(jì)算屬性損失.訓(xùn)練好的網(wǎng)絡(luò)不但要準(zhǔn)確地預(yù)測(cè)出行人ID,還要預(yù)測(cè)出各項(xiàng)行人屬性,這大大增加了網(wǎng)絡(luò)的泛化能力,多數(shù)論文也顯示這種方法是有效的[3,26?27].圖3 是其中一個(gè)示例,從圖中可以看出,網(wǎng)絡(luò)輸出的特征后面引出兩個(gè)分支.一個(gè)分支用于計(jì)算ID 損失LID,此分支和上文一致;另一個(gè)分支用于計(jì)算屬性損失LAtt.假設(shè)圖片x有M個(gè)屬性標(biāo)注,我們針對(duì)于其中每一個(gè)屬性計(jì)算一個(gè)損失.若某個(gè)屬性共有m種類(lèi)型,類(lèi)似地我們可以計(jì)算圖片x屬于第j(j1,2,3,···,m)的概率為了方便描述同樣記作為p(j).因此該屬性的屬性損失為:
同理,q(j)是根據(jù)圖片x的該屬性標(biāo)注ym得到,若ymj,則q(j)1,而對(duì)于任何的ymj都有q(j)0.最終網(wǎng)絡(luò)的總損失由ID 損失和M個(gè)屬性損失組成,即:
其中,λ是平衡兩個(gè)損失的權(quán)重因子,是第i個(gè)屬性的損失值.該網(wǎng)絡(luò)提取的圖像特征不僅用于預(yù)測(cè)行人的ID 信息,還用于預(yù)測(cè)各項(xiàng)行人屬性.通過(guò)結(jié)合ID 損失和屬性損失能夠提高網(wǎng)絡(luò)的泛化能力.
驗(yàn)證網(wǎng)絡(luò)是另外一種常用于行人重識(shí)別任務(wù)的表征學(xué)習(xí)方法[25,31].和分類(lèi)網(wǎng)絡(luò)不同之處在于,驗(yàn)證網(wǎng)絡(luò)每次需要輸入兩張圖片,這兩張圖片經(jīng)過(guò)一個(gè)共享的CNN 網(wǎng)絡(luò),將網(wǎng)絡(luò)輸出的兩個(gè)特征向量融合起來(lái)輸入到一個(gè)只有兩個(gè)神經(jīng)元的FC 層,來(lái)預(yù)測(cè)這兩幅圖片是否屬于同一個(gè)行人.因此,驗(yàn)證網(wǎng)絡(luò)本質(zhì)上是一個(gè)多輸入單輸出的二分類(lèi)網(wǎng)絡(luò).通常,僅僅使用驗(yàn)證損失訓(xùn)練網(wǎng)絡(luò)是非常低效的,所以驗(yàn)證損失會(huì)與ID 損失一起使用來(lái)訓(xùn)練網(wǎng)絡(luò).圖4 是一個(gè)使用融合驗(yàn)證損失和ID 損失的行人重識(shí)別網(wǎng)絡(luò).網(wǎng)絡(luò)輸入為若干對(duì)行人圖片,包括分類(lèi)子網(wǎng)絡(luò)(Classification subnet)和驗(yàn)證子網(wǎng)絡(luò)(Verification subnet).分類(lèi)子網(wǎng)絡(luò)對(duì)圖片進(jìn)行ID 預(yù)測(cè),根據(jù)預(yù)測(cè)的ID 來(lái)計(jì)算ID 損失LID,這部分和前文一致.驗(yàn)證子網(wǎng)絡(luò)融合兩張圖片的特征,判斷這兩張圖片是否屬于同一個(gè)行人,該子網(wǎng)絡(luò)實(shí)質(zhì)上等于一個(gè)二分類(lèi)網(wǎng)絡(luò).假設(shè)網(wǎng)絡(luò)輸入一對(duì)圖像對(duì)X{xa,xb},他們的ID 標(biāo)簽分別為ya和yb.網(wǎng)絡(luò)輸出一個(gè)2 維的向量v,則驗(yàn)證損失為:
若yayb則y{1,0},反之若yayb則y{0,1}.最終網(wǎng)絡(luò)的總損失為L(zhǎng)LID+LV.經(jīng)過(guò)足夠數(shù)據(jù)的訓(xùn)練,在推理階段再次輸入一張測(cè)試圖片,網(wǎng)絡(luò)將自動(dòng)提取出一個(gè)特征,這個(gè)特征用于行人重識(shí)別任務(wù).
度量學(xué)習(xí)(Metric learning)是廣泛用于圖像檢索領(lǐng)域的一種方法.不同于表征學(xué)習(xí),度量學(xué)習(xí)旨在通過(guò)網(wǎng)絡(luò)學(xué)習(xí)出兩張圖片的相似度.在行人重識(shí)別問(wèn)題上,表現(xiàn)為同一行人的不同圖片間的相似度大于不同行人的不同圖片.具體為,定義一個(gè)映射f(x):RF →RD,將圖片從原始域映射到特征域,之后再定義一個(gè)距離度量函數(shù)D(x,y):RD×RD →R,來(lái)計(jì)算兩個(gè)特征向量之間的距離.最后通過(guò)最小化網(wǎng)絡(luò)的度量損失,來(lái)尋找一個(gè)最優(yōu)的映射f(x),使得相同行人兩張圖片(正樣本對(duì))的距離盡可能小,不同行人兩張圖片(負(fù)樣本對(duì))的距離盡可能大.而這個(gè)映射f(x),就是我們訓(xùn)練得到的深度卷積網(wǎng)絡(luò).
圖3 結(jié)合ID 損失和屬性損失網(wǎng)絡(luò)示例[26]Fig.3 The example network with identification loss and attribute loss[26]
圖4 結(jié)合驗(yàn)證損失和ID 損失網(wǎng)絡(luò)示例[25]Fig.4 The example network with verification loss and identification loss[25]
為了實(shí)現(xiàn)端對(duì)端訓(xùn)練,如今深度度量學(xué)習(xí)方法和傳統(tǒng)的度量學(xué)習(xí)方法相比已經(jīng)有所變化.關(guān)于包含XQDA、KISSME 等在內(nèi)的傳統(tǒng)度量學(xué)習(xí)方法到深度學(xué)習(xí)度量方法的過(guò)渡與集成時(shí)期的研究,可以查閱論文[32].本文著重討論近幾年基于深度學(xué)習(xí)的度量學(xué)習(xí)方法研究.
常用的度量學(xué)習(xí)損失方法包括對(duì)比損失(Contrastive loss)[33?35]、三元組損失(Triplet loss)[36?39]、四元組損失(Quadruplet loss)[40].首先,假如有兩張輸入圖片I1和I2,通過(guò)網(wǎng)絡(luò)的前向傳播我們可以得到它們(歸一化后)的特征向量和之后我們需要定義一個(gè)距離度量函數(shù),這個(gè)函數(shù)并不唯一,只要能夠在特征空間描述特征向量的相似度/差異度的函數(shù)均可以作為距離度量函數(shù).然而,為了實(shí)現(xiàn)端對(duì)端(End-to-end)訓(xùn)練的網(wǎng)絡(luò),度量函數(shù)盡可能連續(xù)可導(dǎo),通常我們使用特征的歐氏距離或者余弦距離作為度量函數(shù),即兩張圖片在特征空間的距離定義為:
當(dāng)然曼哈頓距離、漢明距離、馬氏距離等距離也可以作為度量學(xué)習(xí)的距離度量函數(shù),本文對(duì)此不做過(guò)多討論.
對(duì)比損失用于訓(xùn)練孿生網(wǎng)絡(luò)(Siamese network).孿生網(wǎng)絡(luò)的輸入為一對(duì)(兩張)圖片Ia和Ib,這兩張圖片可以為同一行人,也可以為不同行人.每一對(duì)訓(xùn)練圖片都有一個(gè)標(biāo)簽y,其中y1 表示兩張圖片屬于同一個(gè)行人(正樣本對(duì)),反之y0 表示它們屬于不同行人(負(fù)樣本對(duì)).之后,對(duì)比損失函數(shù)寫(xiě)作:
其中,(z)+max(z,0),α是根據(jù)實(shí)際需求設(shè)置的訓(xùn)練閾值參數(shù).
三元組損失是一種被廣泛應(yīng)用的度量學(xué)習(xí)損失,之后的大量度量學(xué)習(xí)方法也是基于三元組損失演變而來(lái).顧名思義,三元組損失需要三張輸入圖片.和對(duì)比損失不同,一個(gè)輸入的三元組(Triplet)包括一對(duì)正樣本對(duì)和一對(duì)負(fù)樣本對(duì).三張圖片分別命名為固定圖片(Anchor)a,正樣本圖片(Positive)p和負(fù)樣本圖片(Negative)n.圖片a和圖片p為一對(duì)正樣本對(duì),圖片a和圖片n為一對(duì)負(fù)樣本對(duì).則三元組損失表示為:
文獻(xiàn)[36]認(rèn)為式(7)只考慮正負(fù)樣本對(duì)之間的相對(duì)距離,而并沒(méi)有考慮正樣本對(duì)之間的絕對(duì)距離,為此提出改進(jìn)三元組損失(Improved triplet loss):
式(8)添加da,p項(xiàng),保證網(wǎng)絡(luò)不僅能夠在特征空間把正負(fù)樣本推開(kāi),也能保證正樣本對(duì)之間的距離很近.
四元組損失是三元組損失的另一個(gè)改進(jìn)版本.顧名思義,四元組(Quadruplet)需要四張輸入圖片,和三元組不同的是多了一張負(fù)樣本圖片.即四張圖片為固定圖片a,正樣本圖片p,負(fù)樣本圖片1n1 和負(fù)樣本圖片2n2.其中n1 和n2 是兩張不同行人ID 的圖片.則四元組損失表示為:
其中,α和β是手動(dòng)設(shè)置的正常數(shù),通常設(shè)置β小于α,前一項(xiàng)稱(chēng)為強(qiáng)推動(dòng),后一項(xiàng)稱(chēng)為弱推動(dòng).其中前一項(xiàng)和三元組損失一樣,只考慮正負(fù)樣本間的相對(duì)距離,共享了固定圖片a.因此在推開(kāi)負(fù)樣本對(duì)a和n1 的同時(shí),也會(huì)直接影響a的特征,造成正樣本對(duì)a和p的距離不好控制.改進(jìn)三元組損失通過(guò)直接約束a和p之間的距離來(lái)解決這個(gè)問(wèn)題.而四元組通過(guò)引入第二項(xiàng)弱推動(dòng)實(shí)現(xiàn),添加的第二項(xiàng)中負(fù)樣本對(duì)和正樣本對(duì)不共享ID,所以考慮的是正負(fù)樣本間的絕對(duì)距離,在推開(kāi)負(fù)樣本對(duì)的同時(shí)不會(huì)太過(guò)直接影響a的特征.因此,四元組損失通常能讓模型學(xué)習(xí)到更好的表征.
以上度量學(xué)習(xí)方法樣本示例如圖5 所示,這些方法在計(jì)算度量損失時(shí),樣本對(duì)都是從訓(xùn)練集中隨機(jī)挑選.隨機(jī)挑選樣本對(duì)的方法可能經(jīng)常挑選出一些容易識(shí)別的樣本對(duì)組成訓(xùn)練批量(Batch),使得網(wǎng)絡(luò)泛化能力受限.為此,部分學(xué)者提出了難樣本采樣(Hard sample mining)的方法,來(lái)挑選出難樣本對(duì)訓(xùn)練網(wǎng)絡(luò)[37,41].常用的思路是挑選出一個(gè)訓(xùn)練Batch 中特征向量距離比較大(非常不像)的正樣本對(duì)和特征向量距離比較小(非常像)的負(fù)樣本對(duì)來(lái)訓(xùn)練網(wǎng)絡(luò).難樣本采樣技術(shù)可以明顯改進(jìn)度量學(xué)習(xí)方法的性能,加快網(wǎng)絡(luò)的收斂,并且可以很方便地在原有度量學(xué)習(xí)方法上進(jìn)行擴(kuò)展,是目前廣泛采用的一種技術(shù).
度量學(xué)習(xí)可以近似看作為樣本在特征空間進(jìn)行聚類(lèi),表征學(xué)習(xí)可以近似看作為學(xué)習(xí)樣本在特征空間的分界面.正樣本距離拉近的過(guò)程使得類(lèi)內(nèi)距離縮小,負(fù)樣本距離推開(kāi)的過(guò)程使得類(lèi)間距離增大,最終收斂時(shí)樣本在特征空間呈現(xiàn)聚類(lèi)效應(yīng).度量學(xué)習(xí)和表征學(xué)習(xí)相比,優(yōu)勢(shì)在于網(wǎng)絡(luò)末尾不需要接一個(gè)分類(lèi)的全連接層,因此對(duì)于訓(xùn)練集的行人ID 數(shù)量并不敏感,可以應(yīng)用于訓(xùn)練超大規(guī)模數(shù)據(jù)集的網(wǎng)絡(luò).總體而言,度量學(xué)習(xí)比表征學(xué)習(xí)使用的更加廣泛,性能表現(xiàn)也略微優(yōu)于表征學(xué)習(xí).但是目前行人重識(shí)別的數(shù)據(jù)集規(guī)模還依然有限,表征學(xué)習(xí)的方法也依然得到使用,而同時(shí)融合度量學(xué)習(xí)和表征學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)的思路也在逐漸變得流行.
圖5 度量學(xué)習(xí)方法樣本符號(hào)示例圖Fig.5 Thelabel of metric learning
從網(wǎng)絡(luò)的訓(xùn)練損失函數(shù)上進(jìn)行分類(lèi)可以分成表征學(xué)習(xí)和度量學(xué)習(xí),相關(guān)方法前文已經(jīng)介紹.另一個(gè)角度,從抽取圖像特征進(jìn)行分類(lèi),行人重識(shí)別的方法可以分為基于全局特征(Global feature)和基于局部特征(Local feature)的方法.全局特征比較簡(jiǎn)單,是指讓網(wǎng)絡(luò)對(duì)整幅圖像提取一個(gè)特征,這個(gè)特征不考慮一些局部信息.正常的卷積網(wǎng)絡(luò)提取的都是全局特征,因此在此不做贅述.然而,隨著行人數(shù)據(jù)集越來(lái)越復(fù)雜,僅僅使用全局特征并不能達(dá)到性能要求,因此提取更加復(fù)雜的局部特征成為一個(gè)研究熱點(diǎn).局部特征是指手動(dòng)或者自動(dòng)地讓網(wǎng)絡(luò)去關(guān)注關(guān)鍵的局部區(qū)域,然后提取這些區(qū)域的局部特征.常用的提取局部特征的思路主要有圖像切塊、利用骨架關(guān)鍵點(diǎn)定位以及行人前景分割等.
圖片切塊是一種很常見(jiàn)的提取局部特征方式[34,42?43].因?yàn)槿梭w結(jié)構(gòu)的特殊性,通常研究者會(huì)將圖片從上到下均分為幾等份(頭部、上身、腿部等).圖6 是圖片切塊的一個(gè)典型示例,網(wǎng)絡(luò)采用的是經(jīng)典的孿生網(wǎng)絡(luò),損失函數(shù)為度量學(xué)習(xí)的對(duì)比損失,輸入的兩幅圖片均分為若干等分.之后,被分割好的若干塊圖像塊按照順序送到一個(gè)長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long short term memory network,LSTM),最后的特征融合了所有圖像塊的局部特征.圖片切換方法的缺點(diǎn)在于對(duì)圖像對(duì)齊的要求比較高,如果兩幅圖像沒(méi)有上下對(duì)齊,那么很可能出現(xiàn)頭和上身對(duì)比的現(xiàn)象,反而使得模型判斷錯(cuò)誤.因此Zhang 等設(shè)計(jì)了一種動(dòng)態(tài)對(duì)齊網(wǎng)絡(luò)AlignedReID[43],可以在不需要額外信息的情況下實(shí)現(xiàn)圖片塊從上到下的自動(dòng)對(duì)準(zhǔn).
利用人體姿態(tài)關(guān)鍵點(diǎn)進(jìn)行局部特征對(duì)齊是另外一種常見(jiàn)的方法[44?46].一些論文利用一些先驗(yàn)知識(shí)先將行人進(jìn)行對(duì)齊,這些先驗(yàn)知識(shí)主要是預(yù)訓(xùn)練的人體姿態(tài)(Pose)和骨架關(guān)鍵點(diǎn)模型.其中,CVPR17 的Spindle Net[45]是該類(lèi)方法的一個(gè)典型代表.Spindle Net 網(wǎng)絡(luò)如圖7 所示,首先通過(guò)骨架關(guān)鍵點(diǎn)提取的網(wǎng)絡(luò)提取14 個(gè)人體關(guān)鍵點(diǎn),之后利用這些關(guān)鍵點(diǎn)提取7 個(gè)人體結(jié)構(gòu)ROI.這7 個(gè)ROI 區(qū)域和原始圖片進(jìn)入同一個(gè)CNN 網(wǎng)絡(luò)提取特征.原始圖片經(jīng)過(guò)完整的CNN 得到一個(gè)全局特征,三個(gè)大區(qū)域經(jīng)過(guò)FEN-C2 和FEN-C3 子網(wǎng)絡(luò)得到三個(gè)局部特征,四個(gè)四肢區(qū)域經(jīng)過(guò)FEN-C3 子網(wǎng)絡(luò)得到四個(gè)局部特征.之后這8 個(gè)特征按照?qǐng)D示的方式在不同的尺度進(jìn)行聯(lián)結(jié),最終得到一個(gè)融合全局特征和多個(gè)尺度局部特征的行人重識(shí)別特征.
與Spindle Net 不同,論文[46]先用姿態(tài)估計(jì)的模型估計(jì)出行人的關(guān)鍵點(diǎn),然后用仿射變換使得相同的關(guān)鍵點(diǎn)對(duì)齊.論文[44]提出了一種全局–局部對(duì)齊特征描述子(Global-local-alignment descriptor,GLAD).GLAD 利用提取的人體關(guān)鍵點(diǎn)把圖片分為頭部、上身和下身三個(gè)部分.之后將整圖和三個(gè)局部圖片一起輸入到一個(gè)參數(shù)共享CNN網(wǎng)絡(luò)中,最后提取的特征融合了全局和局部的特征.為了適應(yīng)不同分辨率大小的圖片輸入,網(wǎng)絡(luò)利用全局平均池化(Global average pooling,GAP)來(lái)提取各自的特征.和Spindle net 略微不同的是四個(gè)輸入圖片各自計(jì)算對(duì)應(yīng)的損失,而不是融合為一個(gè)特征計(jì)算一個(gè)總的損失.
圖6 利用圖片切塊提取局部特征示例[34]Fig.6 The example of extracting local features with image blocks[34]
圖7 利用姿態(tài)點(diǎn)提取局部特征示例[45]Fig.7 The example of extracting local features with pose points[45]
行人的局部特征在最近逐漸被證明是一種有效的特征,可以一定程度上解決行人姿態(tài)多樣化的問(wèn)題.因此,融合全局和局部特征在行人重識(shí)別領(lǐng)域也漸漸變得流行,圖片切塊的方法簡(jiǎn)單但是需要圖片比較規(guī)范化,利用姿態(tài)點(diǎn)信息比較精確但是需要額外的姿態(tài)估計(jì)模型.高效且低耗的局部特征提取模型依然是該領(lǐng)域一個(gè)值得研究的切入點(diǎn).
目前主流的行人重識(shí)別方法大部分是基于單幀圖像的,然而單幀圖像給予的信息終究是有限的.此外,單幀的方法要求圖像質(zhì)量很高,這對(duì)于相機(jī)的布置和使用的場(chǎng)景是一個(gè)非常大的限制,因此研究基于序列的方法便顯得十分重要.基于單幀圖像的ReID 方法可以通過(guò)一個(gè)簡(jiǎn)單方法擴(kuò)展到視頻序列,即用所有序列圖像特征向量的平均池化或者最大池化作為該序列的最終特征.但是仍然有很多工作在研究如何更好地利用視頻序列來(lái)進(jìn)行行人重識(shí)別[47?58].這類(lèi)方法除了考慮了圖像的內(nèi)容信息,還會(huì)考慮:1)幀與幀之間的運(yùn)動(dòng)信息;2)更好的特征融合;3)對(duì)圖像幀進(jìn)行質(zhì)量判斷等.總體來(lái)說(shuō),基于序列的方法核心思想為通過(guò)融合更多的信息來(lái)解決圖像噪聲較大、背景復(fù)雜等一系列質(zhì)量不佳的問(wèn)題.本節(jié)將會(huì)著重介紹幾個(gè)典型方法,以點(diǎn)帶面的形式來(lái)總結(jié)該類(lèi)方法.
融合圖像內(nèi)容信息和運(yùn)動(dòng)信息是一種常見(jiàn)的思路,因?yàn)檫\(yùn)動(dòng)信息里面可能包含了步態(tài)等信息輔助識(shí)別任務(wù),最早的序列類(lèi)方法的關(guān)注點(diǎn)就在于運(yùn)動(dòng)信息上[49,51,56].主要思想是利用CNN 來(lái)提取空間特征的同時(shí)利用遞歸循環(huán)網(wǎng)絡(luò)(Recurrent neural networks,RNN)來(lái)提取時(shí)序(運(yùn)動(dòng))特征.典型代表是累計(jì)運(yùn)動(dòng)背景網(wǎng)絡(luò)(Accumulative motion context network,AMOC)[49].AMOC 的輸入包括原始的圖像序列和提取的光流序列(運(yùn)動(dòng)特征).其核心思想在于網(wǎng)絡(luò)除了要提取序列圖像的特征,還要提取運(yùn)動(dòng)光流的運(yùn)動(dòng)特征,其網(wǎng)絡(luò)結(jié)構(gòu)圖如圖8所示.AMOC 擁有空間信息網(wǎng)絡(luò)(Spatial network,Spat Nets)和運(yùn)動(dòng)信息網(wǎng)絡(luò)(Motion network,Moti Nets)兩個(gè)子網(wǎng)絡(luò).圖像序列的每一幀圖像都被輸入到Spat Nets 來(lái)提取圖像的全局內(nèi)容特征.而相鄰的兩幀將會(huì)送到Moti Nets 來(lái)提取光流圖特征.之后空間特征和光流特征融合后輸入到一個(gè)RNN來(lái)提取時(shí)序特征.通過(guò)AMOC 網(wǎng)絡(luò),每個(gè)圖像序列都能被提取出一個(gè)融合了內(nèi)容信息、運(yùn)動(dòng)信息的特征.網(wǎng)絡(luò)采用了分類(lèi)損失和對(duì)比損失來(lái)訓(xùn)練模型.融合了運(yùn)動(dòng)信息的序列圖像特征能夠提高行人重識(shí)別的準(zhǔn)確度.
序列圖像每一幀都可以提取一個(gè)特征,通常每一幀貢獻(xiàn)的信息是不同的,因此如何更好地融合每一幀的特征也是一個(gè)研究熱點(diǎn)[47?48].該類(lèi)方法的一個(gè)代表工作是DFGP (Deep feature guided pooling)[48].DFGP 先用一個(gè)深度學(xué)習(xí)模型對(duì)每一幀提取一個(gè)深度特征,之后用平均池化得到序列圖像的平均特征,這與大部分工作一致.之后DFGP 提出一個(gè)最穩(wěn)定幀算法(Maximally stable video frame,MSVF).MSVF 通過(guò)計(jì)算每一幀圖像特征與平均特征之間的距離,挑出距離最小的那一幀為該序列的最穩(wěn)定幀.如果某一幀與最穩(wěn)定幀越接近,則被賦予權(quán)重越大.實(shí)現(xiàn)方式為計(jì)算每一幀的特征與最穩(wěn)定幀特征的距離,距離越近權(quán)重最大,只要滿足所有幀的權(quán)重和為1 即可.DFGP 是一種手動(dòng)實(shí)現(xiàn)特征融合的方法,當(dāng)前另一種流行的思路是利用深度學(xué)習(xí)的注意力機(jī)制,來(lái)自動(dòng)地給每一幀圖像賦予一個(gè)權(quán)重[47].當(dāng)然這個(gè)權(quán)重是由網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)出來(lái),解釋性不如手動(dòng)提取方法.
圖8 融合內(nèi)容信息和運(yùn)動(dòng)信息的AMOC 網(wǎng)絡(luò)[49]Fig.8 The AMOC network which fusions context information and motion information[49]
序列方法另外一個(gè)思路就是對(duì)圖像幀進(jìn)行質(zhì)量判斷,往往序列中并不是每一幀圖像都是完整的高質(zhì)量圖像,遮擋、姿態(tài)、分辨率等因素都是可能造成圖像不佳的因素.因此保留更多的高質(zhì)量圖像的特征便顯得比較重要,RQEN (Region-based quality estimation network)就是一個(gè)對(duì)遮擋圖像進(jìn)行質(zhì)量判斷的工作[18].RQEN 認(rèn)為在遮擋較嚴(yán)重的情況下,如果用一般的平均池化會(huì)造成遮擋區(qū)域的特征丟失很多.而RQEN 以姿態(tài)估計(jì)點(diǎn)為先驗(yàn)知識(shí),對(duì)每幀進(jìn)行一個(gè)質(zhì)量判斷,姿態(tài)完整的圖像被認(rèn)為是高質(zhì)量的圖像,反之姿態(tài)不完整的圖像即存在遮擋的圖像是低質(zhì)量的圖像.將這個(gè)先驗(yàn)結(jié)果輸入到網(wǎng)絡(luò),誘導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)更多高質(zhì)量圖像幀的信息,給高質(zhì)量圖像幀打上高權(quán)重,然后對(duì)特征圖進(jìn)行一個(gè)線性疊加.圖9 顯示了平均池化和RQEN 方法的注意力圖,可以看出在存在遮擋的情況下,平均池化在遮擋區(qū)域會(huì)丟失很多信息,而融合質(zhì)量判斷的RQEN 網(wǎng)絡(luò)依然可以得到較好的結(jié)果.
基于視頻序列的行人重識(shí)別技術(shù)是該領(lǐng)域未來(lái)急需解決的一個(gè)問(wèn)題.總體而言,和單幀方法相比,序列方法無(wú)論是從思路的多樣性上,還是從結(jié)果性能上,都還存在一定的差距.
圖9 RQEN 與平均池化注意力圖對(duì)比[18]Fig.9 The attention maps of RQEN and average pooling[18]
GAN 在近幾年得到了蓬勃的發(fā)展,其中一個(gè)應(yīng)用就是圖片生成.深度學(xué)習(xí)的方法需要依賴(lài)大量訓(xùn)練數(shù)據(jù),而目前行人重識(shí)別的數(shù)據(jù)集總體來(lái)說(shuō)規(guī)模還是比較小.因此,利用GAN 來(lái)做行人重識(shí)別任務(wù)逐漸開(kāi)始變得流行.傳統(tǒng)的GAN 生成圖片是隨機(jī)的,后來(lái)發(fā)表的CycleGAN[59]、DualGAN[60]和DiscoGAN[61]實(shí)現(xiàn)了圖片風(fēng)格的轉(zhuǎn)換,進(jìn)一步地促進(jìn)了GAN 在行人重識(shí)別領(lǐng)域的應(yīng)用.
第一篇引入GAN 做ReID 的論文[19]發(fā)表在ICCV17 會(huì)議上,論文使用傳統(tǒng)的GAN 隨機(jī)生成行人圖片,因此生成的圖片是不可控的,僅僅作為IDE 網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)的增廣,提高IDE 網(wǎng)絡(luò)的性能.為了解決這個(gè)問(wèn)題,一些文獻(xiàn)[19,62?65]使用(改進(jìn)的)CycleGAN 來(lái)進(jìn)行兩個(gè)域的行人圖片轉(zhuǎn)換,從而減小圖片間的風(fēng)格差異.雖然每個(gè)算法使用CycleGAN 的細(xì)節(jié)各自不同,但是流程可以統(tǒng)一概括.圖10 顯示了利用CycleGAN 將圖片1 從風(fēng)格A轉(zhuǎn)換為風(fēng)格B的網(wǎng)絡(luò)訓(xùn)練流程圖,網(wǎng)絡(luò)輸入兩張不同風(fēng)格的圖片.生成器GAB將圖片從風(fēng)格A轉(zhuǎn)化為風(fēng)格B,而GBA將圖片從風(fēng)格B轉(zhuǎn)化為風(fēng)格A,判別器DB用來(lái)判斷生成圖片是否接近真實(shí)的風(fēng)格B.圖10 只展示了CycleGAN 的從A →B風(fēng)格轉(zhuǎn)換,實(shí)際的CycleGAN 是對(duì)稱(chēng)結(jié)構(gòu),而B(niǎo) →A方向的轉(zhuǎn)換在此不做贅述.通過(guò)最小化判別損失和重建L2損失,CycleGAN 的生成器和判別器不斷對(duì)抗互相提高直至收斂.推理階段只需要給對(duì)應(yīng)的生成器輸入一張圖片,便可以將圖片從一個(gè)風(fēng)格轉(zhuǎn)換為另外一個(gè)風(fēng)格.與傳統(tǒng)的GAN 網(wǎng)絡(luò)不同,CycleGAN 一個(gè)非常好的優(yōu)點(diǎn)是生成的圖片保留了原始圖片的ID信息.
由于相機(jī)的光線、角度等可能不同,不同相機(jī)拍攝的圖片存在風(fēng)格偏差,Zhong 等[65]使用CycleGAN 來(lái)實(shí)現(xiàn)相機(jī)風(fēng)格的遷移,從而減小相機(jī)間的風(fēng)格偏差.另外,由于不同數(shù)據(jù)集之間存在場(chǎng)景域之間的偏差,通常在一個(gè)數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)在另外一個(gè)數(shù)據(jù)集上性能不會(huì)很好.PTGAN (Person transfer GAN)[19]和SPGAN (Similarity preserving GAN)[62]分別改進(jìn)CycleGAN 來(lái)實(shí)現(xiàn)圖片數(shù)據(jù)域之間的轉(zhuǎn)換.PTGAN 主要思想為保持生成圖片的行人前景盡可能不變,而圖片背景為目標(biāo)域的風(fēng)格,因此采用一個(gè)前景分割網(wǎng)絡(luò)先把前景區(qū)域分割出來(lái),在訓(xùn)練網(wǎng)絡(luò)時(shí)加入前景約束,盡可能多地保護(hù)行人外觀信息.SPGAN 和PTGAN 類(lèi)似,也是利用CycleGAN 實(shí)現(xiàn)數(shù)據(jù)集風(fēng)格的轉(zhuǎn)換,與之不同的是SPGAN 將CycleGAN 與孿生網(wǎng)絡(luò)結(jié)合,生成圖片的同時(shí)加入了ReID 模型的約束,使之更加適應(yīng)任務(wù)需求.PNGAN (Pose-normalization GAN)[64]是另外一篇非常典型的工作,行人重識(shí)別任務(wù)其中一個(gè)難點(diǎn)就是行人的姿態(tài)存在偏差,而PGNAN 的主要?jiǎng)訖C(jī)就是解決姿態(tài)偏差.為了實(shí)現(xiàn)行人姿態(tài)的遷移,PNGAN 將InfoGAN[66]和人體姿態(tài)點(diǎn)估計(jì)模型結(jié)合起來(lái),加入了姿態(tài)點(diǎn)損失約束,使得生成圖片的行人姿態(tài)與期望姿態(tài)盡可能一致.之后為了消除姿態(tài)偏差,PNGAN 定義了8 個(gè)姿態(tài)模板,每一張行人圖片都轉(zhuǎn)化為8 張固定姿態(tài)的圖片,在進(jìn)行重識(shí)別任務(wù)時(shí)融合這9 張圖片的特征,達(dá)到消除姿態(tài)偏差的目的.據(jù)我們所知,PNGAN 在Market1501和DukeMTMC-reID 數(shù)據(jù)集上達(dá)到了目前最高的Rank1 準(zhǔn)確度.這些典型GAN 網(wǎng)絡(luò)生成的圖片如圖11 所示,根據(jù)目標(biāo)的不同,GAN 網(wǎng)絡(luò)圖片生成的外觀細(xì)節(jié)和側(cè)重點(diǎn)也各自不同,這就是這一類(lèi)方法的特點(diǎn)所在.
表2 基于GAN 網(wǎng)絡(luò)的方法比較Table 2 The comparison of GAN based methods
前文按照分類(lèi)介紹一些基于深度學(xué)習(xí)的行人重識(shí)別方法,本節(jié)將對(duì)這些方法進(jìn)行總結(jié)與比較.基于GAN 的方法更多是作為一種圖像增廣或者解決圖像域偏差的技術(shù)而較為獨(dú)立.
圖10 CycleGAN 進(jìn)行圖片風(fēng)格轉(zhuǎn)換流程圖(A →B)Fig.10 The pipeline of image style transfer using CycleGAN (A →B)
表3 基于深度學(xué)習(xí)的行人重識(shí)別方法總結(jié)比較Table 3 Comparison of deep learning based ReID methods
圖11 GAN 網(wǎng)絡(luò)生成行人圖片示例Fig.11 The examples of pedestrian images generated by GAN
從訓(xùn)練深度網(wǎng)絡(luò)的角度,我們將從三個(gè)方面來(lái)分析:表征學(xué)習(xí)與度量學(xué)習(xí)、全局特征與局部特征、單幀圖像與視頻序列.如表3 所示,前文提到的代表算法所對(duì)應(yīng)的類(lèi)型都已標(biāo)記出.有的方法只使用了一種類(lèi)型的損失函數(shù)或者特征類(lèi)型,而有的方法融合了多種損失函數(shù)或者特征類(lèi)型來(lái)達(dá)到更高的性能水平.具體細(xì)節(jié)我們將在后文詳細(xì)討論.
3.6.1 基于表征學(xué)習(xí)與度量學(xué)習(xí)的方法
按照網(wǎng)絡(luò)訓(xùn)練損失分類(lèi),行人重識(shí)別的方法可以分為表征學(xué)習(xí)和度量學(xué)習(xí)兩類(lèi).表征學(xué)習(xí)的優(yōu)點(diǎn)在于數(shù)據(jù)集量不大的時(shí)候收斂容易,模型訓(xùn)練魯棒性強(qiáng),訓(xùn)練時(shí)間短.然而表征學(xué)習(xí)是將每一個(gè)ID 的行人圖片當(dāng)做一個(gè)類(lèi)別,當(dāng)ID 數(shù)量增加到百萬(wàn)、千萬(wàn)甚至更多的時(shí)候,網(wǎng)絡(luò)最后一層是一個(gè)維度非常高的全連接層,使得網(wǎng)絡(luò)參數(shù)量巨大并且收斂困難.由于直接計(jì)算特征之間的距離,度量學(xué)習(xí)的優(yōu)點(diǎn)在于可以很方便地?cái)U(kuò)展到新的數(shù)據(jù)集,不需要根據(jù)ID數(shù)量來(lái)調(diào)整網(wǎng)絡(luò)的結(jié)構(gòu),此外也可以非常好地適應(yīng)ID 數(shù)目巨大的訓(xùn)練數(shù)據(jù).然而,度量學(xué)習(xí)相對(duì)來(lái)說(shuō)收斂困難,需要比較豐富的訓(xùn)練經(jīng)驗(yàn)來(lái)調(diào)整網(wǎng)絡(luò)參數(shù),另外收斂訓(xùn)練時(shí)間也比表征學(xué)習(xí)要長(zhǎng).
表征學(xué)習(xí)和度量學(xué)習(xí)擁有各自的優(yōu)缺點(diǎn),目前學(xué)術(shù)界和工業(yè)界逐漸開(kāi)始聯(lián)合兩種學(xué)習(xí)損失[18,43,49].聯(lián)合的方式也比較直接,在傳統(tǒng)度量學(xué)習(xí)方法的基礎(chǔ)上,在特征層后面再添加一個(gè)全連接層進(jìn)行ID 分類(lèi)學(xué)習(xí).網(wǎng)絡(luò)同時(shí)優(yōu)化表征學(xué)習(xí)損失和度量學(xué)習(xí)損失,來(lái)共同優(yōu)化特征層.如圖8 所示,AMOC 同時(shí)聯(lián)合了ID 損失和對(duì)比損失,特征層之后分出了兩個(gè)分支分別優(yōu)化表征學(xué)習(xí)損失和度量學(xué)習(xí)損失.
3.6.2 基于全局特征與局部特征的方法
按照網(wǎng)絡(luò)輸出特征類(lèi)型,行人重識(shí)別方法可以分為基于全局特征與局部特征的方法.全局特征一般是卷積網(wǎng)絡(luò)的特征圖直接通過(guò)一個(gè)全局池化層得到,推理階段計(jì)算快速,適合于需要幀率較高的實(shí)際應(yīng)用.然而由于全局池化層會(huì)使得圖像的空間特征信息丟失,因此在姿態(tài)不對(duì)齊、行人圖片不完整、只有局部細(xì)節(jié)不相似等情況下,全局特征容易出現(xiàn)誤識(shí)別.而局部特征的優(yōu)點(diǎn)在于可以一定程度上解決這些問(wèn)題,當(dāng)然局部特征也有它自己的缺點(diǎn).對(duì)于分塊的局部特征優(yōu)點(diǎn)在于不需要引入額外的計(jì)算量,但是通常并不能特別好地解決姿態(tài)不對(duì)齊的問(wèn)題.而利用姿態(tài)點(diǎn)估計(jì)模型估計(jì)出行人的姿態(tài)點(diǎn),然后再進(jìn)行局部特征匹配可以較好地解決姿態(tài)不對(duì)齊的問(wèn)題,但是卻需要一個(gè)額外的姿態(tài)點(diǎn)模型.總體來(lái)說(shuō),全局特征和局部特征是兩個(gè)比較互補(bǔ)的特征類(lèi)型,通常不會(huì)單獨(dú)使用局部特征.廣義上講,分塊局部特征把所有的分塊特征融合起來(lái)也包含了全局圖像信息.因此在不考慮推理階段計(jì)算耗時(shí)的前提下,融合全局特征和局部特征是目前一種提高網(wǎng)絡(luò)性能非常常用的手段.
目前融合全局特征和局部特征常用的思路是對(duì)于全局模塊和局部模塊分別提取特征,之后再將全局特征和局部特征拼接在一起作為最終的特征.如圖7 所示,Spindle net 就提取了全局特征和7 個(gè)不同尺度的局部特征,然后融合成最終的圖像特征用于進(jìn)行最后的相似度度量.AlignedReID 給出了另外一種融合方法,即分別計(jì)算兩幅圖像全局特征距離和局部特征距離,然后加權(quán)求和作為最終兩幅圖像在特征空間的距離.RQEN 則是利用一個(gè)姿態(tài)點(diǎn)模型來(lái)估計(jì)行人的可視性部分,然后融合多幀信息得到一個(gè)較好的最終特征,也可以看作是一個(gè)全局特征和局部特征融合的過(guò)程.如何探究更好的全局特征和局部特征方法也是行人重識(shí)別未來(lái)一個(gè)重要的研究分支.
3.6.3 基于單幀圖像與視頻序列的方法
按照網(wǎng)絡(luò)輸入數(shù)據(jù),行人重識(shí)別方法可以分為基于單幀圖像與視頻序列的方法.這兩類(lèi)方法并沒(méi)有太多重合的地方,只是針對(duì)于不同的應(yīng)用選擇不同類(lèi)型的網(wǎng)絡(luò)輸入.基于單幀圖像的方法訓(xùn)練簡(jiǎn)單,使用方便,推理階段耗時(shí)時(shí)間短.然而它的缺點(diǎn)在于單幀圖像信息有限,對(duì)于圖像質(zhì)量要求較高,一旦出現(xiàn)檢測(cè)框錯(cuò)誤或者行人遮擋等情況,算法效果會(huì)大幅度下降.基于視頻序列的方法可以解決單幀圖像信息不足的缺點(diǎn),并且可以融入運(yùn)動(dòng)信息加強(qiáng)魯棒性,然而由于每次要處理多張圖像,因此計(jì)算效率較低.當(dāng)然基于視頻序列的方法大部分都是單幀圖像方法的擴(kuò)展延伸,因此發(fā)展單幀圖像的方法對(duì)于發(fā)展視頻序列的方法也是有益的.
本節(jié)我們通過(guò)比較一些典型算法的性能,來(lái)回顧一下近幾年行人重識(shí)別方法的發(fā)展趨勢(shì).由于行人重識(shí)別相關(guān)數(shù)據(jù)集非常多,我們無(wú)法展示每個(gè)數(shù)據(jù)集的結(jié)果.考慮到算法的優(yōu)劣一般與數(shù)據(jù)集相關(guān)性不是特別大,而多數(shù)論文都會(huì)在Market1501 上做評(píng)測(cè),因此我們選擇Market1501 數(shù)據(jù)集作為示例數(shù)據(jù)集.
本文挑選了近幾年比較有代表性的十余種基于深度學(xué)習(xí)的行人重識(shí)別方法,首先挑選頂級(jí)會(huì)議上發(fā)表且在當(dāng)時(shí)準(zhǔn)確度較高的方法.然后根據(jù)第3 節(jié)挑選出準(zhǔn)確度較高且方便歸類(lèi)的預(yù)印版文獻(xiàn)方法.為了方便比較,我們還挑選了一個(gè)可以代表最高準(zhǔn)確度的傳統(tǒng)方法和無(wú)監(jiān)督學(xué)習(xí)方法作為參考基準(zhǔn).
表4 總結(jié)比較了這十余種深度學(xué)習(xí)方法的性能、基本網(wǎng)絡(luò),并簡(jiǎn)單描述了算法特性和發(fā)表狀況.行人重識(shí)別最主要的兩個(gè)性能指標(biāo)是一選準(zhǔn)確率(rank-1)和平均準(zhǔn)確率(mAP).表格給出的結(jié)果均由論文中給出,一些代表性的算法沒(méi)有在Market1501 上進(jìn)行評(píng)測(cè)因此沒(méi)有展示.除非算法本身是基于重排序的研究,否則本文默認(rèn)都是使用歐氏距離的無(wú)重排序結(jié)果.為了方便比較,表格第一行給出了比較好的傳統(tǒng)方法的結(jié)果,作為傳統(tǒng)方法的基準(zhǔn).第二部分是強(qiáng)監(jiān)督的深度學(xué)習(xí)方法,可以看出基準(zhǔn)網(wǎng)絡(luò)里面ResNet50[69]、GoogleNet[70]和自定義的CNN 網(wǎng)絡(luò)使用較多,損失函數(shù)方面分類(lèi)損失和度量損失均可以取得很好的性能.在已經(jīng)發(fā)表的方法中,DML[28]、CamStyle[65]、GLAD[44]均取得了接近90.0% 的一選準(zhǔn)確率.而在還未接受的預(yù)印版文獻(xiàn)里,AlignedReID[43]、PNGAN[64]已經(jīng)超越了90.0% 的一選準(zhǔn)確率,代表了目前行人重識(shí)別領(lǐng)域Market1501 數(shù)據(jù)集的最高準(zhǔn)確度.在第三部分的無(wú)監(jiān)督學(xué)習(xí)方法方面,大部分無(wú)監(jiān)督學(xué)習(xí)方法都還是基于傳統(tǒng)特征的研究.而CVPR2018 剛接收的SPGAN[62]是比較具有代表性的基于深度學(xué)習(xí)的無(wú)監(jiān)督行人重識(shí)別方法,同時(shí)在Market1501 數(shù)據(jù)集上也擊敗了目前已有的無(wú)監(jiān)督學(xué)習(xí)方法.
總的看來(lái),基于深度學(xué)習(xí)的行人重識(shí)別方法近幾年來(lái)發(fā)展迅速,每年以大概15% 的一選準(zhǔn)確率速度在增長(zhǎng),并且各種方法百花齊放,并沒(méi)有哪種方法相比于其他方法存在巨大的優(yōu)勢(shì).而趨勢(shì)方面,方法從早期的單網(wǎng)絡(luò)單損失逐漸發(fā)展為現(xiàn)在的多損失多網(wǎng)絡(luò)以及多尺度多特征的融合,即一個(gè)由簡(jiǎn)到繁的發(fā)展過(guò)程.表4 給出的均是基于單幀圖像方法的結(jié)果,而基于視頻序列的方法目前還沒(méi)有特別多代表性的方法和結(jié)果,因此本文不再做整理.
行人重識(shí)別雖然近幾年取得了高速的發(fā)展,然而目前依然面臨著許多挑戰(zhàn).目前學(xué)術(shù)界已存的數(shù)據(jù)集是清理之后的高質(zhì)量圖像,然而在真實(shí)場(chǎng)景下行人重識(shí)別會(huì)遇到跨視角造成的姿態(tài)多變、分辨率變化、行人遮擋以及圖像域變化等問(wèn)題.這些問(wèn)題逐漸受到學(xué)者的重視,本小節(jié)將會(huì)簡(jiǎn)單介紹一些克服這些挑戰(zhàn)的代表性.
1)跨視角造成的姿態(tài)多變問(wèn)題:由于不同攝像頭架設(shè)的角度、位置不一,拍攝圖片中的行人姿態(tài)也十分多變.目前已經(jīng)有不少代表性的工作從不同角度上來(lái)解決這個(gè)問(wèn)題,而這些方法主要是依靠一個(gè)預(yù)訓(xùn)練的姿態(tài)模型來(lái)實(shí)現(xiàn)姿態(tài)的對(duì)齊.除了第3.3 節(jié)中介紹的GLAD 和SpindleNet 等工作以外,CVPR2018 提出的姿態(tài)敏感嵌入方法(Posesensitive embedding,PSE)[71].如圖12 所示,PSE利用一個(gè)預(yù)訓(xùn)練的姿態(tài)模型估計(jì)行人的姿態(tài)點(diǎn),然后將姿態(tài)點(diǎn)信息輸入到網(wǎng)絡(luò),網(wǎng)絡(luò)的視角分支會(huì)估計(jì)行人的朝向及其概率.另一方面,PSE 的特征分支分別得到前向、背向和側(cè)向三個(gè)視角的特征圖,之后與估計(jì)的視角概率加權(quán)得到最終的全局特征.通過(guò)使用對(duì)齊后的全局特征,可以更好地處理視角多變的行人圖片.
2)行人圖片分辨率變化:由于攝像頭中目標(biāo)拍攝距離不一致,拍攝的行人圖片分辨率也不一樣.目前專(zhuān)門(mén)解決這個(gè)問(wèn)題的方法較少,論文[72]提出了一個(gè)新的圖像超分辨和行人身份識(shí)別聯(lián)合學(xué)習(xí)(Super-resolution and identity joint learning,SING)的方法.如圖13 所示,SING 通過(guò)聯(lián)合學(xué)習(xí)圖片的超分辨率和行人重識(shí)別的問(wèn)題,既能夠提升低分辨率圖片的分辨率,又能提高低分辨率圖片行人重識(shí)別任務(wù)的準(zhǔn)確度.為了得到低分辨率的圖片,SING 先用高分辨率圖片降采樣得到一批低分辨率圖片.之后,網(wǎng)絡(luò)優(yōu)化聯(lián)合學(xué)習(xí)圖像超分辨的重構(gòu)損失和行人身份識(shí)別損失函數(shù).低分辨率圖片經(jīng)過(guò)網(wǎng)絡(luò)高分辨率處理后再進(jìn)行特征提取,而正常分辨率圖像則是直接進(jìn)行特征提取.由于不同分辨率的圖片經(jīng)過(guò)不同的方式提取特征,因此SING 網(wǎng)絡(luò)能夠較好地應(yīng)對(duì)分辨率變化的問(wèn)題.
表4 典型行人重識(shí)別方法在Market1501 上性能比較Table 4 Comparison of the performance of typical ReID methods on Market1501
圖12 PSE 網(wǎng)絡(luò)流程圖[71]Fig.12 The pipeline of PSE network[71]
圖13 圖像超分辨和行人身份識(shí)別聯(lián)合學(xué)習(xí)模型示意圖[72]Fig.13 Illustration of model structure of image super resolution and person identity joint learning[72]
3)行人圖片遮擋問(wèn)題:目前學(xué)術(shù)界的行人重識(shí)別數(shù)據(jù)集大多數(shù)清洗過(guò)的高質(zhì)量圖像.然而在真實(shí)的使用場(chǎng)景,行人經(jīng)常會(huì)被移動(dòng)目標(biāo)或者靜態(tài)物體所遮擋,造成行人圖片的不完整.由于失去了部分行人特征而引入了很多干擾特征,使得很多基于全局特征的行人重識(shí)別算法效果大大下降.為了解決這個(gè)問(wèn)題,一個(gè)思路是利用行人姿態(tài)模型來(lái)估計(jì)行人圖像的可視部分,然后對(duì)可視部分進(jìn)行局部特征提取、融合[18].而CVPR2018 的論文[73]提出深度空間特征重建方法(Deep spatial feature reconstruction,DSR)來(lái)進(jìn)行不完整圖片和完整圖片的匹配.如圖14 所示,DSR 利用一個(gè)訓(xùn)練好的ReID網(wǎng)絡(luò)對(duì)圖片進(jìn)行特征提取,并且不對(duì)原圖進(jìn)行尺度變換的操作.不同尺寸的圖片經(jīng)過(guò)網(wǎng)絡(luò)后得到不同尺寸大小的特征圖,而兩個(gè)不同尺寸的特征圖并不能直接地進(jìn)行相似度計(jì)算.為了解決這個(gè)問(wèn)題,DSR利用空間特征重建(Spatial feature reconstruction)的方法計(jì)算出兩幅特征圖之間的稀疏表達(dá)系數(shù).完整圖片的特征圖經(jīng)過(guò)乘以稀疏表達(dá)系數(shù)便可以與不完整圖片的特征圖進(jìn)行歐氏距離的度量.從而實(shí)現(xiàn)不同尺寸圖片的特征圖相似度的計(jì)算.
圖14 深度空間特征重建方法示意圖[73]Fig.14 Illustration of deep spatial feature reconstruction method[73]
4)圖像域變化的跨模態(tài)重識(shí)別.圖像域的變化是行人重識(shí)別應(yīng)用上非常普遍的一個(gè)挑戰(zhàn).圖像域變化的類(lèi)型也多種多樣,例如不同相機(jī)、不同天氣、不同時(shí)間、不同城市拍攝的圖像風(fēng)格均可能不同.此外,夜晚RGB 相機(jī)也會(huì)失效,使用紅外相機(jī)拍攝的圖片沒(méi)有顏色信息,因此RGB 圖片與紅外圖片的行人重識(shí)別也是個(gè)典型的跨模態(tài)問(wèn)題.目前基于GAN網(wǎng)絡(luò)生成圖像來(lái)解決圖像域偏差是一個(gè)很流行的思路,例如前文介紹的CamStyle 解決不同相機(jī)的圖像域問(wèn)題,PTGAN 解決不同城市的圖像域問(wèn)題.而RGB 與紅外圖片域的跨模態(tài)重識(shí)別問(wèn)題逐漸開(kāi)始受到關(guān)注,ICCV17 接受的一篇論文[17]提出了深度零填充模型(Deep zero padding model)首次利用深度網(wǎng)絡(luò)來(lái)解決這一問(wèn)題.如圖15 所示,該方法的核心思想是在網(wǎng)絡(luò)輸入圖片的時(shí)候,對(duì)于不同域的圖片在不同的通道上用零填充.零填充通道記錄了圖像來(lái)源于哪個(gè)圖像域的信息,促使深度網(wǎng)絡(luò)根據(jù)圖像域來(lái)自適應(yīng)提取不同的特征,從而實(shí)現(xiàn)更好的跨模態(tài)行人重識(shí)別.
圖15 深度零填充模型詳解[17]Fig.15 Explanation of deep zero padding model[17]
隨著深度學(xué)習(xí)的快速發(fā)展,近幾年行人重識(shí)別的發(fā)展也非常迅速.在最流行的數(shù)據(jù)集Market1501、CUHK03、DukeMTMC-ReID 上,最高的一選(rank-1)準(zhǔn)確率都達(dá)到了90%~95%.雖然這個(gè)準(zhǔn)確度離人臉識(shí)別還有一定距離,但是已經(jīng)有了超越人類(lèi)水平的趨勢(shì)[43].不過(guò)行人重識(shí)別技術(shù)要從學(xué)術(shù)研究走向成熟應(yīng)用,依然還有一些需要解決的問(wèn)題.關(guān)于未來(lái)的研究方向,我們認(rèn)為可以從以下幾個(gè)方面進(jìn)行考慮,并且給出了一些可能的解決思路:
1)構(gòu)建更加適應(yīng)真實(shí)環(huán)境的高質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)庫(kù):目前最大的行人重識(shí)別數(shù)據(jù)集依然在幾千個(gè)行人ID 的程度,這與人臉的百萬(wàn)級(jí)數(shù)據(jù)庫(kù)還有著一定差距.并且目前的數(shù)據(jù)集場(chǎng)景豐富度也不夠高,通常就是在一個(gè)環(huán)境下一個(gè)較短時(shí)間間隔采集的數(shù)據(jù).目前行人重識(shí)別數(shù)據(jù)集之間的偏差依然很大,而不同地域、空間、時(shí)間環(huán)境下的行人著裝也各有不同,一個(gè)數(shù)據(jù)集訓(xùn)練的網(wǎng)絡(luò)在另外一個(gè)數(shù)據(jù)集下性能會(huì)下降相當(dāng)多.只有足夠大的高質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)集的出現(xiàn),才能更好地證明算法的魯棒性.目前MSMT17數(shù)據(jù)集[19]和LVreID 數(shù)據(jù)集[20]將行人重識(shí)別的數(shù)據(jù)集進(jìn)一步擴(kuò)大.除此之外,一些基于GAN 的方法[19,62?65]也能夠生成一些接近真實(shí)場(chǎng)景下的圖片,來(lái)解決目前數(shù)據(jù)量較少的問(wèn)題.
2)半監(jiān)督、無(wú)監(jiān)督和遷移學(xué)習(xí)的方法:采集的數(shù)據(jù)終究是有限的,而標(biāo)注數(shù)據(jù)的成本代價(jià)也很高.因此半監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)的方法雖然在性能上可能比不上監(jiān)督學(xué)習(xí)方法,但是性?xún)r(jià)比很高.遷移學(xué)習(xí)也是一個(gè)值得研究的方向.行人重識(shí)別技術(shù)的應(yīng)用場(chǎng)景是無(wú)限的,針對(duì)于每一個(gè)使用場(chǎng)景都訓(xùn)練一個(gè)專(zhuān)用模型是非常低效的.如何通過(guò)遷移學(xué)習(xí)的方法將一個(gè)場(chǎng)景訓(xùn)練的模型適應(yīng)新的場(chǎng)景是一個(gè)有價(jià)值的研究問(wèn)題.而半監(jiān)督、無(wú)監(jiān)督以及遷移學(xué)習(xí)的深度學(xué)習(xí)行人重識(shí)別技術(shù)已經(jīng)有一些研究工作[25,50,74],不過(guò)還有很大的提升空間.
3)構(gòu)造更加強(qiáng)大的特征:提高行人重識(shí)別的性能主要是從特征提取和圖像檢索兩個(gè)角度切入.一些重排序技術(shù)可以用消耗時(shí)間為代價(jià)提高檢索準(zhǔn)確度[75],而一個(gè)好的特征可以更加經(jīng)濟(jì)提高性能.具體而言,行人重識(shí)別任務(wù)要想構(gòu)造一個(gè)更好的特征,需要網(wǎng)絡(luò)能夠關(guān)注到更加關(guān)鍵的局部信息,即更加合理的局部特征.而利用更加豐富的序列特征也是構(gòu)造特征的一個(gè)思路.
4)豐富場(chǎng)景下的行人重識(shí)別:目前行人重識(shí)別數(shù)據(jù)集以視野廣闊的室外場(chǎng)景為主,幾個(gè)包含室內(nèi)場(chǎng)景的數(shù)據(jù)集也能夠保證行人是完整的全身.但是在一些場(chǎng)景下,例如無(wú)人超市、商場(chǎng)、地鐵內(nèi)等,會(huì)存在非常多的半身圖片.而半身–半身、全身–半身的“部分”行人重識(shí)別技術(shù)便顯得非常重要,第一篇研究該問(wèn)題的深度學(xué)習(xí)論文已經(jīng)被CVPR2018 會(huì)議接受[73].而夜間光照不佳情況下的行人重識(shí)別也是一個(gè)值得研究的問(wèn)題.目前的主流思路還是用紅外相機(jī)在黑暗條件下采集圖片,隨之引申出來(lái)的是紅外行人重識(shí)別.紅外圖片幾乎只有輪廓,失去了顏色信息給重識(shí)別任務(wù)帶來(lái)了非常大的挑戰(zhàn).除了以上列舉的例子,其他場(chǎng)景的一些跨域行人重識(shí)別也值得關(guān)注.
5)深度網(wǎng)絡(luò)的可解釋性:雖然深度學(xué)習(xí)的方法在行人重識(shí)別任務(wù)上取得了很好的性能,但是在準(zhǔn)確度不斷被刷高的背后,很少有研究工作表明哪些信息對(duì)行人的識(shí)別影響更大.無(wú)論是全局特征還是局部特征,單幀圖像還是序列圖像,我們都在設(shè)計(jì)更加合理的網(wǎng)絡(luò)結(jié)構(gòu)或者網(wǎng)絡(luò)損失來(lái)學(xué)習(xí)更加有效的特征.然而,到底是顏色信息還是輪廓信息對(duì)識(shí)別影響更大,或者姿態(tài)如何對(duì)齊、光線如何矯正對(duì)性能提升更大我們都不甚明確.隨著深度學(xué)習(xí)可視化技術(shù)的提升,行人重識(shí)別網(wǎng)絡(luò)的可解釋性會(huì)在將來(lái)取得突破.
6)行人重識(shí)別與行人檢測(cè)、行人跟蹤的結(jié)合:目前大部分的方法是在已經(jīng)檢測(cè)出行人的先驗(yàn)條件下進(jìn)行的.但是這需要一個(gè)非常魯邦的行人檢測(cè)模型,如果行人重識(shí)別與行人檢測(cè)結(jié)合起來(lái),則更加符合實(shí)際的應(yīng)用需求.這方面的研究工作很少,ICCV2017 的一篇工作可以給予一定啟示[76].此外,行人重識(shí)別最直接的一個(gè)應(yīng)用便是跨攝像頭多目標(biāo)跟蹤(Multi-target multi-camera tracking,MTMC tracking).因此融合行人重識(shí)別和MTMC 跟蹤的問(wèn)題也是行人重識(shí)別研究未來(lái)的一個(gè)延伸.
行人重識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)熱門(mén)研究課題,而深度學(xué)習(xí)的發(fā)展極大地促進(jìn)了該領(lǐng)域的研究.近幾年的頂級(jí)會(huì)議ICCV、CVPR 和ECCV 上,每年都有十篇以上的行人重識(shí)別研究發(fā)表,并且絕大部分都是基于深度學(xué)習(xí)的工作.本文總結(jié)了近年來(lái)基于深度學(xué)習(xí)的行人重識(shí)別方法,從表征學(xué)習(xí)、度量學(xué)習(xí)、局部特征、視頻序列和GAN 網(wǎng)絡(luò)為切入點(diǎn),進(jìn)行了詳細(xì)的討論,并展望了該領(lǐng)域未來(lái)可能的研究方向.