錢錦浩 宋展仁 郭春超 賴劍煌 , 謝曉華 ,
目前,隨著 “智慧城市”和“平安城市”等項目建設,眾多公共場所均部署了大量的監(jiān)控攝像頭,形成了龐大的監(jiān)控攝像頭網絡.對這些攝像頭的內容進行關聯(lián)分析顯得越來越重要,這也是計算機視覺領域當前研究熱點之一.行人再識別(Person reidentification)技術旨在判斷跨攝像頭視域下的多個行人圖像是否來自同一行人[1].行人再識別技術能夠進一步應用于跨攝像頭下的目標追蹤、目標路徑分析以及目標搜索等問題.該技術實現(xiàn)了監(jiān)控視頻的智能關聯(lián)分析,其在智慧城市、公共安全、商業(yè)客流分析、城市安防和視頻圖像大數(shù)據(jù)處理等方面扮演極其重要的角色,具備非常廣泛的應用場景.
目前基于視頻圖像的行人再識別領域的研究工作主要分為兩個類別,分別是基于表征的方法以及基于度量學習的方法.這兩類方法分別旨在尋找識別性強的特征表達與學習特征間相似度度量,使得相同身份的行人之間的相似度較大,相異身份的行人之間的相似度較小.隨著深度學習技術的發(fā)展,以上兩類方法逐漸達成緊密結合.然而,這兩類方法的研究重點均聚焦于行人的表觀視覺信息.由于現(xiàn)實場景中的目標行人姿態(tài)變化多端,加之環(huán)境遮擋物的影響、拍攝角度和距離的改變以及光照的變化,監(jiān)控攝像頭拍攝的行人視頻圖像會呈現(xiàn)較大變化,這無疑為單純依靠視覺匹配的行人再識別帶來巨大挑戰(zhàn).
針對單純視覺識別的不足,研究人員開始應用各種上下文信息用于補充視覺匹配,比如視頻圖像采集的時空信息[2-4]、人群輔助[5-7]等.其中,人群輔助方法主要基于這種觀察:在實際人流中經常存在相對穩(wěn)定的小群體,這種群體也許是互相認識的同伴,也許是由于某些特殊原因形成相同時空軌跡的陌生人小群體(譬如在火車站相同班次到站的人群).這種相對穩(wěn)定小群體對特定行人的再識別具有積極的輔助作用.
根據(jù)上面分析,本文將人群定義為一個時間窗口內從同一攝像頭下經過的行人集合.基于此定義,本文提出了一種結合表觀特征與行人時空共現(xiàn)模式的行人再識別方法.所提方法把現(xiàn)實中行人之間的時空聯(lián)系看作是一種共同出現(xiàn)的模式狀態(tài)作為上下文信息來輔助行人相似度的計算.本文在行人再識別兩個權威的公開數(shù)據(jù)集Market-1501[8]和Duke-MTMC-ReID[9]上對該方法的有效性進行了實驗驗證.
視覺行人再識別技術狹義上包括對行人的特征表達以及行人的跨攝像頭匹配.因此行人再識別相關的絕大部分研究主要側重于兩個方面:行人視覺特征表達和度量學習.本節(jié)簡要介紹這兩類研究成果,同時介紹采用人群輔助行人再識別的相關方法.
行人圖像的特征表達方法逐漸從手工設計特征向深度學習特征過渡.手工設計特征主要有顏色特征、紋理特征、屬性特征、形狀和關鍵點特征等.其中顏色特征[10]是描述行人最為簡單、直觀的特征,主要包含顏色名稱和基于統(tǒng)計特性的顏色直方圖.顏色名稱特征使用具體的顏色名稱作為特征,物理意義明確,表達簡潔高效.行人圖像的紋理特征是描述行人表面性質的統(tǒng)計特征,具有較強的抗噪性質與旋轉不變性.行人再識別中常用的紋理特征有Gabor 特征[11]、局部二值模式特征[12](Local binary pattern,LBP)和Schmid 特征[13]等.形狀和關鍵點特征是通過圖像的形狀特征與關鍵點的信息來描述局部的特征,主要包含方向梯度直方圖特征[14](Histogram of oriented gradient,HOG)、尺度不變特征變換特征[15](Scale invariant feature transform,SIFT)和加速魯棒特征[16](Speeded up robust features,SURF).描述行人圖像的屬性特征[17-19]是更加接近人類的認知方式,其作為輔助信息提升了行人再識別算法模型的泛化能力.屬性特征一般包括生物屬性、附屬物品屬性和服裝屬性特征等,如行人圖像的發(fā)型、性別、著裝、是否攜帶背包等.
得益于深度卷積神經網絡的發(fā)展,深度學習成為行人視覺特征學習的基準算法.深度學習特征是行人圖像的多層抽象語義特征,對行人圖像有著更加精確的表達.近年來行人再識別在新任務和新方法上都取得了不錯的進展,例如Chen 等[20]提出使用分類子網絡與驗證子網絡相結合進行訓練網絡;Jing 等[21]提出了一種半耦合低秩判別字典學習方法(Semi-coupled low-rank discriminant dictionary learning,SLD2L)用于超分辨率行人再識別;Ma 等[22]提出一種不對稱的視頻內投影半耦合字典對學習方法(Semi-coupled dictionary pair learning,SDPL)用以解決彩色到灰色視頻行人再識別問題;Zhu 等[23]提出了一種基于視頻行人再識別的視頻內和視頻間同步遠程學習方法(Simultaneously learning intra-video and inter-video distance metrics,SI2DL);Zhang 等[24]提出多尺度時空注意力(Multi-scale spatial-temporal attention,MSTA)模型,著重于在空間和時間兩方面挖掘每幀局部區(qū)域對整個視頻表示的重要性;Wu 等[25]利用位姿對齊連接和特征親和連接構造自適應結構感知鄰接圖,并通過圖神經網絡學習高判別性特征;Wang 等[26]利用時間差信息提出一種既挖掘視覺語義信息又挖掘時空信息的雙流時空行人再識別框架.與已有大多數(shù)方法不同,本文不側重于表觀或者時序運動特征的提取,而關注利用目標行人的鄰域行人分布信息來輔助行人相似度計算.
度量學習即通過找到一種度量行人特征間相似度的準則,使得相同身份的行人之間的相似度較大,相異身份的行人之間的相似度較小.基于度量學習的方法在損失函數(shù)上體現(xiàn)為相同身份的行人圖像對之間的距離小于不同身份行人圖像對之間的距離.常用的度量學習損失函數(shù)主要有對比損失[27]、三元組損失[1,28-29]、困難樣本三元組損失[30-31]、四元組損失[32]以及邊界挖掘損失[33]等.
除了表征學習和度量學習,部分研究者嘗試利用人群作為輔助信息來增強行人再識別的準確率.在文獻[5]中,作者提出運用行人群體匹配來輔助個體匹配,著重研究了在同一圖像上的人群的視覺描述子.然而在實際中,由于攝像頭視域的限制,特定人群的行人未必會同時出現(xiàn)在同一視頻幀上,可能隨著時間依次出現(xiàn)于監(jiān)控畫面.因此,本文考慮的人群范圍比文獻[5]中的人群范圍更廣.除此之外,有研究者提出將人群作為一個弱標注信息并應用于弱監(jiān)督學習行人再識別方法中[6-7].上述方法都將人群定義局限于共同出現(xiàn)在同一視頻幀的行人組合,且重點關注目標行人與人群的從屬關系.本文所提方法所定義人群允許跨視頻幀出現(xiàn),且重點關注目標行人與人群中其他個體成員的時空關系,具有更廣泛的應用背景和更精確的時空特征刻畫.
在一些特定的場景,比如車站、校道、街道等,行人在行走過程中的路線存在一致性.在這樣情況之下,特定行人身邊會形成相對穩(wěn)定的人群,本文稱之為行人鄰域.通常情況下,同一行人的鄰域具有相對穩(wěn)定的時空分布結構,不同行人的鄰域則存在著一定的差異性.自然而然地,相對穩(wěn)定的行人鄰域會對特定行人關聯(lián)匹配起到一定的輔助作用.基于此,本文提出基于行人鄰域的行人時空共現(xiàn)模式方法來輔助視覺行人再識別.給定兩個待匹配行人的圖像,其相似度取決于視覺表觀特征與時空共現(xiàn)模式.若兩者之間的行人鄰域共現(xiàn)模式越相似,則兩者越可能具有相同的身份.圖1 是結合行人時空共現(xiàn)模式與視覺表觀的行人匹配示意圖.實際上,Zheng 等[5]已經意識到人群對行人識別的輔助作用,并最早提出了人群視覺描述子以及匹配方法.該方法把人群限制在同一視頻幀內出現(xiàn).此外,有研究人員提出將人群作為監(jiān)督信息從而發(fā)展出弱監(jiān)督學習的行人再識別方法[6-7].上述方法將人群定義為共同出現(xiàn)在同一視頻幀內的行人.然而在實際中,人群是移動的,同人群的不同個體未必會同時出現(xiàn)在同一個視頻幀,但是會出現(xiàn)在同一個時間窗口內的多幀照片,因此本文提出用特定時間窗口內的行人集合來定義人群更具合理性.下文介紹相關技術細節(jié).
圖1 行人時空共現(xiàn)模式輔助視覺匹配示意圖(每個圓角矩形框代表一個攝像頭視域,虛線框指定目標行人,其他行人表示目標行人在相應視域內的鄰域)Fig.1 Illustration of spatiotemporal co-occurrence pattern aided pedestrian matching (Each rounded rectangle box represents a camera field.The dotted box specifies the target pedestrian,and other pedestrians indicate the target pedestrian's neighborhood in the corresponding view field)
行人視覺特征提取可由任何一種行人表征方法實現(xiàn).本文采用一種基于行人全局特征的開源模型SphereReID[34]作為基準網絡模型,這是目前被最廣泛應用的行人特征提取基準網絡模型之一,其中骨干網絡使用殘差網絡(ResNet50)[35].在訓練時采用三元組損失函數(shù)約束,并采用學習率啟動策略[36]、隨機擦除數(shù)據(jù)增強[37]、標簽平滑[38]、移除最后一層下采樣層[39]、對全局特征進行批歸一化[40]等策略.相關實驗細節(jié)將在第3.2 節(jié)實驗設置中詳細說明.
行人時空共現(xiàn)模式是行人匹配中視覺表觀特征的補充信息,其需要確定目標行人的行人鄰域集合,并對該鄰域進行匹配.本節(jié)主要介紹行人時空共現(xiàn)模式的建模過程.其中第2.3.1 節(jié)中介紹行人鄰域的確定方式,第2.3.2 節(jié)中介紹基于鄰域行人匹配的詳細過程.
2.3.1 行人鄰域的確定
本文考慮的目標行人的鄰域為一個指定時間窗口內(以目標行人出現(xiàn)時間為時間窗口的中點),從同一攝像頭下經過的行人集合,人群中的不同行人可以跨視頻幀出現(xiàn).本文把一個人群中行人之間的時空聯(lián)系看作一種行人共同出現(xiàn)的模式狀態(tài).具體實驗中,使用時間戳信息確定目標行人的行人鄰域.通過預先設定時間差閾值,檢索行人庫中與目標行人圖像的時間戳差值小于設定閾值的所有行人圖像,并把返回的行人圖像組成目標行人的鄰域.顯然,根據(jù)這種方式提取的行人鄰域中很有可能包含目標行人的多幀圖像.為了專注于對鄰域行人的分析,需要刪除鄰域內與目標行人具有相同身份的行人圖像,但保留其他身份行人的多幀圖像.多幀圖像可以提供同一個人的豐富視覺信息,更加有利于跨攝像頭下的人群時空關聯(lián)分析.具體地,首先計算目標行人與鄰域內所有行人圖像的相似度.其次,剔除鄰域內與目標圖像的相似度分數(shù)大于預定閾值的行人圖像.
實際上,我們也可以考慮使用非極大值抑制方法對行人鄰域中相同身份的行人進行圖像去重,即對鄰域內每個身份行人(包括目標行人)只選取有代表性的一張圖像進行保留.本文后面提供的實驗結果將表明使用非極大值抑制方法效果并不如前面介紹的處理方法.因此,本文在確定行人鄰域上保留鄰域行人中相同身份行人的多幀圖像.
2.3.2 基于鄰域的行人匹配
本節(jié)討論如何基于鄰域度量兩個行人(如q和g) 之間的相似度.用Q={q1,···,qn}表示q的行人鄰域;用G={g1,···,gm}表示g的行人鄰域.首先我們討論如何計算鄰域Q和G間的相似度.一種自然的想法就是倘若兩個行人鄰域內擁有相同身份的行人越多,則這兩個行人鄰域越相似.
行人鄰域圖像匹配偽代碼在算法1 中給出.對于Q中的每一個qi與G中的每一個gi,首先經過表觀特征提取網絡獲取每張行人圖像的表觀特征表示,再利用相似度度量函數(shù)計算得到它們之間的表觀特征相似度Sapp(qi,gi) .對于每一個qi,記錄G中與qi的最相似行人的相似度si-max,若該相似度大于給定的相似度閾值θ,則加入匹配圖像對的相似度集合S.
經過如上處理,可以從Q和G之間比較返回具備相同身份的圖像對.值得注意的是,這種匹配結果可能出現(xiàn)Q中多個qi與G中相同的gi形成匹配,這主要是由于保留了鄰域中同一個行人多幀圖像所造成的.但是上述問題并不會對鄰域間的匹配造成困擾,因為一對多的匹配本質上是相同身份行人的多次匹配.假設這種配對的圖像有k對,記他們之間 的相似度為S={s1,···,sk},S的均值Senh=,則可以作為兩個鄰域G和Q之間的相似度度量.對相似度集合S求均值的主要目的是為了平衡相同身份行人的多次匹配問題.
另記q和g的表觀相似度為Sapp(q,g),則q和g的最終 相似度Sfin(q,g) 由Sapp和Senh加權獲得,即
其中λ為加權系數(shù).
我們在行人再識別的權威數(shù)據(jù)集Market-1501[8]和DukeMTMC-ReID[9]上對所提方法的性能進行評估,包括與其他主流方法的對比、消融實驗以及模型參數(shù)敏感度分析.
Market-1501[8]數(shù)據(jù)集包含1 501 個行人在6 個攝像機下拍攝的32 668 張行人圖像.其中,訓練集包含751 個不同身份行人的12 936 張圖像;測試集由查詢行人庫和模板行人庫兩部分組成,包含750個不同行人共計19 732 張圖像.對750 個行人,在每個攝像機下隨機選擇1 張圖像組成查詢行人庫.一共有3 368 張行人圖像,其余的則作為模板庫.每張行人圖像由可變形部件模型(Deformable parts model,DPM)[41]檢測得到行人矩形框.
DukeMTMC-ReID[9]數(shù)據(jù)集由8 個攝像機記錄而成,其包含出現(xiàn)在2 個以上攝像機的1 404 個不同行人,以及僅僅在1 個攝像機出現(xiàn)的408 個行人(干擾者)共計36 411 張圖像.訓練集包含702 個行人共計16 522 張圖像,測試集由剩下702 個行人組成.查詢行人庫由在測試集中的每個行人在每個攝像機下選取1 張圖像組成,共計2 228 張查詢圖像;測試集中余下的行人圖像以及408 個干擾行人的圖像共同組成測試的模板行人庫,共17 661 張行人圖像.Market-1 501和DukeMTMC-ReID 數(shù)據(jù)集中的每張圖像都包含了自身的身份信息、攝像機的ID和視頻序列編號時間戳信息.
本節(jié)實驗使用累積匹配曲線(Cumulative match characteristic,CMC)和平均精度均值(mean average precision,mAP)對本文中涉及的行人再識別模型的性能進行量化評價.其中CMC反映檢索精度,mAP 反映召回率.本文以rank-1的得分來代表CMC 曲線,其中rank-1 是檢索結果中首位候選的準確率.mAP 是所有查詢平均精度的平均值,其中每個查詢的平均精度(Average precision,AP)是根據(jù)其精度召回曲線計算.
本文實驗基于被廣泛使用的開放源碼Open-ReID1下載地址:https://github.com/Cysu/open-reid,采用SphereReID[34]作為表觀特征提取算法,使用在ImageNet[42]上預訓練的ResNet50 模型作為基礎網絡,并將全連接層的維度改為數(shù)據(jù)集中的行人身份總數(shù).在訓練階段,每個批訓練樣本包含64 張行人圖像,其中每個行人4 張圖像,共16個行人.每個行人圖像統(tǒng)一裁剪為256×128 的分辨率,并以0.5 概率水平翻轉進行樣本增廣.
基準網絡訓練過程如下:每張圖像經過基準網絡模型可得到分辨率為16×8 的全局特征圖;在空間維度上,對全局特征圖進行平均池化可得到行人圖像的特征向量表示.根據(jù)特征向量計算三元組損失;而后對特征向量進行批歸一化處理再計算身份損失.算法模型使用自適應矩估計(Adaptive moment estimation,ADAM)優(yōu)化器進行優(yōu)化,一共進行100 輪迭代優(yōu)化.優(yōu)化器的初始學習率設置為0.00035,在第40、70 輪迭代分別降低為原本學習率的0.1 倍.此外,為了驗證本文方法在不同表征能力的基準網絡的泛化性能,我們通過采用不同的訓練策略來產生兩種基準網絡進行實驗,即通過采用行人再識別領域先進的訓練策略來增強基準網絡的表征能力.這些訓練策略包括隨機擦除數(shù)據(jù)增強[37]、標簽平滑[38]、移除最后一層下采樣層[39]、對全局特征進行批歸一化[40].
3.3.1 與主流行人再識別算法的比較
本節(jié)將本文所提方法與當前主流的行人再識別方法進行性能實驗比較.參與對比的方法涵蓋了手工特征和學習特征,部分采用到行人姿態(tài)估計、行人掩模分割、注意力機制、生成對抗網絡等最先進技術.其中基于手工特征的算法模型有詞袋模型[8](Bags of words and keep-it-simple-and-straightforward metric,BoW+kissme)、核局部費希爾判別分類器[36](Kernel local Fisher discriminant classifier,KLFDA)、Null space[43]和加權近似秩分量分析[44](Weighted approximate rank component analysis,WARCA);基于姿態(tài)估計的算法包括全局局部對齊描述子[45](Global-local-alignment descriptor,GLAD)、姿勢不變嵌入向量[46](Pose-invariant embedding,PIE)和姿勢敏感嵌入向量[47](Pose-sensetive embedding,PSE);基于掩模的算法有語義解析行人再識別[48](Semantic parsing person re-identification,SPReID)和基于掩膜的行人再識別[49](MaskReID);基于局部特征學習的算法包括AlignedReID[50]、時空平行網絡[51](Spatialchannel parallelism network,SCPNet)、基于分部卷積基線模型[40](Part-based convolutional baseline,PCB)、Pyramid[52]和Batch dropblock[53];基于注意力機制的算法有多任務注意力機制循環(huán)采樣網絡[54](Multi-task attentional network with curriculum sampling,MANCS)、雙注意力機制匹配網絡[55](Dual attention matching network,Du-ATM)和和諧注意力機制網絡[56](Harmonious attention network,HA-CNN);基于生成對抗網絡(Generative adversarial network,GAN)的模型有Camstyle[57]和姿態(tài)標準化生成對抗網絡[58](Posenormalized generative adversarial network,PNGAN);基于全局學習特征的算法包括多目標多攝像機追蹤與再識別[59](Multi-target multi-camera tracking and re-identification,MTMCReID),矩陣分解網絡[60](SVDNet),視角不變行人再識別[61](Viewpoint invariant pedestrian recognition,IDE)和對比注意力機制網絡[1](Comparative attention networks,CAN).
表1 展示了不同算法在Market-1501和Duke-MTMC-ReID 數(shù)據(jù)集上的實驗結果.在數(shù)據(jù)集Market-1501 中,本文方法取得了96.2 %的rank-1準確率以及89.2 %的mAP;在數(shù)據(jù)集DukeMTMC-ReID 中,本文方法取得89.2 %的rank-1 準確率及80.1 %的mAP.本文提出的方法比現(xiàn)有主流的行人再識別算法具有較大的性能提升,表明行人時空共現(xiàn)模式的方法充分挖掘了行人的上下文特征,有效提高了行人再識別的準確性.此外,本文方法只使用了全局特征而沒有利用局部特征,姿態(tài)估計和掩模等額外信息,但本文方法的準確率卻能超越上述方法,表明行人時空共現(xiàn)模式方法是除了視覺表觀特征以外強有力的輔助方法.
表1 本文方法與主流算法在Market-1501、DukeMTMC-ReID 數(shù)據(jù)集上實驗結果比較 (%)Table 1 Comparison with state-of-the-arts on Market-1501 and DukeMTMC-ReID data sets (%)
3.3.2 行人時空共現(xiàn)模式消融實驗
為驗證行人時空共現(xiàn)模式對行人視覺特征在行人再識別上的輔助作用,我們采用兩種基準網絡進行了消融實驗.兩種基準網絡采用的是相同的基干網絡,但是采用的訓練技巧不同.表2 給出了消融實驗結果,其中 “基準網絡模型(*)” 表示在訓練網絡的時候使用了近年來行人再識別中采用的先進訓練策略,包括隨機擦除數(shù)據(jù)增強[37]、標簽平滑[38]、移除最后一層下采樣層[39]、對全局特征進行批歸一化[40].“基準網絡模型” 則表示沒有采用這些策略.
表2 用不同基準網絡模型在數(shù)據(jù)集Market-1501和DukeMTMC-ReID 上的消融實驗 (%)Table 2 Ablation experiment for proposed method on Market-1501 and DukeMTMC-ReID data set on different baseline network models (%)
表2 實驗結果表明采用了行人時空共現(xiàn)模式進行行人匹配輔助之后,與基準視覺特征模型相比,所提方法在Market-1501 的rank-1 準確率上升了4.6 % (從86.7 %升至91.3 %),mAP 上升了4.4 %(從71.7 %升至76.1 %).在DukeMTMC-ReID 數(shù)據(jù)集上,rank-1 準確率上升了3.0 % (從76.4 %升至79.4 %),mAP 上升了3.3 % (從60.9 %升至64.2 %).由此可見,行人時空共現(xiàn)模式方法對增強行人再識別起到積極的作用.采用了先進的訓練策略后,提升照樣很明顯,在Market-1501 的rank-1 準確率上升了1.8 % (從94.4 %升至96.2 %),mAP 上升了3.8 % (從85.4 %升至89.2 %).在DukeMTMCReID 數(shù)據(jù)集上,rank-1 準確率上升了2.6 % (從86.6 %升至89.2 %),mAP 上升了4.6 % (從75.5 %升至80.1 %).綜合表2 的結果,行人時空共現(xiàn)模式方法在表征能力強弱不等的基準網絡中均能帶來穩(wěn)定的提升,說明了本文方法具備良好的泛化性能.
3.3.3 模型參數(shù)敏感性分析
為了探究行人時空共現(xiàn)模式方法中重要參數(shù)的影響,本論文針對所提方法涉及的4 個重要參數(shù)在數(shù)據(jù)集DukeMTMC-ReID 上進行了敏感性分析實驗.其中,行人鄰域的時間差閾值參數(shù)δ的范圍從1 400幀到2 700 幀;行人鄰域后處理的相似度閾值θ1以及行人鄰域匹配的相似度閾值θ2的變化范圍從0.5到0.65;衡量加強相似度分數(shù)重要程度的比例系數(shù)λ參數(shù)范圍從0.1 到0.16.實驗結果由圖2 可知,4個參數(shù)都對模型的性能產生影響,其中時間差閾值參數(shù)δ的影響最為顯著.由于時間差閾值δ會直接影響行人鄰域的范圍,因此當時間差閾值δ取值過小,行人鄰域沒有足夠的上下文信息輔助目標行人的匹配;隨著時間差閾值δ增大至一定范圍內,行人時空共現(xiàn)模式方法的優(yōu)勢得以體現(xiàn).實驗結果表明,當參數(shù)在合理的范圍內,本文方法對于參數(shù)的選擇不敏感.本文提出的行人再識別算法模型的參數(shù)配置為δ=2 500,θ1=0.55,θ2=0.6,λ=0.13 .
圖2 超參數(shù)對模型性能的影響,縱坐標為rank-1 準確率Fig.2 Influence of hyper-parameters on model performance (rank-1 accuracy)
3.3.4 行人鄰域圖像去重策略探究
在第2.3.1 節(jié),我們討論了對行人鄰域進行后處理的方法,其中主要有非極大值抑制方法以及僅僅剔除與目標行人具有相同身份的行人圖像兩種方法.本節(jié)通過實驗比較兩種策略的優(yōu)劣性,實驗結果如表3 所示.
表3 不同行人鄰域后處理策略在Market-1501和DukeMTMC-ReID 數(shù)據(jù)集性能比較Table 3 Comparison of different post-processing strategies for pedestrian neighborhood on Market-1501 and DukeMTMC-ReID datasets
在Market-1501和DukeMTMC-ReID 上的實驗結果表明,本文使用的方法在rank-1 準確率、mAP 等各項指標上都超過非極大值抑制方法,其中DukeMTMC-ReID 上rank-1 準確率提升了1.3 %(從87.9 %到89.2 %),mAP 提升了1 % (從79.1 %到80.1 %).實驗充分證明了,保留鄰域中同一行人的多幀圖像可以提供更豐富的視覺信息以用于行人匹配.因此,本文采用保留鄰域中同一行人的多幀圖像的處理方法.
在某些公共場合,行人在行走過程中偶爾會在一段持續(xù)時間內處于某個特定小群體,這為行人匹配提供了一種特殊的上下文信息,可以用于加強行人再識別.基于此,本文提出一種結合行人表觀特征跟行人時空共現(xiàn)模式的行人再識別算法.在行人再識別兩個權威公開數(shù)據(jù)集Market-1501和DukeMTMC-ReID 上的實驗驗證了所提算法的有效性.未來可以繼續(xù)將行人時空共現(xiàn)模式應用于行人再識別無監(jiān)督或弱監(jiān)督學習方法上.