祁 磊, 于沛澤, 高 陽
(計算機軟件新技術國家重點實驗室(南京大學),江蘇 南京 210023)
近年來,隨著社會安防意識增強和科學技術的進步,城市中監(jiān)控攝像頭的數(shù)量越來越多.這些監(jiān)控系統(tǒng)往往部署在寫字樓、校園、商場、大大小小的街道和社區(qū)等各種各樣的場所,在安防領域起到了重要的作用.例如:當某地發(fā)生偷竊事件時,公安機關或安保部門可以通過監(jiān)控記錄來獲取偷竊者出現(xiàn)的時間及行蹤軌跡等重要信息.不過對于監(jiān)控中記錄的視頻數(shù)據(jù),當前大多數(shù)情況都是通過人工的方式來進行查看、分析,工作量非常大且效率非常低.換句話說,通過人工的方式對多個攝像頭中的內(nèi)容進行關聯(lián),是一項非常耗時的工作.
隨著人工智能技術的發(fā)展,許多曾經(jīng)需要人來執(zhí)行的任務都可以通過人工智能技術來實現(xiàn),甚至在某些任務上機器比人完成得更加精確.例如在大規(guī)模圖像數(shù)據(jù)集ImageNet[1]上,機器對于圖像的分類任務遠遠比人更精確,并且識別速度比人更快速.計算機視覺技術能夠幫助我們有效地利用現(xiàn)有的大規(guī)模圖像或視頻數(shù)據(jù),并進行分析和理解.對于監(jiān)控視頻數(shù)據(jù)而言,行人是其主要的目標對象之一.目前,行人檢測技術、行人跟蹤技術和行人重識別技術(person re-identification,簡稱Re-ID)已經(jīng)在學術界和工業(yè)界受到了廣泛的關注.相對于行人檢測技術和行人跟蹤技術,行人重識別技術起步較晚,近些年才逐漸得以關注.傳統(tǒng)的檢測和跟蹤技術只關注在一個視頻中的行人目標,而行人重識別技術則關注多個視頻中的行人之間的關聯(lián)性,即旨在將多個不同的攝像頭下的同一個行人目標進行關聯(lián).如圖1 所示,實現(xiàn)一個完整的行人重識別系統(tǒng),應當包括行人檢測[2-4]、行人跟蹤[5]和行人重識別[6,7]技術這3 個模塊.
從技術層面來講,行人重識別是用某個查詢圖像(query image)在一個大的圖像數(shù)據(jù)庫(gallery set)中檢索和匹配相關圖像的任務,也可以看作是一種只針對行人圖像的圖像檢索(image retrieval)任務,如圖2 所示,其目標是希望獲得具有判別性的特征來區(qū)分相同身份和不同身份的行人圖像.因此,在行人重識別問題中,絕大部分工作都是關注在怎樣獲取具有判別性的特征上.由于行人圖像來自多個不同的攝像頭,因此該問題的研究在現(xiàn)實應用中面臨著許多挑戰(zhàn),包括不同攝像頭下圖像的光照條件、分辨率、視角以及行人姿態(tài)等各方面差異.
當前,該領域的大部分工作都關注在有監(jiān)督場景下的行人重識別問題.然而在現(xiàn)實中,行人重識別的數(shù)據(jù)標注工作往往需要花費大量的人力和財力,特別是對跨攝像頭間的行人數(shù)據(jù)進行關聯(lián)的這一步驟.并且在當前深度學習時代,大部分方法都是依賴大規(guī)模的有標記數(shù)據(jù)來訓練一個深度模型.而數(shù)據(jù)標注的高成本使得有監(jiān)督的方法難以擴展到現(xiàn)實應用中,這也是阻礙行人重識別技術能夠真正落地的一大因素.另一方面,在現(xiàn)實中我們能夠輕松獲得大量無標記的行人數(shù)據(jù).因此在行人重識別問題的研究中,如何使用少標記的大規(guī)模圖像數(shù)據(jù)來訓練得到魯棒的模型,具有重大的研究價值和意義.
目前,大部分行人重識別領域的工作主要集中在有監(jiān)督場景下相關算法的研究.早些年,一些研究者主要致力于提取魯棒的特征來強化行人特征的判別性[8-12],也有一些研究者主要關注在學習方法上,例如設計更好的度量方法,以使其更容易地識別相同的人并區(qū)分不同的人[13-16],或者通過學習公共的子空間或字典來消除不同攝像頭視角之間的差異[17-19].近些年,深度學習技術不斷發(fā)展,特別是其在機器視覺應用領域取得了巨大成功,新提出的行人重識別方法基本上都是基于深度學習的.其中,一些研究工作使用注意力機制的方式來提高行人重識別模型的泛化能力[20-28],也有一些研究工作通過設計損失函數(shù)來提升行人重識別模型的性能[29-31].最近也出現(xiàn)了一些基于局部的學習方法[32-35],該類方法雖然簡單,但是可以獲得更具有判別性的特征,在行人重識別任務上取得了較優(yōu)的性能.雖然在有監(jiān)督場景下行人重識別問題已經(jīng)有了突破性的進展,但是有監(jiān)督場景下的學習不利于行人重識別模型很好地泛化到其他場景下,因此考慮在深度學習需要大量的有標記數(shù)據(jù)參與訓練的背景下,研究弱監(jiān)督場景下的少標記學習,在行人重識別任務中具有重大的意義與價值.
考慮到計算機視覺任務的相關應用在現(xiàn)實場景的落地需求,少標記學習在學術界和工業(yè)界漸漸受到關注.基于行人重識別任務,本文將少標記學習問題分為無監(jiān)督的場景和半監(jiān)督的場景,其更具體的場景分類如圖3所示.
以下主要對當前存在的弱監(jiān)督場景下的行人重識別方法進行總結、分類和對其性能進行分析.
在深度學習時代之前,絕大部分無監(jiān)督的方法主要借助傳統(tǒng)的領域自適應方法來學習共享的模型參數(shù)[36]、公共的子空間[37]或字典[38].這些方法沿用了傳統(tǒng)的領域自適應方法的數(shù)據(jù)設定,即在訓練中可以使用有標記的源域數(shù)據(jù)(source domain)和無標記的目標域數(shù)據(jù)(target domain)來進行模型參數(shù)的學習.除了該設定之外,也有一些方法只使用無標記的數(shù)據(jù).例如一些研究者使用無監(jiān)督的方式訓練并學習一個字典[39,40],也有一些研究者通過無監(jiān)督的方式學習一些具有判別性的特征[41,42].
隨著深度學習技術的廣泛應用,近年來也出現(xiàn)了一些基于深度學習的無監(jiān)督行人重識別方法.本文將這些方法劃分為5 類:基于偽標記的方法、基于圖像生成的方法、基于實例分類的方法、基于領域自適應的方法和一些其他方法.在大部分無監(jiān)督深度行人重識別方法中,一般會使用有標記的源域樣本和無標記的目標域樣本進行訓練模型,其中:基于偽標記的方法和基于實例分類的方法一般使用有標記的源域的數(shù)據(jù)進行模型預訓練,然后使用無標記的目標域數(shù)據(jù)進行無監(jiān)督學習;基于圖像生成的方法一般通過將源域中的圖像轉(zhuǎn)化成目標域風格的圖像,然后再使用這些圖像來訓練模型;基于領域自適應的方法旨在減少領域間數(shù)據(jù)分布的差異,通過特征的層級來對齊源域和目標域的數(shù)據(jù)分布,以將源域中的判別性信息遷移到無標記的目標域中.
偽標記方法在無監(jiān)督學習中有著廣泛的應用,其主要思想是為無標記的數(shù)據(jù)產(chǎn)生高質(zhì)量的偽標記來訓練和更新神經(jīng)網(wǎng)絡,如圖4 所示.Yu 等人[43]提出了一種基于軟的多標記學習的方法來解決無監(jiān)督行人重識別問題,該方法通過借助有標記的輔助數(shù)據(jù)集來生成代理標簽.具體地,通過在輔助數(shù)據(jù)集上為每一個類別產(chǎn)生一個代理(可以將其視為聚類中心),然后針對每個無標記的樣本計算它們與這些代理的相似性并生成一個相似性向量(即軟的多標記),進而判斷兩個無標記樣本的相似性.例如:如果兩個無標記數(shù)據(jù)生成的軟的多標記相似,則它們大概率屬于相同的行人.另外,根據(jù)無標記數(shù)據(jù)原始特征的相似性,該方法挖掘了難的負樣本對(即屬于不同的人但外表比較相似的樣本對).該方法最終由以下3 種損失同時優(yōu)化:(1) 軟的多標記學習旨在將無標記數(shù)據(jù)中潛在相同的人盡可能拉近,難的負樣本對盡可能推遠;(2) 軟標記分布的一致性學習旨在將不同視角下的軟標記分布盡可能變成相同的分布;(3) 代理樣本的學習旨在找出合適的代理,以對有標記的輔助數(shù)據(jù)集中的每一個類別(即每一個人)進行表示.
Yang 等人[44]提出了基于分塊的判別性特征學習方法,該方法由以下兩個模塊構成:(1) 基于塊的特征學習,該模塊基于分塊網(wǎng)絡將得到的相似圖像塊拉近,不相似的圖像塊推遠;(2) 圖像層級的塊的特征學習,該模塊將原始圖像通過隨機圖像轉(zhuǎn)化的方法[45]對其風格進行一定程度的轉(zhuǎn)化,然后得到對應的正樣本對,而對于負樣本的選擇則采用循環(huán)排序的方法挖掘困難的負樣本(即對于一個查詢樣本得到的排序結果,將這些結果中的圖像依次作為查詢圖像重新得到一個排序列表,然后根據(jù)列表中圖像的重疊度來判斷該查詢圖像和排序列表中的圖像是否屬于一個人),最后,基于生成的正負樣本對進行塊的三元組損失的計算和優(yōu)化.Wang 等人[46]在有標記的源域上引入屬性語義信息和身份判別信息分別訓練兩個不同的分支網(wǎng)絡,并使用一個自編碼網(wǎng)絡將身份信息從身份分支遷移到屬性分支.而對無標記的目標域數(shù)據(jù),采用在有標記的源域上訓練好的屬性分支來生成屬性的偽標記信息,再使用這些帶有偽標記信息的目標域數(shù)據(jù)來更新網(wǎng)絡.在測試階段中,作者使用屬性分支的特征作為最終的特征.Lv 等人[47]提出使用攝像頭的時空信息來提升生成正確的正樣本對的概率,然后基于這些融合時空信息的正負樣本對進行模型的訓練和更新.在框架中,作者提出了一種基于貝葉斯推斷的融合模型,該模型能夠有效地將時空信息融入到樣本的相似性度量中.
近年來,許多工作也將傳統(tǒng)的聚類方法引入到無監(jiān)督的行人重識別任務中,用來產(chǎn)生偽標記的信息.
Fu 等人[48]利用DBSCAN 聚類算法[49],基于在源域上預訓練的模型提取特征來對無標記的數(shù)據(jù)進行聚類,然后基于聚類的結果構造三元組,并使用三元組損失(triplet loss)[29]來進行訓練.在每一輪訓練之后,利用得到的神經(jīng)網(wǎng)絡再次提取特征并進行聚類,重新得到更新的標記信息進行訓練.聚類和網(wǎng)絡的訓練是迭代的過程,這樣能夠不斷地獲得更優(yōu)的標記信息和更魯棒的特征表示.Zhang 等人[50]提出了一種自訓練的漸進式增強框架,主要分為保守訓練和提升訓練兩個步驟,并在訓練過程中使用HDBSCAN 聚類方法[51]產(chǎn)生偽標記.保守訓練過程中使用傳統(tǒng)的三元組損失和基于排序的三元組損失聯(lián)合訓練網(wǎng)絡,提升訓練過程中,使用交叉熵損失進一步提升網(wǎng)絡的泛化性能.在整個訓練過程中,保守訓練和提升訓練也是基于迭代的方式來優(yōu)化網(wǎng)絡.Lin 等人[52]提出了一種自底向上的聚類策略來不斷地融合相似的樣本,該方法起初將每一個樣本視為一個類,并將每一類的特征存儲在一個空間中,在訓練過程中不斷地更新融合不同的類,并且更新每一個類的新的表示特征.作者還在文中提出了一種多樣性的歸一化方法,以避免每一類中的圖像數(shù)量差別過大.
Tang 等人[53]利用神經(jīng)網(wǎng)絡的最后兩層(在殘差網(wǎng)絡中,即全局平均池化層和全連接層)的輸出分別作為特征,并通過DBSCAN[49]進行聚類,然后基于聚類的結果產(chǎn)生標記信息,在網(wǎng)絡的最后兩層上都采用三元組損失函數(shù)同時進行網(wǎng)絡的訓練,并且也使用交替學習的方式更新網(wǎng)絡以及獲得新的標記信息.Yang 等人[54]考慮到通過聚類產(chǎn)生偽標記的方法往往會帶來許多噪聲信息,因此提出了一種能夠在聚類之后對樣本進行過濾的方法.作者認為在學習過程中所有的樣本都是重要的,因此該方法根據(jù)DBSCAN 聚類[49]將樣本劃分為正常樣本(在聚類過程被劃分到某個類別)和異常樣本(在聚類過程中沒有被劃分到某個類別),而在一些其他基于聚類的方法中一般會忽略這些異常樣本.同時,該方法使用主模型和協(xié)作模型兩種模型來相互促進學習,其中,主模型利用正常樣本和異常樣本來訓練,而協(xié)作模型只使用正常樣本來訓練.特別地,對于用來訓練主模型的異常樣本,需要通過協(xié)作模型來選擇其中一些置信度高的偽標記樣本進行訓練;而對于用來訓練協(xié)作模型的正樣本,需要使用主模型對已分配標記的樣本再次進行過濾,以確保選擇的樣本都是純凈的,即保證這些樣本的偽標記具有較好的可靠性.整個學習過程通過迭代的方式,不斷地提升兩種網(wǎng)絡的性能.Ding 等人[55]提出一種基于分散度的聚類方法來對無標記的樣本進行聚類,該聚類方法不僅僅考慮了類別間的差異性信息,而且也考慮到了類別內(nèi)的緊湊程度.相比于其他的聚類方法,該方法能夠更廣地考慮到多個樣本間的關系,并且能夠有效處理不平衡的數(shù)據(jù)分布所帶來的問題.
目前,在無監(jiān)督行人重識別領域中,為無標記樣本數(shù)據(jù)生成偽標記的方法已經(jīng)成為主流的技術路線.該類方法具有思路簡單清晰、性能良好的優(yōu)點,特別是一些基于聚類的偽標記生成方法,可以展現(xiàn)出與有監(jiān)督學習方法相接近的性能.然而,該類方法在偽標記生成的準確度以及如何有效利用生成的偽標記等方面仍然存在進一步提升的空間.
近些年,生成對抗網(wǎng)絡已經(jīng)取得了很大的進展.在無監(jiān)督行人重識別領域,一些研究者基于該技術從圖像層級角度來解決領域遷移的問題,如圖5 所示.Huang 等人[56]考慮到不同領域圖像背景的差異較大,且現(xiàn)有的圖像分割方法并不能很好地將行人圖像的前景和背景分開,因此提出了SBSGAN 通過產(chǎn)生軟掩模的方法來移除圖像的背景區(qū)域,該方法能夠有效地抑制圖像分割方法帶來的錯誤.考慮到當前許多基于GAN 的方法只能產(chǎn)生單一風格的圖像,Chen 等人[57]提出了一種對偶條件圖像生成器以生成不同風格的行人圖像數(shù)據(jù),該方法能夠?qū)⒁粡垐D像遷移到多個風格下.Liu 等人[58]認為領域間的差異信息由多種因素造成,如光照、分辨率、攝像頭視角等,因此作者采用分而治之的方法將風格遷移網(wǎng)絡分成多個子網(wǎng)絡,分別針對不同的領域差異因素進行遷移,如光照遷移網(wǎng)絡、分辨率遷移網(wǎng)絡和視角遷移網(wǎng)絡等.每個子網(wǎng)絡首先進行預訓練,最終通過一個選擇網(wǎng)絡來產(chǎn)生每個子網(wǎng)絡的權重信息,并融合所有子網(wǎng)絡中的信息生成最終的風格遷移圖像.
Zhong 等人[59]利用StarGAN[60]對目標域中不同攝像頭風格下的圖像進行轉(zhuǎn)化,訓練過程中的正樣本對來自于同一個攝像頭風格下,結合原始目標域圖像、源域圖像和這些轉(zhuǎn)化的圖像一起生成三元組來訓練更新神經(jīng)網(wǎng)絡.特別地,對于三元組,如果一個anchor 樣本可以容易地在有標記的源域中得到它對應的正樣本,同樣也能從目標域中得到它的負樣本,這樣的三元組能夠減小源域和目標域之間的差異.Bak 等人[61]認為,劇烈變化的光照條件是跨領域行人重識別問題的一個巨大挑戰(zhàn),然而對于當前單一數(shù)據(jù)集來說,光照情況相對比較單一.因此作者提出了一個合成的行人重識別數(shù)據(jù)集(synthetic person Re-Identification,簡稱SyRI),其包含在140 種不同的光照條件下的100 個虛擬的行人.該方法首先訓練一個140 類的光照推斷模型,用來推斷一個目標域與哪種光照情況下的源域數(shù)據(jù)接近,然后利用CycleGAN[62]將該源域的數(shù)據(jù)轉(zhuǎn)化成目標域風格的圖像,再用來訓練特征提取網(wǎng)絡.Deng 等人[63]在CycleGAN 的基礎上引入兩個重要的跨域行人重識別特性來保證圖像風格遷移的質(zhì)量:其一,每張風格遷移后的圖像應該與轉(zhuǎn)換前的圖像保持身份信息的一致性;其二,任何圖像從源域遷移到目標域后都應與目標域中所有圖像的身份信息不同.為了在原始的CycleGAN 上引入這兩個特性,作者利用對比損失[64]的子網(wǎng)絡來約束原始的CycleGAN 的訓練.Wei 等人[65]提出了PTGAN(person transfer GAN)來對圖像進行從源域到目標域的遷移,該方法在CycleGAN[62]的基礎上引入行人前景分割圖像來保證行人區(qū)域遷移前后的一致性.
這類方法的思想是:從圖像層面進行風格遷移,其很大程度上依賴于生成對抗網(wǎng)絡所生成圖像的質(zhì)量.與其他場景的不同點在于:從監(jiān)控攝像頭獲取的行人圖像往往質(zhì)量較低并且存在一些噪聲,導致風格轉(zhuǎn)換后圖像的質(zhì)量并不高.因此,該類方法在無監(jiān)督場景下的性能提升并不是很理想,需要進一步研究更加適合于行人場景的生成對抗網(wǎng)絡來解決該類問題.
在傳統(tǒng)的圖像分類問題中,無監(jiān)督學習已經(jīng)取得很大的研究進展.受非參數(shù)化實例分類的方法[66]的啟發(fā),近期也有一些研究者將其引入到無監(jiān)督行人重識別任務中來.非參數(shù)化實例分類的方法考慮到在分類任務中,外表相似的類別與外表相似性較小的類別相比有一個更大的預測概率值,這說明這些相似的類別在特征學習網(wǎng)絡中存在潛在的相關性,因此該方法將所有獨立的樣本當作一個單獨的類別來訓練網(wǎng)絡.假設我們有年n張圖像x1,x2,…,xn,它們的特征分別為v1,v2,…,vn,對于一個圖像x,其對應的特征為v,屬于第i個樣本(類別)的概率為
其中,每個樣本的特征vj被存儲在內(nèi)存銀行(memory bank)M中.特別地,M在每一個epoch 之后會被更新.τ是一個超參數(shù),用來調(diào)節(jié)特征向量在單位球體上的集中程度[67].基于公式(1),對于樣本x,其對應的特征為v,我們得到基于實例的損失函數(shù)為
其中,rj∈{0,1}n表示圖像x對應的指示值.即:如果x和xj被判定為鄰近的樣本則為1,否則為0.
該類方法旨在關注如何得到更好的鄰近關系r來學習模型,如圖6 所示.Zhong 等人[68]沿用了非參數(shù)化實例分類的框架,并且對于每一個獨立的樣本(即每一個類),通過對抗生成網(wǎng)絡StarGAN[60]生成一些其他攝像頭風格的圖像來增加每一個類的樣本數(shù)量,即類似于一種數(shù)據(jù)增廣的方式,并且在訓練過程中考慮拉近一些鄰近樣本間的距離來強化類別之間的關聯(lián).對于鄰近樣本的選擇,Zhong 等人[69]進一步提出了一種基于圖的預測方式來判別兩個樣本是否是真實的鄰近樣本,該方法主要考慮了所有樣本間的關系進一步確保選擇的真正同類樣本的正確性.Ding 等人[70]通過設置一個距離閾值來選擇每一個實例的鄰近樣本,并且考慮到每個實例的鄰近樣本的不均衡性會導致偏向于學習某些樣本,在損失函數(shù)中融入了一種平衡機制來抑制該問題.
基于實例分類的方法雖然在性能方面展現(xiàn)出了優(yōu)越性,然而其對于樣本之間的關聯(lián)問題仍然需要進一步研究,即考慮如何采用有效的算法更加精確地進行樣本關聯(lián)度匹配.
在深度學習的無監(jiān)督行人重識別方法中,許多研究工作沿用了傳統(tǒng)的領域自適應的架構,即考慮消除或減少領域間的差異來將判別性的信息從源域遷移到目標域中,如圖7 所示.
Lin 等人[71]提出了一種多任務中間層的特征對齊方法(multi-task mid-level feature alignment,簡稱MMFA)來解決無監(jiān)督跨域行人重識別問題,該方法聯(lián)合身份學習和屬性學習一起來訓練更新網(wǎng)絡,對無標記的目標域采用基于源域訓練的模型生成的偽屬性標記來進行模型的訓練,并通過MMD(maximum mean discrepancy)[72]的方法減少源域和目標域之間的差異.考慮到跨域行人重識別問題中數(shù)據(jù)分布的差異不僅僅存在于領域之間,也存在于同一領域下的不同攝像頭之間(不同攝像頭下光照、分辨率、背景和視角等方面也存在差異),Delorme等人[73]和Qi 等人[74]都針對性地提出了基于攝像頭的對抗網(wǎng)絡來解決在跨域行人重識別任務中的數(shù)據(jù)分布差異問題.其中,Delorme 等人[73]在源域和目標域中所有的攝像頭之間做等價的對抗,并且對無標記的目標域中的數(shù)據(jù)采用標記平滑的方式[32]分配到源域的類別中進行訓練.Qi 等人[74]提出了源域和目標域中攝像頭交互式的對抗,并在理論上證明了該對抗方式能夠?qū)⒃从蚝湍繕擞蛩械臄z像頭下的數(shù)據(jù)映射到同一空間中;另外,還利用時序信息從無標記的目標域中挖掘一些判別性的信息來訓練更新網(wǎng)絡.同時,作者在文中也提到:對于在行人重識別任務中使用的這種傳統(tǒng)領域自適應框架,挖掘無標記的判別性信息是非常重要的,這是因為單一地減少數(shù)據(jù)分布差異可能會破壞目標域中的原始樣本間的關系.因此引入目標域中的一些信息,能夠一定程度地保證這種信息不會被破壞.
由于從數(shù)據(jù)分布的視角來解決無監(jiān)督行人重識別問題是一種間接的處理方法,因此該類方法與基于偽標記的方法和基于實例分類的方法相比,在性能方面稍有些不足.但是與基于圖像生成的方法相比,該類方法的性能更好.因此,這說明了在行人重識別問題中,從特征層級的遷移效果要比從圖像層級的遷移效果更好.
除上述的幾大類方法之外,還有少量從其他角度設計的方法.Wu 等人[75]觀察到攝像頭內(nèi)樣本的相似性分布和攝像頭間樣本的相似性分布不一致,提出了攝像頭一致性的學習方式,以使得攝像頭內(nèi)的數(shù)據(jù)分布和攝像頭間的樣本相似性分布趨于一致,并且在學習過程中保持攝像頭內(nèi)樣本間的相似性分布與其在預訓練上的模型一致.也有少部分的研究者關注在基于領域泛化的行人重識別任務上,在該任務的訓練過程中,只存在有標記的源域樣本,對于目標域沒有任何可用的數(shù)據(jù).Kumar 等人[76]探索了只簡單地結合多個源域來訓練一個模型的方式,在目標域上也具有良好的泛化性能.Jia 等人[77]考慮到領域間的差異性主要是由不同領域間的風格信息的差異引起的,受風格遷移學習的啟發(fā),作者提出在神經(jīng)網(wǎng)絡的低層使用實例歸一化來減少不同領域的風格的影響;同時,在高層使用特征歸一化進一步地減少領域間風格信息的影響.Song 等人[78]提出領域不變性的映射網(wǎng)絡來解決行人重識別任務在未見領域上的泛化問題,該方法專注于在一張行人圖像和身份分類器的權重之間學習一種映射.具體地,對于每一個來自于候選集合中的圖像,可以生成一個分類器的權重向量.為了獲得領域間的不變性,作者使用了元學習(meta-learning)中的插曲訓練機制(episodic training)來更新網(wǎng)絡的參數(shù).在測試過程中,對于一張來自查詢集合的圖像和一張來自候選集合的圖像,利用查詢分支中提取的特征向量和候選分支中提取的權重向量進行點乘的值作為這兩張圖像的相似性.
近年來,一些研究者也開始關注如何利用較少的標記信息來訓練一個較優(yōu)的模型.特別地,不同于無監(jiān)督學習的定義,半監(jiān)督學習在行人重識別中的有許多不同的設定.對于現(xiàn)有的方法,本文將其劃分成如下幾個場景.
(1) 少量的人有標記
Liu 等人[79]提出利用半監(jiān)督的對偶字典學習來解決少標記的行人重識別問題,該方法利用少量的標記數(shù)據(jù)來學習在不同攝像頭之間的特征關系,而大量的未標記數(shù)據(jù)用來獲得魯棒的稀疏表示.Wu 等人[80]假定了只有少量的行人標記樣本的情況,通過在其他有標記的數(shù)據(jù)集上訓練好的多個不同模型來遷移信息,這些模型可以被視為多個教師模型.該方法使用教師學生網(wǎng)絡訓練機制來進行網(wǎng)絡的訓練,通過使用大量的無標記數(shù)據(jù)訓練更新學生網(wǎng)絡,并通過少量有標記樣本來判斷每個在源域上訓練的模型的權重(即對于不同的樣本,不同教師模型貢獻程度不同).Xin 等人[81]使用少量的有標記數(shù)據(jù)訓練模型,然后通過多視角聚類方法對無標記的數(shù)據(jù)進行聚類,再聯(lián)合有標記數(shù)據(jù)和帶有偽標記的無標記數(shù)據(jù)更新網(wǎng)絡,并繼續(xù)基于新的網(wǎng)絡再次執(zhí)行聚類算法,整個過程是迭代交替的.
(2) 每一個人有少量標記
Wu 等人[82]提出了一種漸進式的學習方法來解決該問題:首先,根據(jù)每個人的少量標記數(shù)據(jù)訓練初始模型;然后對大量無標記數(shù)據(jù)中置信度較高的數(shù)據(jù)分配偽標記,其余置信度較低的數(shù)據(jù)暫不分配標記信息.在訓練過程中,結合有標記和偽標記的數(shù)據(jù)一起使用傳統(tǒng)的交叉熵損失更新訓練網(wǎng)絡.對于暫未分配標記的數(shù)據(jù),接下來采用實例分類的方法,將每一個獨立的樣本當作一個類別并在網(wǎng)絡中進行訓練,然后基于訓練好的網(wǎng)絡再次重新分配偽標記.該方法的學習過程也是采用迭代更新的方式.然而該場景存在一定的局限性,其很難拓展到實際應用中.這是因為在該設定下,通常很難獲得整個數(shù)據(jù)集上所有行人的數(shù)量,除非對整個數(shù)據(jù)集進行標記,這將耗費大量的人工成本,與半監(jiān)督設定的初衷相悖.因此,采用該設定的研究工作較少.
(3) 基于tracklet 的學習
Li 等人[83]把行人重識別任務劃分為攝像頭內(nèi)的學習和攝像頭間的學習.對于攝像頭內(nèi)的學習,作者假設攝像頭內(nèi)經(jīng)過跟蹤算法已得到若干tracklet,并提出了一種基于時序的稀疏采樣方法以獲得攝像頭內(nèi)不重復的tracklet(即這些tracklet 盡可能屬于不同的人),然后使用交叉熵損失來學習這些有標記的樣本.對于攝像頭間的學習,作者提出一種損失函數(shù)以使得相近的跨攝像頭的tracklet 盡可能相似.在此基礎上,Li 等人[84]進一步對攝像頭內(nèi)的學習做出改進,不再需要選擇一些不重復的tracklet,即可以使用全部的tracket,同時提出了一種軟分類學習的方式來自動探索攝像頭內(nèi)tracklet 的關系.在這兩個研究工作的實驗過程中,作者給定了圖像數(shù)據(jù)集中攝像頭內(nèi)的標記信息.Wu 等人[75]沿用了文獻[83]中tracklet 的選擇方式,該方法主要提出了基于圖的關聯(lián)方式來建立跨攝像頭tracklet 之間的關聯(lián).特別地,基于視頻的方法致力于使用給定的tracklet 來探索時序信息,以便于將其融入到特征表示中.然而,上述半監(jiān)督方法主要是使用tracklet 信息作為部分的標記信息來執(zhí)行學習任務.
(4) 攝像頭內(nèi)有標記,攝像頭間無標記
受基于無監(jiān)督的tracklet 的學習的啟發(fā),Qi 等人[85]定義了一種新的半監(jiān)督行人重識別設定,并且分別從數(shù)據(jù)分布的角度和偽標記學習的角度提出了兩種不同的解決方案[85,86].在該設定下,每一個攝像頭內(nèi)均給定標記信息,而攝像頭間是沒有標記信息的.由于在行人重識別問題中,標記攝像頭間的信息需要花費大量的成本,而攝像頭內(nèi)的標記信息可以借助于跟蹤算法和少量的人工標記即可完成,因此這種半監(jiān)督行人重識別的設定在實際應用中有較大的意義.在文獻[85]中,作者考慮到不同攝像頭間數(shù)據(jù)分布的差異性(由背景、光照、視角等因素帶來的影響),提出了一種基于攝像頭對齊的對抗學習網(wǎng)絡,以將不同攝像頭的數(shù)據(jù)映射到同一空間中.在文獻[86]中,作者通過在跨攝像頭間生成漸進式的軟標記來探索跨攝像頭間樣本之間的關系.同時,Zhu 等人[87]提出了類似的問題,即:對某一個攝像頭中的數(shù)據(jù),分別在其他每個攝像頭下找到最相似的人.然而這樣的方式存在一個問題,即:當一個人在某個攝像頭中沒有出現(xiàn)的時候,該方法會強制性選擇一個錯誤的樣本進行關聯(lián).
為了評估行人重識別的相關算法,我們往往需要在一些公開數(shù)據(jù)集上進行實驗,并通過統(tǒng)一的評價標準來評估所提出方法的性能.本節(jié),我們對行人重識別的相關數(shù)據(jù)集和評價標準進行了總結.
近年來,行人重識別問題在科研中的關注逐漸得到提高,因此也出現(xiàn)了越來越多的更大規(guī)模的數(shù)據(jù)集.這些數(shù)據(jù)集主要分為兩類,即基于圖像的數(shù)據(jù)集和基于視頻的數(shù)據(jù)集.我們將選取部分常用的數(shù)據(jù)集分別進行介紹.
(1) 圖像數(shù)據(jù)集
常用的圖像數(shù)據(jù)集主要包括Market1501[88],DukeMTMC-reID[32],MSMT17[65]和CUHK03[89],這些數(shù)據(jù)集既可以用于無監(jiān)督任務,也可以用于半監(jiān)督任務.其基本信息概括在表1 中.
Table 1 Information of some image-based person re-identification datasets表1 部分行人重識別圖像數(shù)據(jù)集信息
Market-1501[88]是在大學校園內(nèi)一個超市前面采集的,由6 個攝像頭拍攝得到.該數(shù)據(jù)集包含1 501 個行人的32 668 張圖像(標注框),且每個行人都至少在兩個攝像頭中出現(xiàn).訓練集包括751 個行人的12 936 張圖像,查詢集包括750 個行人的3 368 張圖像,測試集包括750 個行人的16 384 張圖像.該數(shù)據(jù)集采用DPM 檢測器[90]來檢測行人標注框,而非采用人工裁剪的方式來獲得,這樣更加貼近現(xiàn)實應用,即可以考慮到行人檢測的標注框會存在偏移與不對齊的情況.DukeMTMC-reID[32]是基于多攝像頭多目標行人跟蹤數(shù)據(jù)集DukeMTMC[91]構建而成的,由8 個攝像頭拍攝得到.該數(shù)據(jù)集包含1 404 個行人的36 411 張圖像(標注框),且該1 404 個行人中,每個行人都至少在兩個攝像頭中出現(xiàn).訓練集包含702 個行人的16 522 張圖像,查詢集包括702 個行人的2 228 張圖像,測試集包括702 個行人的17 661 張圖像.該數(shù)據(jù)集通過人工剪裁的方式來獲得行人標注框.MSMT17[65]是從校園中部署的15 個攝像頭中拍攝得到的,包含4 101 個行人的126 441 張圖像.訓練集包含1 041 個行人的32 621 張圖像(其中包括驗證集的2 373 張圖像),查詢集包含3 060 個行人的11 659 張圖像,測試集包含3 060個行人的82 161 張圖像.該數(shù)據(jù)集采用Faster RCNN 檢測器[92]來檢測行人標注框.CUHK03[89]由5 組攝像頭拍攝得到,每組攝像頭包含兩個攝像頭,且采用人工裁剪(labeled)和DPM 檢測器(detected)[90]兩種方式來檢測行人標注框.該數(shù)據(jù)集存在兩種測試協(xié)議,本文僅介紹新的一種協(xié)議,以下稱為 CUHK03-NP[93].在 CUHK03-NP(labeled)中,訓練集包含767 個行人的7 368 張圖像,查詢集包含700 個行人的1 400 張圖像,測試集包含700 個行人的5 328 張圖像;在CUHK03-NP(detected)中,訓練集包含767 個行人的7 365 張圖像,查詢集包含700 個行人的1 400 張圖像,測試集包含700 個行人的5 332 張圖像.圖8 展示了部分數(shù)據(jù)集的實例圖像,其中左圖來自Market-1501[88],右圖來自DukeMTMC-reID[32],上下兩行分別代表不同攝像頭下的行人圖像.
(2) 視頻數(shù)據(jù)集
常用的視頻數(shù)據(jù)集除了較早出現(xiàn)的PRID2011[94]和iLIDS-VID[95]以外,主要包括MARS[96],DukeMTMC-SITracklet[84]和DukeMTMC-VideoReID[97],這些數(shù)據(jù)集常用于半監(jiān)督任務.其基本信息概括在表2 中.
Table 2 Information of some video-based person re-identification datasets表2 部分行人重識別視頻數(shù)據(jù)集信息
MARS[96]是在大學校園中的6 個攝像頭采集得到的,包含1 261 個行人的20 478 個tracklet 共計1 191 003張圖片,分別將626 和635 個行人作為訓練集和測試集,其所有的軌跡片段都是由DPM 檢測器[90]和GMMCP跟蹤器[98]自動生成的.DukeMTMC-SI-Tracklet[84]和DukeMTMC-VideoReID[97]均來自來自DukeMTMC[91],由8個攝像頭進行拍攝,人工裁剪得到標注框.DukeMTMC-SI-Tracklet 由1 788 個行人的19 135 個tracklet 共計833 984 張圖片組成,并分別將702 個和1 086 個行人作為訓練集和測試集;DukeMTMC-VideoReID 由1 812 個行人的4 832 個tracklet 共計815 420 張圖片組成,并分別將702 個、702 個和408 個行人作為訓練集、測試集和干擾項.圖9 展示了部分數(shù)據(jù)集的實例圖像,均來自MARS[96],其中上下兩行分別代表不同的tracklet.
對于行人重識別算法的性能,通常使用累積匹配特性(cumulative match characteristic,簡稱CMC)曲線和平均精度均值(mean average precision,簡稱mAP)來進行評估.
CMC 曲線能夠綜合反映分類器的性能,可以表示匹配目標出現(xiàn)在大小為k的候選列表中的概率.直觀上,CMC 曲線可以通過Rank-k準確率的形式給出,即目標的正確匹配出現(xiàn)在匹配列表前k位的概率.在行人重識別問題中,通常關注k={1,5,10,20}時的性能,即匹配目標的k={1,5,10,20}準確率.例如Rank-1 準確率表示正確匹配出現(xiàn)在匹配列表第1 位的概率,即查找1 次即可返回正確匹配的概率.通常,最后的Rank-k準確率是指對所有檢索目標進行查詢后取結果的平均值.
然而,當測試集中存在多個正確匹配時,Rank-k準確率不能完整地對算法進行評估.Zheng 等人[88]考慮到行人重識別的目標應將所有的正確匹配都檢索出來,即在考慮查準率的同時,應當同時考慮查全率,因此建議采用mAP 來將算法的檢索召回能力考慮進去.具體地,mAP 的計算過程需遍歷所有檢索目標,對于每個檢索目標分別計算AP(average precision)并取平均,而AP 的計算過程即為求PR(precision-recall)曲線下的面積的過程,即考慮了目標在某些閾值下的查準率和查全率.因此在后續(xù)工作中,通常將mAP 與Rank-k準確率結合在一起作為行人重識別問題的評價指標,這樣能夠達到對算法性能進行全面評價的目標.
本節(jié)將對現(xiàn)有弱監(jiān)督場景下行人重識別算法的實驗結果進行總結,并給出了分析和比較.
對于現(xiàn)有的無監(jiān)督方法,我們總結了當前基于深度學習的方法在3 個大規(guī)模數(shù)據(jù)集上的實驗結果,即Market1501[88],DukeMTMC-reID[32]和MSMT17[65].其中包括基于偽標記的方法,如TJ-AIDL[46],TFusion-uns[47],DC[55],HCR[99],BUC[52],PAUL[44],MAR[43],PCB-R-PAST[50],SSG[48],ISSDA[53]和ACT[54];基于圖像生成的方法,如HHL[59],SyRI[61],PTGAN[65],SPGAN[63],ATNet[58],DA-2S[56]和CR-GAN[57];基于實例分類的方法,如ECN[68],AE[70]和LAIM[69];基于領域自適應的方法,如MMFA[71],CAT[73]和UCDA[74].實驗結果總結在表3~表5 中.
表3 展示了現(xiàn)有無監(jiān)督的方法在Market-1501 數(shù)據(jù)集上的結果,其中,*表示沒有使用有標記的源域數(shù)據(jù)進行模型的預訓練(即直接使用ImageNet 預訓練的模型),?表示使用除DukeMTMC-reID,MSMT17 和CUHK03 之外的行人重識別數(shù)據(jù)集進行模型的預訓練,-表示沒有對應的實驗結果,DukeMTMC-reID/MSMT17/CUHK03 表示分別使用這3 個數(shù)據(jù)集作為源域的實驗結果.
表4 展示了現(xiàn)有無監(jiān)督的方法在DukeMTMC-reID 數(shù)據(jù)集上的結果,其中,*表示沒有使用有標記的源域數(shù)據(jù)進行模型的預訓練(即直接使用ImageNet 預訓練的模型),-表示沒有對應的實驗結果,Market-1501/MSMT17/CUHK03 表示分別使用這3 個數(shù)據(jù)集作為源域的實驗結果.
Table 3 Results of existing unsupervised methods on Market-1501表3 現(xiàn)有無監(jiān)督的方法在Market-1501 數(shù)據(jù)集上的結果
Table 4 Results of existing unsupervised methods on DukeMTMC-reID表4 現(xiàn)有無監(jiān)督的方法在DukeMTMC-reID 數(shù)據(jù)集上的結果
表5 展示了現(xiàn)有無監(jiān)督的方法在MSMT17 數(shù)據(jù)集上的結果,其中,*表示沒有使用有標記的源域數(shù)據(jù)進行模型的預訓練(即直接使用ImageNet 預訓練的模型),-表示沒有對應的實驗結果,Market-1501/DukeMTMC-reID/CUHK03 表示分別使用這3 個數(shù)據(jù)集作為源域的實驗結果.
Table 5 Results of existing unsupervised methods on MSMT17表5 現(xiàn)有無監(jiān)督的方法在MSMT17 數(shù)據(jù)集上的結果
對于基于偽標記的方法,TJ-AIDL[46]是通過結合屬性學習并對目標域中的數(shù)據(jù)生成偽屬性的方法來進行學習的;TFusion-uns[47]利用時序信息產(chǎn)生更可靠的偽標記信息;PAUL[44]和MAR[43]以有標記的源域數(shù)據(jù)為基準,生成無標記目標域的偽標記信息;DC[55],HCR[99],BUC[52],PCB-R-PAST[50],SSG[48],ISSDA[53]和ACT[54]都是基于聚類的算法,其中,ACT 對聚類后的結果進行了進一步處理,以便于找出確定性的偽標記信息和非確定性的偽標記信息,因此相對于其他方法,該方法能夠得到相對更好的結果.另外,從表3 和表4 中可以發(fā)現(xiàn),基于聚類的偽標記方法相對于其他偽標記的方法有更好的性能.
對于基于圖像生成的方法,當前CR-GAN[57]的性能最優(yōu).不同于其他從領域?qū)蛹壔驍z像頭層級的風格遷移,如PTGAN[65],SPGAN[63]和ATNet[58]等,CR-GAN 是基于圖像層級的風格轉(zhuǎn)化,即根據(jù)一張?zhí)囟▓D像的風格對一張目標的圖像進行圖像風格的遷移.因此,該方法相對于其他方法有更好的性能.此外,在所有這些基于圖像生成的方法中,HHL[59]只使用了圖像生成網(wǎng)絡對目標域內(nèi)的不同攝像頭間的圖像進行轉(zhuǎn)化,以產(chǎn)生不同攝像頭風格的正樣本對.
對于基于實例分類的方法,當前方法基本都是關注在如何建立樣本間的關系上,其中,LAIM[69]引入了圖的關系來增強找出相同實例的可靠性,因此,該方法目前在此類型的方法中具有較好的表現(xiàn).
對于基于領域自適應的方法,MMFA[71]使用傳統(tǒng)的MMD 方法來減少領域間差異.在行人重識別問題中,數(shù)據(jù)分布的差異不僅存在于領域間,也存在于相同領域的不同攝像頭間,而CAT[73]和UCDA[74]都考慮到了這一方面,提出了基于攝像頭感知的領域?qū)箤W習.對比于CAT,UCDA 提出了一種跨領域等視角的對抗學習方法來減少所有攝像頭視角層級的數(shù)據(jù)分布的差異,并且利用了時序信息在無標記的目標域中挖掘判別性信息,以保證在減少數(shù)據(jù)分布差異的過程中目標域數(shù)據(jù)內(nèi)部結構的不變性.因此在該類方法中,UCDA 目前具有最好的性能.
對比這幾大類方法,基于圖像生成的方法和基于領域自適應的方法相較于基于偽標記的方法和基于實例分類的方法表現(xiàn)性能相對較弱.主要原因可能是基于圖像生成或領域自適應的方法可以看作是從數(shù)據(jù)分布的層級來解決無標記的學習問題,其中,基于圖像生成的方法旨在縮小源域和目標域圖像分布間的差異,而基于領域自適應的方法是從特征表示的層級來縮小領域間的差異.這些方法屬于隱式地解決無標記的問題,而基于偽標記或?qū)嵗诸惖姆椒ㄊ秋@式地通過對無標記的數(shù)據(jù)直接產(chǎn)生偽標記或者是建立這些樣本間的關聯(lián)來進行學習.因此,基于偽標記和實例分類的方法相比較于其他方法能夠更加直接地解決無標記行人重識別問題.
在本節(jié),我們總結了當前基于深度學習的半監(jiān)督行人重識別算法在3 個大規(guī)模圖像數(shù)據(jù)集Market1501[88],DukeMTMC-reID[32]和 MSMT17[65]以及 3 個大規(guī)模視頻數(shù)據(jù)集 MARS[96],DukeMTMC-VideoReID[84]和DukeMTMC-SI-Tracklet[97]上的實驗結果.特別地,當前在行人重識別問題半監(jiān)督的定義有很多種,本節(jié)總結的方法包括:(1) 少部分人有標記的場景,如Distilled-ReID[80]和MVC[81];(2) 每一個人有少量標記的場景,如One-Example[82];(3) 基于tracklet 的場景,例如TAUDL[83],UTAL[84],TSSL[100],TASTR[101]和UGA[75];(4) 攝像頭內(nèi)有標記但攝像頭間無標記的場景,如ACAN[85],MTML[87]和PCSL[86].所有方法的實驗結果總結在表6 和表7 中.表6展示了現(xiàn)有的半監(jiān)督方法在圖像數(shù)據(jù)集Market1501,DukeMTMC-ReID 和MSMT17 上的結果,其中,-表示沒有對應的實驗結果;表7 展示了現(xiàn)有的半監(jiān)督方法在視頻數(shù)據(jù)集MARS,DukeMTMC-VideoReID 和DukeMTMCSI-Tracklet 上的結果,其中,-表示沒有對應的實驗結果.特別地,與大部分無監(jiān)督方法會涉及到源域和目標域的數(shù)據(jù)集不同的是,半監(jiān)督的方法中只有目標域的數(shù)據(jù)集.
Table 6 Results of existing semi-supervised methods on image-based datasets表6 現(xiàn)有的半監(jiān)督方法在圖像數(shù)據(jù)集上的結果
Table 7 Results of existing semi-supervised methods on video-based datasets表7 現(xiàn)有的半監(jiān)督方法在視頻數(shù)據(jù)集上的結果
對于少量的人有標記的場景,MVC[81]和Distilled-ReID[80]的設定并不相同,因此它們并不具有可比較性.對于每一個人有少量標記的場景,在現(xiàn)實應用中,該方法并不是可行的.這是因為如果需要知道整個數(shù)據(jù)集行人的數(shù)量,就必須要對整個數(shù)據(jù)集進行標注,即這種設定不具有現(xiàn)實應用價值,因此針對該類場景的研究方法較少.對于基于tracklet 的場景,本文中我們將其歸類為半監(jiān)督的方法,因為tracklet 中的每個圖像默認為同一個標記.特別地,一些方法在基于圖像的行人重識別數(shù)據(jù)集中,假定每個攝像頭內(nèi)的人的所有圖像在一個traklet 內(nèi),即對于這些數(shù)據(jù)集已經(jīng)給定了攝像頭內(nèi)的標記信息.這類方法在近年來得到了較多的關注,一些研究工作主要關注在如何在攝像頭內(nèi)獲得不重復的tracklet 上,例如使用時序信息來緩解該問題;除此之外,如何建立跨攝像頭間的聯(lián)系也是該類方法需重點解決的問題.由于這類方法采用了基于tracklet 的標記信息,因此該類方法相對于無監(jiān)督的行人重識別別方法,整體來看具有更好的性能.進一步,Qi 等人[85]基于tracklet 的場景定義了一種新的半監(jiān)督場景的學習方式,即攝像頭內(nèi)有標記而攝像頭間無標記的場景.相對于基于tracklet 學習方法,該方法在基于視頻的圖像數(shù)據(jù)集上具有更好的性能.主要原因在于:基于tracklet 的方法通過采樣的方法,并未完全使用攝像頭的數(shù)據(jù);而基于攝像頭內(nèi)給定標記的場景能夠有效地利用所有的數(shù)據(jù),并且攝像頭內(nèi)的標記并不需要大量的人工成本.因此,該類方法在現(xiàn)實中具有重要的研究意義.另外,ACAN[85]基于數(shù)據(jù)分布的視角來解決跨攝像頭間無標記的問題,而MTML[87]和PCSL[86]直接采用關聯(lián)的方法來建立跨攝像頭樣本間的關聯(lián)性.從實驗結果來看,直接建立樣本間的關聯(lián)性,相較于從數(shù)據(jù)分布的視角解決跨攝像頭間無標記的問題,具有更好的性能.
本文主要總結了弱監(jiān)督場景下的行人重識別算法,包括無監(jiān)督場景和半監(jiān)督場景,并且對近年的方法進行了分類和描述.對于無監(jiān)督的行人重識別算法,我們根據(jù)其技術類型劃分為5 類,分別為基于偽標記的方法、基于圖像生成的方法、基于實例分類的方法、基于領域自適應的方法和其他類型的方法.對于半監(jiān)督的行人重識別方法,根據(jù)其場景類型劃分為4 類,分別為少量的人有標記的場景、每一個人有少量標記的場景、基于tracklet學習的場景和攝像頭內(nèi)有標記但攝像頭間無標記的場景.最后,我們對當前行人重識別的相關數(shù)據(jù)集進行總結,并對現(xiàn)有的弱監(jiān)督方法的實驗結果進行總結與分析.
研究弱監(jiān)督場景下的行人重識別問題,能夠幫助行人重識別技術更好地拓展到現(xiàn)實應用中.而基于弱監(jiān)督場景下的行人重識別算法,其著重研究利用無標記或少量標記的數(shù)據(jù)來學習具有更好泛化性能的模型.對該領域的探索不僅具有理論價值,還有很高的應用價值.該領域雖然在近年來得到了一定的關注,但目前仍然不能完全達到有監(jiān)督場景下的性能.該領域仍然有一些研究問題亟待解決.
(1) 實例間的關系評估
基于實例分類的無監(jiān)督方法在近年來得到了廣泛的關注,但其主要的挑戰(zhàn)集中在如何有效地挖掘每個樣本之間的實際關系,即:以一對樣本而言,觀察它們是否屬于相同的類別.如果所有樣本之間的關系能夠被很好地評估,那么這一類方法的性能將等價于有監(jiān)督場景下的行人重識別任務的性能.
(2) 領域泛化問題
雖然弱監(jiān)督場景下的行人重識別算法相比于傳統(tǒng)的有監(jiān)督場景更能夠有利于應用到現(xiàn)實當中,然而這些方法仍然需要收集無標記的樣本來學習.在將來,通用性的行人重識別算法也許是該領域能夠真正落地的一大發(fā)展趨勢,即:只通過在現(xiàn)有的數(shù)據(jù)進行訓練,就能夠很好地泛化到其他未見場景中.這也是實現(xiàn)通用人工智能技術的必要的一條路.我們首先需要解決單一任務上的通用型,才能進一步去探索在不同任務上的通用性.這一類問題結合風格遷移和元學習的相關方法或許將在未來的研究中展現(xiàn)出很大的前景.