国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

行人再識(shí)別技術(shù)研究進(jìn)展

2023-06-20 10:14:44張永飛楊航遠(yuǎn)張雨佳豆朝鵬廖勝才鄭偉詩(shī)張史梁葉茫晏軼超李俊杰王生進(jìn)
關(guān)鍵詞:行人模態(tài)特征

張永飛,楊航遠(yuǎn),張雨佳,豆朝鵬,廖勝才,鄭偉詩(shī),張史梁,葉茫,晏軼超,李俊杰,王生進(jìn)*

1.北京航空航天大學(xué)計(jì)算機(jī)學(xué)院,北京 100191;2.北京航空航天大學(xué)虛擬現(xiàn)實(shí)技術(shù)與系統(tǒng)全國(guó)重點(diǎn)實(shí)驗(yàn)室,北京 100191;3.清華大學(xué)電子系,北京 100084;4.北京信息科學(xué)與技術(shù)國(guó)家研究中心,北京 100084;5.起源人工智能研究院,阿布扎比 5151,阿拉伯聯(lián)合酋長(zhǎng)國(guó);6.中山大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006;7.北京大學(xué)計(jì)算機(jī)學(xué)院,北京 100871;8.武漢大學(xué)計(jì)算機(jī)學(xué)院,武漢 430072;9.上海交通大學(xué)人工智能研究院教育部人工智能重點(diǎn)實(shí)驗(yàn)室,上海 200240

0 引言

監(jiān)控視頻由于其實(shí)時(shí)性強(qiáng)、信息量大和直觀等特點(diǎn),在智慧城市、智慧社區(qū)以及智慧公安等諸多領(lǐng)域發(fā)揮著無(wú)可替代的重要作用。近年來(lái),我國(guó)監(jiān)控?cái)z像機(jī)安裝數(shù)量持續(xù)穩(wěn)定增長(zhǎng)(僅2020 年國(guó)內(nèi)安防攝像機(jī)出貨量就達(dá)到了4.1 億臺(tái),預(yù)計(jì)到2025 年將突破8 億臺(tái))。對(duì)于海量的監(jiān)控視頻數(shù)據(jù),得益于人工智能研究熱潮的再度興起和計(jì)算機(jī)視覺(jué)技術(shù)的迅猛發(fā)展,圖像與視頻中的目標(biāo)檢測(cè)、跟蹤、分類和識(shí)別等技術(shù)為監(jiān)控視頻的智能化處理與應(yīng)用提供了新的契機(jī)。

傳統(tǒng)的人員識(shí)別與關(guān)聯(lián)主要以人臉識(shí)別、指紋識(shí)別等技術(shù)為主,并已廣泛應(yīng)用。然而,隨著應(yīng)用場(chǎng)景的不斷擴(kuò)大和應(yīng)用需求的不斷提升,特別是在新冠疫情發(fā)生后,人臉識(shí)別、指紋識(shí)別等技術(shù)由于需要目標(biāo)的配合,其應(yīng)用范圍受到極大限制。例如人臉識(shí)別技術(shù)需要提取人員的正面臉部特征信息,在戴口罩、燈光黑暗、拍攝角度不佳以及帽子遮擋等情況下,人臉識(shí)別技術(shù)難以發(fā)揮效用。針對(duì)這些問(wèn)題,行人再識(shí)別應(yīng)運(yùn)而生。

行人再識(shí)別(person re-identification,re-ID),也稱為行人重識(shí)別、行人再辨識(shí)或“跨鏡追蹤”,旨在基于行人的穿著、體態(tài)、發(fā)型和攜帶物等信息,實(shí)現(xiàn)大時(shí)空范圍內(nèi)人臉等生物特征失效情況下的跨攝像機(jī)的目標(biāo)行人圖像的檢索與匹配,并借助攝像機(jī)的地理位置和拍攝時(shí)間,確定該行人出現(xiàn)的時(shí)間和地點(diǎn),最終形成行人的運(yùn)動(dòng)軌跡。行人再識(shí)別作為人臉識(shí)別、指紋識(shí)別等生物特征識(shí)別的補(bǔ)充手段,特別是開(kāi)放環(huán)境、非配合場(chǎng)景中上述識(shí)別技術(shù)失效時(shí)的替代手段,已成為智能視頻監(jiān)控系統(tǒng)的關(guān)鍵環(huán)節(jié)和支撐技術(shù),在智慧公安、智慧城市等國(guó)民經(jīng)濟(jì)建設(shè)中發(fā)揮了重要作用。例如,在智慧公安領(lǐng)域,借助行人再識(shí)別可實(shí)現(xiàn)嫌疑人員長(zhǎng)時(shí)間、大范圍的追蹤定位和軌跡還原功能,快速篩查嫌疑人員并進(jìn)一步鎖定出行區(qū)域,輔助精準(zhǔn)預(yù)防和打擊;在智慧城市與智慧治理領(lǐng)域,通過(guò)行人識(shí)別技術(shù),不僅可以實(shí)現(xiàn)人流信息的統(tǒng)計(jì),甚至可以實(shí)現(xiàn)大場(chǎng)景的人流軌跡還原以及人員的比對(duì)與查詢,為各種資源的實(shí)時(shí)管理和優(yōu)化配置提供支撐;在疫情防控方面,基于行人再識(shí)別技術(shù),可以還原行人活動(dòng)軌跡并關(guān)聯(lián)追蹤到密接、次密接人群,在減輕基層工作人員負(fù)擔(dān)的同時(shí),以最快速度鎖定傳播范圍,極大提升疫情追蹤、防控效率;在智能園區(qū)和智能交通領(lǐng)域,行人再識(shí)別可用于陌生人員的軌跡分析,有效保障園區(qū)安全;在人流密集的機(jī)場(chǎng)、車站、公園和商場(chǎng)等大型公共場(chǎng)所,行人再識(shí)別能夠幫助迅速查找不慎走失的兒童、老人;在智能商業(yè)領(lǐng)域,行人再識(shí)別可以實(shí)時(shí)動(dòng)態(tài)跟蹤顧客的行為軌跡,以此了解用戶在商場(chǎng)的興趣所在,幫助商家挖掘更多的商業(yè)價(jià)值,同時(shí)優(yōu)化用戶體驗(yàn)。此外,行人再識(shí)別在智能交通、自動(dòng)駕駛等領(lǐng)域也已應(yīng)用或具有重要應(yīng)用前景。

隨著智慧社會(huì)治理、智慧公安等國(guó)家戰(zhàn)略、需求的推進(jìn),特別是深度學(xué)習(xí)和計(jì)算機(jī)視覺(jué)理論與方法的不斷深入,行人再識(shí)別技術(shù)吸引了越來(lái)越多的關(guān)注。經(jīng)過(guò)10 多年從多攝像機(jī)追蹤到再識(shí)別的起步階段、基于傳統(tǒng)特征的再識(shí)別以及基于深度學(xué)習(xí)的再識(shí)別3 個(gè)主要階段,取得了快速發(fā)展與進(jìn)步(Ye等,2022)。但在實(shí)際應(yīng)用場(chǎng)景仍面臨遮擋、標(biāo)注成本高、訓(xùn)練樣本不足、跨場(chǎng)景跨模態(tài)差異大以及跨域泛化性能差等諸多挑戰(zhàn),導(dǎo)致當(dāng)前行人再識(shí)別算法在實(shí)際應(yīng)用場(chǎng)景的性能還比較低,距離實(shí)際可用還有很長(zhǎng)的距離?;诖耍疚拿嫦蛐腥嗽僮R(shí)別的技術(shù)發(fā)展和落地應(yīng)用需求,總結(jié)整理遮擋行人再識(shí)別、無(wú)監(jiān)督行人再識(shí)別、虛擬數(shù)據(jù)生成、域泛化行人再識(shí)別、換裝行人再識(shí)別、跨模態(tài)行人再識(shí)別和行人搜索等方面的前沿進(jìn)展,歸納其發(fā)展現(xiàn)狀、存在問(wèn)題和發(fā)展趨勢(shì)。這對(duì)推動(dòng)行人再識(shí)別技術(shù)進(jìn)步,進(jìn)而提升視頻監(jiān)控分析的智能化水平和實(shí)用性具有積極意義和重要作用。其中,遮擋行人再識(shí)別是現(xiàn)有再識(shí)別問(wèn)題的一種特殊和挑戰(zhàn)場(chǎng)景;而無(wú)監(jiān)督行人再識(shí)別、虛擬數(shù)據(jù)生成、域泛化行人再識(shí)別則是主要緩解行人再識(shí)別數(shù)據(jù)收集與標(biāo)注成本高的挑戰(zhàn);在此基礎(chǔ)上,換裝和跨模態(tài)行人再識(shí)別是面向長(zhǎng)時(shí)間尺度、可能存在白天(可見(jiàn)光)、黑夜(紅外)以及行人換裝等實(shí)際場(chǎng)景下的行人再識(shí)別挑戰(zhàn);最后,行人搜索則旨在將行人檢測(cè)和再識(shí)別統(tǒng)一到同一個(gè)端到端的框架中,以提升系統(tǒng)的性能和效率。

本文首先對(duì)行人再識(shí)別技術(shù)進(jìn)行簡(jiǎn)介,然后從遮擋行人再識(shí)別、無(wú)監(jiān)督行人再識(shí)別、虛擬數(shù)據(jù)生成、域泛化行人再識(shí)別、換裝行人再識(shí)別、跨模態(tài)行人再識(shí)別和行人搜索等方面系統(tǒng)地總結(jié)和分析行人再識(shí)別前沿進(jìn)展,最后對(duì)行人再識(shí)別技術(shù)的發(fā)展趨勢(shì)進(jìn)行展望。

1 行人再識(shí)別技術(shù)

1.1 行人再識(shí)別的引入

圖1 給出了一個(gè)典型的智能視頻監(jiān)控系統(tǒng)應(yīng)用示意圖。對(duì)于嫌疑人員追蹤或走失人員找回等實(shí)際應(yīng)用,需要采集所有攝像機(jī)的原始監(jiān)控視頻,基于目標(biāo)檢測(cè)算法檢測(cè)原始監(jiān)控視頻中的行人,并框選截圖,形成行人圖像庫(kù)(也稱為注冊(cè)圖(gallery))。然后,對(duì)于要追蹤的嫌疑目標(biāo)或要找回的人員,即可利用其在某個(gè)監(jiān)控?cái)z像機(jī)下的圖像作為查詢圖像(probe 或query),基于行人再識(shí)別技術(shù),在保存的海量行人圖像庫(kù)中檢索到同一個(gè)人的其他圖像,并借助攝像機(jī)的地理位置和拍攝時(shí)間,確定該行人出現(xiàn)的時(shí)間和地點(diǎn),最終形成行人的運(yùn)動(dòng)軌跡以及最后出現(xiàn)的時(shí)間地點(diǎn),從而實(shí)現(xiàn)嫌疑目標(biāo)追蹤或走失人員找回。

圖1 典型智能視頻監(jiān)控系統(tǒng)應(yīng)用示意圖Fig.1 Illustration of a typical intelligent video surveillance system

行人再識(shí)別算法的一般技術(shù)流程通常包括數(shù)據(jù)集構(gòu)建、模型訓(xùn)練和行人檢索3 個(gè)步驟,如圖2 所示。1)數(shù)據(jù)集構(gòu)建。在校園等一定可控的場(chǎng)景下收集目標(biāo)行人的監(jiān)控視頻,并基于YOLO(you only look once)或Fast R-CNN(fast region convolutional neural network)等目標(biāo)檢測(cè)算法進(jìn)行行人檢測(cè)和是否同一行人目標(biāo)的標(biāo)注,形成帶標(biāo)注的行人圖像數(shù)據(jù)集;2)模型訓(xùn)練。構(gòu)建行人相似性判別模型,并基于1)中得到的行人圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,得到合適的衡量行人圖像之間相似性/距離的判別方法;3)行人檢索。最后,對(duì)一個(gè)攝像機(jī)拍攝的某個(gè)目標(biāo)行人的圖像,將其與其他攝像機(jī)拍攝的大量行人圖像進(jìn)行匹配,找到與其相似性最高或距離最小的行人圖像,從而實(shí)現(xiàn)目標(biāo)行人的再識(shí)別。

1.2 行人再識(shí)別技術(shù)發(fā)展歷程

縱觀行人再識(shí)別的發(fā)展歷程,主要經(jīng)歷了從多攝像機(jī)追蹤到再識(shí)別的起步階段、基于傳統(tǒng)特征的再識(shí)別、基于深度學(xué)習(xí)的再識(shí)別3個(gè)主要階段。

早在1996、1997 年,就有學(xué)者關(guān)注行人或車輛的再識(shí)別問(wèn)題(Cai 和Aggarwal,1996;Huang 和Russell,1997)。2005 年,荷蘭阿姆斯特丹大學(xué)的Zajdel等人(2005)提出行人再識(shí)別的概念。2006 年,Gheissari等人(2006)在計(jì)算機(jī)視覺(jué)和模式識(shí)別會(huì)議CVPR(IEEE Conference on Computer Vision and Pattern Recognition)上首次將依靠行人的外觀特征進(jìn)行行人目標(biāo)匹配的問(wèn)題定義為行人再識(shí)別,標(biāo)志著行人再識(shí)別成為一個(gè)獨(dú)立的視覺(jué)任務(wù)。Gray 和Tao(2008)提出一個(gè)對(duì)于行人再識(shí)別的研究具有重大意義的數(shù)據(jù) 庫(kù)VIPeR(viewpoint invariant pedestrian recognition)。此后,越來(lái)越多的學(xué)者開(kāi)始關(guān)注行人再識(shí)別的研究,相關(guān)的研究成果也不斷涌現(xiàn)。

在2014 年以前,行人再識(shí)別主要利用顏色、紋理(Farenzena 等,2010;Xiang 等,2014;Zhao 等,2013;Yang 等,2014)、形狀特征如方向梯度直方圖(histogram of oriented gradients,HOG)(Oreifej 等,2010)、SIFT(scale-invariant feature transform)特征等局部不變量描述符(Kai 等,2011;Zhao 等,2016)、Haar(haar-like feature)和DCT(discrete cosine transform feature)特征(Bak 等,2010)等手工設(shè)計(jì)的傳統(tǒng)底層特征來(lái)描述行人的表觀信息,結(jié)合度量學(xué)習(xí)方法(K?stinger 等,2012;Xiong 等,2014),對(duì)行人圖像的特征距離加以學(xué)習(xí)。2012 年,Layne 等人(2012)首次提出將15 種手工標(biāo)注的基于底層特征的行人屬性特征用于行人再識(shí)別的方法。這一階段還有行人再識(shí)別技術(shù)發(fā)展進(jìn)程中的兩個(gè)標(biāo)志性事件,其一是在2012 年的領(lǐng)域頂會(huì)歐洲計(jì)算機(jī)視覺(jué)國(guó)際會(huì)議ECCV(European Conference on Computer Vision)上召開(kāi)了第1 個(gè)行人再識(shí)別研討會(huì)(First International Workshop on Re-Identification,http://profs.sci.univr.it/~cristanm/ reid2012/);其二是2013 年英國(guó)倫敦大學(xué)瑪麗皇后學(xué)院的Gong 等人(2014)出版了第1 本行人再識(shí)別的專著,分別從學(xué)術(shù)交流和研究方面為行人再識(shí)別提供了堅(jiān)實(shí)的基礎(chǔ)和更大的舞臺(tái),有效促進(jìn)了行人再識(shí)別技術(shù)的快速發(fā)展。然而,由于行人姿態(tài)變化大,人體表觀特征光照以及復(fù)雜背景等因素影響,如圖3 所示,僅靠傳統(tǒng)特征無(wú)法覆蓋所有情況,手工特征無(wú)法滿足大規(guī)模、復(fù)雜場(chǎng)景的行人再識(shí)別應(yīng)用需求。

圖3 行人再識(shí)別面臨的挑戰(zhàn)Fig.3 Challenges faced by person re-identification

2014 年之后,隨著AlexNet(Alex network)(Krizhevsky 等,2017)的出現(xiàn),以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)以其高效精準(zhǔn)的特征提取能力和強(qiáng)大的端到端學(xué)習(xí)能力,在圖像分類等計(jì)算機(jī)視覺(jué)任務(wù)上取得了遠(yuǎn)超傳統(tǒng)方法的精度。香港中文大學(xué)團(tuán)隊(duì)的相關(guān)工作DeepReID(deep person re-identification)(Li等,2014)是最早使用深度學(xué)習(xí)的行人再識(shí)別的工作之一,標(biāo)志著行人再識(shí)別進(jìn)入了基于深度學(xué)習(xí)的新的發(fā)展階段,基于深度學(xué)習(xí)的行人再識(shí)別也成為了學(xué)界研究的主流方向,并迎來(lái)了井噴式的增長(zhǎng)。同時(shí),相關(guān)行人再識(shí)別數(shù)據(jù)集也在不斷擴(kuò)充,有效促進(jìn)了行人再識(shí)別的廣泛研究和快速發(fā)展。在各大計(jì)算機(jī)視覺(jué)會(huì)議中出現(xiàn)了動(dòng)輒幾十篇相關(guān)論文的現(xiàn)象,行人再識(shí)別技術(shù)迅猛發(fā)展,日新月異,在各個(gè)數(shù)據(jù)集上的結(jié)果也獲得很大提升。圖4是2008—2022年間計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議CVPR、ICCV(IEEE International Conference on Computer Vision)和ECCV 上接收的行人再識(shí)別論文情況。此外,在TPAMI(IEEE Transactions on Pattern Analysis and Machine Intelligence),TIP(IEEE Transactions on Image Processing),IJCV(International Journal of Computer Vision),TMM(IEEE Transactions on Multimedia),TCSVT(IEEE Transactions on Circuits and Systems for Video Technology)等相關(guān)國(guó)際頂級(jí)刊物上,也發(fā)表了大量行人再識(shí)別的研究成果。行人再識(shí)別技術(shù)快速發(fā)展,已成為計(jì)算機(jī)視覺(jué)的一個(gè)熱點(diǎn)方向。

圖4 計(jì)算機(jī)視覺(jué)三大頂級(jí)會(huì)議上的行人再識(shí)別論文情況Fig.4 Number of re-ID papers on three top conferences of computer vision

根據(jù)前期綜述論文(Ye 等,2022)和最新調(diào)研,結(jié)合已有總結(jié)(趙才榮 等,2021)等,2017 年前的行人再識(shí)別研究主要集中在行人的特征表達(dá)和相似性度量上,2018—2020 年結(jié)合注意力的研究促進(jìn)了行人再識(shí)別性能的提升。近年來(lái),面向大規(guī)模復(fù)雜實(shí)際應(yīng)用場(chǎng)景,遮擋、跨域、換裝、跨模態(tài)、無(wú)監(jiān)督、虛擬數(shù)據(jù)生成和行人檢索等研究逐漸成為開(kāi)放域行人再識(shí)別的趨勢(shì)。

1.3 行人再識(shí)別數(shù)據(jù)集

行人再識(shí)別面臨著光照、視角、姿態(tài)、攝像參數(shù)、遮擋和背景變化等諸多因素影響。為了更好地模擬這些因素、訓(xùn)練更好的行人再識(shí)別模型以及評(píng)估不同行人再識(shí)別算法的性能,從2008 年,Gray 和Tao(2008)提出第1 個(gè)僅包含2 個(gè)攝像頭、分別率為128×48 像素的632個(gè)行人的1 264幅圖像的行人再識(shí)別數(shù)據(jù)集VIPeR,再到第1個(gè)足以支撐深度學(xué)習(xí)的行人重新識(shí)別數(shù)據(jù)集CUHK03(Li 等,2014),不斷有研究者構(gòu)建出考慮更復(fù)雜場(chǎng)景因素、更大規(guī)模的數(shù)據(jù)集,極大促進(jìn)了行人再識(shí)別技術(shù)的發(fā)展。鑒于多篇參考文獻(xiàn)(趙才榮 等,2021;Ye 等,2022;Gou,2022)中已對(duì)行人再識(shí)別數(shù)據(jù)集進(jìn)行了較為詳盡的介紹,本節(jié)重點(diǎn)介紹目前最常用的3 個(gè)行人再識(shí)別數(shù)據(jù)集,即Market-1501(Zheng 等,2015a)、DukeMTMC-reID(Duke multi-target,multi-camera for person re-identification)(Ristani 等,2016)和MSMT17(multi-scene multi-time)(Wei等,2018)。

1)Market-1501 數(shù)據(jù)集(Zheng 等,2015a)是清華大學(xué)研究團(tuán)隊(duì)在2015 年發(fā)布的行人再識(shí)別數(shù)據(jù)集,由6 臺(tái)攝像機(jī)采集,包括5 臺(tái)高分辨率攝像機(jī)和1 臺(tái)低分辨率攝像機(jī)。該數(shù)據(jù)集共包含1 501 個(gè)行人的32 668 幅行人圖像,其中訓(xùn)練集包含751 個(gè)行人類別和12 936 幅行人圖像,測(cè)試集包含750 個(gè)行人類別和19 732 幅行人圖像。在測(cè)試集中,查詢圖像采用人工標(biāo)注的檢測(cè)邊界框,而候選圖像采用DPM(deformable parts model)生成的檢測(cè)邊界框,行人檢測(cè)器的框不對(duì)齊、遮擋情況等更加嚴(yán)重。之后,為了模擬大規(guī)模檢索,加入了約50 萬(wàn)幅干擾圖像,包含了失敗的檢測(cè)框、不在測(cè)試集當(dāng)中的行人等,使該數(shù)據(jù)集更貼近真實(shí)場(chǎng)景。

2)DukeMTMC-reID 數(shù)據(jù)集(Ristani 等,2016)是用于多目標(biāo)跨鏡頭跟蹤的數(shù)據(jù)集,由美國(guó)杜克大學(xué)研究團(tuán)隊(duì)在2016年構(gòu)建并發(fā)布。研究者使用8臺(tái)攝像機(jī)拍攝了8 段85 min 的高分辨率視頻?;谶@些視頻,構(gòu)造了規(guī)模與Market-1501相似的行人再識(shí)別數(shù)據(jù)集DukeMTMC-reID,其中的行人圖像是手動(dòng)框選出來(lái)的。DukeMTMC-reID 數(shù)據(jù)集包含來(lái)自8 臺(tái)攝像機(jī)的1 812 個(gè)行人的36 411 幅圖像,其中有702個(gè)行人的圖像用于訓(xùn)練,702 個(gè)行人的圖像用于測(cè)試。

3)MSMT17數(shù)據(jù)集(Wei等,2018)是北京大學(xué)研究團(tuán)隊(duì)于2017 年構(gòu)建,并在CVPR 2018 正式發(fā)布的行人再識(shí)別數(shù)據(jù)集,是目前規(guī)模最大、最接近真實(shí)場(chǎng)景的基于圖像的行人再識(shí)別數(shù)據(jù)集。其原始數(shù)據(jù)由15 臺(tái)攝像機(jī)采集,包含12 臺(tái)戶外攝像機(jī)和3 臺(tái)室內(nèi)攝像機(jī)。為了提高數(shù)據(jù)集的多樣性,該數(shù)據(jù)集拍攝的時(shí)間跨度大,在1 個(gè)月內(nèi)采集了4 天,分別拍攝上午、中午、下午3 個(gè)時(shí)間段的行人視頻,每天拍攝3 h,所有視頻數(shù)據(jù)的總時(shí)長(zhǎng)為180 h。該數(shù)據(jù)集有復(fù)雜的場(chǎng)景和豐富的光照變化,即在不同的天氣、不同的光照條件下拍攝采集。行人框使用Faster R-CNN(Ren 等,2017)檢測(cè)器產(chǎn)生。最終收集的數(shù)據(jù)集包含了4 101個(gè)行人類別和126 441幅行人圖像。其中,訓(xùn)練集包含1 401個(gè)行人類別和32 621幅行人圖像,測(cè)試集包含3 060 個(gè)行人類別和93 820 幅行人圖像。

表1 比較了這3 個(gè)行人再識(shí)別數(shù)據(jù)集的發(fā)布時(shí)間、圖像數(shù)量、行人身份數(shù)量和攝像機(jī)數(shù)量等信息。

表1 行人再識(shí)別三大常用數(shù)據(jù)集信息統(tǒng)計(jì)表Table 1 Statistics of the three most commonly used re-ID datasets

1.4 行人再識(shí)別評(píng)測(cè)指標(biāo)

行人再識(shí)別任務(wù)的常用評(píng)測(cè)指標(biāo)主要有Rank-N指標(biāo)、累計(jì)匹配性能曲線(cumulated matching characteristics,CMC)(Moon 和Phillips,2001)、平均精度均值(mean average precision,mAP)(Zheng 等,2015a)和平均逆負(fù)樣本懲罰率(mean inverse negative penalty,mINP)(Ye等,2022)等。

1)Rank-N。Rank-N指按照查詢圖與所有注冊(cè)圖間的特征距離對(duì)檢索得到的圖像從小到大進(jìn)行排序后,前N幅排序結(jié)果中包含正確目標(biāo)行人圖像的概率,概率越大表示再識(shí)別算法的效果越好。Rank-N是一個(gè)最直觀的指標(biāo),常用的有Rank-1、Rank-5、Rank-10 和Rank-20,分別代表在第1 幅、前5 幅、前10 幅和前20 幅注冊(cè)圖圖像中包含正確目標(biāo)行人圖像的概率。

2)累計(jì)匹配性能曲線(CMC)。雖然Rank-N簡(jiǎn)單直觀,但是每個(gè)Rank-N指標(biāo)只能體現(xiàn)在給定N值情況下的性能。為此,Moon和Phillips(2001)提出了累計(jì)匹配性能曲線(CMC),同時(shí)表示不同N值情況下的性能。CMC 曲線首先使用再識(shí)別模型對(duì)查詢圖和注冊(cè)圖提取特征,計(jì)算特征之間距離,并按照特征距離從小到大對(duì)注冊(cè)圖進(jìn)行排序;然后,取排在前K幅的注冊(cè)圖作為查詢結(jié)果,如果該結(jié)果中包含正確的目標(biāo)行人圖像,則設(shè)置結(jié)果概率為1,否則設(shè)置結(jié)果概率為0;最后,對(duì)所有查詢圖的結(jié)果概率計(jì)算平均值。因此,隨著K值的增大,CMC曲線呈上升趨勢(shì),它反映了不同長(zhǎng)度候選列表中被檢索的目標(biāo)出現(xiàn)的概率。CMC 是行人再識(shí)別領(lǐng)域最常用的性能評(píng)估方法之一。

3)平均精度均值mAP。CMC 曲線可以有效表示不同查詢下的精確率(precision)性能,但是難以反映查詢結(jié)果的召回率(recall)性能。因此,引入了平均精度均值mAP。mAP 中的AP 即平均精度(average precision)(Zheng 等,2015a),通過(guò)計(jì)算每個(gè)查詢的精確率—召回率曲線(precision-recall curve,PRC)下的面積,同時(shí)兼顧了精確率和召回率性能。而mAP 通過(guò)計(jì)算多個(gè)查詢圖像的平均準(zhǔn)確率的均值來(lái)綜合評(píng)價(jià)算法的性能,因此,mAP 是一個(gè)比CMC曲線更全面的評(píng)價(jià)指標(biāo)。具體計(jì)算為

式中,m為查詢集中查詢圖像的數(shù)量,APi為第i個(gè)查詢圖像的平均精度。

4)平均逆負(fù)樣本懲罰率(mINP)。理想的re-ID算法應(yīng)該使針對(duì)所有查詢集圖像的檢索到的圖像排得盡可能靠前,而CMC 和mAP 都無(wú)法體現(xiàn)這一點(diǎn)。為此,Ye 等人(2022)提出了平均逆負(fù)樣本懲罰率(mINP)指標(biāo),其定義和計(jì)算為

式中,m為查詢集中查詢圖數(shù)量,指最困難正樣本在匹配列表中的索引rank 值,即最后一個(gè)正確匹配結(jié)果的索引位置,|Gi|指正確匹配樣本的總數(shù)。

通過(guò)考慮正確匹配樣本,特別是最難匹配正樣本在匹配列表中的索引rank值,mINP能夠彌補(bǔ)CMC和mAP 難以衡量模型在最難匹配正樣本上性能的問(wèn)題。

需要說(shuō)明的是,自從Market-1501 等含有多個(gè)攝像機(jī)數(shù)據(jù)的大型數(shù)據(jù)集提出后,研究者基本上都只關(guān)注跨攝像機(jī)再識(shí)別的準(zhǔn)確性,因此在計(jì)算上述指標(biāo)時(shí)會(huì)忽略來(lái)自同一臺(tái)攝像機(jī)的正確匹配圖像。

2 行人再識(shí)別前沿進(jìn)展

由1.2 節(jié)可知,面向大規(guī)模復(fù)雜實(shí)際應(yīng)用場(chǎng)景,跨域、遮擋、換裝、跨模態(tài)、無(wú)監(jiān)督、虛擬數(shù)據(jù)生成和行人檢索等研究逐漸成為開(kāi)放域行人再識(shí)別的趨勢(shì)。因此,本節(jié)面向行人再識(shí)別的技術(shù)發(fā)展和落地應(yīng)用需求,遮擋行人再識(shí)別、無(wú)監(jiān)督行人再識(shí)別、從虛擬數(shù)據(jù)生成、域泛化行人再識(shí)別、換裝行人再識(shí)別、跨模態(tài)行人再識(shí)別和行人搜索等方面,梳理總結(jié)行人再識(shí)別技術(shù)的前沿進(jìn)展,歸納其發(fā)展現(xiàn)狀、存在問(wèn)題和發(fā)展趨勢(shì)。

2.1 遮擋行人再識(shí)別

在現(xiàn)實(shí)視頻感知場(chǎng)景中,鏡頭下的行人圖像普遍存在遮擋問(wèn)題,嚴(yán)重影響了現(xiàn)有行人再識(shí)別算法在實(shí)際場(chǎng)景中的性能。很多學(xué)者開(kāi)始關(guān)注遮擋行人再識(shí)別算法研究。已有研究通過(guò)提取可見(jiàn)的行人特征、特征配準(zhǔn)和補(bǔ)全缺失行人信息等手段有效地降低了遮擋問(wèn)題的影響,提升了遮擋行人再識(shí)別的性能。本節(jié)首先介紹遮擋行人再識(shí)別常用的數(shù)據(jù)集,然后重點(diǎn)闡述近幾年遮擋行人再識(shí)別研究取得的進(jìn)展和結(jié)果。

2.1.1 遮擋行人再識(shí)別數(shù)據(jù)集簡(jiǎn)介

為了更全面地檢驗(yàn)遮擋行人再識(shí)別方法的有效性,除了1.3 節(jié)介紹的Market-1501、DukeMTMCreID 等全身數(shù)據(jù)集外,常用的遮擋行人再識(shí)別數(shù)據(jù)集有兩大類共4 個(gè),即遮擋數(shù)據(jù)集Occluded-Duk(Miao 等,2019)和Occluded-REID(occluded person re-identification)(Zhuo 等,2018);部分成像數(shù)據(jù)集Partial-REID(partial person re-identification)(Zheng等,2015b)和Partial-iLIDs(partial international logistic identification)(Zheng等,2011)。

1)遮擋數(shù)據(jù)集。Occluded-Duke是從DukeMTMCreID數(shù)據(jù)集中重構(gòu)出來(lái)的,刪除了DukeMTMC-reID中的一些重復(fù)圖像,并挑選受遮擋的行人圖像作為查詢圖像。Occluded-Duke 包含15 618 幅訓(xùn)練圖像,2 210 幅查詢圖像(query)以及17 661 幅數(shù)據(jù)庫(kù)的圖像(gallery),是目前遮擋行人再識(shí)別問(wèn)題中最大且最具挑戰(zhàn)的遮擋數(shù)據(jù)集。Occluded-REID 包含來(lái)自于200個(gè)行人的2 000幅圖像。每個(gè)行人有5幅全身圖像和5幅被遮擋圖像。其中,被遮擋圖像作為查詢圖像,全身圖像作為數(shù)據(jù)庫(kù)的圖像。由于Occluded-REID 數(shù)據(jù)集規(guī)模較小,且沒(méi)有訓(xùn)練集,一般在Market-1501上訓(xùn)練,在Occluded-REID上進(jìn)行測(cè)試。

2)部分成像數(shù)據(jù)集。除了以上兩個(gè)遮擋數(shù)據(jù)集之外,由于部分成像行人再識(shí)別和遮擋行人再識(shí)別面臨的核心問(wèn)題相近,部分成像數(shù)據(jù)集Partial-REID和Partial-iLIDs 也常用來(lái)測(cè)試遮擋行人再識(shí)別方法的性能。Partial-REID 包含來(lái)自60 個(gè)人的600 幅圖像。每個(gè)行人有5 幅全身圖像和5 幅部分成像圖像。其中,部分成像圖像作為查詢圖像,全身圖像作為數(shù)據(jù)庫(kù)圖像。Partial-iLIDs包含從機(jī)場(chǎng)拍攝的119個(gè)行人的238 幅圖像。每人有2 幅圖像,1 幅作為查詢圖像,1幅作為數(shù)據(jù)庫(kù)圖像。同樣地,Partial-REID和Partial-iLIDs 沒(méi)有訓(xùn)練集,一般在Market-1501 上進(jìn)行訓(xùn)練。

2.1.2 遮擋行人再識(shí)別研究進(jìn)展

在遮擋行人再識(shí)別問(wèn)題中,待查詢圖像中的目標(biāo)行人通常受到遮擋,造成目標(biāo)行人表觀信息缺失問(wèn)題。該問(wèn)題給遮擋的行人再識(shí)別帶來(lái)了兩個(gè)主要挑戰(zhàn)。一是遮擋物給提取的特征中引入了噪聲,影響檢索過(guò)程中的特征配準(zhǔn)和相似性計(jì)算;二是被遮擋區(qū)域的行人信息缺失,使得提取的行人特征鑒別性降低。為了應(yīng)對(duì)以上兩種挑戰(zhàn),針對(duì)遮擋行人再識(shí)別問(wèn)題,人們提出了兩種解決方法,即基于可見(jiàn)區(qū)域的遮擋行人再識(shí)別方法和基于補(bǔ)全的遮擋行人再識(shí)別方法。

1)基于可見(jiàn)區(qū)域的遮擋行人再識(shí)別方法。這類方法的主要思路是,精確定位圖像中的行人可見(jiàn)區(qū)域,僅依靠可見(jiàn)的行人部分進(jìn)行再識(shí)別,忽略遮擋物和背景的影響。Miao 等人(2019)提出一種基于行人關(guān)鍵點(diǎn)信息的特征對(duì)齊方法。首先利用一個(gè)額外的人體關(guān)鍵點(diǎn)檢測(cè)網(wǎng)絡(luò),得到圖像中人體關(guān)鍵點(diǎn)的位置以及關(guān)鍵點(diǎn)是否被遮擋的信息。然后,提取關(guān)鍵點(diǎn)的特征作為行人的特征表示。在檢索過(guò)程中,僅考慮未被遮擋的關(guān)鍵點(diǎn)特征之間的距離,從而實(shí)現(xiàn)了特征對(duì)齊。He 等人(2018)提出一種基于特征重建的方法,在求解重建矩陣的過(guò)程中隱式地實(shí)現(xiàn)了特征對(duì)齊。然而,求解重建矩陣需要的計(jì)算復(fù)雜度高,不適用大規(guī)模的再識(shí)別場(chǎng)景。史維東等人(2020)通過(guò)擦除空間注意力高響應(yīng)對(duì)應(yīng)的區(qū)域而僅保留低響應(yīng)的特征區(qū)域,模擬行人遮擋樣本,改善了網(wǎng)絡(luò)對(duì)遮擋樣本的能力。Wang等人(2020b)將行人的關(guān)鍵點(diǎn)特征看做圖中節(jié)點(diǎn),利用圖卷積網(wǎng)絡(luò)學(xué)習(xí)關(guān)鍵點(diǎn)之間的高階關(guān)系和拓?fù)湫畔?,進(jìn)而提取鑒別力強(qiáng)的特征表示。田維怡(2021)借助額外的行人解析模型在遮擋環(huán)境下精確定位行人圖像的前景,并且建模像素特征不確定性來(lái)提高網(wǎng)絡(luò)的抗遮擋能力。李吉林(2021)借助注意力機(jī)制,根據(jù)人體姿態(tài)信息計(jì)算行人圖像的注意力圖,用于指導(dǎo)網(wǎng)絡(luò)過(guò)濾背景遮擋信息的干擾,并借助特征金字塔緩解了行人圖像尺度差異較大的問(wèn)題。任雪娜等人(2021)以行人的語(yǔ)義掩膜作為監(jiān)督信息,通過(guò)全局和局部的語(yǔ)義引導(dǎo)來(lái)提取行人的全身和局部特征,推理時(shí)僅考慮共享的可見(jiàn)人體區(qū)域特征,提高了模型對(duì)遮擋的容忍能力。Zheng 等人(2022)借助關(guān)鍵點(diǎn)特征,提出一種基于知識(shí)蒸餾的特征引導(dǎo)學(xué)習(xí)方法來(lái)學(xué)習(xí)不同身體部位的對(duì)齊表征。受益于知識(shí)蒸餾和交互學(xué)習(xí),在該方法中,關(guān)鍵點(diǎn)檢測(cè)器可以在測(cè)試時(shí)丟棄,從而提高檢索效率。這幾種方法需要借助于額外的關(guān)鍵點(diǎn)檢測(cè)模型或姿態(tài)估計(jì)模型,由于這些模型的訓(xùn)練數(shù)據(jù)和行人再識(shí)別的數(shù)據(jù)之間存在著一定的域差異,導(dǎo)致在行人再識(shí)別數(shù)據(jù)上提取的關(guān)鍵點(diǎn)信息容易出錯(cuò),影響最終的行人再識(shí)別性能。考慮到這個(gè)問(wèn)題,Yang 等人(2021b)提出將姿態(tài)信息離散化為身體部位的可見(jiàn)性標(biāo)簽,以減輕噪聲姿態(tài)信息在關(guān)鍵點(diǎn)特征提取過(guò)程中以及特征配準(zhǔn)過(guò)程中的影響。Cheng 等人(2022)通過(guò)集成多個(gè)在不同數(shù)據(jù)上訓(xùn)練的行人解析模型來(lái)生成更可靠的行人語(yǔ)義信息,幫助提取更準(zhǔn)確的行人特征。Chen 等人(2021b)提出了遮擋感知掩碼網(wǎng)絡(luò)(occlusion-aware mask network,OAMN),通過(guò)給圖像中人為地添加遮擋物,對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng),同時(shí)得到遮擋物精確位置標(biāo)簽?;谠摌?biāo)簽,OAMN 學(xué)習(xí)一個(gè)注意力模塊,關(guān)注行人的可見(jiàn)區(qū)域,有效減小了遮擋物帶來(lái)的影響。Jia 等人(2022b)提出一個(gè)基于Transformer 的解耦表示網(wǎng)絡(luò)DRL-Net(disentangled reinforcement learning-network)來(lái)解決遮擋行人再識(shí)別問(wèn)題,該網(wǎng)絡(luò)不需要嚴(yán)格的特征對(duì)齊和額外的信息?;赥ransformer 架構(gòu),DRL-Net 通過(guò)對(duì)被遮擋行人的局部特征進(jìn)行全局推理來(lái)實(shí)現(xiàn)無(wú)需對(duì)齊的檢索方法。在學(xué)習(xí)過(guò)程中,Transformer 的queries 啟發(fā)式地解耦了抽象的語(yǔ)義部件。在檢索過(guò)程中,直接利用queries 來(lái)計(jì)算圖像的相似性,無(wú)需進(jìn)行精確的特征對(duì)齊。Dou 等人(2022)受到人類視覺(jué)系統(tǒng)中“自頂向下”的處理機(jī)制的啟發(fā),提出了為行人提取多粒度特征的方法,將行人的特征表示拓展到像素級(jí)別,并給不同粒度的特征設(shè)計(jì)了基于對(duì)齊的相似性度量方式,有效解決了檢索過(guò)程中的特征配準(zhǔn)的問(wèn)題。Tan等人(2022)提出一個(gè)多頭自注意力網(wǎng)絡(luò)來(lái)剪枝圖像中不重要的信息以及捕獲行人關(guān)鍵的局部信息,有效減小了遮擋物的影響。

2)基于補(bǔ)全的行人再識(shí)別方法。這類方法的主要思路是,利用時(shí)空上下文來(lái)補(bǔ)全圖像中遮擋區(qū)域缺失的行人信息,提高特征的鑒別性。Iodice 和Mikolajczyk(2018)提出部分匹配網(wǎng)絡(luò)PMN(partial matching network),可以檢測(cè)人體關(guān)鍵點(diǎn),對(duì)齊部分視圖并且根據(jù)視頻幀中的可見(jiàn)行人信息和特有的行人模型來(lái)幻覺(jué)出行人缺失的部分,然后將對(duì)齊的視圖和重建的視圖組合成一個(gè)聯(lián)合表示用于圖像匹配。Hou 等人(2019)提出STCnet(spatio-temporal completion network),利用視頻中的空間連續(xù)性和時(shí)間連續(xù)性來(lái)補(bǔ)全某一幀被遮擋的行人區(qū)域,從而提高特征的鑒別力。然而這種方法僅適用于視頻行人再識(shí)別,在圖像行人再識(shí)別中,時(shí)序信息是無(wú)法獲得的。為了解決這個(gè)問(wèn)題,Xu 等人(2022a)提出了補(bǔ)全圖像中缺失部件特征的方法。給定一幅待檢索的查詢圖像,首先為其提取部件特征,然后進(jìn)行檢索,得到圖像庫(kù)中與待查詢圖像最相似的前k幅圖像。然后用這k幅圖像的部件特征來(lái)恢復(fù)遮擋圖像中缺失的部件特征,實(shí)現(xiàn)進(jìn)一步檢索。Hou 等人(2022)設(shè)計(jì)了一種即插即用的模塊,利用非遮擋區(qū)域的空間上下文信息來(lái)補(bǔ)全遮擋區(qū)域的行人特征,同時(shí)利用時(shí)間序列的上下文來(lái)進(jìn)一步提純補(bǔ)全的特征。該方法可以同時(shí)適用于視頻行人再識(shí)別和圖像行人再識(shí)別問(wèn)題。

遮擋行人再識(shí)別問(wèn)題受到越來(lái)越多的關(guān)注,在具有挑戰(zhàn)性的遮擋數(shù)據(jù)集Occluded-Duke上,Rank-1指標(biāo)已經(jīng)由最開(kāi)始提出時(shí)的51.4%不斷提升,目前已經(jīng)達(dá)到70%以上。基于可見(jiàn)區(qū)域的方法和基于補(bǔ)全的方法均取得了相當(dāng)?shù)慕Y(jié)果。具體來(lái)說(shuō),目前性能最好的基于可見(jiàn)區(qū)域的方法是Cheng 等人(2022)提出的MSDPA(multi-source dynamic parsing attention),在Occluded-Duke 上的Rank-1 指標(biāo)為70.4%。性能最好的基于補(bǔ)全的方法是Xu 等人(2022a)提出的FRT(feature recovery transformer),在Occluded-Duke上的Rank-1指標(biāo)為70.7%。

2.2 無(wú)監(jiān)督行人再識(shí)別

利用人工在多路視頻中查找和標(biāo)注相同行人難度高、效率低,嚴(yán)重制約了有監(jiān)督行人再識(shí)別方法的應(yīng)用。針對(duì)該問(wèn)題,近3年很多學(xué)者開(kāi)始關(guān)注無(wú)監(jiān)督行人再識(shí)別算法研究。相關(guān)方法通過(guò)引入預(yù)訓(xùn)練模型、數(shù)據(jù)增強(qiáng)策略以及設(shè)計(jì)偽標(biāo)簽生成方法等方式顯著降低了人工標(biāo)注需求,提升了無(wú)監(jiān)督行人再識(shí)別性能,推進(jìn)了行人再識(shí)別系統(tǒng)的落地應(yīng)用。本節(jié)對(duì)無(wú)監(jiān)督行人再識(shí)別領(lǐng)域的進(jìn)展進(jìn)行分類和總結(jié)。

1)基于偽標(biāo)簽生成的方法。很多無(wú)監(jiān)督行人再識(shí)別方法首先在無(wú)標(biāo)注數(shù)據(jù)上利用標(biāo)簽預(yù)測(cè)算法來(lái)獲取每個(gè)數(shù)據(jù)的偽標(biāo)簽,然后利用這些偽標(biāo)簽來(lái)訓(xùn)練模型。當(dāng)前獲取偽標(biāo)簽的主要方法包括基于K近鄰的方法(Zhong 等,2019,2021;Yu 等,2019b)、基于K 均值聚類的方法(Ge 等,2020;Huang 等,2019a;Zhai 等,2020)以及基于密度空間聚類(density-based spatial clustering of applications with noise,DBSCAN)的方法(Ester等,1996;Fu 等,2019;Dai等,2023)等。例如,Zhong等人(2019)使用KNN(K-nearestneighbor)方法獲取正樣本,即每個(gè)樣本的前K 個(gè)近鄰樣本作為其正樣本,其余樣本為負(fù)樣本。Zhong 等人(2021)進(jìn)一步利用圖神經(jīng)網(wǎng)絡(luò)優(yōu)化特征距離遠(yuǎn)近關(guān)系,獲得更準(zhǔn)確的K 近鄰正樣本。Yu 等人(2020)提出在使用特征間歐氏距離之外,額外使用對(duì)目標(biāo)圖像的分類預(yù)測(cè)得分來(lái)共同計(jì)算樣本間相似度,提升了K近鄰正樣本的準(zhǔn)確率。也有研究者設(shè)計(jì)了新的聚類算法來(lái)預(yù)測(cè)正負(fù)樣本(Ding 等,2019;Lin 等,2019)。例如,Lin 等人(2019)提出了一種自底向上的聚類方法(bottom-up clustering,BUC),首先將每個(gè)單獨(dú)的樣本看做一個(gè)簇,然后逐漸融合相近的簇為同一個(gè)簇。融合過(guò)程中,使用兩個(gè)簇內(nèi)最小的樣本距離作為兩個(gè)簇的距離,并融合距離最近的簇。此外,還設(shè)計(jì)了簇內(nèi)樣本個(gè)數(shù)的正則化項(xiàng)以優(yōu)先融合樣本個(gè)數(shù)較少的簇,從而平衡不同簇內(nèi)的樣本數(shù)量,并最終較好地平衡了簇內(nèi)樣本的相似性和差異性。Ding 等人(2019)則進(jìn)一步優(yōu)化了BUC 中簇間距離計(jì)算方式,提升了簇內(nèi)樣本的準(zhǔn)確性。這些聚類方法都有助于在無(wú)標(biāo)注數(shù)據(jù)上獲取更為準(zhǔn)確的偽標(biāo)簽,用于監(jiān)督模型的學(xué)習(xí)。

在對(duì)無(wú)標(biāo)注數(shù)據(jù)預(yù)測(cè)偽標(biāo)簽的基礎(chǔ)上,可以使用分類損失函數(shù)訓(xùn)練網(wǎng)絡(luò)。為提升特征的判別力,也有工作在特征空間引入三元組損失函數(shù)共同訓(xùn)練模型(Fu 等,2019;Lin 等,2020)。但是,基于偽標(biāo)簽訓(xùn)練模型會(huì)受到偽標(biāo)簽中噪聲的干擾,因此直接使用偽標(biāo)簽作為分類或三元組損失難以達(dá)到較高的性能。為應(yīng)對(duì)偽標(biāo)簽中噪聲的影響,研究者提出了多種方法來(lái)提升訓(xùn)練過(guò)程對(duì)標(biāo)簽噪聲的魯棒性,主要手段為模型協(xié)同訓(xùn)練。這類方法(Yu等,2019a;Han等,2018;Ke 等,2019)使用多個(gè)模型協(xié)同訓(xùn)練以提升對(duì)噪聲的魯棒性。例如,Han 等人(2018)提出使用兩個(gè)網(wǎng)絡(luò)互相為對(duì)方選擇訓(xùn)練樣本并預(yù)測(cè)偽標(biāo)簽以降低噪聲標(biāo)簽的影響。Tarvainen 和Valpola(2017)提出了均值教師模型用于模型協(xié)同訓(xùn)練,并應(yīng)用于半監(jiān)督訓(xùn)練任務(wù)。均值教師模型是指在訓(xùn)練中利用動(dòng)量更新的方式累加各次梯度更新后的模型參數(shù),并將其作為教師模型,指導(dǎo)當(dāng)前模型的訓(xùn)練。

在Tarvainen 和Valpola(2017)工作的基礎(chǔ)上,Jiang 等人(2018)發(fā)現(xiàn)均值教師模型能夠減小噪聲標(biāo)簽對(duì)訓(xùn)練的影響。He等人(2020)將均值教師模型用于自監(jiān)督特征學(xué)習(xí),并有研究者做了許多改進(jìn)工作(Grill等,2020)。在此啟發(fā)下,Ge等人(2020)提出了相互均值學(xué)習(xí)方法(mutual mean-teaching,MMT),將均值教師模型和雙模型協(xié)同訓(xùn)練方法相結(jié)合,使用兩個(gè)均值教師模型同時(shí)監(jiān)督模型訓(xùn)練,并應(yīng)用于無(wú)監(jiān)督目標(biāo)再識(shí)別任務(wù)。Zhai等人(2020)則在MMT的基礎(chǔ)上進(jìn)一步拓展,提出了多模型訓(xùn)練方法(multiple expert brainstorming network,MEB-Net),使用多個(gè)不同網(wǎng)絡(luò)結(jié)構(gòu)的3個(gè)均值教師模型聯(lián)合訓(xùn)練。

2)基于域遷移的方法。為解決目標(biāo)場(chǎng)景無(wú)標(biāo)注數(shù)據(jù)的問(wèn)題,另一些方法試圖利用其他場(chǎng)景的標(biāo)注數(shù)據(jù),并將其中的信息遷移到目標(biāo)場(chǎng)景之中。有研究者嘗試?yán)蒙蓪?duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)模型將有標(biāo)注的其他場(chǎng)景圖像遷移到目標(biāo)場(chǎng)景所在的數(shù)據(jù)分布之中,從而減小光照、背景等圖像分布差異,以輔助目標(biāo)場(chǎng)景的模型訓(xùn)練(Wei 等,2018;Chen 等,2019;Liu 等,2019a)。例如,Wei等人(2018)提出的行人圖像風(fēng)格遷移模型(person transfer GAN,PTGAN)將有標(biāo)注的行人圖像遷移到無(wú)標(biāo)注行人圖像的風(fēng)格之中,并提出行人目標(biāo)的前景一致性約束來(lái)提高生成圖像的質(zhì)量。圖5 展示了4 組PTGAN 方法生成的遷移風(fēng)格后的圖像,每組第1 列為來(lái)自CUHK03 數(shù)據(jù)集的原始標(biāo)注圖像;第2 列為將其風(fēng)格遷移到PRID 數(shù)據(jù)集所在場(chǎng)景之后的圖像。另一類域遷移的方法(Mekhazni 等,2020;Liu等,2021)通過(guò)拉近不同場(chǎng)景數(shù)據(jù)在特征空間的分布距離,使模型在標(biāo)注圖像上學(xué)習(xí)到的表達(dá)能力可以更有效地推廣到無(wú)標(biāo)注場(chǎng)景。例如,Liu和Zhang(2020)提出基于對(duì)抗訓(xùn)練的場(chǎng)景不變映射,要求不同場(chǎng)景的數(shù)據(jù)在判別器層面是不可分的,從而拉近特征空間中不同場(chǎng)景下特征的分布。

圖5 行人目標(biāo)圖像風(fēng)格遷移效果舉例(Wei等,2018)Fig.5 Illustration of results by person transfer GAN(Wei et al.,2018)

3)其他方法。行人再識(shí)別任務(wù)一般針對(duì)于監(jiān)控?cái)z像機(jī)數(shù)據(jù),在數(shù)據(jù)收集的過(guò)程中,除了圖像本身,還可以得到對(duì)應(yīng)圖像的時(shí)間戳信息、攝像機(jī)的編號(hào)等信息。一些方法通過(guò)使用這些額外信息,進(jìn)一步提高了無(wú)監(jiān)督行人再識(shí)別方法的性能。

Li 和Zhang(2020)在常規(guī)行人外觀特征的基礎(chǔ)上,根據(jù)對(duì)應(yīng)圖像的時(shí)間戳信息,提出了基于視覺(jué)時(shí)空一致性相似度的聚類方法。該方法通過(guò)對(duì)不同圖像間的時(shí)間采樣間隔進(jìn)行分布建模,并根據(jù)分布模型對(duì)基于行人外觀特征的圖像相似度進(jìn)行修正,從而生成更加準(zhǔn)確的偽標(biāo)簽。為了優(yōu)化網(wǎng)絡(luò),Li 和Zhang(2020)進(jìn)一步提出了局部和全局分類損失函數(shù)。局部分類損失函數(shù)將每個(gè)訓(xùn)練批次中的圖像看做不同類別,并拉開(kāi)它們特征間的距離。全局分類損失函數(shù)根據(jù)視覺(jué)相似度和時(shí)空一致性相似度對(duì)整個(gè)訓(xùn)練集進(jìn)行聚類的結(jié)果,通過(guò)多類別分類損失函數(shù)將同一類別圖像的特征拉近,將不同類別圖像的特征推遠(yuǎn)。除了訓(xùn)練階段,所提出的時(shí)空一致性相似度可以用于一般行人再識(shí)別方法的后處理來(lái)進(jìn)一步提高模型性能。

與大多數(shù)直接使用樣本相似度進(jìn)行聚類來(lái)生成偽標(biāo)簽的方法不同,Xuan 和Zhang(2021)根據(jù)圖像拍攝攝像機(jī)的標(biāo)簽,將相似度計(jì)算劃分為攝像機(jī)內(nèi)部和跨攝像機(jī)兩個(gè)階段。攝像機(jī)內(nèi)部階段通過(guò)計(jì)算攝像機(jī)內(nèi)部樣本間的相似度進(jìn)行聚類生成偽標(biāo)簽來(lái)訓(xùn)練網(wǎng)絡(luò),從而提高網(wǎng)絡(luò)對(duì)于攝像機(jī)內(nèi)部樣本外觀差異的魯棒性。跨攝像機(jī)階段為了減少攝像機(jī)差異所引起的相似度降低,提出了基于域無(wú)關(guān)相似度的跨攝像機(jī)相似度計(jì)算方法,并使用跨攝像機(jī)相似度進(jìn)行聚類生成偽標(biāo)簽訓(xùn)練網(wǎng)絡(luò),提高了網(wǎng)絡(luò)對(duì)于樣本間跨攝像機(jī)外觀差異的魯棒性。

2.3 虛擬數(shù)據(jù)行人再識(shí)別

數(shù)據(jù)匱乏一直制約著行人再識(shí)別的發(fā)展,除了標(biāo)注困難之外,近年來(lái)對(duì)監(jiān)控視頻數(shù)據(jù)隱私敏感性和倫理問(wèn)題的關(guān)注更使得這個(gè)問(wèn)題雪上加霜,已有一些公開(kāi)數(shù)據(jù)集因此下架,如DukeMTMC-reID(duke multi-target,multi-camera for person reidentification)(Ristani 等,2016)、MS-Celeb-1M(Guo等,2016)和TinyFace(Cheng等,2018)等數(shù)據(jù)集。與之相反,虛擬數(shù)據(jù)幾乎無(wú)需標(biāo)注、沒(méi)有隱私敏感問(wèn)題,且能夠彌補(bǔ)現(xiàn)實(shí)世界的不足,創(chuàng)造出全新、獨(dú)立的圖像。為此,研究人員開(kāi)始探索通過(guò)游戲引擎產(chǎn)生虛擬數(shù)據(jù)以輔助行人再識(shí)別。并且,一些方法通過(guò)生成大規(guī)模虛擬數(shù)據(jù)庫(kù),證明了其能顯著提升可泛化行人再識(shí)別的能力。本節(jié)全面闡述近些年行人再識(shí)別虛擬數(shù)據(jù)的構(gòu)建方法和取得的進(jìn)展和結(jié)果。表2 展示了虛擬行人再識(shí)別數(shù)據(jù)集的總結(jié),其中Rank-1 和mAP 是跨庫(kù)泛化到MSMT17 數(shù)據(jù)集上的測(cè)試結(jié)果,PersonX 和SOMAset 的結(jié)果來(lái)自RandPerson,SyRI 的結(jié)果來(lái)自UnrealPerson。數(shù)據(jù)集示例圖像如圖6所示。

表2 虛擬行人再識(shí)別數(shù)據(jù)集的總結(jié)Table 2 Summary of the virtue re-ID datasets

圖6 已有虛擬數(shù)據(jù)庫(kù)示例Fig.6 Illustration of existing virtue datasets((a)SOMAset(Barbosa et al.,2018);(b)SyRI(Bak et al.,2018);(c)PexsonX(Sun and Zheng,2019);(d)RandPerson(Wang et al.,2020c);(e)UnrealPerson(Zhang et al.,2021b);(f)ClonedPerson(Wang et al.,2022);(g)Weperson(Li et al.,2021a))

SOMAset(somatotype networks)(Barbosa 等,2018)是最早創(chuàng)建虛擬數(shù)據(jù)輔助行人再識(shí)別的工作,其使用Makehuman 3 維人物模型和Blender 渲染引擎創(chuàng)建了一個(gè)有50 名行人、11 種布料、8 套服裝和250個(gè)姿勢(shì)的虛擬Re-ID 數(shù)據(jù)集,如圖6(a)所示。但為了專注前景,將合成行人放置在單個(gè)場(chǎng)景中,缺少了場(chǎng)景的多樣性。此外,Bak 等人(2018)提出了一個(gè)包含100 個(gè)虛擬行人的數(shù)據(jù)集SyRI(synthetic person re-identification)。通過(guò)采集140 萬(wàn)幅各種光照的HDR(high dynamic range)環(huán)境圖、使用Adobe Fuse CC 制作3 維人體、Unreal Engine 4 渲染3 個(gè)步驟,構(gòu)建了包含100個(gè)虛擬行人的數(shù)據(jù)集,如圖6(b)所示。但SyRI 只有100 個(gè)行人,背景和人物外貌多樣性有限。進(jìn)一步地,Sun 和Zheng(2019)首先基于Unity 創(chuàng)建了一個(gè)包含1 266 個(gè)3 維人體模型的靈活的合成數(shù)據(jù)引擎PersonX,可以根據(jù)輸入的3 維人物模型隨意調(diào)節(jié)參數(shù)合成各種行人圖像,如圖6(c)所示。在此基礎(chǔ)上,該方法定量分析了攝像頭角度對(duì)于re-ID準(zhǔn)確率的影響。

然而,以上工作主要采用的是公開(kāi)獲取的或手工制作的3 維人物模型,因此其人物數(shù)量很難增長(zhǎng)到一定的量級(jí),很難再進(jìn)行擴(kuò)展。例如,上述虛擬行人數(shù)據(jù)集中最大的是PersonX,但也僅有1 266 人。此外,這些數(shù)據(jù)集都是每個(gè)人物獨(dú)立導(dǎo)入場(chǎng)景并在同一時(shí)刻僅1 臺(tái)攝像機(jī)進(jìn)行拍照或錄像的,這與真實(shí)監(jiān)控場(chǎng)景下多攝像機(jī)同時(shí)拍攝一個(gè)大場(chǎng)景下所有人的活動(dòng)有很大區(qū)別,最明顯的區(qū)別是缺乏人與人之間的遮擋和攝像機(jī)之間的轉(zhuǎn)移規(guī)律。

為了解決上述問(wèn)題,Wang 等人(2020c)提出一種通過(guò)隨機(jī)組合顏色和紋理產(chǎn)生大量UV 紋理圖的方法,并由此創(chuàng)建了大量的3 維衣服模型。隨后,針對(duì)MakeHuman 的人物格式,提出一種通過(guò)Python 代碼隨機(jī)自動(dòng)產(chǎn)生大量3 維人物模型的方法,使創(chuàng)建的3 維人物在數(shù)量上具有很好的可擴(kuò)展性,且在身高、膚色、衣服顏色和紋理、配飾等方面具有豐富的多樣性。其次,該工作在Unity3D 的多個(gè)室內(nèi)外場(chǎng)景下定制了多攝像機(jī)環(huán)境、光照、視角、視距和行走路徑等,并導(dǎo)入大量3 維人物同時(shí)進(jìn)行行走穿插和多攝像機(jī)錄像。在一定程度上模擬了真實(shí)監(jiān)控,使產(chǎn)生的數(shù)據(jù)在背景、光照、分辨率、視角、姿態(tài)和遮擋等方面也具有豐富的多樣性,有力地支持了訓(xùn)練出可泛化的行人再識(shí)別模型。最終得到一個(gè)包含全自動(dòng)標(biāo)注的虛擬行人數(shù)據(jù)集,稱為RandPerson,包含8 000 個(gè)虛擬人物,11 個(gè)場(chǎng)景,19 臺(tái)攝像機(jī),38 段密集行人的視頻,1 801 816 幅切好的行人圖像,示例如圖6(d)所示。通過(guò)訓(xùn)練行人再識(shí)別模型并直接跨庫(kù)測(cè)試泛化性能,首次證明了虛擬數(shù)據(jù)上訓(xùn)練的行人再識(shí)別模型可以更好地泛化到未知場(chǎng)景的真實(shí)圖像。與其他數(shù)據(jù)集進(jìn)行對(duì)比,RandPerson 超越了 CUHK03、Market-1501、DukeMTMC-reID 和MSMT17在內(nèi)的4大主流行人再識(shí)別數(shù)據(jù)集。

然而,RandPerson 的隨機(jī)紋理圖與真實(shí)衣服紋理相比還有較大差別,且場(chǎng)景規(guī)模不夠大,背景不夠豐富。在此啟發(fā)下,Zhang等人(2021b)進(jìn)一步構(gòu)建了一個(gè)包含3 000個(gè)行人(實(shí)際6 799人)和120 000個(gè)實(shí)例的包含真實(shí)衣服紋理的虛擬數(shù)據(jù)集UnrealPerson。根據(jù)RandPerson 修改UV 紋理圖的方法,首先采用clothing-co-parsing 和DeepFashion 數(shù)據(jù)集生成來(lái)自真實(shí)圖像的人體服裝紋理,從而通過(guò)Makehuman 直接替代UV 紋理圖,生成大量3 維人體。其次,在虛幻引擎(unreal engine)4 上模擬場(chǎng)景,采用UnrealCV為虛擬相機(jī)捕獲的每幅圖像收集像素級(jí)實(shí)例分割標(biāo)注,最后生成UnrealPerson 數(shù)據(jù)集,如圖6(e)所示。實(shí)驗(yàn)表明,當(dāng)直接跨庫(kù)到MSMT17測(cè)試時(shí),該方法的Rank-1精度達(dá)到了38.5%。

雖然UnrealPerson 和RandPerson 數(shù)據(jù)集比以前的數(shù)據(jù)集更加靈活多樣,取得了更好的模型訓(xùn)練效果,但是RandPerson 的隨機(jī)顏色和紋理組合生成虛擬人物的策略使其人物偏卡通化。而UnrealPerson盡管使用了真實(shí)衣服紋理來(lái)生成人物,由于衣服紋理的尺寸問(wèn)題,生成的虛擬人物和真實(shí)人物依然有較大差異,且未考慮上下半身的協(xié)調(diào)穿搭。

有鑒于此,Wang等人(2022)進(jìn)一步提出一種自動(dòng)從單角度人物照片中克隆整套衣服穿搭并產(chǎn)生3 維人物模型的方案,在游戲環(huán)境里模擬真實(shí)監(jiān)控進(jìn)行渲染,得到一個(gè)更真實(shí)的大規(guī)模虛擬行人數(shù)據(jù)集ClonedPerson,最終提升了行人再識(shí)別模型的泛化表現(xiàn)。不同于已有的通過(guò)視頻或多視角照片重建的方法,該方法立足于克隆單張照片中的整套衣服生成虛擬人物。這樣可以使用互聯(lián)網(wǎng)上大量人物照片進(jìn)行服裝克隆,由此具有很低的限制條件達(dá)到規(guī)?;?。另外,由于該方法將照片中人物的整套衣服克隆到虛擬人物身上,有效解決了現(xiàn)有虛擬數(shù)據(jù)庫(kù)服裝搭配與現(xiàn)實(shí)生活不匹配的問(wèn)題。具體地,該方法設(shè)計(jì)了衣服配準(zhǔn)映射和均勻布料擴(kuò)展兩種方法來(lái)克隆衣服紋理。衣服配準(zhǔn)映射主要針對(duì)目標(biāo)UV 紋理圖衣服結(jié)構(gòu)清晰的人物模型,根據(jù)正面人物照片和模型紋理圖中衣服對(duì)應(yīng)關(guān)鍵點(diǎn)的位置進(jìn)行投影變換,從而保留衣服紋理的清晰度和紋理結(jié)構(gòu)。均勻布料擴(kuò)展則主要針對(duì)人物背面(在正面照片中背面紋理不可見(jiàn))和不規(guī)則的UV 紋理圖,通過(guò)找到并擴(kuò)展衣服區(qū)域面積最大的同質(zhì)紋理實(shí)現(xiàn)自動(dòng)填充人物背面紋理和不規(guī)則的UV 紋理圖。除此之外,該方法提出一個(gè)相似性—多樣性人物擴(kuò)展策略,通過(guò)聚類的方法使生成的虛擬人物既具有相似性,又具有多樣性,從而形成最大效用的大規(guī)模虛擬行人數(shù)據(jù)集。該方法通過(guò)克隆同一聚類的人物照片生成相似人物,同時(shí)通過(guò)克隆不同聚類的人物照片生成多樣性的人物。最后,通過(guò)在Unity3D 的場(chǎng)景下進(jìn)行渲染得到一個(gè)包含自動(dòng)標(biāo)注的虛擬行人數(shù)據(jù)集,稱為ClonedPerson,如圖6(f)所示。它包含5 621 個(gè)虛擬人物,6 個(gè)場(chǎng)景,24 臺(tái)攝像機(jī),168 段密集行人的視頻,887 766幅切好的行人圖像。該方法通過(guò)實(shí)驗(yàn)證明了ClonedPerson 虛擬數(shù)據(jù)集可以應(yīng)用在多個(gè)任務(wù)中,如行人再識(shí)別及其跨域泛化、無(wú)監(jiān)督域適應(yīng)、無(wú)監(jiān)督學(xué)習(xí)和人體關(guān)鍵點(diǎn)檢測(cè)。其中,跨庫(kù)泛化性測(cè)試顯著超越了三大主流行人再識(shí)別數(shù)據(jù)集(CUHK03,Market-1501 和MSMT17)及當(dāng)前流行的虛擬行人再識(shí)別數(shù)據(jù)集(RandPerson 和UnrealPerson),在MSMT17數(shù)據(jù)集上的Rank-1達(dá)到了51.6%。

除上述工作外,Li等人(2021a)也探索了利用已有游戲引擎產(chǎn)生re-ID 虛擬數(shù)據(jù)的方法,主要解決的是天氣環(huán)境的多樣性。該方法建立在熱門游戲GTA5(grand theft auto V)引擎的基礎(chǔ)上,其中包含了數(shù)字城市、天氣和照明模擬系統(tǒng),以及各種角色模型與多方面的裝扮。該方法提出了一個(gè)Weather Person 的生成流程,可以自動(dòng)生成具有不同天氣、場(chǎng)景和自然光照條件的合成re-ID 數(shù)據(jù)集。WePerson 數(shù)據(jù)集中有400 萬(wàn)幅1 500 個(gè)行人的圖像,同時(shí)包含比已有工作更多的環(huán)境因素,如圖6(g)所示。實(shí)驗(yàn)結(jié)果表明,在具有挑戰(zhàn)性的MSMT17數(shù)據(jù)集上,WePerson 將Rank-1 精確度從38.5%提高到了46.4%。然而,雖然因?yàn)镚TA5 是個(gè)商業(yè)引擎,從而其人物質(zhì)量非常高,但因?yàn)樗莻€(gè)閉源系統(tǒng),無(wú)法導(dǎo)入自定義的人物,因此其人物數(shù)量是固定的,無(wú)法實(shí)現(xiàn)規(guī)?;瘶?gòu)建虛擬數(shù)據(jù)。

另外,虛擬數(shù)據(jù)畢竟與真實(shí)數(shù)據(jù)有較大的差別。因此,在利用虛擬數(shù)據(jù)方面,Wang 等人(2021)提出了一個(gè)更具有實(shí)際應(yīng)用價(jià)值的行人再識(shí)別任務(wù)“A+B→C”。即如何利用大規(guī)模有標(biāo)簽的合成數(shù)據(jù)集A和無(wú)標(biāo)簽的真實(shí)數(shù)據(jù)集B 訓(xùn)練出能泛化到未知場(chǎng)景C 的模型。該任務(wù)不再依賴于對(duì)真實(shí)數(shù)據(jù)的手工標(biāo)注,因此可以擴(kuò)展到更大規(guī)模、更多樣化的真實(shí)數(shù)據(jù)上,從而提高模型的泛化能力。在實(shí)現(xiàn)“開(kāi)箱即用”的行人再識(shí)別方法中,該任務(wù)是更具潛力且成本低廉的方案。針對(duì)該任務(wù),Wang等人(2021)提出了一個(gè)新的方法,即DomainMix。所提出的方法可以很好地從有標(biāo)簽的虛擬數(shù)據(jù)和無(wú)標(biāo)簽的真實(shí)數(shù)據(jù)中學(xué)習(xí)。實(shí)驗(yàn)表明,這種完全不需要人工標(biāo)注的方法可以在泛化能力上與需要手工標(biāo)注的方法相媲美。具體而言,首先對(duì)未標(biāo)記的真實(shí)世界圖像進(jìn)行聚類,并選擇可靠的聚類。在訓(xùn)練過(guò)程中,針對(duì)兩個(gè)域之間存在較大域差的問(wèn)題,提出了一種域不變特征學(xué)習(xí)方法,該方法引入了一種新的損失,即域平衡損失,在域不變特征學(xué)習(xí)和域判別之間進(jìn)行對(duì)抗性學(xué)習(xí),同時(shí)學(xué)習(xí)一個(gè)判別特征用于行人再識(shí)別模型。

此外,針對(duì)現(xiàn)有虛擬行人圖像數(shù)據(jù)生成方法未考慮目標(biāo)域數(shù)據(jù)特點(diǎn)、跨域性能有待提升的問(wèn)題,蔡益武等人(2022)提出了一種面向跨域行人再識(shí)別的虛擬數(shù)據(jù)生成與選擇算法。首先利用目標(biāo)域前景信息,如行人著裝顏色分布指導(dǎo)虛擬人體模型生成以及部分替換目標(biāo)域背景信息達(dá)到在像素級(jí)上提高數(shù)據(jù)質(zhì)量,然后根據(jù)Wasserstein distance 做分布度量,在特征級(jí)上挑選與目標(biāo)域最接近的源域訓(xùn)練子集用以模型訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方法可以提升行人再識(shí)別模型的跨域泛化性能。

然而,以上工作都是將虛擬數(shù)據(jù)作為大規(guī)模和多樣化的訓(xùn)練數(shù)據(jù)源來(lái)提升行人再識(shí)別的泛化能力。為了完全擺脫隱私敏感問(wèn)題的影響,采用大規(guī)模虛擬數(shù)據(jù)集作為測(cè)試集來(lái)對(duì)行人再識(shí)別算法進(jìn)行基準(zhǔn)測(cè)試也同樣重要和有價(jià)值。由此,引出另一個(gè)關(guān)鍵問(wèn)題:虛擬數(shù)據(jù)集是否能可靠地用于行人再識(shí)別算法基準(zhǔn)測(cè)試。換句話說(shuō),在虛擬數(shù)據(jù)上測(cè)試得到的結(jié)果,其算法排序是否與在真實(shí)數(shù)據(jù)庫(kù)上測(cè)試得到的結(jié)果一致。為了解決這個(gè)問(wèn)題,Kang(2022)設(shè)計(jì)了一種稱為PRA(pairwise ranking analysis)的方法來(lái)定量測(cè)量排序相似性,并進(jìn)行了是否獨(dú)立同分布的統(tǒng)計(jì)檢驗(yàn)。具體地,采用Kendall秩相關(guān)系數(shù)來(lái)評(píng)估不同數(shù)據(jù)集上的算法排名之間的相似度值。然后,采用了一個(gè)非參數(shù)二樣本檢驗(yàn)方法KS(Kolmogorov-Smirnov)用于判斷虛擬數(shù)據(jù)集與真實(shí)數(shù)據(jù)集之間的算法排名相關(guān)性與那些僅在真實(shí)數(shù)據(jù)集之間的算法排名相關(guān)性是否是獨(dú)立同分布的。該方法對(duì)10種代表性算法在3個(gè)主流的真實(shí)世界行人再識(shí)別數(shù)據(jù)集以及3 個(gè)最近發(fā)布的大規(guī)模虛擬數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。得出的結(jié)論是,最近的一個(gè)大規(guī)模虛擬數(shù)據(jù)集ClonedPerson 可以可靠地用于可泛化行人再識(shí)別的基準(zhǔn)測(cè)試,其上得到的結(jié)果與用真實(shí)數(shù)據(jù)集測(cè)試在統(tǒng)計(jì)意義上是完全一致的。因此,該研究保證了虛擬數(shù)據(jù)集(至少是ClonedPerson)既可以用于作為訓(xùn)練集,也可以作為測(cè)試集,因此行人再識(shí)別的研究完全可以擺脫真實(shí)世界的監(jiān)控?cái)?shù)據(jù),從而完全沒(méi)有隱私問(wèn)題。此外,該研究也可能會(huì)啟發(fā)未來(lái)虛擬數(shù)據(jù)集的設(shè)計(jì)。

2.4 域泛化行人再識(shí)別

行人再識(shí)別隨著深度學(xué)習(xí)的發(fā)展取得了很大的進(jìn)步,但已有模型在不同場(chǎng)景下的泛化能力依然較差。這一方面是因?yàn)樵撊蝿?wù)本身的復(fù)雜性,涉及很多的變化因素和困難;另一方面,當(dāng)前也缺乏大量的有標(biāo)簽訓(xùn)練數(shù)據(jù)。很多研究人員很早就意識(shí)到了跨場(chǎng)景這個(gè)問(wèn)題,為此提出了遷移學(xué)習(xí)(或無(wú)監(jiān)督域適應(yīng))作為解決方案,用于增強(qiáng)模型在新場(chǎng)景下的適應(yīng)性,目前已經(jīng)發(fā)展成為行人再識(shí)別的一個(gè)主流研究方向。但是這種應(yīng)用模式需要在每個(gè)應(yīng)用場(chǎng)景都采集數(shù)據(jù)進(jìn)行深度學(xué)習(xí)訓(xùn)練,雖然無(wú)需人工標(biāo)注數(shù)據(jù),但仍然是費(fèi)時(shí)費(fèi)力的。

針對(duì)上述問(wèn)題,受人臉識(shí)別應(yīng)用實(shí)踐的啟發(fā),Yi等人(2014)最先考察了深度學(xué)習(xí)行人再識(shí)別模型的泛化性問(wèn)題,并發(fā)現(xiàn)在一定的訓(xùn)練數(shù)據(jù)條件下,通過(guò)深度度量學(xué)習(xí)能訓(xùn)練出泛化性更好的模型,超越了遷移學(xué)習(xí)的結(jié)果。Hu 等人(2014)專門研究了行人再識(shí)別的跨庫(kù)測(cè)試和泛化問(wèn)題,并發(fā)現(xiàn)即使訓(xùn)練數(shù)據(jù)集人數(shù)不多,但只要攝像機(jī)數(shù)量足夠多,即場(chǎng)景和光照環(huán)境足夠豐富,仍然能訓(xùn)練出泛化性更好的行人再識(shí)別模型。

然而,上述研究取得的跨庫(kù)泛化結(jié)果仍然是比較低的。為此,面向?qū)嶋H應(yīng)用迫切需要進(jìn)一步研究開(kāi)箱即用(ready-to-use)的行人再識(shí)別,即域泛化行人再識(shí)別。本節(jié)根據(jù)域泛化行人再識(shí)別算法思路的不同,分別從批歸一化和實(shí)例歸一化方法、域不變特征學(xué)習(xí)方法、顯式深度圖像匹配方法、多專家混合方法和元學(xué)習(xí)方法等方面闡述域泛化行人再識(shí)別的前沿進(jìn)展與發(fā)展趨勢(shì)。

2.4.1 批歸一化和實(shí)例歸一化方法

批歸一化(batch normalization,BN)和實(shí)例歸一化(instance normalization,IN)及其組合是研究人員最先關(guān)注的影響和改進(jìn)深度模型泛化能力的模塊。

Jia 等人(2019)提出一個(gè)基于歸一化的域泛化行人再識(shí)別方法,通過(guò)批歸一化和實(shí)例歸一化的結(jié)合,減輕了域間風(fēng)格和內(nèi)容偏差,從而促進(jìn)了行人再識(shí)別深度模型的泛化性和可移植性。隨后,Jin 等人(2020)提出樣式歸一化和補(bǔ)償(style-normalization and restitution,SNR)模塊,利用實(shí)例歸一化的優(yōu)點(diǎn),過(guò)濾掉來(lái)自樣式變化的干擾,并恢復(fù)被實(shí)例歸一化丟棄的身份相關(guān)特征。此外,進(jìn)一步設(shè)計(jì)了雙重因果損失約束,以實(shí)現(xiàn)身份相關(guān)和不相關(guān)特征的解耦。

Zhou 等人(2022)提出一種輕量級(jí)的CNN(convolutional neural network)體系結(jié)構(gòu)OSNet(omniscale network),用以學(xué)習(xí)行人再識(shí)別的全尺度特征表示。與現(xiàn)有的行人再識(shí)別CNN 網(wǎng)絡(luò)相比,OSNet可以明確學(xué)習(xí)每個(gè)構(gòu)件內(nèi)部的多尺度特征,并通過(guò)統(tǒng)一聚合門動(dòng)態(tài)融合多尺度特征,生成全尺度特征。為了改進(jìn)跨域泛化,該方法進(jìn)一步通過(guò)可微架構(gòu)搜索為OSNet 配備了實(shí)例歸一化,設(shè)計(jì)了一個(gè)稱為OSNet-AIN(omni-scale network instance normalisation)的域自適應(yīng)變體。

Choi等人(2022)提出一個(gè)稱為元批量實(shí)例正則化(meta batch-instance,MetaBIN)的re-ID 框架,通過(guò)在元學(xué)習(xí)流程中預(yù)先模擬不成功的泛化場(chǎng)景來(lái)泛化歸一化層,將可學(xué)習(xí)的批處理實(shí)例歸一化層與元學(xué)習(xí)相結(jié)合,并通過(guò)元序列丟失和循環(huán)內(nèi)部更新方式使虛擬仿真多樣化以提高泛化能力。

Jiao 等人(2022)提出動(dòng)態(tài)轉(zhuǎn)換實(shí)例歸一化(dynamically transformed instance normalization,DTIN)方案。該方法使用動(dòng)態(tài)卷積來(lái)允許非歸一化特征控制歸一化特征到新表示的轉(zhuǎn)換,從而確保網(wǎng)絡(luò)具有足夠的靈活性,并在消除不相關(guān)特定域特征和適應(yīng)單個(gè)域或?qū)嵗g取得適當(dāng)?shù)钠胶狻4送?,該方法進(jìn)一步利用多任務(wù)學(xué)習(xí)策略來(lái)訓(xùn)練模型,自適應(yīng)地生成任意域的鑒別特征表示。

Liu 等人(2022)提出一種通過(guò)高斯過(guò)程的去偏批量歸一化(Gaussian debiased batch normalization,GDNorm)方法,將來(lái)自特定域的BN層的特征統(tǒng)計(jì)估計(jì)(參數(shù))建模為動(dòng)態(tài)自精煉的高斯過(guò)程,以適應(yīng)域的真實(shí)超分布,從而提高對(duì)未知目標(biāo)域的泛化能力。該方法采用自優(yōu)化機(jī)制進(jìn)一步優(yōu)化源域的域特定BN 層的學(xué)習(xí)參數(shù),并通過(guò)它們估計(jì)更準(zhǔn)確的高斯過(guò)程作為回報(bào),從而趨向于真實(shí)的數(shù)據(jù)分布。此外,GDNorm 直接利用高斯過(guò)程的平均路徑作為未見(jiàn)目標(biāo)域的最佳BN 估計(jì),與集成學(xué)習(xí)相比,不需要額外的計(jì)算成本。

針對(duì)不同數(shù)據(jù)集圖像明暗變化風(fēng)格對(duì)模型泛化能力的影響,于明等人(2022)設(shè)計(jì)了一種由一個(gè)實(shí)例歸一化層(即IN 層)和一個(gè)修正線性單元(rectified linear units,ReLU)層構(gòu)成的風(fēng)格歸一化模塊(style nomalization module)。具體地,首先由IN層計(jì)算歸一化統(tǒng)計(jì)量。然后,通過(guò)ReLU 函數(shù)來(lái)增加特征的非線性。區(qū)別于跨樣本在單通道上計(jì)算歸一化統(tǒng)計(jì)量的BN 層和在單樣本上跨通道計(jì)算歸一化統(tǒng)計(jì)量的LN(layer nomalization)層,風(fēng)格歸一化模塊中的IN 層通過(guò)在單通道單樣本數(shù)據(jù)上計(jì)算歸一化統(tǒng)計(jì)量,因此可以避免通道數(shù)和批大小的影響。此外,該方法還通過(guò)疊加卷積層的瓶頸層設(shè)計(jì),實(shí)現(xiàn)了對(duì)包含不同視野域的多尺度特征的提取,并利用特征融合注意力模塊,實(shí)現(xiàn)了對(duì)多尺度特征的加權(quán)動(dòng)態(tài)融合,從而提升了域泛化行人再識(shí)別性能。

2.4.2 域不變特征學(xué)習(xí)方法

域泛化最直觀的一個(gè)目標(biāo)是學(xué)習(xí)所有源域之間的域不變特征。除了歸一化特征外,研究人員還采用各種方式進(jìn)行域不變特征學(xué)習(xí)。例如,Lin 等人(2021)將人員再識(shí)別定義為一個(gè)多數(shù)據(jù)集域泛化問(wèn)題,提出了一種多數(shù)據(jù)集特征泛化網(wǎng)絡(luò)(multidataset feature generalization network,MMFA-AAE)。該網(wǎng)絡(luò)基于對(duì)抗性自動(dòng)編碼器,以學(xué)習(xí)具有最大平均差異(maximum mean discrepancy,MMD)度量的廣義域不變潛在特征表示,能夠從多個(gè)標(biāo)記數(shù)據(jù)集學(xué)習(xí)通用的域不變特征表示,并將其推廣到“看不見(jiàn)”的攝像機(jī)系統(tǒng)。

Chen 等人(2021a)提出了一個(gè)端到端雙分布對(duì)齊網(wǎng)絡(luò)(dual distribution alignment network,DDAN)來(lái)學(xué)習(xí)域不變特征。該方法具有兩個(gè)約束條件,即域智能對(duì)抗特征學(xué)習(xí)和身份智能相似增強(qiáng)。在域?qū)用?,將外圍域?qū)?zhǔn)中心域,以最小的分布偏移減少域差異。在身份級(jí)別,通過(guò)跨域的身份(identification)池捕獲身份方面的相似性,從而減少了域偏移。該方法實(shí)現(xiàn)了一個(gè)理想的場(chǎng)景,即任何一組視覺(jué)上相似的ID(盡管來(lái)自不同的域)都比來(lái)自同一域的不相似的ID更接近。

Ang 等人(2021)提出了域嵌入擴(kuò)展(domain embedding expansion,DEX)模塊。DEX 在訓(xùn)練過(guò)程中基于人員和領(lǐng)域標(biāo)簽動(dòng)態(tài)操作和增強(qiáng)深度特征,顯著提高了行人再識(shí)別模型對(duì)不可見(jiàn)域的泛化能力和魯棒性。此外,Ang 等人(2021)還開(kāi)發(fā)了DEX 的輕量級(jí)版本DEXLite,應(yīng)用負(fù)樣本采樣技術(shù)擴(kuò)展到更大的數(shù)據(jù)集,并減少多分支網(wǎng)絡(luò)的內(nèi)存使用。Ang 等人(2021)提出的DEX 和DEXLite 可以以即插即用的方式與許多現(xiàn)有的方法相結(jié)合,如BagofTricks、多粒度網(wǎng)絡(luò)(multiple granularity network,MGN)和基于部分的卷積基線(part-based convolutional baseline,PCB)。

楊曉峰等人(2021)提出一種基于深度膠囊網(wǎng)絡(luò)的跨域行人再識(shí)別方法,通過(guò)視角分類訓(xùn)練任務(wù),模型可以學(xué)習(xí)圖像中行人的有效特征,這些特征可以直接遷移到行人再識(shí)別任務(wù)中,緩解了行人再識(shí)別泛化能力不足的問(wèn)題。

沈賢文(2021)提出了一種基于前景特征學(xué)習(xí)的行人再識(shí)別方法FFL(foreground feature learning),利用人體解析算法生成的掩膜圖像對(duì)行人區(qū)域和背景區(qū)域加以區(qū)分,使用掩膜圖像可以使網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中更加側(cè)重于學(xué)習(xí)行人本身的特征,從而減少域之間行人圖像背景差異帶來(lái)的影響,進(jìn)一步提高了模型的跨域泛化能力。

2.4.3 顯式深度圖像匹配方法

已有基于深度學(xué)習(xí)的行人再識(shí)別方法主要關(guān)注單幅圖像的特征學(xué)習(xí),但其訓(xùn)練好的模型是固定的,因此在面對(duì)未見(jiàn)過(guò)場(chǎng)景時(shí)缺乏自適應(yīng)性。對(duì)于圖像分類來(lái)說(shuō),它只涉及單幅輸入圖像,因此分類可以看做是輸入圖像與學(xué)到的模型之間的一個(gè)匹配,而模型僅能判斷已知的類別。但是圖像匹配任務(wù)不一樣,它涉及一對(duì)輸入圖像,而且通常是開(kāi)放類別的問(wèn)題,即測(cè)試的圖像通常是新的未知類別,如人臉識(shí)別或行人再識(shí)別。然而,大部分已有方法并不直接考慮待匹配的兩幅圖像之間的關(guān)系,它們依然將圖像匹配當(dāng)做圖像分類,將每幅圖像獨(dú)立對(duì)待,只不過(guò)拋棄了分類器,應(yīng)用學(xué)到的模型從中提取一個(gè)固定的特征表達(dá)。然后,圖像匹配就變成對(duì)兩個(gè)特征向量簡(jiǎn)單地應(yīng)用傳統(tǒng)的距離度量,如歐氏距離或余弦距離,而忽略兩幅圖像的實(shí)際內(nèi)容之間的直接關(guān)系。然而,一旦在一個(gè)數(shù)據(jù)集上訓(xùn)練完成,CNN 的卷積核就是固定的,它只能代表對(duì)訓(xùn)練數(shù)據(jù)固化的記憶。如果應(yīng)用場(chǎng)景與訓(xùn)練場(chǎng)景不一樣,CNN 學(xué)到的固定卷積核就有可能對(duì)沒(méi)見(jiàn)過(guò)的圖像模式缺乏響應(yīng),從而導(dǎo)致泛化性不夠好。

鑒于此,在特征學(xué)習(xí)之外,Liao 和Shao(2020)重點(diǎn)研究了在兩幅待匹配圖像的深度特征圖上直接進(jìn)行點(diǎn)對(duì)點(diǎn)圖像匹配,以提升行人再識(shí)別泛化性能。具體地,提出一種查詢圖自適應(yīng)的卷積(queryadaptive convolution,QAConv),通過(guò)查詢圖的深度特征圖實(shí)時(shí)生成新的卷積核,并在注冊(cè)圖的深度特征圖上進(jìn)行卷積和全局最大池化實(shí)現(xiàn)圖像對(duì)應(yīng)點(diǎn)匹配。這樣,這種匹配過(guò)程和結(jié)果是可解釋的,而且這種顯式匹配也比特征學(xué)習(xí)更容易泛化到未知場(chǎng)景,如未知的錯(cuò)位、姿態(tài)或視角變化等。為了有效地端到端訓(xùn)練QAConv,該方法進(jìn)一步提出一個(gè)類別記憶模塊用來(lái)緩存每個(gè)類別新近樣本的深度特征圖,從而計(jì)算圖像匹配的損失函數(shù)進(jìn)行度量學(xué)習(xí)。

然而,在大規(guī)模數(shù)據(jù)上學(xué)習(xí)深度圖像匹配的效率尚未得到充分研究。雖然使用分類參數(shù)或類別記憶模塊進(jìn)行學(xué)習(xí)是一種流行的方式,但它會(huì)產(chǎn)生大量的內(nèi)存和計(jì)算成本。相比之下,小批量(mini batch)的成對(duì)深度度量學(xué)習(xí)將是更好的選擇。然而,主流的隨機(jī)采樣方法,如PK采樣器,對(duì)于深度度量學(xué)習(xí)來(lái)說(shuō),樣本過(guò)于平凡因此學(xué)習(xí)效率不高。雖然在線難例挖掘在一定程度上提高了學(xué)習(xí)效率,但在隨機(jī)采樣后的小批量?jī)?nèi)做難例挖掘仍然是有限的。為此,Liao 和Shao(2022)進(jìn)一步提出了一種高效的小批量采樣方法,稱為圖采樣(graph sampling,GS),用于大規(guī)模深度度量學(xué)習(xí)。其基本思想是在每個(gè)epoch 開(kāi)始時(shí)為所有類別構(gòu)建最近鄰關(guān)系圖。然后,每個(gè)小批量由隨機(jī)選擇的錨類及其最近的相鄰類組成,以便為學(xué)習(xí)提供信息豐富且具有挑戰(zhàn)性的示例。由此,GS 可以僅在小批量?jī)?nèi)部做成對(duì)匹配的度量學(xué)習(xí),而不再需要低效的類別記憶模塊。實(shí)驗(yàn)表明,該方法大幅提升了可泛化行人再識(shí)別的性能,同時(shí),在具有8 000 個(gè)類別的RandPerson 數(shù)據(jù)集上訓(xùn)練時(shí),訓(xùn)練時(shí)間顯著減少,從25.4 h減少到2 h。

GS 方法的提出賦能了更多更復(fù)雜的深度圖像匹配方法。例如,Liao 和Shao(2021)提出了一種新的基于Transformer 的深度圖像匹配方法,稱為TransMatcher,用于可泛化的行人再識(shí)別。具體地,該方法簡(jiǎn)化了Transformer 的解碼器,移除了基于softmax 加權(quán)的原始的Transformer 注意力模塊,而只保留其中的查詢—鍵值相似度計(jì)算。此外,該方法進(jìn)一步采用了全局最大池化和多層感知器(multilayer perceptron,MLP)用于解碼匹配結(jié)果。這樣,簡(jiǎn)化的解碼器在計(jì)算上更高效,同時(shí)對(duì)圖像匹配更有效。

2.4.4 多專家混合方法

訓(xùn)練多專家系統(tǒng)(模型)并以一定的方式進(jìn)行融合也是提高模型泛化能力的一種方法。

Dai 等人(2021)提出關(guān)聯(lián)感知專家混合(relevance-aware mixture of experts,RaMoE)方法,使用一種基于投票的混合機(jī)制來(lái)動(dòng)態(tài)地利用源域的多樣性特征來(lái)提高模型的泛化性能。具體而言,該方法提出了一種去相關(guān)損失,以使源域網(wǎng)絡(luò)(專家)保持各個(gè)域特征的多樣性和可辨別性。其次,設(shè)計(jì)了一個(gè)投票網(wǎng)絡(luò),將所有專家的特征自適應(yīng)地集成到具有域相關(guān)性的更通用的聚集特征中。考慮到目標(biāo)域在訓(xùn)練過(guò)程中的不可見(jiàn)性,進(jìn)一步提出了一種新的學(xué)習(xí)—學(xué)習(xí)算法,結(jié)合關(guān)系對(duì)齊損失來(lái)更新投票網(wǎng)絡(luò)。

Xu 等人(2022b)提出一種自適應(yīng)聚合的模擬嵌入方法(mimic embedding via adaptive aggregation,META)用于可泛化的行人再識(shí)別。為了避免模型規(guī)模過(guò)大,META 專家不為每個(gè)源域采用分支網(wǎng)絡(luò),而是共享除批量歸一化層之外的所有參數(shù)。除多個(gè)專家外,META 還利用實(shí)例歸一化,并將其引入到一個(gè)全局分支中,以實(shí)現(xiàn)跨域不變的特性。同時(shí),META 通過(guò)歸一化統(tǒng)計(jì)來(lái)考慮未知目標(biāo)樣本和源域的相關(guān)性,并開(kāi)發(fā)了一個(gè)聚合模塊,以自適應(yīng)地集成多個(gè)專家來(lái)模擬未知目標(biāo)域。

余世杰(Yu,2022)提出一種多域?qū)<覅f(xié)同學(xué)習(xí)算法。該算法中每個(gè)源域擁有一位獨(dú)有的域?qū)<乙约肮蚕硗晃蝗鎸<?,并通過(guò)域?qū)<议g協(xié)同學(xué)習(xí)以及全面—域?qū)<覅f(xié)同學(xué)習(xí)兩種方式使域?qū)<液腿鎸<蚁嗷W(xué)習(xí)促進(jìn)。

2.4.5 元學(xué)習(xí)方法

采用元學(xué)習(xí)進(jìn)行模型學(xué)習(xí),關(guān)鍵思想是在訓(xùn)練期間模擬源—目標(biāo)域轉(zhuǎn)移,并引入元知識(shí)提高模型泛化能力。

Song等人(2019)提出一種新的域不變映射網(wǎng)絡(luò)(domain-invariant mapping network,DIMN)。DIMN設(shè)計(jì)用于學(xué)習(xí)人物圖像與其身份分類器之間的映射,即使用單個(gè)樣本生成分類器。為了使模型域保持不變,該方法遵循元學(xué)習(xí)流程,并在每個(gè)訓(xùn)練集期間對(duì)源域訓(xùn)練任務(wù)的子集進(jìn)行采樣。

Bai 等人(2021)提出一個(gè)雙元泛化網(wǎng)絡(luò)(dualmeta generalization network,DMG-Net),以利用元學(xué)習(xí)在訓(xùn)練過(guò)程和度量空間學(xué)習(xí)中的優(yōu)點(diǎn)。具體而言,設(shè)計(jì)了一個(gè)“先學(xué)習(xí)后概括評(píng)估”的元訓(xùn)練過(guò)程和一個(gè)元判別損失,以增強(qiáng)模型的概括和判別能力。

Zhao等人(2021a)提出一個(gè)基于記憶的多源元學(xué)習(xí)(memory-based multi-source meta-learning,M3L)框架,用于多源訓(xùn)練的可泛化行人再識(shí)別。所提出的元學(xué)習(xí)策略使模型能夠在訓(xùn)練過(guò)程中模擬DG的訓(xùn)練測(cè)試過(guò)程,從而有效地提高了模型在未知域上的泛化能力。此外,還引入了一個(gè)基于內(nèi)存的模塊和MetaBN,以充分利用元學(xué)習(xí)的優(yōu)勢(shì)并獲得進(jìn)一步的改進(jìn)。

然而,Zhao等人(2022)認(rèn)為元學(xué)習(xí)的重復(fù)小段訓(xùn)練會(huì)導(dǎo)致過(guò)學(xué)習(xí)問(wèn)題。為此,提出了兩種隨機(jī)行為,即從數(shù)據(jù)分布的角度提出的隨機(jī)分裂滑動(dòng)采樣器和從優(yōu)化過(guò)程的角度提出的方差變化的梯度丟失。提出的采樣器在兩個(gè)相鄰的訓(xùn)練集中保持各種源優(yōu)勢(shì),提出的梯度下降幫助模型走出局部最小值并通過(guò)不斷改變其梯度方差來(lái)搜索最優(yōu)解。該方法可以提高在相對(duì)平衡或極度不平衡的源域上的泛化能力。

2.5 換裝行人再識(shí)別

在現(xiàn)實(shí)監(jiān)控場(chǎng)景中,在長(zhǎng)期監(jiān)控中或逃犯通過(guò)偽裝躲避追捕等情況下,行人目標(biāo)可能換裝,這就打破了面向短期監(jiān)控場(chǎng)景的行人再識(shí)別方法對(duì)于行人衣服不變的假設(shè)。與行人不更換服裝的再識(shí)別相比,換裝場(chǎng)景下的行人衣服顏色和紋理失去身份判別性,換裝再識(shí)別對(duì)細(xì)粒度特征提取的難度更大,因而現(xiàn)有方法的精度仍不理想。本節(jié)對(duì)換裝行人再識(shí)別數(shù)據(jù)集進(jìn)行簡(jiǎn)介并全面闡述近幾年換裝行人再識(shí)別的前沿進(jìn)展與發(fā)展趨勢(shì)。

2.5.1 換裝行人再識(shí)別數(shù)據(jù)集簡(jiǎn)介

自2019 年起,為促進(jìn)換裝行人再識(shí)別的發(fā)展,研究者針對(duì)換裝場(chǎng)景采集了多個(gè)公開(kāi)數(shù)據(jù)集?,F(xiàn)有的主流標(biāo)準(zhǔn)數(shù)據(jù)集是從短期監(jiān)控中采集的,并不適用于換裝行人再識(shí)別的研究。代表性的換裝行人數(shù)據(jù)集如表3 所示。PRCC(person re-id under moderate clothing change)(Yang 等,2021c)數(shù)據(jù)集在真實(shí)的室內(nèi)監(jiān)控場(chǎng)景中采集,包含3個(gè)攝像頭下221個(gè)行人的33 698 幅圖像,其中換裝后的衣服厚度沒(méi)有太大變化。LTCC(long-term cloth-changing)(Qian 等,2020)數(shù)據(jù)集也是在室內(nèi)場(chǎng)景中采集,包含12 個(gè)攝像頭下152 個(gè)行人的17 138 幅圖像,其中光照、姿態(tài)和遮擋的變化比PRCC 的數(shù)據(jù)更多。Celeb-reID(Huang 等,2019b)是從谷歌、必應(yīng)和百度網(wǎng)站上獲得的名人街拍,包含1 052 個(gè)行人的34 036 幅圖像。VC-Clothes(virtually changing-clothes)(Wan 等,2020)是用游戲引擎渲染的虛擬數(shù)據(jù)集,從4個(gè)角度渲染得到512個(gè)行人的19 060 幅圖像。2021 年至今,公開(kāi)換裝數(shù)據(jù)集的數(shù)據(jù)規(guī)模進(jìn)一步增大。DeepChange(Xu和Zhu,2022)是目前規(guī)模最大的真實(shí)監(jiān)控場(chǎng)景換裝行人數(shù)據(jù)集,包含17 個(gè)攝像頭下1 121 個(gè)行人的178 407 幅圖像,比較接近實(shí)際應(yīng)用場(chǎng)景。LaST(large-scale spatio-temporal person re-identification)(Shu 等,2022)數(shù)據(jù)集是從電影和電視劇中捕獲的不同角色的截圖,包含10 862 個(gè)人物超過(guò)228 000 幅圖像。CCVID(clothes-changing video person re-id)(Gu 等,2022)是視頻換裝行人數(shù)據(jù)集,包含226 個(gè)行人2 856段序列的數(shù)據(jù)。

表3 換裝行人再識(shí)別數(shù)據(jù)集信息統(tǒng)計(jì)表Table 3 Statistics of the cloth-changing re-ID datasets

2.5.2 換裝行人再識(shí)別研究進(jìn)展

在換裝行人數(shù)據(jù)集的支持下,換裝行人再識(shí)別方法主要有兩類。第1 類方法通過(guò)顯式引入特定的衣物無(wú)關(guān)線索來(lái)提取細(xì)粒度特征,如利用行人的3維信息或行人的輪廓提取身體形狀特征;第2類方法通過(guò)解耦行人圖像的衣服信息和身份信息提取換衣不變特征,如設(shè)計(jì)對(duì)抗學(xué)習(xí)損失分離衣服相關(guān)特征與衣服無(wú)關(guān)特征。

1)顯式引入衣服無(wú)關(guān)線索的特征提取方法。與一般場(chǎng)景中的跨攝像頭視角變化和光照變化相比,服裝變化是難以直接建模的。因此,這類方法通過(guò)引入不受服裝變化影響的行人外觀線索,來(lái)引導(dǎo)服裝無(wú)關(guān)特征的提取。Yang 等人(2021c)對(duì)行人的輪廓圖使用空間極坐標(biāo)變換,然后對(duì)極坐標(biāo)下的輪廓圖使用可學(xué)習(xí)的采樣方式提取輪廓圖中最具判別性的部位,以此學(xué)習(xí)與人體形狀有關(guān)的特征。3DSL(3D shape learning)(Chen 等,2021c)在缺乏3D 真實(shí)數(shù)據(jù)的情況下,通過(guò)輔助的3維重建任務(wù),從單幅2D圖像重建了人體的3D 網(wǎng)格形態(tài),將3D 形狀信息與視覺(jué)紋理解耦,獲得容易受服裝等紋理影響辨別的人的可靠且易區(qū)分的3D形狀特征,從而根據(jù)人體的3D 形狀判定行人身份。FSAM(fine-grained shapeappearance mutual)(Hong 等,2021)提出了一個(gè)細(xì)粒度的形狀—外觀互學(xué)習(xí)框架,分為形狀分支與外觀分支。形狀分支中,在身份的指導(dǎo)下學(xué)習(xí)細(xì)粒度的鑒別掩膜,并通過(guò)一個(gè)明確姿態(tài)的多分支網(wǎng)絡(luò)提取細(xì)粒度的體型特征。為了補(bǔ)充外觀分支中與衣服無(wú)關(guān)的體型知識(shí),通過(guò)在低級(jí)和高級(jí)特征之間執(zhí)行密集的交互式互學(xué)習(xí),將形狀分支中的體型知識(shí)轉(zhuǎn)移到外觀分支中,以補(bǔ)充外觀特征中衣物無(wú)關(guān)的知識(shí)。推理時(shí),外觀分支能夠獨(dú)立使用。Qian 等人(2020)則使用人體的關(guān)鍵點(diǎn)蒸餾出人體形狀特征,以此減少顏色信息的影響。Wan等人(2020)則在檢測(cè)出人臉后提取人臉特征,因?yàn)槿四樛瑯邮窃谝路淖兦樾蜗氯匀徊蛔兊男畔?。Yu 等人(2020)使用自注意力機(jī)制,鼓勵(lì)網(wǎng)絡(luò)去聚焦于行人的人體形狀和臉部等這些與衣服無(wú)關(guān)的信息。CC-ReID(clotheschanging person re-identification)(Jin 等,2022)利用步態(tài)信息來(lái)協(xié)助基于圖像的換衣行人再識(shí)別表示學(xué)習(xí)。Li 等人(2022b)提出利用衣服模板提取額外特征與行人特征進(jìn)行融合。Jia 等人(2022c)提出一種互補(bǔ)數(shù)據(jù)增強(qiáng)策略模擬行人換衣的換衣行人再識(shí)別方法。另外,細(xì)粒度特征的提取方法也對(duì)衣服高度相似場(chǎng)景下的行人再識(shí)別有所幫助。Yin 等人(2020)提取兩種彼此互補(bǔ)的局部動(dòng)態(tài)姿態(tài)特征進(jìn)行融合,以此提取具有身份判別性的細(xì)粒度特征。陳坤峰等人(2022)采取雙目疊加效應(yīng)的仿生思想,提出一個(gè)自注意力孿生網(wǎng)絡(luò)提取同一行人不同衣著的圖像利用孿生架構(gòu)實(shí)現(xiàn)疊加效應(yīng)。

顯式引入衣服無(wú)關(guān)線索可有效利用人對(duì)于判別換裝行人的先驗(yàn)知識(shí),但在一些方法中也容易使特征學(xué)習(xí)受限于人為指定的因素,如身體形狀等,而忽略其他細(xì)粒度特征的提取。

2)針對(duì)衣服信息和身份信息的特征解耦方法。特征解耦方法希望通過(guò)隱式學(xué)習(xí)方式將衣物特征與身份信息獨(dú)立表示,從而使模型能夠獲得換衣不變的判別特征。特征解耦方法包括兩類方式。

第1 類特征解耦方式希望模型學(xué)習(xí)到行人身份相關(guān)的模式從而間接排除換衣的影響。ReIDCaps(re-identification capsules)(Huang 等,2019b)利用膠囊網(wǎng)絡(luò)發(fā)掘特征之間的關(guān)系且不同維向量蘊(yùn)含不同模式的特性進(jìn)行行人特征提取。劉乾等人(2021b)在ReIDCaps 的基礎(chǔ)上引入軟嵌入注意力機(jī)制和特征系數(shù)表示加強(qiáng)換衣不變特征的學(xué)習(xí)。RCSANet(regularization via clothing status awareness network)(Huang 等,2021)利用外觀特征指導(dǎo)相同身份的特征聚類,使不同身份的特征能在高維中分離。UCAD(universal clothing attribute disentanglement)(Yan 等,2022c)構(gòu)建了一個(gè)服裝相關(guān)—服裝過(guò)濾的兩分支網(wǎng)絡(luò),通過(guò)將服裝相關(guān)分支學(xué)習(xí)到的知識(shí)從服裝過(guò)濾分支過(guò)濾來(lái)學(xué)習(xí)服裝無(wú)關(guān)的身份特征。CAL(clothes-based adversarial loss)方法(Gu 等,2022)提出了一種基于服裝的對(duì)抗損失函數(shù),通過(guò)懲罰服裝分類模型的判別能力,從原始RGB 圖像中挖掘與服裝無(wú)關(guān)的特征。CAL在PRCC、LTCC、LaST和DeepChange 上達(dá)到當(dāng)前的領(lǐng)先性能,Rank-1 準(zhǔn)確率分別為55.2%、40.1%、73.7%和54.0%。

第2 類特征解耦方式希望模型能將特征中的衣服相關(guān)信息去除。CASE-Net(clothing agnostic shape extraction network)(Li 等,2021b)提取灰度圖和RGB圖相似的特征以排除顏色的干擾,并在模型中嵌入一個(gè)循環(huán)生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)不同姿勢(shì)的相同身份行人RGB 圖像和原灰度圖的特征重建原RGB圖像,以達(dá)到特征解耦的目的。CASE-Net 在CelebreID 數(shù)據(jù)集上達(dá)到當(dāng)前的領(lǐng)先性能,Rank-1 準(zhǔn)確率為66.4%。AFD-Net(adversarial feature disentanglement network)(Xu 等,2021)發(fā)展了CASE-Net 的工作,不僅通過(guò)類內(nèi)重建加強(qiáng)了特征關(guān)于行人身份的魯棒性,還加入了類間對(duì)抗,重建不同身份行人互換衣物的圖像,使服裝特征與身份特征的分離更加徹底。Yang 等人(2022)提出一種采樣獨(dú)立的特征解耦方法 SirNet(sampling independent robust feature representation network),從隨機(jī)選擇的樣本中學(xué)習(xí)換衣無(wú)關(guān)特征。SirNet 在VC-Clothes 上達(dá)到當(dāng)前的領(lǐng)先性能,Rank-1精度為92.3%。

2.6 跨模態(tài)行人再識(shí)別

跨模態(tài)行人再識(shí)別旨在探索可見(jiàn)光圖像與其他異構(gòu)數(shù)據(jù)間的行人檢索問(wèn)題。該任務(wù)可以有效彌補(bǔ)可見(jiàn)光行人再識(shí)別技術(shù)在實(shí)際復(fù)雜場(chǎng)景下的不足。本節(jié)針對(duì)可見(jiàn)光圖像與紅外圖像、素描圖像、文本描述和深度圖等各類數(shù)據(jù)異構(gòu)場(chǎng)景,總結(jié)近年跨模態(tài)再識(shí)別的數(shù)據(jù)集、研究進(jìn)展和難點(diǎn),同時(shí)討論未來(lái)復(fù)雜多變場(chǎng)景下的多模態(tài)行人再識(shí)別任務(wù)的發(fā)展趨勢(shì)和方向。

2.6.1 跨模態(tài)行人再識(shí)別數(shù)據(jù)集

跨模態(tài)行人再識(shí)別常用數(shù)據(jù)集按模態(tài)不同可分為可見(jiàn)光—紅外行人再識(shí)別數(shù)據(jù)集、文本—圖像行人再識(shí)別數(shù)據(jù)集、素描—照片行人再識(shí)別數(shù)據(jù)集和深度圖—可見(jiàn)光行人再識(shí)別數(shù)據(jù)集等,常用跨模態(tài)行人再識(shí)別數(shù)據(jù)集的信息統(tǒng)計(jì)如表4所示。

表4 跨模態(tài)行人再識(shí)別數(shù)據(jù)集信息統(tǒng)計(jì)表Table 4 Statistics of the cross-modal re-ID datasets

1)可見(jiàn)光—紅外行人再識(shí)別數(shù)據(jù)集。主要有SYSU-MM01(SYSU multiple modality Re-ID)數(shù)據(jù)集(Wu等,2017)和RegDB數(shù)據(jù)集(Nguyen等,2017)。

SYSU-MM01 數(shù)據(jù)集是目前最大和最具挑戰(zhàn)性的可見(jiàn)光—紅外跨模式人像識(shí)別數(shù)據(jù)集,由491 個(gè)身份的29 033幅可見(jiàn)光圖像和15 712幅紅外圖像組成,這些圖像由4臺(tái)可見(jiàn)光相機(jī)和2臺(tái)紅外相機(jī)從室內(nèi)和室外采集。訓(xùn)練集包含395 個(gè)身份的22 258 幅可見(jiàn)光圖像和11 909 幅紅外圖像。測(cè)試集包含96個(gè)身份的3 803幅紅外圖像。對(duì)應(yīng)于單次拍攝或多次拍攝的設(shè)置,隨機(jī)選取每個(gè)可見(jiàn)光相機(jī)下的每個(gè)身份的1 或10 幅圖像形成注冊(cè)圖。此外,還有全搜索和室內(nèi)搜索兩種測(cè)試模式。全搜索模式是用室內(nèi)和室外圖像進(jìn)行評(píng)估,而室內(nèi)搜索模式只用室內(nèi)圖像進(jìn)行評(píng)估。

RegDB 數(shù)據(jù)集是由雙對(duì)齊的可見(jiàn)光和遠(yuǎn)紅外相機(jī)收集的,包括412 個(gè)身份的圖像。每個(gè)身份有10 幅可見(jiàn)光圖像和10 幅遠(yuǎn)紅外圖像。數(shù)據(jù)集隨機(jī)分為訓(xùn)練和測(cè)試兩部分,其中206 個(gè)身份的圖像用于訓(xùn)練,其余206個(gè)身份的圖像用于測(cè)試。

2)文本—圖像行人再識(shí)別數(shù)據(jù)集。主要有CUHK-PEDES 數(shù)據(jù)集(Li 等,2017)、ICFG-PEDES 數(shù)據(jù)集(Ding 等,2021)和RSTPReid(real scenario textbased person re-identification)數(shù)據(jù)集(Zhu等,2022)。

CUHK-PEDES 包含40 206 幅圖像和80 412 個(gè)文字描述,涉及13 003個(gè)身份,每幅圖像有兩個(gè)說(shuō)明和兩個(gè)標(biāo)題,對(duì)13 003個(gè)身份進(jìn)行描述,每個(gè)文本描述平均有23.5 個(gè)字。該數(shù)據(jù)集分成3 個(gè)子集,分別用于訓(xùn)練、驗(yàn)證和測(cè)試,不存在同一人的ID 重疊。訓(xùn)練集包括11 003 人、34 054 幅圖像和68 108 句描述。驗(yàn)證集和測(cè)試集分別包含3 078 和3 074 幅圖像,都有1 000人。所有的實(shí)驗(yàn)都是基于這個(gè)訓(xùn)練—測(cè)試分割進(jìn)行的。

ICFG-PEDES 數(shù)據(jù)集包含了更多以身份為中心的、細(xì)粒度的文字描述,有4 102 個(gè)身份的54 522 幅行人圖像。所有的圖像都是從MSMT17數(shù)據(jù)庫(kù)中收集的。每幅圖像有1 個(gè)標(biāo)題,每個(gè)描述平均有37.2個(gè)字,該數(shù)據(jù)庫(kù)共包含5 554 個(gè)獨(dú)特的詞。與原始MSMT17 數(shù)據(jù)庫(kù)的協(xié)議類似,ICFG-PEDES 分為訓(xùn)練集和測(cè)試集。前者包括3 102 人的3 4674 個(gè)圖像—文本對(duì),后者包含其余1 000人的19 848個(gè)圖像—文本對(duì)。

RSTPReid 數(shù)據(jù)集包含20 505 幅來(lái)自15 個(gè)攝像頭的4 101 人的圖像。每個(gè)人都有5 幅由不同相機(jī)拍攝的相應(yīng)圖像,每幅圖像都有2 個(gè)文本描述的注釋。對(duì)于數(shù)據(jù)劃分,分別利用3 701、200 和200 個(gè)身份進(jìn)行訓(xùn)練、驗(yàn)證和測(cè)試。每個(gè)句子不短于23 個(gè)字。剔除出現(xiàn)少于兩次的單詞后,單詞數(shù)為2 204。

3)素描—照片行人再識(shí)別數(shù)據(jù)集。主要有PKU-Sketch(Peking University sketch re-ID)數(shù)據(jù)集(Pang 等,2018)。該數(shù)據(jù)集包含200 個(gè)人,每個(gè)人都有1 張素描和2 張照片。為了確保創(chuàng)建的數(shù)據(jù)集能夠用于現(xiàn)實(shí)的監(jiān)控系統(tǒng),每個(gè)人的照片都是在白天由兩個(gè)交叉視角的攝像機(jī)拍攝的。原始圖像(或視頻幀)經(jīng)過(guò)了手工裁剪,以確保每張照片都包含一個(gè)特定的人。

4)深度圖—可見(jiàn)光行人再識(shí)別數(shù)據(jù)集。主要有BIWI 數(shù)據(jù)集(Munaro 等,2014)和RobotPKU 數(shù)據(jù)集(Liu等,2017)。

BIWI 數(shù)據(jù)集包含78 個(gè)實(shí)例,有22 038 幅RGB和深度模式的圖像。隨機(jī)選擇32 個(gè)實(shí)例進(jìn)行訓(xùn)練,8個(gè)實(shí)例進(jìn)行驗(yàn)證,38個(gè)實(shí)例進(jìn)行測(cè)試。

RobotPKU數(shù)據(jù)集由90個(gè)行人組成,有16 512幅深度和RGB模式的圖像。隨機(jī)分為40人進(jìn)行訓(xùn)練,10人進(jìn)行驗(yàn)證,其余40人進(jìn)行測(cè)試。

2.6.2 跨模態(tài)行人再識(shí)別研究進(jìn)展

1)可見(jiàn)光—紅外行人再識(shí)別。在低光照條件(夜晚)下,監(jiān)控系統(tǒng)中的攝像設(shè)備通常自動(dòng)啟用紅外模式,拍攝行人的紅外圖像。因此,有研究者提出可見(jiàn)光—紅外行人再識(shí)別,旨在實(shí)現(xiàn)白天可見(jiàn)光圖像和夜間紅外圖像之間的交叉模態(tài)匹配。由于成像原理的不同,兩種模態(tài)間存在巨大模態(tài)差異?,F(xiàn)有的可見(jiàn)光—紅外行人再識(shí)別算法可以大致分為以下兩類:基于域不變表征學(xué)習(xí)的方法(Wu 等,2017;Ye等,2018,2020b;Ye 等,2021a;Zhu 等,2020;Liu 等,2021a;王鳳隨等,2023)和基于圖像生成的方法(Wang 等,2019a;Wang 等,2019b;Choi 等,2020)。其中,域不變特征學(xué)習(xí)方法又從特征表示學(xué)習(xí)(Wu等,2017;Ye 等,2018,2020b)和度量學(xué)習(xí)(Zhu 等,2020;Liu 等,2021;Ye 等,2021a)兩個(gè)方面來(lái)挖掘跨模態(tài)共享表征。Wu 等人(2017)首次嘗試解決這個(gè)問(wèn)題,提出了一個(gè)深度零填充框架,以自適應(yīng)地學(xué)習(xí)模態(tài)可共享表征。Ye 等人(2020b)設(shè)計(jì)了一種雙流網(wǎng)絡(luò),以對(duì)模態(tài)共享和模態(tài)特定信息進(jìn)行建模,同時(shí)解決模態(tài)內(nèi)和模態(tài)間的變化。Zhu 等人(2020)設(shè)計(jì)了一種異構(gòu)中心損失用來(lái)約束可見(jiàn)光模態(tài)中心和紅外模態(tài)中心間的距離,從而縮小類內(nèi)差異。Ye 等人(2021a)提出一種雙向指數(shù)角度三元組損失,該損失函數(shù)通過(guò)學(xué)習(xí)角度可分離的共享表征空間來(lái)減輕模態(tài)差異的影響。Ye 等人(2020a)提出了一種雙注意聚合學(xué)習(xí)方法,以捕捉多級(jí)關(guān)系。Chen 等人(2022b)提出利用不同模態(tài)下的行人結(jié)構(gòu)信息來(lái)指導(dǎo)跨模態(tài)共享表征的學(xué)習(xí)。Zhang 和Lu(2018)首次提出利用屬性信息來(lái)彌合不同模態(tài)間的信息差異,設(shè)計(jì)一種粒度語(yǔ)義信息與全局信息融合網(wǎng)絡(luò),通過(guò)建模模態(tài)屬性間關(guān)系,增強(qiáng)模態(tài)特征判別力?;趫D像生成的方法可以具體分為模態(tài)轉(zhuǎn)換(Wang 等,2019a;Wang 等,2019b;Choi 等,2020)和中間模態(tài)生成(Ye 等,2021b)。Wang 等人(2019a)和Wang 等人(2019b)采用生成對(duì)抗技術(shù)生成跨模態(tài)人物圖像,以減少圖像和特征級(jí)別的跨模態(tài)差異。Choi 等人(2020)對(duì)分層交叉模態(tài)解纏結(jié)因子進(jìn)行了建模。吳岸聰?shù)热耍?022)提出利用易獲取的可見(jiàn)光圖像進(jìn)行單模態(tài)自監(jiān)督學(xué)習(xí),從而學(xué)習(xí)先驗(yàn)知識(shí)指導(dǎo)跨模態(tài)表征提取。

2)文本—圖像行人再識(shí)別。在真實(shí)場(chǎng)景中,有時(shí)會(huì)出現(xiàn)無(wú)法獲得待查詢目標(biāo)行人的視覺(jué)圖像情況,工作人員通常利用目擊者的文本描述來(lái)實(shí)現(xiàn)目標(biāo)搜索,即文本—圖像行人再識(shí)別?,F(xiàn)有方法主要可以劃分為非注意力的跨模態(tài)方法(Zheng,2020;Zhang 和Lu,2018;莫承見(jiàn),2022)和基于注意力的跨模態(tài)方法(Li 等,2017;Chen 等,2018;Liu 等,2019b)。前者主要通過(guò)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù)來(lái)實(shí)現(xiàn)兩種模態(tài)在共享空間中的對(duì)齊,計(jì)算過(guò)程高效;后者則側(cè)重于利用注意力方法挖掘區(qū)域塊—單詞、區(qū)域塊—短語(yǔ)間的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)了較高的檢索性能。具體地,Li 等人(2017)提出利用帶有遞歸神經(jīng)網(wǎng)絡(luò)的門控神經(jīng)注意模型來(lái)學(xué)習(xí)文本描述和人物圖像之間的共享特征,實(shí)現(xiàn)了文本到圖像行人檢索的端到端訓(xùn)練。Chen 等人(2018)提出了一種全局識(shí)別圖像語(yǔ)言關(guān)聯(lián)學(xué)習(xí)方法,在重建過(guò)程中捕獲身份識(shí)別信息和局部重建圖像語(yǔ)言關(guān)聯(lián)。Liu 等人(2019b)利用圖關(guān)系挖掘設(shè)計(jì)了一個(gè)深度對(duì)抗圖注意力卷積網(wǎng)絡(luò)。最近,Shao 等人(2022)首次分析了特征粒度上的模態(tài)差異,即相似但不同的圖像區(qū)域可能共享相同的文本描述,提出一種粒度統(tǒng)一的表示學(xué)習(xí)算法。然而,文本描述和視覺(jué)圖像之間的巨大語(yǔ)義差距仍使得該項(xiàng)任務(wù)頗具有挑戰(zhàn)性。陳琳等人(2022)提出利用不同模態(tài)的行人屬性信息來(lái)減輕文本和圖像模態(tài)間差異影響,提取語(yǔ)義共享的跨模態(tài)表征。姜定和葉茫(2022)基于語(yǔ)言—圖像預(yù)訓(xùn)練雙流Transformer模型實(shí)現(xiàn)僅全局特征的圖像文本語(yǔ)義特征對(duì)齊,設(shè)計(jì)一種溫度縮放跨模態(tài)投影匹配損失函數(shù)進(jìn)行圖像文本跨模態(tài)特征匹配,其實(shí)驗(yàn)結(jié)果大幅度超過(guò)現(xiàn)有基于局部特征學(xué)習(xí)的方法。

3)素描—照片行人再識(shí)別??紤]到文本描述的粗粒度性,有研究者提出利用行人的素描圖像實(shí)現(xiàn)目標(biāo)人物檢索,即素描—照片行人再識(shí)別。有諺語(yǔ)說(shuō)“一圖勝千言”,相比于文本描述,素描圖像更加直觀,且包含豐富的行人細(xì)節(jié)信息。Pang 等人(2018)提出一種域相關(guān)對(duì)抗框架,使用全身專業(yè)素描圖像作為查詢集,收集域敏感信息并學(xué)習(xí)域不變特征。Yang 等人(2021a)試圖通過(guò)結(jié)合領(lǐng)域自適應(yīng)來(lái)提高草圖—照片模型的泛化能力。Gui 等人(2020)探索了草圖和照片的多層次特征,并使用梯度反向?qū)觼?lái)彌補(bǔ)域差異。與上述方法不同,Chen 等人(2022a)設(shè)計(jì)了一種新的解糾纏原型和動(dòng)態(tài)合成學(xué)習(xí)方法來(lái)處理跨模態(tài)差異,在輔助素描模態(tài)的指導(dǎo)下,將照片表征分為素描相關(guān)線索和素描無(wú)關(guān)線索,并利用知識(shí)遷移技術(shù)補(bǔ)充素描模態(tài)中缺失信息,形成信息對(duì)稱的交叉模態(tài)空間。黃勃淳等人(2023)考慮了真實(shí)場(chǎng)景中素描—照片匹配的跨模態(tài)身份不一致問(wèn)題,設(shè)計(jì)一種基于交叉分類的素描行人重識(shí)算法。

為了充分利用文本描述和素描表述的優(yōu)勢(shì),如何將文本與手繪素描圖像相結(jié)合也是未來(lái)值得研究的問(wèn)題。

4)深度圖—可見(jiàn)光行人再識(shí)別。深度圖表示攝像設(shè)備到場(chǎng)景中各點(diǎn)距離,可以描述行人的身體形態(tài)和骨骼信息。與可見(jiàn)光圖像相比,深度圖對(duì)光照變化和行人衣著變化具有較強(qiáng)的魯棒性。隨著激光雷達(dá)技術(shù)的發(fā)展,微軟Kinect攝像機(jī)拍攝的深度圖像可以更方便地獲取。研究者提出深度圖—可見(jiàn)光行人再識(shí)別,旨在實(shí)現(xiàn)深度圖與可見(jiàn)光圖像間的跨模態(tài)匹配。由于深度圖僅包含行人的結(jié)構(gòu)信息,缺失行人顏色和紋理信息,該跨模態(tài)任務(wù)也極具有挑戰(zhàn)。Zhang 等人(2020)利用傳統(tǒng)手工模態(tài)特征來(lái)實(shí)現(xiàn)兩種模態(tài)間的匹配。Hafner 等人(2019)借助蒸餾的思想設(shè)計(jì)一種兩階段訓(xùn)練模式來(lái)減輕模態(tài)差異的影響,提高跨模態(tài)識(shí)別的精度。不同于這些方法,Wu等人(2022)提出一種全局和局部特征聯(lián)合學(xué)習(xí)網(wǎng)絡(luò),通過(guò)挖掘行人外觀細(xì)節(jié)和空間關(guān)系,增強(qiáng)深度網(wǎng)絡(luò)中的特征表達(dá)能力。

2.7 行人搜索

行人搜索技術(shù)旨在將行人檢測(cè)和再識(shí)別統(tǒng)一到同一框架中,在確定行人位置的同時(shí)提供其身份特征,以提升系統(tǒng)的性能和效率。近年來(lái),行人搜索方法不僅探索了新的網(wǎng)絡(luò)結(jié)構(gòu),而且更加注重開(kāi)放世界的實(shí)際需求,涌現(xiàn)出基于文本的多模態(tài)行人搜索、僅使用位置標(biāo)簽的弱監(jiān)督行人搜索、域自適應(yīng)的行人搜索等一系列探索工作。本節(jié)首先介紹行人搜索常用的數(shù)據(jù)集,然后總結(jié)分析行人搜索方向的最新進(jìn)展和發(fā)展趨勢(shì)。

2.7.1 行人搜索常用數(shù)據(jù)集簡(jiǎn)介

Zheng 等人(2017)建立了首個(gè)專門面向行人搜索的數(shù)據(jù)集PRW(person re-identification in the wild),并在此基礎(chǔ)上評(píng)估了不同行人檢測(cè)模型組合行人再識(shí)別模型的性能表現(xiàn)。PRW 數(shù)據(jù)集從6臺(tái)固定位置的攝像機(jī)中采集,訓(xùn)練集共有5 704 幅圖像,包括482個(gè)行人的18 048個(gè)實(shí)例。

Xiao等人(2017)從街景照片和電影視頻中抽取圖像,建立的CUHK-SYSU 數(shù)據(jù)集擁有更大的數(shù)據(jù)規(guī)模、更加復(fù)雜的場(chǎng)景,并涵蓋了視角變化、光照變換、多分辨率以及遮擋等復(fù)雜場(chǎng)景。CUHK-SYSU總計(jì)有18 184 幅圖像,包括8 432 個(gè)不同身份行人的96 143個(gè)不同實(shí)例。

Qin 等人(2023)從MovieNet 數(shù)據(jù)集中采樣制作了用于行人搜索的MovieNet-PS(MovieNet-person search)數(shù)據(jù)集,包含3 087 個(gè)不同身份人物的160 816 幅圖像和274 274 個(gè)實(shí)例,是現(xiàn)有的最大規(guī)模行人搜索數(shù)據(jù)集。

行人搜索數(shù)據(jù)集信息統(tǒng)計(jì)如表5所示。

表5 行人搜索數(shù)據(jù)集信息統(tǒng)計(jì)表Table 5 Statistics of the person search datasets

2.7.2 行人搜索研究進(jìn)展

從模型結(jié)構(gòu)上來(lái)講,目前主流的行人搜索框架可以分為單階段模型和兩階段模型兩類。

兩階段模型將行人檢測(cè)和再識(shí)別兩個(gè)子任務(wù)分開(kāi)執(zhí)行,先進(jìn)行目標(biāo)檢測(cè),再將檢測(cè)結(jié)果裁剪,并對(duì)剪裁的圖像進(jìn)行再識(shí)別。這一類框架的主流研究工作致力于解決檢測(cè)結(jié)果和再識(shí)別模型所需要的區(qū)域不匹配、不對(duì)齊的問(wèn)題。Lan 等人(2018)分析了行人搜索任務(wù)中普遍存在的多尺度匹配問(wèn)題,從這一角度出發(fā)提出了跨層級(jí)的語(yǔ)義對(duì)齊方法。Han 等人(2019)將再識(shí)別子任務(wù)作為主任務(wù),從再識(shí)別任務(wù)的需求出發(fā),設(shè)計(jì)了感興趣區(qū)域(region of interest,ROI)變換層對(duì)檢測(cè)器提取的邊界框進(jìn)行二次優(yōu)化,以獲得更可靠的邊界框用于后續(xù)的再識(shí)別模型。Wang 等人(2020a)設(shè)計(jì)了一種任務(wù)連貫的兩階段行人搜索框架,通過(guò)引入目標(biāo)身份信息來(lái)過(guò)濾檢測(cè)結(jié)果,同時(shí)設(shè)計(jì)自適應(yīng)的再識(shí)別模型使其匹配檢測(cè)器輸出的結(jié)果,該方法在兩個(gè)子任務(wù)的評(píng)價(jià)指標(biāo)上都取得了較好的性能。

單階段的行人搜索模型在一個(gè)端到端的框架中聯(lián)合完成行人檢測(cè)和再識(shí)別子任務(wù),因?yàn)槠湎啾扔趦呻A段模型更加簡(jiǎn)單,且在效率上存在明顯優(yōu)勢(shì),目前受到了越來(lái)越多研究者的關(guān)注。Xiao等人(2017)提出了首個(gè)基于Faster R-CNN(Ren等,2017)的單階段行人搜索框架,通過(guò)在檢測(cè)特征之后加入一個(gè)并行的再識(shí)別特征層,并使用在線實(shí)例匹配損失來(lái)約束識(shí)別任務(wù),使檢測(cè)和再識(shí)別任務(wù)能夠在同一個(gè)框架中進(jìn)行端到端的訓(xùn)練。目前的大部分單階段行人搜索工作都在此框架的基礎(chǔ)上進(jìn)行改進(jìn)。如Kim 等人(2022)指出了行人搜索中普遍存在姿勢(shì)等不對(duì)齊的情況,并使用動(dòng)態(tài)更新原型的方式學(xué)習(xí)更有辨識(shí)度的行人特征。Chen 等人(2020a)考慮了聯(lián)合框架中檢測(cè)和再識(shí)別任務(wù)的關(guān)系和優(yōu)化過(guò)程中的內(nèi)在矛盾,通過(guò)改進(jìn)模型結(jié)構(gòu)解耦二者使用的特征,使兩個(gè)子任務(wù)能更好地配合。Li和Miao(2021)則考慮了兩個(gè)任務(wù)間存在的順序性依賴關(guān)系,指出單階段模型中低質(zhì)量的檢測(cè)中間結(jié)果可能會(huì)對(duì)再識(shí)別產(chǎn)生負(fù)面影響,在此基礎(chǔ)上設(shè)計(jì)了一種優(yōu)化行人檢測(cè)中間結(jié)果的單階段模型。

2.7.3 行人搜索的前沿動(dòng)態(tài)

主流的單階段行人搜索方法在模型設(shè)計(jì)上涌現(xiàn)出一些基于DETR(detection transformer)(Carion 等,2020)和FCOS(fully convolutional one-stage)(Tian等,2019)等新型檢測(cè)器的探索性工作。Yan 等人(2021)提出了一種不需要錨點(diǎn)的單階段行人搜索模型,這種設(shè)計(jì)減小了Faster R-CNN 中大量提取候選框帶來(lái)的計(jì)算開(kāi)銷,該方法在兩個(gè)子任務(wù)上都取得了比此前方法更高的性能,進(jìn)一步提升了行人搜索模型的效率。Cao 等人(2022)提出了一種基于DETR 的端到端行人搜索模型,通過(guò)在DETR 中引入一個(gè)再識(shí)別解碼器,并結(jié)合使用不同層級(jí)的主干網(wǎng)絡(luò)和檢測(cè)解碼器的輸出來(lái)提供多層次監(jiān)督。該方法在不同的主干網(wǎng)絡(luò)上都取得了目前最優(yōu)的性能表現(xiàn),并在推理效率上領(lǐng)先于基于Faster R-CNN 的單階段行人搜索方法。Yu 等人(2022a)基于Transformer 在行人再識(shí)別領(lǐng)域中的成功經(jīng)驗(yàn),提出了使用3 層級(jí)聯(lián)的Transformer 作為識(shí)別分支,并通過(guò)特征混淆的方式來(lái)模擬行人搜索中的遮擋場(chǎng)景,該方法有效地提高了識(shí)別分支特征的魯棒性。

除了模型結(jié)構(gòu)設(shè)計(jì),一些研究者探索如何使行人搜索模型在開(kāi)放環(huán)境下也能滿足實(shí)際場(chǎng)景的需求。在實(shí)際使用中,行人的位置和身份標(biāo)簽的獲取難度是存在差異的,獲取行人位置框標(biāo)注的難度明顯低于獲取身份標(biāo)簽的難度。因此,一些研究者探索了只依賴行人位置框標(biāo)簽的弱監(jiān)督行人搜索任務(wù)。Yan 等人(2022b)通過(guò)聚類方法為再識(shí)別子任務(wù)提供動(dòng)態(tài)更新的身份偽標(biāo)簽,并且充分利用圖像中的環(huán)境上下文、記憶上下文等信息來(lái)輔助行人身份特征學(xué)習(xí),該方法在性能上甚至超過(guò)了一些全監(jiān)督的行人搜索方法。Han 等人(2021)按聚類產(chǎn)生身份偽標(biāo)簽這一思路,通過(guò)設(shè)計(jì)一個(gè)孿生網(wǎng)絡(luò)來(lái)對(duì)齊實(shí)例的特征表示,以提高弱監(jiān)督設(shè)定下的行人特征的魯棒性。Jia 等人(2022a)利用環(huán)境上下文來(lái)輔助身份特征學(xué)習(xí)和聚類,并將聚類產(chǎn)生的大量長(zhǎng)尾孤例作為訓(xùn)練負(fù)例以提升特征的魯棒程度。

此外,考慮到現(xiàn)有的行人搜索方法大多基于單一場(chǎng)景設(shè)定,直接將現(xiàn)有模型遷移到新場(chǎng)景往往會(huì)導(dǎo)致性能不佳,而在實(shí)際使用中針對(duì)每個(gè)場(chǎng)景都采集大量帶有標(biāo)注的訓(xùn)練數(shù)據(jù)成本高昂。因此,Li 等人(2022a)提出一種具有域自適應(yīng)能力的行人搜索方法,在目標(biāo)場(chǎng)景上僅使用圖像數(shù)據(jù),無(wú)需任何行人位置和身份的標(biāo)注。該工作對(duì)齊了不同域的特征表示,并隨著訓(xùn)練過(guò)程動(dòng)態(tài)地生成行人檢測(cè)實(shí)例和對(duì)應(yīng)的身份偽標(biāo)簽,通過(guò)這些設(shè)計(jì),該工作在沒(méi)有標(biāo)注的目標(biāo)域上取得了接近弱監(jiān)督甚至部分全監(jiān)督方法的性能。

還有研究者考慮到開(kāi)放世界中使用非圖像輸入進(jìn)行檢索的可能,提出一種基于文本的多模態(tài)行人搜索設(shè)定。這一設(shè)定中,推理時(shí)的輸入不再是給定行人的圖像,而是關(guān)于該行人的文字描述。Zhang等人(2021a)利用文本信息來(lái)引導(dǎo)區(qū)域提議網(wǎng)絡(luò)關(guān)注文本所描述的區(qū)域。Yan 等人(2022a)的工作中考慮到文字和圖像的信息不對(duì)等問(wèn)題,提出一種模型抑制圖像信息中的背景和環(huán)境信息,并設(shè)計(jì)了一個(gè)局部對(duì)齊模塊來(lái)對(duì)齊描述文字和行人圖像。

3 結(jié)語(yǔ)

行人再識(shí)別旨在基于行人的穿著、體態(tài)、發(fā)型和攜帶物等信息,實(shí)現(xiàn)大時(shí)空范圍內(nèi)人臉等生物特征失效情況下跨攝像機(jī)的目標(biāo)行人圖像的關(guān)聯(lián)與匹配,已成為智能視頻監(jiān)控系統(tǒng)的關(guān)鍵環(huán)節(jié)和支撐技術(shù),在智慧公安、智慧城市等國(guó)民經(jīng)濟(jì)建設(shè)中發(fā)揮了重要作用。經(jīng)過(guò)10 多年從多攝像機(jī)追蹤到再識(shí)別的起步階段、基于傳統(tǒng)特征的再識(shí)別,特別是近年來(lái)基于深度學(xué)習(xí)的再識(shí)別的快速發(fā)展與進(jìn)步,在多個(gè)數(shù)據(jù)集上取得了非常好、甚至超過(guò)人類的性能。但同時(shí),面向開(kāi)放域?qū)嶋H場(chǎng)景的應(yīng)用,仍然面臨諸多挑戰(zhàn),這也引領(lǐng)著未來(lái)行人再識(shí)別技術(shù)的發(fā)展趨勢(shì)。下面將結(jié)合本文涉及的7 個(gè)方面,對(duì)未來(lái)的行人再識(shí)別技術(shù)發(fā)展趨勢(shì)進(jìn)行分析和展望。

1)遮擋行人再識(shí)別。遮擋行人再識(shí)別問(wèn)題中,對(duì)于基于可見(jiàn)區(qū)域的這類方法,需要依賴額外的模型提供行人的語(yǔ)義信息進(jìn)而實(shí)現(xiàn)特征配準(zhǔn)。如何保證額外模型在行人再識(shí)別數(shù)據(jù)上的可靠性,以及減小其帶來(lái)的計(jì)算開(kāi)銷是需要考慮的一個(gè)主要問(wèn)題。其次,目前的特征配準(zhǔn)僅考慮部件特征,如何高效地實(shí)現(xiàn)更細(xì)粒度的特征配準(zhǔn)(如像素級(jí))是一個(gè)值得探索的方向。對(duì)于基于補(bǔ)全的遮擋行人再識(shí)別方法,如何保證補(bǔ)充區(qū)域的信息具有行人真實(shí)信息特別是其他區(qū)域不具備的鑒別性信息是主要問(wèn)題,尤其是在圖像行人再識(shí)別中無(wú)法利用時(shí)序信息的場(chǎng)合。除此之外,現(xiàn)有數(shù)據(jù)集中,訓(xùn)練集中的遮擋行人圖像嚴(yán)重不足,極大限制了現(xiàn)有方法的性能,探究合理的遮擋圖像生成方式來(lái)豐富訓(xùn)練樣本,以及如何有效地利用生成樣本進(jìn)行訓(xùn)練,提升遮擋行人再識(shí)別方法的可泛化能力,是未來(lái)的一個(gè)研究發(fā)展趨勢(shì)。

2)無(wú)監(jiān)督行人再識(shí)別。近幾年,無(wú)監(jiān)督行人再識(shí)別性能顯著提升,很多工作在常用數(shù)據(jù)集上取得的性能已經(jīng)超越了3 年前部分有監(jiān)督行人再識(shí)別算法。與有監(jiān)督行人再識(shí)別相比,無(wú)監(jiān)督行人再識(shí)別可以顯著降低數(shù)據(jù)標(biāo)注成本,從而使行人再識(shí)別系統(tǒng)易于部署,具備更好的環(huán)境適應(yīng)能力。未來(lái),無(wú)監(jiān)督行人再識(shí)別仍然是一個(gè)有意義和應(yīng)用價(jià)值的研究方向?,F(xiàn)有的無(wú)監(jiān)督行人再識(shí)別算法難以對(duì)易混淆樣本進(jìn)行準(zhǔn)確的自動(dòng)標(biāo)注,使其性能受到制約。未來(lái),通過(guò)引入主動(dòng)學(xué)習(xí)將少量的人機(jī)交互引入無(wú)監(jiān)督學(xué)習(xí)過(guò)程,有望在不顯著增加標(biāo)注成本的同時(shí),顯著提升無(wú)監(jiān)督行人再識(shí)別性能。此外,隨著大模型研究的進(jìn)展以及大數(shù)據(jù)的有效利用,如何利用大模型知識(shí)指導(dǎo)無(wú)監(jiān)督行人再識(shí)別模型的學(xué)習(xí)與訓(xùn)練將會(huì)成為有價(jià)值的研究方向。

3)虛擬數(shù)據(jù)行人再識(shí)別。近年來(lái)虛擬數(shù)據(jù)用于行人再識(shí)別取得了顯著進(jìn)步,特別是用于訓(xùn)練深度模型并提升泛化性能。此外,部分研究也已證實(shí)了虛擬數(shù)據(jù)可以像真實(shí)數(shù)據(jù)一樣可靠地用于測(cè)試算法。因此,行人再識(shí)別的研究將不會(huì)再受制于隱私保護(hù)的影響,而有了可靠的數(shù)據(jù)保障。未來(lái),行人再識(shí)別虛擬數(shù)據(jù)的研究主要在于如何進(jìn)一步擴(kuò)大規(guī)模和多樣性并提升行人再識(shí)別的泛化性能。雖然直覺(jué)上數(shù)據(jù)越多越好,在虛擬數(shù)據(jù)領(lǐng)域擴(kuò)大規(guī)模很容易,但如何有效擴(kuò)展數(shù)據(jù)仍然是一個(gè)瓶頸問(wèn)題。例如,雖然UnrealPerson 總共創(chuàng)建了6 799 個(gè)身份的行人圖像,但實(shí)驗(yàn)發(fā)現(xiàn)隨機(jī)選擇3 000個(gè)身份行人圖像的實(shí)驗(yàn)效果是最好的,因此仍未能發(fā)揮更多人的優(yōu)勢(shì)。相應(yīng)地,ClonedPerson 提出一個(gè)相似性—多樣性人物擴(kuò)展策略,通過(guò)聚類的方法使生成的虛擬人物既具有相似性,又具有多樣性,從而形成最大效用的大規(guī)模虛擬行人數(shù)據(jù)集,這對(duì)未來(lái)虛擬數(shù)據(jù)的設(shè)計(jì)有一定的借鑒意義。

4)域泛化行人再識(shí)別。近年來(lái)研究人員從批歸一化和實(shí)例歸一化、域不變特征學(xué)習(xí)、顯式深度圖像匹配、多專家混合以及元學(xué)習(xí)等多方面開(kāi)展了域泛化行人再識(shí)別的研究,顯著提升了行人再識(shí)別模型的泛化性能。這些研究進(jìn)一步明確了在實(shí)際應(yīng)用條件下現(xiàn)有方法較差的跨庫(kù)泛化性能以及提升泛化性能的難度。因此行人再識(shí)別的研究必須重視跨庫(kù)測(cè)試的評(píng)估,而不能樂(lè)觀于單個(gè)數(shù)據(jù)庫(kù)上訓(xùn)練測(cè)試得到的幾近飽和的性能。由于域泛化行人再識(shí)別的研究仍然處于起步階段,因此以上各子方向仍然有比較大的潛力和發(fā)展空間。另一方面,探索更多的泛化思路以及更深入理解深度網(wǎng)絡(luò)的過(guò)擬合現(xiàn)象和泛化機(jī)理,仍然有很長(zhǎng)的道路要走。此外,除了算法外,數(shù)據(jù)本身的作用也是提升泛化能力不可或缺的,而受監(jiān)控?cái)?shù)據(jù)隱私保護(hù)的影響,大規(guī)模虛擬數(shù)據(jù)用于行人再識(shí)別的訓(xùn)練和測(cè)試將是大勢(shì)所趨。

5)換裝行人再識(shí)別。換裝行人再識(shí)別是現(xiàn)實(shí)監(jiān)控場(chǎng)景中的難點(diǎn)問(wèn)題,近年來(lái)受到越來(lái)越多的關(guān)注。隨著研究領(lǐng)域的發(fā)展,公開(kāi)換裝行人數(shù)據(jù)集的數(shù)據(jù)規(guī)模越來(lái)越大,場(chǎng)景更接近實(shí)際監(jiān)控情況。對(duì)比短期不換裝的再識(shí)別,現(xiàn)有換裝再識(shí)別方法在現(xiàn)實(shí)場(chǎng)景數(shù)據(jù)集中的性能仍不理想。研究領(lǐng)域目前仍存在一些問(wèn)題,有待未來(lái)研究的解決。一方面,方法的發(fā)展仍受制于換裝行人數(shù)據(jù)難以標(biāo)注的限制,未來(lái)可以考慮針對(duì)換裝場(chǎng)景的虛擬數(shù)據(jù)合成利用與弱監(jiān)督學(xué)習(xí);另一方面,大多數(shù)研究忽略了現(xiàn)實(shí)應(yīng)用中換裝行人與非換裝行人同時(shí)出現(xiàn)的情況,未來(lái)可以考慮學(xué)習(xí)統(tǒng)一的特征提取方法。

6)多模態(tài)行人再識(shí)別。由于現(xiàn)實(shí)場(chǎng)景的復(fù)雜性和多樣性,結(jié)合現(xiàn)有前沿進(jìn)展,跨模態(tài)行人再識(shí)別仍有兩個(gè)方向值得研究。一是跨模態(tài)聯(lián)邦學(xué)習(xí)。現(xiàn)有的跨模態(tài)數(shù)據(jù)集比較少且規(guī)模小,由于隱私受限問(wèn)題,大量真實(shí)場(chǎng)景數(shù)據(jù)未被利用。如何借助聯(lián)邦學(xué)習(xí)聯(lián)合多方數(shù)據(jù),提升模型性能值得進(jìn)一步研究。二是多模態(tài)數(shù)據(jù)泛化問(wèn)題?,F(xiàn)有的跨模態(tài)模型通常只是針對(duì)兩兩模態(tài)間的匹配問(wèn)題,無(wú)法應(yīng)用模態(tài)缺失問(wèn)題。自適應(yīng)多模態(tài)數(shù)據(jù)間的跨模態(tài)匹配,是一個(gè)智能監(jiān)控系統(tǒng)不可或缺的能力。

7)行人搜索。目前行人搜索研究的根本目的在于提升行人檢測(cè)和再識(shí)別兩個(gè)子任務(wù)的性能和效率。在實(shí)際使用中,各種復(fù)雜因素導(dǎo)致無(wú)法輕易完成這一目標(biāo)。首先,從兩個(gè)子任務(wù)關(guān)系的角度,檢測(cè)任務(wù)需要學(xué)習(xí)行人共性特征,再識(shí)別任務(wù)則關(guān)注不同行人的身份信息,二者之間存在天然沖突。而識(shí)別任務(wù)又依賴于檢測(cè)結(jié)果的質(zhì)量,因此如何處理好兩個(gè)子任務(wù)間的平衡是一個(gè)具有挑戰(zhàn)性的問(wèn)題。其次,從數(shù)據(jù)角度,由于獲取有標(biāo)簽數(shù)據(jù)的成本高昂,行人搜索研究逐漸從全監(jiān)督設(shè)定轉(zhuǎn)向了弱監(jiān)督、域自適應(yīng)設(shè)定。如何在僅有部分甚至完全沒(méi)有標(biāo)簽的情況下為模型提供更有效的監(jiān)督是研究者關(guān)注的熱點(diǎn)。除了獲取訓(xùn)練數(shù)據(jù)的困難,模型本身的魯棒性也是一個(gè)大問(wèn)題,在跨場(chǎng)景或復(fù)雜背景(背景遮擋、行人重疊、行人衣著類似)情況下現(xiàn)有模型往往會(huì)出現(xiàn)明顯的性能下降,如何訓(xùn)練魯棒、泛化能力強(qiáng)的行人搜索網(wǎng)絡(luò)也是值得探討的研究課題??傮w而言,行人搜索正向利用更少的標(biāo)簽解決更加貼近實(shí)際問(wèn)題這一道路上發(fā)展。

致 謝本文由中國(guó)圖象圖形學(xué)學(xué)會(huì)視頻圖像與安全專業(yè)委員會(huì)組織撰寫,該專委會(huì)鏈接為http://www.csig.org.cn/detail/2448。

猜你喜歡
行人模態(tài)特征
毒舌出沒(méi),行人避讓
意林(2021年5期)2021-04-18 12:21:17
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
路不為尋找者而設(shè)
抓住特征巧觀察
我是行人
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
广昌县| 吴堡县| 呼和浩特市| 五指山市| 崇仁县| 承德市| 遂溪县| 崇礼县| 揭西县| 乌拉特前旗| 兴隆县| 弋阳县| 苗栗市| 十堰市| 甘谷县| 德兴市| 陕西省| 新疆| 虹口区| 旺苍县| 云南省| 渝北区| 玉门市| 南充市| 荆门市| 五常市| 绥中县| 普安县| 蚌埠市| 嘉峪关市| 定陶县| 科技| 湛江市| 新竹县| 松阳县| 环江| 仪征市| 吴川市| 泗水县| 绥中县| 河曲县|