譚飛剛,廖全蜜,李健藝
(深圳信息職業(yè)技術(shù)學(xué)院 交通與環(huán)境學(xué)院,廣東 深圳,518172)
在全球反恐的大背景下,大規(guī)模的攝像機(jī)被安裝在公共場所(如機(jī)場、火車站、學(xué)校和辦公樓等)形成一個監(jiān)控網(wǎng)絡(luò)。通常在這種大范圍的攝像機(jī)監(jiān)控網(wǎng)絡(luò)中各個攝像機(jī)視野之間不存在重疊區(qū)域。這種大規(guī)模攝像機(jī)網(wǎng)絡(luò)每天都會產(chǎn)生海量的視頻數(shù)據(jù)供執(zhí)法人員用于目標(biāo)監(jiān)視或取證。如果采用人工監(jiān)控的方式進(jìn)行處理不僅需要耗費(fèi)大量的人力物力和財(cái)力,而且還容易因人為主觀因素的影響降低監(jiān)控的有效性。智能視頻監(jiān)控不僅可以對監(jiān)控?cái)?shù)據(jù)進(jìn)行快速有效的處理,而且還能對監(jiān)控區(qū)域完成長時間、大范圍的監(jiān)控任務(wù)(如可疑活動檢測、行人檢索和異常事件預(yù)測等)[1]。因此,智能視頻監(jiān)控已經(jīng)成為計(jì)算機(jī)視覺、安全監(jiān)控等領(lǐng)域的研究熱點(diǎn)[2]。
跨攝像機(jī)目標(biāo)跟蹤是智能視頻監(jiān)控系統(tǒng)中目標(biāo)行為分析的基礎(chǔ),而跨攝像機(jī)目標(biāo)再識別是跨攝像機(jī)目標(biāo)跟蹤過程中非常重要的步驟之一[3]??鐢z像機(jī)目標(biāo)再識別被定義為不同攝像機(jī)拍攝目標(biāo)圖像間建立對應(yīng)關(guān)系的過程,換句話說,一個目標(biāo)出現(xiàn)在不同攝像機(jī)視野里,智能視頻監(jiān)控系統(tǒng)需要將它們識別為同一個目標(biāo)并為它們分配同一個身份標(biāo)識符。如圖1所示,目標(biāo)P1從攝像機(jī)B走出經(jīng)過盲區(qū)再進(jìn)入攝像機(jī)A視野后,智能監(jiān)控系統(tǒng)能識別出該目標(biāo)并給其分配P1標(biāo)識符。智能視頻監(jiān)控可以廣泛應(yīng)用于公共安全監(jiān)控、交通狀態(tài)監(jiān)控、居民小區(qū)安全監(jiān)控等場景中實(shí)現(xiàn)異常行為檢測與安全預(yù)警等功能,具有廣泛的應(yīng)用前景。
圖1 行人跨攝像機(jī)再識別示意圖Fig.1 The schematic diagram of cross-camera person reidentification
跨攝像機(jī)行人再識別算法主要包含行人檢測、特征提取、度量匹配三個關(guān)鍵步驟,其基本流程如圖2所示。直接對攝像機(jī)視野或離線視頻序列進(jìn)行行人檢測獲得行人的位置并提取行人樣本圖像,然后提取相關(guān)特征描述因子,最后與圖庫中其他行人樣本圖像在特征空間里進(jìn)行度量匹配并輸出匹配結(jié)果,從而得到查詢行人樣本在其他攝像機(jī)中的圖像樣本。
圖2 跨攝像機(jī)行人再識別算法流程圖Fig.2 Flow chart of cross-camera person recognition algorithm
經(jīng)過近些年的發(fā)展,雖然相繼有研究者對智能視頻監(jiān)控技術(shù)的各個方面進(jìn)行了總結(jié)[2-4],但是這些綜述文獻(xiàn)大都針對智能視頻監(jiān)控技術(shù)中某一類算法或某一個方面進(jìn)行介紹。如目標(biāo)檢測算法綜述[5],目標(biāo)跟蹤算法綜述[6]等。然而近些年發(fā)展的跨攝像機(jī)行人再識別技術(shù)方面綜述相對較少,并且隨著科學(xué)技術(shù)的飛速發(fā)展,近些年各類優(yōu)異的算法層出不窮,需要進(jìn)行較好的梳理與總結(jié)。本文主要從跨攝像機(jī)行人再識別面臨的挑戰(zhàn)、當(dāng)前研究現(xiàn)狀、常用的實(shí)驗(yàn)數(shù)據(jù)集和未來的研究趨勢進(jìn)行探討和歸納總結(jié)。
光照變化、復(fù)雜的背景環(huán)境、遮擋等影響因素都是目前機(jī)器視覺領(lǐng)域面臨的挑戰(zhàn)[7,8]。但是由于行人具有非剛性特征,因此跨攝像機(jī)行人再識別還存在以下挑戰(zhàn)。
(1)復(fù)雜多變的姿體運(yùn)動
人體四肢通過關(guān)節(jié)的活動可以產(chǎn)生各種各樣的動作和形狀,這些形狀嚴(yán)重影響了對人體輪廓特征的提取。此外,其它的一些附著物也容易引起行人的輪廓變化,例如行人拖行李箱、打雨傘、提手提包等。同時,這些物體也容易使行人間發(fā)生遮擋。
(2)豐富多彩的衣著外表裝飾
由于跨攝像機(jī)行人再識別針對的是大范圍長時間內(nèi)的行人跟蹤,因此行人在此過程中存在衣著變換、裝飾變換等動作。而這些動作則直接影響到系統(tǒng)對行人特征的提取與識別分析。例如行人從室內(nèi)走到室外后戴上墨鏡、打開太陽傘或者戴上太陽帽或者穿上防曬衣等,這將直接影響到行人的外貌特征提取。
(3)攝像機(jī)間屬性差異
跨攝像機(jī)行人再識別涉及到行人在多個攝像機(jī)間的識別與匹配,然而各個攝像機(jī)在安裝過程中受地形等環(huán)境因素的影響使得其拍攝角度、拍攝高度、拍攝環(huán)境和分辨率等可能存在非常大的差異,從而導(dǎo)致行人在不同攝像機(jī)間外觀差異巨大,甚至?xí)霈F(xiàn)同一個行人在不同攝像機(jī)間外觀差異大于不同行人在同一攝像機(jī)內(nèi)的外觀差異。例如有些攝像機(jī)拍攝行人正面,有些攝像機(jī)拍攝行人側(cè)面,有些攝像機(jī)拍攝行人背面,有些攝像機(jī)拍攝高度低導(dǎo)致行人圖像高大而有些攝像機(jī)拍攝高度高導(dǎo)致拍攝行人圖像比較矮小。
(4)攝像機(jī)間時空信息缺失
由于大范圍視頻監(jiān)控網(wǎng)絡(luò)中大部分?jǐn)z像機(jī)視野間存在盲區(qū),那么行人從一個攝像機(jī)視野離開后需要經(jīng)過一段盲區(qū),然后再進(jìn)入另一個攝像機(jī)視野。在盲區(qū)的這段時間里,該行人將消失在所有的攝像機(jī)視野里,從而導(dǎo)致攝像機(jī)在整個監(jiān)控網(wǎng)絡(luò)中時空信息的丟失,系統(tǒng)無法預(yù)知行人何時出現(xiàn)在何地。
總的來說,跨攝像機(jī)行人再識別相比于單個攝像機(jī)行人識別和重疊視域的行人識別面臨更多更大的挑戰(zhàn)。也正因?yàn)檫@些挑戰(zhàn)不斷激勵著科研人員不斷探索新的可行的解決方案來解決問題。因此,本文接下來對當(dāng)前跨攝像機(jī)行人再識別技術(shù)的研究現(xiàn)狀進(jìn)行闡述與總結(jié)。
隨著監(jiān)控范圍的不斷擴(kuò)大,攝像機(jī)間不重疊區(qū)域越來越多,再加上智能視頻監(jiān)控技術(shù)的不斷發(fā)展以及行人再識別在眾多領(lǐng)域的潛在應(yīng)用價值,推動著跨攝像機(jī)行人再識別技術(shù)不斷向前發(fā)展[9]。該技術(shù)自2003年開始被提出并在最近幾年里受到了研究者們廣泛關(guān)注并成為機(jī)器視覺、機(jī)器學(xué)習(xí)和智能視頻監(jiān)控等領(lǐng)域的研究熱點(diǎn)。近些年國際上每年都有大量公開發(fā)表的相關(guān)論文,但這些文獻(xiàn)依據(jù)不同分類標(biāo)準(zhǔn)可劃分為不同類別。例如依據(jù)主動性可劃分為主動學(xué)習(xí)型和被動學(xué)習(xí)型,依據(jù)樣本圖像數(shù)可劃分為單幅圖像和多幅圖像,依據(jù)研究過程可劃分為特征設(shè)計(jì)和度量學(xué)習(xí)等。目前基本上以研究過程進(jìn)行分類為主,因此本文接下來從特征設(shè)計(jì)和度量學(xué)習(xí)兩個方面對跨攝像機(jī)行人再識別的研究現(xiàn)狀進(jìn)行梳理與總結(jié)。
特征設(shè)計(jì)就是設(shè)計(jì)出一種對光照變化、運(yùn)動形變、部分遮擋和分辨率差異等影響因素具有較好魯棒性的特征描述子,并且能夠?qū)崿F(xiàn)行人間具有良好的區(qū)分性[10]。基于特征設(shè)計(jì)的方法又可細(xì)分為底層特征和基于學(xué)習(xí)的特征。
(1)底層特征
底層特征指顏色、梯度、紋理和邊緣等基本的圖像特征。單種特征較難描述出行人的各種顯著性特點(diǎn),因此,許多研究者通常融合幾種特征來增強(qiáng)它們的描述和區(qū)分能力。Lian等[11]為了描述無視野重疊區(qū)域間空間結(jié)構(gòu)信息,提出了一種基于距離的局部二值模式描述子,同時結(jié)合顏色信息來實(shí)現(xiàn)跨攝像機(jī)行人再識別并取得了較好的效果。Lin等[12]利用混合高斯模型來搭建顏色特征和紋理特征兩棵二叉樹,并以此來獲得魯棒的行人外觀模型。Liu等[13]針對在特征融合或結(jié)合過程中均勻分配權(quán)重而無法得到融合特征最佳效果的缺陷,提出了一種重要性挖掘的特征選擇算法來提升融合特征中重要特征的權(quán)重。這樣在特征提取過程中可以根據(jù)樣本顯著性特點(diǎn)自動對顯著性特征增加權(quán)重從而提升識別效果。譚飛剛等[14]將圖庫中行人樣本圖像進(jìn)行特征提取并進(jìn)行聚類得到各特征原型,然后通過與特征原型進(jìn)行相似度計(jì)算得到原型相似度特征來減少光照等因素的影響。受分層協(xié)方差描述子在圖像分類算法中應(yīng)用的啟發(fā),Matsukawa等[15]提出分層高斯描述子應(yīng)用于跨攝像機(jī)行人再識別。Ukita等[16]在底層特征的基礎(chǔ)上提出了一種基于群組特征的跨攝像機(jī)行人再識別。該群組特征包含了行人間相對距離、相對速度差等方面內(nèi)容彌補(bǔ)了攝像機(jī)間一些時空信息。Wen等[17]利用感知哈希算法對底層特征進(jìn)行二值化映射并結(jié)合幾個特征通道來完成特征編碼,最終計(jì)算出魯棒性好的分層特征描述子。Ibn等[18]通過融合外觀特征和運(yùn)動特征來完成跨攝像機(jī)行人再識別,其中采用SURF和Cuboid特征描述外觀,而利用稀疏來表示運(yùn)動過程中的運(yùn)動關(guān)鍵點(diǎn)。
總之,底層特征是特征設(shè)計(jì)的基礎(chǔ),隨著研究的不斷深入,計(jì)算機(jī)處理能力的不斷增強(qiáng),研究者不斷對底層特征進(jìn)行組合、加工形成更加抽象、更加魯棒的特征。
(2)基于學(xué)習(xí)的特征
基于學(xué)習(xí)的特征指通過機(jī)器學(xué)習(xí)的方法,從大量樣本圖像中學(xué)習(xí)出更加抽象、語義信息更加豐富的行人特征描述[19]。Zhao等[20]結(jié)合相鄰塊約束匹配和K-means算法自動提取出樣本顯著性特征而無需人工參與。An等[21]利用正則典型相關(guān)分析算法訓(xùn)練出一個映射矩陣并將提取的底層特征通過該矩陣映射到一個低維的共同子空間里,從而便于尋找出目標(biāo)間最大相關(guān)性。Guo等[22]針對攝像機(jī)間時空信息的丟失和圖像對間視覺模糊等問題提出了一種基于深度學(xué)習(xí)的深度相似性特征學(xué)習(xí)算法,以此從圖像對中提取出更加有效的深度特征。Lin等[23]在基于特征表達(dá)和圖像匹配自動學(xué)習(xí)的深度學(xué)習(xí)框架下提取感知約束信息來實(shí)現(xiàn)整個攝像機(jī)網(wǎng)絡(luò)間行人再識別。Li等[24]通過每一層疊加多個尺度的卷積神經(jīng)網(wǎng)絡(luò)來提取行人全身和身體各部件的有用特征,并且通過設(shè)計(jì)空間變換網(wǎng)絡(luò)來學(xué)習(xí)和定位可變性部分。
度量學(xué)習(xí)的方法就是學(xué)習(xí)一種特征轉(zhuǎn)換或距離度量機(jī)制使得同一行人在不同攝像機(jī)間具有最小距離而不同行人在相同攝像機(jī)里具有最大距離[25]。Zheng等[26]將行人再確認(rèn)問題轉(zhuǎn)換為距離度量學(xué)習(xí)問題,提出了相關(guān)距離比較概率模型,該方法通過優(yōu)化距離學(xué)習(xí)度量機(jī)制使得最大化匹配精度并忽略外觀特征的選擇。Martin等[27]針對度量學(xué)習(xí)存在優(yōu)化計(jì)算模式復(fù)雜的缺陷提出了寬松的逐對度量學(xué)習(xí)的方法。該方法對馬氏距離進(jìn)行改進(jìn),將矩陣的操作轉(zhuǎn)換為跡的操作,從而減少計(jì)算復(fù)雜度,進(jìn)而提升算法的效率。Li等[28]針對目前行人再識別算法中特征維度遠(yuǎn)高于訓(xùn)練樣本數(shù)而影響算法準(zhǔn)確度的問題,提出了基于度量學(xué)習(xí)的可區(qū)分性的零度空間。Zhao等[29]通過相異矩陣實(shí)現(xiàn)雙通道條形結(jié)構(gòu)特征對相似度測量。Slawomir等[30]使用單個顏色檢測器圖像對學(xué)習(xí)得到顏色距離度量來減少不同攝像機(jī)間顏色差異。
數(shù)據(jù)集為跨攝像機(jī)行人再識別算法提供了數(shù)據(jù)驗(yàn)證的基礎(chǔ)。良好的數(shù)據(jù)集不僅需要對行人數(shù)據(jù)進(jìn)行標(biāo)注,而且應(yīng)盡可能多的包含一些干擾因素(如光照變化、拍攝視角差異、部分遮擋和運(yùn)動形變等)來模擬真實(shí)的監(jiān)控環(huán)境并驗(yàn)證算法的魯棒性。公開的數(shù)據(jù)集不僅可以為其他研究者提供測試數(shù)據(jù),而且還能為不同算法提供性能比較。經(jīng)過多年的發(fā)展,國際上公開了一些跨攝像機(jī)再識別的行人數(shù)據(jù)集供大家測試自己的再識別模型。ViPER、i-LIDS、ETHZ、CUHK、MCT、CAVIAR4REID和GRID等是目前最為常用的跨攝像機(jī)行人再識別數(shù)據(jù)集,各數(shù)據(jù)集概要信息總結(jié)如表1所示。
表1 公開的行人再識別數(shù)據(jù)集總結(jié)Tab.1 Summary of the open person recognition dataset
(1)ViPER數(shù)據(jù)集(下載地址:http://vision.soe.uesc.edu/?q=node/178)中所有行人樣本圖像均從兩個無視野重疊的攝像機(jī)中采集得到。ViPER數(shù)據(jù)集總共包含632對行人1264幅尺寸為128×48圖像(每個人每個攝像機(jī)一幅圖像)。所有圖像包含了28對不同的拍攝視角。因此,此數(shù)據(jù)集是目前常用并最具挑戰(zhàn)的數(shù)據(jù)集之一。
(2)ETHZ數(shù)據(jù)集(下載地址:http://www.vision.ee.ethz.ch/~aess/iccv2007/)中所有行人樣本圖像均從一個移動攝像機(jī)采集得到,每個行人樣本包含4至28幅圖像。該數(shù)據(jù)總共包含3個序列共28個行人8335幅圖像。該數(shù)據(jù)集主要考慮的是光照變化、尺度變化和遮擋等因素的影響。
(3)i-LIDS數(shù)據(jù)集(下載地址:http://scienceandresearch.homeoffice.gov.uk/hosdb/cctvimageing-technology/i-lids/dataset-applications.html)中所有行人樣本圖像均從某機(jī)場大廳內(nèi)兩個不同攝像機(jī)采集得到。該數(shù)據(jù)集包含119對行人476幅尺寸為128×64的圖像(每個人每個攝像機(jī)兩幅圖像)。該數(shù)據(jù)集主要考慮光照變化和遮擋等因素的影響。
(4)CUHK數(shù)據(jù)集(下載地址:http://www.ee.cuhk.edu.hk/~xgwang/CUHK_identification.html)中所有行人樣本圖像均采集于校園里兩個不重疊的攝像機(jī)。該數(shù)據(jù)集包含CUHK01、CUHK02和CUHK03三個子集。CUHK01包含971對行人3884幅圖像。CUHK02則是CUHK01的擴(kuò)展,其圖像來自5個不同攝像機(jī)。CUHK03數(shù)據(jù)集則包含1360個行人13164幅圖像。整個數(shù)據(jù)集的圖像分辨率較高,主要包含光照變化、視角變化和遮擋等影響因素。
(5)MCT數(shù)據(jù)集(下載地址:http://mct.idealtest.org/Datasets.html)包含01、02和03三個子集。01和02兩個子集由路邊兩個不重疊攝像機(jī)拍攝視頻得到,03子集則是對01和02子集的擴(kuò)展,由3個不同視角攝像機(jī)捕獲視頻組成,其中包含了室內(nèi)場景。該數(shù)據(jù)集主要包含低分辨率、光照變化、運(yùn)動形變等影響因素。
(6)C A V I A R 4 R E I D數(shù)據(jù)集(下載地址:http://groups.inf. ed.ac.uk/vison/CAVIAR/CAVIARDATA1/)由安裝在某購物中心走廊上不同角度攝像機(jī)拍攝視頻得到。該數(shù)據(jù)集主要包含部分遮擋、光照變化和陰影等干擾因素。
(7)GRID數(shù)據(jù)集(下載地址:http://www.eecs.qmul.ac.uk/~ccloy/downloads_qmul_underground_reid.html)中樣本圖像由8個安裝在地鐵站附近攝像機(jī)捕獲得到,總共包含250對行人,但是每個行人樣本圖像分辨率較低。該數(shù)據(jù)集主要包含運(yùn)動形變、色彩變化、光照變化等干擾因素。
當(dāng)前的無視野重疊跨攝像機(jī)行人再識別算法主要關(guān)注于短時間內(nèi)和較封閉區(qū)域內(nèi)的再識別,然而,廣闊的監(jiān)控區(qū)域是一個開放的場所,如何在大范圍內(nèi)進(jìn)行長時間、穩(wěn)定的跨攝像機(jī)行人再識別將是今后的研究趨勢。
國際上公開的跨攝像機(jī)行人再識別數(shù)據(jù)集中的樣本數(shù)據(jù)基本上都是在時間差距較小的兩個攝像機(jī)間采集得到,也就是說兩個攝像機(jī)間采集的樣本圖像不存在衣服著裝、頭飾或其他附帶物的明顯差異。因此,當(dāng)前算法大都基于外觀特征設(shè)計(jì)或者距離度量來完成跨攝像機(jī)行人再識別。然而,現(xiàn)實(shí)的長時間監(jiān)控中會存在行人更換衣服、變換裝飾品等現(xiàn)象。那么,如何應(yīng)對這些挑戰(zhàn)來實(shí)現(xiàn)長時間跨攝像機(jī)再識別將是未來的一個研究趨勢。
現(xiàn)實(shí)生活中長時間大范圍內(nèi)視頻監(jiān)控將會產(chǎn)生海量視頻數(shù)據(jù),從而使得行人樣本圖庫容量不斷擴(kuò)大。在此條件下,行人再識別系統(tǒng)需要從以下兩個方面來保障系統(tǒng)的穩(wěn)定性。一方面如何利用新技術(shù)來自動標(biāo)注行人、篩選行人樣本和更新行人樣本圖庫。另一方面,如何設(shè)計(jì)新的排序規(guī)則、度量學(xué)習(xí)模型等來實(shí)現(xiàn)海量數(shù)據(jù)下快速的行人再識別。
在世界反恐大背景下,大量的攝像機(jī)安裝在城市的各個角落形成了一個龐大的視頻監(jiān)控網(wǎng)絡(luò)。如何利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)整個監(jiān)控網(wǎng)絡(luò)中行人長時間、大范圍的跟蹤已成為當(dāng)前智能視頻監(jiān)控的熱點(diǎn)。近些年,ICCV、ECCV、CVPR等國際頂級會議每年都會發(fā)表許多相關(guān)論文。本文主要是對近些年發(fā)表的論文從研究進(jìn)展、面臨的困難和研究趨勢做了簡單梳理。目前的算法大都基于公開數(shù)據(jù)集進(jìn)行研究,其圖庫樣本數(shù)量有限,通過引入深度學(xué)習(xí)和大數(shù)據(jù)處理等技術(shù)提高再識別的魯棒性和準(zhǔn)確性,為現(xiàn)實(shí)中大范圍、長時間跨攝像機(jī)行人再識別提供了一種新的思路。