孫金玉,王洪元,張 繼,張文文
(常州大學(xué) 信息科學(xué)與工程學(xué)院,江蘇 常州 213164)(*通信作者電子郵箱hywang@cczu.edu.cn)
行人重識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的重要問題之一,其中行人重識(shí)別的任務(wù)是在非重疊攝像機(jī)拓?fù)浣Y(jié)構(gòu)下對(duì)同一行人的所有圖像實(shí)現(xiàn)匹配,從而實(shí)現(xiàn)行人的持續(xù)跟蹤。由于其在智能監(jiān)控、多目標(biāo)跟蹤等領(lǐng)域具有重要的意義,近年來引起了國內(nèi)外研究者的廣泛關(guān)注。
行人重識(shí)別領(lǐng)域主要的問題在于同一個(gè)行人通常在不同時(shí)間被相互之間非重疊的攝像機(jī)所拍攝,導(dǎo)致拍攝到的圖像會(huì)因?yàn)椴煌墓庹諚l件、不同的相機(jī)視角、不同的行人姿態(tài)甚至不同的行人衣著或外觀等原因,產(chǎn)生很大的變化。因此,行人重識(shí)別問題通常具有以下幾個(gè)特點(diǎn):1)在實(shí)際的監(jiān)控環(huán)境中,不能有效地利用臉部的有效信息,只能利用行人的外貌特征進(jìn)行識(shí)別;2)在不同的攝像頭下,因尺度、光照和拍攝角度的變化,同一個(gè)行人的不同圖片中,外觀特征也會(huì)有一定程度的變化;3)行人姿態(tài)和攝像頭角度的改變,在不同攝像頭中,不同行人的外貌特征可能比同一個(gè)行人的外貌特征更相似。
基于以上問題,當(dāng)前的行人重識(shí)別研究工作可以大致分為基于外貌的特征表示方法和基于距離度量學(xué)習(xí)方法兩類。首先,前者利用紋理和顏色直方圖等特征描述行人外貌。Gheissari等[1]提取行人外貌特征中不變的區(qū)域,在每個(gè)穩(wěn)定不變的區(qū)域上提取多種顏色特征,采用三角形模型表示行人身體結(jié)構(gòu),通過模型匹配計(jì)算兩個(gè)行人圖像的距離;Farenzena等[2]提出基于對(duì)稱驅(qū)動(dòng)的累積局部特征(Symmetry-Driven Accumulation of Local Feature,SDALF)的行人重識(shí)別方法,該方法將人體按照結(jié)構(gòu)劃分成不同區(qū)域,分別提取加權(quán)HSV(Hue, Saturation, Value)直方圖和紋理特征,再分別對(duì)不同的特征采用不同的距離函數(shù)計(jì)算相似度,最終相似度按照不同的權(quán)重將不同特征的距離加權(quán)求和得到;Cai等[3]將位置信息融入到HSV顏色直方圖中,提出全局顏色背景(Global Color Context, GCC)方法。其次,基于距離度量學(xué)習(xí)的行人重識(shí)別方法則是通過對(duì)目標(biāo)函數(shù)的訓(xùn)練,找出有最大區(qū)分度的特征分量,再進(jìn)行建模實(shí)現(xiàn)目標(biāo)重識(shí)別。Weinberger等[4]提出大間隔最近鄰分類(Large Margin Nearest Neighbor, LMNN)距離測(cè)度學(xué)習(xí)算法;Zheng等[5]首次引入尺度學(xué)習(xí)算法的思想,僅采用LMNN中三元組形式的樣本對(duì),提出基于概率相對(duì)距離比較(Probabilistic Relative Distance Comparison, PRDC)的距離測(cè)度學(xué)習(xí)算法;Zheng等[6]還提出將行人重識(shí)別視作一個(gè)相對(duì)距離比較(Relative Distance Comparison, RDC)的學(xué)習(xí)問題,在該方法中,各類特征并非一視同仁對(duì)待,目的也是正樣本的距離最小化及負(fù)樣本的距離最大化,該方法表現(xiàn)出對(duì)于外觀變化更大的寬容性;Zhao等[7]利用非監(jiān)督學(xué)習(xí)方式來尋找目標(biāo)的突出特征進(jìn)行匹配;許允喜等[8]采用視覺單詞樹直方圖和全局顏色直方圖構(gòu)建所跟蹤目標(biāo)的人體外觀模型,并使用支持向量機(jī)(Support Vector Machine, SVM)增量學(xué)習(xí)進(jìn)行在線訓(xùn)練;Xiong等[9]提出了一種新的基于內(nèi)核的距離學(xué)習(xí)方法,將歸一化成對(duì)約束成分分析(regularized Pairwise Constrained Component Analysis, rPCCA)方法用于行人重識(shí)別問題;Chen等[10]提出了一種相似性學(xué)習(xí)(Similarity Learning)算法,實(shí)質(zhì)是基于顯示內(nèi)核特征圖(Explicit Kernel Feature Map)計(jì)算特征相似性距離,提高算法魯棒性;You等[11]提出top-push距離學(xué)習(xí)(Top-push Distance Learning, TDL)方法,該方法基于視頻上的研究,主要思路即進(jìn)一步增大行人圖像的類間差異、縮小類內(nèi)差異。雖然這些行人重識(shí)別方法都能取得很好的效果,但都是基于全局行人特征基礎(chǔ)上的研究,加之行人重識(shí)別一直以來受遮擋、姿態(tài)變化、光照、視角等因素的影響,研究效果并不顯著,進(jìn)一步提升仍然困難重重。
近年來,稀疏表示理論在計(jì)算機(jī)視覺領(lǐng)域發(fā)揮了重要作用,如目標(biāo)跟蹤[13]以及圖像復(fù)原[14]等問題。特別是人臉識(shí)別問題中,稀疏表示理論得到了廣泛應(yīng)用[12]。其中,稀疏表示分類(Sparse Representation-based Classifier, SRC)算法是一個(gè)比較有效的人臉識(shí)別算法[12]?;赟RC算法的主旨思想,本文假設(shè)任一張行人圖像都可以用同一行人訓(xùn)練樣本的線性組合來表示,通過尋找測(cè)試樣本相對(duì)于整個(gè)訓(xùn)練集的稀疏表示系數(shù)來發(fā)現(xiàn)測(cè)試圖像所屬的用戶身份[12]。借助于先進(jìn)的高維凸優(yōu)化技術(shù)(如1范數(shù)最小化[15]),稀疏表示系數(shù)可以被精確穩(wěn)定地恢復(fù)出來,解的精度和魯棒性都有理論上的保證。與現(xiàn)有多數(shù)方法相比,SRC方法直接利用了高維數(shù)據(jù)分布的基本特性(即“稀疏性”)進(jìn)行統(tǒng)計(jì)推斷,可以有效地應(yīng)對(duì)維數(shù)災(zāi)難問題。Yang等[16]在2011年的ICCV(International Conference on Computer Vision)上提出了Fisher Discriminative Dictionary Learning(FDDL)算法來學(xué)習(xí)一個(gè)結(jié)構(gòu)化字典,因此可以采用基于重構(gòu)的方法來對(duì)測(cè)試樣本進(jìn)行分類。該算法不僅增加了字典的判別性,而且還考慮到了稀疏編碼的判別性。Fisher判別準(zhǔn)則被應(yīng)用到了稀疏編碼上,使得訓(xùn)練樣本的稀疏編碼具有小的類內(nèi)散度和大的類間散度,這可以進(jìn)一步提高學(xué)習(xí)到的字典的判別性。
然而基于稀疏表示的分類方法并沒有考慮到字典的結(jié)構(gòu)化。因此,Elhamifar等[17]使用稀疏表示技巧在多個(gè)子空間環(huán)境下進(jìn)行分類任務(wù)。直觀上來說,所有訓(xùn)練樣本組成的字典應(yīng)該具有塊結(jié)構(gòu),并且來自同一個(gè)類別的訓(xùn)練樣本組成了字典的某些塊??梢詫⒎诸悮w結(jié)為結(jié)構(gòu)化稀疏復(fù)原問題,目的是從字典中找到最少數(shù)量的字典塊來表示一個(gè)測(cè)試樣例。傳統(tǒng)的基于稀疏表示分類方法旨在找到一個(gè)測(cè)試樣本最稀疏的表示,但是這可能并不是最好的分類規(guī)則。
基于稀疏表示的分類方法在行人重識(shí)別問題上未曾受到廣泛關(guān)注,雖然有些方法采取稀疏表示[18-19],但并未利用到行人特征字典固有的塊結(jié)構(gòu)[17]。
針對(duì)上述問題,本文提出一種新的方法用于行人重識(shí)別問題。將分類歸結(jié)為塊結(jié)構(gòu)化稀疏復(fù)原問題,與傳統(tǒng)的基于稀疏表示的分類方法旨在找到一個(gè)測(cè)試樣本最稀疏的表示不同的是,本文方法目的是從字典中找到最少數(shù)量的字典塊來表示一個(gè)測(cè)試樣例。之后利用交替方向框架求解相關(guān)塊稀疏極小化問題,并且在公開的數(shù)據(jù)集PRID 2011[21]、iLIDS-VID[22]和VIPeR[23]上進(jìn)行實(shí)驗(yàn),證實(shí)了該方法與同類方法比較時(shí)(特別是那些涉及復(fù)雜背景以及有遮擋的場(chǎng)景)的優(yōu)越性與魯棒性。
在行人圖像特征描述中,顏色特征是最基本、最重要的圖像特征,而紋理特征描述圖像的結(jié)構(gòu)特性,因此可以利用紋理特征對(duì)顏色特征進(jìn)行補(bǔ)充。本文采用顏色特征與紋理特征結(jié)合的特征表示方法。首先將圖像歸一化為128像素×48像素大小,并且分塊為32像素×48像素大小,且每一小塊在水平和豎直方向上均有50%的重疊部分,因此就有7個(gè)分塊用于提取HS(Hue, Saturation)顏色直方圖、Lab特征和Gabor特征。其中HSV特征只提取色調(diào)(即H分量)、飽和度(即S分量)特征是因?yàn)樵谛腥酥刈R(shí)別研究中通常需要排除光照帶來的影響。Lab特征為顏色空間特征,提取的是直方圖特征,該特征是一種統(tǒng)計(jì)特征。在Lab顏色空間中,一種顏色由L(亮度)、a顏色、b顏色三種參數(shù)表征。由于行人重識(shí)別受亮度影響比較大,因此該特征僅提取a通道和b通道的顏色特征,并將這些待提取的特征全部分為16維直方圖統(tǒng)計(jì)特征。而Gabor特征是一種紋理特征,根據(jù)不同波長、方向、空間縱橫比、帶寬等分別取16組不同的Gabor濾波器。由圖像劃分方法可知,對(duì)于每一張行人圖像,其在水平方向有7個(gè)分塊,由上面特征提取的內(nèi)容可知,每個(gè)塊中通道包括16個(gè)Gabor、2個(gè)HS和2個(gè)Lab,即有20(16+2+2=20)個(gè)特征通道,每個(gè)通道又被表示為16維直方圖向量。所以每幅圖像在特征空間中被表示為2 240維度的全局圖像特征向量。
針對(duì)行人的高維特征在識(shí)別過程中易造成維數(shù)災(zāi)難問題,可以采用典型相關(guān)分析(Canonical Correlation Analysis, CCA)[20]對(duì)行人的高維特征進(jìn)行轉(zhuǎn)換。它能對(duì)給定的兩組變量尋找一組線性映射,將多維數(shù)據(jù)投影到一個(gè)子空間中,使投影后的兩組數(shù)據(jù)間的相關(guān)性達(dá)到最大,能在一定程度上有效避免原本高維特征在運(yùn)算中所引起的維數(shù)災(zāi)難。CCA是一種簡單的用于求投影矩陣的方法,同時(shí)也是一種統(tǒng)計(jì)兩組隨機(jī)變量之間關(guān)系的數(shù)學(xué)方法,目前,CCA已被廣泛應(yīng)用于行人重識(shí)別領(lǐng)域。因此采用CCA[20]對(duì)特征進(jìn)行投影,使經(jīng)過投影空間后的行人特征更具有匹配重識(shí)別的能力,能大幅提高重識(shí)別率。
1.2.1問題描述
設(shè)帶有標(biāo)記i行人的n幅圖像提取的特征數(shù)據(jù)形成字典Gi=[gi1gi2…gin]∈Rd×n?,F(xiàn)給定一張待識(shí)別行人圖像p,假設(shè)其屬于第i個(gè)行人,則理論上只需用第i個(gè)行人的數(shù)據(jù)集圖像特征向量就能線性表示p[12],即:
p≈xi1gi1+xi2gi2+…+xingin
(1)
其中xij∈R(j=1,2,…,n)表示帶有標(biāo)記i的第j個(gè)樣本的權(quán)重系數(shù)。該等式可以簡潔地記為:
p≈Gixi
(2)
然后構(gòu)建所有數(shù)據(jù)集特征字典D∈Rd×N為:
D=[G1G2…GZ]
(3)
其中N=Z×n為所有在數(shù)據(jù)集中出現(xiàn)的圖像總數(shù)。顯然,該數(shù)據(jù)字典是由Z個(gè)獨(dú)立塊向量串聯(lián)而成,因此它具有塊結(jié)構(gòu)[17]。這是多目標(biāo)配準(zhǔn)行人重識(shí)別問題的一大特點(diǎn),本文就是利用該特點(diǎn)設(shè)計(jì)一個(gè)基于塊稀疏的行人重識(shí)別方法。
令x=[x1Tx2T…xZT]T因此,可以建立模型:
pij≈G1x1+G2x2+…+GKxZ
(4)
其中xi=[xi1xi2…xin]T∈Rn表示與帶有標(biāo)記i的行人相對(duì)應(yīng)的系數(shù)塊。由于p與行人i的字典Gi近似呈線性關(guān)系,且注意到向量塊xi要比向量塊xz(z=1,2,…,Z,z≠i)對(duì)最優(yōu)解向量x的貢獻(xiàn)大,也就是模型的系數(shù)向量主要由系數(shù)塊xi所決定。
同時(shí)模型為:
p≈Dx
(5)
其中x∈RN是稀疏的。也就是當(dāng)數(shù)據(jù)集字典D中的行人數(shù)量較多時(shí),x中只會(huì)有少量的非零項(xiàng),大部分的系數(shù)為0。本文所要尋找的即非零項(xiàng)集中在特定行人特征字典塊上的解向量,因此采用稀疏的目的就是求解稀疏系數(shù)矩陣X。
如文獻(xiàn)[12]中所述,本文所提的問題如下述L1/L2優(yōu)化問題:
(6)
s.t.p=Dx
1.2.2遮擋造成數(shù)據(jù)損壞
從監(jiān)控?cái)z像機(jī)捕獲的行人圖像通常被其他人或者物體遮擋,所提取的行人特征數(shù)據(jù)因此被損壞,例如圖1所示的樣例圖像。由于行人遮擋、相機(jī)分辨率低等問題,會(huì)極大降低行人重識(shí)別的精度,并且該情況下的行人圖像處理會(huì)產(chǎn)生較大誤差,因此需要對(duì)遮擋物進(jìn)行誤差建模處理,平衡由此產(chǎn)生的誤差。與其他相關(guān)多目行人重識(shí)別技術(shù)不同的是,本文的制定方法明確地建模遮擋物,即引入一個(gè)誤差項(xiàng)e∈Rd到式(5)里,則線性近似模型為:
p=Dx+e
(7)
圖1 在iLIDS-VID數(shù)據(jù)集里被遮擋的行人Fig. 1 Occluded people in iLIDS-VID dataset
式(7)的最小化問題可以表述如下:
(8)
s.t.p=Dx+e
1.2.3使用交替方向的塊稀疏恢復(fù)
給定數(shù)據(jù)p和D,使用交替方向框架來計(jì)算式(7)的解。首先,引入松弛變量s∈RN,式(8)的問題可重新建模為:
(9)
s.t.s=x
p=Dx+e
現(xiàn)引入Lagrange乘數(shù)α∈RN,β∈Rd將式(9)的約束最小化問題轉(zhuǎn)換為下述無約束的最小化問題:
(η1/2)‖s-x‖2+(η2/2)‖Dx+e-p‖2
(10)
在損失函數(shù)中增加兩個(gè)二次懲罰項(xiàng)(η1/2)‖s-x‖2和(η2/2)‖Dx+e-p‖2來最小化目標(biāo)。觀察到最小化該損失函數(shù)涉及到三個(gè)變量s,x和e,因此本文采用交替方向迭代框架,最小化單變量損失函數(shù),即每次迭代僅與一個(gè)變量相關(guān),其他兩個(gè)變量保持固定。
首先,固定s和e并最小化變量為x的損失函數(shù):
(η1/2)‖s-x‖2+(η2/2)‖Dx+e-p‖2
(11)
該x的子問題是一個(gè)簡單的二次優(yōu)化目標(biāo)問題,其閉合解為:
x*=(η1I+η2DTD)-1(η2DT(p-e)+η1s+βTD-α)
(12)
其次,固定s和x,并最小化變量為e的損失函數(shù):
(13)
x*是上述x子問題的最優(yōu)解。同樣e的子問題也有一個(gè)閉式解,即:
e*=shrink(β/η2-Dx*-p,1/η2)
(14)
shrink(t,α)=sgn(t)?max{|t|-α,0},其中?表示矩陣之間的點(diǎn)乘。
最后,通過固定x和e并最小化變量為s的損失函數(shù),得到:
(15)
該s子問題也有一個(gè)閉式解,并且該解對(duì)每個(gè)分塊的系數(shù)i=1,2,…,Z是由塊收縮[13]運(yùn)算得到:
(16)
最后,更新拉格朗日乘數(shù)為:
α=α-η1(s*-x*)
(17)
β=β-η2(Dx*+e*-p)
(18)
對(duì)于以上變量s、e和x的具體求解,則通過初始化變量s=0,e=0,α=0,β=0進(jìn)行迭代,實(shí)現(xiàn)如算法1所示。
1.2.4重識(shí)別
算法1迭代稀疏重識(shí)別算法。
Input:p∈Rd,D∈Rd×N;
Output: index of the correct peoplec。
Initialize:s=0,e=0,α=0,β=0,t←1,2,…。
1)
whileet<10-3do
2)
computextusing equation (12)
3)
computeetusing equation (14)
4)
computestusing equation (16)
5)
updateα,βusing equation (17), (18)
6)
end while
7)
xs=xt;es=et;
8)
computestusing equation (16)
9)
letR=0
10)
forj=1:n
11)
computepin equation (9) withxs,es
12)
compute residuals vector
13)
14)
R=R+rj
15)
end for
16)
c=index of the minimum value inR
實(shí)驗(yàn)在公開數(shù)據(jù)集PRID 2011[21]iLIDS-VID[22]和VIPeR[23]上進(jìn)行,驗(yàn)證了所提方法在多目標(biāo)配準(zhǔn)行人重識(shí)別下的效果。
iLIDS-VID:此數(shù)據(jù)集是從機(jī)場(chǎng)到達(dá)大廳的兩個(gè)非重疊相機(jī)視角中提取圖像創(chuàng)建而成。其隨機(jī)為300個(gè)行人采樣了600個(gè)視頻,每個(gè)行人均有來自于兩個(gè)攝像機(jī)視角的一組視頻。 每個(gè)視頻有23~192幀,平均73幀。在此數(shù)據(jù)集中所有圖像大小為128×64,圖像特點(diǎn)是受到極度光照、視角的變化、遮擋和雜亂的背景影響較嚴(yán)重。
PRID 2011:此數(shù)據(jù)集是由兩個(gè)相鄰攝像機(jī)捕獲室外場(chǎng)景所創(chuàng)建,主要涉及到視角、遮擋以及背景變化。其中攝像頭A有385個(gè)行人,攝像頭B有749個(gè)行人,其中有200個(gè)行人同時(shí)在攝像頭A和攝像頭B中;所有圖像大小歸一化為128×48大小。本文主要選擇200個(gè)同時(shí)在兩個(gè)攝像頭下出現(xiàn)的行人圖像作實(shí)驗(yàn)。
VIPeR:此數(shù)據(jù)集是由在校園環(huán)境中錄制的視頻制作而成。其圖像包括兩個(gè)攝像頭下的632個(gè)行人的1 264張圖像,且全部歸一化為128×48大小。每個(gè)攝像頭下的每個(gè)行人有且僅有一張圖像;不同攝像頭下的同一行人的圖像受視角和光照影響,使得外貌存在明顯差異,其中視角不同是造成外貌差異的主要原因。
對(duì)每個(gè)數(shù)據(jù)集進(jìn)行以下操作:1)隨機(jī)選擇行人圖像將之劃分為大小相等的訓(xùn)練集和測(cè)試集。由于本文所選擇的數(shù)據(jù)集中每個(gè)行人有多張圖像,所以每一個(gè)行人在數(shù)據(jù)集視角和查詢集視角下都隨機(jī)選擇各5張圖像提取行人特征。2)將訓(xùn)練集用于學(xué)習(xí)投影矩陣并將測(cè)試集行人特征投影到該投影空間。3)同一個(gè)相機(jī)視角下(camA)所有行人圖像特征形成數(shù)據(jù)集字典D,而另一相機(jī)視角下(camB)的行人圖像則作為查詢集。4)對(duì)查詢集里的每個(gè)行人圖像一一計(jì)算其與數(shù)據(jù)集里每張圖像的殘差,按照殘差大小對(duì)數(shù)據(jù)集進(jìn)行排序,并記錄正確的目標(biāo)所在的位置。為了得到穩(wěn)定可靠的實(shí)驗(yàn)結(jié)果并減少隨機(jī)因素所帶來的不可控影響,對(duì)上述過程重復(fù)10次,取其平均值作為最終結(jié)果。
本文關(guān)于行人重識(shí)別性能的評(píng)估主要采用累積匹配特征(Cumulative Matching Characteristic, CMC)曲線作為指標(biāo)。CMC曲線在行人重識(shí)別算法的性能評(píng)測(cè)上應(yīng)用廣泛[4,6-7,11], 曲線上的數(shù)值反映出在前i個(gè)搜索中匹配到正確目標(biāo)的概率。Ranki表示第i個(gè)Rank值。
將本文方法與近年提出的幾種方法進(jìn)行比較,包括LMNN[4]、RDC[6]、TDL[11]和SDALF[2]。首先,評(píng)估數(shù)據(jù)集上的CMC曲線如圖2所示。從圖2可以看到,本文方法的Rank1性能在三個(gè)數(shù)據(jù)集上分別達(dá)到40.4%、38.11%和23.68%;Rank5上的性能分別達(dá)到64.63%、60.13%和51.5%;Rank10的性能達(dá)到75.34%、70.31%和65.32%;Rank20的性能達(dá)到了84.08%,79.73%和77%,均處于領(lǐng)先水平。與其他同類方法相比,在數(shù)據(jù)集PRID 2011、iLIDS-VID和VIPeR上,本文方法在Rank1、5、10和20排名上得到了較好的性能。其中在Rank1性能上,本文方法匹配率遠(yuǎn)大于LMNN算法;總體性能均優(yōu)于經(jīng)典的基于特征表示與度量學(xué)習(xí)的對(duì)比算法。
本文對(duì)行人特征的提取主要是針對(duì)多種特征進(jìn)行融合以及對(duì)圖像進(jìn)行分塊處理,因此提取不同種類的特征對(duì)實(shí)驗(yàn)結(jié)果的影響較為顯著。實(shí)驗(yàn)中所有對(duì)比方法均使用相同的、由本文方法所提取的特征,這些特征與各方法原文獻(xiàn)中是不同的,同樣具有說服力。如圖3所示,在PRID 2011數(shù)據(jù)集上,提取Lab、HS、Gabor特征以及對(duì)行人分塊后的效果要明顯好于其他幾種特征提取方式;同樣,在數(shù)據(jù)集iLIDS-VID和VIPeR上,本文所用的特征提取方式效果也明顯優(yōu)于其他特征提取方式。
本文對(duì)行人特征進(jìn)行轉(zhuǎn)換時(shí)主要是進(jìn)行空間投影,因此對(duì)所提方法在投影空間與基礎(chǔ)空間的比較必不可少。此時(shí)在兩個(gè)空間中,對(duì)行人特征的提取均需保持一致,唯一不同之處在于特征投影空間是否轉(zhuǎn)換。如圖4所示,應(yīng)用本文方法的投影空間,在PRID 2011、iLIDS-VID和VIPeR數(shù)據(jù)集上,Rank1的性能比基礎(chǔ)空間分別提升了24.74個(gè)百分點(diǎn)、21.97個(gè)百分點(diǎn)和10.23個(gè)百分點(diǎn)。從圖中也注意到當(dāng)所提方法應(yīng)用在投影空間與應(yīng)用在基礎(chǔ)特征空間中相比時(shí),在各等級(jí)排名中,投影空間中的結(jié)果始終比基礎(chǔ)空間的好。該實(shí)驗(yàn)也驗(yàn)證了本文提出的關(guān)于在投影空間里制定一個(gè)線性近似模型而不是基礎(chǔ)特征空間的原假設(shè)。
針對(duì)本文式(8)的模型,誤差項(xiàng)e主要用于避免數(shù)據(jù)損壞或者應(yīng)對(duì)行人受遮擋問題,更好地建模遮擋物。如果不引入誤差項(xiàng),則同樣條件下的行人重識(shí)別效果會(huì)受很大影響。表1為引入誤差項(xiàng)e與未引入誤差項(xiàng)e的效果比較,說明對(duì)遮擋物建??梢愿玫貙?duì)行人進(jìn)行匹配。
圖2 不同方法的CMC曲線Fig. 2 CMC curves for different methods
圖3 不同種類特征對(duì)行人重識(shí)別結(jié)果影響Fig. 3 Impact on different kinds of features on re-identification
圖4 投影空間與基礎(chǔ)空間比較Fig. 4 Comparison of projected space and original space
表1 誤差項(xiàng)e的引入對(duì)Rank-1平均性能的影響 %Tab. 1 Impact of the error term e on average Rank-1 performance %
本文主要提出一種行人重識(shí)別的方法:首先利用CCA方法對(duì)高維的行人特征進(jìn)行轉(zhuǎn)換,有效緩解高維特征運(yùn)算帶來的維數(shù)災(zāi)難問題;接著將查詢集圖像的特征向量投影到學(xué)習(xí)到的投影空間,使投影后查詢集行人特征向量與相應(yīng)的數(shù)據(jù)集特征向量近似呈一個(gè)線性關(guān)系;最后構(gòu)建一個(gè)關(guān)于數(shù)據(jù)集特征向量的字典D,將重識(shí)別作為一個(gè)塊的稀疏極小化問題并利用其內(nèi)在結(jié)構(gòu),采用交替方向框架求解該極小化問題。對(duì)于行人身份判別問題,采用殘差項(xiàng)進(jìn)行處理,最終的殘差項(xiàng)中最小值所對(duì)應(yīng)的指標(biāo)將作為重識(shí)別行人的識(shí)別標(biāo)記。最后在公開的標(biāo)準(zhǔn)行人數(shù)據(jù)集PRID 2011、iLIDS-VID和VIPeR上評(píng)估所提方法,驗(yàn)證了本文方法的優(yōu)越性。但本文方法仍具有一定的局限性,正如在2.2節(jié)圖2(a)所示,由于TDL將行人重識(shí)別問題看作度量學(xué)習(xí)問題來解決,結(jié)合top-push約束模型,在匹配精度上更精準(zhǔn),導(dǎo)致本文方法在Rank-10之后的排名與TDL方法相仿,但這并不影響本文方法的整體性能。接下來的研究將與監(jiān)督學(xué)習(xí)相結(jié)合,盡可能利用已知標(biāo)簽信息的行人特征,提高行人重識(shí)別的匹配精度,為進(jìn)一步研究提供了提升空間以達(dá)到更好的突破。
參考文獻(xiàn):
[1]GHEISSARI N, SEBASETIAN T B, HARTLEY R. Person reidentification using spatiotemporal appearance [C]// CVPR ’06: Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2006, 2: 1528-1535.
[2]FARENZENA M, BAZZANI L, PERINA A. Person re-identification by symmetry-driven accumulation of local features [C]// CVPR ’10: Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2010: 2360-2367.
[4]WEINBERGER K Q, SAUL L K. Distance metric learning for large margin nearest neighbor classification [J]. The Journal of Machine Learning Research, 2006, 10: 207-244.
[5]ZHENG W-S, GONG S, XIANG T. Person re-identification by probabilistic relative distance comparison [C]// CVPR ’11: Proceedings of the 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2011: 649-656.
[6]ZHENG W-S, GONG S, XIANG T. Re-identification by relative distance comparison [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 653-668.
[7]ZHAO R, OUYANG W, WANG X. Unsupervised salience learning for person re-identification [C]// CVPR ’13: Proceedings of the 2013 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3586-3593.
[8]許允喜,蔣云良,陳方.基于支持向量機(jī)增量學(xué)習(xí)和LBPoost的人體目標(biāo)再識(shí)別算法[J].光子學(xué)報(bào),2011,40(5):758-763. (XU Y X, JIANG Y L, CHEN F. Person re-identification algorithm based on support vector machine incremental learning and linear programming boosting [J]. Acta Photonica Sinica, 2011, 40(5): 758-763.)
[9]XIONG F, GOU M, CAMPS O, et al. Person re-identification using kernel-based metric learning methods [C]// ECCV 2014: Proceedings of the 2014 European Conference on Computer Vision, LNCS 8695. Cham: Springer, 2014: 1-16.
[10]CHEN D, YUAN Z, HUA G, et al. Similarity learning on an explicit polynomial kernel feature map for person re-identification [C]// CVPR ’15: Proceedings of the 2015 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1565-1573.
[11]YOU J, WU A, LI X, et al. Top-push video-based person re-identification [C]// CVPR ’16: Proceedings of the 2016 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 1345-1353.
[12]WRIGHT J, YANG A Y, GANESH A, et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 31(2): 210-227.
[13]ZHANG T, GHANEM B, LIU S, et al. Robust visual tracking via structured multi-task sparse learning [J]. International Journal of Computer Vision, 2013, 101(2): 367-383.
[14]MAIRAL J, SAPIRO G, ELAD M. Learning multiscale sparse representations for image and video restoration (PREPRINT)[J]. SIAM Journal on Multiscale Modeling and Simulation, 2008, 7(1): 214-241.
[15]YANG A Y, SASTRY S S, GANESH A, et al. Fast1-minimization algorithms and an application in robust face recognition: a review [C]// ICCP 2010: Proceedings of the 2010 17th IEEE International Conference on Image Processing. Piscataway, NJ: IEEE, 2010: 1849-1852.
[16]YANG M, ZHANG L, FENG X, et al. Fisher discrimination dictionary learning for sparse representation [C]// ICCV ’11: Proceedings of the 2011 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2011: 543-550.
[17]ELHAMIFAR E, VIDAL R. Robust classification using structured sparse representation [C]// CVPR ’11: Proceedings of the 2011 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2011: 1873-1879.
[18]HARANDI M T, SANDERSON C, HARTLEY R, et al. Sparse coding and dictionary learning for symmetric positive definite matrices: a kernel approach [C]// ECCV 2012: Proceedings of the 2012 European Conference on Computer Vision, LNCS 7573. Berlin: Springer, 2012: 216-229.
[19]KHEDHER M I, YACOUBI M A E, DORIZZI B. Multi-shot SURF-based person re-identification via sparse representation [C]// AVSS 2013: Proceedings of the 2013 10th IEEE International Conference on Advanced Video and Signal Based Surveillance. Washington, DC: IEEE Computer Society, 2013: 159-164.
[20]AN L, YANG S, BHANU B. Person re-identification by robust canonical correlation analysis [J]. IEEE Signal Processing Letters, 2015, 22(8): 1103-1107.
[21]HIRZER M, BELEZNAI C, ROTH P M, et al. Person re-identification by descriptive and discriminative classification [C]// SCIA 2011: Proceedings of the 2011 Scandinavian Conference on Image Analysis, LNCS 6688. Berlin: Springer, 2011: 91-102.
[22]WANG T, GONG S, ZHU X, et al. Person re-identification by video ranking [C]// ECCV 2014: Proceedings of the 2014 European Conference on Computer Vision, LNCS 8692. Cham: Springer, 2014: 688-703.
[23]GRAY D, BRENNAN S, TAO H. Evaluating appearance models for recognition, reacquisition, and tracking [C]// PETS 2007: Proceedings of the 10th IEEE International Workshop on Performance Evaluation for Tracking and Surveillance. Piscataway, NJ: IEEE, 2007, 3: 41-47.