章東平,徐麗園
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
距離度量學(xué)習(xí)的攝像網(wǎng)絡(luò)中行人重識(shí)別
章東平,徐麗園
(中國(guó)計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
針對(duì)在不同的攝像頭場(chǎng)景下,光線、攝像頭參數(shù)的差異較大使得行人重識(shí)別困難的問(wèn)題,提出一種基于距離度量學(xué)習(xí)的方法進(jìn)行行人重識(shí)別.該方法首先為每一對(duì)攝像頭學(xué)習(xí)一個(gè)距離度量模型.其次,根據(jù)上述因素的影響強(qiáng)度為這些度量模型賦予相應(yīng)的權(quán)值.最后,對(duì)度量模型與其相應(yīng)權(quán)值的乘積進(jìn)行累加與優(yōu)化,得到最終的距離度量模型.經(jīng)過(guò)在兩個(gè)公共數(shù)據(jù)集中進(jìn)行行人重識(shí)別實(shí)驗(yàn),其結(jié)果顯示所提出的方法能夠提高行人重識(shí)別的正確率.
人重識(shí)別;距離度量學(xué)習(xí);攝像網(wǎng)絡(luò);核函數(shù);正則項(xiàng)
當(dāng)今社會(huì),在地鐵站、大型商場(chǎng)等[1]公共場(chǎng)合都分布著大量的攝像頭,這些攝像頭組成了一個(gè)個(gè)的攝像網(wǎng)絡(luò),為尋找犯罪分子的蹤跡提供了便利.然而,在實(shí)際情況中,光線、圖像背景、攝像頭參數(shù)差異等問(wèn)題,使行人重識(shí)別成為了一項(xiàng)極具挑戰(zhàn)的任務(wù).
在大多數(shù)現(xiàn)有的行人重識(shí)別方法研究中,研究人員將重識(shí)別問(wèn)題轉(zhuǎn)化為計(jì)算目標(biāo)圖像和候選圖像之間的距離度量問(wèn)題,并且已經(jīng)提出了許多重識(shí)別方法[2-5],其一般步驟如下.首先進(jìn)行特征提取.因?yàn)橛糜谌酥刈R(shí)別的圖像分辨率一般很低,研究人員通常選用顏色特征和紋理特征[6-7]進(jìn)行接下去的模型訓(xùn)練.若是提取的特征維數(shù)很高,則需要進(jìn)行降維處理[8].但是,也有一些方法[2,9]不需要這一步驟.其次進(jìn)行模型訓(xùn)練.為了比較兩張圖像是不是同一個(gè)人,研究人員采用了各式各樣的方法.其中,距離度量學(xué)習(xí)方法[4-5]占據(jù)了較大比例,目前不少實(shí)驗(yàn)都驗(yàn)證了該學(xué)習(xí)方法擁有較好的性能.最后,利用訓(xùn)練好的模型進(jìn)行重識(shí)別測(cè)試,實(shí)驗(yàn)結(jié)果是以累積匹配特性(CMC)曲線的形式進(jìn)行展示[3,5,10],它顯示了識(shí)別結(jié)果排名中目標(biāo)圖像出現(xiàn)在前m名的正確率.
但是,大多數(shù)現(xiàn)有的方法都忽視了攝像頭參數(shù)和圖像背景對(duì)人重識(shí)別結(jié)果的影響,不同的攝像頭不僅參數(shù)不同,所拍攝圖像的背景也有著很大的差異,本文就這些因素進(jìn)行了研究,提出了一種新穎的人重識(shí)別方法.不同于之前的方法[11-12],本文首先分別為每一對(duì)攝像頭學(xué)習(xí)一個(gè)距離度量模型.其次,根據(jù)上述因素的影響強(qiáng)度為這些度量模型賦予相應(yīng)的權(quán)值.最后,對(duì)度量模型與其相應(yīng)權(quán)值的乘積進(jìn)行累加與優(yōu)化,得到最終的距離度量模型.其過(guò)程如下圖1.圖中C1…CP代表P個(gè)不同的攝像頭,M11…MPP代表距離度量模型,其訓(xùn)練樣本來(lái)自同一個(gè)攝像頭或者兩個(gè)不同的攝像頭,w11…wPP是其相應(yīng)的權(quán)值,而M則是最終的距離度量模型.
圖1 所提出方法中的距離度量學(xué)習(xí)流程圖Figure 1 Method we propose to learn the distance metric
為了便于特征提取,首先將所有圖像尺寸均縮放為128×48,然后按照?qǐng)D2中(b)和(e)的分割方式分別將每張圖像劃分為6等分或者14等分.接下去分別提取每一區(qū)域內(nèi)的16維HSV顏色直方圖特征和半徑為1的八近鄰、半徑為2的十六近鄰旋轉(zhuǎn)不變等價(jià)LBP直方圖特征,并對(duì)其進(jìn)行歸一化處理,其結(jié)果分別在圖2的(c)、(d)、(f)和(g)中展示.圖中橫坐標(biāo)表示歸一化處理后的特征值,縱坐標(biāo)表示特征個(gè)數(shù).
圖2 特征提取(此圖最好在彩色狀態(tài)下查看)Figure 2 Feature extraction (best viewed in color)
(1)
(2)
(3)
通過(guò)式(4)計(jì)算矩陣Aab直至收斂:
(4)
其中,η是學(xué)習(xí)速率.
本文所有的實(shí)驗(yàn)均在MATLAB R2014a環(huán)境下進(jìn)行,電腦配置為Intel(R) Core(TM) i3-4130 CPU @3.30GHz,內(nèi)存為4.00GB.
為了證明算法的有效性,本文選擇在公共數(shù)據(jù)集iLIDS[14]和3DPES[15]進(jìn)行行人重識(shí)別實(shí)驗(yàn).
3.1 公共數(shù)據(jù)集
iLIDS數(shù)據(jù)集包含119個(gè)人,共有來(lái)自兩個(gè)攝像頭下的476張圖片,每個(gè)攝像頭中同一個(gè)人有2到4張圖像,并且它們的尺寸不一致.3DPES數(shù)據(jù)集包含39個(gè)人,共有從兩個(gè)不同視角的戶外攝像頭中采集的172張圖像,每個(gè)攝像頭中同一個(gè)人有1到4張圖像,并且它們的尺寸也不一樣.
3.2 參 數(shù)
在實(shí)驗(yàn)中,rPCCA和所提出方法的映射矩陣的d′都設(shè)為40,廣義損失函數(shù)的參數(shù)β設(shè)為3.因?yàn)樵趇LIDS和3DPES兩個(gè)數(shù)據(jù)集中均含有來(lái)自兩個(gè)攝像頭的圖像,本文設(shè)計(jì)了3個(gè)攝像頭權(quán)值,分別用w11、w22和w12來(lái)表示.其中,w11和w22這兩個(gè)權(quán)值的下標(biāo)一致,表示其對(duì)應(yīng)的度量模型的訓(xùn)練樣本來(lái)自同一個(gè)攝像頭,而w12所對(duì)應(yīng)的度量模型的訓(xùn)練樣本來(lái)自不同攝像頭.
為了得到最優(yōu)性能,本文分別在兩個(gè)數(shù)據(jù)集中嘗試了許多權(quán)值的組合形式,表1和表2中展示了其中具有代表性的一部分實(shí)驗(yàn)結(jié)果.對(duì)于來(lái)自同一攝像頭的圖像而言,它們受攝像頭參數(shù)、圖像背景等影響相較于來(lái)自不同攝像頭的圖像小一些.因而,前者所學(xué)習(xí)的距離度量比后者更為可靠,其權(quán)值應(yīng)較大.這一論點(diǎn)可由表1表2中第三、四列的實(shí)驗(yàn)數(shù)據(jù)所證,即第四列的數(shù)值均大于第三列的數(shù)值.按照這一規(guī)律進(jìn)行了大量的嘗試驗(yàn)證,其最優(yōu)結(jié)果展示在表格第五列中.此外,表格第一列中顯示了權(quán)值均為1,即忽視攝像頭影響的情況.對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行橫向比較,可以發(fā)現(xiàn)設(shè)計(jì)不同的權(quán)值會(huì)直接影響到模型的性能,只有設(shè)計(jì)合適的權(quán)值才能提高行人重識(shí)別率.
通過(guò)觀察實(shí)驗(yàn)數(shù)據(jù),本文將w11和w22的值定為0.4,w12的值定為0.2.
表1 iLIDS數(shù)據(jù)集中不同攝像頭權(quán)值組合實(shí)驗(yàn)結(jié)果 (分割區(qū)域?yàn)?)Table 1 Experiment results of different combinations on iLIDS datasets with 6 patches
表2 3DPES數(shù)據(jù)集中不同攝像頭權(quán)值組合實(shí)驗(yàn)結(jié)果 (分割區(qū)域?yàn)?)Table 2 Experiment results of different combinations on 3DPES datasets with 6 patches
3.3 實(shí)驗(yàn)結(jié)果和分析
將本文所提出的方法與rPCCA[12]、KISSME[16]和SVMML[10]這些現(xiàn)有的人重識(shí)別方法進(jìn)行比較.在實(shí)驗(yàn)中,將數(shù)據(jù)集隨機(jī)分成訓(xùn)練集和測(cè)試集兩部分,這一步驟重復(fù)10次.在測(cè)試過(guò)程中,從測(cè)試集中隨機(jī)選擇一張圖像作為待檢圖像,其余圖像作為候選圖像,將待檢圖像與所有候選圖像進(jìn)行一一對(duì)比,計(jì)算距離差并將其按照升序排序.圖3展示了實(shí)驗(yàn)結(jié)果,其中排名m代表在按照升序排列的圖像序列中,前m個(gè)里面有被檢目標(biāo)的圖像.從圖中可以看出,加入攝像頭參數(shù)能夠提高人重識(shí)別的性能.
圖3 所有重識(shí)別方法在兩個(gè)數(shù)據(jù)集中的CMC曲線Figure 3 CMC curves for all methods on two datasets
此外,從表3中可以更清楚地看出所提出方法帶來(lái)的性能提高.例如,當(dāng)圖像被分成6個(gè)區(qū)域時(shí),在iLIDS和3DPES兩個(gè)數(shù)據(jù)集中,待檢目標(biāo)出現(xiàn)在前10張候選圖像中的正確率分別提高了5.0%和1.7%;當(dāng)圖像被分成14個(gè)區(qū)域時(shí),待檢目標(biāo)出現(xiàn)在前10張候選圖像中的正確率分別提高了4.8%和1.8%.這說(shuō)明,本文所提出的方法是有價(jià)值的,它能夠一定程度地提高行人重識(shí)別的正確率.
表3 所有重識(shí)別方法在兩個(gè)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果Table 3 Experiment results of all methods on two datasets
本文提出了一種距離度量學(xué)習(xí)方法對(duì)攝像網(wǎng)絡(luò)中的行人進(jìn)行重識(shí)別,即為每一對(duì)攝像頭學(xué)習(xí)一個(gè)距離度量模型,同一攝像頭下的圖像也單獨(dú)成對(duì)進(jìn)行學(xué)習(xí),然后再根據(jù)攝像頭所產(chǎn)生影響的強(qiáng)度為這些度量模型賦予相應(yīng)的權(quán)值,最后對(duì)度量模型與其相應(yīng)權(quán)值的乘積進(jìn)行累加與優(yōu)化,得到最終的距離度量模型.通過(guò)這一過(guò)程,可以減輕由攝像頭所帶來(lái)的影響.本文選用了HSV顏色特征和LBP紋理特征進(jìn)行模型學(xué)習(xí),并引入了核函數(shù)和正則項(xiàng)來(lái)提高識(shí)別率.實(shí)驗(yàn)中,本文選取了iLIDS和3DPES這兩個(gè)數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果證實(shí)了所提出的方法能夠一定程度地提高模型性能,并且其性能優(yōu)于一些現(xiàn)有的人重識(shí)別方法.
[1] WANG Y, VELIPASALAR S, CASARES M. Cooperative object tracking and composite event detection with wireless embedded smart cameras[J]. Image Processing, IEEE Transactions on,2010,19(10):2614-2633.
[2] ZHENG Weishi, GONG Shaogang, XIANG Tao. Re-identification by relative distance comparison[J]. Pattern Analysis and Machine Intelligence, IEEE Transactions on,2013,35(3):653-668.
[3] LIU Chunxiao, CHEN C L, GONG Shaogang, et al. POP: Person re-identification post-rank optimisation[C]//Computer Vision (ICCV), 2013 IEEE International Conference on. Sydney: IEEE,2013:441-448.
[4] HIRZER M, ROTH P M, KOSTINGER M, et al. Relaxed Pairwise Learned Metric for Person Re-identification[M]. Florence: Springer Berlin Heidelberg,2012:780-793.
[5] CHEN Jiaxin, ZHANG Zhaoxiang, WANG Yunhong. Relevance metric learning for person re-identification by exploiting global similarities[C]//Pattern Recognition (ICPR), 2014 22nd International Conference on. Stockholm: IEEE,2014:1657-1662.
[6] FARENZENA M, BAZZANI L, PERINA A,etal. Person re-identification by symmetry-driven accumulation of local features[C]//Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. San Francisco: IEEE,2010:2360-2367.
[7] BEDAGKAR-GALA A, Shah S K. A survey of approaches and trends in person re-identification[J]. Image and Vision Computing,2014,32(4):270-286.
[8] WEINBERGER K Q, BLITZER J, SAUL L K. Distance metric learning for large margin nearest neighbor classification[C]//Advances in Neural Information Processing Systems. Vancouver: MIT Press,2005:1473-1480.
[9] TAO Dapeng, JIN Lianwen, WANG Yongfei, et al. Person re-identification by regularized smoothing kiss metric learning[J]. Circuits and Systems for Video Technology, IEEE Transactions on,2013,23(10):1675-1685.
[10] LI Zhen, CHANG Shiyu, LIANG Feng, et al. Learning locally-adaptive decision functions for person verification[C]//Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. Portland: IEEE,2013:3610-3617.
[11] MIGNON A, JURIE F. Pcca: A new approach for distance learning from sparse pairwise constraints[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. Providence: IEEE,2012:2666-2672.
[12] XIONG F, GOU M, CAMPUS O,etal. Person Re-identification Using Kernel-based Metric Learning Methods[M]. Switzerland: Springer International Publishing,2014:1-16.
[13] ZHANG Tong, OLES F J. Text categorization based on regularized linear classification methods[J]. Information retrieval,2001,4(1):5-31.
[14] ZHENG Weishi, GONG Shaogang, XIANG Tao. Associating groups of people[C]//British Machine Vision Conference. Maryland: BMVC,2009,2:6.
[15] BALTIERI D, VEZZANI R, CUCCHIARA R. 3dpes: 3d people dataset for surveillance and forensics[C]//Proceedings of the 2011 Joint ACM Workshop on Human Gesture and Behavior Understanding. Scottsdale: ACM,2011:59-64.
[16] KOESYINGER M, HIRZER M, WOHLHART P,etal. Large scale metric learning from equivalence constraints[C]//Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on. Providence: IEEE,2012:2288-2295.
Human re-identification over camera networks by using distance metric learning
ZHANG Dongping, XU Liyuan
(College of Information Engineering, China Jiliang University, Hangzhou 310018, China)
Human re-identification is difficult in various illumination and camera parameters. A human re-identification method based on distance metric learning was presented. Firstly, a distance metric model for each pair of cameras was trained, and a corresponding weight for each distance metric model was designed according to the strength of the above influences. Finally, the final distance metric model was accumulated and optimized. Experimental results on two databases demonstrate that the proposed method improves performance.
person re-identification; distance metric learning; camera network; kernel; regularization term
2096-2835(2016)04-0424-05
10.3969/j.issn.2096-2835.2016.04.012
2016-07-11 《中國(guó)計(jì)量大學(xué)學(xué)報(bào)》網(wǎng)址:zgjl.cbpt.cnki.net
浙江省自然科學(xué)基金資助項(xiàng)目(No.LY15F020021),浙江省科技廳公益性項(xiàng)目(No.2016C31079).
TP301.6
A