蔡曉東 楊超 王麗娟 甘凱今
摘要:
找到能減小類內(nèi)距離、增大類間距離的特征表示方法是行人識別的一個挑戰(zhàn)。提出一種基于行人驗證和識別相融合的深度網(wǎng)絡(luò)模型來解決這一問題。首先,識別監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)模型增加不同個人的類間間距,驗證監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)模型減少同一個行人的類內(nèi)間距;然后,將行人驗證和識別的深度網(wǎng)絡(luò)融合,提取到更有分辨能力的行人特征向量;最后,采用了聯(lián)合貝葉斯的行人比對方法,通過監(jiān)督學(xué)習(xí)排名的方式,提高行人比對的準(zhǔn)確率。實驗結(jié)果表明,所提方法在VIPeR庫上同其他深度網(wǎng)絡(luò)相比有較高的識別準(zhǔn)確率,融合網(wǎng)絡(luò)與單獨的識別和驗證網(wǎng)絡(luò)相比有更高的收斂速度和識別準(zhǔn)確率。
關(guān)鍵詞:
行人識別;深度驗證網(wǎng)絡(luò);深度識別網(wǎng)絡(luò);驗證和識別相融合;聯(lián)合貝葉斯
中圖分類號:
TP391.41
文獻標(biāo)志碼:A
Abstract:
It is a challenge for person identification to find an appropriate person feature representation method which can reduce intrapersonal variations and enlarge interpersonal differences. A deep network for person identification based on joint identificationverification was proposed to solve this problem. First, the deep network model for identification was used to enlarge the interpersonal differences of different people while the verification model was used for reducing the intrapersonal distance of the same person. Second, the discriminative feature vectors were extracted by sharing parameters and jointing deep networks of identification and verification. At last,the joint Bayesian algorithm was adopted to calculate the similarity of two persons, which improved the accuracy of pedestrian alignment. Experimental results prove that the proposed method has higher pedestrian recognition accuracy compared with some other stateofart methods on VIPeR database; meanwhile, the joint identificationverification deep network has higher convergence speed and recognition accuracy than those of separated deep networks.
英文關(guān)鍵詞Key words:
person identification; deep verification network; deep identification network; joint identificationverification; joint Bayesian
0引言
跨場景行人識別是一個極具有挑戰(zhàn)性的問題。行人從一個攝像頭穿到另一個攝像頭姿態(tài)變化,因攝像機參數(shù)、角度、分辨率不同以及不同場景下光照不一致等問題,導(dǎo)致同一個行人被誤判為不同行人,特別是在不受約束的室外場景,其誤判率更高。因此,減少同一個行人的類內(nèi)間距,增大不同行人的類間間距是行人識別的一個重要研究方向。
近年來對這一問題的研究主要集中在特征相似性度量方法上面,采用監(jiān)督式的特征相似性排名方式增大不同行人的類間距離,減小同一個行人的類內(nèi)距離,以達到提高排名準(zhǔn)確率的目的。如文獻[1]提出基于概率相對距離比較(Probabilistic Relative Distance Comparison, PRDC)的行人再識別方法,通過監(jiān)督學(xué)習(xí)的方式來度量特征向量的相似性排名,達到增大特征向量的類間間離、減小類內(nèi)距離的目的。
行人識別主要從特征提取和特征相似性度量方法提高行人識別的準(zhǔn)確率。然而,有很多方法采用純手工設(shè)計特征描述子的方式[2-5],當(dāng)一個行人在不同攝像機下表觀差異很大時,其識別效果不佳。以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)為首的深度特征提取方法在計算機視覺領(lǐng)域表現(xiàn)出很大潛力,包括圖片分類[6]、物體檢測[7]、人臉識別[8-9]和姿態(tài)識別[10]等。
然而,基于深度學(xué)習(xí)的行人識別還有很多問題需要解決。文獻[11]提出一種改進的深度學(xué)習(xí)行人再識別框架(Improved Deep Learning Architecture, IDLA),該方法輸入一對行人,先分別經(jīng)過卷積、池化層,后經(jīng)過提出的交叉輸入鄰域差值層,達到減小同一個行人差異、增大不同行人的差異的目的。受到“Siamese”深度神經(jīng)網(wǎng)絡(luò)[12]的啟發(fā),文獻[13]提出了基于比對的深度行人再識別方法(Deep Metric Learning, DML),該框架輸入行人對信號,通過比對深度學(xué)習(xí)框架提取行人的顏色和紋理特征。在此基礎(chǔ)之上,文獻[14]提出基于比對分塊的深度行人識別方法(Improved Deep Metric Learning, Improved DML),在DML方法的基礎(chǔ)之上提出了一個連接函數(shù)和一個損失函數(shù),并重新設(shè)計了深度比對框架。Improved DML將行人分割成48×48尺寸大小的3個子塊,然后采用深度網(wǎng)絡(luò)分別提取特征,最后通過比對層比較行人對的特征向量相似性。文獻[8]提出基于識別和驗證信號融合的人臉識別方法,將驗證信號和識別信號融合能夠增大不同人臉的類間距離,減少同一人臉的類內(nèi)距離。在傳統(tǒng)深度行人識別的基礎(chǔ)之上,為了找到能減小類內(nèi)距離、增大類間距離的特征表示方法,本文提出一種基于行人驗證和識別相融合的深度網(wǎng)絡(luò)模型。
提取特征之后,大多數(shù)選用簡單的距離度量方法來度量特征的相似程度,如l1范數(shù)[2]、l2范數(shù)[15]或者是Bhattacharyya距離[16]等。在不受約束的室外監(jiān)控環(huán)境中可能會導(dǎo)致行人的外觀特征發(fā)生明顯的變化,上述方法在這時不能很好地計算行人的相似性,導(dǎo)致識別率下降。文獻[9]提出基于聯(lián)合貝葉斯的人臉比對方法,通過監(jiān)督學(xué)習(xí)方式判斷兩張人臉是否是同一張人臉,提高了人臉比對的準(zhǔn)確率。本文改進了該方法并將其運用于驗證和識別信號相融合的深度行人識別網(wǎng)絡(luò)的特征相似性排名上,以達到提高行人排名準(zhǔn)確率的目的。本文后續(xù)章節(jié)詳細介紹基于深度驗證與識別相融合的行人識別網(wǎng)絡(luò)和基于深度特征融合聯(lián)合貝葉斯的行人特征比對方法。
1驗證和識別相融合深度行人識別網(wǎng)絡(luò)
為了提取到高魯棒性的行人外觀特征描述子,在DeepID2[8]提出的基于驗證和識別相融合的人臉識別方法的基礎(chǔ)之上,對傳統(tǒng)基于行人識別的CNN模型[13-14]進行改進,提出基于驗證和識別相融合的深度行人識別網(wǎng)絡(luò)。與傳統(tǒng)的深度行人識別網(wǎng)絡(luò)模型相比,本文提出的深度行人識別網(wǎng)絡(luò)通過共享卷積核參數(shù)的方式將串行識別網(wǎng)絡(luò)和并行驗證網(wǎng)絡(luò)相融合。串行識別網(wǎng)絡(luò)主要對不同行人進行分類學(xué)習(xí),引導(dǎo)融合網(wǎng)絡(luò)增大不同行人的類間間距特征表示;并行驗證網(wǎng)絡(luò)通過比對兩張圖片是否是同一個行人,引導(dǎo)融合網(wǎng)絡(luò)減小同一個行人的類內(nèi)距離特征表示。下面詳細描述本文所提出的基于驗證和識別相融合的深度行人識別網(wǎng)絡(luò),其結(jié)構(gòu)如圖1所示。
1.1CNN模型的基本層
本文提出的基于驗證和識別相融合的深度行人識別網(wǎng)絡(luò)模型主要包括6種基本層,分別是:卷積層、池化層、全連接層、特征連接cosine層、cost函數(shù)層以及Softmax層。卷積層與池化層(抽樣層)多次交替出現(xiàn),得到一個“雙尖塔”的效果,其思想是模仿動物視覺系統(tǒng)的視網(wǎng)膜感受神經(jīng)[17],下面對各層的基本原理作簡要介紹。
卷積層對圖像作卷積運算,并使用神經(jīng)元激活函數(shù)計算卷積后的輸出。卷積操作可以表示為:
yj=f(bj+∑iki, jxi)(1)
其中:xi為第i層輸入圖像,yj為第j層輸出圖像,ki, j是連接第i層輸入圖像與第j層輸出圖像的卷積核,bj是第j層輸出圖像的偏置,是卷積運算符, f(x)是神經(jīng)元激活函數(shù)。本文使用非線性函數(shù)(Rectified Linear Unit, ReLu)作為激活函數(shù),即f(x)=max(0,x),該函數(shù)可加快深度網(wǎng)絡(luò)的收斂速度。式(1)中的卷積核ki, j與偏置bj是卷積網(wǎng)絡(luò)的訓(xùn)練參數(shù),通過大量的迭代訓(xùn)練得到較優(yōu)的取值。
池化層該層對卷積層的輸出作下采樣,其目的是減小特征圖尺寸的大小,增強特征提取對旋轉(zhuǎn)和形變的魯棒性。常用的池化方法有平均池化與最大池化,其中最大池化如式(2)所示:
pij,k=max0≤n 其中:pij,k為池化層的第i層輸出圖在(j,k)位置的值,l為池化的步長,m為池化尺寸。目前,最大池化在許多應(yīng)用中表現(xiàn)出良好的性能,本文采用了最大池化。 全連接層該層是一個單層神經(jīng)網(wǎng)絡(luò),上一層的任何一個神經(jīng)元節(jié)點都與下一層的所有神經(jīng)元節(jié)點連接。全連接層的參數(shù)由節(jié)點權(quán)重矩陣W、偏置b以及激活函數(shù)f構(gòu)成,如式(3)所示: y=f(W·x+b)(3) 其中:x、y分別為輸入、輸出數(shù)據(jù), f是激活函數(shù)。 cosine層驗證深度網(wǎng)絡(luò)特征向量的連接層,采用余弦值來計算k維特征向量的相似度程度。對于給定兩個向量的m和n,它們的夾角為θ,向量m和n的相似性得分由式(4)計算得到: similarity=cos θ=m·n‖m‖‖n‖(4) cost函數(shù)層采用二項式偏差損失函數(shù),如式(5)所示,通過與標(biāo)簽比較,計算行人圖片經(jīng)過驗證網(wǎng)絡(luò)后的損失值。 Jdev=∑i, jW⊙ln(exp(-α(S-β)⊙M)+1)(5) 其中:⊙表示矩陣點乘;i, j表示第i幅圖和第j幅圖;S=[Si, j]n×n表示行人對的相似矩陣,且Si, j=cosine(vi,vj);W=[Wi, j]n×n為權(quán)值矩陣,在訓(xùn)練時設(shè)置,正樣本對的Wi, j=1/n1,負樣本對的Wi, j=1/n2;M=[Mi, j]n×n為監(jiān)督學(xué)習(xí)標(biāo)簽,Mi, j=1正樣本對,Mi, j=-1為負樣本對;α、 β是超參數(shù),在訓(xùn)練的時設(shè)置。 Softmax loss layer層該層是一個分類器,如表達式(6)所示,分類結(jié)果與標(biāo)簽進行比較然后計算行人圖片通過識別網(wǎng)絡(luò)的損失值。 yi=exp(xi)∑nj=1exp(xj)(6) 其中:xi為Softmax層第i個節(jié)點的值,yi為第i個輸出值,n為Softmax層節(jié)點的個數(shù)。 1.2驗證和識別相融合的行人識別網(wǎng)絡(luò) 基于驗證和識別相融合的深度行人識別網(wǎng)絡(luò)包括并行驗證網(wǎng)絡(luò)和串行識別網(wǎng)絡(luò)兩個分支,它們通過共享卷積核和全 連接層的參數(shù)來引導(dǎo)融合網(wǎng)絡(luò)學(xué)習(xí)。驗證網(wǎng)絡(luò)輸入一對行人圖片,通過Slice層將兩個行人分割,然后分別輸入CNN1和CNN2特征提取網(wǎng)絡(luò),CNN1和CNN2的結(jié)構(gòu)完全相同。單個CNN特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,由卷積層和池化層交替組合而成。串行識別深度網(wǎng)絡(luò)輸入識別信號后,用CNN3提取深度行人特征,CNN3與并行驗證深度網(wǎng)絡(luò)的CNN結(jié)構(gòu)完全相同。最后,通過共享3個CNN的卷積濾波器的權(quán)重和偏置使串行識別和并行驗證深度網(wǎng)絡(luò)相融合,也即圖1中的C&P Layer。將提取到的二維深度特征采用全連接層平鋪成一維數(shù)據(jù)。并行驗證網(wǎng)絡(luò)通過圖1中的FC Layer,然后采用cosine層連接2特征向量,并計算是否是同一個行人,最后,通過cost函數(shù)層計算損失函數(shù),同時采用隨機梯度下降(Stochastic Gradient Descent, SDG)引導(dǎo)深度融合網(wǎng)絡(luò)辨別行人。串行識別深度網(wǎng)絡(luò)經(jīng)過FC Layer,然后采用Softmax loss layer層,將不同行人進行分類并將分類結(jié)果與標(biāo)簽比對,采用SDG引導(dǎo)深度融合網(wǎng)絡(luò)區(qū)分不同行人。
CNN特征提取結(jié)構(gòu)由卷積(convolutional)層和池化(pooling)層組合而成,用于提取行人高層特征,其結(jié)構(gòu)如圖2所示。前3層卷積和池化層交替出現(xiàn),在第4層沒有采用池化層,因圖片經(jīng)過第4層卷積層之后尺寸很小,再采用池化層數(shù)據(jù)損失過多,不利于全連接層學(xué)習(xí)。
FC Layer層C&P Layer層提取到高層行人特征,全連接層將二維的特征平鋪數(shù)據(jù)成一維向量,F(xiàn)C Layer由3個圖3 所示的全連接結(jié)構(gòu)組成,其中并行驗證網(wǎng)絡(luò)有2個圖中的全連接結(jié)構(gòu),串行識別有1個。圖3中全連接結(jié)構(gòu)的第1層和第2層分別有3096和1024個神經(jīng)元,也即圖1中的fci(i=1,2,3)層,并行驗證和識別網(wǎng)絡(luò)參數(shù)一樣,且全部共享神經(jīng)元的權(quán)重和偏置。圖1中的fc_ j(j=a,b,c)層,也即全連接結(jié)構(gòu)的第3層并行驗證和識別網(wǎng)絡(luò)有所不同,并行驗證網(wǎng)絡(luò)中神經(jīng)元個數(shù)n=500,僅并行網(wǎng)絡(luò)內(nèi)部的2分支共享神經(jīng)元權(quán)重和偏置;串行識別深度網(wǎng)絡(luò)中神經(jīng)元個數(shù)n=400,該層沒有與并行驗證網(wǎng)絡(luò)共享神經(jīng)元的權(quán)重和偏置,其中n=400表示400個不同行人樣本。
2聯(lián)合貝葉斯深度特征相似性度量方法
深度網(wǎng)絡(luò)提取到固定維數(shù)特征描述子,為了更加準(zhǔn)確地度量特征向量的相似距離,文獻[8]通過提取高維LBP(Local Binary Pattern)特征和聯(lián)合貝葉斯相結(jié)合,來提高了人臉比對排名的準(zhǔn)確率。本文將深度特征和聯(lián)合貝葉斯相結(jié)合,提高行人比對排名的準(zhǔn)確率。已知特征向量x1,x2,直接將(x1,x2)聯(lián)合建立2維模型?;诼?lián)合貝葉斯的深度特征相似性度量主要分為兩個部分:通過大量樣本的特征向量學(xué)習(xí)聯(lián)合貝葉斯相似度量的參數(shù)A、G矩陣,通過學(xué)習(xí)的參數(shù)計算特征向量的相似性得分。
基于行人的聯(lián)合貝葉斯相似性模型基本思想為每個行人可以表達為式(7)的形式:基于行人的聯(lián)合貝葉斯相似性模型的基本思想如式(7),每個行人差異都可以表達為式(7)的形式:
x=μ+ε(7)
其中: μ表示行人區(qū)分特征,也就是人與人之間的差異;ε表示同一個行人自身的變換量(姿態(tài)、光照、角度等);x為去均值后的行人。 μ、ε服從高斯分布N(0,Sμ)、N(0,Sε),Sμ,Sε為待求的協(xié)方差矩陣,通過大量樣本的深度特征向量學(xué)習(xí)得到,學(xué)習(xí)過程如下:
在Market1501庫中隨機抽取1000個行人通過融合網(wǎng)絡(luò)提取其深度特征向量,每個行人有n=30張圖片,表示為xni=[v1,v2,…,v500],i∈[1,1000]。
1)計算所有行人特征的均值向量。
2)所有行人特征減去均值作為下面的行人特征,達到樣本特征0均值的目的。
3)用每個行人的特征計算該特征均值。
4)所有行人特征減去對應(yīng)行人特征向量均值,將每個人特征拆分成上文所述的兩部分μ、ε。
5)用最大期望(Expectation Maximization, EM)算法求解Sμ,Sε。
6)如果Sμ,Sε收斂,退出訓(xùn)練并求解矩陣A和G;否則重復(fù)步驟5)。
3實驗結(jié)果與分析
實驗平臺的配置為Intel i3四核3.4GHz處理器、12GB內(nèi)存、GTX980Ti顯卡以及Ubuntu 14.04操作系統(tǒng),并使用基于C++編程語言的Caffe工具包。
在訓(xùn)練過程中,本文從CUHK01和CUHK03庫隨機挑選1850個行人組合成行人對,構(gòu)成驗證網(wǎng)絡(luò)的正負樣本。每個行人選取4張圖片,包括2個場景、2個姿態(tài)。行人樣本經(jīng)過鏡像、旋轉(zhuǎn)操作,每個行人擴展成16張圖片,隨機組合正負樣本。同一個行人作正樣本,標(biāo)簽為1;不同行人作為負樣本,標(biāo)簽為-1。本文串行識別網(wǎng)絡(luò)輸入的識別信號是從小區(qū)監(jiān)控視頻里面取得。在小區(qū)的多個監(jiān)控攝像頭中挑選出400個行人,每個行人有48張圖片,包括了2個以上攝像頭監(jiān)控場景,每個行人有多個角度(正面到背面)。最后把所有的行人圖片都縮放到60×160像素大小。
本文將CUHK01沒有訓(xùn)練的200個行人用于測試融合網(wǎng)絡(luò)的性能。融合網(wǎng)絡(luò)與任意單獨網(wǎng)絡(luò)收斂的耗時比對如表1所示。從表1中可以知道,融合深度行人網(wǎng)絡(luò)比任意單網(wǎng)絡(luò)有更高的收斂速度。實驗過程中發(fā)現(xiàn)識別網(wǎng)絡(luò)需要設(shè)置較大的學(xué)習(xí)率,驗證網(wǎng)絡(luò)需要較小的學(xué)習(xí)率。融合網(wǎng)絡(luò)需要共用一個學(xué)習(xí)率,為了防止識別網(wǎng)絡(luò)過擬合,先將學(xué)習(xí)率調(diào)低,該學(xué)習(xí)率介于串行識別網(wǎng)絡(luò)和驗證比對網(wǎng)絡(luò)的學(xué)習(xí)率之間。驗證網(wǎng)絡(luò)有較快學(xué)習(xí)速度,同時引導(dǎo)識別網(wǎng)絡(luò)收斂,迭代到6000次左右的時候,將融合網(wǎng)絡(luò)的學(xué)習(xí)率增大10倍,加快融合網(wǎng)絡(luò)收斂。當(dāng)然,融合網(wǎng)絡(luò)迭代1次比單網(wǎng)絡(luò)要耗時,但是驗證網(wǎng)絡(luò)和識別網(wǎng)絡(luò)相互調(diào)整,整體上能加快融合網(wǎng)絡(luò)的收斂。
為了評估本文所提方法的有效性,從VIPeR庫中隨機抽出316個行人用于深度融合網(wǎng)絡(luò)的尋優(yōu),剩下316個行人用于和現(xiàn)有的基于深度行人識別網(wǎng)絡(luò)相比對,本文所提出行人深度網(wǎng)絡(luò)在VIPeR數(shù)據(jù)集上與最新的DML、Improved DML和IDLA方法相比(除top30外)有較高的識別準(zhǔn)確率,如表2所示,本文方法在top20之后和現(xiàn)有的行人識別方法的準(zhǔn)確率優(yōu)勢越來越小,在top30的時候和現(xiàn)有方法有相同的識別準(zhǔn)確率,是因為VIPeR數(shù)據(jù)集的復(fù)雜性;現(xiàn)有方法在top20之后的排名準(zhǔn)確率已經(jīng)很高,很難提高top20之后的排名準(zhǔn)確率,top1到top20排名準(zhǔn)確率還有很大的提升空間。
4結(jié)語
本文提出的基于驗證和識別相融合的深度行人識別網(wǎng)絡(luò),能有效提取行人特征,深度融合網(wǎng)絡(luò)與深度驗證和深度識別網(wǎng)絡(luò)相比在識別準(zhǔn)確率和收斂速度上有明顯的優(yōu)勢?;谏疃忍卣魅诤下?lián)合貝葉斯的行人比對方法比基于深度特征的cos行人比對方法有較高的識別準(zhǔn)確率。同時,本文方法在VIPeR數(shù)據(jù)集上同其他現(xiàn)有深度行人識別方法相比(除top30外)有較高的識別準(zhǔn)確率。
參考文獻:
[1]
ZHENG W S, GONG S, XIANG T. Person reidentification by probabilistic relative distance comparison [C]// CVPR 11: Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2011: 649-656.
[2]
SATTA R, FUMERA G, ROLI F, et al. A multiple component matching framework for person reidentification [C]// MAINO G, FORESTI G L. Image Analysis and Processing—ICIAP 2011, LNCS 6979. Berlin: Springer, 2011: 140-149.
[3]
LIU C, GONG S, CHEN C L, et al. Person reidentification: what features are important? [C]// ECCV 12: Proceedings of the 12th International Conference on Computer Vision. Berlin: Springer, 2012: 391-401.
[4]
SCHGERL P, SORSCHAG R, BAILER W, et al. Object redetection using SIFT and MPEG7 color descriptors [C]// MCAM 2007: Proceedings of the 2007 International Workshop Multimedia Content Analysis and Mining, LNCS 4577. Berlin: Springer, 2007: 305-314.
[5]
WANG X, DORETTO G, SEBASTIAN T, et al. Shape and appearance context modeling [C]// ICCV 2007: Proceedings of the 2007 IEEE 11th International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2007: 1-8.
[6]
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25(2): 1-9.
KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [EB/OL]. [20151027]. https://datajobs.com/datasciencerepo/ImageNetNeuralNet%5bHintonetal%5d.pdf.
[7]
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.
[8]
SUN Y, WANG X, TANG X. Deep learning face representation by joint identificationverification [J]. Advances in Neural Information Processing Systems, 2014, 27: 1988-1996.
SUN Y, WANG X, TANG X. Deep learning face representation by joint identificationverification [EB/OL]. [20160103]. http://www.ee.cuhk.edu.hk/~xgwang/papers/sunWTarxiv14.pdf.
[9]
CHEN D, CAO X, WANG L, et al. Bayesian face revisited: a joint formulation [M]// FITZGIBBON A, LAZEBNIK S, PERONA P, et al. Computer Vision—ECCV 2012, LNCS 7574. Berlin: Springer, 2012: 566-579.
[10]
TOSHEV A, SZEGEDY C. DeepPose: human pose estimation via deep neural networks [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 1653-1660.
[11]
AHMED E, JONES M, MARKS T K. An improved deep learning architecture for person reidentification [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3908-3916.
[12]
BROMLEY J, BENTZ J W, BOTTOU L, et al. Signature verification using a "siamese" time delay neural network [C]// NIPS 1994: 1994 Conference on Neural Information Processing Systems, 1994:737-744.
BROMLEY J, BENTZ J W, BOTTOU L, et al. Signature verification using a "siamese" time delay neural network [EB/OL]. [20151116]. http://papers.nips.cc/paper/769signatureverificationusinga.pdf.
[13]
YI D, LEI Z, LIAO S, et al. Deep metric learning for person reidentification [C]// ICPR 14: Proceedings of the 2014 22nd International Conference on Pattern Recognition. Washington, DC: IEEE, 2014:2666-2672.
YI D, LEI Z, LIAO S, et al. Deep metric learning for person reidentification [C]// ICPR 14: Proceedings of the 2014 22nd International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 34-39.
[14]
YI DONG, LEI ZHEN, LIAO SHENGCAI. Deep Metric Learning for Practical Person Re-Identification[J]. Eprint Arxiv, 2014:34-39.
YI D, LEI Z, LI S Z, et al. Deep metric learning for practical person reidentification [J]. Computer Science, 2014:34-39.
YI D, LEI Z, LI S Z, et al. Deep metric learning for practical person reidentification [EB/OL]. [20151123]. http://xueshu.baidu.com/s?wd=paperuri%3A%2869b67efb26b657d43e6d3bbf4e2a05d4%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http%3A%2F%2Fde.arxiv.org%2Fpdf%2F1407.4979&ie=utf8&sc_us=8632976325773889661.
[15]
HU W, HU M, ZHOU X, et al. Principal axisbased correspondence between multiple cameras for people tracking [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2006, 28(4): 663-671.
[16]
GRAY D, TAO H. Viewpoint invariant pedestrian recognition with an ensemble of localized features [C]// ECCV 08: Proceedings of the 2008 10th European Conference on Computer Vision. Berlin: Springer, 2008: 262-275.
[17]
KE Y, SUKTHANKAR R. PCASIFT: a more distinctive representation for local image descriptors [C]// CVPR 2004: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition. 2004:506-513.
KE Y, SUKTHANKAR R. PCASIFT: a more distinctive representation for local image descriptors [EB/OL]. [20151116]. http://wwwcgi.cs.cmu.edu/afs/cs.cmu.edu/user/rahuls/www/pub/irptr0315rahuls.pdf.