陸萍 董虎勝 鐘珊
摘? 要: 受到光照、視角、姿態(tài)等因素的影響,跨攝像機的行人再識別是一項相當具有挑戰(zhàn)性的研究工作。為了進一步提升行人再識別的匹配精度,設計了更具判別性的特征表達,即增強局部最大出現(xiàn)頻次(eLOMO)描述子,并提出基于提升方法融合多個距離度量的匹配模型。在提取eLOMO特征時采用從水平條與密集網格兩種不同的尺度中提取顏色與紋理特征,從而獲得更具判別性的行人外觀描述子。在匹配模型上,采用自適應提升(AdaBoost)方法來融合多種距離度量學習模型的優(yōu)勢,從而實現(xiàn)對行人外觀的匹配。在行人再識別公共數(shù)據集VIPeR和PRID450S上的實驗結果表明,該方法能夠有效地提升行人再識別的性能。
關鍵詞: 行人再識別; 特征表達; 度量學習; 提升方法; 距離融合; 公共數(shù)據集
中圖分類號: TN911.73?34; TP391.4? ? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)05?0036?06
Multi?metric person re?identification based on boost method
LU Ping1, 2, DONG Husheng2, ZHONG Shan3
(1. College of Computer Science and Technology, Zhejiang University, Hangzhou 310058, China;
2. Suzhou Institute of Trade and Commerce, Suzhou 215009, China; 3. Changshu Institute of Technology, Suzhou 215500, China)
Abstract: For the influence factors such as illumination, viewing angle and posture, the multi?camera person re?identification is a challenging research. In order to further improve the matching precision of person re?identification, a more discriminating characteristic representation named enhanced local maximal occurrence (eLOMO) descriptor is designed, and a boost method based matching model that fuses multiple distance metrics is proposed. Color and texture characteristics are extracted from two different dimensions of horizontal bars and dense grids for eLOMO characteristics, thus obtaining more discriminating person appearance descriptors. In terms of the matching model, the adaptive boost (AdaBoost) method is used to integrate the advantages of learning model for multiple distance metric, thus achieving the matching of person appearance. Experimental results on the public data sets VIPeR and PRID450S show that the method can effectively improve the performance of person re?identification.
Keywords: person re?identification; characteristic representation; metric learning; boost method; distance fusion; public data set
0? 引? 言
在攝像機監(jiān)控網絡的應用中,經常需要判斷不同攝像機的畫面中是否包含了同一個行人。這種跨攝像機的行人身份關聯(lián)工作即為行人再識別[1]。受光照、視角、行人姿態(tài)與遮擋等因素的影響,同一行人在不同攝像機畫面中的外觀可能會存在相當大的差異,這使得跨攝像機的行人再識別面臨著相當大的挑戰(zhàn)。盡管在近些年的研究中已經取得了較大的進展[2?4],但距離實際應用仍存在很大的差距。
目前,行人再識別的研究工作主要圍繞行人外觀特征獲取與距離度量學習兩方面來開展。在特征描述子的獲取上,主要從顏色與紋理等方面來刻畫行人的外觀信息,較為常用的基本特征描述子有顏色直方圖、局部二值信息(Local Binary Pattern,LBP)、梯度直方圖(Histogram of Gradient,HOG)等。為了能夠獲得更強外觀刻畫能力與判別性,目前使用的行人外觀描述子大多由多種基本特征組合而成。文獻[5]設計的局部最大出現(xiàn)(Local Maximal Occurrence,LOMO)描述子中,從密集網格中提取了聯(lián)合HSV特征與尺度不變局部三值模式(Scale Invariant Local Ternary Pattern,SILTP)。受LOMO的啟發(fā),文獻[6]設計了層次化高斯(Gaussian of Gaussian,GOG)描述子,使用一系列高斯分布的均值與方差來刻畫顏色分布。文獻[7?8]采用了將圖像切分為多個水平條的空間劃分方案,分別提出了顯著顏色名稱(Salient Color Names,SCN)與加權顏色直方圖(Weighted Histograms of Overlapping Stripes,WHOS)描述子。但這些描述子或是從密集網絡中提取,或是從水平條劃分中計算獲得,行人圖像中的細節(jié)與整體外觀未能有效的整合。
行人再識別中的距離度量學習模型旨在從行人圖像數(shù)據中學習獲得最優(yōu)的馬氏距離(Mahalanobis Distance),使得同一行人特征描述子之間的距離收縮,同時增大不同行人特征描述子間的距離。文獻[9]從三元距離約束出發(fā),設計了大間隔近鄰(Large Margin Nearest Neighbor,LMNN)模型,在正樣本對與負樣本對間建立間隔從而使正確匹配圖像得以被正確識別。文獻[10]從概率角度出發(fā)提出了簡單直接的度量(Keep It Simple and Straightforward Metric,KISSME)學習算法,從對數(shù)似然比判別函數(shù)出發(fā)推導出具有解析表達式的度量模型。文獻[5]進一步改進了KISSME,聯(lián)合學習一個投影子空間與度量矩陣的跨視角二次判別分析(Cross?view Quadratic Discriminant Analysis,XQDA)模型。文獻[11]還設計了不均衡加權的度量學習模型(Metric Learning by Accelerated Proximal Gradient,MLAPG)來抑制訓練樣本對不均衡帶來的度量偏差問題。由于不同的度量學習模型利用的是數(shù)據中不同方面的判別信息,單一的模型難以同時把它們有效地利用起來。
針對上述問題,本文設計了一種新的增強局部最大出現(xiàn)(enhanced Local Maximal Occurrence,eLOMO)描述子,eLOMO同時從具有覆蓋的水平條區(qū)塊與密集網格中計算顏色與紋理特征,從而能夠從不同尺度上獲得圖像的細節(jié)與整個外觀信息,因此也具有更強的判別力。在匹配模型上,采用AdaBoost方法對多種度量學習方法進行提升融合。在該方法中,每個度量學習模型被用作弱分類器,通過加權融合獲得了更具匹配力的強分類器。在訓練中不斷地調整訓練樣本與各個度量的權重,使初始的匹配性能得以提升。為了驗證本文方法的性能,在VIPeR和PRID450S數(shù)據集上進行了評估測試,均獲得了優(yōu)秀的行人再識別性能。
1? 增強局部最大出現(xiàn)(eLOMO)特征
在行人再識別研究中,LOMO描述子表現(xiàn)出了優(yōu)秀的行人外觀刻畫能力,在多個度量學習模型中取得了比較高的行人再識別準確率。LOMO描述子在計算HSV直方圖與SILTP特征時,采用了10×10像素的滑動窗口來覆蓋整幅行人圖像。這樣的密集網格處理保證了圖像細節(jié)能夠被細致地刻畫,從而提取出圖像的精細信息進行匹配。為了增強對視角變化的魯棒性,LOMO還對同一高度上各滑動窗口中提取的HSV直方圖與SILTP特征進行了最大池化處理。另外,LOMO中也考慮了不同尺度空間上信息的提取,采用對整幅圖像作1/4縮放后再提取特征的策略。
雖然LOMO具有優(yōu)異的細節(jié)刻畫能力,但是刻畫較大區(qū)域整體外觀的能力卻存在不足,主要原因是LOMO需要從密集網格中進行計算。為了增強它的判別力,本文進一步對圖像作具有覆蓋的水平條空間劃分來提取特征,并將它與LOMO融合來賦予描述子整體外觀刻畫能力。
如圖1所示,本文采用了具有覆蓋的2層水平條金字塔空間劃分。為了降低雜亂背景帶來的干擾,在采用深度分解網絡(Deep Decomposition Network,DDN)估計了行人圖像的前景后,首先將圖像劃分為了8個等高的水平條區(qū)塊,然后去除最頂端與最底端水平條各一半高度,接著再將剩余部分按7等份切分。這樣的空間劃分既保證了各個水平區(qū)塊中的信息能夠被連續(xù)覆蓋提取,又可以使獲得的特征能夠比較好地表達出整體外觀信息。在計算顏色與紋理特征時,除了聯(lián)合HSV直方圖與SILTP,還加入了聯(lián)合RGB直方圖與SCN[7]特征。其中,RGB直方圖的計算采用了與聯(lián)合HSV直方圖相同的參數(shù)設置,即每個顏色通道均量化為8位;在提取SCN時采用了與文獻[7]相同的16維顯著顏色設置。由于新增的RGB直方圖與SCN都具有比較好的顏色表達能力,因此,它們的引入能夠顯著增強對行人衣著顏色的捕捉。由于在提取水平條特征時,整個區(qū)塊作為整體進行運算,因此不再需要進行局部最大池化處理。
從行人圖像的一個水平條中提取的聯(lián)合HSV直方圖示例如圖2所示,其中,既有從密集網格中提取的LOMO特征,也有從整個水平條上提取的結果。為了更好地展示,圖中給出的是4×4×4=64維的聯(lián)合HSV直方圖。
從圖2中可以看出,LOMO特征具有2個直方圖,因此維度上更高;而且直方圖中的bin數(shù)量也更多,這說明LOMO具有很好的細節(jié)刻畫能力。相比之下,從水平條中計算獲得的特征bin數(shù)量比較稀少,其中的4個bin簇正好對應于圖中行人衣服的4種顏色,說明它能夠更好地捕捉圖像的整體外觀。因此,把LOMO與水平區(qū)塊中提取的特征融合起來后,賦予了特征描述子“由粗到細”的表達能力。而這與人眼在識別對象時類似,因此,這樣的特征描述子會具有更強的判別性。本文將融合后的特征描述子稱為(eLOMO),其維度為40 960維。
2? AdaBoost多度量融合
在獲得行人圖像的外觀描述子后,需要使用有效的度量模型來判別檢索(Probe)圖像與所有匹配(Gallery)圖像間的距離或相似性,進而生成排序列表(Ranking List)。由于每種度量學習方法在模型設計上僅使用數(shù)據某一方面的信息,將不同的度量模型融合后將會獲得更加魯棒的距離。為了實現(xiàn)此目標,本文將各度量學習方法作為弱匹配模型,并采用AdaBoost方法將它們生成的距離結果融合提升。
設從訓練集的檢索圖像與匹配圖像中提取的特征描述矩陣與匹配標簽矩陣分別為[X∈Rd×m],[Z∈Rd×n]([d]為特征表達維度)與[Y∈Rm×n];[xi∈Rd]([i=1,2,…,m])與[zj∈Rd]([j=1,2,…,n])分別為[X]與[Z]的第[i]和第[j]個樣本,若[xi]與[zj]為一正樣本對(即屬于同一行人),則[Yi,j=1],否則,[Yi,j=-1]。為便于表述,這里作以下定義:
1) [p(xi)={(xi,zj),j=1,2,…,n}]為[xi]與所有匹配集中圖像[{zj}nj=1]形成的圖像對;
2) [h(xi)]為一個弱匹配,計算[xi]與所有匹配集中圖像排序列表的度量模型;
3) [rank(zj,h(xi))]為排序位置運算,獲得匹配集圖像[zj]在[h(xi)]中的位置;
4) [Dt(p(xi))]為檢索集中所有樣本[{xi}mi=1]的權重分布;
5) [Dt={Dt(p(xi)),i=1,2,…,m}]為第[t]輪迭代中檢索集樣本的權重分布。
在弱匹配模型的選擇上,本文使用了具有代表性的四種度量學習方法:MLAPG[11],XQDA[5],零空間Foley?Sammon變換(Null Foley?Sammon Transform,NFST)[4]和核化邊界Fisher判別分析(Kernel Marginal Fisher Analysis,KMFA)[12]。它們的性能在各公開數(shù)據集上已經得到驗證,下面對它們作簡要介紹。
2.1? MLAPG
MLAPG中引入了不對稱加權的策略來解決由正負樣本對不均衡引起的度量矩陣存在偏差的問題,它的目標函數(shù)如下:
[L(M)= i=1m j=1nwijfM(xi,xj)] (1)
式中:[wij]根據[Yi,j]置為正負樣本對數(shù)量的倒數(shù);[fM(xi,zj)=log(1+exp(yij(d2M(xi,zj)-μ)))]為log?logistic損失函數(shù),該函數(shù)能夠提供一個柔性的決策邊界來區(qū)分正確匹配樣本對與錯誤匹配樣本對,[μ]為一個正常數(shù),用作決策閾值,[d2M(xi,zj)=(xi-zj)TM(xi-zj)]為馬氏距離函數(shù)的平方。
MLAPG目標函數(shù)為凸函數(shù),在優(yōu)化求解時采用了高效的加速鄰近點梯度(Accelerated Proximal Gradient)優(yōu)化方法進行求解,該方法能夠以[O(1t2)]的速度收斂到全局最優(yōu)解[11]。
2.2? XQDA
如前所述,XQDA是通過對KISSME方法改進所獲得的度量學習模型。令[Δij=xi-zj]為跨視角樣本對的差向量,KISSME通過Bayes準則與對數(shù)似然比來決策[Δij]是否屬于同一行人,通過對似然比函數(shù)化簡可獲得馬氏距離決策函數(shù):
[d(xi,zj)=ΔTijΣ-1I-Σ-1EΔij] (2)
式中:[ΣI]和[ΣE]分別為[Yi,j=1]與[Yi,j=-1]時[Δij]的協(xié)方差矩陣。
KISSME需要先對樣本應用主成份分析(Principle Component Analysis,PCA)降維后再應用式(2)計算,且對維度過于敏感。為此,在XQDA中引入了需要聯(lián)合學習的投影子空間[W],把[Δij]替換為[WTΔij]代入式(2)進行運算,可得:
[d(xi,zj)=ΔTijWΣ′I-1-Σ′E-1WTΔij] (3)
式中:[Σ′I=WTΣIW];[Σ′E=WTΣEW];[W]可通過對[Σ-1IΣE]作特征值分解獲得[5]。
2.3? NFST與KMFA
NFST可以認為是小樣本情況下的Fisher判別分析,其目標是在當樣本數(shù)遠小于樣本維度時尋找到滿足如下目標的一組投影方向[w]:
[maxwwTSbws.t.? ? wTSww=0,? ? wTSbw>0] (4)
式中[Sb]與[Sw]分別為訓練樣本的類間與類內散布矩陣。在求解NFST投影方向[w]時,可以通過Gram?Schmidt分解與特征值分解獲得[w]的閉合形式解[4]。
MFA同樣是Fisher判別分析的變體,但其僅從各樣本的最近鄰域中學習滿足如下目標的投影方向:
[w*=argminwwTSwwwTSbw] (5)
與式(4)不同,這里[Sw=XLwXT],[Sb=XLbXT],[X]為所有訓練樣本特征矩陣,[Lw]與[Lb]分別為標記樣本最近鄰關系的標記矩陣[Aw]與[Ab]的Laplacian矩陣,即[Ls=Ds-As],[Ds=diagj≠iAs(i,j),?i],[s∈{w,b}]。MFA可通過對[S-1wSb]作特征值分解獲得各投影方向[12]。
NFST與MFA都可以通過應用核函數(shù)進一步擴展到核空間實現(xiàn)對樣本的非線性映射,核化后的NFST與KMFA通常能夠獲得更高的判別性能[4,12]。
2.4? 基于AdaBoost提升方法的多度量融合
為了對多個弱度量匹配模型獲得的距離進行融合提升,可以采用對這些匹配模型進行加權融合,但是權值的分配是一項相當棘手的難題。本文選擇根據各弱匹配模型對檢索圖像匹配結果的判別性能進行自適應權值調節(jié)的AdaBoost提升方法。為此,首先定義如下的判別函數(shù):
[f(h(p(xi)))=1,? ? ? ?rank(zj,h(xi))≤β-1,? ? otherwise] (6)
式中[β]用于指定匹配圖像[zj]在檢索圖像[xi]的距離結果[h(xi)]中排序位置的閾值,實驗時取值為1。為了增強模型的泛化性能,可根據數(shù)據集進行適當松弛。
在訓練模型時,可以根據各檢索圖像[xi]的正確匹配是否與[f(h(p(xi)))=1]時的匹配結果一致來判斷模型的分類準確率。根據各模型的分類準確率與各樣本的權重分布,即可根據最小誤差原則應用AdaBoost提升方法迭代確定各模型的權重,使得分類性能優(yōu)異的弱匹配模型被賦予較高的權重,而性能較弱的模型權重相應減少;同時,在迭代中還會對困難樣本賦予較高的權重。迭代結束后,最終的匹配結果將根據下式確定:
[H(p(xi))=tαtht(p(xi))] (7)
式中[αt]為在第[t]次迭代中弱匹配模型[ht]的權重。
算法1給出本文基于AdaBoost提升方法的多度量融合算法流程。
算法1: AdaBoost多度量融合算法
輸入:樣本特征矩陣[X],[Z],標簽矩陣[Y]
初始化:[β=1], 置[D1(p(xi))]為[1m]
for [t=1,2,…,T] do
[εk←iDt(p(xi))f(hk(p(xi)))k*←arg minkεkht←h*kαt←12ln((1-ε)ε)]
[Dt+1(p(xi))←1ztDt(p(xi))exp(-αtf(ht(p(xi))))]
//[Zt]為歸一化因子
end for
輸出:[H(p(xi))=tαtht(p(xi))]
3? 實? 驗
實驗中選擇了兩個常用的行人再識別數(shù)據集(VIPeR和PRID450S)對本文方法進行了算法性能測試。其中,VIPeR與PRID450S均為在室外場景拍攝的數(shù)據集,它們都包含有2個攝像機視角,每個行人在各攝像機下均只有1張圖像。VIPeR中有632個行人,他們的圖像在光照與視角上存在很大的差異。PRID450S中行人數(shù)為450,行人外觀差異主要來自于視角變化與雜亂的背景。
算法性能評估標準為行人再識別中最為廣泛使用的累積匹配特征匹配(Cumulative Matching Characteristic,CMC)曲線,它反映了在前[r]個排序位置中找到正確匹配圖像的概率。在算法評估時,VIPeR與PRID450S中的行人圖像被隨機地等量劃分為兩組,一組用于訓練,另一組用于測試。為了獲得穩(wěn)定的實驗結果,在每個數(shù)據集上都進行了10次隨機實驗,取它們的平均CMC值作為最終實驗結果。
3.1? 與文獻中公開的結果進行比較
表1與表2給出了在VIPeR與PRID450S數(shù)據集上本文方法與其他文獻中公開的行人再識別準確率的對比,表中僅列出了CMC中Rank?1,Rank?5,Rank?10,Rank?20上的數(shù)值。由表1,表2可以看出,本文方法取得的匹配準確率明顯優(yōu)于近幾年公開的行人再識別方法,本文方法在兩個數(shù)據集上取的Rank?1正確匹配率分別達到了58.64%與81.91%。在VIPeR上比此前最優(yōu)的SSM[2]方法獲得的結果53.73%高出4.91%,在PRID450S上比SSM報告的72.98%高出8.93%,與其他的方法相比要高出更多,這充分說明了本文方法在行人再識別中所具有的性能優(yōu)勢。
3.2? 特征描述子判別性分析
本文方法取得較高匹配率的一個重要因素是具有優(yōu)秀判別力的eLOMO特征表達。為了檢驗eLOMO特征的判別性,實驗中使用本文AdaBoost多度量融合模型,對eLOMO、LOMO、本文設計的水平條區(qū)塊提取的特征(標記為SF)、GOG與WHOS特征在VIPeR與PRID450S上分別進行了測試。圖3給出了獲得的CMC曲線。從圖3中可以看出,eLOMO在兩個數(shù)據集上都獲得了最優(yōu)的性能,證明eLOMO在刻畫行人外觀上具有更強的判別能力。
3.3? 與各基本度量學習方法的對比
本文設計的融合方法中組合了四種度量學習方法,圖4給出了它們獨自取得的結果與采用AdaBoost融合后取得的結果對比(標記為AdaFusion),圖4中還給出了對各個算法獨立獲得的距離直接使用平均加權時的結果(標記為AvgFusion)。從圖4中可以看出,融合后的方法明顯優(yōu)于各個算法獨立使用時的結果。需要注意的是采用平均加權時,AvgFusion并未比其他方法表現(xiàn)出明顯優(yōu)勢,這也從側面反映出AdaBoost提升融合時自適應賦予權值所帶來的優(yōu)勢。
4? 結? 語
本文設計了一種更具判別性的eLOMO特征描述子,并提出了一種基于AdaBoost提升方法的多度量融合算法。在eLOMO特征中組合了對行人圖像細節(jié)具有優(yōu)秀刻畫能力的LOMO特征和對整體外觀具有良好表達能力的水平區(qū)塊特征,取得了更加優(yōu)秀的判別能力。本文提出的多度量融合方法能夠自適應地賦予各基本模型最優(yōu)權重,充分挖掘各度量的判別優(yōu)勢。在VIPeR與PRID450S數(shù)據集上的實驗表明,本文方法能夠有效提高行人再識別的準確率。
參考文獻
[1] ZHENG Liang, ZHANG Hengheng, SUN Shaoyan, et al. Person re?identification in the wild [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, US: IEEE, 2017: 3346?3355.
[2] SONG Bai, XIANG Bai, QI Tian. Scalable person re?identification on supervised smoothed manifold [C]// 2017 IEEE Confe?rence on Computer Vision and Pattern Recognition. Honolulu, US: IEEE, 2017: 2530?2539.
[3] CHEN Yingcong, ZHU Xiatian, ZHENG Weishi, et al. Person re?identification by camera correlation aware feature augmentation [J]. IEEE transactions on pattern analysis & machine intelligence, 2018, 40(2): 392?408.
[4] ZHANG Li, XIANG Tao, GONG Shaogang. Learning a discri?minative null space for person re?identification [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, US: IEEE, 2016: 1239?1248.
[5] LIAO Shengcai, HU Yang, ZHU Xiangyu, et al. Person re?identification by local maximal occurrence representation and metric learning [C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 2197?2206.
[6] MATSUKAWA Tetsu, OKABE Takahiro, SUZUKI Einoshin, et al. Hierarchical Gaussian descriptor for person re?identification [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, US: IEEE, 2016: 1363?1372.
[7] YANG Yang, YANG Jimei, YAN Junjie, et al. Salient color names for person re?identification [C]// 2014 European Confe?rence on Computer Vision. Zurich, Switzerland: IEEE, 2014: 536?551.
[8] LISANTI Giuseppe, MASI Iacopo, BAGDANOV Andrew D, et al. Person re?identification by iterative re?weighted sparse ranking [J]. IEEE transactions on pattern analysis & machine intelligence, 2015, 37(8): 1629?1642.
[9] WEINBERGER Kilian Q, BLITZER John, SAUL Lawrence K. Distance metric learning for large margin nearest neighbor classification [J]. Journal of machine learning research, 2009, 10(1): 207?244.
[10] K?ESTINGER Martin, HIRZER Martin, WOHLHART Paul, et al. Large scale metric learning from equivalence constraints [C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. Providence, Rhode Island: IEEE, 2012: 2288?2295.
[11] LIAO Shengcai, LI Stan Z. Efficient PSD constrained asymmetric metric learning for person re?identification [C]// 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 3685?3693.
[12] XIONG Fei, GOU Mengran, CAMPS Octavia, et al. Person re?identification using kernel?based metric learning methods [C]// 2014 European Conference on Computer Vision. Zurich, Switzerland: IEEE, 2014: 1?16.
[13] CHEN Dapeng, YUAN Zejian, CHEN Badong, et al. Similarity learning with spatial constraints for person re?identification [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, US: IEEE, 2016: 1268?1277.
[14] PAISITKRIANGKRAI Sakrapee, WU Lin, SHEN Chunhua, et al. Structured learning of metric ensembles with application to person re?identification [J]. Computer vision and image understanding, 2017, 156(3): 51?65.
[15] CHEN Yingcong, ZHENG Weishi, LAI Jianhuang. Mirror representation for modeling view?specific transform in person re?identification [C]// 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina: AAAI, 2015: 3402?3408.
[16] ZHANG Ying, LI Baohua, LU Huchuan, et al. Sample?specific SVM learning for person re?identification [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, US: IEEE, 2016: 1278?1287.