江雨燕,呂 魏,李 平,邵 金
(1.安徽工業(yè)大學 管理科學與工程學院,安徽 馬鞍山 243032;2.南京郵電大學 計算機學院,江蘇 南京 210023)
行人再識別[1]在于行人從一個相機消失到另一個相機再次出現(xiàn)的時候對其進行再識別。目的是為了判別同一個人出現(xiàn)在兩個視圖中的相似性。通過度量學習的方法來計算兩個視圖特征的距離來判斷其相似性。在行人再識別算法上也有關于度量學習[2]和深度學習[3]被提出,基于無監(jiān)督學習的科學技術研究方法通過偽標簽的形式進行特征學習可以有效深度學習中改善全局特征不容易輕松識別的問題并能夠產生良好的效果。
基于無監(jiān)督學習的研究方法在面對同樣的行人出現(xiàn)在不同攝像機里會因為外在因素,例如光線、姿勢以及障礙物等造成兩者的相似度降低[4];同時兩者也存在衣服、膚色等外在特征相似的地方。但是需要對每個攝像機視圖構建映射來提高相似性,并且難以區(qū)分共享視圖和特定視圖,無法準確地建立攝像機視圖之間的共同性質和特異性質。因此通過跨視圖非對稱的方法[2,4-6]把視圖特征區(qū)分為共享視圖特征和特定于視圖特征,引入共享映射來探索共享特征,提取特定的視圖特征投影到公共子空間中使得兩視圖之間的差異盡可能縮小,然后通過無監(jiān)督學習進行聚類[2-3,7]。但是,在特定于視圖特征的相似度區(qū)分上還需要進一步提高,通過Bregman散度[8]方法來衡量特定于視圖之間特征的差異,減少對共享視圖特征區(qū)分的重復性,提高聚類效果,增強視圖之間的相似度,從而提高視圖之間相似的精確度。
對不斷更新增長的數(shù)據(jù)進行標簽是一項艱難而又復雜的工作,Martin K?stinger等人[9]提出了一種通過等價約束來指定標簽,并通過馬氏距離度量的可擴展性和需要的監(jiān)督程度來進行學習,明顯優(yōu)于現(xiàn)有的結果。Husheng Dong等人[10]提出了一種新的基于重疊條紋的描述子與從密集塊中提取的局部最大發(fā)生率(LOMO)相融合的增強局部最大發(fā)生率的方法,把精細的細節(jié)和表面的粗糙有效結合起來,充分利用其互補性,結合馬氏距離和雙線性相似性學習廣義相似性。Giuseppe Lisanti等人[11]提出了基于正則化相關分析的跨視圖匹配的學習技術,在不相交的視圖中提取描述子空間的特征投影到公共子空間進行學習,在重新識別的技術上有明顯的效果。Yachuang Feng等人[3]基于度量學習將行人的特征投影到公共子空間中,在公共子空間中將行人的特征提取出來分為共同特征和特定視圖特征,并通過無監(jiān)督跨視圖的度量學習方法來計算相似性,通過最大均值差異(MMD)來計算不同樣本的均值,常作為最后損失函數(shù)的優(yōu)化,在遷移學習中使用頻率相對較高且計算強度低,通常用來衡量兩個分布之間的距離,屬于一種核學習方法。為縮減樣本之間的差異性,該文采用Bregman散度中的KL散度,KL散度在視圖中滿足非對稱特性,增加一個樣本的協(xié)方差,這樣能夠在一定程度上提高樣本之間的精確度。
傳統(tǒng)的度量學習是學習一個通用的變換矩陣,并將樣本投影到一個公共子空間,一對樣本xi和xj的距離為:
‖Wxi-Wxj‖2
(1)
其中,M=WTW,W是投影矩陣,xi和xj是相機視圖中獲取的不同樣本。由于所有視圖中的樣本都在(1)中處理相同的W,只從不同的視圖中提取共享特征。根據(jù)跨視圖非對稱度量學習,為了處理攝像機視圖之間的不相似性,其形式如下:
(2)
(3)
其中,U0表示共享視圖投影,用于提取共同特征,Uv表示特定于視圖的投影,把Up和Uq投影到子空間來消除視圖之間的特異性。并讓Uvxv與U0xv正交,讓提取的視圖專有特征與普通特征互補。
目標模型:
(4)
這里Wv=U0+Uv,重寫目標函數(shù):
(5)
其中,∑v=XvXvT/Nv,I表示單位矩陣。
共享信息為U0,特定于視圖信息為Uv。Uv被分為Up和Uq,為了保證Up和Uq學到不同的信息,部分信息不被劃分到共享信息里面,這里保持Uv和U0盡量正交,又因為兩者屬于不同的樣本,直接正交沒有意義,故使得Uvxv與U0xv正交,這里引入Bregman divergence,通過Bregman divergence來衡量Up和Uq之間的差異。
Bregman散度是損失函數(shù)或者失真函數(shù),假設視圖p是視圖q的近似樣本,p是增加了障礙物或者光線的影響而形成的q,所以Bregman散度就是用來衡量p和q的之間的差異性。定義F是在凸集Ω上可微的嚴格凸函數(shù),在函數(shù)F生成的Bregman散度的形式是[7]:
DF(p‖q)=F(p)-[F(q)+
(6)
其中,DF(p,q)表示樣本p與q之間的距離,用來衡量p與q之間的差異,F(xiàn)(q)表示在q的梯度,
假設來自不同視圖的樣本是從類似場景中捕獲,因此它們的概率分布被視為相同。但在原始特征空間中的分布通常是不同的,因為它們是從不同的相機、不同的場景中捕獲的,直接計算它們的距離可能是不準確的。為此,盡可能地提高它們在變換后的子空間中的概率分布的相似性,選擇不同的函數(shù)F,采用KL散度來衡量樣本分布之間的差異性。KL散度能夠有效解決樣本之間非對稱的問題,并且在衡量樣本之間差異性的時候,能夠有效衡量樣本的近似分布與真實分布之間的匹配程度,主要通過計算兩個樣本之間的高斯分布來表示KL散度。這里計算Up和Uq之間的距離形式為:
DF(Up‖Uq)=F(Up)-[F(Uq)+ Up-Uq>] (7) KL散度的形式為KL(p(hp)‖p(hq)),其中p(hv)~N(μv,Hv),p(Uv)是服從均值為μv,協(xié)方差為Hv的多元高斯分布,Up和Uq的多元高斯分布p(hv)表示為: (hv-μv)T(Hv)-1(hv-μv)] minO(U0,…,Uv)= (UvT∑vUv=I),V=1,2,…,v (8) 算法:跨視圖非對稱度量學習的行人重識別 1.通過K均值使用原始訓練數(shù)據(jù)X來初始化D 3.重復: 6.直到收斂或迭代結束 (9) 對兩個高斯分布p(hp)~N(μp,Hp),p(hq)~N(μq,Hq)計算KL散度KL(p(hp)‖p(hq))為:KL(p(hp)‖p(hq))=Epl(lnp(hp)-lnp(hq))即: (10) Bregman散度中的KL散度計算樣本均值,還計算了樣本的協(xié)方差,因此與最大均值誤差(MMD)方法進行比較,這兩種方法均可以對不同的分布進行判斷,并且滿足不同分布的距離不對稱性。 放寬約束條件: (11) minO(U0,…,UV)= (13) 對C進行k-means聚類優(yōu)化,然后再計算D。 (14) (15) 其中K的形式為: (16) 這里A、B、L分別表示如下: (17) (18) L=(μqT+μpT)Hq-1AHq-1μp+(μpT- (19) (20) (21) 取所有等式右側函數(shù)的平方和為目標函數(shù),計算這個函數(shù)關于自變量UV以和乘子Ψ、φ偏導數(shù),再對關于自變量及乘子的偏導數(shù)進行迭代求解。 通過數(shù)據(jù)樣本來訓練該方法的有效性,使用Cumulative Match Characteristic (CMC) Curve累計匹配曲線能夠綜合反映分類器的性能,Rank-1精度通過百分比的形式,計算每百張的平均精確度對文中方法和其他方法進行比較。 VIPeR[12]數(shù)據(jù)集(見圖1)通過隨機將其分為兩半,316張圖像用于訓練,316張圖像用于測試。重復這個過程十次,并報告每個算法的平均性能進行比較。 圖1 VIPeR數(shù)據(jù)集部分行人樣本 CUHK01[13](見圖2)是通過兩個不重疊的攝像機捕捉的971個行人身份視圖,每視圖有4個圖像,共有3 884個圖像。訓練集隨機選擇485人,測試集為其余486對行人。通過十次重復來評估并同時進行單鏡頭(SS)和多鏡頭(MS)實驗。 圖2 CUHK01數(shù)據(jù)集部分行人樣本 Market-1501[14](見圖3)與其他的數(shù)據(jù)集不同,只能在多鏡頭上進行實驗。選擇751人作為訓練集,共12 936張圖像,其余750人用于測試。 圖3 Market-1501數(shù)據(jù)集部分行人樣本 這里主要是與稀疏字典學習模型(簡稱Dic)[15]、稀疏表示學習模型(ISR)[16]、視跨圖非對稱度量學習(CAMEL)[3]、組合度量(COMBINE)[17]、無監(jiān)督軌跡(UTAL)[18]、無監(jiān)督的跨視圖度量學習(UAML)[2]進行比較,如表1所示,并畫出CMC曲線,如圖4所示。 表1 用秩-1精度(%)和MAP(%)測量三個數(shù)據(jù)集的無監(jiān)督方法的比較結果 UAML - KL通過學習每個攝像機視圖的投影矩陣,不僅把投影矩陣劃分成了共享投影和特定于視圖的投影去學習特征,在計算樣本的分布差異過程中引入了KL散度,通過計算兩者的多元高斯分布來表示分布的KL散度,進一步去加強再識別的精度值,探索共同的特性并降低視圖之間的不一致之外,還更加細化每個攝像機視圖的特定視圖的特征。 (a)VIPeR (b)CUHK01(SS) 3.3.1 共享映射和特定視圖映射分析 共享映射和特定視圖映射的作用主要是對攝像機視圖之間的共性與不一致性進行建模來獲得比較全面的、具有區(qū)分性的行人特征。為了使得該方法具有一定的性能,通過控制共享特征和特定于視圖的特征,只保留U0或UV來進行對比驗證,如表2所示。 表2 非對稱度量學習驗證 KL散度的非對稱性質能夠很好地與非對稱度量學習相契合,通過均值和協(xié)方差,在衡量樣本分布的時候,能夠與真實樣本分布進行匹配,匹配程度越高,則樣本分布愈接近真實的樣本分布,進一步改善相機視圖之間的分布差異。除了特定于視圖的映射可以為共享的特性提供互補的信息之外,還構建了全面的和有區(qū)別的表示。 3.3.2 聚類分析 在三個數(shù)據(jù)集上驗證K對行人再識別性能的影響實驗。結果如表3所示,K在200到1 600之間變化,時間間隔為200。CUHK01的性能變化較大,這是因為CUHK01與Market相對較小的集群。過多或過少的集群可能會阻礙對行人的樣本之間關系的準確探索。 表3 不同聚類中心數(shù)量結果 3.3.3 特征分析 為了適應不同特征的能力,為證明不僅在采用基于深度學習的JSTL特性時也很有效,還采用了LOMO特征,先進行PCA進行降維,得到512維LOMO特征,如表4所示。在所有模型中,Dic和ISR的結果最具可比性(Dic和ISR位居第二)。所以為了清晰起見,只把該方法和其他特征提取方法比較,LOMO特征作為基線。 表4 使用LOMO特征的比較結果 無監(jiān)督的行人再識別度量學習方法的基本思想是每個攝像機視圖中的行人樣本分別是從兩個分布中提取的:一個提取的是攝像機視圖之間的共同特征,另一個提取的是特定于視圖的特征。引入一個共享映射來探索共享特征,并構造特定于視圖的映射與視圖相關的特征提取投影到一個公共子空間中。這樣不僅降低相機視圖之間的不一致性,還更加細化了特定視圖的特征,能夠更加精確地對行人進行再識別。此外,為了實現(xiàn)精確的相似性測量,還減少變換空間中攝像機視圖之間的分布差異,在投影空間中對樣本進行聚類,通過無監(jiān)督的方式進行優(yōu)化。實驗結果表明,與其他算法相比,該方法具有較好的性能。2 模型與優(yōu)化
3 實 驗
3.1 數(shù)據(jù)集介紹
3.2 參數(shù)設置
3.3 結果分析
4 結束語