劉翠響,袁香偉,王寶珠,張亞鳳,馬 杰
河北工業(yè)大學(xué)電子信息工程學(xué)院,天津 300401
近年來,行人重識(shí)別技術(shù)已成為研究熱點(diǎn),受到越來越多學(xué)者的青睞.行人重識(shí)別是指不同攝像機(jī)之間的行人匹配,旨在于實(shí)現(xiàn)多個(gè)無重疊視域攝像機(jī)之間的特定行人的識(shí)別.由于攝像頭位置的不同,行人圖片會(huì)受到姿勢(shì)、光照和拍攝角度的影響,因此,行人重識(shí)別是一項(xiàng)具有挑戰(zhàn)性的任務(wù).現(xiàn)有的行人重識(shí)別技術(shù)研究主要有特征提取和距離度量學(xué)習(xí)兩個(gè)方向.前者是運(yùn)用一些技術(shù)手段將行人圖像像素級(jí)別的表示轉(zhuǎn)換為特征向量的形式,如顏色直方圖、紋理直方圖等;后者是通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)一種度量函數(shù),使得相同行人之間的距離較小,而不同行人之間的距離較大.
針對(duì)特征提取方向的研究,行人重識(shí)別技術(shù)主要集中在顏色空間、紋理特性以及梯度方向等方面.例如,顏色標(biāo)簽要素與顏色和紋理特征合并,直方圖通過區(qū)域和塊分割提取,以獲得圖像特征[1];基于空間顏色特征的行人重識(shí)別方法[2],先把行人圖像分為上下兩個(gè)部分,進(jìn)而將每一部分再劃分子塊,最后在每個(gè)子塊上提取HSV(hue, saturation, value)特征,并在計(jì)算相似度時(shí)引入位置信息;采用顏色特征與紋理特征結(jié)合的特征表示方法[3],將HSV空間中的HS分量、LAB顏色空間的AB分量和Gabor濾波器后的紋理特征進(jìn)行融合;GHEISSARI[4]提出一種時(shí)空分割法來檢測(cè)穩(wěn)定的前景區(qū)域.針對(duì)劃分的各個(gè)局部區(qū)域,計(jì)算 HS 直方圖和邊緣直方圖;LIAO[5]提出局部最大概率(local maximal occurrence, LOMO)描述器,它主要由HSV顏色直方圖和 SILTP紋理直方圖組成特征;MATSUKAWA等[6]提出利用分層高斯算子將圖像分為由多個(gè)高斯分布進(jìn)行描述的不同區(qū)域來表示顏色和紋理信息(Gaussian of Gaussian, GOG).
針對(duì)距離度量方向的研究從歐氏、余弦等距離,發(fā)展到較復(fù)雜的馬氏[7]和巴氏距離等,其度量方式在不斷變化.DIKMEN等[8]改進(jìn)了大間隔最近鄰局(large margin nearest neighbor, LMNN)算法,提出LMNN-R算法;鄭偉詩(shī)等[9]提出基于概率相對(duì)距離比較(probabilistic relative distance comparison, PRDC)的距離度量學(xué)習(xí);K?STINGER等[10]提出基于簡(jiǎn)單并且直接策略(keep it simple and straight, KISS)的距離度量學(xué)習(xí);PEDAGADI等[11]提出局部線性判別分析(local fisher discrimination analysis, LFDA)的距離學(xué)習(xí)函數(shù),并將其用于行人重識(shí)別;LIAO等[5]將PSD限制和非對(duì)稱權(quán)重應(yīng)用于度量函數(shù)學(xué)習(xí)中,提出一種跨視圖二次鑒別分析(cross-view quadratic discriminant analysis, XQDA)方法[12].
本研究通過分析現(xiàn)有的特征提取和距離度量方法,采用整體和局部特征結(jié)合、顏色和紋理特征結(jié)合的方式提取行人特征.首先,整體提取圖像的HSV顏色空間直方圖,對(duì)圖像進(jìn)行了直方圖均衡化,分塊提取(local binary pattern, LBP)的一種改進(jìn)算法(scale invariant local ternary pattern, SILTP)紋理特征作為圖像局部特征;然后,對(duì)圖像進(jìn)行兩次下采樣,再次進(jìn)行上述特征提取;最后,采用XQDA度量學(xué)習(xí)進(jìn)行圖像特征距離學(xué)習(xí).通過實(shí)驗(yàn)證明,對(duì)圖像進(jìn)行均衡化后的特征比原有特征的識(shí)別率更高,說明該方法的有效性.
均衡化指將已知分布的直方圖映射到另一個(gè)更寬且更均勻的強(qiáng)度值分布上.其中,映射函數(shù)是一個(gè)累積分布函數(shù)(cumulative distribution function, CDF).圖像均衡化旨在使圖像的細(xì)節(jié)更明顯,其基本思想是將圖像直方圖在一定范圍內(nèi)進(jìn)行拉伸,以加強(qiáng)圖像對(duì)比度,提高圖像主觀視覺效果.對(duì)比度低的圖像適于采用直方圖均衡化方法來加強(qiáng)圖像的細(xì)節(jié).在圖像的目標(biāo)數(shù)據(jù)對(duì)比度不清晰時(shí),該方法可有效提高圖像的全局對(duì)比度.因此,該方法不僅很好地增強(qiáng)了圖像局部目標(biāo)的對(duì)比度,且不影響圖像的整體對(duì)比度,尤其適用于當(dāng)圖像的前景與背景過亮或過暗時(shí)的情景.可見,直方圖均衡化能處理行人目標(biāo)與背景相似的情況,有效提高重識(shí)別率.
灰度直方圖均衡化算法實(shí)現(xiàn)步驟為:
1)統(tǒng)計(jì)原始行人圖像中各灰度級(jí)的像素?cái)?shù)ni, 0≤i≤L,L為圖像中的灰度級(jí)(通常為256).
2)圖像中灰度級(jí)為i的像素出現(xiàn)的概率為
p(i)=ni/n
(1)
其中,n為所有像素總數(shù);p(i)為灰度級(jí)為i的歸一化圖像直方圖.
3)p的累積分布函數(shù)(cdf)是圖像累計(jì)歸一化直方圖,即
(2)
4)直方圖均衡化計(jì)算公式為
(3)
其中, round()為四舍五入取整函數(shù);cdfmin為累積分布函數(shù)最小值;M和N分別為圖像的長(zhǎng)、寬方向的像素?cái)?shù);L為灰度級(jí)數(shù);v為原始圖像中所有的灰度級(jí)數(shù).
由于攝像頭拍攝的行人圖像一般為彩色圖像,上述步驟為灰度圖像的均衡化,本研究將針對(duì)RGB彩色圖像進(jìn)行均衡化.首先,將圖像分為R、G和B三個(gè)通道分量;然后,對(duì)每個(gè)通道分量分別求圖像均衡化;最后,選取3個(gè)分量對(duì)應(yīng)位置的最小值作為最終的均衡化值.在直方圖均衡處理后,原始圖像中像素?cái)?shù)較少的灰度級(jí)將被分配給其他灰度級(jí),像素?cái)?shù)相對(duì)集中,并且灰度級(jí)范圍在處理之后變大,對(duì)比度增加并且銳度增加,從而可有效增強(qiáng)圖像,提高識(shí)別率.
行人重識(shí)別的實(shí)現(xiàn)主要分為特征提取和度量學(xué)習(xí)兩部分.特征提取是尋找一種最能描述特定行人的方法.采用圖像直方圖均衡化能更清晰地區(qū)分圖像中的行人與背景,該操作將原本較少像素的灰度級(jí)分配給其他灰度級(jí),令像素將相對(duì)集中.度量學(xué)習(xí)則是通過訓(xùn)練數(shù)據(jù)學(xué)習(xí)一種距離矩陣,使相同行人之間的距離小于不同行人之間的距離,以更好的實(shí)現(xiàn)重識(shí)別.
在實(shí)際場(chǎng)景中,行人圖像會(huì)因姿態(tài)、光照等不同而有所差異,因此,本研究采用局部和整體結(jié)合的方式提取行人特征.以VIPeR數(shù)據(jù)集的圖片為例,首先,把圖像大小統(tǒng)一改為128×48像素;對(duì)圖像求HSV直方圖作為整體特征;然后,通過直方圖均衡化后獲得的圖像被劃分為在水平方向上具有50%的重疊率的條帶,在每個(gè)條形塊中以10×10像素大小,步長(zhǎng)為5的滑塊提取的SILTP紋理特征;最后,對(duì)圖像進(jìn)行2次下采樣,對(duì)采樣后的圖像分別進(jìn)行上述特征提取,將所有特征融合成一個(gè)特征向量,并作為最終的行人特征.經(jīng)過均衡化的部分特征如圖1.
圖1 均衡化部分特征Fig.1 (Color online) Some equalized features
行人在拍攝過程中受很多因素的影響,為使算法的比例尺度不變性更佳,對(duì)均衡化后的圖像進(jìn)行兩次下采樣.經(jīng)過下采樣操作后,可生成不同尺寸的圖像縮略圖.行人重識(shí)別技術(shù)經(jīng)過對(duì)不同尺寸圖像的進(jìn)行訓(xùn)練,使該方法具有較好的尺度不變性.
距離度量學(xué)習(xí)是為了能夠更好地區(qū)分不同行人之間的特征,實(shí)現(xiàn)較好的重識(shí)別.本研究使用XQDA方法,用跨視圖二次鑒別分析學(xué)習(xí)低維度的判別子空間,并用高斯模型擬合樣本特征的差值分布,同時(shí)在子空間中學(xué)習(xí)一個(gè)距離測(cè)度方法[13].度量學(xué)習(xí)定義了如下概率密度函數(shù):
(4)
(5)
其中,Δ=xi-xj,xi和xj為不同攝像頭下的原始特征,xi,xj∈Rd(d為特征維數(shù));當(dāng)樣本標(biāo)簽相同時(shí),Δ被稱為類內(nèi)差值,并被重新定義為ΩI, 當(dāng)樣本標(biāo)簽不同時(shí),Δ被稱為類間差值,并被重新定義為ΩE,ΩI和ΩE都服從均值為0,方差分別為σI和σE的高斯分布;ΣI和ΣE分別為類內(nèi)樣本差值分布的協(xié)方差矩陣與類間樣本差值分布的協(xié)方差矩陣; (ΣI)-1和(ΣE)-1分別為協(xié)方差矩陣ΣI和ΣE的逆矩陣.根據(jù)貝葉斯法則和對(duì)數(shù)似然比,可得距離度量函數(shù)為
f(Δ)=ΔT[(ΣI)-1-(ΣE)-1]Δ
(6)
樣本xi與xj之間的距離為
d(xi,xj)=(xi-xj)T[(ΣI)-1-(ΣE)-1](xi-xj)
(7)
算法流程圖請(qǐng)掃描論文末頁(yè)右下角二維碼.
實(shí)驗(yàn)將在Intel(R) CoreTM i3-3110M CPU,頻率2.40 GHz,內(nèi)存4.00 Gbyte Matlab 2014b基礎(chǔ)配置環(huán)境下進(jìn)行.為更好地區(qū)分圖像中行人目標(biāo)與背景的相似性,本研究利用彩色圖像3通道的直方圖均衡化最小化來增強(qiáng)行人細(xì)節(jié)特征.采用累計(jì)匹配特性(cumulative matching characteristic, CMC)曲線[14]來估計(jì)所提出的算法,并在數(shù)據(jù)集VIPeR、PKU-Reid和i-LIDS-VID上進(jìn)行驗(yàn)證. 3個(gè)數(shù)據(jù)集簡(jiǎn)介如表 1.其中,所有圖像采集自2個(gè)攝像頭.隨機(jī)選取行人數(shù)的一半作為訓(xùn)練樣本集,另一半作為測(cè)試樣本集.
表1 數(shù)據(jù)集簡(jiǎn)介Table 1 Data sets introduction
VIPeR數(shù)據(jù)集每個(gè)行人采集2個(gè)圖像,所得圖像特點(diǎn)是視角和光照多樣.將數(shù)據(jù)集隨機(jī)均分成各316個(gè)行人的分?jǐn)?shù)據(jù)集,一個(gè)用于訓(xùn)練,一個(gè)用于測(cè)試.PKU-Reid數(shù)據(jù)集包含從兩個(gè)分離的相機(jī)視圖中捕獲的1 824幅圖像,每個(gè)相機(jī)針對(duì)1個(gè)行人從8個(gè)不同方向各捕捉1幅圖像,即每個(gè)行人采集16個(gè)圖像.該數(shù)據(jù)集是第1個(gè)從8個(gè)方向捕捉人的外貌的數(shù)據(jù)集.同樣,將該數(shù)據(jù)集隨機(jī)均分為一個(gè)包含57個(gè)人用于培訓(xùn)和一個(gè)包含57個(gè)人用于測(cè)試的子數(shù)據(jù)集.?dāng)?shù)據(jù)集i-LIDS-VID由300個(gè)不同個(gè)體的600個(gè)圖像序列組成,每個(gè)人有一對(duì)來自兩個(gè)攝像機(jī)視圖的圖像序列.每個(gè)圖像序列的長(zhǎng)度為23~192幀,平均約為73幀.?dāng)?shù)據(jù)集i-LIDS-VID非常具有挑戰(zhàn)性,因?yàn)樾腥朔b相似,攝像機(jī)視圖之間的燈光和視角變化,雜亂的背景和隨機(jī)遮擋.訓(xùn)練子集是為學(xué)習(xí)不同特征的核矩陣,而測(cè)試子集是計(jì)算不同攝像機(jī)中一對(duì)行人樣本的相似性.計(jì)算 CMC 曲線時(shí),為使實(shí)驗(yàn)結(jié)果穩(wěn)定且可靠,取10次實(shí)驗(yàn)的平均識(shí)別率作為最后結(jié)果.
為驗(yàn)證算法中HSV空間的有效性,采用與LAB顏色空間進(jìn)行對(duì)比.先將圖像轉(zhuǎn)化為L(zhǎng)AB空間,再進(jìn)行相應(yīng)的紋理特征提取,最后在VIPeR、PKU-Reid和i-LIDS-VID數(shù)據(jù)集分別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2.由表2可見,在 VIPeR數(shù)據(jù)集上采用HSV顏色空間的識(shí)別結(jié)果rank1要比LAB顏色空間高13.51%;在 PKU-Reid數(shù)據(jù)集上采用HSV顏色空間的識(shí)別結(jié)果rank1要比LAB顏色空間高7.02%;在i-LIDS-VID數(shù)據(jù)集上采用HSV顏色空間的識(shí)別結(jié)果rank1要比LAB顏色空間高8.50%.可見,采用HSV顏色空間的識(shí)別結(jié)果在3個(gè)數(shù)據(jù)集中都有最佳識(shí)別率.在 3個(gè)數(shù)據(jù)集上對(duì)比采用HSV顏色空間和采用LAB顏色空間進(jìn)行識(shí)別時(shí),所得CMC曲線如圖2.由圖2(a)可見,在數(shù)據(jù)集VIPeR上,使用HSV空間的整體重識(shí)別效果要比LAB空間的好.由圖2(b)可見,在數(shù)據(jù)集PKU Reid上,HSV空間的重識(shí)別率要比LAB空間收斂的快且效果好.由圖2(c)可見,在數(shù)據(jù)集i-LIDS-VID上使用HSV空間的整體重識(shí)別效果比LAB空間的好.
表2 在VIPeR、PKU-Reid和PKU-Reid數(shù)據(jù)集上的識(shí)別率Table 2 The recognition rate on the data sets of VIPeR, PKU-Reid and PKU-Reid %
圖2 不同數(shù)據(jù)集的累積匹配分?jǐn)?shù)變化曲線Fig.2 (Color online) Cumulative matching score change curves for different data sets
為驗(yàn)證本研究算法均衡化的有效性,通過實(shí)驗(yàn)對(duì)比多種特征在均衡化前后的識(shí)別率.由于在CMC曲線中rank1最能體現(xiàn)重識(shí)別的好壞,故在此選擇rank1進(jìn)行比較,實(shí)驗(yàn)在數(shù)據(jù)集VIPeR上進(jìn)行,結(jié)果如表3.
表3 數(shù)據(jù)集VIPeR上不同特征在 均衡化前后識(shí)別率對(duì)比Table 3 Comparison of recognition rates before and after equalization of different features on data set VIPeR %
從表3可見,無論采用哪種特征,對(duì)圖像進(jìn)行均衡化后,識(shí)別率都會(huì)提高,這證明均衡化可有效提高重識(shí)別率.
為驗(yàn)證本研究所提出的行人特征及均衡化的有效性,采用文獻(xiàn)[3]和LOMO特征[5]與本研究所述特征在不同數(shù)據(jù)集上進(jìn)行對(duì)比.首先對(duì)圖像進(jìn)行3通道均衡化取小者,然后用提取紋理特征的方法提高重識(shí)別率.在VIPeR、PKU-Reid和i-LIDS-VID數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),結(jié)果如表4.從表4可見,本研究采用的先對(duì)圖像進(jìn)行均衡化,再提取紋理特征的方法,對(duì)文獻(xiàn)[3]的特征重識(shí)別率提高顯著.相較于采用LOMO特征,采用本研究方法的重識(shí)別率也有所提高:在數(shù)據(jù)集VIPeR上重識(shí)別率rank1提高了0.28%;在數(shù)據(jù)集PKU-Reid上重識(shí)別率rank1提高了1.75%;在數(shù)據(jù)集i-LIDS-VID上重識(shí)別率rank1提高了0.20%,從而驗(yàn)證了本方法的有效性.
表4 在VIPeR、PKU-Reid和i-LIDS-VID數(shù)據(jù)集上的識(shí)別率Table 4 The recognition rate on the data sets of VIPeR, PKU-Reid and i-LIDS-VID %
本研究只考慮了短時(shí)間內(nèi),行人的外觀和行為沒有發(fā)生巨大變化的情況.為增強(qiáng)行人目標(biāo)與背景的區(qū)分度,對(duì)行人圖像先進(jìn)行了直方圖均衡化,然后提取相應(yīng)的紋理特征,使其紋理特征能較好地描述行人,提高了識(shí)別結(jié)果.研究結(jié)果證明,均衡化有助于提高重識(shí)別率.但在現(xiàn)實(shí)生活中,若要很好地實(shí)現(xiàn)跨攝像頭的行人重識(shí)別,進(jìn)而完成安全且智能的城市建設(shè),則需提取更細(xì)致的行人特征,研究更有判別力的距離度量,這也是今后的研究熱點(diǎn).
深圳大學(xué)學(xué)報(bào)(理工版)2019年4期