李大湘, 費(fèi)國(guó)園, 劉 穎
(1. 西安郵電大學(xué) 通信與信息工程學(xué)院, 陜西 西安 710121;2. 電子信息現(xiàn)場(chǎng)勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室, 陜西 西安 710121)
在多攝像機(jī)監(jiān)控網(wǎng)絡(luò)中,利用行人再識(shí)別技術(shù)[1]可實(shí)現(xiàn)目標(biāo)行人跟蹤或異常場(chǎng)景檢測(cè),從而服務(wù)于智能安防和刑事偵查[2-3]。受光照、遮擋、姿勢(shì)和雜亂背景等因素干擾,行人外觀通常會(huì)發(fā)生變化,所以,行人再識(shí)別的重點(diǎn)主要在于特征提取和度量學(xué)習(xí)[4]。
在特征提取方面,有局部特征集成(ensemble of localized features,ELF)[5]、對(duì)稱(chēng)驅(qū)動(dòng)的局部特征累積(symmetry-driven accumulation of local features, SDALF)[6]、局部最大概率(local maximal occurrence,LOMO)特征[7]、分層高斯方法利用高斯塊的高斯區(qū)域(Gaussian region of Gaussian patch,GOG)描述符[8]等方法。其中,LOMO特征是HSV顏色直方圖和尺度不變局部三元模式(scale invariant local ternary pattern,SILTP)紋理特征的高維表示,而GOG描述符則將圖像分為由多個(gè)高斯分布描述的不同區(qū)域,以刻畫(huà)行人圖像的顏色和紋理等信息。每種高斯分布代表一個(gè)圖像塊,每個(gè)圖像塊的特征融合后得到行人圖像的特征向量。
除了歐氏距離和馬氏距離外,用于行人再識(shí)別的距離度量學(xué)習(xí)方法還有許多[9],如交叉視圖二次判別分析(cross-view quadratic dis-criminant analysis, XQDA)[7]、成對(duì)特定CRC編碼(pairewise-specific collaborative representation based classification coding,PSCRC)[10]、多核全監(jiān)督子空間學(xué)習(xí)(multi-kernel fully-supervised subspace learning,MKFSL)[11]等方法。其中,MKFSL方法能有效利用行人圖像,通過(guò)學(xué)習(xí)產(chǎn)生一個(gè)有辨別力的子空間,先利用有標(biāo)簽樣本的GOG特征學(xué)習(xí)初始投影,再利用該投影將無(wú)標(biāo)簽樣本映射到低維空間中,但是,因未能充分利用標(biāo)簽樣本,往往會(huì)引發(fā)行人圖像表征單一化或模型浮動(dòng)。
為了進(jìn)一步充分利用帶標(biāo)簽樣本,本文擬從特征融合和子空間學(xué)習(xí)兩方面,對(duì)MKFSL行人再識(shí)別算法加以?xún)?yōu)化。以串聯(lián)融合后的LOMO特征和GOG特征,描述行人圖像,彌補(bǔ)單一描述符表征行人圖像的局限性。挑選典型帶標(biāo)簽樣本,來(lái)學(xué)習(xí)優(yōu)化的判別式投影,避免模型浮動(dòng)問(wèn)題。
LOMO是特征包含顏色特征和紋理特征??紤]到光照對(duì)顏色信息的影響,先對(duì)圖像利用帶顏色恢復(fù)的Retinex算法(multi-scale retinex with color restoration,MSRCR)[12]進(jìn)行預(yù)處理,再對(duì)其進(jìn)行HSV顏色直方圖特征提取。針對(duì)攝像機(jī)中的行人目標(biāo)視圖變化問(wèn)題,采用紋理特征SILTP對(duì)行人圖像進(jìn)行描述。
采用GOG特征對(duì)行人圖像作進(jìn)一步描述。
將行人圖像調(diào)整為128×48像素,對(duì)每張圖像進(jìn)行有重疊的分塊處理,分為7個(gè)大小為32×48像素的水平區(qū)域。對(duì)各水平區(qū)域進(jìn)行稠密塊采樣,采樣間隔為2像素,各稠密塊的大小為5×5像素。對(duì)稠密塊中各像素提取8維像素特征,包括像素點(diǎn)的垂直位置、梯度值以及顏色信息等。
用高斯分布擬合稠密塊內(nèi)的像素特征,再用另一高斯分布擬合水平區(qū)域內(nèi)所有稠密塊的特征。拼接所有水平區(qū)域內(nèi)的特征向量,所得27 622維特征向量即為GOG特征。
拼接所提取到的LOMO特征向量GOG特征向量,即為行人圖像的特征向量。
引入子空間學(xué)習(xí),將原始特征空間中線性不可分的數(shù)據(jù),映射到區(qū)分能力更強(qiáng)的低維子空間,對(duì)這種映射關(guān)系的設(shè)計(jì)是子空間學(xué)習(xí)的關(guān)鍵。
選擇全監(jiān)督的子空間學(xué)習(xí)方法[11],學(xué)習(xí)一個(gè)判別式子空間。選定n張帶標(biāo)簽的行人圖像,以其特征向量分別描述為xi∈d(n=1,2,…,n),記其相應(yīng)的標(biāo)簽為yi。學(xué)習(xí)平方距離函數(shù)
(1)
其中,U∈d×r,是一個(gè)低維投影矩陣,可將不同攝像機(jī)視圖中的行人圖像映射到一個(gè)公共子空間,從而進(jìn)行有效的行人再識(shí)別[11]。r(?d)是投影子空間的維數(shù)。
如果xi和xj屬于同一人,也即yi=yj,則其距離函數(shù)值較小,反之較大。最優(yōu)低維投影矩陣可以表示為
(2)
其中,X=(x1,x2,…,xn),而權(quán)重矩陣W∈n×n的元素
(3)
利用跡操作,可以將損失函數(shù)L(X,U,W)重新改寫(xiě)為tr (UTXLXTu)。其中,L是一個(gè)對(duì)角矩陣D與權(quán)重矩陣W之差,即
L=D-W,
而D對(duì)角線上的元素是W對(duì)應(yīng)行之和。增加約束
tr (UTXLXTu)=1,
通過(guò)廣義特征值分解,即可求得最優(yōu)低維投影矩陣U*,它由r個(gè)最小特征值對(duì)應(yīng)的相關(guān)特征向量組成。通常取r=n-1。
得到優(yōu)化的投影矩陣U*之后,將測(cè)試樣本的探測(cè)圖像和候選集圖像特征投影到該空間中,通過(guò)計(jì)算兩者的馬氏距離,得出一個(gè)有序列表,據(jù)此即可計(jì)算出得人再識(shí)別的匹配率。
實(shí)驗(yàn)選取VIPeR數(shù)據(jù)集和PRID450s數(shù)據(jù)集。
VIPeR數(shù)據(jù)集[13]包含632個(gè)行人的1 264張戶(hù)外圖像,其大小被統(tǒng)一標(biāo)準(zhǔn)化為128×48像素,整個(gè)數(shù)據(jù)集被均等一分為二,一半用于訓(xùn)練,一半用于測(cè)試。
PRID450s數(shù)據(jù)集[14]更接近現(xiàn)實(shí),包含由兩個(gè)攝像機(jī)捕從不同視角所捕獲的450對(duì)圖像,其大小不一,但光照強(qiáng)度一致。
采用配置64位操作系統(tǒng)、Intel i7處理器的聯(lián)想電腦,利用軟件Matlab2015a進(jìn)行實(shí)驗(yàn)。選用累積特征匹配曲線(cumulative match characteristic curve,CMC)作為評(píng)估準(zhǔn)則。CMC曲線是模式識(shí)別系統(tǒng)的重要評(píng)價(jià)指標(biāo),用以計(jì)算前k次匹配到目標(biāo)樣本的概率。比較待查找樣本對(duì)象與候選集樣本間的距離,從小到大排序。查詢(xún)到的同一行人樣本越靠前,則相應(yīng)算法性能越好。為了統(tǒng)一處理數(shù)據(jù),將各數(shù)據(jù)集圖像的大小均預(yù)調(diào)整為128×48像素,再進(jìn)行特征提取。
串聯(lián)融合LOMO特征和GOG特征,并結(jié)合改進(jìn)的子空間學(xué)習(xí)方法,在數(shù)據(jù)集VIPeR和PRID450s上進(jìn)行10次實(shí)驗(yàn),對(duì)其結(jié)果取平均,所得CMC曲線圖如圖1所示。其中排序等級(jí)代表具有較大相似度目標(biāo)的個(gè)數(shù)。
基于像素點(diǎn)提取的GOG描述符,相較基于滑動(dòng)窗提取的LOMO特征,前者對(duì)應(yīng)的匹配曲線明顯要高,而其融合特征對(duì)應(yīng)的匹配曲線最高。融合特征可避免單一特征在描述行人圖像方面的局限性,在行人再識(shí)別時(shí)的1級(jí)匹配率更高。
(a) VIPeR
(b) PRID450s
在兩個(gè)數(shù)據(jù)集上,所給改進(jìn)算法與其他行人再識(shí)別算法的實(shí)驗(yàn)結(jié)果分別如表1和表2所示。
表1 VIPeR數(shù)據(jù)集上不同算法的匹配率
表2 PRID450s數(shù)據(jù)集上不同算法的匹配率
改進(jìn)算法融合了兩種魯棒性的描述符以描述行人圖像,并引入了子空間學(xué)習(xí)方法求得的判別性投影矩陣,具有良好的匹配性能。與原MKFSL算法相比,在數(shù)據(jù)集VIPeR和PRID450s上,改進(jìn)算法的1級(jí)匹配率分別提高了1.7%和2.7%。
為了充分發(fā)揮帶標(biāo)簽樣本的可用性,給出一種改進(jìn)的MKFSL行人再識(shí)別算法。融合LOMO特征和GOG描述符以表征行人圖像,有效降低了光照、視角及攝像機(jī)參數(shù)等外界因素所帶來(lái)的影響。利用低維投影矩陣,將所提取的特征映射到低維子空間中,使之表現(xiàn)出可區(qū)分能力更強(qiáng)的特點(diǎn),更有利于準(zhǔn)確地實(shí)現(xiàn)行人再識(shí)別。實(shí)驗(yàn)結(jié)果顯示,所給改進(jìn)算法可行有效。