国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向視頻監(jiān)控的距離度量行人再識(shí)別*

2019-09-11 02:25:10簡(jiǎn)佳雁方志軍高永彬
傳感器與微系統(tǒng) 2019年9期
關(guān)鍵詞:度量行人距離

簡(jiǎn)佳雁, 方志軍, 高永彬

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

0 引 言

行人再識(shí)別的主要任務(wù)是匹配來自無重疊視野區(qū)域攝像頭的行人圖片或視頻[1],該技術(shù)廣泛應(yīng)用于視頻監(jiān)控、刑偵破案等領(lǐng)域[3]。

行人再識(shí)別任務(wù)大致為以下兩個(gè)主流方向[4]:特征提取的方法和距離度量學(xué)習(xí)的方法。前者的目的是提取行人具有區(qū)別性的特征,如:顯著性特征、中層特征、顏色特征等。后者主要尋找一個(gè)能更好度量行人特征的馬氏矩陣,使得相同人之間的特征距離盡量小,不同人之間的特征距離盡量大。2006年,該任務(wù)研究開始于用單幀圖像進(jìn)行特征建模并完成一對(duì)一匹配的方法,到目前為止,單幀圖像的方法已經(jīng)成為該領(lǐng)域內(nèi)較成熟的研究方向。但在實(shí)際智能視頻監(jiān)控環(huán)境中,光照變化、攝像機(jī)角度變化、行人服飾相似、背景復(fù)雜以及遮擋嚴(yán)重等因素導(dǎo)致行人再識(shí)別任務(wù)面臨著巨大的挑戰(zhàn)。若只考慮單幀圖像的二維特征很難解決以上問題,而視頻可以從時(shí)間和空間角度提供更多的特征信息,有助于進(jìn)行行人匹配與再識(shí)別,因此基于視頻序列的行人再識(shí)別研究應(yīng)運(yùn)而生。

目前,基于視頻的行人再識(shí)別任務(wù)研究工作目前為數(shù)不多,早期的一部分工作是將其他研究領(lǐng)域的方法用在行人再識(shí)別任務(wù)上,例如文獻(xiàn)[5]的行為識(shí)別方法動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)、文獻(xiàn)[6]的視頻分割方法等。另外,也有不少方法嘗試提取視頻中的三維數(shù)據(jù)來進(jìn)行外貌表征,如文獻(xiàn)[7]提出的HOGHOF,文獻(xiàn)[8]的3D-SIFT等。但在新的特征空間下,面臨的新問題是:由于運(yùn)動(dòng)特征相似,導(dǎo)致類間變化相似,即很難分辨不同的人,因此距離度量學(xué)習(xí)的研究工作在行人再識(shí)別任務(wù)中十分重要,2006年,Blitzer J等人[9]提出大間隔最近鄰(large margin nearest neighbor,LMNN)分類度量學(xué)習(xí)算法。該算法最大的亮點(diǎn)在于使用三元形式(xi,xj,xk),對(duì)不相似的樣本對(duì)進(jìn)行約束,即y(xi)≠y(xj),y(xi)≠y(xk)。只要三元形式的樣本盡量可能多地滿足不等式d(xi,xk)≥d(xi,xj)+1就可以學(xué)習(xí)并且得到矩陣M。2008年,Mert D等人[10]在大間隔近鄰分類基礎(chǔ)上進(jìn)行優(yōu)化,提出LMNN-R算法,通過均值的引入,相應(yīng)的約束比最初的LMNN更強(qiáng)。

本文輸入視頻序列,用HOG3D[11]提取時(shí)序動(dòng)態(tài)特征,并融合顏色、紋理靜態(tài)特征,結(jié)合PFMLNN[12](parameter free large margin nearest neighbor for distance metric learning)距離度量學(xué)習(xí),縮小類內(nèi)距離的同時(shí),約束最近鄰負(fù)樣本對(duì)的距離。與LMNN算法相比,PFLMNN專注于增大類間特征距離,且只約束距離目標(biāo)樣本最近鄰的負(fù)樣本對(duì)距離,在減少參數(shù)量的同時(shí),對(duì)于類間特征距離的約束力更強(qiáng)。在訓(xùn)練過程中,根據(jù)迭代次數(shù)分段給定損失函數(shù)的相應(yīng)權(quán)重,在公開數(shù)據(jù)集iLIDS-VID和PRID-2011(multi-shot)上的實(shí)驗(yàn)達(dá)到了較好的行人再識(shí)別精度。

1 算法實(shí)現(xiàn)

1.1 特征提取

視頻監(jiān)控?cái)z像頭采集到的行人視頻數(shù)據(jù)會(huì)存在很大的噪聲,并且整段視頻連續(xù)幀中部分幀存在遮擋或者分辨率低等問題,根據(jù)FEP[13,14](flow energy prole)自動(dòng)挑選出最具鑒別性的視頻序列片段作為輸入,如圖1所示。

圖1 挑選視頻序列幀

如上圖1所示,定義每一幀圖像為I,則一個(gè)行人的視頻序列定義為Q={I1,…,It},t表示視頻序列的幀數(shù)。e表示單幀圖像I的光流能量值,(vx,vy)表示單幀圖像的光流區(qū)域,U為圖像I下半部分的所有像素點(diǎn)。則FEP計(jì)算單幀圖像的光流能量值為

(1)

選擇光流能量值e最大的視頻幀為中心幀It,取以It為中心的前10幀與后10幀,共21幀作為輸入視頻序列連續(xù)幀。

在視頻序列上選擇HOG 3D[12]提取時(shí)間運(yùn)動(dòng)信息及空間梯度信息,整合特征為1 200維。并隨機(jī)選擇一幀圖像,基于文獻(xiàn)[8],將圖像裁剪為128×48,每幀圖像分為8×16的子塊,在水平和垂直方向上有1/2的像素點(diǎn)重疊,共有155個(gè)子塊提取顏色和紋理靜態(tài)特征,最終融合顏色和紋理特征向量為1 705維。以上兩部分描述了視頻中行人的動(dòng)態(tài)特征和靜態(tài)特征,兩種特征互相補(bǔ)充輔助,共為2 905維。

1.2 距離度量學(xué)習(xí)

采用距離度量學(xué)習(xí)算法,通過學(xué)習(xí)到的距離尺度變換,使得同一行人特征之間的距離減小,不同行人之間的距離增大。

(2)

(3)

(4)

若最近負(fù)樣本滿足式(4),根據(jù)幾何信息關(guān)系,則其他所有負(fù)樣本都符合式(4)的條件。定義最小類間距離的問題

(5)

綜上所述,結(jié)合式(3)和式(5),本文距離度量學(xué)習(xí)模型的目標(biāo)函數(shù)為

(6)

1.3 優(yōu)化函數(shù)

(7)

結(jié)合式(2)和式(7),兩個(gè)任意樣本的特征距離表示為

(8)

結(jié)合式(5)和式(7)可得本文算法的損失函數(shù)為

(9)

對(duì)矩陣M正進(jìn)行特征分解使其為半正定矩陣,并用隨機(jī)梯度下降投影法優(yōu)化M。計(jì)算最小類間距離時(shí),在t次迭代,令M=Mt,當(dāng)類內(nèi)距離大于類間距離時(shí),構(gòu)造(i,j,k)為一個(gè)異常情況,i,j,k為異常情況的三個(gè)點(diǎn),i,j來自同一個(gè)人,k來自不同的人,通過式(10)調(diào)整M消除異常情況,式(9)對(duì)M求偏導(dǎo)可得梯度函數(shù)為式(10),優(yōu)化之后的Mt+1也應(yīng)為正半定矩陣,對(duì)Mt+1特征分解為式(11),并不斷更新去掉所有負(fù)特征值的矩陣Dt+1

(10)

(11)

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置

實(shí)驗(yàn)環(huán)境中軟硬件參數(shù)如下:CPU型號(hào)為Intel(R)Core(TM)i5—6 500,內(nèi)存為8 GB,操作平臺(tái)為Windows 7,實(shí)驗(yàn)平臺(tái)為MATLAB R2014a。

實(shí)驗(yàn)中,圖片的大小為12 848,HOG3D提取到的時(shí)空特征向量為1 200維,顏色直方圖和LBP提取到的顏色特征以及紋理特征組合特征向量為1 705維,從而得到行人的總特征向量為2 905維,結(jié)合度量學(xué)習(xí)模型,訓(xùn)練過程中迭代次數(shù)設(shè)置為1 000,損失函數(shù)中的參數(shù)λ采取分段訓(xùn)練的形式,當(dāng)t≥200時(shí),λ=0.25;當(dāng)200

2.2 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)指標(biāo)

本文采用視頻數(shù)據(jù)庫(kù)iLIDS—VID和PRID 2011來評(píng)估文中算法,兩數(shù)據(jù)庫(kù)拍攝的行人圖像分別如圖2所示,數(shù)據(jù)庫(kù)參數(shù)如表1所示。

圖2 兩個(gè)數(shù)據(jù)庫(kù)圖像

數(shù)據(jù)庫(kù)行人數(shù)量/位攝像機(jī)數(shù)量/臺(tái)平均幀數(shù)/幀圖像尺寸/像素iLIDS-VID30027364×128PRID 2011200210064×128

iLIDS-VID數(shù)據(jù)庫(kù)包括600個(gè)圖像序列,采用兩個(gè)非重疊攝像機(jī)隨機(jī)拍攝的300位行人,每個(gè)圖像序列的長(zhǎng)度從23幀到192幀不等,平均幀長(zhǎng)為73。由圖2(a)可知,該數(shù)據(jù)集拍攝的場(chǎng)合背景復(fù)雜,遮擋嚴(yán)重,加上行人著裝上的相似以及相機(jī)間視角的變化。

PRID 2011數(shù)據(jù)庫(kù)包括400個(gè)圖像序列,每個(gè)序列的長(zhǎng)度為5~675幀,平均幀長(zhǎng)為100幀。由圖2(b)可知,該數(shù)據(jù)集拍攝場(chǎng)合為比較空曠的室外,沒有遮擋且背景比較簡(jiǎn)單,然而攝像機(jī)角度變化非常明顯,色彩空間差異較大,且其中一個(gè)攝像機(jī)中行人的陰影比較明顯。

在實(shí)驗(yàn)中,為了平衡實(shí)驗(yàn)的效果,挑選出數(shù)據(jù)庫(kù)PRID 2011中大于21幀的178個(gè)Multi-shot的行人作為實(shí)驗(yàn)數(shù)據(jù)。對(duì)于兩個(gè)數(shù)據(jù)庫(kù),將數(shù)據(jù)隨機(jī)的平均分為兩部分,一部分用作訓(xùn)練,另一部分用作測(cè)試,即iLIDS-VID數(shù)據(jù)庫(kù)各為150人,PRID 2011數(shù)據(jù)庫(kù)各為89人。在測(cè)試時(shí),設(shè)置攝像機(jī)Cama所拍攝的數(shù)據(jù)作為需要查找的目標(biāo),即查找集,攝像機(jī)Camb所拍攝的行人數(shù)據(jù)作為候選的對(duì)象,即候選集。實(shí)驗(yàn)重復(fù)10次,并測(cè)量平均的累計(jì)匹配特性曲線(cumulative matching characteristic,CMC)來評(píng)價(jià)算法的性能。

將查找的對(duì)象在候選集中按距離的遠(yuǎn)近由小到大進(jìn)行排序,目標(biāo)行人的排序越靠前,說明行人再識(shí)別的效果越好。假設(shè)總共由N個(gè)行人,即共進(jìn)行次查詢和排序,每次查詢中目標(biāo)行人的排序結(jié)果用r=(r1,r2,…,rN)表示,則CMC曲線表示為

(12)

分別對(duì)兩個(gè)數(shù)據(jù)庫(kù)采用排序在前r=1,5,10,20處的分?jǐn)?shù)進(jìn)行算法評(píng)估比較。

2.3 結(jié)果與分析

2.3.1 特征方法比較

基于視頻的行人再識(shí)別的問題相比單幀圖像的方法而言,最大的不同點(diǎn)在于:視頻處理的特征是三維數(shù)據(jù),并且視頻存在時(shí)間相關(guān)性的特征。但行人再識(shí)別問題不同于行為識(shí)別問題,行人的走路姿勢(shì)區(qū)分性不大,如果只用HOG 3D提取時(shí)序信息與空間梯度信息,則視頻的行人特征提取不完整。DVR[6]中介紹了基于HOG 3D特征的重排序模型,實(shí)驗(yàn)在公開數(shù)據(jù)庫(kù)iLIDS-VID和PRID 2011上,分別基于本文的度量學(xué)習(xí)模型和DVR[6]的重排序模型,分析比較只提取HOG 3D特征和組合靜態(tài)顏色、紋理特征后對(duì)最后行人匹配精度的影響。實(shí)驗(yàn)結(jié)果如表2所示,CMC曲線圖如圖3所示。

表2 特征提取方法比較

圖3 特征提取結(jié)果

實(shí)驗(yàn)結(jié)果表明,融合了靜態(tài)的顏色和紋理特征后,在數(shù)據(jù)集iLIDS-VID上,基于本文度量學(xué)習(xí)模型的行人再識(shí)別精度比單獨(dú)提取HOG 3D特征的Rank-1結(jié)果提高了22.4 %,基于DVR排序模型Rank-1結(jié)果提高了11.2 %。在數(shù)據(jù)集PRID 2011上,兩種模型Rank-1結(jié)果分別提高了28.7 %和8.7 %。說明不同于行為、動(dòng)作識(shí)別等問題,基于視頻的行人再識(shí)別問題不能只考慮時(shí)間上的運(yùn)動(dòng)信息,融合動(dòng)態(tài)與靜態(tài)特征可以較明顯提高行人再識(shí)別的匹配精度。

2.3.2 度量學(xué)習(xí)方法比較

為證明該度量學(xué)習(xí)方法可以有效提高行人再識(shí)別的匹配精度[9~15],實(shí)驗(yàn)在HOG3D&顏色&紋理相同特征基礎(chǔ)上,比較分析幾個(gè)比較主流的度量學(xué)習(xí)方法。由于每個(gè)行人走路的姿勢(shì)相似,視頻中不同人之間的模糊性會(huì)更高,如2.2節(jié)所述,PFLMNN度量學(xué)習(xí)方法著重于增大負(fù)樣本對(duì)的距離。在公開數(shù)據(jù)庫(kù)iLIDS-VID和PRID 2011上,分別基于相同的特征條件,分析比較KISSME[15],LFDA[3],LMNN[9]與PFLMNN的度量學(xué)習(xí)方法,實(shí)驗(yàn)結(jié)果如表3所示,CMC曲線圖分別如圖4所示。

表3 度量學(xué)習(xí)方法比較

圖4 度量學(xué)習(xí)結(jié)果

實(shí)驗(yàn)結(jié)果表明,在相同特征基礎(chǔ)的條件下,PFLMNN度量學(xué)習(xí)方法在兩個(gè)數(shù)據(jù)庫(kù)上明顯優(yōu)于KISSME[15],LFDA[3],LMNN[9]方法。由表3結(jié)果分析發(fā)現(xiàn),在數(shù)據(jù)集iLIDS-VID上,該方法rank-1的結(jié)果比KISSME[15]提高了19.7 %,比LFDA[3]提高了17.2 %,比LMNN[9]提高了27.9 %;在數(shù)據(jù)集PRID 2011上,Rank-1的結(jié)果分別提高了24.1 %,11.2 %,31.3 %。由以上可得,基于PFLMNN的度量學(xué)習(xí)模型比較適合基于視頻方法的行人再識(shí)別任務(wù)。

2.3.3 整體方法比較

為了表明實(shí)現(xiàn)的整體方法在視頻行人再識(shí)別的問題上表現(xiàn)較好,實(shí)驗(yàn)對(duì)比了近年來在數(shù)據(jù)庫(kù)iLIDS-VID和PRID 2011 三個(gè)比較先進(jìn)的方法,包括SRID[16],DVDL[17],STFV3D+KISSME[18]。實(shí)驗(yàn)結(jié)果如表4所示。

表4 整體方法比較

實(shí)驗(yàn)結(jié)果表明,時(shí)空特征融合+PFLMNN度量學(xué)習(xí)方法在數(shù)據(jù)庫(kù)iLIDS-VID和PRID 2011上對(duì)比SRID[22],DVDL[23]均有明顯優(yōu)勢(shì),尤其是在數(shù)據(jù)庫(kù)iLIDS-VID上性能提高較為明顯。 與STFV3D+KISSME[24]方法比較發(fā)現(xiàn),該方法在數(shù)據(jù)庫(kù)PRID 2011上的結(jié)果低于STFV3D+KISSME[24],但在數(shù)據(jù)庫(kù)iLIDS-VID上Rank-1結(jié)果提高了11.9 %。由表5可得,本文整體方法在數(shù)據(jù)庫(kù)iLIDS-VID和PRID 2011上均有較好的行人再識(shí)別精度,且比較適合基于視頻的行人再識(shí)別任務(wù)。

3 結(jié) 論

實(shí)驗(yàn)結(jié)果表明:該方法在公開數(shù)據(jù)集iLIDS-VID和PRID 2011上取得了較好的匹配精度,分析結(jié)果發(fā)現(xiàn),對(duì)于遮擋嚴(yán)重、背景復(fù)雜的數(shù)據(jù)集該方法提升效果較為明顯。

猜你喜歡
度量行人距離
有趣的度量
模糊度量空間的強(qiáng)嵌入
毒舌出沒,行人避讓
意林(2021年5期)2021-04-18 12:21:17
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
路不為尋找者而設(shè)
算距離
我是行人
每次失敗都會(huì)距離成功更近一步
山東青年(2016年3期)2016-02-28 14:25:55
地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
愛的距離
母子健康(2015年1期)2015-02-28 11:21:33
龙胜| 个旧市| 确山县| 仲巴县| 南城县| 革吉县| 古田县| 东乡族自治县| 呈贡县| 科技| 晴隆县| 奉化市| 三台县| 克什克腾旗| 新兴县| 澄城县| 綦江县| 桃源县| 鱼台县| 宜良县| 昌吉市| 玛曲县| 鹿邑县| 永和县| 类乌齐县| 绥德县| 滕州市| 临夏市| 眉山市| 临猗县| 云龙县| 嘉定区| 阜康市| 东丽区| 龙井市| 施甸县| 福贡县| 临沧市| 兴义市| 浏阳市| 罗江县|