李 珊, 孫 鵬, 朗宇博
(中國(guó)刑事警察學(xué)院聲像資料檢驗(yàn)技術(shù)系, 遼寧沈陽(yáng) 110854)
在公安視頻偵查工作中,對(duì)監(jiān)控視頻中犯罪嫌疑人的鎖定與追蹤是主要任務(wù)[1],人臉識(shí)別技術(shù)的廣泛應(yīng)用大大降低了偵查人員的工作量,提高了工作效率。然而,現(xiàn)實(shí)監(jiān)控條件復(fù)雜多變,在光線條件不足,監(jiān)控角度不佳,嫌疑人進(jìn)行面部偽裝或遮擋等條件下,監(jiān)控視頻往往不能提供滿足人臉識(shí)別條件的圖像。此時(shí),人臉識(shí)別技術(shù)使用受限,單靠偵查人員人為觀察監(jiān)控視頻,篩查效率大大降低,使得偵查工作陷入困境。步態(tài)識(shí)別這一生物特征識(shí)別技術(shù)以其可遠(yuǎn)距離識(shí)別[2-3]、隱蔽性強(qiáng)、受視頻光線及拍攝角度影響較小、犯罪嫌疑人較難偽裝等優(yōu)勢(shì)[4],是監(jiān)控視頻中人臉識(shí)別技術(shù)的必要補(bǔ)充,在公安視頻偵查領(lǐng)域具有廣闊應(yīng)用前景。步態(tài)識(shí)別領(lǐng)域技術(shù)發(fā)展也為步態(tài)識(shí)別技術(shù)投入公安實(shí)際應(yīng)用,加快各類案件偵破速度奠定了基礎(chǔ)。
步態(tài)能夠用于身份識(shí)別是有其科學(xué)依據(jù)的,英國(guó)學(xué)者馬克·尼克松[4]的研究顯示:人們?cè)诩∪獾牧α?、肌腱和骨骼長(zhǎng)度、骨骼密度、視覺(jué)的靈敏程度、協(xié)調(diào)能力、經(jīng)歷、體重、重心、肌肉或骨骼受損的程度、生理?xiàng)l件以及個(gè)人走路的“風(fēng)格”上都存在細(xì)微差異,導(dǎo)致人的步態(tài)各不相同。20世紀(jì)90年代,美國(guó)學(xué)者Niyogi[5]首次提出了步態(tài)識(shí)別的概念,為人類對(duì)步態(tài)的研究打開(kāi)了大門。采用了基于計(jì)算機(jī)視覺(jué)的步態(tài)識(shí)別方法,通過(guò)對(duì)時(shí)空?qǐng)D像的簡(jiǎn)單模式分析來(lái)評(píng)估參數(shù),從而實(shí)現(xiàn)簡(jiǎn)單跟蹤個(gè)體目標(biāo)。近些年,Darrell等[6]開(kāi)發(fā)了一種動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法結(jié)合基于范例的方法,該方法可以使用多項(xiàng)式計(jì)算解決兩個(gè)非線性序列與變化的最佳匹配。Efros等[7]提出了基于視覺(jué)的動(dòng)作識(shí)別,使用k-最近鄰方法使用時(shí)空運(yùn)動(dòng)描述符對(duì)序列進(jìn)行分類。Yamato等[8]在最近的研究工作中,將順序方法中的狀態(tài)模型應(yīng)用于更有效的深度學(xué)習(xí)模型中。Montes等[9]展示了使用CNN進(jìn)行空間特征提取的應(yīng)用,該方法能夠應(yīng)用于當(dāng)今的高分辨率輸入視頻。
視頻中步態(tài)識(shí)別是一門分析處理目標(biāo)人物行走的圖像序列的技術(shù),一般分為視頻圖像預(yù)處理、步態(tài)特征提取和步態(tài)分類識(shí)別3個(gè)階段。視頻圖像預(yù)處理階段實(shí)現(xiàn)視頻中目標(biāo)人物檢測(cè)與提取,傳統(tǒng)方法有光流法、背景減除法和幀差法,現(xiàn)在也有利用神經(jīng)網(wǎng)絡(luò)的方法來(lái)進(jìn)行處理[10],目前大多數(shù)步態(tài)數(shù)據(jù)庫(kù)已經(jīng)完成該階段的工作。對(duì)不同個(gè)體實(shí)現(xiàn)步態(tài)特征提取是步態(tài)識(shí)別技術(shù)的關(guān)鍵,直接影響步態(tài)識(shí)別正確率。步態(tài)特征可分為基于模型的特征和基于非模型的特征?;谀P偷奶卣魇抢萌梭w建模的方式賦予計(jì)算機(jī)人體結(jié)構(gòu)的概念,較基于非模型的算法復(fù)雜,但精度高,抗干擾強(qiáng)。通過(guò)步態(tài)分類識(shí)別可實(shí)現(xiàn)利用提取到的步態(tài)特征對(duì)視頻中人物進(jìn)行分類識(shí)別的目的,傳統(tǒng)算法有決策樹(shù)分類器、支持向量機(jī)、BP神經(jīng)網(wǎng)絡(luò)等,而如今利用深度學(xué)習(xí)算法進(jìn)行步態(tài)識(shí)別已成為主流。
CNN被認(rèn)為適用于圖像分類,也一直被用于步態(tài)識(shí)別中[5-6]。步態(tài)能量圖(Gait Energy Image, GEI)中既包含靜態(tài)圖形特征,也包含時(shí)間相關(guān)的人體運(yùn)動(dòng)細(xì)節(jié)特征,常常作為步態(tài)特征輸入。CNN進(jìn)行GEI分類時(shí)未考慮到時(shí)間關(guān)聯(lián),而LSTM內(nèi)部的循環(huán)結(jié)構(gòu)決定了其進(jìn)行分類時(shí)考慮到時(shí)間相關(guān)性。實(shí)驗(yàn)基于OU-ISIR Treadmill dataset B數(shù)據(jù)庫(kù)[11]提取GEI作為步態(tài)特征,設(shè)計(jì)基于LSTM的分類模型進(jìn)行步態(tài)識(shí)別,取得了從識(shí)別率和神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間兩個(gè)方面都優(yōu)于CNN的識(shí)別效果。
提取步態(tài)特征前,需要先對(duì)監(jiān)控視頻圖像序列進(jìn)行預(yù)處理操作,得到只含行人前景的二值圖像。由于實(shí)驗(yàn)基于OU-ISIR Treadmill dataset B數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)提供經(jīng)預(yù)處理后的步態(tài)二值圖像,因此不涉及預(yù)處理過(guò)程。
選取GEI作為步態(tài)特征。GEI采用簡(jiǎn)單的加權(quán)平均方法將一個(gè)周期的步態(tài)二值圖像合成為一幅圖像,在減少數(shù)據(jù)量的同時(shí)保留了步態(tài)的輪廓、頻率和相位等顯著特征作為步態(tài)識(shí)別常用的特征[12]。由于GEI的計(jì)算是在一個(gè)單獨(dú)的步態(tài)周期內(nèi)進(jìn)行,所以接下來(lái)從步態(tài)周期的分割和GEI的計(jì)算兩個(gè)方面分別進(jìn)行闡述。
1.1.1 步態(tài)周期分割
圖1 步態(tài)周期分割依據(jù)圖
步態(tài)周期的分割常常以人體輪廓長(zhǎng)寬比、人體頭頂或人體質(zhì)心高度等的周期性變化作為依據(jù)。本文利用與鏡頭成90°行走過(guò)程中,人體步長(zhǎng)/身高的周期性變化來(lái)進(jìn)行步態(tài)周期的分割。
如圖1所示,人體步長(zhǎng)/身高隨時(shí)間序列呈現(xiàn)周期性變化,并以此作為步態(tài)周期的分割依據(jù)。峰值點(diǎn)代表步長(zhǎng)最大階段,低谷點(diǎn)代表左右腳近乎重合階段。根據(jù)步態(tài)周期的概念,可以將連續(xù)3個(gè)峰值點(diǎn)或低谷點(diǎn)之間的部分分割為一個(gè)步態(tài)周期。
1.1.2 步態(tài)能量圖的計(jì)算
分割出一個(gè)步態(tài)周期,假設(shè)其內(nèi)含有N張步態(tài)二值圖像,如圖2所示。t代表周期圖像序列數(shù),Bt(x,y)代表圖像序列數(shù)為t時(shí)的步態(tài)二值圖像,該周期內(nèi)步態(tài)能量圖G(x,y)計(jì)算公式如公式(1),步態(tài)能量圖式樣如圖3所示。
(1)
圖2 一個(gè)周期內(nèi)步態(tài)序列
圖3 步態(tài)能量圖式樣
1.2.1 CNN,RNN和LSTM
卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)[13-14]是一類包含卷積或相關(guān)計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),適用于處理圖像識(shí)別問(wèn)題。卷積神經(jīng)網(wǎng)絡(luò)具有輸入層、隱含層、輸出層。輸入層可以直接處理多維數(shù)據(jù)(語(yǔ)音數(shù)據(jù)、灰度圖像、彩色圖像、視頻等),但其輸入特征需要進(jìn)行標(biāo)準(zhǔn)化處理。隱含層結(jié)構(gòu)如圖4所示,包含卷積層、池化層和全連接層。卷積層實(shí)現(xiàn)對(duì)輸入進(jìn)行特征提取,池化層實(shí)現(xiàn)特征選擇與信息過(guò)濾,全連接層實(shí)現(xiàn)特征的聯(lián)接,一個(gè)卷積層后面常常跟著一個(gè)池化層。輸出層常常需要根據(jù)不同的實(shí)際問(wèn)題,設(shè)計(jì)不同的輸出。
圖4 CNN隱含層結(jié)構(gòu)
循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),相對(duì)于一般神經(jīng)網(wǎng)絡(luò)加入了循環(huán)結(jié)構(gòu),引入了時(shí)間關(guān)系,是一類適用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)[15]。標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,其中包含在t時(shí)刻附近對(duì)RNN模型的整體性描述與按照時(shí)間序列展開(kāi)的描述。
圖5 標(biāo)準(zhǔn)循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
圖5中,x是輸入,h是隱層單元,o為隱層單元輸出,L為損失函數(shù),y為訓(xùn)練集的標(biāo)簽。U、V、W是權(quán)值,同一類型的權(quán)連接權(quán)值相同。
前向傳播中,最終輸出標(biāo)簽y與輸入x之間的關(guān)系,可由公式(2)~(4)得出:
h(t)=φ(Ux(t)+Wh(t-1)+b)
(2)
o(t)=Vh(t)+C
(3)
y(t)=σ(o(t))
(4)
公式(2)中φ為激活函數(shù),一般為tanh函數(shù),b為偏置量。公式(3)中C為偏置量。公式(4)中σ多為softmax函數(shù)。由公式(2)可見(jiàn),t時(shí)刻隱層單元h(t)既與t時(shí)刻的輸入x(t)相關(guān),又與上一隱層單元h(t-1)相關(guān),使得隱層單元輸出o和最終輸出標(biāo)簽y均與輸入x之間是時(shí)間相關(guān)的函數(shù)。
LSTM[16]是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN,也具有如圖5所示的重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)浇Y(jié)構(gòu),但是在重復(fù)模塊上相對(duì)于標(biāo)準(zhǔn)RNN有所改進(jìn)。在標(biāo)準(zhǔn)RNN 中,從隱層單元的輸入到輸出這個(gè)重復(fù)的模塊只有一個(gè)非常簡(jiǎn)單的結(jié)構(gòu),例如一個(gè) tanh層。而LSTM重復(fù)的模塊擁有一個(gè)不同的更加復(fù)雜的結(jié)構(gòu),如圖6所示。LSTM重復(fù)模塊中從輸入到輸出,包含輸入門、遺忘門和輸出門,來(lái)控制信息的選擇性通過(guò);加入不斷受輸入輸出影響的細(xì)胞狀態(tài),來(lái)保證每一個(gè)隱層單元的輸出甚至可以受到距此刻輸入很遠(yuǎn)的先前輸入的影響。
圖6 LSTM重復(fù)模塊結(jié)構(gòu)
整體而言,相對(duì)于標(biāo)準(zhǔn)RNN,LSTM引入3個(gè)門以及細(xì)胞狀態(tài)。標(biāo)準(zhǔn)RNN只有輸出在隨時(shí)間流動(dòng),某時(shí)刻的輸出與上一時(shí)刻的輸出相關(guān),這代表著短期記憶。而LSTM除了輸出在隨時(shí)間流動(dòng),細(xì)胞狀態(tài)c也在隨時(shí)間流動(dòng),細(xì)胞狀態(tài)c就代表著長(zhǎng)期記憶。所以LSTM改善了標(biāo)準(zhǔn)RNN記憶時(shí)間短的缺點(diǎn),更適用于處理長(zhǎng)期記憶、遠(yuǎn)距離依賴的問(wèn)題。
1.2.2 基于LSTM的步態(tài)識(shí)別模型
實(shí)驗(yàn)構(gòu)建基于LSTM的步態(tài)識(shí)別模型如圖7所示,輸入為GEI,經(jīng)過(guò)LSTM層和輸出處理層之后,最終直接得到與該步態(tài)特征相似度最高的行人編號(hào)結(jié)果。由于在該行走方向下,步態(tài)能量圖各縱列像素值實(shí)際具有時(shí)間序列聯(lián)系。所以如輸入層所示,將GEI上各縱列像素值按照排列順序作為時(shí)間序列輸入,經(jīng)LSTM處理后輸出提取到的與輸入序列等長(zhǎng)的特征序列,經(jīng)全連接層處理后與輸入序列等長(zhǎng)的特征序列變?yōu)榕c輸出類別數(shù)等長(zhǎng)的特征序列,經(jīng)激勵(lì)函數(shù)softmax層處理后得到各個(gè)類別相似度概率的概率序列,最后連接分類層直接輸出GEI最終的分類類別結(jié)果。該模型實(shí)現(xiàn)從輸入GEI到輸出分類類別的全過(guò)程,達(dá)到步態(tài)識(shí)別的目的。
圖7 基于LSTM的步態(tài)識(shí)別模型
本文實(shí)驗(yàn)環(huán)境是MATLAB 2018a,采用數(shù)據(jù)來(lái)自于日本大阪大學(xué)OU-ISIR Treadmill dataset B步態(tài)數(shù)據(jù)庫(kù)。從數(shù)據(jù)庫(kù)中隨機(jī)選取25名實(shí)驗(yàn)對(duì)象,在與攝像頭成90°視角條件下,總共包含32種服裝組合的視頻,作為實(shí)驗(yàn)所需步態(tài)視頻數(shù)據(jù),圖像大小為128×88。提取步態(tài)序列的步態(tài)能量圖作為步態(tài)特征。每名實(shí)驗(yàn)對(duì)象選取24段步態(tài)視頻,每段步態(tài)視頻中根據(jù)步態(tài)周期提取5幅步態(tài)能量圖,即每名實(shí)驗(yàn)對(duì)象具有120幅步態(tài)能量圖。對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行亂序之后,將其中4/5作為訓(xùn)練集,1/5作為測(cè)試集,分別放入設(shè)計(jì)好的CNN網(wǎng)絡(luò)和LSTM模型中進(jìn)行分類。
CNN隱含層采用如圖4所示的結(jié)構(gòu),初始學(xué)習(xí)率(initialLearnRate)設(shè)為1×10-4,卷積核大小(filterSize)設(shè)置為5, 卷積核個(gè)數(shù)(numFilters)設(shè)置為20,最大池化層的卷積核大小設(shè)置為2,步幅設(shè)置為2,根據(jù)實(shí)際分類類別數(shù)設(shè)置合適的最大迭代次數(shù)(maxepochs)。LSTM模型中LSTM隱含層數(shù)量(numHiddenUnits)設(shè)置為100,小批量處理尺寸(miniBatchSize)設(shè)置為27,根據(jù)實(shí)際分類類別數(shù)設(shè)置合適的最大迭代次數(shù)。
分類結(jié)果分別從分類正確率和神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)間兩個(gè)方面進(jìn)行比較研究。多次實(shí)驗(yàn)后,CNN與LSTM步態(tài)識(shí)別正確率對(duì)比圖如圖8所示,CNN與LSTM步態(tài)識(shí)別訓(xùn)練時(shí)間對(duì)比圖如圖9所示。
圖8 CNN與LSTM步態(tài)識(shí)別正確率對(duì)比圖
圖9 CNN與LSTM步態(tài)識(shí)別訓(xùn)練時(shí)間對(duì)比圖
分析圖8可知,在現(xiàn)有實(shí)驗(yàn)規(guī)模下, LSTM進(jìn)行步態(tài)能量圖作為步態(tài)特征的步態(tài)識(shí)別分類時(shí),正確率都高于CNN,且受分類人數(shù)變化的影響也相對(duì)較小,準(zhǔn)確率相對(duì)穩(wěn)定。分析圖9可知,LSTM進(jìn)行步態(tài)能量圖作為步態(tài)特征的步態(tài)識(shí)別分類時(shí),網(wǎng)絡(luò)訓(xùn)練時(shí)間都低于CNN,即神經(jīng)網(wǎng)絡(luò)訓(xùn)練相對(duì)較快,且訓(xùn)練時(shí)間長(zhǎng)短較CNN穩(wěn)定。綜合兩圖結(jié)果可知,LSTM相對(duì)于傳統(tǒng)CNN用于步態(tài)識(shí)別能夠?qū)崿F(xiàn)更快更準(zhǔn)確地分類。
本文將LSTM用于步態(tài)識(shí)別領(lǐng)域,通過(guò)在OU-ISIR Treadmill dataset B數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),取得了良好地實(shí)驗(yàn)結(jié)果。并同時(shí)與CNN進(jìn)行對(duì)比,從識(shí)別正確率和網(wǎng)絡(luò)訓(xùn)練時(shí)間兩個(gè)方面,驗(yàn)證了LSTM應(yīng)用于步態(tài)識(shí)別具有良好的前景。由于實(shí)際場(chǎng)景的復(fù)雜性導(dǎo)致行人前景提取相對(duì)困難,現(xiàn)實(shí)監(jiān)控?cái)z像頭與行人相對(duì)位置時(shí)刻發(fā)生變化,視頻相對(duì)于圖片數(shù)據(jù)量更大等缺點(diǎn),步態(tài)識(shí)別技術(shù)目前難以直接應(yīng)用于公安實(shí)踐。但是,由于在犯罪嫌疑人進(jìn)行面部遮擋、偽裝及夜間復(fù)雜光線下行動(dòng)時(shí),人臉識(shí)別技術(shù)應(yīng)用的受限性恰好可以被步態(tài)識(shí)別技術(shù)所補(bǔ)充,所以對(duì)步態(tài)識(shí)別技術(shù)的研究具有重大意義。未來(lái)的研究重點(diǎn)是在實(shí)際監(jiān)控視頻下,如何將改進(jìn)的LSTM與多視角步態(tài)識(shí)別相結(jié)合,得到能取得良好結(jié)果的步態(tài)識(shí)別模型,并使之盡可能接近應(yīng)用于公安實(shí)踐。