李 珊, 孫 鵬,2, 樊 舒, 魏丹妮
(1.中國刑事警察學(xué)院聲像資料檢驗(yàn)技術(shù)系, 遼寧沈陽 110854; 2.江西省經(jīng)濟(jì)犯罪偵查與防控技術(shù)協(xié)同創(chuàng)新中心, 江西南昌 330103; 3.沈陽市公安局于洪分局視頻偵查大隊(duì), 遼寧沈陽 110141)
隨著監(jiān)控設(shè)備在我國的普及,視頻偵查技術(shù)廣泛應(yīng)用于公共安全領(lǐng)域。視頻偵查技術(shù)中用到最多的是對監(jiān)控視頻中的犯罪嫌疑人進(jìn)行身份識(shí)別和確認(rèn),而這項(xiàng)任務(wù)目前都是靠偵查人員人為觀察,受偵查人員主觀意識(shí)影響大,易漏判誤判,工作量大,破案效率低。所以,對監(jiān)控視頻中身份識(shí)別的研究變得愈發(fā)重要。人臉識(shí)別技術(shù)目前已經(jīng)被用到公安視頻偵查工作中進(jìn)行輔助偵查,在一定程度上降低了刑偵人員的工作量。但是人臉識(shí)別技術(shù)在實(shí)際應(yīng)用中,其識(shí)別率受到視頻監(jiān)控距離、視頻監(jiān)控分辨率、視頻光線條件以及嫌疑人面部偽裝等的影響,具有很大局限性。特別是嫌疑人面部遮擋等特殊情況下,人臉識(shí)別技術(shù)幾乎不能實(shí)現(xiàn)輔助偵查作用。此時(shí),步態(tài)識(shí)別以其遠(yuǎn)距離非接觸識(shí)別、對監(jiān)控設(shè)備要求低、數(shù)據(jù)易采集、受光線的影響較小、嫌疑人長時(shí)間偽裝困難等優(yōu)點(diǎn),被認(rèn)為在監(jiān)控視頻中人物身份識(shí)別領(lǐng)域具有廣闊應(yīng)用前景[1]。在視頻偵查技術(shù)領(lǐng)域,具體可應(yīng)用于協(xié)助公安部門對犯罪嫌疑人進(jìn)行身份認(rèn)證、保密或公共場所識(shí)別人員身份、敏感場所遠(yuǎn)距離實(shí)時(shí)監(jiān)控識(shí)別、重點(diǎn)嫌疑對象的遠(yuǎn)距離監(jiān)控等方面[2]。
步態(tài)識(shí)別技術(shù)是一門關(guān)于分析處理人行走的圖像序列的技術(shù)[3],一般可以分為視頻圖像預(yù)處理、步態(tài)特征提取和步態(tài)分類識(shí)別3個(gè)階段。視頻圖像預(yù)處理階段主要目的是從采集到的視頻序列中提取出包含步態(tài)信息的人體二值輪廓圖,其步驟主要有背景建模、目標(biāo)檢測和形態(tài)學(xué)處理,其主要方法有光流法、背景減除法和幀差法,現(xiàn)在也有利用神經(jīng)網(wǎng)絡(luò)的方法來進(jìn)行預(yù)處理[4]。特征提取階段是步態(tài)識(shí)別技術(shù)的關(guān)鍵階段,目前主要提取的特征按照是否以人體作為模型可分為基于模型的方法和非基于模型的方法、按照動(dòng)靜特征可分為體現(xiàn)動(dòng)作過程的動(dòng)態(tài)特征和主要體現(xiàn)形態(tài)特征的靜態(tài)特征、按照提取特征數(shù)據(jù)的方式可分為視頻流數(shù)據(jù)、傳感器數(shù)據(jù)以及標(biāo)記點(diǎn)數(shù)據(jù)等。識(shí)別算法上,目前主要運(yùn)用的有決策樹分類器、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)分類等算法,當(dāng)然步態(tài)識(shí)別系統(tǒng)的展示情況多種多樣,依照實(shí)際研究目的而定。
本文在進(jìn)行大量的文獻(xiàn)調(diào)研和實(shí)驗(yàn)驗(yàn)證的基礎(chǔ)上,提出了一種新的較為簡單的視頻中步態(tài)識(shí)別方法,即基于人體關(guān)鍵點(diǎn)的步態(tài)識(shí)別。將視頻中頭頂- 質(zhì)心距離、足右- 質(zhì)心距離、足左- 質(zhì)心距離分別與人體高度的比值以及人體形態(tài)長寬比作為特征,利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。
常用的視頻中步態(tài)分割的方法有幀差法、背景減除法和光流法,其性能對比如表1所示。
表1 步態(tài)分割方法對比
目前,常用的步態(tài)數(shù)據(jù)庫有CMU Mobo數(shù)據(jù)庫、USF數(shù)據(jù)庫、CASIA數(shù)據(jù)庫以及日本大阪大學(xué)的 ISIR數(shù)據(jù)庫[5]。選擇采用中科院自動(dòng)化研究所CASIA DatasetB中的視頻圖像作為原始數(shù)據(jù),如圖1所示,視頻圖像采集的幀頻是20幀/秒,其中包含124名實(shí)驗(yàn)對象,每名實(shí)驗(yàn)對象在11個(gè)視角下行走,每個(gè)視角下錄有10段視頻(其中6段正常錄制,2段穿大衣錄制,2段背包錄制)。從中隨機(jī)選擇20名實(shí)驗(yàn)對象在與鏡頭視角為90°下的10段不同狀態(tài)下的步態(tài)視頻圖像序列作為實(shí)驗(yàn)的步態(tài)數(shù)據(jù),省去了圖像預(yù)處理階段的基本圖像處理操作。
圖1 CASIA DatasetB步態(tài)圖像
步態(tài)特征提取是步態(tài)識(shí)別的關(guān)鍵性步驟,直接影響最后的分類識(shí)別正確率的高低。所以,目前國內(nèi)外很多研究是在原有步態(tài)特征上進(jìn)行改進(jìn)或者提取出新的步態(tài)特征,來實(shí)現(xiàn)對步態(tài)識(shí)別系統(tǒng)的改進(jìn)。
1.2.1 單幀圖像中嫌疑人步態(tài)特征f提取
本文提取的單幀圖像中嫌疑人步態(tài)特征f是被檢測人質(zhì)心- 頭頂距離與被檢測人身高比a、質(zhì)心- 足右距離與被檢測人身高比b、質(zhì)心- 足左距離與被檢測人身高比c,人體形態(tài)長寬比d,即f=[a,b,c,d]。特征f在單幀圖像中的具體顯示如圖2所示。
圖2 圖像步態(tài)特征
(x,y)表示圖像中人體像素點(diǎn)的坐標(biāo),質(zhì)心點(diǎn)坐標(biāo)為(Xo,Yo),頭頂點(diǎn)坐標(biāo)為(Xh,Yh),足左關(guān)鍵點(diǎn)坐標(biāo)為(XL,YL),足右關(guān)鍵點(diǎn)坐標(biāo)為(Xr,Yr),設(shè)人體所占像素點(diǎn)總數(shù)為N。
① 質(zhì)心點(diǎn)的計(jì)算
質(zhì)心點(diǎn)的計(jì)算根據(jù)人體所占總像素點(diǎn)x方向的平均值和y方向的平均值來獲得,公式如下:
(1)
(2)
② 足左右關(guān)鍵點(diǎn)的計(jì)算
首先,根據(jù)人體結(jié)構(gòu)以及行走基本情況,將從下至上人體身高1/5部分定義為正常行走情況下,足部的活動(dòng)范圍。如圖3所示:
圖3 檢測足左、足右關(guān)鍵點(diǎn)的部分
將足部活動(dòng)范圍內(nèi)最左點(diǎn)和最右點(diǎn)分別作為足左、足右關(guān)鍵點(diǎn)。
③ 兩點(diǎn)間距離的計(jì)算
計(jì)算兩點(diǎn)間的距離公式,以計(jì)算質(zhì)心(Xo,Yo)到足右關(guān)鍵點(diǎn)(Xr,Yr)的距離dro為例,公式如下:
(3)
1.2.2 視頻中嫌疑人步態(tài)特征F提取
單幀圖像中嫌疑人步態(tài)特征屬于靜態(tài)特征,而步態(tài)特征需要反映在行走過程中的動(dòng)態(tài)特征,所以我們要提取的實(shí)際上是視頻序列的特征。通過對數(shù)據(jù)庫中圖像序列的評估以及對需要的數(shù)據(jù)量進(jìn)行評估之后,在CASIA Dataset B確定一段視頻中提取15張圖像序列作為特征提取的子視頻。所以對犯罪嫌疑人的步態(tài)特征提取如圖4所示:
圖4 視頻中嫌疑人步態(tài)特征提取
圖4中,將CASIA Dataset B中任一實(shí)驗(yàn)對象當(dāng)作犯罪嫌疑人,每名實(shí)驗(yàn)對象有10段步態(tài)視頻,每段步態(tài)視頻分成40段子視頻,每段步態(tài)子視頻包含15幀步態(tài)圖像,每幀提取f=[a,b,c,d],最后子視頻步態(tài)特征F用F=[f1,f2,…f15]共包含60個(gè)數(shù)據(jù)的一維向量表示。
目前,在步態(tài)識(shí)別方面還沒有統(tǒng)一的計(jì)算匹配度,即識(shí)別率的標(biāo)準(zhǔn)。在步態(tài)識(shí)別分類階段,常用到的分類方法有最近鄰分類器法、決策樹算法、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。步態(tài)識(shí)別中,步態(tài)特征的提取是關(guān)鍵,這將直接影響到后續(xù)識(shí)別率的高低,實(shí)際上分類器的選取影響是遠(yuǎn)小于步態(tài)特征選取的影響。但是,選擇合適的分類器,設(shè)置合適的分類器參數(shù)對識(shí)別率的高低也是有一定影響的。本研究選取的分類識(shí)別方法是BP神經(jīng)網(wǎng)絡(luò)方法。
1.3.1 BP神經(jīng)網(wǎng)絡(luò)
BP(back propagation)神經(jīng)網(wǎng)絡(luò)是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò)。它通過信號(hào)的前向傳播和誤差的反向傳播,不斷調(diào)節(jié)相應(yīng)層之間的權(quán)重和偏置,最終達(dá)到良好的分類效果。
1.3.2 BP神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置
設(shè)置BP神經(jīng)網(wǎng)絡(luò)含有1個(gè)隱含層,該隱含層節(jié)點(diǎn)數(shù)為20。設(shè)置第i層的傳遞函數(shù)為tansig函數(shù);訓(xùn)練函數(shù)為trainlm函數(shù);權(quán)值/閾值學(xué)習(xí)函數(shù)為learngdm函數(shù);性能函數(shù)為mse函數(shù)。由于BP神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置沒有相應(yīng)的理論指導(dǎo),而本研究實(shí)驗(yàn)的分類類別數(shù)從2到20類不等,所以為了得到較好的分類結(jié)果,每次分類適當(dāng)?shù)貙W(xué)習(xí)率、訓(xùn)練次數(shù)、訓(xùn)練誤差、允許的失敗次數(shù)等相應(yīng)參數(shù)進(jìn)行調(diào)整,以求達(dá)到比較好的分類效果。
本研究實(shí)驗(yàn)環(huán)境是MATLAB 2016a,采用數(shù)據(jù)來自于中科院步態(tài)數(shù)據(jù)庫CASIA中的Dataset B。從數(shù)據(jù)庫中隨機(jī)選取20名實(shí)驗(yàn)對象,在與攝像頭成90°視角條件下,每名實(shí)驗(yàn)對象包含10段不同狀態(tài)下的視頻,每段視頻時(shí)間在30~60 s之間,作為實(shí)驗(yàn)所需步態(tài)視頻數(shù)據(jù)。用一個(gè)1*60的簡單向量F來表示一段視頻的步態(tài)特征,大大簡化了圖片輪廓信息的提取。每名實(shí)驗(yàn)對象有400個(gè)1*60的特征向量,需指出這里面包含了該實(shí)驗(yàn)對象正常行走、背包行走和穿大衣行走3種狀態(tài),將特征向量亂序,然后抽取100個(gè)向量作為測試集,其他全作為訓(xùn)練集輸入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。從分2類開始,不斷增加分類數(shù)至20類,根據(jù)分類類別數(shù)的變化不斷調(diào)整BP神經(jīng)網(wǎng)絡(luò)的參數(shù)設(shè)置,以求得到比較高的識(shí)別率。
圖5 特征隨時(shí)間變化趨勢
從數(shù)據(jù)庫中隨機(jī)選取2名實(shí)驗(yàn)對象,將其中一名實(shí)驗(yàn)對象4種步態(tài)特征繪制隨時(shí)間變化的曲線,如圖5所示,可以看出這些特征隨時(shí)間變化具有一定的周期性,其中長寬比d這一特征變化最為平緩,對步態(tài)周期的分割具有一定的參考意義。對同一實(shí)驗(yàn)對象在正常行走、背包行走、穿大衣行走視頻中的特征進(jìn)行曲線繪制,如圖6所示,可以看出同一實(shí)驗(yàn)對象的特征的變化,不會(huì)隨著人物外在打扮的變化而有較大的差別,說明選取的特征具有一定的魯棒性,受監(jiān)控視頻中實(shí)驗(yàn)對象的不同外在狀態(tài)影響較?。粚?名不同實(shí)驗(yàn)對象的特征進(jìn)行對比曲線繪制,如圖7所示,可以看出不同實(shí)驗(yàn)對象在特征隨時(shí)間的變化曲線上面的數(shù)值大小以及變化抖動(dòng)趨勢上具有較大的差異,所以證明選取的特征具有區(qū)分不同人行走步態(tài)的區(qū)分能力。
從2~20名實(shí)驗(yàn)對象分別進(jìn)行分類識(shí)別,結(jié)果如表2所示,識(shí)別結(jié)果證明,此次步態(tài)識(shí)別系統(tǒng)的設(shè)計(jì)達(dá)到了一定的識(shí)別率,成功實(shí)現(xiàn)了通過監(jiān)控視頻中的步態(tài)對人物進(jìn)行識(shí)別。
圖6 同一實(shí)驗(yàn)對象不同狀態(tài)下特征對比
圖7 不同實(shí)驗(yàn)對象背包狀態(tài)下特征對比
表2 分類識(shí)別結(jié)果
在視頻監(jiān)控偵查方面,相對于人臉識(shí)別系統(tǒng)的不足,利用步態(tài)進(jìn)行身份識(shí)別是一種很有應(yīng)用前景的方法,對于當(dāng)前公安實(shí)踐工作很有意義。本文提出了一種基于特征點(diǎn)間距離比值作為步態(tài)特征的步態(tài)識(shí)別方法,取得了較好的步態(tài)識(shí)別效果。但是此步態(tài)識(shí)別方法在公安視頻偵查應(yīng)用中仍然存在很多局限之處,在本文的基礎(chǔ)上,還可以朝著多視角步態(tài)融合,引入深度學(xué)習(xí)方法進(jìn)行步態(tài)特征的提取與分類,嘗試將步態(tài)識(shí)別方法與其他身份識(shí)別方法相結(jié)合,通過多數(shù)據(jù)融合,以達(dá)到更高的準(zhǔn)確率與識(shí)別率。