戰(zhàn)蔭偉,張 昊
(廣東工業(yè)大學(xué) 計算機學(xué)院,廣東 廣州510006)
人體行為分析一直是計算機視覺領(lǐng)域的一個研究熱點,在人機交互、視頻監(jiān)控、視頻檢索及智能家居等方面有著重要的應(yīng)用。此前,人體行為分析主要是在二維彩色圖像視頻數(shù)據(jù)的基礎(chǔ)上進行研究,通過視頻序列提取行為描述的特征信息,用行為識別算法對行為特征分類和理解,以達到識別行為的目的。
關(guān)于人體行為識別已有大量的研究工作。普遍方法是對視頻中的興趣點使用時空特征進行建模,如局部時空興趣點STIP[1],還有梯度特征如HOG[2]。但是,單純使用點特征或者梯度特征都不甚理想。另一類方法是統(tǒng)計模式識別,如典型的隱馬爾可夫模型(HMM)、條件隨機場(CRF)模型。HMM 是生成式模型,即先建立樣本的概率密度模型,再利用模型進行推理預(yù)測。CRF 模型屬于判別式模型,其思想是在有限條件下建立判別函數(shù),直接研究預(yù)測模型。Brand M 等人[3]利用Coupled HMMs 識別雙手活動。Weinland D 等人[4]用HMM 結(jié)合三維網(wǎng)格對人體動作建模。Martine F 等人[5]利用HMMs 和動作模版識別人體活動。與HMM 生成模型類似,Lan T 等人[6]借助人與人之間的交互分析使用一種判別模型。Sminchisescu C 等人[7]應(yīng)用CRF 對人體行為(如走、跳等)進行分類,相比HMM 方法有所提高。Kumar S 等人[8]應(yīng)用CRF 模型完成圖像區(qū)域標(biāo)記工作。Torralba A 等人[9]引入Boosted Random Fields,模型組合了全局和局部圖像信息進行上下文目標(biāo)識別。
以上算法雖然能達到較好的性能,但因光照變化、物體遮擋及環(huán)境變化等因素的干擾,識別精度會大幅度降低。為此,本文嘗試通過引入Kinect 紅外傳感器,其可同時獲取彩色圖像和深度圖像,深度圖像中像素值僅與Kinect 到物體表面距離有關(guān)。深度圖像具有顏色無關(guān)性,不受陰影、光照、色度變化等因素的影響;其次,根據(jù)距離很容易將前景與背景分開,這也解決利用RGB 圖像進行識別時難以將人體分割出來的困難。LuX等人[10]利用Canny算子對深度圖像進行邊緣提取,通過計算距離變換,利用模型匹配,計算出頭部位置并根據(jù)經(jīng)驗比例定位整個人體,進而達到檢測與跟蹤的目的。Abhishek K[11]通過距離變換與模型匹配方法,對頭部定位選擇Haar 特征級聯(lián)的分類模型。Shotton J 等人[12]用像素差分法提特征,分類器用了隨機森林算法,訓(xùn)練樣本采用合成的人體深度圖像,對人體各部位進行識別。
本文首先通過閾值分割方法對Kinect 獲取的深度圖處理,提取前景人物,然后提取深度圖像上的局部梯度特征,作為條件隨機場模型的輸入變量,進行模型訓(xùn)練,設(shè)計實驗對算法的有效性進行驗證。
采用Kinect 傳感器進行圖像采集,結(jié)構(gòu)圖如圖1 所示,深度采集范圍為0.8~4 m,輸出RGB 圖像幀率為30,深度圖分辨率為640×480。算法能夠在幀率為30 的圖像采集速度下實現(xiàn)實時處理。
圖1 Kinect 傳感器Fig 1 Kinect sensor
利用深度圖檢測人體與Kinect 之間的距離,得到人體在三維空間中的坐標(biāo)值,從而確定人體空間區(qū)域的初始位置,再由Kinect 獲取的深度圖計算出人體目標(biāo)的深度直方圖,由深度直方圖選取閾值去除背景和圖像噪聲,閾值的選取與人體要有一定距離才能完整提取人體目標(biāo)信息。圖2和圖3 分別為獲得的RGB 圖和Depth 圖。對深度圖的定量分析采用方向梯度直方圖(HOG)方法。設(shè)深度圖為I,像素為x,dI(x)是x 點處的深度值。設(shè)集合D 為方向集
圖2 彩色圖Fig 2 RGB image
圖3 深度圖Fig 3 Depth image
Kd=(k1,k2)代表以x 為起點沿d 方向的偏移向量,滿足
任取2 個偏移向量,組成向量對θ=(kU,kV),共有28 對,對每個θ 局域梯度特征計算如下
fθ(I,x)反映了像素x 周圍的梯度信息,具有空間不變性,當(dāng)人體在場景中自由移動時,其表面上的點特征數(shù)值是不變的。圖4 為像素點八鄰域的空間關(guān)系圖,中心像素指向周圍8 個像素,形成8 個方向,用公式(1)計算每個像素28 個向量對的局部梯度值fθ(I,x)。
圖4 特征提取圖Fig 4 Feature extraction image
CRF 模型是概率圖模型中的一種無向圖模型,它是在給定需要標(biāo)記的觀察序列的條件下,計算整個標(biāo)記序列的聯(lián)合概率分布。假設(shè)G=(V,E)表示一個無向圖,隨機變量Y=(yv)v∈V,Y 中元素與無向圖G 的頂點一一對應(yīng)。如果G為一階鏈?zhǔn)浇Y(jié)構(gòu),有G{V={1,2,…,n},E={(i,i+1)},對應(yīng)人體行為識別問題可抽象為線性鏈條件隨機場模型,對一段n 幀圖像行為視頻,可抽象為觀察序列X=(x1,x2,…,xn),行為標(biāo)記序列為Y=(y1,y2,…,yn),如圖5 所示。
圖5 線性鏈CRF 結(jié)構(gòu)圖Fig 5 Linear linked CRF structure graph
其對應(yīng)的行為標(biāo)記為Y=(y1,y2,…,yn)的概率為
式中 Z(X)為相對于每個觀察序列X 的歸一化因子;fi(yt-1,yt,X,t)為二值表征函數(shù),對狀態(tài)轉(zhuǎn)移yt-1→yt,衡量觀察序列X 中第t 個位置是特征。用最大似然估計法計算λ,求其對數(shù)似然函數(shù)的一階導(dǎo)數(shù)得到
由于目前還沒有基于Kinect 的標(biāo)準(zhǔn)數(shù)據(jù)庫做基準(zhǔn)數(shù)據(jù),因此,自制了行為數(shù)據(jù)庫。因為Kinect 視角場的范圍限制,該視頻是在室內(nèi)場景錄制的,數(shù)據(jù)庫包含5 名實驗人員分別錄制一個動作。動作被分類為:“stand”,“sit”,“walk”,“jump”,“bend”這幾種常見行為??偣蹭浿? 000 張左右的樣本圖片作為訓(xùn)練樣本。訓(xùn)練前,每段視頻進行特征數(shù)據(jù)提取,每10 個連續(xù)幀作為一個數(shù)據(jù)序列,隨機抽取3000 張訓(xùn)練;剩下2000 張用于測試 經(jīng)過多次實驗后,用平均識別準(zhǔn)確率度量算法性能表1 給出了行為識別模型的識別結(jié)果。其中列表示實際行為,行表示推斷的結(jié)果,表中計算數(shù)據(jù)表示平均識別率。
表1 實驗結(jié)果Tab 1 Experimental result
用本文的方法再對當(dāng)前流行的行為數(shù)據(jù)庫Weizzman和KTH 分別計算,得到的結(jié)果與本實驗結(jié)果做實驗對比,見表2。由表2 看出:使用Kinect 錄制的數(shù)據(jù)庫與其他數(shù)據(jù)庫相比是可靠的,實驗環(huán)境是在室內(nèi),但拍攝背景要比其他數(shù)據(jù)庫復(fù)雜,所得的平均識別率也相對較高。
表2 條件隨機場模型在不同行為數(shù)據(jù)庫下的識別結(jié)果Tab 2 Recognition result of CRF in different behavior database
文獻[13]采用HMM 對Kinect 的行為視頻數(shù)據(jù)進行分析,與文獻[13]的實驗結(jié)果做對比,表3 給出了HMM 和CRF 模型下的平均識別率,對比實驗結(jié)果表明:對序列數(shù)據(jù)的分類問題,CRF 模型優(yōu)于HMM。
表3 實驗結(jié)果對比Fig 3 Comparison of experimental result
本文分析了人體行為在時間上的運動序列性質(zhì),在深度圖像上使用局部方向梯度描述行為特征,建立了人體行為識別的條件隨機場模型,在自制Kinect 視頻數(shù)據(jù)庫上對幾個簡單動作識別,與Weizzman 和KTH 視頻庫相比,自制的數(shù)據(jù)庫背景更加復(fù)雜,實驗對比結(jié)果表明了使用深度圖進行特征提取更容易處理復(fù)雜背景,也可達到同樣的處理效果,從而實現(xiàn)準(zhǔn)確的人體行為識別,具有一定的實用價值。
[1] Laptev.On space-time interest points[J].International Journal of Computer Vision,2005,64(2/3):107-123.
[2] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]∥Proc of the IEEE Conf on CVPR,San Diego:IEEE Press,2005:886-893.
[3] Brand M,Oliver N,Pentland A.Coupled hidden Makov models for complex action recognition[C]∥Proc of the IEEE Conf on CVPR,San Juan:IEEE Press,1997:994-999.
[4] Weinland D,Boyer E,Ronfard R.Action recognition from arbitrary views using 3D exemplars[C]∥Proc of the 11th IEEE Int’l Conf on CV,Rio de Janeiro:IEEE Press,2007:1-7.
[5] Martine F,Orrite C,Herrero E,et al.Recognizing human actions using silhouette-based hmm[C]∥Proc of the 6th IEEE Int’l Conf on AVSS,Genova:IEEE Press,2009:43-48.
[6] Lan T,Wang Y,Yang W,et al.Beyond actions:Discriminative models for contextual group activities[C]∥Proc of Advances in Neural Information Processing Systems Conference,2010:23.
[7] Siminchisescu C,Kanaujia A,Metaxas D.Conditional models for contextual human motion recognition[C]∥Proc of the 10th IEEE Int’l Conf on CV,Beijing:IEEE Press,2005:210-220.
[8] Kumar S,Hebert M.Discriminative random fields:A discriminative framework for contextual interaction in classification[C]∥Proc of the 9th IEEE Int’l Conf on CV,Nice:IEEE Press,2003:1150-1157.
[9] Torralba A,Murphy K,F(xiàn)reeman W.Contextual models for object detection using boosted random fields[C]∥Proc of Advances in Neural Information Processing Systems Conference,2004:17.
[10]Lu X,Chen C,Aggarwal,et al.Human detection using depth information by Kinect[C]∥Proc of the IEEE Conf on CVPR,Colorado:IEEE Press,2011:15-22.
[11]Abhishek K.Skeletal tracking using microsoft Kinect[J].Methodology,2010,4(3):1-11.
[12]Shotton J,F(xiàn)itzgibbon A,Cook M,et.al.Real-time human pose recognition in parts from single depth images[C]∥Proc of the IEEE Conf on CVPR,Providence:IEEE Press,2011:129-1304.
[13]Zhao C Y,Zhang X L.Human behavior analysis system based on Kinect[J].JBICT,2012,3(12):189-195.