陶玲
摘要:為了克服單純使用局部時空興趣點(spatial-temporal interest point,STIP)的方法在對視頻序列中人體行為進行識別時提取的特征點太少,且其不能完整的表征圖像的特征,提出一種結(jié)合局部特征和全局特征的特征描述子PE-Cuboid,能有效的提高人體行為識別的正確率。對每一個視頻序列提取PE-Cuboid特征,利用像素變化概率圖(PCRM)和邊緣方向直方圖(EOH)捕捉全局運動信息,局部的Cuboid描述子對全局特征做進一步區(qū)分,對最終生成的PE-Cuboid特征進行K-means聚類形成視覺詞匯本(visual dictionary),將視覺詞匯本輸入到線性SVM分類器(linear Support Vector Machines,LSVM)中進行學(xué)習(xí)、訓(xùn)練、分類,最后采用打分的機制得到行為類別。該文算法在KTH、 Weizmann行為數(shù)據(jù)庫和我們自拍測試集中都做了測試,實驗結(jié)果顯示算法具有較高的識別率。
關(guān)鍵詞: 行為識別;時空興趣點;PE-Cuboid;支持向量機
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2014)06-1287-04
Human Action Recognition Algorithm Based on PE-Cuboid
TAO Ling
(School of Computer Science a nd Engineering, Wuhan Institute of Technology, Wuhan 430074,China)
Abstract: The methods of human action recognition using only local spatial-temporal interest points are normally lack of effective feature points to describe an action.This paper presents a feature descriptor PE-Cuboid combing local features and global features,this approach can highly improve the recognition rate of human action. To extract PE-Cuboid features of each video sequence, the global motion information is composed of pixel change ratio map(PCRM) and edge orientation histograms(EOH) while the local feature is represented as a collection of Cuboid descriptors. An action codebook is constructed by clustering the PE-Cuboid features using K-means method,then we use the visual dictionary as a input for a linear support vector machine(LSVM) to train a classifier,finally action recognition is achieved by scoring mechanism.We test our algorithm on the KTH human motion dataset,the Weizmann human action dataset and our own testing dataset,the results indicate our approach has a high recognition rates on those datasets.
Key words:action recognition, STIP, PE-Cuboid, SVM
對視頻序列中的人體行為識別通常分為兩個步驟:首先對視頻中的運動人體目標提取特征,用這些特征來表征人體運動信息,接著根據(jù)這些特征對行為進行識別。然而在實際研究中,由于光照變化、遮擋、復(fù)雜背景等環(huán)境因素的影響,如何在視頻中提取出有效的并能適應(yīng)于環(huán)境變化的特征對于行為識別顯得尤為重要[1]。
目前用于行為識別的特征描述方法大致可以分為全局特征和局部特征。全局特征一般是利用人體外形輪廓來完成識別。在文獻[2]中,Davis采用一種基于模板的描述行為的方法:運動能量圖(motion energy image-MEI)與運動歷史圖(motion history image-MHI)。MEI用來確定一段視頻序列中發(fā)生運動的區(qū)域,MHI則反映該區(qū)域中運動目標的運動劇烈程度,且根據(jù)時序信息,距離當(dāng)前時刻越遠其運動值越小。像素變化概率圖PCRM[3-4]與MHI相似,能夠大致估計出視頻序列中的運動區(qū)域,并且根據(jù)設(shè)定閾值,當(dāng)相鄰兩幀的差分圖像大于此閾值時,PCRM值隨之增大,那么運動目標的運動時間越長或者運動越劇烈,其PCRM值就會越大,在像素變化概率圖中顯示就會越亮。但是此方法的識別效果對閾值的設(shè)置有較大依賴,不好控制。
基于方向直方圖[5-7]的方法在近幾年行為識別研究中也十分熱門。在文獻[7]中,作者首次提出HOG算子,并將其應(yīng)用在行人檢測中,后來HOG也被應(yīng)用于行為識別作為特征描述算子[5-6]獲取圖像全局信息。HOG和邊緣方向直方圖 EOH[6]都是通過在空間域?qū)D像求導(dǎo)獲得梯度信息,只能用于捕捉空間特征。
時空特征(spatial-temporal features)[8]是一種局部特征表示法,由于局部特征其興趣點非常具有區(qū)分性及較強的描述性,且對噪聲、光照等不敏感,目前被廣泛應(yīng)用在行為識別中。興趣點的檢測算法在基于局部特征的方法中非常關(guān)鍵。最直接的探測時空興趣點的方法是擴展一個2維興趣點。Laptev等人將2維的Harris角點擴展到3維的時空興趣點(STIP),即同時在時間維和空間維探測興趣點,但是由于其在3維空間的假定限制條件過多,算法只能檢測到很少的興趣點,而且有很多運動類型可能不能很好的區(qū)分。Dollar[9]放棄了對空間的約束條件而只著重于對時間維的變化,這樣就可以探測到更多的興趣點,并提出了基于Cuboid的特征描述子,他在時間維應(yīng)用Gabor濾波器用來探測具有周期運動的成分,但是這種周期運動仍然不足已表示復(fù)雜的動作。
為了克服以上這些方法的不足,該文在基于文獻[9]和[10]的基礎(chǔ)上,考慮將全局特征和局部特征結(jié)合起來,全局部分采用PCRM和EOH結(jié)合的全局描述符,用來體現(xiàn)運動目標的整體運動狀態(tài)和運動目標的邊緣輪廓信息,對提取出來的有運動信息的區(qū)域利用Cuboid描述子做進一步區(qū)分,從而達到更精確的行為識別。融合而成的PE-Cuboid特征比單純的Cuboid能更多的表示多種運動形式,并且計算比Cuboid快。提取出特征之后,下一階段即對特征進行學(xué)習(xí)分類最終完成識別。對得到的PE-Cuboid特征通過K-means聚類得到視覺詞匯本(visual dictionary),計算每個視頻中的每個特征向量到每個聚類中心的距離,最后每個視頻會生成一個k維的直方圖,將生成的直方圖輸入到支持向量機(support vector machines-SVM)中,使用1VS1的策略將要分類的行為分開分類,有多少種行為就會生成多少種分類器,來一個測試樣本就跟這些分類器比,最后使用打分的機制,得分最大的就認為該視頻屬于哪一類。實驗顯示,該文算法能更高效的提高識別的準確率。
1 PE-Cuboid特征描述子
以往的行為識別研究中,大多是單純的使用全局特征或者局部特征來對行為進行描述,該文提出的對視頻中行為識別算法的主要思想是:采用全局和局部特征結(jié)合的方法融合成更能表征人體運動信息的特征描述子。通過PCRM和EOH得到目標的全局運動信息和邊緣輪廓信息后,在保存下來的運動區(qū)域矩形框內(nèi)應(yīng)用基于Cuboid[9]的局部時空特征。該文將此算法簡稱為PE-Cuboid算法。
由于對視頻中運動人體的行為進行識別需要大量的訓(xùn)練視頻,對目前已有的標準行為集中的每個視頻提取PE-Cuboid特征,得到訓(xùn)練視頻集特征向量,接著聚類這些特征向量形成詞匯本,對聚類中心求歐氏距離,形成直方圖,最后將直方圖輸入到分類器SVM中,得到視頻分類結(jié)果。識別時也采用同樣的特征提取方式,并利用打分機制做出最佳判決,得到識別結(jié)果。
本文提出的PE-Cuboid算法大致分為4個部分:1)逐個視頻提取特征向量;2)特征融合;3)訓(xùn)練分類;4)打分識別。
1.1 特征提取與特征融合
本文采用文獻[11]中對PCRM的處理方法,通過式(1)計算運動目標在橫軸和縱軸方向上的能量分布[Eix(m)]、[Eiy(n)],大致估計出視頻序列中運動目標的位置。
[Eix(m)=m=1MPCRM(m,n) ][Eiy(n)=n=1NPCRM(m,n)] (1)
然后通過式(2)將PCRM圖非均勻量化到8個量化空間,并歸一化直方圖。
[Fpcrmk=(x,y)∈parti(x,y)∈binkPCRM(x,y)] [Fpcrm=log(Fpcrmk+1k=13nlog(Fpcrmk(k)+1+ε] (2)
圖1是提取PCRM圖示例。PCRM能反映運動目標的全局運動信息以及視頻中運動目標的運動狀態(tài)和運動強度。
a) KTH數(shù)據(jù)庫走路行為視頻的一幀 b) 像素變化累積圖 c) 像素變化概率圖
圖1 提取PCRM圖步驟
另外,考慮到人眼在觀察事物時多數(shù)會根據(jù)事物的邊緣輪廓信息來進行判斷,該文在特征提取中引入邊緣方向直方圖(EOH)。根據(jù)梯度幅值和梯度方向,將[θ]量化為8個方向(0°、45°、90°、135°、180°、225°、279°、315°),統(tǒng)計各個區(qū)域?qū)?yīng)的幅值,最終得到邊緣方向直方圖。如式(3-4)。parti和bink分別為第i個圖像區(qū)域和第k個量化空間。
[Ei,k=(x,y)∈partiθ(x,y)∈binkG(x,y)] (3)
[EEOHi,k=Ei,k+εk=1nEi,k+ε] (4)
接著對視頻幀中提取出的矩形框應(yīng)用Gabor濾波器得到興趣點,以每一個興趣點(即以上所定義的響應(yīng)函數(shù)的最大值)為中心挖出一個小立方體Cuboid,將視頻序列由包含N個時空興趣點的Cuboid進行描述。在建立直方圖時,由于Cuboid數(shù)量太多,不直接使用Cuboid本身作為行為描述子,原因是盡管同一種行為由兩個人表演,他們的外觀和運動或許有很大程度的不同,但是他們形成的興趣點卻是類似的?;谶@種設(shè)想,即使事實上Cuboid的數(shù)量可能是無限的,但是不同類型的Cuboid的數(shù)量卻是相對小的。該文將每個Cuboid通過映射到一個與它最接近的原型向量來指定一個類型(Cuboid type),僅由立方體類型(Cuboid type)來完成識別,這樣有些像素點的Cuboid本身被丟棄,只保留它們的類型(Cuboid type),使用Cuboid type的直方圖作為行為描述子。行為描述子之間的距離通過計算卡方距離。
最后將PCRM、EOH和Cuboid結(jié)合的PE-Cuboid特征進行融合,既能反應(yīng)目標的全局運動信息,也能反應(yīng)局部運動細節(jié)信息。特征融合最基本的思想就是將所有由不同方法生成的特征向量連結(jié)起來形成一個更大的特征向量,將這個新的更大的特征向量作為分類器(如支持向量機,SVM)的輸入。在這里本文采用基于bag-of-features的技術(shù),給定3種不同的方法,分別生成不同的特征向量序列[{Hi|Hi={hij}(1≤j≤Ki)}],[1≤i≤N],[Ki]是每種特征向量的維數(shù),融合之后的特征向量為[Hfusion={hpcrm,heoh,hCuboid}]。
1.2 行為分類和識別
1.2.1 PE-Cuboid特征的矢量量化
得到視頻特征之后,采用對特征矢量量化的方法對特征描述子進行聚類得到視覺詞匯本(visual dictionary),再根據(jù)視覺詞匯本對視頻特征進行特征編碼。聚類也就是一個向量量化(Vector Quantization,VQ)的過程,目前應(yīng)用最廣泛的聚類算法是K-means。為了建立視覺詞匯本,對生成的所有PE-Cuboid描述子進行K-means聚類,將PE-Cuboid特征池中的特征向量分成[k]個簇Clusti(i=1,…,k),每個聚類中心Clusti即為視覺詞匯本(visual dictionary)中的一個視覺單詞(visual word),用這些詞來代表視頻集中的所有行為。每個PE-Cuboid特征都可以用詞匯本對其進行描述,將每個特征對應(yīng)到詞匯本的單詞Clusti中,正規(guī)化形成直方圖h,統(tǒng)計每個單詞Clusti出現(xiàn)的頻率 fi。該文采用文獻[9]中稍作改進的K-means算法,能快速加快聚類的速度。在編碼時,視覺詞匯本和編碼方式的選擇都會對最后的識別造成影響。
1.2.2打分決策識別結(jié)果
本文采用最大打分法來識別結(jié)果,讓分類器對測試視頻的特征向量進行打分,得分最高的標簽即為該視頻的最終標簽。使用這種方法有時會導(dǎo)致幾種類別得分相等的問題,基于此問題,該文采用隨機選擇其中一種類別作為最終的識別結(jié)果。
2 實驗結(jié)果與分析
為了驗證該算法的有效性和魯棒性,算法在兩個數(shù)據(jù)集上做了測試:KTH行為數(shù)據(jù)庫和weizmann行為數(shù)據(jù)庫,分別驗證了本文算法的識別性能。
實驗的硬件環(huán)境是CPU Pentium(R) Dual-Core E5700 3.0GHz;內(nèi)存2G。操作系統(tǒng)為WINDOWS7,仿真軟件為Matlab7.0。算法分3個部分進行:首先讀入訓(xùn)練視頻集,對每一個視頻片段提取特征得到DATAset特征集;然后對DATAset聚類生成詞匯本,產(chǎn)生詞匯本時在特征集中隨機選擇500個特征,詞匯本大小為200,最近鄰數(shù)目k取50。分類器選擇支持向量機的線性核函數(shù)(linear kernel),并采用1vs1的方法訓(xùn)練多個二值SVM分類器。圖2中, a)列和b)列分別是我們的算法在標準數(shù)據(jù)集上的識別結(jié)果,c)列為我們自拍測試視頻識別結(jié)果。
a)Weizmann數(shù)據(jù)集識別結(jié)果 b)KTH數(shù)據(jù)集識別結(jié)果 c)自拍測試視頻識別結(jié)果
圖2 不同數(shù)據(jù)集上識別結(jié)果
3 結(jié)論
通過在不同數(shù)據(jù)集上進行對比分析,可以看到本文提出的PE-Cuboid算法在對人體行為識別時具有很好的性能,在對攝像頭抖動或聚焦變化時也能很好的捕捉到運動人體并正確識別其行為。使用全局特征和 局部特征相結(jié)合的PE-Cuboid特征描述子,代替單一使用全局或局部特征的特征提取方法,可以更有效的表征運動目標特征,并使用改進的K-Means將視頻進行聚類,得到視頻的視覺詞匯本,最后以該詞匯本作為特征矢量,利用1對1的方法訓(xùn)練多個二值SVM分類器,實現(xiàn)行為分類識別。實驗結(jié)果表明,該文提出的PE-Cuboid算法對目前幾個權(quán)威行為庫都有很好的識別效果,具有很好的穩(wěn)定性和魯棒性。
參考文獻:
[1] Ronald Poppe,A Survey on vision-based human action recognition,Image and Vision Coputing,2010:976-990.
[2] Bobick B, Davis J. The recognition of human movement using temporal templates. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), 2001, 23(3):257-267.
[3] Haoran Yi, Deepu Rajan, A new motion histogram to index motion content in video segments. Pattern Recognition Letters, 2005, 26:1221-1231.
[4] Yao-Hui Qin, Hong-Liang Li, Guang-Hui Liu, et al. Human action recognition using PEM histogram. In IEEE International Conference of Computational Problem-Solving (ICCP), 2010, 323-325.
[5] Junsong Yuan, Zicheng Liu, Ying Wu. Discriminative video pattern search for efficient action detection. IEEE Trans. on Pattern Analysis and Machine Intelligence ,2011,9:1728-1743.
[6] Yu-Ting Chen and Chu-Song Chen, “Fast Human Detection Using a Novel Boosted”, IEEE Transactions on Image Processing, 2008,17:1452-1464.
[7] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In IEEE Conf.Computer Vision, Pattern Recognition (CVPR), 2005, 1:886-893.
[8] Laptev I, Lindeberg T. Space-time interest points, In ICCV, 2003: 432-439.
[9] Dollár P, Rabaud V, Gottrell G, et al. Behavior Recognition via Sparse Spatio-Temporal Features, In VS-PETS 2005: 65-72.
[10] Nibles J C, Wang H, L. F.-F. Li. Unsupervised learning of human action categories using spatial-temporal words. In BMVC, 2008,79(3):299-318.
[11] Blank M, Gorelick L, Shechtman E,et al.Actions as space-time shapes.ICCV,2005(2):1395-1402.