胡 斐 羅立民 劉 佳 左 欣
(1東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210096)
(2武警江西省總隊(duì)司令部,南昌 330025)
(3上海交通大學(xué)圖像處理與模式識(shí)別研究所,上海 200240)
人體動(dòng)作識(shí)別在智能視頻監(jiān)控、視頻注解、虛擬現(xiàn)實(shí)、人機(jī)交互等領(lǐng)域中具有廣闊的應(yīng)用前景,已經(jīng)成為計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的研究熱點(diǎn)[1-3].目前,基于視覺的人體行為分析可分為2個(gè)層次的任務(wù):①底層的特征提取和表示;②高層的行為識(shí)別和建模.從圖像序列中提取出能夠合理表示人體運(yùn)動(dòng)的特征,對(duì)行為識(shí)別和理解至關(guān)重要.
傳統(tǒng)的動(dòng)作表示方法,如基于邊緣或形狀的靜態(tài)特征、基于光流或運(yùn)動(dòng)信息的動(dòng)態(tài)特征以及基于時(shí)空體等方法,其準(zhǔn)確性往往受到跟蹤和姿態(tài)估計(jì)精度的影響,在運(yùn)動(dòng)物體較多或背景比較復(fù)雜的場(chǎng)景下,該類特征的魯棒性面臨挑戰(zhàn).最近,很多研究者提出了一些新的基于時(shí)空興趣點(diǎn)(角點(diǎn))的動(dòng)作表示方法.文獻(xiàn)[1]將Harris角點(diǎn)檢測(cè)思想擴(kuò)展到時(shí)空域,得到一種時(shí)空興趣點(diǎn)(space-time interest point)的檢測(cè)方法并用興趣點(diǎn)構(gòu)成的點(diǎn)集來(lái)表示動(dòng)作.文獻(xiàn)[2]提出一種基于 Gabor濾波器的時(shí)空興趣點(diǎn)檢測(cè)算法.這些算法克服了跟蹤以及姿態(tài)估計(jì)精度的影響,能有效地反映出動(dòng)作的運(yùn)動(dòng)信息以及外觀信息.同時(shí),概率主題模型近年來(lái)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛應(yīng)用,該模型源自文本處理領(lǐng)域,也可以應(yīng)用于圖像以及其他多維數(shù)據(jù)的識(shí)別、分類和挖掘等.文獻(xiàn)[3]提出利用時(shí)空興趣點(diǎn)以及概率主題模型LDA(latent Dirichlet allocation)進(jìn)行動(dòng)作識(shí)別,文獻(xiàn)[4]則利用光流特征和改進(jìn)的LDA進(jìn)行動(dòng)作識(shí)別.
本文提出了一種新的動(dòng)作識(shí)別算法,在提取視頻時(shí)空興趣點(diǎn)的基礎(chǔ)上,利用3D-SIFT描述算子建立興趣點(diǎn)的樣本特征集合,采用k-means的方法生成碼本,利用概率主題模型LDA將每個(gè)興趣點(diǎn)劃分為不同的動(dòng)作類別,從而實(shí)現(xiàn)了較復(fù)雜情況下的動(dòng)作識(shí)別.
本文采用基于Gabor濾波器和高斯濾波器相結(jié)合的時(shí)空興趣點(diǎn)檢測(cè)方法[2].首先使用高斯濾波器在空間域上對(duì)圖像進(jìn)行濾波,然后使用一維Gabor濾波器在時(shí)間域上對(duì)圖像進(jìn)行濾波,得到響應(yīng)函數(shù):
圖1 Weizmann數(shù)據(jù)庫(kù)上興趣點(diǎn)檢測(cè)結(jié)果圖
3D-SIFT描述算子是由Scovanner等[6]提出的一種三維時(shí)空梯度方向直方圖,可以看作是經(jīng)典的尺度不變特征變換描述算子(2D-SIFT)從靜態(tài)圖像到視頻序列的擴(kuò)展,能夠更好地減少縮放、旋轉(zhuǎn)等仿射變換以及噪聲帶來(lái)的影響.本文采用3DSIFT的特征描述方式準(zhǔn)確地捕捉到視頻數(shù)據(jù)的時(shí)空特性本質(zhì).
首先,通過增加時(shí)間軸上的梯度信息將SIFT描述算子從二維擴(kuò)展到三維,每一個(gè)像素點(diǎn)的梯度定義如下:
式中,Lx,Ly和Lt分別為x方向、y方向和時(shí)間軸t方向上的一階導(dǎo)數(shù);m3D為像素點(diǎn)在(x,y,t)方向上的時(shí)空梯度.每一個(gè)像素點(diǎn)對(duì)應(yīng)一個(gè)(θ,φ),其中θ∈(0,2π),φ∈( -π/2,π/2).(θ,φ)描述了空間和時(shí)間上的梯度方向.對(duì)時(shí)空體中的所有像素,統(tǒng)計(jì)θ和φ,然后利用這些像素點(diǎn)的(θ,φ)就可描述這個(gè)興趣點(diǎn)的特征.具體方法如下:將θ分為8個(gè)等級(jí),φ分為4個(gè)等級(jí),每一個(gè)像素點(diǎn)對(duì)應(yīng)一個(gè)32維的直方圖向量.本文使用2×2×2時(shí)空體來(lái)描述這個(gè)時(shí)空興趣點(diǎn),因此該興趣點(diǎn)可得到一個(gè)1×256維的特征向量.
由于人體的外觀、行為方式以及視頻拍攝角度等存在各種差異,因此同一種動(dòng)作在不同視頻中產(chǎn)生的興趣點(diǎn)不盡相同,但針對(duì)同一種動(dòng)作,這些興趣點(diǎn)的特征具有相似性.因此從興趣點(diǎn)的特征集合中,提取更高層、能夠代表相同動(dòng)作的特征模式,將有助于動(dòng)作識(shí)別.
本文引入文本分類中“詞袋”(bag of words)的思想,即在得到時(shí)空興趣點(diǎn)位置的基礎(chǔ)上,采用kmeans聚類算法對(duì)訓(xùn)練數(shù)據(jù)集中提取出的特征集合進(jìn)行聚類,生成碼本.所有時(shí)空單詞組成的集合w={w1,w2,…,wN}稱為時(shí)空碼本,其中 N 為聚類中心的個(gè)數(shù).對(duì)于不同的動(dòng)作視頻,視頻中的每個(gè)興趣點(diǎn)通過聚類被劃分為不同類別的單詞,這樣,一段視頻可以看成是由一些單詞(興趣點(diǎn))構(gòu)成的一篇文檔,在后續(xù)的動(dòng)作識(shí)別過程中通過計(jì)算興趣點(diǎn)的特征并建立概率主題模型可實(shí)現(xiàn)對(duì)視頻的分類.
概率主題模型來(lái)源于文本處理領(lǐng)域,認(rèn)為一個(gè)文檔是由一系列的主題組成的,而每個(gè)主題又是由一系列的關(guān)鍵詞組成.區(qū)別于傳統(tǒng)的詞袋模型,主題模型強(qiáng)調(diào)文檔是由文檔-主題-關(guān)鍵詞3層關(guān)系組成.文檔不是僅由單個(gè)主題組成,而是由多個(gè)主題組成.同樣,在視頻的人體動(dòng)作識(shí)別領(lǐng)域,視頻片段可以看作是由不同的動(dòng)作類別(主題)構(gòu)成的文檔,每個(gè)動(dòng)作類別由一系列表示這個(gè)動(dòng)作類別的興趣點(diǎn)(關(guān)鍵詞)所組成.
本文采用目前被廣泛使用的概率主題模型LDA[7],其文檔被表示為隱藏主題(latent topics)的隨機(jī)混合,如圖2(a)所示.對(duì)于視頻集合D中的任意一段視頻 w={w1,w2,…,wN},LDA 模型使用如下方法生成:
圖2 LDA模型
①選擇N,這里N為視頻的長(zhǎng)度(包含單詞的個(gè)數(shù)),且 N ~Poisson(ξ).
②選擇θ,其中θ表示當(dāng)前視頻片段真正的主題混合成分,且θ~Dir(α).
③對(duì)N個(gè)單詞中的每一個(gè)單詞wn,
a) 選擇一個(gè)主題 zn,zn~Multinomial(θ);
b)選擇一個(gè)單詞wn,其中wn來(lái)源于一個(gè)在zn,β 條件下的多項(xiàng)分布.其中,βij=p,假定p的Dirichlet分布和主題zn的維數(shù)都為k.
④在給定α,β的情況下,主題的混合參數(shù)θ,N個(gè)主題的變量z,以及N個(gè)單詞的一個(gè)聯(lián)合分布為
在LDA模型中,主要問題就是給定w,α,β的情況下,求解θ,z的后驗(yàn)分布:
直接計(jì)算這個(gè)分布很困難,首先使用文獻(xiàn)[7]中提出的變分EM算法計(jì)算,具體過程如下:
①首先將原始的LDA模型進(jìn)行擴(kuò)展,如圖2(b)所示.
假設(shè)每一行都是獨(dú)立采樣于一個(gè)可交換的Dirichlet分布,選擇一個(gè)可以分離的分布:
最小化q和p之間的KL-divergence,可得
不斷迭代可得到變分參數(shù)(γ*,φ*),然后從Dir(γ*(w))中選取一個(gè)樣本θ,θ中的每一個(gè)維度表示該維對(duì)應(yīng)的動(dòng)作在這個(gè)視頻片段中所占的比例.真正的混合比例θ*可從Dir(γ*(w))中產(chǎn)生的樣本均值得到.參數(shù)φn是的近似.由于zn服從Multinomial(θ*),可得到一段視頻所屬類別的概率分布為
當(dāng)視頻中只有一個(gè)動(dòng)作時(shí),可采用式(8)~(10)計(jì)算整個(gè)視頻片段中的動(dòng)作類別.通常,一段視頻中的情況比較復(fù)雜,例如多個(gè)人做不同的動(dòng)作或單個(gè)人做一系列不同的動(dòng)作.在這種情況下,本文提出利用得到的φn(即為每一個(gè)興趣點(diǎn)表示的單詞都分配不同的動(dòng)作類別,這樣的表示使得對(duì)整個(gè)視頻的整體分類轉(zhuǎn)化為對(duì)當(dāng)前幀上興趣點(diǎn)代表的單詞的分類.然后判斷當(dāng)前幀上不同類別興趣點(diǎn)(單詞)的個(gè)數(shù),當(dāng)某一類別的興趣點(diǎn)的數(shù)量大于預(yù)設(shè)的閾值時(shí)(本文設(shè)置該閾值為5),即表明當(dāng)前的視頻中存在該類動(dòng)作.這樣的分類方法能夠?qū)Ω鼜?fù)雜的視頻進(jìn)行處理,后面的實(shí)驗(yàn)驗(yàn)證了這種分類方法的有效性.圖3為本文方法的實(shí)現(xiàn)流程圖.
圖3 本文方法的實(shí)現(xiàn)流程圖
對(duì)3 個(gè)行為數(shù)據(jù)庫(kù) Weizmann[5],KTH[8]以及作者錄制的視頻數(shù)據(jù)庫(kù)分別進(jìn)行了測(cè)試.Weizmann數(shù)據(jù)庫(kù)包含10種動(dòng)作(walk,run,jump,gallop sideways,bend,wave1,wave2,jump in place,jumping jack,skip),每種動(dòng)作由9個(gè)人完成.背景和視角均不變,前景的輪廓信息也包含在數(shù)據(jù)庫(kù)中.KTH數(shù)據(jù)庫(kù)包含6種動(dòng)作(walking,jogging,running,boxing,handwaving,handclapping),由25個(gè)不同的人構(gòu)成,每個(gè)人在4種場(chǎng)景(戶外、戶外鏡頭變焦、戶外穿著不同的衣服,以及室內(nèi))下進(jìn)行這6種動(dòng)作.該數(shù)據(jù)庫(kù)共計(jì)600個(gè)視頻,視頻空間分辨率為160×120像素,幀速率為25 frame/s,平均視頻長(zhǎng)度大約4 s.作者錄制的動(dòng)作數(shù)據(jù)庫(kù)包含由6個(gè)人完成的11個(gè)動(dòng)作,其中包括了在一個(gè)場(chǎng)景中有多個(gè)動(dòng)作的情況.圖4為這3個(gè)數(shù)據(jù)庫(kù)的一些樣本圖像.
圖4 數(shù)據(jù)庫(kù)例圖
首先針對(duì)每段視頻中僅包含一個(gè)人的情況,對(duì)不同的數(shù)據(jù)庫(kù)分別進(jìn)行訓(xùn)練,采用留一法 (leave one out)來(lái)驗(yàn)證實(shí)驗(yàn)效果.訓(xùn)練過程中,KTH數(shù)據(jù)庫(kù)以σ=2,τ=2.5為參數(shù)進(jìn)行興趣點(diǎn)檢測(cè),Weizmann數(shù)據(jù)庫(kù)以及本文的數(shù)據(jù)庫(kù)采用σ=2,τ=2為參數(shù)進(jìn)行興趣點(diǎn)檢測(cè).從視頻中抽取出興趣點(diǎn)后,采用3D-SIFT特征描述方式建立興趣點(diǎn)樣本特征集合,運(yùn)用k-means聚類算法對(duì)樣本特征集合進(jìn)行聚類來(lái)建立樣本空間的時(shí)空碼本,然后利用LDA模型進(jìn)行學(xué)習(xí)訓(xùn)練.圖5為在這3個(gè)數(shù)據(jù)庫(kù)上的識(shí)別混淆矩陣,碼本大小均為1 000.
圖5 識(shí)別混淆矩陣
由于k-means聚類算法的初始類別隨機(jī)產(chǎn)生,且聚類維數(shù)的選取會(huì)對(duì)識(shí)別性能產(chǎn)生影響,本文給出了在碼本大小分別為100,500,1 000,1 500,2 000及2 500時(shí)對(duì)識(shí)別率的影響,如圖6所示.圖6表明,聚類中碼本的大小對(duì)本文方法的識(shí)別率影響較小.為了進(jìn)一步進(jìn)行對(duì)比,表1給出了在KTH和Weizmann數(shù)據(jù)庫(kù)上本文方法與其他方法的識(shí)別率比較結(jié)果.由表1可看出,本文算法的識(shí)別率已達(dá)到或超過這些算法.
圖6 不同碼本大小下的平均識(shí)別率比較
表1 各種方法的識(shí)別率結(jié)果對(duì)比 %
為了進(jìn)一步驗(yàn)證本文的算法,在2種更加復(fù)雜的情況下進(jìn)行了測(cè)試,如圖7所示.其中,圖7(a)給出的3段視頻中,每一段視頻都有多個(gè)人執(zhí)行不同的動(dòng)作.圖中的虛線框表示該類動(dòng)作發(fā)生的位置.圖7(b)給出的視頻是一個(gè)人從走到彎腰,再到行走的過程,這個(gè)過程包含3個(gè)動(dòng)作.從圖中可看出,由于采用了概率主題模型,對(duì)每一個(gè)時(shí)空興趣點(diǎn)通過推斷其主題(動(dòng)作類別),從而實(shí)現(xiàn)了對(duì)整個(gè)視頻中復(fù)雜動(dòng)作的分類.由此可見,本文提出的方法不僅能識(shí)別視頻中的單個(gè)動(dòng)作,而且當(dāng)視頻中存在多個(gè)人完成不同的動(dòng)作,或是同一個(gè)人完成不同的動(dòng)作等較復(fù)雜情況時(shí),也能有效地識(shí)別.實(shí)驗(yàn)也同時(shí)表明抽取興趣點(diǎn)的時(shí)空特征對(duì)動(dòng)作進(jìn)行表征,能夠更好地降低光照變化以及施動(dòng)者的穿著和動(dòng)作差異等環(huán)境因素造成的影響.
圖7 2種更加復(fù)雜情況下的測(cè)試
本文提出了一種新的動(dòng)作識(shí)別算法,在提取視頻中時(shí)空興趣點(diǎn)的基礎(chǔ)上,利用3D-SIFT描述算子建立興趣點(diǎn)的樣本特征集合,然后運(yùn)用k-means方法生成碼本,并利用概率主題模型LDA對(duì)視頻進(jìn)行分類.主題模型將每個(gè)興趣點(diǎn)劃分為不同的動(dòng)作類別,因此該方法不僅能夠處理一段視頻中包含一個(gè)動(dòng)作的簡(jiǎn)單情況,同時(shí)也可以處理視頻中包含多個(gè)動(dòng)作的情況.實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性.
References)
[1] Laptev I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2/3):107-123.
[2] Dollar P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio-temporal features[C]//Proceedings of 2nd Joint IEEE International Workshop on VSPETS.Beijing,China,2005:65-72.
[3] Niebles J,Wang Hongcheng,Li Feifei.Unsupervised learning of human action categories using spatial-temporal words[J].International Journal of Computer Vision,2008,79(3):299-318.
[4] Wang Yang,Mori G.Human action recognition by semilatent topic models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(10):1762-1774.
[5]Blank M,Gorelick L,Shechtman E,et al.Actions as space-time shapes[C]//Proceedings of the 10th IEEE International Conference on Computer Vision.Beijing,China,2005,2:1395-1402.
[6] Scovanner P,Ali S,Shah M.A 3-dimensional shift descriptor and its application to action recognition[C]//Proceedings of the 15th ACM International Conference on Multimedia.Augsburg,Bavaria,Germany,2007:357-360.
[7]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5):993-1022.
[8] Schuldt C,Laptev I,Caputo B.Recognizing human actions:a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge,UK,2004,3:32-36.
[9] Dhillon P S,Nowozin S,Lampert C H.Combining appearance and motion for human action classification in videos[C]//2009 IEEE Conference on Computer Vision andPattern Recognition Workshops. Miami, FL,USA,2009:22-29.
[10] Liu J Q,Ali S,Shah M.Recognizing human actions using multiple features[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA,2008:4587527.