基于時(shí)空興趣點(diǎn)和主題模型的動(dòng)作識(shí)別

2011-08-24 06:11羅立民

東南大學(xué)學(xué)報(bào)（自然科學(xué)版） 2011年5期

胡斐羅立民劉佳左欣

(1東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院，南京 210096)

(2武警江西省總隊(duì)司令部，南昌 330025)

(3上海交通大學(xué)圖像處理與模式識(shí)別研究所，上海 200240)

人體動(dòng)作識(shí)別在智能視頻監(jiān)控、視頻注解、虛擬現(xiàn)實(shí)、人機(jī)交互等領(lǐng)域中具有廣闊的應(yīng)用前景，已經(jīng)成為計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的研究熱點(diǎn)［1-3］.目前，基于視覺的人體行為分析可分為2個(gè)層次的任務(wù):①底層的特征提取和表示;②高層的行為識(shí)別和建模.從圖像序列中提取出能夠合理表示人體運(yùn)動(dòng)的特征，對(duì)行為識(shí)別和理解至關(guān)重要.

傳統(tǒng)的動(dòng)作表示方法，如基于邊緣或形狀的靜態(tài)特征、基于光流或運(yùn)動(dòng)信息的動(dòng)態(tài)特征以及基于時(shí)空體等方法，其準(zhǔn)確性往往受到跟蹤和姿態(tài)估計(jì)精度的影響，在運(yùn)動(dòng)物體較多或背景比較復(fù)雜的場(chǎng)景下，該類特征的魯棒性面臨挑戰(zhàn).最近，很多研究者提出了一些新的基于時(shí)空興趣點(diǎn)(角點(diǎn))的動(dòng)作表示方法.文獻(xiàn)［1］將Harris角點(diǎn)檢測(cè)思想擴(kuò)展到時(shí)空域，得到一種時(shí)空興趣點(diǎn)(space-time interest point)的檢測(cè)方法并用興趣點(diǎn)構(gòu)成的點(diǎn)集來(lái)表示動(dòng)作.文獻(xiàn)［2］提出一種基于 Gabor濾波器的時(shí)空興趣點(diǎn)檢測(cè)算法.這些算法克服了跟蹤以及姿態(tài)估計(jì)精度的影響，能有效地反映出動(dòng)作的運(yùn)動(dòng)信息以及外觀信息.同時(shí)，概率主題模型近年來(lái)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛應(yīng)用，該模型源自文本處理領(lǐng)域，也可以應(yīng)用于圖像以及其他多維數(shù)據(jù)的識(shí)別、分類和挖掘等.文獻(xiàn)［3］提出利用時(shí)空興趣點(diǎn)以及概率主題模型LDA(latent Dirichlet allocation)進(jìn)行動(dòng)作識(shí)別，文獻(xiàn)［4］則利用光流特征和改進(jìn)的LDA進(jìn)行動(dòng)作識(shí)別.

本文提出了一種新的動(dòng)作識(shí)別算法，在提取視頻時(shí)空興趣點(diǎn)的基礎(chǔ)上，利用3D-SIFT描述算子建立興趣點(diǎn)的樣本特征集合，采用k-means的方法生成碼本，利用概率主題模型LDA將每個(gè)興趣點(diǎn)劃分為不同的動(dòng)作類別，從而實(shí)現(xiàn)了較復(fù)雜情況下的動(dòng)作識(shí)別.

1 動(dòng)作表示

1.1 興趣點(diǎn)檢測(cè)

本文采用基于Gabor濾波器和高斯濾波器相結(jié)合的時(shí)空興趣點(diǎn)檢測(cè)方法［2］.首先使用高斯濾波器在空間域上對(duì)圖像進(jìn)行濾波，然后使用一維Gabor濾波器在時(shí)間域上對(duì)圖像進(jìn)行濾波，得到響應(yīng)函數(shù):

圖1 Weizmann數(shù)據(jù)庫(kù)上興趣點(diǎn)檢測(cè)結(jié)果圖

1.2 3D-SIFT描述算子

3D-SIFT描述算子是由Scovanner等［6］提出的一種三維時(shí)空梯度方向直方圖，可以看作是經(jīng)典的尺度不變特征變換描述算子(2D-SIFT)從靜態(tài)圖像到視頻序列的擴(kuò)展，能夠更好地減少縮放、旋轉(zhuǎn)等仿射變換以及噪聲帶來(lái)的影響.本文采用3DSIFT的特征描述方式準(zhǔn)確地捕捉到視頻數(shù)據(jù)的時(shí)空特性本質(zhì).

首先，通過增加時(shí)間軸上的梯度信息將SIFT描述算子從二維擴(kuò)展到三維，每一個(gè)像素點(diǎn)的梯度定義如下:

式中，Lx，Ly和Lt分別為x方向、y方向和時(shí)間軸t方向上的一階導(dǎo)數(shù);m3D為像素點(diǎn)在(x，y，t)方向上的時(shí)空梯度.每一個(gè)像素點(diǎn)對(duì)應(yīng)一個(gè)(θ，φ)，其中θ∈(0，2π)，φ∈( －π/2，π/2).(θ，φ)描述了空間和時(shí)間上的梯度方向.對(duì)時(shí)空體中的所有像素，統(tǒng)計(jì)θ和φ，然后利用這些像素點(diǎn)的(θ，φ)就可描述這個(gè)興趣點(diǎn)的特征.具體方法如下:將θ分為8個(gè)等級(jí)，φ分為4個(gè)等級(jí)，每一個(gè)像素點(diǎn)對(duì)應(yīng)一個(gè)32維的直方圖向量.本文使用2×2×2時(shí)空體來(lái)描述這個(gè)時(shí)空興趣點(diǎn)，因此該興趣點(diǎn)可得到一個(gè)1×256維的特征向量.

1.3 碼本表示

由于人體的外觀、行為方式以及視頻拍攝角度等存在各種差異，因此同一種動(dòng)作在不同視頻中產(chǎn)生的興趣點(diǎn)不盡相同，但針對(duì)同一種動(dòng)作，這些興趣點(diǎn)的特征具有相似性.因此從興趣點(diǎn)的特征集合中，提取更高層、能夠代表相同動(dòng)作的特征模式，將有助于動(dòng)作識(shí)別.

本文引入文本分類中“詞袋”(bag of words)的思想，即在得到時(shí)空興趣點(diǎn)位置的基礎(chǔ)上，采用kmeans聚類算法對(duì)訓(xùn)練數(shù)據(jù)集中提取出的特征集合進(jìn)行聚類，生成碼本.所有時(shí)空單詞組成的集合w={w1，w2，…，wN}稱為時(shí)空碼本，其中 N 為聚類中心的個(gè)數(shù).對(duì)于不同的動(dòng)作視頻，視頻中的每個(gè)興趣點(diǎn)通過聚類被劃分為不同類別的單詞，這樣，一段視頻可以看成是由一些單詞(興趣點(diǎn))構(gòu)成的一篇文檔，在后續(xù)的動(dòng)作識(shí)別過程中通過計(jì)算興趣點(diǎn)的特征并建立概率主題模型可實(shí)現(xiàn)對(duì)視頻的分類.

2 基于概率主題模型的識(shí)別

概率主題模型來(lái)源于文本處理領(lǐng)域，認(rèn)為一個(gè)文檔是由一系列的主題組成的，而每個(gè)主題又是由一系列的關(guān)鍵詞組成.區(qū)別于傳統(tǒng)的詞袋模型，主題模型強(qiáng)調(diào)文檔是由文檔-主題-關(guān)鍵詞3層關(guān)系組成.文檔不是僅由單個(gè)主題組成，而是由多個(gè)主題組成.同樣，在視頻的人體動(dòng)作識(shí)別領(lǐng)域，視頻片段可以看作是由不同的動(dòng)作類別(主題)構(gòu)成的文檔，每個(gè)動(dòng)作類別由一系列表示這個(gè)動(dòng)作類別的興趣點(diǎn)(關(guān)鍵詞)所組成.

2.1 LDA主題模型

本文采用目前被廣泛使用的概率主題模型LDA［7］，其文檔被表示為隱藏主題(latent topics)的隨機(jī)混合，如圖2(a)所示.對(duì)于視頻集合D中的任意一段視頻 w={w1，w2，…，wN}，LDA 模型使用如下方法生成:

圖2 LDA模型

①選擇N，這里N為視頻的長(zhǎng)度(包含單詞的個(gè)數(shù))，且 N ～Poisson(ξ).

②選擇θ，其中θ表示當(dāng)前視頻片段真正的主題混合成分，且θ～Dir(α).

③對(duì)N個(gè)單詞中的每一個(gè)單詞wn，

a) 選擇一個(gè)主題 zn，zn～Multinomial(θ);

b)選擇一個(gè)單詞wn，其中wn來(lái)源于一個(gè)在zn，β 條件下的多項(xiàng)分布.其中，βij=p，假定p的Dirichlet分布和主題zn的維數(shù)都為k.

④在給定α，β的情況下，主題的混合參數(shù)θ，N個(gè)主題的變量z，以及N個(gè)單詞的一個(gè)聯(lián)合分布為

2.2 動(dòng)作識(shí)別

在LDA模型中，主要問題就是給定w，α，β的情況下，求解θ，z的后驗(yàn)分布:

直接計(jì)算這個(gè)分布很困難，首先使用文獻(xiàn)［7］中提出的變分EM算法計(jì)算，具體過程如下:

①首先將原始的LDA模型進(jìn)行擴(kuò)展，如圖2(b)所示.

假設(shè)每一行都是獨(dú)立采樣于一個(gè)可交換的Dirichlet分布，選擇一個(gè)可以分離的分布:

最小化q和p之間的KL-divergence，可得

不斷迭代可得到變分參數(shù)(γ*，φ*)，然后從Dir(γ*(w))中選取一個(gè)樣本θ，θ中的每一個(gè)維度表示該維對(duì)應(yīng)的動(dòng)作在這個(gè)視頻片段中所占的比例.真正的混合比例θ*可從Dir(γ*(w))中產(chǎn)生的樣本均值得到.參數(shù)φn是的近似.由于zn服從Multinomial(θ*)，可得到一段視頻所屬類別的概率分布為

當(dāng)視頻中只有一個(gè)動(dòng)作時(shí)，可采用式(8)～(10)計(jì)算整個(gè)視頻片段中的動(dòng)作類別.通常，一段視頻中的情況比較復(fù)雜，例如多個(gè)人做不同的動(dòng)作或單個(gè)人做一系列不同的動(dòng)作.在這種情況下，本文提出利用得到的φn(即為每一個(gè)興趣點(diǎn)表示的單詞都分配不同的動(dòng)作類別，這樣的表示使得對(duì)整個(gè)視頻的整體分類轉(zhuǎn)化為對(duì)當(dāng)前幀上興趣點(diǎn)代表的單詞的分類.然后判斷當(dāng)前幀上不同類別興趣點(diǎn)(單詞)的個(gè)數(shù)，當(dāng)某一類別的興趣點(diǎn)的數(shù)量大于預(yù)設(shè)的閾值時(shí)(本文設(shè)置該閾值為5)，即表明當(dāng)前的視頻中存在該類動(dòng)作.這樣的分類方法能夠?qū)Ω鼜?fù)雜的視頻進(jìn)行處理，后面的實(shí)驗(yàn)驗(yàn)證了這種分類方法的有效性.圖3為本文方法的實(shí)現(xiàn)流程圖.

圖3 本文方法的實(shí)現(xiàn)流程圖

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)庫(kù)

對(duì)3 個(gè)行為數(shù)據(jù)庫(kù) Weizmann［5］，KTH［8］以及作者錄制的視頻數(shù)據(jù)庫(kù)分別進(jìn)行了測(cè)試.Weizmann數(shù)據(jù)庫(kù)包含10種動(dòng)作(walk，run，jump，gallop sideways，bend，wave1，wave2，jump in place，jumping jack，skip)，每種動(dòng)作由9個(gè)人完成.背景和視角均不變，前景的輪廓信息也包含在數(shù)據(jù)庫(kù)中.KTH數(shù)據(jù)庫(kù)包含6種動(dòng)作(walking，jogging，running，boxing，handwaving，handclapping)，由25個(gè)不同的人構(gòu)成，每個(gè)人在4種場(chǎng)景(戶外、戶外鏡頭變焦、戶外穿著不同的衣服，以及室內(nèi))下進(jìn)行這6種動(dòng)作.該數(shù)據(jù)庫(kù)共計(jì)600個(gè)視頻，視頻空間分辨率為160×120像素，幀速率為25 frame/s，平均視頻長(zhǎng)度大約4 s.作者錄制的動(dòng)作數(shù)據(jù)庫(kù)包含由6個(gè)人完成的11個(gè)動(dòng)作，其中包括了在一個(gè)場(chǎng)景中有多個(gè)動(dòng)作的情況.圖4為這3個(gè)數(shù)據(jù)庫(kù)的一些樣本圖像.

圖4 數(shù)據(jù)庫(kù)例圖

3.2 實(shí)驗(yàn)結(jié)果及分析

首先針對(duì)每段視頻中僅包含一個(gè)人的情況，對(duì)不同的數(shù)據(jù)庫(kù)分別進(jìn)行訓(xùn)練，采用留一法 (leave one out)來(lái)驗(yàn)證實(shí)驗(yàn)效果.訓(xùn)練過程中，KTH數(shù)據(jù)庫(kù)以σ=2，τ=2.5為參數(shù)進(jìn)行興趣點(diǎn)檢測(cè)，Weizmann數(shù)據(jù)庫(kù)以及本文的數(shù)據(jù)庫(kù)采用σ=2，τ=2為參數(shù)進(jìn)行興趣點(diǎn)檢測(cè).從視頻中抽取出興趣點(diǎn)后，采用3D-SIFT特征描述方式建立興趣點(diǎn)樣本特征集合，運(yùn)用k-means聚類算法對(duì)樣本特征集合進(jìn)行聚類來(lái)建立樣本空間的時(shí)空碼本，然后利用LDA模型進(jìn)行學(xué)習(xí)訓(xùn)練.圖5為在這3個(gè)數(shù)據(jù)庫(kù)上的識(shí)別混淆矩陣，碼本大小均為1 000.

圖5 識(shí)別混淆矩陣

由于k-means聚類算法的初始類別隨機(jī)產(chǎn)生，且聚類維數(shù)的選取會(huì)對(duì)識(shí)別性能產(chǎn)生影響，本文給出了在碼本大小分別為100，500，1 000，1 500，2 000及2 500時(shí)對(duì)識(shí)別率的影響，如圖6所示.圖6表明，聚類中碼本的大小對(duì)本文方法的識(shí)別率影響較小.為了進(jìn)一步進(jìn)行對(duì)比，表1給出了在KTH和Weizmann數(shù)據(jù)庫(kù)上本文方法與其他方法的識(shí)別率比較結(jié)果.由表1可看出，本文算法的識(shí)別率已達(dá)到或超過這些算法.

圖6 不同碼本大小下的平均識(shí)別率比較

表1 各種方法的識(shí)別率結(jié)果對(duì)比 %

為了進(jìn)一步驗(yàn)證本文的算法，在2種更加復(fù)雜的情況下進(jìn)行了測(cè)試，如圖7所示.其中，圖7(a)給出的3段視頻中，每一段視頻都有多個(gè)人執(zhí)行不同的動(dòng)作.圖中的虛線框表示該類動(dòng)作發(fā)生的位置.圖7(b)給出的視頻是一個(gè)人從走到彎腰，再到行走的過程，這個(gè)過程包含3個(gè)動(dòng)作.從圖中可看出，由于采用了概率主題模型，對(duì)每一個(gè)時(shí)空興趣點(diǎn)通過推斷其主題(動(dòng)作類別)，從而實(shí)現(xiàn)了對(duì)整個(gè)視頻中復(fù)雜動(dòng)作的分類.由此可見，本文提出的方法不僅能識(shí)別視頻中的單個(gè)動(dòng)作，而且當(dāng)視頻中存在多個(gè)人完成不同的動(dòng)作，或是同一個(gè)人完成不同的動(dòng)作等較復(fù)雜情況時(shí)，也能有效地識(shí)別.實(shí)驗(yàn)也同時(shí)表明抽取興趣點(diǎn)的時(shí)空特征對(duì)動(dòng)作進(jìn)行表征，能夠更好地降低光照變化以及施動(dòng)者的穿著和動(dòng)作差異等環(huán)境因素造成的影響.

圖7 2種更加復(fù)雜情況下的測(cè)試

4 結(jié)語(yǔ)

本文提出了一種新的動(dòng)作識(shí)別算法，在提取視頻中時(shí)空興趣點(diǎn)的基礎(chǔ)上，利用3D-SIFT描述算子建立興趣點(diǎn)的樣本特征集合，然后運(yùn)用k-means方法生成碼本，并利用概率主題模型LDA對(duì)視頻進(jìn)行分類.主題模型將每個(gè)興趣點(diǎn)劃分為不同的動(dòng)作類別，因此該方法不僅能夠處理一段視頻中包含一個(gè)動(dòng)作的簡(jiǎn)單情況，同時(shí)也可以處理視頻中包含多個(gè)動(dòng)作的情況.實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性.

References)

［1］ Laptev I.On space-time interest points［J］.International Journal of Computer Vision，2005，64(2/3):107-123.

［2］ Dollar P，Rabaud V，Cottrell G，et al.Behavior recognition via sparse spatio-temporal features［C］//Proceedings of 2nd Joint IEEE International Workshop on VSPETS.Beijing，China，2005:65-72.

［3］ Niebles J，Wang Hongcheng，Li Feifei.Unsupervised learning of human action categories using spatial-temporal words［J］.International Journal of Computer Vision，2008，79(3):299-318.

［4］ Wang Yang，Mori G.Human action recognition by semilatent topic models［J］.IEEE Transactions on Pattern Analysis and Machine Intelligence，2009，31(10):1762-1774.

［5］Blank M，Gorelick L，Shechtman E，et al.Actions as space-time shapes［C］//Proceedings of the 10th IEEE International Conference on Computer Vision.Beijing，China，2005，2:1395-1402.

［6］ Scovanner P，Ali S，Shah M.A 3-dimensional shift descriptor and its application to action recognition［C］//Proceedings of the 15th ACM International Conference on Multimedia.Augsburg，Bavaria，Germany，2007:357-360.

［7］Blei D M，Ng A Y，Jordan M I.Latent Dirichlet allocation［J］.Journal of Machine Learning Research，2003，3(4/5):993-1022.

［8］ Schuldt C，Laptev I，Caputo B.Recognizing human actions:a local SVM approach［C］//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge，UK，2004，3:32-36.

［9］ Dhillon P S，Nowozin S，Lampert C H.Combining appearance and motion for human action classification in videos［C］//2009 IEEE Conference on Computer Vision andPattern Recognition Workshops. Miami， FL，USA，2009:22-29.

［10］ Liu J Q，Ali S，Shah M.Recognizing human actions using multiple features［C］//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage，AK，USA，2008:4587527.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡