国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)空興趣點(diǎn)和主題模型的動(dòng)作識(shí)別

2011-08-24 06:11羅立民
關(guān)鍵詞:碼本時(shí)空聚類

胡 斐 羅立民 劉 佳 左 欣

(1東南大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210096)

(2武警江西省總隊(duì)司令部,南昌 330025)

(3上海交通大學(xué)圖像處理與模式識(shí)別研究所,上海 200240)

人體動(dòng)作識(shí)別在智能視頻監(jiān)控、視頻注解、虛擬現(xiàn)實(shí)、人機(jī)交互等領(lǐng)域中具有廣闊的應(yīng)用前景,已經(jīng)成為計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的研究熱點(diǎn)[1-3].目前,基于視覺的人體行為分析可分為2個(gè)層次的任務(wù):①底層的特征提取和表示;②高層的行為識(shí)別和建模.從圖像序列中提取出能夠合理表示人體運(yùn)動(dòng)的特征,對(duì)行為識(shí)別和理解至關(guān)重要.

傳統(tǒng)的動(dòng)作表示方法,如基于邊緣或形狀的靜態(tài)特征、基于光流或運(yùn)動(dòng)信息的動(dòng)態(tài)特征以及基于時(shí)空體等方法,其準(zhǔn)確性往往受到跟蹤和姿態(tài)估計(jì)精度的影響,在運(yùn)動(dòng)物體較多或背景比較復(fù)雜的場(chǎng)景下,該類特征的魯棒性面臨挑戰(zhàn).最近,很多研究者提出了一些新的基于時(shí)空興趣點(diǎn)(角點(diǎn))的動(dòng)作表示方法.文獻(xiàn)[1]將Harris角點(diǎn)檢測(cè)思想擴(kuò)展到時(shí)空域,得到一種時(shí)空興趣點(diǎn)(space-time interest point)的檢測(cè)方法并用興趣點(diǎn)構(gòu)成的點(diǎn)集來(lái)表示動(dòng)作.文獻(xiàn)[2]提出一種基于 Gabor濾波器的時(shí)空興趣點(diǎn)檢測(cè)算法.這些算法克服了跟蹤以及姿態(tài)估計(jì)精度的影響,能有效地反映出動(dòng)作的運(yùn)動(dòng)信息以及外觀信息.同時(shí),概率主題模型近年來(lái)在計(jì)算機(jī)視覺領(lǐng)域得到了廣泛應(yīng)用,該模型源自文本處理領(lǐng)域,也可以應(yīng)用于圖像以及其他多維數(shù)據(jù)的識(shí)別、分類和挖掘等.文獻(xiàn)[3]提出利用時(shí)空興趣點(diǎn)以及概率主題模型LDA(latent Dirichlet allocation)進(jìn)行動(dòng)作識(shí)別,文獻(xiàn)[4]則利用光流特征和改進(jìn)的LDA進(jìn)行動(dòng)作識(shí)別.

本文提出了一種新的動(dòng)作識(shí)別算法,在提取視頻時(shí)空興趣點(diǎn)的基礎(chǔ)上,利用3D-SIFT描述算子建立興趣點(diǎn)的樣本特征集合,采用k-means的方法生成碼本,利用概率主題模型LDA將每個(gè)興趣點(diǎn)劃分為不同的動(dòng)作類別,從而實(shí)現(xiàn)了較復(fù)雜情況下的動(dòng)作識(shí)別.

1 動(dòng)作表示

1.1 興趣點(diǎn)檢測(cè)

本文采用基于Gabor濾波器和高斯濾波器相結(jié)合的時(shí)空興趣點(diǎn)檢測(cè)方法[2].首先使用高斯濾波器在空間域上對(duì)圖像進(jìn)行濾波,然后使用一維Gabor濾波器在時(shí)間域上對(duì)圖像進(jìn)行濾波,得到響應(yīng)函數(shù):

圖1 Weizmann數(shù)據(jù)庫(kù)上興趣點(diǎn)檢測(cè)結(jié)果圖

1.2 3D-SIFT描述算子

3D-SIFT描述算子是由Scovanner等[6]提出的一種三維時(shí)空梯度方向直方圖,可以看作是經(jīng)典的尺度不變特征變換描述算子(2D-SIFT)從靜態(tài)圖像到視頻序列的擴(kuò)展,能夠更好地減少縮放、旋轉(zhuǎn)等仿射變換以及噪聲帶來(lái)的影響.本文采用3DSIFT的特征描述方式準(zhǔn)確地捕捉到視頻數(shù)據(jù)的時(shí)空特性本質(zhì).

首先,通過增加時(shí)間軸上的梯度信息將SIFT描述算子從二維擴(kuò)展到三維,每一個(gè)像素點(diǎn)的梯度定義如下:

式中,Lx,Ly和Lt分別為x方向、y方向和時(shí)間軸t方向上的一階導(dǎo)數(shù);m3D為像素點(diǎn)在(x,y,t)方向上的時(shí)空梯度.每一個(gè)像素點(diǎn)對(duì)應(yīng)一個(gè)(θ,φ),其中θ∈(0,2π),φ∈( -π/2,π/2).(θ,φ)描述了空間和時(shí)間上的梯度方向.對(duì)時(shí)空體中的所有像素,統(tǒng)計(jì)θ和φ,然后利用這些像素點(diǎn)的(θ,φ)就可描述這個(gè)興趣點(diǎn)的特征.具體方法如下:將θ分為8個(gè)等級(jí),φ分為4個(gè)等級(jí),每一個(gè)像素點(diǎn)對(duì)應(yīng)一個(gè)32維的直方圖向量.本文使用2×2×2時(shí)空體來(lái)描述這個(gè)時(shí)空興趣點(diǎn),因此該興趣點(diǎn)可得到一個(gè)1×256維的特征向量.

1.3 碼本表示

由于人體的外觀、行為方式以及視頻拍攝角度等存在各種差異,因此同一種動(dòng)作在不同視頻中產(chǎn)生的興趣點(diǎn)不盡相同,但針對(duì)同一種動(dòng)作,這些興趣點(diǎn)的特征具有相似性.因此從興趣點(diǎn)的特征集合中,提取更高層、能夠代表相同動(dòng)作的特征模式,將有助于動(dòng)作識(shí)別.

本文引入文本分類中“詞袋”(bag of words)的思想,即在得到時(shí)空興趣點(diǎn)位置的基礎(chǔ)上,采用kmeans聚類算法對(duì)訓(xùn)練數(shù)據(jù)集中提取出的特征集合進(jìn)行聚類,生成碼本.所有時(shí)空單詞組成的集合w={w1,w2,…,wN}稱為時(shí)空碼本,其中 N 為聚類中心的個(gè)數(shù).對(duì)于不同的動(dòng)作視頻,視頻中的每個(gè)興趣點(diǎn)通過聚類被劃分為不同類別的單詞,這樣,一段視頻可以看成是由一些單詞(興趣點(diǎn))構(gòu)成的一篇文檔,在后續(xù)的動(dòng)作識(shí)別過程中通過計(jì)算興趣點(diǎn)的特征并建立概率主題模型可實(shí)現(xiàn)對(duì)視頻的分類.

2 基于概率主題模型的識(shí)別

概率主題模型來(lái)源于文本處理領(lǐng)域,認(rèn)為一個(gè)文檔是由一系列的主題組成的,而每個(gè)主題又是由一系列的關(guān)鍵詞組成.區(qū)別于傳統(tǒng)的詞袋模型,主題模型強(qiáng)調(diào)文檔是由文檔-主題-關(guān)鍵詞3層關(guān)系組成.文檔不是僅由單個(gè)主題組成,而是由多個(gè)主題組成.同樣,在視頻的人體動(dòng)作識(shí)別領(lǐng)域,視頻片段可以看作是由不同的動(dòng)作類別(主題)構(gòu)成的文檔,每個(gè)動(dòng)作類別由一系列表示這個(gè)動(dòng)作類別的興趣點(diǎn)(關(guān)鍵詞)所組成.

2.1 LDA主題模型

本文采用目前被廣泛使用的概率主題模型LDA[7],其文檔被表示為隱藏主題(latent topics)的隨機(jī)混合,如圖2(a)所示.對(duì)于視頻集合D中的任意一段視頻 w={w1,w2,…,wN},LDA 模型使用如下方法生成:

圖2 LDA模型

①選擇N,這里N為視頻的長(zhǎng)度(包含單詞的個(gè)數(shù)),且 N ~Poisson(ξ).

②選擇θ,其中θ表示當(dāng)前視頻片段真正的主題混合成分,且θ~Dir(α).

③對(duì)N個(gè)單詞中的每一個(gè)單詞wn,

a) 選擇一個(gè)主題 zn,zn~Multinomial(θ);

b)選擇一個(gè)單詞wn,其中wn來(lái)源于一個(gè)在zn,β 條件下的多項(xiàng)分布.其中,βij=p,假定p的Dirichlet分布和主題zn的維數(shù)都為k.

④在給定α,β的情況下,主題的混合參數(shù)θ,N個(gè)主題的變量z,以及N個(gè)單詞的一個(gè)聯(lián)合分布為

2.2 動(dòng)作識(shí)別

在LDA模型中,主要問題就是給定w,α,β的情況下,求解θ,z的后驗(yàn)分布:

直接計(jì)算這個(gè)分布很困難,首先使用文獻(xiàn)[7]中提出的變分EM算法計(jì)算,具體過程如下:

①首先將原始的LDA模型進(jìn)行擴(kuò)展,如圖2(b)所示.

假設(shè)每一行都是獨(dú)立采樣于一個(gè)可交換的Dirichlet分布,選擇一個(gè)可以分離的分布:

最小化q和p之間的KL-divergence,可得

不斷迭代可得到變分參數(shù)(γ*,φ*),然后從Dir(γ*(w))中選取一個(gè)樣本θ,θ中的每一個(gè)維度表示該維對(duì)應(yīng)的動(dòng)作在這個(gè)視頻片段中所占的比例.真正的混合比例θ*可從Dir(γ*(w))中產(chǎn)生的樣本均值得到.參數(shù)φn是的近似.由于zn服從Multinomial(θ*),可得到一段視頻所屬類別的概率分布為

當(dāng)視頻中只有一個(gè)動(dòng)作時(shí),可采用式(8)~(10)計(jì)算整個(gè)視頻片段中的動(dòng)作類別.通常,一段視頻中的情況比較復(fù)雜,例如多個(gè)人做不同的動(dòng)作或單個(gè)人做一系列不同的動(dòng)作.在這種情況下,本文提出利用得到的φn(即為每一個(gè)興趣點(diǎn)表示的單詞都分配不同的動(dòng)作類別,這樣的表示使得對(duì)整個(gè)視頻的整體分類轉(zhuǎn)化為對(duì)當(dāng)前幀上興趣點(diǎn)代表的單詞的分類.然后判斷當(dāng)前幀上不同類別興趣點(diǎn)(單詞)的個(gè)數(shù),當(dāng)某一類別的興趣點(diǎn)的數(shù)量大于預(yù)設(shè)的閾值時(shí)(本文設(shè)置該閾值為5),即表明當(dāng)前的視頻中存在該類動(dòng)作.這樣的分類方法能夠?qū)Ω鼜?fù)雜的視頻進(jìn)行處理,后面的實(shí)驗(yàn)驗(yàn)證了這種分類方法的有效性.圖3為本文方法的實(shí)現(xiàn)流程圖.

圖3 本文方法的實(shí)現(xiàn)流程圖

3 實(shí)驗(yàn)結(jié)果及分析

3.1 數(shù)據(jù)庫(kù)

對(duì)3 個(gè)行為數(shù)據(jù)庫(kù) Weizmann[5],KTH[8]以及作者錄制的視頻數(shù)據(jù)庫(kù)分別進(jìn)行了測(cè)試.Weizmann數(shù)據(jù)庫(kù)包含10種動(dòng)作(walk,run,jump,gallop sideways,bend,wave1,wave2,jump in place,jumping jack,skip),每種動(dòng)作由9個(gè)人完成.背景和視角均不變,前景的輪廓信息也包含在數(shù)據(jù)庫(kù)中.KTH數(shù)據(jù)庫(kù)包含6種動(dòng)作(walking,jogging,running,boxing,handwaving,handclapping),由25個(gè)不同的人構(gòu)成,每個(gè)人在4種場(chǎng)景(戶外、戶外鏡頭變焦、戶外穿著不同的衣服,以及室內(nèi))下進(jìn)行這6種動(dòng)作.該數(shù)據(jù)庫(kù)共計(jì)600個(gè)視頻,視頻空間分辨率為160×120像素,幀速率為25 frame/s,平均視頻長(zhǎng)度大約4 s.作者錄制的動(dòng)作數(shù)據(jù)庫(kù)包含由6個(gè)人完成的11個(gè)動(dòng)作,其中包括了在一個(gè)場(chǎng)景中有多個(gè)動(dòng)作的情況.圖4為這3個(gè)數(shù)據(jù)庫(kù)的一些樣本圖像.

圖4 數(shù)據(jù)庫(kù)例圖

3.2 實(shí)驗(yàn)結(jié)果及分析

首先針對(duì)每段視頻中僅包含一個(gè)人的情況,對(duì)不同的數(shù)據(jù)庫(kù)分別進(jìn)行訓(xùn)練,采用留一法 (leave one out)來(lái)驗(yàn)證實(shí)驗(yàn)效果.訓(xùn)練過程中,KTH數(shù)據(jù)庫(kù)以σ=2,τ=2.5為參數(shù)進(jìn)行興趣點(diǎn)檢測(cè),Weizmann數(shù)據(jù)庫(kù)以及本文的數(shù)據(jù)庫(kù)采用σ=2,τ=2為參數(shù)進(jìn)行興趣點(diǎn)檢測(cè).從視頻中抽取出興趣點(diǎn)后,采用3D-SIFT特征描述方式建立興趣點(diǎn)樣本特征集合,運(yùn)用k-means聚類算法對(duì)樣本特征集合進(jìn)行聚類來(lái)建立樣本空間的時(shí)空碼本,然后利用LDA模型進(jìn)行學(xué)習(xí)訓(xùn)練.圖5為在這3個(gè)數(shù)據(jù)庫(kù)上的識(shí)別混淆矩陣,碼本大小均為1 000.

圖5 識(shí)別混淆矩陣

由于k-means聚類算法的初始類別隨機(jī)產(chǎn)生,且聚類維數(shù)的選取會(huì)對(duì)識(shí)別性能產(chǎn)生影響,本文給出了在碼本大小分別為100,500,1 000,1 500,2 000及2 500時(shí)對(duì)識(shí)別率的影響,如圖6所示.圖6表明,聚類中碼本的大小對(duì)本文方法的識(shí)別率影響較小.為了進(jìn)一步進(jìn)行對(duì)比,表1給出了在KTH和Weizmann數(shù)據(jù)庫(kù)上本文方法與其他方法的識(shí)別率比較結(jié)果.由表1可看出,本文算法的識(shí)別率已達(dá)到或超過這些算法.

圖6 不同碼本大小下的平均識(shí)別率比較

表1 各種方法的識(shí)別率結(jié)果對(duì)比 %

為了進(jìn)一步驗(yàn)證本文的算法,在2種更加復(fù)雜的情況下進(jìn)行了測(cè)試,如圖7所示.其中,圖7(a)給出的3段視頻中,每一段視頻都有多個(gè)人執(zhí)行不同的動(dòng)作.圖中的虛線框表示該類動(dòng)作發(fā)生的位置.圖7(b)給出的視頻是一個(gè)人從走到彎腰,再到行走的過程,這個(gè)過程包含3個(gè)動(dòng)作.從圖中可看出,由于采用了概率主題模型,對(duì)每一個(gè)時(shí)空興趣點(diǎn)通過推斷其主題(動(dòng)作類別),從而實(shí)現(xiàn)了對(duì)整個(gè)視頻中復(fù)雜動(dòng)作的分類.由此可見,本文提出的方法不僅能識(shí)別視頻中的單個(gè)動(dòng)作,而且當(dāng)視頻中存在多個(gè)人完成不同的動(dòng)作,或是同一個(gè)人完成不同的動(dòng)作等較復(fù)雜情況時(shí),也能有效地識(shí)別.實(shí)驗(yàn)也同時(shí)表明抽取興趣點(diǎn)的時(shí)空特征對(duì)動(dòng)作進(jìn)行表征,能夠更好地降低光照變化以及施動(dòng)者的穿著和動(dòng)作差異等環(huán)境因素造成的影響.

圖7 2種更加復(fù)雜情況下的測(cè)試

4 結(jié)語(yǔ)

本文提出了一種新的動(dòng)作識(shí)別算法,在提取視頻中時(shí)空興趣點(diǎn)的基礎(chǔ)上,利用3D-SIFT描述算子建立興趣點(diǎn)的樣本特征集合,然后運(yùn)用k-means方法生成碼本,并利用概率主題模型LDA對(duì)視頻進(jìn)行分類.主題模型將每個(gè)興趣點(diǎn)劃分為不同的動(dòng)作類別,因此該方法不僅能夠處理一段視頻中包含一個(gè)動(dòng)作的簡(jiǎn)單情況,同時(shí)也可以處理視頻中包含多個(gè)動(dòng)作的情況.實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性.

References)

[1] Laptev I.On space-time interest points[J].International Journal of Computer Vision,2005,64(2/3):107-123.

[2] Dollar P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio-temporal features[C]//Proceedings of 2nd Joint IEEE International Workshop on VSPETS.Beijing,China,2005:65-72.

[3] Niebles J,Wang Hongcheng,Li Feifei.Unsupervised learning of human action categories using spatial-temporal words[J].International Journal of Computer Vision,2008,79(3):299-318.

[4] Wang Yang,Mori G.Human action recognition by semilatent topic models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(10):1762-1774.

[5]Blank M,Gorelick L,Shechtman E,et al.Actions as space-time shapes[C]//Proceedings of the 10th IEEE International Conference on Computer Vision.Beijing,China,2005,2:1395-1402.

[6] Scovanner P,Ali S,Shah M.A 3-dimensional shift descriptor and its application to action recognition[C]//Proceedings of the 15th ACM International Conference on Multimedia.Augsburg,Bavaria,Germany,2007:357-360.

[7]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003,3(4/5):993-1022.

[8] Schuldt C,Laptev I,Caputo B.Recognizing human actions:a local SVM approach[C]//Proceedings of the 17th International Conference on Pattern Recognition.Cambridge,UK,2004,3:32-36.

[9] Dhillon P S,Nowozin S,Lampert C H.Combining appearance and motion for human action classification in videos[C]//2009 IEEE Conference on Computer Vision andPattern Recognition Workshops. Miami, FL,USA,2009:22-29.

[10] Liu J Q,Ali S,Shah M.Recognizing human actions using multiple features[C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA,2008:4587527.

猜你喜歡
碼本時(shí)空聚類
免調(diào)度NOMA系統(tǒng)中擴(kuò)頻碼優(yōu)化設(shè)計(jì)
跨越時(shí)空的相遇
基于有限域上仿射空間構(gòu)造新碼本
鏡中的時(shí)空穿梭
基于Zadoff-Chu 矩陣的最優(yōu)碼本構(gòu)造方法
基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
玩一次時(shí)空大“穿越”
幾類近似達(dá)到Welch界碼本的構(gòu)造
基于高斯混合聚類的陣列干涉SAR三維成像
時(shí)空之門
济阳县| 茶陵县| 漳州市| 镇赉县| 平乡县| 赫章县| 闸北区| 莫力| 玉环县| 合山市| 石家庄市| 靖安县| 治县。| 兴海县| 交口县| 衡水市| 历史| 米林县| 应用必备| 财经| 洱源县| 曲水县| 桐柏县| 灵石县| 拉萨市| 桓台县| 玉屏| 阿坝县| 南康市| 万全县| 鲁甸县| 温州市| 贵阳市| 九台市| 惠东县| 阜平县| 濉溪县| 永新县| 浦北县| 电白县| 建宁县|