姬曉飛,周 路,李一波
(沈陽航空航天大學(xué)自動(dòng)化學(xué)院,沈陽110136)
基于視覺的人體運(yùn)動(dòng)分析在智能視頻監(jiān)控、高級人機(jī)交互、虛擬現(xiàn)實(shí)和基于內(nèi)容的視頻檢索分析等方面有著廣泛的應(yīng)用前景和潛在的經(jīng)濟(jì)價(jià)值,已經(jīng)成為計(jì)算機(jī)領(lǐng)域中備受關(guān)注的研究方向之一[1]。
目前存在多種運(yùn)動(dòng)特征表示的方法,如基于人體側(cè)影和輪廓[2]的靜態(tài)特征表示、基于光流和運(yùn)動(dòng)軌跡[3]的動(dòng)態(tài)特征表示、基于時(shí)空體數(shù)據(jù)的時(shí)空特征[4-5]表示等等。其中基于時(shí)空體數(shù)據(jù)的時(shí)空特征中最常用的是基于時(shí)空興趣點(diǎn)的特征,其對噪聲、遮擋等影響具有較強(qiáng)的魯棒性,對于相機(jī)運(yùn)動(dòng)和低分辨率的視頻輸入等更具適應(yīng)性,因此應(yīng)用較廣。但基于興趣點(diǎn)的原始特征往往維數(shù)過高,影響識別速度。因此大量的研究工作著力于如何在不降低識別率的基礎(chǔ)上,合理降低特征維數(shù)。文獻(xiàn)[5]提出了一種基于興趣點(diǎn)的靜態(tài)、動(dòng)態(tài)、時(shí)空特征的表示方法。該方法首先提取運(yùn)動(dòng)序列的興趣點(diǎn)特征,并在訓(xùn)練樣本特征空間中利用K-means聚類的方法構(gòu)造時(shí)空碼本分類器,然后將測試樣本的所有興趣點(diǎn)特征表示為基于時(shí)空碼本的統(tǒng)計(jì)直方圖用于分類識別。此類方法證明了基于興趣點(diǎn)時(shí)空特征(3D SIFT)的優(yōu)越性,利用K-means聚類的方法對原始特征進(jìn)行聚類,生成碼本來降低特征空間的維數(shù),減少識別的復(fù)雜度。但聚類初始參數(shù)和聚類的維數(shù)只能憑經(jīng)驗(yàn)確定,很難得到一個(gè)準(zhǔn)確的值,聚類參數(shù)的選取對識別結(jié)果的影響較大。文獻(xiàn)[6]提出利用改進(jìn)的方法檢測時(shí)空興趣點(diǎn)并提取3D SIFT描述子特征,然后在單幀和所有幀之間分別進(jìn)行主成分分析降維的處理。這種方法成功的解決了大多數(shù)興趣點(diǎn)描述子維數(shù)過高的問題,但是用于識別過程的訓(xùn)練樣本數(shù)量還是相當(dāng)大的,導(dǎo)致后續(xù)的基于最近鄰的識別仍要花費(fèi)大量的時(shí)間。文獻(xiàn)[7]提出將視頻序列分割成許多個(gè)子塊,同時(shí)提取每個(gè)子塊的3D SIFT特征,然后統(tǒng)計(jì)一個(gè)視頻序列的所有子塊特征作為視頻序列的原始特征,最后用AdaBoost算法對原始特征進(jìn)行提取,篩選出少量的對識別最有意義的特征。這種方法通過AdaBoost算法在大量的樣本特征中選取有效的樣本數(shù)據(jù)用于識別,能夠減少識別過程的計(jì)算量,提高了識別的速度。但是該方法在獲取原始特征之前需要對視頻數(shù)據(jù)做復(fù)雜的預(yù)處理,這將大大影響算法的應(yīng)用。
針對以上存在的問題,本文提出將經(jīng)過降維處理的基于時(shí)空興趣點(diǎn)3D SIFT描述子特征與AdaBoost算法進(jìn)行特征提取的方法相結(jié)合。先后通過特征降維和特征提取兩個(gè)層次的特征處理,力圖得到一個(gè)低維的少量的訓(xùn)練樣本空間,在保證較好識別率的基礎(chǔ)上,提高識別的速度,達(dá)到實(shí)時(shí)性檢測的目的。具體的實(shí)現(xiàn)過程,如圖1所示。首先,用3D SIFT描述子對檢測出的時(shí)空興趣點(diǎn)進(jìn)行表示,并在橫向和縱向上分別對特征數(shù)據(jù)進(jìn)行降維處理,初步從減少特征維數(shù)的角度減少識別過程的計(jì)算量。接下來運(yùn)用AdaBoost[7]算法對降維后的訓(xùn)練視頻序列的特征數(shù)據(jù)進(jìn)行進(jìn)一步提取,提取出關(guān)鍵的訓(xùn)練樣本數(shù)據(jù),這樣很大程度上減少了應(yīng)用在識別階段的樣本數(shù),進(jìn)一步提高識別速度。最后,選取了對于少量的訓(xùn)練樣本能夠達(dá)到快速識別的最近鄰分類器,將未經(jīng)過Ada-Boost提取的測試序列樣本數(shù)據(jù),與提取出的關(guān)鍵訓(xùn)練樣本數(shù)據(jù)做距離,識別出測試樣本的類別,結(jié)果表明在保證一定識別率的基礎(chǔ)上,識別的速度大幅度提高,驗(yàn)證了所提方法的有效性。
圖1 基于AdaBoost算法特征提取的人體動(dòng)作識別過程
為了克服Dollar[8]興趣點(diǎn)檢測方法存在的易受人體陰影和背景噪聲影響從而檢測出偽興趣點(diǎn)的現(xiàn)象,本文運(yùn)用改進(jìn)的興趣點(diǎn)檢測方法[9],使用不同方向的濾波模板獲得時(shí)間和空間維上的聯(lián)合濾波響應(yīng),檢測出更準(zhǔn)確的時(shí)空興趣點(diǎn),并采用文獻(xiàn)[6]的方法計(jì)算3D SIFT描述子特征表征人體動(dòng)作的視頻序列。
上面得到的數(shù)據(jù)中,表示每幀圖像信息的數(shù)據(jù)量是很大的,大量的特征數(shù)據(jù)將會增加識別過程的計(jì)算量。本文對得到的3D SIFT描述子特征進(jìn)行降維處理[6],初步的減少計(jì)算復(fù)雜度。具體的方法如下:
(1)縱向降維:即單幀圖像的降維,將每幀的N×256大小的數(shù)據(jù)初步降到1×256,將單幀中所有興趣點(diǎn)的3D SIFT描述子主成分都聚集在一起,構(gòu)成的單一向量如圖2中(a)所示。
(2)橫向降維:將視頻序列中的每幀圖像對應(yīng)的特征按(1)降維,得到整個(gè)視頻的特征數(shù)據(jù)M×256(M為此動(dòng)作的所有視頻幀數(shù))再進(jìn)行橫向的降維處理到M×50,如圖2(b)、(c)所示。最終對于每個(gè)視頻序列采用M×50維的時(shí)空特征進(jìn)行表示。
圖2 特征數(shù)據(jù)的降維過程
上一節(jié)中已經(jīng)將3D SIFT表示的特征數(shù)據(jù)進(jìn)行了維數(shù)上的減少,這里再利用AdaBoost算法進(jìn)行關(guān)鍵幀的提取,得到少量的可分性高的低維訓(xùn)練樣本數(shù)據(jù)。
傳統(tǒng)的AdaBoost算法[10]作為一種高精度的分類方法,本文將傳統(tǒng)的AdaBoost算法[10]加以改進(jìn),最終不是實(shí)現(xiàn)強(qiáng)分類器的構(gòu)造,而是在眾多的樣本中根據(jù)每個(gè)樣本被賦予的權(quán)值大小提取出關(guān)鍵的特征數(shù)據(jù)具體的方法如下:
總的訓(xùn)練樣本集:(x1,y1),…(xi,yi),…(xN,yN),yi∈{1,-1};xi為樣本數(shù)據(jù),yi為樣本標(biāo)記;
(2)迭代過程(循環(huán) t=1,2,…,T):
i.在N個(gè)訓(xùn)練樣本中,隨機(jī)選取一部分樣本數(shù)據(jù)作為已知樣本,使用最近鄰分類器作為弱分類器,將每個(gè)訓(xùn)練樣本得到一個(gè)假設(shè)ht(xi)∈{1,-1},并計(jì)算樣本錯(cuò)誤率εt=PDi(ht(xi)≠yi);(第t次循環(huán)中,分類錯(cuò)誤樣本對應(yīng)的取值PDt)
ii.計(jì)算弱分類器的權(quán)值:
iii.更新訓(xùn)練樣本的權(quán)值:
(3)選取權(quán)值小的特征數(shù)據(jù)。
由于傳統(tǒng)的AdaBoost算法只能處理兩類動(dòng)作識別問題,所以本文中使用1對多的方法,將N個(gè)訓(xùn)練樣本中要提取的動(dòng)作類別標(biāo)記為1,其他所有類別標(biāo)記為-1,在每次的迭代中,隨機(jī)選擇部分訓(xùn)練樣本作為標(biāo)記樣本,使用最近鄰分類器作為弱分類器,進(jìn)而訓(xùn)練樣本中的每個(gè)特征數(shù)據(jù)都有一個(gè)假設(shè),根據(jù)每個(gè)樣本中特征數(shù)據(jù)分類的正確率和所有樣本的所有特征數(shù)據(jù)的準(zhǔn)確率,更新每個(gè)樣本特征的權(quán)值分布,依照每個(gè)樣本特征數(shù)據(jù)擁有權(quán)值的大小,選取擁有權(quán)值小的特征數(shù)據(jù),作為最終的訓(xùn)練樣本。重復(fù)以上的操作就可以實(shí)現(xiàn)多類動(dòng)作訓(xùn)練樣本的提取。
本文使用的最近鄰分類器在處理小數(shù)量的訓(xùn)練樣本的情況下,實(shí)現(xiàn)簡單,且識別速度較快。具體的方法如下:
(2)通過投票的方式,統(tǒng)計(jì)每個(gè)測試視頻序列中占票數(shù)最多的類別即為該動(dòng)作的識別結(jié)果。
實(shí)驗(yàn)過程選取了人體動(dòng)作識別數(shù)據(jù)庫中應(yīng)用最廣泛的KTH數(shù)據(jù)庫來驗(yàn)證本文所提出方法的有效性。該數(shù)據(jù)庫包括6類行為(walking,jogging,running,boxing,hand waving,hand clapping),分別在四個(gè)場景下由25個(gè)不同的人執(zhí)行,一共有599段視頻,背景相對靜止,除了鏡頭的拉近拉遠(yuǎn),攝像機(jī)的運(yùn)動(dòng)比較輕微。如圖3所示:
圖3 KTH數(shù)據(jù)庫中的不同場景下的不同人的視頻幀圖像
首先,提取數(shù)據(jù)庫中視頻的原始特征,即每個(gè)視頻可以用M×50維的特征進(jìn)行表示(M為每個(gè)視頻圖像的幀數(shù)。然后采用AdaBoost算法對原始特征進(jìn)行提取,為每個(gè)視頻序列提取出最易于識別的30幀圖像的特征數(shù)據(jù)(30×50維數(shù)據(jù))進(jìn)行表示。實(shí)驗(yàn)過程采用留一法,每次提取一類動(dòng)作,進(jìn)行6次提取。依次循環(huán),將每個(gè)動(dòng)作都將作為測試樣本進(jìn)行測試,并統(tǒng)計(jì)識別結(jié)果。使用最近鄰的分類方法進(jìn)行分類。
表1為原始特征與本文所提特征使用留一法在最近鄰分類器下的識別結(jié)果比較。
表1 特征提取前后的識別效果比較
從表1中的識別率可以看到,本文方法得到了較高的識別率。使用AdaBoost算法對原始特征進(jìn)行篩選相比沒經(jīng)過篩選之前的特征識別率有略微的降低,但是每個(gè)視頻幀圖像的識別處理時(shí)間卻有顯著的減少,在內(nèi)存2 GB和CPU 3.0G Hz的電腦上應(yīng)用matlab2009b版本測試,處理一幀數(shù)據(jù)僅僅用了0.004 6 s。經(jīng)過AdaBoost算法對原始特征進(jìn)行處理后,訓(xùn)練樣本的數(shù)量顯著減少,相應(yīng)的測試樣本與訓(xùn)練樣本比對的時(shí)間也縮短,因此大大的提高了識別的速度。
表2是本文方法與近期相關(guān)方法基于KTH數(shù)據(jù)上的識別結(jié)果比較,可以看出文獻(xiàn)[11-12]都選取了基于興趣點(diǎn)的描述子特征與其它特征相結(jié)合的表示方法,且使用基于詞袋和支持向量機(jī)結(jié)合的方式,識別率均低于本文提出的方法。主要原因是構(gòu)造詞袋過程中的不確定因素影響了識別率。文獻(xiàn)[7]同樣用AdaBoost算法進(jìn)行特征提取和采用最近鄰方法用于識別,不同之處在于文獻(xiàn)[7]提取視頻序列的全局3D SIFT特征,沒有經(jīng)過降維處理,最終在原始特征中提取200個(gè)易識別的特征,作為最終的特征數(shù)據(jù)。顯然本文的方法擁有的樣本數(shù)據(jù)的個(gè)數(shù)更少、維數(shù)更低,且識別結(jié)果優(yōu)于文獻(xiàn)[7]。通過比較可以看出,本文的方法擁有較高的識別率的同時(shí)能夠達(dá)到快速識別,進(jìn)一步證明本文方法的有效性。
表2 不同方法對應(yīng)的識別率
本文提出了用AdaBoost算法在表征運(yùn)動(dòng)信息的大量原始特征數(shù)據(jù)中提取出有效特征數(shù)據(jù)的方法,先后使用PCA和AdaBoost算法,分別對視頻序列基于興趣點(diǎn)的3D SIFT特征進(jìn)行初步的降維及進(jìn)一步的提取,得到低維數(shù)的易于識別的少量訓(xùn)練樣本特征數(shù)據(jù),從而在保證識別率的同時(shí)達(dá)到快速識別。實(shí)驗(yàn)證明本文的方法在KTH數(shù)據(jù)庫上得到了93.5%的識別率,識別速度達(dá)到0.0046秒/幀,充分的證明了該算法的有效性和可行性。目前本文使用的特征單一、并且視頻數(shù)據(jù)庫相對簡單,接下來的工作是研究合理的特征融合方法,并在現(xiàn)實(shí)場景的環(huán)境下對算法進(jìn)行測試。
[1]王亮,胡衛(wèi)明,譚鐵牛.人運(yùn)動(dòng)的視覺分析綜述[J].計(jì)算機(jī)學(xué)報(bào),2002,25(3):225 -237.
[2]阮濤濤,姚明海,瞿心昱,等.基于視覺的人體運(yùn)動(dòng)分析綜述[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2011,20(2):245 -254.
[3]郭利,姬曉飛,李平,等.基于混合特征的人體動(dòng)作識別改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(2):601-604.
[4]凌志剛,趙春暉,梁彥,等.基于視覺的人行為理解綜述[J].計(jì)算機(jī)應(yīng)用研究,2008,25(9):2570-2578.
[5]雷慶,李紹滋.動(dòng)作識別中局部時(shí)空特征的運(yùn)動(dòng)表示方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(34):7-10.
[6]姬曉飛,吳倩倩,李一波.改進(jìn)時(shí)空特征的人體異常行為檢測方法研究[J].沈陽航空航天大學(xué)學(xué)報(bào),2013,30(5):42 -46.
[7]Li Liu,Ling Shao,Peter Rockett.Human action recognition based on boosted feature selection and naive bayesnearest-neighbor classification[J].Signal Processing,2013,93(6):1521 -1530.
[8]Dollor P,Rabaud V,Cottrell G,et al.Behavior recognition via sparse spatio-temporal features[C]//Visual and Performance Evaluation of Tracking and Surveillance,2005:65 -72.
[9]Bregonzio M,Gong S,Xiang T.Recognising action as clouds of space- time interest points[C]//Computer Vision and Pattern Recognition,2009:1948 -1955.
[10]宋靜.SVM 與 AdaBoost算法的應(yīng)用研究[D].大連:大連海事大學(xué),2011.
[11]Kishore K.Reddy·Mubarak Shah.Recognizing 50 human action categories of web videos[J].Machine Vision and Applications,2013,24:971 -981
[12]Laptev I,Marszalek M,Schmid C,et al.Learning realistic human actions from movies[J].Computer Vision and Pattern Recognition,2008:1 -8.