基于AdaBoost算法特征提取的人體動(dòng)作識別方法

2014-01-22 14:04姬曉飛李一波

沈陽航空航天大學(xué)學(xué)報(bào) 2014年2期

姬曉飛，周路，李一波

(沈陽航空航天大學(xué)自動(dòng)化學(xué)院，沈陽110136)

基于視覺的人體運(yùn)動(dòng)分析在智能視頻監(jiān)控、高級人機(jī)交互、虛擬現(xiàn)實(shí)和基于內(nèi)容的視頻檢索分析等方面有著廣泛的應(yīng)用前景和潛在的經(jīng)濟(jì)價(jià)值，已經(jīng)成為計(jì)算機(jī)領(lǐng)域中備受關(guān)注的研究方向之一［1］。

目前存在多種運(yùn)動(dòng)特征表示的方法，如基于人體側(cè)影和輪廓［2］的靜態(tài)特征表示、基于光流和運(yùn)動(dòng)軌跡［3］的動(dòng)態(tài)特征表示、基于時(shí)空體數(shù)據(jù)的時(shí)空特征［4－5］表示等等。其中基于時(shí)空體數(shù)據(jù)的時(shí)空特征中最常用的是基于時(shí)空興趣點(diǎn)的特征，其對噪聲、遮擋等影響具有較強(qiáng)的魯棒性，對于相機(jī)運(yùn)動(dòng)和低分辨率的視頻輸入等更具適應(yīng)性，因此應(yīng)用較廣。但基于興趣點(diǎn)的原始特征往往維數(shù)過高，影響識別速度。因此大量的研究工作著力于如何在不降低識別率的基礎(chǔ)上，合理降低特征維數(shù)。文獻(xiàn)［5］提出了一種基于興趣點(diǎn)的靜態(tài)、動(dòng)態(tài)、時(shí)空特征的表示方法。該方法首先提取運(yùn)動(dòng)序列的興趣點(diǎn)特征，并在訓(xùn)練樣本特征空間中利用K－means聚類的方法構(gòu)造時(shí)空碼本分類器，然后將測試樣本的所有興趣點(diǎn)特征表示為基于時(shí)空碼本的統(tǒng)計(jì)直方圖用于分類識別。此類方法證明了基于興趣點(diǎn)時(shí)空特征(3D SIFT)的優(yōu)越性，利用K－means聚類的方法對原始特征進(jìn)行聚類，生成碼本來降低特征空間的維數(shù)，減少識別的復(fù)雜度。但聚類初始參數(shù)和聚類的維數(shù)只能憑經(jīng)驗(yàn)確定，很難得到一個(gè)準(zhǔn)確的值，聚類參數(shù)的選取對識別結(jié)果的影響較大。文獻(xiàn)［6］提出利用改進(jìn)的方法檢測時(shí)空興趣點(diǎn)并提取3D SIFT描述子特征，然后在單幀和所有幀之間分別進(jìn)行主成分分析降維的處理。這種方法成功的解決了大多數(shù)興趣點(diǎn)描述子維數(shù)過高的問題，但是用于識別過程的訓(xùn)練樣本數(shù)量還是相當(dāng)大的，導(dǎo)致后續(xù)的基于最近鄰的識別仍要花費(fèi)大量的時(shí)間。文獻(xiàn)［7］提出將視頻序列分割成許多個(gè)子塊，同時(shí)提取每個(gè)子塊的3D SIFT特征，然后統(tǒng)計(jì)一個(gè)視頻序列的所有子塊特征作為視頻序列的原始特征，最后用AdaBoost算法對原始特征進(jìn)行提取，篩選出少量的對識別最有意義的特征。這種方法通過AdaBoost算法在大量的樣本特征中選取有效的樣本數(shù)據(jù)用于識別，能夠減少識別過程的計(jì)算量，提高了識別的速度。但是該方法在獲取原始特征之前需要對視頻數(shù)據(jù)做復(fù)雜的預(yù)處理，這將大大影響算法的應(yīng)用。

針對以上存在的問題，本文提出將經(jīng)過降維處理的基于時(shí)空興趣點(diǎn)3D SIFT描述子特征與AdaBoost算法進(jìn)行特征提取的方法相結(jié)合。先后通過特征降維和特征提取兩個(gè)層次的特征處理，力圖得到一個(gè)低維的少量的訓(xùn)練樣本空間，在保證較好識別率的基礎(chǔ)上，提高識別的速度，達(dá)到實(shí)時(shí)性檢測的目的。具體的實(shí)現(xiàn)過程，如圖1所示。首先，用3D SIFT描述子對檢測出的時(shí)空興趣點(diǎn)進(jìn)行表示，并在橫向和縱向上分別對特征數(shù)據(jù)進(jìn)行降維處理，初步從減少特征維數(shù)的角度減少識別過程的計(jì)算量。接下來運(yùn)用AdaBoost［7］算法對降維后的訓(xùn)練視頻序列的特征數(shù)據(jù)進(jìn)行進(jìn)一步提取，提取出關(guān)鍵的訓(xùn)練樣本數(shù)據(jù)，這樣很大程度上減少了應(yīng)用在識別階段的樣本數(shù)，進(jìn)一步提高識別速度。最后，選取了對于少量的訓(xùn)練樣本能夠達(dá)到快速識別的最近鄰分類器，將未經(jīng)過Ada-Boost提取的測試序列樣本數(shù)據(jù)，與提取出的關(guān)鍵訓(xùn)練樣本數(shù)據(jù)做距離，識別出測試樣本的類別，結(jié)果表明在保證一定識別率的基礎(chǔ)上，識別的速度大幅度提高，驗(yàn)證了所提方法的有效性。

圖1 基于AdaBoost算法特征提取的人體動(dòng)作識別過程

1 原始特征表示

1.1 興趣點(diǎn)檢測及3D SIFT描述子

為了克服Dollar［8］興趣點(diǎn)檢測方法存在的易受人體陰影和背景噪聲影響從而檢測出偽興趣點(diǎn)的現(xiàn)象，本文運(yùn)用改進(jìn)的興趣點(diǎn)檢測方法［9］，使用不同方向的濾波模板獲得時(shí)間和空間維上的聯(lián)合濾波響應(yīng)，檢測出更準(zhǔn)確的時(shí)空興趣點(diǎn)，并采用文獻(xiàn)［6］的方法計(jì)算3D SIFT描述子特征表征人體動(dòng)作的視頻序列。

1.2 特征數(shù)據(jù)的降維

上面得到的數(shù)據(jù)中，表示每幀圖像信息的數(shù)據(jù)量是很大的，大量的特征數(shù)據(jù)將會增加識別過程的計(jì)算量。本文對得到的3D SIFT描述子特征進(jìn)行降維處理［6］，初步的減少計(jì)算復(fù)雜度。具體的方法如下:

(1)縱向降維:即單幀圖像的降維，將每幀的N×256大小的數(shù)據(jù)初步降到1×256，將單幀中所有興趣點(diǎn)的3D SIFT描述子主成分都聚集在一起，構(gòu)成的單一向量如圖2中(a)所示。

(2)橫向降維:將視頻序列中的每幀圖像對應(yīng)的特征按(1)降維，得到整個(gè)視頻的特征數(shù)據(jù)M×256(M為此動(dòng)作的所有視頻幀數(shù))再進(jìn)行橫向的降維處理到M×50，如圖2(b)、(c)所示。最終對于每個(gè)視頻序列采用M×50維的時(shí)空特征進(jìn)行表示。

圖2 特征數(shù)據(jù)的降維過程

2 AdaBoost算法對原始特征提取

上一節(jié)中已經(jīng)將3D SIFT表示的特征數(shù)據(jù)進(jìn)行了維數(shù)上的減少，這里再利用AdaBoost算法進(jìn)行關(guān)鍵幀的提取，得到少量的可分性高的低維訓(xùn)練樣本數(shù)據(jù)。

傳統(tǒng)的AdaBoost算法［10］作為一種高精度的分類方法，本文將傳統(tǒng)的AdaBoost算法［10］加以改進(jìn)，最終不是實(shí)現(xiàn)強(qiáng)分類器的構(gòu)造，而是在眾多的樣本中根據(jù)每個(gè)樣本被賦予的權(quán)值大小提取出關(guān)鍵的特征數(shù)據(jù)具體的方法如下:

總的訓(xùn)練樣本集:(x1，y1)，…(xi，yi)，…(xN，yN)，yi∈{1，－1};xi為樣本數(shù)據(jù)，yi為樣本標(biāo)記;

(2)迭代過程(循環(huán) t=1，2，…，T):

i.在N個(gè)訓(xùn)練樣本中，隨機(jī)選取一部分樣本數(shù)據(jù)作為已知樣本，使用最近鄰分類器作為弱分類器，將每個(gè)訓(xùn)練樣本得到一個(gè)假設(shè)ht(xi)∈{1，－1}，并計(jì)算樣本錯(cuò)誤率εt=PDi(ht(xi)≠yi);(第t次循環(huán)中，分類錯(cuò)誤樣本對應(yīng)的取值PDt)

ii.計(jì)算弱分類器的權(quán)值:

iii.更新訓(xùn)練樣本的權(quán)值:

(3)選取權(quán)值小的特征數(shù)據(jù)。

由于傳統(tǒng)的AdaBoost算法只能處理兩類動(dòng)作識別問題，所以本文中使用1對多的方法，將N個(gè)訓(xùn)練樣本中要提取的動(dòng)作類別標(biāo)記為1，其他所有類別標(biāo)記為－1，在每次的迭代中，隨機(jī)選擇部分訓(xùn)練樣本作為標(biāo)記樣本，使用最近鄰分類器作為弱分類器，進(jìn)而訓(xùn)練樣本中的每個(gè)特征數(shù)據(jù)都有一個(gè)假設(shè)，根據(jù)每個(gè)樣本中特征數(shù)據(jù)分類的正確率和所有樣本的所有特征數(shù)據(jù)的準(zhǔn)確率，更新每個(gè)樣本特征的權(quán)值分布，依照每個(gè)樣本特征數(shù)據(jù)擁有權(quán)值的大小，選取擁有權(quán)值小的特征數(shù)據(jù)，作為最終的訓(xùn)練樣本。重復(fù)以上的操作就可以實(shí)現(xiàn)多類動(dòng)作訓(xùn)練樣本的提取。

3 分類器設(shè)計(jì)

本文使用的最近鄰分類器在處理小數(shù)量的訓(xùn)練樣本的情況下，實(shí)現(xiàn)簡單，且識別速度較快。具體的方法如下:

(2)通過投票的方式，統(tǒng)計(jì)每個(gè)測試視頻序列中占票數(shù)最多的類別即為該動(dòng)作的識別結(jié)果。

4 實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

4.1 數(shù)據(jù)庫介紹

實(shí)驗(yàn)過程選取了人體動(dòng)作識別數(shù)據(jù)庫中應(yīng)用最廣泛的KTH數(shù)據(jù)庫來驗(yàn)證本文所提出方法的有效性。該數(shù)據(jù)庫包括6類行為(walking，jogging，running，boxing，hand waving，hand clapping)，分別在四個(gè)場景下由25個(gè)不同的人執(zhí)行，一共有599段視頻，背景相對靜止，除了鏡頭的拉近拉遠(yuǎn)，攝像機(jī)的運(yùn)動(dòng)比較輕微。如圖3所示:

圖3 KTH數(shù)據(jù)庫中的不同場景下的不同人的視頻幀圖像

4.2 實(shí)驗(yàn)及結(jié)果分析

首先，提取數(shù)據(jù)庫中視頻的原始特征，即每個(gè)視頻可以用M×50維的特征進(jìn)行表示(M為每個(gè)視頻圖像的幀數(shù)。然后采用AdaBoost算法對原始特征進(jìn)行提取，為每個(gè)視頻序列提取出最易于識別的30幀圖像的特征數(shù)據(jù)(30×50維數(shù)據(jù))進(jìn)行表示。實(shí)驗(yàn)過程采用留一法，每次提取一類動(dòng)作，進(jìn)行6次提取。依次循環(huán)，將每個(gè)動(dòng)作都將作為測試樣本進(jìn)行測試，并統(tǒng)計(jì)識別結(jié)果。使用最近鄰的分類方法進(jìn)行分類。

表1為原始特征與本文所提特征使用留一法在最近鄰分類器下的識別結(jié)果比較。

表1 特征提取前后的識別效果比較

從表1中的識別率可以看到，本文方法得到了較高的識別率。使用AdaBoost算法對原始特征進(jìn)行篩選相比沒經(jīng)過篩選之前的特征識別率有略微的降低，但是每個(gè)視頻幀圖像的識別處理時(shí)間卻有顯著的減少，在內(nèi)存2 GB和CPU 3.0G Hz的電腦上應(yīng)用matlab2009b版本測試，處理一幀數(shù)據(jù)僅僅用了0.004 6 s。經(jīng)過AdaBoost算法對原始特征進(jìn)行處理后，訓(xùn)練樣本的數(shù)量顯著減少，相應(yīng)的測試樣本與訓(xùn)練樣本比對的時(shí)間也縮短，因此大大的提高了識別的速度。

表2是本文方法與近期相關(guān)方法基于KTH數(shù)據(jù)上的識別結(jié)果比較，可以看出文獻(xiàn)［11－12］都選取了基于興趣點(diǎn)的描述子特征與其它特征相結(jié)合的表示方法，且使用基于詞袋和支持向量機(jī)結(jié)合的方式，識別率均低于本文提出的方法。主要原因是構(gòu)造詞袋過程中的不確定因素影響了識別率。文獻(xiàn)［7］同樣用AdaBoost算法進(jìn)行特征提取和采用最近鄰方法用于識別，不同之處在于文獻(xiàn)［7］提取視頻序列的全局3D SIFT特征，沒有經(jīng)過降維處理，最終在原始特征中提取200個(gè)易識別的特征，作為最終的特征數(shù)據(jù)。顯然本文的方法擁有的樣本數(shù)據(jù)的個(gè)數(shù)更少、維數(shù)更低，且識別結(jié)果優(yōu)于文獻(xiàn)［7］。通過比較可以看出，本文的方法擁有較高的識別率的同時(shí)能夠達(dá)到快速識別，進(jìn)一步證明本文方法的有效性。

表2 不同方法對應(yīng)的識別率

5 總結(jié)

本文提出了用AdaBoost算法在表征運(yùn)動(dòng)信息的大量原始特征數(shù)據(jù)中提取出有效特征數(shù)據(jù)的方法，先后使用PCA和AdaBoost算法，分別對視頻序列基于興趣點(diǎn)的3D SIFT特征進(jìn)行初步的降維及進(jìn)一步的提取，得到低維數(shù)的易于識別的少量訓(xùn)練樣本特征數(shù)據(jù)，從而在保證識別率的同時(shí)達(dá)到快速識別。實(shí)驗(yàn)證明本文的方法在KTH數(shù)據(jù)庫上得到了93.5%的識別率，識別速度達(dá)到0.0046秒/幀，充分的證明了該算法的有效性和可行性。目前本文使用的特征單一、并且視頻數(shù)據(jù)庫相對簡單，接下來的工作是研究合理的特征融合方法，并在現(xiàn)實(shí)場景的環(huán)境下對算法進(jìn)行測試。

［1］王亮，胡衛(wèi)明，譚鐵牛.人運(yùn)動(dòng)的視覺分析綜述［J］.計(jì)算機(jī)學(xué)報(bào)，2002，25(3):225 －237.

［2］阮濤濤，姚明海，瞿心昱，等.基于視覺的人體運(yùn)動(dòng)分析綜述［J］.計(jì)算機(jī)系統(tǒng)應(yīng)用，2011，20(2):245 －254.

［3］郭利，姬曉飛，李平，等.基于混合特征的人體動(dòng)作識別改進(jìn)算法［J］.計(jì)算機(jī)應(yīng)用研究，2013，30(2):601－604.

［4］凌志剛，趙春暉，梁彥，等.基于視覺的人行為理解綜述［J］.計(jì)算機(jī)應(yīng)用研究，2008，25(9):2570－2578.

［5］雷慶，李紹滋.動(dòng)作識別中局部時(shí)空特征的運(yùn)動(dòng)表示方法研究［J］.計(jì)算機(jī)工程與應(yīng)用，2010，46(34):7－10.

［6］姬曉飛，吳倩倩，李一波.改進(jìn)時(shí)空特征的人體異常行為檢測方法研究［J］.沈陽航空航天大學(xué)學(xué)報(bào)，2013，30(5):42 －46.

［7］Li Liu，Ling Shao，Peter Rockett.Human action recognition based on boosted feature selection and naive bayesnearest-neighbor classification［J］.Signal Processing，2013，93(6):1521 －1530.

［8］Dollor P，Rabaud V，Cottrell G，et al.Behavior recognition via sparse spatio－temporal features［C］//Visual and Performance Evaluation of Tracking and Surveillance，2005:65 －72.

［9］Bregonzio M，Gong S，Xiang T.Recognising action as clouds of space－ time interest points［C］//Computer Vision and Pattern Recognition，2009:1948 －1955.

［10］宋靜.SVM 與 AdaBoost算法的應(yīng)用研究［D］.大連:大連海事大學(xué)，2011.

［11］Kishore K.Reddy·Mubarak Shah.Recognizing 50 human action categories of web videos［J］.Machine Vision and Applications，2013，24:971 －981

［12］Laptev I，Marszalek M，Schmid C，et al.Learning realistic human actions from movies［J］.Computer Vision and Pattern Recognition，2008:1 －8.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡