莊偉源,成運(yùn),林賢明,蘇松志,曹冬林,李紹滋
(1.廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建 廈門 361005; 2. 湖南人文科技學(xué)院 通信與控制工程系,湖北 婁底 417000;3. 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建 廈門361005 )
?
關(guān)鍵肢體角度直方圖的行為識(shí)別
莊偉源1,3,成運(yùn)2,林賢明1,3,蘇松志1,3,曹冬林1,3,李紹滋1,3
(1.廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建 廈門 361005; 2. 湖南人文科技學(xué)院 通信與控制工程系,湖北 婁底 417000;3. 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建 廈門361005 )
當(dāng)前的姿態(tài)表示的行為識(shí)別方法通常對(duì)姿態(tài)的準(zhǔn)確性做了很強(qiáng)的假設(shè),而當(dāng)姿態(tài)分析不精確時(shí),這些現(xiàn)有方法的識(shí)別效果不佳。提出了一種低維的、魯棒的基于關(guān)鍵肢體角度直方圖的人體姿態(tài)特征描述子,用于將整個(gè)動(dòng)作視頻映射成一個(gè)特征向量。同時(shí),還在特征向量中引入共生模型,用以表示肢體間的關(guān)聯(lián)性。最后,設(shè)計(jì)了分層的SVM分類器,第1層主要用于選擇高判別力的肢體作為關(guān)鍵肢體,第2層則利用關(guān)鍵肢體的角度直方圖并作為特征向量,進(jìn)行行為識(shí)別。實(shí)驗(yàn)結(jié)果表明,基于關(guān)鍵肢體角度直方圖的動(dòng)作特征具有較好的判別能力,能更好地區(qū)分相似動(dòng)作,并最終取得了更好的識(shí)別效果。
角度特征;動(dòng)作識(shí)別;關(guān)鍵肢體;角度直方圖;姿態(tài)表示;行為分析;動(dòng)作特征
人體行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)熱門的研究課題,在智能視覺監(jiān)控、視頻檢索、人機(jī)交互等領(lǐng)域有著廣泛的應(yīng)用前景,也受到了越來越多研究學(xué)者的關(guān)注。在近20年的研究中,研究者們也提出了許多人體行為特征描述方法,如局部時(shí)空興趣點(diǎn)[2]、密集點(diǎn)軌跡[3]、密集3-D梯度直方圖[4]等,用于行為識(shí)別研究。雖然將這些方法用于行為識(shí)別研究也取得一定的成效,但是這些方法所采用的行為特征側(cè)重于描述人體運(yùn)動(dòng)的底層或中層特征,缺乏語義性和直觀性[5-14]。通過觀察肢體在時(shí)間軸上的運(yùn)動(dòng)軌跡不難發(fā)現(xiàn),現(xiàn)有這些方法對(duì)運(yùn)動(dòng)的描述與人類真實(shí)的運(yùn)動(dòng)是不相符合的。針對(duì)這些人體運(yùn)動(dòng)描述方法存在問題,研究者提出了基于姿態(tài)信息的方法。Sermetcan Baysal[6]提出的利用人體可見邊緣信息,并轉(zhuǎn)化為若干直線表示的直線姿態(tài)表示方法。L.Wang[7]提出了增強(qiáng)姿態(tài)估計(jì)進(jìn)行動(dòng)作識(shí)別。然而這2種方法存在部分局限性:Sermetcan的方法中對(duì)于模糊邊緣處理區(qū)分度欠缺,Li的方法中對(duì)于近似動(dòng)作如“慢跑”、“跑步”和“走路”判別性不強(qiáng)。
現(xiàn)有的基于姿態(tài)表示的行為識(shí)別方法通常是在對(duì)姿態(tài)正確分析的理想條件下進(jìn)行的。而人體的姿態(tài)估計(jì)仍然是一個(gè)開放的研究問題,目前尚未得到很好地解決。而當(dāng)姿態(tài)估計(jì)無法得到完整準(zhǔn)確的結(jié)果時(shí),目前現(xiàn)有的姿態(tài)估計(jì)方法也常常因此效果不佳[8 ]。當(dāng)前姿態(tài)估計(jì)算法無法精確定位所有的身體部位時(shí),如何利用提取到的正確的姿態(tài)信息來設(shè)計(jì)一個(gè)高判別力、有效的特征成為的本研究問題的核心。
通過對(duì)人體運(yùn)動(dòng)進(jìn)行剖析可以發(fā)現(xiàn):人體的行為動(dòng)作可以分解為身體各個(gè)部位的運(yùn)動(dòng),如:頭部運(yùn)動(dòng)、手部運(yùn)動(dòng)、腳部運(yùn)動(dòng)等。但是,正如W.Yang在文獻(xiàn)[1]所闡述的,各個(gè)身體部位在不同動(dòng)作中所起的作用也是各不相同的。例如 “拳擊”動(dòng)作是兩只手在身體同一側(cè)向前擊出,而“揮手”動(dòng)作是兩只手在身體兩側(cè)左右揮動(dòng)。除了這個(gè)區(qū)別外,其他身體部位的結(jié)構(gòu)位置均是相似的。因而,要有效區(qū)分這2種動(dòng)作,需要重點(diǎn)關(guān)注手部的運(yùn)動(dòng)信息。本文將這些具有高判別力的肢體稱為關(guān)鍵肢體,并提出了一個(gè)基于關(guān)鍵肢體的魯棒,有效的動(dòng)作特征描述子,用于行為識(shí)別研究中。
姿態(tài)信息的動(dòng)作識(shí)別方法,首先估計(jì)每一幀中人的姿態(tài)信息,然后將連續(xù)幀的姿態(tài)信息轉(zhuǎn)化為沿著時(shí)間軸的姿態(tài)軌跡,再將姿態(tài)軌跡映射為動(dòng)作特征,用于動(dòng)作識(shí)別。隨著當(dāng)前姿態(tài)估計(jì)領(lǐng)域的發(fā)展,基于姿態(tài)的動(dòng)作識(shí)別的準(zhǔn)確率也在顯而易見地提高。目前比較廣泛使用的姿態(tài)估計(jì)方法包括Poselet[9]、DPM[10]、Y.Yang[11-12]。Poselet是一個(gè)基于實(shí)例的姿態(tài)估計(jì)方法,通過大量的模板匹配,在圖像中找出與人體肢體部位姿態(tài)相一致的塊。其中Poselet的模板數(shù)超過1 000個(gè),計(jì)算復(fù)雜度遠(yuǎn)高于基于DPM和Y.Yang的算法。Y.Yang在DPM和標(biāo)準(zhǔn)圖案模型[15-17]的基礎(chǔ)上,提出了一個(gè)通用的、靈活的混合模型來捕捉部位間的空間關(guān)系和共生關(guān)系,取得了很好的姿態(tài)估計(jì)效果;并且這個(gè)方法只用了5個(gè)模板,計(jì)算復(fù)雜度低、效率高,是當(dāng)前姿態(tài)估計(jì)領(lǐng)域中的潮流方法。本文采用該算法來估計(jì)姿態(tài)信息。
由于當(dāng)前姿態(tài)估計(jì)算法無法精確估計(jì)所有的身體部位,因此,合理設(shè)計(jì)的特征描述子可以更好地利用提取到的有效的姿態(tài)信息。以往的方法[7-13]利用部位位置信息表述姿態(tài)特征。實(shí)驗(yàn)證明,在對(duì)不同尺度下的動(dòng)作視頻做行為識(shí)別時(shí),利用位置信息構(gòu)建的姿態(tài)特征分類效果不佳,但是每個(gè)部位的角度信息具有尺度不變性。同時(shí)選用的姿態(tài)估計(jì)算法在部位間引入空間限制,這使得僅利用各部位角度信息表述姿態(tài)特征成為可能。因此,在設(shè)計(jì)動(dòng)作特征時(shí)舍棄位置信息,僅提取角度信息。另外,在動(dòng)作建模層面,文獻(xiàn)[6-7]利用聚類算法在訓(xùn)練樣本中生成一系列標(biāo)準(zhǔn)姿態(tài),并在測試視頻中每一幀的姿態(tài)信息中找出其最相近的標(biāo)準(zhǔn)姿態(tài)。這種方法在構(gòu)建標(biāo)準(zhǔn)姿態(tài)時(shí)包含了所有部位信息,容易受到?jīng)]有準(zhǔn)確估計(jì)的部位信息的影響,不夠魯棒??紤]了另一種策略,即對(duì)每個(gè)部位單獨(dú)構(gòu)建特征,選取關(guān)鍵部位并級(jí)聯(lián)組成動(dòng)作特征向量。同時(shí),受同一肢體的上部和下部(如大臂和小臂)的角度有相關(guān)性聯(lián)系的啟發(fā),在設(shè)計(jì)特征時(shí)引入共生關(guān)系并稱之為成對(duì)肢體特征。
圖1顯示了關(guān)鍵肢體角度直方圖的基本流程。首先,采用Y.Yang提出的姿態(tài)估計(jì)算法對(duì)輸入視頻進(jìn)行姿態(tài)估計(jì),獲取每一幀各個(gè)部位點(diǎn)的位置信息。然后,本文將具有生理關(guān)聯(lián)性的部位點(diǎn)連接,并定義為肢體,利用部位點(diǎn)對(duì)的位置信息來計(jì)算肢體位置和角度信息。根據(jù)各個(gè)肢體對(duì)特定動(dòng)作的判別力大小,選取判別力大的手臂肢體和腿部肢體共8個(gè)部位作為候選關(guān)鍵肢體。
圖1 基于關(guān)鍵肢體角度直方圖的動(dòng)作識(shí)別算法基本流程
設(shè)計(jì)一個(gè)2層的SVM分類器。第1層分類器用于從候選關(guān)鍵肢體當(dāng)中選出關(guān)鍵肢體,將動(dòng)作者軀干的水平位置信息分布直方圖作為特征,根據(jù)這個(gè)特征將動(dòng)作劃分成兩大類:非移動(dòng)類和移動(dòng)類。非移動(dòng)類是指除了手部運(yùn)動(dòng)外,其他肢體運(yùn)動(dòng)較少的行為,只需選用手臂作為關(guān)鍵肢體;移動(dòng)類則是腿部也有運(yùn)動(dòng),因此需要將腿部也作為關(guān)鍵肢體。第2層SVM分類器中,為解決如圖2顯示的不同尺度下姿態(tài)表示問題,僅選用肢體的角度信息做姿態(tài)表示,并利用角度信息定義各個(gè)肢體在每一幀中的運(yùn)動(dòng)類型。然后,設(shè)計(jì)獨(dú)立肢體特征和成對(duì)肢體特征2種運(yùn)動(dòng)類型直方圖的統(tǒng)計(jì)策略,用以統(tǒng)計(jì)各個(gè)肢體在整個(gè)視頻中的不同的運(yùn)動(dòng)類型的出現(xiàn)次數(shù)。最后,將級(jí)聯(lián)的關(guān)鍵肢體的角度直方圖作為動(dòng)作特征,用于做動(dòng)作識(shí)別。
圖2 尺度變化實(shí)例
2.1 姿態(tài)信息估計(jì)
人體姿態(tài)通常呈現(xiàn)出高形變的特點(diǎn),其類內(nèi)表觀差異性大,Y.Yang提出的姿態(tài)估計(jì)[11]具有表觀變化一致性,允許姿態(tài)中人體部位發(fā)生輕微偏移,并可以利用少數(shù)的模板有效地估計(jì)姿態(tài)。該方法和圖案結(jié)構(gòu)模型一樣,都運(yùn)用了多成分的混合模型,其中每個(gè)成分表示訓(xùn)練數(shù)據(jù)集中某種姿態(tài)數(shù)據(jù),并在此基礎(chǔ)上引入共生模型來表示部位間的共生關(guān)系。該姿態(tài)估計(jì)模型包含3個(gè)模型:混合模型、成對(duì)彈簧模型和共生模型。混合模型是無方向圖形結(jié)構(gòu)的混合;成對(duì)彈簧模型是成對(duì)部位間的空間限制;共生模型是同一肢體上的部位在方向上的一致性限制。
姿態(tài)估計(jì)模型輸入一幀圖像lrh,輸出所有部位的位置信息L(設(shè)部位i的位置為li)。其位置信息的計(jì)算公式為
2.2 姿態(tài)表示和候選關(guān)鍵肢體
獲取到關(guān)節(jié)點(diǎn)位置信息矩陣之后,需要對(duì)其進(jìn)行編碼,映射為姿態(tài)特征,并從中選出關(guān)鍵肢體。應(yīng)用姿態(tài)估計(jì)從不同動(dòng)作獲取的姿態(tài)信息如圖3線段所示,相鄰部位點(diǎn)間用線段連接后,在視覺上接近于骨架信息。將這些線段分別定義為小臂、大臂、軀干、小腿、大腿和頭部等肢體,如用直線將右手的部位點(diǎn)lrh和中下臂的部位點(diǎn)lrla連接并定義為右小臂,設(shè)為prla。計(jì)算其對(duì)應(yīng)的線段中點(diǎn)位置(xrla,yrla)和相對(duì)于水平軸的角度θrla。方法如下:
prla=(xrla,yrla,θrla)=
圖3 應(yīng)用姿態(tài)估計(jì)從不同動(dòng)作獲取的姿態(tài)信息
2.3 肢體角度直方圖
在第1層分類器中,主要任務(wù)是將動(dòng)作分為非移動(dòng)類和移動(dòng)類兩大類動(dòng)作,本文提取了軀干的水平位置分布信息并用直方圖特征表示,用來判斷人是否發(fā)生移動(dòng)。
對(duì)非移動(dòng)類動(dòng)作(包括拳擊、拍手和揮手),使用每個(gè)部位設(shè)置10個(gè)運(yùn)動(dòng)類型,并使用成對(duì)肢體特征描述手臂部位。特征向量的維度為2×10×10,為200維。對(duì)移動(dòng)類動(dòng)作(包括慢跑、跑步和走路),用獨(dú)立肢體特征表示手臂部位其中每個(gè)部位包含18個(gè)運(yùn)動(dòng)類型,而腿部部位用成對(duì)肢體特征表示,其中每個(gè)部位包含9個(gè)運(yùn)動(dòng)類型。對(duì)手臂應(yīng)用獨(dú)立肢體特征而不是成對(duì)肢體特征的原因在于:經(jīng)觀察發(fā)現(xiàn),移動(dòng)類的動(dòng)作中,腳部部位的姿態(tài)估計(jì)準(zhǔn)確率更高,而由于手臂部位接近軀干,因此無法準(zhǔn)確估計(jì)手臂的所有部位,在這種情況對(duì)成對(duì)肢體特征的干擾較大而獨(dú)立肢體特征更具有魯棒性。整個(gè)動(dòng)作向量的維度是4×18+2×9×9,為234維。特征提取后同一進(jìn)行歸一化處理。
實(shí)驗(yàn)部分采用KTH action dataset數(shù)據(jù)集[20]做測試。KTH數(shù)據(jù)集包含了600個(gè)灰度視頻,其中共6類動(dòng)作:拳擊、拍手、揮手、慢跑、跑步和走路。這些動(dòng)作分別由25個(gè)參與者在4種不同的場景(戶外、戶外以及尺度變化、戶外以及換其他服裝和室內(nèi))完成。視頻空間分辨率為160×120。
選用70%的視頻作為訓(xùn)練集,并采用交叉驗(yàn)證的方法用對(duì)SVM模型參數(shù)進(jìn)行優(yōu)化。剩下30%視頻作為測試集,重復(fù)4次實(shí)驗(yàn)取平均實(shí)驗(yàn)結(jié)果。在姿態(tài)估計(jì)部分,人工對(duì)每個(gè)動(dòng)作提取15幀圖片,并標(biāo)注部位點(diǎn)位置,用以訓(xùn)練姿態(tài)估計(jì)模型。在姿態(tài)估計(jì)中,嘗試加入視頻姿態(tài)估計(jì)[21]的方法以引入時(shí)間限制模型。實(shí)驗(yàn)驗(yàn)證部位點(diǎn)在某一幀的定位情況會(huì)受到其他幀定位質(zhì)量的影響,最終可能生成低判別力的特征。
3.1 肢體運(yùn)動(dòng)類型的數(shù)目對(duì)比試驗(yàn)
為驗(yàn)證運(yùn)動(dòng)類型的數(shù)目對(duì)分類效果的影響,在第2層分類器中,分別改變非移動(dòng)類(圖4(a))和移動(dòng)類運(yùn)動(dòng)類型的數(shù)目。由于在移動(dòng)類中選取手臂部位和腿部部位作為關(guān)鍵肢體,因此分別只改變腿部運(yùn)動(dòng)類型數(shù)目(圖4(b)點(diǎn)劃線))或手臂運(yùn)動(dòng)類型數(shù)目(圖4(b)虛線),保持另一關(guān)鍵肢體運(yùn)動(dòng)類型數(shù)目不變。
(a) 非移動(dòng)類動(dòng)作
(b) 移動(dòng)類動(dòng)作
圖4中,如果類型數(shù)目低于某個(gè)值時(shí),分類準(zhǔn)確性隨著類型數(shù)目的增加而提升; 但如果類型數(shù)目超過某個(gè)值時(shí),分類準(zhǔn)確率就會(huì)下降。證明了更多的運(yùn)動(dòng)類型可以更好地表示動(dòng)作,但當(dāng)類型數(shù)目超過一定值時(shí),魯棒性會(huì)下降,姿態(tài)估計(jì)的質(zhì)量對(duì)動(dòng)作識(shí)別的影響更大。
3.2 移動(dòng)類用成對(duì)肢體特征表示手臂
同時(shí),為驗(yàn)證對(duì)手臂部位的定位誤差對(duì)共生關(guān)系以及分類準(zhǔn)確性的影響,在移動(dòng)類中,用成對(duì)肢體特征表示手臂,替代原先的獨(dú)立肢體特征。并且實(shí)驗(yàn)過程中,固定腿部肢體運(yùn)動(dòng)類型數(shù)目為9,改變手臂肢體運(yùn)動(dòng)類型數(shù)目。實(shí)驗(yàn)結(jié)果如圖4(b)中實(shí)線所示,由于姿態(tài)估計(jì)算法尚不夠獲得完整準(zhǔn)確的結(jié)果,成對(duì)肢體特征容易受到單個(gè)部位定位誤差的影響,因此魯棒性不如獨(dú)立肢體特征。
3.3 用聚類算法替代角度直方圖特征
除此之外,針對(duì)移動(dòng)類動(dòng)作,文中還對(duì)比了角度特征和相對(duì)位置特征2種姿態(tài)描述子的效果,由于相對(duì)位置特征不適合用本文的角度直方圖特征,因此應(yīng)用了Sermetcan[6]和 LI Wang[7]的方法,利用K-Means聚類[22]對(duì)所有訓(xùn)練集的姿態(tài)描述子進(jìn)行聚類,生成的聚類中心即為標(biāo)準(zhǔn)姿態(tài)。對(duì)于測試集,對(duì)每幀的姿態(tài)描述子利用KNN算法,尋找最相似的標(biāo)準(zhǔn)姿態(tài),并用直方圖統(tǒng)計(jì)各個(gè)標(biāo)準(zhǔn)姿態(tài)的出現(xiàn)次數(shù)。
表1 2種姿態(tài)描述結(jié)合K-Means聚類與K-NN在移動(dòng)類的動(dòng)作的準(zhǔn)率
Table 1 Accuracy of pose feature together with K-Means and K_NN on Moving category: (a) angle feature; (b) relative position feature
姿態(tài)描述慢跑跑步走路相對(duì)位置特征0.770.570.93角度特征0.800.690.90
實(shí)驗(yàn)結(jié)果如表1所示,與相對(duì)位置特征相比,角度特征可以更好地區(qū)分不同尺度下的動(dòng)作。但同時(shí),這2種特征,與采用聚類算法生成標(biāo)準(zhǔn)姿態(tài)相比,本文方法中對(duì)每個(gè)部位獨(dú)立構(gòu)建特征并級(jí)聯(lián)成行為特征的策略可以有效降低計(jì)算復(fù)雜度,且具有更高的判別力。
3.4 本文方法與當(dāng)前行為識(shí)別算法對(duì)比
實(shí)驗(yàn)當(dāng)中還對(duì)2種當(dāng)前較為常用的分類器效果進(jìn)行對(duì)比:SVM分類器和Softmax Regression分類器,實(shí)驗(yàn)結(jié)果如圖5的混淆矩陣所示。其中,SVM分類器的動(dòng)作識(shí)別的平均準(zhǔn)確率達(dá)到94.9%,而Softmax Regression分類器的準(zhǔn)確率為85.4%。
圖5 KTH數(shù)據(jù)集上識(shí)別效果的混淆矩陣
為了驗(yàn)證本文方法的準(zhǔn)確率,分別與當(dāng)前的主流算法進(jìn)行對(duì)比。表2是本文方法和基于姿態(tài)的行為識(shí)別方法,在KTH動(dòng)作數(shù)據(jù)集上具體動(dòng)作的準(zhǔn)確率,觀察可得,本文方法在各個(gè)動(dòng)作的識(shí)別中都有了較大的提升。表3是本文方法與當(dāng)前經(jīng)典的低維或者中維局部特征的動(dòng)作識(shí)別方法在KTH數(shù)據(jù)集上的平均準(zhǔn)確率實(shí)驗(yàn)結(jié)果對(duì)比。其中,在跑步動(dòng)作中常無法準(zhǔn)確識(shí)別,主要在于其骨架結(jié)構(gòu)與慢跑近似,甚至肉眼也無法準(zhǔn)確分辨。
表2 基于姿態(tài)的動(dòng)作識(shí)別算法在KTH動(dòng)作數(shù)據(jù)集的準(zhǔn)確率
Table 2 Recognition accuracy on KTH action dataset of pose-based method/%
方法拳擊拍手揮手慢跑跑步走路LiWang[7]0.760.880.961.0——Sermetcan[6]0.900.960.940.870.980.84本文方法0.970.970.970.970.831.0
表3 動(dòng)作識(shí)別算法在KTH數(shù)據(jù)集的平均準(zhǔn)確率Table 3 Recognition accuracy on KTH action dataset
由于姿態(tài)估計(jì)算法本身一直是一個(gè)復(fù)雜的研究問題,基于姿態(tài)的行為識(shí)別方法一直無法獲得滿意的效果。結(jié)合當(dāng)前最優(yōu)的姿態(tài)估計(jì)算法,我們設(shè)計(jì)了2層的分類器,第1層分類器用于選取關(guān)鍵肢體;在第2層分類器中,為解決不同尺度下的動(dòng)作分類,僅用角度信息表示姿態(tài),并提出了關(guān)鍵肢體角度直方圖的動(dòng)作特征,在姿態(tài)估計(jì)尚存在一定程度的估計(jì)誤差時(shí),依然能較為準(zhǔn)確的識(shí)別動(dòng)作。
當(dāng)前對(duì)每幀獨(dú)立地進(jìn)行姿態(tài)識(shí)別,并且在構(gòu)建動(dòng)作特征時(shí),僅用空間信息進(jìn)行行為識(shí)別,已獲得較精確的結(jié)果。如何在動(dòng)作特征中引入前后時(shí)間關(guān)系,并保證特征的魯棒性,使其可以應(yīng)用于更為復(fù)雜的動(dòng)作場景中,會(huì)是將來研究的重點(diǎn)方向。
[1]YANG Weilong, WANG Yang, MORI G. Recognizing human actions from still images with latent poses[C]//IEEE Conference on Computer Vision and Pattern Recognition. San Francisco, USA, 2010: 2030-2037.
[2]LAPTEV I. On space-time interest points[J]. International Journal of Computer Vision, 2005, 64(2/3): 107-123.
[3]WANG H, KLASER A, SCHMID C, et al. Action recognition by dense trajectories[C]//IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA, 2011: 3169-3176.
[4]KLASER A, MARSZALEK M, SCHMID C. A spatio-temporal descriptor based on 3d-gradients[C]// British Machine Vision Conference. Leeds, UK, 2008: 275-285.
[5]SADANAND S, CORSO J. Action bank: a high-level representation of activity in video[C]//IEEE Conference on Computer Vision and Pattern Recognition. [s.l.], 2012: 1234-1241.
[6]BAYSAL S, DUYGULU P. A line based pose representation for human action recognition[J]. Signal Processing: Image Communication, 2013, 28(5): 458-471.
[7]LI Wang, LI Cheng. Human action recognition from boosted pose estimation[C]//International Conference on Digital Image Computing: Techniques and Applications. Sydney, AU, 2010: 308-313.
[8]徐光祐,曹媛媛. 動(dòng)作識(shí)別和行為理解綜述[J]. 中國圖像圖形學(xué)報(bào), 2009,14(2): 189-195. XU Guangyou, CAO Yuanyuan. Action recognition and activity understanding: a review[J]. Journal of Image and Graphics, 2009, 14(2): 189-195.
[9]BOURDEV L, MALIK J. Poselets: body part detectors training using 3-D human pose annotations[C]// IEEE International Conference on Computer Vision. [s.l.], 2009: 1365-1372.
[10]FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multi scale, deformable part model[C]//IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1-8.
[11]YANG Y, RAMANAN D. Articulated pose estimation with flexible mixtures-of-parts[C]//IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA, 2011: 1385-1392.
[12]YANG Y, RAMANAN D. Articulated human detection with flexible mixtures of parts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(12): 2878-2890.
[13]WANG Jiang, LIU Zicheng, WU Ying. Ming acionlet ensemble for action recognition with depth cameras[C]//IEEE Conference on Computer Vision and Pattern Recognition. [s.l.], USA, 2012: 1290-1297.
[14]雷慶,李紹滋. 動(dòng)作識(shí)別中局部時(shí)空特征的運(yùn)動(dòng)表示方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(34): 7-10. LEI Qing, LI Shaozi. Research on local spatio-temporal features for action recognition[J]. Computer Engineering and Applications, 2010, 46(34): 7-10.
[15]EPSHTEIN B, ULLMAN S. Semantic hierarchies for recognizing objects and parts[C]//IEEE Conference on Computer Vision and Pattern Recognition.[S.l.], 2007: 1-8.
[16]FELZENSZWALB P, HUTTENLOCHER D. Pictorial structures for object recognition[J]. International Journal of Computer Vision, 2005, 61(1): 55-79.
[17]FELZENSZWALB P, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part based models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[18]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.[S.l.], 2005: 886-893.
[19]曲永宇,劉清,郭建明. 基于HOG和顏色特征的行人檢測[J]. 武漢理工大學(xué)學(xué)報(bào), 2011, 33(4):134-141. QU Yongyu, LIU Qing, GUO Jianming. HOG and color based pedestrian detection[J]. Journal of Wuhan University of Technology, 2011, 33(4): 134-141.
[20]LAPTEV I, CAPUTO B, SCHULDT Christian. Local velocity-adapted motion events for spatio-temporal recognition[J]. Computer Vision and Image Understanding, 2007, 108: 207-229.
[21]BURGOS-ARTIZZU X P, HALL D, PIETRO P, et al. Merging pose estimates across space and time[C]//British Machine Vision Conference. Bristol, UK, 2013: 58-69.
[22]王千,王成,馮振元. K-means聚類算法研究綜述[J]. 電子設(shè)計(jì)工程, 2012, 20(7): 21-24. WANG Qian, WANG Cheng, FENG Zhenyuan. Review of K-means cluster algorithm[J]. Electronic Design Engineering, 2012, 20(7): 21-24.
[23]LAPTEV I, MARSZALEK M, SCHMID C, el al. Learning realistic human actions from movies[C]//IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1-8.
[24]BREGONZIO M, GONG S, XIANG T. Recognizing action as clouds of space-time interest points[C]//IEEE Conference on Computer Vision and Pattern Recognition. Miami,
USA, 2009: 1948-1955.
[25]LIU J, SHAH M. Learning human actions via information maximization[C]//IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, USA, 2008: 1-8.
[26]WU X, XU D, DUAN L,et al. Action recognition using context and appearance distribution features[C]//IEEE Conference on Computer Vision and Pattern Recognition. Colorado, USA, 2011: 489-496.
[27]GILBERT A, ILLINGWORTH J, BOWDEN R. Fast realistic multi-action recognition using mined dense spatio-temporal features[C]//IEEE Conference on Computer Vision and Pattern Recognition. Miami, USA, 2009: 925-931.
[28]凌志剛,趙春暉,梁彥. 基于視覺的人行為理解綜述[J]. 計(jì)算機(jī)應(yīng)用研究, 2008, 25(9): 2570-2578. LING Zhigang, ZHAO Chunhui, LIANG Yan. Survey on vision-based human action understanding[J]. Application Research of Computers, 2008, 25(9): 2570-2578.
莊偉源,男,1990年生,碩士研究生,主要研究方向?yàn)槿梭w行為識(shí)別、計(jì)算機(jī)視覺、深度學(xué)習(xí)。
林賢明,男,1980年生,助理教授,博士,主要研究方向?yàn)槿梭w行為識(shí)別、移動(dòng)視覺搜索、計(jì)算機(jī)視覺、模式識(shí)別。
李紹滋,男,1963年生,教授,博士生導(dǎo)師,博士,福建省人工智能學(xué)會(huì)副理事長兼秘書長,主要研究方向?yàn)檫\(yùn)動(dòng)目標(biāo)檢測與識(shí)別、自然語言處理與多媒體信息檢索等。發(fā)表學(xué)術(shù)論文160余篇,其中被SCI檢索16篇、被EI檢索142篇。
Action recognition based on the angle histogram of key parts
ZHUANG Weiyuan1, 3, CHENG Yun2, LIN Xianming1, 3, SU Songzhi1, 3, CAO Donglin1, 3, LI Shaozi1, 3
(1. School of Information Science and Technology, Xiamen University, Xiamen 361005, China; 2 Department of Communication and Control Engineering, Hunan University of Humanities, Science and Technology,Loudi 417000,China; 3. Fujian Key Laboratory of the Brain-Like Intelligent Systems, Xiamen 361005, China)
The current pose-based methods usually make a strong assumption for the accuracy of pose, but when the pose analysis is not precise, these methods cannot achieve satisfying results of recognition. Therefore, this paper proposed a low-dimensional and robust descriptor on the gesture feature of the human body based on the angle histogram of key limbs, which is used to map the entire action video into an feature vector. A co-occurrence model is introduced into the feature vector for expressing the relationship among limbs. Finally, a two-layer support vector machine (SVM) classifier is designed. The first layer is used to select highly discriminative limbs as key limbs and the second layer takes angle histogram of key limbs as the feature vector for action recognition. Experiment results demonstrated that the action feature based on angle histogram of key limbs has excellent judgment ability, may properly distinguish similar actions and achieve better recognition effect.
angle feature; action recognition; key parts; angle histogram; pose representation; action analyze; action feature
2014-10-24.
日期:2015-01-13.
國家自然科學(xué)基金資助項(xiàng)目(61202143);福建省自然科學(xué)基金資助項(xiàng)目(2013J05100,2010J01345,2011J01367);廈門市科技重點(diǎn)項(xiàng)目資助項(xiàng)目(3502Z20123017).
林賢明. E-mail:linxm@xmu.edu.cn.
10.3969/j.issn.1673-4785.201410039
http://www.cnki.net/kcms/doi/10.3969/j.issn.1673-4785.201410039.html
TP391.4
A
1673-4785(2015)01-0020-07
莊偉源,成運(yùn),林賢明,等. 關(guān)鍵肢體角度直方圖的行為識(shí)別[J]. 智能系統(tǒng)學(xué)報(bào), 2014, 10(1): 20-26.
英文引用格式:ZHUANG Weiyuan, CHENG Yun, LIN Xianming, et al. Action recognition based on the angle histogram of key parts[J]. CAAI Transactions on Intelligent Systems, 2014, 10(1): 20-26.