魯統(tǒng)偉 任瑩
摘要:人體行為識別已成為計算機視覺中的一個研究熱點,并且光流法已被應(yīng)用到各種應(yīng)用場合。針對教室內(nèi)學(xué)生的站立和坐下的視頻,提出了基于光流的人體行為識別算法。首先獲取當(dāng)前幀的活動點集,從而得到活動區(qū)域。根據(jù)保存幀的信息統(tǒng)計向上光流和向下光流,結(jié)合當(dāng)前人的狀態(tài),判斷出人的動作。最后進行人的狀態(tài)的更新。在整個視頻處理過程中,該算法重復(fù)以上過程,維持了站立人的狀態(tài)跟蹤。實驗結(jié)果表明,該算法能夠識別出站立和坐下的動作,驗證了該算法的有效性和魯棒性。
關(guān)鍵詞: 光流; 人體行為識別; 跟蹤; 活動區(qū)域; 視頻處理
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)07-1610-03
人體行為識別正成為計算機視覺領(lǐng)域內(nèi)研究的熱點之一,由于它研究的對象是視頻或者圖像序列,而這些是通過快速捕捉和存儲二維圖像形成的,并沒有目標(biāo)之間相對位置的信息,所以給研究者帶來了很大困難。同一個目標(biāo)在不同的成像環(huán)境下會有不同的成像效果,比如光照、視角等變化,另外,目標(biāo)之間相互遮擋,或者有復(fù)雜的重復(fù)背景,都會對目標(biāo)的提取造成困難。即使目標(biāo)已經(jīng)提取出來,由于人的差異性,每個人執(zhí)行同一個動作也會有差異,這為行為識別也帶來一定的困難。
在本文中,以教室內(nèi)的學(xué)生站立或坐下的視頻為研究對象,通過計算光流,實現(xiàn)對學(xué)生的站立和坐下2種動作進行識別。
1 相關(guān)工作
很多研究者已經(jīng)開始人體行為識別[1-2]方面的研究,Rapantzikos[3]用密集顯著特征點識別人的行為。Dai[4]等人利用上下文對動作進行分組交互分析。趙海勇等[5]利用背景差分法和陰影消除技術(shù)從圖像中提取完整的人體輪廓,提出了一種以運動人體的輪廓為特征,基于模板匹配的人體行為識別方法. 李寧等[6]提出了基于"從左到右三狀態(tài)半連接HMM"的人體行為識別方法。錢堃等[7]在概率框架下提出一種基于抽象隱馬爾可夫模型的人運動行為識別方法。韓磊等[8]提出一種基于時空單詞的兩人交互行為識別方法。
光流法[9]也得到了廣泛的應(yīng)用,Brox等[10]處理光流的大偏移問題。Bleyer等[11]討論了顏色對光流的影響。Lei等人[12]利用離散優(yōu)化對光流進行由粗糙到精細(xì)的估計。
2 人的行為識別
本文中人的狀態(tài)有2種:坐和立。人的動作有三種:坐下、起立、維持不變。
整個算法主要分為4個過程:1)獲取活動點集;2)獲取活動區(qū)域;3)獲取人的動作;4)更新人的狀態(tài)。
2.1 獲取活動點集
利用計算出來的光流,對當(dāng)前幀中光流變化比較大的光流所在地位置保存下來。為了達(dá)到實時效果,對整幅圖像進行了采樣,這樣就形成了一個小的圖片,光流大的位置的亮度為255,其它的位置為0。
2.2 獲取活動區(qū)域
在活動點集的基礎(chǔ)上,利用形態(tài)學(xué)中的膨脹和腐蝕操作算子進行處理??紤]到在獲取活動點集中有采樣處理,這里膨脹的半徑要根據(jù)采樣頻率設(shè)置。首先對活動點集進行膨脹操作,然后進行腐蝕。再進行二值圖的輪廓查找,將輪廓比較小的舍棄,保留面積比較大的輪廓。根據(jù)大輪廓上點的坐標(biāo),計算出該輪廓的上下左右邊界,從而得到活動區(qū)域。因為人的動作范圍有可能比較大,這里把活動區(qū)域再往外擴充一半的距離。
2.3 獲取人的動作
對每個活動區(qū)域處理,首先查詢該區(qū)域中人的狀態(tài),然后利用保存好的前N幀圖像的信息,統(tǒng)計該區(qū)域內(nèi)的光流變化,得到該序列中向上光流和向下光流的矢量和。
因為人的一些習(xí)慣問題,在沒有站立或坐下動作時,可能會有左右晃動,側(cè)身,抬頭,往前趴,往后靠等,都會引起光流的變化。這里分為有動作的處理和無動作的處理。
1)有動作的處理
在標(biāo)準(zhǔn)的站立和坐下情況下,根據(jù)向上光流和向下光流就可以判斷出人的動作。但在實驗過程中,由于每個人的站立和坐下的形態(tài)是不一樣的,而且由于攝像頭變形的原因,需要做更多的處理。對于標(biāo)準(zhǔn)站立的人,只根據(jù)向上光流就可以判斷人的行為。同樣,對于標(biāo)準(zhǔn)坐下的人,只根據(jù)向下光流就可以判斷人的行為。但有的人站立時會先彎腰,然后再站起來,這樣會先產(chǎn)生向下光流,然后才是向上光流,同樣,有點人坐下時會先彎腰坐下,然后往后靠,這樣會先產(chǎn)生向下光流,然后是向上光流。所以本文將站立分為以下2種:1)筆直站立;2)彎曲站立,同樣,將坐下分為2種:1)筆直坐下;2)彎曲坐下。
2)無動作的處理
人的左右晃動或者側(cè)身,引起的向上或向下光流很少,大部分是橫向的光流,所以在實驗過程中可以利用垂直方向的光流排除掉這類行為。對于抬頭的行為來說,沒有站立或做下引起的光流變化大,所以可以用一個門限來排除。對于往前趴并且隨后直起身子的行為,其引起的光流變化如同彎曲站立引起的變化,但總的矢量和近似于零,而彎曲站立的矢量和比較大。相似地,往后靠并且隨后直起身子的行為,其引起的光流矢量和近似于零,所以也可以排除掉。
2.4更新人的狀態(tài)
人在站立狀態(tài)的時候,如果時間比較長,那么在當(dāng)前幀不會得到活動區(qū)域,這樣人的狀態(tài)就沒有辦法維持。所以需要一個狀態(tài)表記錄每幀中站立人的狀態(tài)。該狀態(tài)表需要記錄站立人的位置、區(qū)域和幀號。這樣在判斷下一幀人的動作的時候就可以更準(zhǔn)確的判斷。如人在站立狀態(tài)的時候,僅有坐下或者維持不變兩種動作,同樣的,人在坐下狀態(tài)時,僅有站立或者維持不變兩種動作。最后,在顯示的時候,就只需要根據(jù)該狀態(tài)表把當(dāng)前幀中站立的人顯示出來。
3 實驗
采用本文算法對實際視頻進行實驗,攝像頭位于教室黑板的上方,以斜下視方式對準(zhǔn)學(xué)生。視頻圖像分辨率為720×576像素。教室內(nèi)的學(xué)生只有2種狀態(tài):坐和立,動作有3種:站立、坐下和維持不變。在整個視頻中,把站立和坐下的動作識別并標(biāo)識出來。識別出來的站立動作如圖2所示,分別為視頻中的第1、5、9、13、17、21幀,識別出來的坐下動作如圖3所示,分別是視頻中的43、47、51、55、59、63幀。
對整個視頻進行統(tǒng)計站立和坐下的次數(shù),與真實結(jié)果進行比較,其結(jié)果如表1所示。從結(jié)果來看,算法能夠準(zhǔn)確的識別出站立和坐下的動作。
4 結(jié)論
本文以教室內(nèi)學(xué)生的站立和坐下的視頻為研究對象,提出了一種基于光流的人體行為識別算法,整個算法主要分為4個過程:1)獲取活動點集;2)獲取活動區(qū)域;3)獲取人的動作;4)更新人的狀態(tài)。該過程在每幀圖像進行處理,并保存以前結(jié)果作為下一幀識別的依據(jù)。實驗結(jié)果表明了該算法的實時性和有效性。
參考文獻(xiàn):
[1] 阮濤濤,姚明海,瞿心昱,等.基于視覺的人體運動分析綜述[J].計算機系統(tǒng)應(yīng)用,2011,(2): 245-247.
[2] Turaga P, Chellappa R, Subrahmanian V S, et al. Machine recognition of human activities: A survey. IEEE Trans. Circuits Syst. Video Technol. 2008,18, (11): 1473-1488.
[3] Rapantzikos, K., Avrithis, Y., and Kollias, S. Dense saliency-based spatiotemporal feature points for action recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, Los Alamitos, CA, 2009: 1454-1461.
[4] Dai, P., Di, H., Dong, L., Tao, L., and Xu, G. Group interaction analysis in dynamic context[J]. IEEE Trans. Syst. Man Cybern. Part B. 2008,38( 1): 275--282.
[5] 趙海勇,劉志鏡,張浩. 基于模板匹配的人體日常行為識別[J].湖南大學(xué)學(xué)報:自然科學(xué)版,2011, (02):88-90.
[6] 李寧,須德,傅曉英,袁玲.結(jié)合人體運動特征的行為識別[J].北京交通大學(xué)學(xué)報,2009(02):6-10.
[7] 錢堃,馬旭東,戴先中.基于抽象隱馬爾可夫模型的運動行為識別方法[J].模式識別與人工智能,2009, (03):433-439.
[8] 韓磊,李君峰,賈云得. 基于時空單詞的兩人交互行為識別方法[J]. 計算機學(xué)報. 2010, (04):776-782
[9] Baker S, Scharstein D, Lewis J,et al. A database and evaluation methodology for optical flow[C]. In Proceedings of the IEEE international conference on computer vision. Rio de Janeiro .2007: 1- 8.
[10] Brox T, Bregler C, Malik J. Large displacement optical flow[C]. In Proceedings of the IEEE conference on computer vision and pattern recognition. Miami, FL .2009: 41-48.
[11] Bleyer M, Chambon S. Does color really help in dense stereo matching? [C]In Proceedings of the international symposium 3D data processing, visualization and transmission. Paris, France. 2010:05-17-2010 - 05-20-2010.
[12] Lei C, Yang Y. Optical flow estimation on coarse-to-fine region-trees using discrete optimization[C]. In Proceedings of the IEEE international conference on computer vision. Kyoto .2009: 1562-1569.