高文靜,琚行松
基于無監(jiān)督學(xué)習(xí)的視頻中人體動作識別綜述
高文靜,琚行松
(唐山師范學(xué)院 信息技術(shù)中心,河北 唐山 063000)
對視頻中無監(jiān)督的人體動作識別方法進行了綜述?;诰垲惡突诮稻S的傳統(tǒng)無監(jiān)督學(xué)習(xí)識別算法,對前期動作特征的設(shè)計和提取有較高的依賴及敏感性;基于卷積神經(jīng)網(wǎng)絡(luò)和基于遞歸神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)無監(jiān)督識別方法能夠自動提取動作特征,因而彌補了傳統(tǒng)方法手工提取特征的不足,但也帶來了新挑戰(zhàn)。
動作識別;無監(jiān)督學(xué)習(xí);聚類;降維;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);遞歸神經(jīng)網(wǎng)絡(luò)
視頻中的人體動作識別已經(jīng)成為計算機視覺領(lǐng)域研究的熱點并廣泛應(yīng)用于視頻監(jiān)控、人機交互、自動標(biāo)簽、賽事分析等多個領(lǐng)域[1,2]。然而,通過對視頻幀的處理,檢測跟蹤人體肢體動作,建立視頻數(shù)據(jù)與實際動作間的聯(lián)系,從而使得機器像人類一樣理解視頻并給出分類結(jié)果,仍然是一項重大的挑戰(zhàn)。
根據(jù)識別過程中是否對樣本加注標(biāo)簽可將人體動作識別方法主要分為有監(jiān)督的(supervised)和無監(jiān)督的(unsupervised)動作識別方法,如圖1所示。有監(jiān)督的動作識別方法首先需要將樣本集中所有樣本加注分類標(biāo)簽。將樣本集分為訓(xùn)練樣本子集1(對應(yīng)標(biāo)簽集(1))與測試樣本子集2(對應(yīng)標(biāo)簽集(2))。()為分類算法對應(yīng)的輸出。分類過程分為訓(xùn)練過程和測試過程。訓(xùn)練過程的目標(biāo)是找到使得(1)與(1)不同的次數(shù)最少的損失函數(shù)。然后,在測試過程中利用訓(xùn)練過程找到的損失函數(shù),測試(2)與(2)間的差距[4-7]。
圖1 有監(jiān)督與無監(jiān)督圖示[3]
有監(jiān)督的動作識別方法需要在早期對訓(xùn)練集創(chuàng)建標(biāo)簽進行預(yù)訓(xùn)練,需要消耗大量的人力進行手工標(biāo)簽。但是,在現(xiàn)實的分類問題中,創(chuàng)建帶標(biāo)簽的訓(xùn)練數(shù)據(jù)集并不可行,而且對特定樣本的訓(xùn)練過程難以推廣到實際通用的環(huán)境中,因此,越來越多的研究轉(zhuǎn)向不加標(biāo)簽的樣本數(shù)據(jù)識別,稱為無監(jiān)督的動作識別方法[8-12]。
無監(jiān)督學(xué)習(xí)是以無標(biāo)簽的樣本數(shù)據(jù)集
={1,2,3, …,n}
為研究對象,學(xué)習(xí)樣本數(shù)據(jù)內(nèi)部的潛在規(guī)律和結(jié)構(gòu)信息,比如人體動作,并獲得相應(yīng)的輸出
()=[(1),(X),(3), …,(n)],
進而依據(jù)輸出信息把無標(biāo)簽樣本數(shù)據(jù)信息劃分到不同類別的簇、生成輸入數(shù)據(jù)的高維樣本數(shù)據(jù)的低維結(jié)構(gòu),或者直接輸出分類結(jié)果。最后,將輸出結(jié)果與真實情況比較得到算法的精確度。
動作特征是視頻中描述人體動作、反映運動信息的重要部分[13]。根據(jù)是否手工設(shè)計動作特征可將無監(jiān)督的動作識別算法分為傳統(tǒng)的動作識別方法與基于深度學(xué)習(xí)的動作識別方法。如圖2所示。
圖2 無監(jiān)督動作識別方法分類
傳統(tǒng)的人體動作識別方法首先需要手工設(shè)計并提取動作特征,之后基于提取的動作特征進行動作識別或分類[14]。廣泛采用的動作特征主要分為全局特征和局部特征。全局特征主要通過計算視頻幀的運動能量圖(motion energy image,MEI)、運動歷史圖(motion history image,MHI)提取動作模板特征;局部特征是通過對人體發(fā)生運動的部位進行跟蹤,計算局部區(qū)域的亮度梯度(gradient of brightness)、梯度直方圖(histogram of gradient,HOG)、光流直方圖(histogram of optical flow,HOF)、運動邊界直方圖(motion boundary histo- gram,MBH)等,提取時空關(guān)鍵點特征、運動部位的軌跡特征。還有一些算法通過計算視頻幀的局部二值模式(local binary pattern,LBP)提取圖像紋理等外觀特征[15]。在得到相應(yīng)動作特征后主要采用聚類或降維的方法對特征進行處理或建模,進而得到分類結(jié)果。
2.1.1 基于聚類
聚類算法是在提取到樣本的動作特征后,計算樣本特征的距離(通常計算歐氏距離)。將距離最近的樣本特征劃分到相同的類別中,從而得到分類結(jié)果[16]。
圖3 聚類算法一般流程[16]
Lui[17]和Niebles[18]在提取到時空關(guān)鍵點組成的時空立方體的亮度梯度特征后,將視頻表示成張量,再把張量映射成Grassmann乘積流形上的一點,如圖4中的圓點。然后通過計算流形上兩個點之間的測地距離進行聚類從而實現(xiàn)動作分類。
圖4 乘積流形距離[17]
Nater[19]通過采用自頂向下的層次聚類(hier- archical cluster,HC)對人體動作進行分類識別。首先提取到樣本局部時空特征后,將所有的樣本都置于同一個動作類中,然后不斷迭代計算不同樣本特征的距離。在每次迭代中,一個動作類被分裂為更小的動作類,直到每個視頻樣本被歸入相應(yīng)的某種單獨類中,最終得到分類結(jié)果。如圖5所示。
在一個完全無監(jiān)督學(xué)習(xí)的環(huán)境中,動作的類別數(shù)是未知的,層次聚類不需要在開始設(shè)定類別的個數(shù),因而更符合實際情況。
圖5 在不同層C(i)上的聚類結(jié)果[19]
2.1.2 基于降維
廣泛使用的基于降維思想的動作識別方法主要有主成分分析法(principal component analysis,PCA)。PCA方法首先將樣本的特征矩陣投影到一個超平面;然后選取方差盡可能大的、相互正交的、互不相關(guān)的特征作為樣本的主成分,使樣本的特征矩陣在超平面上的投影盡可能分散,從而實現(xiàn)分類。通過映射得到樣本主成分特征,既消除了冗余的樣本特征數(shù)據(jù),又盡可能多地保留了樣本原始特征數(shù)據(jù)。
圖6 PCA降維[20]
劉志強等人[21]借助kinect傳感器提取到人體骨骼關(guān)鍵點的動作特征后,采用PCA對特征進行過濾重組,并采用了兩種協(xié)方差矩陣構(gòu)造方法進行主成分分析。呂想[22]跟蹤人體運動曲線,提取手、腳、軀體輪廓的光流特征,然后將收集到的特征通過PCA進行降維得到特征矩陣。
傳統(tǒng)的無監(jiān)督動作識別方法,在手工提取特征階段存在設(shè)計失誤和嚴(yán)重耗時等現(xiàn)象,降低了動作識別的準(zhǔn)確率和時效性。基于深度學(xué)習(xí)的動作識別使用深度網(wǎng)絡(luò)從原始視頻中自動學(xué)習(xí)特征并輸出分類結(jié)果,是一種端到端的方法,具有更強的魯棒性。根據(jù)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的不同,無監(jiān)督的深度學(xué)習(xí)動作識別方法主要分為基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)的動作識別和基于遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)的動作識別。
2.2.1 基于卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種前饋人工神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)對特征學(xué)習(xí)的過程是從數(shù)據(jù)的底層開始,向頂層逐層訓(xùn)練參數(shù),整個過程是無監(jiān)督的[8-12]。在學(xué)習(xí)過程中,首先以無標(biāo)記的數(shù)據(jù)訓(xùn)練第一層的參數(shù)。根據(jù)模型的容量限制和稀疏性約束條件,模型學(xué)習(xí)到數(shù)據(jù)的自身結(jié)構(gòu),得到數(shù)據(jù)更具表征的特征。然后,將下一層的輸出作為上一層的輸入,再進行訓(xùn)練得到每層參數(shù)。在第層的第個特征的映射(,)的計算如式(1)[23]:
式中,是一個非線性的激活函數(shù),是權(quán)重矩陣,和是卷積核的高和寬。
以上工作沒有利用視頻中的時間信息,而一些動作是能夠通過時間信息來重點區(qū)分的,例如行走和跑步。現(xiàn)有兩種方式可以引入時間信息。
2.2.1.1 3D CNN
Kim等人[24-26]通過3D CNN引入時間信息:
式中,、、和與式(1)相同,是卷積核內(nèi)核的時間長度。
Tran等人[27]在前者的基礎(chǔ)上提出了一種基于線性分類器的C3D方法(convolutional 3D),其網(wǎng)絡(luò)由5個卷積層、5個最大池化層、2個全連接層和1個softmax損失層組成。為了進一步提高三維卷積網(wǎng)絡(luò)的泛化能力,Qiu 等人[28]提出了另一種構(gòu)建深度三維卷積網(wǎng)絡(luò)的方法——偽三維殘差網(wǎng)(pseudo-3D residual net,P3D ResNet),使用一個1×3×3卷積層和一個3×1×1卷積層的組合來代替標(biāo)準(zhǔn)的3D 卷積。
3D CNN通??紤]比較短的時間間隔,因此無法捕獲長期的時間信息。
2.2.1.2 基于雙流CNN
Simonyan[29]等人為引入時間信息,提出了基于CNN的空間流與時間流的雙流模型進行動作識別,如圖7所示??臻g流采用CNN獲取視頻中所描述的場景和對象的信息,時間流以跨幀的運動形式獲取觀察者(相機)和物體運動的時間信息。得到兩種特征后,將兩種流的softmax得分進行融合,得到最終識別結(jié)果。
圖7 動作識別的雙流結(jié)構(gòu)[29]
Wang[30]在此基礎(chǔ)上采用GoogleNet和VGG- 16深度CNN 結(jié)構(gòu),設(shè)計了一個非常深的雙流模型,同時在訓(xùn)練時做了一些改進,包括對兩個流都進行預(yù)訓(xùn)練,使用更小的學(xué)習(xí)率,更多數(shù)據(jù)增強和高的丟棄(dropout)率。為了最大化利用雙流模型中的時空信息,F(xiàn)eichtenhofer[31]等人在研究了多種時空流的融合方法后,提出了一種改進的雙流模型。該模型在兩個流之間引入了一種新的卷積融合層和一個包含了3D 卷積和3D池化的新型時間融合層,得到了更好的識別效果。
2.2.2 基于遞歸神經(jīng)網(wǎng)絡(luò)
視頻樣本包含很多幀,并不是所有幀對動作識別都能起到正向激勵作用。如果將視頻中的所有幀加入計算會增加成本,而且可能降低識別的性能。RNN選擇性地關(guān)注每一幀的輸入動作,并對不同幀的輸出給予不同程度的關(guān)注,同時提取視頻幀序列的上下文語義信息。因此RNN對高層時空特征序列的建模效果更好[32,33]。
Du[34]等人將人體分為左右上肢、軀干、左右下肢5個部分,并分別將此5個部分輸入到5個RNN子網(wǎng)中。在第一層中提取到5種動作特征后,將驅(qū)干子網(wǎng)的動作特征與其他4種子網(wǎng)進行融合變成4種特征,然后將此4種特征輸入到4個RNN子網(wǎng)中進行第二次特征提取。一直到子網(wǎng)提取的特征融合了全部人體的5個部分,最后輸入一個RNN網(wǎng)絡(luò)中,得到識別結(jié)果,如圖8所示。該方法克服了背景、遮擋等干擾,將注意力集中于發(fā)生動作的人體,并分別從人體局部到人體整體的動作特征分別給予關(guān)注,從而有效減少了對分類結(jié)果的干擾。
圖8 分層子網(wǎng)融合遞歸神經(jīng)網(wǎng)絡(luò)識別[34]
Sharma等人[35]將注意力機制融合到RNN,提出了長短期記憶單元(long short term memory,LSTM)。LSTM具有較深的空間和時間架構(gòu)。Sharma創(chuàng)建的模型有選擇地聚焦于視頻幀中存在運動的部分,學(xué)習(xí)與當(dāng)前任務(wù)相關(guān)的視頻幀,并對這些幀給予更高的重視,在注意幾次后對視頻進行分類。李等人[36]引入VideoLSTM,將注意力機制應(yīng)用于卷積模型以發(fā)現(xiàn)相關(guān)的時空體。除此之外,VideoLSTM還采用了從光流圖像中獲得基于運動的注意力,以更好地定位動作。
視頻中的人體動作識別是計算機視覺中十分重要的研究領(lǐng)域,具有廣泛的應(yīng)用前景。本文通過是否手工設(shè)計特征對無監(jiān)督的視頻中人體動作識別的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法進行了討論。最新的發(fā)展已經(jīng)證明深度學(xué)習(xí)對于無監(jiān)督的視頻中人體動作識別的有效性?,F(xiàn)有的深度模型方法然雖然取得了很好的成果,但依然面臨諸多挑戰(zhàn),仍有很多技術(shù)難關(guān)需要攻克。例如,視頻數(shù)據(jù)包含豐富的空間、時間和聲音信息,深度模型的進一步發(fā)展需要充分利用這些不同維度的信息,以更好地完成視頻識別的任務(wù)。
[1] Wang Z, She Q, Smolic A. ACTION-Net: Multipath Excita- tion for Action Recognition[EB/OL]. [2021-06-05]. https:// arxiv.org/abs/2103.07372, 2021: 13209- 13218.
[2] Nagrani A, Chen S, Ross D, et al. Speech2Action: Cross- modal Supervision for Action Recognition[C]// Pro- ceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, IEEE, 2020: 10314-10323.
[3] Schmarje L, Santarossa M, Schrder S M, et al. A survey on Semi-, Self- and Unsupervised Learning in Image Classifi- cation[J]. IEEE Access, 2021, 9: 82146- 82168.
[4] Bobick A, Davis J. An appearance-based representation of action[C]// Intl. Conf. on Pattern Recognition, 1996: 307- 312.
[5] C Yu, H Cheng, C Cheng, et al. Efficient Human Action and Gait Analysis Using Multiresolution Motion Energy Histo- gram[J]. EURASIP Journal on Advances in Signal Process- ing, 2010.
[6] Marszalek M, Laptev I, Schmid C. Actions in context[C] // IEEE Conference on Computer Vision and Pattern Reco- gnition, IEEE, 2009.
[7] Wang H, Yuan C, Hu W, et al. Supervised class-specific dictionary learning for sparse modeling in action recog- nition[J]. Pattern Recognition, 2012, 45(11): 3902-3911.
[8] Jain M, van Gemert J, Snoek C G M. University of Amsterdam at THUMOS challenge 2014[C]// THUMOS Challenge: Notebook Papers, 2014.
[9] Oneata D, Verbeek J, Schmid C. The LEAR submission at Thumos 2014[C]// Proc. ECCV THUMOS Challenge Workshop, 2014: 4-10.
[10] Wang L, Yu Q, Tang X. Action Recognition and Detection by Combining Motion and Appearance Features[C]// THUMOS’14 Action Recognition Challenge, 2014: 1-6.
[11] S Karaman, L Seidenari, A Bimbo. Fast saliency based pooling of Fisher encoded dense trajectories[C]// THUMOS’14 Action Recognition Challenge, 2014.
[12] Jain M, Gemert J, Snoek C. What do 15, 000 object categories tell us about classifying and localizing actions? [C]// IEEE Conference on Computer Vision and Pattern Recognition, 2015: 46-55.
[13] 李亞瑋.視頻動作識別中關(guān)于運動特征的研究[D].南京:東南大學(xué),2018:8.
[14] 黃位.基于多特征融合的人體動作識別[D].西安:西北大學(xué),2021:15.
[15] Zhu Fan, Ling Shao, Jin Xie, et al. From handcrafted to learned representations for human action recognition: A survey. [J]. Image and Visionuting, 2016, 55(2): 42-52.
[16] Xu R, Wunsch Donald. Survey of Clustering Algori- thms[J]. IEEE Transactions on Neural Networks, 2005, 16(3): 645-678.
[17] Lui Y M, Beveridge J R, Kirby M. Action classification on product manifolds[C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CA: IEEE, 2010.
[18] Niebles J C, Wang H, Fei-Fei L. Unsupervised Learning of Human Action Categories Using Spatial-Temporal Words [J]. International Journal of Computer Vision, 2008, 79(3): 299-318.
[19] Nater F, Gr Ab Ner H, Gool L V. Exploiting simple hierarchies for unsupervised human behavior analysis [C] // 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CA: IEEE, 2010.
[20] Muktabh Mayank. Ten Machine Learning Algorithms, You Should Know to Become a Data Scientis[EB/OL]. [2021- 06-05]. https://www.kdnuggets.com/2018/04/10-machine- learning-algorithms-data-scientist.html.
[21] 劉志強,尹建芹,張玲,等.基于Kinect數(shù)據(jù)主成分分析的人體動作識別[C]//2015光學(xué)精密工程論壇論文集, 長春:中科院長春光機所,2015.
[22] 呂想.基于運動曲線的主成分分析方法的人類行為識別研究[D].長春:吉林大學(xué),2013.
[23] Yao G, Lei T, Zhong J. A Review of Convolutional Neural Network Based Action Recognition[J]. Pattern Recog- nition Letters, 2018, 118(FEB.): 14-22.
[24] H Kim, J Lee, H Yang. Human action recognition using a modified convolutional neural network[C]// International Symposium on Advances in Neural Networks, Berlin: Springer-Verlag, 2007: 715-723.
[25] M Baccouche, F Mamalet, C Wolf, et al. Sequential deep learning for human action recognition[C]// Inter- national Conference on Human Behavior Under- standing, 2011: 29-39.
[26] S Ji, W Xu, M Yang, et al. 3D convolutional neural networks for human action recognition[C]// Interna- tional Conference on Machine Learing, 2010: 495-502.
[27] Tran D, Bourdev L, Fergus R, et al. Learning spatio- temporal features with 3D convolutional networks[C]// 15th IEEE International Conference on Computer Vision, 2015: 4489-4497.
[28] Qiu Z, Yao T, Mei T. Learning spatio-temporal represen- tation with pseudo-3d residual networks[C]// 17th IEEE International Conference on Computer Vision, 2017: 5534-5542.
[29] Simonyan K, Zisserman A. Two-Stream Convolutional Networks for Action Recognition in Videos[C]// Advan- ces in neural information processing systems, 2014: 568- 576.
[30] Wang L, Qiao Y, Tang X. Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors [C]// Proceedings of the IEEE Computer Society Con- ference on Computer Vision and Pattern Recognition, 2015: 4305-4314.
[31] Feichtenhofer C, Pinz A, Zisserman A. Convolutional Two-Stream Network Fusion for Video Action Recog- nition[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recog- nition, 2016: 1933-1941.
[32] Wang X, Miao Z, Zhang R, et al. I3D-LSTM: A New Model for Human Action Recognition[C]// IOP Con- ference Series: Materials Science and Engineering, 2019: 569-571.
[33] Song S, Lan C, Xing J, et al. An End-to-End Spatio- Temporal Attention Model for Human Action Recog- nition from Skeleton Data[C]// 31st AAAI Conference on Artificial Intelligence, AAAI, 2017: 4263-4270.
[34] Du Y, Wang W, Wang L. Hierarchical recurrent neural net- work for skeleton based action recognition[C]// Proceed- ings of the IEEE Computer Society Conference on Com- puter Vision and Pattern Recognition, 2015: 1110- 1118.
[35] Sharma S, Kiros R, Salakhutdinov R. Action Recog- nition using Visual Attention[C]// Neural Information Process- ing Systems: Time Series Workshop, 2015.
[36] Li Z, Gavrilyuk K, Gavves E, et al. Video LSTM convolves, attends and flows for action recognition[J]. Computer Vision and Image Understanding, 2018, 166: 41-50.
[37] Hassner Tal. A Critical Review of Action Recognition Benchmarks[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 2013: 245-250.
A Summary of Human Action Recognition in Video Based on Unsupervised Learning
GAO Wen-jing, JU Xing-song
(Information and Technique Center, Tangshan Normal University, Tangshan 063000, China)
The unsupervised recognition algorithms of human actions in video were summarized. The traditional unsupervised action recognition algorithms including clustering algorithm and dimension reduction algorithm have high dependence and sensitivity on the design and extraction of early action features. The unsupervised deep learning action recognition algorithms including the ones based on convolution neural network and the ones based on recurrent neural network can automatically extract action features, which makes up for the deficiency of manual feature extraction in traditional algorithms, but new challenges are brought about.
action recognition; unsupervised learning; clustering; deep learning; demonsion reduction; convolution neural network; recurrent neural network
TP391
A
1009-9115(2021)06-0057-06
10.3969/j.issn.1009-9115.2021.06.015
唐山師范學(xué)院科學(xué)研究基金項目(2021B36)
2021-07-29
2021-10-25
高文靜(1988-),女,河北唐山人,碩士,講師,研究方向為人工智能、網(wǎng)絡(luò)。
(責(zé)任編輯、校對:田敬軍)