吳婷 劉瑞欣 劉明甫 劉海華
收稿日期:2023-06-27
基金項目:國家自然科學基金項目資助項目(61773409)
DOI:10.19850/j.cnki.2096-4706.2024.04.011
摘? 要:近年來,人體行為識別是計算機視覺領域的研究熱點,在諸多領域有著廣泛的應用,例如視頻監(jiān)控、人機交互等。隨著深度學習的發(fā)展,卷積神經網(wǎng)絡作為其領域中表現(xiàn)能力優(yōu)越的人工神經網(wǎng)絡之一,在動作識別領域中發(fā)揮著不可或缺的作用。文章基于深度學習總結基于2D CNN和基于3D CNN的動作識別方法,根據(jù)不同算法搭建的模型進行性能對比,同時對基準數(shù)據(jù)集進行歸納總結。最后探討了未來人體動作識別的研究重難點。
關鍵詞:動作識別;深度學習;卷積神經網(wǎng)絡;圖像分類
中圖分類號:TP183;TP391.4? 文獻標識碼:A? 文章編號:2096-4706(2024)04-0050-06
Summary of Human Behavior Recognition Based on Deep Learning
WU Ting, LIU Ruixin, LIU Mingfu, LIU Haihua
(South-Central Minzu University, Wuhan? 430074, China)
Abstract: In recent years, human behavior recognition is a research hotspot in the field of computer vision, and it has been widely used in many fields, such as video surveillance, human-computer interaction and so on. With the development of Deep Learning, as one of the artificial neural networks with superior performance capabilities in the field, Convolutional Neural Networks plays an indispensable role in the field of action recognition. Based on Deep Learning, this paper summarizes the action recognition methods based on 2D CNN and 3D CNN, compares the performance of models built according to different algorithms, and summarizes the benchmark data sets. Finally, the research key points and difficulties of human action recognition in the future are discussed.
Keywords: action recognition; Deep Learning; Convolution Neural Networks; image classification
0? 引? 言
人體行為識別是計算機視覺領域一大熱題,隨著深度學習的發(fā)展,視頻中人體動作識別課題越發(fā)成熟,在監(jiān)控系統(tǒng)[1,2]、人機交互[3]、智能看護[4]等日常生活中被廣泛應用。
深度學習(Deep Learning)[5,6]是機器學習領域中一個新的研究方向,它逐漸成為計算機視覺領域的熱門研究方法。卷積神經網(wǎng)絡[7](Convolution Neural Networks, CNN)主要用于計算機視覺方面的應用,比如圖像分類、視頻識別[8]、醫(yī)學圖像分析等。由于背景的影響、光線變化以及動作相似性,使得模型識別性能下降。動作識別最重要的特征無關是外觀特征和動作特征,最初卷積神經網(wǎng)絡利用2D卷積核,主要由圖像幀和光流圖像作為輸入,通過卷積層提取出視頻當中的空間和動作特征進行學習,兩者組合到一起初步實現(xiàn)動作識別的目的,后續(xù)學者針對融合策略以及動作的時空特征進行研究。
本文主要從數(shù)據(jù)集和動作識別的深度學習方法兩大方面來介紹。首先介紹了幾大類動作識別的公共數(shù)據(jù)集,從簡單動作到交互動作,從小型數(shù)據(jù)集到大型數(shù)據(jù)庫;其次分別介紹基于2D CNN和基于3D CNN的動作識別方法,根據(jù)不同算法之間的異同點將兩者細分;最后提出未來動作識別所研究的難點及發(fā)展趨勢。
1? 公共數(shù)據(jù)集
行為識別數(shù)據(jù)集是用于訓練和測試不同算法對準確識別人類行為的數(shù)據(jù)集。目前國內外有多個公共人體行為數(shù)據(jù)庫可供廣大研究者學習,它們可以為評估各種不同人體行為識別算法提供一個共同的標準,便于驗證相關算法的可行性。目前,公共行為識別數(shù)據(jù)庫可以分為以下幾種。表1列出了它們的大概信息。
1.1? KTH數(shù)據(jù)庫
KTH [9]是最早的人體行為數(shù)據(jù)集,該人體行為數(shù)據(jù)庫包括6種動作,由25個不同的人執(zhí)行的,分別在四個場景下,一共有25×4×6 = 600段視頻。視頻中的背景相對單一和靜止,拍攝過程中攝像頭穩(wěn)定。KTH數(shù)據(jù)庫部分動作示例如圖1所示。
表1? 公共行為識別數(shù)據(jù)集概覽表
數(shù)據(jù)集 時間 視頻樣本數(shù) 視頻數(shù)
KTH 2004 6 600
UCF sports 2008 10 150
UCF Youtube 2008 11 1 600
UCF50 2012 50 6 676
UCF101 2013 101 13 320
HMDB51 2011 51 6 849
Sports 1M 2014 487 1 133 158
YouTube 8M 2016 3 862 8×106
Kinetics 400 2017 400 3.06×105
Kinetics 600 2018 600 4.82×105
Kinetics 700 2019 700 6.5×105
圖1? KTH部分動作示例
1.2? UCF系列數(shù)據(jù)庫
美國University of Central Florida(UCF)[10,11]自2007年以來發(fā)布的一系列數(shù)據(jù)庫:分別是UCF Sports(2008)、UCF Youtube(2008)、UCF50和UCF101。其中UCF101包含101種動作類別共13 320個視頻。該數(shù)據(jù)集有三個官方拆分方式,大多研究者報告第一個分割方式的分類準確率,或是三種分割方式的平均精度。由于該數(shù)據(jù)集包含很多低質量和不同光照的視頻,所以極具挑戰(zhàn)性。UCF Sports數(shù)據(jù)庫部分動作示例如圖2所示。
圖2? UCF Sports部分動作示例
1.3? HMDB51數(shù)據(jù)庫
HMDB51[12]數(shù)據(jù)集包含51種行為類別共6 849個視頻。該數(shù)據(jù)集有三個與UCF101類似的官方拆分,并且以同樣的方式進行評估。由于視頻中包含的場景復雜、光照變化等因素,是目前最具挑戰(zhàn)性的數(shù)據(jù)集之一。HMDB51數(shù)據(jù)庫部分動作示例如圖3所示。
圖3? HMDB51部分動作示例
1.4? 大型數(shù)據(jù)集
Sports 1M [13]的數(shù)據(jù)集是2014年Google公布的第一個大規(guī)模動作數(shù)據(jù)集,包含487種行為類別共1 133 158個視頻;YouTube 8M [14]數(shù)據(jù)集是迄今位置規(guī)模最大的數(shù)據(jù)集,包含3 862個動作類共800萬個視頻;Kinetics系列數(shù)據(jù)集[15]最先是17年提出的Kinetics 400,包含400個人類行為類別,直至后續(xù)提出的Kinetics 600和Kinetics 700。此類數(shù)據(jù)集包含場景多,數(shù)據(jù)量龐大,極具挑戰(zhàn)性。Sports 1M部分動作示例如圖4所示。
圖4? Sports 1M部分動作示例
2? 基于2D卷積神經網(wǎng)絡的行為識別
卷積神經網(wǎng)絡(CNN)被廣泛應用于靜態(tài)領域的圖像理解中,其遵循3層體系結構,分別是卷積層、池化層和全連接層。在人類行為識別中,視頻被分為空間和時間信息??臻g的視頻幀代表著物體的外觀信息,具體表征為RGB圖像;時間信息指的是幀與幀之間的運動信息,具體表征為光流圖像。最早是Simonyan等人[16]在2014年提出的雙流CNN網(wǎng)絡,其由兩條分支組成,分別處理空間的RGB圖像幀信息和時間維度的若干個圖像幀之間的光流場信息。主干網(wǎng)絡皆為CNN,最后進行softmax融合,如圖5所示。
2.1? 融合網(wǎng)絡
在此之上,很多學者進行了一系列改進。Feichtenhofer等人[17]從融合策略上針對雙流網(wǎng)絡的后期融合,其從卷積層開始進行融合,討論和融合、最大融合、串聯(lián)融合、卷積融合、雙線性融合五種空間融合方式和2D池化、3D池化、3D卷積+3D池化三種時間融合方式,如圖6(a)所示。實驗表明替代后期融合,早期融合受相對網(wǎng)絡的約束,使模型在早期訓練中能從兩支網(wǎng)絡互相學習、互相彌補,一定程度上彌補數(shù)據(jù)不足問題,效果比雙流網(wǎng)絡好?;陔p流和時空融合,F(xiàn)eichtenhofer等人提出同時將殘差網(wǎng)絡和兩個信息流的卷積神經網(wǎng)絡結合,一是在雙流網(wǎng)絡中引入殘差連接[18],通過發(fā)揮殘差單元的跳躍連接的優(yōu)點,允許兩流之間時空交互,并在殘差塊之間添加時間流指向空間流,提出加法融合、乘性融合兩種融合方式,實驗最后對比時間流指向空間流、空間流指向時間流和兩者相互指向的消融實驗,表明第一種方式實驗效果更好;二是在2017年[19]的基礎上,后續(xù)提出在兩條分支中添加采用中心初始化方式的時間濾波器1D卷積以捕獲時間依賴關系,探討其中心和平均兩種初始化方式以及添加位置(每個殘差單元跳躍連接后、每個殘差塊中和僅僅在每個殘差單元的第二個殘差塊3×3卷積層后),如圖6(b)所示。結果表明,采用殘差網(wǎng)絡的2D CNN結構在行為識別十分有效。
(a)雙流融合網(wǎng)絡
(b)時空殘差融合網(wǎng)絡
圖6? Feichtenhofer等人的雙流融合網(wǎng)絡
Wang等人[20]提出一種時空金字塔網(wǎng)絡(Spatiotemporal Pyramid Networks, STPN)來融合空間和時間特征,其結合 卷積神經網(wǎng)絡和空間時間金字塔的結構,通過采樣不同大小的視頻片段來獲得不同尺度的特征圖。每個特征圖由一個3D CNN進行提取,然后將不同尺度的特征圖拼接在一起,形成多尺度的特征表示,隨后將不同金字塔層中的特征進行融合,再將不同動作分類結果進行加權融合。該方法對各種融合策略進行統(tǒng)一建模,在多個動作數(shù)據(jù)集上進行實驗展現(xiàn)其算法優(yōu)越性。
2.2? 其他網(wǎng)絡
除了時空網(wǎng)絡外,針對視頻的輸入形態(tài),即網(wǎng)絡輸入不是視頻幀,而是視頻片段進行探討。Wang等人[21]在雙流網(wǎng)絡的基礎上加入分段和稀疏化采樣的思想,提出具有四種輸入模態(tài)的時域段網(wǎng)絡(Temporal Segment Networks, TSN),如圖7所示,對時間進行稀疏采樣,即將視頻分割成若干時間段,并將每個時間段視為獨立的視頻幀進行處理,但這樣往往忽略了時空特征的交互,使得識別準確性下降??紤]到時間特征提取的困難,設計一些專門處理時間特征的網(wǎng)絡,如對動作識別同樣有效的長短時記憶(LSTM)。采用CNN+LSTM網(wǎng)絡[22]進行時間動力學建模。在這些組合網(wǎng)絡中,CNN用于提取幀特征,LSTM用于伴隨時間的特征集成。
圖7? Wang等人的TSN網(wǎng)絡
基于雙流網(wǎng)絡的動作識別在過去幾年取得了很大的進展。以上方法在時間流的輸入上皆采用光流棧(Optical Flow Stacking),這需要耗費大量的時間和計算成本。為此,后續(xù)研究者直接在視頻序列使用3D卷積神經網(wǎng)絡進行動作識別,一方面不僅可以直接學習到視頻當中的空間和時間特征,減少計算量;另一方面使用3D卷積神經網(wǎng)絡可以學習到更加全面且準確的空間和時間信息,使得識別性能變得更好。
3? 基于3D卷積神經網(wǎng)絡的行為識別
在二維卷積神經網(wǎng)絡中,2D特征圖僅僅處理視頻當中的空間信息,丟失了動作之間的關聯(lián)性。而捕獲視頻的時間特征(長時間和短時間依賴關系)尤為重要。3D CNN將視頻序列看作是一個三維圖像序列,通過卷積神經網(wǎng)絡對其進行處理以提取空間和時間特征,相對于雙流網(wǎng)絡,3D CNN不需要提前提取骨骼或其他先驗特征,具有更強的適應性。
3.1? 時空網(wǎng)絡
對于連續(xù)性的圖像,2D卷積核每次只抽取一幀圖像,對這一幀進行單獨的卷積操作,最后由每一幀的識別結果進行判斷。3D卷積核的卷積操作會涉及前后連續(xù)性的幾幀圖像,因此3D卷積核能夠提取空間領域上的圖像信息,還能考慮連續(xù)幀之間的運動信息。Ji等人[23]首先開發(fā)一個三維CNN模型,它從相鄰的輸入幀提供多個通道,并對每個通道進行三維卷積。Tran等人[24]提出一種C3D網(wǎng)絡架構,它使用多幀作為網(wǎng)絡的輸入,對視頻數(shù)據(jù)進行了端到端的處理,包括時空特征提取和分類。C3D網(wǎng)絡基于3D CNN通過在時間維度引入卷積和池化操作,使得網(wǎng)絡對視頻序列進行建模。Carreira等人提出一種雙流膨脹三維CNN(I3D)[25],如圖8所示,其將ImageNet預訓練的2D CNN延伸到3D CNN中,結合兩者優(yōu)勢,在基于二維的ResNet和Inception架構的基礎上,使用3D卷積來捕捉時間信息。然而I3D網(wǎng)絡具有一定的局限性,如需大量的標記數(shù)據(jù)和需要仔細調整參數(shù)。Tran等人[26]提出R(2+1)D模型,該模型使用一種新的卷積操作,稱為時序分離卷積(Separable Spatiotemporal Convolution)來對時間信息進行建模,在多個數(shù)據(jù)集上取得了較好的效果。該網(wǎng)絡與C3D類似,將2D空間卷積和1D時間卷積并聯(lián)組合替代3D卷積,目的是減少模型中的參數(shù)數(shù)量,提高其效率。
3.2? 融合網(wǎng)絡
基于雙流和3D CNN的卷積網(wǎng)絡在視頻識別任務中取得了良好的性能,因為兩者可以同時捕獲視頻的空間和時間線索,但是皆有其局限性。例如,基于雙流的結構無法學習到真正的時空特征,其采用兩個流的單獨分類分數(shù)的后期融合,而基于3D CNN的方法需要昂貴的內存需求和計算成本。為了避免兩者缺點,Karpathy等人[27]在雙流網(wǎng)絡中提出晚融合、早融合和慢融合三種不同的融合方式,如圖9所示,其一次可以連續(xù)輸入多幀,能夠獲取視頻中的時間信息,再通過一個CNN網(wǎng)絡進行處理。在Feichtenhofer等人[19]提出時空乘性網(wǎng)絡的基礎之上,Zong等人[28]提出多流乘性殘差網(wǎng)絡(MSM-ResNets),在雙流網(wǎng)絡輸入上增加運動顯著圖以捕獲運動信息,然后時間流指向空間流進行一次乘性融合,運動顯著流指向時間流再次進行乘性融合,最后三個分支經過softmax層進行后期融合以達到融合時空特征的效果。Gammulle等人[29]提出一種雙流LSTM網(wǎng)絡,主干網(wǎng)絡是經過ImageNet預訓練的VGG16網(wǎng)絡,利用CNN提取空間特征,利用LSTM提取時間特征,結合兩者形成一個深度融合框架,評估框架融合策略上的優(yōu)劣勢,其中雙流的LSTM表現(xiàn)最好。
圖9? Karpathy等人的雙流融合網(wǎng)絡
3.3? 其他網(wǎng)絡
Donahue等人[30]提出一種結合CNN和LSTM的新型網(wǎng)絡結構,即長期循環(huán)卷積網(wǎng)絡(LRCN),通過CNN網(wǎng)絡提取空間信息,LSTM網(wǎng)絡提取視頻中的時間長期依賴性,最后實現(xiàn)分類。該網(wǎng)絡可以同時處理時序的視頻輸入和單幀圖片輸入,適用于大規(guī)模的視覺理解任務。Zhao等人[31]結合RNN和CNN的優(yōu)勢,提出基于門控循環(huán)單元的雙流神經網(wǎng)絡,空間分支采用3D CNN網(wǎng)絡,時間分支采用RNN網(wǎng)絡,門控循環(huán)單元層之后緊接著批量規(guī)范化和Dropout = 0.75。最后雙流網(wǎng)絡生成的特征通過一個線性SVM分類器進行動作分類。其中RNN網(wǎng)絡使用雙向GRU,輸入為人體的骨架序列,在NTU RGB+D Dataset實現(xiàn)了很好的效果,如圖10所示,表2列出了基于深度學習的行為識別不同算法下準確率對比。
圖10? Zhao等人的RNN/CNN雙流網(wǎng)絡
總體而言,3D CNN在識別效果和效率上較2D CNN是很有競爭力的。但是,3D卷積神經網(wǎng)絡模型參數(shù)量大,網(wǎng)絡結構越深其模型參數(shù)越多,容易出現(xiàn)過擬合現(xiàn)象;且3D卷積核需要同時考慮時間和空間信息,需要消耗大量的計算資源和存儲空間,因此訓練需要很長時間以及很好的硬性資源條件。這些問題會限制基于3D CNN的動作識別方法在實際應用中的可行性和可擴展性。未來,如何通過減少模型參數(shù)來降低模型過擬合的風險以及提高網(wǎng)絡的分類準確率是重要的研究方向。
4? 結? 論
視頻動作識別已成為計算機視覺領域一個重要的研究方向,具有十分廣泛的應用前景。本文系統(tǒng)地講解人體行為識別領域的數(shù)據(jù)集和算法,基于深度學習是因為目前深度學習方法較于傳統(tǒng)算法來說已成為主流趨勢,并從簡單模型向復雜模型演化,從最初的監(jiān)督到弱監(jiān)督及以后的無監(jiān)督方法,都是未來發(fā)展的趨勢。本文基于雙流架構的基礎,從融合策略上和針對輸入模態(tài)上進行許多方面的改進。最后采用具有3D時空特性的卷積神經網(wǎng)絡模型來進行識別,總結目前行為識別的經典算法,指出目前存在的難點問題。如何在減少模型參數(shù)數(shù)量的基礎上提高模型識別的準確率成為未來一定的研究方向和發(fā)展趨勢。
參考文獻:
[1] AYERS D,SHAH M. Monitoring Human Behavior from Video Taken in an Office Environment [J].Image and Vision Computing,2001,19(12):833-846.
[2] 馬海兵,白潔.人臉識別技術在智能視頻監(jiān)控系統(tǒng)中的應用 [J].現(xiàn)代電子技術,2007(20):125-128.
[3] 薛雨麗,毛峽,郭葉,等.人機交互中的人臉表情識別研究進展 [J].中國圖象圖形學報,2009(5):764-772.
[4] 吉江.幼兒/高齡視頻看護系統(tǒng)建設需求分析 [J].A&S:安全&自動化,2011(9):94-96.
[5] SCHMIDHUBER J. Deep Learning in Neural Networks: An overview [J].Neural Networks,2015,61:85-117.
[6] KRIZHEVSKY A,SUTSKEVER I,HINTON,G E. ImageNet Classification with Deep Convolutional Neural Networks [C]//Twenty-sixth Annual Conference on Neural Information Processing Systems.Lake Tahoe:NIPS,2012:1-9.
[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based Learning Applied to Document Recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.
[8] KUMAWAT S,VERMA M,NAKASHIMA Y,et al. Depthwisespatio-temporal STFT Convolutional Neural Networks for Human Action Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(9):4839-4851.
[9] SCHULDT C,LAPTEV I,CAPUTO B. Recognizing Human Actions: A Local SVM Approach [C]//Proceedings of the 17th International Conference on Pattern Recognition(ICPR 2004).Cambridge:IEEE,2004,3:32-36.
[10] RODRIGUEZ M D,AHMED J,SHAH M. Action MACH a Spatio-temporal Maximum Average Correlation Height Filter for Action Recognition [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage:IEEE,2008:1-8.
[11] SOOMRO K,ZAMIR A R. Action Recognition in Realistic Sports Videos [M]//Moeslund T B,Thomas G,Hilton A. Computer Vision in Sports.Berlin:Springer,2014:181–208.
[12] KUEHNE H,JHUANG H,GARROTE E,et al. HMDB: A Large Video Database for Human Motion Recognition [C]//2011 International Conference on Computer Vision (ICCV).Barcelona:IEEE,2011:2556-2563.
[13] KARPATHY A,TODERICI G,SHETTY S,et al. Large-scale Video Classification with Convolutional Neural Networks [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus:IEEE,2014:1725-1732.
[14] ABU-EL-HAIJA S,KOTHARI N,LEE J,et al. YouTube-8M: A Large-Scale Video Classification Benchmark [J/OL].arXiv:1609.08675 [cs.CV].(2016-09-27).https://arxiv.org/abs/1609.08675.
[15] KAY W,CARREIRA J,SIMONYAN K,et al. The Kinetics Human Action Video Dataset [J/OL].arXiv:1705.06950 [cs.CV].(2017-05-19).https://arxiv.org/abs/1705.06950v1.
[16] SIMONYAN K,ZISSERMAN A. Two-stream convolutional networks for Action Recognition in Videos [C]//NIPS'14: Proceedings of the 27th International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2014,1(4):568-576.
[17] FEICHTENHOFER C,PINZ A,ZISSERMAN A. Convolutional Two-Stream Network Fusion for Video Action Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:1933-1941.
[18] FEICHTENHOFER C,PINZ A,WILDES R P. Spatiotemporal Residual Networks for Video Action Recognition [C]//29th Conference on Neural Information Processing Systems(NIPS 2016).Barcelona:NIPS,2016:3468-3476.
[19] FEICHTENHOFER C,PINZ A,WILDES R P. Spatiotemporal Multiplier Networks for Video Action Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:7445-7454.
[20] WANG Y B,LONG M S,WANG J M,et al. Spatiotemporal Pyramid Network for Video Action Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:2097-2106.
[21] WANG L M,XIONG Y J,WANG Z,et al. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition [J/OL].arXiv:1608.00859 [cs.CV].(2016-08-02).https://arxiv.org/abs/1608.00859.
[22] STAUDEMEYER R C,MORRIS E R. Understanding LSTM--A Tutorial into Long Short-Term Memory Recurrent Neural Networks [J/OL].arXiv:1909.09586 [cs.NE].(2019-09-12).https://arxiv.org/abs/1909.09586.
[23] JI S W,XU W,YANG M,et al. 3D Convolutional Neural Networks for Human Action Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.
[24] TRAN D,BOURDEV L,F(xiàn)ERGUS R,et al. Learning Spatiotemporal Features with 3D Convolutional Networks [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:4489-4497.
[25] CARREIRA J,ZISSERMAN A. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:4724-4733.
[26] TRAN D,WANG H,TORRESANI L,et al. A Closer Look at Spatiotemporal Convolutions for Action Recognition [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:6450-6459.
[27] KARPATHY A,TODERICI G,SHETTY S,et al. Large-Scale Video Classification with Convolutional Neural Networks [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:1725-1732.
[28] ZONG M,WANG R L,CHEN X B,et al. Motion Saliency Based Multi-stream Multiplier ResNets for Action Recognition [J].Image and Vision Computing,2021,107:104108.
[29] GAMMULLE H,DENMAN S,SRIDHARAN S,et al. Two Stream LSTM: A Deep Fusion Framework for Human Action Recognition [C]//2017 IEEE Winter Conference on Applications of Computer Vision(WACV).Santa Rosa:IEEE,2017:177-186.
[30] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al. Long-Term Recurrent Convolutional Networks for Visual Recognition and Description [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:2625-2634.
[31] ZHAO R,ALI H,SMAGT P V D. Two-stream RNN/CNN for Action Recognition in 3D videos [C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Vancouver:IEEE,2017:4260-4267.
作者簡介:吳婷(1998—),女,漢族,廣西北海人,碩士研究生在讀,研究方向:視覺認知計算與醫(yī)學圖像處理;通訊作者:劉海華(1966—),男,漢族,湖北孝感人,教授,博士,研究方向:視覺認知計算與醫(yī)學圖像處理。