胡凱 鄭翡 盧飛宇 黃昱錕
隨著虛擬現(xiàn)實(shí)技術(shù)[1]、人機(jī)交互技術(shù)[2]等在現(xiàn)實(shí)生活中的廣泛應(yīng)用,針對(duì)行為識(shí)別的研究日漸發(fā)展,在計(jì)算機(jī)視覺中占據(jù)著舉足輕重的地位.行為識(shí)別研究的目的是在視頻或圖像序列中得到正在進(jìn)行的行為動(dòng)作,判斷其行為類別.
目前,行為識(shí)別的研究方法分為兩類:一類是基于手動(dòng)提取特征的方法[3-7],另一類是基于深度網(wǎng)絡(luò)學(xué)習(xí)特征的方法.
基于手動(dòng)提取特征的方法是采取傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)視頻提取特征,然后對(duì)特征進(jìn)行編碼,對(duì)編碼向量進(jìn)行規(guī)范化,并訓(xùn)練模型,最后進(jìn)行預(yù)測(cè)分類.其優(yōu)點(diǎn)在于能夠根據(jù)需要提取特征,針對(duì)性強(qiáng)、實(shí)現(xiàn)簡(jiǎn)單,但由于行為識(shí)別存在光照、動(dòng)作相似(慢跑和跑步)、動(dòng)態(tài)背景等噪聲[8],手動(dòng)提取的特征不能很好地滿足之后的分類任務(wù),因此基于手動(dòng)提取特征的方法對(duì)行為識(shí)別的研究取得的效果不是很顯著.其中可靠性最高的是iDT(improved Dense Trajectories),但該算法計(jì)算速度很慢,無法滿足實(shí)時(shí)性要求.
近年來,深度學(xué)習(xí)得到深入發(fā)展,在很多領(lǐng)域得到了應(yīng)用.因?yàn)樯疃葘W(xué)習(xí)的原理是用大量神經(jīng)元來模擬人類視聽、思考等活動(dòng),與行為識(shí)別具有相同的機(jī)制[9],因此科研人員也嘗試使用深度學(xué)習(xí)來解決行為識(shí)別問題,并取得了一系列較好的成果.總體而言,基于深度學(xué)習(xí)的行為識(shí)別方法的優(yōu)點(diǎn)是能夠自動(dòng)學(xué)習(xí)特征,實(shí)現(xiàn)端對(duì)端的學(xué)習(xí)過程,學(xué)習(xí)到的特征較為全面,性能較好,缺點(diǎn)是需要大量的數(shù)據(jù)來訓(xùn)練.
現(xiàn)有的基于深度學(xué)習(xí)的行為識(shí)別算法的網(wǎng)絡(luò)框架大多由卷積神經(jīng)網(wǎng)絡(luò)發(fā)展而來.由于行為識(shí)別的對(duì)象為視頻序列,與單張圖像相比,增加了時(shí)間序列的信息,因此基于深度學(xué)習(xí)的行為識(shí)別算法更多的是用來學(xué)習(xí)時(shí)間序列上的特征.
較為經(jīng)典的網(wǎng)絡(luò)有Simonyan等[10]于2014年提出的雙流卷積網(wǎng)絡(luò),它將空間流和時(shí)間流特征分開學(xué)習(xí),最后將兩者融合,該方法解決了傳統(tǒng)方法中時(shí)間流特征缺失的問題.針對(duì)雙流卷積網(wǎng)絡(luò)中丟失了動(dòng)作的時(shí)間關(guān)聯(lián)信息的問題,Wang等[11]提出了三流卷積網(wǎng)絡(luò),在雙流網(wǎng)絡(luò)的基礎(chǔ)上將時(shí)間流進(jìn)一步細(xì)分為局部時(shí)間流和全局時(shí)間流.Feichtenhofer等[12]針對(duì)雙流卷積網(wǎng)絡(luò)融合方式不佳,導(dǎo)致網(wǎng)絡(luò)性能不佳的問題,改進(jìn)了雙流網(wǎng)絡(luò)融合的方式和位置.針對(duì)雙流卷積網(wǎng)絡(luò)無法對(duì)長(zhǎng)時(shí)間序列建模的問題,Wang等[13]提出將雙流卷積網(wǎng)絡(luò)結(jié)合均勻稀疏采樣方法,來對(duì)整段視頻序列進(jìn)行建模.在Wang等[13]的基礎(chǔ)上,Lan等[14]對(duì)融合部分的片段加入了權(quán)重,而Zhou等[15]則提出通過對(duì)不同長(zhǎng)度視頻幀的時(shí)序進(jìn)行推理然后融合得到結(jié)果的想法.
在雙流卷積網(wǎng)絡(luò)提出之后,Tran等[16]受到時(shí)間流特征的啟發(fā),提出了3D卷積網(wǎng)路(C3D),在2D卷積的基礎(chǔ)上增加了時(shí)間維度來學(xué)習(xí)時(shí)間流特征.由于雙流卷積網(wǎng)絡(luò)和3D卷積的出色表現(xiàn),Carreira等[17]提出了I3D網(wǎng)絡(luò),采用雙流卷積網(wǎng)絡(luò)和3D卷積相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),基于inception-V1模型將2D卷積擴(kuò)展到3D卷積.Diba等[18]提出了T3D網(wǎng)絡(luò),采用3D卷積運(yùn)用到DenseNet模型中,并引入TTL層(Temporal Transition Layer),使用不同尺度的卷積來捕捉信息.Qiu等[19]提出了P3D網(wǎng)絡(luò),該網(wǎng)絡(luò)改進(jìn)了ResNet網(wǎng)絡(luò)內(nèi)部的卷積形式并加深了網(wǎng)絡(luò).Ng等[20]將經(jīng)典的處理時(shí)間序列網(wǎng)絡(luò)——LSTM網(wǎng)絡(luò)和雙流卷積網(wǎng)絡(luò)的結(jié)構(gòu)相結(jié)合來學(xué)習(xí)時(shí)間特征.2019年,Li等[21]提出的時(shí)空特征協(xié)同學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)了聯(lián)合時(shí)空特征學(xué)習(xí)操作(CoST),采用2D卷積聯(lián)合學(xué)習(xí)時(shí)空特征,在不降低準(zhǔn)確率的前提下加快了計(jì)算速度.上述方法在行為識(shí)別研究中普遍取得了較高的準(zhǔn)確率.本文按照網(wǎng)絡(luò)的框架結(jié)構(gòu)分類在第三章進(jìn)行了具體介紹.
本文首先介紹了行為識(shí)別的背景;接著介紹了本領(lǐng)域研究人員常用的數(shù)據(jù)庫;然后介紹了行為識(shí)別的傳統(tǒng)方法中效果最好的iDT算法及其前身DT算法,以及其采樣特征和編碼的方式;再按照發(fā)展歷程,從最早2014年提出的雙流卷積網(wǎng)絡(luò)到2019年提出的時(shí)空特征協(xié)同學(xué)習(xí)網(wǎng)絡(luò),重點(diǎn)介紹了幾個(gè)基于深度學(xué)習(xí)的具有影響力的行為識(shí)別算法,具體包括它們的基本框架和流程,比較了各個(gè)算法性能,提供了它們的資源,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了分類;最后是總結(jié),以及對(duì)未來行為識(shí)別的研究方向的展望.
國(guó)內(nèi)外研究團(tuán)隊(duì)在算法訓(xùn)練中通常采用人體動(dòng)作數(shù)據(jù)庫來檢測(cè)算法的精確性和魯棒性.?dāng)?shù)據(jù)庫至少有如下兩個(gè)重要作用:
1)使研究人員無需關(guān)心采集與預(yù)處理的過程;
2)能夠檢測(cè)和比較不同算法在同一標(biāo)準(zhǔn)下的不同性能.
常用數(shù)據(jù)庫簡(jiǎn)介如表1所示.
KTH數(shù)據(jù)庫[22]于2004年發(fā)布,包括25個(gè)人在4個(gè)不同場(chǎng)景下的6種動(dòng)作(包括慢走、慢跑、跑、拳擊、揮手、拍手),共有2 391個(gè)視頻樣本,包含了尺度變換、衣著變換、光照變換,但拍攝相機(jī)固定,背景較單一.
Weizmann數(shù)據(jù)庫[23]于2005年發(fā)布,包括9個(gè)人分別完成的10個(gè)動(dòng)作(彎腰、拉伸、跳高、跳躍、跑步、站立、蹦跳、慢走、揮手1、揮手2),數(shù)據(jù)庫中除了類別標(biāo)記外還有前景人的剪影和方便背景提取的背景序列,但該數(shù)據(jù)庫視角固定、背景簡(jiǎn)單.
上述兩個(gè)數(shù)據(jù)庫發(fā)布時(shí)間較早,在傳統(tǒng)方法的行為識(shí)別中引用率很高,大大促進(jìn)了之后行為識(shí)別的發(fā)展,但因其背景簡(jiǎn)單、視角固定,每段視頻只有一個(gè)人做動(dòng)作的不足日漸顯現(xiàn),已經(jīng)不能滿足人們對(duì)現(xiàn)實(shí)行為識(shí)別的要求,所以現(xiàn)已經(jīng)很少使用.
UCF-101數(shù)據(jù)庫[24]是美國(guó)中佛羅里達(dá)大學(xué)于2012年發(fā)布的,數(shù)據(jù)集中的樣本包括來自電視臺(tái)收集的各種運(yùn)動(dòng)樣本、從視頻網(wǎng)站YouTube上下載保存的視頻樣本,共有5類大動(dòng)作(人物交互、人人交互、肢體運(yùn)動(dòng)、身體運(yùn)動(dòng)、樂器彈奏),101類具體小動(dòng)作,共13 320段視頻.該數(shù)據(jù)庫樣本數(shù)量大、動(dòng)作類別豐富,能夠較好地訓(xùn)練算法,因此應(yīng)用較多.
HMDB-51數(shù)據(jù)庫[24]是布朗大學(xué)于2011年發(fā)布的,視頻樣本來自電影和視頻網(wǎng)站YouTube中的視頻片段,共有51類樣本動(dòng)作,共6 849段視頻,每類樣本動(dòng)作至少含有101段視頻.
上述兩個(gè)數(shù)據(jù)集樣本較多、背景繁雜,不僅能夠檢驗(yàn)算法結(jié)果的精確性,而且能夠檢測(cè)算法的魯棒性.目前,UCF-101和HMDB-51數(shù)據(jù)集在基于深度學(xué)習(xí)的行為識(shí)別中應(yīng)用較多.
除了上述應(yīng)用較為廣泛的數(shù)據(jù)庫外,還有例如Sub-DBMS、PennAction、SBU、NTU等應(yīng)用較少的數(shù)據(jù)庫,在此簡(jiǎn)單介紹.
Sub-DBMS數(shù)據(jù)庫包含316個(gè)視頻,12種動(dòng)作類別(例如抓取、行走、打高爾夫、投擲橄欖球等),數(shù)據(jù)庫容量較小.
PennAction數(shù)據(jù)庫由賓夕法尼亞大學(xué)收集發(fā)布,其中包含15個(gè)不同動(dòng)作的2 326個(gè)視頻序列,并且包含每個(gè)視頻序列的人體關(guān)節(jié)注釋.
SBU數(shù)據(jù)庫全稱SBU Kinect互動(dòng)數(shù)據(jù)庫,相較于Kinectics數(shù)據(jù)庫,該數(shù)據(jù)庫多了人類肢體的動(dòng)作,更強(qiáng)調(diào)人體肢干,用以識(shí)別人的肢體動(dòng)作.
表1 常用數(shù)據(jù)庫簡(jiǎn)介
NTU數(shù)據(jù)庫由56 880個(gè)動(dòng)作樣本組成,其中包含每個(gè)樣本的RGB視頻、深度圖序列、3D骨架數(shù)據(jù)和紅外視頻,更加注重人體骨骼在動(dòng)作運(yùn)動(dòng)中的位置變化,因此更適合于最近興起的基于骨架檢測(cè)的行為識(shí)別算法.
行為識(shí)別主要分成基于手工提取特征和基于深度學(xué)習(xí)兩種方式.
雖然基于深度學(xué)習(xí)的行為識(shí)別算法效果均已經(jīng)超過了DT/iDT算法,但是DT/iDT算法對(duì)本領(lǐng)域發(fā)展產(chǎn)生了重大影響,后續(xù)許多取得良好性能的新方法都是采用了將深度學(xué)習(xí)和iDT算法相結(jié)合的思路,因此DT/iDT算法是在行為識(shí)別領(lǐng)域中不可或缺的.iDT算法是密集軌跡算法(Dense Trajectories,DT)的改進(jìn),因此先介紹DT算法.
DT算法的基本框架[25]如圖1所示,具體流程為:
步驟1.將視頻每一幀圖片劃分為多個(gè)尺度,通過網(wǎng)格劃分的方式對(duì)每個(gè)尺度的圖片進(jìn)行密集采樣特征點(diǎn),并去除一些無法跟蹤的特征點(diǎn).
步驟2.跟蹤特征點(diǎn)來獲得視頻序列中的軌跡,某個(gè)特征點(diǎn)在連續(xù)的L幀圖像上的位置構(gòu)成了一段軌跡,特征點(diǎn)的跟蹤在每個(gè)尺度上獨(dú)立進(jìn)行.為避免漂移現(xiàn)象,每L幀就要重新采集特征并重新跟蹤.
步驟3.沿著某個(gè)特征點(diǎn)長(zhǎng)度為L(zhǎng)的軌跡,在每幀圖像上去特征點(diǎn)周圍N×N的區(qū)域構(gòu)成時(shí)間-空間體,將該時(shí)間-空間體分出nσ×nσ×nτ塊區(qū)域用來特征提取,采用HOG特征來計(jì)算灰度圖像梯度直方圖,采用HOF特征來計(jì)算光流信息(方向和幅度信息)直方圖,采用MBH特征來計(jì)算光流圖像梯度直方圖,采用L2范數(shù)對(duì)HOG、HOF、MBH特征歸一化.
步驟4.一段視頻中存在大量軌跡,每段軌跡對(duì)應(yīng)一組特征,對(duì)每個(gè)特征組采用Bag of Features進(jìn)行特征的編碼,得到一定長(zhǎng)度的特征編碼來進(jìn)行視頻分類.
步驟5.采用RBF-x2核和一對(duì)多策略訓(xùn)練的SVM對(duì)視頻進(jìn)行分類.
圖1 DT算法的基本框架[25]Fig.1 Basic framework of DT algorithm[25]
iDT算法是DT算法的改進(jìn)版,大致過程和框架和DT算法類似,在一些特征處理和噪聲處理上進(jìn)行了改進(jìn)以提升算法性能.
改進(jìn)1[26].通過估計(jì)相機(jī)運(yùn)動(dòng)來消除背景上的光流和軌跡.由于相鄰兩幀圖像之間變化較小,可以假設(shè)后一幀圖像由前一幀圖像通過投影變換得到,因此估計(jì)相機(jī)運(yùn)動(dòng)問題可以近似為利用前后幀圖像計(jì)算投影變換矩陣.在兩幀圖像之間采用SURF特征和光流特征進(jìn)行特征點(diǎn)匹配,然后利用隨機(jī)抽樣一致算法(RANdom SAmple Consensus,RANSAC)估計(jì)投影變換矩陣.
改進(jìn)2.在圖像中人的動(dòng)作較為顯著,人身上的匹配點(diǎn)對(duì)使得投影矩陣的估計(jì)不準(zhǔn)確.因此iDT算法中使用人體探測(cè)器檢測(cè)人的位置框,并去除該框中的匹配點(diǎn)對(duì),使得人的運(yùn)動(dòng)不影響投影矩陣的估計(jì).
上述兩個(gè)改進(jìn)對(duì)iDT算法性能的提升有很大幫助.除此之外,iDT算法采用L2范數(shù)進(jìn)行特征歸一化,使用Fisher Vector[27]進(jìn)行特征編碼,以此來提升算法的準(zhǔn)確率和速度.
iDT算法對(duì)于DT算法主要改進(jìn)在于對(duì)光流圖像的優(yōu)化、特征正則化方式和特征編碼方式,這些改進(jìn)使得算法的效果有了明顯的提升,在HMDB-51數(shù)據(jù)集上的準(zhǔn)確率從46.6%提高到57.2%.
iDT算法在提取特征方面具有針對(duì)性,相比深度學(xué)習(xí),iDT算法能夠較為精確地提取出與行為相關(guān)的特征,因此其穩(wěn)定性較高,與第三章的深度學(xué)習(xí)算法結(jié)合能夠提高深度學(xué)習(xí)算法的性能.
深度學(xué)習(xí)中用于行為識(shí)別的網(wǎng)絡(luò)主要是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN).CNN通常由卷積層、池化層和全連接層組成.經(jīng)典的CNN,如AlexNet、VGG16等,通過對(duì)卷積層、池化層和全連接層的不同排列組合,達(dá)到不同的提取特征的效果.RNN是以一段序列數(shù)據(jù)為輸入,在序列的變化方向進(jìn)行遞歸,并且循環(huán)單元按照鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò)[28].CNN在網(wǎng)絡(luò)的層與層之間建立了權(quán)值連接,而RNN在層之間的神經(jīng)元之間也建立了權(quán)值連接,其輸出不僅與一個(gè)序列的當(dāng)前輸入數(shù)據(jù)有關(guān),還與之前的輸出有關(guān).
現(xiàn)有的基于深度學(xué)習(xí)的行為識(shí)別算法大多在雙流網(wǎng)絡(luò)、3D卷積網(wǎng)絡(luò)和RNN(尤其LSTM)的基礎(chǔ)上發(fā)展而來.近兩年基于人體骨架、多視角等其他深度學(xué)習(xí)算法逐漸發(fā)展,因此本文按照網(wǎng)絡(luò)的結(jié)構(gòu)發(fā)展將行為識(shí)別的深度學(xué)習(xí)算法分為四大類:基于雙流網(wǎng)絡(luò)、基于3D卷積網(wǎng)絡(luò)、基于LSTM網(wǎng)絡(luò)、其他算法,并在此分類基礎(chǔ)上,對(duì)基于深度學(xué)習(xí)的行為識(shí)別算法進(jìn)行介紹.
圖2 雙流卷積網(wǎng)絡(luò)工作流程[10]Fig.2 Workflow of two-stream convolutional networks[10]
Simonyan等[10]提出了基礎(chǔ)的雙流網(wǎng)絡(luò)結(jié)構(gòu).如圖2所示,該網(wǎng)絡(luò)設(shè)計(jì)了空間流和時(shí)間流兩個(gè)并行的網(wǎng)絡(luò)[29],使用兩個(gè)獨(dú)立的CNN網(wǎng)絡(luò)來分開處理視頻中空間和時(shí)間信息,空間流網(wǎng)絡(luò)的輸入為視頻中采樣的單幀圖像,時(shí)間流網(wǎng)絡(luò)的輸入是光流信息,然后將兩個(gè)網(wǎng)絡(luò)識(shí)別的結(jié)果進(jìn)行融合,最終得到識(shí)別的結(jié)果.該網(wǎng)絡(luò)最終在UCF-101數(shù)據(jù)庫、HMDB-51數(shù)據(jù)庫上分別達(dá)到了88%、59.4%的準(zhǔn)確率.由于它具有非常好的結(jié)構(gòu),并具有很好的拓展性,所以引起了科研人員的關(guān)注.圍繞雙流網(wǎng)絡(luò)準(zhǔn)確率和魯棒性,后續(xù)涌現(xiàn)了許多改進(jìn)的算法.
針對(duì)雙流卷積網(wǎng)絡(luò)通過直接平均或支持向量機(jī)融合了空間流和時(shí)間流的識(shí)別結(jié)果,不能很好地融合時(shí)間和空間信息的問題,Feichtenhofer等[12]改進(jìn)了雙流網(wǎng)絡(luò)融合的方式和位置,如圖3所示,提前采用雙線性融合的方式融合了空間流和時(shí)間流的信息.實(shí)驗(yàn)結(jié)果表明在最后一層卷積層融合的效果最好,和采用相同模型的原始雙流卷積網(wǎng)絡(luò)相比,不僅減少了網(wǎng)絡(luò)參數(shù),而且準(zhǔn)確率提高了4個(gè)百分點(diǎn).
圖3 雙流網(wǎng)絡(luò)融合方式[12]Fig.3 Two-stream convolutional network fusion[12]
Wang等[13]結(jié)合均勻稀疏采樣方法抓捕到了時(shí)間范圍較長(zhǎng)的信息以處理長(zhǎng)時(shí)間的視頻.該網(wǎng)絡(luò)將視頻分為K段,將每段視頻都輸入到雙流網(wǎng)絡(luò)得到分類結(jié)果,采用加權(quán)平均的方式將所有結(jié)果融合得到最終結(jié)果,克服了經(jīng)典的雙流網(wǎng)絡(luò)只能處理短時(shí)視頻的問題.而Diba等[30]采用另一種融合方式,提出了一個(gè)時(shí)序線性編碼層(Temporal Linear Encoding,TLE),以此來對(duì)視頻分段后提出的特征進(jìn)行融合編碼,捕捉所有空間位置上特征之間的相互作用,以實(shí)現(xiàn)捕捉長(zhǎng)時(shí)間的動(dòng)態(tài)過程,并且能夠在有限的樣本下學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型.
雖然雙流網(wǎng)絡(luò)解決了視頻動(dòng)作識(shí)別上關(guān)于時(shí)間序列的部分問題,但還是丟失了動(dòng)作在時(shí)間序列上的關(guān)聯(lián)性.為了彌補(bǔ)雙流網(wǎng)絡(luò)在時(shí)間序列上信息的缺失,Wang等[11]提出了三流網(wǎng)絡(luò),在雙流網(wǎng)絡(luò)的基礎(chǔ)上,將時(shí)間流進(jìn)一步細(xì)分為局部時(shí)間流和全局時(shí)間流.空間流網(wǎng)絡(luò)的輸入為視頻中采樣的單幀圖像,局部時(shí)間流網(wǎng)絡(luò)的輸入是光流信息,全局時(shí)間流網(wǎng)絡(luò)的輸入是運(yùn)動(dòng)堆疊差異圖像(Motion Stacked Difference Images,MSDI),采用PCA-Whitening操作對(duì)三個(gè)流(空間流、局部時(shí)間流、全局時(shí)間流)上學(xué)習(xí)的特征進(jìn)行預(yù)處理,然后進(jìn)一步由soft-VLAD(局部聚合描述符的矢量)[31]編碼并使用SVM分類.三流網(wǎng)絡(luò)相比雙流網(wǎng)絡(luò)在UCF-101和HMDB-51數(shù)據(jù)庫上的準(zhǔn)確率都有顯著提升.除此之外,其他研究者受到Wang等[11]的啟發(fā),開始了多流網(wǎng)絡(luò)對(duì)動(dòng)作識(shí)別的研究[32-33],提高了時(shí)空信息的魯棒性和識(shí)別結(jié)果的準(zhǔn)確性.
雙流網(wǎng)絡(luò)除了在準(zhǔn)確率方面有提升的空間,在計(jì)算量方面也存在計(jì)算速度慢的缺點(diǎn),其中計(jì)算光流信息浪費(fèi)了大量計(jì)算資源,而Zhao等[34]提出了一種無需依賴光流信息的特征學(xué)習(xí)模型,能夠直接從原始視頻中提取出運(yùn)動(dòng)的動(dòng)態(tài)信息,省去了計(jì)算光流信息的過程,節(jié)約了計(jì)算資源,提升了速度.其中動(dòng)態(tài)信息包括靜態(tài)特征、動(dòng)態(tài)特征和特征變化三個(gè)部分,它們共享低級(jí)特征,通過3D池化得到靜態(tài)特征,采用Cost volume得到動(dòng)態(tài)特征,采用Warped differences得到特征變化,最后將三個(gè)特征取平均融合在一起得到最終預(yù)測(cè)結(jié)果,其模型大致類似于三流網(wǎng)絡(luò).該網(wǎng)絡(luò)在僅使用RGB圖像幀的條件下和當(dāng)前技術(shù)[13,16-17,19]相比取得了很好的結(jié)果,在UCF-101數(shù)據(jù)集上達(dá)到了91.8%的準(zhǔn)確率,并且效率也高.分離動(dòng)態(tài)信息網(wǎng)絡(luò)模型[34]如圖4所示.基于雙流網(wǎng)絡(luò)的行為識(shí)別深度學(xué)習(xí)算法對(duì)比如表2所示.
雙流網(wǎng)絡(luò)作為基于深度學(xué)習(xí)的行為識(shí)別算法中最早出現(xiàn)的網(wǎng)絡(luò),其將視頻序列分為時(shí)間和空間兩種特征的思想為研究者們提供了豐富的思路.若不考慮網(wǎng)絡(luò)預(yù)訓(xùn)練等訓(xùn)練技巧,雙流網(wǎng)絡(luò)針對(duì)視頻序列的特征處理的貢獻(xiàn)是C3D和LSTM網(wǎng)絡(luò)不可比擬的[16].
卷積神經(jīng)網(wǎng)絡(luò)一般采用2D卷積,在多幀圖像上2D卷積的結(jié)果是一張?zhí)卣鲌D,只包含高和寬,而3D卷積的結(jié)果是立體的,除了高和寬之外還含有時(shí)間維度,因此3D卷積更適合用來處理視頻序列的信息.如圖5展示了2D卷積和3D卷積的區(qū)別[16].
圖4 分離動(dòng)態(tài)信息網(wǎng)絡(luò)模型示意[34]Fig.4 Schematic diagram of disentangling components network model[34]
表2 基于雙流網(wǎng)絡(luò)的行為識(shí)別深度學(xué)習(xí)算法總結(jié)
圖5 2D卷積和3D卷積的區(qū)別[16]Fig.5 Difference between 2D convolution and 3D convolution[16]
最開始,Tran等[16]提出了一種名為C3D(Convolutional 3D)的3D卷積神經(jīng)網(wǎng)絡(luò),在該網(wǎng)絡(luò)中首次出現(xiàn)了3D卷積,并將其應(yīng)用在了行為識(shí)別中.通過對(duì)比實(shí)驗(yàn),確定了3×3×3為最優(yōu)3D卷積核尺寸.如圖6所示,該網(wǎng)絡(luò)設(shè)計(jì)了:8個(gè)卷積層,所有的3D卷積核尺寸為3×3×3,步長(zhǎng)為1×1×1;5個(gè)池化層,第一層池化層尺寸為1×2×2,步長(zhǎng)為1×2×2,其余池化層尺寸為2×2×2,步長(zhǎng)為2×2×2,以保留更多的時(shí)間信息;2個(gè)全連接層,尺寸為4 096;1個(gè)softmax輸出層.
該網(wǎng)絡(luò)在UCF-101數(shù)據(jù)庫達(dá)到的最好準(zhǔn)確率為85.2%,和iDT結(jié)合達(dá)到90.4%的準(zhǔn)確率,在相同條件下與雙流網(wǎng)絡(luò)相比,準(zhǔn)確率提升了1.6個(gè)百分點(diǎn).該網(wǎng)絡(luò)具有良好的泛化性能,能夠靈活地和其他網(wǎng)絡(luò)相結(jié)合,并且其計(jì)算效率高,沒有過多的計(jì)算公式,易于訓(xùn)練和使用.
由于C3D無法利用在ImageNet上預(yù)訓(xùn)練過的2D網(wǎng)絡(luò),導(dǎo)致參數(shù)過多增加了計(jì)算量,并且當(dāng)時(shí)缺乏足夠大的視頻數(shù)據(jù)集來訓(xùn)練網(wǎng)絡(luò).為了改進(jìn)上述缺點(diǎn),Carreira等[17]提出了I3D網(wǎng)絡(luò)(Two-Stream Inflated 3D ConvNet)和Kinetics數(shù)據(jù)庫.I3D將3D卷積網(wǎng)絡(luò)和雙流網(wǎng)絡(luò)相結(jié)合,卷積網(wǎng)絡(luò)應(yīng)用了Inception-V1模型[17],將原網(wǎng)絡(luò)中的卷積核擴(kuò)展為3D卷積核,因此I3D可以直接使用已經(jīng)在ImageNet上預(yù)訓(xùn)練的2D卷積核參數(shù)來初始化參數(shù),改進(jìn)了C3D參數(shù)多的問題,提高了網(wǎng)絡(luò)的訓(xùn)練效率,并在Kinetics數(shù)據(jù)庫上進(jìn)行預(yù)訓(xùn)練,以提升網(wǎng)絡(luò)的性能.
在對(duì)比實(shí)驗(yàn)中,該網(wǎng)絡(luò)在UCF-101數(shù)據(jù)庫、HMDB-51數(shù)據(jù)庫上分別達(dá)到了93.4%、66.4%的準(zhǔn)確率,若采用Kinetics數(shù)據(jù)庫進(jìn)行預(yù)訓(xùn)練,能在UCF-101數(shù)據(jù)庫、HMDB-51數(shù)據(jù)庫上分別達(dá)到98%、80.7%的準(zhǔn)確率,達(dá)到了很好的效果,也驗(yàn)證了采用足夠大的數(shù)據(jù)庫進(jìn)行預(yù)訓(xùn)練能夠提升網(wǎng)絡(luò)性能.
另一種將參數(shù)從預(yù)先訓(xùn)練的2D卷積網(wǎng)絡(luò)轉(zhuǎn)移到隨機(jī)初始化的3D網(wǎng)絡(luò)中,以實(shí)現(xiàn)穩(wěn)定的權(quán)重初始化的方法是Diba等[18]提出的T3D(Temporal 3D ConvNet),該網(wǎng)絡(luò)采用了DenseNet[35],將DenseNet中的卷積核換為3D卷積核,并提出了TTL層(Temporal Transition Layer),能夠使用不同尺度的卷積來捕捉不同時(shí)序信息,將TTL層嵌入到DenseNet中,既能減少參數(shù),又能提高準(zhǔn)確率.TTL層的結(jié)構(gòu)如圖7所示.
圖6 3D卷積網(wǎng)絡(luò)的結(jié)構(gòu)圖[16]Fig.6 Structure of 3D convolutional network[16]
圖7 TTL層的結(jié)構(gòu)[18]Fig.7 Structure of TTL[18]
3D卷積包含時(shí)間維度,能夠很好地適用于處理視頻數(shù)據(jù),但參數(shù)設(shè)置過于復(fù)雜,因此Qiu等[19]提出了另一種減少網(wǎng)絡(luò)參數(shù)的模型——P3D殘差網(wǎng)絡(luò)(Pseudo-3D ResNet),采用ResNet的網(wǎng)絡(luò)框架,使用1×3×3卷積(用來獲取空間維特征)和3×1×1卷積(用來獲取時(shí)間維特征)級(jí)聯(lián)或并聯(lián)的方式來代替3×3×3的原始3D卷積,并且設(shè)計(jì)了較深的網(wǎng)絡(luò)將如圖8所示的三種P3D結(jié)構(gòu)都應(yīng)用了進(jìn)去.
圖8 三種P3D結(jié)構(gòu)[19]Fig.8 Three structures of P3D[19]
3D卷積的大量參數(shù)增加了3D卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度、內(nèi)存使用和計(jì)算成本,導(dǎo)致訓(xùn)練3D神經(jīng)網(wǎng)絡(luò)十分困難.鑒于2D卷積在二維圖像處理中的優(yōu)良表現(xiàn),Zhou等[36]提出一個(gè)3D/2D混合卷積模塊(MiCT)來處理視頻數(shù)據(jù).MiCT模塊(圖9)結(jié)合了3D/2D串聯(lián)混合模塊和3D/2D跨域殘差并聯(lián)模塊,既增加了3D卷積神經(jīng)網(wǎng)絡(luò)的深度,能夠生成更高級(jí)的3D特征,也降低了學(xué)習(xí)3D特征和時(shí)空特征融合的復(fù)雜性.MiCT使3D卷積神經(jīng)網(wǎng)絡(luò)以更少的3D時(shí)空融合、更小的模型、更快的速度來提取到更深的時(shí)空特征.
圖9 MiCT模塊圖[36]Fig.9 MiCT model[36]
C3D網(wǎng)絡(luò)的提出將研究者們的思路從二維卷積中解放出來,3D卷積泛化性能好,能和許多網(wǎng)絡(luò)結(jié)合應(yīng)用,并且提高了原有網(wǎng)絡(luò)的性能.C3D和雙流網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)的最大不同之處在于C3D減少了網(wǎng)絡(luò)參數(shù),加快了網(wǎng)絡(luò)的訓(xùn)練速度.
基于3D卷積的算法對(duì)比如表3所示.
循環(huán)神經(jīng)網(wǎng)絡(luò)在神經(jīng)網(wǎng)絡(luò)的輸入層、隱藏層和輸出層之間的神經(jīng)元中建立了權(quán)值連接,網(wǎng)絡(luò)模塊的隱藏層每個(gè)時(shí)刻的輸出都來自之前時(shí)刻的信息[37].RNN的循環(huán)網(wǎng)絡(luò)模塊不僅能夠?qū)W習(xí)當(dāng)前時(shí)刻的信息,也會(huì)保存之前的時(shí)間序列信息,但對(duì)于時(shí)間序列較長(zhǎng)的信息,RNN容易出現(xiàn)梯度消失的問題,因此提出了LSTM網(wǎng)絡(luò)來解決這個(gè)問題.
表3 基于3D卷積的行為識(shí)別深度學(xué)習(xí)算法總結(jié)
LSTM網(wǎng)絡(luò)用一個(gè)記憶單元替換原來RNN模型中的隱藏層節(jié)點(diǎn)[38],其關(guān)鍵在于存在細(xì)胞狀態(tài)來存儲(chǔ)歷史信息,設(shè)計(jì)了三個(gè)門結(jié)構(gòu)通過Sigmoid函數(shù)和逐點(diǎn)乘積操作來更新或刪除細(xì)胞狀態(tài)里的信息.如圖10所示為L(zhǎng)STM網(wǎng)絡(luò)一個(gè)單元的內(nèi)部結(jié)構(gòu)[39],從左到右分別為遺忘門、輸入門和輸出門.LSTM網(wǎng)絡(luò)通過累加的線性形式處理序列信息來避免梯度消失的問題[40],也能學(xué)習(xí)到長(zhǎng)周期的信息,因此能夠用來學(xué)習(xí)長(zhǎng)時(shí)間序列的信息.
圖10 LSTM網(wǎng)絡(luò)單元的內(nèi)部結(jié)構(gòu)[39]Fig.10 Internal structure of LSTM network unit[39]
遺忘門的狀態(tài)方程為
ft=σ(wf*[ht-1,xt]+bf).
(1)
輸入門的狀態(tài)方程為
ft=σ(wi*[ht-1,xt]+bi),
(2)
kt=tanh(wk*[ht-1,xt]+bk).
(2)
更新之后的細(xì)胞狀態(tài)為
Ct=ft?Ct-1+it?kt.
(4)
輸出門的狀態(tài)方程為
Ot=σ(wO*[ht-1,xt]+bO),
(5)
ht=Ot*tanh(Ct).
(6)
由于LSTM能夠處理時(shí)間序列信息,因此LSTM網(wǎng)絡(luò)也常被應(yīng)用于行為識(shí)別領(lǐng)域.而為了能夠降低計(jì)算量同時(shí)學(xué)習(xí)到視頻的全局特征,Ng等[20]提出了結(jié)合LSTM的雙流網(wǎng)絡(luò)模型(圖11),使用了在ImageNet上預(yù)訓(xùn)練的CNN網(wǎng)絡(luò)(AlexNet或GoogLeNet)來提取視頻幀的圖像特征和光流特征,然后將提取到的圖像特征和光流特征輸入給LSTM網(wǎng)絡(luò)來處理,得到最終結(jié)果.雖然該網(wǎng)絡(luò)達(dá)到的效果一般,但給行為識(shí)別領(lǐng)域的研究提供了新思路:即使光流圖像存在許多噪聲,與LSTM結(jié)合之后,也對(duì)分類有一定幫助.
圖11 卷積網(wǎng)絡(luò)連接LSTM部分的框架[20]Fig.11 Frame of convolutional network connecting LSTM part[20]
圖12 RPAN網(wǎng)絡(luò)結(jié)構(gòu)[41]Fig.12 Structure of RPAN network[41]
由于之前的卷積神經(jīng)網(wǎng)絡(luò)和LSTM結(jié)合的方法不能表示精細(xì)動(dòng)作,其他的注意力機(jī)制和LSTM結(jié)合的方法不能很好地訓(xùn)練LSTM網(wǎng)絡(luò),Du等[41]提出了一種端到端的循環(huán)姿態(tài)注意網(wǎng)絡(luò)(RPAN),如圖12所示的網(wǎng)絡(luò)結(jié)構(gòu):該網(wǎng)絡(luò)在第t幀采用雙流網(wǎng)絡(luò)中的網(wǎng)絡(luò)生成特征圖,姿態(tài)注意機(jī)制和前一幀LSTM隱藏模塊共同從第t幀的特征圖中學(xué)習(xí)與人體部位相關(guān)的特征,經(jīng)過池化生成一個(gè)高分辨的姿態(tài)特征輸入給LSTM.最終該網(wǎng)絡(luò)在Sub-JHMDB、PennAction數(shù)據(jù)庫上分別達(dá)到了78.6%、97.4%的準(zhǔn)確率.LSTM和注意力機(jī)制結(jié)合在行為識(shí)別方面能取得很好的效果,但網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜.
研究者們注意到視頻分類本質(zhì)上是多模態(tài)的,圖像、運(yùn)動(dòng)以及聲音都可能作為視頻中行為識(shí)別的判斷依據(jù),然而之前的行為識(shí)別網(wǎng)絡(luò)都沒有注意到聲音特征,因此Long等[42]提出了一種融合多模態(tài)的RNN框架,他們將視覺特征(包含RGB圖像特征和光流特征)和聲學(xué)特征分割為等長(zhǎng)的片段輸入到LSTM,減少了計(jì)算量,提升了速度,將LSTM網(wǎng)絡(luò)應(yīng)用到了提取不同的特征中.多模態(tài)LSTM網(wǎng)絡(luò)框架如圖13所示.
由于RGB信息存在許多噪聲,Song等[43]提出用不同的特征信息來取代RGB信息,而骨架信息具有特征明確簡(jiǎn)單、不易受外界因素影響的優(yōu)點(diǎn),因此采用骨架信息來訓(xùn)練LSTM網(wǎng)絡(luò).他們提出的網(wǎng)絡(luò)中有兩個(gè)LSTM子網(wǎng)絡(luò):一個(gè)為時(shí)域注意力子網(wǎng)絡(luò),學(xué)習(xí)一個(gè)時(shí)域注意力模型來給不同幀分配對(duì)應(yīng)的重要性,并以此對(duì)不同幀信息進(jìn)行融合;另一個(gè)為空域注意力子網(wǎng)絡(luò),依據(jù)序列的內(nèi)容自動(dòng)選擇每個(gè)幀中的主導(dǎo)關(guān)節(jié).
最開始將LSTM網(wǎng)絡(luò)和雙流網(wǎng)絡(luò)結(jié)合起來的LSTM的雙流網(wǎng)絡(luò)模型在UCF-101的數(shù)據(jù)庫上準(zhǔn)確率相較于雙流網(wǎng)絡(luò)并沒有顯著提高(表4),但其減少了網(wǎng)絡(luò)的計(jì)算量,并且在之后的發(fā)展中可以看出:效果較好的LSTM擴(kuò)展網(wǎng)絡(luò)所應(yīng)用的數(shù)據(jù)庫大多為融入人體肢體動(dòng)作的數(shù)據(jù)庫.LSTM網(wǎng)絡(luò)相較于雙流網(wǎng)絡(luò)和C3D,其對(duì)于細(xì)長(zhǎng)的肢體動(dòng)作信息更為靈敏,但歸根結(jié)底,基于深度學(xué)習(xí)的行為識(shí)別算法的發(fā)展,離不開雙流網(wǎng)絡(luò)、C3D網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò)的貢獻(xiàn).
除了雙流網(wǎng)絡(luò)、3D卷積網(wǎng)絡(luò)和LSTM網(wǎng)絡(luò)在行為識(shí)別領(lǐng)域上的廣泛應(yīng)用,還有許多其他算法也在行為識(shí)別領(lǐng)域中有出色的表現(xiàn),這些算法不僅有較高的準(zhǔn)確率,在速度和魯棒性方面也有一定提升.
大尺寸的視頻和時(shí)序信息的冗余導(dǎo)致深度的視頻學(xué)習(xí)任務(wù)比圖像的難度大很多,Wu等[44]提出直接在壓縮視頻上訓(xùn)練深度網(wǎng)絡(luò)來濾除噪聲使視頻的訓(xùn)練更加容易,主要做法是將視頻分為I-frames(原始圖像)和P-frames(運(yùn)動(dòng)信息)兩個(gè)部分學(xué)習(xí)特征,最后將結(jié)果相加融合.
圖13 多模態(tài)LSTM網(wǎng)絡(luò)框架[42]Fig.13 Framework of multimodal LSTM network[42]
表4 基于LSTM網(wǎng)絡(luò)的行為識(shí)別深度學(xué)習(xí)算法總結(jié)
Li等[21]于2019年設(shè)計(jì)了聯(lián)合時(shí)空特征學(xué)習(xí)操作(CoST),克服了3D卷積網(wǎng)絡(luò)的大量參數(shù)和計(jì)算量限制其實(shí)時(shí)性、有效性和2D卷積無法學(xué)習(xí)時(shí)間特征的缺點(diǎn),CoST能夠在權(quán)重共享的情況下用2D卷積聯(lián)合學(xué)習(xí)時(shí)空特征.該網(wǎng)絡(luò)以ResNet為骨干框架視頻序列進(jìn)行處理,如圖14所示.具體操作為:將視頻序列的3D向量從不同視角分解為3個(gè)2D圖像,用3個(gè)相同的2D卷積核對(duì)三個(gè)視角的圖像進(jìn)行卷積,然后通過加權(quán)求和將三個(gè)特征圖進(jìn)行融合,如圖15所示.該網(wǎng)絡(luò)提出從多個(gè)視角聯(lián)合學(xué)習(xí)時(shí)空特征,直接用2D卷積代替3D卷積,在保持準(zhǔn)確率的前提下減少了計(jì)算量,并且網(wǎng)絡(luò)結(jié)構(gòu)較為清晰.
圖14 進(jìn)行CoST操作的ResNet框架[21]Fig.14 The ResNet framework for CoST operation[21]
圖15 時(shí)空操作聯(lián)合學(xué)習(xí)[21]Fig.15 Joint learning of time and space operation[21]
Choutas等[45]認(rèn)為單獨(dú)處理圖像和運(yùn)動(dòng)特征的雙流結(jié)構(gòu)不能夠?yàn)閯?dòng)作識(shí)別提供足夠豐富的信息,從而提出了一種新穎的方法:將人體關(guān)節(jié)作為關(guān)鍵點(diǎn),對(duì)其運(yùn)動(dòng)變化進(jìn)行編碼,得到的特征稱為PoTion,將該特征圖輸入到卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行行為識(shí)別.實(shí)驗(yàn)結(jié)果表明,PoTion和其他網(wǎng)絡(luò)結(jié)合能夠提升原網(wǎng)絡(luò)的性能.
而Cho等[46]提出了一種新的時(shí)空融合網(wǎng)絡(luò)——STFN,它整合了整個(gè)視頻的圖像和運(yùn)動(dòng)信息的時(shí)間序列,然后聚合捕獲的時(shí)間序列信息以獲得更好的視頻特征并通過端到端訓(xùn)練學(xué)習(xí).該網(wǎng)絡(luò)能夠獲取互補(bǔ)數(shù)據(jù)的局部和全局信息,并適用于任何視頻分類網(wǎng)絡(luò).
表5 其他網(wǎng)絡(luò)的行為識(shí)別深度學(xué)習(xí)算法總結(jié)
人體行為識(shí)別在當(dāng)今社會(huì)中有著越來越多的應(yīng)用需求,受到了相關(guān)領(lǐng)域研究者們的極大關(guān)注[29].本文對(duì)近幾年流行的基于深度學(xué)習(xí)的行為識(shí)別方法進(jìn)行了整合分析.iDT算法是采用深度學(xué)習(xí)進(jìn)行行為識(shí)別研究之前效果最好、穩(wěn)定性最好、可靠性最高的方法,但其計(jì)算速度較慢,現(xiàn)有的深度學(xué)習(xí)方法可以很好地改進(jìn)這一缺點(diǎn),同時(shí)iDT算法中的思路值得借鑒,和深度學(xué)習(xí)的方法結(jié)合后在行為識(shí)別領(lǐng)域中取得了很好的效果.基于深度學(xué)習(xí)的行為識(shí)別方法不需要人工過多參與,直接在視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練學(xué)習(xí)[47],雖然需要大量的數(shù)據(jù)來支撐,但能得到較為全面的特征,相較于傳統(tǒng)的行為識(shí)別方法,泛化性能更好,結(jié)果也更精確,尤其在數(shù)據(jù)簡(jiǎn)單的情況下取得的效果更好.對(duì)于視頻序列,深度學(xué)習(xí)能更好地處理時(shí)間序列的信息,因此深度學(xué)習(xí)比傳統(tǒng)提取特征的方法更適用于行為識(shí)別領(lǐng)域.
現(xiàn)有的行為識(shí)別方法大多從雙流卷積網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)中受到啟發(fā)并進(jìn)行衍生.不同的組合能碰撞出新的火花,相同的網(wǎng)絡(luò)和其他網(wǎng)絡(luò)模型組合(如融合的卷積雙流網(wǎng)絡(luò)和iDT結(jié)合、雙流3D卷積網(wǎng)絡(luò)采用Inception-V1模型等)或采用數(shù)據(jù)庫預(yù)訓(xùn)練(如雙流3D卷積網(wǎng)絡(luò)、CoST采用Kinetics數(shù)據(jù)庫進(jìn)行預(yù)訓(xùn)練等)都能取得比原單一網(wǎng)絡(luò)更好的效果.LSTM網(wǎng)絡(luò)既能處理視頻的時(shí)間信息,又能解決梯度消亡的問題,因此也常常應(yīng)用在行為識(shí)別網(wǎng)絡(luò)中.雖然LSTM網(wǎng)絡(luò)和雙流網(wǎng)絡(luò)結(jié)合的效果并不是特別好,但之后的研究者們從此受到啟發(fā),將LSTM網(wǎng)絡(luò)和人體骨架檢測(cè)結(jié)合起來進(jìn)行行為識(shí)別,如Zhang等[48]提出了視圖自適應(yīng)遞歸神經(jīng)網(wǎng)絡(luò),利用兩個(gè)LSTM網(wǎng)絡(luò)回歸人體骨架的空間旋轉(zhuǎn)參數(shù)和平移參數(shù),將骨架旋轉(zhuǎn)到一個(gè)合適的角度輸入給LSTM網(wǎng)絡(luò)進(jìn)行行為類別的預(yù)測(cè).
隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,2018年至今出現(xiàn)了許多脫離雙流網(wǎng)絡(luò)和3D卷積網(wǎng)絡(luò)的行為識(shí)別算法:基于骨架檢測(cè)的行為識(shí)別算法、基于3D骨架檢測(cè)的行為識(shí)別算法、基于注意力機(jī)制的行為識(shí)別算法、移動(dòng)設(shè)備上的實(shí)時(shí)性強(qiáng)的行為識(shí)別算法.
近幾年,研究者們?cè)诠羌軝z測(cè)上也取得了不錯(cuò)的成果,并且骨架信息相較于未處理過的肢體信息更加穩(wěn)定,不受背景干擾,因此基于骨架檢測(cè)的行為識(shí)別也隨之發(fā)展,成為計(jì)算機(jī)視覺中一個(gè)重要的領(lǐng)域[49].骨架檢測(cè)的行為識(shí)別對(duì)于幅度較大的動(dòng)作能夠取得較高的識(shí)別準(zhǔn)確率[50-52],尤其是基于3D骨架的行為識(shí)別算法[52-54]實(shí)現(xiàn)了3D行為識(shí)別,但是各種行為識(shí)別算法對(duì)于微小的細(xì)節(jié)動(dòng)作識(shí)別效果還不是很好,仍是個(gè)具有挑戰(zhàn)性的問題.除網(wǎng)絡(luò)架構(gòu)之外,還有將注意力機(jī)制[41,55]引入行為識(shí)別中,發(fā)現(xiàn)深度學(xué)習(xí)無法選擇重點(diǎn)關(guān)注的內(nèi)容,如何降低算法的復(fù)雜性需要進(jìn)一步研究.行為識(shí)別算法除了準(zhǔn)確率的要求還有快速性的要求,Zhang等[56]首次提出在移動(dòng)設(shè)備上部署當(dāng)前深度學(xué)習(xí)動(dòng)作識(shí)別模型,在不降低精確度的情況下,比其他模型的識(shí)別速度提升了6倍.基于深度學(xué)習(xí)的行為識(shí)別方法在最近出現(xiàn)了許多新方法、新模型,行為識(shí)別結(jié)果也朝著準(zhǔn)確率高、實(shí)時(shí)性高的方向穩(wěn)步發(fā)展,但目前仍存在所需樣本數(shù)量龐大、網(wǎng)絡(luò)模型復(fù)雜等問題,需要在以后的發(fā)展中進(jìn)一步完善.