陸衛(wèi)忠,宋正偉,吳宏杰,曹 燕,丁漪杰 ,張 郁
(1.蘇州科技大學(xué)電子與信息工程學(xué)院,江蘇 蘇州 215009;2.江蘇省建筑智慧節(jié)能重點實驗室,江蘇 蘇州 215009;3.蘇州工業(yè)園區(qū)工業(yè)技術(shù)學(xué)校,江蘇 蘇州 215123)
隨著智能監(jiān)控需求的不斷提高,監(jiān)控設(shè)備在學(xué)校、街道等人員密集區(qū)域被廣泛部署,給人們的日常生活帶來了安全性保障。在視頻監(jiān)控的處理過程中難免會遇到一些棘手的問題,而如何在海量的視頻數(shù)據(jù)中實現(xiàn)人體行為檢測則是一個關(guān)鍵問題[1]。人體行為檢測方法是視頻理解的一項關(guān)鍵技術(shù),也是近年來計算機視覺領(lǐng)域的一個研究熱點,備受國內(nèi)外學(xué)者的關(guān)注,其核心是結(jié)合人工智能技術(shù)、計算機視覺和模式識別等多領(lǐng)域知識實現(xiàn)對視頻圖像中人體運動的智能分析。
人體的行為檢測要求對人的行為具備一定的認(rèn)知與理解能力,便于檢測其內(nèi)在的異常事件。隨著拍攝設(shè)備的智能化發(fā)展,視頻圖像也呈現(xiàn)多樣化趨勢。采集的行為數(shù)據(jù)中視頻圖像種類從黑白視頻的USC行人檢測USCD (USC pedestrian Detection)[2]數(shù)據(jù)集等變?yōu)槭謩葑R別數(shù)據(jù)集[3],從行為識別數(shù)據(jù)集UCF101[4]發(fā)展成攜帶距離信息的RGB-D數(shù)據(jù)集[5]。傳統(tǒng)的行為檢測方法大多采用人工提取特征的方法,借助檢測器從視頻圖像中尋找興趣點,然后針對興趣點周邊空間,利用算子進行特征建模,最后將特征輸入到分類器,輸出分類結(jié)果。這類方法不僅過程復(fù)雜,而且識別的準(zhǔn)確率較低。而近年來,深度學(xué)習(xí)[6]在目標(biāo)檢測、語音識別等領(lǐng)域展現(xiàn)了其獨特的魅力?;谏疃葘W(xué)習(xí)的算法模型模擬人的大腦對數(shù)據(jù)進行處理,通過從低層特征到高層特征的有效行為進行特征提取來實現(xiàn)對視頻圖像中人體行為的非線性描述[7]。相較于傳統(tǒng)的方法而言,基于深度學(xué)習(xí)的方法更適用于檢測視頻圖像中的人體行為。此外,“智慧城市”“平安校園”等一系列的安全項目的提出以及智能產(chǎn)業(yè)發(fā)展政策的出臺,意味著國家對公共安全及智能技術(shù)產(chǎn)業(yè)的高度重視,將進一步加大對智能安防領(lǐng)域的投資。因此,基于深度學(xué)習(xí)的人體行為檢測方法的研究,不僅展現(xiàn)了智能安防監(jiān)控在社會公共安全方面的應(yīng)用價值,還有助于經(jīng)濟效益的提升。
本文旨在對基于深度學(xué)習(xí)方法的人體行為檢測方法進行論述,文章的組織結(jié)構(gòu)可分為4個部分:
(1)行為數(shù)據(jù)集:對4類常用的公開行為數(shù)據(jù)集進行簡要說明。
(2)人體行為檢測:總結(jié)近些年基于深度學(xué)習(xí)的人體行為檢測方法的研究狀況,對行為檢測的基本流程進行了相關(guān)說明。
(3)基于深度學(xué)習(xí)的行為檢測方法:分析了幾種常用的基于深度學(xué)習(xí)的行為檢測方法,如雙流卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)、循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)和3D CNN等。
(4)研究難點與發(fā)展趨勢展望:對人體行為檢測及其數(shù)據(jù)采集模式的未來趨勢進行了展望,同時從人的行為復(fù)雜性、檢測方法的局限性等方面闡述了當(dāng)前行為檢測方法的研究難點。
目前,國內(nèi)外有多個人體行為數(shù)據(jù)集可供科研人員下載和使用,可以更為便捷地驗證相關(guān)算法的可行性。根據(jù)數(shù)據(jù)集的特點與獲取方式的不同,可將常用于人體行為識別的公開數(shù)據(jù)集劃分為4類:通用數(shù)據(jù)集、真實場景數(shù)據(jù)集、多視角數(shù)據(jù)集和特殊數(shù)據(jù)集。
(1)通用數(shù)據(jù)集。
通用數(shù)據(jù)集包含受試者在受限場景下的一系列簡單動作,如KTH[8]和Weizman[9]數(shù)據(jù)集。其中,KTH數(shù)據(jù)集發(fā)布于2004年,提供了4類場景下受試者的6種動作:行走、跳躍、跑步、拳擊、揮手和拍手,數(shù)據(jù)集由25位受試者參與,包含了599個視頻,拍攝背景相對靜止。Weizman數(shù)據(jù)集發(fā)布于2005年,由以色列Weizman科學(xué)研究所錄制拍攝,包含了9位受試者的10種不同行為:行走、跑步、彎腰、前跳、側(cè)身跳、原地跳、全身跳、單腿跳、揮單手和揮雙手,共93個視頻,分辨率較低,拍攝背景和視角固定,且給出了場景中運動前景的輪廓。
(2)真實場景數(shù)據(jù)集。
真實場景數(shù)據(jù)集主要由從電影或者視頻中采集的數(shù)據(jù)構(gòu)建,如Hollywood[10]和UCF Sports[11]數(shù)據(jù)集。其中,UCF Sports數(shù)據(jù)集源自于BBC、YouTube等,涵蓋場景類型與視角區(qū)域較廣,拍攝視角多樣化,包含10種動作:跳水、打高爾夫、舉重、踢腿、跑步、騎馬、滑板、行走、平衡木和雙杠,共150個視頻,包含一系列子數(shù)據(jù)集,有一定的視角和場景變化。Hollywood數(shù)據(jù)集采集自32部好萊塢電影,包含8類動作:接電話、下車、握手、擁抱、接吻、坐下、坐著和起立,共計633個視頻樣本,樣本具有一個或多個標(biāo)簽,可分為2部分:采集自12部電影的2個訓(xùn)練集和采集自剩余20部電影的測試集,2個訓(xùn)練集包括1個自動訓(xùn)練集和1個干凈訓(xùn)練集。其中,自動訓(xùn)練集利用自動腳本進行行為標(biāo)注,包含233個視頻;干凈訓(xùn)練集具有手動驗證標(biāo)簽,包含219個視頻;測試集也具有手動驗證標(biāo)簽,包含211個視頻。
(3)多視角數(shù)據(jù)集。
多視角數(shù)據(jù)集提供了變化視角下研究行為的旋轉(zhuǎn)不變性的基準(zhǔn)數(shù)據(jù)集,常見的有IXMAS[12]和MuHAVi[13]數(shù)據(jù)集。其中,IXMAS數(shù)據(jù)集發(fā)布自法國的INRIA(Institute for Research in Computer Science and Automation),是多視角與3D研究的校驗基石。該數(shù)據(jù)集從室內(nèi)的4個方向和頂部的1個方向進行拍攝,包含13種行為:看表、抱胳膊、抓頭、坐下、起立、轉(zhuǎn)身、行走、揮手、拳擊、踢腿、指、彎腰撿和扔?xùn)|西,共計180個視頻。MuHAVi數(shù)據(jù)集最先是由英國工程和物理科學(xué)研究委員會EPSRC(Engineering and Physical Sciences Research Council)項目支持,目前由智力科學(xué)技術(shù)研究委員會CONICYT(COmision Nacional de Investigacion Cientificay Tecnologica)常規(guī)項目支持,包含8個視角的18種行為:來回走動、跑步停止、拳擊、踢腿、強迫倒、拉重物、撿物扔、行走、摔倒、看車、膝蓋爬行、揮手、涂鴉、跳躍、醉走、爬梯、打碎物品和跳過間隙,數(shù)據(jù)集由7位受試者參與,共計952個視頻。
(4)特殊數(shù)據(jù)集。
特殊數(shù)據(jù)集指通過特殊技術(shù)(如運動傳感器、Kinect相機等)捕捉的動作數(shù)據(jù)而形成的數(shù)據(jù)集,常見數(shù)據(jù)集有WARD[14]和UCF Kinect[15]數(shù)據(jù)集。其中,WARD數(shù)據(jù)集將無線運動傳感器放置在人體腰部、左右手腕和左右腳踝5個位置,構(gòu)成一個身體傳感器系統(tǒng),記錄了20位受試者在自然狀態(tài)下執(zhí)行的13種動作:站著、坐著、躺著、前進走、順時針走、逆時針走、左轉(zhuǎn)、右轉(zhuǎn)、上樓、下樓、跑步、跳躍和推輪椅,每種動作重復(fù)執(zhí)行5次,共計1 298個行為樣本。UCF Kinect數(shù)據(jù)集利用微軟Kinect傳感器和OpenNI平臺估計骨架,采集了16位年齡在20~35歲的受試者的16種行為:平衡、上爬、爬梯、躲閃、單腿跳、跳躍、飛躍、跑步、踢腿、拳擊、左右扭、前進走、后退和左右速移,每個動作重復(fù)執(zhí)行5次,每幀包含15個關(guān)節(jié)點的3D坐標(biāo)與方向數(shù)據(jù),共計1 280個行為樣本。
人體行為檢測方法的研究起步于1997年,由美國國防部高級項目研究署DARPA(Defense Advanced Research Projects Agency)贊助的視覺監(jiān)控項目組VSAM(Video Surveillance and Monitoring)開始了一系列的行為分類研究[16]。波斯頓大學(xué)計算機研究室[17]、中央弗洛里達大學(xué)的視覺實驗室[18]也相繼對異常行為檢測方法有了研究成果。
相較于國外的研究情況而言,雖然國內(nèi)相關(guān)研究起步較晚,但由于智能監(jiān)控的普及,一系列的研究工作也相繼展開。中國科學(xué)院建立了異常行為分類數(shù)據(jù)集(CASIA);Zhang等人[19]通過高斯混合模型GMM(Gaussian Mixed Model)與K均值(K-Means)聚類算法相結(jié)合的方法對目標(biāo)物體進行行為分類;香港中文大學(xué)的Li等人[20]對目標(biāo)進行建模并提取人體的幾何特征,開發(fā)了異常行為檢測系統(tǒng)。
近年來,隨著計算資源的逐漸成熟,基于深度學(xué)習(xí)的行為分類模型發(fā)展迅速,諸多的研究機構(gòu)與學(xué)者在行為分類算法研究中采用了卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)的方法。相關(guān)研究進展如表1所示。
人體行為檢測的過程一般包括:目標(biāo)檢測與目標(biāo)跟蹤、特征提取和行為識別,具體如下所示:
(1)目標(biāo)檢測。
目標(biāo)檢測是行為理解、分析與識別的基礎(chǔ),負(fù)責(zé)從背景圖像中提取感興趣的運動前景區(qū)域,目標(biāo)檢測的準(zhǔn)確與否將直接影響后續(xù)工作。目前研究較多的目標(biāo)檢測算法有3個:幀差法、背景差法和光流法[43]。
(2)目標(biāo)跟蹤。
目標(biāo)跟蹤研究的是如何快速、準(zhǔn)確且穩(wěn)定地對目標(biāo)進行定位,常用跟蹤方法有4種:基于特征的跟蹤、基于區(qū)域的跟蹤、基于模型的跟蹤和基于主動輪廓的跟蹤[44]。
(3)特征提取。
特征提取是將目標(biāo)視頻圖像中適合的特征數(shù)據(jù)提取出來后構(gòu)成特征向量來描述視頻圖像中人體行為狀態(tài)的一種技術(shù),常見特征主要有:外形特征、時空特征、運動特征以及兩兩結(jié)合的混合特征[45]。
(4)行為識別。
行為識別本質(zhì)上可看作是實現(xiàn)對數(shù)據(jù)的歸類問題,這類數(shù)據(jù)會隨著時間發(fā)生變化,即比較待測目標(biāo)行為特征序列與已知的特定行為特征序列的相似性,相似性高者歸為一類,相似性低者歸為一類[46]。常用行為識別方法有2種:基于模板匹配的識別方法和基于狀態(tài)空間的識別方法。
Table 1 Research of behavior detection methods based on deep learning表1 基于深度學(xué)習(xí)的行為檢測方法的研究分析
傳統(tǒng)特征提取方法一般是經(jīng)由人工觀察,然后手工設(shè)計能夠表征動作特征的特征提取方法,可分成2部分:基于人體幾何或運動信息的特征提取和基于時空興趣點的特征提取。然而,傳統(tǒng)手工特征在處理不同的、復(fù)雜的場景中的光照、遮擋等問題時并不具備普遍性,因此使用基于深度學(xué)習(xí)的方法提取學(xué)習(xí)特征或許效果更好。基于深度學(xué)習(xí)的人體行為檢測方法通過可訓(xùn)練的特征提取模型以端到端的方式實現(xiàn)對視頻圖像的自學(xué)習(xí)行為表征,進而實現(xiàn)行為分類。圖1是基于深度學(xué)習(xí)的人體行為檢測方法的流程示意圖,常用的基于深度學(xué)習(xí)的檢測方法主要有:基于雙流卷積神經(jīng)網(wǎng)絡(luò)的檢測方法、基于殘差網(wǎng)絡(luò)的檢測方法、基于3D卷積神經(jīng)網(wǎng)絡(luò)的檢測方法和基于循環(huán)神經(jīng)網(wǎng)絡(luò)的檢測方法等。
Figure 1 Flow chart of human behavior detection based on deep learning圖1 基于深度學(xué)習(xí)的人體行為檢測流程圖
視頻包含時間與空間2部分信息,空間信息中每一幀表示的是場景、人體等表面信息,時間信息則指的是幀與幀之間的運動信息,包括相機與目標(biāo)物體的運動信息。Ng等人[25]提出了一種基于雙流網(wǎng)絡(luò)結(jié)構(gòu)的人體行為檢測方法,其認(rèn)為網(wǎng)絡(luò)結(jié)構(gòu)應(yīng)該由2個深度網(wǎng)絡(luò)構(gòu)成,分別負(fù)責(zé)處理時間維度信息與空間維度信息。因此,雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可分為時間流卷積神經(jīng)網(wǎng)絡(luò)與空間流卷積神經(jīng)網(wǎng)絡(luò)2部分,且兩者具有相同的網(wǎng)絡(luò)結(jié)構(gòu)。時間流卷積神經(jīng)網(wǎng)絡(luò)通過計算視頻圖像序列相鄰2幀的光流圖像,可以實現(xiàn)對多幀堆疊的光流圖像的時序信息(Temporal Information)的提?。豢臻g流卷積神經(jīng)網(wǎng)絡(luò)則是提取RGB圖像中的空間特征(Spatial Feature),然后融合2個網(wǎng)絡(luò)的得分,最后輸出分類結(jié)果?;陔p流卷積神經(jīng)網(wǎng)絡(luò)的檢測方法可有效提高視頻中行為信息的識別率。圖2是雙流卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖。每個網(wǎng)絡(luò)均由卷積神經(jīng)網(wǎng)絡(luò)CNN與Softmax構(gòu)成,Softmax之后的信息融合在打分時采取了平均和訓(xùn)練SVM 2種方法。
基于雙流卷積神經(jīng)網(wǎng)絡(luò)的檢測方法結(jié)合了時空信息,多幀密集光流有助于檢測性能的提升,在UCF 101和HMDB-51 2個數(shù)據(jù)集上具有較好的性能表現(xiàn)。雖然該方法的識別率較高,但需要預(yù)先提取視頻中的光流圖像,并且2個網(wǎng)絡(luò)是分開訓(xùn)練的,耗時久,無法達到實時性的效果。
Figure 2 Structure of two-stream CNN圖2 雙流卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
在數(shù)理統(tǒng)計學(xué)中,殘差指實際觀察值與擬合值(估計值)間的差,在集成學(xué)習(xí)中可通過基模型來對殘差進行模擬,從而提高模型的準(zhǔn)確度,而在深度學(xué)習(xí)中則有人通過使用層次結(jié)構(gòu)擬合殘差來提高深度神經(jīng)網(wǎng)絡(luò)的性能。殘差網(wǎng)絡(luò)可實現(xiàn)信號分流至下層,殘差塊則是構(gòu)成殘差網(wǎng)絡(luò)的重要元素,將多個殘差塊首尾相連即可構(gòu)成殘差網(wǎng)絡(luò),其基本結(jié)構(gòu)如圖3所示。針對深度學(xué)習(xí)中梯度消失和梯度爆炸的問題,傳統(tǒng)的解決方法是初始化、正則化數(shù)據(jù),這樣雖解決了梯度問題,卻加深了網(wǎng)絡(luò)的深度,影響了網(wǎng)絡(luò)性能,而利用殘差則易于訓(xùn)練深度網(wǎng)絡(luò),可以有效解決梯度問題。通過將網(wǎng)絡(luò)梯度流從后期網(wǎng)絡(luò)層連接到早期網(wǎng)絡(luò)層,可提升網(wǎng)絡(luò)性能,進而增強行為檢測的效果。
Figure 3 Basic structure of residual network圖3 殘差網(wǎng)絡(luò)基本結(jié)構(gòu)
對一個由幾何堆積而成的堆積層結(jié)構(gòu),假設(shè)輸入為x,則學(xué)習(xí)的特征為H(x);若其學(xué)習(xí)到殘差F(x)=H(x)-x,則原始學(xué)習(xí)特征為F(x)+x。圖3表示在殘差網(wǎng)絡(luò)中第2層進行線性變化激活前,F(xiàn)(x)加入了該層輸入值x后再激活后輸出,該操作稱作直連(shortcut)。
此外,F(xiàn)eichtenhofer等人[47]受到殘差網(wǎng)絡(luò)在圖像識別領(lǐng)域的應(yīng)用啟發(fā),提出了將殘差網(wǎng)絡(luò)與雙流卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的行為識別方法,實驗表明,利用殘差網(wǎng)絡(luò)的2D卷積神經(jīng)網(wǎng)絡(luò)的識別效果很好,但在處理大規(guī)模數(shù)據(jù)集時,3D殘差神經(jīng)網(wǎng)絡(luò)的性能較2D殘差神經(jīng)網(wǎng)絡(luò)更佳。
卷積神經(jīng)網(wǎng)絡(luò)通過利用權(quán)值來解決普通神經(jīng)網(wǎng)絡(luò)中參數(shù)膨脹的問題,在前向計算時用卷積核對輸入進行卷積操作,并通過非線性函數(shù)將結(jié)果作為卷積層的輸出,而卷積層之間又有下采樣層,用于獲取局部特征的不變性,降低特征空間尺度[42]。最后則用一個全連接的神經(jīng)網(wǎng)絡(luò)進行行為識別。
當(dāng)前大多數(shù)研究使用基于2D的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)單幀圖像的CNN特征,卻忽略了連續(xù)幀之間的聯(lián)系,有丟失關(guān)鍵信息的可能,所以基于3D的卷積神經(jīng)網(wǎng)絡(luò)則成為新的選擇,利用3D卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視頻行為表征是人體行為檢測的一個重要研究方向。圖4顯示了2D卷積神經(jīng)網(wǎng)絡(luò)與3D卷積神經(jīng)網(wǎng)絡(luò)的差異。基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識別最先是由Ji等人[48]提出的,在KTH數(shù)據(jù)集上識別率較高,高達90.2%,其特點是從視頻圖像數(shù)據(jù)中提取時間特征與空間特征,捕捉視頻流的運動信息,進而實現(xiàn)行為檢測。3D卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)成要素是:1個硬連接層、3個卷積層、2個下采樣層和1個全連接層。硬連接層產(chǎn)生3個通道信息:灰度、梯度和光流,再在每個通道進行卷積操作及下采樣操作,最后將全部的通道信息串聯(lián)起來實現(xiàn)最后的行為表征。
Figure 4 2D CNN and 3D CNN圖4 2D CNN與3D CNN
3D卷積神經(jīng)網(wǎng)絡(luò)對連續(xù)幀組成的立方體進行特征提取,同時捕捉時間與空間維度的特征信息,一次處理多幀圖像,運行速度較快,但計算開銷較大,且對硬件的要求也很高。因此,為進一步增強效果,目前研究人員開始考慮結(jié)合雙流網(wǎng)絡(luò)的思想,利用光流圖像來提升性能。
傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(包括CNN)的輸入與輸出是相互獨立的,在深度學(xué)習(xí)領(lǐng)域雖然進展不錯,但隨著研究的深入,傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對視頻、聲音等信息進行表征時無法學(xué)習(xí)到當(dāng)前信息的邏輯順序,會忽略整體與部分的關(guān)聯(lián),丟失一些有價值的信息。故引入循環(huán)神經(jīng)網(wǎng)絡(luò)RNN。基于循環(huán)神經(jīng)網(wǎng)絡(luò)的行為檢測方法能有效利用相鄰視頻幀之間的時間相關(guān)性對視頻數(shù)據(jù)的人體行為的時序特征建模,但檢測效果不太理想,準(zhǔn)確率還有待提高。RNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。Xt∈Rx表示t時刻的輸入,x是維度,表示該層的神經(jīng)元數(shù)量;Ht∈Rh表示t時刻隱藏層的輸出,假設(shè)該層有h個神經(jīng)元;Ot∈Ro表示t時刻的預(yù)測輸出,o表示輸出數(shù)據(jù)的維度。時間步t的隱藏變量計算由當(dāng)前時間步的輸入與上一時間步的隱藏變量共同決定。
Figure 5 Structure of RNN 圖5 RNN網(wǎng)絡(luò)結(jié)構(gòu)圖
雖然在時域動態(tài)特征建模和特征學(xué)習(xí)2個方面RNN具有很好的效果,但普遍存在梯度消失的問題,為解決該問題,研究人員對普通RNN進行擴展,提出了長短時記憶型RNN模型-LSTM[49],LSTM單元結(jié)構(gòu)如圖6所示。
Figure 6 Structure of LSTM unit圖6 LSTM單元結(jié)構(gòu)圖
Donahue等人[24]將CNN與LSTM相結(jié)合,提出了長時遞歸卷積神經(jīng)網(wǎng)絡(luò)LRCN(Long-term Recurrent Convolutional Network)。該網(wǎng)絡(luò)的輸入是單獨的圖像或視頻中的一幀,通過對視頻數(shù)據(jù)進行特征提取,得到一個定長向量,用于表示數(shù)據(jù)特征,然后將其放到LSTM中學(xué)習(xí),最后得到視頻數(shù)據(jù)的行為特征,實現(xiàn)對目標(biāo)行為的檢測,在UCF101數(shù)據(jù)集上獲得了82.92%的平均檢測準(zhǔn)確率?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的檢測方法能夠很好地利用相鄰幀之間的時間相關(guān)性對視頻中人體行為的時序特征進行建模,但識別率有待提高,除了可與CNN結(jié)合來提升性能,還可考慮與雙流網(wǎng)絡(luò)相結(jié)合。Wu等人[34]提出的雙流網(wǎng)絡(luò)與LSTM相結(jié)合的混合學(xué)習(xí)框架,將時間流與空間流提取的卷積特征作為LSTM網(wǎng)絡(luò)的輸入,以此對長時時序進行建模,在UCF 101數(shù)據(jù)集上具有較好的檢測效果,準(zhǔn)確率高達90.1%。
人體行為檢測是一個多學(xué)科融合的研究領(lǐng)域,涉及諸多的技術(shù)環(huán)節(jié),應(yīng)用范圍也較廣,其發(fā)展趨勢一方面受到如深度學(xué)習(xí)方法等相關(guān)技術(shù)發(fā)展的推動,另一方面又面臨著不斷變化的實際應(yīng)用需求所引發(fā)的如大范圍監(jiān)控環(huán)境下的群體行為識別等問題。
(1)行為檢測發(fā)展趨勢。
人體行為檢測在各類生活場景中具有非常重要的應(yīng)用價值,相關(guān)技術(shù)的應(yīng)用領(lǐng)域與研究范圍也在日益擴展,行為檢測方法正逐漸從滿足理想與半理想的假設(shè)環(huán)境向現(xiàn)實環(huán)境進行延伸。盡管近年來人體行為檢測研究領(lǐng)域取得了極大的進步,但仍需要開展大量的研究工作,其未來的研究方向可以考慮以下2個方面:
①結(jié)合語音信息的識別研究。
行為檢測在人體行為識別方面的分析不單是理論研究,將進一步貼近社會實際需求,并在感知、網(wǎng)絡(luò)和算法等方面進行更為廣泛的研究。此外,人類交流過程中的語音也十分重要,語音信息內(nèi)容豐富但易受距離與環(huán)境影響。而現(xiàn)階段人體行為理解研究由于信息的缺乏只能局限于有限的特定姿勢識別,一旦姿勢視角有了變化,機器便難以理解。雖然目前語音與視頻圖像分析相對獨立,但有效結(jié)合語音與視覺方便機器理解進而更好地實現(xiàn)行為的識別將是未來的一個趨勢和挑戰(zhàn)。
②高層次人體行為理解研究。
目前,單人行為檢測雖已取得突破性進展,但人體的非剛性和特征的高位復(fù)雜性等問題仍難以克服。此外,人體行為的理解還停留在簡單行為與標(biāo)準(zhǔn)姿勢的識別分析上,而如何將行為檢測算法優(yōu)化至能夠?qū)崿F(xiàn)對人體行為進行高層次的理解與描述也是當(dāng)前的研究難點。
(2)數(shù)據(jù)采集的大數(shù)據(jù)化趨勢。
隨著技術(shù)的不斷進步,諸多的新型人體運動感知設(shè)備也不斷出現(xiàn),使得人體運動數(shù)據(jù)的多源與多樣化采集方式有了可能,采集的數(shù)據(jù)形式不僅包含了從2D空間的RGB圖像、3D時空的圖像序列到4D時空的RGBD圖像序列,還綜合考慮了采集時的人體姿勢視角、環(huán)境光照等采集條件。再加上用作訓(xùn)練的行為數(shù)據(jù)的質(zhì)量與規(guī)模均對行為檢測算法的結(jié)果優(yōu)劣有著重大的影響,尤其是深度學(xué)習(xí)方法的應(yīng)用更進一步強化了識別算法對數(shù)據(jù)的依賴程度,出現(xiàn)了數(shù)據(jù)的大數(shù)據(jù)化采集需求。由此不難發(fā)現(xiàn),數(shù)據(jù)的大數(shù)據(jù)化采集與數(shù)據(jù)的自標(biāo)注將是行為識別領(lǐng)域的研究趨勢之一。
(3)模型性能與算法效率并行的趨勢。
根據(jù)行為檢測算法的性能分析可發(fā)現(xiàn),相較于自定義特征表示模型而言,多特征融合和基于學(xué)習(xí)特征的表示模型的識別效果更好。但是,在搭建復(fù)雜性更高的模型進行行為識別時將難以避免算法效率的降低,所以從發(fā)展的角度看,二者并行提升將是順應(yīng)技術(shù)發(fā)展的必然趨勢,具體可表現(xiàn)為低延時的高性能算法設(shè)計和基于融合特征模型的高效率識別算法設(shè)計2方面。
人工智能技術(shù)的發(fā)展極大促進了行為檢測領(lǐng)域的發(fā)展,人體行為檢測則是當(dāng)前異常行為檢測的主要發(fā)展趨勢。近些年,機器學(xué)習(xí)方法的應(yīng)用雖然在行為檢測中獲得了較好的進展,但就整體而言,仍存在不少問題有待解決。
(1)利用視頻圖像進行行為檢測,不僅要考慮背景的復(fù)雜性與多樣性,還需考慮光照強度、遮擋物等因素,以及圖像分辨率等數(shù)據(jù)質(zhì)量問題。
(2)人是一個高復(fù)雜性的研究目標(biāo),行為多樣且不一,對于復(fù)雜度較高的行為的定義與分類難以明確。此外,人的年齡不同、性別不同、文化程度不同、心理變化不同以及不同的身體實際狀態(tài)都會對行為產(chǎn)生一定的影響,而這些差異對用于識別的數(shù)據(jù)庫卻是十分重要的。
(3)基于深度學(xué)習(xí)的行為檢測方法因GPU與CPU的限制無法實現(xiàn)在模型中對整幅視頻圖像提取特征,只能利用連續(xù)幀之間的信息冗余性提取部分幀代替,或是利用整幅視頻圖像平均提取特征,無法很好地區(qū)分運動信息,可能丟失關(guān)鍵行為信息。
(4)缺乏統(tǒng)一的、大規(guī)模的、高質(zhì)量的行為數(shù)據(jù)庫,現(xiàn)有的數(shù)據(jù)集中的動作類不一,難以評價不同檢測方法的性能優(yōu)劣。有限的行為類與樣本數(shù)量是當(dāng)前的一個局限性所在,而且現(xiàn)有的數(shù)據(jù)集采集時所用相機的拍攝視角受限度較大,大多視角單一且固定,且拍攝的場景較為理想,難以實現(xiàn)復(fù)雜場景下的多個人體目標(biāo)的群體行為檢測。
人體行為檢測的研究最初僅是對人體行為信息的簡單分析,之后逐步發(fā)展到對規(guī)則行為與特殊行為的檢測,最終提升至現(xiàn)在的從高層次角度理解行為信息。結(jié)合當(dāng)前的研究狀況可知,人體行為檢測方法的分析與研究目前還停留在理論研究的層面,仍需深入研究感知、網(wǎng)絡(luò)和算法等,并盡量貼合人類行為的真實需求。從未來的發(fā)展趨勢來看,對人體行為檢測而言,基于深度學(xué)習(xí)的檢測方法無疑是一個很有效的手段。隨著技術(shù)的不斷發(fā)展與進步,今后人體行為檢測應(yīng)該向適用范圍廣、可靠性強、便捷實用、辨識度高和抗干擾性強的方向發(fā)展,并融入交通服務(wù)、智慧城市建設(shè)和智能家居等社會領(lǐng)域,從而在社會公共安全等方面發(fā)揮重要作用。