韓培珊,吳瀅瀅,熊茂華(通信作者)
(1 廣東外語外貿(mào)大學(xué)南國商學(xué)院 廣東 廣州 510545) (2 廣州商學(xué)院信息技術(shù)與工程學(xué)院 廣東 廣州 511363)
近年來,國內(nèi)外眾多學(xué)者在深度學(xué)習(xí)(deep learning,DL)、人群異常行為檢測、目標跟蹤、視覺認知分析與神經(jīng)機理、多視角步態(tài)識別、群體分析等領(lǐng)域均取得了非常多的研究成果。
對于DL早期采用低級視覺特征描述方法,如:軌跡、方向梯度直方圖(histogram of oriented gradient,HOG)、光流直方圖(histogram of flow,HOF)、混合動態(tài)紋理(mixtures of dynamic textures,MDT)和光流場等。主要研究視頻行為描述、行為建模、行為分類和智能視頻檢測方法,如:軌跡特征分析法、單階段的視頻行為檢測、動態(tài)混合紋理模型、光流場模型等,還有基于對數(shù)似然比(log-likelihood ratio,LLR)算法、子空間聚類算法、基于三維方向梯度算法和稀疏重構(gòu)算法;深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)、多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(multi-task convolutional neural network,MTCNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)等算法。
目前,行為檢測中廣泛采用的方法有[1]:①局部特征提取的方法;②基于三維時空的特征角點的檢測方法,即以子空間聚類的算法和分類器結(jié)合進行姿態(tài)識別;③新型的智能馬爾科夫邏輯網(wǎng)絡(luò),即基于時空的動作關(guān)聯(lián)網(wǎng)絡(luò),其作用是提高體姿態(tài)動態(tài)識別效果;④消除攝像機抖動或運行而影響視頻行為特征提取的改進增強型特征提取方法與算法;⑤對光流圖像進行優(yōu)化的增強改進型密集軌跡算法等。
系統(tǒng)的拓撲結(jié)構(gòu)如圖1所示。系統(tǒng)的主要功能包括:
圖1 系統(tǒng)拓撲結(jié)構(gòu)
(1)基于遷移學(xué)習(xí)的目標檢測。首先從標準數(shù)據(jù)集中學(xué)習(xí)檢測子,再根據(jù)實際監(jiān)控數(shù)據(jù)特性將檢測子從標準數(shù)據(jù)集中遷移過來。
(2)基于多任務(wù)深度學(xué)習(xí)的行為識別與分析。采用硬參數(shù)共享方式,在網(wǎng)絡(luò)的卷積層采用共享的參數(shù)。
(3)基于多視點多尺度的行為摘要與檢索。采用多視點的行為摘要分析有助于從多個角度分析描述行為,且多個攝像頭下的協(xié)同操作能夠應(yīng)對復(fù)雜環(huán)境下的遮擋等干擾。在后端的檢索過程中,借助多維度多尺度的信息作為特征,從而實現(xiàn)快速精準的檢索。
(4)行為智能分析的應(yīng)用。嵌入新的行為分析模塊,其中包括:可疑行為檢測,如徘徊、遺留物品等;違規(guī)行為檢測,如絆線、逆行等;行為檢索,如設(shè)立不同的標注,檢索出滿足標注行為的目標片段等。
智能視頻行為分析算法流程如圖2所示。分為行為檢測、目標識別和行為分析3個層次[2]。
圖2 智能視頻行為分析算法流程
(1)行為檢測是屬于行為分析系統(tǒng)算法流程的最底層,行為分析系統(tǒng)在前端是用行為圖像獲取裝置來采集實時動態(tài)的圖像幀,過濾、去噪后對目標和背景進行建模、分析,完成目標檢測。目標跟蹤是通過視頻圖像的場景來選擇采用單場跟蹤還是多場景跟蹤,最終可獲得運動目標的運動時間、活動位置、運動方向、運動速度、目標大小和外表屬性等相關(guān)信息。
(2)目標識別是屬于智能行為分析系統(tǒng)算法流程的中間層,對所獲取的運動目標信息進行分析、推測,再用智能分類算法和智能目標識別算法進行目標識別。
(3)行為分析是屬于智能行為分析系統(tǒng)算法流程的高層,借助智能行為分析算法,依據(jù)目標場景、語義場景、應(yīng)用場景和背景場景等復(fù)雜場景,對行為姿態(tài)識別、異常行為識別和行為事件分析。
系統(tǒng)中目標檢測技術(shù)的應(yīng)用場景為視頻監(jiān)控系統(tǒng),不同的應(yīng)用場景和視點視角所采集的真實目標檢測數(shù)據(jù)與現(xiàn)有常用的人體檢測數(shù)據(jù)集不同,且規(guī)模更大,包含的目標姿態(tài)信息更豐富,目標背景也更復(fù)雜和更具多樣性。系統(tǒng)采用基于遷移學(xué)習(xí)的目標檢測算法,將已有的人體數(shù)據(jù)集作為源域,實際監(jiān)控視頻中所得到的視頻數(shù)據(jù)作為目標領(lǐng)域,從原始領(lǐng)域向目標領(lǐng)域進行遷移學(xué)習(xí)。即使在現(xiàn)有實際場景標注樣本較少的情況下,依然能夠從源域數(shù)據(jù)(已有標注數(shù)據(jù)集)得到有效遷移信息,從而得到準確的分類器和檢測器?;谶w移學(xué)習(xí)的目標檢測算法,如圖3所示。
圖3 基于遷移學(xué)習(xí)的目標檢測算法
首先,通過目標檢測獲取原始領(lǐng)域樣本,采用相應(yīng)的樣本選擇策略對樣本進行二值分類,由樣本分類器分析、判斷檢測窗口中是否包含有運動目標,并進行樣本標記。然后,從包含運動目標的窗口中獲取目標領(lǐng)域內(nèi)樣本和圖像;目標領(lǐng)域樣本經(jīng)樣本篩選智能算法分析推測,獲取檢測的目標。其次,采用基于遷移學(xué)習(xí)的目標檢測算法先對原始領(lǐng)域樣本訓(xùn)練、分類、標記,以獲得目標領(lǐng)域樣本;再對目標領(lǐng)域未標記的樣本進行檢測、分類、標記。最后,對目標領(lǐng)域樣本訓(xùn)練、進行權(quán)重、學(xué)習(xí)和計算,訓(xùn)練出更加適合目標領(lǐng)域的目標檢測器,以獲得更理想的檢測結(jié)果。
主流的異常行為識別技術(shù)有基于圖像異常行為識別和基于視頻異常行為識別?;趩畏鶊D像的行為識別缺乏了運動信息,不能使用傳統(tǒng)的時空特征編碼靜態(tài)圖像中的行為,而基于視頻的行為識別則可以從時空塊中提取低層特征,如視頻時空興趣點(spatio-temporal interest point,STIP),對不同行為進行分類。單看一張圖像可能難以對其中的某一動作進行區(qū)分,而對視頻聯(lián)系前后關(guān)聯(lián),則可以輕松地對目標行為進行識別與分析[3]。
在行為識別的過程中,由于可標記的樣本數(shù)量少,因此更需要多任務(wù)學(xué)習(xí)方式來避免目標任務(wù)的過度擬合?;诙嗳蝿?wù)深度學(xué)習(xí)的異常行為識別技術(shù)是一種機器學(xué)習(xí)方法,若多個任務(wù)之間有關(guān)聯(lián)且并行學(xué)習(xí)或?qū)τ趯W(xué)習(xí)結(jié)果存在互相影響,則可采用聯(lián)合學(xué)習(xí)方法。
2.3.1 多視點的行為摘要技術(shù)
在多視點行為分析過程中,多攝像頭網(wǎng)絡(luò)之間的時間拓撲結(jié)構(gòu)能夠?qū)σ曨l數(shù)據(jù)中的目標進行相應(yīng)的時空約束,從而可實現(xiàn)基于多攝像機網(wǎng)絡(luò)拓撲結(jié)構(gòu)的多視點摘要分析。根據(jù)多攝像頭提供的相關(guān)冗余信息,可融合多攝像頭重疊視域的行為摘要模型,對多視角下的目標動作與行為進行協(xié)同表達與摘要分析。融合多時空尺度下的目標運動信息,實現(xiàn)對視頻數(shù)據(jù)的層次化摘要分析與描述。
在構(gòu)建過程中需考慮多視點視頻之間不同的屬性關(guān)系,如時間鄰近性、內(nèi)容相似性和高層語義特征聯(lián)系等。具體的構(gòu)建方法:超圖中的每個節(jié)點代表從視頻中提取的畫面,而超邊則對應(yīng)畫面之間的一種類型的屬性關(guān)系,最后將超圖轉(zhuǎn)換成一個有權(quán)重的時空鏡頭圖,圖上的邊權(quán)值就可以定量的衡量多視點視頻之間的聯(lián)系。這樣復(fù)雜而龐大的多視點視頻數(shù)據(jù)可以轉(zhuǎn)化為圖問題的求解了。在此基礎(chǔ)上,可以結(jié)合前期行為分析中所計算的指標計算與視頻的低級視覺特征,如色彩、運動向量等進行視頻畫面的重要性評價,從而更有針對性的提取特征。
2.3.2 多尺度的行為檢索技術(shù)
當(dāng)前的視頻檢索多是通過從原始數(shù)據(jù)中挖掘各種特征作為線索,然而單一的基于內(nèi)容的視頻檢索模型難以充分挖掘視頻本身所蘊含的豐富語義信息,從而難以得到精準的檢索結(jié)果。系統(tǒng)將側(cè)重研究多維度的視覺信息之間融合,從各維度數(shù)據(jù)的相關(guān)性出發(fā),獲取更具豐富語義信息的高層次特征,從而實現(xiàn)精準有效的檢索。此外,在檢索過程中,從之前視頻行為分析的多任務(wù)學(xué)習(xí)過程中,視頻行為被打上了不同的語義標簽,不同的語義標簽可以整合成獨立的檢索模塊,形成子檢索模塊,采用隨機森林策略,將不同的子檢索模塊看成是一個個弱分類器,根據(jù)不同的深度決策樹原則進行模型設(shè)計與優(yōu)化求解[4]。
異常行為檢測數(shù)據(jù)集包括個體異常行為檢測數(shù)據(jù)集和群體異常行為檢測數(shù)據(jù)集2大類[5]。異常行為檢測數(shù)據(jù)集非常多,主要有UCSD、UCF、RWC、UCF-Crime、UMN、VIF、PETS和MALL等。
(1)個體異常行為檢測的數(shù)據(jù)集
① UCSD像素級數(shù)據(jù)集,異常種類包括騎自行車、滑冰、小推車、行人橫穿人行道、侵入草地等。
② UCF視頻級數(shù)據(jù)集,包含的人群和其他高密度移動物體的視頻。
③ RWC視頻級數(shù)據(jù)集,是運動的個人軌跡。
④ UCF-Crime視頻級數(shù)據(jù)集,異常種類包括打斗、搶劫、縱火、逮捕、爆炸、事故等。
(2)群體異常行為檢測數(shù)據(jù)集
① UMN幀級數(shù)據(jù)集,異常種類包括人群四處逃散、人群單方向跑動、聚集等。
② VIF幀級數(shù)據(jù)集,包括人群暴力行為,為檢驗暴力/非暴力分類和暴力標準提供測試依據(jù)等。
③ PETS視頻級數(shù)據(jù)集,包含了多傳感器的不同人群的活動序列。
④ MALL幀級數(shù)據(jù)集,MALL數(shù)據(jù)庫有密集十字路口交通流視頻和購物中心的視頻2個子集。
異常行為檢測數(shù)據(jù)集大多數(shù)都可用于低密度人群或單人行為的檢測與識別,但部分只能用于群體異常行為檢測。
異常行為檢測的場景和目標對象對其目標跟蹤的特性起關(guān)鍵作用。不同的場景與不同的目標其跟蹤特點不同,同一場景下的不同目標,其跟蹤特性也不盡相同。
表1列出了單場景目標跟蹤、重疊場景、非重疊場景等目標跟蹤算法的特點。
表1 目標跟蹤算法與特點
(1)對于單場景目標跟蹤要求時空連續(xù),這種單場景目標跟蹤算法特別適應(yīng)于對單個目標的持續(xù)跟蹤。對前景目標建模,可將跟蹤看作是前景和背景的二分類,通過學(xué)習(xí)分類器,在當(dāng)前幀搜索得到與背景最具區(qū)分度的前景區(qū)域,即判別式跟蹤。可按目標跟蹤策略精準定位跟蹤,目標跟蹤與目標檢測可同步進行。
(2)在重疊場景目標跟蹤中,采用多攝像頭從多視角對目標檢測,若出現(xiàn)重疊目標場景,目標就會從一個場景進入另一個場景,可用連續(xù)的空間關(guān)系確定進入新場景的目標身份;也可用單應(yīng)性矩陣關(guān)聯(lián)不同場景下的目標,精準推演計算目標在對應(yīng)場景下的位置。
(3)在非重疊場景目標跟蹤中,場景之間盲區(qū)可能導(dǎo)致同一目標在不同攝像機獲取目標信息中的時空信息缺失,從而造成目標跟蹤的難度,可采用攝像機網(wǎng)絡(luò)拓撲估計和跨攝像機目標再識別算法解決此問題。
綜上所述,行為分析系統(tǒng)中主要是以傳統(tǒng)機器學(xué)習(xí)算法進行視頻行為識別與分析、以手工特征描述行人外觀和運動特征,構(gòu)建特征空間。系統(tǒng)采用的技術(shù)方案,即基于遷移學(xué)習(xí)的目標檢測技術(shù)、基于多任務(wù)深度學(xué)習(xí)的行為識別與分析技術(shù)、基于多視點多尺度的行為摘要與檢索技術(shù)等,能較好地實現(xiàn)視頻行為的檢測、識別與分析,尤其在三維時空的多視角點的檢測、姿態(tài)動態(tài)識別效果良好??朔藛我坏囊曨l行為識別與分析方法易產(chǎn)生盲區(qū)、單視點等弱點,具有較高的實用價值。