付榮華, 劉成明, 劉合星, 高宇飛, 石 磊
(1.鄭州大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院 河南 鄭州 450002; 2.鄭州市公安局 科技通信管理處 河南 鄭州 450000)
視頻異常行為檢測是智能視頻監(jiān)控系統(tǒng)的一項(xiàng)重要、具有挑戰(zhàn)性的任務(wù)。在智慧城市時(shí)代,視頻監(jiān)控用于監(jiān)控基礎(chǔ)設(shè)施財(cái)產(chǎn)和公共安全已變得非常重要。大量的攝像頭安裝在地鐵口、購物中心、校園環(huán)境等公共場所,并不斷產(chǎn)生大量的視頻數(shù)據(jù)。對于觀察者來說,人工監(jiān)控長時(shí)間的實(shí)時(shí)視頻流并檢測是否存在異常事件是一件非常困難和耗時(shí)的任務(wù)。從監(jiān)控視頻流中自動(dòng)檢測出異常事件可以顯著減少人工的監(jiān)查工作。
近年來,隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺等領(lǐng)域的蓬勃發(fā)展,視頻特征提取借鑒了圖像特征提取的先進(jìn)研究成果,提出多種視頻特征提取網(wǎng)絡(luò)并取得了良好的成果??梢岳枚喾N特征如外觀、深度、光流和人體骨架等對視頻中的人類行為進(jìn)行識別。在這些特征中,動(dòng)態(tài)的人體骨架通常能傳達(dá)與其他特征互補(bǔ)的重要信息。監(jiān)控視頻中的人類異常行為通常具有較低的類間方差,部分日常行為活動(dòng)表現(xiàn)出相似的運(yùn)動(dòng)模式,如步行和慢速騎車的人,慢速騎車的人因?yàn)榕c步行有相似的速度和姿勢而被誤判為步行模式,這種情況下須要進(jìn)行細(xì)粒度的理解。
早期對視頻異常行為檢測的研究主要基于RGB視頻模態(tài),其包含了豐富的細(xì)節(jié)信息,但其面對背景復(fù)雜和可變性的干擾,以及身體尺度、光照、視角等因素的變化時(shí)容易受到影響。在人類異常行為檢測領(lǐng)域,有利用骨架特征且基于圖卷積的方法關(guān)注人體關(guān)節(jié)的空間配置。時(shí)空圖卷積網(wǎng)絡(luò)(spatial temporal graph convolutional networks, ST-GCN)[1]在學(xué)習(xí)非歐幾里得數(shù)據(jù)的空間和時(shí)間依賴性方面表現(xiàn)了其有效性,ST-GCN的局限性在于只捕捉空間和時(shí)間維度的局部特征,缺乏全局特征。與RGB視頻模態(tài)相比,骨架模態(tài)能夠提供更豐富的人體骨架行為關(guān)鍵點(diǎn)信息,并且對光線和尺度的變化具有較強(qiáng)的魯棒性,是對人體的高層級語義表示,但缺乏外觀信息,特別是人與對象交互的行為信息[2-3],這是檢測細(xì)粒度異常行為的關(guān)鍵。骨架模態(tài)總體信息量也不如RGB模態(tài)的高,比如對于某些和物體交互的動(dòng)作,光用骨架信息就很難完全描述。
為了利用骨架姿態(tài)和RGB視頻模態(tài)的優(yōu)點(diǎn),可將多模態(tài)信息融合成一組綜合的鑒別特征。由于這些模態(tài)是異構(gòu)的,必須通過不同類型的網(wǎng)絡(luò)進(jìn)行處理以顯示其有效性,這限制了它們在簡單的多模態(tài)融合策略[4-5]中的性能,因此,許多姿態(tài)驅(qū)動(dòng)的注意力機(jī)制被提出來指導(dǎo)基于RGB的動(dòng)作識別。文獻(xiàn)[6-7]通過LSTM實(shí)現(xiàn)姿態(tài)驅(qū)動(dòng)注意力網(wǎng)絡(luò),專注于顯著的圖像特征和關(guān)鍵幀。隨著三維卷積的成功發(fā)展,一些工作嘗試?yán)萌S姿態(tài)來加權(quán)RGB特征圖的鑒別部分[6-9]。Das等[8]提出了一種在三維卷積網(wǎng)絡(luò)上的空間注意力機(jī)制來加權(quán)與動(dòng)作相關(guān)的人體部位。為了提升檢測性能并提取更具鑒別性的特征,陳朋等[10]提出的弱監(jiān)督視頻行為檢測結(jié)合了RGB數(shù)據(jù)和骨架數(shù)據(jù)。
以上方法提高了動(dòng)作的識別性能,但它們存在以下缺點(diǎn):在計(jì)算注意力權(quán)值的過程中,三維姿態(tài)與RGB線索之間沒有準(zhǔn)確的對應(yīng)關(guān)系;在計(jì)算注意力權(quán)值時(shí)忽略了人體的拓?fù)浣Y(jié)構(gòu)。
由于目前基于骨架單一模態(tài)的自注意力增強(qiáng)圖卷積網(wǎng)絡(luò)[11]克服了ST-GCN空間局部特征的局限性,空間自注意力增強(qiáng)圖卷積網(wǎng)絡(luò)可以捕獲空間維度的局部和全局特征,但無法捕捉動(dòng)作中微妙的視覺模式,與骨架動(dòng)作姿態(tài)相似的行為動(dòng)作容易出現(xiàn)誤判。為了充分利用RGB模態(tài)與骨架模態(tài)之間的優(yōu)勢并克服時(shí)間卷積的局限性,本文提出了一種骨架引導(dǎo)的多模態(tài)異常行為檢測方法,使用新的空間嵌入來加強(qiáng)RGB和骨架姿態(tài)之間的對應(yīng)關(guān)系,并使用時(shí)間自注意力提取相同節(jié)點(diǎn)的幀間關(guān)系。
如圖1所示,本文提出的方法將原始監(jiān)控視頻的RGB視頻幀及其提取的對應(yīng)骨架姿態(tài)作為輸入。通過視覺網(wǎng)絡(luò)處理視頻幀,并生成時(shí)空特征圖f。所提出的引導(dǎo)模塊(RGB pose networks, RPN) 以特征圖f和骨架時(shí)空圖P作為輸入,通過骨架姿態(tài)和視頻外觀內(nèi)容的空間嵌入(RGB-Pose spatial embedding, RGB-Pose)加強(qiáng)視頻RGB幀和骨架姿態(tài)之間的對應(yīng)關(guān)系,并在時(shí)間維度上使用時(shí)間自注意力模塊(temporal self-attention module, TSA)研究同一關(guān)節(jié)沿時(shí)間的幀間相關(guān)性,從而獲取更好的判別性特征。RPN由改進(jìn)的時(shí)空自注意力增強(qiáng)圖卷積和空間嵌入(RGB-Pose)兩部分組成。改進(jìn)的時(shí)空自注意力增強(qiáng)圖卷積進(jìn)一步由空間自注意力增強(qiáng)圖卷積[11]和時(shí)間自注意力(TSA)組成,融合RGB視頻和骨架兩種模態(tài)進(jìn)行異常行為檢測。RPN計(jì)算特征映射f′。然后使用特征圖f′進(jìn)行深度嵌入聚類,并進(jìn)行異常行為檢測,異常分?jǐn)?shù)用于確定動(dòng)作是否正常。
本文提出了一種新的時(shí)空自注意力增強(qiáng)圖卷積算子,由空間自注意力增強(qiáng)圖卷積模塊以及時(shí)間自注意力模塊(TSA)構(gòu)成。使用時(shí)間自注意力(TSA)提取相同骨骼節(jié)點(diǎn)的幀間關(guān)系,捕獲時(shí)間全局信息。
圖1 骨架引導(dǎo)的多模態(tài)視頻異常行為檢測方法框架圖Figure 1 The framework of skeleton-guided multimodal video anomalous behavior detection method
使用新的空間嵌入(RGB-Pose)來加強(qiáng)RGB和骨架姿態(tài)之間的對應(yīng)關(guān)系,充分利用各個(gè)模態(tài)的優(yōu)勢。所提出的方法在ShanghaiTech Campus異常檢測數(shù)據(jù)集和CUHK Avenue數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)評估,實(shí)現(xiàn)了優(yōu)秀的性能指標(biāo),證明了所提方法的有效性。
監(jiān)控視頻中人體骨架數(shù)據(jù)從預(yù)訓(xùn)練的視頻姿勢估計(jì)算法或運(yùn)動(dòng)捕捉設(shè)備中獲得。通過改進(jìn)的時(shí)空自注意力增強(qiáng)圖卷積塊[11]構(gòu)建時(shí)空自注意力增強(qiáng)圖卷積自編碼器(spatioteporal self-attention augmented graph convolutional autoencoder,SAA-STGCAE)來提取骨架特征,使用編碼器將提取的骨架姿態(tài)嵌入到時(shí)空圖中。人的行為被表示為時(shí)空圖。時(shí)空圖的骨架時(shí)空連接配置如圖2所示,配置描述遵循ST-GCN。將N定義為人體骨架的關(guān)節(jié)數(shù),F定義為視頻的總幀數(shù)。對于監(jiān)控視頻流中的每一個(gè)人,構(gòu)建時(shí)空圖G=(V,E),其中:V={vtn|t=1,2,…,T,n=1,2,…,N}是所有關(guān)節(jié)節(jié)點(diǎn)作為圖的頂點(diǎn)的集合;E表示時(shí)空圖的邊,描述人體結(jié)構(gòu)中自然聯(lián)系的所有邊和時(shí)間的集合。此外,E由兩個(gè)子集Es和Et組成,其中:Es={(vtn,vtm)|t=1,2,…,T,n,m=1,2,…,V}表示每一幀t中任意關(guān)節(jié)對(n,m)的連接;Et={(vtn,v(t+1)n)|t=1,2,…,T,n=1,2,…,N}表示沿連續(xù)時(shí)間的每一幀之間的連接。圖2中的節(jié)點(diǎn)表示人體骨架關(guān)節(jié),實(shí)線為人體骨架關(guān)節(jié)的自然連接,表示空間維度邊,虛線為相同骨架關(guān)節(jié)相鄰幀之間對應(yīng)的時(shí)間維度連接,表示時(shí)間邊。
圖2 骨架時(shí)空圖Figure 2 Spatiotemporal graph
對于RGB視頻,從視頻剪輯中提取人類裁剪圖像作為輸入,通過三維卷積網(wǎng)絡(luò)提取視頻的時(shí)空特征表示。然后,在兩種模態(tài)特征的基礎(chǔ)上,利用引導(dǎo)模塊的空間嵌入融合骨架和RGB特征,增強(qiáng)兩種模態(tài)特征的對應(yīng)關(guān)系。
時(shí)間自注意力模塊(TSA)的每個(gè)獨(dú)立關(guān)節(jié)沿所有幀分別研究每個(gè)關(guān)節(jié)的動(dòng)力學(xué)。通過沿著時(shí)間維度的相同身體關(guān)節(jié)的變化來計(jì)算各幀之間的相關(guān)性,如圖3所示。當(dāng)計(jì)算源節(jié)點(diǎn)加權(quán)結(jié)果時(shí),所有幀的該節(jié)點(diǎn)參與計(jì)算,此為捕捉時(shí)間全局特征的體現(xiàn)。
圖3 時(shí)間自注意力模塊示例圖Figure 3 Example of temporal self-attention module
(1)
(2)
TSA使用下標(biāo)表示時(shí)間,上標(biāo)表示關(guān)節(jié)。TSA采用多頭注意力機(jī)制,所用公式為
(3)
SAT=concat(head1,head2,…,headNh)·Wo。
(4)
為了便于處理,輸入矩陣變維為XT∈RV×Cin×T,可沿時(shí)間維度在每個(gè)關(guān)節(jié)上單獨(dú)操作。Wo是一個(gè)可學(xué)習(xí)的線性變換,結(jié)合了所有頭的輸出。
TSA模塊通過提取相同骨骼節(jié)點(diǎn)的幀間關(guān)系,學(xué)習(xí)同一關(guān)節(jié)不同幀間的關(guān)系,例如首幀中的關(guān)節(jié)與末幀中的關(guān)節(jié)。TSA是沿著同一關(guān)節(jié)(如所有左腳或所有右手)的時(shí)間維度上進(jìn)行,從而在時(shí)間維度得到判別特征,并捕獲時(shí)間全局特征,這是通過標(biāo)準(zhǔn)ST-GCN中TCN無法達(dá)到的。
本文提出了一種新的時(shí)空自注意力增強(qiáng)圖卷積算子,如圖4所示。由空間自注意力增強(qiáng)圖卷積模塊[11](如圖5所示)、時(shí)間自注意力模塊(TSA)構(gòu)成(如圖6所示)。其中空間自注意力增強(qiáng)圖卷積是核心部分。
圖4 時(shí)空自注意力增強(qiáng)圖卷積算子Figure 4 Modified spatiotemporal self-attention augmented graph convolution
圖5 空間自注意力增強(qiáng)圖卷積模塊Figure 5 Spatial self-attention augmented graph convolution module
圖6 時(shí)間自注意力模塊Figure 6 Temporal self-attention module
空間自注意力增強(qiáng)模塊基于空間圖卷積提出,空間維度使用三種類型的鄰接矩陣:靜態(tài)鄰接矩陣(A1);全局學(xué)習(xí)鄰接矩陣(A2)和自適應(yīng)鄰接矩陣(A3)??臻g自注意力模塊應(yīng)用修改后的自注意力算子,捕捉同一幀中不同關(guān)節(jié)的空間特征,并動(dòng)態(tài)構(gòu)建關(guān)節(jié)內(nèi)和關(guān)節(jié)之間的空間關(guān)系,以加強(qiáng)非直接連接的人類骨架關(guān)節(jié)的相關(guān)性。
空間自注意力增強(qiáng)圖卷積主要關(guān)注關(guān)節(jié)之間的空間關(guān)系,其輸出被傳遞到時(shí)間自注意力模塊,以提取幀間的時(shí)間關(guān)系,可描述為
ST-SAAGCN(x)=TSA(GCN(x)),
(5)
時(shí)空自注意力增強(qiáng)圖卷積算子既可以捕獲空間局部和全局特征信息,又可以捕獲時(shí)間全局信息。
骨架自注意力增強(qiáng)圖卷積網(wǎng)絡(luò)[11]被認(rèn)為是主干網(wǎng)絡(luò),可以檢測出行為動(dòng)作中顯著的異常行為信息。對于引導(dǎo)網(wǎng)絡(luò),在骨架姿態(tài)和RGB數(shù)據(jù)之間有一個(gè)準(zhǔn)確的對應(yīng)關(guān)系是很重要的??臻g嵌入的目的是使用骨架姿態(tài)和RGB模態(tài)之間緊密的對應(yīng)關(guān)系,向RGB視頻幀提供骨架姿態(tài)反饋。如圖7所示。
圖7 空間嵌入對應(yīng)關(guān)系Figure 7 Spatial embedding correspondence
文獻(xiàn)[8-9]使用姿態(tài)信息在RGB特征圖上提供注意力權(quán)重,而不是將它們投影到相同的參考中。因?yàn)闆]有像素到像素的對應(yīng),通過骨架數(shù)據(jù)計(jì)算出的空間注意力并不與圖像部分對應(yīng),但這對于檢測相似的動(dòng)作行為至關(guān)重要。為了將這兩種模態(tài)關(guān)聯(lián)起來,本文使用了一種來自圖像字幕任務(wù)[12-13]的嵌入技術(shù)來構(gòu)建一個(gè)精確的RGB-Pose嵌入,使姿態(tài)能夠表示動(dòng)作的視覺內(nèi)容,空間嵌入說明如圖8所示。
圖8 空間嵌入說明圖Figure 8 Spatial embedding illustration
從視頻剪輯中提取的人類裁剪圖像作為輸入,通過三維卷積網(wǎng)絡(luò)計(jì)算時(shí)空表示f,其中f是維度為tc×m×n×c的特征圖。然后,利用本文提出的網(wǎng)絡(luò)對特征圖f和相應(yīng)的骨骼姿態(tài)P進(jìn)行處理。
空間嵌入輸入的是一個(gè)RGB圖像及其相應(yīng)的骨架姿態(tài)。強(qiáng)制嵌入人體關(guān)節(jié)中代表圖像的相關(guān)區(qū)域。假設(shè)視頻特征圖f(一個(gè)Dv維向量)及其對應(yīng)的基于姿態(tài)的潛在空間注意力向量Z1(一個(gè)Dp維向量)的全局空間表示存在低維嵌入。映射函數(shù)推導(dǎo)公式為
(6)
其中:Tv∈RDe×Dv和Tp∈RDe×Dp是將視頻內(nèi)容和骨架姿態(tài)投影到相同的De維嵌入空間的變換矩陣;fe、Se分別為RGB嵌入和骨骼嵌入。將該映射函數(shù)應(yīng)用于視覺空間特征和基于姿態(tài)的特征上,以實(shí)現(xiàn)上述空間嵌入的目標(biāo)。
為了衡量視頻內(nèi)容和骨架姿態(tài)之間的相關(guān)性,計(jì)算它們在嵌入空間中映射之間的距離。將嵌入損失定義為
(7)
這種嵌入損失和全局分類損失在RGB特征映射上提供了一個(gè)線性變換,保留了動(dòng)作表示的低秩結(jié)構(gòu),并為不同的動(dòng)作引入了最大分離特征。因此,通過最小化相關(guān)性嵌入損失來加強(qiáng)視頻和姿態(tài)之間的對應(yīng)關(guān)系。這種嵌入確保了用于計(jì)算空間注意力權(quán)值的姿態(tài)信息與視頻的內(nèi)容保持一致,能更好地體現(xiàn)視頻的語義。
聚類層的開始是SAA-STGCAE的嵌入。該方法調(diào)整了深度嵌入式聚類[14],并使用提出的SAA-STGCAE架構(gòu)對時(shí)空圖進(jìn)行軟聚類。該聚類模型由編碼器、解碼器和軟聚類層三部分組成?;诔跏贾貥?gòu)對嵌入進(jìn)行微調(diào)以獲得最終的聚類優(yōu)化嵌入,然后每個(gè)樣本由分配給每個(gè)集群的概率Pnk表示,所用公式為
(8)
其中:Zn是SAA-STGCAE的編碼器部分生成的潛在嵌入;yn是軟聚類分配;Θ是聚類層數(shù)為k的聚類層參數(shù)。
按照聚類目標(biāo)[14]執(zhí)行算法優(yōu)化,最小化當(dāng)前模型概率聚類預(yù)測P和目標(biāo)分布Q之間的Kullback-Leibler(KL)散度,所用公式為
(9)
(10)
在期望的過程中,固定模型并更新目標(biāo)分布Q,在最大化步驟中,模型被優(yōu)化用以最小化聚類損失Lcluster。
異常分?jǐn)?shù)計(jì)算由狄利克雷過程混合模型進(jìn)行評估。狄利克雷過程混合模型是評估比例數(shù)據(jù)分布的有用度量,理論上是處理大型未標(biāo)記數(shù)據(jù)集的理想選擇。它在估計(jì)階段評估一組分布參數(shù),并使用擬合模型為推理階段的每個(gè)嵌入樣本提供分?jǐn)?shù)。在測試階段,使用擬合模型以對數(shù)概率對每個(gè)樣本進(jìn)行評分。模型提供的正態(tài)性分?jǐn)?shù)用于確定動(dòng)作是否正常。
在ShanghaiTech Campus和CUHK Avenue兩個(gè)公共數(shù)據(jù)集上評估了所提視頻異常檢測方法的性能,這兩個(gè)數(shù)據(jù)集可以輕松識別行人并提取人體骨架數(shù)據(jù),HR-ShanghaiTech為第一個(gè)數(shù)據(jù)集中異常的且僅與人類有關(guān)的子集。圖9顯示了實(shí)驗(yàn)所使用數(shù)據(jù)集中的一些正常和異常事件。本節(jié)將提出的網(wǎng)絡(luò)與基于外觀[15-17]和基于骨架的[11,18-20]方法進(jìn)行比較。所有實(shí)驗(yàn)都在幀級AUC度量上進(jìn)行評估。
圖9 數(shù)據(jù)集正常和異常事件示例Figure 9 Examples of normal and abnormal events in the dataset
CUHK Avenue與ShanghaiTech數(shù)據(jù)集的幀數(shù)(訓(xùn)練幀、測試幀)、異常事件和場景數(shù)等相關(guān)信息如表1所示。
表1 數(shù)據(jù)集比較表Table 1 Comparison of datasets
本文方法由Pytorch框架實(shí)現(xiàn),在Nvidia GeForce RTX 2080Ti (×4)Ubuntu 18.04操作系統(tǒng),CUDA 10.0支持下進(jìn)行實(shí)驗(yàn)。
本文實(shí)驗(yàn)中,所選擇的視覺網(wǎng)絡(luò)是在數(shù)據(jù)集ImageNet和Kinetics-400上預(yù)訓(xùn)練的I3D(Two-Stream Inflated 3D ConvNet)網(wǎng)絡(luò)。視覺主干以64幀視頻作為輸入。從I3D的Mixed_5c層中提取的特征圖和相應(yīng)的骨架姿態(tài)組成RPN的輸入。
使用Alpha-Pose算法來提取視頻中每一幀人的骨架姿態(tài)估計(jì)。對于自注意力時(shí)空圖卷積的配置,遵循ST-GCN中的設(shè)置,其中包含9個(gè)時(shí)空自注意力圖卷積層。前3層、中3層和后3層分別有64、128和256個(gè)通道用于輸出。Resnet機(jī)制應(yīng)用于每個(gè)自注意力時(shí)空圖卷積。
模型包括兩個(gè)新的組件,空間嵌入和時(shí)空自注意力。這兩者對相似行為下的異常行為檢測識別性能都是至關(guān)重要的。
2.3.1自注意力網(wǎng)絡(luò)消融實(shí)驗(yàn) 本文進(jìn)行了空間自注意力、時(shí)間自注意力以及時(shí)空自注意力的消融實(shí)驗(yàn),結(jié)果如表2所示。
表2 自注意力網(wǎng)絡(luò)消融實(shí)驗(yàn)結(jié)果表Table 2 Self-attention network ablation experimental results
結(jié)果表明,僅采用空間自注意力,可以捕獲空間局部和全局特征但缺乏時(shí)間全局特征。僅采用時(shí)間自注意力,考慮了時(shí)間全局特征,但缺乏空間全局特征。時(shí)空自注意力增強(qiáng)圖卷積計(jì)算注意力權(quán)重時(shí),不僅在空間維度上考慮了骨架特征的局部和全局信息,而且在時(shí)間維度上考慮同一關(guān)節(jié)的時(shí)間全局關(guān)系,這進(jìn)一步提高了異常行為檢測的性能,使模型能減少誤判。
2.3.2時(shí)空自注意力與空間嵌入消融實(shí)驗(yàn) 進(jìn)行了時(shí)空自注意力網(wǎng)絡(luò)和RPN的空間嵌入模塊的消融實(shí)驗(yàn)。時(shí)空自注意力網(wǎng)絡(luò)在數(shù)據(jù)集ShanghaiTech上結(jié)果為0.790,在數(shù)據(jù)集HR-ShanghaiTech上結(jié)果為0.793;空間嵌入在數(shù)據(jù)集ShanghaiTech上結(jié)果為0.795,在數(shù)據(jù)集HR-ShanghaiTech上結(jié)果為0.798。結(jié)果表明,空間嵌入提供了RGB模態(tài)和骨架姿態(tài)模態(tài)的精確對齊,與沒有嵌入的動(dòng)作相比,細(xì)粒度動(dòng)作的檢測性能有所提高。時(shí)空自注意力增強(qiáng)圖卷積操作和空間嵌入使識別模型能夠更好地消除外觀相似的動(dòng)作歧義。
2.3.3時(shí)空自注意力增強(qiáng)圖卷積數(shù)量的選擇 本文還對時(shí)空自注意力增強(qiáng)圖卷積數(shù)量進(jìn)行消融研究,以探索其有效性。實(shí)驗(yàn)逐漸增加時(shí)空自注意力增強(qiáng)圖卷積的數(shù)量。如圖10所示。
圖10 改變時(shí)空自注意力增強(qiáng)圖卷積數(shù)量在 ShanghaiTech Campus數(shù)據(jù)集上的性能Figure 10 Performance of changing the number of spatiotemporal self-attention augmented graph convolutions on the ShanghaiTech Campus dataset
由圖10可知隨著增加時(shí)空自注意力增強(qiáng)圖卷積數(shù)量,在ShanghaiTech Campus數(shù)據(jù)集上的AUC性能逐漸增加。當(dāng)時(shí)空自注意力增強(qiáng)圖卷積數(shù)量選擇為9時(shí),模型在ShanghaiTech Campus數(shù)據(jù)集上的性能最好。消融實(shí)驗(yàn)表明更深層次可能會(huì)導(dǎo)致模型優(yōu)化困難。
為了直觀地評價(jià)模型,將CUHK Avenue數(shù)據(jù)集和ShanghaiTech數(shù)據(jù)集的部分實(shí)驗(yàn)結(jié)果可視化。異常分?jǐn)?shù)可視化圖以視頻幀為x軸,以異常分?jǐn)?shù)為y軸,圖中陰影區(qū)域表示異常行為發(fā)生的時(shí)段。
圖11為CUHK Avenue數(shù)據(jù)集的攝像頭采集的第11視頻片段的異常得分。異常分?jǐn)?shù)歸一化為[0, 1],圖中陰影區(qū)域代表異常,此視頻片段異常事件為扔擲東西和逆向行走。
圖11 數(shù)據(jù)集CUHK Avenue#11異常分?jǐn)?shù)可視化圖Figure 11 The visualization of anomaly scores for CUHK
圖12為數(shù)據(jù)集CUHK Avenue#11的典型異常幀,圖12(a)93幀表示人準(zhǔn)備開始向上扔擲動(dòng)作,圖12(b)150幀表示人撿起扔擲物品,圖12(c)300幀表示逆向行走的人,行人的運(yùn)動(dòng)方向與他人不一致,即運(yùn)動(dòng)軌跡異常。
圖12 數(shù)據(jù)集CUHK Avenue#11的典型異常幀F(xiàn)igure 12 Typical anomalous frame for dataset Avenue#11
圖13為ShanghaiTech數(shù)據(jù)集的07號攝像頭視角的第009視頻片段的異常得分,圖中陰影區(qū)域代表異常,此視頻片段異常事件為突然跳躍。從圖13中可以看出,異常行為從115幀到198幀,視頻片段中的人進(jìn)行了多次跳躍動(dòng)作。
圖13 數(shù)據(jù)集ShanghaiTech#07_009異常分?jǐn)?shù)可視化圖Figure 13 The visualization of anomaly scores for ShanghaiTech#07_009
如圖14所示,圖(a)118幀表示人準(zhǔn)備跳躍的下蹲起勢動(dòng)作,圖(b)132幀表示人向前跳躍的動(dòng)作,圖(c)145幀表示跳躍的落地動(dòng)作,圖(d)155幀表示人再次起跳動(dòng)作,圖(e)167幀表示再次落地,圖(f)180幀表示3次起跳動(dòng)作。
圖14 數(shù)據(jù)集ShanghaiTech#07_009的典型異常幀F(xiàn)igure 14 Typical anomalous frame for dataset ShanghaiTech#07_009
圖15為ShanghaiTech數(shù)據(jù)集的06號攝像頭視角的第150視頻片段的異常得分,圖中陰影區(qū)域代表異常,此視頻片段異常事件為騎自行車的人。慢速騎自行車的人與行走的人具有相似的運(yùn)動(dòng)模式,在只使用骨架模態(tài)進(jìn)行異常檢測時(shí)極易產(chǎn)生誤判,本文方法可以對其進(jìn)行異常檢測,降低誤判率。
圖15 數(shù)據(jù)集ShanghaiTech#06_150的異常分?jǐn)?shù)可視化圖Figure 15 The visualization of anomaly scores for ShanghaiTech#06_150
對比本文所提方法與其他單模態(tài)的方法在ShanghaiTech Campus數(shù)據(jù)集、與人類活動(dòng)相關(guān)的HR-ShanghaiTech Campus數(shù)據(jù)集和CUHK Avenue數(shù)據(jù)集上的性能,顯示幀級的AUC分?jǐn)?shù),如表3所示。
表3 異常檢測結(jié)果表Table 3 Table of anomaly detection results
將本文所提出的方法與基于外觀的方法[15-17]和基于骨架的方法[18-20]進(jìn)行比較。一般來說,基于骨架的方法比基于外觀的方法表現(xiàn)更好,尤其是在ShanghaiTech Campus數(shù)據(jù)集中,異常僅存在與人類有關(guān)的子集HR-ShanghaiTech Campus上。原因是這些算法只關(guān)注人體姿勢而不是不相關(guān)的特征,例如復(fù)雜的背景、光照變化、動(dòng)態(tài)攝像機(jī)視圖等。對于基于骨架的方法,基于GCN的方法[18-19]表現(xiàn)更好,與基于RNN的方法[20]相比,因?yàn)楣羌芸梢宰匀坏囟x為圖結(jié)構(gòu),并且圖卷積網(wǎng)絡(luò)在處理非歐幾里得結(jié)構(gòu)數(shù)據(jù)方面優(yōu)于RNN網(wǎng)絡(luò)。對于只使用單模態(tài)的異常行為檢測,由于外觀信息的缺乏,MPED-RNN[20]、Normal Graph[18]、GEPC[19]、SAA-Graph[11]無法消除具有相似視覺外觀動(dòng)作的歧義。骨架模態(tài)和RGB模態(tài)結(jié)合可以提升檢測的性能,使用新的空間嵌入來加強(qiáng)RGB視頻和骨架姿態(tài)之間的對應(yīng)關(guān)系,以及使用時(shí)間自注意力提取相同節(jié)點(diǎn)之間的幀間關(guān)系,可以提高部分相似行為下的異常行為檢測性能。
本文主要研究相似運(yùn)動(dòng)模式下的異常行為檢測。提出了一種新的視頻姿態(tài)網(wǎng)絡(luò)RPN,提供了一種精確的視頻姿態(tài)嵌入方法,通過顯式嵌入來結(jié)合RGB模態(tài)和骨架模態(tài)并采用時(shí)間自注意力捕獲時(shí)間全局信息。結(jié)果表明,RGB-Pose嵌入與骨架時(shí)空自注意力產(chǎn)生了一個(gè)更具區(qū)別的特征圖,提升了相似異常行為的檢測性能。本文異常行為檢測模型在兩個(gè)公共數(shù)據(jù)集上的性能都取得了優(yōu)異的結(jié)果。本文針對不同監(jiān)控場景下的人類異常行為檢測進(jìn)行了相關(guān)研究,但仍然存在一些可以進(jìn)一步改進(jìn)的問題。未來與人類行為相關(guān)的監(jiān)控視頻異常行為檢測工作:1) 在有噪聲的骨架姿態(tài)情況下,可利用本文提出的嵌入方法提高網(wǎng)絡(luò)的異常行為檢測。2) 引入更多視覺特征或拓展模態(tài)并研究輕量級模型,在考慮保證特征的全面性和有效性的同時(shí)提高計(jì)算速度。