趙彥龍 鐘震宇
摘要:針對行為識別領域中異常行為相似度高、特征關聯(lián)度強等因素,導致相似性異常行為難識別的問題,提出一種基于注意力機制的異常行為識別方法。首先,將基于解耦結(jié)構(gòu)的預測模塊嵌入到基于3D卷積的雙流行為識別網(wǎng)絡中,改善網(wǎng)絡對視覺細粒度特征的表達能力;然后,分別構(gòu)建空間注意力模塊和時間注意力模塊,提高模型對空間關鍵特征區(qū)域的提取和時間維度上長期依賴關系的捕捉;最后,經(jīng)過測試,6種異常行為的識別精度均達到97.6%,驗證了該方法的有效性。
關鍵詞:異常行為;3D卷積;解耦結(jié)構(gòu);空間注意力;時間注意力
中圖分類號:TP391.4文獻標志碼:A文章編號:1674-2605(2023)03-0003-06
DOI:10.3969/j.issn.1674-2605.2023.03.003
Abnormal Behavior Recognition Method Based on Attention Mechanism
ZHAO Yanlong1ZHONG Zhenyu2
(1.Data Information Office, Inner Mongolia Military Region, Hohhot010051,China
2.Institute of Intelligent Manufacturing, Guangdong Academy of Sciences, Guangzhou 510070, China)
Abstract: An abnormal behavior recognition method based on attention mechanism is proposed to address the issue of difficulty in identifying similar abnormal behaviors due to factors such as high similarity and strong feature correlation in the field of behavior recognition. Firstly, the prediction module based on decoupling structure is embedded into the dual flow behavior recognition network based on 3D convolution to improve the network's ability to express visual fine-grained features; Then, construct a spatial attention module and a temporal attention module respectively to improve the model's ability to extract key spatial feature regions and capture long-term dependencies in the temporal dimension; Finally, after testing, the recognition accuracy of six abnormal behaviors reached 97.6%, verifying the effectiveness of this method.
Keywords:abnormal behavior; 3D convolution; decoupling structure; spatial attention; temporal attention
0 引言
隨著我國智慧城市的加速建設,視頻監(jiān)控作為一種輔助管理手段已大規(guī)模覆蓋到各領域,如健康監(jiān)護、工業(yè)生產(chǎn)以及公共安全等[1-2]。在當前社會高速發(fā)展的背景下,如何消除安全隱患、防控安全事故、保障人民生命健康已成為民生關注的熱點和重要課題[3]。人是社會活動的主體,其行為涉及生產(chǎn)生活的各個領域。通過判定視頻中人們活動是否存在異常行為,并采取必要的措施進行干預,對提升遠程管控能力和維護社會秩序穩(wěn)定具有重要的現(xiàn)實意義。
近年來,硬件設備的快速迭代和算力的跨越式提升,為基于視頻的人體異常行為自動識別提供了可行性。視頻數(shù)據(jù)下的人體異常行為自動識別技術利用高性能計算設備和計算機視覺技術,對采集的視頻畫面進行邏輯推理與科學決策,對其中存在的異常行為快速地定位并識別,從而通過捕捉真實場景下行為的動態(tài)變化,自動完成視頻監(jiān)控任務。
目前,國內(nèi)外學者對視頻數(shù)據(jù)下的人體異常行為自動識別技術開展了大量研究。游青山等[4]設計一套基于機器視覺的礦井作業(yè)人員行為檢測及違章識別系統(tǒng),用于礦井作業(yè)人員違章操作的自動識別。OUYANG等[5]通過多任務學習構(gòu)架將三維卷積神經(jīng)網(wǎng)絡與長短期記憶網(wǎng)絡相結(jié)合,通過多個視頻段的特征提取,更有效地在不同類別間共享不同視頻段下的視覺特征。YAN等[6]通過圖卷積網(wǎng)絡與時間卷積網(wǎng)絡交替結(jié)合的方式,同時捕獲骨骼序列中的時空特征,提高了骨骼序列下的行為識別率。林創(chuàng)魯?shù)萚7]通過YOLOv4網(wǎng)絡和DeepSORT算法,實現(xiàn)自動扶梯出口擁堵、長時間滯留等乘客異常行為的識別。
盡管學者們通過行為識別技術在視頻監(jiān)控領域取得了顯著的進步,但當前技術仍存在的兩個問題限制了其在實際場景中的應用:1)相似動作誤判,針對特定場景中的行為識別任務,不同動作類別間的差異性小,類間特征關聯(lián)性強,經(jīng)過網(wǎng)絡的多層特征提取后,動作細節(jié)丟失,致使模型對相似動作做出誤判或誤報;2)時空特征離散化,在時空場景中,行為在時間觸發(fā)上具有隨機性、在類別上具有不確定性,而模型在特征提取過程中將時域中每一幀、空域中每個像素都同等化處理,易引入干擾信息,同時缺乏對關鍵特征信息的關注,導致模型識別精度下降。
針對上述問題,本文提出一種基于注意力機制的異常行為識別方法。首先,構(gòu)建一個基于3D卷積的雙流行為識別網(wǎng)絡;然后,為基于3D卷積的雙流行為識別網(wǎng)絡設計一種基于解耦結(jié)構(gòu)的預測模塊,提高網(wǎng)絡對相似性動作的識別精度;接著,分別構(gòu)建空間注意力模塊和時間注意力模塊,對輸入特征進行建模分析,提升網(wǎng)絡對時空重要特征的關注,從而提高異常行為的識別精度;最后,基于注意力機制的異常行為識別模型在數(shù)據(jù)集上訓練并測試。
1 數(shù)據(jù)集建立
1.1 數(shù)據(jù)采集
本文采集人體常見的背痛、胸腹痛、頸痛(咳嗽)、跌倒、頭痛、久坐等6種異常行為的視頻數(shù)據(jù)。為了確保視頻數(shù)據(jù)的多樣性,增強模型在實際場景中的魯棒性,在視頻采集過程中,采用了多角度、多位置、多時間段和多視角策略進行異常行為的錄制,每個動作視頻均由位于不同位置的2個攝像頭進行拍攝。動作視頻錄制分辨率為1920×1080像素,每個視頻時長為0~5s,并以avi的格式進行保存。最終收集了4746個視頻,隨機選擇其中的4271個視頻作為訓練集,剩余475個視頻作為測試集,并利用文檔分類的方式對視頻進行標注。
1.2 數(shù)據(jù)增強
為擴充人體異常行為的數(shù)據(jù)量,使行為識別模型在真實場景中更具實用性與魯棒性,對原始視頻的訓練集采用裁剪與放縮、椒鹽噪聲與水平翻轉(zhuǎn)、旋轉(zhuǎn)與模糊、旋轉(zhuǎn)與顏色抖動、平移與亮度調(diào)整5種數(shù)據(jù)增強方法進行預處理。數(shù)據(jù)增強后的效果圖如圖1所示。
2 基于注意力機制的異常行為識別模型
針對以往異常行為識別方法對相似性異常行為識別效果差、忽視異常行為在時空維度上的特征關聯(lián)等問題,分別設計基于解耦結(jié)構(gòu)的預測模塊、空間注意力模塊、時間注意力模塊,并通過上述模塊重構(gòu)基于3D卷積的雙流行為識別網(wǎng)絡,提高網(wǎng)絡對相似性異常行為的識別能力和跨域場景的魯棒性,改進的基于3D卷積的雙流行為識別網(wǎng)絡結(jié)構(gòu)圖如圖2所示。
改進的基于3D卷積的雙流行為識別網(wǎng)絡由視頻慢幀率分支和視頻快幀率分支構(gòu)成,分別提取空間特征和時間特征。在空間維度上,為使網(wǎng)絡對單幀圖像關鍵區(qū)域賦予更大的權(quán)重,在慢幀率分支中,每個階段的3D卷積模塊Res后添加空間注意力模塊。同理,在時間維度上,為提高網(wǎng)絡對重要視頻幀的關注,在快幀率分支中,每個階段的3D卷積模塊Res后添加時間注意力模塊。
2.1 基于解耦結(jié)構(gòu)的預測模塊
考慮到在以往的異常行為識別模型中,網(wǎng)絡通常先利用全連接層對特征數(shù)據(jù)進行維度整合,再推理異常行為的類別和發(fā)生時刻。這種將分類任務和回歸任務混淆的處理方式,導致時序特征表達模糊,不利于模型對異常行為的精準判定。
解耦結(jié)構(gòu)在目標檢測與目標分割等領域已取得顯著的效果[8-9]。通過解耦結(jié)構(gòu)能夠有針對性地對有用特征進行約束,使網(wǎng)絡各分支更專注于學習自身有用的特征。本文將解耦結(jié)構(gòu)引入異常行為識別模型中,通過解耦合的方式對全連接層進行結(jié)構(gòu)優(yōu)化,設計雙分支結(jié)構(gòu)使各子任務更加關注于自身任務的特征分布,在提取與子任務匹配的特征后,再進行總體特征的融合,從而實現(xiàn)行為識別效果最優(yōu)化?;诮怦罱Y(jié)構(gòu)的預測模塊結(jié)構(gòu)如圖3所示。
在基于解耦結(jié)構(gòu)的預測模塊中,首先,將融合的雙流特征通過1×1的卷積核進行降維,降低模型的參數(shù)與計算開銷;然后,將特征分別融入分類分支與回歸分支進行相應的特征提取;最后,將雙分支結(jié)構(gòu)的特征進行拼接,拼接后的結(jié)果通過全連接層確定異常行為的類別和發(fā)生時刻。
2.2 空間注意力模塊
考慮到異常行為識別模型的輸入是視頻數(shù)據(jù),而每一個視頻幀中都存在雜亂的背景干擾信息,且不同視頻幀的相似性動作的細粒度特征經(jīng)過多層卷積后易被忽略。因此,通過引導模型關注人體區(qū)域的信息,有助于網(wǎng)絡提取重要區(qū)域的特征并保留更多的細粒度特征。
本文將空間注意力模塊嵌入慢幀率分支中,通過對視頻幀空間特征重組的方式,使網(wǎng)絡更加關注視頻幀中人體區(qū)域,從而提高視頻數(shù)據(jù)的人體異常行為識別率??臻g注意力模塊結(jié)構(gòu)如圖4所示。
空間注意力模塊的輸入可視為多幀特征圖的集合"U=[" "u" _"1"? "," "u" _"2"? ",…," "u" _"t"? "]" ,其中t表示輸入特征圖的幀數(shù),采用兩個并行的池化分支(全局平均池化和全局最大池化)對輸入模塊的數(shù)據(jù)進行降維,同時獲得維度相同的輸出數(shù)據(jù)" 1×1×H×W" 。通過池化操作可有效提高網(wǎng)絡的表達能力,同時濾除特征圖中無用的信息。空間注意力模塊處理過程如下:
2.3 時間注意力模塊
在RGB視頻模式下的異常行為識別任務中,異常行為往往發(fā)生在長期視頻序列的特定時間段,僅與數(shù)百個視頻幀具有強相關性,而與其他時間段的視頻幀弱相關甚至無關。若僅依賴三維卷積的方式將視頻數(shù)據(jù)的不同幀進行整合與時序特征的盲目提取,易引發(fā)無關信息對模型的干擾,同時產(chǎn)生異常行為檢測的滯后。因此,在三維卷積網(wǎng)絡中引入時間注意力模塊,有助于提升模型對視頻中特定且信息豐富幀的關注,從而降低無關幀對模型的干擾??紤]到前文構(gòu)建的異常行為識別模型中的快幀率分支用于捕捉時序序列的相關性,因此將時間注意力模塊嵌入到快幀率分支中,提升模型對視頻幀中有效片段的關注,時間注意力模塊結(jié)構(gòu)如圖5所示。
時間注意力模塊的輸入可視為多幀特征圖的集合"U" ^"'"? "=[" "u" _"1" ^"'"? 〖",u" 〗_"2" ^"'"? ",…," "u" _"t" ^"'"? "]" ,采用2個并行的池化分支(全局平均池化和全局最大池化)對輸入模塊的數(shù)據(jù)進行降維,同時獲得維度相同的輸出數(shù)據(jù)"1×1×1×T" 。時間注意力模塊處理過程如下:
3)采用全連接層對時間特征描述器T_d進行特征篩選,對發(fā)生異常行為的視頻幀賦予更高的評分,增強網(wǎng)絡對關鍵視頻幀的關注,對未出現(xiàn)異常行為的視頻幀賦予較少的關注,避免無用幀對模型推理的影響;
4)利用Sigmoid激活函數(shù)獲得時間注意力的權(quán)重參數(shù)"M" _"T" ,三維卷積激活過程公式為
式中:"F" _"c" 表示時間注意力模塊中的全連接層,"σ" 表示Sigmoid激活函數(shù)。
3實驗
3.1 模型訓練
實驗基于Ubuntu16.04 操作系統(tǒng),采用Python語言編程和PyTorch深度學習框架完成。利用遷移訓練的方式通過大型行為識別數(shù)據(jù)集UCF101[10]進行預訓練,并使用隨機梯度下降算法[11]進行優(yōu)化。實驗平臺硬件配置:英特爾i7-11800H處理器、Nvidia GeForce GTX1080Ti。本文提出的基于注意力機制的異常行為識別模型的超參數(shù)設置如表1所示。
3.2 評價指標
為衡量本文提出的模型性能及分析模型對每個異常行為類別的檢測效果,采用評價指標精確度(accuracy, Ac)對識別實驗結(jié)果進行綜合性評估。此外,考慮到人體存在多種行為同時發(fā)生的可能性,還需要檢索概率值最高的3個預測結(jié)果中是否有真實的標簽。Top-1表示最大概率值的預測結(jié)果為正樣本的準確性,Top-3表示在模型輸出的前3個最大概率中存在正樣本的準確性,評價指標精確度〖"Ac" 〗_"Top-x" 計算公式為
式中:"TP" 表示模型能正確識別出異常行為的數(shù)量,"FP" 表示模型錯誤的預測結(jié)果數(shù)量。
3.3 實驗結(jié)果
為了驗證本文方法的優(yōu)越性,采用先進的行為識別方法I3D[12]、TSM[13]、Slowfast[14]、TANet[15]、TPN[16]與本文方法進行性能比較。針對測試集中475個測試視頻,不同行為識別方法的測試結(jié)果對比如表2所示。
由表2可知:本文方法在模型大小及性能上均達到最優(yōu);在精確度方面,相比于效果最好的TPN行為識別網(wǎng)絡精度提升0.5%,達到97.6%;且本文提出方法具有較低的誤檢率,可滿足現(xiàn)實場景中異常行為的檢測需求。
4 結(jié)論
本文提出一種基于注意力機制的異常行為識別方法,通過采用多種數(shù)據(jù)增強方法對采集的數(shù)據(jù)進行數(shù)據(jù)增強,增加數(shù)據(jù)的多樣性和模型在復雜場景下的魯棒能力;在基于3D卷積的雙流行為識別網(wǎng)絡中嵌入基于解耦結(jié)構(gòu)的預測模塊,改善網(wǎng)絡對于視覺細粒度特征的表達能力,提高相似性行為的識別精度;使用空間注意力模塊和時間注意力模塊,提高模型對空間中關鍵特征區(qū)域的重視和時間維度上長期依賴關系的捕捉。經(jīng)測試,異常行為的識別精確度達到97.6%,驗證了本文方法的有效性及實用性。
參考文獻
[1] 胡艷君,溫強,朱曉妹,等.智慧城市背景下產(chǎn)業(yè)智慧化管理系統(tǒng)的構(gòu)建與應用[J].智能建筑與智慧城市,2022(2):152-155.
[2] 何煒,周保林,王皓.視頻監(jiān)控技術在智慧城市中的應用[J].電子技術,2022,51(1):40-41.
[3] 李雪峰.提高公共安全治理水平的戰(zhàn)略意涵與實現(xiàn)路徑[J].中國應急管理科學,2022(11):13-26.
[4] 游青山,冉霞.基于機器視覺的礦井作業(yè)人員行為監(jiān)測及違章識別系統(tǒng)[J].自動化與信息工程,2021,42(4):20-24.
[5] OUYANG X, XU S, ZHANG C, et al. A 3D-CNN and LSTM based multi-task learning architecture for action recognition[J]. IEEE Access, 2019,7:40757-40770.
[6] YAN S, XIONG Y, LIN D. Spatial temporal graph convolu-tional networks for skeleton-based action recognition[C]//Proceedings of the AAAI conference on artificial intelligence, 2018.
[7] 林創(chuàng)魯,葉亮,李剛,等.基于深度學習的自動扶梯乘客異常行為識別方法研究[J].自動化與信息工程,2022,43(6):1-6.
[8] GE Z, LIU S, WANG F, et al. Yolox: Exceeding yolo series in 2021[J]. arXiv preprint arXiv: 2107.08430, 2021.
[9] ZHANG H, WANG M, LIU Y, et al. FDN: Feature decoupling network for head pose estimation[C]//Proceedings of the AAAI conference on artificial intelligence, 2020,34(7):12789-12796.
[10] SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human actions classes from videos in the wild[J]. arXiv preprint arXiv:1212.0402, 2012.
[11] BOTTOU L. Stochastic gradient descent tricks[J]. Neural Networks: Tricks of the Trade: Second Edition, 2012:421-436.
[12] CARREIRA J, ZISSERMAN A. Quo Vadis, action recogni-tion? a new model and the kinetics dataset[C]//proceedings of the IEEE Conference on Computer Vision and Pattern Re-cognition, 2017:6299-6308.
[13] LIN J, GAN C, HAN S. TSM:temporal shift module for efficient video understanding[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019:7083-7093.
[14] FEICHTENHOFER C, FAN H, MALIK J, et al. Slowfast networks for video recognition[C]//Proceedings of the IEEE/CVF international Conference on Computer Vision, 2019: 6202-6211.
[15] LIU Z, WANG L, WU W, et al. Tam:temporal adaptive module for video recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021:13708-13718.
[16] YANG C, XU Y, SHI J, et al. Temporal pyramid network for action recognition[C]//Proceedings of the IEEE/CVF Con-ference on Computer Vision and Pattern Recognition, 2020: 591-600.
作者簡介:
趙彥龍(通信作者),男,1984年生,碩士,工程師,主要研究方向:計算機網(wǎng)絡、人工智能、大數(shù)據(jù)。E-mail:757477184@qq.com
鐘震宇,男,1971年生,博士,研究員,主要研究方向:深度學習、人工智能、大數(shù)據(jù)。E-mail:zy.zhong@giim.ac.cn