摘 "要: 為解決單一深度卷積神經(jīng)網(wǎng)絡(luò)VGG特征提取的局限性,以及單一循環(huán)神經(jīng)網(wǎng)絡(luò)RNN在記憶歷史信息方面的困難,提出改進(jìn)注意力機制與深度時空網(wǎng)絡(luò)的深度學(xué)習(xí)模型VBA?net的暴力行為檢測方法。首先,通過VGG的深層神經(jīng)網(wǎng)絡(luò)提取關(guān)鍵局部特征;其次,運用改進(jìn)后的注意力機制捕捉和優(yōu)化最顯著的特征;最后,利用雙向長短期記憶網(wǎng)絡(luò)處理過去和未來的時序數(shù)據(jù)。仿真實驗結(jié)果表明,VBA?net在規(guī)模較小的HockeyFight和Movies數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了97.42%和98.06%,在具有多樣化內(nèi)容和復(fù)雜環(huán)境數(shù)據(jù)集RWF?2000和RLVS上準(zhǔn)確率分別達(dá)到89.00%和95.50%,因此其在復(fù)雜環(huán)境的綜合魯棒性優(yōu)于同類算法,可有效提升暴力行為檢測任務(wù)中的準(zhǔn)確率。
關(guān)鍵詞: 暴力行為檢測; 深度卷積神經(jīng)網(wǎng)絡(luò); 雙向長短期記憶網(wǎng)絡(luò); 注意力機制; VBA?net; 特征提取
中圖分類號: TN919?34; TP391.41 " " " " " " " " 文獻(xiàn)標(biāo)識碼: A " " " " " " " " " "文章編號: 1004?373X(2024)21?0131?08
Violence behavior detection based on improved attention mechanism and VGG?BiLSTM
LI Jincheng, YAN Ruiao, DAI Xuejing
(College of Public Security Information Technology and Intelligence, Criminal Investigation Police University of China, Shenyang 110854, China)
Abstract: In view of the limitations of feature extraction in a single deep convolutional neural network VGG (visual geometry group) and the challenges of historical memory in a single recurrent neural network (RNN), an improved deep learning model for violence behavior detection, known as the visual geometry group network?bidirectional long short?term memory network?improved attention mechanism (VBA?net), has been proposed. This model is based on improved attention mechanism and deep spatio?temporal network. The approach begins by extracting key local features with the deep neural network (DNN) of the VGG. Subsequently, an improved attention mechanism is employed to capture and optimize the most significant features. Finally, the bidirectional long short?term memory network (Bi?LSTM) is used to process temporal data of both past and future contexts. Simulation results demonstrate that the VBA?net achieves accuracy rates of 97.42% and 98.06% on the smaller HockeyFight and Movies datasets, respectively, and accuracy rates of 89.00% and 95.50% on the more diverse and complex RWF?2000 and RLVS datasets, respectively. Thus, it exhibits superior comprehensive robustness in complex environment in comparison with the similar algorithms. To sum up, it can improve the accuracy of the tasks of violent behavior detection effectively.
Keywords: violence behavior detection; DCNN; Bi?LSTM; attention mechanism; VBA?net; feature extraction
0 "引 "言
近年來,隨著計算機視覺領(lǐng)域的快速發(fā)展,暴力行為識別已成為研究熱點之一,并且在校園安全管理、城市監(jiān)控系統(tǒng)以及家庭安全等方面具有應(yīng)用價值。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,這一領(lǐng)域的研究方法呈現(xiàn)快速發(fā)展的趨勢。與傳統(tǒng)技術(shù)相比,深度學(xué)習(xí)能夠自動地提取低層次到高層次的抽象特征,特別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)成為處理此類問題的主流技術(shù),吸引眾多學(xué)者構(gòu)建新的模型。文獻(xiàn)[1]采用3D SE?Densenet模型提取視頻中的時空特征信息,但未充分考慮暴力行為的時序性。文獻(xiàn)[2]將前景圖輸入到網(wǎng)絡(luò)模型中提取視頻特征。首先利用輕量化EfficientNet提取前景圖中的幀級空間暴力特征;然后利用卷積長短時記憶(ConvLSTM)網(wǎng)絡(luò)進(jìn)一步提取視頻序列的全局時空特征。文獻(xiàn)[3]提出一種改進(jìn)R?C3D網(wǎng)絡(luò)的暴力行為時序定位方法,將殘差模塊的直接映射分支結(jié)構(gòu)進(jìn)行優(yōu)化,減少時空特征丟失,同時將殘差分支進(jìn)行時空特征密集拼接,減少梯度彌散。文獻(xiàn)[4]使用卷積長短期記憶網(wǎng)絡(luò)來學(xué)習(xí)檢測暴力視頻的方法,通過使用ConvLSTM網(wǎng)絡(luò)結(jié)構(gòu),利用視頻序列的時空信息進(jìn)行暴力行為檢測,但缺乏數(shù)據(jù)處理的靈活性和泛化能力。
注意力機制已經(jīng)被證實是一種有效的策略,通過對不同模塊的自動加權(quán),關(guān)注輸入序列中的特定部分。文獻(xiàn)[5]提出一種基于注意力機制的BiLSTM模型,該模型通過注意力機制對行為序列中的重要部分進(jìn)行自動加權(quán),有效地分析行為前后關(guān)系,從而實現(xiàn)高精度的行為識別。
綜上所述,我國在計算機科學(xué)領(lǐng)域已取得一系列重要成就,但在模型分類和仿真技術(shù)方面仍存在一定的缺陷。因此,本文提出一種改進(jìn)注意力機制與深度時空神經(jīng)網(wǎng)絡(luò)的暴力行為檢測模型——VBA?net(Visual Geometry Group Network?Bidirectional Long Short?Term Memory Network?Improving Attention Mechanism)。該模型結(jié)合VGG網(wǎng)絡(luò)(Visual Geometry Group Network)和雙向長短期記憶(BiLSTM)神經(jīng)網(wǎng)絡(luò)的優(yōu)勢來提取視頻序列中的時空特征。在VGG網(wǎng)絡(luò)中引入一種基于格拉姆矩陣運算的殘差自注意力機制,進(jìn)一步增強模型對于關(guān)鍵特征的識別能力,從而提升模型在暴力行為檢測任務(wù)中的準(zhǔn)確率和魯棒性。
1 "方法及原理
1.1 "VGG?19網(wǎng)絡(luò)
VGG?19網(wǎng)絡(luò)主要由卷積層、池化層和全連接層構(gòu)成。卷積層通過卷積運算來處理輸入數(shù)據(jù),捕捉局部特征;池化層則對卷積層的輸出進(jìn)行下采樣,降低特征維度,增強模型的泛化能力;全連接層在網(wǎng)絡(luò)末端將前面提取和篩選過程中的特征進(jìn)行加權(quán)組合。這種結(jié)構(gòu)安排使得VGG網(wǎng)絡(luò)在視頻識別任務(wù)中表現(xiàn)出卓越的性能。VBA?net對于每個視頻幀,提取“FC2”層的輸出作為幀的特征表示。VGG?19網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
卷積核與輸入數(shù)據(jù)先相乘再對應(yīng)求和的過程稱之為卷積運算,具體運算過程為:
[G×ω=k=1Cj=1Wi=1H[Gk(i,j)ωk(i,j)]] (1)
式中:[G]為卷積層的輸入數(shù)據(jù);[ω]為卷積核的權(quán)重參數(shù);[C]、[W]、[H]分別為卷積核的通道數(shù)、寬、高。
在VGG模型卷積層中改變激活函數(shù),完成非線性運算,選用PReLU(Parametric Rectified Linear Unit)函數(shù)作為激活函數(shù),解決ReLU在[x]lt;0部分導(dǎo)致神經(jīng)元死亡的問題,其公式為:
[PReLU(x)=x,x≥0ax,xlt;0] (2)
PReLU函數(shù)旨在解決傳統(tǒng)激活函數(shù)的零梯度問題,通過給負(fù)值輸入引入一個微小的線性成分,即應(yīng)用[ax](其中[a]是一個較小的正系數(shù))來調(diào)整,從而保持網(wǎng)絡(luò)在負(fù)值區(qū)域的學(xué)習(xí)能力。
1.2 "BiLSTM網(wǎng)絡(luò)
BiLSTM是長短期記憶(LSTM)網(wǎng)絡(luò)的一個變體,通過將兩個LSTM層并行排列實現(xiàn),其中一個LSTM層負(fù)責(zé)處理正向的序列信息(從開始到結(jié)束),另一個LSTM層則處理反向的序列信息(從結(jié)束到開始)。這種結(jié)構(gòu)允許BiLSTM同時捕獲序列中的前向和后向的上下文信息,使其能夠在某一點上同時考慮前面和后面的數(shù)據(jù),最終,這兩個方向上的信息被組合在一起,以做出更加全面和準(zhǔn)確的預(yù)測[6]。
BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
在時間步[t]的網(wǎng)絡(luò)輸出預(yù)測值為:
[ylt;tgt;=g(Wy[alt;tgt;;alt;tgt;]+by)] (3)
式中:[alt;tgt;]、[alt;tgt;]分別為時間步[t]的正向LSTM隱藏狀態(tài)和反向LSTM隱藏狀態(tài);[t]代表時間;[Wy]代表輸出層的權(quán)值向量,用于將BiLSTM網(wǎng)絡(luò)的隱藏狀態(tài)轉(zhuǎn)換為輸出;[by]代表輸出層的偏置向量,用于激活函數(shù)之前的線性變換;[g]代表激活函數(shù)sigmoid,值域為[0,1]。
1.3 "基于格拉姆矩陣運算的殘差自注意力機制
自注意力機制(Self?Attention)常用于建模序列數(shù)據(jù)、圖像或空間數(shù)據(jù)中的內(nèi)部關(guān)系。自注意力機制能夠?qū)W習(xí)到輸入序列內(nèi)部元素之間的依賴關(guān)系,并動態(tài)地分配不同的注意力權(quán)重。自注意力機制的核心思想是通過將輸入序列映射到查詢(query)、鍵(key)和值(value)的特征表示,然后計算查詢與鍵之間的相似度,得到注意力分?jǐn)?shù)。注意力分?jǐn)?shù)可以通過歸一化處理轉(zhuǎn)化為注意力權(quán)重,用于加權(quán)聚合值。最終,自注意力機制將加權(quán)聚合的結(jié)果與原始輸入進(jìn)行線性組合,得到自注意力機制的輸出[7],運算流程如圖3所示。
通過將特征表示矩陣(已通過注意力得分進(jìn)行加權(quán))與值相乘,得到格拉姆矩陣,其表達(dá)式為:
[Gram_matrix=value×attentionT] (4)
該過程實際上是計算一個加權(quán)特征表示,并不是傳統(tǒng)意義上的格拉姆矩陣。加權(quán)特征表示捕獲了輸入特征內(nèi)部的全局依賴性,提高了模型對數(shù)據(jù)結(jié)構(gòu)的理解能力。
[γ]參數(shù)是一個可學(xué)習(xí)的縮放因子,通過對自注意力層的輸出進(jìn)行縮放,[γ]參數(shù)為模型提供了靈活性,使其能夠在訓(xùn)練過程中學(xué)習(xí)到何時依賴原始特征,何時依賴經(jīng)注意力機制加工后的特征。該機制有利于模型動態(tài)地調(diào)整自身對注意力信息的依賴程度,提升模型處理復(fù)雜數(shù)據(jù)時的準(zhǔn)確性和泛化能力。
殘差連接是深度學(xué)習(xí)中一種常見的技術(shù),用于緩解深層網(wǎng)絡(luò)訓(xùn)練過程中可能出現(xiàn)的梯度消失或梯度爆炸問題。殘差連接將自注意力機制的輸出與原始的輸入特征圖相加,有助于維持信息流的順暢,同時允許模型在必要時利用原始特征,確保深層網(wǎng)絡(luò)模型也能有效學(xué)習(xí)。[γ]參數(shù)和殘差連接的數(shù)學(xué)公式為:
[out=γ×out+x] (5)
在這三個元素共同作用下,能夠提升模型對數(shù)據(jù)的理解和表達(dá)能力。格拉姆矩陣提供了一種加權(quán)特征表示機制,通過這種機制模型能夠捕捉和利用輸入數(shù)據(jù)的內(nèi)部依賴性;[γ]參數(shù)提供調(diào)節(jié)注意力機制影響程度的手段;殘差連接確保深層網(wǎng)絡(luò)中能保持信息的流動和梯度的傳播。這種設(shè)計使得自注意力機制能夠有效地集成到深度學(xué)習(xí)模型中,增強其性能和泛化能力。帶有改進(jìn)注意力機制(Gram?based Weighted Self?attention Mechanism, G?WSA)與層規(guī)范化(Layer Normalization, LN)的卷積模塊如圖4所示。
1.4 "VBA?net網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)VGG?19在圖像空間特征提取方面具有優(yōu)勢,而BiLSTM神經(jīng)網(wǎng)絡(luò)在處理時間序列數(shù)據(jù)方面具有優(yōu)勢。因此,本文結(jié)合基于格拉姆矩陣運算的殘差自注意力機制和時空網(wǎng)絡(luò)(VGG?BiLSTM),提出一種新型的暴力行為識別方法,有效分類識別人體某些部位在三維空間中的加速度、角速度和角度等時空特征。VBA?net模型主要由四個部分組成:離散小波變換(Discrete Wavelet Transform, DWT)預(yù)處理、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、雙向長短期記憶(BiLSTM)網(wǎng)絡(luò)和改進(jìn)注意力機制。該模型的整體架構(gòu)如圖5所示。VBA?net設(shè)置的網(wǎng)絡(luò)參數(shù)結(jié)構(gòu)如表1所示。
該模型首先利用DWT預(yù)處理技術(shù)對輸入的視頻幀進(jìn)行處理,以增強其表現(xiàn)力并減少冗余信息,從而為深度學(xué)習(xí)模型提供更加清晰和有區(qū)分力的特征[8];然后采用VGG?19網(wǎng)絡(luò)作為特征提取器,從每個預(yù)處理后的視頻幀中提取潛在特征,提升模型對視頻幀中重要特征的關(guān)注度。在VGG?19網(wǎng)絡(luò)的每個池化層后引入改進(jìn)后的注意力機制(G?WSA),使模型能夠自動識別并聚焦分類任務(wù)中的重要部分。
從VGG?19網(wǎng)絡(luò)的“[FC2]”層中提取每個視頻幀的關(guān)鍵特征,其輸出的高維特征向量包含了視頻幀中的關(guān)鍵信息。然后,這些特征向量被送入雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)中,處理時間序列數(shù)據(jù)。BiLSTM網(wǎng)絡(luò)能夠有效捕捉視頻序列的時間動態(tài)信息,通過學(xué)習(xí)視頻幀之間的前向和后向依賴關(guān)系,從而提供視頻內(nèi)容隨時間變化的深層信息。
2 "實驗設(shè)置
2.1 "軟硬件平臺配置
基于Ubuntu 22.04.4 LTS操作系統(tǒng)的計算機硬件進(jìn)行深度學(xué)習(xí)模型訓(xùn)練。具體配置包括Intel[?] CoreTM i7?13700H處理器、16 GB內(nèi)存以及兩塊RTX 3090顯卡。
2.2 "實驗數(shù)據(jù)集介紹
深度學(xué)習(xí)技術(shù)的發(fā)展依賴于大規(guī)模數(shù)據(jù)集的支撐,缺乏足夠的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,將無法進(jìn)行深度學(xué)習(xí)算法的性能比較。表2為常用的4個數(shù)據(jù)集參數(shù)對比情況。
2.3 "實驗相關(guān)參數(shù)
由上文可知,VBA?net卷積核個數(shù)分別為64、128、256、512、512,BiLSTM隱藏單元的個數(shù)為1 024。添加Flatten層將多維輸入展平為一維向量,并且防止過擬合使用dropout正則化技術(shù),每次訓(xùn)練迭代中概率[p]設(shè)置為0.5。另外,卷積核大小為(3,3),步長(stride)為1,填充(Padding)為“same”,且在每個池化層后添加注意力機制,設(shè)置最大池化層的窗口長度為(2,2),池化步長為(2,2)。在神經(jīng)網(wǎng)絡(luò)正向傳播的過程中,采用二元交叉熵作為模型的損失函數(shù)。神經(jīng)網(wǎng)絡(luò)反向傳播時,使用Adam優(yōu)化方法更新神經(jīng)網(wǎng)絡(luò)的權(quán)重與偏置,學(xué)習(xí)率的初值為0.001,迭代次數(shù)為200次,設(shè)置模型訓(xùn)練的批次大小為64。其中二元交叉熵的計算公式為:
[Binary Cross?Entropy=-1Ni=1N[yilog(yi)+ " " " " " " " " " " " " " " " " " " " " " " "(1-yi)log(1-yi)]] (6)
3 "實驗結(jié)果與分析
3.1 "評價標(biāo)準(zhǔn)
實驗結(jié)果的評價主要采用準(zhǔn)確率(Accuracy)和[F1]兩個指標(biāo)。[F1]是精確率(Precision)與召回率(Recall)的調(diào)和平均值。
為了關(guān)注所有類別中正確分類的樣本比例,引入微平均指標(biāo)(Micro [F1])以及加權(quán)平均指標(biāo)(Weighted [F1]),具體的計算公式為:
[Micro F1=2×Micro Precision×Micro RecallMicro Precision+Micro Recall] (7)
[Weighted F1=Num SamplesiTotal Samples×F1] (8)
3.2 "VBA?net模型實驗結(jié)果
表3為本文提出的VBA?net模型在四種數(shù)據(jù)集中測試的各項參數(shù)指標(biāo)。RLVS數(shù)據(jù)集準(zhǔn)確率為95.50%,Micro [F1]為95.49%,Weighted [F1]為95.50%,其識別結(jié)果表現(xiàn)出較高的準(zhǔn)確率和[F1],顯示出相對穩(wěn)定的整體性能;RWF?2000數(shù)據(jù)集準(zhǔn)確率為89.00%,Micro [F1]為88.80%,Weighted [F1]為88.90%,其識別結(jié)果表現(xiàn)出較高的精確率和[F1]得分,顯示出準(zhǔn)確率和召回率之間存在一種權(quán)衡,模型表現(xiàn)出良好的魯棒性。雖然RWF?2000數(shù)據(jù)集模型可能存在一定的誤分類,但能有效捕捉感興趣的實例。
3.3 "消融實驗
為詳細(xì)研究本文算法各個模塊產(chǎn)生的性能增益,以VGG?net模型為基礎(chǔ)網(wǎng)絡(luò),選擇添加DWT預(yù)處理、LSTM、BiLSTM、卷積塊注意力模塊(Convolutional Block Attention Module, CBAM)、G?WSA,評估算法在RLVS復(fù)雜環(huán)境數(shù)據(jù)集的性能指標(biāo),結(jié)果如表4所示。
1) 在視頻預(yù)處理方面,采用常規(guī)圖像增廣的方式來增加數(shù)據(jù)集數(shù)量的同時,還對圖像視頻進(jìn)行離散小波變化(DWT)預(yù)處理,選擇感興趣的小波系數(shù)進(jìn)行處理,可以實現(xiàn)數(shù)據(jù)的壓縮以及減小存儲空間和傳輸帶寬的需求。由實驗數(shù)據(jù)可知,進(jìn)行圖像預(yù)處理是必要的,可以提高訓(xùn)練結(jié)果的準(zhǔn)確率。
2) 如表4所示,模型對“[FC2]”層輸出數(shù)據(jù)的處理,表現(xiàn)出BiLSTM的耦合性相較于LSTM更優(yōu)異。BiLSTM通過充分利用序列數(shù)據(jù)中的雙向上下文信息,既包括從序列起點至當(dāng)前時刻的歷史信息,也涵蓋從序列終點回溯至當(dāng)前時刻的未來信息。BiLSTM依托于兩個獨立運作的LSTM單元,分別對數(shù)據(jù)序列的正向和反向進(jìn)行處理,并在之后將這兩個方向的信息有效融合,此過程增強模型對于時間序列數(shù)據(jù)的深度理解。LSTM僅能處理當(dāng)前時刻的歷史信息,而無法獲取及利用未來時刻的信息,從而限制其在處理具有強時序依賴特性的效能。因此,BiLSTM的設(shè)計架構(gòu)對于需要深度時序分析的應(yīng)用場景而言,顯示出更加卓越的性能表現(xiàn)。
3) 基于格拉姆矩陣運算的殘差自注意力機制(G?WSA)的添加,對整個模型的整體效能提升顯著,相比CBAM注意力機制效果較好?;诟窭肪仃囉嬎阕⒁饬Φ梅郑梢耘袛嗄P驮谧龀鰶Q策時哪些輸入元素起了關(guān)鍵作用,從而提高模型的可解釋性。[γ]參數(shù)和殘差連接的引入使得自注意力層可以更加有效地集成到深度網(wǎng)絡(luò)中,有助于加速訓(xùn)練過程,其中[γ]參數(shù)是一個可學(xué)習(xí)的縮放因子,允許模型在訓(xùn)練過程中逐漸評判注意力機制的重要程度。模型在學(xué)習(xí)期間可以自適應(yīng)地調(diào)整自注意力機制的影響程度,決定將多少注意力特征融合到最終的輸出中。
3.4 "在復(fù)雜數(shù)據(jù)集中與其他檢測方法的比較
為了說明VBA?net模型的魯棒性和有效性,全面評估其識別能力,分別選擇了6種前沿的暴力檢測模型與VBA?net模型在2個復(fù)雜環(huán)境數(shù)據(jù)集(RWF?2000、RLVS)下進(jìn)行識別率對比,結(jié)果如表5所示。由表中數(shù)據(jù)可知,本文所提出的VBA?net模型對復(fù)雜環(huán)境下暴力行為識別綜合準(zhǔn)確率最高。
圖6和圖7為VBA?net模型在RLVS和RWF?2000數(shù)據(jù)集上的訓(xùn)練與驗證過程中的準(zhǔn)確率變化以及損失函數(shù)的迭代過程。各模型在RLVS數(shù)據(jù)集上的準(zhǔn)確率隨著訓(xùn)練迭代次數(shù)的增加逐漸提高,并最終趨于穩(wěn)定。RWF?2000數(shù)據(jù)集上的準(zhǔn)確率整體表現(xiàn)良好,但在后期的部分迭代過程中出現(xiàn)劇烈下跌,但隨后迅速恢復(fù)到穩(wěn)定狀態(tài),這種現(xiàn)象反映了模型在處理復(fù)雜數(shù)據(jù)集時部分組件的耦合性不足。本文提出的VBA?net網(wǎng)絡(luò)模型在訓(xùn)練集上表現(xiàn)出較快的收斂速度,并在達(dá)到穩(wěn)定后表現(xiàn)出較高的準(zhǔn)確率,證明了VBA?net在處理動態(tài)和復(fù)雜視覺數(shù)據(jù)方面的優(yōu)越性和魯棒性。
圖8a)和圖8b)分別為RLVS和RWF?2000數(shù)據(jù)集上的混淆矩陣?;煜仃囎髠?cè)的分類代表樣本的實際類別,底側(cè)的分類代表模型的預(yù)測類別。矩陣中每個單元格的數(shù)值反映了對應(yīng)類別的樣本數(shù)量,主對角線上的數(shù)值表示模型正確分類的樣本數(shù)量,其余單元格的數(shù)值則表示分類錯誤的樣本數(shù)量。
在RLVS數(shù)據(jù)集中,模型將5個非暴力行為樣本誤分類成暴力行為,以及4個暴力行為樣本誤分類成非暴力行為,在非暴力行為檢測上存在一定程度的誤分類,但模型整體表現(xiàn)良好。在RWF?2000數(shù)據(jù)集上,模型將35個非暴力行為樣本誤分類成暴力行為,9個暴力行為樣本誤分類成非暴力行為。非暴力行為的誤報數(shù)量(186個樣本中的35個)表明模型可能在標(biāo)記非暴力行為時過于保守;暴力行為的較低漏報率(214個樣本中的9個)表現(xiàn)出模型在識別暴力行為方面的高準(zhǔn)確率。
4 "結(jié) "語
本文提出一種VBA?net模型,其引入了基于格拉姆矩陣運算的殘差自注意力機制(G?WSA),從而能動態(tài)地聚焦于更具信息量的特征,同時抑制次要信息,這一特征加權(quán)機制使得該模型極大地增強了特征表示能力。VBA?net在HockeyFight、Movies、RWF?2000和RLVS等數(shù)據(jù)集上進(jìn)行了廣泛的訓(xùn)練和驗證。實驗結(jié)果表明,VBA?net對于復(fù)雜環(huán)境下的數(shù)據(jù)集,特別是RWF?2000和RLVS,相較于其他模型具有更高的綜合識別精度,證明VBA?net在不同場景下暴力行為識別的有效性。盡管VBA?net在復(fù)雜環(huán)境中表現(xiàn)突出,但對于簡易環(huán)境數(shù)據(jù)集的識別精度略顯不足。因此,未來的研究將著重探索能在各類數(shù)據(jù)集上表現(xiàn)均優(yōu)異的模型算法,研究出更具有魯棒性和泛用性的暴力行為檢測模型。
注:本文通訊作者為代雪晶。
參考文獻(xiàn)
[1] 陳杰,李展,顏普,等.基于3D SE?Densenet網(wǎng)絡(luò)的視頻暴力行為識別改進(jìn)算法[J].安徽建筑大學(xué)學(xué)報,2023,31(1):56?63.
[2] 蔡興泉,封丁惟,王通,等.基于時間注意力機制和EfficientNet的視頻暴力行為檢測[J].計算機應(yīng)用,2022,42(11):3564?3572.
[3] 靳偉昭.基于深度學(xué)習(xí)的暴力行為檢測方法研究[D].西安:西安電子科技大學(xué),2021.
[4] SUDHAKARAN S, LANZ O. Learning to detect violent videos using convolutional long short?term memory [C]// Proceedings of the 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. New York: IEEE, 2017: 1?6.
[5] 朱銘康,盧先領(lǐng).基于Bi?LSTM?Attention模型的人體行為識別算法[J].激光與光電子學(xué)進(jìn)展,2019,56(15):153?161.
[6] CHATTERJEE R, HALDER R. Discrete wavelet transform for CNN?BiLSTM?based violence detection [C]// International Conference on Emerging Trends and Advances in Electrical Engineering and Renewable Energy. Heidelberg: Springer, 2020: 41?52.
[7] YANG B S, WANG L Y, WONG D F, et al. Convolutional self?attention networks [EB/OL]. [2019?04?24]. http://arxiv.org/abs/1904.03107.
[8] 張帥濤,蔣品群,宋樹祥,等.基于注意力機制和CNN?LSTM融合模型的鋰電池SOC預(yù)測[J].電源學(xué)報,2024,22(5):269?277.
[9] JAIN A, VISHWAKARMA D K. Deep NeuralNet for violence detection using motion features from dynamic images [C]// 2020 3rd International Conference on Smart Systems and Inventive Technology (ICSSIT). New York: IEEE, 2020: 826?831.
[10] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 4489?4497.
[11] QIU Z F, YAO T, MEI T. Learning spatio?temporal representation with pseudo?3D residual networks [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 5534?5542.
[12] SANTOS F A O, DURAES D, MARCONDES F S, et al. Efficient violence detection using transfer learning [C]// Procee?dings of the Practical Applications of Agents and Multi?agent Systems. Heidelberg: Springer, 2021: 65?75.
[13] TRAN D, WANG H, TORRESANI L, et al. A closer look at spatiotemporal convolutions for action recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6450?6459.
[14] RENDON?SEGADOR F J, ALVAREZ?GARCIA J A, ENRIQUEZ F, et al. ViolenceNet: Dense multi?head self?attention with bidirectional convolutional LSTM for detecting violence [J]. Electronics, 2021, 10: 1601.
[15] ALDAHOUL N, KARIM H A, DATTA R, et al. Convolutional neural network?long short term memory based IoT node for violence detection [C]// 2021 IEEE International Conference on Artificial Intelligence in Engineering and Technology (IICAIET). New York: IEEE, 2021: 1?6.
[16] ULLAH F U M, MUHAMMAD K, HAQ I U, et al. AI?assisted edge vision for violence detection in IoT?based industrial surveillance networks [J]. IEEE transactions on industrial informatics, 2022, 18(8): 5359?5370.
[17] SU Y K, LIN G S, ZHU J H, et al. Human interaction learning on 3D skeleton point clouds for video violence recognition [C]// Proceedings of 16th European Conference on Computer Vision. Heidelberg: Springer, 2020: 74?90.
[18] CHENG M, CAI K J, LI M. RWF?2000: An open large scale video database for violence detection [C]// 2020 25th International Conference on Pattern Recognition (ICPR). New York: IEEE, 2020: 4183?4190.
[19] VIJEIKIS R, RAUDONIS V, DERVINIS G. Efficient violence detection in surveillance [J]. Sensors, 2022, 22(6): 2216.
[20] HUSZáR V D, ADHIKARLA V K, NEGYESI I, et al. Toward fast and accurate violence detection for automated video surveillance applications [J]. IEEE access, 2023, 11: 18772?18793.
[21] 朱光輝,繆君,胡宏利,等.基于自增強注意力機制的室內(nèi)單圖像分段平面三維重建[J].圖學(xué)學(xué)報,2024,45(3):464?471.
作者簡介:李金成(2001—),男,湖北宜昌人,碩士研究生,研究方向為步態(tài)識別技術(shù)。
閆睿驁(2000—),男,內(nèi)蒙古赤峰人,碩士研究生,研究方向為步態(tài)識別技術(shù)。
代雪晶(1970—),女,遼寧鳳城人,博士研究生,教授,碩士生導(dǎo)師,研究方向為聲像資料技術(shù)。