基于多尺度特征預(yù)測的異常事件檢測

2022-07-15 08:10:24王軍

電子科技大學(xué)學(xué)報 2022年4期

王軍

(電子科技大學(xué)中山學(xué)院機電工程學(xué)院廣東中山 528402)

隨著公共安全體系建設(shè)的不斷發(fā)展，監(jiān)控攝像頭被廣泛應(yīng)用在各種公共場合中，如商場、街道、銀行等。由于監(jiān)控視頻內(nèi)容龐大，人工進行異常事件檢測會耗費大量的人力物力[1-4]。因此，如何建立一個高效的自動異常事件檢測系統(tǒng)非常重要，這也是計算機視覺研究的一個重要方向。

異常事件檢測大體可分為基于手工特征的方法和基于深度學(xué)習(xí)的方法，近年來基于深度學(xué)習(xí)的方法被廣泛研究[1,5-10]。由于深度神經(jīng)網(wǎng)絡(luò)卓越的生成能力，基于重建和預(yù)測的異常事件檢測方法被廣泛地使用。文獻[1]開創(chuàng)性地將U-net 網(wǎng)絡(luò)引入異常事件檢測領(lǐng)域中，根據(jù)歷史時刻的視頻幀預(yù)測未來幀，并根據(jù)預(yù)測誤差進行異常檢測。文獻[5]對UNet 網(wǎng)絡(luò)進行改進，將其變化為一個雙流網(wǎng)絡(luò)，網(wǎng)絡(luò)的兩個流分別對視頻幀進行重建和預(yù)測，并引入生成對抗的思想進行訓(xùn)練，以生成更加逼真的圖像，最后根據(jù)重建誤差進行異常判斷。考慮到視頻是由一系列關(guān)聯(lián)性很強的圖像組成，不少學(xué)者提出時間信息的概念，并將其用于視頻異常事件檢測中。文獻[7]利用3D 卷積提取輸入視頻片段中的空間特征和時間信息特征，并使用兩個3D 反卷積分別進行重建和預(yù)測。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)及其變體由于其優(yōu)秀的時間信息編碼能力被用于異常事件檢測中。文獻[8]將LSTM 網(wǎng)絡(luò)與軟硬注意力相結(jié)合提出行人軌跡預(yù)測網(wǎng)絡(luò)，該網(wǎng)絡(luò)不僅關(guān)注行人的歷史軌跡，同時還關(guān)注該行人的鄰域?qū)ζ滠壽E的影響。文獻[9]將卷積自編碼器與ConvLSTM 相結(jié)合，利用卷積自編碼器獲取空間特征的變化，利用ConvLSTM 記錄特征隨時間的變化，并將光流作為補充信息，從全局?局部的角度分析異常。此外，由于監(jiān)控視頻的視角大多是固定的，視頻中可能會出現(xiàn)不同大小的物體，因此多尺度特征被引入到檢測模型中。文獻[10]提出一種雙邊多尺度聚合網(wǎng)絡(luò)，該網(wǎng)絡(luò)利用不同膨脹率的空洞卷積提取不同大小感受野的特征，利用ConvLSTM 進行雙邊時間信息編碼。

雖然視頻異常檢測已經(jīng)取得了一些成就，但依然存在一些問題。如視頻中物體大小的變化、復(fù)雜背景的影響以及不同場景下異常的定義不同等。為了解決以上問題，本文提出一種充分利用多尺度特征和時間?空間信息的異常事件檢測方法。首先，利用經(jīng)過預(yù)訓(xùn)練的VGG16 網(wǎng)絡(luò)提取特征，構(gòu)建多尺度特征融合模塊獲取更多不同大小感受野的信息，以獲得對輸入視頻幀的完備表示。其次，使用一種輕量化的通道注意力模塊來強調(diào)視頻中重要的前景信息，以減少背景信息對檢測的影響。在此基礎(chǔ)上，根據(jù)歷史時刻特征預(yù)測當(dāng)前時刻的特征，這將有助于彌補前文模塊中對上下文信息和時間信息利用不足的缺陷。在訓(xùn)練階段，最小化預(yù)測特征與真實特征之間的歐式距離使整個網(wǎng)絡(luò)收斂。在測試階段，本文認(rèn)為僅包含正常事件的視頻幀可以很好地預(yù)測，而包含異常事件的視頻幀將會產(chǎn)生很大的預(yù)測誤差。因此，在測試時將根據(jù)預(yù)測誤差進行異常判斷。在USCD Ped2 和UMN 兩個基準(zhǔn)數(shù)據(jù)集上進行了實驗，實驗結(jié)果表明了提出方法的有效性。

1 基于空洞卷積的多尺度特征提取

為了編碼盡可能多的空間信息，使用空洞卷積網(wǎng)絡(luò)構(gòu)建一種多尺度特征融合模塊，以獲得包含輸入視頻幀的全局?局部信息的特征圖。

由于視頻幀中存在不同大小的對象，所以不同大小感受野的信息在異常事件檢測中非常重要，而空洞卷積[11]可以通過調(diào)整膨脹率來獲得不同大小感受野的特征語義，因此本文利用空洞卷積設(shè)計了一種具有多分支結(jié)構(gòu)的多尺度特征融合模塊，用于提取視頻的多尺度特征，其結(jié)構(gòu)如圖1 所示。輸入的視頻幀首先經(jīng)過一個預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò)進行特征提取，取VGG16 第三個池化層的輸出作為多分支結(jié)構(gòu)的輸入。輸入的特征圖被送入4 個不同的分支中進行處理。第一個分支用于保留原始特征信息，其余3 個分支通過具有不同膨脹率的空洞卷積提取多尺度特征。第二、第三、第四分支的膨脹率分別為1、3、5，則其卷積核對應(yīng)的感受野分別為3×3、 7×7、 1 1×11。由于空洞卷積的存在，可以在不做池化損失信息的情況下，增大特征圖的感受野，讓卷積的輸出包含較豐富的信息。

圖1 多尺度特征融合模塊結(jié)構(gòu)

在4 個分支中，小膨脹率的卷積核有利于提取視頻幀中小物體的特征，而大膨脹率的卷積核有助于提取視頻幀中大物體的特征。本文在空洞卷積的前后增加了1×1 的卷積來調(diào)整特征圖的通道數(shù)，以減少模型的參數(shù)量和運算量。最后，將4 個分支的特征圖在通道上進行拼接，獲得一個包含全局?局部信息的特征表示U。

2 基于通道注意力的背景抑制

在視頻異常事件檢測中，監(jiān)控攝像頭通常是固定的，因此畫面中可能存在大量靜止的區(qū)域。異常事件通常發(fā)生在運動變化的前景物體上，因此希望網(wǎng)絡(luò)能夠重點關(guān)注運動變化的前景物體。在特征圖中，不同的通道包含著不同的語義信息，有的通道包含著靜止的背景信息，有的通道包含著變化的前景信息。為了減少背景信息對檢測的影響，強調(diào)當(dāng)前幀中重要的前景物體的信息，本文引入通道注意力機制。通道注意力通過計算各個通道中包含的信息以及通道之間的關(guān)系生成通道的權(quán)重，并將權(quán)重賦予其對應(yīng)的通道。本文基于SENet 設(shè)計了一種輕量化通道注意力模型，包含擠壓、激活、重新分配權(quán)重3 個步驟，其結(jié)構(gòu)如圖2所示。其中，擠壓(squeeze)是通過在輸入特征圖的每個通道上執(zhí)行全局平均池化得到特征圖的全局壓縮特征向量；激活(excitation)是通過兩組1×1 卷積、批正則化、激活函數(shù)獲得輸入特征圖中每個通道的權(quán)值；重新分配權(quán)重操作(reassign weights)是將權(quán)值對輸入的特征進行加權(quán)。

圖2 輕量化通道模塊注意力結(jié)構(gòu)

首先在擠壓操作中，輸入特征圖U經(jīng)過全局平均池化從H×W的大小池化成一個一維向量，該過程可表示為：

式中，Uc(i,j)表示輸入特征U的第c個通道 (i,j)位置上的空間信息；Fsq(Uc) 表示擠壓操作；zc表示空間描述符。

擠壓操作之后是激活操作，現(xiàn)有的通道注意力機制通常使用全連接層來計算通道之間的關(guān)系和權(quán)重，這無疑會增加運算的復(fù)雜度并且可能會導(dǎo)致過擬合。本文使用兩個1×1 的卷積來替換全連接層，以減少運算量。在每一個卷積層之后使用批正則化層進行正則化，以重新調(diào)整數(shù)據(jù)的分布，保證訓(xùn)練過程中梯度的有效性。在兩個批正則化后面，分別使用ReLU 和Hard-sigmoid 函數(shù)作為激活函數(shù)。激活操作可表示為：

式中，z表示經(jīng)過擠壓后得到的一維向量；W1和W2分別表示兩個卷積層的權(quán)重；N表示批正則化；σ和 δ分別表示hard-sigmoid 激活函數(shù)和ReLU 激活函數(shù)；Fex(z)表示激活操作；S表示通道注意力權(quán)值，為一維向量，維度等于輸入特征圖的通道數(shù)512。權(quán)值中某個維度的值越高，表明其對應(yīng)的通道的重要性越高。

最后，在重新分配權(quán)重中，將輸入特征圖U與通道權(quán)重相乘，強調(diào)輸入特征圖中重要的通道信息。

重新調(diào)整通道權(quán)重：

式中，Sc表示第c個通道的注意力權(quán)重；Uc表示輸入的第c個通道的特征圖；Fscale(U,S)表示重新調(diào)整權(quán)重操作；Fatt表示進行注意力計算后的通道注意力特征圖。

3 基于特征預(yù)測的異常事件檢測

正常事件狀態(tài)變化比較平穩(wěn)，可以預(yù)測，而異常事件狀態(tài)通常會出現(xiàn)突變，不可預(yù)測。因此可以通過比較某幀的預(yù)測特征和真實特征來判斷事件是否異常。

監(jiān)控視頻是由一系列關(guān)聯(lián)性很強的視頻幀組成，為了充分利用視頻幀之間的時間信息，本文構(gòu)建了深度特征預(yù)測模塊。該模塊根據(jù)歷史時刻的特征圖預(yù)測當(dāng)前時刻的特征圖。將經(jīng)過注意力模塊后獲得的連續(xù)5 個歷史時刻的特征圖在通道上進行拼接，組成深度特征預(yù)測模塊的輸入Xt。由于輸入的特征圖通道數(shù)較高，因此本文設(shè)計了一個僅包含1×1 卷積核、ReLU 激活函數(shù)的特征預(yù)測模塊，該模塊由編碼器、解碼器組成，其具體結(jié)構(gòu)如表1所示。

表1 特征預(yù)測模塊的結(jié)構(gòu)

在深度特征預(yù)測模塊中，編碼器計算不同時刻特征圖之間的關(guān)系，并將其映射到一個低維空間中，解碼器根據(jù)低維空間中的特征預(yù)測當(dāng)前時刻的特征圖。預(yù)測特征圖與真實特征圖之間的差異將被用于異常判斷。

訓(xùn)練時，在僅包含正常數(shù)據(jù)樣本的訓(xùn)練集中對網(wǎng)絡(luò)進行訓(xùn)練，最小化預(yù)測特征與真實特征之間的歐式距離來對整個網(wǎng)絡(luò)進行訓(xùn)練：

在測試時，根據(jù)當(dāng)前時刻VGG16 提取的特征圖與預(yù)測特征圖之間的差異來進行異常判斷，計算預(yù)測特征圖與VGG16 第三個池化層輸出特征圖之間的歐式距離，若誤差大于設(shè)定的閾值α，則說明輸入的視頻片段中存在異常。公式為：

式中，st表示測試時當(dāng)前時刻的異常得分。

4 實驗與結(jié)果

在兩個公開數(shù)據(jù)集UCSD Ped2[19]和UMN[14]上驗證本文方法的有效性。它們的訓(xùn)練數(shù)據(jù)都僅包含正常樣本。

4.1 實驗數(shù)據(jù)

UCSD 數(shù)據(jù)集通過學(xué)校里固定在較高位置上俯瞰人行道的攝像機獲得，本文僅使用Ped2 進行實驗。Ped2 中含有騎自行車、滑旱冰、小汽車等異常事件，共有16 個訓(xùn)練視頻樣本和12 個測試視頻樣本。

UMN 數(shù)據(jù)集包含3 個不同的場景和11 個視頻片段，訓(xùn)練集包含3300 幀，測試集包含4439幀。其異常事件主要包括人群單方面跑動、人群四散等。

4.2 實驗設(shè)置

使用的深度學(xué)習(xí)訓(xùn)練框架為Pytorch，所有的實驗都基于NVIDIA RTX2080Ti。將輸入的視頻幀大小調(diào)整到224×224 以滿足vgg16 的輸入標(biāo)準(zhǔn)。訓(xùn)練時使用隨機梯度下降法進行參數(shù)優(yōu)化，學(xué)習(xí)率設(shè)置為1×10?4，并在訓(xùn)練100 輪后將其降低至1×10?5。選取幀級別的ROC 曲線及ROC 曲線下面積AUC作為異常行為的評價指標(biāo)，在該評估方法中，只要當(dāng)前幀中存在異常特征，則立即判斷該視頻幀為異常幀。

4.3 消融實驗

4.3.1 多尺度特征的影響

為了證明多尺度特征融合的有效性，在基線網(wǎng)絡(luò)U-Net[1]的瓶頸層中添加多尺度模塊來進行消融實驗。

實驗中修改U-Net 的輸入為單個視頻幀，輸入視頻幀經(jīng)過一系列的卷積層進行特征提取，利用反卷積和跳轉(zhuǎn)連接進行圖像重建。計算重建圖像與輸入圖像的歐式距離來判斷輸入視頻幀是否存在異常。在評價指標(biāo)上，對比了平均正常得分和平均異常得分之差 ?s， ?s的值越大，模型對正常事件和異常事件的區(qū)分能力越強，從而說明特征在異常事件檢測中的可分性越好。實驗結(jié)果如表2 所示，與基線網(wǎng)絡(luò)相比，使用多尺度特征融合后平均正常得分與平均異常得分的差值更大，這說明在U-Net 的瓶頸層添加的多尺度模塊編碼了更多的空間特征，解碼器可以利用更多的特征來對圖像進行重建。因此添加了多尺度模塊的基線網(wǎng)絡(luò)可以獲得更好的效果。

表2 不同方法在USCD Ped2 和UMN 上的 ?s對比結(jié)果

4.3.2 通道注意力的影響

為了證明所提出的通道注意力的有效性，本文在結(jié)合了多尺度特征的基線網(wǎng)絡(luò)上進行通道注意力的實驗。實驗首先在基線網(wǎng)絡(luò)U-Net 上添加多尺度特征融合模塊，其次在多尺度特征融合模塊后面添加通道注意力進行對比實驗。與前一節(jié)的實驗評價方法一樣，對比平均正常得分與平均異常得分之間的差值。

實驗結(jié)果如表3 所示。由實驗結(jié)果可知，在不使用注意力的情況下，網(wǎng)絡(luò)對特征圖中的所有通道同等看待，容易受到淺層特征中噪聲以及背景等因素的干擾，因此獲得的檢測效果較差。而在多尺度特征融合模塊后面添加注意力機制后，正常得分與異常得分之間的差值變大，這表明通道注意力可以有效地減少背景冗余信息，增加運動變化的前景物體信息在特征圖中的權(quán)重。此外，在SENet 中使用多層感知機來計算不同通道間的關(guān)系來獲取各個通道的權(quán)重，這不可避免地容易造成過擬合，使得檢測效果下降，而本文利用兩個1×1 的卷積來替換多層感知機，并在其后面添加批正則化來保證訓(xùn)練過程中梯度的有效性，避免了過擬合的現(xiàn)象，同時減少了模型的參數(shù)量，因此獲得的實驗結(jié)果較好。

表3 不同通道注意力的對比實驗結(jié)果

4.4 對比實驗

在幀級別的評估方法下，將提出的方法與已有方法在Ped2 數(shù)據(jù)集上進行對比，其中包括基于手工特征的方法以及基于深度學(xué)習(xí)的方法[13-18]。在異常檢測中，將異常判斷的閾值設(shè)置為0.1、0.2、0.3、0.5、0.8，可以計算出5 組不同的假陽率(false positive rate, FPR)和真陽率(true positive rate,TPR)。以FPR 為橫坐標(biāo)，TPR 為縱坐標(biāo)，繪制出ROC 曲線，ROC 曲線下的面積即為AUC，面積越大，則檢測的效果越好。

在Ped2 數(shù)據(jù)集上的實驗結(jié)果(ROC 曲線)如圖3 所示，本文方法在幀級別下，獲得了最好的效果。Social Fore[14]僅使用了手工特征的方法，因此其得到的幀級別AUC 僅為0.556。文獻[13]將外觀特征和運動特征結(jié)合起來，幀級別下AUC 提升至0.850，但其遺漏了時間信息。其他方法如Unmasking[15]、Hashing[16]、spatiotemporal saliency detector[18]以及文獻[19]使用使用MDT(mixtures of dynamic textures)方法在幀級別下AUC 分別獲得了0.822、0.910、0.877、0.875 的檢測效果。以上方法的數(shù)據(jù)均來自于文獻原文。本文方法由于考慮了視頻中全局?局部特征，并充分利用了時間信息，因此獲得了更好的檢測效果，幀級別下AUC達到了0.925。

圖3 不同方法在Ped2 上的幀級別ROC 曲線對比

在UMN 數(shù)據(jù)集上驗證本文方法，并將所得的結(jié)果與上面的方法進行幀級別ROC 比較，結(jié)果(ROC 曲線)如圖4 所示。本文方法同樣獲得了最好的結(jié)果，幀級別AUC 達到了0.991。基于手工特征的方法Social Fore[14]獲得的幀級別AUC 為0.96，將外觀特征與運動特征相結(jié)合的方法Motion-appearance model[13]獲得的幀級別AUC 為0.983；將Unmasking 遷移至異常事件檢測的方法[15]獲得的幀級別AUC 為0.951；基于Hashing filter[16]的方法，基于spatiotemporal saliency detector[18]的方法以及文獻[19]的方法分別獲得的幀級別AUC為0.987、0.938、0.961。

圖4 不同方法在UMN 上的幀級別ROC 曲線對比

5 結(jié) 束語

本文提出了一種充分利用視頻中多尺度信息和時間信息的異常事件檢測網(wǎng)絡(luò)，該網(wǎng)絡(luò)不僅關(guān)注視頻中的全局?局部信息，還考慮了空間?時間信息。該網(wǎng)絡(luò)利用空洞卷積獲取多個不同大小的感受野的信息并進行融合以獲得整個視頻幀的全局?局部表示，并且引入一種輕量化通道注意力機制，通過計算特征圖中不同通道所含信息的重要程度，提升重要通道的權(quán)重，抑制背景和噪聲等干擾因素的影響。最后，為了充分利用時間信息，使用自編碼器編碼歷史時刻的特征序列并預(yù)測當(dāng)前時刻的特征，預(yù)測特征與真實特征之間的誤差將被用于異常判斷。在兩個基準(zhǔn)數(shù)據(jù)集上與幾種方法進行了對比實驗，實驗結(jié)果證明了本文方法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡