国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于全局-局部自注意力網(wǎng)絡(luò)的視頻異常檢測(cè)方法

2023-09-19 07:41:00楊靜吳成茂周流平
通信學(xué)報(bào) 2023年8期
關(guān)鍵詞:編碼器注意力重構(gòu)

楊靜,吳成茂,周流平

(1.廣州鐵路職業(yè)技術(shù)學(xué)院信息工程學(xué)院,廣東 廣州 510430;2.菲律賓圣保羅大學(xué),土格加勞 3500;3.西安郵電大學(xué)電子工程學(xué)院,陜西 西安 710121)

0 引言

視頻異常檢測(cè)中的“異常”與“正?!蓖ǔJ窍鄬?duì)立的。一般而言,相比于正常事件,異常事件的類型是不可窮舉的,并且不頻繁發(fā)生,難以收集。因此,視頻異常檢測(cè)不僅在學(xué)術(shù)界具有非常重要的研究價(jià)值,在工業(yè)界也擁有廣闊的應(yīng)用前景[1-2]。近年來,隨著視頻監(jiān)控、故障檢測(cè)系統(tǒng)、智慧交通及智慧城市等的快速發(fā)展,視頻異常檢測(cè)變得尤為重要,視頻異常檢測(cè)的問題得到了國內(nèi)外學(xué)者的廣泛關(guān)注。在視頻異常檢測(cè)中由于場(chǎng)景和任務(wù)屬性不同,對(duì)異常的定義也不盡相同,Saligrama 等[3]對(duì)視頻異常檢測(cè)進(jìn)行了較準(zhǔn)確的定義:視頻異常可認(rèn)為是異常外觀或異常運(yùn)動(dòng)的屬性,或是在異常位置或時(shí)間出現(xiàn)正常外觀或正常運(yùn)動(dòng)屬性。在異常檢測(cè)中,正常數(shù)據(jù)一般遵循目標(biāo)類分布,異常數(shù)據(jù)則是分布外或難以獲取的樣本。視頻異常檢測(cè)的主要任務(wù)是檢測(cè)出不符合預(yù)期規(guī)律的罕見樣本或從未發(fā)生過的突發(fā)性事件,而對(duì)于這些事件的劃分并沒有明確的界限和標(biāo)準(zhǔn)。具體而言,根據(jù)異常檢測(cè)應(yīng)用場(chǎng)景的不同,異常類型的界定和劃分也會(huì)隨之改變,如果用分類的方法解決所有異常事件,則工作量將非常大,難以達(dá)到良好的性能。因此,對(duì)異常事件的準(zhǔn)確檢測(cè)面臨各種挑戰(zhàn),具體表現(xiàn)如下。1) 異常事件的劃分因場(chǎng)景而異[4-5],同一行為在一種任務(wù)場(chǎng)景中是正常的,但在另一種任務(wù)場(chǎng)景中可能會(huì)被判定為異常。2) 異常事件的類型是不可窮舉的,對(duì)異常事件進(jìn)行人工標(biāo)注的工作量非常巨大。3) 一些正常事件與異常事件非常接近,使其區(qū)分具有很大的難度。

隨著深度學(xué)習(xí)在動(dòng)作識(shí)別[6-8]、跟蹤[9]、軌跡預(yù)測(cè)[10]、目標(biāo)檢測(cè)[11-13]等領(lǐng)域取得成功,視頻異常檢測(cè)得到了大力實(shí)踐與發(fā)展[14-19]。近幾年關(guān)于視頻異常檢測(cè)的研究主要集中于無監(jiān)督學(xué)習(xí),即在訓(xùn)練模型時(shí)僅使用正常樣本。首先,通過一分類,進(jìn)行圖像重建/預(yù)測(cè),或使用其他自監(jiān)督學(xué)習(xí)方式對(duì)正常樣本進(jìn)行建模;其次,通過識(shí)別不同于訓(xùn)練模型的分布來檢測(cè)異常。在異常檢測(cè)中,由于異常數(shù)據(jù)和正常數(shù)據(jù)分布不均,呈現(xiàn)長尾分布的特點(diǎn)。因此,相比于有監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)對(duì)視頻或圖像的異常檢測(cè)更加合理和有效。基于無監(jiān)督的深度學(xué)習(xí)方法不僅易于獲取訓(xùn)練的正常樣本,而且不需要使用真實(shí)的異常樣本;無監(jiān)督的學(xué)習(xí)范式克服了有監(jiān)督學(xué)習(xí)中無法預(yù)知異常的問題,因此,擁有更強(qiáng)且有效的特征表達(dá)能力。

重構(gòu)誤差作為模型重構(gòu)能力的評(píng)估指標(biāo),已被廣泛應(yīng)用于異常檢測(cè)技術(shù)領(lǐng)域[20-22]。重構(gòu)誤差的基本假設(shè)如下:一方面,由于正常樣本更接近正常訓(xùn)練的數(shù)據(jù)分布,因此重構(gòu)誤差較異常樣本會(huì)更低;另一方面,對(duì)于非正態(tài)分布樣本,其假設(shè)或預(yù)期重構(gòu)誤差會(huì)更高[15]。通?;谧詣?dòng)編碼器的方法使用重構(gòu)誤差作為識(shí)別異常的指標(biāo)。在傳統(tǒng)方法中,為了在卷積神經(jīng)網(wǎng)絡(luò)中處理視頻序列,將每個(gè)圖像幀視為具有灰度通道的2D 圖像[23];然后,將這些灰度幀按照時(shí)間順序堆疊在一起,形成一個(gè)新的2D圖像,其中第三維度由這些堆疊的灰度幀組成。通過這樣的堆疊方式,模型可以同時(shí)對(duì)空間和時(shí)間信息進(jìn)行編碼并實(shí)現(xiàn)重構(gòu)。

由于長短期記憶(LSTM,long short term memory)網(wǎng)絡(luò)能夠?qū)W習(xí)數(shù)據(jù)的長期依賴關(guān)系,Medel等[24]利用卷積長短期記憶網(wǎng)絡(luò)進(jìn)行異常檢測(cè),并將該問題定義為重構(gòu)類型。盡管不是完全的自動(dòng)編碼器,但他們的方法使用了編碼器-解碼器結(jié)構(gòu),即給定視頻幀的輸入序列,卷積長短期記憶網(wǎng)絡(luò)沿著空間和時(shí)間維度提取相關(guān)特征;最后,經(jīng)過解碼器并計(jì)算重構(gòu)誤差。Hasan 等[25]在第三維度通過堆疊視頻幀形成時(shí)間立方體,保留必要的時(shí)間信息,但這樣保留下來的時(shí)間信息非常有限。為了解決這個(gè)問題,Zhao 等[26]提出通過3D 卷積保留時(shí)間信息,并增加數(shù)據(jù)來改善樣本密度,進(jìn)而提高檢測(cè)性能?;谝陨瞎ぷ?,Gong 等[15]通過實(shí)驗(yàn)測(cè)試發(fā)現(xiàn),一些異常事件的重構(gòu)誤差和正常事件的重構(gòu)誤差非常接近,主要是因?yàn)樽詣?dòng)編碼器中卷積神經(jīng)網(wǎng)絡(luò)較強(qiáng)的泛化能力,使接近正常的異常事件也被重構(gòu)出來。為了解決這個(gè)問題,Gong 等[15]引入了一種能夠?qū)⒕幋a特征存儲(chǔ)到內(nèi)存中的自動(dòng)編碼器,即編碼器不直接將編碼反饋到解碼器,而是將編碼視為查詢,該查詢預(yù)期返回內(nèi)存中最接近的正常模式,將該模式用于解碼。這樣,在重構(gòu)異常的情況下,由于內(nèi)存中只含有正常的內(nèi)存項(xiàng),因此其重構(gòu)誤差會(huì)很高。

近年來,注意力模型被廣泛應(yīng)用于自然語言處理、圖像和語音等領(lǐng)域,神經(jīng)網(wǎng)絡(luò)的可解釋性也被引入無監(jiān)督的異常檢測(cè)中。Liu 等[27]使用了類似grad-CAM(gradient-weighted class activation mapping)[28]的方法將基于梯度的注意力機(jī)制推廣到變分自動(dòng)編碼器(VAE,variational autoencoder)模型。Venkataramanan 等[29]提出了一種帶有注意力引導(dǎo)的卷積對(duì)抗變分自動(dòng)編碼器,利用隱空間變量保留的空間信息進(jìn)行異常定位,并且根據(jù)文獻(xiàn)[27]的思想生成注意力圖,期望在訓(xùn)練時(shí),注意力圖可覆蓋整個(gè)正常區(qū)域。Kimura 等[30]利用生成對(duì)抗網(wǎng)絡(luò)(GAN,generative adversarial network)中判別器的注意力圖來抑制圖像背景造成的異常檢測(cè)干擾,有效提升了異常檢測(cè)模型的魯棒性。

在數(shù)據(jù)特征提取的過程中,通常使用卷積來對(duì)圖像的高維特征信息進(jìn)行提取,然而卷積操作無論在時(shí)間還是空間上均為局部操作。若要獲取全局的特征關(guān)聯(lián)性和建立長距離的依賴關(guān)系就要構(gòu)建深層的網(wǎng)絡(luò)卷積,隨著網(wǎng)絡(luò)深度的增加與卷積塊的增多,網(wǎng)絡(luò)訓(xùn)練的難度增大。因此,單純的卷積操作對(duì)圖像的全局信息提取存在一定的局限性。而全局-局部自注意力不僅關(guān)注圖像局部特征的關(guān)聯(lián)性,還關(guān)注特征之間長時(shí)間的依賴關(guān)系。本文擬采用一種編碼器-解碼器結(jié)構(gòu)的U-Net,將RGB 圖像與視頻序列2 種模態(tài)信息進(jìn)行混合編碼以突顯物體的運(yùn)動(dòng)變化,兩者共享解碼器,得到的特征圖通過全局-局部注意力網(wǎng)絡(luò)處理后再反饋給解碼器,從而進(jìn)行視頻異常檢測(cè)。若解碼得到的圖像與真實(shí)圖像差異較大,則表明有異常事件發(fā)生,反之則為正常。本文主要工作如下。

1) 采用“雙編碼器-單解碼器”的編解碼混合結(jié)構(gòu),充分利用原始視頻的多維信息,并通過自注意力模塊實(shí)現(xiàn)有效的解碼,從而使模型能夠準(zhǔn)確表示和理解視頻數(shù)據(jù)。

2) 使用多源數(shù)據(jù)作為輸入,充分利用運(yùn)動(dòng)和外觀信息的互補(bǔ),并綜合考慮不同信息源以全面分析視頻數(shù)據(jù),從而更加準(zhǔn)確地識(shí)別異常行為。

3) 提出一種基于全局-局部自注意力機(jī)制的視頻異常檢測(cè)方法,通過全局-局部自注意力機(jī)制綜合考慮整體和局部的時(shí)序相關(guān)性,能夠更好地理解視頻序列中不同時(shí)間尺度的連續(xù)性,并保持局部上下文信息的一致性。

4) 對(duì)UCSD Ped2、CUHK Avenue 和ShanghaiTech數(shù)據(jù)集進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文方法的檢測(cè)精度分別達(dá)到97.4%、86.8%和73.2%,而且與現(xiàn)有方法相比,本文方法明顯提升了視頻異常檢測(cè)的能力和魯棒性,為視頻異常檢測(cè)的深入研究和實(shí)際應(yīng)用提供了一定支撐。

1 相關(guān)工作

1.1 異常檢測(cè)

許多現(xiàn)有工作將異常檢測(cè)表述為無監(jiān)督學(xué)習(xí)問題,在訓(xùn)練時(shí)使用正常數(shù)據(jù),并通過重構(gòu)或判別的方式描述模型的正態(tài)性。其中,重構(gòu)模型將正常數(shù)據(jù)作為輸入映射到某個(gè)特征空間,再從特征空間將正常數(shù)據(jù)映射回輸入空間,如自動(dòng)編碼器(AE,autoencoder)[31]、稀疏字典[32]和生成模型[33]。判別模型表征正態(tài)樣本的統(tǒng)計(jì)分布并獲得正態(tài)實(shí)例周圍的決策邊界,例如,馬爾可夫隨機(jī)場(chǎng)(MRF,Markov random field)[20]、動(dòng)態(tài)紋理混合(MDT,mixture of dynamic texture)[34]、高斯回歸[35]和一分類問題[36-37]。然而,這些方法對(duì)具有復(fù)雜分布的高維數(shù)據(jù),如圖像、視頻等的檢測(cè)效果欠佳。本文擬采用無監(jiān)督的深度學(xué)習(xí)方法進(jìn)行視頻異常檢測(cè)。

1.2 注意力機(jī)制

在深度學(xué)習(xí)中,模型的參數(shù)越多所含信息量越豐富,表達(dá)能力也越強(qiáng),但這也會(huì)導(dǎo)致信息量過大的問題。通過引入注意力機(jī)制,可快速高效地篩選出高價(jià)值的特征信息,使檢測(cè)模型能更準(zhǔn)確地聚焦于關(guān)鍵信息,避免無用信息對(duì)模型的干擾,從而克服信息量過大的問題,并提高模型對(duì)任務(wù)處理的效率和準(zhǔn)確性。Purwanto 等[38]在低分辨率視頻中利用雙向自注意力捕捉長期的時(shí)間依賴關(guān)系,以此進(jìn)行視頻動(dòng)作識(shí)別。Zhou 等[39]通過注意力圖來解決異常檢測(cè)中前景與背景不平衡的問題,通過對(duì)前景和背景賦予不同的權(quán)重,使模型更注重前景,并對(duì)訓(xùn)練數(shù)據(jù)中的背景進(jìn)行有效抑制來提升異常檢測(cè)性能。Hu 等[40]在自動(dòng)編碼器中引入循環(huán)注意力機(jī)制,并將其構(gòu)建為一個(gè)循環(huán)注意力單元,使模型能夠在新場(chǎng)景中具有快速適應(yīng)能力。Yang 等[41]通過將Swin Transformer 設(shè)計(jì)為具有雙向跳躍連接的U 型結(jié)構(gòu)的網(wǎng)絡(luò),并在跨注意力和時(shí)序上采用殘差跳躍連接來進(jìn)一步輔助還原視頻中復(fù)雜的靜態(tài)和動(dòng)態(tài)運(yùn)動(dòng)目標(biāo)特征。

1.3 基于重構(gòu)和預(yù)測(cè)的方法

預(yù)測(cè)模型的目的是將未來的輸出幀建模為基于過去若干視頻幀的函數(shù),如GAN 生成未來幀。GAN 主要由兩部分組成,一是生成器,模擬原始數(shù)據(jù)分布;二是判別器,給出來自生成器輸入的概率?;赨-Net 在圖像到圖像轉(zhuǎn)換方面的出色表現(xiàn),Luo等[42]利用類似GAN 的生成器-判別器結(jié)構(gòu),將其作為網(wǎng)絡(luò)的生成器來預(yù)測(cè)未來幀,并通過網(wǎng)絡(luò)末端的判別器確定預(yù)測(cè)幀是否異常。通常假設(shè)正常事件是可以預(yù)測(cè)的,而異常事件則無法預(yù)測(cè)。Park 等[16]提出了一種在U-Net 結(jié)構(gòu)下,通過編碼器-解碼器間的記憶模塊所記錄的各種正常模式,對(duì)未來幀進(jìn)行預(yù)測(cè)的方法。同時(shí),Yu 等[43]受到在語言學(xué)習(xí)中完形填空形式的啟發(fā),通過時(shí)間維度的上下文和模態(tài)信息來建立多個(gè)模型,分別預(yù)測(cè)視頻中的視頻幀或視頻流。鑒于在實(shí)際場(chǎng)景中異常的復(fù)雜性,Liu等[44]提出了一個(gè)集成光流重構(gòu)和視頻幀預(yù)測(cè)的混合框架來進(jìn)行視頻異常檢測(cè)。首先,在自動(dòng)編碼器中使用多層級(jí)記憶模塊存儲(chǔ)光流重構(gòu)的正常模式,以便在光流重構(gòu)誤差較大時(shí)準(zhǔn)確地識(shí)別異常事件。其次,在重構(gòu)光流條件下,通過條件變分自動(dòng)編碼器(CVAE,conditional variational autoencoder)捕捉視頻幀和光流之間的高相關(guān)性,以便預(yù)測(cè)未來幀。

在目前主流的異常檢測(cè)工作中,對(duì)正常數(shù)據(jù)的特征進(jìn)行重構(gòu)是較常用且直觀的方法。Nguyen 等[17]提出了重構(gòu)和光流預(yù)測(cè)共享編碼器的網(wǎng)絡(luò)模型,雖然模型充分學(xué)習(xí)了物體外觀和運(yùn)動(dòng)信息的對(duì)應(yīng)關(guān)系,但由于光流的計(jì)算對(duì)資源要求高,整個(gè)模型的計(jì)算成本較高。在無監(jiān)督深度學(xué)習(xí)方法中,AE[31]作為異常檢測(cè)的常用方法,其對(duì)高維數(shù)據(jù)(如圖像、視頻等)具有很強(qiáng)的建模能力?;贏E 的方法通常假設(shè)能夠重構(gòu)正常樣本,而不能重構(gòu)異常樣本。但由于AE 的泛化能力過于強(qiáng)大,以至于異常樣本也能被很好地重構(gòu),因此為了降低AE 中卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)的泛化能力,Chang 等[45]構(gòu)建了一種將空間和時(shí)間信息解耦為2 個(gè)子模塊的自動(dòng)編碼器結(jié)構(gòu),兩者同時(shí)學(xué)習(xí)時(shí)空特征信息,以提高檢測(cè)性能。Le 等[46]提出了一種基于殘差注意力的自動(dòng)編碼器進(jìn)行視頻異常檢測(cè),通過在解碼器內(nèi)引入通道注意力機(jī)制對(duì)未來幀進(jìn)行有效預(yù)測(cè)。由于自動(dòng)編碼器在重構(gòu)時(shí),缺少對(duì)圖像某些重點(diǎn)區(qū)域編碼信息的動(dòng)態(tài)掌握,造成重構(gòu)時(shí)視頻幀內(nèi)容的上下文信息缺失,進(jìn)而導(dǎo)致模型性能下降。為了解決上述問題,本文基于預(yù)測(cè)的方法進(jìn)行異常檢測(cè),其主要思想是根據(jù)先前若干幀的特征變化來預(yù)測(cè)當(dāng)前幀,并在測(cè)試階段將預(yù)測(cè)出的當(dāng)前幀與對(duì)應(yīng)的真實(shí)幀進(jìn)行對(duì)比,如果兩者的預(yù)測(cè)誤差較大,則表明存在異常。這樣既充分考慮了正常樣本的多樣性,又抑制了CNN 強(qiáng)大的泛化能力。

2 視頻異常檢測(cè)

2.1 基本原理

本文通過對(duì)未來幀的預(yù)測(cè)進(jìn)行無監(jiān)督的視頻異常檢測(cè)。受到重構(gòu)方法的啟發(fā)[15-16,47],將預(yù)測(cè)視為使用之前的若干幀或連續(xù)視頻序列來進(jìn)行未來視頻幀的重構(gòu),因此,本文以一種預(yù)測(cè)的視角對(duì)未來幀進(jìn)行重構(gòu),并采用U-Net[48]為基礎(chǔ)網(wǎng)絡(luò)框架,進(jìn)行視頻異常檢測(cè)。全局-局部自注意力網(wǎng)絡(luò)主要由三部分組成:雙編碼器、全局-局部自注意力模塊、解碼器。整個(gè)網(wǎng)絡(luò)均采用端到端的方式進(jìn)行訓(xùn)練,網(wǎng)絡(luò)的整體框架如圖1 所示。在輸入之前,需要進(jìn)行簡單的數(shù)據(jù)預(yù)處理,即生成與原始圖像相對(duì)應(yīng)的RGB 圖像。首先,輸入t幀的視頻序列和對(duì)應(yīng)的RGB 圖像,經(jīng)過編碼器編碼后,得到2 個(gè)對(duì)應(yīng)的特征圖;然后,將特征圖通過按位相加進(jìn)行融合,將融合后的特征圖送入全局-局部自注意力模塊進(jìn)行處理;最后,將處理好的特征圖反饋到解碼器進(jìn)行解碼,從而進(jìn)行視頻異常檢測(cè)。

圖1 網(wǎng)絡(luò)的整體框架

2.2 雙編碼器-單解碼器結(jié)構(gòu)

本文提出的雙編碼器結(jié)構(gòu)能夠很好地對(duì)輸入圖像中的外觀和運(yùn)動(dòng)信息同時(shí)進(jìn)行學(xué)習(xí),并共享一個(gè)解碼器。本文采用U-Net 結(jié)構(gòu),為了避免梯度消失和信息不平衡,U-Net 在高層和低層語義信息之間加入跳躍連接。在原來U-Net 框架的基礎(chǔ)上,本文將網(wǎng)絡(luò)深度從4 層增加到5 層。此外,受ResNet 結(jié)構(gòu)的啟發(fā),本文在模型的主干網(wǎng)絡(luò)中使用殘差模塊來代替U-Net 中的標(biāo)準(zhǔn)卷積模塊,但檢測(cè)效果較差,其原因有兩點(diǎn):其一是U-Net 整體規(guī)模較小,網(wǎng)絡(luò)沒有達(dá)到一定深度,使殘差模塊沒有發(fā)揮應(yīng)有的作用;其二,模型訓(xùn)練數(shù)據(jù)不足,使殘差模塊得不到充分的訓(xùn)練。

給定編碼器t幀視頻序列xclips={I1,I2,…,It},得到大小為H×W×C的編碼特征圖M,其中,H、W和C分別表示特征的高、寬和通道數(shù)。

其中,θ為編碼器fe(·) 的參數(shù)。M經(jīng)過全局-局部自注意力模塊得到特征圖M′,并將其反饋到解碼器進(jìn)行解碼,即

其中,α為解碼器fd(·) 的參數(shù)。

預(yù)測(cè)未來幀的損失函數(shù)Lpre和RGB 損失函數(shù)LRGB可分別用L2 損失函數(shù)表示為

2.3 全局-局部自注意力模塊

根據(jù)視頻分析和視頻理解中注意力機(jī)制的相關(guān)運(yùn)行原理[21,49-50],本文利用全局-局部自注意力模塊捕捉時(shí)間維度的全局和局部依賴性。膨脹卷積通常應(yīng)用于空間維度,其主要作用是在同等分辨率的條件下,通過增大卷積的感受野來獲得更多的特征信息。本文使用膨脹金字塔卷積,來捕捉視頻片段在時(shí)間維度上的多尺度依賴性,從而進(jìn)一步提高視頻異常檢測(cè)性能,全局-局部自注意力框架如圖2所示。

圖2 全局-局部自注意力框架

局部自注意力模塊從編碼器中得到編碼特征圖M={m1,m2,…,mi,mC},然后對(duì)M進(jìn)行卷積操作,在局部自注意力部分主要有三層膨脹卷積操作,即 {PDC1,PDC2,PDC3},其對(duì)應(yīng)的膨脹因子d分別為{1,2,4}。其數(shù)學(xué)形式為

其中,Dl表示第l層的卷積操作,mi為特征表達(dá)。

全局時(shí)序依賴主要通過一個(gè)自注意力模塊實(shí)現(xiàn),其性能已在視頻理解、圖像分類、目標(biāo)檢測(cè)等多個(gè)下游任務(wù)中得到驗(yàn)證。通過全局自注意力的作用,將距離相對(duì)較遠(yuǎn)的特征像素點(diǎn)建立一種依賴關(guān)系,使全局的特征關(guān)聯(lián)性更加緊密。首先,對(duì)特征圖M進(jìn)行1×1卷積處理,得到3 個(gè)尺寸和特征相同的特征圖Mc(c∈{1,2,3}),將特征圖M1和M2的轉(zhuǎn)置進(jìn)行運(yùn)算,得到時(shí)空關(guān)系映射矩陣F,即F=(M1)(M2)T,F(xiàn)ij表示在位置i和位置j的關(guān)聯(lián)程度,其數(shù)值大小代表了關(guān)聯(lián)性的緊密程度,然后將F與M3進(jìn)行卷積操作,得到F′=Conv1×1(FM3),將F′與原始特征圖M通過跳躍連接相加得到FSA,其中FSA=F′+M。

2.4 損失函數(shù)

為了最小化預(yù)測(cè)幀和真實(shí)幀之間的差異,本文使用了強(qiáng)度、梯度和時(shí)序圖像差異作為約束。強(qiáng)度約束比較兩幀之間每個(gè)像素的值,保證RGB 空間的像素值在整個(gè)畫面中是相似的。梯度約束比較兩幅圖像相同位置像素值的梯度,并對(duì)生成的幀進(jìn)行銳化。其梯度損失函數(shù)為

其中,i和j表示像素值的索引位置。在設(shè)計(jì)梯度損失函數(shù)的過程中,本文使用L1損失函數(shù)作為梯度損失,通常情況下能夠得到清晰的圖像,并且在訓(xùn)練過程中能夠更好地被優(yōu)化。

對(duì)于整個(gè)網(wǎng)絡(luò)模型而言,其整體的損失函數(shù)為

其中,λ、μ、ν為超參數(shù)。

2.5 異常得分

在最初假設(shè)不變的情況下,即模型能夠很好地預(yù)測(cè)正常事件,本文使用預(yù)測(cè)幀與真實(shí)幀I之間的差異來進(jìn)行異常預(yù)測(cè)。均方差(MSE,mean square error)是一種衡量預(yù)測(cè)圖像質(zhì)量的較常用的方法,其主要思想是通過計(jì)算RGB 圖像空間中所有像素的預(yù)測(cè)值與其真實(shí)值之間的歐氏距離。Mathieu 等[51]證實(shí)峰值信噪比(PSNR,peak signal to noise ratio)能夠很好地對(duì)圖像質(zhì)量進(jìn)行評(píng)估,計(jì)算式為

其中,maxi表示圖像的最大像素值,表示真實(shí)圖像與預(yù)測(cè)圖像的像素之間的均方差。PSNR 越高表明該視頻幀是正常的可能性就越大,在計(jì)算完每幀的PSNR 之后,將這些數(shù)值歸一化到[0,1]內(nèi),并計(jì)算每個(gè)視頻幀的異常分?jǐn)?shù)為

3 實(shí)驗(yàn)結(jié)果與分析

本節(jié)使用3 個(gè)公開的異常檢測(cè)數(shù)據(jù)集測(cè)試所提方法以及不同模塊的功能,包括UCSD 行人數(shù)據(jù)集[34]、CUHK Avenue 數(shù)據(jù)集[52]和ShanghaiTech數(shù)據(jù)集[53],并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行定性和定量分析,以便驗(yàn)證本文方法的有效性。

3.1 數(shù)據(jù)集

1) UCSD 行人數(shù)據(jù)集

UCSD 行人數(shù)據(jù)集由Mahadevan 等[34]創(chuàng)建,包含2 個(gè)子數(shù)據(jù)集UCSD Ped1 和UCSD Ped2,該數(shù)據(jù)集主要通過學(xué)校中固定在較高位置的攝像機(jī)俯瞰拍攝獲得,且人行道的行人密度是由稀疏到稠密不斷變化的。UCSD Ped1 中主要包含34 個(gè)訓(xùn)練視頻和36 個(gè)測(cè)試視頻,其分辨率為238 像素×158 像素。UCSD Ped2 主要包含16 個(gè)訓(xùn)練視頻和12 個(gè)測(cè)試視頻,其分辨率為360 像素×240 像素。

2) CUHK Avenue 數(shù)據(jù)集(簡稱Avenue數(shù)據(jù)集)

CUHK Avenue 數(shù)據(jù)集[52]采集于香港中文大學(xué)(CUHK)校園,數(shù)據(jù)集中人物的尺寸會(huì)因?yàn)閿z像機(jī)的位置和角度而改變。其中共有47 個(gè)異常事件,主要是行人的異常動(dòng)作及拋物、異常的奔跑等。該數(shù)據(jù)集包含16 個(gè)訓(xùn)練視頻和21 個(gè)測(cè)試視頻,共30 652 幀(包括15 328 個(gè)訓(xùn)練幀和15 324 個(gè)測(cè)試幀)。

3) ShanghaiTech 數(shù)據(jù)集

ShanghaiTech 數(shù)據(jù)集[53]是根據(jù)已有數(shù)據(jù)集的固有缺陷所提出的,即缺乏場(chǎng)景和視角的多樣性。數(shù)據(jù)集包含了437 個(gè)校園監(jiān)控視頻,在13 個(gè)復(fù)雜光照條件的應(yīng)用場(chǎng)景中有130 個(gè)異常視頻,由于數(shù)據(jù)集提出的最初設(shè)定是用于無監(jiān)督學(xué)習(xí),因此,異常事件均包含于測(cè)試集中。

3.2 評(píng)價(jià)指標(biāo)與實(shí)驗(yàn)設(shè)置

本節(jié)實(shí)驗(yàn)使用視頻異常檢測(cè)中最常用的評(píng)估指標(biāo),即接受者操作特征(ROC,receiver operating characteristic)曲線、曲線下面積(AUC,area under curve)和等錯(cuò)誤率(EER,equal error rate)。AUC不關(guān)注具體的正負(fù)樣本得分,只關(guān)注整體結(jié)果,因此,它能夠有效避免在閾值選擇過程中因經(jīng)驗(yàn)設(shè)定而產(chǎn)生的主觀性,特別適合于正負(fù)樣本不均衡任務(wù)的性能評(píng)估。EER 是錯(cuò)誤接受率(FAR,false acceptance rate)和錯(cuò)誤拒絕率(FRR,false rejection rate)相等時(shí)的錯(cuò)誤率,也是ROC 曲線與對(duì)角線的交點(diǎn)。模型性能越好,AUC 越高,EER 則相反。根據(jù)文獻(xiàn)[15,44,47]的實(shí)驗(yàn)要求,本文實(shí)驗(yàn)使用NVIDIA GeForce RTX 3090 GPU 進(jìn)行端到端的訓(xùn)練和測(cè)試,網(wǎng)絡(luò)模型使用Pytorch 深度學(xué)習(xí)框架實(shí)現(xiàn),并使用Adam 隨機(jī)梯度下降來進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率為1×10-4,使用AUC 對(duì)檢測(cè)模型的性能進(jìn)行判別。

3.3 方法比較

本節(jié)將所提方法與基于手工特征的方法以及基于深度學(xué)習(xí)的方法進(jìn)行比較,對(duì)比方法如下。1) 基于手工特征的方法:MPPCA[20]、MDT[34]、DFAD[54]。2) 基于深度學(xué)習(xí)的預(yù)測(cè)方法:Conv AE[30]、ConvLSTM-AE[55]、TSC[53]、MNAD[16]、IPR[47]等。表1 列出了不同方法的AUC,對(duì)比方法的性能均是從其對(duì)應(yīng)文獻(xiàn)中獲得的。

表1 不同方法的AUC

從表1 可知,所提方法的異常檢測(cè)精度優(yōu)于大多數(shù)對(duì)比方法,在 USCD Ped2、Avenue 和ShanghaiTech 數(shù)據(jù)集上的AUC 分別為97.4%、86.8%、73.2%,主要得益于其對(duì)編碼器的特征分別進(jìn)行了全局和局部的細(xì)節(jié)處理,使模型性能有了很大的提升。與IPR[47]相比,本文方法在3 個(gè)數(shù)據(jù)集上的AUC 均高出1%~3%,雖然IPR 中使用的網(wǎng)絡(luò)結(jié)構(gòu)也基于編碼器-解碼器結(jié)構(gòu),但缺少對(duì)物體外觀和運(yùn)動(dòng)特征等信息的處理;同樣地,MNAD[16]也沒有對(duì)物體外觀和運(yùn)動(dòng)信息進(jìn)行有效處理,而本文方法中加入了RGB 圖像的輸入,用來增強(qiáng)視頻序列的上下文信息,RGB 圖像的信息量與光流特征大體相當(dāng),但會(huì)節(jié)省存儲(chǔ)空間并加快學(xué)習(xí)速度,MNAD 中增加了記憶項(xiàng),存儲(chǔ)了豐富的正常事件的原型,使模型在Avenue 數(shù)據(jù)集上的性能比本文方法高1.7%,由此可見,原型學(xué)習(xí)對(duì)無監(jiān)督視頻異常檢測(cè)任務(wù)的研究提供了新的思路,對(duì)后續(xù)研究有一定的推動(dòng)作用。與文獻(xiàn)[42]相比,本文不僅在模型中加入了運(yùn)動(dòng)、外觀和上下文信息的相關(guān)處理,也在基礎(chǔ)網(wǎng)絡(luò)上增加了網(wǎng)絡(luò)的深度,使網(wǎng)絡(luò)的整體性能有所提升。本文方法與USTN-DSC[41]都采用了注意力機(jī)制,但在AUC 方面,USTN-DSC 表現(xiàn)出較好的性能,這主要是因?yàn)閁STN-DSC 使用了目前最先進(jìn)的視頻處理架構(gòu)Swin Transformer,并在時(shí)序和注意力中融入了殘差連接,能夠更好地傳遞和利用信息,使其性能有了較大提升;此外,HSC[56]采用了一種全新的思路,即引入場(chǎng)景感知的概念進(jìn)行異常檢測(cè),并取得了令人滿意的效果,這為解決視頻異常檢測(cè)問題提供了另一種思路和方法。綜上分析,在視頻異常檢測(cè)上,本文構(gòu)建的全局-局部自注意力網(wǎng)絡(luò)有效性得到了驗(yàn)證。

3.4 消融實(shí)驗(yàn)分析

本文對(duì)模型中所涉及的主要模型組件進(jìn)行了定量分析,模型組件在UCSD Ped2 和Avenue 數(shù)據(jù)集上性能對(duì)比如表2 所示。增加全局注意力模塊后AUC 僅有小幅提升,在UCSD Ped2 上AUC 提升了0.7%,主要是因?yàn)閷?shù)據(jù)降維編碼后,數(shù)據(jù)的高維特征丟失較多,使全局特征處理受限;而在局部注意力中,現(xiàn)有的編碼特征將信息處理的重點(diǎn)放在了細(xì)節(jié)處理上,使模型性能明顯提升,在UCSD Ped2 上性能提升了1.6%。實(shí)驗(yàn)結(jié)果表明,將全局-局部自注意力模塊加入模型后在UCSD Ped2 上的檢測(cè)效果達(dá)到最優(yōu),為97.4%。

表2 模型組件在UCSD Ped2和Avenue數(shù)據(jù)集上性能對(duì)比

本文在其他實(shí)驗(yàn)組件不變的情況下,對(duì)模型架構(gòu)的基礎(chǔ)組件在UCSD Ped2 數(shù)據(jù)集上進(jìn)行了測(cè)試和性能分析,具體如表3 所示。通過加深基礎(chǔ)主干網(wǎng)絡(luò)的深度,使網(wǎng)絡(luò)的非線性表達(dá)能力更好,能夠?qū)W習(xí)更復(fù)雜的特征變換,從而更好地?cái)M合復(fù)雜的特征輸入,主干網(wǎng)絡(luò)的加深使模型檢測(cè)性能提升了0.3%。與經(jīng)典的單編碼器-單解碼器相比,本文采用的雙編碼器模式通過加入相比于光流更輕量化的RGB 圖像,將原本單個(gè)模態(tài)的特征信息轉(zhuǎn)變?yōu)? 種模態(tài)信息的有效融合作為輸入信息,從而對(duì)特征提取起到了增強(qiáng)作用,尤其是對(duì)運(yùn)動(dòng)信息的加強(qiáng),使模型性能相較于單編碼器結(jié)構(gòu)提升了0.8%。

表3 模型架構(gòu)基礎(chǔ)組件性能對(duì)比

3.5 可視化分析

本文分別將模型在UCSD Ped2 和Avenue 數(shù)據(jù)集上的測(cè)試結(jié)果進(jìn)行了可視化分析。圖3 展示了在UCSD Ped2 數(shù)據(jù)集上正常幀和異常幀的檢測(cè)結(jié)果,其中具有異常行為的目標(biāo)物體已用方框進(jìn)行了標(biāo)注,圖3 中的可視化結(jié)果主要為了突出顯示異常事件發(fā)生的位置,將可視化后的原始彩色圖轉(zhuǎn)換為黑白圖后,正常幀與異常幀的差別非常明顯。在正常幀情況下,沒有異常發(fā)生,此時(shí)的異常分值曲線圖處于較高位置,對(duì)應(yīng)于圖像時(shí),其色彩過度較平緩,被檢測(cè)物體間的色彩差異大致相同,如圖3(a)所示,在人行橫道上的正常情況為正常行走的路人;當(dāng)有異常發(fā)生時(shí),發(fā)生異常的位置會(huì)顯示高異常色彩,如圖3(b)所示,方框標(biāo)注處為高異常,即有人在人行橫道上騎自行車和玩滑板。圖4 展示了Avenue數(shù)據(jù)集測(cè)試視頻的異常得分。當(dāng)行人正常行走時(shí),異常得分處于較高位置,而有人向空中拋擲雜物時(shí),則被判定為一個(gè)異常事件,此時(shí)異常得分會(huì)急劇降低,且異常行為越突出,異常得分越低,這表明本文中的模型能夠有效檢測(cè)到異常事件的發(fā)生。

圖3 UCSD Ped2 數(shù)據(jù)集上正常幀和異常幀的檢測(cè)結(jié)果

圖4 Avenue 數(shù)據(jù)集測(cè)試視頻的異常得分

4 結(jié)束語

本文提出了一種基于全局-局部自注意力網(wǎng)絡(luò)的視頻異常檢測(cè)方法。該方法采用無監(jiān)督學(xué)習(xí)方式,通過加深U-Net 的網(wǎng)絡(luò)深度、添加多尺度局部注意力模塊和全局自注意力模塊,以及在數(shù)據(jù)輸入時(shí)添加RGB 圖像,增強(qiáng)了模型對(duì)視頻序列中物體運(yùn)動(dòng)、外觀等信息的處理能力和魯棒性。實(shí)驗(yàn)結(jié)果表明,本文方法在不同應(yīng)用場(chǎng)景的數(shù)據(jù)集上具有一定的泛化性和有效性。

CNN 方法通過多層疊加來獲得全局信息,但隨著疊加層數(shù)的增多信息量有所衰減,而Transformer中的自注意力機(jī)制克服了上述缺陷,使模型具有更強(qiáng)的表達(dá)能力,這將是本文未來的研究方向之一。在無監(jiān)督的方法中,模型的訓(xùn)練通常建立在正常數(shù)據(jù)集上,如果將已知的異常類型作為重要的先驗(yàn)知識(shí)加入模型的訓(xùn)練,則對(duì)模型的魯棒性和檢測(cè)效果有較大提升。因此,如何將已知的異常類型作為先驗(yàn)知識(shí)融入模型的訓(xùn)練將會(huì)是本文下一步研究的重點(diǎn)。

猜你喜歡
編碼器注意力重構(gòu)
讓注意力“飛”回來
長城敘事的重構(gòu)
攝影世界(2022年1期)2022-01-21 10:50:14
北方大陸 重構(gòu)未來
基于FPGA的同步機(jī)軸角編碼器
北京的重構(gòu)與再造
商周刊(2017年6期)2017-08-22 03:42:36
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
A Beautiful Way Of Looking At Things
論中止行為及其對(duì)中止犯的重構(gòu)
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
米易县| 怀仁县| 涡阳县| 海丰县| 通城县| 长治市| 宜君县| 义马市| 即墨市| 类乌齐县| 永修县| 丹巴县| 深泽县| 林州市| 石阡县| 渭南市| 康保县| 商河县| 顺昌县| 新密市| 上栗县| 黑龙江省| 平山县| 班戈县| 南昌县| 杭锦后旗| 毕节市| 通许县| 西乌| 平江县| 土默特左旗| 依安县| 双流县| 翼城县| 襄城县| 景洪市| 长治市| 丽水市| 吉安县| 来安县| 河曲县|