国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)空融合圖網(wǎng)絡(luò)學(xué)習(xí)的視頻異常事件檢測(cè)

2021-01-15 08:46詹永照毛啟容
關(guān)鍵詞:示例時(shí)空節(jié)點(diǎn)

周 航 詹永照 毛啟容

(江蘇大學(xué)計(jì)算機(jī)科學(xué)與通信工程學(xué)院 江蘇鎮(zhèn)江 212013)(henrryzh@qq.com)

隨著大數(shù)據(jù)時(shí)代的發(fā)展,各類視頻數(shù)據(jù)呈井噴之勢(shì),抖音之類的短視頻和設(shè)備監(jiān)控類的長(zhǎng)視頻成為大眾了解社會(huì)的快捷通道,因此對(duì)視頻數(shù)據(jù)的分析成為熱點(diǎn)研究問題.其中視頻異常事件分析成為維護(hù)社會(huì)治安與人民安全的安防領(lǐng)域的迫切需求.目前長(zhǎng)視頻中異常事件發(fā)現(xiàn)與定位技術(shù)還不成熟,大多還采用人工判別,無法應(yīng)對(duì)當(dāng)今數(shù)據(jù)量暴增的趨勢(shì).因此研究利用弱監(jiān)督或者無監(jiān)督信息,快速有效發(fā)現(xiàn)視頻中異常事件發(fā)生的時(shí)間,成為了目前視頻異常事件分析需要解決的關(guān)鍵問題.

由于正常模式的視頻易于收集,視頻異常事件檢測(cè)[1]最普遍的方法為單分類法,在正常數(shù)據(jù)集下進(jìn)行訓(xùn)練[2],使模型能夠較好地?cái)M合正常模式,在異常發(fā)生時(shí)會(huì)有較強(qiáng)的響應(yīng).但是此類方法局限特定場(chǎng)景,應(yīng)對(duì)外界干擾能力差,易產(chǎn)生誤報(bào)與漏報(bào).以正常與異常聯(lián)合參與訓(xùn)練能夠給予模型一定的異常判別能力,但是異常視頻在人工收集與標(biāo)記時(shí)耗費(fèi)時(shí)力且存在一定的主觀性,因此收集的視頻數(shù)據(jù)只含有視頻標(biāo)簽,無異常發(fā)生的詳細(xì)時(shí)間段標(biāo)記,利用此類數(shù)據(jù)實(shí)現(xiàn)有效的視頻異常事件模型建立和異常事件的發(fā)現(xiàn)與定位,成為了目前視頻異常事件分析研究的關(guān)注點(diǎn).

基于弱監(jiān)督學(xué)習(xí)的異常事件檢測(cè)與定位方法是一種有效解決上述問題的方法.很多人將弱監(jiān)督的視頻異常事件檢測(cè)問題視為多示例學(xué)習(xí)[3]問題,但只考慮了視頻特征片段自身的特點(diǎn),沒有將其與其他視頻特征片段進(jìn)行聯(lián)系,一般能夠檢測(cè)顯著性異常(如爆炸等),對(duì)于偷竊等聯(lián)系性較強(qiáng)的事件則檢測(cè)失效,對(duì)于有遮擋的異常事件也會(huì)發(fā)生漏報(bào).Zhou等人[4]提出多示例學(xué)習(xí)中各個(gè)示例并不是獨(dú)立同分布的,他們之間存在一定的聯(lián)系.學(xué)習(xí)并利用這種聯(lián)系將更好地表達(dá)視頻的動(dòng)態(tài)性特征,更適合于多樣性視頻的異常事件檢測(cè),但如何更合理考慮視頻片段的時(shí)空關(guān)聯(lián)關(guān)系并進(jìn)行更有效融合,進(jìn)而實(shí)現(xiàn)快速有效的視頻異常事件檢測(cè)與定位,還需深入研究.

為了應(yīng)對(duì)以上挑戰(zhàn),本文結(jié)合視頻特征具有的時(shí)間連續(xù)特性以及空間上的相似性,提出基于時(shí)空融合圖網(wǎng)絡(luò)學(xué)習(xí)的視頻異常事件檢測(cè)方法.該方法引入多示例的圖結(jié)構(gòu)去構(gòu)建視頻中各個(gè)片段之間的聯(lián)系,對(duì)時(shí)間角度和空間角度的構(gòu)圖方式進(jìn)行自適應(yīng)融合得到時(shí)空融合圖,采用時(shí)空融合圖卷積網(wǎng)絡(luò)學(xué)習(xí)視頻特征,引入多示例注意力網(wǎng)絡(luò)對(duì)各個(gè)片段進(jìn)行注意力的分配,并實(shí)現(xiàn)整個(gè)視頻的異常檢測(cè),以期獲取更好的多樣性視頻中異常事件檢測(cè)與定位性能.本文的主要貢獻(xiàn)有3個(gè)方面:

1) 考慮視頻段之間的時(shí)空關(guān)聯(lián)關(guān)系,提出時(shí)空融合圖模型,動(dòng)態(tài)構(gòu)建節(jié)點(diǎn)近鄰的空間相似和時(shí)間連續(xù)圖,利用注意力引導(dǎo)的權(quán)重矩陣加權(quán)2種圖,進(jìn)行自適應(yīng)學(xué)習(xí)融合,實(shí)現(xiàn)了視頻段時(shí)空特征內(nèi)在關(guān)系的更有效學(xué)習(xí)表達(dá);

2) 提出了時(shí)空融合圖卷積網(wǎng)絡(luò)學(xué)習(xí)視頻段時(shí)空特征并進(jìn)行分類預(yù)測(cè),在排序損失中加入圖的稀疏項(xiàng)約束,更有效地提高視頻異常事件檢測(cè)性能;

3) 引入多示例注意力機(jī)制學(xué)習(xí)各個(gè)片段對(duì)整個(gè)視頻的貢獻(xiàn)度,實(shí)現(xiàn)對(duì)視頻的異常判斷并建立視頻級(jí)異常分類損失進(jìn)一步提升檢測(cè)性能.

1 相關(guān)工作

1.1 視頻異常事件檢測(cè)

視頻異常事件檢測(cè)是一個(gè)具有挑戰(zhàn)的研究問題,經(jīng)過多年的探索與研究,取得了大量成果.傳統(tǒng)方法主要以手工特征為訓(xùn)練樣本,采用概率密度估計(jì)的統(tǒng)計(jì)學(xué)方法[5],判斷事件服從正?;蛘弋惓5姆植?或者利用高斯混合模型與馬爾可夫模型[6]對(duì)異常特征進(jìn)行推斷,效果更好的有采用稀疏學(xué)習(xí)[7]對(duì)正常模式進(jìn)行字典學(xué)習(xí).這些方法都存在著依賴特征的選擇,只適用于特定場(chǎng)景和檢測(cè)準(zhǔn)確率及定位精準(zhǔn)度不足等問題.

深度學(xué)習(xí)方法實(shí)現(xiàn)視頻特征的自動(dòng)學(xué)習(xí)與提取,可根據(jù)環(huán)境自動(dòng)獲取視頻特征,有效實(shí)現(xiàn)視頻語(yǔ)義概念的檢測(cè)分析.基于深度學(xué)習(xí)的視頻異常事件檢測(cè)已成為研究熱點(diǎn).在生成模型迅速發(fā)展的趨勢(shì)下,大多數(shù)異常檢測(cè)以自動(dòng)編碼器[8-10]為主體方法,對(duì)正常視頻[11-14]進(jìn)行無監(jiān)督學(xué)習(xí),通過生成模型對(duì)視頻進(jìn)行重構(gòu),在測(cè)試時(shí)模型對(duì)于異常幀會(huì)有一個(gè)較強(qiáng)的響應(yīng),但是此類模型局限于異常模式較少且時(shí)序短的視頻,對(duì)于固定類型視頻任務(wù)的檢測(cè)有較強(qiáng)的泛化能力;相對(duì)較長(zhǎng)的視頻以時(shí)空模型為基本方法,對(duì)視頻進(jìn)行時(shí)間和空間上的分析,如Zhao等人[15]利用3D卷積自動(dòng)編碼器方法對(duì)視頻進(jìn)行重構(gòu),考慮了視頻的時(shí)空上的信息,但是只是利用局部信息且生成模型對(duì)于異常事件多樣性泛化能力較弱.

應(yīng)對(duì)于異常視頻數(shù)據(jù)的場(chǎng)景復(fù)雜化,采用弱監(jiān)督的方法更能滿足對(duì)異常檢測(cè)的需求.Sultani等人[16]為弱監(jiān)督的視頻異常事件檢測(cè)帶來新的解決方案與挑戰(zhàn),他們提供了新的數(shù)據(jù)集UCF-Crime,通過采用正常與異常數(shù)據(jù)進(jìn)行訓(xùn)練更好地發(fā)現(xiàn)異常,結(jié)合多示例學(xué)習(xí)的方法,為該數(shù)據(jù)集提供了一種有效的基準(zhǔn)方法;Zhu等人[17]考慮到運(yùn)動(dòng)信息對(duì)異常的影響,采用光流金字塔模型做特征提取,引入注意力機(jī)制對(duì)異常視特征段作顯著性突出,整體上仍然將示例之間看作是獨(dú)立同分布的,沒有利用示例之間的潛在關(guān)聯(lián)關(guān)系;Zhang等人[18]利用多示例學(xué)習(xí)中正負(fù)包內(nèi)的各個(gè)示例的差異,提出包內(nèi)損失,并利用時(shí)序卷積神經(jīng)網(wǎng)絡(luò)(temporal convolutional network, TCN)進(jìn)行時(shí)序上的關(guān)聯(lián),該方法只是促進(jìn)了正常與異常的差異分化,對(duì)于內(nèi)部其他趨向于中性的視頻段沒有顯著的分化;Zhong等人[19]將弱監(jiān)督數(shù)據(jù)采用全監(jiān)督的方法去處理,所采取的策略是利用圖卷積的傳遞信息的能力對(duì)異常視頻中的正常片段進(jìn)行去噪,將得到偽標(biāo)簽訓(xùn)練3D卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional network, C3D)[20]進(jìn)行有效的異常識(shí)別,在進(jìn)行正常視頻段去噪的過程中,訓(xùn)練過程較為復(fù)雜,去噪過程可能將異常清理,造成信息丟失,可能引起異常事件識(shí)別與定位不夠準(zhǔn)確.

1.2 圖神經(jīng)網(wǎng)絡(luò)與視頻分析

圖神經(jīng)網(wǎng)絡(luò)[21-26]正處于發(fā)展階段,并廣泛應(yīng)用于社交關(guān)系網(wǎng)絡(luò)、生物分子結(jié)構(gòu)以及視覺等方向.Wang等人[27]利用圖卷積網(wǎng)絡(luò)對(duì)視頻進(jìn)行分析時(shí),考慮目標(biāo)之間的時(shí)間以及空間的聯(lián)系[28],大幅提高了復(fù)雜環(huán)境下的視頻動(dòng)作識(shí)別的性能.Feng等人[28]將時(shí)空?qǐng)D應(yīng)用到視頻追蹤中,也獲得了優(yōu)異的結(jié)果.因此建立完備的關(guān)系拓?fù)浣Y(jié)構(gòu),可以有效地提高視頻分析能力.我們結(jié)合異常視頻內(nèi)在時(shí)空聯(lián)系去動(dòng)態(tài)構(gòu)建關(guān)系結(jié)構(gòu)圖,為了表達(dá)視頻內(nèi)在聯(lián)系,我們提出了時(shí)空融合圖卷積網(wǎng)絡(luò),更好地實(shí)現(xiàn)對(duì)視頻異常事件的分析.

2 對(duì)于視頻異常事件檢測(cè)的時(shí)空融合圖網(wǎng)絡(luò)

問題描述:本文將弱監(jiān)督的視頻異常事件檢測(cè)視為多示例學(xué)習(xí)問題.對(duì)于一個(gè)視頻V={c1,c2,…,cN}以及視頻標(biāo)簽y∈{0,1},其中ci為切分的視頻片段,我們需要判斷出是每段ci是否為異常段即異常概率P(ci)=1,并將其分配到每一幀上實(shí)現(xiàn)對(duì)幀的判斷,同時(shí)也需要預(yù)測(cè)整個(gè)視頻是否為異常視頻.

針對(duì)視頻中各個(gè)片段之間存在時(shí)空上的聯(lián)系,提出對(duì)于視頻異常事件檢測(cè)的時(shí)空融合圖網(wǎng)絡(luò)學(xué)習(xí)方法.圖1為整體網(wǎng)絡(luò)結(jié)構(gòu),主要分為3個(gè)部分:1)成對(duì)輸入正常與異常視頻并分段,以預(yù)訓(xùn)練的膨脹3D卷積神經(jīng)網(wǎng)絡(luò)(inflated 3D convolutional network, I3D)[30]為骨架,提取視頻段的特征,利用多示例學(xué)習(xí)機(jī)制對(duì)提取的視頻特征段進(jìn)行正負(fù)包和示例的劃分,考慮到視頻具有時(shí)間連續(xù)特性以及視頻片段的1維空間特性,利用時(shí)間連續(xù)關(guān)系與空間相似性構(gòu)建2種角度的多示例圖結(jié)構(gòu);2)對(duì)2種圖做自適應(yīng)融合得到具有2種圖優(yōu)勢(shì)的融合圖,采用圖神經(jīng)網(wǎng)絡(luò),對(duì)異常視頻特征段進(jìn)行分類預(yù)測(cè);3)利用各個(gè)片段的注意力關(guān)系加權(quán)得到視頻異常預(yù)測(cè).

Fig. 1 Framework of spatio-temporal fusion graph network learning

2.1 多示例圖結(jié)構(gòu)構(gòu)造

考慮到視頻段之間隱含著時(shí)間連續(xù)關(guān)系以及空間相似關(guān)系,同時(shí)圖結(jié)構(gòu)具有優(yōu)異的拓?fù)渫茢嗄芰?因此將每個(gè)視頻段視為圖中的一個(gè)節(jié)點(diǎn),利用I3D作為特征提取器,提取每個(gè)視頻段的特征作為節(jié)點(diǎn)的嵌入向量,考慮視頻段之間的聯(lián)系,從而構(gòu)造2種屬性的多示例圖.

2.1.1 空間相似圖構(gòu)造

視頻段之間存在空間上的相似性聯(lián)系,將這種聯(lián)系用圖結(jié)構(gòu)表示可以很好地推斷相似視頻段.由于采用I3D提取的特征粒度較大,若直接用特征的歐氏距離度量視頻段相似度,且相近片段相似度均較大,難以突出其差異性.同時(shí)異常段在視頻中的出現(xiàn)顯現(xiàn)出稀疏性,為了防止圖卷積網(wǎng)絡(luò)在訓(xùn)練時(shí)發(fā)生過擬合,因此采用k近鄰思想用來度量各節(jié)點(diǎn)的相似度作為構(gòu)圖方法.B={s1,s2,…,sN}為整個(gè)視頻經(jīng)過特征提取后的特征表示,其中si∈RF為第i段視頻的特征表示,將其設(shè)置為相應(yīng)節(jié)點(diǎn)集合V={vi|vi=si,si∈B}.以歐氏距離為判斷準(zhǔn)則,計(jì)算節(jié)點(diǎn)vi與其他各節(jié)點(diǎn)的相似度:

(1)

對(duì)節(jié)點(diǎn)vi與其他節(jié)點(diǎn)的相似度進(jìn)行升序排序:sort({disti,j|i,j∈{1,2,…,N}}),形成節(jié)點(diǎn)vi的前k個(gè)最相似的節(jié)點(diǎn)集合:

simi={vm|m=rankl(sort({disti,j|i,j∈{1,2,…,N}}))},

(2)

其中rankl為返回第l∈[1,k]個(gè)最相似的節(jié)點(diǎn)號(hào).對(duì)各個(gè)節(jié)點(diǎn)之間賦予邊上的權(quán)重,權(quán)重計(jì)算公式為

(3)

2.1.2 時(shí)間連續(xù)圖構(gòu)造

視頻中一個(gè)事件的發(fā)生除了有視頻片段空間特征上的相似性外,主要是還有相鄰片段時(shí)間連續(xù)特征上的聯(lián)系.對(duì)于大部分異常視頻數(shù)據(jù)而言,并不是所有異常段類似于爆炸事件產(chǎn)生得那么劇烈,大部分需要一個(gè)起伏波動(dòng)的過程,因此對(duì)于一個(gè)視頻片段與其他片段的時(shí)間連續(xù)相似度,采用類似事件發(fā)展的k連續(xù)性度量,以時(shí)間連續(xù)相似度進(jìn)行時(shí)間連續(xù)圖節(jié)點(diǎn)的連接.對(duì)于任意節(jié)點(diǎn)vi與vj,以節(jié)點(diǎn)序號(hào)距離作為其是否連接的判斷準(zhǔn)則.對(duì)于節(jié)點(diǎn)vi,其相近時(shí)間連續(xù)節(jié)點(diǎn)集合為timei={vj||j-i|≤k},連接節(jié)點(diǎn)vi與集合timei中的節(jié)點(diǎn),2節(jié)點(diǎn)間的邊權(quán)重定義為

(4)

即與第i個(gè)片段越近的片段所分配的權(quán)重越大,能更好地反映它對(duì)第i個(gè)片段的影響因素,由此構(gòu)成k近鄰圖GT=(V,ET),V為與GS相同的節(jié)點(diǎn)集合,ET為時(shí)間連續(xù)圖的邊集合,對(duì)應(yīng)鄰接矩陣為AT.

2.2 時(shí)空融合圖卷積網(wǎng)絡(luò)

視頻片段的異常事件檢測(cè)不僅要檢測(cè)出明顯的事件片段,還要能更精確地定位出事件的起止片段,時(shí)間連續(xù)相似圖GT=(V,ET)能刻畫一個(gè)事件發(fā)生的平滑起伏區(qū)間的特征內(nèi)在關(guān)聯(lián)關(guān)系,而空間相似圖GS=(V,ES)能更好地表達(dá)出有明確異常事件視頻片段特征的內(nèi)在關(guān)聯(lián)關(guān)系,因而單一的時(shí)間連續(xù)相似圖卷積網(wǎng)絡(luò)不利于片段異常事件準(zhǔn)確檢測(cè),單一空間相似圖卷積網(wǎng)絡(luò)又不利于更準(zhǔn)確的異常事件邊界的檢測(cè)定位.

為了更好地利用時(shí)間連續(xù)圖與空間相似圖所刻畫的內(nèi)在關(guān)聯(lián)關(guān)系,本文將時(shí)間連續(xù)圖與空間相似圖進(jìn)行融合,構(gòu)建一個(gè)自適應(yīng)的時(shí)空融合圖網(wǎng)絡(luò)進(jìn)行異常事件的時(shí)空特征學(xué)習(xí).首先對(duì)2種圖進(jìn)行非線性融合,通過訓(xùn)練學(xué)習(xí)得到一個(gè)最契合兩者的權(quán)重參數(shù).具體融合方法為:給定鄰接矩陣AS,AT∈RN×N,分別為GS與GT的鄰接矩陣,對(duì)于各個(gè)鄰接矩陣給予一個(gè)待學(xué)習(xí)的權(quán)重WS∈RN×N與WT∈RN×N,利用注意力引導(dǎo)2個(gè)鄰接矩陣加權(quán).學(xué)習(xí)形成融合鄰接矩陣,其形式化表達(dá)為

(5)

其中,bS∈RN×N,bT∈RN×N為偏置參數(shù),*為哈達(dá)瑪積,gS∈RN×N,gT∈RN×N分別為得到2個(gè)鄰接矩陣的概率矩陣,σ為sigmoid激活函數(shù),得到一個(gè)[0,1]之間的選中概率值,最后的融合圖成為無向圖.通過學(xué)習(xí)得到各自選中邊的概率矩陣,2個(gè)概率矩陣與鄰接矩陣作點(diǎn)積并相加,得到融合圖即GF=(V,EF),V為與GS和GT相同的節(jié)點(diǎn)集合,邊集合以鄰接矩陣AF∈RN×N表示,對(duì)AF進(jìn)行歸一化,得到矩陣:

(6)

(7)

其中,Z為當(dāng)前層的節(jié)點(diǎn)特征表示,W為待學(xué)習(xí)的權(quán)重參數(shù),φ為relu激活函數(shù).最后分類層采用sigmoid函數(shù)P=σ(Z(3))=(P1,P2,…,PN),Pi∈[0,1],i∈{1,2,…,N},P即為所有片段的得分值.

2.3 注意力模塊

由于正常異常區(qū)域未知,利用注意力突出異常區(qū)域,同時(shí)也能通過加權(quán)操作得到視頻級(jí)的得分,降低時(shí)空融合圖網(wǎng)絡(luò)層帶來的過平滑影響.整個(gè)注意力模塊通過2層全連接層以及softmax函數(shù)對(duì)各個(gè)片段實(shí)現(xiàn)權(quán)重分配,并對(duì)圖網(wǎng)絡(luò)層的片段得分加權(quán)獲得整段視頻的異常得分.

(8)

其中,vid∈[0,1]為加權(quán)后的整個(gè)視頻異常得分,atti∈[0,1]為各片段的注意力權(quán)值,Pi為各片段得分值,Z∈RN×F為初始的提取好的視頻特征,W,b為注意力網(wǎng)絡(luò)層待學(xué)習(xí)的參數(shù).

2.4 損失函數(shù)

網(wǎng)絡(luò)最后輸出為視頻片段異常預(yù)測(cè)和視頻異常預(yù)測(cè),利用排序損失與圖稀疏約束優(yōu)化網(wǎng)絡(luò)對(duì)于視頻片段的學(xué)習(xí),采用交叉熵?fù)p失優(yōu)化網(wǎng)絡(luò)對(duì)視頻以及視頻段的異常預(yù)測(cè).

1) 排序損失(ranking loss).由于沒有細(xì)粒度的幀級(jí)別監(jiān)督信息優(yōu)化模型,采用粗粒度的視頻級(jí)標(biāo)簽作為監(jiān)督信息.在進(jìn)行訓(xùn)練時(shí)將正常異常視頻成對(duì)一起送入網(wǎng)絡(luò)訓(xùn)練,要促使異常事件檢測(cè)更加準(zhǔn)確,應(yīng)使得異常段的得分值遠(yuǎn)大于正常段,而具體異常段與正常段未知,因此利用異常視頻段中最高得分與正常視頻段中最高得分去增大兩者間距,利用排序損失實(shí)現(xiàn)約束:

(9)

其中,Pa;i表示一個(gè)異常視頻Ba中第i個(gè)異常視頻段的異常概率值,Pn;i表示一個(gè)正常視頻Bn中第i個(gè)視頻段的異常值概率.

2) 圖稀疏約束(L1 graph loss).考慮到異常事件的稀疏性,在時(shí)空融合圖網(wǎng)絡(luò)層得到的所有片段的得分值應(yīng)具有稀疏特性,同時(shí)對(duì)于時(shí)空融合圖中的邊在構(gòu)圖時(shí)也應(yīng)滿足其稀疏性,用L1損失來構(gòu)造圖稀疏約束:

(10)

其中,AF=(AFij)N×N為時(shí)空融合圖的鄰接矩陣,Pi為各個(gè)片段最后得分值.

因此對(duì)于視頻片段損失函數(shù)為

Lsegment=l(Ba,Bn)+λ1lsparse,

(11)

其中λ1為超參數(shù).

3) 視頻異常分類損失.弱監(jiān)督的視頻異常事件檢測(cè)是一個(gè)多示例問題,最后實(shí)現(xiàn)對(duì)于視頻級(jí)標(biāo)簽的類別判斷也是必要的,先前研究沒有完全使用視頻監(jiān)督信息,我們利用注意力模塊得到的視頻級(jí)真實(shí)標(biāo)簽對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化.采用2分類交叉熵?fù)p失:

(12)

其中,λ2為超參數(shù),M為訓(xùn)練輸入視頻的批量數(shù),yi∈{0,1}為第i個(gè)視頻的標(biāo)簽,vidi為第i個(gè)視頻的預(yù)測(cè)值,W為模型參數(shù)即網(wǎng)絡(luò)參數(shù)懲罰項(xiàng).

3 實(shí)驗(yàn)與分析

3.1 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)集采用中佛羅里達(dá)大學(xué)犯罪數(shù)據(jù)集UCF-Crime與上??萍即髮W(xué)發(fā)布的ShanghaiTech Campus數(shù)據(jù)集.UCF-Crime數(shù)據(jù)集由正常與13類異常(虐待、追捕、縱火、襲擊、盜竊、爆炸、打架、道路交通事故、搶劫、射擊、商店偷竊、偷盜、破壞公物)共1 900個(gè)視頻構(gòu)成,其中異常視頻中只包含少數(shù)異常片段,我們需要分辨出哪些片段發(fā)生異常哪些片段是正常,訓(xùn)練集包含810個(gè)異常與800個(gè)正常視頻,測(cè)試集包括正常視頻150個(gè)與異常視頻140個(gè);ShanghaiTech包含13種場(chǎng)景類型的視頻,具有不同的光照與拍攝角度,其中異常視頻130個(gè),其異常主要表現(xiàn)在人行道的機(jī)動(dòng)車闖入、道路上的打鬧以及行人的突然加速等.圖2為數(shù)據(jù)集的部分關(guān)鍵幀.

Fig. 2 Part of keyframes from two datasets

3.2 在UCF-Crime數(shù)據(jù)集上的實(shí)驗(yàn)

3.2.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)環(huán)境:實(shí)驗(yàn)服務(wù)器配置為Intel CoreTMi9-9720K CPU@2.90 GHz,GPU采用GeForce RTX208 0Ti顯存12 GB,內(nèi)存64 GB.服務(wù)器采用Ubuntu18.04系統(tǒng),編程環(huán)境為python3.6,CUDA9.0,Pytorch1.0.0.

參數(shù)設(shè)置:對(duì)視頻進(jìn)行重新調(diào)整,每幀大小為224×224.由于不同視頻時(shí)間尺度差異性較大,對(duì)視頻進(jìn)行分段處理,對(duì)整個(gè)視頻劃分成無重復(fù)區(qū)域的32段.利用在ImageNet數(shù)據(jù)集預(yù)訓(xùn)練好的I3D網(wǎng)絡(luò)模型,對(duì)每段視頻進(jìn)行連續(xù)16幀RGB圖像的特征提取,得到多個(gè)1 024維特征塊,對(duì)片段內(nèi)得到的所有特征塊進(jìn)行平均處理,即每個(gè)視頻可以由X∈R32×1 024的特征矩陣表示.將視頻特征矩陣送入時(shí)空融合圖卷積網(wǎng)絡(luò),其中設(shè)置空間相似圖中kS=3,時(shí)間連續(xù)圖kT=2;采用3層圖卷積網(wǎng)絡(luò),每層維度分別為512,128,1,注意力模塊中2層全連接層維度分別為512和1,dropout設(shè)置為0.6;采用adagrad優(yōu)化算法,學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率衰減為0.000 1,λ1=0.000 08,λ2=0.001.在輸入訓(xùn)練樣本時(shí)每次迭代的批量數(shù)為60,其中正包即異常視頻為30個(gè),負(fù)包即正常視頻為30個(gè),共500個(gè)epoch.上述實(shí)驗(yàn)參數(shù)設(shè)置與文獻(xiàn)[16]保持一致,保證了實(shí)驗(yàn)的公平性.

3.2.2 實(shí)驗(yàn)結(jié)果與分析

評(píng)價(jià)指標(biāo):參照先前研究方案[7-8,16-19],采用幀級(jí)標(biāo)簽作為評(píng)價(jià)標(biāo)準(zhǔn),得到誤報(bào)率與召回率度繪制接收者操作曲線(receiver operating characteristic curve, ROC),計(jì)算曲線下面積(area under curve, AUC)值,以AUC值和ROC曲線作為最終實(shí)驗(yàn)結(jié)果的對(duì)比參照,AUC值越高模型的判別效果越好.為了判斷檢測(cè)效果,以視頻級(jí)別標(biāo)簽的誤報(bào)率以及準(zhǔn)確率來檢驗(yàn)視頻異常檢測(cè)的性能.

1)k取值分析

為了實(shí)現(xiàn)對(duì)k取值的選擇,按照表1對(duì)不同k值進(jìn)行了選取實(shí)驗(yàn),其中kS為空間相似k值,kT為時(shí)間連續(xù)性k值.同時(shí)考慮到利用高斯核與本文所用方法計(jì)算權(quán)重是否存在較大差異,作相關(guān)實(shí)驗(yàn)對(duì)比.實(shí)驗(yàn)結(jié)果在圖3中展示,其中折線圖展示了本文所用方法在不同情況下的實(shí)驗(yàn)結(jié)果,在合適的k值上有很大的提升,在kS=3,kT=2時(shí),AUC值最高,但隨著k值增加,性能降低.柱狀圖為采用高斯核的實(shí)驗(yàn)結(jié)果,高斯核穩(wěn)定性較強(qiáng),不隨著k值改變發(fā)生較大變化.產(chǎn)生此類情況的原因:在利用本文方法構(gòu)造時(shí),通過固定縮放各個(gè)片段之間的聯(lián)系,增強(qiáng)了相鄰的聯(lián)系,同時(shí)也會(huì)增強(qiáng)噪聲(正常片段)對(duì)異常片段的影響,在尋找到合適的k值時(shí)這些影響會(huì)降到最低,得到的效果最優(yōu).使用高斯核時(shí),各個(gè)片段之間的聯(lián)系相對(duì)較弱,且高斯核對(duì)于k值改變有一定的平滑性,所以改變k值對(duì)其影響較小.

Table 1 Different Values of k in 5 cases

Fig. 3 Result in 5 cases

2) 方法的縱向分析

為了進(jìn)一步證明采用融合策略的效果以及添加注意力模塊得到的視頻級(jí)異常分類損失(video classification loss, VCL)是否具有提升,進(jìn)行相關(guān)對(duì)比實(shí)驗(yàn).表2中詳細(xì)列舉了7種方法的結(jié)果.表2中空間相似圖只考慮了視頻中各個(gè)片段的相似性關(guān)系,時(shí)間連續(xù)圖為只考慮到時(shí)間上的連續(xù)關(guān)系,平均融合為文獻(xiàn)[19]的融合方式,時(shí)空融合圖為我們的融合方法,實(shí)驗(yàn)結(jié)果表明單一考慮視頻段的聯(lián)系并不能完整地表達(dá)出異常,對(duì)兩者進(jìn)行結(jié)果的平均在檢測(cè)魯棒性上也低于本文采取自適應(yīng)融合的方法,由此可以證明我們方法的優(yōu)勢(shì).

表2也展示了視頻級(jí)異常分類損失帶來的性能提升.添加該損失后,自適應(yīng)融合方法提升1.44%;為了進(jìn)一步證明其有效性,利用提取的I3D特征對(duì)基準(zhǔn)方法[16]進(jìn)行了驗(yàn)證,該損失也可以在基準(zhǔn)方法上提升2.31%.

同時(shí)進(jìn)一步進(jìn)行了視頻處理速度的實(shí)驗(yàn)測(cè)試,我們的模型從加載視頻數(shù)據(jù)到獲得異常檢測(cè)結(jié)果的處理速率達(dá)到68.87 fps,可實(shí)現(xiàn)實(shí)時(shí)異常事件檢測(cè).但視頻的處理效率依據(jù)環(huán)境不同會(huì)有不同.

Table 2 Fusion Model Verification on UCF-Crime

3) 與相關(guān)方法對(duì)比分析

① ROC與AUC值對(duì)比.實(shí)驗(yàn)與目前針對(duì)于UCF-Crime數(shù)據(jù)集的主流研究方法作對(duì)比.圖4給出了能夠獲取到的數(shù)據(jù)實(shí)驗(yàn)結(jié)果的ROC曲線,可以看出時(shí)空融合圖方法(星狀形曲線)在幀級(jí)的誤報(bào)率與召回率綜合上表現(xiàn)更優(yōu).

Fig. 4 ROC comparison on UCF-Crime

表3中給出了對(duì)比方法的AUC結(jié)果.可以看出,文獻(xiàn)[7-8]這2種基于無監(jiān)督的方法在進(jìn)行異常檢測(cè)時(shí)AUC較低;文獻(xiàn)[16]中利用部分異常信息可以達(dá)到75.41%的AUC值,基于時(shí)空融合圖模型可以取得高于基準(zhǔn)方法[16]5.35%的結(jié)果,也優(yōu)于目前遵循基準(zhǔn)模型的網(wǎng)絡(luò)架構(gòu)的其他方法[14-15];雖然相比于目前最好的算法[19]差1.36%,但我們的方法在特征提取以及訓(xùn)練階段共用時(shí)為30.23 h,文獻(xiàn)[19]需要交叉清理訓(xùn)練,進(jìn)行一次交叉清理訓(xùn)練(包括特征提取與訓(xùn)練階段)用時(shí)為34.56 h.其原因是我們的方法在參數(shù)量上更少約為1.1 M,較文獻(xiàn)[19]少約1 M的參數(shù)個(gè)數(shù),同時(shí)無須交叉清理訓(xùn)練,故我們的方法訓(xùn)練更簡(jiǎn)便、快速.

Table 3 Result Comparison on UCF-Crime

Fig. 5 Results of a few test videos on UCF-Crime

② 誤報(bào)率與準(zhǔn)確率對(duì)比.在視頻異常檢測(cè)中,視頻級(jí)別的異常事件誤報(bào)率以及準(zhǔn)確率性能指標(biāo)也尤為重要,我們對(duì)誤報(bào)率以及準(zhǔn)確率采用視頻級(jí)別的標(biāo)簽進(jìn)行評(píng)估,取閾值為0.5時(shí)得出其混淆矩陣.與所能獲取實(shí)驗(yàn)結(jié)果的方法進(jìn)行對(duì)比,如表4所示,在150個(gè)正常測(cè)試視頻中基準(zhǔn)方法誤報(bào)率為12%,我們方法誤報(bào)率為8.67%,可以看出所提方法在誤報(bào)率及準(zhǔn)確率方面更優(yōu).

Table 4 Comparation of Accuracy and False Alarm

4) 異常事件檢測(cè)可視化對(duì)比分析

為了更清晰地展現(xiàn)所提出的方法在視頻異常事件檢測(cè)上的效果,利用測(cè)試視頻作可視化對(duì)比分析,均采用每幀異常得分超過0.5作為異常標(biāo)注.圖5展現(xiàn)了采用數(shù)據(jù)集中槍擊案例與縱火案例視頻相關(guān)方法檢測(cè)結(jié)果的可視化.圖5(a)以及圖5(b)中真實(shí)區(qū)域?yàn)闇y(cè)試視頻中標(biāo)注的異常幀信息,深色區(qū)域?yàn)闃?biāo)記的真實(shí)異常區(qū)域,其下4個(gè)深色區(qū)域?yàn)?種方法檢測(cè)出的異常區(qū)間.時(shí)空融合圖為本文提出的方法,時(shí)間連續(xù)圖與空間相似圖為只考慮單一情況的方法,基準(zhǔn)方法為文獻(xiàn)[16]所提出的方法.

從圖5(a)的槍擊案例中可以看出,我們的方法在對(duì)異常事件檢測(cè)時(shí),所檢測(cè)出的區(qū)域能夠比較好地覆蓋異常區(qū)域,而基準(zhǔn)方法覆蓋度較小且會(huì)出現(xiàn)異常事件檢測(cè)區(qū)域的碎片化.從圖5(b)的縱火案例中可以看出,在空間相似圖和基準(zhǔn)方法上,倒汽油與點(diǎn)火之間有部分漏報(bào),而考慮時(shí)間連續(xù)上的關(guān)聯(lián)則檢測(cè)得比較全面.較以上方法,我們的方法同樣能夠比較好地覆蓋異常區(qū)域,并且體現(xiàn)了能夠結(jié)合時(shí)間連續(xù)圖與空間相似圖的優(yōu)勢(shì),在視頻最后階段由于出現(xiàn)火災(zāi)場(chǎng)景而數(shù)據(jù)集中并沒有對(duì)其進(jìn)行異常標(biāo)記,但是我們的方法給出了預(yù)警.由此可看出,由于我們的方法考慮到了片段之間的時(shí)空內(nèi)在關(guān)聯(lián)關(guān)系,檢測(cè)出的區(qū)域能更好地覆蓋異常事件區(qū)域,不會(huì)出現(xiàn)異常事件檢測(cè)區(qū)域的碎片化,更符合視頻異常事件的檢測(cè)需求.

3.3 在ShanghaiTech數(shù)據(jù)集上的實(shí)驗(yàn)

該數(shù)據(jù)集一般用作無監(jiān)督學(xué)習(xí),為了實(shí)現(xiàn)弱監(jiān)督的視頻異常事件檢測(cè),對(duì)數(shù)據(jù)集重新進(jìn)行了劃分.采用與文獻(xiàn)[19]相同的劃分方式,從整個(gè)數(shù)據(jù)集采樣238個(gè)視頻作為訓(xùn)練集,其中正常視頻175個(gè)、異常視頻63個(gè);測(cè)試集包括199個(gè)視頻,正常視頻155個(gè)、異常視頻44個(gè),訓(xùn)練集與測(cè)試集無重復(fù)視頻.

3.3.1 實(shí)驗(yàn)設(shè)置

與UCF-Crime數(shù)據(jù)集的處理方式相同,將視頻上每一幀的大小調(diào)整為224×224并對(duì)視頻做分段處理.利用ImageNet上預(yù)訓(xùn)練好的3D卷積神經(jīng)網(wǎng)絡(luò)(I3D)提取連續(xù)16幀的信息,對(duì)一個(gè)視頻的所有片段作分段并取平均值的處理.將視頻特征送入時(shí)空融合圖網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,在構(gòu)建圖網(wǎng)絡(luò)時(shí),空間相似圖kS=10,時(shí)間連續(xù)圖kT=7,每次迭代的批量數(shù)設(shè)置為20,其他參數(shù)設(shè)置與在UCF-Crime上實(shí)驗(yàn)保持一致.

3.3.2 實(shí)驗(yàn)結(jié)果與分析

本節(jié)分別與相關(guān)方法[12-14,16,19]進(jìn)行了檢測(cè)實(shí)驗(yàn)的AUC、誤報(bào)率與準(zhǔn)確率的統(tǒng)計(jì)以及ROC曲線繪制.

1) ROC與AUC值對(duì)比.圖6給出了所能獲取實(shí)驗(yàn)結(jié)果的方法的ROC對(duì)比圖,在ROC指標(biāo)上我們方法(星狀形曲線)具有最優(yōu)的效果.表5給出了在該數(shù)據(jù)集上典型的無監(jiān)督和弱監(jiān)督的對(duì)比方法實(shí)驗(yàn)的AUC值,文獻(xiàn)[12-14]采用無監(jiān)督的方式,此類方法由于缺少異常信息的輔助其AUC值最高僅73.20%,檢測(cè)性能有待提高.文獻(xiàn)[16]中方法常作為弱監(jiān)督方式的基準(zhǔn)方法,只對(duì)單個(gè)片段進(jìn)行識(shí)別導(dǎo)致識(shí)別效果不高;文獻(xiàn)[19]對(duì)異常視頻中的正常片段進(jìn)行了清理,使弱監(jiān)督演變?yōu)槿O(jiān)督的方式,實(shí)現(xiàn)了較好的檢測(cè)效果,但ShanghaiTech數(shù)據(jù)集異常模式?jīng)]有UCF-Crime顯著,在噪聲清理時(shí)可能會(huì)將異常片段進(jìn)行清理;在通過控制各個(gè)片段之間關(guān)聯(lián)度的條件下,使用時(shí)空融合圖卷積網(wǎng)絡(luò)比只考慮單一聯(lián)系的魯棒性更強(qiáng),較基準(zhǔn)方法高9.30%,比目前最優(yōu)方法[19]高5.44%,實(shí)現(xiàn)了在此數(shù)據(jù)集下的最好的檢測(cè)效果.

Fig. 6 ROC comparison on ShanghaiTech

Table 5 AUC Score Comparison on ShanghaiTech

2) 誤報(bào)率與準(zhǔn)確率對(duì)比.表6給出了根據(jù)視頻級(jí)的預(yù)測(cè)值統(tǒng)計(jì)的準(zhǔn)確率與誤報(bào)率,在所能獲取實(shí)驗(yàn)結(jié)果的方法對(duì)比中可以看出:在基礎(chǔ)方法之上,只考慮單一構(gòu)圖增強(qiáng)事件之間的聯(lián)系情況,模型檢測(cè)性能有所提升,但相差不大;以本文方法進(jìn)行時(shí)空融合圖操作后,在準(zhǔn)確率與誤報(bào)率上均能獲得較大提升,也是此數(shù)據(jù)集下最好的結(jié)果.

Table 6 Comparation of Accuracy and False Alarm on ShanghaiTech

3.4 性能泛化分析

為了考察模型在真實(shí)環(huán)境下異常模式多樣化的泛化能力,對(duì)在一個(gè)數(shù)據(jù)集上訓(xùn)練好的模型進(jìn)行未知數(shù)據(jù)集下的測(cè)試.我們引入新的暴力檢測(cè)數(shù)據(jù)集RWF2000[31]作為未知的數(shù)據(jù)集,該數(shù)據(jù)集為暴力斗毆數(shù)據(jù)集,由2 000個(gè)視頻構(gòu)成,組成打架視頻與正常視頻,每個(gè)視頻時(shí)長(zhǎng)均為5 s,幀率為30 fps.取其中400個(gè)視頻作為測(cè)試集(200個(gè)打架視頻與200個(gè)正常視頻).表7展示了3個(gè)數(shù)據(jù)集的不同劃分方式.UCF-Crime,ShanghaiTech,RWF2000均保持原數(shù)據(jù)集劃分.Mixed-Set為UCF-Crime與ShanghaiTech按照表中數(shù)據(jù)分布混合構(gòu)成的數(shù)據(jù)集,訓(xùn)練集為兩者訓(xùn)練集的混合,測(cè)試集保持兩者的原始劃分.

訓(xùn)練策略分為獨(dú)立訓(xùn)練和混合訓(xùn)練,測(cè)試時(shí)在3個(gè)測(cè)試集上分別測(cè)試,實(shí)驗(yàn)方案如表8所示.ModelU為在UCF-Crime上訓(xùn)練的模型,ModelSH為在ShanghaiTech上訓(xùn)練的模型,ModelM為混合數(shù)據(jù)集Mixed-Set上訓(xùn)練的模型.

Table 7 Dataset Partition

Table 8 The AUC Score and Accuracy of Different Test Sets

1) 獨(dú)立訓(xùn)練.如表8中,在ModelU→UCF-Crime (UCF-Crime上訓(xùn)練,UCF-Crime上測(cè)試),模型對(duì)于同類異常的判別能力具有優(yōu)勢(shì),AUC與準(zhǔn)確率相對(duì)較高,達(dá)到80.76%與83.44%.在未知數(shù)據(jù)集上測(cè)試,ModelU→ShanghaiTech時(shí),AUC值與準(zhǔn)確率分別為43.01%與73.37%,在ModelU→RWF2000下測(cè)試時(shí)準(zhǔn)確率為76.19%(此數(shù)據(jù)集沒有幀級(jí)標(biāo)注只取準(zhǔn)確率).可以看出:以訓(xùn)練好的ModelU和ModelSH分別在UCF-Crime和ShanghaiTech數(shù)據(jù)集測(cè)試的泛化能力不顯著,在RWF2000數(shù)據(jù)集上有一定的泛化能力.因此對(duì)未知數(shù)據(jù)集進(jìn)行測(cè)試時(shí),模型的泛化能力還有待于提高,其主要原因是不同數(shù)據(jù)集中異常模式差異較大,UCF-Crime更偏向于宏觀的異常;而ShanghaiTech數(shù)據(jù)集則局限于人的行為上異常,更符合一種微觀的異常;RWF2000數(shù)據(jù)集中的打架斗毆類型和UCF-Crime數(shù)據(jù)集有相似之處,故ModelU→RWF2000有更好的泛化能力.

2) 混合訓(xùn)練.為了考察數(shù)據(jù)集混合訓(xùn)練能否達(dá)到較理想的測(cè)試性能,表8中以ModelM進(jìn)行了實(shí)驗(yàn)測(cè)試.在原數(shù)據(jù)集UCF-Crime與ShanghaiTech上均有較好的泛化能力,在RWF2000上達(dá)到71.05%的檢測(cè)準(zhǔn)確率,也具有一定的泛化能力.

4 結(jié) 論

針對(duì)視頻中事件發(fā)生的時(shí)間特征和空間特征的內(nèi)在關(guān)聯(lián)性問題,本文將視頻片段的特征對(duì)應(yīng)為圖中的節(jié)點(diǎn),根據(jù)其特征的相似程度和時(shí)間差異性分別構(gòu)建了空間相似性圖和時(shí)間連續(xù)性圖.將空間相似性圖和時(shí)間連續(xù)性圖進(jìn)行自適應(yīng)加權(quán)融合,形成時(shí)空融合圖卷積網(wǎng)絡(luò)學(xué)習(xí)生成視頻特征,提出了基于時(shí)空融合圖網(wǎng)絡(luò)學(xué)習(xí)的視頻異常事件檢測(cè)方法.在UCF-Crime和ShanghaiTech這2個(gè)典型的數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:所提出的方法在視頻異常事件檢測(cè)幀級(jí)的AUC,ROC和視頻級(jí)別的準(zhǔn)確率、誤報(bào)率等性能指標(biāo)方面均達(dá)到較高水平.所提出的方法可方便、有效地應(yīng)用于視頻異常事件的檢測(cè).由于本文采用預(yù)訓(xùn)練的3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,提取的信息粒度較大,同時(shí)在對(duì)有鏡頭切換和運(yùn)動(dòng)對(duì)象遮擋的問題未深入考慮.下一步將對(duì)特征提取網(wǎng)絡(luò)以及容忍遮擋的關(guān)聯(lián)性度量進(jìn)行研究,以進(jìn)一步提升定位精度和檢測(cè)準(zhǔn)確率.此外,對(duì)未知數(shù)據(jù)集的異常事件檢測(cè)的泛化性能提升還有待于進(jìn)一步研究.

猜你喜歡
示例時(shí)空節(jié)點(diǎn)
基于RSSI測(cè)距的最大似然估計(jì)的節(jié)點(diǎn)定位算法
跨越時(shí)空的相遇
分區(qū)域的樹型多鏈的無線傳感器網(wǎng)絡(luò)路由算法
基于圖連通支配集的子圖匹配優(yōu)化算法
基于點(diǎn)權(quán)的混合K-shell關(guān)鍵節(jié)點(diǎn)識(shí)別方法
玩一次時(shí)空大“穿越”
10秒記憶
飛吧,云寶
時(shí)空守護(hù)者之宇宙空間站
時(shí)空之門
四川省| 南召县| 广西| 修水县| 峡江县| 开化县| 大埔区| 英山县| 南和县| 桃江县| 西盟| 济阳县| 香格里拉县| 冷水江市| 安达市| 南宁市| 盐池县| 南京市| 宕昌县| 阿克苏市| 金乡县| 噶尔县| 班戈县| 雷山县| 潼南县| 贵阳市| 云龙县| 永川市| 康乐县| 黄冈市| 古交市| 凌云县| 朔州市| 陇川县| 高淳县| 察雅县| 阿拉善右旗| 清水县| 平遥县| 平顺县| 无锡市|