国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

視頻監(jiān)控系統(tǒng)異常目標(biāo)檢測與定位綜述

2019-03-21 12:53胡正平李淑芳孫德綱
燕山大學(xué)學(xué)報(bào) 2019年1期
關(guān)鍵詞:時(shí)空像素特征

胡正平,張 樂,李淑芳,孫德綱

(1. 燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2. 燕山大學(xué) 河北省信息傳輸與信號處理重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004;3. 山東華宇工學(xué)院 電子信息工程學(xué)院,山東 德州 253000)

0 引言

隨著室內(nèi)外監(jiān)控?cái)z像機(jī)數(shù)量的增加,在采用傳統(tǒng)人為視頻監(jiān)督方法進(jìn)行異常檢測時(shí),常因?yàn)槿藗兊氖韬龊推谝约靶畔⒈旧淼膹?fù)雜性,造成監(jiān)視任務(wù)的低效和繁瑣。因此,采用智能視頻監(jiān)控系統(tǒng)自動(dòng)檢測異常行為對于確保公共安全和社會(huì)秩序管理具有至關(guān)重要的作用,同時(shí)視頻異常行為檢測作為人類行為識別的一個(gè)特殊問題引起國內(nèi)外學(xué)者廣泛關(guān)注。

基于對智能監(jiān)控系統(tǒng)的需求,2005年Valera和Velastin 歸納了基于自動(dòng)異常檢測的監(jiān)控系統(tǒng)的基本組成框架[1]。1997年美國國防高級研究項(xiàng)目署設(shè)立以卡內(nèi)基梅隆大學(xué)為首麻省理工學(xué)院等高校參與的視覺監(jiān)控重大項(xiàng)目VSAM(Visual Surveillance And Monitoring)用于戰(zhàn)場及普通民用場景監(jiān)控的運(yùn)動(dòng)物體的檢測、定位和分類[2]。此外,歐盟也大力資助基于系統(tǒng)結(jié)構(gòu)的公共交通行人監(jiān)控項(xiàng)目來提高視頻監(jiān)控異常檢測的效率,如CROMATICA (Crowd Management with Telematics Imaging and Communication Assistance)[3]和 PRISMATICA (Proactive Integrated Systems for security Management by Technological Institutional and Communication Assistance)[4]。在國內(nèi)中科院自動(dòng)化所學(xué)者發(fā)起的實(shí)時(shí)智能視頻監(jiān)控預(yù)警系統(tǒng)已成功應(yīng)用于北京地鐵13號線,大大提高效率的同時(shí)使場所犯罪率降低至新的標(biāo)準(zhǔn)[5]。

視頻異常檢測首先需要確定異常的含義,一般來說在不同的視頻中對于“異?!钡亩x各不相同,即異常的定義取決于視頻本身的內(nèi)容,通常情況下將視頻場景中小概率事件視為異常行為。異常可以分為全局異常和局部異常,全局異常指整個(gè)場景的群體行為是異常的,這類異常是從視頻序列的某一幀開始就整個(gè)幀場景而言出現(xiàn)的異常,如UMN數(shù)據(jù)集中的人群恐慌四處逃散場景和Hockey Fight中的暴力行為場景[6]。而局部異常是指視頻中只有某一區(qū)域中的個(gè)體行為異于鄰近人群或整個(gè)場景中的絕大部分行為,如UCSD數(shù)據(jù)集中步行街中騎自行車的行為等。

視頻異常檢測就是從大量視頻中高效地檢測出異常事件,進(jìn)而保障公共安全防止危險(xiǎn)的情況發(fā)生。一般來說實(shí)現(xiàn)這一目標(biāo)需要三個(gè)步驟,首先對視頻序列進(jìn)行前景分割和提取,檢測出運(yùn)動(dòng)目標(biāo),然后進(jìn)行特征的提取和篩選來表示基本事件,最后實(shí)現(xiàn)異常事件的識別和定位。智能視頻異常檢測系統(tǒng)流程如圖1所示,本文也將按照該流程分別進(jìn)行闡述。

圖1 智能視頻異常檢測系統(tǒng)
Fig.1 Intelligent video anomaly detection system

1 前景提取與運(yùn)動(dòng)目標(biāo)檢測

通常情況下監(jiān)控視頻中的異常情況常為運(yùn)動(dòng)的物體或目標(biāo),然而視頻中大面積的背景或是靜止的物體使得異常檢測運(yùn)算過程變得龐大復(fù)雜,同時(shí)大量的噪聲及冗余信息使得特征提取、行為表示變得困難,從而大大降低了異常檢測的效率和質(zhì)量。因此,運(yùn)動(dòng)目標(biāo)檢測是智能異常檢測系統(tǒng)中不可或缺的步驟。傳統(tǒng)運(yùn)動(dòng)目標(biāo)檢測方法有幀間差分法(幀差法)、背景減除法和光流法。幀差法是通過相鄰幀之間的差分判定對應(yīng)像素的灰度值的變化從而檢測出運(yùn)動(dòng)目標(biāo)。背景減除法需要先對背景進(jìn)行建模得到背景模型,再將每幀圖像和背景模型圖像進(jìn)行對比。光流法是運(yùn)動(dòng)目標(biāo)檢測中最常用的一種方法,在視頻分析中通常定義為一個(gè)視頻幀序列中的圖像亮度模式的表觀運(yùn)動(dòng),即空間物體表面上的點(diǎn)的運(yùn)動(dòng)速度在視覺傳感器的成像平面上的表達(dá),常用的光流方法有HS算法和金字塔HK算法。監(jiān)控視頻異常檢測領(lǐng)域常用的前景提取與運(yùn)動(dòng)目標(biāo)檢測方法框圖如圖2所示。在進(jìn)行視頻異常檢測時(shí)常使用光流法配合元胞分割方法剔除背景信息并得到含有運(yùn)動(dòng)目標(biāo)的二維圖像或三維時(shí)空興趣塊,例如Roberto Leyva等人通過對視頻幀進(jìn)行運(yùn)動(dòng)目標(biāo)檢測,得到含有運(yùn)動(dòng)目標(biāo)的二維圖像,然后對這些二維圖像進(jìn)行特征提取和行為表示[7]。Zhou Shifu等人采用光流法提取到含有運(yùn)動(dòng)信息的時(shí)空興趣塊,作為三維卷積網(wǎng)絡(luò)的輸入,該方法有效地減弱了背景信息的影響,提高了異常檢測速度和準(zhǔn)確率[8]。

圖2 前景提取與運(yùn)動(dòng)目標(biāo)檢測方法框圖
Fig.2 Block diagram of foreground extraction and moving object detection method

2 特征提取和行為表示

在視頻異常檢測的研究中,合適特征的高效提取對正常及異常行為的快速準(zhǔn)確鑒別具有重要的作用,為此研究學(xué)者也提出各種方法進(jìn)行特征提取和行為表示。特征提取從思路上可以分為兩大類:一類是采用手動(dòng)設(shè)計(jì)方式提取人工設(shè)計(jì)特征,一類是直接對原始視頻幀進(jìn)行學(xué)習(xí)得到深度特征,兩種特征提取方式都是基于生物神經(jīng)理論實(shí)現(xiàn)的,不同之處在于手動(dòng)設(shè)計(jì)方式提取的特征是模仿人類視覺框架得到的,而深度學(xué)習(xí)的特征提取方法重點(diǎn)在于對數(shù)據(jù)本身的分布規(guī)律進(jìn)行學(xué)習(xí)。異常檢測中常用的特征提取方法如圖3所示。

圖3 異常檢測特征提取方法框圖
Fig.3 Block diagram of feature extraction method for anomaly detection

2.1 人工設(shè)計(jì)特征行為表示

人工設(shè)計(jì)特征是根據(jù)人類視覺對特征的敏感度從圖像中提取有區(qū)分能力的特征,因此提取出來的特征具有明確的物理含義。目前,常用于視頻異常檢測的人工設(shè)計(jì)特征有紋理特征、顏色、MoSIFT(Motion Scale Invariant Feature Transform)、光流特征、軌跡特征等。例如Li Weixin等人使用動(dòng)態(tài)紋理混合(Mixtures of Dynamic Textures,MDT)對正常人群的行為建模,利用顯著性區(qū)分判別空間中的異常與正常事件將模型中的異常值視為異常事件[9-10]。在二維紋理的基礎(chǔ)上,Wang J基于時(shí)空視頻概念,提出具有豐富的人群模式特征的時(shí)空紋理模型,將提取到的監(jiān)視記錄的人群紋理在基于冗余小波變換的特征空間進(jìn)行行為模板匹配實(shí)現(xiàn)異常的檢測[11]。Aravinda S.Rao等人從統(tǒng)計(jì)的角度通過灰度共生矩陣(Gray Level Co-occurrence Matrix,GLCM)對異常事件或物體的對比度、相關(guān)性、均勻性等空間特征進(jìn)行描述構(gòu)建異常框架,并采用時(shí)空編碼檢測出人群中的異常游蕩行為[12]。從顯著性角度,中國科學(xué)院學(xué)者提出基于顯著性的異常事件檢測方法,一方面通過對比兩個(gè)連續(xù)的視頻幀之間特征點(diǎn)的運(yùn)動(dòng)構(gòu)造時(shí)空異常顯著圖,另一方面基于顏色對比構(gòu)造空間異常顯著圖,實(shí)驗(yàn)結(jié)果顯示該方法在沒有訓(xùn)練階段的情況下,對異常事件的檢測效果具有較高的準(zhǔn)確率和魯棒性[13]。MoSIFT作為一種有效的特征描述符,不僅可以檢測到空間上具有一定運(yùn)動(dòng)的、區(qū)分性強(qiáng)的興趣點(diǎn),并且能夠通過興趣點(diǎn)周圍的光流強(qiáng)度衡量興趣點(diǎn)的運(yùn)動(dòng)強(qiáng)度, 因此采用基于MoSIFT的行為表示方法進(jìn)行異常檢測可以得到較好的效果,例如文獻(xiàn)[14]采用MoSIFT算法提取視頻的低級別的描述,并采用核密度估計(jì)(Kernel Density Estimation,KDE)對MoSIFT描述符進(jìn)行特征選擇,消除特征干擾?;贖arris角點(diǎn)及興趣點(diǎn)算子文獻(xiàn)[15]在空間時(shí)間有顯著的局部變化的部分建立時(shí)空局部結(jié)構(gòu),并計(jì)算它們的尺度不變的時(shí)空描述符,如此將空間興趣概念擴(kuò)展到時(shí)空域(Space-time Interest Points,STIPs)以獲得更好的異常檢測效果。此外針對彩色圖像的運(yùn)動(dòng)行為描述問題,Insaf Bellamine等人通過對圖像的色彩幾何結(jié)構(gòu)成分和紋理成分分解得到色彩時(shí)空興趣點(diǎn)(Color Space-Time Interest Points,CSTIP),實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)描述[16]。

異常事件常伴隨著目標(biāo)的運(yùn)動(dòng)速度變化,光流作為一種有效的目標(biāo)運(yùn)動(dòng)描述子被廣泛應(yīng)用在異常檢測的研究中。文獻(xiàn)[17]基于光流采用運(yùn)動(dòng)粒子區(qū)分正常與異常行為從而實(shí)現(xiàn)擁擠場景下的異常行為檢測。光流加速度和光流梯度直方圖特征在文獻(xiàn)[18]中被用來檢測場景中存在的異常物體和速度違規(guī)現(xiàn)象。文獻(xiàn)[19]中所采用光流多尺度直方圖(Multistage Histogram of Optical Flow,MHOF)進(jìn)行特征表示,MHOF不僅有傳統(tǒng)的HOF (Histogram of Optical Flow)表示運(yùn)動(dòng)信息的功能,也可用于空間相關(guān)信息的表示。為利用方向信息,文獻(xiàn)[20]采用具有更低維度的光流方向直方圖(Histogram of Optical Flow Orientation,HOFO)描述子來區(qū)分正常與異常事件,并在全局異常檢測中取得了較好的效果。為提取視頻幀中存在運(yùn)動(dòng)的局部區(qū)域特征,文獻(xiàn)[21]在對視頻序列進(jìn)行時(shí)空網(wǎng)格分割后,采用概率主成分分析(Mixture of Probabilistic Principle Component Analyzers,MPPCA)得到每個(gè)時(shí)空網(wǎng)格內(nèi)的光流信息,并用于時(shí)空MRF模型的建立從而檢測出視頻中的異常?;诠饬鞣椒?,研究人員采用兩個(gè)新穎的局部運(yùn)動(dòng)視頻描述子SL-HOF(Spatially Localized Histogram of Optical Flow)和ULGP-OF(Uniform Local Gradient Pattern based Optical Flow)對視頻特征進(jìn)行提取,SL-HOF描述符可以捕捉到時(shí)空興趣塊中三維局部區(qū)域變化的空間分布信息,ULGP-OF描述符融合了經(jīng)典的2D紋理描述符LGP(Local Gradient Pattern)和光流算法,在定位視頻前景信息時(shí)較普通光流算法更為準(zhǔn)確,然后采用OCELM(One-class Extreme Learning Machine) 對兩種描述符進(jìn)行學(xué)習(xí)從而得到用于異常事件檢測的正常事件模型[22],這類基于特征塊的通用型框圖如圖4所示。

圖4 基于時(shí)空興趣塊進(jìn)行特征提取框圖示例
Fig.4 Block diagram example for feature extraction for spatial-temporal interest blocks

為實(shí)現(xiàn)實(shí)時(shí)的視頻異常檢測,Roberto Leyva等人采用了二進(jìn)制特征行為表示的異常檢測方法。首先對輸入視頻幀進(jìn)行前景、時(shí)間梯度(temporal gradients)計(jì)算,利用時(shí)間梯度、目標(biāo)快速分割 (Fast Accelerated Segmentation Test,F(xiàn)AST)檢測到時(shí)空興趣點(diǎn)(Spatial Temporal Interest Points,STIPs)并采用二進(jìn)制小波差異(Binary Wavelets Differences,BWD)對時(shí)空興趣點(diǎn)進(jìn)行編碼,采用GMM(Gaussian Mixture Model)分別對前景占用率、漢明距離和直方圖投票機(jī)制進(jìn)行建模從而完成對異常的檢測與定位,該方法基本框圖如圖5所示[23]。

圖5 基于單幀特征框圖示例
Fig.5 Examples of feature method block diagram for single frame extraction

物體在運(yùn)動(dòng)時(shí)會(huì)產(chǎn)生運(yùn)動(dòng)的軌跡,而運(yùn)動(dòng)軌跡中包含運(yùn)動(dòng)物體的長度、像素、位置和運(yùn)動(dòng)程度等信息[23]。文獻(xiàn)[24]中將提取的不同長度、時(shí)間變化帶有噪聲的軌跡進(jìn)行分層聚類,對每類進(jìn)行建模從而表示正常異常事件。近年來基于目標(biāo)時(shí)空軌跡的新穎異常檢測方法層出不窮,例如文獻(xiàn)[25]提出基于軌跡稀疏重構(gòu)的異常檢測方法,在視頻場景中提取最小二乘三次樣條曲線近似值(the Least-squares Cubic Spline Curves Approximation,LCSCA)特征構(gòu)成字典完成異常檢測任務(wù)。Coar S等人認(rèn)為無論是基于軌跡的方法還是基于像素的方法都具有局限性,不可能檢測到所有的異常行為,軌跡特征可以檢測出速度和方向的異常,但是類似于跳躍或打斗這類與人的部分肢體運(yùn)動(dòng)相關(guān)的異常動(dòng)作很難從時(shí)空軌跡的分析中發(fā)現(xiàn),同樣,基于像素的方法可能無法探測到游蕩的恐怖分子或小偷這類與人的整體運(yùn)動(dòng)有關(guān)的異常,因此作者融合兩種方法采用斷開軌跡高效地高層次地表示軌跡,既可以檢測到物體的速度和方向也可以表示每個(gè)物體更為復(fù)雜的局部運(yùn)動(dòng),在準(zhǔn)確檢測異常事件的同時(shí)減少了計(jì)算負(fù)荷[26]。文獻(xiàn)[27]提出基于軌跡優(yōu)化的異?;顒?dòng)檢測系統(tǒng),系統(tǒng)結(jié)構(gòu)分為兩層:在第一級低級別過程中,采用基于軌跡的方法產(chǎn)生軌跡信息進(jìn)行實(shí)時(shí)異常處理,并對可疑事件進(jìn)行實(shí)時(shí)檢測分析并實(shí)時(shí)報(bào)警;在第二級中,采用密集視頻分析算法檢測可疑事件是否由實(shí)際人觸發(fā)。

2.2 深度特征行為表示

通過手動(dòng)設(shè)計(jì)提取的人工設(shè)計(jì)特征的方法盡管有眾多的理論依據(jù)但是人為因素太強(qiáng),不能客觀地表示行為,其次通過這種方式提取的特征往往依賴于數(shù)據(jù)庫,也就是說手動(dòng)特征可能只對某些數(shù)據(jù)庫表現(xiàn)較好而對其它的數(shù)據(jù)庫并不一定可以獲得同樣的效果。當(dāng)采用直接對數(shù)據(jù)進(jìn)行學(xué)習(xí)的方式進(jìn)行深度特征提取時(shí),只需設(shè)計(jì)特征提取的規(guī)則,例如神經(jīng)網(wǎng)絡(luò)中通過人為設(shè)計(jì)網(wǎng)絡(luò)模型的結(jié)構(gòu)及學(xué)習(xí)的規(guī)則獲得深度模型參數(shù)并提取深度特征,因此得到的特征往往無法解釋具體每一維的物理含義。近年來,深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展為計(jì)算機(jī)視覺領(lǐng)域的各項(xiàng)研究提供了新思路,然而盡管普通的卷積神經(jīng)網(wǎng)絡(luò)對二維圖像的特征學(xué)習(xí)有很好的效果,但是對于三維的視頻特征學(xué)習(xí)有一定的局限性。為打破這一局限,Simonyan Karen等人提出了采用并行的雙流網(wǎng)絡(luò)分別對RGB圖片的空間信息以及視頻序列的光流圖進(jìn)行特征學(xué)習(xí)及行為判別,最后融合兩個(gè)網(wǎng)絡(luò)的判別結(jié)果得到最終的動(dòng)作分類,實(shí)驗(yàn)證明雙流網(wǎng)絡(luò)對于特征提取及行為表示具有一定的效果[28]。研究者基于雙流網(wǎng)絡(luò)也做了一系列的改良并得到了多種雙流網(wǎng)絡(luò)衍生算法,如convolutional two-stream network[29],temporal segment networks[30]以及基于加權(quán)融合的STN[31]等?;陔p流網(wǎng)絡(luò)是通過對單幀進(jìn)行二維特征學(xué)習(xí)并采用光流表達(dá)幀間關(guān)系并作為時(shí)域信息的彌補(bǔ),Tran Du等提出了深度3維卷積神經(jīng)網(wǎng)絡(luò)(3 Dimension Convolution Network,C3D)將視頻的連續(xù)幀即視頻塊作為輸入簡單高效地獲得時(shí)域空域特征,將深度卷積網(wǎng)絡(luò)的方法引入解決視頻中的分類問題[32]?;谶@一方法Zhou Shifu等人使用三維卷積神經(jīng)網(wǎng)絡(luò)解決了視頻中的異常行為檢測和定位,將整個(gè)視頻中可能存在的時(shí)空興趣塊不經(jīng)任何處理直接作為C3D的輸入進(jìn)行特征學(xué)習(xí)[8]。同時(shí),Sabokrou Mohammad等人采用級聯(lián)三維神經(jīng)網(wǎng)絡(luò)的方法,由三維自動(dòng)編碼器檢測出時(shí)空興趣塊送入C3D中進(jìn)行訓(xùn)練完成對異常進(jìn)行快速的檢測和定位[33]。此外,目標(biāo)檢測領(lǐng)域的深度學(xué)習(xí)經(jīng)典方法如SSD[34]、Faster-RCNN[35]、YOLO[36]等實(shí)現(xiàn)了目標(biāo)檢測定位與分類的同步完成,為異常目標(biāo)檢測提供了新的思路。Xu Huijuan等人將Fater-RCNN的思路應(yīng)用到時(shí)域的動(dòng)作定位,并結(jié)合C3D網(wǎng)絡(luò)得到R-C3D網(wǎng)絡(luò),該網(wǎng)絡(luò)通過共享Progposal generation和Classification網(wǎng)絡(luò)的C3D參數(shù)能夠以更快的速度針對任意長度視頻、任意長度行為進(jìn)行端到端的檢測[37]。類似對C3D網(wǎng)絡(luò)進(jìn)行改進(jìn)的還有CDC網(wǎng)絡(luò),該網(wǎng)絡(luò)首次將卷積、反卷積操作應(yīng)用到行為檢測領(lǐng)域,在實(shí)現(xiàn)端到端學(xué)習(xí)的同時(shí),做到了對每一幀的預(yù)測(per-frame action labeling),取得了較好的效果[38]。

3 異常行為識別分類方法

針對視頻監(jiān)控中異常行為(全局異常,局部異常)的檢測問題作為計(jì)算機(jī)視覺中的具有挑戰(zhàn)性的任務(wù)近年來已有重要的進(jìn)展,根據(jù)學(xué)習(xí)過程中需要用到的樣本類型,可將分類的方法歸納為監(jiān)督、半監(jiān)督和無監(jiān)督三種方式,常用的異常行為識別分類方法如圖6所示。

圖6 異常行為分類方法框圖
Fig.6 Block diagram of abnormal behavior classification

3.1 有監(jiān)督異常行為分類方法

監(jiān)督的分類方法需要在建模之前對所有的正常數(shù)據(jù)和異常數(shù)據(jù)都進(jìn)行標(biāo)簽標(biāo)記,屬于傳統(tǒng)的分類問題,對于視頻異常檢測來說是二分類的問題,經(jīng)典監(jiān)督分類方法包括支持向量機(jī)(Support Vector Machine,SVM),例如文獻(xiàn)[39]提出的基于遺傳算法特征選擇與支持向量機(jī)(SVM)訓(xùn)練混合優(yōu)化模型。該方法為在短的時(shí)間內(nèi)快速獲得最優(yōu)特征子集和SVM參數(shù),提高監(jiān)控視頻異常檢測的準(zhǔn)確性,采用自適應(yīng)模擬退火遺傳算法(Adaptive Genetic Simulated Annealing Algorithm,ASAGA)進(jìn)行特征選擇。ASAGA通過模擬退火算法(Simulated Annealing Algorithm,SA)的局部搜索能力大大改善了遺傳算法(Genetic Algorithm,GA)的慢收斂和復(fù)雜度高的問題。除此之外,Kim H等人基于測地線圖 (geodesic graph)和支持向量機(jī)(SVM)分類器對人體行為異常識別進(jìn)行研究,該算法根據(jù)對人體關(guān)節(jié)的估測完成異常檢測,然而異常檢測效果對被檢測到的人體區(qū)域較為敏感[40]。近年,深度學(xué)習(xí)和云計(jì)算技術(shù)的飛速發(fā)展為計(jì)算機(jī)視覺領(lǐng)域取得突破性的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)作為最新監(jiān)督學(xué)習(xí)方法被廣泛應(yīng)用于擁擠場景中的異常行為檢測研究,如文獻(xiàn)[8,33]都是采用監(jiān)督的方法先對所提取的含有運(yùn)動(dòng)信息的時(shí)空興趣塊進(jìn)行標(biāo)簽標(biāo)記,并作為三維卷積神經(jīng)網(wǎng)絡(luò)的連續(xù)幀輸入進(jìn)行訓(xùn)練,最后由訓(xùn)練得到的模型對測試集中的時(shí)空興趣塊進(jìn)行異常判別,這種基于卷積神經(jīng)網(wǎng)絡(luò)的視頻異常檢測方法很大程度上提升了異常檢測的速度和效率。

管棚灌漿孔封孔應(yīng)采用“機(jī)械壓漿封孔法”或“壓力灌漿封孔法”,用濃漿(0.5:1)全孔一次性封孔。封孔壓力為該孔最大灌漿壓力。如該段灌漿結(jié)束為最濃一級水灰比(0.6:1)時(shí),可不進(jìn)行置換濃漿,直接封孔。

3.2 半監(jiān)督異常行為分類方法

采用半監(jiān)督方法進(jìn)行訓(xùn)練時(shí)只需要對正常的視頻數(shù)據(jù)進(jìn)行標(biāo)簽標(biāo)記,根據(jù)分類原理半監(jiān)督方法可分為基于規(guī)則和基于模型的方法?;谝?guī)則的半監(jiān)督方法通過對只含有正常樣本訓(xùn)練集進(jìn)行規(guī)則學(xué)習(xí),將測試階段任一不符合此規(guī)則的樣本判為異常,最常用的基于規(guī)則的半監(jiān)督分類方法是稀疏表示,例如文獻(xiàn)[41]提出一種基于規(guī)則的稀疏編碼方法來檢測異常行為,雖然這種方法可在較短的執(zhí)行時(shí)間(每秒150幀)內(nèi)取得完成異常檢測,但其效果對閾值選擇過于敏感。Zhu Xiaobin 等人將稀疏重構(gòu)代價(jià)引入正常字典衡量測試樣本中的異常,該方法在稀疏重構(gòu)的每個(gè)主要成分引入先驗(yàn)權(quán)重,與其他的方法相比有更好的魯棒性[42]。為了克服訓(xùn)練樣本的缺乏,實(shí)現(xiàn)更精確的檢測,文獻(xiàn)[43]提出動(dòng)態(tài)更新的雙稀疏字典表示方法,該方法從只包含正常樣本的訓(xùn)練樣本集得到正常字典,然后通過稀疏表示方法和正常字典對測試樣本進(jìn)行分類,如果分類結(jié)果是正常,則將這一特征加入到正常字典進(jìn)行字典的動(dòng)態(tài)更新,如果分類結(jié)果為異常,則將這一特征動(dòng)態(tài)更新到異常字典中。目前大部分用于解決異常分類問題的稀疏表示方法在構(gòu)造字典時(shí)并沒有將結(jié)構(gòu)信息考慮在內(nèi)此外,因此,Yuan Yuan等人通過正常數(shù)據(jù)訓(xùn)練得到結(jié)構(gòu)字典,并在測試階段根據(jù)所提出的參考事件的概念即當(dāng)將正常事件作為參考事件進(jìn)行訓(xùn)練時(shí),相較于異常事件,正常事件與參考事件具有更強(qiáng)的相似性,將無法用結(jié)構(gòu)字典表示的行為判為異常行為[44]?;谀:?guī)則,Albusac等人通過自動(dòng)動(dòng)態(tài)地設(shè)置正態(tài)分量的權(quán)重提高異常檢測的效率[45]。Chen Zhengying等在視頻異常事件檢測研究中采用基于模糊聚類方法和多個(gè)自動(dòng)編碼器的框架,該框架利用模糊聚類對運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)軌跡進(jìn)行提取和分組并使用訓(xùn)練階段聚類后的編碼實(shí)現(xiàn)了視頻中的異常行為檢測與定位[46]。

在基于模型的方法中,通常采用正常樣本進(jìn)行模型構(gòu)造,由于異常樣本總是偏離于由正常樣本構(gòu)成的模型,因此在測試階段時(shí)通常將偏離于模型的樣本判為異常。常用的模型有:高斯混合模型(Gaussian Mixture Model,GMM)、馬爾可夫隨機(jī)場(Markov Random Field,MRF)、隱馬爾可夫模型(Hidden Markov Model,HMM)。如文獻(xiàn)[17]利用人群分布信息和人群速度信息估計(jì)由正常行為構(gòu)建的高斯混合模型的參數(shù),并對異常人群行為進(jìn)行檢測。隱馬爾可夫模型作為標(biāo)準(zhǔn)馬爾可夫模型的擴(kuò)展是在標(biāo)準(zhǔn)馬爾可夫模型基礎(chǔ)上添加了可觀測狀態(tài)集合以及這些狀態(tài)與隱含狀態(tài)之間的概率關(guān)系。Weiya R等人通過隱馬爾可夫模型,將提取的軌跡信息作為衡量標(biāo)準(zhǔn)來判別測試樣本中的時(shí)空信息塊是否存在異常[47]。文獻(xiàn)[21]中采用時(shí)空MRF模型完成對視頻的半監(jiān)督異常檢測,該方法首先將視頻序列在時(shí)空內(nèi)進(jìn)行網(wǎng)格分割,并采用概率主成分分析(Mixture of Probabilistic Principal Component Analyzers,MPPCA)獲取網(wǎng)格的局部光流信息并對應(yīng)到MRF圖的節(jié)點(diǎn),通過MPPCA模型計(jì)算MRF模型參數(shù)對異常事件進(jìn)行檢測,同時(shí)完成對MPPCA和MRF的參數(shù)更新。Hajananth N等人在訓(xùn)練階段采用高斯混合模型進(jìn)行聚類,在測試階段采用基于馬爾可夫的隨機(jī)場的高斯混合模型(GMM-MRF)對測試樣本進(jìn)行判別,取得了較好的異常檢測效果[18]。此外,文獻(xiàn)[48]提出基于社會(huì)力模型的視頻異常行為檢測和定位方法為異常檢測研究提供了新思路。

3.3 無監(jiān)督異常行為分類方法

無監(jiān)督的檢測方法屬于典型的聚類問題,無需事先獲得任何的先驗(yàn)知識,單獨(dú)依靠樣本數(shù)據(jù)之間的連接完成正常事件的聚類和建模,然后把小概率的或相似度非常低的事件看作異常事件,如此完成異常判斷。Alvar M等人采用主集(dominant set)的無監(jiān)督學(xué)習(xí)框架實(shí)現(xiàn)了高效的異常行為檢測,這種方法與其他聚類方法相比具有更好的魯棒性[49]。此外,文獻(xiàn)[41,50]采用非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)對特征空間學(xué)習(xí),并使用支持向量數(shù)據(jù)(Support Vector Data Descryiption,SVDD)在特征空間通過聚類程度檢測出異常。在深度學(xué)習(xí)方法中生成式對抗網(wǎng)絡(luò)可以實(shí)現(xiàn)無監(jiān)督的學(xué)習(xí),Mahdyar Ravanbakhsh等人通過生成式對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)中生成模型和判別模型之間的博弈實(shí)現(xiàn)監(jiān)控視頻中的異常行為檢測與定位。該方法通過生成式對抗網(wǎng)絡(luò)對正常場景的幀圖像和對應(yīng)的光流圖的訓(xùn)練得到場景中正常行為的內(nèi)部表示,并在測試階段將測試數(shù)據(jù)的外觀表示和運(yùn)動(dòng)表示與正常數(shù)據(jù)進(jìn)行比較,由于存在異常的區(qū)域無論是外觀表示或是運(yùn)動(dòng)表示都與正常數(shù)據(jù)有很大的不同,通過計(jì)算局部符合程度檢測出異常所在區(qū)域[51]。

3.4 異常行為分類方法優(yōu)缺點(diǎn)分析

基于監(jiān)督的視頻異常檢測方法易于操作和理解,可以充分利用先驗(yàn)知識控制訓(xùn)練樣本的選擇,并通過反復(fù)檢驗(yàn)訓(xùn)練樣本提高異常檢測的精度如SVM[39]C3D[8,33]。然而這類基于監(jiān)督的方法主觀因素較強(qiáng),需要花費(fèi)大量的人力和時(shí)間對訓(xùn)練樣本進(jìn)行選擇和評估,同時(shí)這種方法無法自動(dòng)調(diào)整異常的數(shù)據(jù)并自適應(yīng)的更新異?;蛘咦詣?dòng)生成新的異常模式,因此往往對應(yīng)用場景具有局限性即對于不同的場景需要重新設(shè)計(jì)檢測算法?;谝?guī)則的半監(jiān)督檢測方法如稀疏表示[41-44]易于操作,但計(jì)算復(fù)雜且需要強(qiáng)大的內(nèi)存。基于模型的半監(jiān)督分類方法運(yùn)算速度快、模型簡單容易建立,但是模型的分類效果對多個(gè)參數(shù)敏感,同時(shí)這種方法很容易將訓(xùn)練中沒有出現(xiàn)過的正常數(shù)據(jù)錯(cuò)判為異常[17-18,21,47-48]。無監(jiān)督的檢測方式無需獲得任何先驗(yàn)知識,運(yùn)算快捷簡便,但需通過大量的分析和處理才能得到可靠的分類結(jié)果,例如GAN網(wǎng)絡(luò)盡管可以通過無監(jiān)督的方式得到視頻場景中正常行為的內(nèi)部表示,但是最終測試數(shù)據(jù)中異常目標(biāo)的檢測與定位還需要靠與正常數(shù)據(jù)的符合程度分析來獲得[51]。

4 視頻異常檢測數(shù)據(jù)集

近年來最常用的數(shù)據(jù)集有UCSD行人異常數(shù)據(jù)集、UMN全局恐慌數(shù)據(jù)集、Hockey Fight暴力行為數(shù)據(jù)集[6]和LV數(shù)據(jù)集[52],本節(jié)將介紹這幾個(gè)標(biāo)準(zhǔn)實(shí)驗(yàn)數(shù)據(jù)集,各數(shù)據(jù)集中正常及異常示例如圖7所示。

UCSD數(shù)據(jù)集分為兩部分Ped1和Ped2,二者都是由一個(gè)安裝在固定高度的攝像機(jī)俯瞰行人獲得的視頻,數(shù)據(jù)集中的人群密度隨著時(shí)間的推移不斷變化。Ped1中包含34個(gè)用于訓(xùn)練的正常視頻序列及36個(gè)用于測試的含有異常的視頻序列,其中每個(gè)視頻序列的幀長都為200,每幀分辨率為158×238。Ped1主要描繪的是人群在視頻畫面中的垂直方向移動(dòng),人群走向主要為走向和遠(yuǎn)離攝像頭,具有一定的透視畸變。Ped2描繪的是人群的水平移動(dòng),包含16個(gè)正常的訓(xùn)練序列和12個(gè)包含異常的測試視頻序列,每個(gè)序列的幀長由120到170不等,每幀的分辨率為360×240。UCSD數(shù)據(jù)集中訓(xùn)練樣本只含正常行為,測試集中的某一幀中可能不存在、存在一個(gè)或多個(gè)異常行為,其中異常類型主要有:自行車、滑冰、小型汽車,輪椅等。Ped1中的物體分辨率較低給識別造成一定的難度而Ped2中的遮擋問題比較嚴(yán)重,因此,UCSD是一個(gè)具有挑戰(zhàn)性的擁擠場景下的局部異常數(shù)據(jù)集。

UMN數(shù)據(jù)集中的異常屬于全局異常,主要表現(xiàn)為恐慌、四處逃散。UMN數(shù)據(jù)集總時(shí)長為4分17秒,幀速率大小為30幀/秒,每幀大小皆為320×240。UMN數(shù)據(jù)集含有室內(nèi)室外三種場景下的11個(gè)視頻片段,包括兩個(gè)彩色草坪場景片段,六個(gè)黑白長廊視頻片段及三個(gè)彩色廣場場景片段,視頻內(nèi)容皆為正常的行走或游蕩從某一幀忽然開始四處逃散直至消失在視頻畫面中。

Hockey Fight數(shù)據(jù)集[6]描述的是曲棍球比賽中的暴力斗毆異常行為,共分為兩個(gè)部分:暴力斗毆及正常的曲棍球比賽,兩部分分別含有500個(gè)獨(dú)立的視頻片段,每個(gè)視頻序列的幀速率為25幀/秒,每幀大小為360×288。

圖7 部分?jǐn)?shù)據(jù)庫正常、異常幀示例
Fig.7 Examples of normal and abnormal frames in some databases

5 性能評估準(zhǔn)則

異常檢測性能評估的目的是在衡量某一異常檢測方法效果的基礎(chǔ)上將這一方法與其他各類方法進(jìn)行比較,如此驗(yàn)證新方法的先進(jìn)性和可靠性。關(guān)于視頻監(jiān)控系統(tǒng)的評估項(xiàng)目有很多,例如,由美國國家標(biāo)準(zhǔn)與技術(shù)研究院(National Institute of Standards and Technology,NIST)發(fā)起的全球視頻內(nèi)容分析比賽TRECVID(TREC Video Retrieval Evaluation)采用SED(Surveillance Event Detection)評估監(jiān)控系統(tǒng)實(shí)時(shí)檢測的效果[53]。

在視頻異常檢測領(lǐng)域,兩個(gè)常用的異常檢測評估標(biāo)準(zhǔn)是等誤差率(Equal Error Rate,EER)和ROC曲線下的面積AUC(Area Under Curve)。這兩個(gè)標(biāo)準(zhǔn)來自于接收機(jī)操作特性曲線(Receiver Operating Characteristic Curve,ROC),該曲線非常適用于性能比較。等誤差率EER是ROC曲線上假陽性率FPR(False Positive Rate:正常行為被認(rèn)定為異常)與假陰性率FNR(False Negative Rate:異常行為被認(rèn)定為正常)相等的點(diǎn)即ROC曲線與ROC空間中對角線([0,1]-[1,0]連線)的交點(diǎn)。如果一個(gè)識別算法ROC曲線中的EER越小AUC越大,則表明這個(gè)方法的性能越好。

基于ROC曲線的評估標(biāo)準(zhǔn)分為三個(gè)級別:幀級準(zhǔn)則(frame level criterion),像素級準(zhǔn)則(pixel level criterion)及雙像素級準(zhǔn)則(dual pixel level criterion)。異常檢測領(lǐng)域部分優(yōu)秀方法在幀級和像素級的評估準(zhǔn)則下UCSD Ped1的實(shí)驗(yàn)效果比較如表1所示,對UCSD Ped2的實(shí)驗(yàn)效果比較如表2所示。UCSD Ped1、Ped2中雙像素級EER(β=5%)比較如表3所示。

在幀級準(zhǔn)則中,若檢測出某一幀至少含有一個(gè)異常行為則將這一幀記為異常幀,該標(biāo)準(zhǔn)僅關(guān)注異常行為的時(shí)間定位精度,不考慮異常的空間定位準(zhǔn)確度。因此,當(dāng)采用這一準(zhǔn)則進(jìn)行性能評估時(shí)可能發(fā)生假陽性的巧合預(yù)測,即在某一存在異常行為的幀中并未檢測出真實(shí)異常行為而是將某一正常行為錯(cuò)判為異常,如此巧合地將檢測結(jié)果認(rèn)定為檢測正確。

表1 UCSD Ped1中幀級和像素級EER、AUC比較
Tab.1 EER and AUC for frame and pixel level comparisons on UCSD Ped1%

算法幀級準(zhǔn)則像素級準(zhǔn)則EERAUCEERAUCCascade DNN[33]9.1—15.8—Spatial-temporal CNN[8]2485—87GMM-MRF[18]14.990.8——SR[43]2048.7——OCELM[22]1888.53368.9SLT[47]18.33——60.25GAN[51]897.43570.3Binary Feature [7]25.34—48.1—OADC-S[55]9—26—SSMF-HNC[56]10—16—

表2 UCSD Ped2中幀級和像素級EER、AUC比較
Tab.2 EER and AUC for frame and pixel level comparisons on UCSD Ped2%

算法幀級準(zhǔn)則像素級準(zhǔn)則EERAUCEERAUCCascade DNN[33]8.2—19—Spatial-temporal CNN[8]24.486—88GMM-MRF[18]4.8997.9——Mohammad Sabokrou[54]19—24—SLT[47]12.77——76.31OCELM[22]1291.31780.1GAN[51]1493.5——SSMF-HNC[56]10—17—Binary Feature[7]21.2—38.4—iHOT[57]8.59———

表3 UCSD Ped1、Ped2中雙像素級EER比較
Tab.3 EER for dual level comparisons on UCSD Ped1 and Ped2%

算法UCSD Ped1UCSD Ped2Mohammad Sabokrou[54]—27.5Cascade DNN[33]24.523.8

在像素級準(zhǔn)則中,只有將某一幀中所有真實(shí)異常行為所在像素塊的40%以上被正確檢測到,這一幀才可被認(rèn)定為有效異常檢測的異常幀,否則視為判錯(cuò)。像素級標(biāo)準(zhǔn)需要對異常檢測的時(shí)間和空間定位精度進(jìn)行評估,因此更為嚴(yán)格和詳細(xì),評估結(jié)果也更為可靠。在采用這一準(zhǔn)則進(jìn)行性能評估時(shí),有研究人員采用異常檢測率(Rate of Detection,RD)代替EER對方法的異常檢測效果進(jìn)行評估,異常檢測率越大方法的異常檢測效果越好。在實(shí)際評估時(shí),若某一幀中被檢測到多處存在異常的區(qū)域,其中只有一處真實(shí)標(biāo)簽為異常其他區(qū)域皆為幸運(yùn)猜測的錯(cuò)判,在采用幀級和像素級準(zhǔn)則進(jìn)行評估時(shí)依舊將這一判別視為檢測正確,因此,研究者引入了雙像素級評估準(zhǔn)則[45,54]對異常檢測效果進(jìn)行更為準(zhǔn)確、嚴(yán)格的評估。

在雙像素級準(zhǔn)則中若某一幀被視為異常幀需滿足:1)這一幀滿足像素級準(zhǔn)則標(biāo)準(zhǔn)下的異常判定;2)被檢測為異常的區(qū)域至少β%(如10%)真實(shí)標(biāo)簽為異常。這一準(zhǔn)則不僅要求在時(shí)間和空間上對異常進(jìn)行準(zhǔn)確的檢測和定位對于假陽性錯(cuò)判也十分敏感,相較于其他準(zhǔn)則,該準(zhǔn)則對異常事件檢測的準(zhǔn)確度的檢測更為可靠。

6 結(jié)論

本文討論了視頻監(jiān)控系統(tǒng)的不同層次,即運(yùn)動(dòng)目標(biāo)檢測與前景提取、特征提取和行為表示以及異常行為識別分類方法,首先對運(yùn)動(dòng)目標(biāo)檢測、特征提取與描述常用方法進(jìn)行總結(jié),然后針對行為建模的不同分類方法進(jìn)行了歸納,最后討論了視頻異常檢測研究常用的數(shù)據(jù)集以及異常檢測性能的評估標(biāo)準(zhǔn)。

近年來,視頻異常檢測技術(shù)快速發(fā)展,取得不小的進(jìn)展,但這項(xiàng)技術(shù)存在局限,主要的局限有以下四種:1) 在復(fù)雜場景下,選擇合適的運(yùn)動(dòng)目標(biāo)的特征尤其是異常目標(biāo)特征是一項(xiàng)十分重要且困難的任務(wù)。2) 相對于正常事件可用于訓(xùn)練的異常事件數(shù)量較少。3)大多數(shù)異常行為識別算法只針對單個(gè)攝像機(jī),與實(shí)際情況不符,因此研究人員將多個(gè)攝像機(jī)捕捉移動(dòng)對象的不同視圖將組合起來進(jìn)行下一步的研究,盡管這種方法效果較好,但是過于復(fù)雜耗時(shí)并不適合實(shí)時(shí)應(yīng)用。4)某行為是否異常取決于運(yùn)動(dòng)發(fā)生的場景、動(dòng)作的時(shí)間和地點(diǎn),因此若將某方法應(yīng)用到另一場景時(shí)需要重新進(jìn)行訓(xùn)練建模。隨著深度學(xué)習(xí)和云計(jì)算技術(shù)的發(fā)展,若將包括所有可能場景的大量數(shù)據(jù)投入訓(xùn)練,得到具有強(qiáng)大學(xué)習(xí)能力以及場景適應(yīng)力的模型,將會(huì)使異常檢測技術(shù)得到歷史性的突破。

猜你喜歡
時(shí)空像素特征
根據(jù)方程特征選解法
像素前線之“幻影”2000
跨越時(shí)空的相遇
離散型隨機(jī)變量的分布列與數(shù)字特征
鏡中的時(shí)空穿梭
“像素”仙人掌
不忠誠的四個(gè)特征
玩一次時(shí)空大“穿越”
éVOLUTIONDIGAE Style de vie tactile
時(shí)空之門
大庆市| 盖州市| 莆田市| 灌阳县| 古田县| 巴里| 遂宁市| 自贡市| 连城县| 万山特区| 塔河县| 崇阳县| 旬邑县| 如皋市| 泰宁县| 韶关市| 仁怀市| 普定县| 来凤县| 登封市| 蒙城县| 阿城市| 柯坪县| 大理市| 宜丰县| 扎鲁特旗| 农安县| 揭东县| 高碑店市| 江门市| 阿图什市| 鲁甸县| 赞皇县| 蒙阴县| 梓潼县| 浮山县| 永顺县| 探索| 图木舒克市| 江源县| 同德县|