張明軍 俞文靜 袁志 黃志金
摘要:由于其實(shí)用價(jià)值和理論價(jià)值,目標(biāo)檢測是智能視頻監(jiān)控技術(shù)研究的重點(diǎn),也是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)研究熱點(diǎn),引起了研究者廣泛關(guān)注。本文根據(jù)視頻圖像背景和前景目標(biāo)的動(dòng)或靜的情況進(jìn)行分類,將目標(biāo)檢測問題分為基于背景建模的目標(biāo)檢測和基于目標(biāo)建模的目標(biāo)檢測兩類。對(duì)于每類問題,分別全面綜述了該問題的發(fā)展、常用算法模型及當(dāng)前的研究成果等,然后討論了對(duì)各類算法模型的評(píng)測指標(biāo)、評(píng)測數(shù)據(jù)集和評(píng)測結(jié)果,最后總結(jié)了當(dāng)前這兩類目標(biāo)檢測方法存在的不足以及給出了對(duì)未來發(fā)展的思考和展望。
關(guān)鍵詞:目標(biāo)檢測;背景建模;目標(biāo)建模;智能視頻監(jiān)控
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.3969/j.issn.1003-6970.2016.04.011
0 前言
視頻監(jiān)控是當(dāng)前社會(huì)安防領(lǐng)域的重要組成部分,隨著監(jiān)控?cái)z像頭的快速增加,海量的監(jiān)控視頻數(shù)據(jù)的處理便成了一個(gè)重大問題。隨著計(jì)算機(jī)視覺和人工智能的發(fā)展,智能視頻監(jiān)控技術(shù)應(yīng)運(yùn)而生,就是為了解決海量視頻分析和處理的問題,并隨著社會(huì)對(duì)安全的重視,該技術(shù)也成了當(dāng)前的研究熱點(diǎn)。目標(biāo)檢測是從視頻或者圖像中提取出運(yùn)動(dòng)前景或感興趣目標(biāo),也就是確定當(dāng)前時(shí)刻目標(biāo)在當(dāng)前幀的位置和所占大小。因此目標(biāo)檢測是智能視頻監(jiān)控技術(shù)的基礎(chǔ),其性能的好壞直接影響了后續(xù)目標(biāo)跟蹤、目標(biāo)分類與目標(biāo)識(shí)別等算法的性能。本文將對(duì)目標(biāo)檢測的常見模型和方法進(jìn)行分析和總結(jié)。
1 目標(biāo)檢測問題的分類
從對(duì)象處理的過程來看,主要是從圖像的背景和前景目標(biāo)進(jìn)行處理,按照?qǐng)D像背景和前景目標(biāo)的不同情況可以將目標(biāo)檢測分為幾類子問題,如圖1所示。解決這幾類問題的方法可以總結(jié)為2大類,分別是基于背景建模的方法和基于目標(biāo)建模的方法?;谝曨l的序列圖像中,人們對(duì)其中運(yùn)動(dòng)的物體會(huì)更感興趣,往往也包含主要信息,因此基于視頻的目標(biāo)檢測主要是運(yùn)動(dòng)目標(biāo)檢測,而這一類目標(biāo)檢測則主要使用基于背景建模的方法。基于背景建模的方法不但要求目標(biāo)要保持運(yùn)動(dòng),并且要求背景盡可能保持不變(背景靜止),當(dāng)背景發(fā)生變化時(shí),則讓背景誤檢為目標(biāo),小幅度的背景變化尚可通過方法的改進(jìn)加以修正,但大幅度的背景變化則讓該方法無能為力,基于目標(biāo)建模的方法卻能解決這個(gè)問題?;谀繕?biāo)建模的方法不受應(yīng)用場景的限制,不但可以對(duì)靜態(tài)場景視頻進(jìn)行目標(biāo)檢測,也可以檢測單幅靜態(tài)圖像或動(dòng)態(tài)場景視頻中的目標(biāo)。
基于背景建模和目標(biāo)建模的方法之間的比較如表1所示。
2 基于背景建模的目標(biāo)檢測
2.1 幀間差分法
幀間差分法(Frame difference method)主要考慮相鄰視頻幀之間背景相對(duì)固定,而運(yùn)動(dòng)目標(biāo)則有位置變化,那么相鄰幀進(jìn)行相減,背景部分差值接近于0(理想狀態(tài)為0),而運(yùn)動(dòng)區(qū)域的差值則較大。設(shè)定一個(gè)閾值對(duì)背景進(jìn)行過濾,則提取到運(yùn)動(dòng)目標(biāo)。其數(shù)學(xué)模型如下:
(1)
(2)其中,It(x,y)It(x,y)表示t時(shí)刻像素點(diǎn)(x,y)的灰度值,It-1(x,y)表示t-1時(shí)刻像素點(diǎn)(x,y)的灰度值,Dt(x,y))為提取的運(yùn)動(dòng)目標(biāo)的二值圖像,T為閾值。
二幀幀間差分法計(jì)算量小、實(shí)時(shí)性強(qiáng),但檢測的目標(biāo)不完整,存在“空洞”,位置不夠精確,在運(yùn)動(dòng)方向上目標(biāo)被拉伸。為了改進(jìn)二幀幀間差分法的不足,提出了三幀幀間差分法,其主要思想是對(duì)前后兩次差分圖像進(jìn)行“與”操作。
2.2 背景減除法
背景減除法(Background subtraction method)是用當(dāng)前幀與背景圖像或背景模型進(jìn)行差分,對(duì)結(jié)果進(jìn)行處理后得到運(yùn)動(dòng)目標(biāo)區(qū)域。其數(shù)學(xué)模型如下:
(3)
(4)其中It(x,y)為視頻圖像序列中t時(shí)刻的圖像,Bt(x,y)為t時(shí)刻的背景圖像。式(4)為背景圖像的更新,其中α為背景更新率。對(duì)△It(x,y)進(jìn)行閾值處理,可以得到運(yùn)動(dòng)目標(biāo)區(qū)域的二值圖像Dt(x,y),同式(2)。
由上可知,只要背景不變化,背景減除法的目標(biāo)檢測效果很好。但是,由于背景可能存在光照變化、背景擾動(dòng)以及由于攝像機(jī)抖動(dòng)導(dǎo)致的小幅度運(yùn)動(dòng)等影響,背景都會(huì)隨著時(shí)間而發(fā)生變化,所以怎樣定義背景和更新背景是該方法的難點(diǎn)和關(guān)鍵。研究者們提出了大量背景建模方法,如中值濾波、均值濾波、線性濾波、基于碼本的模型、非參數(shù)模型、隱馬爾科夫模型、Vibe方法、混合高斯模型(Gaussian Mixture Model,GMM)等。其中,GMM是目前普遍應(yīng)用的一種背景建模方法。為了改善一些復(fù)雜場景的目標(biāo)檢測效果,如去除“鬼影”和“陰影”等,研究者們對(duì)原有背景建模算法進(jìn)行兩個(gè)方面的改進(jìn):一是對(duì)算法模型進(jìn)行改進(jìn),以及多種算法結(jié)合并利用各自優(yōu)勢進(jìn)行優(yōu)化;二是利用算法提取目標(biāo)之后再對(duì)分割目標(biāo)結(jié)果進(jìn)行優(yōu)化。
3 基于目標(biāo)建模的目標(biāo)檢測
3.1 滑動(dòng)窗口策略的一般框架
基于目標(biāo)建模的目標(biāo)檢測一般采用滑動(dòng)窗口的策略,即通過訓(xùn)練好的模板在在圖像多個(gè)尺度上進(jìn)行滑動(dòng)窗口掃描,判斷各窗口是目標(biāo)還是背景從而獲取目標(biāo)。與背景建模的目標(biāo)檢測不同的是,該方法不能提取目標(biāo)輪廓,而是一個(gè)包圍目標(biāo)的框?;诨瑒?dòng)窗口的目標(biāo)檢測的一般框架如圖2所示。其中,特征抽取關(guān)系到目標(biāo)檢測的可靠性和精度,而建立高效、準(zhǔn)確、魯棒的目標(biāo)表達(dá)模型及分類器則是窗口滑動(dòng)策略的關(guān)鍵問題。
根據(jù)建模方法不同,基于滑動(dòng)窗口的目標(biāo)檢測主要分為全局剛性模板目標(biāo)檢測模型、基于部件的目標(biāo)檢測模型、基于視覺詞包的目標(biāo)檢測模型和深度學(xué)習(xí)模型等。
3.2 全局剛性模板目標(biāo)檢測模型
通過固定的窗口大小和特征對(duì)目標(biāo)進(jìn)行全局匹配,因此目標(biāo)需要?jiǎng)傂圆蛔?,?duì)形變目標(biāo)則不能很好的進(jìn)行檢測。典型的算法模型為Dalai和Triggs提出的HOG(HistogramsofOrientedGradients)模型。HOG是梯度方向直方圖特征,其核心思想是局部目標(biāo)的外形能夠被光強(qiáng)梯度或邊緣方向密度分布所描述,通過將圖像劃分成小的連接單元(Cell),在每個(gè)Cell內(nèi)部進(jìn)行梯度方向統(tǒng)計(jì)得到直方圖描述。HOG整體檢測框架依然是以滑動(dòng)窗口策略為基礎(chǔ),并且使用線性分類器進(jìn)行分類。
3.3 基于部件的目標(biāo)檢測模型
基于部件的目標(biāo)檢測模型(Part-Based Model,PBM)主要研究如何利用部件獲得目標(biāo)的局部判別特征,能夠解決遮擋目標(biāo)和多姿態(tài)目標(biāo)等問題。該方法最早提出的模型是圖結(jié)構(gòu)(Pictorial Structure),它使用一系列部件以及部件間的位置關(guān)系來表示目標(biāo)。此后,在此基礎(chǔ)上先后提出了星座模型(ConstellationModel)、部件拼接模型(Patchwork of PartsModel)以及可形變部件模型(Deformable PartBased Model,DPBM)等。其中,DPBM在當(dāng)前的目標(biāo)檢測中具有重要的地位。DPBM主要由一個(gè)使用粗糙特征的全局模板和若干高分辨率(精細(xì)特征)的部件模板構(gòu)成,還提出了隱支持向量機(jī)模型(Latent variable SVM),通過隱變量來建模物體部件的空間配置,并使用判別式方法進(jìn)行訓(xùn)練優(yōu)化。
3.4 基于視覺詞包的目標(biāo)檢測模型
視覺詞包(Bag-Of-Visual Words,BOVW)是一種圖像的中層特征描述,可以看作是對(duì)圖像低層視覺特征的聚合,通過利用圖像中包含的視覺單詞的統(tǒng)計(jì)或分布來表達(dá)圖像場景內(nèi)容。BOVW是由Csurka等人于2004年首次將用于文本分類的詞包模型用于圖像物體分類而產(chǎn)生,由此出現(xiàn)了大量視覺詞包模型的研究,文獻(xiàn)對(duì)此進(jìn)行了梳理和總結(jié)。基于視覺詞包的目標(biāo)檢測則主要是通過訓(xùn)練庫中的目標(biāo)構(gòu)建一個(gè)視覺詞包,然后對(duì)于給定的圖像抽取其局部特征,在視覺詞包上投票得到該圖像基于視覺詞包的特征表達(dá),最后采用窗口滑動(dòng)策略以及SVM分類來檢測目標(biāo)。文獻(xiàn)提出基于詞包模型和顏色特征組合的食品區(qū)域檢測算法,文獻(xiàn)利用稀疏編碼的算法構(gòu)建視覺詞包來定位高分辨率遙感圖像中的飛機(jī)目標(biāo)。
3.5 基于深度學(xué)習(xí)的目標(biāo)檢測模型
深度學(xué)習(xí)(Deep Learning)是近幾年的研究熱點(diǎn),它通過多層神經(jīng)網(wǎng)絡(luò)來抽象對(duì)數(shù)據(jù)的特征表達(dá)。一個(gè)典型的基于深度學(xué)習(xí)的目標(biāo)檢測方法包括從輸入圖像上提取區(qū)域塊,用卷積神經(jīng)網(wǎng)絡(luò)計(jì)算每個(gè)區(qū)域塊的特征,最后用線性SVM分類器對(duì)每個(gè)區(qū)域塊進(jìn)行分類等步驟。文獻(xiàn)提出了基于R-CNN(Regions with Convolutional Neural Network)框架的目標(biāo)檢測方法,文獻(xiàn)從利用貝葉斯優(yōu)化的搜索算法以及懲罰CNN的不準(zhǔn)確訓(xùn)練兩個(gè)方面改進(jìn)了基于深度CNN的目標(biāo)檢測方法。
4 算法性能評(píng)測
4.1 算法評(píng)測指標(biāo)
目標(biāo)檢測算法評(píng)測通常采用查全率(Recall,R)和查準(zhǔn)率(Precision,P)來評(píng)價(jià)算法的有效性。定義TP(True Positives)為正確檢測數(shù),F(xiàn)P(FalsePositives)為誤檢數(shù),F(xiàn)N(False Negatives)為漏檢數(shù),則查全率和查準(zhǔn)率如式(5)、(6)計(jì)算。
(5)
(6)
在算法評(píng)測上總是期望P值和R值越大越好,然而這兩個(gè)值往往會(huì)出現(xiàn)矛盾,因此就需要綜合考慮這兩個(gè)值,最常見的方法就是F-Measure。F-Measure是P和R的加權(quán)調(diào)和平均,如式(7)所示。
(7)當(dāng)α=1時(shí),則有式(8),即常見的F1。
(8)可知F1綜合了P和R的結(jié)果,當(dāng)F1較高時(shí)則能說明目標(biāo)檢測方法比較有效。此外,還有一種綜合P和R的評(píng)測指標(biāo),即平均查準(zhǔn)率(Average Precision,AP)。在R曲線上進(jìn)行均勻采樣得到相應(yīng)的P值,將這些采樣得到的P值的求平均值作為AP值。
4.2 背景建模的目標(biāo)檢測算法評(píng)測
眾多學(xué)者對(duì)背景建模的各種算法都進(jìn)行了大量評(píng)測,最具代表性的評(píng)測則是Brutzer等人進(jìn)行的。他們?yōu)榱嗽u(píng)測已有的背景建模方法在不同場景下的性能,人工合成了SABS(StuttgartArtificialBackgroundSubtraction)數(shù)據(jù)集,該數(shù)據(jù)集模擬了多種復(fù)雜場景,如動(dòng)態(tài)背景、光線突變、噪聲干擾、低照度等。他們選取了9種有名的背景建模算法,并在此數(shù)據(jù)集上進(jìn)行了性能評(píng)測,結(jié)果如表2所示。表中性能指標(biāo)為F-Measure值。
對(duì)表2中9種算法的平均性能進(jìn)行統(tǒng)計(jì)如圖3所示,可知不同復(fù)雜背景對(duì)目標(biāo)檢測的影響較大,隨著場景復(fù)雜度的提升,算法性能下降較快。其中,光線變化、噪聲干擾對(duì)背景建模的運(yùn)動(dòng)目標(biāo)檢測影響較大,而目標(biāo)與背景表觀相似或目標(biāo)偽裝、視頻編碼則對(duì)運(yùn)動(dòng)目標(biāo)檢測影響較小。
4.3 目標(biāo)建模的目標(biāo)檢測算法評(píng)測
PASCAL VOC數(shù)據(jù)集是目標(biāo)檢測領(lǐng)域目前公認(rèn)的評(píng)測數(shù)據(jù)庫之一,該數(shù)據(jù)集的提出也相應(yīng)的對(duì)目標(biāo)檢測算法提出了巨大挑戰(zhàn),促進(jìn)了目標(biāo)檢測算法的快速發(fā)展。從2007年開始,PASCAL VOC數(shù)據(jù)集類別數(shù)目固定為包括飛機(jī)(airplane)、自行車(bicycle)、鳥(bird)等20類,以后每年只增加部分樣本。PASCALVOC并組織了年度競賽,吸引了大量研究者使用該數(shù)據(jù)集評(píng)測所提出的算法。我們選取了4種目標(biāo)檢測算法在PASCAL VOC 2007數(shù)據(jù)集上的評(píng)測結(jié)果如表3所示。表中性能指標(biāo)為AP值,mAP(meanAP)為AP均值。
隨著大數(shù)據(jù)和硬件技術(shù)的快速發(fā)展,也使得在更大規(guī)模的數(shù)據(jù)庫上進(jìn)行研究和評(píng)測成為必然。ImageNet便是一種大規(guī)模圖像數(shù)據(jù)庫,全庫截至2013年共有1400萬張圖像,2.2萬個(gè)類別,平均每類包含1000張圖像。除此之外,ImageNet還構(gòu)建了一個(gè)包含1000類物體120萬圖像的子集,并以此作為ImageNet競賽的數(shù)據(jù)平臺(tái),也逐漸成為計(jì)算機(jī)視覺相關(guān)算法評(píng)測的標(biāo)準(zhǔn)數(shù)據(jù)集。
5 總結(jié)及展望
基于視頻的兩類目標(biāo)檢測方法可以解決目標(biāo)檢測的不同子問題,正常情況下優(yōu)勢明顯,但在特殊場景下也存在一些不足,如基于背景建模的目標(biāo)檢測方法從復(fù)雜背景中提取前景目標(biāo)則存在較大挑戰(zhàn),基于目標(biāo)建模的目標(biāo)檢測針對(duì)不同的目標(biāo)或場景則需要訓(xùn)練不同的分類器,目標(biāo)檢測耗時(shí),難以滿足實(shí)時(shí)性等。這是因?yàn)檫@兩類目標(biāo)檢測算法都是對(duì)中低層特征進(jìn)行處理,容易受場景噪聲、目標(biāo)和場景的狀態(tài)多變、目標(biāo)類型多樣等影響。因此,研究者們依然在進(jìn)行大量研究來提高算法的效率、精度和魯棒性,其研究的方向及發(fā)展趨勢主要表現(xiàn)在以下幾個(gè)方面:
(1)研究結(jié)合場景信息和目標(biāo)狀態(tài)的分析方法,突破中低層特征的局限,構(gòu)建特征提取新算子,提高算法的實(shí)用性。
(2)研究時(shí)域、空域、頻域信息,以及不同尺度空間特征信息的結(jié)合,綜合各種互補(bǔ)的信息,提高目標(biāo)檢測的準(zhǔn)確性。
(3)研究深度學(xué)習(xí)在目標(biāo)檢測中存在的一些困難,如解釋性差、模型復(fù)雜、計(jì)算強(qiáng)度高等問題。深度學(xué)習(xí)無疑存在一些挑戰(zhàn),但其天然的強(qiáng)大數(shù)據(jù)表達(dá)能力,無疑將會(huì)在大數(shù)據(jù)量的視頻中的目標(biāo)檢測及其它視覺研究產(chǎn)生重要影響,也會(huì)將目標(biāo)檢測等推向新的高度。