侯 暢,董蘭芳
(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230027)
運(yùn)動(dòng)目標(biāo)檢測(cè)算法即根據(jù)歷史視頻幀將視頻中的每個(gè)像素點(diǎn)分類為背景或前景,以獲取運(yùn)動(dòng)目標(biāo),被廣泛應(yīng)用于視頻監(jiān)控等領(lǐng)域[1].
一種最簡(jiǎn)單的運(yùn)動(dòng)目標(biāo)檢測(cè)算法就是基于圖像灰度值,使用視頻圖像減去事先給定的背景圖像,與閾值進(jìn)行比較來(lái)獲得檢測(cè)結(jié)果.然而由于自然場(chǎng)景的動(dòng)態(tài)性(如圖像噪聲、光照變化、動(dòng)態(tài)背景以及前景目標(biāo)間歇性運(yùn)動(dòng)等),這種方法所獲取的結(jié)果通常很不理想,如何實(shí)現(xiàn)一個(gè)適用于不同場(chǎng)景的運(yùn)動(dòng)目標(biāo)檢測(cè)算法一直是該領(lǐng)域所面臨的主要挑戰(zhàn).
很多學(xué)者就該問(wèn)題進(jìn)行了大量研究,運(yùn)動(dòng)目標(biāo)檢測(cè)算法可簡(jiǎn)單分為基于采樣的、基于概率統(tǒng)計(jì)的、基于編碼本的以及基于深度學(xué)習(xí)的.早期比較偏向于使用基于統(tǒng)計(jì)或采樣的方法來(lái)解決該問(wèn)題,如Stauffer與Grimson提出使用高斯混合模型(Gaussian Mixture Model,GMM)來(lái)進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè)[2],該模型假定每個(gè)背景像素點(diǎn)顏色值都是服從概率分布的,而其概率分布函數(shù)(Probability Distribution Function,PDF)可看作一個(gè)高斯混合模型,且鄰近像素點(diǎn)間是相互獨(dú)立的,這樣輸入視頻幀中的顏色值與高斯分布均值的差值在一定范圍內(nèi)的像素點(diǎn)即為背景,反之為前景像素點(diǎn),同時(shí)使用一種期望最大化(Expectation Maximization,EM)算法來(lái)學(xué)習(xí)高斯混合模型中的參數(shù)[3];類似地,Elgammal等提出一個(gè)非參數(shù)化概率方法來(lái)進(jìn)行背景建模,同樣假定背景像素顏色值服從某種概率分布函數(shù),但是對(duì)于每個(gè)像素點(diǎn)的評(píng)估使用核密度估計(jì)(Kernel Density Estimation,KDE)算法[4];Barnich等與Kim等分別提出基于采樣的以及基于編碼本的背景建模法[5,6].后來(lái)Varadarajan等[7]提出了一種基于區(qū)域的高斯混合模型,從方形子圖像塊中提取特征來(lái)進(jìn)行建模;St-Charles等[8]引入局部二值相似度特征(Local Binary Similarity Patterns,LBSP)來(lái)作為額外特征來(lái)改善背景模型,并針對(duì)閾值的確定提出了一些啟發(fā)式的改進(jìn),雖然這些方法在一定程度上改善了檢測(cè)結(jié)果,但是時(shí)間復(fù)雜度增加,很難做到實(shí)時(shí).
近幾年鑒于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在特征學(xué)習(xí)上的成功,很多人嘗試使用基于深度學(xué)習(xí)的方法來(lái)解決運(yùn)動(dòng)目標(biāo)檢測(cè)問(wèn)題.Babaee等結(jié)合St-Charles等的成果,訓(xùn)練一個(gè)通用的CNN 模型,用來(lái)對(duì)比背景圖像與視頻幀,效果很好,但是其背景建模方法是結(jié)合了幾種現(xiàn)有算法,時(shí)間復(fù)雜度很高,在比較好的計(jì)算平臺(tái)上(英特爾E5-1620 v3 處理器、英偉達(dá)GeForce Titan X顯卡)也只能做到10幀每秒(Frame Per Second,FPS)[9].
總結(jié)起來(lái),傳統(tǒng)基于概率統(tǒng)計(jì)、采樣等技術(shù)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法沒(méi)能很好利用圖像特征來(lái)改進(jìn)背景去除結(jié)果,另一方面近年來(lái)基于深度學(xué)習(xí)的方法并沒(méi)有充分挖掘CNN的特征學(xué)習(xí)能力,且大部分算法時(shí)間復(fù)雜度高,不適用于實(shí)時(shí)任務(wù).
在圖像處理領(lǐng)域很多解決問(wèn)題的方法或范式都可以進(jìn)行一定程度的推廣,比如2012年在圖像分類領(lǐng)域基于深度卷積網(wǎng)絡(luò)的Alexnet后來(lái)被廣泛應(yīng)用到其他圖像處理任務(wù)中[10];源自人臉識(shí)別領(lǐng)域圖像比對(duì)的思想近年來(lái)也被應(yīng)用到目標(biāo)跟蹤等任務(wù)中[11].啟發(fā)自圖像比對(duì)及圖像語(yǔ)義分割的思想,本文提出了一種新的基于深度編解碼網(wǎng)絡(luò)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,我們一方面使用計(jì)算復(fù)雜度較低的高斯混合模型作為背景建模方法,另一方面充分利用CNN的特征學(xué)習(xí)能力,采用事先訓(xùn)練好的一個(gè)基于反卷積的編解碼網(wǎng)絡(luò)來(lái)識(shí)別視頻幀與背景圖像間的差異.實(shí)際應(yīng)用中首先用高斯混合模型進(jìn)行背景建模,之后將所得背景與視頻幀作為網(wǎng)絡(luò)輸入即可直接獲取檢測(cè)結(jié)果.該方法利用了深度卷積網(wǎng)絡(luò)在抗噪及特征學(xué)習(xí)等方面的優(yōu)點(diǎn),無(wú)需進(jìn)行復(fù)雜的參數(shù)調(diào)優(yōu)即可實(shí)現(xiàn)高性能的運(yùn)動(dòng)目標(biāo)檢測(cè).我們?cè)贑Dnet2014數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)評(píng)估,其結(jié)果顯示我們所提出的算法在很多指標(biāo)上優(yōu)于現(xiàn)有的大部分算法.另外得益于較為簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu),我們的算法在使用GPU的情況下能夠近乎實(shí)時(shí)地進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),實(shí)用性很強(qiáng).
一個(gè)典型的運(yùn)動(dòng)目標(biāo)檢測(cè)系統(tǒng)如圖1所示.
圖1 運(yùn)動(dòng)目標(biāo)檢測(cè)系統(tǒng)模塊圖
圖1中背景模型就是當(dāng)前場(chǎng)景中背景的一種描述,在運(yùn)動(dòng)目標(biāo)檢測(cè)算法中通常作為輸入視頻幀的參照物.一般使用最開始的部分視頻幀來(lái)初始化背景模型,初始化完成后對(duì)每個(gè)輸入的視頻幀首先提取其特征,之后跟背景模型進(jìn)行比較來(lái)獲取檢測(cè)結(jié)果.輸入的視頻幀與檢測(cè)結(jié)果有時(shí)也用來(lái)維護(hù)更新背景模型.
本文使用高斯混合模型來(lái)進(jìn)行背景建模,將所得背景圖像與視頻幀作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入即可直接獲取運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果.下面來(lái)分別介紹我們所用的背景建模方法以及編解碼網(wǎng)絡(luò)模型.
目前常用的背景建模方法[12]主要有中值法、均值法、卡爾曼濾波器模型[13]、碼本法[6]、單高斯模型以及混合高斯模型[14,15]等.其中中值法與均值法難以適應(yīng)現(xiàn)實(shí)場(chǎng)景中光照等動(dòng)態(tài)變化,后幾種方法中混合高斯模型魯棒性相對(duì)較好,且實(shí)現(xiàn)簡(jiǎn)單、計(jì)算復(fù)雜度不高,因此本文采用GMM來(lái)進(jìn)行背景建模,下面我們來(lái)詳細(xì)介紹GMM.
在時(shí)刻t的RGB或其他空間中的一個(gè)像素對(duì)應(yīng)的值用 來(lái)表示,基于像素的背景減除法涉及到對(duì)一個(gè)像素是前景(FG)還是背景(BG)進(jìn)行決策,貝葉斯決策R的公式如下:
通常情況下,不知道前景對(duì)象的信息,如什么時(shí)候出現(xiàn),出現(xiàn)的頻率等,因此我們假設(shè)p(FG)=p(BG)和前景對(duì)象的出現(xiàn)符合均勻概率分布即可以使用式(2)來(lái)對(duì)某個(gè)像素是否屬于BG進(jìn)行判別,如果滿足公式,則對(duì)應(yīng)的是BG:
其中,Cthr是一個(gè)閾值,稱為背景模型.從訓(xùn)練集χ中來(lái)估計(jì)對(duì)應(yīng)的背景模型,得到的模型用表示.由于在實(shí)際的應(yīng)用中,場(chǎng)景中亮度可能是逐漸的改變(如戶外場(chǎng)景的天氣的變化)或者突變(戶內(nèi)場(chǎng)景的燈光的切換)以及場(chǎng)景中新對(duì)象的出現(xiàn)或者對(duì)象的消失都會(huì)對(duì)場(chǎng)景背景建模有一定的影響.為了適應(yīng)這種變化,通過(guò)增加新的樣本和排除舊的樣本來(lái)更新訓(xùn)練的樣本集,選擇一個(gè)合理的時(shí)間間隔T,在時(shí)刻t有當(dāng)有新樣本到來(lái)的時(shí)候,都需要更新訓(xùn)練集χT和重新估計(jì)然而來(lái)自老的樣本中可能會(huì)存在一些值是屬于前景對(duì)象的,因此我們應(yīng)該用來(lái)估計(jì),使用M個(gè)組件的GMM,對(duì)應(yīng)的公式如下:
這個(gè)算法呈現(xiàn)了一個(gè)在線的聚類算法,而且通常入侵的對(duì)象由一些具有小權(quán)重的聚類來(lái)表示,因此使用前B個(gè)最大的聚類來(lái)近似背景模型:
其中,cf表示一個(gè)屬于前景對(duì)象但是不會(huì)干擾背景模型的最大比例值.例如,如果有一個(gè)新對(duì)象進(jìn)入場(chǎng)景并在場(chǎng)景中保持靜止一段時(shí)間,那么該對(duì)象就很有可能產(chǎn)生一個(gè)額外穩(wěn)定的聚類,由于背景被遮擋,產(chǎn)生的額外的聚類的權(quán)重的值會(huì)持續(xù)增長(zhǎng),如果對(duì)象保持足夠長(zhǎng)的靜止時(shí)間,那么對(duì)應(yīng)的權(quán)重慢慢會(huì)超過(guò)cf,則其就會(huì)被當(dāng)成是背景.從式(4)能夠知道對(duì)象只需要大約靜止為幀,就會(huì)被認(rèn)為是背景的一部分,例如cf=0.1和α=0.001,那么就可以知道其需要105幀.為了更好的適應(yīng)環(huán)境的變化,用式(8)來(lái)替換式(4),可以得到權(quán)重的更新公式為:
其中,cT=c/T,c對(duì)應(yīng)的是支持一個(gè)高斯組件的樣本數(shù)目,例如可以選擇α=1/T,那么至少需要c=0.01*T樣本數(shù)來(lái)支持一個(gè)高斯組件,那么就可以得到cT=0.01,GMM對(duì)應(yīng)的具體流程如圖2所示.
圖2 高斯混合模型流程圖
通過(guò)以上介紹不難看出,GMM作為一種像素級(jí)的背景建模方法,并沒(méi)有利用到區(qū)域性特征如邊緣信息,如果前景目標(biāo)部分與背景顏色相似,則所得的運(yùn)動(dòng)目標(biāo)檢測(cè)結(jié)果很容易產(chǎn)生“空洞”,如圖3所示.
圖3 高斯混合模型檢測(cè)結(jié)果中的“空洞”
而另一方面深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network,DCNN)有著很強(qiáng)的特征學(xué)習(xí)能力,能夠?qū)W習(xí)到除顏色特征之外區(qū)域級(jí)的特征,可以有效解決該問(wèn)題,所以本文中先使用GMM來(lái)生成背景圖像,前景背景的分割則采用一個(gè)基于反卷積的編解碼網(wǎng)絡(luò)來(lái)實(shí)現(xiàn).
運(yùn)動(dòng)目標(biāo)檢測(cè)是對(duì)于每個(gè)像素點(diǎn)進(jìn)行背景或前景的二分類,從另一個(gè)角度看來(lái)就是一種像素級(jí)的語(yǔ)義分割,如圖4所示.
圖4 圖像語(yǔ)義分割(上)與運(yùn)動(dòng)目標(biāo)檢測(cè)(下)
在圖像語(yǔ)義分割領(lǐng)域,目前比較成功的模型都是基于深度神經(jīng)網(wǎng)絡(luò)的,其中FCN[16]、SegNet[17]、DeconvNet[18]、DeepLab[19]是其中比較成功的模型,這些網(wǎng)絡(luò)都是首先使用卷積等操作來(lái)獲取描述原圖像的特征圖,之后從較低分辨率的特征圖(Feature Maps)解碼獲取原圖大小的像素級(jí)分類結(jié)果,整個(gè)網(wǎng)絡(luò)類似一個(gè)編解碼器,我們不妨稱之為編解碼網(wǎng)絡(luò).
其中SegNet的作者在CamVid數(shù)據(jù)集[20]上使用相同的學(xué)習(xí)速率分別訓(xùn)練了這幾種模型進(jìn)行測(cè)試,其結(jié)果如表1所示.
表1 不同模型在迭代過(guò)程中的表現(xiàn)
表1中的G代表整體準(zhǔn)確率(global accuracy),指在所有10種類別(動(dòng)物、行人、卡車等10種)上的分類準(zhǔn)確率(正確分類的像素?cái)?shù)除以總像素?cái)?shù));C代表類別平均準(zhǔn)確率(class average accuracy),指在所有類別上的平均準(zhǔn)確率;mIoU代表平均交疊率(mean intersection over union),指分割結(jié)果與真實(shí)數(shù)據(jù)之間的交疊率:
BF代表邊緣 指標(biāo),指針對(duì)邊緣像素點(diǎn)的F1指標(biāo)(綜合考慮準(zhǔn)確率與召回率):
通過(guò)結(jié)果不難看出SegNet能快速收斂到比較好的結(jié)果,且其對(duì)于邊緣的描繪較其他幾種模型好很多,因此我們選擇以SegNet為基礎(chǔ)設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu).
參考SegNet我們?cè)O(shè)計(jì)了兩種編解碼網(wǎng)絡(luò),第一種網(wǎng)絡(luò)包含4個(gè)編碼層(不妨稱之為SubNet-4),其結(jié)構(gòu)如圖5所示.
圖5 SubNet-4網(wǎng)絡(luò)結(jié)構(gòu)示意圖
整個(gè)網(wǎng)絡(luò)包含一個(gè)編碼網(wǎng)絡(luò)與對(duì)應(yīng)的解碼網(wǎng)絡(luò),最后接一個(gè)像素級(jí)的分類層來(lái)獲取分類結(jié)果,網(wǎng)絡(luò)的輸入為視頻幀與背景圖像,輸出為檢測(cè)結(jié)果.
編碼網(wǎng)絡(luò)中的每個(gè)“編碼器”首先進(jìn)行卷積操作,卷積核大小為7×7,邊緣填充3個(gè)像素,保證卷積后特征圖大小與原圖相等,然后批量歸一化[21](Batch Normalization),接著進(jìn)行像素級(jí)的線性整流(Rectified Linear Unit,ReLU),再進(jìn)行窗口大小為2×2、步長(zhǎng)為2的最大值池化操作來(lái)得到特征圖,這樣每經(jīng)過(guò)一層編碼特征圖大小會(huì)縮放到上一層的四分之一.
為了能得到原輸入圖像大小的特征圖,解碼網(wǎng)絡(luò)中的“解碼器”首先使用對(duì)應(yīng)層的“編碼器”中最大值池化的池化掩模(記錄了進(jìn)行池化操作時(shí)選擇了哪個(gè)位置的激活值作為池化結(jié)果)進(jìn)行一次“上采樣”,如圖6所示.
這樣的上采樣操作很明顯丟失了特征圖中的一些信息,所以每個(gè)上采樣層緊接著一個(gè)可訓(xùn)練的卷積層來(lái)還原原來(lái)的特征圖.類似編碼器中的設(shè)置,將卷積核大小設(shè)定為7×7,邊緣填充3個(gè)像素.這樣通過(guò)結(jié)合上采樣與卷積操作實(shí)現(xiàn)類似反卷積的效果,每次解碼將特征圖縮放到上一層的2倍大小,最終得到原輸入大小的特征圖用于像素點(diǎn)的分類.
圖6 SegNet中的上采樣
為了對(duì)比不同深度的編解碼網(wǎng)絡(luò)在運(yùn)動(dòng)目標(biāo)檢測(cè)任務(wù)上的表現(xiàn),我們進(jìn)一步加深了網(wǎng)絡(luò)層數(shù),得到第二種編解碼網(wǎng)絡(luò),其編碼網(wǎng)絡(luò)包含13個(gè)卷積層,結(jié)構(gòu)類似VGG16網(wǎng)絡(luò)[22](一個(gè)經(jīng)典的用于目標(biāo)分類的深度卷積網(wǎng)絡(luò))的前13個(gè)卷積層,對(duì)應(yīng)的解碼網(wǎng)絡(luò)也有13層(不妨稱之為SubNet-13),各個(gè)編解碼器結(jié)構(gòu)與SubNet-4相同,這里不再贅述.
我們所提出的算法主要包含兩個(gè)模塊:GMM以及編解碼網(wǎng)絡(luò),下面我們簡(jiǎn)單分析下這兩個(gè)模塊的計(jì)算復(fù)雜度.
GMM背景建模算法中為了優(yōu)化對(duì)于模型參數(shù)的求解實(shí)際采用的是K-means聚類算法,K-means算法的計(jì)算復(fù)雜度一般為O(n×k×t),其中n為待聚類的點(diǎn)的個(gè)數(shù),在GMM中即為歷史幀的個(gè)數(shù),k為聚類中心個(gè)數(shù),即為GMM中高斯組件的個(gè)數(shù),t為直到收斂時(shí)的迭代次數(shù).如果數(shù)據(jù)本身就有一定的聚類結(jié)構(gòu),那么收斂所需的迭代數(shù)目通常是很少的,并且進(jìn)行少數(shù)迭代之后,再進(jìn)行迭代的話,對(duì)于結(jié)果的改善效果很小.鑒于上述原因,該模塊對(duì)于單個(gè)像素點(diǎn)的建模在實(shí)踐中可以認(rèn)為幾乎是線性復(fù)雜度的,其整體計(jì)算復(fù)雜度O(M×N×n)取決于圖像的大小.
一般的DCNN由卷積層以及全連接層構(gòu)成,而由于卷積層采用了局部連接及權(quán)值共享等手段,其計(jì)算復(fù)雜度較全連接層要低.SubNet中并沒(méi)有采用全連接層,以SubNet-4為例,其整體可以看作一個(gè)8層的全卷積網(wǎng)絡(luò),其計(jì)算復(fù)雜度可看作O(8×M×N×m×n),其中M、N、m、n分別代表每層圖像以及卷積核的大小.
綜上可以得知我們算法中較為耗時(shí)的模塊是編解碼網(wǎng)絡(luò),然而由于SubNet無(wú)全連接層,故與使用了普通DCNN進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè)的算法相比,有一定的速度優(yōu)勢(shì).
我們使用CDnet2014數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練及測(cè)試,該數(shù)據(jù)集中包含了10個(gè)類別的場(chǎng)景總共約140 000幀的視頻數(shù)據(jù),其中有標(biāo)注的數(shù)據(jù)大約50 000幀,圖像中的每個(gè)像素點(diǎn)分別以不同灰度值被標(biāo)注為五類,如圖7所示.
1)灰度值0:靜止的像素點(diǎn).
2)灰度值50:屬于陰影的像素點(diǎn).
3)灰度值85:不在感興趣區(qū)域內(nèi)的像素點(diǎn).
4)灰度值170:運(yùn)動(dòng)狀態(tài)未知的像素點(diǎn)(通常在運(yùn)動(dòng)目標(biāo)邊緣,源自運(yùn)動(dòng)模糊等因素).
5)灰度值255:運(yùn)動(dòng)的像素點(diǎn).
圖7 示例數(shù)據(jù)
我們的模型有兩個(gè)輸入,分別是視頻幀與背景圖像,視頻幀、背景圖像與真實(shí)數(shù)據(jù)共同組成一條訓(xùn)練數(shù)據(jù).其中背景圖像是我們使用高斯混合模型(高斯混合模型的模型個(gè)數(shù)為5,歷史幀數(shù)為100幀,平方Mahalanobis距離閾值固定為16)從視頻中生成的,具體每個(gè)實(shí)驗(yàn)所用到的訓(xùn)練以及測(cè)試數(shù)據(jù)我們?cè)趯?shí)驗(yàn)部分有對(duì)應(yīng)的說(shuō)明.
此外,為了適應(yīng)于網(wǎng)絡(luò)的輸入,我們使用最近鄰插值(Nearest Neighbor Interpolation)視頻幀、背景圖像與標(biāo)注數(shù)據(jù)統(tǒng)一縮放到360×480的大小.
為了驗(yàn)證模型及算法的有效性,我們先使用基準(zhǔn)場(chǎng)景中的部分?jǐn)?shù)據(jù)訓(xùn)練我們的SubNet模型并測(cè)試,對(duì)比了不同深度的網(wǎng)絡(luò)模型的表現(xiàn),并且與原GMM算法以及當(dāng)前比較先進(jìn)的算法進(jìn)行對(duì)比,之后我們?cè)谝恍┬碌膱?chǎng)景中對(duì)模型進(jìn)行了進(jìn)一步的微調(diào)及測(cè)試.
衡量一個(gè)運(yùn)動(dòng)目標(biāo)檢測(cè)算法質(zhì)量的指標(biāo)主要包括:
1)真陽(yáng)性(True Positive,TP):結(jié)果中的前景像素點(diǎn)確為前景像素點(diǎn).
2)偽陽(yáng)性(False Positive,FP):結(jié)果中的前景像素點(diǎn)并非前景像素點(diǎn).
3)真陰性(True Negative,TN):結(jié)果中的背景像素點(diǎn)確為背景像素點(diǎn).
4)偽陰性(False Negative,FN):結(jié)果中的背景像素點(diǎn)并非背景像素點(diǎn).
圖8 結(jié)果示意圖
圖8是實(shí)驗(yàn)結(jié)果的示意圖,其中白色矩形框是真實(shí)數(shù)據(jù),灰色矩形框是算法結(jié)果,圖中ABCD四個(gè)圓形區(qū)域內(nèi)的點(diǎn)即分別為TP、FN、TN、FN的像素點(diǎn).
繼而可進(jìn)一步得出以下統(tǒng)計(jì)指標(biāo):
1)召回率(Recall,Re):
Recall=TP/(TP+FN)
2)特異度(Specificity,SPC):
SPC=TN/(FP+TN)= 1 -FPR
3)準(zhǔn)確度(Accuracy,ACC):
ACC= (TP+TN)/(P+N)
4)F評(píng)分(F Measure,FM):
FM= 2 ×ACC×Re/(ACC+Re)
5)偽陽(yáng)性率(False Positive Rate,FPR),又稱錯(cuò)誤命中率,假警報(bào)率 (False Alarm Rate,FAR):
FPR=FP/N=FP/(FP+TN)
6)偽陰性率(False Negative Rate,FNR):
FNR=FN/(TP+FN)
這里我們特別關(guān)注下F評(píng)分,從F評(píng)分的計(jì)算公式不難看出其結(jié)果是綜合考慮了多個(gè)評(píng)估指標(biāo),有較高的參考價(jià)值,較為魯棒的算法通常有更高的F評(píng)分.
此外,考慮到實(shí)用性,我們也會(huì)考察算法的速度,采用每秒幀數(shù)作為參考指標(biāo).
CDnet2014數(shù)據(jù)集提供了所有現(xiàn)有算法的結(jié)果以及各個(gè)算法與真實(shí)數(shù)據(jù)對(duì)比所得的統(tǒng)計(jì)指標(biāo),同時(shí)給出兩種評(píng)估方法:一是在線評(píng)估,將算法在所有場(chǎng)景上的結(jié)果上傳到服務(wù)器進(jìn)行評(píng)估;二是離線使用他們給出的工具包進(jìn)行評(píng)估,評(píng)估結(jié)果可能跟在線方式有細(xì)微區(qū)別,但整體不會(huì)差別太大.考慮到GMM模型的應(yīng)用場(chǎng)景,我們僅在部分場(chǎng)景上進(jìn)行了訓(xùn)練以及測(cè)試,所以我們使用離線的方式來(lái)評(píng)估我們的算法,并使用同樣的方式評(píng)估對(duì)比算法.
我們?cè)贑Dnet2014基準(zhǔn)(baseline)數(shù)據(jù)集中highway、office、pedestrians場(chǎng)景中隨機(jī)選取了10%的真實(shí)數(shù)據(jù)(約800條)作為訓(xùn)練數(shù)據(jù)來(lái)分別訓(xùn)練SubNet-4與SubNet-13.
參考SegNet的訓(xùn)練過(guò)程,兩個(gè)模型都采用交叉熵函數(shù)[18]作為損失函數(shù),用隨機(jī)梯度下降算法(Stochastic Gradient Descent,SGD)在Caffe框架[23]上進(jìn)行訓(xùn)練.在訓(xùn)練SubNet-4時(shí)將學(xué)習(xí)速率固定為0.01,根據(jù)實(shí)際硬件條件將批量大小(batch size)設(shè)置為10;訓(xùn)練SubNet-13時(shí)將學(xué)習(xí)速率固定為0.001,批量大小設(shè)置為4.我們觀察到在大約訓(xùn)練15個(gè)周期(epoch,指在所有訓(xùn)練數(shù)據(jù)上都進(jìn)行一次訓(xùn)練)后兩個(gè)模型都已經(jīng)基本收斂,為了對(duì)比不同深度的模型的表現(xiàn),我們進(jìn)一步將兩個(gè)模型各自訓(xùn)練到約30個(gè)周期,之后在所得模型上進(jìn)行測(cè)試.兩個(gè)模型訓(xùn)練過(guò)程中損失函數(shù)值變化過(guò)程如圖9所示.
圖9 訓(xùn)練過(guò)程中損失函數(shù)值變化曲線
訓(xùn)練完成后,我們使用SubNet-4與SubNet-13分別在這些場(chǎng)景中進(jìn)行了測(cè)試,將測(cè)試結(jié)果與原GMM算法以及當(dāng)前效果比較好的SuBSENSE[8]及DeepBS[10]算法進(jìn)行對(duì)比,結(jié)果如表2所示.
表2 不同算法在三個(gè)場(chǎng)景上的整體表現(xiàn)對(duì)比
進(jìn)一步分析SubNet-4與SubNet-13在基準(zhǔn)數(shù)據(jù)集中各個(gè)場(chǎng)景下的表現(xiàn),如表3、表4所示(其中“平均”是統(tǒng)計(jì)所有場(chǎng)景下TP、FN、TN、FN的結(jié)果,而不是簡(jiǎn)單計(jì)算統(tǒng)計(jì)指標(biāo)的均值).
表3 SubNet-4在基準(zhǔn)數(shù)據(jù)集中各個(gè)場(chǎng)景下的表現(xiàn)
表4 SubNet-13在基準(zhǔn)數(shù)據(jù)集中各個(gè)場(chǎng)景下的表現(xiàn)
我們發(fā)現(xiàn)在highway場(chǎng)景中算法表現(xiàn)良好,但是在office、pedestrian場(chǎng)景中表現(xiàn)較差.為了研究算法表現(xiàn)不佳的原因,我們選取了SubNet-4在office場(chǎng)景下的部分結(jié)果進(jìn)行觀察,如圖10所示.
通過(guò)結(jié)果可以發(fā)現(xiàn),因?yàn)槲覀兊哪P褪峭ㄟ^(guò)背景圖像與視頻幀之間的差異性來(lái)找出前景目標(biāo),然而由于GMM模型本身的缺點(diǎn),office場(chǎng)景中的前景目標(biāo)在場(chǎng)景內(nèi)長(zhǎng)時(shí)間停留后,導(dǎo)致GMM將其誤看作背景.鑒于office為一個(gè)背景變化不大的場(chǎng)景,我們手動(dòng)選擇了一張背景圖片作為全局背景(圖10中第600幀時(shí)生成的背景圖像),使用SubNet-4模型進(jìn)行測(cè)試,測(cè)試結(jié)果如表5所示.
測(cè)試結(jié)果驗(yàn)證了我們的猜想,模型的表現(xiàn)有了很明顯的提升進(jìn)步.
另外算法各個(gè)模塊的計(jì)算耗時(shí)以及不同算法之間性能對(duì)比結(jié)果如表6、表7所示.
圖10 Office場(chǎng)景中第600、1200、1800幀的測(cè)試結(jié)果:視頻幀(上)、背景圖像(中)與檢測(cè)結(jié)果(下)
表5 不同背景下SubNet-4在office場(chǎng)景中的表現(xiàn)
表6 各個(gè)模塊的計(jì)算耗時(shí) (單位:ms)
實(shí)驗(yàn)中我們使用GTX 1080 GPU對(duì)算法的各個(gè)模塊進(jìn)行了加速,與同樣使用GPU加速的的DeepBS算法對(duì)比,我們?cè)谳^弱的硬件條件下SubNet-13取得了與DeepBS同等性能,而SubNet-4的性能更好,達(dá)到了15FPS,已經(jīng)近乎實(shí)時(shí).
表7 不同算法的性能對(duì)比
總結(jié)該階段的實(shí)驗(yàn)結(jié)果可以得知:
1)我們的算法較原GMM算法有不小的提升.
2)我們的算法的表現(xiàn)已經(jīng)比較接近于當(dāng)前的頂尖算法,這一結(jié)果還是在沒(méi)有進(jìn)一步優(yōu)化背景建模算法及檢測(cè)結(jié)果的情況下實(shí)現(xiàn)的(比如DeepBS在獲取檢測(cè)結(jié)果后又使用時(shí)間中值濾波對(duì)結(jié)果做了進(jìn)一步的處理),表明我們的算法有很具競(jìng)爭(zhēng)力,也很有優(yōu)化潛力.
3)對(duì)比SubNet-4于SubNet-13,4層編解碼網(wǎng)絡(luò)的表現(xiàn)已經(jīng)足夠好,進(jìn)一步增加網(wǎng)絡(luò)深度反而導(dǎo)致模型過(guò)擬合,降低了泛化能力;另一方面,考慮到算法性能及實(shí)用性,我們建議實(shí)際應(yīng)用中不需要采用過(guò)深的網(wǎng)絡(luò).
為了進(jìn)一步驗(yàn)證模型的泛化能力,我們?cè)贑Dnet數(shù)據(jù)集的其他場(chǎng)景上進(jìn)行了實(shí)驗(yàn)及測(cè)試.參考之前不同深度編解碼網(wǎng)絡(luò)的對(duì)比結(jié)果,我們這里僅使用SubNet-4進(jìn)行了相關(guān)的實(shí)驗(yàn).
首先我們使用在基準(zhǔn)數(shù)據(jù)集上訓(xùn)練得到的SubNet-4在CDnet2014數(shù)據(jù)集中badWeather類別下的部分場(chǎng)景上進(jìn)行了實(shí)驗(yàn),其結(jié)果如表8所示).
表8 SubNet-4在不同場(chǎng)景上的表現(xiàn)
結(jié)果發(fā)現(xiàn)算法在skating場(chǎng)景中表現(xiàn)良好,但是另一些場(chǎng)景中表現(xiàn)不佳,原因在于惡劣天氣下場(chǎng)景中有飄舞的雪花等干擾,基于背景-視頻幀對(duì)比的話不一定能得到很好的結(jié)果,我們需要進(jìn)一步對(duì)模型進(jìn)行微調(diào)優(yōu)化.
深度神經(jīng)網(wǎng)絡(luò)模型有著很強(qiáng)的抗噪以及特征學(xué)習(xí)能力,因此我們嘗試使用新的場(chǎng)景中的數(shù)據(jù)對(duì)SubNet-4模型進(jìn)行微調(diào).
具體來(lái)說(shuō),我們隨機(jī)選取了上面幾個(gè)場(chǎng)景的部分?jǐn)?shù)據(jù)(分別取各個(gè)場(chǎng)景的10%的數(shù)據(jù),總共約2000條數(shù)據(jù))對(duì)SubNet-4進(jìn)行了進(jìn)一步的訓(xùn)練微調(diào),同樣訓(xùn)練了約30個(gè)周期待模型收斂后在這些場(chǎng)景中進(jìn)行了測(cè)試.為了研究微調(diào)對(duì)模型的影響,我們同時(shí)測(cè)試了微調(diào)后的模型在CDnet2014 baseline類別中highway、office、pedestrians場(chǎng)景下的平均表現(xiàn),測(cè)試結(jié)果如表9、表10所示.
表9 微調(diào)后的SubNet-4在不同場(chǎng)景上的表現(xiàn)
表10 不同算法在badWeather部分場(chǎng)景中的平均表現(xiàn)
通過(guò)結(jié)果不難看出微調(diào)后的模型較原模型在新場(chǎng)景中的表現(xiàn)有了很大的提升,在badWeather場(chǎng)景上的平均表現(xiàn)甚至超過(guò)了現(xiàn)有最好的算法.其中一個(gè)很有趣的發(fā)現(xiàn)是微調(diào)后的模型在基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)有所提升(F評(píng)分從0.9109提升到0.9284),表明增加數(shù)據(jù)量有助于提高模型的魯棒性.
我們選取了部分測(cè)試結(jié)果與原GMM算法進(jìn)行了對(duì)比,結(jié)果如圖11所示.
不難看出我們的算法較原GMM算法有很大的提升,并且在有效地解決“空洞”問(wèn)題的同時(shí)大幅度提高了抗噪能力.
通過(guò)多個(gè)實(shí)驗(yàn)的結(jié)果可以得出我們的算法在原GMM算法上有了很大的提升,特別是針對(duì)特定場(chǎng)景微調(diào)模型后,算法的表現(xiàn)甚至超越了現(xiàn)有的一些頂尖算法,證明了我們所提出的算法的有效性.
實(shí)驗(yàn)結(jié)果也同樣說(shuō)明了這種算法雖然有很強(qiáng)的學(xué)習(xí)與泛化能力,在使用特定場(chǎng)景的數(shù)據(jù)進(jìn)行微調(diào)后能提升效果,但還是很依賴于背景建模方法,容易受GMM模型弊端的影響,然而也從另一個(gè)角度說(shuō)明了如果配合更好的背景建模方法,其效果能進(jìn)一步地提升.
圖11 測(cè)試結(jié)果對(duì)比,從上到下分別是視頻幀、真實(shí)數(shù)據(jù)、GMM算法結(jié)果與我們的算法結(jié)果
受現(xiàn)實(shí)場(chǎng)景動(dòng)態(tài)性的影響,傳統(tǒng)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法往往效果不佳.為了提升算法效果,本文提出了一種新的基于編解碼網(wǎng)絡(luò)的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,將該問(wèn)題看作像素級(jí)的語(yǔ)義分割問(wèn)題,結(jié)合GMM與深度神經(jīng)網(wǎng)絡(luò),無(wú)需進(jìn)行復(fù)雜的參數(shù)調(diào)優(yōu)即可實(shí)現(xiàn)高效的運(yùn)動(dòng)目標(biāo)檢測(cè).并且算法模型非常簡(jiǎn)單,在使用GPU的情況下能夠近乎實(shí)時(shí)地進(jìn)行檢測(cè),實(shí)用性很強(qiáng).另外由于前景背景分割模塊是使用深度編解碼網(wǎng)絡(luò)實(shí)現(xiàn)的,獨(dú)立于背景建模方法,如果配合更好的背景建模方法能夠進(jìn)一步的提升算法效果,還有很大的優(yōu)化空間.
總結(jié)得出論文的主要貢獻(xiàn)在于:
1)將運(yùn)動(dòng)目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為圖像語(yǔ)義分割問(wèn)題,使用GMM結(jié)合基于反卷積的編解碼網(wǎng)絡(luò)有效地解決了GMM算法中的“空洞”等問(wèn)題.
2)證明了只需使用深度卷積網(wǎng)絡(luò)進(jìn)行前景背景分割,無(wú)需較為復(fù)雜的背景建模方法以及參數(shù)調(diào)優(yōu)就能很好地進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè).
3)本文的算法仍然依賴于GMM,在未對(duì)模型輸出做任何形式的優(yōu)化的情況下仍取得了很好的結(jié)果,表明該方法很具潛力,仍有很大的改進(jìn)空間.
4)我們的模型十分簡(jiǎn)單,在使用GPU加速的情況下能夠近乎實(shí)時(shí)地實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)檢測(cè),很具實(shí)用性.
下一步的研究工作一方面可以嘗試使用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等適合處理時(shí)序數(shù)據(jù)的網(wǎng)絡(luò)模型來(lái)改進(jìn)背景建模方法,同時(shí)可以集成為一個(gè)可端到端學(xué)習(xí)的深度網(wǎng)絡(luò)模型,來(lái)提升算法效果與效率;另一方面可以探索使用更高效的語(yǔ)義分割模型來(lái)提升算法速度.
1 Sajid H,Cheung SCS.Background subtraction for static &moving camera.2015 IEEE International Conference on Image Processing (ICIP).Quebec City,QC,Canada.2015.4530–4534.
2 Stauffer C,Grimson WEL.Adaptive background mixture models for real-time tracking.IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins,CO,USA.1999.252.
3 Dempster AP,Laird NM,Rubin DB.Maximum likelihood from incomplete data via the EM algorithm.Journal of the Royal Statistical Society.Series B (Methodological),1977,39(1):1–38.
4 Elgammal A,Harwood D,Davis L.Non-parametric model for background subtraction.European Conference on Computer Vision.Dublin,Ireland.2000.751–767.
5 Barnich O,Van Droogenbroeck M.ViBe:A universal background subtraction algorithm for video sequences.IEEE Transactions on Image Processing,2011,20(6):1709–1724.[doi:10.1109/TIP.2010.2101613]
6 Kim K,Chalidabhongse TH,Harwood D,et al.Real-time foreground-background segmentation using codebook model.Real-Time Imaging,2005,11(3):172–185.[doi:10.1016/j.rti.2004.12.004]
7 Varadarajan S,Miller P,Zhou HY.Region-based mixture of Gaussians modelling for foreground detection in dynamic scenes.Pattern Recognition,2015,48(11):3488–3503.[doi:10.1016/j.patcog.2015.04.016]
8 St-Charles PL,Bilodeau GA,Bergevin R.SuBSENSE:A universal change detection method with local adaptive sensitivity.IEEE Transactions on Image Processing,2015,24(1):359–373.[doi:10.1109/TIP.2014.2378053]
9 Babaee M,Dinh DT,Rigoll G.A deep convolutional neural network for background subtraction.arXiv:1702.01731,2017.
10 Krizhevsky A,Sutskever I,Hinton GE.Imagenet classification with deep convolutional neural networks.Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,NV,USA.2012.1097–1105.
11 Bertinetto L,Valmadre J,Henriques JF,et al.Fullyconvolutional siamese networks for object tracking.European Conference on Computer Vision.Amsterdam,The Netherlands.2016.850–865.
12 余家奎.基于視頻的火花和煙霧檢測(cè)算法研究[碩士學(xué)位論文].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2015.
13 夏梁,何波.基于卡爾曼濾波的背景更新算法.電腦知識(shí)與技術(shù),2014,10(6):1242–1243.
14 Zivkovic Z.Improved adaptive Gaussian mixture model for background subtraction. Proceedings of the 17th International Conference on Pattern Recognition.Cambridge,UK.2004.28–31.
15 Reynolds D.Gaussian mixture models.Encyclopedia of Biometrics.US.2015.659–663.
16 Shelhamer E,Long J,Darrell T.Fully convolutional networks for semantic segmentation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640–651.[doi:10.1109/TPAMI.2016.2572683]
17 Badrinarayanan V,Kendall A,Cipolla R.Segnet:A deep convolutional encoder-decoder architecture for image segmentation.arXiv:1511.00561,2015.
18 Noh H,Hong S,Han B.Learning deconvolution network for semantic segmentation.Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile.2015.1520–1528.
19 Chen LC,Papandreou G,Kokkinos I,et al.Deeplab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected crfs.arXiv:1606.00915,2016.
20 Brostow GJ,Fauqueur J,Cipolla R.Semantic object classes in video:A high-definition ground truth database.Pattern Recognition Letters,2009,30(2):88–97.[doi:10.1016/j.patrec.2008.04.005]
21 Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift.arXiv:1502.03167,2015.
22 Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition.arXiv:1409.1556,2014.
23 Jia YQ,Shelhamer E,Donahue J,et al.Caffe:Convolutional architecture for fast feature embedding.Proceedings of the 22nd ACM International Conference on Multimedia.Orlando,Florida,USA.2014.675–678.