陳俊周,汪子杰,陳洪瀚,左林翼
(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院 成都 610031)
基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的視頻動態(tài)煙霧檢測
陳俊周,汪子杰,陳洪瀚,左林翼
(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院成都610031)
復(fù)雜場景中煙霧特性的提取是目前視頻煙霧檢測領(lǐng)域的主要挑戰(zhàn)。針對該問題,提出一種靜態(tài)和動態(tài)特征結(jié)合的卷積神經(jīng)網(wǎng)絡(luò)視頻煙霧檢測框架。在靜態(tài)單幀圖像特征檢測的基礎(chǔ)上,進一步分析其時空域上的動態(tài)紋理信息以期克服復(fù)雜的環(huán)境干擾。實驗結(jié)果顯示,該級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型可有效應(yīng)用于復(fù)雜視頻場景中煙霧事件的實時檢測。
卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);紋理特征;視頻煙霧檢測
煙霧檢測作為消防探測重要手段,已廣泛應(yīng)用于火災(zāi)、爆炸的探測與預(yù)警。傳統(tǒng)基于煙霧傳感器的探測技術(shù)監(jiān)測范圍小,在工廠、倉庫、森林等較大的區(qū)域鋪設(shè)成本高,且此類傳感器易老化而靈敏度降低。近年來,視頻煙霧探測技術(shù)因其響應(yīng)時間短、靈敏度高、覆蓋面積大等優(yōu)勢備受國內(nèi)外研究者關(guān)注。
現(xiàn)有視頻煙霧檢測方法主要依靠運動、顏色、形狀、透明度、紋理等視覺特征。文獻[1]提出一種利用煙霧顏色和運動特征的檢測方法,首先采用背景提取和顏色過濾獲取候選煙霧區(qū)域,然后計算光流將其速度及方向的均值和方差作為特征,最后采用BP神經(jīng)網(wǎng)絡(luò)完成分類識別,其所獲特征向量維度偏低難以有效描述煙霧在復(fù)雜環(huán)境下的不同表現(xiàn)形式。文獻[2]提出積累運動模型并利用積分圖快速估計煙霧運動方向,該方法假設(shè)煙霧做向上運動其適用范圍較有限。隨后,文獻[3]又提出一種雙映射框架特征與AdaBoost結(jié)合的煙霧檢測方法。第一層映射將每幀圖像分塊,提取各圖像塊的邊緣方向直方圖、邊緣強度直方圖、LBP直方圖、邊緣強度密度以及顏色和飽和度密度等特征。第二層映射將圖像分區(qū),統(tǒng)計各區(qū)塊特征的均值、方差、峰態(tài)、偏度等。這些統(tǒng)計量最終被用于AdaBoost模型的訓(xùn)練和分類。文獻[4]針對固定攝像頭視頻,提出一種基于輪廓和小波變換的煙霧探測方法,隱馬爾科夫模型(HMM)被用于分析煙霧輪廓時域上周期性的變化。煙霧通常具有一定的透明度,其視覺特征受到背景影響,若能克服背景干擾則可有效降低煙霧識別難度。針對這一問題,文獻[5]分析了煙霧與背景的混合機制,構(gòu)建了一套煙霧前景提取方法,利用稀疏表達、局部平滑等約束求解混合系數(shù)。該方法可在一定程度上降低背景干擾,提高煙霧識別準確率。
在煙霧紋理特征提取方面,GLCM、LBP、Wavelet等應(yīng)用最為廣泛。文獻[6]基于GLCM分析煙霧紋理實現(xiàn)了一套火焰、煙霧實時檢測系統(tǒng)。文獻[7]引入LBP提取煙霧紋理特征。文獻[8]提出一種基于金字塔直方圖序列煙霧檢測方法。首先金字塔采樣為三層多尺度結(jié)構(gòu),對每一層圖像提取不同模式的LBP及LBPV特征,最后將LBP和LBPV特征序列拼接作為煙霧紋理特征,并由BP神經(jīng)網(wǎng)絡(luò)進行分類。然而,實際應(yīng)用中現(xiàn)有方法均存在較多誤檢,主要原因在于:1)煙霧在不同環(huán)境下呈現(xiàn)出多樣的狀態(tài),現(xiàn)有文獻選用數(shù)據(jù)集較小,難以訓(xùn)練出穩(wěn)定、可靠的分類器以擬合其復(fù)雜表現(xiàn)形式。2)煙霧視覺特征提取一直是視頻煙霧檢測的難點,僅依賴靜態(tài)特征不足于將煙霧與一些似煙對象區(qū)分(如:云、噴泉等)。如何構(gòu)建穩(wěn)定、高效的特征提取算法,融合視頻中靜態(tài)與動態(tài)信息,成為降低煙霧誤檢的關(guān)鍵。
傳統(tǒng)的分類器如SVM、決策樹等在小數(shù)據(jù)集中表現(xiàn)良好,但在數(shù)據(jù)量較大時卻難以更好地提高分類精度。近年來,深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)被成功地應(yīng)用于計算機視覺領(lǐng)域。DNN通過建立類似于人腦的分層網(wǎng)絡(luò)模型結(jié)構(gòu),對輸入數(shù)據(jù)逐級提取從底層到高層的特征,以便更好地獲得從底層信號到高層語義的映射關(guān)系。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為其中最重要的網(wǎng)絡(luò)模型之一,伴隨大數(shù)據(jù)和高性能計算的驅(qū)動,在人臉識別、圖像分類等方面取得突破性進展。文獻[9]首次將CNN引入手寫數(shù)字識別,其提出的LeNet網(wǎng)絡(luò)結(jié)構(gòu)被美國銀行業(yè)廣泛用于支票識別,并成為小尺度圖像識別的基礎(chǔ)模型。2012年,文獻[10]在著名的ImageNet圖像數(shù)據(jù)集上用更深的CNN取得當年世界最好結(jié)果,將識別錯誤率從26%降到15%,大幅度提升了大規(guī)模圖像識別的精度。此后,更多的基于深度卷積神經(jīng)網(wǎng)絡(luò)模型和方法[11-12]被提出,并向人臉識別[13]、行人檢測、行為識別[14]等分支發(fā)展。深度的卷積神經(jīng)網(wǎng)絡(luò)能以原始圖像作為輸入,學(xué)習(xí)到從底層像素級到高層表示級的特征,將人工提取特征的模式向從數(shù)據(jù)中自動學(xué)習(xí)特征的模式轉(zhuǎn)變。并且,該模型在大數(shù)據(jù)上效果更為顯著。本文將卷積神經(jīng)網(wǎng)絡(luò)引入煙霧紋理特征提取,提出一種級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)煙霧紋理識別框架融合靜態(tài)和動態(tài)紋理信息,在靜態(tài)紋理上將原始圖像作為輸入,在動態(tài)紋理上將原始圖像的光流序列作為輸入,最終實驗結(jié)果顯示,本文方法在煙霧識別準確率和誤檢率上均取得更好表現(xiàn)。
1.1視頻預(yù)處理
監(jiān)控系統(tǒng)中攝像機通常處于靜止狀態(tài),在視頻場景中包含大量靜止背景,而煙霧屬視頻中運動前景。為了達到系統(tǒng)實時性的要求,對視頻做預(yù)處理,過濾掉靜止區(qū)域至關(guān)重要。由于煙霧在視頻圖像中呈現(xiàn)不規(guī)則的形態(tài),本文采用分塊檢測的方法,將視頻圖像劃分為固定大小的塊用于CNN的輸入。具體實現(xiàn)中,將每幀圖像劃分為24×24不重疊的小塊,采用幀間差分法濾除其中靜止塊,將剩余運動塊作為候選煙霧區(qū)域。這些候選塊可能為煙霧或非煙(如:運動的行人、車輛以及植物等)運動區(qū)域。
為此,本文提出一種級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)框架以檢測視頻中的煙霧事件。
1.2煙霧識別系統(tǒng)框架
圖1 煙霧紋理識別框架
本文提出的視頻煙霧識別系統(tǒng)由兩部分級聯(lián)組成:靜態(tài)煙霧紋理識別網(wǎng)絡(luò)(對應(yīng)空域CNN)和動態(tài)煙霧紋理識別網(wǎng)絡(luò)(對應(yīng)時空域CNN),系統(tǒng)整體框架如圖1所示。被檢視頻經(jīng)預(yù)處理后,提取當前幀候選煙霧塊區(qū)域輸入空域CNN提取其靜態(tài)特征進行第一步判別。在實際檢測過程中,由于可能存在某些與煙霧外觀相似的運動干擾(如:噴泉、云等),會有一部分無煙的圖像塊被誤檢為有煙,造成虛警。為此,當候選煙霧塊被空域CNN識別為有煙時,提取該塊對應(yīng)區(qū)域過去連續(xù)多幀圖像塊序列,計算其對應(yīng)的光流序列作為第二級時空域CNN的輸入,分析該候選塊區(qū)域的時空域動態(tài)特性,以進一步降低誤檢。
1.3靜態(tài)紋理特征
識別煙霧靜態(tài)紋理特征的空域CNN模型包括6層,網(wǎng)絡(luò)構(gòu)建過程如圖2所示。網(wǎng)絡(luò)的輸入層為24×24的RGB圖像,灰度級范圍為[0,255],將其歸一化至[0,1]以適應(yīng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的需要。輸入層連接第一層卷積層,卷積的濾波器參數(shù)設(shè)置20×3×5×5,得到C1的通道數(shù)為20,大小為20×20。接下來連接第一層下采樣層,采用Max pooling的下采樣方法,核大小為2×2,得到S1的通道數(shù)為20大小為10×10。第二層卷積層濾波器參數(shù)設(shè)置為50×20×5×5,得到C2的通道數(shù)為50,大小為6×6。再次連接下采樣層,和第一次下采樣一樣的方法,得到S2的通道數(shù)為50,大小為3×3。最后兩層全連接層,F(xiàn)1的神經(jīng)元個數(shù)為100,最后輸出層得到識別結(jié)果。
圖2 本文CNN的網(wǎng)絡(luò)結(jié)構(gòu)
1.4動態(tài)紋理特征
在每一幀靜態(tài)紋理識別的基礎(chǔ)上,將候選煙霧塊(包含有煙和無煙誤檢為有煙)以及歷史幀中相應(yīng)位置的圖像塊作為動態(tài)部分檢測數(shù)據(jù)。光流是一種圖像中像素級運動的表示方法,文獻[14]將光流圖像作為CNN的輸入來識別視頻中的動作。受此啟發(fā),本文將時間連續(xù)的煙霧塊的光流序列作為識別煙霧動態(tài)紋理特征的時空域CNN的輸入。稠密的光流可以看成是連續(xù)兩幀t,t+1時刻的位移向量場dt,表示點(u,v)從t時刻到t+1時刻的位移矢量,和分別表示水平和垂直方向上的分量。為了表示一個幀序列的運動,將連續(xù)L幀重疊起來形成通道為2L的光流序列作為輸入。將w、h表示成輸入的寬度和高度,那么時空域CNN的輸入為:
時空域CNN通過預(yù)先訓(xùn)練好的模型判斷輸入的圖像塊是否屬于真實煙霧塊。在時空域CNN的網(wǎng)絡(luò)結(jié)構(gòu)中,輸入圖像大小不變,但通道數(shù)由RGB的3通道變成2L。CNN中卷積的一個濾波器可以理解為提取圖像中一種特征,由于輸入層通道數(shù)增多,提取的特征數(shù)也增多了。本文在訓(xùn)練模型時發(fā)現(xiàn),適度增加時空域CNN各層特征圖數(shù)量,能夠提高模型準確率,但時間復(fù)雜度也相應(yīng)增加了。綜合考慮模型精度與時間成本,確定了時空域CNN第一次卷積下采樣后通道數(shù)為40,第二次卷積下采樣后為80。全連接層的神經(jīng)元個數(shù)不變。具體實驗中,L的大小取5,此時輸入通道數(shù)為10。
本文的CNN模型采用Caffe[15]訓(xùn)練,網(wǎng)絡(luò)的模型結(jié)構(gòu)和訓(xùn)練參數(shù)主要參考LeNet[9]。Caffe是采用C++與CUDA實現(xiàn)的深度學(xué)習(xí)框架,具有模型描述簡單、代碼易擴展、速度快等優(yōu)點,被學(xué)術(shù)界與工業(yè)界廣泛使用。LeNet是一個6層的CNN結(jié)構(gòu),包含兩層卷積層、兩層下采樣層以及兩層全連接層,其在手寫字符識別經(jīng)典數(shù)據(jù)集MNIST上達到99%以上的識別準確率。本文CNN輸入圖像大小為24×24,與LeNet的輸入圖像大小28×28相似,故本文在LeNet的基礎(chǔ)上,更改了輸入和輸出的結(jié)構(gòu),在時空域CNN上更改了每一層通道數(shù)。
2.1數(shù)據(jù)集
靜態(tài)紋理數(shù)據(jù)集包含正負樣本各30 000的24× 24的單幅圖像,其中有煙霧部分圖片從有煙視頻(不與測試視頻重復(fù))中獲取,無煙部分圖片從Caltech101[16]數(shù)據(jù)集中選擇無煙霧背景圖片里截取。隨機選擇80%作為訓(xùn)練集,余下20%作為測試集。
動態(tài)紋理數(shù)據(jù)集包含正負樣本各30 000的6× 24×24幀序列(一個序列連續(xù)6幀,即網(wǎng)絡(luò)的輸入是10個通道的光流序列),其中有煙部分從有煙視頻中截取,無煙部分從UCF-101[17]數(shù)據(jù)集和部分無煙霧視頻里選擇無煙霧運動部分截取(均不與測試視頻重復(fù))。隨機選擇80%作為訓(xùn)練集,20%作為測試集。
完整視頻數(shù)據(jù)集包含視頻樣本20個。其中有煙視頻10個,無煙視頻10個。
2.2評價指標
為驗證算法的有效性,實驗的指標為:
式中,ACC為準確率;TPR為真正率;TNR為真負率;N為總樣本數(shù);TP為真正樣本數(shù);TN為真負樣本數(shù);FP為假正樣本數(shù);FN為假負樣本數(shù)。
此外,對于完整視頻煙霧檢測的評價指標還包含兩個指標:針對有煙的視頻,第一次發(fā)出煙霧警報的幀號FAFSV(first alarm for smoke video),該值越小說明越早報警;針對無煙的視頻,整個視頻中誤檢的幀數(shù)FAFNSV(false alarms for non-smoke video)越小說明魯棒性越好。本文分別比較了10個非煙視頻和10個有煙視頻,部分視頻如圖3所示。
圖3 部分實驗視頻
2.3實驗結(jié)果
單獨使用靜態(tài)紋理識別實驗:靜態(tài)紋理識別部分,將本文方法與LBP+SVM方法進行了實驗對比。LBP[18]是一種紋理特征描述方式。LBP統(tǒng)計圖像中每個像素與其鄰域像素的亮度關(guān)系,并將其統(tǒng)計成直方圖,從而能有效的描述一副圖像的紋理特征。本文的靜態(tài)紋理識別對比LBP+SVM的結(jié)果如表1所示,結(jié)果表明,采用卷積神經(jīng)網(wǎng)絡(luò)對煙霧靜態(tài)紋理具有更好的識別效果,準確率從93.43%提高到99.0%。然而發(fā)現(xiàn)通過靜態(tài)紋理識別后煙霧的誤檢率較高,分別為7.09%(LBP+SVM)和1.78%(本文方法)。靜態(tài)紋理誤檢的原因是:有許多在靜態(tài)紋理上類似于煙霧的圖像(如:云、噴泉、顏色灰暗的區(qū)域等),而非煙霧的情況遠多于有煙霧的情況。
表1 單獨使用靜態(tài)紋理的識別結(jié)果
按照本文測試視頻的大小,每一幀將會劃分成130個小塊,這樣最終視頻對非煙霧的誤檢比較高。因此,進一步的動態(tài)紋理檢測至關(guān)重要。
單獨使用動態(tài)紋理識別實驗:動態(tài)紋理識別部分,將本文方法與LBP-TOP+SVM方法進行了實驗對比。LBP-TOP[19]是一種動態(tài)紋理特征提取方法,它是將LBP特征擴展到3維空間上,具有良好的動態(tài)紋理表示特性。基于動態(tài)紋理數(shù)據(jù)集的實驗結(jié)果如表2所示,相對于LBP-TOP+SVM的識別方法,卷積神經(jīng)網(wǎng)絡(luò)對煙霧動態(tài)紋理的識別具有更好的效果,在準確率上提高了0.82%,并且在真負率上提高了1.54%,這表明本文方法在保證正檢率的同時減少了誤檢率。同時在后續(xù)完整視頻數(shù)據(jù)集的測試上,發(fā)現(xiàn)將動態(tài)紋理與靜態(tài)紋理相結(jié)合的誤檢率相對于僅使用靜態(tài)紋理的誤檢率大大降低,可見煙霧的動態(tài)特征可有效地作為靜態(tài)特征的補充。
表2 動態(tài)紋理的識別結(jié)果
完整視頻的檢測實驗:對于完整的監(jiān)控視頻,將本文方法(靜態(tài)紋理與動態(tài)紋理相結(jié)合)與文獻[3]的方法進行了實驗對比。非煙視頻誤檢幀數(shù)實驗結(jié)果見表3所示,本文方法的FAFNSV低于文獻[3]的方法,說明本文方法有效減少了非煙霧區(qū)域的誤檢率。特別是對于視頻2、3、5、9、10,本文方法有效避免了虛警發(fā)生。有煙視頻首次報警幀號實驗結(jié)果見表4,本文方法的FAFSV均低于文獻[3]方法,說明本文方法能夠更早地發(fā)現(xiàn)視頻中的煙霧事件及時預(yù)警、降低火災(zāi)帶來的危害。(本文動態(tài)紋理識別需要連續(xù)6幀視頻以計算光流序列作為輸入,故本文煙霧報警最早從第6幀開始。)
表3 非煙視頻誤檢幀數(shù)
表4 有煙視頻首次報警幀號
本文提出一種基于級聯(lián)CNN煙霧紋理識別框架視頻煙霧檢測方法,與傳統(tǒng)方法相比,該方法在有效降低了對非煙視頻誤檢的同時,可確保對有煙視頻的中的煙霧事件及時檢測和報警。本文系統(tǒng)采用C++編寫,基于Caffe[15]對CNN網(wǎng)絡(luò)進行訓(xùn)練和測試,并利用GPU加速,其運行速度可達到實時煙霧檢測的需要。
[1]YU Chun-yu,FANG Jun,WANG Jin-jun,et al. Video fire smoke detection using motion and color features[J]. Fire Technology,2010,46(3): 651-663.
[2]YUAN F. A fast accumulative motion orientation model based on integral image for video smoke detection[J]. Pattern Recognition Letters,2008,29(7): 925-932.
[3]YUAN F. A double mapping framework for extraction of shape-invariant features based on multi-scale partitions with AdaBoost for video smoke detection[J]. Pattern Recognition,2012,45(12): 4326-4336.
[4]TOREYIN B U,DEDEOGLU Y. Contour based smoke detection in video using wavelets[C]//14th European Signal Processing Conference. [S.l.]: IEEE,2006: 1-5.
[5]TIAN H,LI W,WANG L,et al. Smoke detection in video: an image separation approach[J]. International journal of computer vision,2014,106(2): 192-209.
[6]YU Chun-yu,ZHANG Yong-ming,FANG Jun,et al. Texture analysis of smoke for real-time fire detection[C]// Second International Workshop on Computer Science and Engineering,WCSE'09. [S.l.]: IEEE,2009,2: 511-515.
[7]TIAN H,LI W,OGUNBONA P,et al. Smoke detection in videos using non-redundant local binary pattern-based features[C]//2011 13th IEEE International Workshop on Multimedia Signal Processing (MMSP). [S.l.]: IEEE,2011: 1-4.
[8]YUAN F. Video-based smoke detection with histogram sequence of LBP and LBPV pyramids[J]. Fire Safety Journal,2011,46(3): 132-139.
[9]LéCUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE,1998,86(11): 2278-2324.
[10]KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems. Lake Tahoe,USA: [s.n.],2012: 1097-1105.
[11]SZEGEDY C,LIU W,JIA Y,et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). [S.l.]: IEEE Computer Society,2014: 1-9.
[12]HE K,ZHANG X,REN S,et al. Deep residual learning for image recognition[EB/OL]. (2015-12-10). http://arxiv.org/ abs/1512.03385.
[13]YIN Q,CAO Z,JIANG Y,et al. Learning deep face representation: U.S,Patent 20,150,347,820[P]. 2015-12-03.
[14]ANNANE D,CHEVROLET J C,CHEVRET S,et al. Two-stream convolutional networks for action recognition in videos[J]. Advances in Neural Information Processing Systems,2014,1(4): 568-576.
[15]JIA Y,SHELHAMER E,DONAHUE J,et al. Caffe: Convolutional architecture for fast feature embedding [EB/OL]. (2014-06-20). http://arxiv.org/abs/1408.5093.
[16]LI Fei-fei,FERGUS R,PERONA P. Learning generative visual models from few training examples: an incremental Bayesian approach tested on 101 object categories[C]// Computer Vision and Image Understanding. [S.l.]: Elsevier,2004,106(1): 59-70.
[17]SOOMRO K,ZAMIR R A,SHAH M. UCF101: a dataset of 101 human action classes from videos in the wild [EB/OL]. (2012-12-03). http://arxiv.org/abs/1212.0402.
[18]OJALA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(7): 971-987.
[19]ZHAO G,PIETIK?INEN M. Dynamic texture recognition using local binary patterns with an application to facial expressions[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2007,29(6): 915-928.
編輯蔣曉
Dynamic Smoke Detection Using Cascaded Convolutional Neural Network for Surveillance Videos
CHEN Jun-zhou,WANG Zi-jie,CHEN Hong-han,and ZUO Lin-yi
(College of Information Science & Technology,Southwest Jiaotong UniversityChengdu610031)
The extraction of stable smoke features in complex scenes is a challenging task for video based smoke detection. For this issue,a convolutional neural network (CNN)framework which employs both static and dynamic features of the smoke is proposed. On the basis of analyzing the static features of individual frame,we further explore the dynamic features in spatial-temporal domain to reduce the influence of the noise from environment. Experimental results show that the proposed cascaded convolutional neural network framework performs well in real-time video based smoke detection for complex scenes.
convolutional neural networks;deep learning;texture features;video smoke detection
TP391
A
10.3969/j.issn.1001-0548.2016.06.020
2015 ? 12 ? 17;
2016 ? 06 ? 17
國家自然科學(xué)基金(61003143,61202191)
陳俊周(1979 ? ),男,博士,副教授,主要從事計算機視覺、模式識別、機器學(xué)習(xí)方面研究.