賀濤,羅兵,郭會文
(1.五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020;2.中國科學(xué)院深圳先進(jìn)技術(shù)研究院 集成所智能仿生中心,廣東 深圳 518055)
基于張量分解的跑動行為檢測
賀濤1,羅兵1,郭會文2
(1.五邑大學(xué) 信息工程學(xué)院,廣東 江門 529020;2.中國科學(xué)院深圳先進(jìn)技術(shù)研究院 集成所智能仿生中心,廣東 深圳 518055)
異常行為檢測是智能安全監(jiān)控的重要內(nèi)容,而異常行為特征的提取是一個難點. 張量作為高維數(shù)據(jù)的自然表現(xiàn)形式能有效保留數(shù)據(jù)的結(jié)構(gòu)信息提取到運動目標(biāo). 本文將張量分解應(yīng)用于數(shù)字視頻處理,然后對稀疏前景張量時間軸方向上的纖維束做頻域處理進(jìn)一步優(yōu)化運動前景;最后使用多層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對運動目標(biāo)的跑動行為進(jìn)行識別. 仿真對比實驗證明了基于張量分解的方法比傳統(tǒng)方法處理效果更好、在實測視頻中本文跑動行為識別率達(dá)到81.4%.
張量分解;高維信號處理;卷積神經(jīng)網(wǎng)絡(luò);跑動檢測
視頻監(jiān)控中的異常行為檢測一直是安防領(lǐng)域的重要研究內(nèi)容. 基于視頻的異常行為檢測主要包含三部分內(nèi)容:運動目標(biāo)提取、行為特征的提取和表示以及異常行為檢測.
近幾十年來,靜態(tài)相機(jī)下的運動目標(biāo)檢測一般是根據(jù)背景像素點在時間上像素的值變化緩慢,而空間上背景像素點之間位置相對不變的特點實現(xiàn)的. 目前常用的方法有:幀間差分法[1],光流法[2],背景減除法[3]等. 幀間差分法優(yōu)點是方法簡單且計算速度快,滿足實時性的要求,但提取的目標(biāo)因為無法檢測出重疊部分容易出現(xiàn)空洞,三幀差法是這種方法最經(jīng)典的改進(jìn). 光流法能適用于一定的動態(tài)背景,但該方法對光照、陰影和遮擋等敏感,計算較復(fù)雜. 背景減除法的重點是利用先驗條件建立背景模型并不斷更新,用原圖減去背景得到運動目標(biāo),常用的是混合高斯模型[4],該方法適用于復(fù)雜環(huán)境,但計算量較大,對動態(tài)背景過分依賴高斯分布.
張量形式的數(shù)據(jù)表示有不同于矩陣的特性,能更好地表達(dá)高階數(shù)據(jù)復(fù)雜的本質(zhì)結(jié)構(gòu),這種本質(zhì)結(jié)構(gòu)信息往往能很好地反映視頻的時空特性,在視頻處理中意味著更多的信息量. 本文研究了現(xiàn)有的基于張量分解的各類運動目標(biāo)提取方法,比較了各種方法的性能,為這些張量分解算法的實際應(yīng)用提供參考;此外根據(jù)張量數(shù)據(jù)的形式和特性,本文提出了基于稀疏前景視頻的張量表示和一維快速傅里葉變換的特征優(yōu)化方法,以較低的計算復(fù)雜度,得到了很好的運動目標(biāo)提取效果. 我們將該方法用于行人的跑動檢測中,同時結(jié)合形態(tài)學(xué)處理、卷積神經(jīng)網(wǎng)絡(luò)等方法實現(xiàn)行人的跑動檢測.
一個算法是否有實際價值,除了考慮該算法的魯棒性,還應(yīng)該考慮實時性. 高維數(shù)據(jù)包含了巨大的計算量,那么實時性將成為選擇算法的一個重要因素. 本文研究比較了現(xiàn)有的各種基于張量分解的運動目標(biāo)提取方法,將快速有效的張量分解方法應(yīng)用于基于視頻的跑動檢測的運動目標(biāo)提取中.
目前張量分解有多種分解結(jié)構(gòu),傳統(tǒng)的方法有CP分解和Tucker分解,近年來也出現(xiàn)了一些新的分解方法如:TTD/QTTD. Tensor Network等. 但就用于運動目標(biāo)提取的張量分解方法而言,主要是基于傳統(tǒng)CP分解和Tucker分解算法的改進(jìn).
假設(shè)是三階的張量,表示為,進(jìn)行Tucker分解后,可將這個三階張量分解為一個核張量和三個因子矩陣U,V,W的n模式乘積,其中,表達(dá)式如下:
其中,矩陣U的大小為矩陣V的大小為矩陣W的大小為I3×K3,因子矩陣是相互正交的,三階張量的Tucker分解如下圖1所示.
圖1 三階張量的Tucker分解
與Tucker分解相比,CP分解更加側(cè)重于核張量的對角形式而不是因子矩陣的正交性. 三階張量的CP分解中,張量被分解為一組秩一張量的線性組合. 假設(shè)CP分解的成分個數(shù)為M,為了便于計算,通常在CP分解中假設(shè)因子矩陣的列是單位長度的,并引入一個權(quán)重向量λ∈RM,使CP分解表示為:
式中λm∈R且1≤m≤M,的秩為M可能的最小值. 三階張量的CP分解如圖2所示.
Sobral和Bouwmans等人在2016年發(fā)布了用于視頻中的背景建模和減除的低秩和稀疏工具集LRSLibrary[6],該工具集共收集了104種基于矩陣和張量的算法,主要用于圖像和視頻處理. 本文對比了基于張量分解的11種可用于灰度圖像的方法在跑動檢測數(shù)據(jù)庫中的前景提取效果以及各個算法的計算速度.
在對比實驗中采用的原始實驗視頻為640*480像素的彩色視頻,為便于實驗對比,將視頻縮放并灰度化處理成80*60像素的灰度視頻,幀數(shù)為43,處理后視頻第16幀的稀疏前景效果如圖3所示,二值化分割之后效果如圖4所示.
圖3 張量分解后稀疏前景圖
圖4 稀疏前景圖二值化分割結(jié)果
各個張量分解算法處理時間對比如表1,采集該實驗數(shù)據(jù)的電腦配置為:CPU為Intel Core i5-2410M,內(nèi)存為4GB,軟件環(huán)境為Windows 10+Matlab2015b. 分析圖4和表1得出如下結(jié)論:圖4-e、g、h、k、i對應(yīng)的算法提取運動目標(biāo)的效果較好. 處理時間上,CP-ALS、OSTD、Tucker-ALS 3種算法耗時最短,能取得近似實時的效果. 二者綜合比較,11種張量分解算法提取運動目標(biāo)效果以Tucker-ALS算法效果最好,所用時間最短,在實驗視頻上能取得10 fps的處理速度.
表1 各種張量分解算法計算時間對比
在張量形式的視頻處理中,三階張量視頻數(shù)據(jù),固定一個下標(biāo),得到矩陣稱為張量切片[7],如圖5-a是圖片大小為480*640,幀數(shù)為43幀視頻的張量切片表示. 當(dāng)固定兩個下標(biāo),只變動一個下表,將得到一維數(shù)據(jù)稱為張量纖維(Fibers).
分析圖5中的張量切片圖像,我們發(fā)現(xiàn)該圖片的行掃描線上的兩處突變分別對應(yīng)視頻中不同時間兩個從鏡頭中跑過的人,圖5-b為傅里葉譜圖和對應(yīng)的三維柱狀圖,譜圖像素點代表頻率值,柱狀圖的幅值由像素點亮度變碼而得. 圖5-b中頻譜圖中最大值是直流分量,傅里葉譜圖中越亮的點,對應(yīng)于灰度圖中對比越強(qiáng)烈的點. 去除圖5-b中傅里葉譜圖的直流分量,得到圖5-c中的譜圖,去除直流分量后傅里葉譜圖的亮度圖像中的高頻部分指梯度大的點,在切片圖中,亮度大的點對應(yīng)的正是運動目標(biāo),如圖5-c所示.
圖5 三維張量的高度—時間切片(Slices)
通過圖5-b、5-c切片圖的對比,去除了頻域直流分量的切片圖能準(zhǔn)確反映出運動目標(biāo)的位置. 一個二維傅里葉變換是一維傅里葉變換在每一個行掃描線和列掃描線上的傅里葉變換的疊加,進(jìn)一步分析,當(dāng)對稀疏前景張量數(shù)據(jù)時間軸方向上的纖維束做一維快速傅里葉變換,頻譜圖如圖6-a中右圖所示. 圖中頻譜圖中最大值是直流分量. 將圖6中傅里葉譜圖中的直流分量設(shè)置為0,得到圖6-b中頻譜圖譜圖以及張量切片圖.
圖6 張量纖維(Fibers)的傅里葉頻譜圖去除直流分量前后對比
經(jīng)過上述處理,將視頻張量纖維重新整合為張量數(shù)據(jù),再還原視頻幀,分離出的傅里葉直流分量還原的視頻第23幀,如圖8所示,用對應(yīng)幀的原圖減去圖8得到包含運動前景的圖9.
圖7 原視頻第23幀
圖8 變換后直流分量視頻幀
圖9 變換后非直流分量視頻幀
將該方法與混合高斯背景建模以及原始的Tucker-ALS算法處理的前景目標(biāo)提取效果對比如圖10所示,圖10-a為混合高斯背景建模的運動前景以及二值化結(jié)果,圖10-b為張量分解Tucker-ALS算法的稀疏運動前景以及二值化結(jié)果,圖10-c為張量分解Tucker-ALS算法與傅里葉變換融合的運動前景以及二值化結(jié)果. 圖中對比結(jié)果表明我們提出的方法更為有效. 在實時處理中,為提高處理速度,用簡單的FIR低通濾波器代替頻域處理.
圖10 運動目標(biāo)前景提取效果對比
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,該網(wǎng)絡(luò)直接以圖片數(shù)據(jù)作為輸入,避免了特征提取等復(fù)雜操作. 本文使用典型的5層卷積神經(jīng)訓(xùn)練分類器,該卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)成功運用于許多領(lǐng)域[8]. 經(jīng)過多次參數(shù)調(diào)試,確定本文采用卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示:
圖11 CNN網(wǎng)絡(luò)模型
卷積神經(jīng)的輸入層是80*40的圖片,圖片包括跑動和非跑的目標(biāo). 該網(wǎng)絡(luò)包含2個卷積層、2個下采樣層以及1個全鏈接層. 輸出分類結(jié)果,表示行人處于跑動或非跑動狀態(tài).
本文所用的行人跑動數(shù)據(jù)均由普通攝像頭在室外環(huán)境中獲取,采集環(huán)境包括馬拉松比賽場地、體育館跑道、街道等. 采集圖片分辨率為640*480,共獲得數(shù)萬個正樣本,從中精選了16 000個跑動的人的正樣本作為訓(xùn)練數(shù)據(jù)集,另外測試正負(fù)樣本的數(shù)量各為2 000個. 圖12是實驗中用到的部分跑動檢測正樣本. 訓(xùn)練達(dá)到10次時,識別率達(dá)到98%,如圖13所示為訓(xùn)練次數(shù)和訓(xùn)練識別率的關(guān)系圖.
圖12 部分跑動檢測正樣本數(shù)據(jù)
圖13 識別率變化圖
本系統(tǒng)基于Tucker-ALS張量分解方法[9]做特征提取,使用CNN訓(xùn)練得到的分類器對檢測到的運動目標(biāo)進(jìn)行檢測,系統(tǒng)框架如圖14所示.
因張量算法計算量大,實驗中將所有視頻從原來的640*480下采樣至160*120,以此進(jìn)一步提高運算速度. 檢測系統(tǒng)所用攝像頭設(shè)置為20 fps,在系統(tǒng)中,當(dāng)每次視頻滑動塊的視頻幀數(shù)過少,則檢測出的運動前景中噪聲多,運動目標(biāo)提取效果差,而幀數(shù)過多,增大了計算量,影響處理速度. 實際系統(tǒng)中設(shè)置輸入的視頻滑動塊的幀數(shù)N為40.
圖14 跑動檢測系統(tǒng)框架
在KTH人體行為數(shù)據(jù)庫中,該數(shù)據(jù)庫背景簡單,相機(jī)固定,我們以其中的walking和running兩類行為的視頻為測試的實驗數(shù)據(jù),我們檢測出了running視頻數(shù)據(jù)類中所有跑動的人,并且正常行走的視頻中無誤檢情況.
在背景更加復(fù)雜的實測環(huán)境中所有跑動的人以矩形框標(biāo)識. 我們測試了30個視頻,視頻考慮了背景、時間、光照以及行人跑動方向等因素. 每個測試視頻中均有跑動的人,視頻中跑動總?cè)藬?shù)為43人,跑動的人在視頻中出現(xiàn)時間平均約為10 s. 檢測出35人,檢測率為81.4% . 如圖15為部分跑動檢測結(jié)果,包含不同背景、不同人數(shù)和跑動方向的檢測效果.
圖15 跑動檢測部分結(jié)果
與傳統(tǒng)的幀間差分法加卷積神經(jīng)網(wǎng)絡(luò)方法相比,檢測速度提高了大約5%,運動目標(biāo)檢測精度提高了10%以上,總體跑動行為檢測準(zhǔn)確度提高了6.9%. 為了驗證使用卷積神經(jīng)網(wǎng)絡(luò)的分類器的性能,使用正負(fù)樣本訓(xùn)練數(shù)據(jù)訓(xùn)練SVM分類器與CNN分類器做實驗對比. 在實測視頻中檢測準(zhǔn)確率對比結(jié)果如表2所示.
表2 檢測準(zhǔn)確率對比
實測中,由于只使用了圖像局部特征,要準(zhǔn)確區(qū)分出跑動和正常行走,使得檢測產(chǎn)生誤檢較少.本文訓(xùn)練分類器所選跑動的正樣本具有顯著特征,正樣本中跑動動作大部分步幅大,或者具有高抬腿的典型跑動特征. 這樣做能避免跑動步幅較小時被認(rèn)為只是正常行走的誤檢情況,但產(chǎn)生了更多的漏檢情況. 此外如圖15中最后一張圖片所示,當(dāng)攝像頭視角方向與人的運動方向角度較小時無法檢測出跑動的人,主要原因是腿部的跑動特征在這種狀態(tài)下不明顯,而且該檢測方法的特征沒有深度信息,如何解決這個問題是跑動檢測值得深入研究的一個難點.
本文研究了基于張量分解的運動目標(biāo)提取算法,從處理時間上和運動目標(biāo)提取效果對比得到Tucker-ALS算法性能最優(yōu),這種對比分析有利于張量分解算法的實際應(yīng)用. 針對Tucker-ALS算法分離的稀疏前景的三階張量數(shù)據(jù)纖維束表示形式和特性,本文提出的基于頻域的優(yōu)化方法優(yōu)于傳統(tǒng)張量分解算法并在此基礎(chǔ)上使用多層卷積神經(jīng)網(wǎng)絡(luò)完成跑動行為識別. 后續(xù)工作中,基于張量分解高維特性,將研究如何將張量分解算法用于彩色圖像、深度圖像或多光譜圖像的運動目標(biāo)提取. 此外,在靜態(tài)相機(jī)下張量分解的運動目標(biāo)提取方法能取得非常好的效果,但此類方法不適用于動態(tài)相機(jī),動態(tài)相機(jī)下的運動目標(biāo)提取和異常行為檢測是一個值得研究的方向.
[1] FORESTI G L. Object recognition and tracking for remote video surveillance [J]. Circuits & Systems for Video Technology IEEE Transactions on, 1999, 9(7)∶ 1045-1062.
[2] BAKER S, SCHARSTEIN D, LEWIS J P, et al. A database and evaluation methodology for optical flow [J].International Journal of Computer Vision, 2011, 92(1)∶ 1-31.
[3] BOUWMANS T. Traditional and recent approaches in background modeling for foreground detection∶ An overview [J]. Computer Science Review, 2014(s 11-12)∶ 31-66.
[4] STAUFFER C, GRIMSON W E L. Learning patterns of activity using real-time tracking [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000, 22(8)∶ 747-757.
[5] 彭立中, 張帆, 周丙寅. 圖像與視頻處理的張量方法[J]. 數(shù)學(xué)進(jìn)展,2016, 45(6)∶ 840-860.
[6] BOUWMANS T, SOBRAL A, JAVED S, et al. Decomposition into low-rank plus additive matrices for background/ foreground separation∶ A review for a comparative evaluation with a large-scale dataset [J].Computer Science Review, 2016, 23(c)∶1-71.
[7] CICHOCKI A, ZDUNEK R, PHAN A H, et al. Nonnegative matrix and tensor factorizations∶ applications to exploratory multi-way data analysis and blind source separation [J]. 2009, 25(Q2)∶ 1-3.
[8] 許可. 卷積神經(jīng)網(wǎng)絡(luò)在圖像識別上的應(yīng)用的研究[D]. 杭州:浙江大學(xué),2012.
[9] GU Fanglin, ZHANG Hang, WANG Wenwu, et al. Generalized generating function with tucker decomposition and alternating least squares for underdetermined blind identification [J]. Journal on Advances in Signal Processing, 2013(1)∶ 1-9.
[責(zé)任編輯:韋 韜]
A Running Detection System Based on Tensor Decomposition
HE Tao1, LUO Bing1, GUO Hui-wen2
(1.School of Information Engineering, Wuyi University, Jiangmen 529020, China;2.ShenZhen Institutes of Advanced Technology, Chinese Academy of Science, Shenzhen 518055, China)
Anomaly detection is an important part of intelligent security monitoring, and the extraction of abnormal behavior characteristics is relatively difficult. As a natural representation of high-dimensional data, tensors can effectively preserve the structural information of data and extract the moving objects in video. In this paper, tensor decomposition is applied to digital video processing,and then the frequency domain of sparse tensor is processed in a frequency domain to further optimize the motion foreground. Finally, a multilayer convolutional neural network structure is used to train the classifier to detect the running behavior of moving targets. The simulation experiment shows that the tensor decomposition method is better than the traditional method, and the detection rate of running behavior is 81.4% in the realistic scene.
tensor decomposition; high dimensional signal processing; convolution neural networks;running detection
TP391.41
A
1006-7302(2017)04-0049-08
2017-03-14
賀濤(1989—),男,湖北宜昌人,在讀碩士生,主要研究方向是數(shù)字圖像處理;羅兵,教授,博士,碩士生導(dǎo)師,通信作者,主要研究方向是機(jī)器視覺技術(shù)及應(yīng)用.