詹瑾++趙慧民++傅仁軒
【摘 要】為了解決移動通信視頻監(jiān)控的目標(biāo)追蹤問題,提出一種新的空間域視頻壓縮感知模型,該模型首先通過測量矩陣獲取視頻少量樣本值,然后通過該樣本值同時重構(gòu)運動目標(biāo)、背景和視頻序列,最后通過視頻序列估計得到一個置信圖,可以進一步提高目標(biāo)的重構(gòu)質(zhì)量。大量的實驗證明,該模型與典型的空域檢測技術(shù)比較,能夠降低視頻檢測的數(shù)據(jù)量,并有效地重構(gòu)視頻目標(biāo),且對運動干擾具有更好的魯棒性。
壓縮感知 視頻檢測 目標(biāo)重構(gòu) 魯棒性
1 引言
隨著傳感器網(wǎng)絡(luò)在視頻監(jiān)控中的廣泛應(yīng)用,有限通信帶寬條件下的高分辨率視頻獲取技術(shù)成為多媒體研究的焦點。
移動通信中,通常檢測運動目標(biāo)的方法是背景消除法(BS,Background Subtraction)[1],它首先估計背景模型,然后通過該模型比較視頻幀以檢測運動目標(biāo)。當(dāng)處理實際的視頻監(jiān)控序列時,BS遇到許多挑戰(zhàn),如光照的變化、運動干擾等[2]。最近,Tsai等[3]利用獨立成分分析(ICA,Independent Component Analysis)提出一種快速背景消除方案。這個方案在室內(nèi)視頻監(jiān)控環(huán)境下能夠容忍光照的變化。在動態(tài)復(fù)雜環(huán)境下,Zhang等[4]提出了一種內(nèi)核相似性模型(KSM,Kernel Similarity Modeling)的目標(biāo)檢測方法,但這個方法僅對簡單的干擾是魯棒的。在動態(tài)背景下,Kim等[5]在文獻中提出一種基于模糊彩色直方圖(FCH,F(xiàn)uzzy Color Histogram)的BS算法用于運動檢測,能夠最小化背景運動產(chǎn)生的色彩變化。根據(jù)背景圖像不同的目標(biāo)會引起頻率變化的情況,Chen等[6]提出一種分層背景模型。同時,Han等[7]根據(jù)顏色、梯度和類Haar空時特征變量的統(tǒng)計條件,提出一種分塊背景模型,它對光照和陰影的影響都是魯棒的。
上述BS算法都在空域操作,但需要大量的訓(xùn)練序列估計背景模型。因此,這種模型估計增加了計算成本,實際上限制了BS算法在多媒體傳感器網(wǎng)絡(luò)中的應(yīng)用。
最近提出的CS(Compressive Sensing)[8-10]理論說明,如果信號是稀疏的,它能夠通過遠小于Nyquist采樣率獲取的少量隨機測量值高概率恢復(fù)原始信號。CS能夠降低復(fù)雜性的同時對圖像進行采樣和壓縮處理,因而它具有降低視頻編碼器運算成本的優(yōu)越性[11]。因此,我們認為CS是視頻信號檢測的較好方案。早期運用CS進行運動目標(biāo)檢測的方式是通過圖像背景的測量值來訓(xùn)練目標(biāo)輪廓,然后再通過訓(xùn)練后的目標(biāo)輪廓檢測運動目標(biāo)[12]。但該算法需要大量的存儲和運算操作,不適合實時多媒體傳感器的網(wǎng)絡(luò)系統(tǒng)。2012年,Jiang等[13]通過感知的CS值提出一種低秩和稀疏分解的目標(biāo)檢測模型。盡管該模型能夠適應(yīng)于有限帶寬的多媒體傳感器網(wǎng)絡(luò),但由于視頻序列的小波系數(shù)并非稀疏,因而它對干擾和光照非魯棒。2013年,Yang等[14]基于CS理論提出一種僅需要10%的測量值就能同時恢復(fù)視頻目標(biāo)和背景的檢測方法。然而,該方法仍然需要小波變換系數(shù)實現(xiàn)稀疏分解,因此,在干擾和光照條件下容易產(chǎn)生虛假的目標(biāo)圖像。在文獻[15]中,Write等提出一種壓縮主成成分追蹤的低秩矩陣和稀疏分解的解決方案。該方案在壓縮域能夠?qū)崿F(xiàn)運動目標(biāo)檢測。
本文提出一種新的視頻壓縮感知模型(VCSM,Video Compressive Sensing Model),旨在通過CS測量值研究一種通信情況下新的目標(biāo)視頻方法,并解決視頻目標(biāo)的高精度重構(gòu)問題。VCSM的主要優(yōu)點是能用少量的CS測量值,同時重構(gòu)目標(biāo)、背景和視頻序列,且對運動干擾具有較好的魯棒性。
2 視頻壓縮感知模型架構(gòu)
圖1為文獻[16]提出的一種三維循環(huán)陣列采樣視頻的實現(xiàn)原理,它能夠同時對視頻信號進行感知和壓縮處理,并具有低復(fù)雜性和易于硬件實現(xiàn)的優(yōu)點。這種方法使用兩個步驟實現(xiàn)了視頻壓縮處理:1)隨機卷積。通過原始矢量幀Xt(t=1, 2, …, T)與循環(huán)矩陣C卷積產(chǎn)生循環(huán)測量值Cxt;2)隨機采樣。首先應(yīng)用排列矩陣P對Cxt進行隨機產(chǎn)生排列矢量PCxt,然后再應(yīng)用子采樣矩陣St對PCxt進行處理,最后產(chǎn)生一種降維的壓縮值矩陣A=StPCxt=[a1, a2, …, aT]。
基于圖1的結(jié)構(gòu),已知測量矩陣A,我們提出采用CS技術(shù)重構(gòu)運動視頻的目標(biāo)和背景。借鑒2009年Candes等提出的一種魯棒的主成成分分析(RPCA,Robust Principal Component Analysis)模型。該模型通過求解公式(1)的最小化問題,能同時重構(gòu)視頻的目標(biāo)和背景幀:
(1)
其中,X∈R(MN)×T代表原始視頻序列,B和F分別代表視頻的背景和目標(biāo)。但RPCA模型具有兩種缺陷,一是不能直接通過A重構(gòu)B和F;二是目標(biāo)圖像重構(gòu)僅對稀疏分布的視頻幀具有魯棒性[17-18]。然而,現(xiàn)實世界的視頻序列存在運動干擾,很少具有稀疏性。文獻[16]利用幀間和幀內(nèi)的相關(guān)性,提出一種三維全局變量(TV3D)的CS視頻重構(gòu)技術(shù)。TV3D具有低的復(fù)雜性(O(3×MN×T)),其實現(xiàn)模型為:
TV3D (2)
其中,D1,D2分別是一個幀內(nèi)水平和垂直的差分操作因子,而D3是時間變量差分操作因子。
為了能夠從采樣后的CS測量值直接檢測和重構(gòu)運動目標(biāo),我們結(jié)合RPCA和TV3D提出一種新的目標(biāo)、背景和視頻序列重構(gòu)模型。在CS域,這種模型可以描述為:
(3)
其中,X=[x1, x2, … xT]代表原始視頻序列,B=[b1, b2, … bT]為背景,F(xiàn)=[f1, f2, …, fT]為運動目標(biāo),Φ為CS域測量矩陣。在公式(3)中,TV3D用于提高視頻目標(biāo)重構(gòu)的質(zhì)量。由于公式(3)對可變初始化過程不敏感,因此,X,B,F(xiàn)的初始化矩陣可設(shè)置為0矩陣。這樣,rank(B)的最小化問題成為NP問題[17]。通過核范數(shù),我們把公式(3)問題變成求解如下問題:
(4)
在公式(4)中,TV3D用于保證低秩計算和稀疏分解的精確處理。為了求解公式(4),我們定義重構(gòu)的目標(biāo)、背景和視頻序列分別為。由于目標(biāo)重構(gòu)對劇烈運動的干擾非魯棒,Borenstein等[19]利用置信圖(confidence map)確定圖像區(qū)域的原理,提出一種優(yōu)良的圖像分割算法。受此啟發(fā),本文使用構(gòu)造一個置信圖并定義置信圖為M=[m1, m2, …, mT], mi∈0, 1;i=1, 2, …, T。在M中,置信圖是一個二進制矩陣,其中運動目標(biāo)的像素位置設(shè)置為1,運動干擾的像素位置設(shè)置為0。通過使用(這里代表了Hadamard乘積),我們想進一步改善視頻目標(biāo)圖像的重構(gòu)質(zhì)量。由于運動干擾的重復(fù)性和局部集中的特點[20-21],現(xiàn)實世界的視頻監(jiān)控系統(tǒng)能夠用高斯分布模型化[22-23]。本文使用混合高斯模型(MGM,Mixed Gaussian Model)來估計受運動干擾后像素影響的強度分布[22]:
(5)
這里f(xij)代表的第i列第j個像素xij的概率密度函數(shù),ω是MGM的加權(quán)值,?x和σx分別是置信圖算法估計得到的均值和標(biāo)準(zhǔn)方差,?p和Σp為xij的粒子軌跡矩陣估計得到的均值和協(xié)方差矩陣[22]。粒子軌跡矩陣Σp可通過Lagrangian粒子軌跡矩陣移位法實現(xiàn)[24-25],主要用于獲取運動干擾引起的像素偏差。
基于公式(5),本文中置信圖的實現(xiàn)流程如下:
(1)使用公式(5)估計每個像素的概率密度f(xij);
(2)設(shè)置門限閾值θ,判斷哪些像素屬于運動干擾或運動目標(biāo)值;
(3)如果f(xij)>θ,則像素xij=1;否則,xij=0。
重復(fù)以上過程,得到的二進制矩陣即為實現(xiàn)的置信圖M。
3 視頻目標(biāo)圖像的重構(gòu)算法
在公式(4)中,視頻壓縮的過程可以描述為αt=Φxt。由于使用P,C和St(t=1, 2, …, T)產(chǎn)生了壓縮測量矩陣A(如圖1所示),因此,我們應(yīng)用特殊形式rt=Cxt和StPrt=αt替代ΦX=A,則公式(4)可以寫為:
(6)
這里,R=[r1, r2, …, rT]是循環(huán)測量矩陣。對于公式(6)的實現(xiàn),每次迭代需要兩步進行。第1步,算法重構(gòu)原始視頻X;第2步,分割背景和目標(biāo)。為了重構(gòu)X,求解公式(7):
(7)
采用擴展拉格朗日乘法器(ALM)[26]求解公式(7),可以得到:
(8)
這里,λi和ν是拉格朗日乘法器矩陣??梢?,公式(8)可替代公式(7)求解。因此,ALM通過迭代拉格朗日函數(shù)和更新拉格朗日乘法器能夠解決公式(8)的最小化問題。其實現(xiàn)過程如下:
(9)
(10)
(11)
注意到,直接求解公式(9)很困難,因此,有:
(12)
(13)
(14)
公式(12)子問題的求解如下:
(15)
其中,Sα(·)代表軟閾值操作因子,它被定義為:
Sα(x)=sign(x)×max{|x|-α,0} (16)
其中,α表示條件軟閾值大小。
接著,我們通過如下步驟求解公式(13)子問題[16]:
(17)
(18)
公式(18)中PicSt是St選擇的CS測量值索引,rt是矩陣R的第t列值。對于公式(14),X可通過解二次方程式求解。固定Xk+1,求解公式(19)重構(gòu)B和F:
(19)
公式(19)的擴展拉格朗日函數(shù)可以表示為:
(20)
公式(20)中,Y是拉格朗日乘法器矩陣,<·,·>代表了矩陣內(nèi)積。使用ALM算法求解公式(20)中的最小化問題如下:
(21)
(22)
類似地,使用替換策略求解公式(21)中的每個元素的最小化如下:
(23)
(24)
綜合以上求解過程,視頻目標(biāo)檢測及其重構(gòu)算法的整個過程如圖2所示:
在上述算法中,置信圖M,
Dα(·)是矩陣Z的奇異值收縮因子,并定義為Dα(Z)=USα(Σ)VT。其中,U和V是實單位矩陣,∑是正則化對角矩陣。Sα(·)為矩陣∑的軟閾值操作因子。
4 實驗結(jié)果分析
為了量化算法的實現(xiàn)性能,視頻目標(biāo)的檢測精度利用F范數(shù)-測量值表示,并定義:
F測量=2×(精度×重構(gòu)率)/(精度+重構(gòu)率) (25)
其中,精度和重構(gòu)率為:
精度=TP/(TP+FP),重構(gòu)率=TP/(TP+FN) (26)
其中,TP、FP以及FN分別表示實正數(shù)、假正數(shù)以及假負數(shù)。F-測量值越高,表示視頻檢測精度的效率越好。表1列出了算法實現(xiàn)時的主要設(shè)置參數(shù):
在實驗中,我們對提出的VCSM和RPCA模型以及典型的基于背景消除算法的改進混合高斯模型(GMM)[29]進行了比較。VCSM、RPCA和GMM均在空域?qū)崿F(xiàn),所有的實驗使用HP計算機實現(xiàn)(EliteDesk 800 G1 SFF;Intel(R)Core(TM) i7_4790 CPU @3.60 Hz 3.6 GHz;安裝內(nèi)存:4.00 GB;系統(tǒng)類型:64位)。
為了和GMM比較,我們給出一種目標(biāo)重構(gòu)的突出比較形式。實驗選擇4種室內(nèi)視頻序列(機場大廳176×144×30,候機室160×128×30,餐廳160×120×30和商場大廈320×256×30)作為測試對象進行性能評估。實驗結(jié)果如圖3所示??梢钥吹?,VCSM僅需要CSR=0.2的測量值就能實現(xiàn)RPCA和GMM方法類似的視頻效果。
最后,我們選擇一組實際的戶外視頻進行實驗,進一步說明算法的實現(xiàn)效果。圖4隨機選擇4幀圖像進行實驗,包含陰影和攝像機抖動干擾。從圖4(b)可以清晰地看到,VCSM方法能比較準(zhǔn)確地區(qū)分目標(biāo)的輪廓形狀,且能完全地消除攝像機抖動干擾。而RPCA和GMM兩種方法都不能給出目標(biāo)的清晰效果。
5 結(jié)論
本文提出一種基于CS技術(shù)進行視頻序列檢測和運動目標(biāo)重構(gòu)的實現(xiàn)模型(VCSM),該模型能夠通過少量的測量值實現(xiàn)魯棒的目標(biāo)、背景和原始視頻重構(gòu)。其中,重構(gòu)的視頻序列可通過估計獲得的置信圖進一步提升運動目標(biāo)的重構(gòu)效果。大量的實驗結(jié)果表明,與典型的空域方法如RPCA、GMM比較,提出的VCSM方法對室內(nèi)和室外視頻均有較好的檢測和目標(biāo)重構(gòu)性能,且僅需要更少的數(shù)據(jù)量。尤其對于室外視頻序列,VCSM可以有效地消除運動干擾(如樹枝搖動、噴池水和視頻攝像機噪音等)。VCSM最大的問題是,算法求解核范數(shù)時計算復(fù)雜性較高。因此,未來我們將使用云計算及其在線并行技術(shù)實現(xiàn)VCSM對運動目標(biāo)的視頻分析。
參考文獻:
[1] O Barnich, M Van Droogenbroeck. ViBe: A Universal Background Subtraction Algorithm for Video Sequences[J]. IEEE on Image Processing, 2011,20(6): 1709-1724.
[2] Brutzer, B Hoferlin, G Heidemann. Evaluation of Background Subtraction Techniques for Video Surveillance[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2011: 1937-1944.
[3] T Du-Ming, L Shia-Chih. Independent Component Analysis-Based Background Subtraction for Indoor Surveillance[J]. IEEE Transactions Image Processsing, 2009,18(1): 158-167.
[4] Z Baochang, G Yongsheng, Z Sanqiang, et al. Kernel Similarity Modeling of Texture Pattern Flow for Motion Detection in Complex Background[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2011,21(1): 29-38.
[5] K Wonjun, K Changick. Background Subtraction for Dynamic Texture Scenes Using Fuzzy Color Histograms[J]. IEEE Signal Processing Letters, 2012,19(3): 127-130.
[6] S Chen, J Zhang, Y Li, et al. A Hierarchical Model Incorporating Segmented Regions and Pixel Descriptors for Video Background Subtraction[J]. IEEE Transactions on Industrial Informatics, 2012,8(1): 118-127.
[7] H Bohyung, LS Davis. Density-Based Multifeature Background Subtraction with Support Vector Machine[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012,34(5): 1017-1023.
[8] R Baraniuk. Compressive Sensing[J]. IEEE Signal Processing Magazine, 2007,24(4): 118-121.
[9] DL Donoho. Compressed Sensing[J]. IEEE Transactions on Information Theory, 2006,52(4): 1289-1306.
[10] EJ Candes, MB Wakin. An Introduction To Compressive Sampling[J]. IEEE Signal Processing Magazine, 2008,25(2): 21–30.
[11] J Ma, G Plonka, MY Hussaini. Compressive Video Sampling with Approximate Message Passing Decoding[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2012,22(9): 1354-1364.
[12] V Cevher, A Sankaranarayanan, M Duarte, et al. Compressive Sensing for Background Subtraction[C]//Springer Berlin Heidelberg. European Conference on Computer Vision(ECCV), 2008: 155-168.
[13] H Jiang, W Deng, Z Shen. Surveillance Video Processing Using Compressive Sensing[J]. Inverse Problems Imaging, 2012,6(2): 201-214.
[14] F Yang, H Jiang, Z Shen, et al. Adaptive Low Rank and Sparse Decomposition of Video Using Compressive Sensing[C]//IEEE. IEEE International Conference on Image Processing (ICIP), 2013: 1016-1020.
[15] J Wright, A Ganesh, K Min, et al. Compressive Principal Component Pursuit[J]. Information Inference, 2013,2(1): 32-68.
[16] X Shu, N Ahuja. Imaging Via Three-dimensional Compressive Sampling(3DCS)[C]//IEEE. IEEE International Conference on Computer Vision (ICCV), 2011: 439-446.
[17] B Bao, G Liu, C Xu, et al, Inductive Robust Principal Component Analysis[J]. IEEE Transactions Image Processsing, 2012,21(8): 3794-3800.
[18] EJ Candes, X Li, Y Ma, et al, Robust Principal Component Analysis[J]. J ACM, 2009,58(1): 1-37.
[19] E Borenstein, E Sharon, S Ullman. Combining Top-Down and Bottom-Up Segmentation[C]//IEEE. Conference on Computer Vision and Pattern Recognition Workshop, 2004: 46-50.
[20] M Shimizu, S Yoshimura, M Tanaka, et al. Super-resolution from Image Sequence under Influence of Hot-air Optical Turbulence[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2008: 1-8.
[21] O Oreifej, G Shu, T Pace, et al. A Two-stage Reconstruction Approach for Seeing Through Water[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2011: 1153-1160.
[22] O Oreifej, X Li, M Shah. Simultaneous Video Stabilization and Moving Object Detection in Turbulence[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013,35(2): 450-462.
[23] C Stauffer, WEL Grimson. Adaptive Background Mixture Models for Real-time Tracking[C]//IEEE. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 1999: 252-256.
[24] W Shandong, O Oreifej, M Shah. Action Recognition in Videos Acquired by A Moving Camera Using Motion Decomposition of Lagrangian Particle Trajectories[C]//IEEE. IEEE International Conference on Computer Vision (ICCV), 2011: 1419-1426.
[25] S Wu, BE Moore, M Shah. Chaotic Invariants of Lagrangian Particle Trajectories for Anomaly Detection in Crowded Scenes[C]//IEEE. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2010: 2054-2060.
[26] W Yin, S Morgan, J Yang, et al. Practical Compressive Sensing with Toeplitz and Circulant Matrices[J]. Visual Communications and Image Processing, 2010.
[27] H Yao, Z Debing, Y Jieping, et al. Fast and Accurate Matrix Completion Via Truncated Nuclear Norm Regularization[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013,35(9): 2117-2130.
[28] X Zhou, C Yang, Y Weichuan. Moving Object Detection by Detecting Contiguous Outliers in the Low-rank Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013,35(3): 597-610.
[29] Z Zivkovic. Improved Adaptive Gaussian Mixture Model for Background Subtraction[J]. International Association for Pattern Recognition, 2004(2): 28-31.