王廣龍, 朱文杰, 高鳳岐, 田 杰
(陸軍工程大學石家莊校區(qū) 納米技術與微系統(tǒng)實驗室,河北 石家莊 050003)
運動目標檢測是從場景中將對于研究任務感興趣的,重要的前景運動目標從環(huán)境背景中分離處理,以便用于后續(xù)的目標識別、跟蹤、智能視頻監(jiān)控、無人駕駛等高層次應用[1,2]。現有的運動目標檢測方法[3]主要分為三大類。幀差法運算簡單、處理速度快,但檢測結果容易存在斷裂和拖影現象;光流法可以適應于動態(tài)背景的場景,但實時性較差;背景建模法是其中計算復雜度適中、可用于實際場景且檢測效果較好的一類方法。文獻[4]對傳統(tǒng)的高斯混合模型(Gaussian mixture model,GMM)的背景模型個數、學習率及閾值參數等進行改進,取得了較好的效果;文獻[5]采用亮度、色度空間分量分離判別的方法進行建模及更新,但對于強目標陰影檢測及去除效果較差。
本文采用GMM算法超像素馬爾科夫隨機場(Markov random field,MRF)建模并通過圖切法進行求解,得到最終的運動目標檢測結果。
位置(i,j)處的像素在t時刻取值I(i,j),t滿足的概率分布
η(I(i,j),t;μ(i,j),t,n,Σ(i,j),t,n)
(1)
式中K為GMM中高斯分布的個數;w(i,j),t,n,μ(i,j),t,n,Σ(i,j),t,n分別為對應于描述t時刻(i,j)處像素的第n個高斯分布的權重、均值和協(xié)方差矩陣,η為高斯概率密度函數。為簡化計算,通常假定協(xié)方差矩陣用下式計算
(2)
式中E單位矩陣。由于視頻序列是動態(tài)變化的過程,則
|I(i,j),t-μ(i,j),t,n|≤Dσ(i,j),t,n
(3)
式中D為置信度參數。式(3)表示若新輸入的像素I(i,j),t位于某一個高斯項均值之差在Tσ(i,j),t,n范圍內,則T(i,j),t與該高斯項匹配。對匹配的高斯項用式(4)~式(6)[6]進行更新
w(i,j),t,n=(1-α)w(i,j),t-1,n+α
(4)
μ(i,j),t,n=(1-β)μ(i,j),t-1,n+βI(i,j),t
(5)
(I(i,j),t-μ(i,j),t,n)
(6)
式中α,β為參數學習速率。
如果沒有高斯項與I(i,j),t匹配,則將所有高斯項中權重最小的一項分別用一個較小的權值初值w0,較大的方差初值σ0進行初始化。然后對K個高斯項按w(i,j),t,n/σ(i,j),t,n降序排列,選擇前B個滿足式(7)的項為背景高斯分布
(7)
式中T為0~1間的閾值參數。如果I(i,j),t與B個背景高斯項都不能滿足式(3),則該點為前景目標,否則為背景像素。
超像素的一個特性是其和物體的邊緣對齊[7]。
本文在經典SLIC算法[7]的基礎上對其進行改進。SLIC算法首先將待處理圖像劃分為大小規(guī)則的區(qū)域;之后,將每一個區(qū)域的中心點移動到周圍3×3鄰域內的梯度最低點處,以避免將超像素的中心選在了圖像的邊緣輪廓位置;然后從每一個中心點位置開始,通過K-means對每個區(qū)域進行聚類,反復迭代計算,調整聚類中心,直到聚類殘差小于一定的閾值聚類完成。與標準K-means聚類不同的是,SLIC算法中采用的K-means步驟,計算周圍像素與聚類中心點距離時只在聚類中心2N×2N范圍內進行,而不是搜索整個圖像區(qū)域,這樣可以極大提高搜索效率。
令F為第1節(jié)GMM檢測得到的輸入圖像對應的前景二值圖像,S表示原始對應的超像素圖像。令S∈Ω表示超像素圖像中的一個單元,|S|為該單元的像素總數,令IS∈S超像素單元S中的像素。根據F二值圖像結果,令
(8)
定義超像素S屬于前景的概率為
(9)
由P(S)的取值,根據式(10)對超像素圖像進行前背景分割判定,得到概率超像素二值圖像
(10)
MRF由貝葉斯理論框架下推理而來[8],利用最優(yōu)化算法,將運動目標前景檢測轉化為求解使后驗概率達到最大(maximum A posteriori,MAP)時的標記配置的最優(yōu)化問題。
超像素分解通常會得到過分割的圖像,并且通常前景目標會有很多個超像素單元組成,可以利用超像素之間的鄰域相關性信息增強前景目標的檢測結果。定義能量函數
(11)
式中fΩ∈{0,1}為前景/背景的標號域;Ne為鄰域,US(fS)為自相關項;VST(fS,fT)與條件概率項相對應。
對于某一超像素單元S來說,希望將其劃分為概率最大的標簽fS,此時對應的劃分代價US(fS)為達到最小,因此標記概率與代價成反比,取S屬于標簽fS的概率的負對數值來計算代價函數US(fS)為。定義對任一個超像素單元S劃分的代價函數為
US(fS)-lnP(S)fS-ln(1-P(S))(1-fS)
(12)
而對于任意兩個相鄰的超像素S和T,如果S和T具有很強的相似性,同屬于前景目標或靜止背景,則此時將S和T分開(劃分為不同類別)的代價較大。本文用超像素單元S和T中心點的距離來衡量其相關性,距離越近,則其相關性越高,同屬一類的可能性也越大。因此定義連接鄰域超像素S和T的邊對應的權重為
VST=(fS,fT)=|fS-fT| (λ1+λ2·e-β‖μS-μT‖)
(13)
如果鄰域超像素S和T的顏色均值μS和μT差別較大,則由λ2引入一個大的懲罰項。參數β用來表征顏色均值差分的期望。
圖切法可以將式(11)所示的能量最小化問題轉化為圖的最小切問題,基本思想是構造一個有向圖G=(V,e),式中V代表節(jié)點,e代表連接各個頂點鄰域像素的邊。對于運動目標檢測任務來說,只需要對像素屬于前景或者背景進行判定,屬于一個二分類問題,因此,其對應的有向圖中有兩個特殊的頂點,一個稱為源節(jié)點(source,s),另一個稱為匯節(jié)點(sink,s)。s和t節(jié)點分別對應著標號域中的前景和背景兩個標號,如圖1所示。任一像素頂點與s和t節(jié)點相連的邊的權重,即為式(11)所示的代價函數。
圖1 使用圖切法求解MRF問題示意
根據上文所述,本文提出的運動目標檢測算法的整體流程框圖如圖2所示。
圖2 算法整體處理流程框圖
分別選取CDnet2014數據庫[6]及采用實驗室搭建的實驗平臺獲取的視頻進行處理,并與在當前評測中效果較好的幾種典型的運動目標檢測算法進行定性和定量的實驗對比分析。這幾種算法分別是DPGMM[7],LBP[8],GMM[9],ViBe[10],IMBS[11]。實驗中本文算法參數設置如下:α=0.9,λ1=0.3,λ2=3。其他相關算法按照原始文獻中提出的參數值進行設定。
實驗選取CDNet2014中的6類室內外的典型場景,首先對本文算法的各個環(huán)節(jié)處理結果進行定性分析,結果如圖3所示。
圖3 CDNet2014數據庫不同場景下幾種算法運動目標檢測效果對比
圖3中從上到下依次為highway,boats,overpass,corridor及turbunence3數據序列,可以看出,本文算法都能得到比較好的效果,而本文經過概率超像素分解,及MRF模型處理之后得到的前景區(qū)域更加完整,且噪聲像素較少。同時傳統(tǒng)GMM檢測結果中含有很多的虛警像素而本文算法得到的結果則較為干凈和完整。
令TP為正確檢測的前景像素數,TN為正確檢測的背景像素數,FN為前景被檢測為背景的像素數,FP為背景被檢測為前景的像素數。采用如下參數指標[12]:檢出率Re=TP/(FP+FN),準確度Pr=TP/(TP+FP),誤正率FPR=FP/(FP+TN),誤負率FNR=FN/(TN+FP),錯分百分比PB=100(FN+FP)/(TP+FN+FP+TN),及F=2Re×Pr/(Re+Pr)值進行定量分析。表1給出了幾種算法在上述6個場景下得到的6類參數的平均值。
表1中對每類參數指標中最優(yōu)的兩種算法指標值進行了加粗顯示。可以看出本文提出的算法計算得到的指標值大都優(yōu)于其他算法。對于綜合評價指標F值,本文算法在所選的幾種對比算法中得到的綜合性能最優(yōu)。
表1 幾種算法在6個場景下的整體平均性能參數對比
圖4以highway視頻序列為例。從圖中可以看出,在視頻幀的絕大部分序列內,本文算法檢測結果的檢出率和精度指標均優(yōu)于其他兩種算法。
圖4 三種算法得到的Recall和Precision曲線
設計的實驗裝置由仿人眼中心距的雙目廣角攝像頭以及底部的機械支撐結構、雙自由度電機驅動機構等部分組成。測試硬件環(huán)境基于NVIDIA Jetson TX2平臺。軟件在Ubuntu Linux環(huán)境下基于OpenCV框架采用C++編程實現算法。實驗結果如圖5所示。
圖5 實際環(huán)境檢測結果
利用超像素分解,充分利用圖像的鄰域相關性信息,克服傳統(tǒng)GMM等基于單像素建模方法存在的缺陷;同時,由于超像素單元的數目比圖像原始的像素數目少得多,因此可以極大地降低后續(xù)MRF相關處理的運算量;本文還提出了概率超像素的概念,并將超像素概率算式融入MRF建模中的能量函數構造過程之中;通過圖切法進行最優(yōu)化求解,得到目標與背景的最優(yōu)劃分。在公開數據庫及實驗室裝置實測的視頻圖像上,均取得了較好的效果,關鍵參數指標相比對比算法得到了顯著提升。同時本文提出的算法是一種運算簡單,且可以和其他方法相結合的后處理方法,提高其他算法的性能。