汪 鵬,張大蔚,陸正軍,李林昊
(1.河北工業(yè)大學 人工智能與數(shù)據(jù)科學學院,天津 300401;2.河北省大數(shù)據(jù)計算重點實驗室(河北工業(yè)大學),天津 300401;3.河北省數(shù)據(jù)驅動工業(yè)智能工程研究中心(河北工業(yè)大學),天津 300401;4.軍事科學院 國防工程研究院,北京 100036)
運動目標檢測是視頻處理的基礎任務之一,同時也是目標追蹤、行為識別等上層計算機視覺任務的預處理步驟。視頻中的對象可以分為背景和前景兩大類:背景指相對穩(wěn)定不變的事物,例如房屋;前景指具有運動顯著性的目標,例如行人。運動目標檢測的目的是提取視頻中的前景。
近年來,低秩和稀疏表示常應用于運動目標檢測任務,低秩-稀疏分解(Low-Rank and Sparse Decomposition,LRSD)和低秩矩陣因子分解(Low-Rank Matrix Factorization,LRMF)是兩種主流的算法框架。二者的主要區(qū)別是分解形式不同:LRSD將視頻同時分解為低秩背景和稀疏前景,兩種成分交替優(yōu)化,直到分解完成,例如魯棒性主成分分析(Robust Principal Component Analysis,RPCA)[1-2];LRMF 重點關注背景恢復,用兩個低秩矩陣的乘積表示背景,其余成分(前景和干擾成分)視為離群噪聲,再通過其他約束從中提取前景,其中的權重項起到修正背景的作用,從而使模型恢復出更準確的背景。
對于前景建模,普遍的改進策略是對前景施加空間平滑約束和時間連續(xù)約束。文獻[3-4]中提出采用3D 全變分(Total Variation,TV)范數(shù),在時空維度上約束前景;Zhu 等[5]采用2D TV 范數(shù)作為空間連續(xù)性的正則化項;Liu 等[6]將傳統(tǒng)的l1范數(shù)替換為組稀疏誘導范數(shù);在此基礎上,Zhang等[7]加入了噪聲建模的工作;馬爾可夫隨機場(Markov Random Field,MRF)是一種常用的約束稀疏性和空間連續(xù)性的方法[8-9],在消除動態(tài)背景和增強前景完整性方面表現(xiàn)出了良好性能。
對于背景建模,主要有兩種改進方案。針對核范數(shù)不能準確逼近秩函數(shù)的問題,研究人員提出多種核范數(shù)的變體[10-12]:在LRMF 中,文獻[13]利用混合高斯分布建模復雜噪聲(背景減除后的殘差)形成能進一步修正背景的權重,從而降低離群噪聲對背景估計的干擾;Li 等[14]提出廣義自適應閾值收縮算子來自適應且準確地稀疏奇異值,從而比常用的收縮算子在估計低秩背景方面具有更高的性能。但是,上述研究工作往往忽略了低秩矩陣的秩對移動目標檢測任務的影響。秩數(shù)即矩陣秩的數(shù)值控制著視頻背景的相關強度。隨著秩數(shù)的增大,背景模型能捕捉更多的動態(tài)背景;反之,背景模型會盡可能消除前景。所以,秩數(shù)很難平衡這兩方面。這也制約了現(xiàn)有的模型檢測精度的提升。
針對以上問題,部分研究者利用光流法提取的運動信息構造獨立于秩的權重項[15-16],進一步促進前景和背景的分離。然而,光流法的計算復雜度高,其效果受限于嚴格的假設條件,也無法適應間歇性運動。本文提出一種新的解決思路。傳統(tǒng)LRMF 中,噪聲的形成涉及與秩數(shù)有關的背景迭代解,所以不合理的秩數(shù)才可能導致噪聲建模失效,進而權重難以發(fā)揮修正背景的作用。本文設計了一種可靠性低秩矩陣因子分解模型(Reliability Low-Rank Matrix Factorization,RLRMF),其中的權重不受秩數(shù)的制約,攜帶了運動信息即持續(xù)性運動信息和間歇性運動信息,且可描述前景與背景之間的差異。構建權重的過程并不復雜且無嚴格的限制性假設。另外,部分研究工作對前景的時間和空間約束采用聯(lián)合優(yōu)化的方式,增加了算法的時間復雜度。所以,本文對前景依次施加時間和空間約束,降低了優(yōu)化過程的時間開銷。
本文主要的工作如下:
1)提出一種可靠性低秩矩陣因子分解模型用于綜合背景的估計(含有動態(tài)背景)。權重的構建僅依靠中值靜態(tài)背景和噪聲建模的結果,使權重和秩數(shù)相互獨立,形成的權重更為可靠且攜帶前景的運動信息。此外,綜合背景的秩處于較高的數(shù)值范圍。因此,該模型既能適應間歇性運動,也可準確刻畫動態(tài)背景進而降低其對前景檢測的干擾。
2)在時間約束方面,針對直接最小化相鄰前景幀的距離會擴增前景邊緣的問題,同時考慮到相鄰視頻幀的差異性,提出泛化差異性差分約束來更準確刻畫前景的時間連續(xù)性。具體而言,將相鄰原始幀的差分建模結果作為附加條件,即賦予前景邊緣和其他差異較大位置一個較小的權重,減小執(zhí)行時間連續(xù)約束時的誤差。
3)在靜態(tài)背景建模方面,針對中值背景模型無法適應間歇性運動的問題,提出一種基于偏態(tài)分布的中值背景模型,利用偏態(tài)分布的性質選取不含或含有少量前景像素的子序列,降低了離群值對中值的干擾,所以計算該子序列的中值可估計出干凈的靜態(tài)背景,有助于前景模型捕捉間歇性運動的目標。
4)在噪聲建模方面,考慮到噪聲呈偏態(tài)分布,對稱的概率分布不適合對該類噪聲建模;同時,噪聲中包含較多的離群值,高斯分布對離群值更為敏感,也無法逼近真實的噪聲分布。鑒于此,提出基于非對稱拉普拉斯分布的噪聲模型。
給定連續(xù)n幀的視頻序列,然后將所有幀向量化為列向量再重組為觀測矩陣D∈Rm×n,其中m=height×width,height和width分別表示視頻幀的高度和寬度。低秩背景B∈Rm×n可以通過如下LRMF 模型來獲得:
其 中:U∈Rm×r和V∈Rr×n是低秩矩陣,r為秩數(shù)且r?min{m,n}。W是與噪聲D-UV有關的權重矩陣。權重值與噪聲強度呈負相關。在獲取U和V的最優(yōu)解后,利用背景減除獲得噪聲,最后通過稀疏約束或結構化約束提取前景。
視頻中的光照變化、動態(tài)背景和前景等非穩(wěn)定因素都會使噪聲變得十分復雜,而混合分布在理論上能擬合任意的復雜未知分布。所以,Meng 等[13]在低秩背景建模的同時,利用混合高斯分布建模復雜噪聲。此后,在低秩因子分解過程中,Cao 等[17]提出基于混合冪指分布建模的LRMF[18]和受馬爾可夫隨機場約束的混合冪指分布。Yong 等[19]提出在線更新的混合高斯分布(采用TV 范數(shù)提取前景),通過混合噪聲模型推導出LRMF,其中的權重由混合分布的參數(shù)構成且表示了圖像中各位置受噪聲影響的程度。
本文模型涉及三個部分:首先,基于偏態(tài)分布的中值背景模型可估計出干凈的靜態(tài)背景;然后,利用非對稱拉普拉斯分布建模靜態(tài)背景減除后的偏態(tài)噪聲,將經(jīng)TV 范數(shù)平滑后的噪聲建模結果作為可靠性低秩因子分解模型的權重,該因子分解模型用以估計綜合背景(含動態(tài)背景);最后,通過泛化差異性差分和組稀疏誘導范數(shù)提取前景。
傳統(tǒng)中值背景建模的步驟是:在固定時間內,分別計算每個位置的像素序列的中值,最后獲取靜態(tài)背景。在統(tǒng)計學上,雖然中值相較均值更能抵抗離群像素的干擾,但在前景發(fā)生間歇性運動或慢運動時,被前景遮擋的位置積累了大量的離群像素,導致部分或全部前景也會被錯誤估計成背景。本文的改進思路是:在有序排列的像素序列中,選取一個不含或少量含有前景像素的穩(wěn)定序列;然后,計算穩(wěn)定序列的中值。依次選取和計算m個像素序列會增大時間開銷。本文利用均值將m個有序序列融合為一個新的序列h∈R1×n,通過計算h的穩(wěn)定序列間接找到m個原始序列的公共穩(wěn)定序列,減少了時間消耗。
對于不同場景,h中的元素可形成單峰分布或多峰復雜分布,但本文將它簡單視為偏態(tài)分布:前景像素作為離群值,位于整個分布的尾部;背景像素相對更稠密且聚集在分布的最高峰附近。若整體為左偏分布,說明大量前景像素積累在整體分布的左側,那么穩(wěn)定序列會在最高峰位置的右側;若整體為右偏分布,也同理。
本文首先利用混合高斯模型給出h中元素分布的概率密度函數(shù),并計算函數(shù)的峰值位置p,混合分布的參數(shù)采用常用的期望最大算法求解[13];其次,利用偏態(tài)分布中均值和中值的相對位置關系判斷分布的偏態(tài)性;然后,以p為中心、q為搜索半徑,定位到公共穩(wěn)定序列所在的區(qū)間;最后,計算穩(wěn)定序列的中值。完整的流程如算法1 所示。
算法1 基于偏態(tài)分布的中值背景算法。
輸入 觀測矩陣D∈Rm×n,搜索半徑q;
輸出 靜態(tài)背景b∈Rm×1。
綜上,本文創(chuàng)造性地利用像素分布的偏態(tài)性,基本消除了大量前景離群像素對中值估計的干擾,最終生成干凈的靜態(tài)背景;而且,在基于偏態(tài)分布的中值背景建模中,本文利用均值融合了m個有序序列,有利于加速靜態(tài)背景的估計。
算法1 獲取的靜態(tài)背景是列向量,它還需要按列的方向擴展成為靜態(tài)背景矩陣Bst∈Rm×n,再通過減除法獲取復雜噪聲矩陣,即
這種噪聲分布也具有偏態(tài)性,而且大量的稠密噪聲聚集在數(shù)值0 附近。簡單的對稱分布或主流的混合對稱分布無法有效擬合偏態(tài)分布;同時考慮到噪聲中含有較多的離群值,所以本文采用均值為0 的非對稱拉普拉斯分布建模這種噪聲,它的概率密度函數(shù)如下:
其中η和βη分別是左右兩側的尺度參數(shù)。當β=1 時,該分布退化為拉普拉斯分布。該分布的對數(shù)似然函數(shù)如下:
本文采用極大似然估計法交替求解出η和β。對于η,通過對式(4)求一階偏導并置為0,獲取它的解
其中:如果Eij<0,θij=1;否則θij=0。對于β的更新,首先對式(4)計算一階偏導并置為0,即
其次,將求解β的問題轉換為求解方程f(β)=0 的問題:
函數(shù)f對β的導數(shù)為,所以函數(shù)f必有零點??捎门nD迭代法計算β的數(shù)值解β(t+1)。
在噪聲建模完成后,需要構造可靠性低秩因子分解模型的權重W∈Rm×n。目前研究人員將光流法提取的運動信息整合為權重項[15-16],以促進前景和背景的分離。然而,一方面,光流法所要求的假設條件在現(xiàn)實中難以滿足且計算復雜度高;另一方面,光流法僅能提取持續(xù)性運動的前景信息,無法適應間歇性運動的情況,而噪聲E自然攜帶了視頻的運動信息即持續(xù)性運動和間歇性運動信息,并且可描述前景與背景之間的差異,其建模過程并不復雜,因此可用E的建模結果形成可靠性權重。具體而言,該權重矩陣由非對稱拉普拉斯分布的概率密度值構成,具體表達如下:
其中:η*和β*是已估計出的分布參數(shù)。MinMax(·)是最大最小歸一化方法,將概率密度值放縮到[0,1]區(qū)間。是2D 全變分(TV)范數(shù)的近端算子[5],增強了各密度值在空間上的連續(xù)性,可利用快速梯度投影法求解[20]。本文需要將W的每列重新展開到原始的二維空間上再執(zhí)行該算子。是硬閾值算子,用來稀疏與前景對應的小權重,從而進一步降低前景對背景估計的干擾。以下是可靠性低秩因子分解的數(shù)學表達:
其中:B∈Rm×n表示綜合背景(含有動態(tài)背景),本文通過等式B=UV約束了背景的低秩性;W為可靠性權重矩陣。通過經(jīng)空間平滑后的噪聲E(干凈靜態(tài)背景減除結果)建模結果形成了不受秩影響的權重,同時綜合背景矩陣的秩維持在較高數(shù)值范圍,故可靠性低秩因子分解模型可估計干凈的、含有背景細節(jié)特征(動態(tài)背景)的綜合背景,有利于緩解動態(tài)背景對前景檢測任務的干擾。需要強調的是,在可靠性權重的表達式中,E是靜態(tài)中值背景的減除結果,而基于偏態(tài)分布的中值背景算法可估計出干凈的靜態(tài)背景且不需要嚴格的條件假設;此外,本文假設噪聲E服從特定分布,這僅是對噪聲分布的描述同時也是將噪聲轉化為權重的步驟之一,而E本身已具有描述前景和背景差異的能力,因此這種分布假設并不限制綜合背景的估計。相較于由光流信息所形成的權重,本文的權重具有不受嚴格假設條件限制的優(yōu)勢,能夠適應地解決間歇性運動的問題。
式(9)定義了一個線性約束下的凸優(yōu)化問題。本文采用交替方向乘子法(Alternating Direction Method of Multipliers,ADMM)。利用增廣拉格朗日乘子去掉式(9)中的等式約束,獲取增廣拉格朗日優(yōu)化問題為:
其中:Z∈Rm×n為拉格朗日乘子,μ>0。
對于V、U和B,可通過在式(10)中分別對這3 個變量求一階偏導并置為0,獲取它們的閉式解:
另外,拉格朗日乘子Z和μ的更新如下:
ADMM 迭代求解的停止準則為達到最大迭代次數(shù)或者滿足不等式。本文設置最大迭代次數(shù)為80,ε=1E-5。
前景的持續(xù)運動導致了相鄰幀在前景邊緣處的像素距離增大。所以,約束前景的時間連續(xù)性時,直接最小化這兩幀的距離會使前景的邊緣處發(fā)生較大估計誤差,即檢測到的前景邊緣處出現(xiàn)擴增現(xiàn)象。換言之,直接最小化相鄰兩幀的一階差分(例如TVRPCA)并非是合理的時間約束方法。
為避免出現(xiàn)以上問題并設計更合理的時間約束項,本文在距離度量中引入相鄰視頻幀的差異信息。該信息由相鄰原始視頻幀的差分建模結果表示并形成差異性矩陣,該矩陣包含了相鄰原始視頻幀上各位置的相似度。在約束前景的時間連續(xù)性時,可通過這種相似度調整約束力度,即提高前景內部的時間約束力度,同時降低前景邊緣的估計誤差。離群噪聲基本位于前景邊緣且占據(jù)較小的比例,因而選用高斯分布建模。為了簡化計算,時間和空間約束可以依次執(zhí)行。
在可靠性低秩因子分解模型獲取綜合背景B后,本文通過背景減除獲得噪聲成分H∈Rm×n,再對H中的前景成分施加基于泛化差異性差分的時間約束,即
其中:S∈Rm×n是經(jīng)時間約束后的前景;S:k-1和S:k分別是S的第k-1 列和第k列。M∈Rm×n是差異性矩陣,M:k是M的第k列。該矩陣的表達式為:
其中:S'∈Rm×n是經(jīng)Ω(?)約束的前景。S'的第k列(S')k∈Rm×n包含m個元素,索引為{1,2,…,m}。將(S')k重新排列成一幅完整的圖像,它的像素可通過步長為1 的滑動窗口劃分成互相重疊的分組,本文選取3×3 大小的滑動窗口。表示S'的第k列中的第g個重疊組?!?‖∞表示無窮范數(shù)即計算每組中最大絕對值。Ω(?)可看作是各組無窮范數(shù)的l1范數(shù)約束,它迫使同組內的像素具有相似的值并保持稀疏性,從而保證前景檢測的完整性。式(21)需轉換成二次最小代價流的問題來求解[7]。在實驗中,式(21)可直接調用稀疏工具包Spams 中的ProximalGraph 函數(shù)求解。由于時間和空間約束被依次執(zhí)行,故此時可啟動該函數(shù)的并行計算功能,加速各幀前景的估計。
本文將背景與前景依次建模,總體的流程為三部分,如圖1 所示。
圖1 總體建模流程Fig.1 Overall modeling process
1)靜態(tài)背景建模:以觀測視頻D為輸入,基于偏態(tài)分布的中值背景模型估計出干凈的靜態(tài)背景b。
2)基于噪聲分析的綜合背景建模:由b獲取偏態(tài)噪聲E后,基于非對稱拉普拉斯分布的模型對E進行建模,并利用TV 范數(shù)和硬閾值算子分別約束噪聲建模結果的空間平滑性和稀疏性,以此獲得可靠性低秩因子分解模型中結構化的權重,執(zhí)行低秩因子分解以獲取綜合背景B。
3)結構化前景建模:分別執(zhí)行基于泛化差異性差分的時間約束和基于組稀疏誘導范數(shù)的空間約束提取噪聲(D-B)中的前景成分。
為驗證本文算法的視頻建模性能,在I2R數(shù)據(jù)集[21]的9段視頻中進行測試,并與PCP(Principal Component Pursuit)[1]、DECOLOR(DEtecting Contiguous Outliers in the Low-Rank Representation)[8]、LSD(Low-rank and structured Sparse Decomposition)[6]、TVRPCA(Total Variation regularized RPCA)[3]、E-LSD(Extended LSD)[7]和GSTO(Generalized Shrinkage Thresholding Operator)[14]算法從客觀評價指標和檢測的視覺效果兩方面進行比較。本文算法、LSD和E-LSD的實驗環(huán)境是Linux 系統(tǒng)中的Python3.7,其余算法的實驗環(huán)境是Matlab 2014b。設備配置為Intel Core i9-10900X CPU和128 GB RAM。
在仿真實驗中批量處理連續(xù)的220 幀。鑒于所提算法的超參數(shù)數(shù)量較多且各超參數(shù)可能會存在依賴關系,因此本文采用貝葉斯調參工具來設置各超參數(shù)數(shù)值或最佳取值范圍。本文算法的各項參數(shù)如下:q∈{10,50},r=10,λ1=0.2,λ2∈{0.05,0.15},λ3=1,λ4=0.3,λ5∈[0.02,0.09]。
不同算法的可視化檢測效果對比如圖2 所示。視頻WaterSurface 和Fountain 的背景均含有水的非剛體運動;Curtain 中含有搖擺的窗簾;Campus的背景是大面積的晃動樹葉;Escalator 是自動扶梯的監(jiān)控場景,這種動態(tài)背景非常容易誤檢為前景;Lobby 視頻中的目標會有較長時間的停留;其余三個視頻都是靜態(tài)背景且或多或少存在間歇性運動的目標。
圖2 不同算法針對不同視頻序列的實驗結果比較Fig.2 Experimental results comparison of different algorithms for different video sequences
由圖2 分析比較可知,PCP 受動態(tài)背景的干擾最為嚴重,提取到的前景摻雜較多的噪聲,因為它只是對前景施加了簡單的稀疏約束。另外,WaterSurface 和Curtain 中前景在某段時間內的運動幅度較小或處于短暫停留,這增大了檢測難度。而PCP 無法應對這種情況,提取的前景出現(xiàn)大面積缺失。其余對比算法在這兩段視頻中的性能有不同程度的改善,但前景也會存在較多缺失。而本文算法能較為完整地提取這類復雜運動的前景。DECOLOR 雖然可消除動態(tài)背景干擾,但會過度平滑前景邊緣。LSD 和E-LSD 都使用了組稀疏誘導范數(shù)約束前景的空間連續(xù)性,前者提取到的前景較為完整,但消除動態(tài)背景方面表現(xiàn)欠佳;而后者以及TVRPCA 的表現(xiàn)與其相反。GSTO 利用靈活的奇異值收縮算子恢復靜態(tài)背景,再以字典學習方法更加細致刻畫動態(tài)背景,最后在時空鄰域上引用MRF,相較于其他對比算法,該算法提高對動態(tài)背景干擾的抑制能力,與E-LSD 相比,進一步捕捉間歇性運動的前景。然而,在Lobby 視頻中,GSTO 捕捉間歇性運動前景的能力依然有限,而且前景邊緣的提取較為粗糙。本文算法不必引入其他動態(tài)背景建模方法,僅通過調高秩數(shù)將動態(tài)成分納入所估計的背景中,簡化了建模過程,并借助可靠性權重細致修正背景,因而不僅能消除或降低動態(tài)背景的干擾,而且能提取更完整、邊緣更精細的前景。在Lobby 視頻中,本文算法與LSD 能基本提取到較長時間停留的前景,且提取效果接近。TVRPCA 和本文算法均引入了空間和時間連續(xù)約束,前者采用3DTV 范數(shù)約束了視頻在水平、豎直和時間方向上的連續(xù)性,雖然能有效抑制動態(tài)背景,但前景檢測結果中出現(xiàn)了較多的缺失;后者結合組稀疏誘導范數(shù)和泛化差異性時間差分,既能強有力地約束空間連續(xù)性,而且有效刻畫了前景的時間連續(xù)性,最終提取更完整的前景。
為了定量評估各算法的性能,本文使用查準率(Precision,P)、查全率(Recall,R)以及它們的調和平均數(shù)F-measure 來評價檢測效果。查準率和查全率的定義如下:
其中:TP表示檢測到的正確前景像素數(shù)量,F(xiàn)P表示錯檢為前景的背景像素數(shù)量,F(xiàn)N表示錯檢為背景的前景像素數(shù)量。查準率可衡量算法的抗干擾性,而查全率考量的是算法的前景提取能力。為綜合考慮算法的檢測效果,可采用二者的調和平均數(shù),即
表1 是不同算法在5 個含有動態(tài)背景的視頻中查全率、查準率和F-measure 的對比結果。在WaterSurface 視頻中,動態(tài)背景是起伏的海浪。大多數(shù)算法的F-measure 值在0.90 左右,說明該視頻的檢測難度較小。相較于具有強競爭力的GSTO,本文算法在輕微損失查全率的情況下,有效提高查準率,從而增強了算法的抗干擾性。與次優(yōu)算法GSTO 相比,本文算法的F-measure 提高了約1 個百分點。
表1 不同算法的指標對比Tab.1 Indicators comparison of different algorithms
在Fountain 視頻中,動態(tài)背景是噴泉。本文算法、GSTO、DECOLOR 和E-LSD 的查準率均在0.85 以上,說明其中動態(tài)背景具有較弱的干擾性,大多數(shù)算法均可對其抑制。從查全率來看,GSTO 等5 個對比算法的結果在0.85 以下。本文算法在這兩個指標上表現(xiàn)均衡且均在較高水平,因而獲得最優(yōu)的F-measure 值。與次優(yōu)算法GSTO 相比,本文算法的F-measure 提高了約1 個百分點。
在Curtain 視頻中,動態(tài)背景是飄動的窗簾,而且前景出現(xiàn)較長時間的駐足狀態(tài)。從查準率來看,DECOLOR 獲得最優(yōu)結果,E-LSD 獲得次優(yōu)結果,GSTO 的結果略低但也達到了0.93,說明這些算法(包括本文算法)可適應抵抗飄動窗簾的干擾。從查全率來看,僅有本文算法和LSD 的結果在0.90以上,也說明了其中駐足的前景難以被準確提取。雖然GSTO 和本文算法的F-measure 均達到了最優(yōu)0.91,與次優(yōu)算法LSD 相比,提高了約6 個百分點,但是本文算法的查準率和查全率更為均衡。
在Campus 視頻中,動態(tài)背景是大面積搖擺的樹葉,其呈聚集分布。從查準率來看,這給前景提取造成非常強烈的干擾,TVRPCA 獲得了最優(yōu)的結果0.91,GSTO 的結果達到次優(yōu)值0.90,而本文算法的結果位列第三。從查全率來看,DECOLOR 和E-LSD 均取得了最優(yōu)值0.91,LSD 和本文算法的結果為次優(yōu)值。但是,由于本文算法表現(xiàn)出的均衡性,故其獲得了最優(yōu)的F-measure 值0.85。與次優(yōu)算法GSTO 相比,本文算法的F-measure 提高了約4 個百分點。
在Escalator 視頻中,動態(tài)背景是運行的自動扶梯,相較于搖擺的樹葉,更具干擾性。TVRPCA 獲得了最優(yōu)的查準率0.82,GSTO 獲得次優(yōu)值0.75,大多數(shù)算法的結果均在0.70以下。從查全率來看,DECOLOR 獲得了極為突出的結果0.95,但也能看出其表現(xiàn)非常不均衡,本文算法獲得了次優(yōu)的結果0.87。此外,從GSTO 和本文算法的對比發(fā)現(xiàn),在該視頻中,二者側重于不同方面,前者的抗干擾性較高,而后者的前景提取能力較強。但是,從F-measure 來看,本文算法的綜合能力更占優(yōu)。與次優(yōu)算法TVRPCA 相比,本文算法的F-measure 提高了約1 個百分點。
通過對表1 的詳細分析可知,大多數(shù)對比算法的查全率和查準率并不均衡。例如,LSD 和DECOLOR 的查全率普遍高于查準率,說明其更側重提取前景;TVRPCA 和E-LSD 的查準率普遍高于查全率,說明其更側重抑制動態(tài)背景。然而對于前景檢測任務而言,抗干擾性和前景提取能力同等重要。GSTO 在這兩個指標上的表現(xiàn)較為均衡,且F-measure 基本處于次優(yōu)值,所以具有更強的競爭性。本文算法不僅在5個含有不同動態(tài)背景的視頻中獲得最優(yōu)的F-measure 值,而且相較于所列的對比算法,其查準率和查全率的數(shù)值更為接近且處于較高水平(除Escalator 視頻外),即本文算法的抗干擾性和前景提取能力均較強,這也是本文算法的F-measure達到最優(yōu)值的主要原因。
本文提出一種基于可靠性低秩因子分解和泛化差異性差分的運動目標檢測模型。在背景建模方面,本文以低秩因子分解為基礎,通過基于偏態(tài)分布的中值背景模型獲得干凈的靜態(tài)背景;以非對稱拉普拉斯分布建模偏態(tài)噪聲,可靠性低秩因子分解中的權重來自經(jīng)空間平滑后的噪聲建模結果,提高了矩陣因子分解模型的穩(wěn)定性和背景估計的準確度。在前景檢測方面,泛化差異性差分項更合理約束前景的時間連續(xù)性并消除了前景邊緣擴增的潛在問題。實驗結果表明,與基準算法以及近年來的算法相比,本文算法在綜合評價指標和視覺效果上都具有較強的優(yōu)勢,可在降低動態(tài)背景干擾的同時也能更精確檢測出間歇性運動的前景,提取到的運動前景更具完整性。