王德忠 李 睿
(蘭州理工大學(xué)計(jì)算機(jī)與通信學(xué)院 甘肅 蘭州 730000)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的重點(diǎn)研究課題,將視頻中的運(yùn)動(dòng)目標(biāo)完整、準(zhǔn)確地檢測(cè)出來(lái)是當(dāng)前研究的難點(diǎn)[1]。在智能監(jiān)控視頻和無(wú)人機(jī)駕駛中目標(biāo)檢測(cè)應(yīng)用更加廣泛[2-3]。目前,比較完善的目標(biāo)檢測(cè)算法有幀差法[4]、光流法[5]、背景建模法[6]。其中,背景建模法中的GMM算法相較于其他算法檢測(cè)更完整,實(shí)時(shí)性更好,許多研究人員基于GMM算法進(jìn)行了改進(jìn)。文獻(xiàn)[7]引入雙極學(xué)習(xí)率和組合權(quán)重區(qū)分背景和運(yùn)動(dòng)區(qū)域,并通過(guò)顏色特征和空間連通性消除陰影;文獻(xiàn)[8]針對(duì)抗噪性能差、易受動(dòng)態(tài)背景干擾等問(wèn)題,提出GMM算法結(jié)合超像素馬爾可夫隨機(jī)場(chǎng)(MRF)的檢測(cè)算法;文獻(xiàn)[9]用樣本有效因子的歷史累加量反映背景模型的質(zhì)量,并用于動(dòng)態(tài)調(diào)整模型更新速度,同時(shí)對(duì)檢測(cè)出的前景區(qū)域進(jìn)行目標(biāo)分析,由分析結(jié)果間接控制模型更新。
以上算法雖然對(duì)GMM算法進(jìn)行了改進(jìn),但是,仍然沒(méi)有解決以下兩個(gè)問(wèn)題:1) GMM算法采用固定的高斯個(gè)數(shù)描述像素點(diǎn)的狀態(tài);2) 檢測(cè)不同視頻幀均采用固定的學(xué)習(xí)率更新,不能適應(yīng)場(chǎng)景外部環(huán)境的變化。本文針對(duì)以上兩個(gè)不足之處提出基于模糊熵和學(xué)習(xí)率自適應(yīng)的GMM目標(biāo)檢測(cè)算法。首先,將檢測(cè)視頻幀分割為三個(gè)模糊子集,計(jì)算出每個(gè)模糊子集的模糊熵,通過(guò)確定熵函數(shù)的最大值確定最佳閾值并選取高斯個(gè)數(shù)。然后計(jì)算出檢測(cè)幀與參考幀之間相關(guān)性,通過(guò)對(duì)比背景變化因子和背景變化系數(shù)確定不同場(chǎng)景下選擇不同的學(xué)習(xí)率。
GMM算法針對(duì)圖像中的每一個(gè)像素點(diǎn)建立K高斯分布,計(jì)算出每個(gè)像素點(diǎn)的灰度值μ0和方差σ0,通過(guò)加權(quán)和描述像素點(diǎn)的狀態(tài)。各項(xiàng)表達(dá)式如下:
(1)
(2)
(3)
(4)
在t時(shí)刻,新觀測(cè)值xt需要與當(dāng)前存在的k(1≤k≤K)個(gè)高斯模型進(jìn)行匹配,當(dāng)滿足式(5)時(shí),當(dāng)前像素點(diǎn)與高斯分布模型匹配,否則不匹配。
|xt-μi,t-1|≤2.5σi,t-1
(5)
式中:μi,t-1、σi,t-1分別為第i個(gè)高斯分布在t-1時(shí)刻的均值和方差。
(1) 若匹配,將匹配的高斯分布參數(shù)按式(6)-式(8)進(jìn)行更新。
ωi,t=(1-α)ωi,t-1+αMi,t
(6)
μi,t=(1-β)μi,t-1+βxt
(7)
(8)
(2) 對(duì)于沒(méi)有匹配成功的模型,用當(dāng)前幀的均值、初始化一個(gè)較大方差、較小權(quán)重的高斯模型,對(duì)于其他高斯模型,均值μ0和方差σ0均不變。
參數(shù)更新完成后,把K個(gè)高斯分布按ρi,t降序排列。選取前B個(gè)高斯分布作為背景像素的最佳描述模型。
(9)
式中:T為背景選取的閾值,一般取0.7~0.8。運(yùn)動(dòng)目標(biāo)檢測(cè)時(shí),當(dāng)前幀的像素值與B個(gè)高斯背景模型分別進(jìn)行比較,若像素值與任何一個(gè)模型匹配,該像素點(diǎn)為背景點(diǎn),若不匹配,則為前景運(yùn)動(dòng)目標(biāo)。
在視頻幀中,不同區(qū)域的變化狀態(tài)也是不同的,變化較大的區(qū)域呈現(xiàn)多峰狀態(tài),需要較多的高斯分布描述,變化較小的區(qū)域可能出現(xiàn)單峰狀態(tài),需要更少的高斯分布個(gè)數(shù)。固定的高斯分布描述不同區(qū)域的像素點(diǎn),浪費(fèi)了計(jì)算機(jī)的運(yùn)算資源,提高了檢測(cè)耗時(shí)。高斯分布個(gè)數(shù)與閾值T有關(guān),因此,實(shí)現(xiàn)閾值自適應(yīng),就能根據(jù)不同區(qū)域選擇合適的高斯分布個(gè)數(shù)。
在集合論中,對(duì)象x與集合A的關(guān)系是“屬于”與“不屬于”[10],描述了確定的概念。Zadth為了描述“亦彼亦此”的模糊概念,提出了模糊集合概念[11]。按照模糊子集的理論,隸屬度函數(shù)μΩ(x)表征觀測(cè)空間Ω的模糊集合,μΩ(x)的大小反映了元素屬于模糊集的程度[12]。本文中,圖像X的灰度值x(x∈[0,255])為觀測(cè)空間,將圖像X劃分三個(gè)模糊子集A1、A2、A3,采用Logistic函數(shù)[13]描述三個(gè)模糊子集的隸屬度函數(shù),分別為:
(10)
(11)
(12)
式中:xA1(xi)、xA2(xi)、xA3(xi)分別為模糊子集A1、A2、A3中像素灰度值;L和k實(shí)驗(yàn)取值為1和12;a的取值為[0,1],不同的取值會(huì)影響Logistic函數(shù)作為模糊算子時(shí)信息的丟失情況。當(dāng)x為無(wú)窮時(shí),值域在有限區(qū)間內(nèi),避免了過(guò)度增強(qiáng)和過(guò)度抑制,在參數(shù)上也易于獲取,本文選取a值為0.5。不同取值的Logistic函數(shù)圖像如圖1所示。
圖1 不同a值的Logistic函數(shù)曲線圖
在信息論中,熵的概念描述了研究對(duì)象的平均信息量[14]。在模糊領(lǐng)域中,度量模糊集合的信息量就是模糊熵,由于模糊子集的不同,圖像在不同模糊子集空間中的信息量存在差異[15]。通過(guò)最大模糊熵準(zhǔn)則,可以確定在不同模糊子集劃分下保留圖像的最大信息量。故選用最大模熵準(zhǔn)則確定閾值,自適應(yīng)選取高斯模型個(gè)數(shù)。
假設(shè)觀測(cè)空間X上的模糊集合為Ω,根據(jù)Zadth將模糊集合Ω的模糊熵定義為:
(13)
Zadth定義的模糊熵反映了灰度直方圖和隸屬度對(duì)模糊熵的影響,對(duì)圖像的模糊度量較準(zhǔn)確。
根據(jù)式(13)將觀測(cè)空間X的模糊熵和三個(gè)模糊子集的模糊熵分別定義為:
H(A)=H(A1)+H(A2)+H(A3)
(14)
(15)
(16)
(17)
通過(guò)式(15)-式(17)可知,模糊子集A1、A2、A3由參數(shù)t1、t2唯一確定。t1、t2將視頻幀劃分為不同變化的三個(gè)區(qū)域,分別為背景區(qū)域、噪聲區(qū)域、前景區(qū)域。其中:背景區(qū)域變化較小,甚至無(wú)變化,采用較少的高斯模型個(gè)數(shù);前景區(qū)域變化較大,需要較多的模型個(gè)數(shù);噪聲區(qū)域變化介于背景變化與目標(biāo)變化區(qū)域之間,因此,模型個(gè)數(shù)的選取要按照不同區(qū)域像素點(diǎn)平均灰度值的關(guān)系確定。關(guān)系式如下:
(18)
(19)
當(dāng)滿足式(18)時(shí),噪聲區(qū)域模型個(gè)數(shù)在背景區(qū)域模型個(gè)數(shù)基礎(chǔ)上增加1;當(dāng)滿足式(19)時(shí),模型個(gè)數(shù)增加2,噪聲區(qū)域的模型個(gè)數(shù)大于背景區(qū)域模型個(gè)數(shù),小于前景區(qū)域模型個(gè)數(shù)。式(13)取得最大值時(shí),t1、t2為最佳分割閾值,通過(guò)閾值分割的不同區(qū)域選取合適模型個(gè)數(shù)。
混合高斯采用固定的學(xué)習(xí)率更新背景。當(dāng)學(xué)習(xí)率選擇較小時(shí),抗干擾能力強(qiáng),但是背景更新時(shí)需要更多的時(shí)間適應(yīng)外部環(huán)境的變化;當(dāng)學(xué)習(xí)率選擇較大時(shí),雖然能夠快速適應(yīng)外部環(huán)境的變化,但是很容易映入噪聲,降低了檢測(cè)的準(zhǔn)確性,提高了檢測(cè)的誤檢性[16]。合適的學(xué)習(xí)率能夠適應(yīng)外部環(huán)境的變化和抑制噪聲的干擾。為解決上述學(xué)習(xí)率自適應(yīng)的問(wèn)題,本文提出一種自適應(yīng)選取學(xué)習(xí)率的方法。通過(guò)計(jì)算參考幀與檢測(cè)幀的相關(guān)系數(shù)作為學(xué)習(xí)率調(diào)整的參數(shù),然后引入背景變化因子和背景變化系數(shù),表征參考幀與檢測(cè)幀之間的背景變化和整個(gè)視頻中背景變化的情況,視頻幀相關(guān)系數(shù)為:
(20)
檢測(cè)幀動(dòng)態(tài)背景變化因子為:
(21)
背景變化系數(shù)為:
(22)
相關(guān)系數(shù)C(I1,I2)的取值越小,表明檢測(cè)幀與相關(guān)幀之間的相關(guān)性越弱,視頻幀中背景的動(dòng)態(tài)變化較大,選用較大的學(xué)習(xí)率快速適應(yīng)背景的變化,C(I1,I2)的取值越大,表明兩幀之間相關(guān)性越強(qiáng),背景動(dòng)態(tài)變化較小,選取較小的學(xué)習(xí)率即可。本文考慮到滿足快速適應(yīng)背景動(dòng)態(tài)變化的同時(shí)還要抑制噪聲的引入,故最終學(xué)習(xí)率的定義如下:
(23)
式中:a1、a2、a3是調(diào)節(jié)因子,根據(jù)實(shí)驗(yàn)調(diào)整得出。
算法的步驟如下:
(1) 輸入?yún)⒖紟M(jìn)行模型初建,計(jì)算出前視頻幀的各項(xiàng)參數(shù),對(duì)像素點(diǎn)構(gòu)造K個(gè)高斯模型。
(2) 通過(guò)模糊熵確定每一個(gè)像素點(diǎn)需要的高斯模型個(gè)數(shù),對(duì)已經(jīng)建立的高斯模型進(jìn)行更新。
(3) 模型匹配為前景點(diǎn),計(jì)算出視頻相關(guān)系數(shù)C、檢測(cè)幀動(dòng)態(tài)背景變化因子γ、背景變化平均系數(shù)ζ,判斷γ和ζ的關(guān)系,如式(23)所示。模型匹配不是為前景點(diǎn)時(shí),當(dāng)前像素取代權(quán)值最小的高斯分布。
(4) 更新權(quán)值、方差、均值。獲得前景圖像以及權(quán)值最高的高斯模型組成背景圖像,經(jīng)過(guò)填充處理獲得前景運(yùn)動(dòng)目標(biāo),對(duì)檢測(cè)結(jié)果進(jìn)行處理完善。算法流程如圖2所示。
圖2 改進(jìn)算法流程
文中α取值為0.017 5,實(shí)驗(yàn)環(huán)境:Windows7 Inter(R) core(TM) i3 CPU M380@2.53 GHz,內(nèi)存為2 GB的PC,編程軟件為MATLAB(2015b),高斯模型的最大個(gè)數(shù)為k=5,控制參ε0為0.01。調(diào)節(jié)因子a1、a2、a3的取值分別為0.31、0.46、0.50。不同a值對(duì)處理速度和精度對(duì)比如圖3所示。
圖3 不同a值對(duì)處理速度和精度對(duì)比
選取不同的模型個(gè)數(shù)對(duì)視頻進(jìn)行檢測(cè),結(jié)果如圖4所示,可以看出:當(dāng)K=3時(shí),背景對(duì)檢測(cè)結(jié)果影響較大,GMM算法的誤檢率也比較高;K=4時(shí),運(yùn)動(dòng)目標(biāo)輪廓比較完整,也能夠抑制背景的影響;當(dāng)K=5時(shí),抑制背景影響效果較好,但是目標(biāo)輪廓不完整;本文算法檢測(cè)出的運(yùn)動(dòng)目標(biāo)輪廓較完整,內(nèi)部沒(méi)有出現(xiàn)空洞,運(yùn)動(dòng)目標(biāo)完全檢測(cè)出的情況下很好地抑制了背景的影響。
(a) 原圖
(b) K=3時(shí)GMM檢測(cè)結(jié)果
(c) K=4時(shí)GMM檢測(cè)結(jié)果
(d) K=5時(shí)GMM檢測(cè)結(jié)果
(e) 本文算法檢測(cè)結(jié)果圖4 視頻1檢測(cè)結(jié)果對(duì)比
視頻中,水面的流動(dòng)使得背景一直處于動(dòng)態(tài)變化之中,GMM算法在學(xué)習(xí)率分別為0.001 34和0.003 52時(shí)進(jìn)行檢測(cè),由圖5可以看出:當(dāng)學(xué)習(xí)率為0.001 34時(shí),GMM算法能夠檢測(cè)出運(yùn)動(dòng)目標(biāo)輪廓,但無(wú)法完全抑制水面波動(dòng)的影響;當(dāng)學(xué)習(xí)為0.003 52時(shí),目標(biāo)輪廓空洞較多,水面波動(dòng)對(duì)檢測(cè)影響較大。文獻(xiàn)[9]中的學(xué)習(xí)率檢測(cè)時(shí),效果均優(yōu)于以上兩種檢測(cè)結(jié)果,但是運(yùn)動(dòng)目標(biāo)還是受到背景變化的影響。本文算法在背景波動(dòng)的情況下檢測(cè)出運(yùn)動(dòng)目標(biāo),并且克服了水面波動(dòng)對(duì)檢測(cè)結(jié)果的影響。
(a) 原圖
(b) β=0.001 34時(shí)GMM檢測(cè)結(jié)果
(c) β=0.003 52時(shí)GMM檢測(cè)結(jié)果
(d) 文獻(xiàn)[9]算法學(xué)習(xí)率檢測(cè)結(jié)果
(e) 本文算法檢測(cè)結(jié)果圖5 視頻2檢測(cè)結(jié)果對(duì)比
驗(yàn)證算法的評(píng)價(jià)標(biāo)準(zhǔn)有很多,為了直觀地分析本文算法的各項(xiàng)檢測(cè)性能,針對(duì)不同視頻采取不同性能指標(biāo)。視頻1采用識(shí)別率DR、誤檢率FAR、每幀節(jié)省的高斯分布個(gè)數(shù)、檢測(cè)耗時(shí)驗(yàn)證算法性能。視頻2在不同學(xué)習(xí)率下采用識(shí)別率DR、誤檢率FAR、背景更新耗時(shí)三個(gè)指標(biāo)對(duì)檢測(cè)結(jié)果進(jìn)行定量分析。識(shí)別率DR和誤檢率FAR的表達(dá)式如下:
(24)
(25)
式中:TP為檢測(cè)出屬于真實(shí)前景的像素?cái)?shù);FN和FP為未檢測(cè)出和錯(cuò)誤檢測(cè)出前景像素?cái)?shù)。對(duì)每一幀圖像進(jìn)行多次檢測(cè)后,不同模型個(gè)數(shù)在視頻1上的識(shí)別率DR、誤檢率FAR、平均每幀節(jié)省的高斯分布個(gè)數(shù)、檢測(cè)耗時(shí)如表1所示;不同學(xué)習(xí)率在視頻2上的識(shí)別率DR、誤檢率FAR、背景更新耗時(shí)如表2所示。
表1 不同模型個(gè)數(shù)檢測(cè)性能
表2 不同學(xué)習(xí)率檢測(cè)性能
通過(guò)表1數(shù)據(jù)分析發(fā)現(xiàn),GMM算法在不同K值下識(shí)別率和誤檢率均不同。K為3時(shí),模型個(gè)數(shù)較少,計(jì)算機(jī)耗時(shí)較低,但是運(yùn)動(dòng)目標(biāo)誤檢率較高;K為4時(shí),誤檢率較高,耗時(shí)增加;K為5時(shí),檢測(cè)耗時(shí)明顯增加,識(shí)別率較低。本文算法有效地降低了檢測(cè)耗時(shí)和誤檢率,提高了識(shí)別率,節(jié)省了較多的高斯分布個(gè)數(shù)。通過(guò)表2數(shù)據(jù)發(fā)現(xiàn),學(xué)習(xí)率不同時(shí),檢測(cè)各項(xiàng)性能有較大差別。當(dāng)學(xué)習(xí)率為0.001 34,識(shí)別率較高,誤檢率較低,但是背景更新耗時(shí)更長(zhǎng);當(dāng)學(xué)習(xí)率為0.003 52時(shí),識(shí)別率降低、誤檢率提高,但是背景更新時(shí)間降低。文獻(xiàn)[9]算法的檢測(cè)效果均優(yōu)于以上兩種,但是性能方面還沒(méi)有達(dá)到最優(yōu)。通過(guò)本文學(xué)習(xí)率進(jìn)行檢測(cè)時(shí),識(shí)別率提高,誤檢率降低,背景更新時(shí)間能夠滿足實(shí)時(shí)性的要求。
本文針對(duì)GMM算法采用固定的模型個(gè)數(shù),利用模糊子集將視頻幀分割為三部分,不同區(qū)域選擇不同個(gè)數(shù)的模型,節(jié)省每幀中高斯模型分布的個(gè)數(shù),降低計(jì)算量,提高了檢測(cè)實(shí)時(shí)性。同時(shí)為了實(shí)現(xiàn)自適應(yīng)學(xué)習(xí)率,計(jì)算出檢測(cè)幀與參考幀之間的相關(guān)性,引入?yún)⒖紟c檢測(cè)幀之間的背景變化因子,與視頻幀背景變化系數(shù)作對(duì)比,從而選擇不同的學(xué)習(xí)率,不僅能夠有效地抑制噪聲干擾,還能實(shí)時(shí)地更新背景,提高檢測(cè)的準(zhǔn)確率和實(shí)時(shí)性。接下來(lái)工作的研究重點(diǎn)就是在遠(yuǎn)距離無(wú)人機(jī)拍攝的視頻下準(zhǔn)確、完整地檢測(cè)出運(yùn)動(dòng)目標(biāo),并且提高算法在惡劣環(huán)境下小目標(biāo)以及隱藏目標(biāo)的識(shí)別率。