郭迎春 李卓
摘要 針對目前大多數(shù)視頻顯著性檢測中背景復(fù)雜以及顯著目標邊緣模糊、顯著目標內(nèi)部存在空洞不能一致高亮的問題,提出了一種基于動靜態(tài)邊緣和自適應(yīng)融合的視頻顯著性檢測算法。該算法利用靜態(tài)邊緣和運動邊緣信息融合后初步定位顯著目標,并對其進行一系列平滑操作獲得目標的精確邊緣然后計算梯度獲得初始顯著圖。然后,考慮前一幀對當(dāng)前幀的有效性約束,計算相鄰兩幀的顏色直方圖進而得到兩幀的相似度,由相似度決定兩幀在自適應(yīng)融合時各自的比重,得到當(dāng)前幀的最終顯著圖。在公開視頻顯著性數(shù)據(jù)集ViSal上算法F值接近0.8,MAE接近0.06,表明該方法性能優(yōu)于目前主流算法,對復(fù)雜背景有較強魯棒性,同時能夠快速、清晰而準確地提取出視頻序列中的顯著性目標。
關(guān) 鍵 詞 視頻顯著性;邊緣特征;自適應(yīng)融合;相似度;復(fù)雜背景
中圖分類號 TP391.41 文獻標志碼 A
0 引言
當(dāng)今社會信息技術(shù)迅猛發(fā)展,圖像和視頻是人們收集、傳遞各種信息的主要載體,人們在享受信息時代帶來便利的同時更加依賴計算機對爆炸增長的信息數(shù)據(jù)進行處理,然而計算機處理數(shù)據(jù)的速度遠遠達不到信息增長的速度。如何快速有效地從海量數(shù)據(jù)庫中篩選“重要的”,“吸引注意力的”信息是當(dāng)下圖像處理中亟待解決的問題,從1幅圖像中篩選人類視覺系統(tǒng)所感興趣的信息更多地需要借助于圖像的顯著性. 目前顯著目標檢測在多個領(lǐng)域已經(jīng)獲得了廣泛的應(yīng)用,如圖像分割[1]、目標跟蹤[2]、目標分類[3]等。
經(jīng)過近20年的發(fā)展,顯著性檢測模型的構(gòu)造方法多種多樣,顯著目標檢測最初是由靜態(tài)圖像的顯著性研究發(fā)展開始的,Itti等[4]于1998年首次提出了基于生物學(xué)特征的IT模型,認為像素與背景的對比是吸引人注意的重要因素,綜合考慮顏色、亮度、方向等多種特征得到顯著圖,但Itti模型只考慮了圖像的局部特征,沒有從全局特征來檢測圖像顯著特性,導(dǎo)致只在輪廓附近產(chǎn)生高顯著值而沒有均勻突出整個目標。而基于純計算的顯著性檢測方法中,大多都利用對比度來計算顯著值。Cheng等[5]提出了基于顏色直方圖的Histogram Based Contrast(HC)算法和基于全局對比度的Region Based Contrast(RC)算法,HC算法的顯著圖具有精細的細節(jié),RC算法生成空間增強的高質(zhì)量顯著圖,但這2種算法計算效率相對較低,不適合應(yīng)用于顯著運動目標的檢測。近幾年基于背景先驗的算法[6]發(fā)展迅速,背景優(yōu)先思想假設(shè)圖像某部分作為背景,一般取圖像邊界,考慮到圖像中除了背景就是前景,將找到的背景區(qū)域去除,得到的便是前景區(qū)域,即顯著性區(qū)域??紤]到人眼的視覺特性,人在觀看景物或者視頻時僅僅對一些運動目標更感興趣,所以視頻顯著性檢測正受到越來越多的關(guān)注[7]。但是視頻顯著性檢測存在一些問題,如運動特征常常只簡單地作為1個特征加入到圖像顯著性檢測模型中,如Guo等[8]在Spectral Residual Approach(SR)算法[9]基礎(chǔ)上舍棄幅度譜,只輸入圖像的相位譜,再加入運動特征,將圖像擴展為四元,通過四元傅里葉變換和逆變換獲得顯著圖,但存在同一區(qū)域的顯著值在連續(xù)的幀內(nèi)可能變化巨大的問題?;蛘叻謩e計算靜態(tài)顯著圖和運動顯著圖然后將其進行簡單地線性融合,忽略前景/背景區(qū)域的顯著值不應(yīng)該沿時間軸急劇變化,場景轉(zhuǎn)換除外[10]。 如Kim等[11]通過將紋理對比結(jié)合到多尺度框架中,計算空間和時間顯著圖,再進行加權(quán)融合,融合的結(jié)果很大程度取決于加權(quán)系數(shù)的選取,并且目標內(nèi)部存在空洞。Zhou等[12]利用多尺度時空顯著性來實現(xiàn)輸入高幀率(high-frame-rate)的視頻,輸出低幀率(low-frame-rate)的視頻。在每個尺度下采用流媒體分割,在區(qū)域內(nèi)使用多種低層級特征(顏色、前景、光流等)進行基于區(qū)域的對比度分析,設(shè)置中心位置、速度等局部優(yōu)先,最后將對比度與局部優(yōu)先融合得到最終的顯著圖,但只是單幀處理,背景噪聲嚴重。隨著視頻顯著性檢測算法越來越成熟,顯著目標檢測的準確率有很大提升,但仍存在背景噪聲、顯著目標不均勻等問題。為了得到更準確地顯著目標邊緣,本文提出了增強的時空邊緣檢測,對靜態(tài)和運動邊緣進行平滑細化,初步確定顯著目標。為了在能在復(fù)雜背景下精確一致突出顯著性目標,本文算法計算相鄰兩幀的相似性,其決定了前一幀與當(dāng)前幀融合時的權(quán)重。與目前比較先進的方法比較,獲得了不錯的效果。
1 顯著性檢測基本原理
人類視覺系統(tǒng)能夠從外界輸入的大量信息中快速選擇特定、感興趣的區(qū)域,因而稱為視覺選擇性注意機制[13]。這種機制可幫助人類從整幅圖像中篩選重要區(qū)域即顯著區(qū)域并忽略其中不感興趣的部分,在進一步圖像處理中能夠有針對性地處理所需要的信息。顯著性檢測的目的就是用計算機代替人眼實現(xiàn)對感興趣區(qū)域的提取。1幅圖像是由多個像素點組成的,顯著圖中各像素點的灰度值大小即顯著值,反映了該點的顯著性。
圖像的顯著性檢測的流程圖如圖1所示,通過分析人類視覺注意機制,首先利用圖像處理方法選擇性地提取圖像的不同特征圖,包括顏色特征、紋理特征、形狀特征、運動特征、局部特征、圖像頻率(相對較新)等,然后選擇設(shè)計合適的融合模型實現(xiàn)顯著目標的提取。融合方法包括加權(quán)平均法、貝葉斯估計方法、聚類分析方法等。
對視頻序列來說,時間顯著性分量指的就是運動特征。在人們觀察視頻的過程中,運動目標往往更容易成為視覺注意點即使前景背景對比度很大,因此時間域上的運動顯著性計算需要通過視頻序列運動檢測實現(xiàn),目前主流的運動目標檢測的方法包括幀差法、背景差法和光流法等。
2 基于邊緣特征和自適應(yīng)融合的檢測算法
在視頻圖像紋理復(fù)雜、背景中存在運動物體的情況下,單一的靜態(tài)邊緣信息和運動信息都不能準確地確定顯著目標的位置。并且考慮到多數(shù)自然視頻序列中連續(xù)視頻幀的前景/背景區(qū)域的顯著值不應(yīng)該沿時間軸急劇變化。所以本文首先利用動靜態(tài)邊緣特征初步定位顯著目標區(qū)域,經(jīng)過一系列形態(tài)學(xué)操作獲得顯著目標的精確邊緣,在時空邊緣的基礎(chǔ)上計算梯度得到初始顯著圖,然后考慮前一幀對當(dāng)前幀的有效性約束,計算2幀的顏色直方圖并得到2幀的相似度,根據(jù)將相似度確定2幀自適應(yīng)融合時的權(quán)重得到最終目標顯著圖。
2.1 邊緣特征檢測
邊緣檢測是圖像處理與計算機視覺中極為重要的1種分析圖像的方法。邊緣檢測的目的就是找到圖像中亮度變化劇烈的像素點構(gòu)成的集合,表現(xiàn)出來往往是輪廓。邊緣信息有助于確定顯著目標的位置,在對現(xiàn)實世界的圖像采集中,有4種情況會表現(xiàn)在圖像中時形成1個邊緣,深度的不連續(xù),即:物體處在不同的物平面上;表面方向的不連續(xù),如正方體的不同的2個面;物體材料不同,這樣會導(dǎo)致光的反射系數(shù)不同;場景中光照不同,如被樹萌投向的地面。
本文考慮到單一靜態(tài)邊緣在具有高紋理背景區(qū)域的復(fù)雜場景中不能有效表示顯著目標的問題,而合理地利用運動信息有助于提取顯著運動目標的邊緣,因為在光流場中突然變化的像素通常引起人們更多的關(guān)注。然而,在運動物體可能具有較小的運動,或背景中存在擾動的情況下,單獨的運動信息不能突出顯著的運動區(qū)域。這里綜合靜態(tài)邊緣和運動邊緣信息提取視頻中的顯著運動目標。
首先,對輸入的視頻序列[F={F1 ,F(xiàn)2, F3,…,F(xiàn)nframe}]逐幀進行SLIC超像素分割[14],設(shè)第k幀圖像的超像素塊集合為[Fk],超像素分割之后視頻序列表示為[F'={F'1 ,F(xiàn)'2 ,F(xiàn)'3,…,F(xiàn)'nframe}],對[F'k] 進行均值濾波后計算圖像中像素處[X=(x,y)]的顏色梯度幅值[MckX],得到視頻圖像的靜態(tài)邊緣
[Mck(X)=?F'k(X)]。 (1)
式中[?]表示梯度計算。利用大位移運動估計[15]計算幀間運動光流場[vk]的梯度幅值,得到運動邊緣
[Mok(X)=?vk(X)]。 (2)
對運動邊緣[Mok(X)]進行一系列形態(tài)學(xué)操作以獲得更精確地運動邊緣圖 ,閉運算操作填補斷裂使輪廓更光滑,開運算操作去掉細小的突出部分,再利用腐蝕操作和閉運算操作使邊緣精細。運動邊緣和靜態(tài)邊緣的融合采用線性融合,權(quán)重分別為0.3和0.7。
[Mk(X)=0.3?Mck(X)+0.7?Mok(X)]。 (3)
其次,在時空梯度的基礎(chǔ)下分別從上、下、左、右4個方向計算第k幀中每個像素點[X=(x,y)]的梯度[Gk(x,y)],根據(jù)在時空梯度場中的像素的梯度相對其它區(qū)域的梯度值更大來初步確定顯著目標區(qū)域[16]。計算公式如下:
[Gk,l(x,y)=Mk(x,y)+Gk,l(x,y-1)], (4)
[Gk,r(x,y)=Mk(x,y)+Gk,r(x,y+1)], (5)
[Gk,t(x,y)=Mk(x,y)+Gk,t(x+1,y)], (6)
[Gk,d(x,y)=Mk(x,y)+Gk,d(x-1,y)], (7)
式中:[Gk,l]、[Gk,r]、[Gk,t]和[Gk,d]分別是從左、右、上、下4個方向計算像素點的梯度,取4個方向最小值以抑制背景中的噪聲同時使得顯著目標區(qū)域內(nèi)部一致高亮,得到初始顯著圖[Tkx,y]:
[Tkx,y=minGk,lx,y,Gk,rx,y,Gk,tx,y,Gk,dx,y]。 (8)
圖2是對ViSal數(shù)據(jù)集中的Horse視頻幀圖像利用時空梯度提取顯著運動目標的初始顯著圖的示意圖。圖2b)中得到的靜態(tài)邊緣圖中既包括了顯著目標也包括了背景內(nèi)容,圖2c)中是運動邊緣,運動邊緣圖中抑制了背景,但提取顯著目標時存在某部位不準確,融合了靜態(tài)邊緣和運動邊緣融合后抑制了背景,也有效提取出顯著目標。進一步從上下左右4個方向來計算時空梯度圖中的梯度流得到初始顯著圖,圖中顯著目標已相對精準,內(nèi)部一致高亮。
2.2 自適應(yīng)融合機制
圖像融合是通過1個數(shù)學(xué)模型把來自不同傳感器的多幅圖像綜合成1幅滿足特定應(yīng)用需求的圖像的過程,目的是可以有效地把不同圖像傳感器的優(yōu)點結(jié)合起來,提高對圖像信息分析和提取的能力,以便于后續(xù)的圖像處理過程。大多數(shù)圖像融合利用簡單加權(quán)融合,也稱為像素加權(quán)平均法,是最簡單、直接的圖像融合方法。它具有簡單易實現(xiàn)、運算速度快的優(yōu)點,并能提高融合圖像的信噪比,但是這種方法削弱了圖像中的細節(jié)信息,降低了圖像的對比度,在一定程度上使得圖像中的邊緣變模糊,在多數(shù)應(yīng)用場合難以取得滿意的融合效果。
本文通過邊緣特征然后計算梯度得到的初始顯著圖雖然能夠精確地得到顯著目標的位置,但是仍然存在邊緣模糊和背景噪聲的問題,所以考慮前一幀對當(dāng)前幀的影響,有效約束背景噪聲和模糊邊緣。通過融合相鄰幀的初始顯著圖,自適應(yīng)地計算前一幀的顯著目標圖對當(dāng)前幀的顯著目標圖的影響比重,得到當(dāng)前幀的最終顯著圖。
假如視頻序列中同一場景中的幀具有很強的相關(guān)性和較小的差異,前一幀可以有效約束當(dāng)前幀的顯著區(qū)域以獲得更精確的運動目標顯著圖。反之,前一幀可能會與當(dāng)前幀有不同的顏色和亮度,顯著區(qū)域必然發(fā)生巨大變化,不適合作為當(dāng)前幀的顯著區(qū)域的1個先驗。本文提取圖像的顏色直方圖進行相鄰兩幀的相似度判斷,根據(jù)相似度確定相鄰2幀在融合時的權(quán)重。
提取相鄰幀的顏色直方圖[Histk-1]和[Histk],2幅圖像顏色直方圖差異越小則證明兩幀越相似,反之則可能目標的運動速度較快或存在場景變換。這里相鄰幀的相似度Simi可以表示為
[Simik=i=1Nmin(Histik,Histik-1) ,] (9)
式中[Histik]和[Histik-1]分別為相鄰幀在顏色直方圖中的第i個量化級值,[1≤i≤N]。為了自適應(yīng)地融合相鄰幀的初始顯著圖,這里構(gòu)造了權(quán)值取值函數(shù)[ωk],構(gòu)造規(guī)律是當(dāng)相似度Simi很大時,為了保證當(dāng)前幀本身的顯著性測量占據(jù)更多的比重,將前一幀的最大權(quán)值限定為0.5,反之,當(dāng)相似度Simi非常小時,權(quán)重[ω]隨之降低直至趨于0,公式如下:
[ωk=[sin(π?Simik-π/2)+1]4], (10)
式中,Simi取值從0到1,得到[0≤ω≤0.5],相應(yīng)的曲線如圖3所示。從圖3中可以看出權(quán)值[ω]隨相似度Simi呈S型變化趨勢。
根據(jù)權(quán)重[ω]自適應(yīng)融合相鄰幀的運動顯著圖得到第k幀的運動顯著圖[STk],公式如下:
[STk=ωkTk-1+(1-ωk)Tk ,] (11)
式中[Tk-1]和[Tk]分別表示前一幀和當(dāng)前幀的運動顯著圖,如公式8)所示。圖4展示了Horse的初始顯著圖和最終顯著圖,可以看到最終顯著圖背景噪聲較少。
3 實驗結(jié)果與分析
本文在ViSal[16] 數(shù)據(jù)集上進行了對比試驗. ViSal數(shù)據(jù)集是Wang等[16]為了更深入地探索具有各種前景/背景運動模式和復(fù)雜色彩分布的一般情況,構(gòu)建的一個專門為視頻顯著性檢測設(shè)計的新的數(shù)據(jù)集,包括17個具有挑戰(zhàn)性的視頻序列,包含復(fù)雜的顏色分布(摩托車,牛等),高度雜亂的背景(人,熊貓等),各種運動模式(靜態(tài):船,快速:汽車),快速拓撲變化(貓,摩托車等)和相機運動(gokart,摩托車等)。這些視頻的長度范圍從30到100幀。在ViSal數(shù)據(jù)集中主要比較2014年以來比較典型的算法:視頻序列顯著性檢測模型GF(Gradient Flow)[16]、SAG(Saliency-Aware Geodesic Video Object Segmentation)[17]、以及靜態(tài)圖像顯著性檢測模型SR[9]、RBD[6]。
在ViSal數(shù)據(jù)集上的實驗結(jié)果如圖5所示。自上而下依次為原圖、GF 、SAG 、SR 、RBD 、本文算法以及Ground Truth。從圖中可以看出,SR因算法本身簡單,只輕微突出了邊緣,存在空洞現(xiàn)象,而RBD是基于背景先驗的算法,當(dāng)顯著目標出現(xiàn)在邊緣時會失效,在背景復(fù)雜的情況下會有嚴重的背景噪聲,與靜態(tài)顯著性檢測模型相比,視頻顯著性模型考慮了運動信息,效果相對提升了很多,如GF、SAG。本文的方法相對更接近Ground Truth,在背景噪聲和顯著目標邊緣以及一致高亮顯著目標方面均優(yōu)于其他算法。
本文采用的客觀評價指標是PR曲線、F值以及平均絕對誤差(Mean Absolute Error,MAE)。PR曲線指的是Precision-Recall曲線,為查準率-查全率曲線。PR曲線在分類、檢索等領(lǐng)域有著廣泛的使用,來表現(xiàn)分類/檢索的性能。precision是檢索出來的結(jié)果中,相關(guān)的比率;recall是檢索出來的結(jié)果中,相關(guān)的結(jié)果占數(shù)據(jù)集中所有相關(guān)結(jié)果的比率. ppre:正確預(yù)測正樣本/所有預(yù)測為正樣本;rre:正確預(yù)測正樣本/真實值為正樣本。
F值是精度和召回率的調(diào)和平均值,以評估整體性能。
[F=(1+β)?ppre?rreβ?ppre?rre] , (12)
式中,[β]控制著分割準確率和分割完全率的權(quán)重,這里選擇[β=0.3],這是1個常用的選擇。
MAE估計顯著圖和Ground Truth之間的近似度,將其歸一化為[0,1]。MAE提供了1種新的評估方法,它直接測量顯著圖與Ground Truth的接近程度。從圖6中PR曲線可以看出,本文方法無論在召回率還是精度方面相對其他算法都有明顯的改進,最靠近圖表右上方,且在高精確度上有最長的水平持續(xù)區(qū)間。平均F值接近0.8,平均 MAE 在 0.06 左右,明顯優(yōu)于其他算法,表明本文結(jié)果和真值更加接近。
本文所述算法的運行環(huán)境為Windows7,內(nèi)存32 G, Intel(R) Xeon(R) CPU E5-1650 v3 @ 3.50 GHz. 在MATLAB R2014a平臺上進行。各個算法都直接運行作者公布的源代碼,所有代碼都在MATLAB R2014a平臺下重新運行,不同算法的平均運行時間比較如表1所示,靜態(tài)顯著性檢測方法用時較短,因其算法結(jié)構(gòu)比較簡單,效果也相對差。時空顯著性算法需要計算光流,表1所示均不包括計算光流的時間,GF算法在時間上較本文算法快,但精度相對較差。本文算法在時間上相對SAG較快,并且在背景噪聲和一致突出目標方面有更好的效果。
4 結(jié)論
本文通過計算動靜態(tài)邊緣特征,計算梯度后初步確定顯著目標,考慮前一幀對當(dāng)前幀的約束作用,由相鄰2幀的相似度決定2幀自適應(yīng)融合時的比重,得到最終顯著圖,在ViSal公開視頻顯著性檢測數(shù)據(jù)集上實驗,結(jié)果表明本文算法具有有效性和通用性。本文算法存在的問題是當(dāng)背景也在運動并且邊緣很明顯時,容易將背景同樣檢測為顯著目標突出,如何在復(fù)雜運動背景的圖像中獲得更準確的顯著圖,這也是今后研究的方向和重點。
參考文獻:
[1] ROTHER C,KOLMOGOROV V,BLAKE A. Grabcut:interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics,2004,23(1):309-314.
[2] MAHADEVAN V,VASOONCEIOS N. Saliency-based discriminant tracking[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR),Miami,USA,2009:1007-1013.
[3] 肖德貴,辛晨,張婷,等.顯著性紋理結(jié)構(gòu)特征及車載環(huán)境下的行人檢測[J].軟件學(xué)報,2014,25(3):675-689.
[4] ITTI L,KOCH C,and NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[5] CHENG M M,ZHANG G X,MITRA N J,et al. Global contrast based salient region detection[C]//IEEE International Conference on Computer Vision and Pattern Recognition,Colorado Springs,2011:409-416.
[6] ZHU W J,LIANG S,WEI Y C,et al. Saliency Optimization from Robust Background Detection[C]// IEEE International Conference on Computer Vision and Pattern Recognition,Columbus,2014:2814-2821.
[7] 蔣寓文,譚樂怡,王守覺.選擇性背景優(yōu)先的顯著性檢測模型[J].電子與信息學(xué)報,2015,37(1):130-136.
[8] GUO C L,MA Q,ZHANG L M. Spatio-temporal saliency detection using phase spectrum of quaternion fourier transform[C]//Computer Vision and Pattern Recognition,Anchorage,AK,USA,2007:1-8.
[9] HOU X D,ZHANG L Q. Saliency Detection:A spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition,Minneapolis,Minnesota,USA,2007:1-8.
[10] 田暢,姜青竹,吳澤民,等. 基于區(qū)域協(xié)方差的視頻顯著度局部空時優(yōu)化模型[J]. 電子與信息學(xué)報,2016,38(7):1586-1593.
[11] KIM W,KIM C. Spatiotemporal saliency detection using textural contrast and its applications[J]. IEEE Transactions on Circuits & Systems for Video Technology,2014,24(4):646-659.
[12] ZHOU F,KANG S B,COHEN M F. Time-mapping using space-time saliency[C]//IEEE Conference on Computer Vision and Pattern Recognition,Columbus,USA,2014:3358-3365.
[13] DESIMONE R,DUNCAN J. Neural mechanisms of selective visual attention[J]. Annual review of neuroscience,1995,18(1):193-222.
[14] ACHANTA R,SHAJI A,SMITH K,et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2274-2281.
[15] BROX T,MALIK J. Large displacement optical flow:descriptor matching in variational motion estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,33(3):500-513.
[16] WANG W G,SHEN J B,and SHAO L. Consistent Video Saliency Using Local Gradient Flow Optimization and Global Refinement[J]. IEEE Transactions on Image Processing,2015,24(10):1-12.
[17] WANG W G,SHEN J B,PORIKLI F. Saliency-aware geodesic video object segmentation[C]//IEEE Conference on Computer Vision and Pattern Recognition,Boston,USA,2015:3395-3402.
[責(zé)任編輯 田 豐]