王 明,崔 冬,李 剛,*,顧廣華
(1.燕山大學(xué) 信息科學(xué)與工程學(xué)院,河北 秦皇島 066004;2.河北省信息傳輸與信號處理重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)
圖像顯著性檢測就是將視覺系統(tǒng)中人眼感興趣的區(qū)域準(zhǔn)確地提取出來。近年來,隨著計(jì)算機(jī)視覺領(lǐng)域的發(fā)展,顯著性檢測也得到了廣泛的研究。顯著性檢測方法主要分為兩種類型:自下而上的顯著性檢測和自上而下的顯著性檢測。前者由目標(biāo)驅(qū)動,需要具體的先驗(yàn)知識。后者需要數(shù)據(jù)驅(qū)動,不需要任何先驗(yàn)知識。
早期的顯著性檢測研究大多通過生物啟發(fā)模型來解決。Itti等[1]提出一種基于生物學(xué)啟發(fā)的視覺模型的中心——周圍環(huán)繞算子,來進(jìn)行顯著性檢測。Zhai等[2]使用全局對比度來優(yōu)化局部對比度中顯著性區(qū)域不連續(xù)的問題,通過計(jì)算整個圖像的全局對比度得到圖像的顯著性值。Li等[3]利用多尺度全卷積網(wǎng)絡(luò)模型將高級語義信息和超像素特征結(jié)合起來,并用全連接條件隨機(jī)場CRF[4]進(jìn)行優(yōu)化。Goferman等[5]根據(jù)局部對比度的不同并結(jié)合上下文區(qū)域的聯(lián)系,得到最后的顯著圖。這些利用局部對比度的方法,一般會使圖像邊緣產(chǎn)生極大的顯著值,而不能凸出顯著的目標(biāo)。Cheng等[6-7]提出了基于區(qū)域?qū)Ρ榷鹊娘@著性檢測算法,利用全局和局部對比度差異,結(jié)合圖像上下文的特征對比,能夠較完整地檢測出顯著目標(biāo),但計(jì)算效率較低。Yang等[8]根據(jù)流形排序方法計(jì)算圖像邊界和其他區(qū)域的相關(guān)性,由距離的遠(yuǎn)近判斷相關(guān)性的大小得到每個區(qū)域的顯著值。Li等[9]提出了一種基于標(biāo)簽傳播(Label Propagation,LP)的顯著性檢測方法,這種方法能準(zhǔn)確檢測出前景區(qū)域,并在圖片細(xì)節(jié)部分得到有效的保留,但是在復(fù)雜背景下,會影響到顯著區(qū)域的檢測。Liu等[10]提出在條件隨機(jī)場框架中學(xué)習(xí)顯著特征的線性融合權(quán)重。Wang等[11-12]提出了一種判別區(qū)域特征整合(Discriminative Regional Feature Integration,DRFI)方法,能自動整合高維區(qū)域顯著特征并選擇判別模型。這種方法可以有效地檢測出圖像的顯著區(qū)域,并在復(fù)雜場景下有著良好的效果,但是存在較大的背景噪聲。為了解決這一問題,本文采用一種指數(shù)融合函數(shù)[13],將判別區(qū)域特征圖和標(biāo)簽傳播顯著圖融合得到最終融合顯著圖。本文方法不僅抑制了背景噪聲,還保留了圖片細(xì)節(jié)信息,使得復(fù)雜場景下的顯著圖檢測更加準(zhǔn)確。
本文算法框圖如圖1所示。首先對圖像進(jìn)行預(yù)處理,利用簡單線性迭代聚類算法(Simple Linear Iterative Clustering,SLIC)[14]對圖片進(jìn)行超像素分割,分割成N個區(qū)域,將分割的超像素塊稱為節(jié)點(diǎn)或區(qū)域;然后利用超像素的平均顏色特征計(jì)算相似度得到相似度矩陣,提取一部分邊界超像素定義為背景標(biāo)簽,利用已得到的相似度矩陣和標(biāo)記的背景區(qū)域通過標(biāo)簽傳播方法檢測未標(biāo)記區(qū)域的顯著性,得到標(biāo)簽傳播顯著圖。同時,提取超像素的背景區(qū)域特征,通過隨機(jī)森林進(jìn)行訓(xùn)練得到回歸模型,將特征映射為顯著值,得到判別區(qū)域特征顯著圖。最后,通過指數(shù)函數(shù)將二者融合得到融合顯著圖。
圖1 顯著性目標(biāo)檢測算法框圖
Fig.1 Salient object detection framework
(1)
圖像背景的識別取決于整個圖像的上下文,具有相似外觀的圖像區(qū)域可能屬于一張圖片的背景卻屬于另外圖片的前景區(qū)域,所以,提取偽背景區(qū)域并計(jì)算每個區(qū)域的背景描述符。偽背景區(qū)域Q定義為圖像的寬度為15像素的窄邊界區(qū)域。
(2)
除了區(qū)域?qū)Ρ戎猓€考慮了區(qū)域的通用屬性,區(qū)域背景先驗(yàn)描述器表示一個混合特征集,包括外觀和幾何特征。這兩個特征是獨(dú)立于每個區(qū)域提取的,如圖像標(biāo)注中的特征提取算法[15]。外觀特征描述區(qū)域中顏色和紋理的分布,可以表征顯著對象和背景的共同屬性。最后,獲得一個包括顏色、紋理、形狀等35維的區(qū)域?qū)傩悦枋龇?/p>
將圖像I的多層分割結(jié)果L=(L1,L2,…,LM)與相應(yīng)的真值圖進(jìn)行匹配,得到超像素對應(yīng)的標(biāo)簽,通過隨機(jī)森林對圖像特征向量與標(biāo)簽進(jìn)行訓(xùn)練,得到回歸模型a=f(X),從而將特征向量映射為顯著值a。對于每個級別的顯著圖,將超像素區(qū)域的顯著性值分配給其包含的像素,生成M級顯著圖(SA1,SA2,…,SAM),然后將它們?nèi)诤显谝黄鸬玫阶罱K的顯著圖SA=g(SA1,SA2,…,SAM),其中g(shù)(·)是一個線性組合器,如式(3)所示:
(3)
ηm表示權(quán)重,通過最小二乘估計(jì)學(xué)習(xí)權(quán)重,使損失函數(shù)最小化。
通過任意兩個超像素節(jié)點(diǎn)平均特征值的距離來定義兩個超像素節(jié)點(diǎn)的相似性,相似度wij定義為
(4)
其中,i,j為兩個超像素的序號,B為邊界節(jié)點(diǎn)集合,bi和bj分別表示兩個超像素的平均特征向量,ε為權(quán)值參數(shù),Γ(i)表示超像素i的相鄰區(qū)域的集合。
F=D-1·W,
(5)
得到相似度矩陣F之后,利用背景邊界標(biāo)簽估計(jì)其他超像素區(qū)域的顯著性值。給定一個數(shù)據(jù)集R={r1,…,rl,rl+1,…,rN}∈RΛ×N,前l(fā)個數(shù)據(jù)已經(jīng)被標(biāo)記,Λ是數(shù)據(jù)的特征維度,定義一個函數(shù)V=[Vr1,Vr2,…,VrN]T,使得V:R→[0,1]∈RN×1,相似度V(ri)滿足:
(6)
其中,F(xiàn)ij是相似度矩陣F中的元素,t是遞歸步數(shù),t初始值設(shè)為0。每一個超像素區(qū)域的顯著值SB(ri)定義為
(7)
Alexe等[16]提出了一種類物體性(objectness)的概念,它是一種基于底層先驗(yàn)計(jì)算給定圖像窗口的類物體性得分的方法,表示的含義是窗口中包含目標(biāo)的可能性。這里使用多尺度顯著性,顏色對比度,邊緣密度作為先驗(yàn)。設(shè)Pu為第u個矩形框包含目標(biāo)的概率值,像素p包含目標(biāo)的概率值O(p)定義為
(8)
(9)
其中,ni表示超像素ri中包含的像素個數(shù),超像素區(qū)域顯著值SO(ri)定義為
(10)
最后,為了消除SLIC算法的分割誤差,將像素級顯著性Sp定義為其周圍超像素區(qū)域顯著性SB(ri)和SC(ri)的加權(quán)線性組合:
k2‖zp-zi‖)]SB/C(ri)
(11)
SC(ri)=αSB(ri)+βSO(ri),
(12)
其中,cp、ci、zp、zi是像素p和i的顏色和坐標(biāo)向量,G表示超像素區(qū)域ri的直接鄰居的數(shù)量,k1和k2是控制顏色和位置的參數(shù),α和β分別為SB(ri)和SC(ri)的權(quán)重參數(shù)。
由上面模塊可獲得兩個先驗(yàn)顯著圖:其中判別區(qū)域特征顯著圖可以更好地突出目標(biāo),同時會存在一些背景噪聲;標(biāo)簽傳播顯著圖可以更好地抑制背景噪聲。二者能夠互為補(bǔ)充,本文采用一種指數(shù)融合方法,融合兩張先驗(yàn)顯著圖得到最終顯著圖
S=SA{1-exp(-λSp)}
(13)
其中,SA為判別區(qū)域特征顯著圖,Sp為標(biāo)簽傳播顯著圖,λ為權(quán)值系數(shù),將其設(shè)置為6。從圖2中可以看出,融合后的顯著圖不僅準(zhǔn)確地檢測出了突出的顯著目標(biāo),而且有效地抑制了背景噪聲。
圖2 融合顯著圖與初始顯著圖的對比
Fig.2 Contrast between the fusion saliency map and the initial saliency map
本文在兩個公開數(shù)據(jù)集MSRA-1000和DUT-OMRON上進(jìn)行了實(shí)驗(yàn)。MSRA-1000數(shù)據(jù)集包含1 000張圖片,圖片目標(biāo)相對簡單,目標(biāo)較為單一。DUT-OMRON數(shù)據(jù)集包含5 166張圖片,圖片數(shù)量較多,背景更加復(fù)雜,具有一定難度。兩個數(shù)據(jù)庫都具有相應(yīng)人工標(biāo)注的真值圖。
為了更好評估算法的優(yōu)越性,本文利用準(zhǔn)確率、召回率和F-measure柱狀圖來衡量檢測效果。首先采用固定閾值分割的方法計(jì)算準(zhǔn)確率-召回率(P-R)曲線圖,將待檢測的顯著圖量化至[0,255],設(shè)定閾值對顯著圖進(jìn)行二值化,將二值化的結(jié)果同真值圖進(jìn)行對比,得到待測圖像的準(zhǔn)確率和召回率,根據(jù)這些結(jié)果,畫出P-R曲線圖。另外,通過自適應(yīng)閾值進(jìn)一步評測顯著結(jié)果,將閾值設(shè)為顯著圖像素均值的二倍。經(jīng)過二值分割后,將得到所有圖片的平均準(zhǔn)確率和召回率,F(xiàn)-measure值計(jì)算式為
(14)
式中,P為準(zhǔn)確率,R為召回率,根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),本文設(shè)μ2=0.3。
為了驗(yàn)證本文方法的有效性和可靠性,本文方法與其他6種顯著性算法進(jìn)行比較,分別是LPS算法[9]、DRFI算法[11]、BFS算法[13]、BM算法[17]、SF算法[18]、GR算法[19]。比較結(jié)果如圖3所示。
圖3 MSRA-1000中7種算法的顯著圖對比
Fig.3 Comparison of seven algorithm saliency maps in MSRA-1000
圖3為7種算法在MSRA-1000數(shù)據(jù)庫中部分圖片顯著圖,MSRA-1000數(shù)據(jù)庫目標(biāo)較為單一,對于顯著性檢測相對簡單。從對比圖中可以看出SF方法和BFS方法沒有完整有效地突出顯著目標(biāo),效果比較模糊。GR方法和LPS方法可以清楚地看出顯著目標(biāo),但是輪廓不夠清晰。BM方法和DRFI方法能夠突出顯著目標(biāo),但背景噪聲較大。本文方法能將顯著目標(biāo)很好凸顯出來,并有效抑制了背景區(qū)域。
圖4為7種算法在DUT-OMRON數(shù)據(jù)庫中部分圖片顯著圖,DUT-OMRON數(shù)據(jù)庫具有更大的挑戰(zhàn)性。從圖4可以看出,SF方法、GR方法、BFS方法和LPS方法的顯著區(qū)域凸出不明顯,檢測結(jié)果較為模糊,BM方法和DRFI方法存在較大的背景噪聲,本文方法的檢測結(jié)果更加準(zhǔn)確,也說明了本文方法在復(fù)雜背景下有著良好的效果。
圖5是7種算法在MSRA-1000數(shù)據(jù)庫上的準(zhǔn)確率-召回率曲線圖。由圖5可知,BM算法、SF算法、LPS算法和BFS算法的準(zhǔn)確率和召回率偏低,因?yàn)镾F算法和LPS算法檢測到的顯著區(qū)域不明顯,顯著目標(biāo)不夠突出。BM算法和BFS算法雖然能檢測出顯著區(qū)域,但是包含了大量的背景噪聲。DRFI算法的P-R曲線較高,顯著目標(biāo)突出,但是有較大的背景干擾。本文算法顯著目標(biāo)突出,背景干擾較小,從圖5中可以看出,本文算法效果要優(yōu)于其他算法。
圖4 DUT-OMRON中7種算法顯著圖對比
Fig.4 Comparison of seven algorithm saliency maps in DUT-OMRON
圖5 7種算法在MSRA-1000數(shù)據(jù)庫上的P-R曲線圖
Fig.5 P-R Curves of the seven algorithms on the MSRA-1000 database
圖6展示了7種算法的準(zhǔn)確率、召回率和F-measure值。從圖6中可以看出結(jié)果較好的是GR算法,LPS算法,DRFI算法和本文算法。本文算法準(zhǔn)確率、召回率及F-measure值均優(yōu)于LPS算法;GR算法準(zhǔn)確率與本文算法持平,但其召回率與F-measure值低于本文算法;雖然DRFI算法召回率高于本文算法,但其準(zhǔn)確率與F-measure值低于本文算法。本文算法的準(zhǔn)確率為0.928 4,召回率為0.893 6,F(xiàn)-measure值為0.920 1,由圖6中可以看出本文算法的F-measure值要優(yōu)于其他6種算法,充分體現(xiàn)了本文算法的有效性。
圖7是7種算法在DUT-OMRON數(shù)據(jù)庫上的準(zhǔn)確率-召回率曲線圖。與MSRA-1000數(shù)據(jù)庫相比,DUT-OMRON數(shù)據(jù)庫的圖片更加復(fù)雜,并且數(shù)量更多。從圖7可以看出,當(dāng)召回率低于0.9時,本文的準(zhǔn)確率要高于其他算法,當(dāng)召回率高于0.9時,本文算法準(zhǔn)確率低于DRFI算法。
圖6 7種算法在MSRA-1000數(shù)據(jù)庫上的性能對比
Fig.6 Performance comparison of the seven algorithms on MSRA-1000 database
圖8是7種算法在DUT-OMRON數(shù)據(jù)庫上的準(zhǔn)確率、召回率和F-measure值。圖8中本文算法的F-measure值是最高的,達(dá)到了0.622 6,F(xiàn)-measure值有較大優(yōu)勢。本文算法的準(zhǔn)確率僅低于GR算法,高于其他5種算法。本文算法召回率低于DRFI算法,但是高于其他5種算法。雖然本文算法的準(zhǔn)確率與召回率都不是最好的,但是F-measure值最高,整體上說明了本文算法的有效性。
圖7 7種算法在DUT-OMRON數(shù)據(jù)庫上的P-R曲線圖
Fig.7 P-R curves of the seven algorithms on the DUT-OMRON database
圖8 7種算法在DUT-OMRON數(shù)據(jù)庫上的性能對比
Fig.8 Performance comparison of the seven algorithms on DUT-OMRON database
本文提出了一種融合判別區(qū)域特征和標(biāo)簽傳播的顯著性目標(biāo)檢測方法,判別區(qū)域特征充分考慮了區(qū)域之間的對比度、背景和特征屬性,而標(biāo)簽傳播則傾向于鄰居之間的傳播和優(yōu)化,本文結(jié)合了區(qū)域?qū)Ρ群蜆?biāo)簽傳播的優(yōu)勢,融合二者得到最終顯著圖。實(shí)驗(yàn)結(jié)果表明,本文算法與其他方法相比,既有效的抑制了背景,又突出了顯著區(qū)域,整體性能優(yōu)于其他顯著性目標(biāo)算法。