錢文超,曹飛龍
(中國計量大學 理學院,浙江 杭州 310018)
在計算機視覺領(lǐng)域里,目標顯著性檢測已經(jīng)成為一個具有挑戰(zhàn)性的熱門話題,其主要目的是提取圖像的重要信息,即人們感興趣的區(qū)域.近年來,目標顯著性檢測已被有效地運用于計算機視覺任務(wù)中,如圖像檢索[1-2]、圖像分割[3-4]以及對象識別[5-6].
顯著性檢測的方法一般分為兩大類.一類是基于數(shù)據(jù)驅(qū)動的自下而上的方法[7-9],其主要依賴于顯著對象或背景的一些先驗知識,例如顏色、紋理和位置等;另一類是基于目標任務(wù)驅(qū)動的自上而下的方法[10-11],該類方法需要利用標簽進行有監(jiān)督的學習訓練.隨著低秩矩陣恢復研究的興起,很多學者也將其原理應(yīng)用到目標顯著性檢測問題上,結(jié)合自下而上的方法,給出了一些基于低秩矩陣恢復的顯著性檢測方法[12-15].
假設(shè)一張圖像可以分成信息冗余部分(即圖像背景,通常處于低維特征子空間,具有低秩或近似低秩結(jié)構(gòu))和顯著目標部分(即顯著對象,具有稀疏結(jié)構(gòu),可視為稀疏噪聲或誤差).換言之,對于給定的圖像特征矩陣F∈Rm×n,可以拆分成一個對應(yīng)圖像背景的低秩矩陣L∈Rm×n和一個對應(yīng)顯著對象的稀疏矩陣S∈Rm×n.基于這樣的假設(shè),目標顯著性檢測可以看成是矩陣的低秩稀疏分解問題:
(1)
其中,rank(·)為秩函數(shù),λ為正則化參數(shù),‖·‖0為l0范數(shù).
由于秩函數(shù)是非凸的,并且不連續(xù),因此(1)是一個NP難問題.所以,根據(jù)壓縮感知[16-17]的理論,利用核范數(shù)(Nuclear Norm,簡寫為NN)和l1范數(shù)分別對秩函數(shù)和l0范數(shù)進行替代,將非凸優(yōu)化問題(1)轉(zhuǎn)化成以下凸優(yōu)化問題:
(2)
盡管一些基于核范數(shù)的最小優(yōu)化模型能較好地逼近非凸優(yōu)化模型(1),且具有很強的理論保證,但在實際應(yīng)用中卻只能獲得次優(yōu)解.這是因為所有非零奇異值對秩函數(shù)的影響是相同的,而核范數(shù)將所有非零奇異值加在一起,并且同時最小化,使得奇異值具有不同的貢獻.因此,核范數(shù)不能成為秩函數(shù)的最佳近似替代.
受加權(quán)Schatten-p范數(shù)的啟發(fā),為了提高顯著性檢測的精確度,我們利用加權(quán)Schatten-p范數(shù)的思想,對背景矩陣L進行低秩約束,并引入具有樹結(jié)構(gòu)稀疏特性的l2,1范數(shù)和圖像拉普拉斯正則化對目標矩陣S進行稀疏約束,建立一個用于目標顯著性檢測的基于加權(quán)Schatten-p范數(shù)的低秩樹結(jié)構(gòu)稀疏分解模型(簡稱為WSPN-LRSSD).然后,運用交替方向迭代算法(alternating direction method of multiples,ADMM)求解模型.最后,通過目標顯著性檢測實驗說明該模型的優(yōu)勢.
本文內(nèi)容安排如下.在第一部分中,詳細介紹所提出模型的結(jié)構(gòu)以及模型求解過程.第二部分通過對實驗結(jié)果的分析,說明本文模型的優(yōu)勢.最后在第三部分中得出結(jié)論.
給定一張輸入圖像I,首先通過簡單線性迭代聚類方法[23](simple linear iterative clustering,簡寫為SLIC)將I分割成互不重疊的N個超像素塊.然后,對于每個超像素塊Pi提取一個D維的特征向量,記為fi∈RD.最后,將所有超像素塊的特征向量整合成一個表示圖像I的特征矩陣F=[f1,…,fN]∈RD×N.
本文提出如下基于加權(quán)Schatten-p范數(shù)的低秩樹結(jié)構(gòu)稀疏分解模型(WSPN-LRSSD):
s.t.F=L+S.
(3)
1.1.1 低秩正則化
圖像背景通常處于低維空間中,具有低秩或近似低秩的結(jié)構(gòu),因此,對圖像背景可以進行低秩約束:
(4)
其中,σi(L)為L的第i個奇異值,并且奇異值按從大到小順序排列,ωi為對應(yīng)σi(L)分配的權(quán)重,0
(5)
其中,C=2max(m2,n2),ε=10-16.
1.1.2 稀疏正則化
模型(2)中對稀疏矩陣S進行了l1范數(shù)正則化,只是單獨處理了矩陣S的列,并沒有考慮S的空間結(jié)構(gòu).對于顯著性檢測來說,顯著對象的內(nèi)在結(jié)構(gòu)是非常重要的.所以,本文引入基于樹結(jié)構(gòu)稀疏的l2,1范數(shù)對目標矩陣S進行稀疏約束,使模型更加魯棒.
首先,介紹一種結(jié)構(gòu)層次劃分的方法,即索引樹.
然后,我們利用索引樹表示圖像塊之間的空間關(guān)系.基于加權(quán)樹結(jié)構(gòu)稀疏的l2,1范數(shù)可以表示為
(6)
在目標顯著性檢測中,把顯著對象視為稀疏噪聲,然后從圖像背景中提取出來.但在實際圖像上,一些顯著對象與背景是很相似的,導致提取的顯著對象不清晰.為了解決這個問題,先對圖像進行背景先驗的提取,然后判斷每個像素(超像素)是否屬于前景顯著對象.我們利用每個超像素的圖像位置、顏色和邊緣先驗信息,融合成圖像背景先驗.
首先,利用超像素到圖像中心距離的高斯分布來生成位置先驗:
(7)
其中,σ2為高斯分布方差,c為圖像中心.
其次,根據(jù)人眼對暖色系(如紅色和黃色)的敏感性,利用文獻[25]的方法,對每個超像素顏色先驗Co(i)進行提取.
然后,受文獻[11]和[26]的啟發(fā),通過計算圖像超像素Pi與邊緣超像素的交集長度,以衡量Pi與圖像邊緣的連通程度,從而獲得圖像邊緣先驗信息:
(8)
其中,B表示邊緣超像素集合,qi表示超像素Pi內(nèi)的像素個數(shù),|·|表示交集長度,即兩個超像素連接的像素個數(shù).
最后,將上述三個先驗相乘,并進行歸一化處理,得到值在區(qū)間[0,1]內(nèi)的背景先驗權(quán)重:
Ω(i)=Lo(i)·Co(i)·Bo(i).
(9)
再融合并擴充為一個背景先驗權(quán)重矩陣:
(10)
(11)
1.1.3 圖像拉普拉斯正則化
為了保留原始圖像的固有局部結(jié)構(gòu),在目標函數(shù)中考慮加入圖像拉普拉斯正則化約束.文獻[27]提出這樣的假設(shè):如果兩個數(shù)據(jù)點xi和xj在數(shù)據(jù)分布中的固有幾何位置接近,那么在新的基中這兩個點的表示也彼此接近.由此可推出,如果兩個相鄰圖像塊的特征相似,則它們在子空間中的表示應(yīng)該也彼此接近;反之亦然.從而,我們對顯著對象定義拉普拉斯正則化為
(12)
其中,si表示S的第i列元素,Θ∈RN×N為圖像關(guān)聯(lián)矩陣,其表達式為
(13)
本小節(jié)介紹用ADMM方法求解模型(3),先將(3)式轉(zhuǎn)化為
(14)
然后構(gòu)造模型(14)的增廣拉格朗日函數(shù)
(15)
其中,Y1和Y2是拉格朗日乘子,μ>0是懲罰參數(shù).
固定S和J,更新L:
(16)
引理1[22]已知矩陣QL的奇異值分解為QL=U∑VΤ,∑=diag(σ1,…,σr),則(16)式的最優(yōu)解為L*=UΔVΤ,其中Δ=diag(γ1,…,γr)是如下優(yōu)化問題的解:
(17)
利用廣義軟閾值算法(Generalized Soft-Thresholding,簡寫為GST)[28]求解(17)中的子問題,其閾值算子為
(18)
固定L和S,更新J:
(19)
對式(19)關(guān)于J求導并令其等于零,得到
Jk+1=(μkSk+Y2,k)(2βMF+μkI)-1.
(20)
固定L和J,更新S:
(21)
(22)
最后,更新拉格朗日乘子和懲罰參數(shù),得到
Y1,k+1=Y1,k+μk(F-Lk+1-Sk+1),
(23)
Y2,k+1=Y2,k+μk(Sk+1-Jk+1),
(24)
μk+1=min(ρμk,μmax).
(25)
其中ρ>1是一個常數(shù).
將上述模型的求解過程整理為如下算法1.
算法1(ADMM求解WSPN-LRSSD模型):
輸出:L和S;
初始化:L0=0,S0=0,J0=0,Y1,0=0,Y2,0=0,μ0=0.1,μmax=1010,ρ=1.1,以及k=0;
1:While not converged do
2:固定其它量,由式(16)更新Lk+1;
3:固定其它量,由式(19)更新Jk+1;
4:固定其它量,由式(21)更新Sk+1;
5:由式(23)與(24)分別更新Y1,k+1和Y2,k+1;
6:由式(25)更新懲罰參數(shù)μk+1;
7:k=k+1;
8:End while
9:返回Lk+1和Sk+1.
通過比較WSPN-LRSSD和其他四種方法:SMD[13]、WLRR[12]、ULR[25]和GBMR[30],并在目標顯著性檢測上的實驗結(jié)果,來說明我們所提出模型的優(yōu)勢.實驗選取了三個數(shù)據(jù)庫,包括ECSSD[31]、iCoSeg[32]以及Pascal1500[9].
其中ECSSD包含了1 000張不同對象且場景比較復雜的圖像,iCoSeg包含了38個不同對象的若干張圖像,而Pascal1500則是包含了1 500張自然圖像,顯著對象出現(xiàn)在各種位置,并且背景區(qū)域更加混亂.本文所有實驗的環(huán)境是Intel(R)Core(TM)i3-4150 CPU @ 3.50 GHz處理器,在內(nèi)存為4 GB的計算機,MATLAB版本為R2014a上運行.
為了說明實驗效果,我們引入三個模型評價指標.
1)平均絕對誤差(mean absolute error,簡寫為MAE)[33],即檢測出的顯著對象與真實二值化顯著對象的平均絕對誤差,定義為MAE=mean(|S-GT|);
在本文實驗中用到的分別是加權(quán)F-measure指數(shù)(WF)、平均F-measure指數(shù)(aveF)和最大F-measure指數(shù)(maxF).這五個指標中,除了MAE值越小越好外,其余都是值越大越說明效果好.
為了說明不同p值對模型的影響,選取p為[0.2,0.8]中間隔為0.1的七個值,分別在ECSSD上進行實驗.參數(shù)α和β分別設(shè)置為0.35和1.1.
針對于p值的不同選取,從圖1的四條曲線可知,當p=0.3時顯著性檢測效果最好.在另外兩個數(shù)據(jù)庫上也得到相同的結(jié)論.
通過WSPN-LRSSD與SMD、WLRR、ULR以及GBMR四種方法分別在ECSSD、iCoSeg和Pascal1500三個數(shù)據(jù)庫上進行實驗對比,來說明所提出方法的優(yōu)勢.依據(jù)上述結(jié)論,在所有實驗中設(shè)置p=0.3.
圖1 不同p值對ECSSD數(shù)據(jù)庫的顯著性檢測結(jié)果Figure 1 Results of salient object detection under different p on ECSSD database
表1、表2和表3是在三個不同數(shù)據(jù)庫中,五種方法分別進行目標顯著性檢測的評價指標結(jié)果.從整體結(jié)果上看,我們的方法相比其他的方法具有較好的檢測能力,即使在比較復雜的一些圖像上,都能很好的檢測出顯著目標.
表1 五種算法在ECSSD數(shù)據(jù)庫中的顯著性檢測結(jié)果Table 1 Results of salient object detection on ECSSD database by five algorithms
注:“+”表示值越大越好;“-”表示值越小越好;黑體數(shù)值為最優(yōu)值
為了進一步說明模型的優(yōu)勢,在圖2中展示了部分由各種方法進行目標顯著性檢測的視覺效果圖.從左往右依次為原圖像、真實顯著對象(GT)、WSPN-LRSSD、SMD、WLRR、GBMR以及ULR方法得到的顯著目標.從圖上可以看出,WSPN-LRSSD方法檢測出的顯著目標要比其他方法的更接近真實顯著目標.另外,WSPN-LRSSD算法對不同數(shù)據(jù)庫中的圖像的平均運行時間為2.74 s,在時間成本上消耗較小,但是比SMD方法的時間還是長了一倍多.
綜上所有分析,本文提出的模型在目標顯著性檢測問題上具有良好的表現(xiàn),優(yōu)于其他四種檢測方法.
表2 五種算法在iCoSeg數(shù)據(jù)庫中的顯著性檢測結(jié)果Table 2 Results of salient object detection on iCoSeg database by five algorithms
表3 五種算法在Pascal1500數(shù)據(jù)庫中的顯著性檢測結(jié)果Table 3 Results of salient object detection on Pascal1500 database by five algorithms
圖2 五種方法在不同數(shù)據(jù)庫的顯著性檢測視覺效果圖Figure 2 Visual comparisons of saliency maps of five methods on different databases
本文將目標顯著性檢測視為矩陣低秩稀疏分解問題,并提出了基于加權(quán)Schatten-p范數(shù)與樹結(jié)構(gòu)稀疏分解模型(WSPN-LRSSD).利用加權(quán)Schatten-p范數(shù)對圖像背景進行低秩約束,而對于顯著目標,則采用具有樹結(jié)構(gòu)稀疏特性的l2,1范數(shù)和圖像拉普拉斯正則化進行稀疏約束.同時,為了更好地檢測出顯著目標,還對圖像進行了背景先驗提取,增大了圖像背景與顯著目標的差異性.實驗結(jié)果證明,不管是評價指標還是視覺效果,本文模型具有更好的顯著性檢測性能.
在未來的工作中,考慮要縮短實驗時間以減少時間成本.同時,改進背景先驗的提取方法,使得獲取的背景先驗更加有利于顯著目標的檢測.