劉甜甜
(西安電子科技大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,陜西西安 710126)
視覺顯著性在計(jì)算機(jī)視覺和圖像理解中有著重要作用并且涉及范圍廣,包括認(rèn)知心理學(xué)[1]、神經(jīng)生物學(xué)[2]等。由于計(jì)算機(jī)視覺和圖像處理的應(yīng)用不斷地廣泛,顯著性目標(biāo)檢測(cè)也引起了越來越多致力于信號(hào)處理、計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)研究工作的學(xué)者的研究,并很好地被運(yùn)用到與其相關(guān)的應(yīng)用中,例如:圖像自動(dòng)裁剪[3]、圖像/視頻壓縮[4],圖像分割[5]、目標(biāo)識(shí)別[6]和圖像自適應(yīng)等。目前的顯著性檢測(cè)主要分為有監(jiān)督的自上而下的顯著性目標(biāo)檢測(cè)(包括人臉識(shí)別等)和無監(jiān)督的自下而上的檢測(cè)方法,二者的主要區(qū)別在于所要檢測(cè)的顯著性目標(biāo)是否為人為指定的。本文研究的是無監(jiān)督的自下而上的顯著性目標(biāo)檢測(cè)方法。
顯著性目標(biāo)檢測(cè)方法旨在自動(dòng)地找出一幅圖像中包含有用信息的人們感興趣的部分,人類視覺系統(tǒng)很容易找出一幅圖像中所關(guān)注的部分,但對(duì)于機(jī)器而言則并不簡單。所有自下而上的顯著性檢測(cè)方法對(duì)圖像中顯著性目標(biāo)物和背景都有一定的先驗(yàn)假設(shè),例如:對(duì)比度、緊性等,基于這些假設(shè)研究者們提出了各種顯著性檢測(cè)方法。
在自然圖像中人類視覺系統(tǒng)所感興趣的往往是一些特殊的內(nèi)容,這些內(nèi)容是圖像中較小的一部分且是稀疏分布的,可稱這些引起人類視覺系統(tǒng)感興趣的部分為顯著性部分,因此從這方面講,顯著性檢測(cè)就有這樣的一個(gè)先驗(yàn)假設(shè),即顯著性目標(biāo)在整幅圖像上是稀疏的,這樣一幅圖像就可以被看做是背景加上在背景上稀疏分布的一些顯著性目標(biāo)。顯著性前景往往具有某些特殊的特征比如:顏色、亮度、方向性、紋理結(jié)構(gòu)等,相比于前景,背景區(qū)域的特征就不是很明顯,因而不會(huì)引起人們太多注意。C.Lang[7],X.Shen[8]等人提出圖像背景具有低秩特性進(jìn)而自然圖像可以被分解為一個(gè)低秩矩陣和一個(gè)稀疏矩陣,本文基于文獻(xiàn)[7~8]的方法將背景看做為在某個(gè)字典下的低秩表示矩陣,不同于文獻(xiàn)[7]將原始圖像作為字典,文中根據(jù)背景的一些先驗(yàn)假設(shè)選出一部分背景作為字典來低秩表示整個(gè)背景,即背景是可被自己低秩表示的。首先提取出原始圖像每個(gè)像素的特征,根據(jù)這些特征將圖像進(jìn)行超像素分割,不同于文獻(xiàn)[7]中的矩形圖像塊以分割后的超像素為單元,根據(jù)文獻(xiàn)[9]所表明的圖像邊界可較好地作為背景模型,并選取落在邊界上的超像素作為背景字典來低秩表示圖像的背景部分,最后根據(jù)每個(gè)像素所屬的超像素在背景上的稀疏程度來衡量其的顯著性。
近年來已經(jīng)有大量的研究者致力于顯著性檢測(cè)方面的研究,所有基于自下而上的無監(jiān)督的顯著性檢測(cè)方法對(duì)原始圖像都有某種先驗(yàn)假設(shè),例如前景和背景的對(duì)比度和緊性差異等,不同的方法均只是對(duì)這些先驗(yàn)假設(shè)從不同方面的理解而提出的,主要有以下幾類:
(1)基于局部和全局對(duì)比的顯著性檢測(cè)方法。Itti[10]等人提出了多尺度中心 -環(huán)繞對(duì)比的方法,S.Goferman[11]等人根據(jù)心理學(xué)提出的4條人類視覺顯著性原則同時(shí)結(jié)合局部和全局的對(duì)比提出了他們的方法,該方法能夠較好地檢測(cè)出顯著性目標(biāo),但只能檢測(cè)出邊緣部分不能很好地檢測(cè)出整個(gè)顯著性目標(biāo)。Bruce.[12]提出了用自信息量來衡量顯著性。
(2)基于數(shù)學(xué)意義下的變換域顯著性目標(biāo)的檢測(cè)。Hou.[13-15]于2007 年在 cvpr上首次提出的基于頻域殘差的顯著性檢測(cè)方法,文中指明頻域殘差(Spectral Residual)和顯著性相關(guān)。
(3)基于圖的顯著性檢測(cè):J.Harel等人提出了基于圖的視覺顯著性檢測(cè)[16],將一幅圖像看做圖,并在圖上定義了馬爾科夫鏈,文獻(xiàn)[17~18]從文獻(xiàn)[16]中得到啟發(fā)在圖上運(yùn)用隨機(jī)行走和流形排序算法來檢測(cè)顯著性。
(4)基于稀疏和低秩表示的顯著性檢測(cè)方法:在對(duì)圖像顯著性的先驗(yàn)假設(shè)中,稀疏和低秩先驗(yàn)逐漸被研究者討論并應(yīng)用[7-8]。文獻(xiàn)[8]中將原始圖像看做是一個(gè)低秩矩陣加上一個(gè)稀疏矩陣,即X=L+S,通過解這一模型
不同于文獻(xiàn)[8],文獻(xiàn)[7]則是將背景看作是XZ要求Z 低秩,即
文獻(xiàn)[7]能較好的檢測(cè)出小目標(biāo)物,但對(duì)于大的目標(biāo)則只能檢測(cè)出輪廓而無法更好地檢測(cè)出整個(gè)區(qū)域。不同于文獻(xiàn)[7~8],本文用先驗(yàn)背景來低秩表示整個(gè)背景,即約束X=AX+E,這里選取邊界部分作為背景字典A,用AZ提取整幅圖像的背景,AZ中不含顯著性目標(biāo)的部分,E被認(rèn)為是前景也即顯著性目標(biāo)。選取的背景字典中不含有顯著性目標(biāo),所以恢復(fù)出的低秩部分就是純背景,不含有顯著性目標(biāo)的任何部分。
為了能更準(zhǔn)確地檢測(cè)出顯著性目標(biāo)且不會(huì)有過多干擾,將原始圖像進(jìn)行超像素分割,分割成一些小的塊,這些塊的形狀與圖像內(nèi)容有關(guān),如圖1所示,這是便于生成有清楚輪廓的顯著性目標(biāo)圖。文中以一個(gè)超像素作為一個(gè)單元,首先從RGB顏色空間和Lab空間提取出每個(gè)像素點(diǎn)的D(D=6)維特征,然后將超像素的所有像素點(diǎn)特征的均值作為該超像素的特征x=[r,g,b1,l,a,b2]T,則可將一幅圖看做 X=[x1,x2,…,xN]∈RD×N,N為超像素個(gè)數(shù),D為特征維數(shù),X的每一列為一個(gè)超像素的特征,顯著性度量方法是在超像素上定義一個(gè)函數(shù)S(xi),S(xi)就是最終得到的顯著性圖。
文獻(xiàn)[19]表明,圖像的邊界部分可較好的作為背景模型來進(jìn)行顯著性檢測(cè),據(jù)此,選取落在4個(gè)邊界上的所有超像素以其特征作為背景字典A={∈?Ω},?Ω為圖像的4個(gè)邊界部分,有了整個(gè)圖像特征X和背景字典A,接下來就可以求解背景的一個(gè)低秩表示。
圖1 超像素分割結(jié)果
顯著性檢測(cè)的稀疏性先驗(yàn)假設(shè)認(rèn)為顯著性目標(biāo)是稀疏分布在圖像上的,但一幅圖像的背景不易估計(jì),文獻(xiàn)[7]的方法對(duì)于較大的顯著性目標(biāo)會(huì)將顯著性物內(nèi)部作為背景處理,只能檢測(cè)出顯著性邊界部分。本文選取邊界超像素作為字典來恢復(fù)出一個(gè)不包含顯著性目標(biāo)的背景,同時(shí)檢測(cè)出顯著性目標(biāo)物,模型如下
假定E*為(3)對(duì)應(yīng)于E的最優(yōu)解,為得到每一個(gè)超像素的顯著性指標(biāo)S(xi),需做如下的后處理
算法1 基于稀疏和低秩表示的顯著性目標(biāo)檢測(cè)
輸入 需要檢測(cè)的圖像I和相應(yīng)參數(shù)。
步驟1 用超像素分割將圖像I分割成N個(gè)圖像塊,每一個(gè)圖像塊為一個(gè)超像素;
步驟2 提取每一個(gè)超像素的D維特征xi,生成一個(gè)D×N大小的圖像特征矩陣X;
步驟3 優(yōu)化式(3)解得稀疏矩陣E*;
步驟4 通過式(4)得到顯著性圖;
輸出 顯著性圖。
式(3)的優(yōu)化過程可簡單地采用文獻(xiàn)[20]提出的方法。通過增廣拉格朗日(ALM)將約束問題轉(zhuǎn)化為無約束問題。式(3)等價(jià)于
用增廣拉格朗日方法解式(5)
其中,Y,W是拉格朗日乘子;μ是罰參數(shù)。式(6)可由交替方向(ADM)求解,交替方向方法如算法2。
算法2 交替方向法解式(6)。
輸入 矩陣X和參數(shù)λ
循環(huán)迭代:
步驟2 固定其他變量更新Z:Z=(I+ATA)-1
步驟4 更新拉格朗日乘子Y=Y+μ(X-XZE);W=W+μ(Z -J)。
步驟5 更新罰因子 μ=min(ρμ,1010),ρ用于控制收斂速度,試驗(yàn)選取ρ=1.1。
步驟6 檢查收斂條件:X-XZ-E→0,Z-J→0。
結(jié)束,并輸出最優(yōu)解E*。
為便于處理同時(shí)降低計(jì)算量,將所有測(cè)試圖像大小縮放為256×256。進(jìn)行超像素分割時(shí),當(dāng)分割數(shù)目過多不僅增加了計(jì)算復(fù)雜度,同時(shí)使得特征對(duì)噪聲敏感。分割過少影響模型解的可用性,實(shí)驗(yàn)結(jié)果顯示,當(dāng)超像素個(gè)數(shù)為300時(shí)能得到最佳的顯著性。文中取平衡因子λ=0.05。實(shí)驗(yàn)中隨機(jī)從MSRA[21]圖庫中選取測(cè)試圖像,生成相應(yīng)的顯著性圖,如圖2所示。同時(shí)將本文方法和一些主流的顯著性檢測(cè)方法所得到的結(jié)果進(jìn)行了對(duì)比,例如文獻(xiàn)[8,10,11,16,22]。從圖2 可看出,本方法能更精準(zhǔn)地檢測(cè)出顯著性目標(biāo)。
本文提出了一種改進(jìn)了的基于低秩和稀疏表示的顯著性目標(biāo)檢測(cè)方法,利用圖像背景的先驗(yàn)性假定,選擇了一個(gè)更合適的圖像背景字典,通過稀疏和低秩表示的方法估計(jì)出圖像的低秩背景與稀疏前景,并給出一種顯著性度量方法。該方法得益于圖像背景的先驗(yàn)性假設(shè),即中心偏好。大量實(shí)驗(yàn)結(jié)果表明,本方法能更準(zhǔn)確地檢測(cè)到顯著性目標(biāo)。
圖2 顯著性圖比較
如圖2所示,從左到右依次為:原始圖像;文獻(xiàn)[11]的顯著性圖;文獻(xiàn)[22]的顯著性圖;文獻(xiàn)[8]的顯著性圖;文獻(xiàn)[16]的顯著性圖;以及本方法得到的顯著性圖。
[1]Wolfe J.Guided search 2.0.A revised model of visual search[J].Psychonomic Bulletin & Review,1994,1(2):202 -238.
[2]Steven Yantis.Sensation and perception[M].New York:Worth Publishers,2013.
[3]Santella A,Agrawala M,Decarlo D,et al.Gaze - based interaction for semi- automatic photo cropping[C].In Proceeding SIGCHI Conference Human Factors Computer,2006:771-780.
[4]Bradley A,Stentiford F.Visual attention for region of interest coding[J].J.Vis.Commun.Image Represent.,2003,14(3):232-250.
[5]Wang L,Xue J,Zheng N,et al.Automatic salient object extraction with contextual cue[C].In ICCV,2011.
[6]Navalpakkam V,Itti L.An integrated model of top - down and bottom-up attention for optimizing detection speed[C].In CVPR,2006.
[7]Lang Congyan,Liu Guangcan,Yu Jian,et al.Saliency detection by multitask sparsity pursuit[J].IEEE Transactions on Image Processing,2012,21(3):1327 -1338.
[8]Shen Xiaohui,Wu Ying.A unified approach to salient object detection via low rank matrix recovery[C].2012 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2012:853,860.
[9]Wei Y,Wen F,Zhu W,et al.Geodesic saliency using background priors[C].In ECCV,2012:29 -42.
[10]Itti L,Koch C,Niebur E.A model of saliency- based visual attention for rapid scene analysis[J].IEEE Transactions on PAMI,1998,20(11):1254 -1259.
[11]Goferman S,Zelnik Manor L,Tal A.Context- aware saliency detection[J].IEEE Transactions on Pattern Anal Mach Intell.,2012,34(10):1915 -26.
[12]Bruce N,Tsotsos J.Saliency based on information maximization[M].NZ USA:NIPS,2006.
[13]Hou X,Zhang L.Saliency detection:A spectral residual approach[C].In IEEE Conference of Computer Vision and Pattern Recognition,2007.
[14]Guo C,Ma Q,Zhang L.Spatio-temporal saliency detection using phase specrum of quaternion fourier transform[C].In IEEE Conference of Computer Vision and Pattern Recognition,2008.
[15]Hou Xiaodi,Harel J,Koch C.Image signature:highlighting sparse salient regions[J].IEEE Transactions on Pattern A-nalysis and Machine Intelligence,2012,34(1):194 -201.
[16]Sch?lkopf B,Platt J.,Hofmann T.Advances in neural information processing systems[C].Proceedings of the 2006 Conference,2006:545 -552.
[17]Gopalakrishnan V,Yiqun Hu,Rajan D.Random walks on graphs for salient object detection in images[J].IEEE Transactions on Image Processing,2010,19(12):3232 -3242.
[18]Yang Chuan,Hang Lihe,Lu Huchuan,et al.Saliency detection viagraph -based manifold ranking[C].2013 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2013:3166 -3173.
[19]Wei Y,Wen F,Zhu W,et al.Geodesic saliency using background priors[C].In ECCV,2012.
[20]Liu G,Lin Z,Yan S,et al.Robust recovery of subspace structures by low -rank representation[J].IEEE Transactions on Pattern Anal.Mach.Intell.,2010(8):993 -1001.
[21]Liu T,Sun J,Zheng N,et al.Learning to detect a salient object[C].In Proceeding of IEEE Conference Computation Vision Pattern Recognition,2007:1 -8.
[22]Radhakrishna Achanta,Sabine Susstrunk.Saliency detection using maximum symmetric surround[C].Hong Kong:International Conference on Image Processing(ICIP),2010.