楊 波,姚志均,王金武
(船舶重工集團(tuán)公司723所,揚(yáng)州225001)
計算機(jī)視覺領(lǐng)域?qū)σ曈X注意的研究正如火如荼,因?yàn)槿藗儼l(fā)現(xiàn)視覺注意有助于解決各種視覺自動化任務(wù),如目標(biāo)檢測[1]、圖像分割[2]、圖像壓縮[3]、目標(biāo)識別[4]等等。鑒于此,學(xué)術(shù)界已提出了多種視覺注意計算模型。
視覺注意計算模型最基本的輸出結(jié)果是輸入圖像的顯著圖,該顯著圖中的值表示每個像素的顯著性。這些模型不但能夠讓計算機(jī)視覺系統(tǒng)受人類認(rèn)知的啟發(fā)而生成顯著圖,而且能夠大量減少計算負(fù)擔(dān),因?yàn)樗鼈兒雎粤瞬魂P(guān)心的區(qū)域[5]。
從心理學(xué)角度來看,視覺注意可以分為2類:目標(biāo)驅(qū)動的視覺注意和刺激驅(qū)動的視覺注意。前者是由先前的期望指導(dǎo)的,也稱自頂向下的視覺注意;后者是由獨(dú)特的特征、突然的視覺襲擊等引起的,也稱自底向上的視覺注意。自底向上視覺注意的基本范式是它會引導(dǎo)注意力轉(zhuǎn)向顯著區(qū)域和目標(biāo)[6]。文獻(xiàn)[5]~[7]的研究結(jié)果表明自底向上的顯著圖能夠提高前面提到的多種計算機(jī)視覺任務(wù)的性能。
一個理想的自底向上的顯著模型應(yīng)該能從視覺心理學(xué)上說明其工作原理,而不僅僅是通過圖像統(tǒng)計得到。因此,它必須沒有先驗(yàn)知識,不用推理,不用訓(xùn)練權(quán)重或可調(diào)參數(shù),應(yīng)該簡單且便于編程實(shí)現(xiàn),應(yīng)該具有較小的計算復(fù)雜度以能夠?qū)崟r處理。文獻(xiàn)[8]的研究結(jié)果表明視網(wǎng)膜上的感受野在處理視覺刺激時是隨機(jī)處理的,包括位置和尺度空間上。受此啟發(fā),Vikram等人[9]提出了一種基于隨機(jī)矩形區(qū)域采樣的顯著性檢測方法:首先,將圖像從RGB顏色空間轉(zhuǎn)換到CIE 1976 L*a*b*顏色空間;然后在圖像中隨機(jī)采樣一個矩形區(qū)域(區(qū)域的位置和大小都隨機(jī)),計算該區(qū)域內(nèi)每個像素與該區(qū)域的特征平均值之間的距離;最后融合所有的矩形區(qū)域和特征得到最終的顯著圖。該方法的計算很簡單,且只有一個可調(diào)參數(shù),即隨機(jī)矩形區(qū)域的采樣數(shù)量,容易編程實(shí)現(xiàn)。
然而,由于L*a*b*顏色空間的3個通道取值范圍不同,L*的取值范圍為[0 100],而a*、b*為[-128 127]。另外,圖像的亮度變化往往比較大,而色度變化不大,這樣很有可能導(dǎo)致基于這3個通道得到的顯著性值不在同一個數(shù)量級,從而不能很好地體現(xiàn)出各個通道的作用。此外,該方法需要將原始圖像從RGB顏色空間轉(zhuǎn)換到XYZ顏色空間,再轉(zhuǎn)換到L*a*b*顏色空間,故增加了計算時間,不利于實(shí)時性處理??紤]到R、G、B這3個通道的取值范圍一樣,變化快慢相當(dāng),故本文提出了一種基于RGB顏色空間的隨機(jī)矩形區(qū)域顯著性檢測方法,實(shí)驗(yàn)結(jié)果表明本文方法大幅減少了計算時間,同時顯著性檢測效果也好于文獻(xiàn)[9]。
設(shè)輸入圖像I為一副r×c×3的彩色圖像,其中r為圖像的行數(shù),c為圖像的列數(shù)。
首先對輸入圖像做高斯平滑處理,以消除噪聲等的影響,從而得到新的圖像Ig。
接著,隨機(jī)產(chǎn)生n個矩形區(qū)域,第i個矩形區(qū)域的左上角和右下角坐標(biāo)分別記作(x1i,y1i)和(x2i,y2i)。
第3步,計算每種特征所對應(yīng)的顯著性值。以R通道為例,對于第i個矩形區(qū)域,計算該區(qū)域內(nèi)R的均值,則該區(qū)域內(nèi)每個像素的顯著性值為該像素的特征值與均值之差的平方,然后結(jié)合這n個矩形區(qū)域可以得到R通道的顯著圖SR。同理可以得到G、B通道的顯著圖SG、SB,3個顯著圖的大小都為r×c。
第4步,特征融合。本文采用線性組合的方式將SR、SG、SB融合得到最終的顯著圖S,大小也為r×c。
第5步,后處理,包括中值濾波和歸一化操作。選擇中值濾波的原因是它在剔除噪聲的同時能保留邊緣信息,而歸一化操作的目的是為了顯示圖像。
具體的算法流程如圖1所示。
圖1 本文方法的流程圖
本節(jié)通過實(shí)驗(yàn)仿真來闡明提出本文方法的緣由,并驗(yàn)證本文方法的有效性與性能。
第1個實(shí)驗(yàn)是以一個小尺寸的圖像塊作為目標(biāo),通過查看L*、a*、b*3個通道的值及R、G、B3個通道的值來闡明提出本文方法的緣由。取圖2中的方框(大小為11×10)為要分析的目標(biāo)圖像塊,R、G、B3個通道的值如圖3(a)、(b)、(c)所示,然后本文用Matlab內(nèi)置的srgb2lab程序?qū)D像從RGB顏色空間轉(zhuǎn)換到L*a*b*顏色空間,L*、a*、b*3個通道的值分別如圖3(d)、(e)、(f)所示。
圖2 方框?yàn)橐治龅哪繕?biāo)圖像塊
注意,用srgb2lab程序得到的L*、a*、b*的值已歸一化到[0 255]。為了衡量每個顏色通道中像素值的變化情況,本文用二階統(tǒng)計量來表示它們的變化大小。經(jīng)統(tǒng)計,R、G、B 和L*、a*、b*6個通道的方差大小分別為65.242 4、57.071 2、48.770 3和44.321 6、2.095 2、0.483 4。
圖3 目標(biāo)圖像的6個顏色通道所對應(yīng)的像素值
為了更客觀地說明這2種顏色空間中各顏色通道的變化情況,本文從文獻(xiàn)[2]的數(shù)據(jù)庫隨機(jī)取了20幅圖像,然后統(tǒng)計6個顏色通道的像素值在整幅圖像中的變化情況,結(jié)果如圖4所示。圖3和圖4充分說明,RGB顏色空間各通道中像素值的變化大小比較一致,而L*a*b*顏色空間中亮度特征的變化遠(yuǎn)大于色度特征的變化,故當(dāng)將L*、a*、b*3個通道所對應(yīng)的顯著性值直接相加的話,色度特征a*和b*的顯著性往往容易被亮度特征L*所抑制,故本文采用RGB顏色空間作為圖像特征。
圖4 6個顏色通道的方差統(tǒng)計
第2個實(shí)驗(yàn)是比較本文方法與文獻(xiàn)[9]提出方法的顯著性檢測效果。實(shí)驗(yàn)的數(shù)據(jù)來自文獻(xiàn)[2]提供的數(shù)據(jù)庫,隨機(jī)選了5幅圖像。實(shí)驗(yàn)中高斯低通濾波器設(shè)置為Matlab默認(rèn)的參數(shù)(大小為3×3,標(biāo)準(zhǔn)方差為0.5),中值濾波器的大小設(shè)置5×5,隨機(jī)矩形區(qū)域采樣數(shù)量n為100,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5(b)和(c)分別是文獻(xiàn)[9]和本文方法得到的顯著圖,像素的亮度越亮,顯著性值越大,表明該像素越顯著。
從圖5可以看出,(c)中的目標(biāo)比(b)中的目標(biāo)更清晰,干擾更少,也即表明用本文方法得到的顯著圖優(yōu)于文獻(xiàn)[9]得到的顯著圖,這是因?yàn)楸疚姆椒ǔ浞掷昧烁黝伾ǖ赖男畔?,而文獻(xiàn)[9]的方法由于亮度特征L*的變化遠(yuǎn)大于色度特征a*、b*的變化,從而抑制了色度特征提供的有用信息。
圖5 2種顯著性檢測方法的結(jié)果比較
第3個實(shí)驗(yàn)是比較本文基于RGB顏色空間的方法與基于L*a*b*顏色空間的方法[9]的計算時間開銷。實(shí)驗(yàn)用的硬件平臺為Pentium(R)Dual-Core CPU,2.60GHz,2G內(nèi)存的PC,2種方法都是在Matlab軟件平臺上運(yùn)行,參數(shù)設(shè)置與實(shí)驗(yàn)2一樣。
本文從文獻(xiàn)[2]的數(shù)據(jù)庫中選擇了20幅400×300的圖像作為測試圖像,2種方法耗費(fèi)的計算時間如圖5所示,實(shí)線為本文方法的時間開銷,虛線為文獻(xiàn)[9]的時間開銷。文獻(xiàn)[9]的平均計算時間為0.468 5s,而本文方法的平均計算時間為0.293 2s,減少了40%左右,實(shí)時性更好。
圖6 2種方法的計算時間比較
本文提出了一種基于RGB顏色空間的顯著性檢測方法,由于無需進(jìn)行顏色空間的轉(zhuǎn)換,從而相比于文獻(xiàn)[9]的顯著性檢測方法更節(jié)省計算時間。同時,RGB顏色空間中的R、G、B三通道中像素亮度的波動比較一致,故在特征融合時更能充分利用各個特征的信息,從而取得了更好的顯著性檢測效果。
[1]Moosmann F,Larlus D,Jurie F.Learning saliency maps for object categorization[A].Proceedings of ECCV International Workshop on The Representation and Use of Prior Knowledge in Vision[C].Graz:Springer,2006.
[2]Achanta R,Estrada F,Wils P,et al.Salient region detection and segmentation[A].Proceedings of The International Conference on Computer Vision Systems[C].Santorini:Springer,2008:66-75.
[3]Guo C,Zhang L.A novel multiresolution spatiotemporal saliency detection model and its applications in image and video compression[J].IEEE Transactions on Image Processing,2010,19(1):185-198.
[4]Kanan C,Cottrell G W.Robust classification of objects,faces,and flowers using natural image statistics[A].Proceedings of The IEEE Conference on Computer Vision and Pattern Recognition[C].San Francisco:IEEE,2010:2472-2479.
[5]Rothenstein A L,Tsotsos J K.Attention links sensing to recognition[J].Image and Vision Computing,2008,26(1):114-126.
[6]Elazary L,Itti L.A Bayesian model for efficient visual search and recognition[J].Vision Research,2010,50(14):1338-1352.
[7]Harel J,Koch C,Perona P.Graph-based visual saliency[A].Advances in Neural Information Processing Systems[C].Vancouver:MIT Press,2007:545-552.
[8]Colby C L,Goldberg M E.Space and attention in parietal cortex[J].Annual Review of Neuroscience,1999,22(1):319-349.
[9]Vikram T N,Tscherepanow M,Wrede B.A saliency map based on sampling an image into random rectangular regions of interest[J].Pattern Recognition,2012,45(9):3114-3124.