邱芹軍 譚家政 蔡大偉 劉 勇
(三峽大學智能視覺與圖像信息研究所,湖北宜昌 443002)
隨著互聯(lián)網(wǎng)和多媒體技術(shù)的迅速發(fā)展,多媒體信息資源成指數(shù)增長[1],傳統(tǒng)的基于本文的圖像檢索已經(jīng)遠遠不能滿足人們的需求,基于內(nèi)容的圖像檢索技術(shù)引起了國內(nèi)外很多學者的關(guān)注.而圖像檢索技術(shù)中如何描述圖像的特征和選擇合適的檢索機制成為圖像檢索中的難點問題.
目前,圖像檢索技術(shù)主要分為3個發(fā)展階段,第1階段:基于文本的圖像檢索,主要是根據(jù)用戶輸入的關(guān)鍵字來進行檢索;第2階段:基于內(nèi)容的圖像檢索,主要是根據(jù)圖像的顏色、紋理、形狀、輪廓等低層特征來描述圖像;第3階段:基于語義的圖像檢索,用更加接近于人們檢索心理的特征來檢索圖像.
顏色特征和紋理特征一直是基于內(nèi)容的圖像檢索中被廣泛關(guān)注和研究的熱點.顏色特征具有很好的魯棒性,但是它忽略了圖像的紋理、形狀和空間等信息.紋理特征在計算機視覺領(lǐng)域和模式識別領(lǐng)域得到了廣泛的研究,出現(xiàn)了不少經(jīng)典的紋理特征描述子.其中灰度共生矩陣就是一個非常經(jīng)典的紋理描述子[2],它已被廣泛應用到紋理分析、對象識別以及圖像檢索中,并且取得了較好的效果[3-4].但現(xiàn)有的紋理特征與人類的感知差異較大,僅僅依靠紋理特征進行圖像檢索,效果并不好[5].顏色直方圖和彩色共生矩陣能夠結(jié)合顏色信息和紋理信息表達物體表面顏色信息與結(jié)構(gòu)分布之間的相互關(guān)系,因此,它能夠較好地描述圖像內(nèi)容.
本文針對僅僅使用顏色或者紋理單一特征來表達圖像特征的缺陷,從顏色和紋理的角度出發(fā),并結(jié)合直方圖和灰度共生矩陣的優(yōu)點,提出了利用顏色直方圖和彩色共生矩陣來描述圖像內(nèi)容的方法.
常見的顏色空間有RGB,Lab,LUV,YUV,HSV,YIQ,HSL,HIS,YCbCr等[6].最常見的顏色空間是RGB顏色空間,但是這種顏色空間與人眼的視覺感知差異較大,不適合表達視覺特征.而HSV顏色空間包含3個分量:色彩(hue)、飽和度(saturation)、明度值(value),這3個分量能更好地表達人的視覺特征信息.因此本文在對顏色特征進行提取時選擇HSV顏色空間.
顏色特征能夠表現(xiàn)出較強的魯棒性,它對圖像平移、尺度、旋轉(zhuǎn)變化不敏感.本文在HSV顏色空間中進行顏色量化.在HSV顏色空間中,假設(shè)彩色圖像的大小為M×N,QH,QS,QV分別表示H,S和V分量量化的等級數(shù).一般情況下,顏色量化數(shù)目越多,算法對顏色的分辨能力越強,但同時會增加計算量.而且很多研究表明,單純增加顏色量化的數(shù)目并不能提高圖像檢索性能.本文為了減少計算量和存儲空間,同時不影響檢索性能,在HSV顏色空間中將彩色圖像量化為16×4×4=256種顏色.本文中,256種顏色的索引圖像表示為C(x,y),其中x∈[0,1,…,M-1],y∈[0,1,…,N-1].
在確定顏色空間的基礎(chǔ)上,對一幅數(shù)字圖像,計算圖像中每個顏色值落在不同顏色區(qū)間的像素統(tǒng)計值得到圖像顏色直方圖.一般來說,顏色小區(qū)間的數(shù)目越多,顏色直方圖的效果越好.同時,過多的顏色小區(qū)間會增加計算負擔.本文根據(jù)1.2中的顏色量化來統(tǒng)計顏色直方圖.
灰度共生矩陣能夠描述空間信息,但是不具備顏色特征和形狀特征.灰度共生矩陣通過一定的擴展可以克服這些弱點,具備描述顏色特征和形狀特征的能力.
本文是在灰度共生矩陣的基礎(chǔ)上,利用彩色共生矩陣[6]來描述圖像的特征.它是一種新的特征描述子,是對灰度共生矩陣的延伸和拓展.彩色共生矩陣主要包括邊緣提取、邊緣量化和特征描述3個環(huán)節(jié).
圖像邊緣能夠提供和描述較多的圖像紋理和形狀等信息.其中圖像的梯度能夠檢測出彩色圖像中的色彩躍變部分.
在灰度圖像處理中,灰度圖像計算梯度的方法可應用于二值圖像,但是不能直接擴展到彩色空間.本文在RGB彩色空間中提取彩色圖像邊緣信息.設(shè)r,g和b是沿RGB彩色空間的R,G,B軸的單位向量,并定義向量[7]:
令gxx,gyy和gxy表示這些向量的內(nèi)積
則可得圖像在(x,y)處的最大變化率的方向角度
且在角度θ(x,y)方向上點(x,y)處的變化率的值[3,6]
計算整幅圖像的梯度值然后進行標準化,使其落在[0,1]范圍內(nèi),然后將其投影到灰度等級上.因為tan(α)=tan(α+π),如果θ是式(8)的一個解,則θ0+π/2也是該式的一個解.由于Fθ=Fθ+π,所以F僅需對θ在半開區(qū)間[0,π)內(nèi)計算.意味著該式在每個點(x,y)處涉及兩個正交方向.沿著這些方向之一f最大,沿其他方向f最小.
為了減少計算量和存儲空間,同時不降低檢索性能.本文將提取出的最大變化率的方向角度量化為18個等級.本文中,在RGB顏色空間中一副大小為M×N的彩色圖,18個等級的索引圖像表示為f(x,y),其中x∈[0,1,…,M-1],y∈,0,1,…,N-1].
Haralick等人在灰度共生矩陣的基礎(chǔ)上提出利用能量、對比度、熵、均勻度等14個統(tǒng)計量來描述圖像的紋理特征[8].但是對于自然的圖像來說,僅僅利用能量、對比度、熵、均勻度等統(tǒng)計量并不一定具有優(yōu)勢.
共生矩陣能夠描述像素之間的空間關(guān)系,但描述圖像的特征維數(shù)會很高,無法取得理想的檢索效果和性能;直方圖具有魯棒性高、檢索速度快等特點,但無法描述圖像的空間或形狀等信息.僅僅利用單一的特征無法有效地描述圖像的特征信息.因此,本文結(jié)合兩者的優(yōu)點,利用一種二元組直方圖[9]來描述圖像的紋理特征.
二元組直方圖的具體描述為:假設(shè)RGB空間的顏色索引圖像f的值f(P)=w,w∈{0,1,…,W-1},W為顏色量化總數(shù)目.像素點位置為P(x,y),如果P1(x1,y1),P2(x2,y2),f(P1)=w1,f(P2)=w2.在邊緣方向分布矩陣中θ(x,y),θ(P1)=v1,θ(P2)=v2.隨著距離D的不斷變化,在邊緣方向圖像θ(x,y)中,不同的邊緣方向有可能有相同的顏色.在顏色索引圖像f中,不同的顏色像素有可能出現(xiàn)相同的邊緣方向.假設(shè)兩個相鄰像素點的距離為D,w1和w2共同出現(xiàn)的次數(shù)為N,v1和v2共同出現(xiàn)的次數(shù)為N1,則二元組直方圖定義為:
其中
二元組直方圖的距離參數(shù)以D=1為基礎(chǔ),即只考慮相鄰兩個像素之間的空間關(guān)系.最終H(f(x1,x2))可以得到64維特征向量,H(θ(x1,x2))可以得到18維特征向量,即可以得到64+18=82維特征向量.
本文中假設(shè)一幅彩色圖像的大小為M×N,首先將該彩色圖像按照(1.1)節(jié)中的公式從RGB彩色空間轉(zhuǎn)換到HSV顏色空間,把色調(diào)H分為6份,飽和度S分為4份,亮度V分為4份,然后將其按照(1.2)節(jié)的量化級,把3個顏色分量轉(zhuǎn)化成一維特征向量,即
式中,QS和QV分別表示S和V的量化等級數(shù),本文中QS=4,QV=4.因此,式(12)可表示為
這樣,H,S,V3個分量就在一維向量上分布開了.根據(jù)式(13),L的取值范圍是[0,1,2,…,95].按照上面的方法將顏色劃分為96種,這96種代表色的量化方式有效地壓縮了顏色特征,較好地符合人眼對顏色的感知.
對圖像進行顏色量化之后,統(tǒng)計圖像的直方圖就可以得到一維的顏色特征向量D1.然后將圖像數(shù)據(jù)庫中的圖像按照上面的提取流程提取特征向量與D1計算相似性距離,得到相似性距離矩陣M1.最后高斯歸一化距離矩陣M1.
灰度共生矩陣是直接將彩色圖像轉(zhuǎn)化成灰度圖像,然后進行特征提取.本文為了減少顏色信息的損失,直接對彩色圖像進行處理.設(shè)一幅彩色圖像的大小為M×N.首先根據(jù)(3)中的方法計算彩色圖像的邊緣方向矩陣Ori,然后將邊緣方向矩陣Ori量化成18個等級,將彩色圖像在RGB顏色空間中量化成64個等級,然后按照式(9)和式(10)得到圖像的特征向量D2.
對圖像庫中的所有圖像進行上述彩色共生矩陣特征提取得到特征向量Di,計算特征向量Di和示例圖像特征向量D2之間的相似性距離,得到相似性距離矩陣M2.最后高斯歸一化距離矩陣M2.
設(shè)w1表示顏色特征的權(quán)重,w2表示彩色共生矩陣的權(quán)重.得到顏色特征矩陣M1和彩色共生矩陣M2之后,需要對兩種特征進行權(quán)重分配.理想的情況下是能夠根據(jù)實際情況動態(tài)地分配權(quán)重的,從而提高圖像的檢索性能.但實際實現(xiàn)中困難較大.本文根據(jù)實驗的方法,對w1和w2的各種情況進行實驗測試.其中w1,w2∈[0,1].最后實驗結(jié)果表明,w1取0.3,w2取0.7實驗效果最好.
本文圖像檢索仿真實驗采用Windows 7操作系統(tǒng)作為開發(fā)平臺,開發(fā)工具是Matlab 2009R,計算機的硬件配置是:雙核CPU,主頻為2.83GHz,2G內(nèi)存和500G硬盤.為了驗證本文算法的檢索效果,分別采用顏色直方圖(CH)和灰度共生矩陣(GLCM)進行對比試驗.GLCM采用常用的能量、對比度、熵、均勻度,相關(guān)性等共9個統(tǒng)計量提取圖像特征.
本文實驗系統(tǒng)采用Corel-test圖像庫,它包含1 000張圖像.包括土著人、海灘、建筑、巴士、恐龍、大象、花卉、馬、雪山和食物等10類圖像.每類圖像的數(shù)目為100張,大小為256×384像素或者384×256像素,圖像格式為jpg格式.
本文中采用將顏色和紋理特征分別度量相似性再外部歸一化,之后通過加入權(quán)重實現(xiàn)最終的綜合特征向量.
設(shè)Q表示查詢圖像,I為圖像數(shù)據(jù)庫中任意一副圖像,分別用HQ={hkQ|1≤k≤N}和HI={hkI|1≤k≤N}表示圖像Q和I的顏色直方圖,用GQ={gkQ|1≤k≤N}和GI={gkI|1≤k≤N}表示圖像Q和I的二元組直方圖,在圖像檢索中分別用Scolor=(HQ,HI)和Stexture=(GQ,GI)表示圖像Q和I之間的顏色和紋理相似度.圖像檢索時顏色和紋理相似性度量公式如下:
采用高斯模型對計算出的顏色和紋理相似度分別進行歸一化,得到最終的加權(quán)相似度量公式:
其中,wc和wt表示加權(quán)系數(shù),wc+wt=1.根據(jù)實驗中的測試,wc取0.3,wt取0.7實驗效果比較理想.
圖像檢索時將計算出的查詢圖像與圖像庫中各圖像的相似度進行降序排列,將前n幅圖像輸出即為檢索結(jié)果,相似度越大說明兩者越相似.
本文采用精確度(P)和返回率(R)[10]來評價圖像檢索性能.精確度就是相似圖像數(shù)目與返回圖像數(shù)目的比率.查全率就是相似圖像數(shù)目與圖像庫中相似圖像總數(shù)的比率.
圖像庫中分為10類,每類100幅圖像.實驗中規(guī)定兩幅圖像通過相似性計算后是否屬于同類來計算查準率和查全率.具體測試為:從每類圖像中隨機抽取10幅圖像作為例圖進行檢索,計算平均查準率,這樣每種方法進行了100次檢索,3種方法共進行了300次檢索.本文的圖像檢索界面以返回的12幅圖像作為基準.3種方法的平均檢索精確度見表1.
表1 3種方法的檢索精確度 (單位:%)
根據(jù)表1,在Corel-test圖像庫中,本文的方法相比灰度共生矩陣和顏色直方圖平均檢索精確度分別提高了21.17%和29.85%.
圖1和圖2給出了兩幅利用直方圖、灰度共生矩陣以及本文的方法檢索的例子,例子圖像分別為巴士和花卉.其中左上角第一幅為示例圖像,檢索結(jié)果從左到右從上到下按照相似性大小進行排列.從檢索結(jié)果來看,本文的算法能夠結(jié)合顏色和紋理特征,具備描述顏色和紋理分布信息的能力.顏色直方圖首先將顏色進行量化,然后統(tǒng)計不同的色彩在整幅圖像中所占的比例,計算速度比較快、魯棒性較高,但它無法描述圖像像素之間的空間位置關(guān)系,這樣可能會造成兩幅完全不一樣的圖像具有相同的直方圖,會造成誤檢.
圖1 3種方法對巴士圖像檢索結(jié)果
圖2 3種方法對花卉圖像檢索結(jié)果
灰度共生矩陣反映的是像素關(guān)于方向和相鄰間隔之間的綜合信息.灰度共生矩陣在自然圖像中的檢索性能并不是很佳,主要是因為灰度共生矩陣利用統(tǒng)計量來描述圖像特征,而統(tǒng)計量的描述能力偏弱.但是灰度共生矩陣提供了一個經(jīng)典的空間關(guān)系計算模式,這使得仍然成為一種很流行的描述圖像的工具.正因為統(tǒng)計量不能很好地描述圖像特征,所以才提出本文的方法.
根據(jù)表1的分析,對于不同類別的圖像,本文的方法大多數(shù)優(yōu)越于顏色直方圖(CH)和灰度共生矩陣(GLCM),但是本文的方法也存在一定的不足.對于目標與背景差異較大的圖像,本文的檢索效果較好,但是對于差異較小的圖像,比如海灘和雪山,會造成較高的誤檢,查全率和查準率提高得較少.
針對僅僅利用單一特征無法很好地描述圖像特征,提出一種結(jié)合顏色直方圖和彩色共生矩陣的彩色圖像檢索方法.該方法結(jié)合了兩者的優(yōu)點,不僅有效地利用了顏色空間信息,而且顏色特征和紋理特征的結(jié)合克服了單一特征的缺陷,使得圖像檢索的性能有較大提高.但算法也存在不足,對于目標和背景差別不大的圖像,檢索效果并不是很好.實驗中,權(quán)重w1和w2的值是根據(jù)實驗結(jié)果進行反復修改找到的最佳權(quán)重值,因此,研究權(quán)重的自適應是下一步的主要研究工作.
[1] 劉 穎,范九倫.基于內(nèi)容的圖像檢索技術(shù)綜述[J].西安郵電學院學報,2012,17(2):1-8.
[2] Haralick R M,Dinstein S.Textural Feature for Image Classification[J].IEEE Transactions on System,Man and Cybernetics,1973,3(6):610-621.
[3] Liu G H,Yang J Y.Image Retrieval Based on the Texton Co-occurrence Matrix[J].Pattern Recognition,2008,41(12):3521-3527.
[4] Liu G H,Zhang L,et al.Image Retrieval Based on Multi-texton Histogram[J].Pattern Recognition,2010,43(7):2380-2389.
[5] 王向陽,陳景偉,于永健.一種基于彩色邊緣綜合特征的圖像檢索算法[J].模式識別與人工智能,2010,23(4):216-221.
[6] Liu G H,Li Z Y,Zhang L,et al.Image Retrieval Based on Micro-Structure Descriptor[J].Pattern Recognition,2011,44(9):2123-2133,2010,41(10):1-5.
[7] Gonzalez R C,Woods R E.數(shù)字圖像處理[M].3版.Prentice Hall,2007.
[8] Liu G H.Image Retrieval Based on Two-Tuples Histogram[J].Pattern Recognition,2010,22(5):593-601.
[9] Haralick R M,Shangmugam,Dinstein.Textural Feature for Image Classification[J].IEEE Transactions on System,Man and Cybernetics,1973,3(6):610-621.
[10]Müller H,Müller W,Squire D G,et al.Performance Evaluation in Content-Based Image Retrieval:Overview and Proposals[J].Pattern Recognition Letters,2001,22(5):593-601.