徐盱衡,陳秀君
(西北工業(yè)大學(xué) 計算機學(xué)院,陜西 西安 710129)
圖像特征的提取是整個分類算法流程的開始,圖像特征的好壞,很大程度上影響著后續(xù)算法的區(qū)分力的高低。圖像特征具有多樣性,不同的圖像目標(biāo)往往在顏色、紋理、幾何形狀乃至提取的興趣點等一種或若干種特征上具有很大差異,這就是圖像分類算法能夠具有區(qū)分能力的基礎(chǔ)。
目前常用的特征點檢測算法,能夠有效地檢測圖像的特征,但是一幅圖像中往往有多個目標(biāo),而且背景混亂、存在遮擋等問題導(dǎo)致圖像信息復(fù)雜,對于分類任務(wù)來說,需要有效地鑒別出圖像中的目標(biāo),最好將特征采樣點盡可能的集中于期望得到分類的目標(biāo)樣本上。一個可能的途徑就是先提取圖像中感興趣的區(qū)域(Region of Interest,ROI),再對這些區(qū)域進(jìn)行特征采樣。
圖像分割為我們提供了一個連接圖像低層和高層語義的工具,由圖像分割得到的同一區(qū)域,具有特征上的相似性,而且有效的圖像分割算法,能夠最大限度地將目標(biāo)和背景分割開來。如果要計算圖像目標(biāo)出現(xiàn)概率和特征的關(guān)系,可以考慮使用圖像分割作為溝通目標(biāo)和區(qū)域特征的橋梁。
文中基于文獻(xiàn)[1]的方法做出了一些改進(jìn)。文獻(xiàn)[1]中基于以上思想及BoF框架提出的有偏采樣方法在分割后對特征聚類之前采用了硬量化編碼的方式,量化后編碼不能有效反映圖像區(qū)域特征,本文通過使用基于局部約束的線性編碼方式[2](Locality-constrained Linear Coding,LLC)替代硬編碼,減少了量化誤差。同時,使用VOC數(shù)據(jù)集中對目標(biāo)的標(biāo)注數(shù)據(jù),以目標(biāo)在某區(qū)域出現(xiàn)的多少作為依據(jù)計算后驗概率;使用近年來新發(fā)展的顯著性檢測算法[3]取代Itti的算法[4],取得了較優(yōu)的效果。
對于一幅圖像來說,要識別其中特定的目標(biāo)類別,僅靠BoF模型可能會導(dǎo)致誤判。有多種情況可能會導(dǎo)致這一問題,例如目標(biāo)物體過小,如果對整個圖像均勻采樣,那么代表目標(biāo)的特征將只在全部特征中占據(jù)很小的部分,如見圖1所示,或者目標(biāo)被其他物體所遮擋,等。
對人視覺的研究表明,人觀察外部事物是采取的是自頂向下的記憶選擇機制[5]和自底向上的顯著注意結(jié)合的方式,這啟發(fā)我們采取同樣的方式思考圖像分類算法的過程。能否同時采取兩種方法結(jié)合的方式,計算出圖像中相對最可能出現(xiàn)目標(biāo)的區(qū)域,以便于后續(xù)的處理。文獻(xiàn)[1]給出了一種具體的方法,如圖2所示,下節(jié)將介紹這種方法的詳細(xì)過程及對其的改進(jìn)。
圖1 全局的特征表示有時會導(dǎo)致判別失敗Fig.1 Global feature representation sometimes causes discrimination failure
圖2 有偏采樣算法的主要步驟Fig.2 Key steps of the biased sampling strategy
首先使用mean-shift算法[6]分割圖像,對相應(yīng)的顏色、紋理[7]、幾何特征[8]直方圖,分別聚類得到3個詞典。將所有圖像分割區(qū)域的特征都硬編碼到詞典的某一視詞。令F代表基于區(qū)域的某一種特征,F(xiàn)i表示特征詞典里的某一視詞,O表示圖像中有某類目標(biāo)表示圖像沒有此類目標(biāo),定義R為給定Fi而出現(xiàn)O的后驗概率,
假定P(O)=P(O),也就是認(rèn)為目標(biāo)在圖像中出現(xiàn)與否的先驗概率是相等的。事實上這個假設(shè)對于PASCAL VOC等數(shù)據(jù)集并不合理。以VOC2007的分類集為例,共有20類,分類時采取1對多的方式,共要訓(xùn)練20次,每次正樣本和負(fù)樣本之比約為 1:19。
R(Fi)=0 表示預(yù)測為負(fù)樣本圖像,R(Fi)=1 表示正樣本圖像,R(Fi)=0.5時正好介于兩者之間。因此選擇
這樣給定一幅新圖像,就可以通過分割-提取特征-計算的步驟得到目標(biāo)基于區(qū)域特征的后驗分布圖T1:
其中N(·)是歸一化運算符。
Yang[1]采用Itti[4]的算法計算顯著圖。我們在實驗部分將采用Goferman[3]的算法計算顯著圖。
令計算得到的顯著圖為T2,通過加權(quán)求和的方式表示最終的采樣概率圖T:
更進(jìn)一步,為了得到在(x,y)點任意尺度的概率密度函數(shù),對T進(jìn)行逐像素的積分:
那么在(x,y)點處尺度為s×s的圖像塊的采樣概率為
這樣,就可以使用上述的概率分布大小為s×s的圖像塊上利用DoG方法提取圖像特征點。
在上節(jié)中敘述的有偏采樣算法中目標(biāo)類后驗概率的計算方法,其中不乏可改進(jìn)之處。 如前所述,(1)中假定P(O)=P(O)對VOC等數(shù)據(jù)集并不合理;其次,對每個被分割區(qū)域的特征根據(jù)視覺詞典進(jìn)行硬編碼,會導(dǎo)致對視詞分界線附近的較大的不可避免的特征量化誤差,應(yīng)該用軟編碼方式替代;最后,原方案中令O表示圖像中有某類目標(biāo),并直接與圖像某區(qū)域特征相關(guān)聯(lián),這并不合理,因為即使待分類目標(biāo)在圖像中出現(xiàn),也僅僅和部分區(qū)域有關(guān),不能將其和沒有出現(xiàn)該目標(biāo)的區(qū)域特征聯(lián)系起來。
基于上述討論,對公式(1)做出修改。定義O′表示圖像分割區(qū)域中有某類目標(biāo),且此目標(biāo)占分割區(qū)域面積一半以上,表示分割區(qū)域中沒有此類目標(biāo),或者目標(biāo)占分割區(qū)域面積到一半。使用LLC編碼方法代替硬編碼方法,那么P(Fi|O′)和P(Fi′)仍然表示出現(xiàn)或者不出現(xiàn)目標(biāo)時有特征的Fi概率,但由于一個區(qū)域的同一個特征直方圖被量化到若干視詞Fi上,對不同的Fi計算P(Fi|O′)和P(Fi|′)時可能會多次包含同一區(qū)域,且累加的是區(qū)域特征相對于Fi的系數(shù)值。于是(1)變?yōu)?/p>
仍然使用式(2),給定一幅新圖像,先對其進(jìn)行分割,計算每個區(qū)域的特征,將特征編碼以后得到的非零系數(shù)與其對應(yīng)的視詞概率相乘,求和以后作為該特征對應(yīng)的目標(biāo)出現(xiàn)的后驗概率,即
其中cij對應(yīng)于第i類(i=1,2,3)區(qū)域特征編碼后的非零系數(shù)。于是得到目標(biāo)基于區(qū)域特征的后驗分布圖T1′:
使用Normalized Cuts[9]方法分割圖像,每幅圖像分割成10塊。使用基于BoF[10]的顏色直方圖、紋理直方圖和矩信息三種特征表示圖像區(qū)域。對于顏色直方圖,使用Lab顏色空間,每個通道有23個直方區(qū)間。對于紋理直方圖,使用一個總數(shù)為18的濾波器組 (共有6個方向,3個層次),1個高斯濾波器,1個拉普拉斯-高斯濾波器。將紋理texton通過k-means聚類量化成400個,將每個像素的對應(yīng)值硬編碼量化到其中的一個,最后每個圖像分割區(qū)域中的texton視詞累積形成一個紋理直方圖。對于幾何量度,使用Hu的矩不變量[8],對每幅圖像計算得到1個7維向量。假定各視覺特征相互獨立,通過k-means分別聚類得到3個詞典,詞典的視詞個數(shù)分別是KC=1 024,Kt=1 024,Km=512。 使用[3]提供的顯著性檢測方法提供顯著圖。圖3顯示了根據(jù)不同采樣方法進(jìn)行采樣的結(jié)果??梢钥吹?,較中列的普通SIFT檢測,右列的有偏SIFT特征在目標(biāo)區(qū)域(分別是人、鳥、牛)更集中一些。在第二幅圖片中的鳥顏色和紋理與背景相似,所以采樣點也有很多在背景上面。
圖3 有偏采樣示意圖Fig.3 Illustration of biased sampling
隨后在VOC數(shù)據(jù)集上進(jìn)行實驗不同的采樣點數(shù)對分類精度的影響。使用BoF模型,并采用金字塔框架[11]以增強分類精度。使用稠密興趣點檢測的方法,網(wǎng)格尺寸設(shè)為4×4像素,提取的圖像塊設(shè)為16×16像素。一般而言,在這個參數(shù)組合下單幅圖像的稠密SIFT特征個數(shù)都能大于7 500;如果單幅圖像總共的SIFT特征沒有達(dá)到10 000,就全部選取。
對于VOC 2007數(shù)據(jù)集,使用k-means方法聚類得到詞典,詞典基向量個數(shù)為25 000。采用LLC編碼方式與liblinear分類器,在實驗中均取α=0.5。結(jié)果如圖4所示。
圖4 采樣算法分類性能比較(VOC 2007)Fig.4 Comparison of different sampling algorithms(VOC 2007)
在VOC 2010數(shù)據(jù)集上進(jìn)行實驗,詞典基向量個數(shù)為20 000,結(jié)果如圖5所示。
圖5 采樣算法分類性能比較(VOC 2010)Fig.5 Comparison of different sampling algorithms(VOC 2010)
在兩個實驗結(jié)果中可以看到,隨著每幅圖像選取采樣點數(shù)的下降,隨機選擇會導(dǎo)致分類性能逐漸下降(VOC2007:平均精度從采樣點數(shù)10 000時的59.3%下降到點數(shù)2 500時的58.1%;VOC2010:平均精度從采樣點數(shù)10 000時的64.7%下降到點數(shù)為2500時的63.1%)。Yang的有偏采樣算法在采樣點數(shù)為7 500時分類精度最高,在5 000時略有下降,在2 500時降到最低,改進(jìn)的有偏采樣算法也顯示了同樣的效果。這一方面說明了有偏采樣算法的有效性,濾除了一部分和目標(biāo)判別沒有直接關(guān)系的特征點,導(dǎo)致分類精度有一定的提升;另一方面也間接地證明了pooling過程在分類中的作用:能夠挑選出具有區(qū)分度的編碼系數(shù)。如果采樣點數(shù)選的太少,則pooling的區(qū)分度下降,這和Yang[1]中顯示的結(jié)果一致。另外,在兩個數(shù)據(jù)集上,我們的改進(jìn)算法較Yang[1]的算法都有0.3~0.5%的性能改進(jìn)。
文中提出了一種改進(jìn)的有偏采樣算法。使用自頂向下的概率方法與自底向上的顯著性檢測方法相結(jié)合的策略,對圖像的特征點進(jìn)行有偏采樣。通過用基于局部性約束的線性編碼方式替代硬編碼方式對區(qū)域特征進(jìn)行編碼,并且改變計算后驗概率計算方式,實驗結(jié)果驗證了算法的有效性和改進(jìn)算法的效果。
[1]Yang L,Zheng N,Yang J,et al.A biased sampling strategy for object categorization[C]//Int.Conf.on Computer Vision(ICCV), Kyoto, Japan,2009:1141-1148.
[2]Wang J,Yang J,Yu K,et al.Locality-constrained linear coding forimage classification [C]//Proceedingsofthe Conference on Computer Vision and Pattern Recognition(CVPR),2010.
[3]Goferman S,Zelnik-Manor L,Talr A.Context-aware saliency detection[C]//Conference on Computer Vision and Pattern Recognition,2010:9-16.
[4]Itti L,Koch C,Niebur E.A model of saliency based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20 (11):1254-1259.
[5]Navalpakkam V,Itti L.Top-down attention selection is fine grained[J].Journal of Vision,2006,6(11):1180-1193.
[6]Comaniciu D,Meer P.Mean shift:a robust approach toward feature space analysis[J].IEEE Trans.PAMI,2002,24(5):603-619.
[7]Martin J, Belongie S,Shi J,et al.Leung.Textons, contours and regions:cue combination in images segmentation[C]//In Proc.ICCV’99,1999:918-925.
[8]Hu M.Visual pattern recognition by moment invariants[J].IEEE Trans.Information Theory,1962(IT-8):179-187.
[9]Shi J,Malik J.Normalized cuts and image segmentation[J].TPAMI,2000,22(8):888-905.
[10]Lee Y J,Grauman K.Object-graphs for context-aware category discovery [C]//In Computer Vision and Pattern Recognition (CVPR),2010:1-8.
[11]Yang J,Yu K,Gong Y,etal.Linearspatialpyramid matching using sparse coding for image classification[C]//in Proceedings of the Conference on Computer Vision and Pattern Recognition(CVPR),2009.