李詠豪
摘 要:傳統(tǒng)詞袋模型易受視角、尺度和背景等因素干擾。本文對傳統(tǒng)詞袋模型進(jìn)行了改進(jìn),提出一種基于角點(diǎn)檢測和圖論的感興趣區(qū)域提取方法,以及結(jié)合高斯模糊隸屬度函數(shù)選取視覺單詞。首先,對圖像進(jìn)行角點(diǎn)檢測,利用圖論的方法劃定ROI區(qū)域,然后對得到的ROI區(qū)域進(jìn)行SIFT特征的提取并生成視覺詞典,從而減少背景信息的影響。其次,引入高斯模糊隸屬度函數(shù)改進(jìn)圖像視覺直方圖的表示。在Caltech 100數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果表明,本文提出的方法相較于傳統(tǒng)詞袋模型,分類準(zhǔn)確度提升了3%。
關(guān)鍵詞: 詞袋模型;角點(diǎn)提取;圖論;高斯模糊隸屬度函數(shù)
文章編號: 2095-2163(2019)03-0097-04?中圖分類號: TP391.41?文獻(xiàn)標(biāo)志碼: A
0?引?言
在計(jì)算機(jī)視覺領(lǐng)域中,圖像分類是基礎(chǔ)問題之一,被廣泛應(yīng)用于視頻監(jiān)控和圖像分析等方面。圖像分類中常用的方法是詞袋模型[1-3]。詞袋模型可以分為以下3個步驟:
(1)特征提取。利用SIFT算法[4]生成128維的特征描述子,這些描述子具有尺度、光照等的不變性。
(2)構(gòu)造視覺詞典。利用k-means聚類算法對SIFT描述子進(jìn)行聚類,得到視覺單詞,進(jìn)一步構(gòu)建視覺詞典。
(3)利用支持向量機(jī)(SVM)完成分類。
詞袋模型的分類效果易受視角、尺度、背景等因素干擾。針對這些問題,目前提出不少對于詞袋模型的改進(jìn)算法。Wang等人[5]提出空間金字塔匹配模型;Philbin等人[6]提出一種軟分配的視覺詞匯統(tǒng)計(jì)直方圖的構(gòu)建方法。同時,人類在識別圖像時,往往只是對某一區(qū)域感興趣,而不是整幅圖像。研究時,就可以通過對ROI(感興趣區(qū)域)進(jìn)行特征提取,從而減少非感興趣區(qū)域特征點(diǎn)的干擾。因此,本文通過對原圖像進(jìn)行角點(diǎn)檢測,結(jié)合圖論方法,確定ROI,然后對ROI進(jìn)行SIFT特征點(diǎn)提取,這樣可以使提取的SIFT特征描述子集中在物體上,排除背景上的干擾點(diǎn)。另外,在視覺詞匯直方圖生成過程中,本文引入模糊隸屬度函數(shù)來提高分類準(zhǔn)確率。對此可做研究闡述如下。
1?ROI區(qū)域定位
傳統(tǒng)詞袋模型是對整幅圖像提取特征,如此一來,位于背景上的特征點(diǎn)也被提取出來,這將對視覺詞典直方圖產(chǎn)生一定影響。因此,本文采用角點(diǎn)和圖論相結(jié)合的方法來減少背景特征點(diǎn)的影響。這里擬將探討分述如下 。
1.1?角點(diǎn)提取
Shi等人[7]提出用于追蹤的Shi-Tomasi角點(diǎn)特征,在視頻跟蹤領(lǐng)域有較好的效果。本文將Shi-Tomasi角點(diǎn)特征引入到圖像分類中,和圖論方法相結(jié)合,用于定位ROI區(qū)域。角點(diǎn)屬于圖像中的局部特征點(diǎn),角點(diǎn)處的一階導(dǎo)數(shù)為局部最大,并且圖像的灰度值在水平與垂直方向上有一定變化。設(shè)圖像在像素點(diǎn)(x,y)處的灰度值為I(x,y),以該點(diǎn)為中心構(gòu)建一大小為n*n的窗口M,窗口平移(x,y)后的灰度變化如下:
矩陣D可以用來判定像素點(diǎn)是否為角點(diǎn)。設(shè)λ1和λ2是矩陣D的特征值,如果λ1>λ2,并且λ2>kλ2max(λ2max表示任意像素點(diǎn)較小特征值的最大值,本文設(shè)k值為0.05),則可判定此像素點(diǎn)為角點(diǎn)。圖1列出提取角點(diǎn)的實(shí)例。
1.2?圖論方法
本文利用圖論[8]思想,對提取的角點(diǎn)構(gòu)建無向圖,根據(jù)各角點(diǎn)的連續(xù),去除關(guān)聯(lián)度低的角點(diǎn)。這里,圖G表示為G(V,E),其中V表示圖中的頂點(diǎn),E表示圖中各個點(diǎn)間的聯(lián)系。研究中將1.1節(jié)中提取的角點(diǎn)作為圖的頂點(diǎn),然后通過式(3)構(gòu)造無向圖M,即:
本文結(jié)合角點(diǎn)檢測和圖論來確定ROI,具體步驟如下。
步驟2?構(gòu)建無向圖。按式(3)構(gòu)建角點(diǎn)的無向圖M(i,j),i,j=1,…,n,n表示特征點(diǎn)的數(shù)目。
步驟3?去除關(guān)聯(lián)度小的角點(diǎn)。按式(4)得到關(guān)鍵角點(diǎn)集合V:
步驟4?劃定ROI區(qū)域。根據(jù)步驟3得到關(guān)鍵角點(diǎn)的集合V,更新xmin、xmax、ymin和ymax,劃定ROI區(qū)域。圖2顯示了通過本文方法確定的ROI。
從圖2可見,利用本文方法確定的ROI區(qū)域,可以有效地將前景與背景區(qū)分開,然后,在ROI提取 SIFT特征描述子和生成視覺詞典,這樣可以減小背景特征點(diǎn)對視覺詞匯的影響。
2?模糊理論的應(yīng)用
傳統(tǒng)詞袋模型在視覺詞典生成之后,在對每幅圖像生成直方圖時,是計(jì)算該幅圖像中每一個特征向量與視覺詞典中視覺詞匯的距離,即采用硬分配方法,將其映射到距其最近的視覺詞匯上面。如圖3所示。圖3中,A、B、C、D是生成的視覺單詞,1、2、3、4是圖像局部特征。在硬分配方式下,直接將特征1和2量化到詞匯A,特征3和4量化到詞匯B。但從圖3中可以發(fā)現(xiàn),特征1、2、3和4距離視覺詞匯A和B的距離是不同的,因此,在生成圖像直方圖時對于視覺詞匯的影響也應(yīng)該不同。
其中,f()表示隸屬度函數(shù),本文利用高斯隸屬度函數(shù)來提高分類準(zhǔn)確率,如下式所述:
3?實(shí)驗(yàn)結(jié)果
本文擬在Caltech-101圖像庫上進(jìn)行實(shí)驗(yàn),該庫中有從人到動物等101種類別,共包括有9 146幅圖像,每個類別的圖像數(shù)目從31到800張不等。研究隨機(jī)選擇10種類別進(jìn)行實(shí)驗(yàn),包括:airplanes、anchor、ant、brain、ceiling_fan、chair、cup、elephant、face和rooster。每類隨機(jī)提取10張作為訓(xùn)練圖像,再隨機(jī)選取10張和20張圖像作為測試圖像,進(jìn)行10次重復(fù)實(shí)驗(yàn),計(jì)算平均分類準(zhǔn)確率。實(shí)驗(yàn)中,視覺詞典的大小選為300。
本文首先提取ROI區(qū)域,然后再計(jì)算分類準(zhǔn)確率,分2組實(shí)驗(yàn),一組用傳統(tǒng)詞袋模型,即對整幅圖像提取SIFT特征;另一組是在ROI內(nèi)進(jìn)行SIFT特征提取,其中,參數(shù)δ為2。實(shí)驗(yàn)結(jié)果見表1。從表1可以發(fā)現(xiàn),在ROI內(nèi)提取特征,可以有效提高詞袋模型的分類精度。
接著,本文計(jì)算高斯隸屬度函數(shù)對于圖像分類精度的影響。在計(jì)算過程中,考慮高斯隸屬度函數(shù)參數(shù)σ(μ=0)對于分類精度的影響,如圖4所示。從圖4可見,當(dāng)σ=[0.3,0.5]時,分類準(zhǔn)確度達(dá)到最大值54.9%。進(jìn)一步,本文將ROI區(qū)域定位算法和高斯隸屬度函數(shù)相結(jié)合,對其進(jìn)行測試,所得結(jié)果見表2。實(shí)驗(yàn)結(jié)果表明:相對于傳統(tǒng)詞袋模型,本文算法在分類準(zhǔn)確度上大約提高了3%。
4?結(jié)束語
本文提出了角點(diǎn)檢測和圖論相結(jié)合的ROI定位方法,在一定程度上降低了背景、尺度、角度對圖像分類的影響,使所提取的SIFT特征點(diǎn)集中在物體上,則能生成更具有代表性的視覺詞匯。同時引入模糊隸屬度函數(shù),在圖像直方圖表示生成時融合空間信息,提高圖像的分類精度。在Caltech-101數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本算法較傳統(tǒng)詞袋模型算法有更高的分類準(zhǔn)確度。
參考文獻(xiàn)
[1]WANG Chong, HUANG Kaiqi. How to use Bag-of-Words model better for image classification[J]. Image and Vision Computing, 2015, 38: 65-74.
[2]?LI Feifei, FERGUS R , PERONA P. Learning generative visual models from few training examples: An incremental Bayesian approach tested on 101 object categories[J]. Computer Vision and Image Understanding,2007,106(1):59-70.
[3]?GREGORY G, AlEX H, PIETRO P. Caltech-256 object category dataset [D]. California: California Institute of Technology, 2007.
[4]?EVERINGHAM M, Van GOOL L, WILLIAMS C K, et al. The pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[5]?WANG Junqiu,CIPOLLA R,ZHA Hongbin.Vision-based global localization using a visual vocabulary [C]?//Proceedings of the 2015 IEEE International Conference on Robotics and Automation. Barcelona:IEEE,2005: 4230-4235.
[6]?PHILBIN J,CHUM O,ISARD M,et al. Lost in quantization: Improving particular object retrieval in large scale image databases [C]?// IEEE Conference on Computer Vision and Pattern Recognition, 2008( CVPR 2008). Anchorage, AK:IEEE, 2008:1-8.
[7]?SHI J,TOMASI C, Good feature to track[C]?// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Seattle:IEEE Press, 1994: 593-600.
[8]?JIANG Wen, GUO Fei, LIU Zheng. A graph theory method for determination of cryo-EM image focuses[J]. Journal of Structural Biology, 2012, 180(2): 343-351.
[9]?KUMAR M, STOLL N, THUROW K, et al. Fuzzy memberships descriptors for images[J]. IEEE Transactions on Fuzzy Systems, 2016, 24(1): 195-207.