肖 哲,秦志光,丁 熠,藍 天,于 躍
(電子科技大學信息與軟件工程學院 成都 611731)
基于低尺度詞袋模型的圖像快速分類方法
肖哲,秦志光,丁熠,藍天,于躍
(電子科技大學信息與軟件工程學院成都611731)
提出一種新的框架用于改進傳統(tǒng)詞袋模型效率較低的問題。該方法建立在通過小波變換獲取的低尺度圖像表示上,利用在低尺度圖像上提取單尺度的SIFT特征,建立低尺度視覺詞典。由于大幅度減少了圖像初始特征維數(shù),該方法可以快速建立視覺詞典,并且有效地降低后續(xù)圖像分類所花費的時間。通過對Caltech101數(shù)據(jù)集全部8 677張圖像的分類測試顯示,該方法可以在保證分類性能的同時,有效地提升基于傳統(tǒng)詞袋模型的圖像分類效率。實驗結(jié)果表明,該方法可以全面提升金字塔匹配的詞袋模型分類性能和分類效率,普遍用于傳統(tǒng)詞袋模型及其衍生方法。
詞袋模型;計算機視覺;圖像分類;尺度不變特征轉(zhuǎn)換;小波變換
近年來隨著圖像數(shù)量與日俱增,如何對海量的圖像資料進行快速準確的檢索、分類、識別,從中挖掘出用戶所需的關(guān)鍵信息,逐漸成為計算機視覺領域的重要研究課題。隨著越來越多的科研工作者致力于相關(guān)領域的研究,出現(xiàn)了新的圖像分類方法,然而這些新方法大多只追求分類結(jié)果的準確率,并未考慮到實際應用中的高效性需求,往往在處理少量實驗數(shù)據(jù)時效果優(yōu)越,而當數(shù)據(jù)量增長到一定程度時就會出現(xiàn)效率低下、甚至難以運算的情況。
詞袋模型(bag of word)最初被應用于文本分類領域[1],文獻[2-3]將其引入計算機視覺領域,并廣泛應用于基于內(nèi)容的圖像分類中[4-7]。該方法通過對圖像的視覺特征進行聚類獲得視覺特征詞典,利用視覺詞典中的單詞或詞組在圖像中出現(xiàn)的頻率作為圖像表示,進而對圖像進行分類。視覺詞袋模型(bag of visual word)的提出,一定程度上緩解了圖像特征維數(shù)巨大、局部特征不統(tǒng)一難以訓練的問題,但是在實際應用中,其分類效率仍有待進一步優(yōu)化。文獻[8]指出視覺詞典所需解決的兩個問題,一個是詞典的簡化,去除詞典中沒有區(qū)分力的無意義單詞;另一個是需要確定一個合理的詞典分辨率,往往分辨率越粗的詞典分類準確性越差,而分辨率太細的詞典又容易受到噪音干擾;文獻[9-10]分別采用稀疏編碼(sparse coding)和局部線性編碼詞典(localityconstrained linear coding,LLC)對特征進行量化,以盡可能簡化視覺詞典;文獻[11]中對視覺詞袋模型中的特征編碼和池化方法進行了回顧和評估,并通過大量實驗得出結(jié)論,在不同的應用中應使用不同的編碼和池化方法。近年來,詞袋模型的研究更多聚焦于解決實際應用中所遇到的各種問題,文獻[12]提出一種關(guān)聯(lián)直方圖的詞袋表示方法,通過將圖像的全局直方圖分解為目標及其領域的關(guān)聯(lián)直方圖來解決圖像分類中的多目標問題;文獻[13]提出了一種時空能量袋模型識別動態(tài)場景;文獻[14]則著手于通過視覺詞袋模型重建圖像;而視覺詞袋模型在醫(yī)學圖像分類中的應用也得到了越來越多的關(guān)注[15-18]。
盡管視覺詞袋模型發(fā)展至今對圖像分類性能有了質(zhì)的提升,但是其計算效率仍難以達到海量圖像快速分類的需求,有鑒于此,本文提出了一種基于小波變換的低維視覺詞袋模型快速構(gòu)建方法。該方法利用小波變換獲得圖像的低尺度表示,再通過均勻采樣方式獲得單一尺度下SIFT特征,以構(gòu)建視覺詞典。經(jīng)過對Caltech 101數(shù)據(jù)集中101個類別8 677張圖像的分類實驗,驗證了該方法可以在保證分類準確率的前提下,大幅度地提升傳統(tǒng)詞袋模型的計算效率。
視覺詞袋模型的基本原理是將一幅圖像視作若干視覺單詞的集合,利用每個視覺單詞的出現(xiàn)頻率來對圖像進行描述,其基本結(jié)構(gòu)如圖1所示。
圖1 視覺詞袋模型的基本結(jié)構(gòu)
1.1提取視覺特征
視覺詞袋模型中首先需要提取圖像的底層特征,SIFT[19,-20]是最常用的圖像局部特征描述符,該特征具有旋轉(zhuǎn)不變性和尺度不變性,同時具有一定的光照不變性。SIFT特征提取包括采樣點檢測與特征區(qū)域描述兩個部分,傳統(tǒng)SIFT特征通常需要建立圖像的金字塔模型,在多尺度高斯差分空間中檢測極值點,在這些極值點所在的不同尺度空間上進行特征提取,從而獲得較為穩(wěn)定的特征;但是這些特征并不都是必需的,由于采樣點只集中于少數(shù)灰度變化敏感區(qū)域,通過傳統(tǒng)SIFT檢測方法所提取到的特征存在大量重復和不必要特征,同時也丟失了許多可能有助于區(qū)分目標的背景信息;此外,在醫(yī)學、遙感等灰度變化不明顯的圖像中,經(jīng)常因為不能檢測到足夠多的極值點而無法提取局部特征。鑒于此,本文采用均勻采樣的方式提取圖像的單尺度SIFT特征,其檢測點采樣方式如圖2所示。
圖2 基于均勻采樣的單尺度SIFT
該方法在傳統(tǒng)SIFT上經(jīng)過簡化,取消了向下搜索極值的步驟,通過均勻采樣的方式,按照提前給定的采樣窗口尺寸和間隔距離,在均勻分布的圖像塊上提取單尺度SIFT特征。不僅可以較為完整地提取圖像各個區(qū)域的局部特征,同時也在一定程度上考慮到圖像塊的空間位置關(guān)系,有利于通過局部特征來描述全局圖像。經(jīng)過反復實驗表明,均勻采樣方式提取的單尺度SIFT特征不僅更為全面地描述了圖像的細節(jié)特征,同時也極大地減少了計算復雜度,具有更好的魯棒性和高效性。
1.2生成視覺詞典
每一幅圖像中的每一個采樣點都會生成一個視覺特征,在詞袋模型中,需要將這些數(shù)量眾多的視覺特征進行聚類,合并相似度較高的視覺特征,最終獲得一定數(shù)量的聚類中心,作為視覺單詞生成視覺詞典。聚類中心的數(shù)目、聚類算法性能對分類結(jié)果有著直接影響。K-means算法是最常用的硬聚類算法之一,首先隨機劃定K個初始質(zhì)心作為種子節(jié)點,然后計算每個特征向量到質(zhì)心的距離,每次循環(huán)中將每個特征向量劃歸到最近的質(zhì)心,將劃歸到同一個質(zhì)心的特征向量視作一個簇,對每個簇計算其聚類中心作為新的種子節(jié)點,重復上述步驟直到聚類中心不再改變,最終所獲得的聚類中心即為圖像視覺單詞。
1.3獲得圖像表示
由于現(xiàn)實應用中圖像尺寸不可能完全相同,所提取的特征數(shù)量往往差異巨大,因此需要對圖像進行量化的描述,利用前述步驟生成的視覺詞典,按照每個視覺單詞在圖像中出現(xiàn)的頻率,將圖像描述為視覺單詞直方圖。通常采用最近鄰查找方法,將圖像中的每個特征映射到與之距離最近的視覺單詞,然后統(tǒng)計整幅圖像中每個視覺單詞出現(xiàn)的頻率,生成視覺單詞直方圖作為該圖像的詞袋模型特征表達式。
圖像的初始特征維數(shù)過高是限制視覺詞袋模型性能的最大瓶頸,單純的減少特征采樣點數(shù)量來提升分類效率,又會因為細節(jié)特征丟失而導致分類準確率下降。小波變換是一種多尺度的圖像分析方法,可以在不同尺度下對圖像進行分析處理,從而有效地捕獲圖像的細節(jié)特征,因此被稱為圖像處理中的顯微鏡。利用小波對圖像進行尺度變換,可以在不損失局部細節(jié)特征的前提下獲得圖像的低維度特征表示,然后通過在小波低頻系數(shù)上采用均勻采樣的方式,提取單尺度SIFT特征,進一步減少視覺詞袋模型中參與計算的局部特征數(shù)量,提升分類算法性能。其運算框架如圖3所示。
圖3 本文的方法結(jié)構(gòu)
1)利用小波變換對樣本圖像進行降維,根據(jù)圖像的尺寸自動確定小波變換層數(shù),最終獲得分辨率相近的低維圖像。
2)在低維圖像上采用SIFT特征描述子進行均勻采樣,根據(jù)圖像當前尺寸確定采樣窗口大小,獲得圖像的低尺度視覺特征。
3)利用K-means算法對訓練集中圖像的低尺度視覺特征進行聚類,獲得的聚類中心作為視覺單詞生成視覺特征詞典。
4)利用視覺特征詞典對圖像進行量化描述,生成視覺特征直方圖。
5)利用訓練集的直方圖特征訓練SVM分類器,繼而對測試圖像進行分類識別。
為驗證本文方法的有效性,實驗通過圖像分類測試與傳統(tǒng)詞袋模型、空間金字塔詞袋模型進行了比較。
3.1實驗數(shù)據(jù)及環(huán)境
實驗數(shù)據(jù)源自加利福尼亞理工學院的Caltech 101數(shù)據(jù)集,該數(shù)據(jù)集(除背景類外)共有101個類別,8 677幅圖像,每個類別包含30~800張樣本圖像,每幅圖像分辨率從100×300~300×300不等。如圖4所示,該數(shù)據(jù)集具有數(shù)據(jù)量大、種類多、對象內(nèi)變化多樣等特點,是國際上應用最為廣泛的圖像分類測試數(shù)據(jù)集之一。
圖4 部分實驗數(shù)據(jù)
為顯示數(shù)據(jù)的可靠性,實驗將對101類8 677張圖像進行完全分類測試,并通過隨機抽樣等比例分組進行3次交叉驗證。所有實驗均在Intel酷睿i7處理器、8G內(nèi)存的臺式機,以及Windows7.0系統(tǒng)和MATLAB R2014a的實驗環(huán)境下進行。
3.2基于rbf-SVM的圖像分類
圖像分類中常用的分類器是支持向量機(support vector machine,SVM),其核心思想是將低維空間的分類問題映射到高維特征空間,通過構(gòu)造一個超平面來解決非線性分類問題。本文圖像分類實驗選取LibSVM提供的rbf-SVM分類器。
3.3與傳統(tǒng)詞袋模型的對比
通過隨機抽取的方式將原始數(shù)據(jù)集中的每類圖像劃分為大致均等的A、B、C三組,每組圖像數(shù)量約為總數(shù)的1/3。每次選取其中兩組作為訓練集,剩余一組作為測試集,進行3次交叉驗證,結(jié)果如表1所示。
從表1可以看出,本文方法的運行時間僅為傳統(tǒng)方法的1/3。而在分類準確率方面,僅有C組略微降低,其余A、B兩組均有所提升,相對保持穩(wěn)定。實驗結(jié)果表明,本文的方法可以在保證分類準確率的前提下,極大地提升圖像分類效率。
3.4與空間金字塔詞袋模型的對比
為進一步驗證本文的方法具有普遍有效性,實驗在空間金字塔詞袋模型的基礎上利用本文的方法進行優(yōu)化,通過3次交叉驗證,結(jié)果如表2所示。
表2 與空間金字塔詞袋模型對比結(jié)果
表1 與傳統(tǒng)詞袋模型對比結(jié)果
從表2可以看出,本文的方法結(jié)合空間金字塔詞袋模型,在只增加較少計算時間的情況下,分類準確率相比傳統(tǒng)算法有較顯著的提高。實驗結(jié)果表明,本文的方法對于傳統(tǒng)詞袋模型以外的衍生方法也能夠產(chǎn)生積極的效果,可以較大程度地提升此類方法的計算效率。
本文提出了一種基于低尺度詞袋模型的圖像快速分類方法,利用小波降維結(jié)合單尺度SIFT特征,極大地減少了詞袋模型的初始特征維數(shù),在保證分類性能的前提下,大幅度地提升了計算效率。實驗充分驗證了該方法可普遍適用于詞袋模型及其衍生方法的運算性能的改進。但是,研究中也發(fā)現(xiàn)低尺度詞袋模型一方面更好的聚焦于低維特征,另一方面也損失一些高維特征,在提升一些類別的分類準確率的同時,也造成了一些類別的分類準確率下降。因此,研究不同尺度下不同特征之間的互補性,將是下一步研究工作的重點。
[1]JOACHIMS T. Text categorization with support vector machines: Learning with many relevant features[M]. Heidelberg,Berlin: Springer,1998.
[2]SIVIC J,ZISSERMAN A. Video google: a text retrieval approach to object matching in videos[C]//Ninth IEEE International Conference on Proceedings of the Computer Vision. Washington D C,USA: IEEE Computer Society,2003.
[3]FEI-FEI L,PERONA P. A bayesian hierarchical model for learning natural scene categories[C]//Proceedings of the Computer Vision and Pattern Recognition. San Diego,CA USA: IEEE Computer Society,2005: 524-531.
[4]FERGUS R,FEI-FEI L,PERONA P,et al. Learning object categories from Google's image search[C]//Tenth IEEE International Conference on Proceedings of the Computer Vision. Washington D C,USA: IEEE Computer Society,2005: 1816-1823.
[5]SUDDERTH E B,TORRALBA A,FREEMAN W T,et al. Learning hierarchical models of scenes,objects,and parts[C]//Tenth IEEE International Conference on Proceedings of the Computer Vision. Washington D C,USA: IEEE Computer Society,2005: 1331-1338.
[6]RAMESH B,XIANG C,LEE T H. Shape classification using invariant features and contextual information in the bag-of-words model[J]. Pattern Recognition,2015,48(3): 894-906.
[7]KHAN R,BARAT C,MUSELET D,et al. Spatial histograms of soft pairwise similar patches to improve the bag-of-visual-words model[J]. Computer Vision and Image Understanding,2015,132: 102-112.
[8]LEI W. Toward a discriminative codebook: Codeword selection across multi-resolution[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Minneapolis,Minnesota,USA: IEEE Computer Society,2007: 1-8.
[9]JIANCHAO Y,KAI Y,YIHONG G,et al. Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Miami,Florida,USA: IEEE Computer Society,2009: 1794-1801.
[10]JINJUN W,JIANCHAO Y,KAI Y,et al. Localityconstrained linear coding for image classification[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. San Francisco,CA,USA:IEEE Computer Society,2010: 3360-3367.
[11]WANG C,HUANG K. How to use bag-of-words model better for image classification[J]. Image and Vision Computing,2015,38: 65-74.
[12]GANDHI A,ALAHARI K,JAWAHAR C V. Decomposing bag of words histograms[C]//IEEE International Conference on Computer Vision. Sydney,NSW,Australia: IEEE Computer Society,2013: 305-312.
[13]FEICHTENHOFER C,PINZ A,WILDES R P. Bags of spacetime energies for dynamic scene recognition[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Columbus,OH,USA: IEEE Computer Society,2014: 2681-2688.
[14]KATO H,HARADA T. Image reconstruction from bag-of-visual-words[C]//IEEE Conference on Proceedings of the Computer Vision and Pattern Recognition. Columbus,OH,USA: IEEE Computer Society,2014: 955-962.
[15]SADEK I,SIDIB D,MERIAUDEAU F. Automatic discrimination of color retinal images using the bag of words approach[C]//Proc SPIE 9414,Medical Imaging 2015. Orlando,USA: SPIE,2015: 94141J-8.
[16]CONG Y,WANG S,LIU J,et al. Deep sparse feature selection for computer aided endoscopy diagnosis[J]. Pattern Recognition,2015,48(3): 907-917.
[17]SHEN L,LIN J,WU S,et al. HEp-2 image classification using intensity order pooling based features and bag of words[J]. Pattern Recognition,2014,47(7): 2419-2427.
[18]BROMURI S,ZUFFEREY D,HENNEBERT J,et al. Multi-label classification of chronically ill patients with bag of words and supervised dimensionality reduction algorithms[J]. Journal of Biomedical Informatics,2014,51: 165-175.
[19]LOWE D G. Object recognition from local scale-invariant features[C]//Seventh IEEE International Conference on Proceedings of the Computer Vision. Fort Collins,Colorado,USA: IEEE Computer Society,1999,2: 1150-1157.
[20]LOWE D. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision,2004,60(2): 91-110.
編輯黃莘
Efficient Method for Image Classification Based on Low-Scale Bag of Word Model
XIAO Zhe,QIN Zhi-guang,DING Yi,LAN Tian,and YU Yue
(School of Information and Software Engineering,University of Electronic Science and Technology of ChinaChengdu611731)
This paper proposes a new framework to improve the efficiency of visual bag-of-words model in large scale image classification. The method is based on the low scale image representation obtained by wavelet transform,and the low scale visual dictionary is built by extracting the SIFT features on the low scale image. Since the feature dimension is reduced,the method can quickly generate the visual dictionary and minimize the time of image classification process. The results of comparison experiments on the 8 677 images of Caltech 101 show that the proposed method can effectively improve the classification performance and efficiency of the traditional visual bag-of-words model and the Pyramid-BOW model.
bag-of-words;computer vision;image classification;scale invariant feture transform; wavelet transform
TP391.4
A
10.3969/j.issn.1001-0548.2016.06.021
2015 ? 07 ? 20;
2015 ? 11 ? 25
國家自然科學基金廣東聯(lián)合基金(U1401257);國家自然科學基金青年基金(6130090);四川省科技計劃(2014JY0172);中央高校基本科研業(yè)務費專項基金(ZYGX2013J080);
肖哲(1983 ? ),男,博士生,主要從事計算機視覺與模式識別、醫(yī)學圖像處理方面的研究.