徐望明,石漢路
(武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢 430081)
圖像特征提取是計(jì)算機(jī)視覺應(yīng)用的根本基礎(chǔ)。提取穩(wěn)定而具有區(qū)分性的圖像特征對于后續(xù)的一系列圖像處理操作的效果具有重大的影響。圖像的特征可分為全局特征和局部特征。由于全局特征難以應(yīng)對圖像畸變、遮擋、裁剪等情形導(dǎo)致其應(yīng)用場合十分有限,近年來圖像局部不變特征得以重視并飛速發(fā)展。然而,在大多數(shù)應(yīng)用中,使用的是單一的局部特征。單一屬性的局部特征只能描述圖像某一方面的特性。局部特征的提取方法有多種,可以用多種性質(zhì)互補(bǔ)的局部特征,即多角度局部特征,對圖像內(nèi)容形成多角度、更全面的描述。提取圖像的多角度局部特征后,往往需要研究如何利用這些特征進(jìn)行圖像間相似性匹配,從而滿足目標(biāo)識別、圖像檢索等計(jì)算機(jī)視覺應(yīng)用?;谙∈杈幋a的圖像相似性匹配算法具有較少的空間與時(shí)間開銷,能夠適應(yīng)大規(guī)模圖像數(shù)據(jù)庫的實(shí)時(shí)處理要求。
文中選取了SIFT、LBP、HOG這3種典型的圖像局部特征作為多角度局部特征的實(shí)例,它們分別描述了圖像的斑點(diǎn)區(qū)域特性、局部紋理特性和局部形狀特性,結(jié)合基于稀疏編碼的圖像相似性匹配算法,并通過基于內(nèi)容的圖像檢索實(shí)驗(yàn)驗(yàn)證了綜合使用多角度局部特征相比單一局部特征能得到更高的檢索正確率。
SIFT(Scale Invariant Feature Transform,尺度不變特征變換)算法是David Lowe于2004年提出的一種對圖像縮放、旋轉(zhuǎn)、光照變化甚至遮擋和裁剪等保持不變性的特征提取算法。SIFT特征描述了圖像的斑點(diǎn)(Blob)區(qū)域特性。
SIFT特征生成主要包括下面4個(gè)步驟[1-2]:
第1步:尺度空間極值檢測。在高斯差分尺度空間中求出局部極值作為潛在的特征點(diǎn)。
第2步:精確定位特征點(diǎn)。去掉潛在特征點(diǎn)中的低對比度點(diǎn)和不穩(wěn)定的邊緣點(diǎn),得到真正的特征點(diǎn)。
第3步:特征點(diǎn)方向分配。根據(jù)特征點(diǎn)鄰域內(nèi)點(diǎn)的梯度方向,為確定的特征點(diǎn)分配主方向。
第4步:生成特征描述向量。將特征點(diǎn)周圍鄰域分為4×4個(gè)子區(qū)域,對每個(gè)子區(qū)域在8個(gè)方向上進(jìn)行梯度方向直方圖統(tǒng)計(jì)得到4×4×8=128維的特征描述向量。
這樣每幅圖像可提取得到一個(gè)128維的SIFT特征矩陣。
LBP(local binary patterns,局部二值模式) 最初由 Ojala等人[3]提出,表述了灰度圖像某像素點(diǎn)與周圍像素點(diǎn)灰度值的大小關(guān)系。LBP算子描述了圖像的局部紋理特性。原始的LBP算子定義在3×3窗口內(nèi),以窗口中心像素灰度值為閾值,將窗口內(nèi)相鄰的8個(gè)像素灰度進(jìn)行二值化,按照一定的權(quán)值將二值化結(jié)果組成一個(gè)8位二進(jìn)制數(shù),即得該點(diǎn)的LBP值。像這樣由整個(gè)圖像可以得到一個(gè)對應(yīng)的LBP響應(yīng)圖像,這個(gè)響應(yīng)圖像的直方圖就是LBP特征。
為提高LBP特征的表達(dá)能力,Ojala等對原始的LBP特征進(jìn)行擴(kuò)展和改進(jìn)。計(jì)算特征時(shí)不再局限于3×3窗口,而擴(kuò)展到由參數(shù)R和P決定的圓域上,R和P分別代表設(shè)定的采樣半徑和圓周上的等間隔采樣點(diǎn)數(shù)。為提高算子區(qū)分性,Ojala等提出了統(tǒng)一模式 (uniform patterns)LBP 特征 LBPu2D,R,在將對應(yīng)的二進(jìn)制位串視為循環(huán)串的情況下,如果串中包含的從0至1和從1至0的總的跳變次數(shù)不超過兩次,則稱它為統(tǒng)一模式。統(tǒng)一模式的意義在于,在LBP直方圖計(jì)算過程中只為統(tǒng)一模式分配單獨(dú)的直方圖收集箱(bin),而所有非統(tǒng)一模式被放入一個(gè)公用收集箱中。
文中LBP采用的是取P=8,R=1時(shí)的Uniform(統(tǒng)一)模式LBP,對圖像劃分為若干小塊后統(tǒng)計(jì)各塊子區(qū)域內(nèi)像素的LBP特征的統(tǒng)計(jì)直方圖向量,統(tǒng)計(jì)時(shí)為全部的58個(gè)統(tǒng)一模式分配57個(gè)收集箱 (其中全0和全1放入同一收集箱),全部的非統(tǒng)一模式放入一個(gè)收集箱,共58個(gè)不同模式。最終每幅圖像都得58維的LBP特征向量矩陣。
3)HOG特征提取算法
HOG (Histograms of Oriented Gradients, 梯度方向直方圖)算法由法國的Dalal于2005年提出[4],目前它已經(jīng)是目標(biāo)檢測領(lǐng)域里優(yōu)秀的算法之一。HOG特征描述了圖像的局部形狀特性。
HOG算法的具體的實(shí)現(xiàn)方法是:首先將圖像分成具有部分互相重疊的區(qū)間(Block),每個(gè)區(qū)間由 2×2 個(gè)單元(Cell)組成,每個(gè)單元(Cell)由若干像素區(qū)域組成(文中為10×10像素區(qū)域),然后計(jì)算這些區(qū)域中各像素點(diǎn)的梯度方向直方圖并歸一化,直方圖將0~360°平分形成9個(gè)bin,這樣每個(gè)區(qū)間(Block)被描述成一個(gè)4×9=36維向量,最后把這些直方圖組合起來就構(gòu)成了HOG特征向量矩陣。
經(jīng)過局部特征提取后,圖像的視覺內(nèi)容由一組高維特征向量的集合來表示。圖像數(shù)據(jù)內(nèi)容的差異性導(dǎo)致各個(gè)向量集的大小是不同的。圖像的相似性匹配問題轉(zhuǎn)化為兩個(gè)大小不一致的高維向量集的相似性匹配問題。在大規(guī)模圖像數(shù)據(jù)庫中,這些局部特征的數(shù)據(jù)數(shù)量十分龐大,直接利用它們進(jìn)行圖像相似性匹配將產(chǎn)生巨大的空間與時(shí)間開銷?;谙∈杈幋a的圖像相似性匹配算法,利用稀疏編碼將圖像的局部特征集轉(zhuǎn)化為更高維的稀疏特征向量[5],然后通過計(jì)算稀疏向量之間的相似性(可由向量的距離函數(shù)來度量)得到圖像之間的相似性,從而大大降低了時(shí)間與空間復(fù)雜度。
記 X=[x1,x2,…,xn] (xi∈Rd×1)為輸入矩陣(每列是一個(gè)特征向量),表示d維空間中的一組包含n個(gè)局部特征向量的集合,即圖像的“局部特征集”表示;B=[b1,b2,…,bn] (bi∈Rd×1)為基矩陣(每列是一個(gè)基向量),表示由k個(gè)基向量構(gòu)成的視覺詞典,可由訓(xùn)練圖像學(xué)習(xí)得到;S=[s1,s2,…,sn](si∈RK×1)為系數(shù)矩陣(每列是一個(gè)系數(shù)向量),表示k利用視覺詞典進(jìn)行稀疏分解得到輸入矩陣X的稀疏編碼矩陣。則對特征向量的稀疏編碼過程可以表示成下面的優(yōu)化問題:
其中‖bk‖2≤1,k=1,2, …,K。 ‖Xi-Bsi‖2表示重構(gòu)誤差,|Si|是稀疏性的懲罰函數(shù),λ為規(guī)則化參數(shù),用于權(quán)衡重構(gòu)誤差和稀疏約束。
文中在此基礎(chǔ)上,綜合使用多角度局部特征,使之擁有更全面的圖像信息表達(dá)能力。如圖1所示,借助圖像庫提取得到的每種特征庫進(jìn)行訓(xùn)練得到的各自的視覺詞典,分別為每個(gè)圖像的局部特征矩陣進(jìn)行稀疏編碼,對得到的稀疏編碼矩陣進(jìn)行最大值合并(max pooling),從而得到同維度的高維特征向量。這樣,每幅圖像由提取得到的3種局部特征分別獲取各自的稀疏特征sc_sift,sc_lbp,sc_hog,再按照一定的權(quán)重進(jìn)行首尾相連能得到一個(gè)融合了多角度信息的稀疏特征向量sc_sift-lbp-hog。
圖1 稀疏特征向量形成過程示意圖Fig.1 Schematic diagram of the forming process of sparse feature
這樣,每幅圖像能用一個(gè)包含圖像多種局部信息的高維稀疏向量來描述。不同于直接進(jìn)行圖像局部特征之間的相似性匹配,此時(shí)圖像的相似性匹配問題轉(zhuǎn)化為向量之間的相似性匹配問題,可用向量的距離函數(shù)來衡量,距離越小越相似。用這個(gè)稀疏特征向量來描述圖像的特征,相比單一特征對圖像進(jìn)行了更全面的描述,又具備全局特征的形式,因而這樣的特征既具備了較強(qiáng)的圖像局部信息描述能力,又能夠適應(yīng)大規(guī)模數(shù)據(jù)庫中的圖像處理要求。
實(shí)驗(yàn)時(shí)使用如圖2所示的ZuBuD數(shù)據(jù)庫[6]中全部的1 005幅圖像作為數(shù)據(jù)庫。ZuBuD庫中共有201個(gè)不同場景,每個(gè)場景各有5張不同圖片。每組各取一張圖片,對201張圖片對應(yīng)的每種特征庫進(jìn)行采樣smpN個(gè)向量進(jìn)行訓(xùn)練,得到具有K個(gè)基向量的視覺詞典。利用詞典對全部的1 005張圖片的特征矩陣進(jìn)行編碼,從而將每幅圖像用一個(gè)K維的向量進(jìn)行表示。然后,用向量間的距離來衡量圖像之間的相似性程度。實(shí)驗(yàn)中取 smpN=20 000,K=1 024。
檢索性能評價(jià)標(biāo)準(zhǔn)為查準(zhǔn)率或查全率。對于一幅查詢圖像,定義n為檢索出的相關(guān)圖像數(shù),T為檢索出的總圖像數(shù),N為所有的相關(guān)圖像數(shù),則其查準(zhǔn)率和查全率分別定義為:
圖2 ZuBuD圖像庫中的圖像示例Fig.2 Image examples in ZuBuD image database
根據(jù)ZuBuD庫的特點(diǎn),設(shè)定這里的T=N=5,故查準(zhǔn)率與查全率是相等的,本文用平均查準(zhǔn)率來衡量新特征用在檢索上的準(zhǔn)確性。將這1 005張圖片逐個(gè)當(dāng)作查詢圖像,進(jìn)行5-近鄰檢索。分別計(jì)算3種特征單獨(dú)編碼檢索和3種稀疏編碼特征按一定權(quán)值聯(lián)結(jié)得到的新特征檢索的平均查準(zhǔn)率。結(jié)果如表1和表2所示。
表1 單稀疏特征檢索的平均查準(zhǔn)率Tab.1 Average precision for single spares feature based retrieval
表2 多角度稀疏特征檢索的平均查準(zhǔn)率Tab.2 Average precision for multi-view sparse feature based retrieval
在文中實(shí)驗(yàn)條件下,新特征最高能取得75%的查準(zhǔn)率,比其中任一單一特征的稀疏特征進(jìn)行檢索的平均查準(zhǔn)率提高至少7%。由此可見,相比單一局部特征,綜合利用多角度局部特征進(jìn)行圖像檢索,能夠得到更高的檢索正確率。即多角度局部特征對圖像局部信息具有更全面的描述與區(qū)分能力。
文中主要研究了SIFT、LBP、HOG等多角度圖像局部特征提取算法以及基于稀疏編碼的圖像相似性匹配算法,在ZuBuD數(shù)據(jù)庫上進(jìn)行圖像檢索實(shí)驗(yàn)驗(yàn)證了算法有效性和高效性。研究結(jié)果表明:綜合利用多角度局部特征,相比單一局部特征,能夠更全面地描述圖像信息;對提取的多角度局部特征進(jìn)行稀疏編碼,能獲取表征圖像本質(zhì)內(nèi)容的全局向量表示形式,同時(shí)具有全局特征和局部特征的優(yōu)點(diǎn);基于稀疏編碼的圖像相似性匹配算法,以一定的精度損失為代價(jià),時(shí)間與空間開銷很少,能夠適應(yīng)大規(guī)模圖像數(shù)據(jù)庫的實(shí)時(shí)處理要求。
[1]David G L.Distinctive image features from scale invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[2]David G L.Object recognition from local scale-invariant features[C]//International Conference on Computer Vision,Washington,DC,USA:IEEE Computer Society,1999:1150-1157.
[3]Ojala T,Pietikinen M,Maenpaa T.Multiresolution gray scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[4]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,San Diego,CA,USA,2005:886-893.
[5]Yang Jian-chao,Yu Kai,Gong Yi-hong,et al.Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE Conference on Computer Vision and Pattern Recognition, Miami, FL,2009:1794-1801
[6]ZuBuD Image Database[EB/OL].[2012-08-20].http://www.vision.ee.ethz.ch/showroom/zubud.