張曉紅 劉巖 姚鴻勛
摘 要:紋理特征是一種比較常見的圖像特征,LBP特征是描述紋理最有效的特征之一。在貓臉識別中,為了提取豐富的紋理信息,同時利用特征點(diǎn)的空間信息,本文在LBP特征上應(yīng)用空間金字塔SPM。而為了更好地捕捉圖像不同空間區(qū)域之間的紋理變化,基于Haar-like特征的思想,我們在SPM上應(yīng)用Haar模板提取不同區(qū)域間的紋理差異。在基于Microsoft Cat Dataset進(jìn)行處理所得到的貓臉數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出方法的有效性。
關(guān)鍵詞:紋理特征;LBP特征;空間金字塔;Haar-like
中圖分類號:TP391 文獻(xiàn)標(biāo)識號:A 文章編號:2095-2163(2015)04-
Cat Face Recognition Using SPM based on Haar-like Feature
ZHANG Xiaohong, LIU Yan, YAO Hongxun
( School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001, China)
Abstract: Texture is one of the most common image features in computer vision, which can be represented effectively using LBP. In order to exploit the rich texture information of cat and extract the spatial information of the feature, the paper utilizes the Spatial Pyramid Model after LBP is extracted. Meanwhile, based on the idea of Haar-like feature, the paper applies the rectangle model into the SPM to capture the variations of features of different regions in the image. Therefore, the paper conduct the experiments on the processed Microsoft Cat Dataset and the results validate the effectiveness of the proposed method.
Keywords: Texture; LBP; SPM; Haar-like
0 引 言
近十幾年來,人臉識別一直是頗受矚目的熱門研究領(lǐng)域,目前常見的人臉識別方法有主成分分析法[1],線性鑒別[2]等全局性方法。研究演變至今,基于局部特征的識別則逐漸獲得了發(fā)展重視,同時研究者們也已開始更多地關(guān)注于動物識別,例如將人臉識別的方法應(yīng)用到貓臉識別上,這也是本文的研究內(nèi)容。
局部二元模式(LBP,Local Binary Pattern)作為一種局部紋理特征描述算子最初由Ahonen引入人臉識別[3],是通過比較中心像素點(diǎn)與其鄰域內(nèi)的像素點(diǎn)的灰度值的大小獲得該中心像素點(diǎn)的二值編碼,進(jìn)而獲得多區(qū)域的直方圖作為描述圖像的特征。但是這樣所獲的特征并不能表征相鄰區(qū)域間的紋理變化。
王瑋等提出采用多尺度LBP特征來描述和識別人臉[4]。首先,對一定尺度的圖像進(jìn)行小波分解,然后在此基礎(chǔ)上將圖像分為多個區(qū)域,再將各個區(qū)域的lbp直方圖串聯(lián)起來,獲得當(dāng)前尺度下的圖像特征,同時通過變換不同的尺度,來得到多尺度下的lbp特征。
Haar-like 特征又稱矩形特征[5],根據(jù)不同的矩形模板來獲得局部區(qū)域間的灰度差值,而其作為描述圖像的特征,能夠有效地描述圖像的對角特征、邊緣特征、線性特征等基本特征,因而具有較好的統(tǒng)計特性。并且,可以通過積分圖[6]的方法,來簡化特征的提取。但是該方法獲得的特征數(shù)較大,且體現(xiàn)的僅是圖像在一定區(qū)域內(nèi)的灰度差值,如此對于紋理信息比較簡單的圖像,如人臉,則可進(jìn)行優(yōu)質(zhì)描述,且能夠取得較好結(jié)果;而若是針對紋理信息比較豐富的物體,例如動物,識別的效果卻會偏差一些。
對于包含黑色條紋和白色條紋橫向交錯的圖片,如果使用多分辨金字塔[7]進(jìn)行直方圖提取,獲得的直方圖[8]是相同的,不能反映特征的空間關(guān)系。本文在空間金字塔[9]上來提取LBP特征,這樣就可以反映特征點(diǎn)的空間關(guān)系。通過實(shí)驗(yàn)發(fā)現(xiàn)這種方法能夠獲得比較顯著的局部特征[9]。
人們通常將Haar-like特征應(yīng)用到灰度值上,將特征模板對應(yīng)區(qū)域的灰度差值作為特征,用于接下來的訓(xùn)練。通過使用adaboost方法在人臉識別上獲得了非常好的效果。由于圖像紋理是一種微觀不規(guī)則模式,但是在一定區(qū)域內(nèi)具有統(tǒng)計規(guī)律特性,為了能夠描述局部間的這種紋理變化,本文結(jié)合Haar-like特征的思想,在SPM上應(yīng)用Haar模板提取相鄰區(qū)域紋理的差異。本文特征提取的流程如圖1所示。
1基于Haar與SPM的LBP特征描述
本文通過在貓臉上提取LBP特征,并加入特征的空間信息,來對貓臉進(jìn)行識別,下面將詳細(xì)介紹特征提取的過程。
1.1基本的LBP特征
局部二值模式(LBP,Local Binary Pattern)是描述紋理最有效的特征之一[3]?,F(xiàn)以3 × 3窗口內(nèi)的像素點(diǎn)為例,給出其基本的LBP算子定義的計算公式定義如下:
(1)
其中,(xc,yc)為中心點(diǎn),其灰度值為gc,gp(p = 0,….7)即為以中心點(diǎn)為圓心,以3為半徑的圓內(nèi)的像素點(diǎn),這些像素點(diǎn)形成一個對稱鄰域。
將對稱鄰域內(nèi)的點(diǎn)與中心點(diǎn)的灰度值做差,并進(jìn)行二值化處理,具體公式如下所示:
(2)
其中:
(3)
至此,在所獲八位二進(jìn)制的基礎(chǔ)上,按照如下公式對二進(jìn)制進(jìn)行加權(quán)求和,即可得到中心點(diǎn)的LBP編碼。 (4)
現(xiàn)取一個像素點(diǎn)的3 * 3 鄰域,求取該點(diǎn)的LBP編碼,如圖2所示。
通過計算圖像上每個點(diǎn)的LBP編碼,就得到了該圖像的LBP圖譜,如圖3所示。
通常,需要對LBP 圖譜提取LBP直方圖,以此作為訓(xùn)練分類器的特征。度量直方圖的距離已有很多種方法,諸如相關(guān)度,卡方距離,直方圖的交和巴氏距離等??紤]到計算簡單、且準(zhǔn)確的方法宗旨,研究選取直方圖的相交距離來衡量兩個直方圖的相似性,具體公式為:
D (5)
1.2 SPM空間金字塔匹配
空間金字塔(SPM, Spatial Pyramid Matching)[9],是詞袋模型(bag of features,BOF)的一種擴(kuò)展,具有計算高效的特點(diǎn),由于通過BoF可以得到全局的直方圖,但卻不能反映特征的空間位置關(guān)系,為了改進(jìn)這一不足,采用了SPM,通過將圖像劃分為不同的區(qū)域,同時計算每個區(qū)域內(nèi)的特征,而最終獲得特征的空間分布信息。
經(jīng)研究表明,人的感知是一個由全局到局部,由粗到精的過程,也就是先獲得全局信息,而后通過局部信息進(jìn)行精化[4]。對于紋理信息比較豐富的貓,為了獲得圖像的全局和局部信息,在空間金字塔上提取LBP特征。
與多分辨率直方圖不同, SPM每次提取的直方圖的bin的個數(shù)是相同的,賦予不同level下的直方圖各自不同的權(quán)值,而將每個level下獲得直方圖連接起來,即可獲得一個高維特征,這樣就能保存更多的圖像信息。以兒童玩具為例,構(gòu)造三層空間金字塔的SPM特征提取過程如圖4所示。
由圖4中可見,圖中黑點(diǎn),加號和菱形代表通過kmeans等聚類方法獲得的視覺單詞。具體步驟如下:
(1) 將圖像劃分為三個不同分辨率,對于每一個level 下,劃分的塊的大小均是相同的,但不同level 下的個數(shù)卻有所不同。具體來說,對于level 0,塊數(shù)為一個,表示原圖像,Level1 劃分為四塊,level 2 劃分為八塊。
(2) 統(tǒng)計各個level下,每個小塊的直方圖,并將每一個level下的直方圖賦予一定的權(quán)值,而且由左到右的權(quán)值將依次增大。
(3) 將加權(quán)的直方圖串聯(lián)起來,得到圖像的特征描述。 對于L層和M個bin, 獲得的特征總數(shù)為:
(6)
Level越大,劃分的區(qū)域越小,因此即能獲得特征的局部信息;與之相對應(yīng),level越小,劃分的區(qū)域就越大,則能夠獲得特征的全局信息。當(dāng)level = 0時, 相當(dāng)于在整幅圖片上提取直方圖,SPM即退化為bag of words。因此在不同的層次上提取特征,也是一個由粗到精的過程。
可以發(fā)現(xiàn),SPM計算簡單高效,以三層金字塔為例。首先提取level2 下的直方圖,對于level1的每個塊的直方圖則由level2下對應(yīng)的小直方圖的求和而最終獲得,對于level0的特征則由level1計算得到。因此可知,整體計算較為簡單,而且其計算時間與特征維數(shù)呈線性關(guān)系。
1.3 基于Haar 模板的SPM的LBP特征提取
Haar-like特征是由Viola等人提出的一種簡單矩形特征,主要由一些相同大小的矩形組合搭建而成,并因其類似于Haar小波而得名。Viola等提出的矩形特征可如圖5所示, 通過將黑色矩形覆蓋區(qū)域的像素灰度值的和減去白色矩形覆蓋的圖像區(qū)域的像素灰度值的和,即可將差值作為Haar-like特征在當(dāng)前矩形大小下,當(dāng)前位置時的特征值。
Haar-like特征能夠有效反映圖像局部的灰度變化,同時計算簡單。通過選取特定的特征模板,來表征不同區(qū)域間的灰度值的差值,這種方法在紋理信息并不豐富的人臉上取得了不錯的效果。對于貓臉來說,為了充分利用其豐富的紋理信息,文中結(jié)合Haar-like特征模板,求取相鄰局部區(qū)域間紋理的一階差值,從而獲得相鄰局部區(qū)域間的紋理信息的變化。實(shí)現(xiàn)過程示意如圖6所示。
具體的方法為(以基本的LBP,構(gòu)造三層空間金字塔為例):
(1)將圖像轉(zhuǎn)換為灰度圖像;
(2)將灰度圖像劃分為三個level,在每一個level下, 劃分的塊大小是相同的,但劃分個數(shù)為:對于level 0,塊數(shù)為一個,表示原圖像,level1 劃分為四塊,level 2 劃分為八塊;
(3)對level2上的每個小塊提取256維LBP直方圖,賦予每個小直方圖的權(quán)值為1/2;
(4)對level 1上的小塊,找到對應(yīng)的level2上的小直方圖,計算小直方圖的和,同時賦予權(quán)值1/4,level 0計算方法與level1的計算相類似;
(5)在每一個level上應(yīng)用Haar-like特征模板,求取特定的相鄰局部區(qū)域間的LBP的直方圖距離;
(6)將(4)、(5)步中得到的直方圖串聯(lián)起來,得到圖像的特征表示。
在本文中,將lbp的256個不同的碼值作為bag of words的視覺單詞,由SPM上提取LBP直方圖,并在此基礎(chǔ)上結(jié)合Haar-like特征模板,即能捕捉同一level下的不同塊間的紋理變化,如貓的兩眼間的差別,耳朵間的差別等信息。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證所提出特征的性能,本文構(gòu)建了一個貓臉的數(shù)據(jù)集,這是對Microsoft Cat Dataset [10]進(jìn)行處理后所得。微軟貓臉的數(shù)據(jù)集有三萬多張貓的圖片,大部分圖片都是貓?jiān)谧匀粓鼍跋屡臄z的圖片,有些貓的頭部與水平的夾角呈各種角度。其中,該數(shù)據(jù)集對貓臉的九個點(diǎn)進(jìn)行標(biāo)注,包括嘴巴,左眼睛,右眼睛,左耳朵右耳朵的六個點(diǎn)。為了能夠分析所提出特征的實(shí)際表述能力, 通過一定的坐標(biāo)坐標(biāo)變換,獲得了水平方向上的貓的圖片,去除純白,純黑的貓的圖片,以及受光照影響比較強(qiáng)烈、紋理也不清晰的的貓臉圖片,即將初選后的圖片作為訓(xùn)練集與數(shù)據(jù)集。獲得數(shù)據(jù)集如圖7所示。
在實(shí)驗(yàn)中,研究選取4 000幅貓的圖像作為正例,3 000幅從VOC2007上采集到的不是貓的圖片作為負(fù)例,使用svm支持向量機(jī)訓(xùn)練貓臉的分類器,通過交叉驗(yàn)證的方法,對采用HOG特征、只采用空間金字塔匹配SPM、采用SPM和Haar、采用HOG與本文所提出的特征相結(jié)合進(jìn)行了實(shí)驗(yàn)。
2.2 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)中選取level = 3,在SPM上獲得了5 376維特征。為了表征同一個level下不同區(qū)域間的紋理變化情況,在SPM上應(yīng)用Haar-like模板,通過計算黑色矩形框覆蓋的區(qū)域的LBP直方圖與白色矩形框覆蓋的區(qū)域的直方圖相交的距離,作為當(dāng)前的特征模板的特征值,最終得到17 664維特征。實(shí)驗(yàn)結(jié)果可如表1所示。
Feature Accuracy
HOG 0.669 81
LBP + SPM 0.521 12
LBP + SPM + HAAR 0.569 41
HOG + LBP + SPM + HAAR 0.691 57
由交叉驗(yàn)證結(jié)果即能看出,通過比較第一行和第二行,第三行可知,與HOG[11]特征相比,單獨(dú)使用LBP特征的識別率要低于使用HOG特征的識別率;通過第二行和第三行則可看出,結(jié)合Haar模板提取的LBP特征要比只使用基于SPM特征的方法的識別率更高;通過第一行和第四行可進(jìn)一步看出,通過將HOG特征和所提取的特征相結(jié)合,將會提升一定的準(zhǔn)確率,這也從根本上驗(yàn)證了HOG特征和LBP特征的互補(bǔ)性。
3 結(jié)束語
為了獲得特征的空間信息,本文提出了一種基于SPM和Haar-like的思想提取LBP特征的方法。首先在LBP特征上應(yīng)用空間金字塔SPM,同時為了表征局部區(qū)域間的紋理變化,在SPM的基礎(chǔ)上引入Haar-like特征模板,來獲得某一層金字塔中相鄰區(qū)域的紋理變化。在對Microsoft Cat Dataset進(jìn)行處理所得到的貓臉數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提取的方法的有效性,在貓臉識別上獲得了較好的效果。
參考文獻(xiàn):
[1] TURK M, PENTLAND A. Eigenfaces for recognition[J]. Cogn. Neurosci,1991, 3:72–86.
[2]ETENMAD K,CHELLAPPA R.Discriminant analysis for recognition of human face images[J]. Journal of the Optical Society of America,1997,14(8):1724-1733.
[3] OJALA T, PIETIKAINEN M, HARWOOD D.A comparative study of texture measures with classification based on feature distributions[J].Pattern Recognition,1996,29(1):51-59.
[4]王瑋,黃非非,李見為,等.使用多尺度LBP特征描述與識別人臉[J].光學(xué)精密工程, 2008, 16(4): 676-704.
[5] VIOLA P. Rapid object detection using a boosted cascade of simple features [J].Computer Vision and Pattern Recognition, 2001 (1):511-518.
[6] VIOLA P, JONES M J. Robust real-time face detection [J]. International Journal of Computer Vision ,2004, 57(2):137-154
[7] HADJIDEMETRIOU E, GROSSBERG M, NAYAR S. Multi-resolution histograms and their use in recognition[J]. IEEE Trans.PAMI, 2004,26(7):831–847.
[8] SCHIELE B, CROWLEY J. Recognition without correspondence using multidimensional receptive field histograms[J]. IJCV, 2000,36(1):31–50.
[9] LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories[C]//Computer Vision and Pattern Recognition,2006 IEEE Computer Society Conference on, Boston, Massachusetts, USA:EEE, 2006,2:2169-2178.
[10] http://mmlab.ie.cuhk.edu.hk.
[1] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[J]. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005, 1:886 - 893.