張國平,周改云,馬 麗
(平頂山學院軟件學院,河南平頂山467000)
詞匯樹融合SIFT的熱成像和視覺圖像人臉識別
張國平,周改云,馬 麗
(平頂山學院軟件學院,河南平頂山467000)
針對熱成像和視覺圖像人臉識別問題,提出了一種基于詞匯樹融合尺度不變特征變換方法。首先,對視覺和熱成像圖像分別單獨進行提取,利用Viola-Jones層疊檢測器從自然圖像中檢測出人臉;然后,利用SIFT描述符從尺度空間提取穩(wěn)定特征;最后,使用詞匯樹進行分類,利用評分融合和決策融合算法提高系統(tǒng)的精確性和安全性。在拍攝的41個人的臉部圖像上的實驗表明了該方法的有效性,識別率可接近100%,相比其他幾種較為新穎的人臉識別方法,該方法取得了更高的識別精度,并且在一定程度上降低了計算耗時。
詞匯樹;尺度不變特征變換;熱成像;視覺圖像;人臉識別
人臉識別系統(tǒng)已在軍事、政治、醫(yī)療等安全領(lǐng)域得到了越來越廣泛的應(yīng)用[1],人臉識別需要取得測試人臉與存儲在數(shù)據(jù)庫內(nèi)的圖像匹配的結(jié)果,即使在不考慮光照變化或外界干擾等自然變化因素的條件下,該任務(wù)完成起來也較為困難[2]。
針對視覺和熱成像圖像,本文提出了一種雙模式人臉識別技術(shù),在實際應(yīng)用中可以方便地使用一種特定的有快速跟蹤功能的設(shè)備,且可以做到兩種模式信息的融合。此外,對信息的主要來源也進行了研究,特別是基于文獻[3]運用SIFT算法并從每張圖像中得到局部特殊描述符的方法。語匯樹的構(gòu)成使得這些描述符可以按層次結(jié)構(gòu)組織并可以方便地進行對象查找。
對于每一個測試圖像,只對新的描述符進行計算并在整個層次結(jié)構(gòu)樹中進行查找,從而得到一個投票矩陣,使得數(shù)據(jù)庫中最接近的圖像可以很容易地被識別出來。該方法混合了SIFT描述符的奇異值來匹配視覺與熱成像的不同人臉圖像,詞匯樹的引入提高了算法的效率。
本文的主要創(chuàng)新點在于:1)將詞匯樹與SIFT融合解決了人臉識別問題,并利用兩個傳感器分別給出視覺和熱成像的圖像;2)運用SIFT描述符作為提取方法,使用k-mean的方程[4]構(gòu)成的語匯樹作為分類系統(tǒng)構(gòu)成識別方法,局部可識別的信息可在融合范圍與重要區(qū)域之間進行查找。
針對人臉識別問題,學者們提出了許多方法,例如,文獻[5]提出了一種人臉識別系統(tǒng),運用非線性映射來推斷關(guān)聯(lián)特征在識別低分辨率圖像時提高了最近鄰(NN)分級器的精度。文獻[6]提出利用基于二維離散小波變換(2D-DWT)的多精度特征提取算法進行人臉識別,有效地處理了人臉圖像的局部空間變化,取得了很好的識別結(jié)果。人臉圖像的拍攝通常會有不同的姿勢和模式,比如熱成像圖像,這使得對于它們的識別呈現(xiàn)不同的難度。文獻[7]得到了在現(xiàn)實環(huán)境中的基于熱紅外成像和視覺成像的人臉識別結(jié)果,結(jié)果表明,基于熱成像的人臉識別效果對于室外不同環(huán)境下的情況是穩(wěn)定的,且不同模式的融合提升了系統(tǒng)的識別效果。
文獻[8]提出了一種自動熱成像系統(tǒng),可以在圖像中僅有一個人且沒有其他熱源的條件下區(qū)分正面和側(cè)面的頭像,該方法中距離圖像中心點的距離(DFC)表示對較低人臉輪廓對稱度的適應(yīng)性。
文獻[9]使用相關(guān)性過濾器并通過熱紅外(IR)人臉圖像完成人臉識別,因為這種圖像對于可見光的變化是魯棒的。最小平均相關(guān)性能量(MACE)和最優(yōu)權(quán)衡合成判別式函數(shù)(OTSDF)方法在低分辨率(像素20× 20)圖像中的應(yīng)用證明了其對于有一定距離的人臉識別問題的有效性[10]。
文獻[11]利用SIFT提高了帶有不同姿勢的人臉表情識別率,并且通過運用2張人臉的仿射變換不變性舍去SIFT不匹配的識別結(jié)果。
性別識別是另一種利用SIFT方法的研究熱點,文獻[12]通過密集尺度不變特征轉(zhuǎn)換(d-SIFT)和形狀表示人臉,除了對關(guān)鍵點附近的描述符進行收集外,對一般圖像網(wǎng)格點的局部描述符也進行收集,從而達到密集描述人臉圖像的目的。
但是,SIFT通常會從一張圖像上采集很多特征,使得特征匹配時的計算量很大,從而限制了該方法在人臉識別上的應(yīng)用。為了解決該問題,文獻[13]提出使用差異化方法,通過檢查不相關(guān)特征,平均而言計算復雜度降低了80%,且識別準確率提高了1%,然而在處理熱成像和視覺圖像識別問題時,識別率仍需進一步提高。
2.1 系統(tǒng)框圖
該方法由5個部分組成:預處理模塊、SIFT描述符解析器、語匯樹構(gòu)成、匹配模塊和融合模塊,系統(tǒng)框圖如圖1所示。
圖1 本文方法的系統(tǒng)框圖
人臉的區(qū)域劃分是手工操作的,匹配模塊在語匯樹中查找測試描述符與數(shù)據(jù)庫中描述符最匹配的結(jié)果。因此,接下來的介紹將首先集中在SIFT參數(shù)和樹分類上,再對匹配模塊做簡要介紹。
2.2 預處理
自然(視覺范圍)和熱成像的圖像分別單獨提取,系統(tǒng)利用Viola-Jones層疊檢測器[14]從自然圖像中檢測出人臉,因為它簡單、快速、有效。
2.3 特征提取
本文方法對SIFT描述符的幾個關(guān)鍵參數(shù)進行修改,利用一個層疊過濾器來探測關(guān)鍵點,在所有可能的尺度空間內(nèi)搜索穩(wěn)定的特征。圖像的尺度空間L(x,y,σ)由可變化尺度的高斯式子G(x,y,σ)和輸入圖像I(x,y)的卷積構(gòu)成
式中:*是對x和y的卷積符號。
接著,高斯微分方程(DoG)的比例空間與圖像做卷積,D(x,y,σ)的計算由2個帶系數(shù)k的附近標量微分得到得到經(jīng)尺度歸一化后高斯方程拉普拉斯算子(LGN)的最大值和最小值,可產(chǎn)生穩(wěn)定的圖像特征。D和σ2?2G的關(guān)系是
在精確布置關(guān)鍵點并去除DoG方程的強邊界響應(yīng)后,要設(shè)置方向。描述符的復雜性主要受兩個參數(shù)影響:方向數(shù)和方向直方圖的向量數(shù)。本文方法使用有8個方向的4×4向量直方圖,從而產(chǎn)生128個特征向量。文獻[11]的結(jié)論也支持在對象識別中使用這些參數(shù),因為更大的描述符會對圖像扭曲敏感。
2.4 語匯樹分類
本文方法首先從圖像數(shù)據(jù)庫取出SIFT描述符,然后通過一個語匯樹[15]來組織它們。層次化的驗證方案使得可以對語匯樹上的特定的一點進行選擇性的查找,從而降低搜索時間和計算負荷。
k-mean算法[16]用于在初始描述符點云中通過最小距離估計找到圖像中心,從而使用該圖心表示一簇點云。k-mean算法需要迭代使用,因為圖心會因相關(guān)點的位置而變化。如果計算出的圖心位置不再變化,算法則收斂,語匯樹的每一層表示最近的更高層級節(jié)點的分支。
根據(jù)大量實驗,將初始點集定義為10個,共分為5個樹的層次,這些參數(shù)的設(shè)定在該系統(tǒng)結(jié)合實際的數(shù)據(jù)庫運用時取得了很好的效果。
有2層和3層的初始點云的語匯樹模型如圖2所示。
圖2 分叉系數(shù)為3的2層語匯樹
2.5 融合
該模塊使用不同方法之間的相關(guān)誤差(頭和臉、視覺與熱成像)提供總體的識別準確率。系統(tǒng)使用基于評分和決策的2種融合策略,評分融合在本文中指的是將視覺和熱成像均一化處理后的評分做加或乘的處理,得到的結(jié)果與最終的決策結(jié)果對應(yīng)。如果采用加權(quán)算法,評判的準則就要基于預知的信息,本文通過運用這些融合算法提高了系統(tǒng)的精確性和安全性。
所有實驗均是在一臺2.66 GHz CPU、2 Gbyte內(nèi)存的PC上實現(xiàn),編程工具為MATLAB 7.0。
3.1 數(shù)據(jù)庫
為了評估本文方法,筆者建立了一個數(shù)據(jù)庫,該數(shù)據(jù)庫包含738張704×756像素、每像素24 bit的圖像,圖像由 SAT-S280 SATIR相機拍攝,包括2個傳感器——熱傳感器和視覺相機,圖3為圖像示例。
圖3 視覺和熱成像圖像實例
該數(shù)據(jù)庫包含41個對象,每個對象有18張圖像,圖像在6個月內(nèi)的3個不同時間拍攝。拍攝的圖像分為2個部分:視覺圖像和熱成像圖像。這樣,最終數(shù)據(jù)庫總共包含1 476張圖像,視覺圖像和熱成像圖像分別有738張。根據(jù)每個人的特征,傳感器賦予了假熱色。所有圖像都存為PNG格式,對它們進行進一步的分塊處理,以選擇關(guān)鍵區(qū)域,特別是對臉和頭需要進行分塊編組。
總的來說,圖像根據(jù)它們提供的信息類型分為不同類別,共有2 952張圖像,包括:
1)頭:對象整個頭的熱圖像(738張)。
2)頭:對象整個頭的視覺圖像(738張)。
3)臉:臉部細節(jié)的熱圖像(738張)。
4)臉:臉部細節(jié)的視覺圖像(738張)。
如圖4、圖5所示為頭和臉的PNG格式的熱成像和視覺圖像示例。
圖4 數(shù)據(jù)庫中的熱成像和視覺頭部圖像示例
圖5 某人的熱成像和視覺臉部圖像示例
圖像都是在室內(nèi)拍攝得到的,分別帶有開心、悲傷或生氣等不同表情、不同臉部朝向、不同發(fā)型等。頭部圖像用于識別的關(guān)鍵細節(jié)是耳朵形狀、發(fā)型和下巴,而臉部圖像給出的最基本的信息有鼻子、嘴巴和眼部區(qū)域。
3.2 實驗過程
實驗目的是了解在熱成像和視覺范圍內(nèi)人頭部形狀而不是臉部信息在人臉識別方面的作用,以及融合方法對識別的作用。本文的方法在視覺和熱成像范圍內(nèi)對頭部圖像和臉部圖像的識別結(jié)果進行了比較。
因此,共做了4組實驗,包括視覺和熱成像的、頭部和臉部的變化。還做了8個使用不同融合方法的實驗(評分融合的加算法、評分融合的乘算法、決策融合或算法以及決策融合加權(quán)算法)。
為了保證結(jié)果的獨立性,2組圖像都平均分為2個子類——測試類和訓練類,并基于50%淘汰率的交叉實驗方法,對于每種模式,共有369張訓練圖像和369張測試圖像用于實驗。
對于每個對象,也做了一個隨機的圖像數(shù)據(jù)庫的分類,使得每個對象有9張圖像用于測試,另外9張用于訓練(采用50%淘汰率的識別方法)。如上所述,每種模式下隨意選出369張訓練圖像和369張測試圖像用于實驗,這樣的分組按對象進行41次迭代。
對人臉/頭的對象識別過程如下:首先,進行前文所述的數(shù)據(jù)庫分組。其次,每9個測試對象的圖像將與369張訓練圖像作比較,得到相應(yīng)的結(jié)果。這9張圖像處理后,數(shù)據(jù)庫組合起來再次進行下一個對象的處理,指導所有數(shù)據(jù)庫中41個對象處理完畢。
實驗中涉及的實驗參數(shù)是在生物識別中常用的錯誤拒絕率(FRR)、錯誤接受率(FAR)和等錯誤率(EER)。同時也記錄了平均梳理時間,這些參數(shù)使用依賴于該變量的向量存儲,即直方圖閾值。
識別處理完成后,由數(shù)據(jù)庫中每一張圖像貢獻組成的直方圖就得到了,與測試圖像匹配度最高的圖像在柱狀圖上的值最大。下一步,直方圖中的數(shù)據(jù)根據(jù)最大值做歸一化處理,值的范圍為-1~1。然后,再設(shè)定一個閾值,使得只有大于該閾值的圖像才會進入決策,其他圖像則不再處理,直方圖的閾值從-1到1變化,使得每次都能對不同的圖像進行判斷。
3.3 實驗結(jié)果
根據(jù)前文所述的實驗方案,共做了12組實驗,表1所示為識別方法中hold-out方法計算的精確度。
表1 熱成像、視覺及融合范圍的實驗結(jié)果精度 %
表2所示為熱成像和視覺范圍對頭部和臉部的圖像識別的平均計算時間。
表2 熱成像和視覺范圍對頭部和臉部的圖像識別的平均計算時間 s
從表2可以看出,頭部圖像的更新時間(模型建立時間)明顯大于臉部圖像的時間,因為它們相對而言包含了更多的信息,從而帶來更多的計算負荷。
圖6所示為FRR和FAR在直方圖閾值上的關(guān)系,橫軸表示閾值的變化范圍,縱軸表示FRR和FAR的最優(yōu)值,且分別給出了視覺頭部圖像的基于評分和決策融合的ROC曲線。
從圖6可以看出,F(xiàn)RR在-1~0范圍內(nèi)的響應(yīng)曲線變化較為明顯,而FAR的響應(yīng)曲線是平的,因為它需要非常高的值才能達到典型的形狀,當然,這種情況有利于找到一個更好的EER點。實際上,閾值下降意味著系統(tǒng)的要求降低,將更多的圖像加入決策,增加了FRR和FAR,因為新加入的圖像樣本并不屬于測試對象。
圖6 FRR和FAR的直方圖閾值
對于單獨的模式,實驗中最好的結(jié)果是熱成像頭部圖像識別率97.60%和熱成像臉部圖像識別率88.20%,視覺頭部圖像識別率99.05%和視覺臉部圖像識別率97.65%。因此,在兩種模式中,頭部圖像的識別準確率都要高于臉部圖像。此外,視覺圖像提供的可識別信息多于熱成像圖像。
在融合算法的實驗中,頭部圖像的識別結(jié)果仍然好于臉部圖像。通過兩種融合方法,識別精度均有所提高,決策融合方法的識別精度可接近100%,評分融合通過乘法算法達到了99.45%。
在單獨使用算法時,EER的值大于融合方法,F(xiàn)RR融合后對于負的閾值是平坦的且EER相對較小,因此可以取得很高識別精度。
3.4 比較及分析
為了更好地評估本文方法,將其與其他幾種較新的人臉識別方法進行比較,包括二維離散小波變換(2DDWT)[6]、基于相關(guān)性過濾器的熱紅外(CFIR)方法[9]、密集尺度不變特征變換(密集SIFT)[12]、差異化尺度不變特征變換(差異化SIFT)方法[13],分別對頭部、腦部的識別率和計算時間進行比較,針對各個比較方法進行了實驗,各方法的參數(shù)設(shè)置分別參照各自所在文獻,本文方法選取決策融合加權(quán)算法,如表3所示為各方法的比較結(jié)果。
從表3可以看出,相比其他幾種較為新穎的人臉識別方法,本文方法取得的識別率最高,與密集SIFT、差異化SIFT的比較表明,詞匯樹與SIFT的融合方法有助于提高識別準確率,意味著信息的來源(頭部,臉部,圖像范圍)與誤差并沒有直接關(guān)系,且這些圖像識別誤差可以通過評分或決策的算法進行糾正,而且,對于這些模式的參數(shù)化方法是一樣的,加強了信息理論的獨立性。
表3 各方法的識別率和計算時間比較
從計算時間方面可以看出,本文方法的模型建立耗時略高于2D-DWT,主要是由于本文方法融合階段耗時過多,然而,在大部分情況下少于其他幾種比較方法的耗時,并且本文方法識別一個樣本所用時間最少,在保持與其他新穎方法相同或更少計算時間的情況下,能夠取得較高的識別率,表明了本文方法的優(yōu)越性。
本文利用一種特定的設(shè)備,提供了對于單一圖像的視覺和熱成像圖像的信息,對這兩種模式的應(yīng)用做了深入的研究,并且對頭部和臉部圖像進行了識別,所有系統(tǒng)都使用SIFT描述符和詞匯樹結(jié)合。實驗結(jié)果表明,在視覺和熱成像范圍的頭部圖像比臉部圖像具有更多的可識別特征,視覺圖像比熱成像的可識別性更好,兩個范圍的融合方法比單個生物識別方法效果更好。相比其他幾種人臉識別方法,本文方法不僅取得了較高的識別率,同時保持了較低的計算耗時。
未來將擴大該數(shù)據(jù)庫的規(guī)模,包括室外圖像,并結(jié)合其他的新穎技術(shù),在其他數(shù)據(jù)庫上也進行大量實驗,進一步提高本文方法的識別精度。
[1]KLARE B F,JAIN A K.Heterogeneous face recognition using kernel prototype similarities[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2013,35(6):1410-1422.
[2]周旭東,陳曉紅,陳松燦.半配對半監(jiān)督場景下的低分辨率人臉識別[J].計算機研究與發(fā)展,2013,49(11):2328-2333.
[3]PARUA S,DASA,MAZUMDAR D,et al.Determination of feature hierarchy from Gabor and SIFT features for face recognition[C]//Proc.2011 Second International Conference on Emerging Applications of Information Technology(EAIT).[S.l.]:IEEE Press,2011:257-260.
[4]CHAN C H,TAHIR M A,KITTLER J,et al.Multiscale local phase quantization for robust component-based face recognition using kernel fusion of multiple descriptors[J].IEEE Trans.Pattern Analysis and Machine Intelligence,2013,35(5):1164-1177.
[5] ARLOT S,CELISSE A.A survey of cross-validation procedures for model selection[J].Statistics Surveys,2010,28(4):40-79.
[6]李孔震,王炳和,婁昊,等.基于小波變換和二維非負矩陣分解的人臉識別算法[J].計算機應(yīng)用研究,2013,30(4):1275-1277.
[7]BOURLAI T,CUKIC B.Multi-spectral face recognition:identification of people in difficult environments[C]//Proc.2012 IEEE International Conference on Intelligence and Security Informatics(ISI).[S.l.]: IEEE Press,2012:196-201.
[8]呂思亮.基于可見光圖像和紅外熱像融合的自發(fā)表情識別[D].合肥:中國科學技術(shù)大學,2011.
[9]CRESPOD,TRAVIESOCM,ALONSO JB.Thermal face verification based on scale-invariant feature transform and vocabulary tree-application to biometric verification systems[EB/OL].[2014-03-28].http:// www.bibsonomy.org/bibtex/930e1dd9018637afd9c9a0fbafa3d19c.
[10]HUANG H,HE H.Super-resolutionmethod for face recognition using nonlinearmappings on coherent features[J].IEEE Trans.Neural Networks,2011,22(1):121-130.
[11]XIAN X B,WU H J,ZHANG M X,et al.A novelmulti-pose face recognition via robust SIFT feature[C]//Proc.2013 International Conference on Wavelet Analysis and Pattern Recognition(ICWAPR).[S.l.]:IEEE Press,2013:32-37.
[12]ZENG X,HUANGH.Super-resolutionmethod formultiview face recognition from a single image per person using nonlinear mappings on coherent features[J].IEEE Signal Processing Letters,2012,19(4): 195-198.
[13]IMTIAZH,F(xiàn)ATTAH S A.A wavelet-domain local feature selection scheme for face recognition[C]//Proc.2011 International Conference on Communications and Signal Processing(ICCSP).[S.l.]:IEEE Press,2011:448-451.
[14]張志偉.基于人臉識別的媒資視頻檢索技術(shù)的研究與實踐[D].北京:北京郵電大學,2013.
[15]朱道廣,郭志剛,趙永威.基于空間上下文加權(quán)詞匯樹的圖像檢索方法[J].模式識別與人工智能,2013,26(11):1050-1056.
[16]MOHAN R N V J,RAO K R S.Efficient K-Means fuzzy cluster reliability on angle oriented face recognition[J].International Journal of Informatics and Communication Technology(IJ-ICT),2012,2(1): 38-45.
Fusion of Vocabulary Tree and SIFT for Face Recognition in Thermal Image and Visual Image
ZHANG Guoping,ZHOU Gaiyun,MA Li
(School of Software,Pingdingshan University,Henan Pingdingshan 467000,China)
For the face recognition problem from thermal image and visual image,a fusionmethod based on vocabulary tree and scale invariant feature transform is proposed.Firstly,thermal image and visual image is exteacted respectively,Viola-Jones cascading detector is used to detect face from natural images.Then,SIFT descriptors are used to extract stability features from invariant space.Finally,classification is finished by vocabulary tree,score fusion and decision fusion algorithm is used to improve the accuracy and security of system.The effectiveness of proposedmethod has been verified by experiments on face images of 41 person gathered self,recognition accuracy of proposed method can achieve 100%,experimental results show that proposed mehtod has higher recognition accuracy and lower computing time than several other advanced algorithms.
vocabulary tree;scale invariant feature transform;thermal image;visual image;face recognition
TP391
A
??健男
2014-04-15
【本文獻信息】張國平,周改云,馬麗.詞匯樹融合SIFT的熱成像和視覺圖像人臉識別[J].電視技術(shù),2014,38(23).
國家自然科學基金項目(U1204611);河南省科技廳科技發(fā)展計劃項目(134300510037);平頂山學院青年科研基金項目(PXY-QNJJ2013010)
張國平(1980—),碩士,講師,主要研究領(lǐng)域為數(shù)字圖像處理、模式識別等;
周改云(1980—),女,碩士,講師,主要研究領(lǐng)域為多媒體、數(shù)字圖像處理;
馬 麗(1968—),女,碩士,教授,主要研究領(lǐng)域為模式識別、智能控制等。