詹增榮 曾青松
摘 要 提出了一種圖像集合匹配方法,該方法通過協(xié)方差矩陣對圖像集合建模,利用對稱正定的非奇異協(xié)方差矩陣構(gòu)成黎曼流形上的子空間,將圖像集的匹配轉(zhuǎn)化為黎曼流形上的點的匹配問題.在ETH80和HondaUCSD數(shù)據(jù)庫分別進行了基于圖像集合的對象識別和人臉識別實驗,分別達到96%和95.9%的識別率.
關(guān)鍵詞 集合匹配;人臉識別;模式識別
中圖分類號 TP391.41 文獻標識碼 A 文章編號 1000-2537(2015)04-0074-06
Abstract An image set matching method is proposed, in which the problem of the image set matching is formulated as matching points lying on the Riemannian manifold spanned by symmetric positive definite (SPD), i.e. nonsingular covariance matrices. The similarity between two image sets is converted into the distance between two points in the Riemannian manifold. The proposed method is evaluated in set-based object classification and face recognition tasks, extensive experimental results show that the proposed method outperforms other state of the art set-based object matching and face recognition methods with recognition rate of 96% and 955% in the ETH80 object database and HondaUCSD video database, respectively.
Key words set matching; face recognition; pattern recognition
對象識別是模式識別領(lǐng)域中非常重要的應(yīng)用之一.隨著攝像機的廣泛應(yīng)用,人們可以輕易地獲取關(guān)注對象的大批量監(jiān)控圖像,這一背景促進了人們從單一圖像為輸入[1]轉(zhuǎn)向以圖像集合為輸入[2-4]的對象識別應(yīng)用研究.
以圖像集合為研究對象的匹配方法能夠利用多幅圖像提供的信息獲得更好的匹配性能[5].這一類問題的研究一般通過對單幅圖像提取特征,然后合成多幅圖像的特征組成一個圖像特征集合,建立圖像集合的模型,通過計算模型對之間的距離來度量兩個集合的相似性[6].在實際應(yīng)用中,獲取的圖像集中通常含有噪聲,會影響模型的描述能力,因此所構(gòu)建的模型應(yīng)該要有一定的魯棒性,或者低秩描述[7]來表示一個圖像集合.
一般地,可考慮使用子空間或流形來表達一個圖像集合[8].經(jīng)典的互子空間(Mutual subspace method: MSM)方法[4]將圖像集投影到低維線性子空間,通過計算圖像序列生成的子空間之間的主角來度量兩個子空間之間相似性,這一方法被廣泛地擴展.流形-流形距離(Manifold-Manifold Distance: MMD)[9]擴展了子空間距離,將整個非線性流形劃分成多個局部模型[10],綜合考慮成對的局部模型之間的距離來度量兩個流形的相似性.作為MMD的擴展,通過用流形來描述每一個集合,流形鑒別分析[11](Manifold Discriminant Analysis: MDA)通過多流形學習解決有監(jiān)督的流形間距離計算問題.仿射子空間方法,如基于仿射包的圖像集距離[12](Affine Hull-based Image Set Distance: AHISD),通過兩個仿射包中距離最近的兩個點之間的幾何距離來度量集合之間的相似性.為了克服AHISD方法由于不加任何額外約束條件,直接搜索最近鄰的點,導致離群點的干擾嚴重影響分類的精確度的缺陷,借助稀疏表達的方法,通過稀疏逼近最近鄰點[13](Sparse Approximated Nearest Points:SANP)可以更加精確地度量兩個仿射包之間的相似性.
本文從圖像集合的整體特征模型出發(fā),考慮到正定的對稱矩陣構(gòu)成黎曼流形上的子空間,使用圖像的特征向量構(gòu)成圖像集合的特征矩陣,然后計算特征矩陣的協(xié)方差來建模圖像集合.通過定義協(xié)方差矩陣對之間的對數(shù)距離來度量兩個圖像集合的相似性,有效地將黎曼流形上的度量轉(zhuǎn)換為歐式空間上的度量,應(yīng)用核Fisher 判別分析(Kernel Fisher Discriminant Analysis: KFDA)[14]進行分類.
1 圖像集合的特征描述
1.1 單幅圖像的特征描述
給定一個固定位置的攝像機,由于場景的光照、觀測對象的姿態(tài)變化,連續(xù)獲取的圖像之間存在很大的差異,但是它們之間也存在很大的相關(guān)性.因此,需要對觀測對象的圖像進行特征提取,以盡可能地消除外界因素的影響.提取圖像特征最簡單的辦法是將圖像進行灰度變換、直方圖均衡化,然后將圖像的像素值逐列堆疊成一個向量來表示,也可使用其他的圖像特征提取方法對整個圖像提取局部特征,如局部二值模式[15](Local Binary Patterns,LBP)、尺度不變特征變換(Scale-Invariant Feature Transform:SIFT).LBP是一種有效的紋理描述算子,度量和提取圖像局部的紋理信息,對光照具有不變性,SIFT是一種檢測局部特征的算法,通過求一幅圖像中的特征點,一般也稱為興趣點(interest points)或者角點(corner points),及其有關(guān)尺度(scale)和方向(orientation)的描述子得到圖像的特征描述.
1.2 圖像集合的表達
在得到單幅圖像的向量化特征描述基礎(chǔ)上,對于圖像集合,一種簡單的處理方法是將這些向量作為矩陣的列,通過一個矩陣來表示,計算基于矩陣分解的特征,建立特征模型,然后定義兩個模型之間的相似度.基于矩陣描述的方法的主要優(yōu)點是可以利用已有的成熟的矩陣分解技術(shù),圖像集之間的相似性轉(zhuǎn)化為兩個矩陣之間的相似性的度量.
由于圖像集合的元素數(shù)量不確定,直接計算兩個尺度不一致的特征矩陣的相似性有一定的困難.考慮到矩陣的協(xié)方差體現(xiàn)了變量之間的二階統(tǒng)計特性,反映了集合中各圖像之間的相關(guān)性,因而可以通過計算特征矩陣的協(xié)方差來建模一個圖像集合得到大小一致的協(xié)方差矩陣.進一步,由于正定對稱矩陣構(gòu)成黎曼流形的子空間,每一個矩陣可以理解為流形上的一個點,非奇異協(xié)方差矩陣是對稱正定矩陣,所以使用協(xié)方差矩陣描述一個圖像集,可以將圖像集合的相似性計算轉(zhuǎn)換為計算流形上兩個點之間的距離[6].
將圖像集合的協(xié)方差矩陣當成黎曼流形上的點,可以解釋為:存在一個非線性映射函數(shù)將圖像集合X投影到特征空間,表示為協(xié)方差矩陣模型cov(X),這個函數(shù)描述為:φ:X→cov(X)∈F,其中X∈RD×N.
2 基于核判別分析的圖像集匹配
2.1 核判別分析
線性判別分析(Linear Discriminant Analysis,LDA),也稱為Fisher判別分析(Fisher Discriminant Analysis,F(xiàn)DA)是一種有監(jiān)督的判別分析方法,其主要思想是將高維的模式樣本投影到最佳鑒別矢量空間,以達到抽取分類信息和壓縮特征空間維數(shù)的效果.它能夠保證投影后模式樣本在新的空間中有最小的類內(nèi)距離和最大的類間距離,即模式在該空間中有最佳的可分離性.LDA被廣泛的應(yīng)用,但是LDA沒有包含高階的統(tǒng)計量,無法很好地對非線性分布的數(shù)據(jù)進行分類.
核技巧是處理非線性數(shù)據(jù)的有效方法之一,KFDA是核函數(shù)和線性判別分析相結(jié)合的產(chǎn)物,它能有效地對非線性分布的數(shù)據(jù)進行分類,首先通過一個非線性映射函數(shù):RD→F,將RD空間中的原始訓練樣本變換到某一高維的特征空間(可能是無線維的)以獲得數(shù)據(jù)分布的更加豐富的表示,然后在特征空間中執(zhí)行線性判別分析,找出使類間散度最大而類內(nèi)散度最小的投影方向進行分類.
2.2 核函數(shù)的選擇
在KFDA中,核函數(shù)的選擇直接影響到分類效果.理論上要求選擇的核函數(shù)需要只要滿足Mercer條件即可,但不同核函數(shù)分類器的性能完全不同.較常用的核函數(shù)有:線性核函數(shù)、多項式核函數(shù)、高斯徑向基核函數(shù)等.本文結(jié)合圖像集合的協(xié)方差模型表示這一特定的條件選擇核函數(shù),充分利用協(xié)方差矩陣的正對稱性簡化核矩陣的計算.
3 仿真實驗
本節(jié)討論在ETH80對象分類數(shù)據(jù)庫上進行基于集合的對象匹配和在加利福尼亞大學圣迭戈分校臉部追蹤視頻數(shù)據(jù)庫(HondaUCSD Video Database)上執(zhí)行基于集合的人臉識別實驗.所有的實驗都使用最近鄰分類器進行分類.
3.1 數(shù)據(jù)庫
如圖1(a)所示,ETH80數(shù)據(jù)庫包含蘋果、小汽車、牛、杯子、狗、馬、梨和西紅柿8類對象的不同視角和實例的靜態(tài)圖像.如圖1(b)所示,每個類別包含10個不同的實例.每個實例包含不同視角下的41張圖片.
實驗中,將每一個體全部41張圖像合成為一個圖像集合,整個數(shù)據(jù)庫包含80個圖像集合,每個類別有10個圖像集合.測試中,將每一個體的10個集合隨機地劃分為兩組,每組5個集合,分別用于訓練和和測試.實驗中,從集合的41張圖像中隨機選擇30個視角的圖像用于構(gòu)造隨機實驗.
HondaUCSD數(shù)據(jù)庫的視頻在室內(nèi)錄制,包含人的不同姿態(tài)和表情變化,是一個用于做人臉識別跟蹤/識別的標準視頻數(shù)據(jù)庫,共包含19個人的59 段視頻,每個人有2~3段獨立錄制的視頻.該數(shù)據(jù)庫每個視頻包含300~500幀,且被分割成多個視頻片段,每個片段包含大約60幀.本文采用Viola[18]檢測算子從每一幀中檢測人臉組件.圖2給出了檢測到的人臉示意圖.實驗中,每個人選擇一段視頻做訓練,其余的視頻做測試.每次隨機實驗,從視頻中隨機選擇30幀構(gòu)成測試圖像集.
3.2 算法比較
本文與在第1節(jié)中提到的另外5種基于集合的匹配方法進行了對比.這些方法包括:MSM[4],MMD[9],MDA[11],AHISD[12]和SANP[13].
比較實驗基于原始文獻公布的Matlab代碼實現(xiàn)的算法,適當調(diào)節(jié)算法的參數(shù)取最優(yōu)的結(jié)果.在MSM和MMD算法中,使用主成份分析方法獲得子空間,PCA比率參數(shù)設(shè)置為0.95.MMD和MDA方法采用原始文獻的參數(shù)設(shè)置,歐式距離與幾何距離比值設(shè)置為2.0,鄰域大小設(shè)置為默認值12.本文使用AHISD的線性版本,SANP算法使用文獻相同的參數(shù)設(shè)置求解凸優(yōu)化問題.
表1列出了ETH80數(shù)據(jù)庫上各種算法識別率的均值和方差.實驗結(jié)果顯示,在ETH80數(shù)據(jù)庫上,MSM,MMD,MDA,AHISD和SANP算法取得基本一致的結(jié)果,在本文設(shè)定的實驗條件下,本文的算法結(jié)果優(yōu)于其他幾個算法,平均識別率達到96%.這可能與本文采用協(xié)方差矩陣對圖像的特征矩陣進行建模有關(guān),圖像特征矩陣的協(xié)方差矩陣考慮到了特征向量的二階特征,并且考慮了圖像集的整體相關(guān)性,因此能夠有效地消除單張圖像特征不穩(wěn)定對識別結(jié)果的影響,提高了圖像集合模型的穩(wěn)定性.圖3給出了5次隨機實驗的識別率的對比.如圖3所示,每一次隨機實驗中,本文提出的方法都穩(wěn)定地高于其他算法.
ETH80數(shù)據(jù)庫每類物體僅僅包含41張圖像,實驗中我們從這41張圖像中隨機選擇30張構(gòu)成圖像子集,雖然這些圖像是從不同視角拍攝,但是它們是離散的,不能很好地滿足MDA和MMD等算法中的流形分布假設(shè),從另一個側(cè)面也說明了本文采用的協(xié)方差模型能夠彌補這種缺陷.另外SANP和AHISD兩個算法都是基于近鄰比較的方法,圖像集合中被比較的圖像由于視角的不匹配或者缺失嚴重地影響識別結(jié)果.
表2列出了HondaUCSD數(shù)據(jù)庫上各種算法識別率的均值、方差.實驗結(jié)果顯示,本文提出方法識別率達到了95.90%,僅次于SANP算法,但是高于其他經(jīng)典的算法,進一步驗證了本文提出的算法能達到較好的識別效果.圖4給出了這5次隨機實驗的識別率的對比.
4 結(jié)論
圖像集合匹配中的核心問題是如何對圖像集合建模并比較兩個模型的相似性,本文通過計算圖像集合中單張圖像的特征向量構(gòu)成的協(xié)方差矩陣來建立圖像集合的協(xié)方差表差,該方法充分利用了協(xié)方差矩陣能夠提取集合中所有元素的二階特征,因而可以獲得比一階特征更好的描述能力.
比較兩個集合,可以考慮將圖像集合嵌入到黎曼流形,把圖像集表示成流形上的一個點.本文利用了協(xié)方差矩陣是對稱正定的特征,而對稱正定矩陣張成黎曼流形的子空間,從而實現(xiàn)將一個圖像集合表示成黎曼流形上的點.傳統(tǒng)的基于歐式度量的學習算法不能直接用于流形上點的分類,本文為解決這個問題通過計算矩陣的對數(shù),構(gòu)造一個黎曼核,從而把黎曼流形上的點的匹配投影到歐幾里德空間,進而使用經(jīng)典的KFDA方法進行分類.本文的圖像集合建模方法有效地解決了將非歐式空間的度量轉(zhuǎn)換為歐式空間的度量,從而可以結(jié)合歐式空間已有的分類方法實現(xiàn)分類,后續(xù)將進一步結(jié)合圖模型做深入的研究.
參考文獻:
[1] 王科俊, 段勝利, 馮偉興,等. 單訓練樣本人臉識別技術(shù)綜述[J]. 模式識別與人工智能,2008,21(5):635-642.
[2] 嚴 嚴, 章毓晉. 基于視頻的人臉識別研究進展[J]. 計算機學報, 2009,32(5):878-886.
[3] BARR J R, BOWYER K W, FLYNN P J, et al. Face recognition from video: a review[J]. Int J Patt Recog Artif Intell, 2012,26(5).
[4] YAMAGUCHI O, FUKUI K, MAEDA K I. Face recognition using temporal image sequence[C]//3rd International Conference on Face & Gesture Recognition (FG ′98).Nara, Japan:IEEE Computer Society,1998:318-323.
[5] ZENG Q S, LAI J H, WANG C D. Multi-local model image set matching based on domain description [J]. Patt Recog, 2014,47(2):694-704.
[6] 曾青松. 黎曼流形上的保局投影在圖像集匹配中的應(yīng)用[J]. 中國圖象圖形學報, 2014,19(3):414-420.
[7] 呂 煊, 王志成, 趙衛(wèi)東, 等. 一種基于低秩描述的圖像集分類方法[J]. 同濟大學學報: 自然科學版, 2013,41(2):271-276.
[8] 章毓晉, 程正東, 譚華春. 基于子空間的人臉識別[M].北京:清華大學出版社, 2009.
[9] WANG R P, SHAN S G, CHEN X L, et al. Manifold-manifold distance with application to face recognition based on image set[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Anchorage, Alaska, USA:IEEE,2008.
[10] WANG R, SHAN S, CHEN X, et al. Maximal linear embedding for dimensionality reduction[J]. IEEE Trans Patt Anal Machine Intell, 2011,33(9):1776-1792.
[11] WANG R P, CHEN X L. Manifold discriminant analysis[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognit. Miami, Florida, USA:IEEE,2009.
[12] CEVIKALP H, TRIGGS B. Face recognition based on image sets[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.San Francisco, CA, USA:IEEE Computer Society,2010.
[13] HU Y, MIAN A S, OWENS R. Face recognition using sparse approximated nearest points between image sets[J]. IEEE Trans Pattern Anal Machine Intell, 2012,34(10):1992-2004.
[14] BAUDAT G, ANOUAR F. Generalized discriminant analysis using a kernel approach[J]. Neural Comput, 2000,12(10):2385-2404.
[15] AHONEN T, HADID A, PIETIKAINEN M. Face description with local binary patterns: application to face recognition[J]. IEEE Trans Patt Anal Machine Intell, 2006,28(12):2037-2041.
[16] WANG R, GUO H, DAVIS L S, et al. Covariance discriminative learning: a natural and efficient approach to image set classification[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Providence, RI, USA:IEEE,2012.
[17] ARSIGNY V, FILLARD P, PENNEC X, et al. Geometric means in a novel vector space structure on symmetric positive-definite matrices[J]. SIAM Matrix Anal Appl, 2007,29(1):328-347.
[18] VIOLA P, JONES M J. Robust real-time face detection[J]. Int J Comput Vision, 2004,57(2):137-154.
(編輯 陳笑梅)