曾萬里 雷翔霄
(長沙民政職業(yè)技術(shù)學院,湖南 長沙 410004)
近年來,對象(如人臉、物體等)識別成為模式識別和人工智能領(lǐng)域的研究熱點,研究人員進行了大師探索并取得了突破性的進展,但是大部分的研究還是以單一圖像為識別對象。近年來,基于圖像集的對象匹配取得了一些成果[1],但是在無約束的自然環(huán)境中,基于單一查詢圖像集合的識別在技術(shù)上仍然具有挑戰(zhàn)性。
隨著網(wǎng)絡(luò)攝像機的普及,人們非常容易通過監(jiān)控設(shè)備獲取大量的監(jiān)控視頻,從而方便地構(gòu)建大規(guī)模的人臉數(shù)據(jù)庫,這一點促進了近年來基于多圖像集的人臉識別的研究,但是通過這種方式獲取的圖像,清晰度不高,抓取到的人臉信息不全,噪聲較高。研究人員在具體研究應用中,可以利用圖像序列之間的時間信息,也可以把圖像集當成一個松散的集合來處理。一般通過人臉檢測或者跟蹤方法提取的人臉圖像歸一到統(tǒng)一尺寸,然后通過提取圖像的特征向量化單張圖像,也可以直接使用灰度值通過逐行或者列堆疊向量化。
近年來的文獻研究主要集中于參數(shù)模型和非參數(shù)模型兩個方面。參數(shù)模型方法主要通過參數(shù)分布來構(gòu)建圖像集合的模型,如使用Kullback-Leibler散度來度量兩個模型的相似性[2]。但是,在實際應用中,很難對參數(shù)進行準確的估計。本文提出的是一種基于非參數(shù)模型的方法,這一類方法通過諸如子空間[3]、流形[4]、仿射包和凸包[5]、協(xié)方差矩陣[6]等對圖像集合建模,有良好的數(shù)學理論支持,其核心在于如何構(gòu)建這個數(shù)學模型以及度量兩個模型之間的相似性。例如子空間以及基于子空間的一類方法將圖像集合投影到低維的線性子空間,再用典型相關(guān)來度量兩個子空間的相似性。仿射包和凸包方法,是通過計算圖像集仿射子空間內(nèi)最近鄰點之間的距離來度量兩個仿射包之間的相似性。
核方法在圖像集合建模方面起著非常重要的作用,主要是通過非線性映射函數(shù)將原始空間的圖像投影到可分性更強樣本的高維空間。通常人們通過格拉斯曼流行來描述一個子空間,因為子空間可以解釋成格拉斯曼流形上的點,通過在生成的再生核希爾伯特空間中學習一個分類器實現(xiàn)分類。例如,流形判別分析方法(Manifold discriminant analysis,MDA)[4]通過最大化流形之間的間隔增加不同類樣本之間的可分性。協(xié)方差鑒別學習方法(Covariance discriminative learning,CDL)[6]主要基于全部正定對稱矩陣構(gòu)成黎曼流形的結(jié)論,通過計算圖像集合的協(xié)方差矩陣得到正定矩陣,從而將圖像集映射到黎曼流形上,并用黎曼流形上的距離(如對數(shù)-歐式距離,Log-Euclidean distance,LED)對圖像集合之間的相似性進行度量。
度量學習主要針對構(gòu)建流形異構(gòu)的問題,可以找到異構(gòu)流形存在的共性,解決樣本匹配問題,得到更切實際的距離度量。
最近的研究表明,通過流形上的度量學習可以得到一個更加低維、更加緊致的流形,此流形可以更好地描述圖像集合的特征,在學習得到的流形上進行判別分析能夠獲得更好的識別結(jié)果。本文提出是一個非參數(shù)模型的方法,討論格拉斯曼流行上的保局投影在對象匹配中的問題。從圖像集合的建模、相似性的定義以及核空間上的流形上的保局投影等幾個方面討論和分析在人臉識別中的應用。
也就是說,函數(shù)φ( )S 將圖像集合變換到模型空間Μ 中得到圖像集合的表示,核函數(shù)k( )X 將模型空間的特征表示X 變換到新的特征空間F 中,綜合這兩個步驟得到合成變換函數(shù)?:
本文的算法框架如圖1 所示,圖像集合通過格拉斯曼流形來建模。通過正交子空間將圖像集合描述為格拉斯曼流行上的點,通過格拉斯曼流形上的度量學習,將原始空間上的樣本投影到一個更加緊致的格拉斯曼流形,然后通過核方法,通過保局投影構(gòu)建核空間上的圖模型,應用近鄰分類器進行分類。
圖1 基于集合的對象匹配框架示意圖
本文的方法結(jié)合了格拉斯曼流形上的度量學習和保局投影的思想。通過度量學習,原始輸入空間的每一個圖像集合度量學習得到模型空間M 得中特征表示,在學習得到的模型空間中的這個特征向量能夠更好地描述圖像集合。在新模型域中定義兩個模型之間的相似性度量函數(shù),然后計算核矩陣,將模型變換到特征空間F,通過核函數(shù)將模型空間的度量轉(zhuǎn)換成歐式空間向量之間距離的度量。
格拉斯曼流形(Grassmann Manifold)gm,D 是對應于投影矩陣UiUTi∈RD×D的集合,由RD空間的m-維線性子空間RD構(gòu)成(0 < m≤D)。
格拉斯曼流形上的點,可以用一個非線性映射函數(shù)φ 與圖像集S 生成的子空間建立映射關(guān)系,表示為X = span( )S ,函數(shù)定義為:MF
滿 足 條 件 uTu = vTv = 1,uTul= 0,vTvl= 0,l =1,2,...,k - 1。θk表示第k主角,是兩個子空間中所有單位向量對之間的第k 最小夾角??梢赃\用下面公式,通過分解UTiUj的奇異值來求出主角:
其中P,Q為正交矩陣,cos θk稱為典型相關(guān)。
格拉斯曼流形距離反映的是子空間沿流形表面的幾何結(jié)構(gòu)上的差異,主角反映的是子空間在每一維上的相似性。兩個子空間之間的測地距離定義為格拉斯曼流形上兩個點之間的弧長:
通常情況下可以獲取的圖像數(shù)要小于樣本特征維數(shù),以此得到的投影矩陣對原始樣本的真實分布建模帶來不利影響,通過度量學習可以將Gm,D投影到更低維的格拉斯曼流形上,得到更加緊致的樣本分布描述。
設(shè)Ui是格拉斯曼流形的一個正交基矩陣,假設(shè)存在一個列滿秩矩陣W,P = WWT,P是一個對稱半正定矩陣,秩為 D × D,即PT= P,P≥0。定義Vi= WTUi,
其中Aij= UiUTi- UjUTj,類似于傳統(tǒng)的馬氏度量學習。
設(shè)計目標函數(shù):
公式(9)中α 為權(quán)重參數(shù),P 是要學習的最優(yōu)化的對稱半正定矩陣。記NW和Nb分別表示來自同類樣本對
目標函數(shù)(9)使得學習得到的流形上同類樣本的線性子空間的投影距離Jw( )P 盡量接近,而異類樣本的線性子空間的投影距離Jb( )P 盡可能拉遠,問題的具體求解可閱讀文獻。
由于模型空間和特征空間一般都不是歐式空間,而鑒別分析函數(shù)的定義是基于歐式距離度量的,為了能夠在同一空間執(zhí)行操作,我們利用核函數(shù)來定義頂點之間的相似度。
假設(shè)對任意的X ∈ Gm,D,函數(shù)k:Gm,D× Gm,D→ R+如果 滿 足 條 件 :(1)對 任 意 的 Xi∈ G,bi∈ R,滿 足拉斯曼核。
投影核是格拉斯曼流形上的常用的核函數(shù)。
4.堅持激濁揚清。要使黨內(nèi)政治生活正氣充沛,就必須樹正氣、遏邪氣,形成正向激勵與負向遏制的鮮明導向,對符合黨內(nèi)政治生活規(guī)定要求的人和事給予肯定和褒獎,對違背的給予懲處甚至繩之以法。習近平同志提出:“要激濁揚清,堅持激濁和揚清兩手抓?!盵2]
假設(shè)兩個集合張成的子空間的正交基記為U1、U2,U1、U2是兩個 D × Ni( )i = 1,2 大小的正交矩陣。投影度量使用全部的主角并通過如下的公式投影到歐氏空間計算距離。
其中 UiUTi(i = 1,2)是一個秩為 q 的 D × D 正交投影矩陣,由Xi的正交基構(gòu)成。由D × D 投影矩陣張成的歐式空間RD×D中的內(nèi)積導出一個格拉斯曼核函數(shù):
很容易驗證這個核函數(shù)是一個Mercer核。
在格拉斯曼流形上,使用子空間的正交基來建模圖像集,并對應描述為格拉斯曼流形上的一個點。在格拉斯曼流形上引入圖結(jié)構(gòu),流形上的點可以抽象為一個帶權(quán)無向圖中的頂點,邊的權(quán)表示相鄰頂點之間的相似度。
保局投影(Locality Preserving Projection: LPP)關(guān)注數(shù)據(jù)的局部關(guān)系,可以把原始樣本點的局部鄰域關(guān)系保存下來,能夠較好地反映樣本的流形結(jié)構(gòu)。
利用LPP 找出兩個格拉斯曼流形Gm,D與G'm,D之間的一個映射?:Xi→ Yi。通過計算最小化問題(15)求得Y:
設(shè)最終的解的形式為
那么
示為:
其中K=[K1,K2,...,KN]。增加約束條件ATKDKTA=1,最優(yōu)化求解變成以下形式:
滿足約束條件
最大化準則函數(shù)可以轉(zhuǎn)換為下面的特征值求解問題:
最大的r 個特征值對應的特征向量αi,i=1,…,r,構(gòu)成投影矩陣
測試階段,給定一個查詢圖像集合Xt∈RD×Nt,通過公式Zt=ATKt將其投影到特征空間,使用最近鄰分類器進行分類。其中
在圖像數(shù)據(jù)庫中最常用的是ETH80,它包含8 類物體,每類物體有10 個實例圖集。為了提高實驗效果,盡量選取差異較大、特征明顯的實例進行采集,共選取了3280張圖片。
視頻數(shù)據(jù)庫選取了基于人臉識別的ChokePoint 和MOBO 數(shù)據(jù)集,其中ChokePoint 的視頻都是由3 個機位的攝像機同時錄制,且每個動作要反復4 次,以得到不同的序列。該數(shù)據(jù)集共包含了兩個門口分別錄制的25個人和29個人的視頻。MOBO數(shù)據(jù)庫由CMU錄制,包含25段視頻。
為了提高實驗可信度,本文基于參考文獻慣例做法,選取流形鑒別分析算法(Manifold discriminant analysis,MDA)[4]、協(xié)方差鑒別學習(Covariance discriminative learning,CDL)[6]、格拉斯曼流形鑒別分析法(Grassmann discriminant analysis,GDA)、投影度量學習方法(Project metric learning,PML)、互子空間方法(Constrained mutual subspace method,CMSM)進行比較試驗,實驗將灰度圖進行直方圖均衡化處理,得到20×20像素。
從ETH80 數(shù)據(jù)集的10 個圖像集中,隨機地選取3、5、7 個圖像集作為訓練集,其余的用作測試集,反復實驗10 次,方差和平均識別率如表1 所示。把數(shù)據(jù)用應用折線圖表示,如圖2,可以看出,保局投影加度量學習的方法比CMSM、MDA、GDA、CDL、PML等方法準確率都高,且訓練集越高,效果越明顯。
表1 數(shù)據(jù)集分類結(jié)果
圖2 數(shù)據(jù)集分類結(jié)果對比折線圖
從ChokePoint 數(shù)據(jù)庫中選取兩段視頻作為訓練集,余下的作為測試視頻,再從Mobo 數(shù)據(jù)庫提取圖像的局部二值模式特征。分別得到如下方差和平均識別率,如表2,與CMSM、GDA、CDL、PML 等方法進行比較,優(yōu)勢明顯,最高超出近20個百分點。
表2 人臉識別結(jié)果
綜合以上實驗結(jié)果可以看出,本文采用保局投影結(jié)合度量學習的方法,比單純使用度量學習的方法效果更優(yōu)。
基于集合的對象匹配一直是研究的熱點,本文綜合保局投影思想與格拉斯曼流形度量學習思想,基于圖像集合進行建模,運用格拉斯曼流形進行度量學習,構(gòu)建新的樣本空間,并采用核方法生成保局投影模型,能有效降低圖像預處理時的樣本維度,有效提高模型的準確率。但在其他領(lǐng)域或其他數(shù)據(jù)庫中應用情況如何,還需要進一步研究。