曹玉濤,吳愛弟
(天津職業(yè)技術師范大學理學院,天津 300222)
人臉識別研究可以追溯到20 世紀六七十年代,經(jīng)過幾十年的發(fā)展已日趨成熟。人臉識別技術的發(fā)展分為3 個階段:第1 階段為簡單背景中的人臉識別;第2 階段為人機交互中的人臉識別;第3 階段為機器自動識別。小波分析具有很好的局部化特征,在圖像處理和人臉識別方面應用廣泛。文獻[1-2]僅對低頻成分提取特征進行人臉識別,由于缺少高頻成分,往往識別效果不佳;文獻[3]驗證了盡管高頻子帶不像低頻子帶那樣包含較多的信息,但也包含反應臉部細節(jié)的邊緣及輪廓的重要信息。因此,對于高頻特征(包含信息較少)只需提取主要特征,采用分塊的方式選取出信息較多的子塊。
人臉圖像特征可以細分為全局和局部2 種特征。全局特征主要是體現(xiàn)圖像的整體輪廓,包含圖像的大多數(shù)信息,而局部特征則是對整體特征的一個補充,注重于細節(jié)部分。全局特征方法如PCA(principal components analysis)[4-5]、LDA(linear discriminant analysis)[6-7]和LPP(linear performance pricing)[8]等廣泛應用于人臉識別,圖像的局部特征提取可以通過分塊子圖像方法[9-11]實現(xiàn)。全局特征和局部特征所描述的內容和作用各不相同,基于全局特征的方法往往缺乏對人臉光照、表情等細節(jié)的描述;而單純基于局部特征的方法又忽略了局部特征間的聯(lián)系,從而損失了部分全局特征。本文提出一種高頻子帶和低頻子帶融合為復矩陣的人臉識別方法,不僅能體現(xiàn)整體特征與局部特征的不同優(yōu)勢,避免簡單地融合為列向量,以及因維數(shù)災難導致的識別效果不佳,而且還能進一步提高識別率。
令 L2(R)表示平方可積函數(shù)空間,函數(shù) f∈L2(R)的一維連續(xù)小波變換定義為
對 a 和b 進行離散,令a=2n且b=2nk,該過程即為離散小波變換。經(jīng)過1 層小波變換和2 層小波變換的圖像分別如圖1 和圖2 所示。
圖1 1 層小波分解圖像
圖2 2 層小波分解圖像
設 X 是 M × N 的矩陣,X 中的絕大多數(shù)元素非0。稀疏表示[12-13]的含義為:用K×N 的系數(shù)矩陣A 以及M×K 字典矩陣B,使X 盡可能地表示為B×A 的線性組合,且A 中盡可能多的元素為0。A 便是X 的稀疏表示。設 A=[a1,a2,…,aN],X=[x1,x2,…,xN],則利用l1范數(shù)最小化問題可以求得稀疏系數(shù)
也可以使用l2范數(shù)最小化問題
式(3)為最小化二乘問題,其解
式(2)只求解稀疏系數(shù),字典沒有同步更新。而稀疏表示的效果關鍵在于字典的選擇,對字典的更新可以得到更好的稀疏表示,從而提高人臉的識別率。加權順序字典更新[14]模型為
式中:殘差矩陣M=X-BA;M 的協(xié)方差對角線元素構成對角矩陣的逆矩陣為Rm×m;tr 為矩陣跡的運算符。
權重矩陣R 能夠對上述殘差矩陣M 的不同方差給予不同大小的權重值。采取交替優(yōu)化的方法可以求解約束ai的l0的解。
可采用凸松弛的方法,實現(xiàn)稀疏系數(shù)的求解,此時字典不更新,采用l1范數(shù)最小化方法求解稀疏系數(shù)
實驗中采用OMP 方法[15]解決上述稀疏系數(shù)求解問題。在字典更新階段,順序更新第k 個字典bk和稀疏矩陣A 的第k 行使用交替最小二乘法近似得到的的1 級矩陣,從而獲得不同于SVD 分解字典更新的方法。其優(yōu)化問題可表述為
利用懲罰回歸方法可以求解上式的優(yōu)化問題。固定 bk且‖bk‖2=1,可以通過式(5)最小化求得的值
其中,v 是屬于RN的全為1 的行向量。由于R 的加權作用,因此就產(chǎn)生了不同的新的更新規(guī)使R 中較大方差的相關項權重系數(shù)降低,該相關項有更大的可能縮減為0。隨后保持不變,式(6)的最小化bk為
設A 和B 分別為M×N 的矩陣,定義復矩陣C=A+Bi,Cj是C 的列向量。將復矩陣的協(xié)方差矩陣定義為其中為 C 的均值,并且(GC)H=GC(H 為共軛轉置),GC是埃爾米特矩陣。埃爾米特矩陣的所有特征值均為實數(shù),因此GC的特征值能夠確定變換軸,將特征值降序排列,可以根據(jù)前若干個特征值對應的特征向量決定變換軸。設定Y1,Y2,…,Yd前d 個最大特征值對應的特征向量為變換軸,則對樣本Cj變換后的結果為Rj=CjY,Y=[Y1,Y2,…,Yd]。
首先,對測試樣本和訓練樣本依次進行2 層小波分解,并提取第 2 層 HH,HL,LH 和 LL 共 4 部分,對得到的3 個高頻子帶分別做分塊處理,依次選取信息量多的若干子塊,組成新的高頻子帶,將新的高頻子帶與未處理的低頻子帶組合為1 個復矩陣。然后,應用復矩陣的主成分分析進行降維,應用加權順序字典更新方法對字典進行更新。最后,根據(jù)得到的稀疏表示進行分類,算法流程如圖3 所示。
圖3 算法流程圖
具體步驟如下:
(1)對測試樣本和訓練樣本做2 層小波分解,并提取第 2 層 HH、HL、LH 和 LL 4 部分。
(2)LL 不做處理,依次將 HH、HL、LH 做分塊處理,依次計算每一個子塊的能量值,根據(jù)能量值進行降序排列,然后依次選出HH、LH、LH 中排序靠前的若干塊,選出的塊組成1 個新的高頻子帶gH。
(3)把gH 和LL 融合為1 個復矩陣。
Fw= α*LL+(1- α)*gHi
(4)先對Fw 降維處理,得到降維后的特征向量Fw。
(5)將Fw 利用加權順序字典更新方法進行更新。
已知:初始化字典B=Fw,參數(shù)ρ 和迭代次數(shù)τ。
①通過誤差矩陣計算R 矩陣,并由式(6)得到稀疏系數(shù)矩陣A。
② 對于字典 B 的每一列 bk,k=1,2,…,K。
(6)利用稀疏分類算法,給出分類結果。
本文在ORL 和AR 人臉圖像數(shù)據(jù)庫中驗證算法的可行性。ORL 人臉圖像數(shù)據(jù)庫包含40 個人的數(shù)據(jù)信息,根據(jù)面部表情、光照情況以及臉部遮擋物等不同條件,每人收集10 張照片,本文選取200 張灰度圖像,包含10 人的數(shù)據(jù)信息,將每個人的人臉圖像分為兩部分,選取5 張作測試集,其他5 張作訓練集。AR人臉圖像數(shù)據(jù)庫包含126 人的數(shù)據(jù)信息,約有4 000張人臉圖像,每個人根據(jù)面部表情、光照以及臉部遮擋物等不同條件收集26 張照片,本文選取260 張灰度圖像,包含10 人的數(shù)據(jù)信息,將每個人的人臉圖像分為兩部分,13 張作測試圖像,13 張作訓練圖像。在ORL 人臉圖像數(shù)據(jù)庫中,采用的分塊數(shù)為9,組合為Fw=0.22*LL+0.78*gHi;在AR 人臉圖像數(shù)據(jù)庫中,采用的分塊數(shù)為12,組合為Fw=0.26*LL+0.74*gHi。權重系數(shù)由多次實驗確定。
利用低頻部分進行識別的算法記為f1,將高頻和低頻直接合為列向量進行識別的算法記為f2,本文提出的算法記為f3,同時也與傳統(tǒng)的PCA[16]、PCA+LDA[17]方法進行比較。ORL 和AR 人臉圖像數(shù)據(jù)庫中不同算法下的識別率如表1 所示。
圖4 和圖5 分別給出了本文提出的算法與傳統(tǒng)方法的比較結果。從圖4 和圖5 中可以看出,本文算法具有明顯的優(yōu)勢,尤其在樣本數(shù)增加的情況下。
表1 ORL 和AR 人臉圖像數(shù)據(jù)庫中不同算法下的識別率
圖4 ORL 人臉圖像數(shù)據(jù)庫中不同算法的識別率
圖5 AR 人臉圖像數(shù)據(jù)庫中不同算法的識別率
圖6 和圖7 為改變分塊數(shù)時2 種算法的識別率。從圖6 和圖7 中可看出,ORL 人臉圖像數(shù)據(jù)庫中,分塊數(shù)為9 時算法識別率較佳;AR 人臉圖像數(shù)據(jù)庫中,分塊數(shù)為12 時算法的識別率較佳。
圖6 ORL 人臉圖像數(shù)據(jù)庫中不同算法的識別率
圖7 AR 人臉圖像數(shù)據(jù)庫中不同算法的識別率
本文對傳統(tǒng)的人臉識別方法進行了改進,傳統(tǒng)的人臉識別方法一般都只是單獨利用全局信息或者局部信息進行人臉識別,不能將全局信息和局部信息融合為一個整體進行人臉識別,而本文提出的基于小波分析的人臉識別方法,既能充分利用高頻信息(局部信息)和低頻信息(整體信息),又能避免將高頻和低頻簡單融合為列向量,因維數(shù)過高導致識別效果不佳的問題。因此,本算法對于提高識別率效果顯著,但是融合系數(shù)的確定為手動填入,如何自動確定融合系數(shù)將是今后研究的重點。