亢 潔, 林 欣, 吳星馳
(1.陜西科技大學(xué) 電氣與信息工程學(xué)院, 陜西 西安 710021; 2.伊利諾伊理工大學(xué) 阿默工程學(xué)院, 美國 芝加哥 60616)
?
基于拉普拉斯金字塔降維的人臉識別算法
亢潔1, 林欣1, 吳星馳2
(1.陜西科技大學(xué) 電氣與信息工程學(xué)院, 陜西 西安710021; 2.伊利諾伊理工大學(xué) 阿默工程學(xué)院, 美國 芝加哥60616)
摘要:針對傳統(tǒng)的基于PCA(Principal Component Analysis)和BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)的人臉識別算法運(yùn)算維數(shù)高、容易出現(xiàn)震蕩而導(dǎo)致識別率低等問題,提出了一種基于拉普拉斯金字塔降維的人臉識別算法,該算法首先通過對人臉圖像進(jìn)行拉普拉斯金字塔降維處理,在降維的同時(shí)保持了人臉圖像的細(xì)節(jié),然后用PCA進(jìn)行特征提取,最后通過BP神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行人臉識別.利用ORL人臉圖像數(shù)據(jù)庫進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明,該算法識別率較高.
關(guān)鍵詞:人臉識別; 拉普拉斯金字塔; PCA; BP神經(jīng)網(wǎng)絡(luò)
0引言
人臉識別是計(jì)算機(jī)視覺和模式識別領(lǐng)域中的一個(gè)熱門課題,有著非常廣泛的應(yīng)用背景.人臉識別的結(jié)果可以作為身份認(rèn)證的依據(jù),應(yīng)用于醫(yī)療領(lǐng)域、三維重建等[1].近年來,越來越多的研究將人工智能和人臉識別進(jìn)行結(jié)合.以神經(jīng)網(wǎng)絡(luò)做識別分類器就是其中一個(gè)研究熱點(diǎn).神經(jīng)網(wǎng)絡(luò)利用大量簡單處理單元互聯(lián)而構(gòu)成復(fù)雜系統(tǒng),以解決復(fù)雜模式識別與行為控制問題[2].它具有并行分布運(yùn)算、高效學(xué)習(xí)等特點(diǎn),因此適合于解決人臉識別這一類對于魯棒性要求較高的問題.文獻(xiàn)[3]中提出了一種改進(jìn)型BP算法用于人臉識別問題的方法,通過改變學(xué)習(xí)速率的權(quán)值公式和Sigmoid函數(shù)來改善BP神經(jīng)網(wǎng)絡(luò)的收斂性,該方法在Yale人臉庫中進(jìn)行實(shí)驗(yàn),得到的識別率為87.17%.文獻(xiàn)[4]改進(jìn)了BP神經(jīng)網(wǎng)絡(luò)權(quán)值調(diào)整的方法,將附加動量法和彈性梯度下降法聯(lián)合,每次進(jìn)行權(quán)值調(diào)整時(shí)迭代兩次,如果兩次迭代的梯度方向相同,則權(quán)值更新值增加,否則更新值減小.將該方法和PCA方法進(jìn)行結(jié)合,在ORL人臉庫中進(jìn)行測試,識別率為90%,但是該方法的訓(xùn)練樣本遠(yuǎn)遠(yuǎn)多于測試樣本,因此數(shù)據(jù)量非常龐大.文獻(xiàn)[5]的神經(jīng)網(wǎng)絡(luò)模型較為復(fù)雜,采用了將自組織神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合起來的方法,相當(dāng)于對第一次神經(jīng)網(wǎng)絡(luò)分類器的結(jié)果又做了一次分類.雖然其識別率較高,但運(yùn)算量較大,使得算法模型復(fù)雜.文獻(xiàn)[6]在人臉圖像經(jīng)過PCA降維后,分別用最近鄰法和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到兩個(gè)識別率后,通過綜合決策和閾值判斷的方法進(jìn)行最終的身份判別,得到的識別結(jié)果為88%.可見,神經(jīng)網(wǎng)絡(luò)在人臉識別方面的研究非常廣泛,并且有一定的基礎(chǔ).但是神經(jīng)網(wǎng)絡(luò)運(yùn)算量大,導(dǎo)致難以收斂、識別不準(zhǔn)確的問題成為限制神經(jīng)網(wǎng)絡(luò)在模式識別中應(yīng)用的主要原因.
對高維非線性結(jié)構(gòu)的圖像進(jìn)行降維是提高識別率的關(guān)鍵環(huán)節(jié)[7],而神經(jīng)網(wǎng)絡(luò)的運(yùn)算量大是由于輸入數(shù)據(jù)維數(shù)較高引起的.以上列舉的幾篇文獻(xiàn)和眾多研究人員將解決該問題的重點(diǎn)放在改進(jìn)神經(jīng)網(wǎng)絡(luò)分類器上.希望通過改良BP神經(jīng)網(wǎng)絡(luò)的斂散性及調(diào)整權(quán)值來獲得更為穩(wěn)定和準(zhǔn)確的識別系統(tǒng).而本文選擇將研究重點(diǎn)放在神經(jīng)網(wǎng)絡(luò)分類器之前的特征提取部分,即如何降低BP神經(jīng)網(wǎng)絡(luò)分類器的輸入維數(shù).針對這一問題,本文提出了一種基于拉普拉斯金字塔降維的人臉識別算法.通過對圖像進(jìn)行拉普拉斯金字塔處理,既減少了圖像維數(shù),又在金字塔分解過程中去除冗余信息,保留了細(xì)節(jié)特征;再運(yùn)用PCA算法進(jìn)行特征提取,在進(jìn)一步降維的基礎(chǔ)上,去除了數(shù)據(jù)的相關(guān)性,得到了維數(shù)低的特征數(shù)據(jù).該數(shù)據(jù)作為BP神經(jīng)網(wǎng)絡(luò)的輸入值,可以避免由于輸入值維數(shù)太高而使得系統(tǒng)識別率低的問題.
對ORL人臉庫的仿真表明本文提出的方法在數(shù)據(jù)降維和特征提取等方面取得較好的結(jié)果,在BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,不易出現(xiàn)震蕩,且識別結(jié)果優(yōu)于傳統(tǒng)方法.
1基于拉普拉斯金字塔和PCA的特征提取
1.1圖像的拉普拉斯金字塔分解
圖像的拉普拉斯金字塔構(gòu)成是在高斯金字塔變換基礎(chǔ)上變換而來,因此,要先對圖像進(jìn)行高斯金字塔分解.
設(shè)原始圖像為G0,作為金字塔的最底層(第0層).對原始圖像進(jìn)行下采樣和高斯低通濾波,得到金字塔的第一層;再對第一層進(jìn)行下采樣和高斯低通濾波,得到金字塔的第二層;重復(fù)此過程,得到高斯金字塔[8].高斯金字塔序列的采樣規(guī)則為:
1≤l≤N, 0
(1)
其中,Gl(i,j)為第l層高斯金字塔圖像,G0為第0層,N是金字塔的總層數(shù),Cl是高斯金字塔第l層子圖像的列數(shù),Rl是金字塔第l層子圖像的行數(shù),w(m,n)=h(m)×h(n)是5×5具有低通特性的窗口函數(shù),其表達(dá)式可以通過計(jì)算得到:
(2)
由此得到由G0,G1,…,GN構(gòu)成的高斯金字塔,每一層圖像的大小都是前一層圖像的1/4.
利用插值法對高斯金字塔進(jìn)行插值膨脹,使第l層圖像Gl膨脹后的尺寸與第l-1層圖像Gl-1尺寸相同,其算法如下:
1≤l≤N,0
(3)
對高斯金字塔的每一層都進(jìn)行差值膨脹,得到一個(gè)膨脹序列G0*,G1*,…,GN*.設(shè)LP1為拉普拉斯金字塔的第l層圖像,則有:
(4)
由LP0,LP1,…,LPN構(gòu)成的金字塔即為拉普拉斯金字塔,它的每一層子圖像為高斯金字塔對應(yīng)層圖像與其上一層圖像經(jīng)插值膨脹之后所得的圖像之差.也就是說拉普拉斯金字塔實(shí)際上是同級高斯金字塔的高頻分量,即是圖像的細(xì)節(jié)部分[9].在人臉識別工作中,細(xì)節(jié)的差異恰恰是最需要關(guān)注的,因此經(jīng)過拉普拉斯金字塔處理得到的結(jié)果很好地保留了圖像的細(xì)節(jié)特征.
圖1是選擇ORL中某張人臉圖像進(jìn)行拉普拉斯金字塔分解得到的分解圖像,原始圖像大小為112×92,一次分解后得到56×46大小的圖像,二次分解后得到28×23大小的圖像.在實(shí)際運(yùn)用中,可以根據(jù)需要進(jìn)行不同程度的分解.
(a)底層(第0層)圖像(b)第1層圖像 (c)第2層圖像 (112×92) (56×46) (28×23)圖1 經(jīng)拉普拉斯金字塔分解得到的不同層圖像
1.2基于拉普拉斯金字塔的PCA特征提取
通過以上分析可以知道,對圖像進(jìn)行拉普拉斯金字塔處理可以達(dá)到一定的降維效果,但其降維結(jié)果作為神經(jīng)網(wǎng)絡(luò)分類器的輸入值,維數(shù)依然太高,因此還需進(jìn)行進(jìn)一步的特征提取工作.針對此問題,本文提出一種基于拉普拉斯金字塔降維的PCA特征提取算法.
PCA算法,即特征臉?biāo)惴?,是通過按能量系數(shù)保留部分由批量圖像向量構(gòu)成的矩陣的特征值與對應(yīng)特征向量,構(gòu)造與之維數(shù)相同的高維特征空間(即特征臉空間),再將原始圖像投影至該空間內(nèi)[10]來進(jìn)行降維和特征提取工作的.因此選擇先對圖像進(jìn)行拉普拉斯金字塔降維,再進(jìn)行PCA特征提取.需要注意的是,在PCA特征提取過程中,構(gòu)造出的特征空間維數(shù)是未知的,但是能量系數(shù)是已知的.選擇的能量系數(shù)越大,特征空間維數(shù)越大,保留下的原始圖片信息也就越完整,但是降維程度越低[11].
下面以O(shè)RL人臉圖像數(shù)據(jù)庫為例,該算法的具體步驟如下:
第一步,對ORL人臉圖像數(shù)據(jù)庫中40個(gè)身份共400張?jiān)紙D像進(jìn)行統(tǒng)一拉普拉斯金字塔分解,經(jīng)過4次濾波和插值膨脹求差,將原圖(112×92)分解到第4層,最終圖像大小為7×5;
第二步,在所有經(jīng)過拉普拉斯金字塔降維處理的人臉圖像中選擇每個(gè)身份的前5張人臉圖像,共200個(gè)樣本構(gòu)成訓(xùn)練集,每個(gè)樣本大小為7×5,寫出訓(xùn)練樣本矩陣:x=(x1,x2,…,x200)T,每個(gè)向量就是一張人臉信息,其中向量xi為由第i個(gè)人臉圖像進(jìn)行列堆疊得到的35×1(7×5×1)維的列向量,即把矩陣向量化,并且計(jì)算訓(xùn)練圖片的平均臉Ψ;
(5)
第三步,計(jì)算每一張人臉與平均臉的差值臉,di=xi-Ψ,i=1,2,…,200,再用所求到的差值臉矩陣構(gòu)建協(xié)方差矩陣,并且求其特征值和特征向量,用以構(gòu)造特征臉空間.協(xié)方差矩陣構(gòu)造如下:
(6)
這里協(xié)方差矩陣的維數(shù)為35×35,求出該矩陣的特征值λi及其正交歸一化特征向量vi;
第五步,將每一幅人臉與平均臉的差值臉矢量投影到“特征臉”空間.總共200幅圖片,因此得到的訓(xùn)練樣本集Ωi的大小是17×200;
Ωi=wTdi(i=1,2,…,200)
(7)
第六步,將訓(xùn)練樣本集輸入BP神經(jīng)網(wǎng)絡(luò)分類器,對該網(wǎng)絡(luò)進(jìn)行訓(xùn)練.再對剩余的200張人臉圖像進(jìn)行與訓(xùn)練樣本集同樣的操作,得到17×200大小的測試樣本集,將測試樣本輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行人臉識別.在該神經(jīng)網(wǎng)絡(luò)中,輸入為提取出的人臉圖像的特征值,輸出是已經(jīng)確定好的身份ID.在訓(xùn)練階段,如果輸入訓(xùn)練樣本的類別標(biāo)號是i,則期望的輸出為第i個(gè)節(jié)點(diǎn)輸出為1,而其余輸出節(jié)點(diǎn)均為0.在識別階段,當(dāng)一個(gè)未知類別的樣本作用到輸入端時(shí),考察各輸出節(jié)點(diǎn)的結(jié)果,并將該樣本判定為具有最大值的輸出節(jié)點(diǎn)所對應(yīng)的類[12].在設(shè)計(jì)BP神經(jīng)網(wǎng)絡(luò)時(shí),隱含層節(jié)點(diǎn)數(shù)由下列經(jīng)驗(yàn)公式求得.
(8)
其中M為隱含層節(jié)點(diǎn)數(shù),k為樣本數(shù).同時(shí),選擇樣本采樣訓(xùn)練和樣本批量訓(xùn)練結(jié)合的訓(xùn)練策略對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練學(xué)習(xí)[13],以提高系統(tǒng)的識別率.
總結(jié)以上算法可知,拉普拉斯金字塔分解作為第一次降維,在其分解過程中,插值膨脹求差法保留下的細(xì)節(jié)信息有助于后續(xù)人臉識別工作的進(jìn)行.而在PCA特征提取過程中,設(shè)定能量系數(shù)為99%,可以保證保留下的圖像信息足夠完整,且降維結(jié)果為17維,也達(dá)到了二次降維的目的.因此對人臉圖像先進(jìn)行拉普拉斯金字塔降維處理,然后再進(jìn)行PCA特征提取后得到的特征不僅維數(shù)低,且更有利于人臉識別工作,適合作為BP神經(jīng)網(wǎng)絡(luò)分類器的輸入值.
2仿真結(jié)果
本程序仿真環(huán)境為MATLAB7.0,選擇劍橋大學(xué)的ORL人臉圖像數(shù)據(jù)庫作為仿真數(shù)據(jù).該數(shù)據(jù)庫的人臉圖像大小為112×92,灰度級為256.共有40個(gè)身份,每個(gè)身份包含表情、姿態(tài)、角度、細(xì)節(jié)略有差異的十張圖像.選擇每個(gè)身份的前5張人臉圖像作為訓(xùn)練集,一共200張圖像.其余200張圖像作為測試樣本.在BP神經(jīng)網(wǎng)絡(luò)做分類器時(shí),訓(xùn)練方案為先進(jìn)行奇數(shù)樣本采樣訓(xùn)練,再進(jìn)行偶數(shù)樣本采樣訓(xùn)練,最后進(jìn)行樣本完整訓(xùn)練.
原始的人臉圖像經(jīng)過拉普拉斯金字塔降維處理和PCA特征提取后,獲得的特征值個(gè)數(shù)為17,因此BP網(wǎng)絡(luò)的輸入節(jié)點(diǎn)有17個(gè);根據(jù)經(jīng)驗(yàn)公式,取隱含層神經(jīng)元為80個(gè);輸出節(jié)點(diǎn)等于ORL人臉庫的身份類別,共40個(gè).在BP神經(jīng)網(wǎng)絡(luò)做分類器時(shí),樣本完整訓(xùn)練誤差限和批量訓(xùn)練誤差限都取0.005,即誤差值小于0.005時(shí)認(rèn)為訓(xùn)練完成.初始權(quán)值取[-0.5,0.5]之間任意值.
表1為本文算法和拉普拉斯金字塔降維至第4層后直接由BP神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行識別(拉普拉斯金字塔降維+BP神經(jīng)網(wǎng)絡(luò))、PCA特征提取后直接由BP神經(jīng)網(wǎng)絡(luò)分類器進(jìn)行識別(PCA+BP神經(jīng)網(wǎng)絡(luò))等幾種傳統(tǒng)人臉識別算法的仿真結(jié)果.表2為本文算法在選擇不同拉普拉斯金字塔分解層數(shù)時(shí)的識別率.
表1 本文算法和傳統(tǒng)人臉識別算法的仿真結(jié)果
表2 本文算法選擇不同拉普拉斯
從表1可以看出,本文方法的識別率為93%,高于其他方法,且本文算法的MSE值,即均方差值最低,也表明本文算法對訓(xùn)練集的訓(xùn)練結(jié)果最優(yōu).另外,本文算法在時(shí)間上略大于PCA+BP神經(jīng)網(wǎng)絡(luò)算法,但時(shí)間短于拉普拉斯金字塔+BP神經(jīng)網(wǎng)絡(luò)算法,因此在效率上也有所保障.分析可知,原始圖像經(jīng)過拉普拉斯金字塔降維處理后,相當(dāng)于進(jìn)行了一次粗略的特征提取,在該過程中不僅有效降低了圖像維數(shù),也強(qiáng)化了圖像特征;將經(jīng)過了該處理的人臉圖像再進(jìn)行PCA特征提取,得到了更精確有效的人臉圖像特征值.此時(shí)經(jīng)過兩次特征提取后最終得到的特征值不僅維數(shù)低于單獨(dú)一次特征提取的結(jié)果,并且由于兩次特征提取的精度越來越高,其識別結(jié)果也優(yōu)于傳統(tǒng)的人臉識別算法.
表2是選擇不同分解層數(shù)的人臉圖像的識別結(jié)果對比.當(dāng)金字塔分解至3層時(shí),其識別率僅為72.5%,遠(yuǎn)低于金字塔分解到頂層的識別結(jié)果.這個(gè)結(jié)果提供了兩個(gè)信息,一個(gè)是在能量系數(shù)確定的前提下,分解層數(shù)越高,即金字塔分解程度越深時(shí),BP神經(jīng)網(wǎng)絡(luò)的輸入維數(shù)越低,識別結(jié)果越好;另一方面,由于拉普拉斯金字塔在金字塔分解的過程中是通過插值膨脹求差法構(gòu)造高層圖像,因此高層圖像不僅完整的保留了圖像細(xì)節(jié),更去除了冗余信息,使得細(xì)節(jié)被突顯出來.下采樣程度越深,細(xì)節(jié)提取得越明顯.所以,深程度的下采樣并不會丟失過多的人臉圖像信息,反而強(qiáng)化了人臉圖像的細(xì)節(jié),使得識別結(jié)果更優(yōu)良.
3結(jié)束語
本文通過對人臉圖像進(jìn)行拉普拉斯金字塔降維和PCA特征提取以提取人臉特征信息,用BP神經(jīng)網(wǎng)絡(luò)做分類器進(jìn)行人臉識別.仿真結(jié)果表明,該算法識別結(jié)果優(yōu)于一般算法的識別結(jié)果.分析可知,拉普拉斯金字塔分解人臉圖像時(shí),在分解過程中保留和凸顯了細(xì)節(jié)信息,再經(jīng)過PCA特征提取后,可以得到維數(shù)低且更具代表性的特征數(shù)據(jù),是一種高效的人臉識別的特征提取方法.由于輸入的數(shù)據(jù)量較小,因此BP神經(jīng)網(wǎng)絡(luò)分類器的訓(xùn)練效果較好,訓(xùn)練過程不容易出現(xiàn)振蕩,且識別率較高.
參考文獻(xiàn)
[1] 閆海停,王玲,李昆明,等.融合的人臉識別[J].中國圖象圖形學(xué)報(bào),2014,18(1):85-91.
[2] 辛斌, 陳杰, 彭志紅.智能優(yōu)化控制:概述與展望[J].自動化學(xué)報(bào),2013,37(11):1 831-1 848.
[3] 伊力哈木·亞爾買買提,哈力旦.基于改進(jìn)神經(jīng)網(wǎng)絡(luò)的人臉識別方法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(12):129-132.
[4] 李康順,李凱,張文生.一種基于改進(jìn)BP神經(jīng)網(wǎng)絡(luò)的PCA人臉識別算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(1):158-161.
[5] Steve Lawrence,Lee Giles C,Ah Chung Tsoi,et al.Face recognition:A convolution neural-network approach[J].IEEE Trans.on Neural Networks,1997,8(1):98-113.
[6] 唐赫.基于PCA和神經(jīng)網(wǎng)絡(luò)的人臉識別算法研究[J].軟件導(dǎo)刊,2013,12(6):33-34.
[7] 程強(qiáng).圖像降維及其在人臉識別中的應(yīng)用[D].無錫:江南大學(xué),2013.
[8] Se Hwan Yun,Jin Heon Kim,Suki Kim.Image enhancement using a fusion framework of histogram equalization and laplacian pyramid[J].IEEE Trans.on Consumer Electronics,2010,56(10):2 763-2 771.
[9] 鄧小玲,孔晨,吳偉斌,等.基于主成分分析和神經(jīng)網(wǎng)絡(luò)的柑橘黃龍病診斷技術(shù)[J].光子學(xué)報(bào),2014,43(4):16-22.
[10] 阮越,陳漢武,劉志昊,等.量子主成分分析算法[J].計(jì)算機(jī)學(xué)報(bào),2014,36(3):666-676.
[11] 魏衍君,楊明莉.基于聚類建模的三維人臉識別技術(shù)研究[J].陜西科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,30(2):77-81.
[12] 孫勝永,胡雙演,李釗,等.基于粒子群優(yōu)化算法的BP神經(jīng)網(wǎng)絡(luò)圖像復(fù)原[J].無線電工程,2014,44(10):5-7,26.
[13] 蘇超,肖南峰.基于集成BP網(wǎng)絡(luò)的人臉識別研究[J].計(jì)算機(jī)應(yīng)用研究,2012,28(11):4 334-4 337,4 341.
Face recognition algorithm based on
Laplacian pyramid decomposition
KANG Jie1, LIN Xin1, WU Xing-chi2
(1.College of Electrical and Information Engineering, Shaanxi University of Science & Technology, Xi′an 710021, China; 2.Armour College of Engineering, Illinois Institute of Technology, Chicago 60616, USA)
Abstract:In view of the computing dimension of the traditional face recognition algorithm combine PCA with neural network is too high,and vulnerability to shocks of the algorithm leads to low recognition rate,a new face recognition algorithm based on Laplacian pyramid decomposition is proposed in this paper.This method first reduce dimension of face images by Laplacian pyramid,and keep the details of face images during dimension reduction,again extracted feature by PCA,finally do face recognition with BP neural network classifier.The simulate study results based on ORL face database demonstrate that the recognition rate is high.
Key words:face recognition; Laplacian pyramid; PCA; BP neural network
中圖分類號:TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號:1000-5811(2015)01-0165-04
作者簡介:亢潔(1973-),女,陜西銅川人,副教授,博士,研究方向:模式識別、圖像處理
基金項(xiàng)目:陜西省科技廳自然科學(xué)基礎(chǔ)研究計(jì)劃項(xiàng)目(2014JM8329); 咸陽市科技計(jì)劃項(xiàng)目(2011K07-03); 陜西科技大學(xué)博士科研啟動基金項(xiàng)目(BJ10-10); 陜西省教育廳專項(xiàng)科研計(jì)劃項(xiàng)目(14JK1092)
收稿日期:*2014-10-12 *2014-09-20