郭明金,倪佳佳,陳 姝
(湘潭大學(xué) 信息工程學(xué)院,湘潭 411105)
人臉驗(yàn)證是人臉識(shí)別領(lǐng)域的一個(gè)研究重點(diǎn),本文專注于人臉驗(yàn)證的任務(wù),其目的是確定兩個(gè)臉部圖像是否屬于相同的身份.在現(xiàn)實(shí)中,兩個(gè)臉部圖像在姿勢(shì)、照明、表情、年齡情況下被給予其大量的個(gè)人變化.因此直接使用人臉圖像來(lái)進(jìn)行驗(yàn)證變得更加困難.這是因?yàn)樵谔暨x圖像中的特征驗(yàn)證身份時(shí)往往忽略隨著環(huán)境條件差異而變化的特征.
傳統(tǒng)方法通常分成兩個(gè)步驟中:特征提取和面部驗(yàn)證.在特征提取階段,大都使用人工提取的特征,更重要的是這些人工提取的特征必須提前設(shè)計(jì).因此,這些特征往往應(yīng)用于某些特定的領(lǐng)域,從而導(dǎo)致這些特征缺乏統(tǒng)一性.
在人臉驗(yàn)證的最后階段,往往可以選擇一些常用的分類器,例如用于判斷兩個(gè)臉部圖像是否屬于同一個(gè)人的支持向量機(jī).這些分類器大都用于計(jì)算兩個(gè)臉部圖像的相似性[1-5].然而,這些模型所用的特征基本都是淺層結(jié)構(gòu)的特征.但是由于Internet的發(fā)展使得大量數(shù)據(jù)的獲得十分容易,因此在使用模型時(shí)需要大量的數(shù)據(jù)提供的高維特征.但是淺層結(jié)構(gòu)不能適應(yīng)這一任務(wù).因此為了解決上述問(wèn)題,文章提了一種混合卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)臉部圖像進(jìn)行分類.整個(gè)模型的框架如圖1所示.整個(gè)模型有以下幾個(gè)特點(diǎn).
(1)從原始像素圖像中直接提取視覺(jué)特征,而不是使用傳統(tǒng)方法提取特征.在混合卷積神經(jīng)網(wǎng)絡(luò)模型中特征首先從已經(jīng)被訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)提取出來(lái).這是因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)在特征提取時(shí)有良好的魯棒性并且可以表現(xiàn)來(lái)自不同方面的人臉相似性.
(2)特征提取后,模型先對(duì)提取到的兩個(gè)特征進(jìn)行了特征融合操作.因?yàn)閺耐粋€(gè)網(wǎng)絡(luò)中提取的同一個(gè)人的特征可能具有相似性.在進(jìn)行特征融合以后可以使這個(gè)相似性擴(kuò)大.最后使用單變量特征選擇和PCA來(lái)選擇有效的特征.
(3)提取人臉特征時(shí)模型首先優(yōu)化了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行特征提取操作,在這個(gè)階段為了確保良好的提取性從而引入識(shí)別率.相對(duì)與整個(gè)混合卷積神經(jīng)網(wǎng)絡(luò)方法,這種分段訓(xùn)練可以加快整體優(yōu)化.
用于人臉驗(yàn)證的所有現(xiàn)有方法都是從兩個(gè)人臉提取特征開(kāi)始.傳統(tǒng)方法大都采用淺層結(jié)構(gòu)提取特征.通常使用各種淺層特征[6,7],包括SIFT[8],Gabor[9],Eigenface[10-12].還有許多人臉識(shí)別模型是淺層結(jié)構(gòu)但使用了高維特征來(lái)進(jìn)行最后的相似性判斷[13,14].一些方法[15]使用線性SVM進(jìn)行相同或不同的驗(yàn)證決策.Huang、Simonyan等[13,14]通過(guò)學(xué)習(xí)線性變換來(lái)增加圖片魯棒性.但是所有這些方法的一個(gè)主要缺點(diǎn)是它們對(duì)輸入圖像(移位,縮放,旋轉(zhuǎn))的幾何變換以及面部表情,眼鏡和模糊圍巾的其他變化非常敏感.一些基于淺層網(wǎng)絡(luò)結(jié)構(gòu)的模型學(xué)習(xí)高層的特征[16,17],這種方法與傳統(tǒng)的方法不同之處在于,特征提取和人臉驗(yàn)證是在同一個(gè)網(wǎng)絡(luò)中.這些網(wǎng)絡(luò)的結(jié)構(gòu)總是很復(fù)雜,且需要更多的時(shí)間優(yōu)化參數(shù).與傳統(tǒng)方法相比,它也失去了靈活性.但是由于互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量的數(shù)據(jù)且需要高層的特征.因此人臉識(shí)別模型需要高層特征的從原始圖像中學(xué)習(xí).一些作者為人臉驗(yàn)證設(shè)計(jì)了一些深層次的模型[1-5,18,19].但這些模型也失去了淺層模型的靈活性.所有這些方法都使用卷積神經(jīng)網(wǎng)絡(luò)[20]來(lái)提取特征并且學(xué)習(xí)一個(gè)相似性度量方法來(lái)進(jìn)行最后的判斷.這是因?yàn)榫矸e網(wǎng)絡(luò)是可訓(xùn)練的多層非線性系統(tǒng),可以以像素級(jí)運(yùn)行,并且以集成的方式進(jìn)行高級(jí)表示.雖然這些方法可以提取魯棒性良好的特征,但它們沒(méi)有考慮兩個(gè)人臉圖像的個(gè)體之間的差異性.提取特征以后所有這些模型開(kāi)始直接分類判斷操作.這可能使得個(gè)體之間比較好的特征被忽略,從而導(dǎo)致整個(gè)網(wǎng)絡(luò)的準(zhǔn)確性不高.
圖1 混合卷積神經(jīng)網(wǎng)絡(luò)的框架
本文提出的模型和上述模型有較大的差異,即考慮淺層模型的靈活性,也保證了深層模型的有效性.模型和傳統(tǒng)方法一樣將人臉驗(yàn)證分成特征提取和人臉驗(yàn)證兩個(gè)階段.這樣做的優(yōu)點(diǎn)是模型可以像傳統(tǒng)方法一樣學(xué)習(xí)到較好的人臉特征.與其他在提取后直接對(duì)不同特征進(jìn)行分類的模型不同,混合卷積神經(jīng)網(wǎng)絡(luò)模型添加了一個(gè)特征選擇和特征融合步驟,這樣在提取到兩個(gè)特征以后,考慮到兩個(gè)特征之間的相似性,模型進(jìn)行一次融合操作使得整個(gè)相似性效果明顯.特征融合以后,模型使用單變量特征選擇和主成分分析(Principle Component Analysis,PCA)來(lái)選擇特征.它可以增強(qiáng)個(gè)體之間的差異性.單變量特征選擇通過(guò)選擇基于單變量統(tǒng)計(jì)檢驗(yàn)得到最佳特征,PCA用于分解一組連續(xù)正交分量中的多變量數(shù)據(jù)集,其解釋了最大量的方差.
為了提取人臉特征,混合卷積神經(jīng)網(wǎng)絡(luò)使用兩個(gè)卷積網(wǎng)絡(luò)模型(見(jiàn)圖2).這是一個(gè)典型的卷積神經(jīng)網(wǎng)絡(luò)由交替卷積和次采樣操作組成[21].雖然架構(gòu)的最后階段由通用的全連接網(wǎng)絡(luò)組成:最后幾層將是完全連接成一維層特征[22].卷積網(wǎng)絡(luò)是端對(duì)端進(jìn)行訓(xùn)練,將像素圖像映射到輸出[10].此外,它可以學(xué)習(xí)向量不變的局部特征,因?yàn)榫矸e網(wǎng)絡(luò)是非線性系統(tǒng).提取的特征對(duì)于輸入圖像的幾何失真是魯棒的.為了保證整個(gè)模型提取到的特征效果比較好,模型先對(duì)單個(gè)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了人臉識(shí)別研究,并保留最佳性能的網(wǎng)絡(luò)模型架構(gòu).在以下部分中,將詳細(xì)描述卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu).
圖2 卷積神經(jīng)網(wǎng)絡(luò)模型(立方體的長(zhǎng)度、寬度和高度表示輸入層大小)
整個(gè)混合卷積神經(jīng)網(wǎng)絡(luò)框架如圖1所示其中X1和X2表示兩幅人臉的圖片.用y表示兩幅人臉是否是一個(gè)人.在y=1表示是一個(gè)人,y=0表示不是同一個(gè)人.首先訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)然后保存模型參數(shù)W,用來(lái)后面提取出每個(gè)人臉的特征.這個(gè)模型參數(shù)在后面是共享.這樣使得兩張人臉圖片特征的提取都是用同一個(gè)模型.在提取到特征以后把兩個(gè)特征融合.融合以后應(yīng)用PCA進(jìn)行降維保留主要的特征.最后把這個(gè)特征用支持向量機(jī)(SVM)進(jìn)行訓(xùn)練輸出判斷的結(jié)果模型首先從使用已經(jīng)訓(xùn)練好的卷積網(wǎng)絡(luò)從兩張人臉圖像中學(xué)習(xí)特征.在網(wǎng)絡(luò)訓(xùn)練階段,為了保證可以提取到較好的特征,模型引入了識(shí)別率進(jìn)行定量分析.識(shí)別率越高,模型越好最后提取到的特征也越好.在保證了整個(gè)識(shí)別準(zhǔn)率以后,保存整個(gè)模型結(jié)構(gòu)進(jìn)行后續(xù)的特征提取操作.
混合卷積神經(jīng)網(wǎng)絡(luò)模型和其他方法最大的區(qū)別是引入了一個(gè)特征融合和特征提取操作.相比于其他方法往往直接使用提取的特征進(jìn)行分類,沒(méi)有考慮到兩張人臉圖像的個(gè)人異同性.但在混合卷積神經(jīng)網(wǎng)絡(luò)模型中,使用相加操作來(lái)融合以增加最后的特征的異同性.因?yàn)檎麄€(gè)模型使用的是同一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行特征提取操作,如果是同一個(gè)人提取到的特征必然具有相似性,在經(jīng)過(guò)相加操作以后同一個(gè)特征的相似性便放大,如果不是同一個(gè)人經(jīng)過(guò)相加操作以后特征的差異性會(huì)更大.最后在特征融合以后模型使用單變量特征選擇和主成分分析來(lái)選擇特征.因?yàn)樵谶M(jìn)行融合操作時(shí)有可能產(chǎn)生噪聲,進(jìn)行特征選擇的這種方法可以確保最后使用的特征足夠好.特征融合時(shí)模型得到一個(gè)1000維特征.為了保持維度不變,在進(jìn)行單變量選擇和PCA時(shí)各自選擇500維特征,最后統(tǒng)一這兩個(gè)特征從而可以得到1000維.
模型卷積神經(jīng)網(wǎng)絡(luò)使用了典型的卷積網(wǎng)絡(luò)(見(jiàn)圖2).Cx表示卷積層,Sx表示子采樣層,Fx表示全連接層,其中x為層索引.基本架構(gòu)是C1---S2---C3---S4---C5---S6---F7---F8,具體參數(shù)設(shè)置如表1所示.
表1 神經(jīng)網(wǎng)絡(luò)架構(gòu)層參數(shù)
在上一小節(jié)具體分析了整個(gè)混合卷積神經(jīng)網(wǎng)絡(luò)模型.這一小節(jié)整個(gè)模型將在兩個(gè)人臉數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),分別是YaleB人臉數(shù)據(jù)庫(kù)和AR人臉數(shù)據(jù)庫(kù).整個(gè)實(shí)驗(yàn)環(huán)境使用了keras在Windows10上進(jìn)行.CPU:i7 6700 Hq,GPU:GTX960m.
混合卷積神經(jīng)網(wǎng)絡(luò)模型是在兩個(gè)人臉數(shù)據(jù)集的訓(xùn)練和測(cè)試(見(jiàn)圖3).第一次在YaleB人臉數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn).YaleB人臉庫(kù)由美國(guó)耶魯大學(xué)計(jì)算視覺(jué)與控制中心創(chuàng)建,包含了10個(gè)人的5760幅多姿態(tài),多光照的圖像.每個(gè)人具有9種不同的頭部姿態(tài),每種姿態(tài)下均有64種不同光照條件的圖像,每幅圖像原始大小為640×480并且具有38個(gè)對(duì)象,總共2470個(gè)圖像.本文只使用了其中的一部分并對(duì)圖片預(yù)處理得到每張圖片的大小為168 * 192.第二次訓(xùn)練和測(cè)試實(shí)驗(yàn)在AR人臉數(shù)據(jù)庫(kù)上進(jìn)行.AR人臉庫(kù)是由西班牙巴塞羅那計(jì)算機(jī)視覺(jué)中心于1998年創(chuàng)建,該人臉庫(kù)包含了126個(gè)人的4000多幅彩色正面圖像,其中包括70名男性和56名女性不同面的部表情、光照變化及配飾(圍巾和墨鏡遮擋)等,在這里模型選擇只選取了2600張圖像,并進(jìn)行尺寸為168 * 192的預(yù)處理.
圖3 不同數(shù)據(jù)庫(kù)的數(shù)據(jù)集圖像
為了驗(yàn)證臉部圖像,每個(gè)圖像與數(shù)據(jù)集中的每個(gè)其他圖像配對(duì).在yaleB中,2438個(gè)圖像對(duì)中有1215個(gè)正面(屬于一個(gè)人).在AR數(shù)據(jù)集中,有2587個(gè)圖像對(duì),其具有1200個(gè)正面.測(cè)試(驗(yàn)證)在20%圖像對(duì)中完成.在不同數(shù)據(jù)庫(kù)上使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行驗(yàn)證時(shí)的準(zhǔn)確率見(jiàn)圖4.
整個(gè)混合卷積神經(jīng)網(wǎng)絡(luò)模型的框架包括兩個(gè)網(wǎng)絡(luò).模型的輸入是一對(duì)人臉圖像和標(biāo)簽,然后通過(guò)各自的特征提取網(wǎng)絡(luò)(見(jiàn)圖2).最后,產(chǎn)生通過(guò)特征融合和特征選擇階段輸出訓(xùn)練好的特征.在模型的頂部,模型使用SVM作為分類器來(lái)判斷兩張人臉圖片是否是一個(gè)人.
整個(gè)訓(xùn)練過(guò)程分為兩個(gè)階段.首先,模型先訓(xùn)練特征提取網(wǎng)絡(luò).其次,訓(xùn)練模型來(lái)驗(yàn)證圖像對(duì).為了保證提取良好的特征,混合卷積神經(jīng)網(wǎng)絡(luò)引入識(shí)別率來(lái)衡量提取的特征的好壞,使用數(shù)據(jù)集來(lái)訓(xùn)練卷積網(wǎng)絡(luò)來(lái)識(shí)別,然后保留對(duì)整個(gè)人臉有較好識(shí)別率的網(wǎng)絡(luò)結(jié)構(gòu)模型.
特征提取后,模型使用特征融合和特征選擇來(lái)增強(qiáng)個(gè)體之間的差異.在實(shí)驗(yàn)中,模型從兩張人臉圖像中得到一個(gè)1000維特征.之后模型使用單變量特征選擇和PCA來(lái)選擇已融合的特征.這樣做的優(yōu)點(diǎn)是減少特征合并中出現(xiàn)的噪音.經(jīng)過(guò)上述操作,我們可以得到一個(gè)很好的特征.圖5顯示了提取的特征.
圖4 在不同數(shù)據(jù)庫(kù)上使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行驗(yàn)證時(shí)的準(zhǔn)確率
圖5 前100張人臉特征圖
在網(wǎng)絡(luò)的頂端,混合卷積神經(jīng)網(wǎng)絡(luò)使用SVM作為分類器.因?yàn)槿四槇D像是非線性的,所以模型使用高斯核函數(shù).其中高斯核函數(shù)為
其對(duì)應(yīng)于SVM的高斯核函數(shù)是徑向基函數(shù)分類器.在這種情況下,分類器的函數(shù)為
為了確保公平的比較,模型使用兩個(gè)數(shù)據(jù)庫(kù).首先,使用兩個(gè)數(shù)據(jù)集的系統(tǒng)來(lái)驗(yàn)證其有效性(見(jiàn)表2).從表中可以看出,CNN識(shí)別率對(duì)最終驗(yàn)證率有影響.在表2的YaleB部分,可以看到,隨著卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率的提高,人臉驗(yàn)證的準(zhǔn)確性也得到提高.在表2的AR部分,可以發(fā)現(xiàn),即使AR數(shù)據(jù)集有很大的變化,所提出的方法也可以得到很好的結(jié)果.在表3中,混合卷積網(wǎng)絡(luò)方法與一些傳統(tǒng)方法進(jìn)行比較.統(tǒng)計(jì)數(shù)據(jù)顯示,HBCNN在不同的維度上取得了較好的效果.
表2 在YaleB和AR人臉數(shù)據(jù)庫(kù)下HBCNN模型對(duì)不同CNN識(shí)別率下的精度比較(單位:%)
表3 HBCNN模型在YaleB數(shù)據(jù)集下與傳統(tǒng)方法的精度比較(D指維度)(單位:%)
本文提出了一種用于人臉驗(yàn)證的混合卷積神經(jīng)網(wǎng)絡(luò)模型.該模型直接從人臉圖片中學(xué)習(xí)并提取特征.最后模型在兩個(gè)不同的數(shù)據(jù)集下進(jìn)行了實(shí)驗(yàn),并且實(shí)驗(yàn)證明整個(gè)模型在兩個(gè)人臉數(shù)據(jù)庫(kù)上都有比較好的應(yīng)用.最后相對(duì)于傳統(tǒng)的的方法混合卷積神經(jīng)網(wǎng)絡(luò)也有較好的效果.
1Sun Y,Wang XG,Tang XO.Hybrid deep learning for face verification.Proceedings of the IEEE International Conference on Computer Vision.Sydney,NSW,Australia.2013.1489-1496.
2Sun Y,Wang XG,Tang XO.Deep learning face representation from predicting 10,000 classes.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.2014.1891-1898.
3Sun Y,Chen YH,Wang XG,et al.Deep learning face representation by joint identification-verification.Proceedings of the 27th International Conference on Neural Information Processing Systems.Montreal,Canada.2014.1988-1996.
4Sun Y,Wang XG,Tang XO.Deeply learned face representations are sparse,selective,and robust.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Boston,MA,USA.2015.2892-2900.
5Taigman Y,Yang M,Ranzato MA,et al.Deepface:Closing the gap to human-level performance in face verification.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.2014.1701-1708.
6Guillaumin M,Verbeek J,Schmid C.Is that you? Metric learning approaches for face identification.Proceedings of the 12th International Conference on Computer Vision.Kyoto,Japan.2009.498-505.
7Nguyen HV,Bai L.Cosine similarity metric learning for face verification.Proceedings of the 10th Asian Conference on Computer Vision.Queenstown,New Zealand.2010.709-720.
8Lowe DG.Distinctive image features from scale-invariant keypoints.International Journal of Computer Vision,2004,60(2):91-110.[doi:10.1023/B:VISI.0000029664.99615.94]
9Wiskott L,Krüger N,Kuiger N,et al.Face recognition by elastic bunch graph matching.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):775-779.[doi:10.1109/34.598235]
10Turk M,Pentland A.Eigenfaces for recognition.Journal of Cognitive Neuroscience,1991,3(1):71-86.[doi:10.1162/jocn.1991.3.1.71]
11Yang MH,Ahuja N,Kriegman D.Face recognition using kernel eigenfaces.Proceedings of the 2000 International Conference on Image Processing.Vancouver,BC,Canada.2000,1.37-40.
12Belhumeur PN,Hespanha JP,Kriegman DJ.Eigenfaces vs.fisherfaces:Recognition using class specific linear projection.IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(7):711-720.[doi:10.1109/34.598228]
13Simonyan K,Parkhi OM,Vedaldi A,et al.Fisher vector faces in the wild.Proceedings of the British Machine Vision Conference (BMVC).Bristol,UK.2013.
14Huang C,Zhu SH,Yu K.Large-scale strongly supervised ensemble metric learning.US Patent 8873844.[2014-10-28].
15Huang GB,Lee H,Learned-Miller E.Learning hierarchical representations for face verification with convolutional deep belief networks.Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition.Providence,RI,USA.2012.2518-2525.
16Kumar N,Berg AC,Belhumeur PN,et al.Attribute and simile classifiers for face verification.Proceedings of the 12th International Conference on Computer Vision.Kyoto,Japan.2009.365-372.
17Berg T,Belhumeur PN.Tom-vs-pete classifiers and identitypreserving alignment for face verification.Proceedings of the British Machine Vision Conference (BMVC).Surrey,Canada.2012.
18Shao H,Chen S,Zhao JY,et al.Face recognition based on subset selection via metric learning on manifold.Frontiers of Information Technology &Electronic Engineering,2015,16(12):1046-1058.
19Li QF,Zhou XF,Gu AH,et al.Nuclear norm regularized convolutional Max Pos@Top machine.Neural Computing &Applications,2016:1-10.[doi:10.1007/s00521-016-2680-2]
20Krizhevsky A,Sutskever I,Hinton GE.Imagenet classification with deep convolutional neural networks.Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,Nevada,USA.2012.1097-1105.
21LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278-2324.[doi:10.1109/5.726791]
22Bouvrie J.Notes on convolutional neural networks.Neural Nets,2006.https://pdfs.semanticscholar.org/2a43/93aa1bc3 cb7fe2deecc88720bfb84dabb263.pdf.