李玨 盧鶴
摘 ?要:人臉圖像能夠表現(xiàn)大量生物學(xué)上的復(fù)雜信息,從人臉圖像中對人物的年齡進(jìn)行估計有助于機器視覺在安防、預(yù)測等方面的應(yīng)用。本文提出了一種新的深度神經(jīng)網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)對人臉圖像進(jìn)行特征提取,結(jié)合多層自編碼器實現(xiàn)對不同年齡層的分類。同時對提取的人臉特征進(jìn)行統(tǒng)計,分析隨人物衰老變化較大的神經(jīng)元。在FG-NET數(shù)據(jù)集上獲得了較高準(zhǔn)確率。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò);人臉圖像;年齡估計
中圖分類號:TP391 ? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2019)18-0040-03
Abstract:Face images can represent a large amount of complex biological information. Estimating the age of human from face images is helpful for the application of machine vision in security,prediction and so on. In this paper,a new depth neural network is proposed,which uses convolution neural network to extract features from face images and combines with multi-layer self-encoder to classify different age levels. At the same time,the extracted facial features are counted and the neurons which change greatly with the aging of the characters are analyzed. High accuracy is obtained on FG-NET dataset.
Keywords:deep neural network;facial images;age estimation
0 ?引 ?言
人臉圖像相比虹膜、指紋識別更加直觀,并具有社會屬性,是辨別身份最常用的特征[1],目前,基于機器學(xué)習(xí)的人臉識別已取得了巨大進(jìn)步,準(zhǔn)確率已經(jīng)超越人類,并廣泛應(yīng)用在了工業(yè)級產(chǎn)品中[2]。
大數(shù)據(jù)環(huán)境和深度學(xué)習(xí)的結(jié)合,為人工智能在人臉圖像上的應(yīng)用提供了有利的條件。相比以往的淺層學(xué)習(xí),深度學(xué)習(xí)構(gòu)建了多層神經(jīng)網(wǎng)絡(luò),因此得以從大量數(shù)據(jù)中學(xué)習(xí)到更本質(zhì)的特征。
人臉在成熟和衰老的過程中會因人而異地產(chǎn)生變化,這一變化很早就引起了人們的關(guān)注[3]。本文通過構(gòu)建深度神經(jīng)網(wǎng)絡(luò),提取人物特征,并在FG-NET數(shù)據(jù)集上以年齡為標(biāo)簽訓(xùn)練神經(jīng)網(wǎng)絡(luò),實現(xiàn)對人臉圖像中人物的年齡估計。
1 ?深度學(xué)習(xí)
機器學(xué)習(xí)的目的是利用從數(shù)據(jù)中學(xué)習(xí)的特征,對新樣本做出推理或者預(yù)測。圖像數(shù)據(jù)計算量大,且具有冗余性,以往的人工特征,如SIFT特征點、LBP特征等雖然能很好地描述圖像的某些特征,但都極大地依賴特征的提取和選擇。淺層的機器學(xué)習(xí)算法如支持向量機(SVM)、線性回歸、聚類、邏輯回歸等雖然能夠結(jié)合人工特征提升計算機視覺的準(zhǔn)確率,但由于算法表達(dá)復(fù)雜函數(shù)的能力有限,難以學(xué)習(xí)到隱含在數(shù)據(jù)中的特征[4]。
深度學(xué)習(xí)通過提高非線性運算的組合水平、加深網(wǎng)絡(luò)結(jié)構(gòu)來實現(xiàn)對大量數(shù)據(jù)的特征學(xué)習(xí)。其模擬人類的視覺分層系統(tǒng),隨著層次的加深對數(shù)據(jù)的內(nèi)容逐步抽象,直至語義層面[5]。深度學(xué)習(xí)的進(jìn)步也得益于大數(shù)據(jù)時代和計算機硬件的發(fā)展。
1.1 ?深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)是為了學(xué)習(xí)數(shù)據(jù)的特征的復(fù)雜非線性模型,假設(shè)模型為hw,b(x),則模型中的(w,b)就是網(wǎng)絡(luò)要學(xué)習(xí)的用以擬合數(shù)據(jù)的重要參數(shù)。
經(jīng)過卷積和池化的特征最終會加入全連接層,用于分類或其他任務(wù)。卷積操作實際是對圖像的局部特征放大的過程,得到的特征在深一層的神經(jīng)網(wǎng)絡(luò)里可以與其他神經(jīng)元共享,這樣的并行學(xué)習(xí)使得網(wǎng)絡(luò)可以高效提取圖像特征。
2 ?人臉圖像的特征提取
本文設(shè)計了深度卷積神經(jīng)網(wǎng)絡(luò)用以提取人臉圖像特征并識別人物,結(jié)合自編碼器實現(xiàn)了年齡估計。
2.1 ?構(gòu)建深度神經(jīng)網(wǎng)絡(luò)
利用圖1所示的深度卷積神經(jīng)網(wǎng)絡(luò)提取人臉圖像的特征。人臉圖像經(jīng)過深度卷積神經(jīng)網(wǎng)絡(luò)計算得到160維的特征向量,經(jīng)過自編碼器進(jìn)一步降低維度,最終得到一個80維的全連接特征向量。
2.2 ?有監(jiān)督訓(xùn)練
大量數(shù)據(jù)和復(fù)雜問題更有利于性能良好的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練[8],著名的人臉數(shù)據(jù)庫有LFW、CelebFaces、YouTube Face等。選取YouTube Face(1595個人物,624552張照片)訓(xùn)練本網(wǎng)絡(luò),預(yù)處理包含檢測、剪裁處理,統(tǒng)一圖像尺寸。分別將訓(xùn)練集和測試集數(shù)目設(shè)為32000和7875張,網(wǎng)絡(luò)訓(xùn)練過程如圖2所示,其測試識別率最終達(dá)到93.7%。
3 ?人臉圖像的識別與年齡估計
測試數(shù)據(jù)集采用針對年齡變化的著名數(shù)據(jù)庫FG-NET[9],包含82個人物的1002張圖片。
3.1 ?數(shù)據(jù)預(yù)處理與標(biāo)簽
FG-NET數(shù)據(jù)具有以下特點:年齡跨度大,圖像受表情、光照、眼鏡、發(fā)色等干擾,且質(zhì)量、尺寸有所不同。在預(yù)處理時,將統(tǒng)一成(47×55×3)像素的圖像作為神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)源。
數(shù)據(jù)庫對年齡跨度沒有設(shè)置規(guī)則。例如圖像中某些人物的年齡從幼年直至老年,也有的人物僅有部分中年圖像,且各自數(shù)量不同。
根據(jù)日常經(jīng)驗,本文認(rèn)為人在中青年時的一段時間面容變化最小,在幼年和老年面容變化較大。在設(shè)定數(shù)據(jù)標(biāo)簽時,按近似正態(tài)分布的方式給定。假設(shè)要將年齡細(xì)分為n個層級,則用n的中位數(shù)標(biāo)記30~50的年齡段,再向兩側(cè)分別標(biāo)記。
3.2 ?實驗結(jié)果與分析
如圖1所示,經(jīng)過神經(jīng)網(wǎng)絡(luò)計算,最終獲得一個80維的向量進(jìn)入Softmax回歸做分類計算。計算所得的是輸入的x分屬于某一個人在年齡階段標(biāo)簽的概率p(y= PersonalAgej|x),實驗結(jié)果如圖3所示。
在實驗中,對年齡分層的多少直接影響了年齡估計的準(zhǔn)確率。當(dāng)分層為3時,即認(rèn)為每個人物有幼年、青年、老年三種狀態(tài),識別率為83.6%,分層為15時,則將人物年齡標(biāo)記為15個不同標(biāo)簽,識別率為53.6%。實驗過程中,神經(jīng)網(wǎng)絡(luò)對同一人物的識別率一直保持較高水平。以分層為6為例,實驗中的部分結(jié)果在表1、表2中顯示。
神經(jīng)網(wǎng)絡(luò)輸出的特征向量具有很強的表達(dá)能力,在訓(xùn)練中由于運用年齡作為一種依據(jù),響應(yīng)大特征的表達(dá)體現(xiàn)了衰老。如圖4所示,某些神經(jīng)元表現(xiàn)出對年齡極大的響應(yīng),某一些卻不敏感。
4 ?結(jié) ?論
本文設(shè)計了一個新的深度神經(jīng)網(wǎng)絡(luò),利用卷積神經(jīng)網(wǎng)絡(luò)提取人臉圖像的特征,結(jié)合自編碼器,最終實現(xiàn)從人臉圖像中識別人物和估計人物年齡。并針對年齡改變而帶來的人臉變化,對敏感神經(jīng)元進(jìn)行分析。
在今后的工作中,可以通過提升網(wǎng)絡(luò)構(gòu)建提升對年齡估計的準(zhǔn)確率,并廣泛收集數(shù)據(jù),使用更優(yōu)良的數(shù)據(jù)庫訓(xùn)練神經(jīng)網(wǎng)絡(luò)。在對神經(jīng)元進(jìn)行分析后,可以在后續(xù)的工作里對敏感神經(jīng)元加以深入研究,并利用不同神經(jīng)元的表達(dá)重點提升網(wǎng)絡(luò)性能。
參考文獻(xiàn):
[1] Jain Ak,Ross A,Prabhakar S. An Introduction to Biometric Recognition [J].IEEE Transactions on Circuits and Systems for Video Technology,2004,14(1):4-20.
[2] 王曉剛,湯曉鷗.從統(tǒng)一子空間分析到聯(lián)合深度學(xué)習(xí):人臉識別的十年歷程 [J].中國計算機學(xué)會通訊,2015(4):8-15.
[3] Ramanathan N,Chellappa R. Face Verification across Age Progression [C]// Computer Vision and Pattern Recognition,2005. CVPR 2005. IEEE Computer Society Conference on. S.l.:s.n.,2005:462-469.
[4] 何清,李寧,羅文娟,等.大數(shù)據(jù)下的機器學(xué)習(xí)算法綜述 [J].模式識別與人工智能,2014,27(4):327-336.
[5] 劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展 [J].計算機應(yīng)用研究,2014,31(7):1921-1930+1942.
[6] Bengio Y,Lamblin P,Popovici D,et al. Greedy layer-wise training of deep networks [J]. Advances in Neural Information Processing Systems,2007,19:153-160.
[7] Fukushima K. Neocognitron:A Self_organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position [J].Biological Cybernetics,1980,36(4):193-202.
[8] Hinton G E,Osindero S,Teh Y W. A fast learning algorithm for deep belief nets [J].Neural Computation,2006,18(7):1527-1554.
[9] Lanitis A. Evaluating the performance of face-aging algorithms [C]// IEEE International Conference on Automatic Face & Gesture Recognition,2009.
作者簡介:李玨(1990-),女,漢族,山東青島人,助理工程師,碩士研究生,研究方向:武器裝備信息化、機器學(xué)習(xí);盧鶴(1991-),男,漢族,北京人,助理工程師,碩士研究生,研究方:軟件工程。