基于深度學(xué)習(xí)的人臉美麗預(yù)測模型及其應(yīng)用

2018-06-08 07:07:36姜開永甘俊英譚海英

五邑大學(xué)學(xué)報（自然科學(xué)版） 2018年2期

姜開永，甘俊英，譚海英

姜開永，甘俊英，譚海英

（五邑大學(xué) 信息工程學(xué)院，廣東江門 529020）

為了進一步提高人臉美麗預(yù)測精度，本文構(gòu)建了一個多尺度圖像輸入的人臉美麗預(yù)測深度卷積神經(jīng)網(wǎng)絡(luò)模型（Deep Convolution Neural Network，DCNN），以增強對人臉圖像空間結(jié)構(gòu)特征的提取能力. 采用深度可分離卷積層代替普通卷積層、Max-Feature-Max（MFM）激活函數(shù)代替修正線性單元（Rectified Linear Unit，ReLU）激活函數(shù)，可減少網(wǎng)絡(luò)訓(xùn)練參數(shù)并提取具有競爭性的網(wǎng)絡(luò)特征. 基于大規(guī)模亞洲女性人臉美麗數(shù)據(jù)庫（Large Scale Asian Female Beauty Database，LSAFBD）的實驗結(jié)果表明，本文所構(gòu)建的人臉美麗預(yù)測模型取得了59.75%的正確分類率，優(yōu)于現(xiàn)有DCNN模型的分類結(jié)果.

深度卷積神經(jīng)網(wǎng)絡(luò)；人臉美麗預(yù)測；深度可分離卷積層；圖像多尺度

隨著深度學(xué)習(xí)在圖像識別領(lǐng)域取得突破性進展，深度卷積神經(jīng)網(wǎng)絡(luò)（Deep Convolution Neural Network，DCNN）在機器視覺分類，如圖像分類、目標(biāo)識別和人臉識別等方面產(chǎn)生了大量的研究成果[1-5]，為了取得更高的正確分類率和網(wǎng)絡(luò)泛化能力，用于訓(xùn)練DCNN模型的數(shù)據(jù)庫規(guī)模也在不斷擴大，諸如CASIA-Webface[6]、CelebFaces+[2]、MS-Celeb-1M[7]等人臉數(shù)據(jù)庫. 人臉數(shù)據(jù)庫規(guī)模的擴大，需要加深卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network，CNN)模型的層數(shù)、模型參數(shù)等來獲得更好的擬合結(jié)果. 由于構(gòu)造人臉數(shù)據(jù)庫的圖像來自網(wǎng)絡(luò)，其成像質(zhì)量存在很大差異，圖像標(biāo)簽也存在辨識模糊和錯誤的情況，這些都增加了DCNN模型的訓(xùn)練難度，影響了其泛化能力.

目前，人臉美麗預(yù)測[8-12]研究逐漸從受限圖像過渡到非受限圖像，從小規(guī)模人臉數(shù)據(jù)庫過渡到大規(guī)模人臉數(shù)據(jù)庫. 但是，與創(chuàng)建人臉識別數(shù)據(jù)庫相比，創(chuàng)建人臉美麗數(shù)據(jù)庫需要增加對人臉圖像美的評價過程，由于對人臉美的認識缺乏統(tǒng)一標(biāo)準(zhǔn)，評價的結(jié)果自始至終都存在著不確定性，評定的分數(shù)存在較大的模糊性和不確定性. 由于人臉美麗數(shù)據(jù)庫存在的這種問題，直接使用現(xiàn)有DCNN模型進行訓(xùn)練，并不能取得很好的正確分類率和泛化效果，而將圖像多尺度化作為DCNN模型的輸入，可以有效改善模型性能.

為此，本文構(gòu)建了一個提取圖像多尺度特征的DCNN模型用于人臉美麗預(yù)測. 將多尺度人臉圖像輸入到DCNN模型中，使模型具備提取人臉圖像多尺度特征的能力，獲得更具完備的圖像空間結(jié)構(gòu)特征，從而改善人臉美麗預(yù)測性能.

1 DCNN模型結(jié)構(gòu)

本文構(gòu)建的DCNN模型修改了普通卷積層的默認分組數(shù)目，即根據(jù)卷積層的特征圖數(shù)目設(shè)置分組數(shù)值，將卷積的連接操作限制在一個子集內(nèi)，以實現(xiàn)任何一張?zhí)卣鲌D的輸出都與指定的輸入特征圖進行連接，接著使用1×1卷積核[14]進行升維或降維處理. 采用這種卷積層結(jié)構(gòu)，可以大幅度減少網(wǎng)絡(luò)參數(shù)，并能加速網(wǎng)絡(luò)運行和擬合. 如圖1所示，模型由多尺度化層、深度可分離卷積層和全連接層等構(gòu)成，輸入圖像經(jīng)多尺度化處理后，分別作為第1個和第2個深度可分離卷積層的輸入.

圖1 多尺度圖像的卷積神經(jīng)網(wǎng)絡(luò)

1.1 圖像多尺度

卷積神經(jīng)網(wǎng)絡(luò)通過卷積層、池化層堆疊的方式構(gòu)造深層網(wǎng)絡(luò)提取圖像更抽象的特征，在圖像分類和人臉識別中取得了非常顯著的成果，其在LFW和WebFace等人臉數(shù)據(jù)庫上的分類正確率不斷提高. 但是，在人臉美麗預(yù)測領(lǐng)域，由于人臉美的概念比較模糊，評價比較主觀，僅依靠單尺度圖像上提取的特征不能完全表征人臉美，因此，需要從圖像的多尺度上提取特征，構(gòu)造更完備的空間結(jié)構(gòu)特征，以增強人臉美的分類準(zhǔn)確性. 本文仿照圖像金字塔的下采樣過程對輸入圖像進行分割，即每進行一次下采樣，圖像尺寸減小一半. 如圖2所示，0表示輸入網(wǎng)絡(luò)裁剪之后的圖像，其尺寸為128×128；1表示進行一次下樣后的圖像，其尺寸為64×64；2表示再次進行下采樣后的圖像，其尺寸為32×32.

圖2 圖像多尺度化示意圖

1.2 Max-Feature-Max激活層

目前，線性糾正單元（Rectified Linear Units，ReLU）激活層被廣泛應(yīng)用于DCNN中，該激活層具有分段線性特點，易于網(wǎng)絡(luò)訓(xùn)練，而且能夠快速實現(xiàn)網(wǎng)絡(luò)收斂. 在定義域小于0的范圍，ReLU激活函數(shù)的輸出為0，該激活函數(shù)稀釋掉了大量的有用信息；在定義域大于0的范圍，ReLU激活函數(shù)等同于線性激活函數(shù)，無法對特征進行非線性映射. 因此，本文采用Max-Feature-Max激活函數(shù)替代ReLU構(gòu)建深度卷積神經(jīng)網(wǎng)絡(luò)[14]，由于MFM激活函數(shù)是基于Maxout激活層[15]改進得到的，它具備了Maxout激活函數(shù)的競爭機制，因此能夠得到更加緊湊的圖像特征.

1.3 深度可分離卷積

2 實驗數(shù)據(jù)庫及相關(guān)設(shè)置

2.1 人臉美麗數(shù)據(jù)庫

由于本文構(gòu)建的DCNN模型層次較深，需要采用更大規(guī)模的數(shù)據(jù)庫進行訓(xùn)練. 因此，本文在大規(guī)模亞洲女性人臉美麗數(shù)據(jù)庫（Large Scale Asian Female Beauty Database，LSAFBD）上進行實驗. 如圖3所示，LSAFBD人臉美麗數(shù)據(jù)庫樣例圖像為120×120的彩色圖像，圖像下方的數(shù)字為類別標(biāo)簽，按照美麗吸引力劃分為5個量級，用數(shù)字1到5表示，其中，1表示極不具有吸引力，2表示不具有吸引力，3表示普通吸引力，4表示較有吸引力，5表示極有吸引力.

圖3 LSAFBD樣例圖像

LSAFBD圖像標(biāo)簽的分布直方圖如圖4所示，由圖可知，標(biāo)簽分布擬合高斯分布，與真實環(huán)境的人臉美分布一致.

圖4 圖像標(biāo)簽分布直方圖

2.2 圖像預(yù)處理

LSAFBD人臉美麗數(shù)據(jù)庫中的圖像來自網(wǎng)絡(luò)，需要裁剪之后才能用于網(wǎng)絡(luò)訓(xùn)練，因此需要先對其進行人臉檢測和關(guān)鍵點檢測，結(jié)果如圖5所示.

圖5 檢測到的人臉和關(guān)鍵點樣例

根據(jù)提取到的關(guān)鍵點，估算出人臉?biāo)狡D(zhuǎn)角度，再通過仿射變換旋轉(zhuǎn)圖像，克服姿勢偏轉(zhuǎn). 把兩眼與嘴巴中心點固定為48個像素，計算出圖像的縮放比例，進行尺度歸一化. 進行裁剪和灰度變換后，最終圖像尺寸為144×144，如圖6所示.

圖6 對齊矯正之后的圖像

輸入到網(wǎng)絡(luò)的圖像被隨機裁剪成尺寸為128×128的圖像，通過圖像多尺度進行圖像分割，獲得尺寸為64×64和32×32的圖像，輸入到對應(yīng)尺度的卷積層中，以提取圖像的空間結(jié)構(gòu)特征. 本文采用3種下采樣方法進行圖像尺度化：1）隔行采樣，降低圖像尺寸，該方法簡單易行，但是會丟掉許多圖像紋理信息；2）Strid=2的最大值池化；3）Strid=2的均值池化. 同一張圖像采用以上3種下采樣方法的結(jié)果如圖7所示.

圖7 3種方法下采樣的結(jié)果

2.3 DCNN模型配置

本文的DCNN模型是在文獻[15] DCNN模型的基礎(chǔ)上加入多尺度特征提取功能構(gòu)建的. 采用深度可分離卷積層替代普通卷積層，保留最后一個全連接層，使用可分離卷積層替代第1個全連接層，并根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)重新調(diào)整各卷積層的網(wǎng)絡(luò)參數(shù)，將網(wǎng)絡(luò)改造成適合人臉美麗預(yù)測的卷積神經(jīng)網(wǎng)絡(luò)，最終提取到人臉圖像的256維特征來表征人臉美. DCNN模型的配置如表1所示.

表1 DCNN模型的配置

表1中，downs1和downs2表示下采樣層，用于將Crop后的圖像進行下采樣，并將下采樣后的圖像送入對應(yīng)尺寸的卷積層以提取特征圖. 其中，pool1+downs1層特征圖的尺寸為64×64×48+64× 64×1（64×64×96來自上一層卷積層，64×64×1來自圖像下采樣層）. 同理，conv2a+downs2也表示追加下采樣圖像之后的特征圖，尺寸為32×32×96+32×32×1. MFM表示Max-Feature-Max激活層；conv_和conv_b分別為逐通道卷積和逐點卷積層，構(gòu)成可分離卷積層，用于替代普通卷積層.

2.4 Caffe庫超參數(shù)設(shè)置

表2 訓(xùn)練超參數(shù)的設(shè)置

3 實驗結(jié)果和分析

3.1 DCNN模型的識別率

在LSAFBD人臉美麗數(shù)據(jù)庫上，使用已公開的DCNN模型進行人臉美麗預(yù)測，預(yù)測結(jié)果如表3所示.

表3 多種模型在LSAFBD人臉美麗數(shù)據(jù)庫上的測試結(jié)果（無圖像多尺度）

由表3可知：1）由于人臉美麗的主觀性以及判別模式的模糊性，以上5個DCNN模型的判別準(zhǔn)確率都不是很高；2）DCNN_S是本文圖1去掉圖像多尺度化層之后的模型，采用深度可分離卷積層降低了模型參數(shù)，犧牲了一定量的分類準(zhǔn)確率以換取更快的網(wǎng)絡(luò)運行速度；3）DeepID2網(wǎng)絡(luò)取得了最好的分類效果；4）參數(shù)量最大的VGG網(wǎng)絡(luò)和參數(shù)量較小的GoogleNet網(wǎng)絡(luò)都取得了較好的結(jié)果，但其在圖像分類中并未表現(xiàn)出優(yōu)異性能.

表4 DCNN_M模型在LSAFBD人臉美麗數(shù)據(jù)庫上的測試結(jié)果（圖像多尺度）

由表4可知：1）DCNN_M模型的人臉美麗預(yù)測正確率高于DCNN_S模型，這表明在DCNN模型中加入多尺度化后，改善了模型的特征提取能力；2）多尺度圖像的清晰度與所采用的下采樣方式關(guān)系密切，Max最大池化和Mean池化類似于圖像濾波，圖像細節(jié)損失少，可得到圖像紋理變化較緩和的圖像，隔行采樣去除了更多的圖像細節(jié)，圖像更加銳利，但圖像紋理遭到破壞. 根據(jù)網(wǎng)絡(luò)測試結(jié)果可知，圖像細節(jié)保留的越多，測試正確率越高.

3.2 網(wǎng)絡(luò)訓(xùn)練正確率和損失曲線

Max最大池化下采樣方式DCNN模型的訓(xùn)練正確率和損失曲線如圖8所示. 訓(xùn)練網(wǎng)絡(luò)在迭代30萬次后趨于收斂，取得了最高59.75%的測試正確率.

圖8 DCNN模型的測試正確率、測試損失和訓(xùn)練損失曲線

由圖8可知，隨著網(wǎng)絡(luò)迭代次數(shù)增加，測試正確率逐漸增加并趨于穩(wěn)定；測試損失逐漸減小并趨于穩(wěn)定；在迭代30萬次時，網(wǎng)絡(luò)逐漸趨于收斂；同時，網(wǎng)絡(luò)訓(xùn)練損失也在逐漸收縮. 這表明本文所設(shè)計的網(wǎng)絡(luò)在LSAFBD人臉美麗數(shù)據(jù)庫上能夠正常運行.

3.3 DCNN模型的網(wǎng)絡(luò)效率與參數(shù)量

DCNN模型網(wǎng)絡(luò)訓(xùn)練參數(shù)量與網(wǎng)絡(luò)深度和各層網(wǎng)絡(luò)濾波器數(shù)量有關(guān)，更深的網(wǎng)絡(luò)層數(shù)和更寬的網(wǎng)絡(luò)寬度能夠提取更加豐富的網(wǎng)絡(luò)特征，提高網(wǎng)絡(luò)的特征表征能力. 表5給出了4個DCNN模型的訓(xùn)練參數(shù)量的統(tǒng)計值，其中VGG_CNN_S的可訓(xùn)練參數(shù)量最大，但網(wǎng)絡(luò)訓(xùn)練對硬件要求也更高，時間消耗也更長. NIN和GoogleNet的網(wǎng)絡(luò)參數(shù)比VGG小，網(wǎng)絡(luò)訓(xùn)練時間更短，資源開銷也小，網(wǎng)絡(luò)執(zhí)行效率更高. 同時，本文所構(gòu)建的DCNN模型，由于引入了深度可分離卷積層，模型參數(shù)運算量最小，網(wǎng)絡(luò)運行速度最快，不僅在配有顯卡的臺式機電腦上能夠快速運行，移植到智能移動設(shè)備上也能快速運行；結(jié)合圖像多尺度化技術(shù)，在降低DCNN模型參數(shù)的同時，仍然能夠取得較高的分類準(zhǔn)確率.

表5 DCNN模型網(wǎng)絡(luò)訓(xùn)練參數(shù)量

4 結(jié)論

本文構(gòu)建了一個深度卷積神經(jīng)網(wǎng)絡(luò)用于人臉美麗預(yù)測. 首先，采用隔行采樣、MAX最大池化和MEAN均值池化3種圖像下采樣方法對圖像進行尺度化分割，分別得到128×128、64×64和32×32等3種尺度的圖像；其次，將尺度化分割后的圖像與DCNN模型具有相同尺度的特征圖進行合并，其中，64×64的圖像合并到Pool1層，32×32的圖像合并到Pool2層，再進行網(wǎng)絡(luò)訓(xùn)練，提取圖像的多尺度特征. 基于LSAFBD人臉美麗數(shù)據(jù)庫的實驗表明，本文所構(gòu)建的網(wǎng)絡(luò)能夠提高網(wǎng)絡(luò)的特征提取能力，具有更少的網(wǎng)絡(luò)參數(shù)，能獲得比同類DCNN模型更好的人臉美麗預(yù)測分類正確率，并且移植到嵌入式設(shè)備中也能快速運行.

[1] PARKHI O M, VEDALDI A, ZISSERMAN A. Deep face recognition [C]//British Machine Vision Conference, 2015: 1-12.

[2] SUN Yi, WANG Xiaogang, TANG Xiaoou. Deep learning face representation by joint identification- verification [C]//Proceedings of Advances in Neural Information Processing System, 2014: 1988-1996.

[3] HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Deep residual learning for image recognition [C]//CVPR, 2016: 770-778.

[4] SUN Yi, WANG Xiaogang, TANG Xiaoou. Deep learning face representation from predicting 10, 000 classes [C]// CVPR, 2014: 1891-1898.

[5] SUN Yi，WANG Xiaogang, TANG Xiaoou. Deeply learned face representations are sparse, selective, and robust [C]. arXiv, 2014: 1412-1265.

[6] YI Dong, LEI Zhen, LIAO Shengcai, et al. Learning face representation from scratch [C]//CORR, 2014: 1411-7923.

[7] GUO Yandong, ZHANG L, HU Y, et al. Ms-celeb-1m: A dataset and benchmark for large-scale face recognition [C]// ECCV, 2016: 87-102.

[8] GRAY D, YU K. Predicting facial beauty without landmark [C]. Computer Vision, 2010: 434-447.

[9] XIE Duorui, LIANG Lingyu, JIN Lianwen, et al. SCUT-FBP: a benchmark dataset for facial beauty perception [C]//IEEE International Conference on Systems, 2015: 1821-1826.

[10] XU Jie, JIN Lianwen, LIANG Lingyu, et al. A new humanlike facial attractiveness predictor with cascaded fine-tuning deep learning model [C]//Computer Science, 2015: 45-79.

[11] XU Jie, JIN Lianwen, LIANG Lingyu, et al. Facial attractiveness prediction using psychologically inspired convolutional neural network (PI-CNN) [C]// ICASSP, 2017: 1657-1661.

[12] LIN Min, CHEN Qiang, YAN Shuicheng. Network in network [J]. CORR, 2014: 1312-1321.

[13] GAN Junying, ZHAI Yikui, WANG Bin. Unconstrained facial beauty prediction based on multi-scale K-means [J]. Chinese Journal of Electronics, 2017, 26(3): 548-556.

[14] WU Xiang, HE Ran, SUN Zhenan, et al. A light CNN for deep face representation with noisy labels [J]. Computer Science, 2016: 111-118.

[15]GOODFELLOW I, WARDEFARLEY D, MIRZA M. Maxout networks [J]. Computer Science, 2013: 1319-1327.

[責(zé)任編輯：熊玉濤]

A Face Beauty Prediction Model Based on Deep Learning and Its Application

JIANGKai-yong, GANJun-ying, TANHai-ying

(School of Information Engineering, Wuyi University, Jiangmen 529020, China)

In order to improve the accuracy of facial beauty prediction, a DCNN model which can extract multi-ply spatial structure features by taking in multi-scale face images is constructed. The Max-Feature-Max (MFM) activation function is used instead of the modified linear unit (Rectified Linear Unit, ReLU) activation function to reduce the network training parameters and extract competitive network features. Experimental results based on the Large Scale Asian Female Beauty Database (LSAFBD) show that our DCNN model achieves the accuracy of 59.75%, which is superior to the existing DCNN model classification results.

deep convolution neural network;facial beauty prediction;depthwise separable convolutions;multi-scale images

TP391.4

1006-7302（2018）02-0045-08

2017-12-01

國家自然科學(xué)基金資助項目（61771347，61072127，61372193，61070167）

姜開永（1984—），男，山東臨沂人，在讀碩士生，主要從事生物特征識別研究；甘俊英，教授，博士，碩士生導(dǎo)師，通信作者，研究方向為信息處理、人機交互、圖像信號處理.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的人臉美麗預(yù)測模型及其應(yīng)用

1 DCNN模型結(jié)構(gòu)

1.1 圖像多尺度

1.2 Max-Feature-Max激活層

1.3 深度可分離卷積

2 實驗數(shù)據(jù)庫及相關(guān)設(shè)置

2.1 人臉美麗數(shù)據(jù)庫

2.2 圖像預(yù)處理

2.3 DCNN模型配置

2.4 Caffe庫超參數(shù)設(shè)置

3 實驗結(jié)果和分析

3.1 DCNN模型的識別率

3.2 網(wǎng)絡(luò)訓(xùn)練正確率和損失曲線

3.3 DCNN模型的網(wǎng)絡(luò)效率與參數(shù)量

4 結(jié)論