張賽男 李千目 桑笑楠 呂超賢 董瀟
摘要:以道路交通場景下的監(jiān)控圖像為研究對象,提出了基于深度學習的面部圖像安全特征的多屬性融合分析方法。將人臉檢測模塊與屬性分析融合,實現(xiàn)了端到端的人臉檢測和年齡、性別屬性分析。經(jīng)過改進和完善,最終實現(xiàn)了對一組圖片進行自動地人臉區(qū)域檢測、年齡預測、性別預測的功能,并將結(jié)果反映在圖片上,更具可觀性。針對該場景下機動車駕駛?cè)藛T進行面部圖像安全特征的多屬性融合分析,在突發(fā)違章違法事件時自動獲取駕駛?cè)藛T的身份信息,有助于維護社會公共安全。
關(guān)鍵詞:道路交通;深度學習;安全特征;面部屬性分析;公共安全
中圖分類號:TP391.4????????? 文獻標識碼:B
1 引言
近年來,深度學習這一利器[1,2]在自然語言處理、計算機視覺等領(lǐng)域表現(xiàn)突出,特別是在本文研究的面部屬性分析領(lǐng)域。區(qū)別于傳統(tǒng)的機器學習,深度學習“深度”挖掘復雜數(shù)據(jù)的內(nèi)在關(guān)聯(lián)持續(xù)訓練,讓機器能夠?qū)崿F(xiàn)人工智能。
人臉檢測作為目標檢測下的一個子任務,通??梢岳脙煞N類型的方法來完成:目標檢測(可以檢測多種目標包括人臉)、人臉檢測(針對人臉唯一目標進行檢測)。目標檢測下的Faster-RCNN[3]系列人臉檢測準確率高,但是受限于速度;SSD[4]系列、YOLO[5]系列速度滿足要求,但是在人臉這種尺寸較小的目標上檢測性能不夠優(yōu)秀。Zhang等人[6]利用人臉姿態(tài)估計和人臉關(guān)鍵點檢測這兩個輔助任務來提高人臉檢測性能。Tang X等人[7]提出了一種借助上下文(頭部、肩膀)來檢測人臉的深度卷積模型PyramidBox,從而提高了網(wǎng)絡(luò)對模糊人臉、被遮擋人臉的識別率。
人臉屬性識別是分析人臉中隱含的特有身份信息,例如通過人臉可以分析出此人的性別、年齡等。Yi D等人[8]通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)對多尺度的圖像提取特征,同時進行年齡估計、性別預測和種族分類。Liu Z等人[9]提出了級聯(lián)兩個CNN(人臉檢測LNet和屬性預測ANet)進行人臉定位和屬性預測,還提供了兩個著名的面部數(shù)據(jù)集(CelebA和LFWA)。Wang等人[10]提出利用CNN提取多級特征進行融合并用于人臉年齡估計。在提出的方案中,結(jié)合了流形學習算法來改善性能,并使用深度學習老化模式DLA評估不同的分類和回歸方案來估計年齡。Gil Levi等人[11]使用CNN分別進行人臉年齡段和人臉性別的分類,提高了人臉性別和年齡預測的準確率。Uricar M等人[12]利用VGG-16[13]網(wǎng)絡(luò)提取特征,通過SVM分類器對年齡、性別和微笑進行分析。Routhe等人[14]提出了一種Deep EXpectation (DEX)算法,使用卷積神經(jīng)網(wǎng)絡(luò)和在ImageNet上預訓練的VGG-16[13]架構(gòu)進行人臉年齡估計,還提供了IMDB-WIKI數(shù)據(jù)集。
雖然已經(jīng)有許多學者利用深度學習這一有力工具來進行人臉檢測和人臉屬性分析,但很少有人將這兩個任務結(jié)合在一起,即輸入一張未經(jīng)任何處理的圖片,網(wǎng)絡(luò)輸出該圖片下人臉的屬性預測結(jié)果。由于上述大部分的網(wǎng)絡(luò)結(jié)構(gòu)都十分復雜,參數(shù)眾多,處理速度較慢,針對實際場景下低分辨率圖片進行的面部區(qū)域檢測和人臉屬性分析的研究仍然較少,尤其是針對年齡、性別這兩個屬性的深度學習研究,還有極大的挖掘和提升空間。
受限于目前的拍攝條件,道路交通場景下的一些圖片存在著分辨率低、人臉尺寸小、人臉模糊、遮擋人臉等問題,如何對這樣的圖片進行人臉屬性分析,仍是計算機視覺領(lǐng)域中的難題。對該場景下的人臉檢測、多屬性分析進行優(yōu)化和研究,在突發(fā)違章違法事件時可以自動獲取駕駛?cè)藛T的身份信息,這樣有助于維護社會公共安全。
針對上述人臉檢測和屬性分析的研究現(xiàn)狀,本文提出將人臉檢測和面部屬性分析相融合,實現(xiàn)僅需輸入一組未經(jīng)任何處理圖片,網(wǎng)絡(luò)將輸出這一組圖片下每張圖片中的人臉區(qū)域及相應的年齡、性別預測,實現(xiàn)面部圖像安全特征的多屬性融合分析。本文中應用的網(wǎng)絡(luò)要比同研究領(lǐng)域內(nèi)的大部分網(wǎng)絡(luò)的結(jié)構(gòu)簡單、參數(shù)少,更加具備實用性。
2? 數(shù)據(jù)集
深度學習的模型訓練離不開海量且高質(zhì)量的標注數(shù)據(jù),針對本次研究的重點,人臉檢測和面部屬性(性別、年齡)分析,選擇了幾種數(shù)據(jù)集。
WIDER FACE數(shù)據(jù)集[15]由香港中文大學提供,作為人臉檢測的基準數(shù)據(jù)集,其中包含32,203張圖像和393,703張人臉,每張人臉都提供了人臉框??紤]到人臉大小、頭部姿勢、遮擋、表情、化妝、光照等因素,數(shù)據(jù)集中的人臉圖像覆蓋范圍廣,背景環(huán)境復雜,適用于自然環(huán)境下的人臉檢測研究。
《Deep Convolutional Network Cascade for Facial Point Detection》[16]的訓練數(shù)據(jù)集包含5,590張Labeled Faces in the Wild (LFW[17]是一個用于研究自然環(huán)境下人臉識別的數(shù)據(jù)庫)圖像和7,876個從網(wǎng)上下載的包含人臉圖像,每張人臉都提供了人臉框和五個關(guān)鍵點定位,可用于人臉檢測和人臉關(guān)鍵點檢測研究。
Adience數(shù)據(jù)集[11]圖像來源是Flickr專輯,由用戶使用iPhone等智能手機拍攝。這些圖片都是取自現(xiàn)實世界,而且分辨率低、有遮擋,表情十分豐富。其中,包含26,580張照片,每張人臉都提供了年齡和性別標簽,年齡標簽有8個。表1是該數(shù)據(jù)集中按年齡、性別分類情況的詳細說明,主要用于自然環(huán)境下人臉年齡和性別估計的研究。
3? 面部圖像安全特征的多屬性融合網(wǎng)絡(luò)
本文提出了一種面部檢測與面部屬性分析融合的方法,直接輸入原始圖像,就可進行面部區(qū)域檢測,再將檢測到的面部區(qū)域送入屬性分析網(wǎng)絡(luò),得到面部圖像安全特征的多屬性分析結(jié)果。
3.1? 面部檢測網(wǎng)絡(luò)
面部區(qū)域檢測模型借鑒了MTCNN[18]的網(wǎng)絡(luò)結(jié)構(gòu)。MTCNN是一種級聯(lián)架構(gòu),整合多個CNN學習的三個任務,在同一類型不同復雜度的三個網(wǎng)絡(luò)中,實現(xiàn)了人臉區(qū)域檢測和面部五個關(guān)鍵點定位。MTCNN將復雜度遞增的三個網(wǎng)絡(luò)P-Net、R-Net、O-Net級聯(lián)在一起,逐步篩選出正確答案。
第一階段,為了檢測出不同尺度的人臉,對測試圖像進行尺度變換,生成該圖像不同尺度下的集合,也就是圖像金字塔。將圖像集合交由P-Net產(chǎn)生初步的人臉候選區(qū)域。第二階段,通過R-Net減少重復的候選窗口。第三階段,由O-Net進一步篩選候選窗口,并輸出面部區(qū)域邊界框和五個關(guān)鍵點定位。期間,每一階段都利用非極大值抑制(NMS)來精簡重疊面積大于一定閾值的候選窗口。
如圖1所示為面部區(qū)域檢測模塊的第一層級網(wǎng)絡(luò)結(jié)構(gòu)。(1)在第一階段使用了全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[19],由于沒有全連接層,F(xiàn)CN只利用卷積操作提供候選窗口,極大地提升了面部區(qū)域檢測的效率。(2)為了減少計算,大都采用3×3的卷積核,同時通過增加網(wǎng)絡(luò)深度的方法來提高模型整體性能。(3)網(wǎng)絡(luò)中將PReLU[20]作為默認的激勵函數(shù)。PReLU激勵函數(shù)是ReLU激勵函數(shù)的改進,如圖2所示,在ReLU基礎(chǔ)上增加了參數(shù)a, 在輸入小于0時仍具備一定的響應能力。
第二和第三層級的網(wǎng)絡(luò)結(jié)構(gòu)和第一層級大體相似,加入了全連接層,復雜度隨著篩選精度的要求遞增。三個層級的網(wǎng)絡(luò)輸入大小依次為12×12、24×24、48×48。
本章節(jié)模型的訓練有三個任務:面部或非面部區(qū)域分類、人臉邊界框回歸、人臉關(guān)鍵點定位。面部或非面部區(qū)域分類時,對每一個樣本,損失函數(shù)采用交叉熵函數(shù):?? (1)
其中,為模型判斷樣本是否為人臉的概率,是樣本真實的標簽。
人臉邊界框回歸、人臉關(guān)鍵點定位都是連續(xù)數(shù)值型的輸出,所以采用歐氏距離損失函數(shù),對每一個樣本:? (2)
其中,表示網(wǎng)絡(luò)對人臉邊界框或人臉關(guān)鍵點定位的預測值,表示真實標注數(shù)據(jù)。
由于網(wǎng)絡(luò)中存在不同的任務,在訓練時,需要融合損失函數(shù),如下:?(3)
其中,、和為融合系數(shù)??紤]到不同網(wǎng)絡(luò)實現(xiàn)的功能,對每個任務的側(cè)重不同,設(shè)計相應的損失函數(shù)融合系數(shù)。
本次實驗使用WIDER FACE數(shù)據(jù)集[15]來訓練面部區(qū)域分類和邊界框回歸,利用[16]論文中的訓練數(shù)據(jù)集來訓練人臉五個關(guān)鍵點定位。為了充分訓練人臉檢測任務,將WIDER FACE數(shù)據(jù)集[15]中的數(shù)據(jù)分成三類:正樣本、部分樣本、負樣本。這三類訓練數(shù)據(jù)的比例是1:1:3。選擇的圖像大小均大于最小的網(wǎng)絡(luò)輸入,保證模型可以學習到足夠清晰的特征。
在訓練網(wǎng)絡(luò)的過程中,為充分挖掘數(shù)據(jù)的價值,利用在線難例挖掘(OHEM)選出本批樣本中損失較大的一些樣本,再將這些關(guān)鍵樣本提取出來組成小批樣本,進行訓練。這樣,增加了難例樣本的比重,模型得以強化對難例的特征提取學習。
采用級聯(lián)的方式對這三層網(wǎng)絡(luò)進行訓練。首先,生成樣本數(shù)據(jù),用于P-Net網(wǎng)絡(luò)的訓練。接著,利用前一層級的網(wǎng)絡(luò)生成R-Net訓練人臉檢測的三類樣本數(shù)據(jù),輸入給R-Net,采用同樣的辦法進行O-net的訓練。其中,每一階段采用相同的人臉關(guān)鍵點樣本數(shù)據(jù),不過需要依據(jù)各階段輸入大小進行尺寸調(diào)整。P-Net和R-Net的融合系數(shù)為1:0.5:0.5,最后的O-Net融合系數(shù)使用1:0.5:1。
如圖3所示是O-Net在訓練過程中總Loss的下降曲線,圖4是O-Net在訓練集上的面部區(qū)域分類的精確度曲線,可以看到O-Net的面部檢測精確度在訓練過程中逐步上升,最終達到0.98。
3.2? 面部屬性分析網(wǎng)絡(luò)
考慮到文中人臉屬性分析是針對道路交通監(jiān)控場景,所以選取了Adience數(shù)據(jù)集[11]作為本章節(jié)網(wǎng)絡(luò)的訓練集。本次研究的面部屬性分析網(wǎng)絡(luò)是對人臉的年齡、性別進行分析分類,主要參考了論文[11],在AlexNet[21]的基礎(chǔ)上加以改進,采用卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)課題所需的功能。本次實驗利用的深度學習網(wǎng)絡(luò)主要包含了三個卷積層、兩個全連接層。可以看到,使用的卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)較為簡單、參數(shù)較少,有效地降低了模型過擬合風險。
如圖5所示,網(wǎng)絡(luò)中三個卷積層的卷積核大小分別是7×7、5×5、3×3,每一個卷積層之后經(jīng)過一次最大池化。兩個全連接層接受輸入,采用丟失數(shù)據(jù)(Dropout)技術(shù)進一步減少過度擬合的可能性。最后輸出年齡或性別預測的類別,其中利用Batch Normalization[22]縮短訓練時間,增強模型泛化能力,提高模型精度。
考慮到該模型下是年齡八分類、性別二分類的問題,損失函數(shù)都采用交叉熵函數(shù):(4)
其中,為模型判斷樣本是否為人臉的概率,是樣本真實的標簽。
在訓練過程中,該模型所有層的權(quán)重都是以標準差0.01零均值高斯分布下的隨機值初始化的。沒有初載預訓練的模型,網(wǎng)絡(luò)訓練是直接從零開始的。訓練數(shù)據(jù)也只利用Adience數(shù)據(jù)集[11],沒有利用額外的數(shù)據(jù)庫。這是一個相對于其他CNN來說,參數(shù)較少、結(jié)構(gòu)較為簡單的深度卷積神經(jīng)網(wǎng)絡(luò),訓練所用的數(shù)據(jù)也遠遠少于其他模型。
在此過程中,也發(fā)現(xiàn)在該網(wǎng)絡(luò)中,不采用Dropout比采用Dropout的效果要好。(1)因為該網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)還沒有復雜到需要使用Dropout來減少過擬合。(2)Batch Normalization[22]已經(jīng)幫助降低了模型過度擬合風險,無需再使用Dropout。圖6和圖7分別是采用Dropout和不采用Dropout的兩個網(wǎng)絡(luò)的訓練過程中Loss下降曲線。采用Dropout的網(wǎng)絡(luò)初載了預訓練40k Steps的網(wǎng)絡(luò),未采用Dropout的模型是從零開始的。
[3]?Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C].International Conference on Neural Information Processing Systems. 2015.
[4]?Liu W, Anguelov D, Erhan D, et al. SSD:Single Shot MultiBox Detector[C].European Conference on Computer Vision. Springer International Publishing, 2016:21-37.
[5]?Redmon J, Divvala S, Girshick R, et al. You Only Look Once:Unified, Real-Time Object Detection[C].Computer Vision and Pattern Recognition. IEEE, 2016:779-788.
[6]?Zhang C, Zhang Z. Improving multiview face detection with multi-task deep convolutional neural networks[C]. Applications of Computer Vision. 2014.
[7]?Tang X, Du D K, He Z, et al. PyramidBox:A Context-assisted Single Shot Face Detector[J]. arXiv preprint arXiv:1803.07737, 2018.
[8]?Yi D, Lei Z, Li S Z. Age Estimation by Multi-scale Convolutional Network[C].Asian Conference on Computer Vision. 2014.
[9]?Liu Z, Luo P, Wang X, et al. Deep Learning Face Attributes in the Wild[C].IEEE International Conference on Computer Vision. 2016.
[10]?Wang X, Rui G, Kambhamettu C. Deeply-Learned Feature for Age Estimation[C]. IEEE Winter Conference on Applications of Computer Vision. 2015.
[11]?Gil Levi and Tal Hassner.Age and Gender Classification Using Convolutional Neural Networks[C]. IEEE Workshop on Analysis and Modeling of Faces and Gestures (AMFG), at the IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), Boston, 2015.
[12]?Uricar M, Timofte R, Rothe R, et al. Structured Output SVM Prediction of Apparent Age, Gender and Smile from Deep Features[C].Computer Vision & Pattern Recognition Workshops. 2016.
[13]?Simonyan, Karen, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv:1409.1556, 2014.
[14]?Rothe R, Timofte R, Gool L V. DEX: Deep EXpectation of Apparent Age from a Single Image[C]. IEEE International Conference on Computer Vision Workshop. 2016.
[15]?Yang S , Luo P , Loy C C , et al. WIDER FACE: A Face Detection Benchmark[J] . 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) , 2016:5525-5533.
[16]?Sun Y , Wang X , Tang X . Deep Convolutional Network Cascade for Facial Point Detection[C]. Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on. IEEE, 2013.
[17]?Learned-Miller E, Huang G B, Roychowdhury A, et al. Labeled Faces in the Wild: A Survey[M]. Advances in Face Detection and Facial Image Analysis. 2016.
[18]?Zhang K, Zhang Z, Li Z, et al. Joint Face Detection and Alignment Using Multitask Cascaded Convolutional Networks[J]. IEEE Signal Processing Letters, 2016, 23(10):1499-1503.
[19]?Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C].IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2015:3431-3440.
[20]?He K, Zhang X, Ren S, et al. Delving deep into rectifiers:surpassing human level performance on ImageNet classification[C]. Proceedings of the IEEE International Conference on Computer Vision. Washington DC:IEEE, 2015:1026-1034.
[21]?Krizhevsky A, Sutskever I, Hinton G. ImageNet classification with deep convolutional neural networks[C].Advances in Neural Information Processing Systems. Lake Tahoe:NIPS, 2012:1097-1110.
[22]?Ioffe S, Szegedy C. Batch normalization: accelerating deep network training by reducing internal covariate shift[C].International Conference on International Conference on Machine Learning. JMLR.org, 2015.