摘 ?要:人臉表情識(shí)別是圖像識(shí)別的一個(gè)重要領(lǐng)域。由于人臉表情較多,圖像背景復(fù)雜,不同類型人臉相似,同類型人臉的差異甚小,人臉表情識(shí)別仍存在很大挑戰(zhàn)。傳統(tǒng)人臉識(shí)別分類方法主要基于依靠人工提取分類特征,且精度不高。本文構(gòu)建基于Keras的卷積神經(jīng)網(wǎng)絡(luò)模型,并運(yùn)用FER2013數(shù)據(jù)集,結(jié)果表明該方法提高了人臉表情識(shí)別的精度,為該問題的解決提供了新的思路和方法。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);表情識(shí)別;深度學(xué)習(xí)
中圖分類號(hào):TP389.1;TP391.4 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)14-0081-03
Research on Facial Expression Recognition Based on Convolutional Neural Network
FANG Yan
(School of Mathematics and Computer Science,Quanzhou Normal University,Quanzhou ?362000,China)
Abstract:Facial expression recognition is an important field of image recognition. Face expression recognition still faces great challenges because of the large number of facial expressions,the complex image background,the similarity of different types of faces and the small difference between the same types of faces. Traditional face recognition classification methods mainly rely on manual extraction of classification features,and the accuracy is not high. This paper constructs a convolutional neural network model based on Keras and applies it to FER2013 data set. The results show that this method improves the accuracy of facial expression recognition and provides a new idea and method for solving this problem.
Keywords:convolutional neural network;expression recognition;deep learning
0 ?引 ?言
人臉表情識(shí)別作為情感計(jì)算研究的一個(gè)重要方向,是人機(jī)交互的重要組成部分,在醫(yī)學(xué)、教育以及商業(yè)營銷等領(lǐng)域都有著廣泛的應(yīng)用。美國著名心理學(xué)家Mehrabian[1]提出,在人類的日常交流中,通過語言、聲音傳遞的信息分別占全部的信息總量的7%和38%,而通過人臉表情傳遞的信息量則占到了55%。美國心理學(xué)家Ekman和Friesen[2]通過大量實(shí)驗(yàn),定義了人類六種基本表情:高興、生氣、驚訝、害怕、厭惡和悲傷?;谔卣鞯淖R(shí)別方法,是分類器進(jìn)行表情識(shí)別的關(guān)鍵,傳統(tǒng)的分類方法需要人為提取特征進(jìn)行分類,特征選取的好壞直接決定了識(shí)別準(zhǔn)確率的高低,而特征選擇需要有一定的專業(yè)知識(shí),且識(shí)別率較低、耗時(shí)費(fèi)力。近年來,深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究的一個(gè)新的領(lǐng)域,受到人們的廣泛關(guān)注。深度學(xué)習(xí)在時(shí)效性和準(zhǔn)確性上有了顯著的提高。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是深度學(xué)習(xí)的一種算法,1989年LeCun等[3]最先提出了它的思想,并于1998年提出了應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)的算法解決手寫數(shù)字的識(shí)別。2012年,Alex Krizhevsky等[4]使用卷積神經(jīng)網(wǎng)絡(luò)在ImageNet 2012比賽中獲得冠軍。卷積神經(jīng)網(wǎng)絡(luò)可以在沒有進(jìn)行數(shù)據(jù)預(yù)處理的情況下直接輸入圖像并得到最終的分類結(jié)果。通過搭建具有一定深度的神經(jīng)網(wǎng)絡(luò)模型,結(jié)合卷積和池化等非線性操作,從而實(shí)現(xiàn)模仿人腦的分級(jí)處理和視覺神經(jīng)的局部感知兩大重要的功能。事實(shí)證明,該網(wǎng)絡(luò)在人臉識(shí)別[5]、語音識(shí)別[6]、車輛檢測(cè)[7]和目標(biāo)跟蹤[4]等方面取得了較好的成果。
1 ?卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)
隨著計(jì)算機(jī)計(jì)算性能的迅速發(fā)展,深度學(xué)習(xí)在許多領(lǐng)域有了廣泛的應(yīng)用。本文提出將基于卷積神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到表情分類問題中。
2 ?數(shù)據(jù)集
2.1 ?數(shù)據(jù)集介紹
本文采用的數(shù)據(jù)集是FER2013人臉表情數(shù)據(jù)集。FER 2013數(shù)據(jù)集是目前較大的人臉表情識(shí)別公開數(shù)據(jù)庫。該數(shù)據(jù)庫包含35887張人臉表情圖片,其中訓(xùn)練集有28709張圖片,公開測(cè)試集和私有測(cè)試集各3589張圖片。每張圖片由大小固定的像素為48*48的灰度圖像組成,共有7種表情:生氣、厭惡、害怕、開心、難過、驚訝和中性,分別對(duì)應(yīng)于數(shù)字標(biāo)簽0—6。圖1給出了7種表情圖。
2.2 ?數(shù)據(jù)集擴(kuò)增
在訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí),小樣本集訓(xùn)練模型的泛化能力相對(duì)不足,在評(píng)價(jià)網(wǎng)絡(luò)性能時(shí)說服力不夠,因此考慮人為擴(kuò)展訓(xùn)練數(shù)據(jù)。本文通過運(yùn)用翻轉(zhuǎn)變換、平移變換等方法將訓(xùn)練集擴(kuò)充了十倍。部分操作效果圖如圖2所示。
3 ?實(shí)驗(yàn)
為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)模型在人臉情緒識(shí)別上的性能,本文構(gòu)建了基于Keras平臺(tái)的卷積神經(jīng)網(wǎng)絡(luò)模型,而后隨機(jī)取80%的數(shù)據(jù)集作為訓(xùn)練集訓(xùn)練模型,并將剩余的20%的數(shù)據(jù)集作為測(cè)試集測(cè)試性能。表2表示的是本文卷積神經(jīng)網(wǎng)絡(luò)模型在FER2013數(shù)據(jù)集的識(shí)別效率,實(shí)驗(yàn)表明,我們?cè)贔ER2013數(shù)據(jù)庫上的識(shí)別率為66.38%,達(dá)到了在使用人工的情況下對(duì)該數(shù)據(jù)集的平均識(shí)別率水平65%±5%。
4 ?結(jié) ?論
本文主要研究基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別方法,通過構(gòu)建基于Keras平臺(tái)的卷積神經(jīng)網(wǎng)絡(luò)模型,能夠有效地對(duì)人臉表情進(jìn)行識(shí)別并分類。該人臉表情識(shí)別應(yīng)用可以根據(jù)不同的目標(biāo)表情集調(diào)用不同的模型文件進(jìn)行情緒識(shí)別,為人臉表情識(shí)別研究做出了一定的理論和實(shí)踐的參考??紤]到系統(tǒng)復(fù)雜度等問題,本文未對(duì)化妝、遮擋等條件進(jìn)行研究,如何在這些極端條件下進(jìn)行人臉表情識(shí)別還需要進(jìn)一步研究。此外,對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,需要盡可能多地收集數(shù)據(jù),合理擴(kuò)增數(shù)據(jù)集,使得訓(xùn)練的網(wǎng)絡(luò)具有更好的泛化性能,減小過擬合。
參考文獻(xiàn):
[1] Mehrabian A. Communication without words [J].Psychology Today 2,1968(4):53-56.
[2] Ekman P. Universals and cultural differences in facial expressions of emotion [C]// Nebraska Symposium of Motivation,1972. University of Nebraska,Press,1972.
[3] Lecun Y,Bottou L,Bengio Y,et al. Gradient-based learning applied to document recognition [C]// Proceedings of the IEEE,1998,86(11):2278-2324.
[4] Krizhevsky A,Sutskever I,Hinton G. ImageNet Classification with Deep Convolutional Neural Networks [C]// NIPS. Curran Associates Inc. 2012.
[5] Schroff F,Kalenichenko D,Philbin J. FaceNet:A unified embedding for face recognition and clustering [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston,USA,2015.
[6] Ribeiro E,Uhl A,Hafner M. Colonic Polyp Classification with Convolutional Neural Networks [C]// 2016 IEEE 29th International Symposium on Computer-Based Medical Systems (CBMS),Dublin,2016:253-258.
[7] Girshick R,Donahue J,Darrelland T,et al. Rich feature hierarchies for object detection and semantic segmentation [C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition,Columbus,2014:580-587.
作者簡(jiǎn)介:方彥(1981.10-),女,漢族,福建福清人,講師,碩士,研究方向:機(jī)器學(xué)習(xí)。