国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合Multiscale CNN和BiLSTM的人臉表情識別研究

2021-02-22 06:58李軍李明
北京聯(lián)合大學學報 2021年1期

李軍 李明

[摘要]為了有效改善現(xiàn)有人臉表情識別模型中存在信息丟失嚴重、特征信息之間聯(lián)系不密切的問題,提出一種融合多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multiscale CNN)和雙向長短期記憶(BiLSTM)的模型。BiLSTM可以增強特征信息間的聯(lián)系與信息的維持,在Multiscale CNN中通過不同尺度的卷積核可以提取到更加豐富的特征信息,并通過加入批標準化(BN)層與特征融合處理,從而加快網(wǎng)絡(luò)的收斂速度

,有利于特征信息的重利用,再將兩者提取到的特征信息進行融合,最后將改進的正則化方法應(yīng)用到目標函數(shù)中,減小網(wǎng)絡(luò)復(fù)雜度和過擬合。在JAFFE和FER2013公開數(shù)據(jù)集上進行實驗,準確率分別達到了95.455%和74.115%,由此證明所提算法的有效性和先進性。

[關(guān)鍵詞]多尺度卷積神經(jīng)網(wǎng)絡(luò);雙向長短期記憶;特征融合;批標準化層;正則化

[中圖分類號]TP 391.41[文獻標志碼]A[文章編號]10050310(2021)01003505

Research on Facial Expression Recognition Based on the

Combination of Multiscale CNN and BiLSTM

Li Jun, Li Ming

(School of Computer and Information Science,Chongqing Normal University,Chongqing 401331,China)

Abstract: In order to effectively improve the problems of serious information loss and inadequate connection between feature information in the existing facial expression recognition model, a model combining Multiscale Convolutional Neural Network (Multiscale CNN) and Bidirectional Long and ShortTerm Memory (BiLSTM) is proposed. BiLSTM can enhance the connection between feature information and the maintenance of information. In Multiscale CNN, richer feature information can be extracted by convolution kernels of different scales. After adding a Batch Normalization (BN) layer and feature fusion processing in order to accelerate the convergence rate of the network and increase the reuse of feature information, and then by fusing the feature information extracted by the two, the improved regularization method is applied to the objective function to reduce network complexity and overfitting. Experiments on the public data sets of JAFFE and FER2013 have achieved accuracy rates of 95.455% and 74.115%, respectively, which proves the effectiveness and advancement of the proposed algorithm.

Keywords: Multiscale Convolutional Neural Network(Multiscale CNN); Bidirectional Long and ShortTerm Memory(BiLSTM); Feature fusion; Batch Normalization(BN) layer; Regularization

0引言

人臉表情是人與人之間信息溝通的有效途徑之一[1],隨著科技的不斷發(fā)展,人臉識別技術(shù)應(yīng)用的領(lǐng)域越來越廣泛,例如教育、交通、醫(yī)療等領(lǐng)域。傳統(tǒng)的人臉表情識別技術(shù)有幾何特征[2]、稀疏表示[3]和局部二值模式[4],人工智能與大數(shù)據(jù)的發(fā)展使得神經(jīng)網(wǎng)絡(luò)備受矚目,研究者開始將卷積神經(jīng)網(wǎng)絡(luò)[5]和3D卷積神經(jīng)網(wǎng)絡(luò)[6]應(yīng)用于人臉表情識別中。卷積神經(jīng)網(wǎng)絡(luò)是特征提取的最有效方法之一,所以被廣泛應(yīng)用于圖像處理和圖像識別領(lǐng)域中,并且取得了較好的研究成果。當前主流的方法是CNN與RNN的結(jié)合[7]和特征融合[8]等,但仍然存在信息丟失與組件間聯(lián)系不密切等問題。造成這些問題的原因是卷積神經(jīng)網(wǎng)絡(luò)對圖像的理解粒度太粗,池化操作丟失了一些隱含信息,從而限制了模型的學習能力。卷積核能夠理解非常細微的局部特征,池化操作能夠讓局部特征更加明顯,而對人臉表情識別必須突出局部特征來學習表情的分類,所以池化操作在人臉表情識別中是非常重要的,也是必不可少的一部分。但是,也不能忽略特征信息之間的綜合聯(lián)系,例如,不能僅僅通過嘴角上揚就判斷出人臉表情為開心,如果嘴角上揚的同時眉頭緊皺,那么這種表情則為傷心。所以,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的過程中,要綜合全部信息來決定分類結(jié)果,特征信息需要滿足信息豐富、特征信息之間聯(lián)系密切及特征信息維持時間長等條件。

多尺度卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使得特征信息更加豐富,研究者開始將多尺度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于單目深度估計[9]、圖像增強[10]和人臉識別中[11]。本文將多尺度卷積神經(jīng)網(wǎng)絡(luò)與雙向長短期記憶相融合,提出一種融合多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multiscale CNN)與雙向長短期記憶(BiLSTM)的模型。

1理論基礎(chǔ)

1.1BiLSTM

LSTM可以很好地解決梯度消失和梯度爆炸的問題,LSTM元胞中有輸入門、輸出門和遺忘門。輸入門決定輸入哪些信息,遺忘門決定保留哪些信息,輸出門決定輸出哪些信息。相關(guān)公式如式(1)~(5)所示[12]。

ft=Q(w1×[at-1,xt]+b1),(1)

It=Q(w2×[at-1,xt]+b2),(2)

Ut=tanh(w3×[at-1,xt]+b3),(3)

Yt=Q(w4×[at-1,xt]+b4),(4)

Ot=tanh(ft×Ct-1+It×Ut)×Yt。

(5)

其中,xt代表輸入信息,at-1和Ct-1代表上文信息,在xt和at-1堆疊后被復(fù)制成4份;w1代表遺忘權(quán)重,w2代表輸入權(quán)重,w3代表生成候選記憶權(quán)重,w4代表輸出權(quán)重;Q代表sigmoid激活函數(shù),映射到[0,1]區(qū)間中,0代表全部抑制,1代表全部激活;tanh函數(shù)用于生成候選記憶,值域為[-1,1]。

雙向LSTM存在兩種類型的元胞,即前向元胞和后向元胞,雙向LSTM的輸出層不僅依賴之前的輸入,還會依賴后面的元素,這就增加了信息的交流與維持,充分利用了數(shù)據(jù)。具體過程如式(6)~(8)所示[12]。

A1=f(X1×U+w×A2),(6)

a1=f(X1×u+a0×W),(7)

Y1=S(V×A1+v×a1)。(8)

其中,U和u代表輸入層到隱藏層的權(quán)重,V和v代表隱藏層到輸出層的權(quán)重,W和w代表隱藏層之間的權(quán)重,f是激活函數(shù),S是分類函數(shù),通常用于二分類的是sigmoid函數(shù),用于多分類的是softmax函數(shù)。

1.2多尺度卷積神經(jīng)網(wǎng)絡(luò)

多尺度卷積神經(jīng)網(wǎng)絡(luò)是使用多個不同尺寸的卷積核對圖像進行卷積,再分別進行池化操作,然后將結(jié)果連接,最后進行分類處理,如圖

1所示[13]。

多尺度卷積神經(jīng)網(wǎng)絡(luò)通過不同尺寸的卷積核提取特征,可以增加特征圖的數(shù)量,使得提取的信息更加豐富。多尺度卷積神經(jīng)網(wǎng)絡(luò)的

訓(xùn)練效果雖然優(yōu)于基準卷積神經(jīng)網(wǎng)絡(luò),但是存在訓(xùn)練不穩(wěn)定的缺陷,主要原因是特征信息之間聯(lián)系不密切和特征利用不夠充分。

2模型建立

首先,通過Multiscale CNN和BiLSTM分別對圖像進行特征提取;再將提取到的特征信息進行融合,豐富特征信息;最后,通過全連接層和分類層得到輸出結(jié)果,模型結(jié)構(gòu)如圖2所示。BiLSTM可以加強特征信息之間的聯(lián)系與信息的維持,Multiscale CNN通過不同尺度的卷積核可以提取更加豐富的特征信息。在Multiscale CNN中每個卷積層后加入BN層,能夠加快網(wǎng)絡(luò)的收斂速度,將上一層的特征信息與多尺度卷積后的特征進行融合,有利于特征信息的重利用,在BN層后加入最大池化操作,使得特征信息更加明顯。

2.1改進的Multiscale CNN

本文改進的多尺度卷積神經(jīng)網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖3所示。

1) 多尺度卷積:通過不同的卷積核提取特征,可以得到更加豐富的特征信息,一定程度上減少了信息的丟失。

2) 特征融合:在每一次卷積操作后,都會將前一層的特征信息進行融合,并將每層不同尺度的卷積神經(jīng)網(wǎng)絡(luò)提取出的特征進行融合,可以增強信息的重利用。

3) BN層:在卷積層后加入BN層,能夠加快網(wǎng)絡(luò)的收斂速度,使網(wǎng)絡(luò)更加穩(wěn)定。

4) 池化層:池化層可以讓特征更加明顯,本文采用最大池化操作,池化區(qū)域為2×2,步長為2,池化后的特征圖分辨率變?yōu)樵瓉淼?/2。

BiLSTM中的前向元胞與后向元胞的神經(jīng)元個數(shù)均為360個,經(jīng)過BiLSTM后輸出為

720,對其進行變形,使大小與Multiscale CNN輸出的大小一致,變?yōu)?×6×20;再與Multiscale CNN的輸出進行特征融合,輸出由像素為6×6的916個圖像組成,將這些圖像展開為一個一維向量,長度為6×6×916;將這個向量作為輸入傳入含有625個神經(jīng)元的全連接層,最后再傳入輸出層,由含有7個神經(jīng)元的全連接層組成。

2.2改進的正則化方法

正則化方法是指通過在模型中加入某種指定的正則項從而達到某種特定目的的方法,常用來減小測試誤差,增強模型的泛化能力。傳統(tǒng)的正則化方法有L1正則化和L2正則化。

L1正則化通過對原目標函數(shù)加上所有特征系數(shù)絕對值的和來實現(xiàn)正則化。具體公式如(9)和(10)所示,其中C0是原始的損失函數(shù),λnni=1Wi是L1正則化項,λn是正則化系數(shù),W是權(quán)值,sgn是符號函數(shù)。L1正則化對于所有的權(quán)重均給予同樣的懲罰,所以較小的權(quán)重也很容易產(chǎn)生特征系數(shù)為0的情況,由于大量模型參數(shù)變?yōu)?,因此達到了稀疏化的目的。但是如果盲目使用L1正則化,在遇到共線性很高的多個特征時,只會選擇其中一個特征,所以會導(dǎo)致誤差較大的結(jié)果。

C=C0+λnni=1Wi。(9)

CW=C0W+λnsgn(W)。(10)

L2正則化通過對原目標函數(shù)加上所有特征系數(shù)的平方和來實現(xiàn)正則化,L2正則化的優(yōu)點是面對多個共線性特征的時候,會將權(quán)值平分給這些特征,從而保留有用的特征。具體公式如(11)和(12)所示,其中C0是原始的損失函數(shù),λ2nni=1W2i是L2正則化項,λ2n是正則化系數(shù),W是權(quán)值。可以發(fā)現(xiàn),L2正則化對于絕對值較大的權(quán)重給予較大的懲罰,對于絕對值很小的權(quán)重給予非常小的懲罰,當權(quán)重接近于0時,基本不懲罰,因此使得模型的參數(shù)趨于0,而不是等于0,也就是做不到稀疏化。

C=C0+λ2nni=1W2i。(11)

CW=C0W+λnW。(12)

對正則化參數(shù)的選擇一直是一個較難解決的問題,參數(shù)選擇過大容易產(chǎn)生欠擬合,參數(shù)選擇太小容易產(chǎn)生過擬合。針對以上問題,本文對正則化方法進行了改進,將L1正則化與L2正則化進行融合,結(jié)合兩者優(yōu)點,再設(shè)計自適應(yīng)的正則化參數(shù),具體公式如式(13)和(14)所示。

minw=(λt‖W‖1+λt‖W‖22)。(13)

λt=λmin+(λmax-λmin)

e-10iN。(14)

其中,‖W‖1代表W的1范式,‖W‖2代表W的2范式,λmin代表最小值的正則化參數(shù),λmax代表最大值的正則化參數(shù),i代表當前的迭代次數(shù),N代表模型迭代的總次數(shù)。根據(jù)公式(14),當?shù)螖?shù)為0時,λt為λmax;當?shù)螖?shù)增加時,e-10iN隨之減小,無限趨近于0,也就是當?shù)螖?shù)達到迭代總次數(shù)時,λt為λmin。由此,使得模型在最大值與最小值之間選取出最合適的參數(shù),本文中λmax為1,λmin為0.001。

3數(shù)據(jù)集與實驗結(jié)果

3.1數(shù)據(jù)集

本文采用的數(shù)據(jù)集有兩種:一種是JAFFE人臉表情數(shù)據(jù)集,包括213張圖片,由10名日本女性的正面人臉表情組成,本文將數(shù)據(jù)集裁剪為48×48,隨機打亂數(shù)據(jù),并以9∶1分為訓(xùn)練集和測試集;另一種是FER2013人臉表情數(shù)據(jù)集,是由Kaggle人臉表情識別挑戰(zhàn)賽提供的數(shù)據(jù)集,由35 887張人臉表情圖片組成,訓(xùn)練集有28 709張,公共測試集和私有測試集各有3 589張,本文在私有測試集上進行測試。兩種數(shù)據(jù)集均有7種表情,分別為憤怒、厭惡、恐懼、高興、悲傷、驚訝和中性。

3.2實驗結(jié)果和分析

實驗環(huán)境為Windows 10操作系統(tǒng)、python編程語言,采用TensorFlow深度學習框架,在谷歌提供的Colab平臺上使用GPU資源進行實驗。

首先,在JAFFE數(shù)據(jù)集上進行實驗,批處理樣本設(shè)為32,學習率設(shè)為0.000 5,總迭代次數(shù)為70次,經(jīng)過27次迭代訓(xùn)練之后,在JAFFE測試集進行測試,準確率達到95.455%。達到最優(yōu)時,通過公式(14)計算,λt的值為0.021。本文所提方法與其他方法在JAFFE測試數(shù)據(jù)集上準確率的對比,如表1所示。

其次,在FER2013數(shù)據(jù)集上進行實驗,批處理樣本設(shè)為128,學習率設(shè)為0.005,總迭代次數(shù)為380次,經(jīng)過170次迭代訓(xùn)練后,在FER2013私有測試集上進行測試,準確率達到74.115%,達到最優(yōu)時,通過公式(14)計算,λt的值為0.012。本文所提方法與其他方法在FER2013測試數(shù)據(jù)集上準確率的對比,如表2所示。

4結(jié)束語

本文提出了融合Multiscale CNN和BiLSTM的模型,可以融合各自的特點,豐富特征信息,增強特征信息之間的聯(lián)系,并將改進的正則化方法應(yīng)用到目標函數(shù)中,減小了過擬合。實驗證明,與其他方法相比,本文方法在JAFFE和FER2013人臉表情識別數(shù)據(jù)集上的準確率較高,下一步的研究目標是在保證準確率的前提下減少模型訓(xùn)練的時間。

[參考文獻]

[1]葉繼華,祝錦泰,江愛文,等.人臉表情識別綜述[J].數(shù)據(jù)采集與處理,2020,35(1):21-34.

[2]COOTES T F, TAYLOR C J, COOPER D H, et al. Active shape modelstheir training and application[J]. Computer Vision and Image Understanding, 1995, 61(1): 38-59.

[3]WANG W, XU L H. A modified sparse representation method for facial expression recognition[J].Computational Intelligence and Neuroscience, 2016:5687602.

[4]GOYANI M M, PATEL N. Recognition of facial expressions using local mean binary pattern[J]. Electronic Letters on Computer Vision and Image Analysis, 2017, 16 (1): 54-67.

[5]LOPES A T, AGUIAR E D, SOUZA A F D, et al. Facial expression recognition with convolutional neural networks: coping with few data and the training sample order[J]. Pattern Recognition, 2017, 61:610-628.

[6]BYEON Y H, KWAK K C. Facial expression recognition using 3D convolutional neural network[J]. International Journal of Advanced Computer Science & Applications, 2014, 5

(12): 107-112.

[7]LIANG D, LIANG H, YU Z, et al. Deep convolutional BiLSTM fusion network for facial expression recognition[J]. The Visual Computer, 2020, 36(3):499-508.

[8]HUANG G, LIU Z, VAN DER MAATEN L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 4700-4708.

[9]LIU J W, ZHANG Y Z, CUI J H, et al. Fully convolutional multiscale dense networks for monocular depth estimation[J].IET Computer Vision, 2019,13(5):515-522.

[10]AUDEBERT N, LE SAUX B, LEFVRE S. Semantic segmentation of earth observation data using multimodal and multiscale deep networks[C]//13th Asian Conference on Computer Vision (ACCV 2016).Taipei: Springer, 2016:180-196.

[11]MIN W, FAN M, LI J, et al. Realtime face recognition based on preidentification and multiscale classification[J]. IET Computer Vision, 2019, 13(2):165-171.

[12]ZACCONE G, KARIM R M, MENSHAWY A. TensorFlow深度學習[M].李志,譯.北京:人民郵電出版社,2018.

[13]李金洪.深度學習之TensorFlow工程化項目實戰(zhàn)[M].北京:電子工業(yè)出版社,2019.

[14]GU W F, XIANG C, VENKATESH Y V, et al. Facial expression recognition using radial encoding of local Gabor features and classifier synthesis[J]. Pattern Recognition, 2012, 45(1): 80-91.

[15]何志超, 趙龍章, 陳闖. 用于人臉表情識別的多分辨率特征融合卷積神經(jīng)網(wǎng)絡(luò) [J]. 激光與光電子學進展, 2018, 55(7): 370-375.

[16]UCAR A, DEMIR Y, GUZELIS C. A new facial expression recognition based on curvelet transform and online sequential extreme learning machine initialized with spherical clustering[J]. Neural Computing and Applications, 2016, 27(1): 131-142.

[17]張立志,王冬雪,陳永超,等.基于GMRF和KNN算法的人臉表情識別[J].計算機應(yīng)用與軟件,2020,37(10):214-219.

[18]劉濤,周先春,嚴錫君.基于光流特征與高斯LDA的面部表情識別算法[J].計算機科學,2018,45(10):286-290+319.

[19]CHANG T Y, WEN G H, HU Y, et al. Facial expression recognition based on complexity perception classification algorithm

[Z/OL].(2018-03-01)[2020-11-06].https://arxiv.org/ftp/arxiv/papers/1803/1803.00185.pdf.

[20]呂誨,童倩倩,袁志勇.基于人臉分割的復(fù)雜環(huán)境下表情識別實時框架[J].計算機工程與應(yīng)用,2020,56(12):134-140.

[21]李旻擇,李小霞,王學淵,等.基于多尺度核特征卷積神經(jīng)網(wǎng)絡(luò)的實時人臉表情識別[J].計算機應(yīng)用,2019,39(9):2568-2574.

[22]蘭凌強,李欣,劉淇緣,等.基于聯(lián)合正則化策略的人臉表情識別方法[J].北京航空航天大學學報,2020,46(9):1797-1806.

[23]張愛梅,徐楊.注意力分層雙線性池化殘差網(wǎng)絡(luò)的表情識別[J/OL].計算機工程與應(yīng)用,(2020-08-06)[2020-11-06].http://kns.cnki.net/kcms/detail/11.2127.TP.20200805.1832.032.html.

(責任編輯白麗媛)

瓦房店市| 荔浦县| 明光市| 荥经县| 开封市| 扎鲁特旗| 乐山市| 鲁山县| 黄大仙区| 驻马店市| 长武县| 土默特左旗| 巴青县| 定襄县| 利津县| 宁阳县| 武宁县| 密山市| 永丰县| 微山县| 古田县| 承德县| 纳雍县| 福清市| 汉阴县| 牟定县| 蕲春县| 江阴市| 平陆县| 凤山县| 酉阳| 长垣县| 乌拉特前旗| 淅川县| 武功县| 汾阳市| 蓬莱市| 大悟县| 原阳县| 明光市| 新巴尔虎右旗|