国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多特征融合密集殘差CNN的人臉表情識別

2019-07-16 01:18馬中啟朱好生楊海仕胡燕海
關(guān)鍵詞:密集殘差特征提取

馬中啟 朱好生 楊海仕 王 琪 胡燕海*

1(寧波大學(xué)機(jī)械工程與力學(xué)學(xué)院 浙江 寧波 315211)2(寧波戴維醫(yī)療器械股份有限公司 浙江 寧波 315712)

0 引 言

隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,人機(jī)交互相關(guān)產(chǎn)品正逐漸走入大眾視野。在計(jì)算機(jī)視覺領(lǐng)域中,人臉識別技術(shù)日益成熟,人臉表情識別成為了熱點(diǎn)研究課題。相比較人臉識別,人臉表情識別不僅需要考慮光照、遮擋和姿態(tài)等問題,同時(shí)還要考慮人臉身份特征以及人臉表情變化非剛性的特點(diǎn)。在傳統(tǒng)機(jī)器學(xué)習(xí)中,人臉表情研究主要由圖像預(yù)處理、特征提取和分類三個(gè)步驟完成。傳統(tǒng)特征提取過程中表情特征點(diǎn)為手工標(biāo)注,使得人臉表情特征提取很大程度上依賴于人為干預(yù),算法的魯棒性較差。近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類與識別方面取得巨大優(yōu)勢,特征提取這一過程不再需要人為干預(yù),神經(jīng)網(wǎng)絡(luò)依據(jù)所提供樣本特征自動(dòng)學(xué)習(xí)表情特征,然后通過分類器進(jìn)行分類,這種方法很大程度上減少了人為干預(yù)的影響,提高了算法的魯棒性以及準(zhǔn)確率。

卷積神經(jīng)網(wǎng)絡(luò)在面部表情識別應(yīng)用領(lǐng)域?qū)儆谄鸩诫A段,Mollahosseini等[1]使用了GoogleNet的網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合多個(gè)數(shù)據(jù)集,并對數(shù)據(jù)進(jìn)行歸一化處理,訓(xùn)練結(jié)果接近人類能夠識別的水準(zhǔn)。實(shí)驗(yàn)結(jié)果表明深度神經(jīng)網(wǎng)絡(luò)能夠有效提取表情特征,但是該方法并未充分利用不同特征圖之間的關(guān)系,未使得表情特征信息最大流動(dòng)。Xie等[2]使用了FRR-CNN的結(jié)構(gòu)對CK+數(shù)據(jù)集進(jìn)行分類,通過多個(gè)輸入進(jìn)行訓(xùn)練,然后進(jìn)行特征融合,使用TI-pooling方法進(jìn)行特征池化,最后進(jìn)行分類,多輸入的集成算法能夠提升算法的魯棒性。但文中僅使用了兩層的卷積網(wǎng)絡(luò),不能很好提取表情的特征。Pramerdorfer等[3]通過對比目前各種數(shù)據(jù)集的start of art 結(jié)果,提出了集成深度神經(jīng)網(wǎng)絡(luò)解決現(xiàn)在表情識別的瓶頸問題,說明了使用深度神經(jīng)網(wǎng)絡(luò)集成能夠很好地進(jìn)行特征提取與分類。Lu等[4]使用了一種利用眾包標(biāo)簽的正則化CNN損失函數(shù)的人臉表情分類,通過優(yōu)化數(shù)據(jù)標(biāo)簽,提高了算法的準(zhǔn)確性。李勇等[5]使用了一種基于跨連接的LeNet-5模型結(jié)構(gòu)對人臉面部表情進(jìn)行識別,該方法有效地將低層次特征與高層次特征結(jié)合,實(shí)驗(yàn)結(jié)果的準(zhǔn)確率比僅使用高層次特征有明顯提升。文中只是提取了不同層次的特征,沒有對層與層之間的特征進(jìn)行更深層次的連接,從而使得特征提取不夠充分。何志超等[6]提出了一種多分辨率特征融合的卷積神經(jīng)網(wǎng)絡(luò),將圖片經(jīng)過兩個(gè)相互獨(dú)立且深度不同的通道進(jìn)行特征提取,然后融合不同分辨率特征進(jìn)行分類。

本文提出一種多特征密集殘差卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)實(shí)現(xiàn)對每層卷積特征的重復(fù)利用與融合。首先在殘差網(wǎng)絡(luò)的基礎(chǔ)上,為了增加層與層之間的連接,將每層網(wǎng)絡(luò)提取出的特征分別傳遞給后面若干層網(wǎng)絡(luò)。在特征傳遞的過程中,設(shè)計(jì)一個(gè)密集模塊,在每個(gè)密集塊中共有3個(gè)3×3卷積層和一個(gè)1×1卷積的Bottle layer層,后一卷積的輸入均為前面所有層卷積輸出特征圖之和。隨著密集塊個(gè)數(shù)的增加,卷積層輸出特征圖數(shù)也隨之以2的倍數(shù)增加。這樣可以最大程度地利用每層特征圖之間的關(guān)系以及特征信息的最大流動(dòng)。其次將不同層的特征提取出來,使其在全連接時(shí)與網(wǎng)絡(luò)的輸出層進(jìn)行融合,最后將融合后的特征添加Island loss以增大類間距離,縮小類內(nèi)距離,隨后送入softmax分類器進(jìn)行分類。實(shí)驗(yàn)表明,該模型不僅能有效提高準(zhǔn)確率,而且可以充分提取表情特征,防止梯度消失。同時(shí),由于密集塊的使用,使得每層網(wǎng)絡(luò)中的卷積核數(shù)量均有所降低,進(jìn)而減少了該模型的參數(shù)量,在一定程度上能夠降低過擬合。

1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)一般包括卷積層、降采樣層、激活函數(shù)、全連接層和分類輸出五部分。

通常外部輸入的圖片直接與卷積層相連,根據(jù)圖片尺寸不同,卷積層的卷積核大小也不盡相同。卷積層一般可以表示為:

(1)

f(x)=max(0,x)

(2)

降采樣層(池化層)一般可以表示為:

(3)

全連接層是將卷積神經(jīng)網(wǎng)絡(luò)提取到的特征圖進(jìn)行全連接,每個(gè)神經(jīng)元的輸出可以表示為:

F(xl)=f(wTxl+b)

(4)

式中:F(·)表示全連接的輸出,w為全連接權(quán)重,b為偏置,f(·)為激活函數(shù)。

對于分類輸出,本文選用softmax分類器,對于屬于的特征,softmax分類可表示為:

(5)

計(jì)算輸入類別j時(shí)的概率,其中w表示的權(quán)重值,x表示輸入的特征,k代表的是類別總數(shù)。

本文除上述的卷積層等之外還使用了批歸一化[12](Batch Normalization, BN)、dropout等方法抑制過擬合。

2 多特征融合密集殘差CNN

神經(jīng)網(wǎng)絡(luò)中較淺層的特征圖尺寸比較大,對于較小的特征信息比較敏感,但是缺少了對物體整體特征的表達(dá),較深層的特征圖則與其相反,能夠很好地表達(dá)物體輪廓和外觀等方面的信息,但缺乏對小特征信息的敏感性。普通的卷積網(wǎng)絡(luò)不能很好地利用這些特點(diǎn),張婷等[10]提出的跨連接卷積神經(jīng)網(wǎng)絡(luò)能夠有效地將較淺層次特征與深層次特征有效的結(jié)合,構(gòu)造出了良好的分類器,實(shí)驗(yàn)結(jié)果表明跨連接分類器是有效的。隨著網(wǎng)絡(luò)模型的加深,圖像特征在傳播過程中梯度相關(guān)性會(huì)逐漸減小,He等[8]提出的ResNet深度殘差網(wǎng)絡(luò)跨連接方式以及Relu函數(shù)的使用,使得圖像特征在傳播過程中保持了很大的梯度相關(guān)性,從而得到更深層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型。Huang等[9]提出的DenseNet密集型卷積神經(jīng)網(wǎng)絡(luò)使得整個(gè)神經(jīng)網(wǎng)絡(luò)中所有層之間都相互連接,每一層網(wǎng)絡(luò)的輸入都來自之前所有網(wǎng)絡(luò)的輸出,這樣能確保神經(jīng)網(wǎng)絡(luò)中特征信息的最大流動(dòng)。Ioffe等[7]提出了BN網(wǎng)絡(luò),通過對每個(gè)卷積層輸出參數(shù)的歸一化,進(jìn)而解決了神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中梯度消失與梯度爆炸的問題。

綜合以上問題,本文提出一種多特征密集殘差卷積神經(jīng)網(wǎng)絡(luò)。

(1) 該模型結(jié)構(gòu)不僅充分利用了卷積網(wǎng)絡(luò)中層與層之間的緊密連接,同時(shí)也提取了不同層次的特征,多特征融合能夠更好地提取人臉表情細(xì)微特征與整體輪廓特征,密集網(wǎng)絡(luò)可以更有效地提取有用的表情特征。

(2) DenseNet模型把所有特征進(jìn)行連接,造成了大量的冗余,本文縮短每個(gè)block長度,加大每個(gè)block特征圖的數(shù)量,對于每個(gè)卷積層使其輸入的特征圖盡量保持在2的冪次方,這樣能夠加快運(yùn)算速度。結(jié)合ResNet網(wǎng)絡(luò)能夠在減少冗余的情況下最大化信息流。具體結(jié)構(gòu)模型見圖1、圖2。

圖1 CNN模型圖

圖2 DenseBlock(i)(i=1,2,3)

(3) 添加了Island_loss層,增大了不同表情類間距離LC,縮減了表情類內(nèi)距離LIL。

(6)

(7)

式中:xi表示全連接層輸出的第x個(gè)樣本。c表示所有同一類別yi的所有樣本的中心值。

(4) 密集塊和殘差網(wǎng)絡(luò)的使用可以提高深度網(wǎng)絡(luò)的梯度相關(guān)性,同時(shí)密集塊的使用也在一定程度上降低了網(wǎng)絡(luò)參數(shù)量,使得模型具有一定的抗過擬合效果。在最終的softmax分類之前進(jìn)行融合。

圖1中虛線代表殘差連接,實(shí)線代表多尺度特征融合。本文使用了三個(gè)密集塊連接,在DenseBlock模塊中,起始卷積特征圖個(gè)數(shù)為32,隨著模塊增加,每層卷積輸出的特征圖增加方式如圖2所示,根據(jù)密集塊的順序逐次按照2(i-1)次冪增加卷積層的個(gè)數(shù),這樣既可以使輸入卷積核的個(gè)數(shù)大部分為2的冪次方以增加計(jì)算機(jī)運(yùn)算速度,又可以增加特征圖個(gè)數(shù)從而提取更多信息。

3 實(shí) 驗(yàn)

本文所做的實(shí)驗(yàn)是基于Python的Tensorflow進(jìn)行的,硬件平臺Intel Core i7-7700,GPU為NVIDIA GeForce GTX1070,顯存為8 GB。

3.1 數(shù)據(jù)集

本實(shí)驗(yàn)所采用的數(shù)據(jù)集為CK+和FER2013數(shù)據(jù)集,數(shù)據(jù)集包含了7種基本的表情:高興、悲傷、憤怒、恐懼、驚訝、厭惡與中性,如圖3所示。

CK+數(shù)據(jù)集[11]:包含來自123個(gè)人的593個(gè)表情視頻序列。這些視頻包含了從中性表情到其他6種表情的變化,本次實(shí)驗(yàn)僅選取每個(gè)序列表情張量最大的3幅圖片,檢測出人臉部分并裁剪至256×256,然后隨機(jī)使用其中一幅圖像再隨機(jī)裁剪成兩幅227×227像素的圖片。最后將所有的圖片歸一化大小為64×64的圖像。

FER2013數(shù)據(jù)集:FER2013是2013年Kaggle比賽用的數(shù)據(jù)集,圖片均為網(wǎng)上爬取,符合自然條件下的表情分布。數(shù)據(jù)集包含28 709幅Training data,3 589幅Publictest data和3 589幅Privatetest data。每幅圖都是像素為48×48的灰度圖。該數(shù)據(jù)集中共有7種表情:高興、悲傷、憤怒、恐懼、驚訝、厭惡與中性。

Angry Disgust Fear Happy Neutral Sad Surprised圖4 FER2013表情庫7種表情實(shí)例

3.2 實(shí)驗(yàn)結(jié)果分析

CK+數(shù)據(jù)采用了交叉驗(yàn)證的方法,將數(shù)據(jù)的圖片分為5份,每次取其中4份作為訓(xùn)練集,另外一份作為測試集,對5次測試的準(zhǔn)確率求平均值作為整個(gè)數(shù)據(jù)集的準(zhǔn)確結(jié)果。并且數(shù)據(jù)集中訓(xùn)練部分進(jìn)行數(shù)據(jù)增強(qiáng),隨機(jī)左右翻轉(zhuǎn)、沿對角線翻轉(zhuǎn)、調(diào)整圖像亮度,以及隨機(jī)增加噪聲點(diǎn)以減小外界環(huán)境對識別的干擾,增強(qiáng)魯棒性。

FER2013數(shù)據(jù)集直接對測試數(shù)據(jù)集進(jìn)行10crop:分別對圖片左上角、左下角、右上角、右下角以及圖片中間裁剪至44×44尺寸,并進(jìn)行翻轉(zhuǎn)操作。訓(xùn)練數(shù)據(jù)直接隨機(jī)裁剪至44×44的尺寸。表1表示的是本文所提出的方法在CK+數(shù)據(jù)集上的交叉驗(yàn)證結(jié)果。可以看出,對于厭惡、高興以及驚訝三種表情得到了較高的準(zhǔn)確率,生氣和悲傷的準(zhǔn)確率稍微下降一些,其主要原因可能是生氣和悲傷等與其他的表情之間存在模糊定義,檢測時(shí)引起識別率下降。圖5給出的是其FER2013測試集的混淆矩陣。圖6是對比改進(jìn)前的DenseNet的網(wǎng)絡(luò)模型和ResNet網(wǎng)絡(luò)模型在訓(xùn)練過程中收斂的速度??梢钥闯龈倪M(jìn)后的網(wǎng)絡(luò)的收斂速度與ResNet的相當(dāng),遠(yuǎn)高于DenseNet。

表1 CK+不同種類表情的分類正確率 %

圖5 卷積神經(jīng)網(wǎng)絡(luò)預(yù)測Fer2013混淆矩陣

圖6 訓(xùn)練過程中的損失函數(shù)

為了驗(yàn)證本文方法的有效性,將文獻(xiàn)[1-3,5-6]的方法與本文進(jìn)行對比,由表2可以看出,本文的方法具有明顯優(yōu)勢。這是因?yàn)楸疚氖褂昧嗣芗瘹埐罹W(wǎng)絡(luò)的結(jié)構(gòu),能夠有效地對特征進(jìn)行提取,利用跨連接融合的方式得到局部細(xì)節(jié)和全局輪廓,因此能夠很好地提升表情識別的準(zhǔn)確率。文獻(xiàn)[1]使用了Inception layer作為基本的模型結(jié)構(gòu),這種模型使用了多個(gè)不同的卷積核進(jìn)行卷積,但是特征圖與特征圖之間沒有有效密集連接,無法更有效地進(jìn)行特征梯度的傳遞。文獻(xiàn)[6]使用了多分辨率特征融合的方法,利用兩個(gè)不相關(guān)的卷積層進(jìn)行疊加融合,但網(wǎng)絡(luò)結(jié)構(gòu)比較簡單,沒有更好地利用不同層特征圖之間信息傳遞,這樣在每個(gè)卷積層里面不能完全提取出表情的有效特征。

表2 不同算法的識別率對比

4 結(jié) 語

本文提出了一種多特征密集殘差型卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)通過對不同的卷積層進(jìn)行融合疊加,充分利用了每個(gè)卷積層輸出的特征。密集殘差網(wǎng)絡(luò)的使用能夠有效減少在訓(xùn)練過程中梯度消失問題。多特征提取的方式使得網(wǎng)絡(luò)能夠在最終分類層時(shí)使用不同分辨率特征,通過卷積網(wǎng)絡(luò)訓(xùn)練結(jié)果的對比,表明了本文的提取方法準(zhǔn)確率更高和魯棒性更好以及更快的收斂速度。

基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò),能夠自動(dòng)提取輸入數(shù)據(jù)的特征,不需要人工干預(yù),在圖像分類、檢測與識別等計(jì)算機(jī)視覺方向得到了很好的應(yīng)用,其檢測結(jié)果遠(yuǎn)遠(yuǎn)高于一般機(jī)器學(xué)習(xí)的方法。但是深度學(xué)習(xí)需要大量的有標(biāo)簽數(shù)據(jù),這對于缺少標(biāo)簽數(shù)據(jù)的表情識別領(lǐng)域提出了很大的挑戰(zhàn),同時(shí)也是下一步要研究的重點(diǎn)。

猜你喜歡
密集殘差特征提取
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
融合上下文的殘差門卷積實(shí)體抽取
耕地保護(hù)政策密集出臺
密集恐懼癥
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
基于深度卷積的殘差三生網(wǎng)絡(luò)研究與應(yīng)用
空間目標(biāo)的ISAR成像及輪廓特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
基于特征提取的繪本閱讀機(jī)器人設(shè)計(jì)方案
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究
页游| 洮南市| 乐至县| 阿巴嘎旗| 泾阳县| 微山县| 赤城县| 措美县| 芜湖县| 卢龙县| 临清市| 巧家县| 新河县| 阆中市| 石屏县| 卢龙县| 兰西县| 延吉市| 叙永县| 浮梁县| 开封市| 晋江市| 开原市| 山阴县| 佛教| 芒康县| 南丹县| 嵩明县| 桐乡市| 新平| 合作市| 东平县| 岚皋县| 丰县| 广南县| 库伦旗| 花垣县| 河西区| 维西| 高雄县| 临夏市|