国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積網(wǎng)絡通道注意力的人臉表情識別

2022-01-23 03:42:54蘭艷亭李大威牛興龍
無線電工程 2022年1期
關鍵詞:人臉準確率卷積

張 波,蘭艷亭,李大威,牛興龍

(中北大學 電氣與控制工程學院,山西 太原 030051)

0 引言

隨著人工智能的發(fā)展,人臉表情識別(Facial Expression Recognition,F(xiàn)ER)技術已經(jīng)成為當前的研究熱點。FER技術是將生理學、心理學、圖像處理、機器視覺與模式識別等研究領域進行交叉與融合[1],在人機交互、商業(yè)等領域都有著廣闊的應用前景。但構(gòu)建可實際應用的FER系統(tǒng)仍然面臨許多挑戰(zhàn),例如,在實際應用中的環(huán)境干擾、光照強度的變化、噪聲的影響以及人臉表情的復雜性和多樣性等[2]。為了解決人臉識別中實際遇到的問題,學者們不斷提出新的深度學習算法來提高人臉表情的識別率和泛化性。

傳統(tǒng)的FER方法多是基于手工提取人臉特征,而深度學習在表情識別中的研究應用大多基于卷積神經(jīng)網(wǎng)絡。例如,Krizhevsky等[3]提出的AlexNet網(wǎng)絡在當年ImageNet比賽中獲得了第一名的成績,此后深度學習飛速發(fā)展,出現(xiàn)了VGG網(wǎng)絡、ResNet網(wǎng)絡和GoogLeNet網(wǎng)絡模型等,在此基礎的骨干網(wǎng)絡上,出現(xiàn)了大量關于FER的算法。Jiang Daihong[4]等提出了基于注意力機制的網(wǎng)絡,在殘差網(wǎng)絡的基礎上引入了自我關注機制,并生成通道注意,聚焦于不同通道的交互功能,從而提高模型全局特征提取能力。He等[5]提出了一個多分辨率功能融合卷積神經(jīng)網(wǎng)絡,它結(jié)合了不同深度的通道,以提取多分辨率功能,此網(wǎng)絡結(jié)構(gòu)模型具有穩(wěn)健性好、收斂速度快等優(yōu)點。Mollahosseini等[6]提出了一個深度神經(jīng)網(wǎng)絡架構(gòu),網(wǎng)絡由2個卷積層組成,每個層隨后是最大池,然后是4個初始層。以注冊的面部圖像作為輸入,構(gòu)建了一個FER系統(tǒng),得到了較好的識別效果??簼峓7]等人以AlexNet網(wǎng)絡為原型構(gòu)建基于域適應的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)。通過引入包含注意力機制的Senet模塊,同時利用域適應方法減小領域差異性,提高了識別率。文獻[8]提出了一種面部圖像脫粒(FIT)機制,使用來自Xception算法的預訓練面部識別功能。FIT機制去除不相關的面部圖像、收集面部圖像、糾正錯放的面部數(shù)據(jù)以及大規(guī)模合并原始數(shù)據(jù)集,提高了識別的準確率。

以上文獻中的工作很有意義,但仍有一些不足,比如應用中模型過大,不易落地部署,識別準確率不夠高,預測時間過長,導致實時效果不理想。為解決上述不足,提出了一種基于卷積神經(jīng)網(wǎng)絡的通道注意力FER算法。該算法采用深度可分離卷積,減少了模型參數(shù),使得模型更加輕量化,加入Senet模塊不增加參數(shù)的同時提高了準確率。

1 相關模型

1.1 VGG網(wǎng)絡

VGG網(wǎng)絡[9]由Oxford的Visual Geometry Group團隊提出。該網(wǎng)絡的主要工作是證明了增加網(wǎng)絡的深度能夠在一定程度上影響網(wǎng)絡最終的性能。在VGG中,使用了3個3×3卷積核來代替7×7卷積核,使用了2個3×3卷積核來代替5×5卷積核,這樣做的主要目的是在保證具有相同感知野的條件下,提升網(wǎng)絡的深度和神經(jīng)網(wǎng)絡的效果。VGG網(wǎng)絡配置如圖1所示。

圖1 VGG網(wǎng)絡結(jié)構(gòu)Fig.1 VGG network structure

由圖1可知,VGG網(wǎng)絡的深度從左到右增加,分別是VGG16和VGG19。因為層數(shù)的增加,增加了網(wǎng)絡的非線性,從而能讓網(wǎng)絡來學習更復雜的模型,并且小卷積核的參數(shù)更少。本文選用VGG19作為對比模型。

1.2 MobileNetV2網(wǎng)絡

MobileNetV2[10]除了和Xception[11]一樣使用深度可分離結(jié)構(gòu)之外,還使用了Expansion Layer和Projection Layer。Projection Layer使用1×1的網(wǎng)絡結(jié)構(gòu),把高維特征映射到低維空間。MobileNetV2網(wǎng)絡結(jié)構(gòu)如圖2所示。

由圖2可知,模型輸入與輸出維度一樣。網(wǎng)絡通過Expansion Layer擴展了6倍,然后應用深度可分離卷積進行處理。使得網(wǎng)絡中間大,兩頭窄。這樣的網(wǎng)絡結(jié)構(gòu)稱為Inverted Residuals。最后使用Projection Layer來壓縮數(shù)據(jù),讓網(wǎng)絡恢復原來維度。因為Expansion Layer 和 Projection Layer都是有可以學習的參數(shù),所以整個網(wǎng)絡結(jié)構(gòu)可以學習到如何更好地擴展數(shù)據(jù)和重新壓縮數(shù)據(jù)。

1.3 ResNet網(wǎng)絡

ResNet[12]網(wǎng)絡在2015年舉辦的ImageNet比賽Classification任務獲得第一名,主要貢獻在于使模型加深,準確率也隨之上升,因為提出了殘差塊的設計,讓學習恒等映射變得容易,即使堆疊了過量的Block,也可以讓冗余的Block學習成恒等映射,性能也不會下降。改善了SGD優(yōu)化難的問題網(wǎng)絡可以更深,訓練速度更快,沒有引入額外的參數(shù)和計算復雜度,只做了很簡單的加法運算,復雜度相比于卷積運算可忽略不計。ResNet網(wǎng)絡結(jié)構(gòu)如圖3所示。

圖3 ResNet網(wǎng)絡結(jié)構(gòu)Fig.3 ResNet network structure

由圖3可知,ResNet通常由5個塊組成。ResNet提出了5種不同的網(wǎng)絡深度:18,34,50,101和152。ResNet50和ResNet101兩個網(wǎng)絡深度是最常被使用的,很多方法都是建立在二者之上的。本文選用ResNet50作為對比模型。

2 卷積通道注意力模型

2.1 SENet網(wǎng)絡

SEnet[13]是Hu等人提出的一種基于通道注意力機制的模塊,該模塊可以通過調(diào)整特征圖的通道權(quán)重,強調(diào)圖像中有用的特征,同時抑制非顯著性特征。SE模塊結(jié)構(gòu)如圖4所示。

圖4 SE模塊結(jié)構(gòu)Fig.4 SE module structure

由圖4可知,SE模塊分為3部分。① Squeeze操作,通過全局池化進行特征壓縮,將每個二維的特征通道變成一個實數(shù),這個實數(shù)某種程度上具有全局的感受野,此操作可以獲取特征圖的空間關系和通道特征;② Excitation操作,通過2個全連接層獲取非線性的跨通道交互和降維來限制模型復雜性,其中全連接層參數(shù)w為每個特征通道生成權(quán)重。通過Sigmoid把權(quán)值限制在0~1;③ Reweight的操作,將Excitation輸出的權(quán)重作為特征選擇后的每個特征通道的重要性,然后通過乘法逐通道加權(quán)到先前的特征上,完成在通道權(quán)重的改變。

SE模塊并不是一個完整的網(wǎng)絡結(jié)構(gòu),而是一個子結(jié)構(gòu),需要和其他模型結(jié)合使用。

2.2 XRS網(wǎng)絡塊結(jié)構(gòu)

本文提出了XRS模塊,此模塊在傳統(tǒng)卷積網(wǎng)絡的通道上進行改進。首先,把普通的卷積層換為深度可分離卷積網(wǎng)絡,加寬網(wǎng)絡,減少參數(shù)量和運算成本。其次,在可分離卷積層的輸出加入通道注意力Senet,實現(xiàn)對輸出通道的權(quán)值按重要程度進行重新分配。最后,引入Resnet網(wǎng)絡中的殘差機制,減輕梯度消失現(xiàn)象。XRS網(wǎng)絡結(jié)構(gòu)如圖5所示。

圖5 XRS塊Fig.5 XRS block

由圖5可知,其輸入和輸出維度不變,增加SE塊后網(wǎng)絡總參數(shù)并沒有明顯的增加,因為SE模塊中通過全局池化變成一維操作。同時加入快捷連接,讓指定輸出減去上一層輸入就是殘差學習。

2.3 卷積網(wǎng)絡通道注意力結(jié)構(gòu)

本文設計了一種基于通道注意力機制的FER網(wǎng)絡,對于人臉表情的識別,因為數(shù)據(jù)集中圖片尺寸的限制,網(wǎng)絡不可能很深,不然會損失很多表情的特征信息,該網(wǎng)絡圖像的輸入大小為48 pixel×48 pixel。圖片輸入后,首先通過2個卷積層,其次通過最大池化進行下采樣,通過2層的池化、卷積后,加入XRS模塊,提取高層的抽象特征,其后再加入一個池化、卷積層。緊接著通過Flatten將網(wǎng)絡展平,送入全連接層。最后加入了Softmax激活函數(shù)對人臉表情進行分類。卷積網(wǎng)絡通道注意力結(jié)構(gòu)如圖6所示,網(wǎng)絡由卷積層、池化層和XRS模塊構(gòu)成。

圖6 卷積網(wǎng)絡通道注意力結(jié)構(gòu)Fig.6 Convolutional network channel attention structure

3 實驗測試與結(jié)果

3.1 數(shù)據(jù)集

(1) CK+數(shù)據(jù)集。由憤怒、惡心、輕蔑、恐懼、高興、中立、悲傷和吃驚這8種情緒組成,共981張可訓練的圖片,所有圖像大小為640 pixel×490 pixel。但是圖片中的志愿者背景都大于臉部圖像,如果不對圖像進行適當?shù)牟眉?,訓練的時候會引入大量的背景信息,對訓練效果無益,因此把圖片處理成48 pixel×48 pixel,與FER 2013數(shù)據(jù)集的圖片大小一致,方便模型輸入尺寸統(tǒng)一。部分圖例如圖7所示。

(2) Real-world Affective Faces Database(RAF-DB)數(shù)據(jù)集[14]。該數(shù)據(jù)集是一個大規(guī)模的面部表情數(shù)據(jù)庫,與實驗室JAFFE數(shù)據(jù)庫不同,數(shù)據(jù)庫中的圖像對受試者的年齡、性別和種族、頭部姿勢、光照條件和遮擋(例如眼鏡、面部毛發(fā)或自我遮擋)進行過處理操作(例如各種濾鏡和特殊效果),其部分圖例如圖8所示,包括29 672個真實世界的圖像,2個不同的子集:單標簽子集,包括7類基本情感;復合標簽子集,包括12類復合情感,每個圖像5個準確的地標位置、37個自動地標位置、邊框、種族、年齡范圍和性別屬性注釋、基本情緒和復合情緒的基線分類器輸出[15]。該數(shù)據(jù)庫已分為訓練集(12 271張)和測試集(3 068張),2個集中的表達式都接近相同的分布。

圖8 RAF-DB數(shù)據(jù)集部分圖例Fig.8 Some image examples of RAF-DB dataset

(3) FER數(shù)據(jù)集。該數(shù)據(jù)集有7個面部表情類別(吃驚、恐懼、惡心、高興、難過、生氣和中性),其中28 709幅訓練圖像,3 589幅驗證圖像和3 589幅測試圖像。圖片處理為灰度圖像,大小48 pixel×48 pixel。這個數(shù)據(jù)集包含了不同照明下的人類正面臉、姿態(tài)和域,甚至卡通人物都包括在內(nèi),因此對訓練效果會有一定的影響,其部分圖例如圖9所示。

圖9 FER2013數(shù)據(jù)集部分圖例Fig.9 Some image examples of FER2013 dataset

3.2 超參數(shù)設置

本文使用處理器為Intel(R) Core(TM)i5-9400F CPU@2.90 GHz,16 GB RAM,顯卡為NVIDIA GeForce GTX 1060 6 GB。在Windows10操作系統(tǒng)下,使用TensorFlow2.3_gpu版本作為深度學習框架,Keras庫函數(shù)搭建網(wǎng)絡,基于Python v.3.8開發(fā)。選擇了目前效果較好的Adam優(yōu)化器,學習率設置為0.000 1,為了防止網(wǎng)絡過早的過擬合,加入了Dropout層,其參數(shù)設置為0.3。網(wǎng)絡的Batch為64。模型訓練Epoch為30次。

3.3 消融實驗

為了驗證本文設計的XRS網(wǎng)絡有效性,在RAF-DB數(shù)據(jù)集上進行了消融實驗,分別進行了5種不同方法下的測試。

方法1:不添加任何模塊,只保留基礎模型。方法2:在基礎網(wǎng)絡中加入可分離卷積網(wǎng)絡。方法3:在方法2的基礎上加入殘差網(wǎng)絡。方法4:在方法2的基礎上加入Senet網(wǎng)絡。方法5:加入XRS網(wǎng)絡。

在實驗中采用的實驗初始參數(shù)均是相同的。消融實驗結(jié)果如表1所示。

表1 消融實驗結(jié)果

在方法1中不使用XRS網(wǎng)絡時,得到的準確率為75.4%,參數(shù)量為1 814 599。方法2在方法1的基礎上,加入了一組可分離卷積網(wǎng)絡,從表1可以看到,雖然方法2比方法1的參數(shù)量多了68 864但是每個epoch訓練所花費的時間仍然是一樣的,同時準確率提升了0.7%,原因是可分離卷積網(wǎng)絡加寬了網(wǎng)絡的結(jié)構(gòu)。

方法3在方法2的基礎上加入了殘差網(wǎng)絡,參數(shù)量與訓練時間都有所增加,同時準確率也提高至77.5%。其原因是加入的殘差塊把上一層的輸出直接和當前層的輸出相加,可以減少梯度損失。

方法4把方法3中的殘差模塊換成了Senet網(wǎng)絡。二者都是在方法2的基礎上進行改進。二者每個epoch訓練時間相同,但是方法4的參數(shù)量略高于方法3,準確率卻比方法3高0.2%。因為加入的Senet網(wǎng)絡中有2層全連接層,因此參數(shù)量會稍微大于方法3。同時加入通道注意力機制操作,通道的注意力相關性被有效利用。

方法5加入了XRS網(wǎng)絡。其參數(shù)量是5種方法中最大的,其訓練時間為11 s,準確率可以達到78.1%。其效果比方法3和方法4只加入單一模塊更優(yōu),證明了加入XRS網(wǎng)絡可以提高FER的準確率,而且效果最佳。

3.4 其他算法對比

為了進一步證明本文算法能夠有效提高FER的準確率,在CK+,RAF-BD和FER2013數(shù)據(jù)集上,與VGG19,ResNet50,MobileNetV2,Xception和文獻[16]進行了比較。Xception主要是在Inception v3[17]的基礎上引入了深度可分離卷積,在基本不增加網(wǎng)絡復雜度的前提下提高了模型的效果。通過1×1的卷積核分離通道,加寬了網(wǎng)絡,使得參數(shù)量和Inception v3差不多,然而性能會更優(yōu)。文獻[16]提出了增強可分離卷積通道特征的輕量化的卷積神經(jīng)網(wǎng)絡表情識別模型。6種不同算法訓練后的準確率對比結(jié)果如表2所示。

表2 不同算法訓練后的準確率對比

本文提出的方法在CK+,RAF-BD和FER2013數(shù)據(jù)集上測試得到的準確率分別為99.45%,78.10%和62.65%,在所取算法中準確率最高。Xception網(wǎng)絡雖然也是用了可分離卷積網(wǎng)絡,但是本文方法對通道直接的相關性進行了考慮,在CK+數(shù)據(jù)集上,準確率比文獻[16]提升了0.71%。在RAF-BD數(shù)據(jù)集上,本文方法的準確率與其相比提高了3.04%;在FER2013數(shù)據(jù)集上準確率提高了16.35%,證明了本文算法對FER準確率有所提升。

為了驗證本算法對圖片預測速度,首先分別對6個算法訓練6個對應的h5模型。其次通過Keras的Load方法加載模型,對同一張圖片進行預測。不同算法的預測時間和模型參數(shù)如表3所示。

表3 不同算法預測單張圖片時間

由表3可知,本文算法用時最短,只需1.2 s。與準確率相差不大的Xception網(wǎng)絡相比,預測時間比Xception快1.6倍,是ResNet50網(wǎng)絡的2.46倍,因此本算法識別速度快。本文提出的網(wǎng)絡模型參數(shù)量僅僅只有約1.8 MB。在對比模型中參數(shù)最少,ResNet50網(wǎng)絡和VGG19網(wǎng)絡的參數(shù)量約為55,22 MB,這也證明了加入的Senet網(wǎng)絡中2個全連接層構(gòu)成的瓶頸層,并沒有過多的增加網(wǎng)絡的參數(shù)量,實現(xiàn)了網(wǎng)絡模型的輕量化。

4 結(jié)束語

本文在卷積神經(jīng)網(wǎng)絡的基礎上,添加了XRS模塊,建立了人臉識別的網(wǎng)絡模型,實現(xiàn)了對自然狀況下7種人臉表情的識別。對本文提出的通道注意力機制FER網(wǎng)絡進行試驗和分析,得出以下結(jié)論:

① 本文提出了XRS網(wǎng)絡模塊,其采用的深度可分離卷積模塊,能夠在拓展網(wǎng)絡寬度的同時仍保持較少的參數(shù),使模型具有較高的性能,且加快了網(wǎng)絡的訓練速度。

② 通過消融實驗,比較XRS模塊對模型性能的有效性,可知采用XRS模塊能提取到人臉顯著的表情特征,從而提高模型的泛化能力和識別準確率。

③ 與VGG19,ResNet50,MobileNetV2,Xception和文獻[16]進行了人臉表情效果比較,本文算法收斂速度更快,模型規(guī)模最小,約為1.8 MB;單張圖像檢測平均耗時為1.21 s,檢測速度更快。

本文的FER方法只能識別7種基本人臉表情,下一步可以針對更復雜的人臉表情進行識別研究。

猜你喜歡
人臉準確率卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
有特點的人臉
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
2015—2017 年寧夏各天氣預報參考產(chǎn)品質(zhì)量檢驗分析
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
三國漫——人臉解鎖
動漫星空(2018年9期)2018-10-26 01:17:14
高速公路車牌識別標識站準確率驗證法
基于傅里葉域卷積表示的目標跟蹤算法
馬面部與人臉相似度驚人
南投县| 靖州| 当涂县| 祥云县| 保德县| 彰化市| 云和县| 武邑县| 阿拉善右旗| 巢湖市| 康马县| 武义县| 嘉峪关市| 云安县| 永新县| 积石山| 丹江口市| 衡水市| 长岛县| 雷波县| 冕宁县| 呼图壁县| 深州市| 奇台县| 西盟| 宽甸| 崇信县| 友谊县| 响水县| 衡水市| 确山县| 依兰县| 皋兰县| 莱州市| 扎兰屯市| 繁峙县| 桂阳县| 青龙| 龙里县| 南昌市| 宁海县|