伍錫如,凌星雨
(桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004)
面部表情包含了豐富的信息,直接反映了人 們的心理特征,是表達(dá)情感的重要途徑之一。面部表情檢測(cè)可應(yīng)用于人機(jī)交互、安防監(jiān)視、醫(yī)療及認(rèn)知科學(xué)等多個(gè)領(lǐng)域,是計(jì)算機(jī)視覺研究熱點(diǎn)之一。面部表情的表達(dá)通常分為憤怒、厭惡、恐懼、開心、悲傷和驚訝6類[1-2]。面部表情檢測(cè)任務(wù)的重點(diǎn)是從面部圖像中提取面部表情特征,并使用經(jīng)過訓(xùn)練的分類器識(shí)別不同的面部表情。傳統(tǒng)的表情識(shí)別依賴手工提取特征,特征提取方法主要分為3類:基于外觀的特征提取、基于幾何的特征提取和基于運(yùn)動(dòng)的特征提取。常用的外觀特征提取包括像素強(qiáng)度[3]、Gabor濾波[4]、局部二值模式LBP(local binary patterns)[5]及方向梯度直方圖[6],其中Gabor特征提取計(jì)算成本高昂,而LBP具有良好性能,被廣泛用于面部表情識(shí)別[7-8]。在基于幾何的特征提取方法中,提取人眼、眉毛、嘴角等面部器官的位置和形狀,形成能夠代表人臉幾何的特征向量[9-10]?;谶\(yùn)動(dòng)的特征提取方法提取動(dòng)態(tài)圖像序列為運(yùn)動(dòng)特征,根據(jù)特征部位的運(yùn)動(dòng)變化對(duì)面部表情進(jìn)行識(shí)別[11-12]。由于光照變化、遮擋等多種因素,表情識(shí)別仍具有挑戰(zhàn)性[13],這些因素會(huì)影響識(shí)別精度,手工提取特征不適用于具有干擾的面部表情檢測(cè)任務(wù),深度學(xué)習(xí)的提出為這些問題提供了解決方案。
深度學(xué)習(xí)概念由Hinton在2006年提出[14-15],比傳統(tǒng)的網(wǎng)絡(luò)具有更強(qiáng)的特征表達(dá)能力和泛化能力,近幾年在面部表情檢測(cè)中得到大量應(yīng)用。如Yang等[16]使用VGG16網(wǎng)絡(luò)及DNN(deep neural networks)形成雙通道對(duì)不同特征進(jìn)行提取來完成表情識(shí)別。Wu等[17]使用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)來進(jìn)行表情識(shí)別任務(wù)。Salmam等[18]使用CNN(convolutional neural networks)提取外觀特征,使用DNN提取幾何特征點(diǎn),合并為CNN-DNN模型進(jìn)行表情識(shí)別任務(wù)。
在目標(biāo)檢測(cè)任務(wù)中,Girshick[19]提出的RCNN(Region-CNN)方法是目標(biāo)檢測(cè)中重要的參考方法,目標(biāo)檢測(cè)系列算法很多都借鑒了R-CNN的思路。R-CNN模型是將目標(biāo)區(qū)域建議與CNN分類相結(jié)合,使用Selective Search算法在輸入圖像中提取2 000個(gè)候選區(qū)域,經(jīng)過CNN網(wǎng)絡(luò)進(jìn)行特征提取,通過訓(xùn)練好的分類器來判斷候選區(qū)域中是否含有目標(biāo),再使用回歸器對(duì)候選框進(jìn)行調(diào)整。Girshick等[20]結(jié)合SPP-net網(wǎng)絡(luò)的思想對(duì)RCNN進(jìn)行了改進(jìn),提出Fast R-CNN模型。相比R-CNN,F(xiàn)ast R-CNN對(duì)整幅圖僅進(jìn)行一次特征提取,再與候選框映射,避免候選框重復(fù)提取特征而浪費(fèi)時(shí)間。Fast RCNN采用Softmax分類與邊框回歸一起進(jìn)行訓(xùn)練,省去特征存儲(chǔ),提高空間和時(shí)間利用率,同時(shí)分類和回歸任務(wù)也可以共享卷積特征。Ren等[21]提出用深度學(xué)習(xí)方法來進(jìn)行區(qū)域建議即區(qū)域建議網(wǎng)絡(luò)RPN(region proposal network),把RPN與Fast R-CNN結(jié)合,形成新的網(wǎng)絡(luò)模型Faster RCNN,提高整體檢測(cè)性能。
針對(duì)多目標(biāo)復(fù)雜場(chǎng)景下的面部表情檢測(cè)問題,本文創(chuàng)新性地引入Faster RCNN網(wǎng)絡(luò)對(duì)面部表情進(jìn)行識(shí)別及定位。根據(jù)表情檢測(cè)特點(diǎn)在Faster RCNN網(wǎng)絡(luò)框架基礎(chǔ)上進(jìn)行改進(jìn),使用密集連接網(wǎng)絡(luò)代替原有特征提取模塊,提取融合目標(biāo)多層次特征,使特征更具表達(dá)力。采用Soft-NMS替換原有候選框合并策略,設(shè)計(jì)衰減函數(shù)提高目標(biāo)框定位精度。采集制作真實(shí)環(huán)境下的表情數(shù)據(jù)集,通過訓(xùn)練最終實(shí)現(xiàn)野外環(huán)境下各表情的識(shí)別與定位,在精度上取得了很好的效果。
Faster RCNN是目前主流的二階段檢測(cè)網(wǎng)絡(luò),是由RPN和Fast RCNN合并而來,每一階段的網(wǎng)絡(luò)都可以輸出檢測(cè)類別與邊框定位,以網(wǎng)絡(luò)結(jié)構(gòu)分析,F(xiàn)aster RCNN網(wǎng)絡(luò)可以分為3個(gè)部分,基礎(chǔ)特征提取網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)RPN和Fast RCNN檢測(cè)網(wǎng)絡(luò),算法的具體步驟如下,算法框架如圖1所示。
圖 1 Faster RCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Faster RCNN architectures
特征提取網(wǎng)絡(luò)部分由卷積神經(jīng)網(wǎng)絡(luò)CNN構(gòu)成,CNN基本結(jié)構(gòu)包括卷積層、池化層、全連接層及softmax分類層。使用不同的CNN會(huì)對(duì)檢測(cè)精度、檢測(cè)時(shí)間等造成不同的影響。
Faster RCNN常采用的特征提取網(wǎng)絡(luò)有3個(gè),分別是ZFNet、VGG-16、ResNet,其中1)ZFNet[22]是在AlexNet的基礎(chǔ)上進(jìn)行細(xì)節(jié)改動(dòng),減少卷積核數(shù)量及步長(zhǎng)大小,保留更多的特征,從中也可推理出網(wǎng)絡(luò)深度增加,網(wǎng)絡(luò)特征提取性能越好,特征提取效果也越優(yōu)秀;2)VGG-16[23]驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)深度與性能之間的關(guān)系,通過反復(fù)堆疊3×3的卷積核與2×2的最大池化層而來。VGG-16網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,特征提取效果好,但是參數(shù)大,訓(xùn)練的特征數(shù)量多,對(duì)硬件要求高;3)ResNet[24]又稱為殘差網(wǎng)絡(luò),設(shè)計(jì)一種殘差模塊,解決網(wǎng)絡(luò)深度增加時(shí)帶來的梯度消失問題,實(shí)現(xiàn)單位映射之間的連接路線,能夠提取目標(biāo)更深層次的特征,實(shí)現(xiàn)很好的識(shí)別效果。
RPN用來提取候選區(qū)域,結(jié)構(gòu)如圖2。接收來自基礎(chǔ)特征提取網(wǎng)絡(luò)傳入的卷積特征圖,通過卷積核將每一個(gè)3×3的滑動(dòng)窗口(sliding window)卷積成為256維的特征向量。對(duì)每一個(gè)滑動(dòng)窗口通過1×1的卷積輸出為兩個(gè)全連接層,即邊框分類層cls layer(box-classification layer)和邊框回歸層reg layer(box-regression layer)。cls layer輸出屬于前景和背景的概率,reg layer輸出預(yù)測(cè)區(qū)域的中心點(diǎn)坐標(biāo):x,y和長(zhǎng)寬:w,h4個(gè)參數(shù)?;瑒?dòng)窗口中心對(duì)應(yīng)的感受野來判斷是否存在目標(biāo),由于目標(biāo)長(zhǎng)寬大小不一,以16為基準(zhǔn)窗口大小,通過(8,16,32)3種窗口尺度和(1∶2,1∶1,2∶1)3種長(zhǎng)寬比生成k個(gè)anchor對(duì)特征圖進(jìn)行多尺度多點(diǎn)位采樣。
圖 2 RPN結(jié)構(gòu)Fig. 2 Region proposal networks structure
RPN的損失函數(shù)定義為
式中:角標(biāo)i表示anchor的索引;pi表示每一個(gè)anchor中對(duì)應(yīng)k+1類(k個(gè)類別+1個(gè)背景)的概率分布;表示是否含有目標(biāo)(有目標(biāo)則為1,反之為0);為mini-batch大小(一般為256);Nreg為anchor數(shù)量;λ 為平衡權(quán)重,取值為1;ti是建議框坐標(biāo) {tx,ty,tw,th};是標(biāo)記框的坐標(biāo),具體參數(shù)值如下:
x、xa、x*(y, w, h同理)分別表示建議框、anchor框和標(biāo)定框的位置參數(shù)。
分類損失Lcls是目標(biāo)和非目標(biāo)的對(duì)數(shù)損失:
RPN通過損失函數(shù)對(duì)邊框進(jìn)行回歸,并對(duì)檢測(cè)器輸出的預(yù)測(cè)框進(jìn)行非極大值抑制方法合并,作為輸入連接到Fast RCNN中。RPN產(chǎn)生的候選區(qū)域與特征提取網(wǎng)絡(luò)輸出的特征圖相映射,ROI池化層對(duì)于不同大小的候選區(qū)域輸入都能得到固定維度的輸出,再通過cls layer和reg layer得到最終的結(jié)果。
采用更深的特征提取網(wǎng)絡(luò)能夠提取更深層次的語義信息,但是隨著網(wǎng)絡(luò)加深,參數(shù)不可避免地加大,這給網(wǎng)絡(luò)優(yōu)化和實(shí)驗(yàn)硬件帶來一系列問題,在本文的面部表情檢測(cè)算法中,單獨(dú)制作出來的數(shù)據(jù)集樣本數(shù)量少,網(wǎng)絡(luò)訓(xùn)練容易造成過擬合,采用DenseNet密集連接網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò)可以解決上述問題。
DenseNet借鑒了ResNet的思想,與ResNet網(wǎng)絡(luò)不同,是全新的網(wǎng)絡(luò)結(jié)構(gòu)。兩種網(wǎng)絡(luò)結(jié)構(gòu)最直觀的區(qū)別在于每一個(gè)網(wǎng)絡(luò)模塊的傳遞函數(shù)不同。
式(6)為ResNet網(wǎng)絡(luò)傳遞函數(shù),可以看出該網(wǎng)絡(luò)第l層的輸出是l-1層輸出的非線性變化加l-1層的輸出。而DenseNet一個(gè)網(wǎng)絡(luò)模塊第l層的輸出是前面所有層輸出的非線性變換集合,網(wǎng)絡(luò)模塊(Dense Block)如圖3所示。
每一個(gè)Dense Block內(nèi)的卷積都互相連接,H表示對(duì)每個(gè)輸入使用Batch Norm、ReLU,用k維的3×3卷積核進(jìn)行卷積,保證每個(gè)節(jié)點(diǎn)輸出同樣維度的特征圖。k表示每一層卷積輸出特征圖的厚度,相比其他網(wǎng)絡(luò)輸出特征圖厚度能夠達(dá)到幾百甚至上千,DenseNet整體厚度僅為32。因?yàn)榫W(wǎng)絡(luò)中每個(gè)模塊的密集連接能夠有效利用淺層與深層特征,能夠使網(wǎng)絡(luò)高效而狹窄,并且大幅度減少網(wǎng)絡(luò)復(fù)雜程度與計(jì)算量,連接節(jié)點(diǎn)Hl的參數(shù)如圖4。
圖 3 Dense Block結(jié)構(gòu)Fig. 3 Dense Block architectures
圖 4 節(jié)點(diǎn) Hl 參數(shù)Fig. 4 Node Hl parameter
本文采用4個(gè)Dense Block網(wǎng)絡(luò)121層作為特征提取網(wǎng)絡(luò),去除全連接層和分類層,再連接RPN及RoI池化層,完成目標(biāo)識(shí)別與定位。4層D ense Block結(jié)構(gòu)參數(shù)如表1所示。
表 1 DenseNet結(jié)構(gòu)參數(shù)Table 1 DenseNet structure parameters
非極大值抑制NMS(non-maximum suppression)是檢測(cè)流程中重要的組成部分,本質(zhì)是搜索局部極大值,抑制非極大值元素。Faster RCNN會(huì)在圖片中生成一系列檢測(cè)框B={b1,b2,···,bN} 和對(duì)應(yīng)的檢測(cè)框得分集合Si,NMS算法將選出最大得分前的物體檢測(cè)流程中的檢測(cè)框M,與其余的檢測(cè)框進(jìn)行重疊度IoU(Intersection over Union)計(jì)算,如果計(jì)算結(jié)果大于設(shè)定閾值Nt則此檢測(cè)框?qū)⒈灰种?。NMS算法公式如下:
式中IoU計(jì)算公式如下:
其中A、B為兩個(gè)重疊的檢測(cè)框:
從式(7)中可以看出NMS算法會(huì)將與檢測(cè)框M相鄰并大于閾值的檢測(cè)框歸零,如果一個(gè)待檢測(cè)目標(biāo)在重疊區(qū)域出現(xiàn),NMS算法則會(huì)導(dǎo)致該目標(biāo)檢測(cè)失敗,降低檢測(cè)模型的準(zhǔn)確率。
針對(duì)這個(gè)問題,本文使用Soft-NMS算法替代傳統(tǒng)的NMS算法。在該算法中,相鄰檢測(cè)框基于重疊部分的大小設(shè)置一個(gè)衰減函數(shù)而非將其分?jǐn)?shù)置為零,保證相鄰目標(biāo)能夠準(zhǔn)確識(shí)別。Soft-NMS公示表示如下:
本文改進(jìn)Faster RCNN檢測(cè)算法的前端特征提取網(wǎng)絡(luò)及末端回歸器,用于完成真實(shí)環(huán)境下面部表情檢測(cè),算法流程如下所示:
算法 改進(jìn)Faster RCNN流程
1)輸入圖像A,調(diào)整圖像尺寸,輸出為規(guī)定尺寸M×N的圖B;
2)B作為特征提取模塊的輸入,通過DenseNet得到多層次融合特征圖C;
3)C作為區(qū)域建議(RPN)的輸入,采用滑動(dòng)窗口的方法得到300個(gè)proposals:D。RPN使用邊框回歸改變生成的anchors,使之更加接近標(biāo)記框;
4)C與D作為感興區(qū)域(RoI)的輸入,得到建議框與特征圖之間的映射圖E。
5)把E分別輸出到分類器與回歸器兩個(gè)分支中。分類器采用Softmax對(duì)E進(jìn)行分類識(shí)別,回歸器采用邊框回歸Soft-NMS進(jìn)一步糾正邊框,最終 分類目標(biāo)并定位。
為驗(yàn)證所提出Faster RCNN面部表情檢測(cè)算法的有效性,本文獨(dú)自采集憤怒、厭惡、恐懼、開心、悲傷和驚訝6類表情數(shù)據(jù)集,共4 152張圖片。
為保證檢測(cè)模型能夠完成日常生活情況下的面部表情檢測(cè),數(shù)據(jù)具有不同的光照強(qiáng)度、不同的人物位姿、復(fù)雜的背景及多個(gè)目標(biāo),包含不同膚色、年齡、種族等,并對(duì)數(shù)據(jù)中50%的數(shù)據(jù)集采取鏡像擴(kuò)充,50%數(shù)據(jù)集采取平移擴(kuò)充,通過LabelImg軟件對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,如圖5所示。擴(kuò)充后的數(shù)據(jù)集為8 304張圖片,其中90%作為訓(xùn)練集,10%作為測(cè)試集,數(shù)據(jù)集數(shù)量分布如表2所示。
圖 5 數(shù)據(jù)擴(kuò)充及標(biāo)注Fig. 5 Data expansion and labeling
表 2 數(shù)據(jù)參數(shù)Table 2 Data parameters
從測(cè)試數(shù)據(jù)集中挑選出困難樣本用于對(duì)比改進(jìn)算法在復(fù)雜背景下的準(zhǔn)確率。其中困難樣本的選取范圍為圖片中檢測(cè)目標(biāo)多于4個(gè),面部有光照影響,面部遮擋及側(cè)面情況。困難樣本測(cè)試數(shù)據(jù)如表3所示。在困難樣本中,部分圖像具備多個(gè)困難屬性,下文介紹。圖像存在多個(gè)人物表情且存在屬于黑夜拍攝,該圖像既屬于多目標(biāo)類別樣本也屬于光照影響樣本。
考慮算法在不同環(huán)境下的有效性,本文添加日本女性面部表情JAFFE(Japanese Female Facial Expressions)數(shù)據(jù)集[25]進(jìn)行對(duì)照實(shí)驗(yàn)。JAFFE數(shù)據(jù)由10名女性的7種表情構(gòu)成,包括6種基本情緒和一種中性情緒,總共213副圖像,原始圖像為256像素×256像素大小,數(shù)據(jù)都已經(jīng)進(jìn)行過裁剪和調(diào)整,人物面部居中,僅有少量光照差別,是一個(gè)質(zhì)量較高的面部表情數(shù)據(jù)集。試驗(yàn)選取數(shù)據(jù)集 中6類相關(guān)表情進(jìn)行驗(yàn)證。
由于DenseNet在傳輸過程中需要融合當(dāng)前階段所有特征圖,對(duì)顯存要求巨大,因此采用密集連接網(wǎng)絡(luò)的高效內(nèi)存實(shí)現(xiàn)方法。提出兩個(gè)預(yù)先分配的共享內(nèi)存存儲(chǔ)位置,存放用來連接的共享特征圖。在正向傳遞期間,將所有中間輸出分配給這些存儲(chǔ)器塊;在反向傳遞期間,根據(jù)需要即時(shí)重新計(jì)算更新傳遞函數(shù)。采用這種策略使得DenseNet在增加較少的計(jì)算開銷下能夠在單塊顯卡中工作。
實(shí)驗(yàn)基于Tensorflow框架,采用I76 700處理器,內(nèi)存為32G,顯卡GeForce RTX2080Ti,顯存為11G進(jìn)行訓(xùn)練。實(shí)驗(yàn)數(shù)據(jù)由個(gè)人采集,有生活照、劇照等不同場(chǎng)景下的人物表情,并由LabelImg軟件進(jìn)行人工標(biāo)注。
總數(shù)據(jù)訓(xùn)練迭代10萬次,批大小Batchs為64,初始學(xué)習(xí)率設(shè)置為0.001,并且在訓(xùn)練時(shí)期總數(shù)的75%后設(shè)置為0.000 1。
評(píng)價(jià)指標(biāo)為平均精度AP(Average-Precision),是Precision-recall(P-R)曲線所圍成的面積。在PR曲線中,P表示精確率,R表示召回率,計(jì)算如下式:
式中:TP(True positives)為正確樣本被識(shí)別為正樣本的數(shù)量;FP(False positives)為負(fù)樣本被錯(cuò)誤識(shí)別為正樣本的數(shù)量;FN為正樣本被錯(cuò)誤識(shí)別為負(fù)樣本的數(shù)量。AP值表示單個(gè)類別的識(shí)別準(zhǔn)確率,越高表示網(wǎng)絡(luò)模型性能越好。mAP(mean Average-Preision)表示所有類別總體識(shí)別準(zhǔn)確率,與AP值之間的關(guān)系如式(12)所示。
分別用ResNet和DenseNet作為特征提取網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使用測(cè)試集對(duì)網(wǎng)絡(luò)模型進(jìn)行測(cè)試,得到每類表情的AP值如表4所示,困難樣本的檢測(cè)對(duì)比結(jié)果如表5所示。
表 4 不同網(wǎng)絡(luò)模型的測(cè)試結(jié)果Table 4 Test results of different network models
表 5 困難樣本測(cè)試結(jié)果Table 5 Test results of difficult sample
從檢測(cè)結(jié)果可以看出,采用ResNet的Faster RCNN在各類表情檢測(cè)中mAP達(dá)到78%以上,部分檢測(cè)結(jié)果如圖6所示。圖6(a)中目標(biāo)特征明顯,光照充足,模型能夠達(dá)到很好的檢測(cè)結(jié)果,圖6(b)中臉部特征有部分遮擋,且含有不同表情類型,檢測(cè)效果令人滿意,而圖6(c)中存在漏檢情況,可以看出使用ResNet具有一定的檢測(cè)能力,但依舊存在一些漏檢和誤檢情況。這是因?yàn)閿?shù)據(jù)量過小,ResNet無法充分訓(xùn)練,在復(fù)雜情況下魯棒性不高。
圖 6 ResNet-Faster RCNN檢測(cè)效果Fig. 6 ResNet-Faster RCNN detection result
從表4可以看出采用DenseNet-121作為特征提取網(wǎng)絡(luò)mAP能夠達(dá)到83%,相比ResNet提高5%。其中在開心、悲傷、驚訝這3類表情中,模型檢測(cè)結(jié)果提高較多,因?yàn)檫@3類表情的測(cè)試集存在多目標(biāo)、有遮擋及復(fù)雜背景的樣本,DenseNet能夠提取目標(biāo)更多的特征,達(dá)到更好的效果。采用Soft-NMS對(duì)檢測(cè)框進(jìn)行改進(jìn),準(zhǔn)確率分別在開心、悲傷、驚訝3類存在多目標(biāo)樣本的數(shù)據(jù)集中提高了一個(gè)百分點(diǎn),說明Soft-NMS在多目標(biāo)及目標(biāo)重疊情況下能夠避免檢測(cè)框重復(fù)度高于閾值導(dǎo)致的候選框歸零的錯(cuò)誤,達(dá)到更好的檢測(cè)效果。通過表5則可以看出,改進(jìn)的檢測(cè)網(wǎng)絡(luò)在困難樣本中相比原版具有更高的魯棒性,其中在多目標(biāo)、遮擋及側(cè)面3類樣本中提高較為明顯。采用改進(jìn)Faster RCNN算法與原始Faster RCNN在多目標(biāo)復(fù)雜背景下的效果對(duì)比如圖7。
圖 7 原始網(wǎng)絡(luò)與改進(jìn)網(wǎng)絡(luò)對(duì)比Fig. 7 Comparison of accuracy with different backbone
圖7中選取多目標(biāo)、多位姿及黑夜情況下的樣本進(jìn)行檢測(cè),第1行為原始網(wǎng)絡(luò)檢測(cè)結(jié)果,第2行為改進(jìn)網(wǎng)絡(luò)的檢測(cè)結(jié)果。結(jié)果表明,原始網(wǎng)絡(luò)在復(fù)雜情況下普遍存在漏檢情況。圖7(b)中原始網(wǎng)絡(luò)出現(xiàn)錯(cuò)誤檢測(cè),表情類型應(yīng)為悲傷,而檢測(cè)結(jié)果為恐懼。圖7(c)中出現(xiàn)漏檢,并且檢測(cè)框并未準(zhǔn)確包含面部目標(biāo)。對(duì)比可以看出采用DenseNet及Soft-NMS改進(jìn)的Faster RCNN在檢測(cè)結(jié)果上優(yōu)于原始的Faster RCNN,能夠檢測(cè)到更多的目標(biāo)表情,并在相鄰目標(biāo)距離過近的情況下準(zhǔn)確地框選出獨(dú)立個(gè)體。在背景復(fù)雜及多目標(biāo)情況下改進(jìn)的Faster RCNN性能提高更為明顯。
考慮制作的數(shù)據(jù)集具有相似的環(huán)境特性,試驗(yàn)加入JAFFE數(shù)據(jù)集來驗(yàn)證網(wǎng)絡(luò)模型在不同環(huán)境下的檢測(cè)性能。試驗(yàn)將已訓(xùn)練好的網(wǎng)絡(luò)模型在JAFFE數(shù)據(jù)中測(cè)試,用來比較原版網(wǎng)絡(luò)與改進(jìn)網(wǎng)絡(luò)在新數(shù)據(jù)集中的泛化性。將JAFFE數(shù)據(jù)的50%納入訓(xùn)練集作為第3組對(duì)照實(shí)驗(yàn),對(duì)比數(shù)據(jù)集對(duì)實(shí)驗(yàn)結(jié)果造成的影響,對(duì)比結(jié)果如圖8所示。
圖 8 原始網(wǎng)絡(luò)與改進(jìn)網(wǎng)絡(luò)對(duì)比Fig. 8 Comparison of test results
由于JAFFE數(shù)據(jù)集為單目標(biāo)高質(zhì)量數(shù)據(jù)集,光照影響小、背景單一,與原數(shù)據(jù)集差異較大,因此算法的提高不如在原數(shù)據(jù)集中明顯,但依舊可以看出改進(jìn)算法較原始算法具有一定優(yōu)勢(shì)。將50%數(shù)據(jù)集加入訓(xùn)練集后,算法模型在JAFFE數(shù)據(jù)集中性能有明顯提高,部分檢測(cè)結(jié)果如圖9所示,可以看出數(shù)據(jù)集對(duì)算法具有較大影響。如果進(jìn)一步擴(kuò)充數(shù)據(jù)集的多樣性,算法的魯棒性將進(jìn)一步提高。
圖 9 JAFFE數(shù)據(jù)集檢測(cè)結(jié)果Fig. 9 Test results of JAFFE dataset
通過一系列實(shí)驗(yàn)對(duì)比,可以看出改進(jìn)的Faster RCNN算法在面部表情檢測(cè)任務(wù)中具有較高的檢測(cè)精度,同時(shí)在不同環(huán)境中具備良好的魯棒性,提高了算法的應(yīng)用范圍,更有實(shí)際應(yīng)用價(jià)值。
針對(duì)傳統(tǒng)表情檢測(cè)算法對(duì)于環(huán)境光線不同、背景多樣及位姿角度變化等情況下無法發(fā)揮有效作用的問題,提出深度學(xué)習(xí)表情檢測(cè)算法,以Faster RCNN為基礎(chǔ)改進(jìn),使用密集連接網(wǎng)絡(luò)作為特征提取模塊,每個(gè)模塊的密集連接能夠有效利用淺層與深層特征,提高網(wǎng)絡(luò)對(duì)面部表情檢測(cè)的準(zhǔn)確率,采用Soft-NMS替換原有的NMS算法,優(yōu)化候選框合并策略,使候選框更加精確。制作真實(shí)環(huán)境下的表情數(shù)據(jù)集,并進(jìn)行擴(kuò)充,提高訓(xùn)練模型的魯棒性。本文提出的檢測(cè)算法能夠?qū)崿F(xiàn)日常生活中的多目標(biāo)面部表情檢測(cè),在黑夜、部分遮擋、佩戴飾品等復(fù)雜情況下取得較好的精度,達(dá)到了良好的檢測(cè)效果。