国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于詞頻-逆文檔頻率和混合損失的表情識別算法

2023-01-27 08:28:30藍(lán)崢杰王烈聶雄
計算機(jī)工程 2023年1期
關(guān)鍵詞:類別注意力損失

藍(lán)崢杰,王烈,聶雄,2

(1.廣西大學(xué) 計算機(jī)與電子信息學(xué)院,南寧 530004;2.廣西多媒體通信與網(wǎng)絡(luò)技術(shù)重點實驗室,南寧 530004)

0 概述

人臉表情包含豐富的語義信息,能夠影響人們的溝通過程。近年來,人臉表情識別(Facial Expression Recognition,F(xiàn)ER)在個性化推薦、社交應(yīng)用、醫(yī)療健康、自動駕駛等諸多新興交互系統(tǒng)中逐漸展現(xiàn)出應(yīng)用價值,成為計算機(jī)視覺領(lǐng)域的一個研究熱點。

在FER 任務(wù)中,受到人種不同、年齡差異以及側(cè)臉、光照不均等外界因素的影響,其識別準(zhǔn)確率普遍較低。隨著深度學(xué)習(xí)技術(shù)在圖像處理領(lǐng)域取得成功,基于深度學(xué)習(xí)的FER 算法已成為人臉表情識別領(lǐng)域的主流方法。當(dāng)前較多的研究人員在數(shù)據(jù)處理、損失函數(shù)設(shè)計、特征提取等方面對FER 網(wǎng)絡(luò)進(jìn)行優(yōu)化。

在數(shù)據(jù)處理方面,常規(guī)做法包括對圖像進(jìn)行幾何變換、色調(diào)變換、局部遮擋處理等操作,以增加訓(xùn)練樣本數(shù)量。在數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)技術(shù)中,通過數(shù)據(jù)集來提高訓(xùn)練效果的方法已經(jīng)被廣泛使用。文獻(xiàn)[1]提出一種針對FER 中嘈雜數(shù)據(jù)集的數(shù)據(jù)處理方法,通過對每個Batch 中的數(shù)據(jù)樣本按照確定性進(jìn)行權(quán)重排序和分組,在訓(xùn)練時加強(qiáng)確定性高質(zhì)量樣本的權(quán)重,抑制低質(zhì)量數(shù)據(jù)對網(wǎng)絡(luò)的影響。通過實驗表明,該方法在數(shù)據(jù)嘈雜的FER 數(shù)據(jù)集中取得了較高的識別準(zhǔn)確率。

在特征提取方面,有一些研究使用多CNN 支路并行的方式提取特征,如XU 等[2]為了提取更多細(xì)微的人臉表情,設(shè)計一個具有2 路并行的網(wǎng)絡(luò)來分別提取不同尺度的圖像特征,最后將特征進(jìn)行融合并用Softmax 輸出分類結(jié)果。有部分研究則側(cè)重于對表情產(chǎn)生關(guān)鍵區(qū)域的特征進(jìn)行提取,如VERMA 等[3]提出一個具有視覺和面部標(biāo)識分支的網(wǎng)絡(luò),其視覺分支負(fù)責(zé)圖像序列的輸入,并引入從低層到高層的跳轉(zhuǎn)連接,關(guān)注因面部區(qū)域(如眼睛、鼻子、嘴唇等)的變化而引起的面部表情信息,該方法在CK+數(shù)據(jù)集上取得了較高的識別率。CHEN 等[4]對VGG16 網(wǎng)絡(luò)進(jìn)行改進(jìn),提出一種20 層并基于VGG 和殘差網(wǎng)絡(luò)結(jié)構(gòu)的CNN 網(wǎng)絡(luò),其采用混合特征策略將Gabor 濾波器CNN 并行化以實現(xiàn)表情識別,在部分遮擋的面部表情數(shù)據(jù)庫中,該網(wǎng)絡(luò)取得了較好的識別效果,具有良好的應(yīng)用價值。文獻(xiàn)[5]將表情圖像劃分成43 個子區(qū)域,將肌肉運(yùn)動區(qū)與面部器官所覆蓋的8 個候選區(qū)域輸入8 個并行的特征提取分支以提取特征,每個分支使用不同維的全連接層,最后經(jīng)Softmax 函數(shù)輸出分類結(jié)果。

在損失函數(shù)方面,由于表情類間差異小,分類邊界模糊,因此諸多研究通過改進(jìn)損失函數(shù)來提高分類準(zhǔn)確率。文獻(xiàn)[6]為了加大不同類別中心之間的分類距離,提出島嶼損失函數(shù)(Island Loss),通過在特征提取層的Island Loss 和輸出層的Softmax 損失監(jiān)督CNN 訓(xùn)練過程。文獻(xiàn)[7]在使用分組卷積操作對通道注意力模塊進(jìn)行改進(jìn)后,引入孤島損失函數(shù),將其與Softmax 分類損失函數(shù)相結(jié)合,構(gòu)建新的損失函數(shù),并獲得了較好的表情識別效果。文獻(xiàn)[8]提出一種locality-preserving 損失函數(shù),其使得同一類別的樣本特征聚攏,每個表達(dá)式的類內(nèi)局部簇更接近,最后將所提損失與Softmax 聯(lián)合訓(xùn)練,增強(qiáng)了對表情特征的鑒別能力。

本文從特征提取和損失函數(shù)2個方面入手,對人臉表情進(jìn)行識別。提出一種基于詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)的空間金字塔注意力機(jī)制,以增強(qiáng)表情關(guān)鍵區(qū)域的特征關(guān)注度,使用詞頻-逆文檔頻率算法強(qiáng)化表情關(guān)鍵區(qū)域內(nèi)細(xì)微特征的權(quán)重值,增強(qiáng)表情特征的提取能力。同時,改進(jìn)針對FER 任務(wù)的損失函數(shù),在交叉熵?fù)p失和Arcface 損失函數(shù)的基礎(chǔ)上提出一種混合加權(quán)損失函數(shù)(Weighted Hybird Loss function),從而緩解數(shù)據(jù)集中樣本數(shù)量分布不均的問題,加強(qiáng)類內(nèi)聚攏,增大類間邊界。

1 注意力機(jī)制

1.1 空間金字塔注意力

近年來,注意力機(jī)制在計算機(jī)視覺任務(wù)中得到廣泛使用[9]。注意力機(jī)制模擬了人類視覺辨析機(jī)制,人類的視覺系統(tǒng)會選擇性地關(guān)注圖像中的關(guān)鍵區(qū)域信息,同時忽略掉不重要的信息[10]。

空間金字塔注意力網(wǎng)絡(luò)(SPANet)[11]是一種新穎的注意力結(jié)構(gòu),獲得了ICME2020 最佳學(xué)生論文獎。SPANet 提出空間金字塔注意力結(jié)構(gòu)(Spatial Pyramid Attention,SPA),利用3 個自適應(yīng)平均池化構(gòu)成金字塔結(jié)構(gòu),改進(jìn)了SE-Net 注意力網(wǎng)絡(luò)中由于在大尺寸、高分辨率特征圖中應(yīng)用全局平均池化(Global Average Pooling,GAP)所導(dǎo)致的細(xì)節(jié)信息丟失問題。SPANet 注意力結(jié)構(gòu)如圖1 所示[11]。

圖1 SPANet 注意力結(jié)構(gòu)Fig.1 SPANet attention structure

在圖1 中,在對輸入特征圖進(jìn)行逐點卷積后,使用3 個自適應(yīng)平均池化改進(jìn)傳統(tǒng)的全局平均池化以統(tǒng)計空間上下文信息,使得提取到的特征圖中保留更豐富的細(xì)節(jié)信息,有助于提升細(xì)粒度表情分類效果。本文所設(shè)計的注意力機(jī)制是在SPANet 基礎(chǔ)上進(jìn)行的改進(jìn)。

1.2 詞頻-逆文檔頻率原理

TF-IDF 常被應(yīng)用于自然語言處理(Natural Language Processing,NLP)及搜尋引擎中,用于評估某一個詞組對于某文檔集的重要程度,是某個詞語普遍重要性程度的度量。在NLP 任務(wù)中,字詞的重要性隨著其在文檔中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF 可保留文檔中較為特別的關(guān)鍵詞,過濾掉語義信息不明顯的常用詞,如the、is 等。受此啟發(fā),本文引入TF-IDF 改進(jìn)注意力機(jī)制,增強(qiáng)網(wǎng)絡(luò)對表情產(chǎn)生關(guān)鍵區(qū)域重要特征通道的提取能力。

在FER 數(shù)據(jù)集中,通道特征圖中非零像素(白色區(qū)域少)占比小,灰度值像素區(qū)域占比大。在表情表達(dá)的過程中,嘴角、眉間、眼角等非零像素區(qū)域具有關(guān)鍵的特征,為了降低這些重要特征在多輪池化中丟失的可能,提高這些非零像素細(xì)微特征在人臉表情判斷中的重要程度,本文使用TF-IDF 引導(dǎo)金字塔池化注意力網(wǎng)絡(luò)關(guān)注語義信息更明顯的表情產(chǎn)生區(qū)域,增強(qiáng)嘴角、眼角等關(guān)鍵區(qū)域的細(xì)微特征表達(dá)。

1.3 詞頻-逆文檔頻率空間金字塔注意力

在細(xì)粒度表情識別中,當(dāng)圖像特征細(xì)微且出現(xiàn)次數(shù)有限時,特征提取網(wǎng)絡(luò)容易忽略掉該區(qū)域的細(xì)節(jié)特征,造成細(xì)節(jié)信息丟失,從而影響最終的分類結(jié)果[12]。使用TF-IDF 構(gòu)建注意力機(jī)制捕捉重要特征并學(xué)習(xí)其與表情類別之間的關(guān)聯(lián),能夠使網(wǎng)絡(luò)形成更準(zhǔn)確的注意力熱圖,從而提高網(wǎng)絡(luò)的分類性能。

將TF-IDF 算法思想結(jié)合到金字塔池化注意力機(jī)制中,得到逆向文檔頻率空間金字塔注意力(TFIDF SPA),其結(jié)構(gòu)如圖2 所示。

圖2 TF-IDF SPA 注意力機(jī)制結(jié)構(gòu)Fig.2 TF-IDF SPA attention mechanism structure

TF-IDF SPA 注意力機(jī)制由兩部分結(jié)構(gòu)組成,上半支路為詞頻-逆文檔頻率模塊,下半支路使用SPA注意力機(jī)制實現(xiàn),TF-IDF 模塊和SPA 注意力模塊進(jìn)行Concat 拼接后形成新的注意力輸出,用以對輸入特征圖進(jìn)行注意力處理。

在上支路的IDF 模塊中,從左到右包含3 個主要的功能結(jié)構(gòu)。上支路的實現(xiàn)過程為:

1)計算非零區(qū)域詞頻,該部分的處理過程如圖2上半部分所示,在經(jīng)過批歸一化(Batch Normalization,BN)后進(jìn)入通道處理過程,通過計算通道特征中非零像素的個數(shù)和通道像素的總數(shù),將兩者相除獲得通道特征中非零區(qū)域的占比。用Ni表示每一個通道特征圖中非零像素的個數(shù),每個通道特征圖大小為W×H,統(tǒng)計出某一個非零區(qū)域在一個給定區(qū)域中出現(xiàn)的頻率Di,計算過程如式(1)所示:

2)求出該區(qū)域中非零像素的普遍重要性。本步驟求取逆文檔頻率IDF,其數(shù)值能衡量某一特征的普遍重要性程度,通過特征圖中所有特征通道數(shù)量除以包含該特征的通道數(shù)量然后取對數(shù)得到,計算方法如式(2)所示:

3)對式(2)中的結(jié)果用Sigmoid 函數(shù)激活,如式(3)所示:

4)最后求出詞頻注意力權(quán)重,將詞頻與逆文檔頻率相結(jié)合獲得輸出權(quán)值,如式(4)所示:

式(4)為TF-IDF 部分的輸出結(jié)果,其中,θ為調(diào)整詞頻對最終結(jié)果的影響,取值范圍為0~1,本文經(jīng)實驗測試,取θ值為0.15。

下支路SPA 注意力模塊由3 個部分構(gòu)成,如圖2 中下半部分所示,從左到右第一部分結(jié)構(gòu)為1×1 卷積、BN和Sigmoid 激活函數(shù),主要用于匹配輸入特征圖的通道數(shù)并提取特征;第二部分為自適應(yīng)空間金字塔池化結(jié)構(gòu)(Adaptivce Average Pooling,AAP),圖2 中AAP(4)和AAP(2)分別代表不同下采樣尺度的池化操作,通過并行加入3 個不同尺度的池化層,保證特征圖的多樣性,減少傳統(tǒng)全局平均池化聚合到一個平均值而導(dǎo)致的信息丟失;第三部分為多層感知模塊,由全連接層(Fully-Connected)、BN 和激活函數(shù)組成。

1.4 基于TF-IDF SPA 的殘差模塊

在詞頻-逆文檔頻率注意力機(jī)制中,下支路SPA注意力機(jī)制所得的權(quán)重與上支路TF-IDF 模塊輸出的Ifinal系數(shù)進(jìn)行疊加形成TF-IDF SPA 注意力權(quán)重,從而提取表情產(chǎn)生區(qū)域詞頻重要性高的關(guān)鍵細(xì)節(jié)特征。在本文中,將TF-IDF SPA 組成帶有殘差結(jié)構(gòu)的模塊嵌入網(wǎng)絡(luò)中使用,模塊結(jié)構(gòu)如圖3 所示。

圖3 由TF-IDF SPA 組成的殘差模塊Fig.3 Residual module composed of TF-IDF SPA

TF-IDF SPA 注意力模塊使用金字塔池化避免全局平均池化所導(dǎo)致的表情特征丟失,豐富表情特征圖的細(xì)節(jié)表示,并使用詞頻-逆文檔頻率引導(dǎo)注意力網(wǎng)絡(luò)突出關(guān)鍵區(qū)域的重要細(xì)節(jié)特征。

2 損失函數(shù)改進(jìn)

在圖像分類任務(wù)中,常用Softmax 作為損失函數(shù)監(jiān)督網(wǎng)絡(luò)訓(xùn)練,該損失函數(shù)結(jié)構(gòu)簡單,在多數(shù)情況下能取得良好的分類效果,但在人臉表情識別任務(wù)中,表情樣本存在數(shù)據(jù)類別分布不均、樣本類間差異小、類內(nèi)差異大、某些表情之間分類邊界模糊的問題。因此,對損失函數(shù)進(jìn)行改進(jìn)成為提高表情識別準(zhǔn)確率的關(guān)鍵步驟。本文主要的改進(jìn)思路是:加強(qiáng)同一類表情的類內(nèi)聚攏性,加大不同類別模糊表情間的分類邊界,同時調(diào)節(jié)權(quán)重使得網(wǎng)絡(luò)關(guān)注小數(shù)據(jù)量樣本類別的學(xué)習(xí)。

2.1 同類樣本類內(nèi)聚攏

WEN 等[13]在傳統(tǒng)Softmax 函數(shù)的基礎(chǔ)上進(jìn)行改進(jìn),提出Center Loss 函數(shù),其為每個類別的數(shù)據(jù)定義一個樣本中心,各類別的樣本均向本類別的樣本中心聚攏,聚攏方法為:

其中:xi為第i個樣本對應(yīng)的特征向量(全連接層之后、決策層之前提取到的特征)是第i個類別樣本的中心點處。通過最小化Lcenter使得每個批次中的每個樣本與聚類中心的距離縮小,從而把相同類的樣本都聚攏到類別中心,使得類內(nèi)簇更加緊密。

2.2 類間邊界增大

類間邊界增大通常有如下兩種方法:

1)島嶼型損失。

在類內(nèi)聚攏的基礎(chǔ)上擴(kuò)大類間距離,能使決策邊界更為清晰,有助于模型分類。CAI 等[5]提出一種孤島化分離不同類別樣本的方法,使得類間差異顯著增大,其表達(dá)定義為:

式(6)由2 個部分組成,Lcenter使得類內(nèi)簇聚攏,后一部分為求每個類別中心的余弦間距,式中+1 操作使得變化范圍為0~2,越接近0 即代表類別之間差異越大,從而訓(xùn)練Loss 收斂后實現(xiàn)類間距離變大的效果。經(jīng)式(6)的損失函數(shù)處理,7 個表情類別各自分離為7 個島嶼化分布,如圖4 所示。

圖4 島嶼型損失函數(shù)樣本分布Fig.4 Sample distribution of Island Loss function

2)基于角度距離優(yōu)化方法。

WANG 等[14]提出一種基于余弦距離(Cosine Margine)的損失函數(shù),引入角度間距,使用cosθ減去某一標(biāo)量m,設(shè)定不同的類間邊界,如下:

式(7)為劃定的分類邊界,利用m的取值大小在不同的類別中形成不同大小的分類邊界:

式(8)為其標(biāo)準(zhǔn)實現(xiàn)過程,在實現(xiàn)過程中,將輸入特征做歸一化處理,使得x=cosθ yi,因此,間距簡化為:

使用式(9)替換式(8)的cosθ,該表達(dá)式最終寫為:

在式(10)中,WANG 等[14]引入了超參數(shù)s,為了提高損失函數(shù)LAMLoss的收斂速度,s設(shè)為固定值30。

2.3 加權(quán)重的分類損失函數(shù)

2.3.1 交叉熵?fù)p失函數(shù)

交叉熵?fù)p失(Cross Entropy Loss,CE)函數(shù)應(yīng)用廣泛,其可以保證神經(jīng)網(wǎng)絡(luò)的基本分類能力,表達(dá)式為:

在FER 數(shù)據(jù)集中,每個類別的樣本數(shù)量不平衡。在各類別數(shù)量差異大的數(shù)據(jù)集中,網(wǎng)絡(luò)通常傾向于擬合數(shù)量較大的類別,由于訓(xùn)練損失下降到一定程度后,在碰到困難樣本時,將分類結(jié)果“簡單而盲目”地判定為大數(shù)據(jù)量對應(yīng)的類別即可獲得概率更大的準(zhǔn)確率,而對于小數(shù)據(jù)量樣本類別,網(wǎng)絡(luò)則需要花費更多的訓(xùn)練代價才會取得訓(xùn)練損失值很小幅度的下降,這就導(dǎo)致了網(wǎng)絡(luò)對小數(shù)據(jù)量類別及難例樣本的訓(xùn)練“惰性”,從而影響特征提取效果。對分布不均勻的數(shù)據(jù)集進(jìn)行權(quán)重調(diào)整,有利于難例樣本和小數(shù)據(jù)量樣本的特征提取。

2.3.2 權(quán)重調(diào)整方法

本文在損失函數(shù)設(shè)計中提出一種提高不平衡分類性能的方法,根據(jù)不平衡樣本類分配比例調(diào)整加權(quán)值,其定義如下:

其中:N為總樣本數(shù);L為總類數(shù);mk為某一類別k的樣本數(shù)。通過式(12)操作調(diào)整不平衡樣本的權(quán)值。

2.3.3 加權(quán)交叉熵?fù)p失函數(shù)

加權(quán)交叉熵?fù)p失函數(shù)定義為:

式(13)是權(quán)值分配方法與傳統(tǒng)交叉熵?fù)p失函數(shù)相乘而得到的,通過此設(shè)計優(yōu)化了損失函數(shù)中小數(shù)量、難分類樣本的權(quán)重,使得模型在訓(xùn)練過程中更關(guān)注小數(shù)據(jù)量樣本和難例樣本。

2.4 混合加權(quán)余弦損失函數(shù)

本文最終基于角度距離的損失函數(shù)為:

其中:μ為島嶼損失將樣本孤島化分布的系數(shù),在實驗中取0.01 可獲得較快的收斂效果;LAMLoss作為輔助分類損失函數(shù),目的在于拉開分類邊界;Lweighted_CE監(jiān)督分類輸出?;旌霞訖?quán)損失LHybirdWeighted獲得了優(yōu)于現(xiàn)有單一損失函數(shù)的分類效果,在實驗中取得了更快的收斂速度和更高的分類準(zhǔn)確率。

3 網(wǎng)絡(luò)總體結(jié)構(gòu)

本文使用CNN 特征提取網(wǎng)絡(luò)結(jié)構(gòu),由多層3×3 小尺度核卷積層嵌入TF-IDF SPA 注意力模塊堆疊組成,圖5 所示為總體網(wǎng)絡(luò)結(jié)構(gòu)。圖中R×R×C表示每層輸出分辨率大小為R×R、通道數(shù)為C的特征圖。每個卷積組合依次為批歸一化BN、3×3 卷積、Mish 損失函數(shù)。第一個全連接層使用島嶼損失LIsland促使特征形成島嶼形分布。最后一層使用LAMLoss加大類間界限,同時利用加權(quán)重的分類損失函數(shù)LWeight_CE對高維特征進(jìn)行分類輸出。網(wǎng)絡(luò)中的主要參數(shù)如表1 所示。

圖5 網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.5 Overall network structure

表1 模型主要參數(shù)Table 1 Main parameters of the model

4 實驗分析

本文實驗配置:處理器Intel Xeon Gold 6230,顯卡NVIDIA Tesla T4,內(nèi)存16 GB,操作系統(tǒng)Ubuntu 16.04,深度學(xué)習(xí)框架Pytorch,編程實驗均在Python 3.7 環(huán)境下進(jìn)行。

4.1 數(shù)據(jù)集

4.1.1 數(shù)據(jù)集類別

CK+數(shù)據(jù)集[15]是CK 數(shù)據(jù)集的擴(kuò)展,包含593 個視頻序列和7 種靜態(tài)表情圖像。靜態(tài)圖像是在實驗室環(huán)境下拍攝的年齡從18 歲~30 歲的123 名受試者的表情圖像,共計981 張。CK+實驗數(shù)據(jù)包含高興、厭惡、害怕、生氣、傷心、驚訝、蔑視7 類。由于數(shù)據(jù)集樣本數(shù)量少,為了提高測試的準(zhǔn)確性,使用K 折交叉驗證法[16]進(jìn)行實驗,在實驗中隨機(jī)將數(shù)據(jù)集劃分為K個,其中K-1 個用于模型訓(xùn)練,剩余1 個用于測試,本實驗中K取10。CK+數(shù)據(jù)分布如圖6 所示。

圖6 CK+數(shù)據(jù)集中的各類別樣本分布Fig.6 Distribution of various samples in CK+dataset

FER2013 數(shù)據(jù)集[17]從互聯(lián)網(wǎng)中收集而得,是Kaggle 人臉表情競賽數(shù)據(jù)集,且為目前規(guī)模較大的表情識別數(shù)據(jù)集[18]。FER2013包含人臉圖像35 887張,28 709 個訓(xùn)練圖像、3 589 個驗證圖像和3 589 個測試圖像,帶有7 個標(biāo)簽,分別為憤怒、厭惡、恐懼、快樂、中性、悲傷和驚訝。數(shù)據(jù)集中的樣本在年齡、人種、面部方向等方面都有很大的差異,存在側(cè)臉表情及模糊卡通表情,是一個具有挑戰(zhàn)性的表情識別數(shù)據(jù)集。FER2013 數(shù)據(jù)分布如圖7 所示。

圖7 FER2013 數(shù)據(jù)集中的各類別樣本分布Fig.7 Distribution of various samples in FER2013 dataset

4.1.2 數(shù)據(jù)增強(qiáng)操作

數(shù)據(jù)增強(qiáng)是在不改變樣本類別標(biāo)簽的情況下對數(shù)據(jù)進(jìn)行幾何變換、色調(diào)變換、像素擾動、添加噪聲等操作,能簡單有效地擴(kuò)充訓(xùn)練集數(shù)量,提高網(wǎng)絡(luò)在復(fù)雜背景下的泛化能力,對于CNN 訓(xùn)練過程意義重大。在本文實驗中,對數(shù)據(jù)進(jìn)行水平翻轉(zhuǎn)、伽馬變換和隨機(jī)遮擋,將訓(xùn)練數(shù)據(jù)量擴(kuò)充8 倍,操作如圖8所示。

圖8 在FER2013 數(shù)據(jù)集中的數(shù)據(jù)增強(qiáng)操作Fig.8 Data enhancement operation in FER2013 dataset

4.2 結(jié)果分析

為了驗證本文所提方法的有效性,實驗中將所提方法分別加入網(wǎng)絡(luò)中進(jìn)行對比。

實驗1TF-IDF SPA 注意力機(jī)制有效性實驗

本部分進(jìn)行4 組對比實驗,在FER2013 中使用交叉熵?fù)p失函數(shù)的情況下,驗證未加入注意力機(jī)制、加入SE 注意力機(jī)制、加入SPA 注意力機(jī)制、加入TFIDF SPA 注意力機(jī)制在FER2013 數(shù)據(jù)集上的有效性,實驗結(jié)果如表2 所示。

表2 注意力機(jī)制有效性實驗結(jié)果Table 2 Experimental results of the effectiveness of attention mechanism

從表2 可以看出:采用不加注意力僅使用殘差結(jié)構(gòu)的特征提取網(wǎng)絡(luò)進(jìn)行特征提取,所得的識別準(zhǔn)確率為68.79%,性能較差;采用SE 注意力機(jī)制改進(jìn)特征提取網(wǎng)絡(luò),準(zhǔn)確率得到3.24 個百分點的提升;用SPA 金字塔空間池化注意力取代SE 注意力,性能提升0.11 個百分點;加入TF-IDF 模塊后,網(wǎng)絡(luò)識別準(zhǔn)確率持續(xù)提升,較SPA 注意力提升了0.32 個百分點,較不加注意力提升了3.67 個百分點,提升效果明顯。實驗結(jié)果表明,注意力機(jī)制對于特征提取效果具有積極的作用,同時改進(jìn)型的TF-IDF SPA 注意力較SE、SPA 等注意力能獲得更好的識別效果。

實驗2改進(jìn)損失函數(shù)有效性實驗

本部分進(jìn)行5組對比實驗,在使用相同TF-IDF SPA注意力機(jī)制特征提取網(wǎng)絡(luò)的情況下,分別測試Cross-Entropy、Weighted Cross-Entropy、Island Loss、AMLoss、混合加權(quán)損失函數(shù)的作用,結(jié)果如表3 所示。

表3 改進(jìn)損失函數(shù)有效性實驗結(jié)果Table 3 Experimental results of the effectiveness of the improved loss function

從表3 可以看出:使用加權(quán)的交叉熵?fù)p失函數(shù)(Weighted Cross-Entropy),較Cross-Entropy 有小幅度的性能提升,在CK+中準(zhǔn)確率提升了0.12 個百分點,在FER2013 中提升了0.25 個百分點;Island Loss和AMLoss 在CK+、FER2013 中取得了類似的性能;混合加權(quán)損失函數(shù)作用于網(wǎng)絡(luò)時,在CK+中準(zhǔn)確率比AMLoss 提升了0.66 個百分點,在FER2013 中準(zhǔn)確率較Island Loss 提高了1.1 個百分點。實驗結(jié)果表明,本文所提混合加權(quán)余弦損失函數(shù)在識別準(zhǔn)確率上有一定提升。

實驗3本文所提算法與當(dāng)前較新算法的對比實驗

表4 對比了當(dāng)前針對CK+和FER2013 且較新的算法識別準(zhǔn)確率,最優(yōu)結(jié)果加粗標(biāo)注。在CK+中,文獻(xiàn)[22]算法利用紋理、幾何特征、語義特征等手工特征與改進(jìn)后的自動編碼器網(wǎng)絡(luò)進(jìn)行融合,再輸入到Softmax 分類器中進(jìn)行面部表情識別,達(dá)到了較好的性能,但是,相較全程使用CNN 自動提取特征的方式,其算法過程相對繁瑣。本文算法識別準(zhǔn)確率在CK+數(shù)據(jù)集中與文獻(xiàn)[23]算法較為相似,本文算法比該算法高0.09 個百分點,在FER2013 數(shù)據(jù)集中,本文算法的準(zhǔn)確率比該算法高1.41 個百分點,識別準(zhǔn)確率提升明顯。

表4 不同算法的對比實驗結(jié)果Table 4 Comparative experimental results of different algorithms

圖9(a)、圖9(b)分別為CK+和FER2013 數(shù)據(jù)集上的混淆矩陣。由圖9 混淆矩陣可見,“高興”“驚訝”這2 個類別識別準(zhǔn)確率均較高,這是由于數(shù)據(jù)集中這2 個類別與其他類別特征差異明顯,經(jīng)本文損失函數(shù)增強(qiáng)分類邊界后,類間距離更加清晰,網(wǎng)絡(luò)容易準(zhǔn)確識別。圖9(b)比圖9(a)分類模糊數(shù)量多,這是由于FER2013數(shù)據(jù)集中嘈雜樣本較多,且某些類別樣本較為相似,如“悲傷”“中性”“恐懼”之間類間邊界模糊,人類也難以準(zhǔn)確區(qū)分,導(dǎo)致了分類混淆的現(xiàn)象。

圖9 本文算法的混淆矩陣Fig.9 Confusion matrix of this algorithm

5 結(jié)束語

本文針對人臉表情識別任務(wù),提出一種基于詞頻-逆文檔頻率的改進(jìn)型注意力機(jī)制TF-IDF SPA,引導(dǎo)網(wǎng)絡(luò)關(guān)注表情關(guān)鍵區(qū)域的重要細(xì)節(jié)特征。本文使用簡單卷積層堆疊和帶殘差結(jié)構(gòu)的TF-IDF SPA 模塊提取表情特征,能夠達(dá)到與諸多復(fù)雜模型相同的特征提取效果。在損失函數(shù)設(shè)計上,針對細(xì)粒度分類任務(wù)中類間差異小而類內(nèi)間距大的問題,設(shè)計混合加權(quán)損失函數(shù),根據(jù)數(shù)據(jù)集的分布調(diào)整加權(quán)值,從而引導(dǎo)網(wǎng)絡(luò)挖掘樣本數(shù)量少、識別難度大的訓(xùn)練樣本特征信息。同時,在保持表情類別之間島嶼型分布的同時使用余弦距離調(diào)整類間間隔,增大類間距離。FER2013、CK+數(shù)據(jù)集上的實驗結(jié)果驗證了本文改進(jìn)注意力機(jī)制和改進(jìn)損失函數(shù)的有效性。

目前,網(wǎng)絡(luò)特征提取過程還未加入多尺度卷積核以進(jìn)行不同感受野下的特征提取,且本文還未針對局部遮擋、戴眼鏡、側(cè)面人臉等復(fù)雜條件進(jìn)行針對性地研究。下一步將優(yōu)化注意力機(jī)制,在更具挑戰(zhàn)性的真實部署條件下進(jìn)行算法設(shè)計,以實現(xiàn)更好的運(yùn)行效率和識別效果。

猜你喜歡
類別注意力損失
少問一句,損失千金
讓注意力“飛”回來
胖胖損失了多少元
玉米抽穗前倒伏怎么辦?怎么減少損失?
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
一般自由碰撞的最大動能損失
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
建昌县| 兴业县| 哈密市| 富平县| 大埔县| 吉安县| 利辛县| 丹凤县| 都江堰市| 嘉鱼县| 崇礼县| 衡南县| 乌鲁木齐县| 朝阳县| 巨野县| 旬邑县| 任丘市| 东乌珠穆沁旗| 康马县| 连山| 观塘区| 雷波县| 罗定市| 谷城县| 清流县| 锡林郭勒盟| 大田县| 宽甸| 岗巴县| 福建省| 肃南| 沾化县| 湾仔区| 武宁县| 璧山县| 安国市| 泰宁县| 新龙县| 都匀市| 东兰县| 临夏县|