国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)和證據(jù)理論的表情識別模型*

2021-05-11 02:00徐其華
計算機工程與科學(xué) 2021年4期
關(guān)鍵詞:人臉特征提取卷積

徐其華,孫 波

(1.西北師范大學(xué)商學(xué)院,甘肅 蘭州 730070;2.北京師范大學(xué)人工智能學(xué)院,北京 100875)

1 引言

表情是人類在進(jìn)行社會活動時心理感受和精神狀態(tài)的自然流露,通過觀察一個人的面部細(xì)微變化,就能判斷出他此時的內(nèi)心情感。根據(jù)心理學(xué)家Mehrabian[1]的研究,一個人想要表達(dá)出來的全部信息,口頭語言只占7%,語言輔助(如語調(diào)、語速等)占38%,而面部表情卻占了55%,因此大量有價值的信息都可以通過面部表情獲取。而且相對于生理信號,面部表情的數(shù)據(jù)更加容易獲得,因此受到更多人的關(guān)注。

隨著計算機技術(shù)、傳感技術(shù)和通訊技術(shù)的發(fā)展,高清攝像頭的使用越來越普遍,特別是智能手機的廣泛應(yīng)用,獲取一小段帶有人臉的高清視頻是非常容易的事情。通過深度學(xué)習(xí)技術(shù)對帶有人臉的高清視頻片段進(jìn)行自動分析,識別出視頻中人臉的表情,識別結(jié)果不僅能在各種系統(tǒng)中幫助人機進(jìn)行高效交互,而且還能應(yīng)用在現(xiàn)實生活中的不同領(lǐng)域。

面部表情是指通過眼部肌肉、顏面肌肉和口部肌肉的變化來表現(xiàn)各種情緒狀態(tài),是人類內(nèi)心情感比較直接的一種表達(dá)方式。根據(jù)科學(xué)家們的研究,人類有7種基本情感,即快樂、悲傷、憤怒、厭惡、驚訝、恐懼和中性。表情識別的研究,實際上可以認(rèn)為是對這7類情感的模式分類問題。隨著人工智能的發(fā)展和實際應(yīng)用需求的推動,基于微視頻的自發(fā)性表情識別已經(jīng)取得了不錯的研究進(jìn)展,涌現(xiàn)出了各種各樣的表情自動識別模型,如EmoNets[2]、VGG-Net(Visual Geometry Group-Network)[3]、HoloNet[4]、VGG-LSTM(Visual Geometry Group-Long Short Term Memory)[5]和C3Ds(3-Dimensional Convolutional neural networks)[6]等,但總體來說,這些模型在各種表情識別競賽中都取得了不錯的成績。這些模型的識別準(zhǔn)確率還不盡人意,遠(yuǎn)遠(yuǎn)低于人類肉眼的識別準(zhǔn)確率,還不能在社會各個領(lǐng)域中進(jìn)行廣泛應(yīng)用。

本文針對表情智能識別過程中存在的一些關(guān)鍵性問題,設(shè)計了一個全自動表情識別模型,并在該模型中構(gòu)建了一個深度自編碼網(wǎng)絡(luò)來自動學(xué)習(xí)人臉表情特征,并結(jié)合證據(jù)理論對多分類結(jié)果進(jìn)行有效融合。在一些公開的表情識別庫上的實驗結(jié)果表明,該模型能顯著提升表情識別的準(zhǔn)確度,性能優(yōu)于大部分現(xiàn)有的表情識別模型。

2 研究現(xiàn)狀

表情識別是在人臉檢測的基礎(chǔ)上發(fā)展起來的,和人臉識別一樣,也包括人臉檢測、圖像預(yù)處理、面部特征提取和分類識別等過程。隨著深度學(xué)習(xí)技術(shù)的廣泛應(yīng)用,表情識別方法也逐漸由傳統(tǒng)的淺層學(xué)習(xí)方法向深度學(xué)習(xí)方法過渡。近些年來,表情識別技術(shù)的研究得到了學(xué)術(shù)界持續(xù)的重視,與之相關(guān)的情感識別競賽也吸引了越來越多的人參加。其中由國際計算機協(xié)會多模態(tài)人機交互國際會議ACM ICMI(ACM International Conference on Multimodal Interaction)主辦的情感識別大賽EmotiW(Emotion recognition in the Wild)是世界范圍內(nèi)情感識別領(lǐng)域最高級別、最具權(quán)威性的競賽,吸引了世界頂尖科研機構(gòu)和院校參與,微軟美國研究院、Intel研究院、IBM研究院、美國密西根大學(xué)、美國波士頓大學(xué)、新加坡國立大學(xué)、北京大學(xué)和愛奇藝等均參加了比賽。該賽事每年舉辦一次,從2013年開始,迄今已連續(xù)舉辦了8屆。國內(nèi)舉辦的情感識別競賽起步比較晚,由中國科學(xué)院自動化研究所領(lǐng)頭舉辦的多模態(tài)情感競賽MEC(Multimodal Emotion Recognition),迄今只舉辦了2次[7,8]。這些競賽的定期舉辦,吸引了情感識別研究領(lǐng)域大部分研究機構(gòu)參加,對該領(lǐng)域的交流和發(fā)展起到了巨大的推動作用。

面部表情特征提取在整個表情識別過程中具有非常重要的作用,特征提取的好壞直接影響著最終的識別準(zhǔn)確度。在廣泛使用深度學(xué)習(xí)技術(shù)提取表情特征之前,研究者們主要提取一些傳統(tǒng)的手工特征,如基于紋理信息變化的Gabor特征[9,10]和局部二值模式LBP(Local Binary Pattern)特征[11],以及在兩者基礎(chǔ)上擴(kuò)展的LGBP(Local Gabor Binary Pattern)特征[12]和LBP-TOP(Local Binary Patterns from Three Orthogonal Planes)特征[13];基于梯度信息變化的尺度不變性特征變換特征SIFT(Scale Invariant Feature Transform)[14]、方向梯度直方圖HOG(Histogram of Oriented Gradient)特征[15,16]和局部相位量化LPQ(Local Phase Quantization)特征[17],以及在這3種特征上擴(kuò)展的特征,如Dense SIFT、 MDSF(Multi-scale Dense SIFT Features)[18]、 PHOG(Pyramid of Histogram Of Gradients)[19]等。這些傳統(tǒng)的手工特征在剛提出時,都取得了不錯的效果。但是,這些特征在提取時容易受到干擾,對光照強度、局部遮擋和個體差異都非常敏感,而且提取的特征向量維度一般比較大,需要和其它的特征降維方法結(jié)合使用。

隨著深度學(xué)習(xí)技術(shù)的應(yīng)用,基于深度神經(jīng)網(wǎng)絡(luò)的面部特征自動學(xué)習(xí)方法逐漸成為熱門。這類方法從局部到整體對面部信息進(jìn)行統(tǒng)計,得到一些面部特征的統(tǒng)計描述,簡稱為深度學(xué)習(xí)方法。深度學(xué)習(xí)方法本質(zhì)上就是研究者們首先構(gòu)建一個深度神經(jīng)網(wǎng)絡(luò),然后利用大量樣本進(jìn)行訓(xùn)練,讓機器自動統(tǒng)計其中的變化規(guī)律,從而學(xué)習(xí)出有效的特征表示。深度學(xué)習(xí)方法不同于淺層學(xué)習(xí)方法,它將特征學(xué)習(xí)和分類識別結(jié)合在一起,不需要單獨提取出特征之后再進(jìn)行分類。集特征提取和分類識別于一體的深度神經(jīng)網(wǎng)絡(luò)模型近些年發(fā)展得比較快,比較典型的模型如表1所示。基于深度學(xué)習(xí)技術(shù)的特征學(xué)習(xí)方法雖然對旋轉(zhuǎn)、平移和尺度變換都有著很強的魯棒性,但也有著所有特征提取方法共同的缺陷:易受到噪聲干擾。而且深度學(xué)習(xí)還需要大量的樣本進(jìn)行訓(xùn)練,如果樣本量太少,效果則不如別的方法好。

Table 1 Facial expression recognition models

基于深度神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)方法雖然是現(xiàn)在使用的主流特征提取方法,但它也不能完全替代傳統(tǒng)的手工提取方法,大部分研究者的做法是同時使用多種方法提取特征,然后進(jìn)行特征級融合,或者先對每個特征進(jìn)行分類識別,再進(jìn)行決策級融合。也有研究者先提取傳統(tǒng)的手工特征,再將這些特征融入到深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征再學(xué)習(xí)[29 - 31]。本文構(gòu)建的表情識別模型也提取了多種特征,并使用證據(jù)理論方法進(jìn)行決策級融合。

3 面部表情特征提取

每一幅面部表情圖像都來自于視頻中的一幀,在這幀圖像中,除了人的面部信息,還有大量的背景信息。在進(jìn)行特征提取時,需要先進(jìn)行面部檢測,只提取人物面部的特征。背景信息對人物情感識別沒有太大的幫助作用,需要剔除。本文采用開源的人臉檢測算法DSFD(Dual Shot Face Detector)[32]來完成人臉檢測,通過該算法,可以將視頻轉(zhuǎn)換成面部表情圖像序列。

3.1 SA-DAE表情識別模型

基于微視頻的表情識別,都是一個視頻對應(yīng)一個表情標(biāo)簽,不進(jìn)行單視頻幀標(biāo)注。大部分研究者在進(jìn)行面部表情特征提取時,通常的做法是將整個視頻的表情標(biāo)簽?zāi)J(rèn)為每個幀的標(biāo)簽,再進(jìn)行深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。這樣做有很大的缺陷,會造成大量的圖像樣本標(biāo)注錯誤。針對此種情況,本文將自適應(yīng)注意力模型與自編碼網(wǎng)絡(luò)相結(jié)合,構(gòu)建了一個SA-DAE(Self-Attention Deep AutoEncoder)模型。該模型不僅可以以非監(jiān)督方式提取面部表情特征,還能對傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),在不增加參數(shù)規(guī)模的前提下,最大可能地獲取全局信息。

本文構(gòu)建的SA-DAE網(wǎng)絡(luò)如圖1所示,該模型是對原始的自編碼網(wǎng)絡(luò)的一種改進(jìn),將原來的全連接層全部改成了卷積層或反卷積層,并在其中加入了自注意力層。模型訓(xùn)練好后,輸入一幅新的人臉圖像,經(jīng)過編碼網(wǎng)絡(luò)就能提取出該人臉的面部行為特征。

Figure 1 SA-DAE network model圖1 SA-DAE網(wǎng)絡(luò)模型

通過人臉檢測后,每個微視頻就轉(zhuǎn)換成了一個人臉圖像序列,然后將序列中每一幅人臉圖像輸入到已經(jīng)訓(xùn)練好的SA-DAE網(wǎng)絡(luò)中,根據(jù)自編碼網(wǎng)絡(luò)的特性,對每幀圖像進(jìn)行非監(jiān)督特征提取。

3.2 自注意力機制

卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積操作,不同于全連接,它以局部感受野和權(quán)值共享為特點,對某個區(qū)域進(jìn)行卷積操作時,默認(rèn)只與周圍小范圍內(nèi)區(qū)域有關(guān),與其它部分無關(guān)。卷積操作的這種特性大大減少了參數(shù)量,加快了整個模型的運行過程,因此相對于全連接層,實現(xiàn)卷積操作的卷積層一直是深度神經(jīng)網(wǎng)絡(luò)中的首選。但就因為這些特性,導(dǎo)致了卷積操作的弊端:會丟失一些空間上的關(guān)聯(lián)信息。如果一幅圖像中2個區(qū)域離得比較遠(yuǎn),但卻是相互關(guān)聯(lián)的,比如人臉具有對稱性,在進(jìn)行表情識別時,左右眼角、左右嘴角是有空間聯(lián)系的,卷積操作忽略了這一個問題,默認(rèn)這2個區(qū)域無關(guān)聯(lián),從而丟失一些至關(guān)重要的空間關(guān)聯(lián)信息。解決方法就是擴(kuò)大卷積核,但卷積核太大時,參數(shù)量又會呈直線上升。為了在參數(shù)量和卷積范圍之間找到一個平衡,本文模型引入自注意力機制,該機制既考慮到了非局部卷積問題,又考慮到了參數(shù)量問題,具體實現(xiàn)如圖2所示。

Figure 2 Flow chart of Self-Attention圖2 Self-Attention層實現(xiàn)流程

經(jīng)過前一層的卷積操作后,會得到很多的卷積特征圖(Convolutional Feature Maps),在進(jìn)行下一層的卷積操作之前,SA-DAE模型將這些卷積特征圖輸入到一個自注意力層中,提取這些圖中包含的全局空間信息。實施細(xì)節(jié)主要包括:

(1)自注意力層的輸入是該批次所有圖像卷積操作后得到的特征圖X∈RN×C×H×W,是一個4維的張量,其中,N和C分別表示圖像的批次大小和通道數(shù)量,H和W分別表示每幅特征圖的高度和寬度。自注意力層將每幅特征圖分別進(jìn)行f(x)、g(x)和h(x)變換,這3種變換都是普通的1×1卷積,差別只在于輸出通道數(shù)量不同。變換之后再分別進(jìn)行Reshape操作,即將特征圖進(jìn)行序列化,張量由4維變成3維,以便于后繼的矩陣運算。這一階段的操作如式(1)所示:

F=Reshape(f(x))=Reshape(Wfx)

G=Reshape(g(x))=Reshape(Wgx)

H=Reshape(h(x))=Reshape(Whx)

(1)

其中,x∈RW×H表示單幅圖像卷積后的特征圖,Wf、Wg和Wh分別表示3種卷積變換時的權(quán)值參數(shù),F(xiàn)、G和H分別表示此階段3種操作后得到的3個張量。

(2)接著,自注意力層將張量F的后2維進(jìn)行轉(zhuǎn)置,并和張量G進(jìn)行張量相乘,這步操作主要用來計算特征圖任意2個位置之間的信息相關(guān)性,然后再通過Softmax函數(shù)進(jìn)行歸一化。這個階段操作公式如式(2)所示:

S=Softmax(FT·G)

(2)

其中S∈RN×HW×HW為歸一化后的相關(guān)性張量。

(3)最后,將H和S進(jìn)行張量相乘,主要作用是將計算出的信息相關(guān)性作為權(quán)重加權(quán)到原位置的特征信息上,隨后通過Reshape變換將3維的結(jié)果張量恢復(fù)成4維,得到自注意力特征圖(Self-Attention Feature Maps)。最終模型把全局空間信息和局部鄰域信息整合到一起,融合得到加入了注意力機制的特征圖。此階段的操作如式(3)所示:

O=X+γ(Reshape(H·S))

(3)

其中,X表示自注意力層的原始輸入,O表示自注意力層的輸出。自注意力層的最終輸出兼顧了局部鄰域信息和全局空間相關(guān)信息,這里引入了一個參數(shù)γ作為平衡因子,表示全局空間相關(guān)信息相對于鄰域信息所占的權(quán)重,γ剛開始時初始化為0,為的是讓模型首先關(guān)注鄰域信息,之后隨著訓(xùn)練的迭代,再慢慢把權(quán)重變大,讓模型更多地關(guān)注到范圍更廣的全局空間相關(guān)信息。

4 表情自動識別模型

4.1 Dempster-Shafer證據(jù)理論融合策略

不同的特征表征著不同的辨別信息,將這些信息的分類結(jié)果進(jìn)行融合,可以有效地互補。本文除了使用SA-DAE網(wǎng)絡(luò)自動提取面部表情特征,還通過其它成熟的特征提取算法提取了一些傳統(tǒng)的手工特征,如LBP-TOP、HOG和DSIFT等,使用不同的特征進(jìn)行分類會得到不同的分類結(jié)果,這就需要采用信息融合方法對不同的分類結(jié)果進(jìn)行融合。

某一個樣本應(yīng)該分在哪一類,這是不確定的,同一個樣本,通過不同的特征信息進(jìn)行分類,也有可能分在完全不同的類。這種模式分類的不確定性和模糊性,剛好與不確定性推理原理相吻合,因此本文將不確定推理方法中的D-S(Dempster-Shafer)證據(jù)理論引入到分類結(jié)果融合策略中。

在經(jīng)典的D-S證據(jù)理論中,Θ表示識別框架,它包含了n個不相容的命題,數(shù)學(xué)符號表示為Θ={Aj│1≤j≤n},Ω=2Θ是Θ的冪集,函數(shù)m:2Θ→[0,1]將所有命題的冪集全部映射到一個概率值(取值為0~1),滿足下列2個條件:

m(Φ)=0

(4)

(5)

其中,函數(shù)m()稱為基本概率分配BPA(Basic Probability Assignment)函數(shù),也稱為mass函數(shù)。Φ表示空集或Ω中不存在的命題,Ai表示Ω中的任意一個命題,m(Ai)表示在識別框架中證據(jù)對某個命題Ai的精確信任度,也可以認(rèn)為是證據(jù)在命題Ai處的概率。D-S證據(jù)理論的融合規(guī)則如下:

(6)

其中,Ai,Aj,Ak都表示任意一個命題,即Ai,Aj,Ak∈Θ, (m1⊕m2)(Ai)表示第1個證據(jù)和第2個證據(jù)在命題Ai處的融合。如果所有命題間都是相互獨立的,則在Ai處的融合概率就是2個證據(jù)的概率乘積,即m1(A1)×m2(Ai),如果2個命題有交集(即Aj∩Ak=Ai,例如復(fù)合表情間就存在交集),且交集為命題Ai,則在Ai處的融合概率是所有相交元素的概率乘積之和。α表示歸一化因子,反映了證據(jù)之間的沖突程度,計算公式如式(7)所示:

(7)

其中,Aj∩Ak=?表示2種命題間無交集(相互獨立),則二者的mass函數(shù)值乘積就可以用來衡量證據(jù)間的沖突程度。當(dāng)α趨近于0時,表示兩證據(jù)之間無沖突,可以完全融合;反之,當(dāng)α趨近于1時,表示兩證據(jù)之間高度沖突,融合效果會很差。

Figure 3 Model for multi-feature facial expression recognition圖3 多特征面部表情識別模型

在具體的表情識別模型中,每個命題即是一種表情類別,每個特征即為一個證據(jù)。mass函數(shù)則代表某個特征對某種表情的信任度,即在某種特征下,視頻被分為該類表情的概率。在本文提出的表情自動識別模型中,先利用隨機森林算法對每個特征分別進(jìn)行分類,每個特征的分類結(jié)果為一個7維的概率向量,向量中的每個值表示視頻在該特征情況下分類為某種表情類別的概率。如果有m個特征,則最終的分類結(jié)果為一個m×7的矩陣。模型再通過D-S證據(jù)理論的融合規(guī)則,把多個不同的分類結(jié)果向量融合成一個概率向量。

4.2 表情識別總體模型

表情的自動識別,需要經(jīng)過人臉檢測、特征提取、特征聚合、分類識別和結(jié)果融合等流程,本文將這些分散的模塊結(jié)合在一起,就構(gòu)成了一個全自動表情識別模型,模型結(jié)構(gòu)如圖3所示。在經(jīng)過人臉檢測得到微視頻中人臉圖像序列后,該模型能自動學(xué)習(xí)深度神經(jīng)網(wǎng)絡(luò)特征,也能提取一些傳統(tǒng)的手工特征;隨后通過一個長短期記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)將多個幀級特征聚合成視頻級特征,再分別經(jīng)過隨機森林分類得到不同特征的分類結(jié)果;最后經(jīng)過D-S證據(jù)理論對分類結(jié)果進(jìn)行融合后,即可得到最終的面部表情識別結(jié)果。

5 實驗結(jié)果及分析

5.1 數(shù)據(jù)集

本文在中國科學(xué)院自動化研究所構(gòu)建的CHEAVD2.0數(shù)據(jù)庫上進(jìn)行了實驗,實驗結(jié)果與第2屆多模態(tài)情感識別競賽(MEC 2017)的參賽結(jié)果進(jìn)行了對比。CHEAVD2.0數(shù)據(jù)庫的數(shù)據(jù)來源于影視劇中所截取的音視頻片段,每一個音視頻片段分別標(biāo)注為一些常見情感(高興、悲傷、生氣、驚訝、厭惡、擔(dān)心、焦慮)及中性情感中的一種。整個數(shù)據(jù)庫將被分為訓(xùn)練集、驗證集和測試集3部分,在文獻(xiàn)[8]中,中國科學(xué)院自動化研究所的研究者們對這個數(shù)據(jù)庫的建庫過程、數(shù)據(jù)來源和數(shù)據(jù)劃分進(jìn)行了詳細(xì)的說明。同時,他們對庫中的每一段音視頻也進(jìn)行了特征提取和分類,并將分類結(jié)果作為該庫的基線水平,以便其它研究者進(jìn)行對比分析。由于本文未收集到測試集的標(biāo)簽,因此本文用訓(xùn)練集來進(jìn)行整個表情識別模型的訓(xùn)練,用驗證集來驗證模型的性能。在進(jìn)行SA-DAE模型訓(xùn)練時,本文使用了遷移學(xué)習(xí)方法,先用大型人臉庫CeleA進(jìn)行初步訓(xùn)練,訓(xùn)練出來的模型參數(shù)再用CHEAVD2.0數(shù)據(jù)庫進(jìn)行微調(diào)。

5.2 評價指標(biāo)

考慮到樣本數(shù)據(jù)分布的不均衡性,本文以宏觀平均精確度MAP(Macro Average Precision)作為模型的第1評價指標(biāo),以分類準(zhǔn)確度ACC(Accuracy)作為第2評價指標(biāo)。2個評價指標(biāo)的公式如式(8)~式(10)所示:

(8)

(9)

(10)

其中,s表示表情的類別數(shù),Pi表示第i類表情的分類準(zhǔn)確度,TPi和FPi分別表示在第i類表情上分類正確的樣本數(shù)量和分類錯誤的樣本數(shù)量。

5.3 實驗結(jié)果分析

針對每一個視頻,本文分別提取了SA-DAE、CNN、DSIFT、HOG、HOG-LBP和LBP-TOP 6種特征。其中CNN特征是采用VGG網(wǎng)絡(luò)模型經(jīng)有監(jiān)督訓(xùn)練提取出來的特征,HOG-LBP特征是仿照LBP-TOP算法提取出來的特征,由xy面的HOG特征與yz、xz的LBP特征串聯(lián)而成。各特征在驗證集上的分類結(jié)果如表2所示。

Table 2 Feature classification and recognition results on verification set

各特征提取出來后都通過隨機森林算法進(jìn)行分類,在驗證集上的分類結(jié)果如表2所示。其中,a表示隨機森林算法中決策樹的數(shù)量,b表示隨機森林算法中決策樹的深度,針對不同的特征,這2個參數(shù)的取值并不相同,需要在訓(xùn)練集上進(jìn)行交叉搜索訓(xùn)練得到。

根據(jù)結(jié)果顯示,在宏觀平均精確度(MAP)評價指標(biāo)上,SA-DAE特征的分類效果優(yōu)于其它特征的,但在分類準(zhǔn)確度(ACC)的評價指標(biāo)上,SA-DAE特征和傳統(tǒng)的DSIFT、HOG特征,分類效果沒有太大的差別。

在決策級融合階段,本文先將所有的特征按照分類準(zhǔn)確度從高到低進(jìn)行了排序,然后將準(zhǔn)確度最高的SA-DAE特征作為基礎(chǔ),按照順序?qū)⑵渌卣髦痦椚诤线M(jìn)來。SA-DAE、DSIFT和HOG 3個特征融合之后,分類效果有了較大的提升,但融合進(jìn)第4個特征后,分類效果出現(xiàn)了下降,因此本文又以SA-DAE+DSFIT+HOG的融合特征作為基礎(chǔ),與剩下的特征進(jìn)行窮舉組合,最終得到不同特征融合的分類結(jié)果,如表3所示。在宏觀平均精確度(MAP)評價指標(biāo)上,SA-DAE、DSIFT、HOG、HOG-LBP 4種特征的證據(jù)理論融合效果最好,達(dá)到了53.39%,在分類準(zhǔn)確度(ACC)的評價指標(biāo)上,SA-DAE、DSIFT、HOG、HOG-LBP和CNN 5種特征融合效果優(yōu)于其它特征融合策略的。

Table 3 Feature fusion classification and recognition results on verification set

最后,本文將提出的表情識別模型也應(yīng)用到了數(shù)據(jù)庫的測試集上,并根據(jù)數(shù)據(jù)庫提供方反饋的識別結(jié)果,與數(shù)據(jù)庫的分類識別基線水平進(jìn)行了對比(如表4所示),本文提出的模型不管是在驗證集上還是在測試集上,識別準(zhǔn)確度都取得了不錯的效果,遠(yuǎn)遠(yuǎn)超過了基線水平。

Table 4 Classification and recognition results on verification set and test set

6 結(jié)束語

本文結(jié)合深度自編碼網(wǎng)絡(luò)、自注意力模型和D-S證據(jù)理論,構(gòu)建了一個表情自動識別模型。實驗結(jié)果顯示,該模型提取的非監(jiān)督深度學(xué)習(xí)特征的分類效果優(yōu)于其它特征的。在多特征分類結(jié)果融合方面,該模型也取得了不錯的成績,識別效果遠(yuǎn)遠(yuǎn)高于基線水平。但是,模型識別的準(zhǔn)確度還遠(yuǎn)遠(yuǎn)落后于人類肉眼的識別能力,表情自動識別在現(xiàn)實生活中的應(yīng)用,還有很長的一段路要走。

猜你喜歡
人臉特征提取卷積
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
有特點的人臉
一起學(xué)畫人臉
從濾波器理解卷積
基于Daubechies(dbN)的飛行器音頻特征提取
三國漫——人臉解鎖
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
Bagging RCSP腦電特征提取算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
長得象人臉的十種動物
桃源县| 红原县| 兴化市| 五常市| 晴隆县| 万安县| 河东区| 长兴县| 泰和县| 开阳县| 石楼县| 响水县| 汕头市| 衡阳市| 阳朔县| 宁明县| 佛冈县| 博兴县| 利津县| 五原县| 乌海市| 麦盖提县| 皮山县| 宁都县| 屏东市| 玉山县| 徐闻县| 武威市| 德格县| 南涧| 大余县| 罗田县| 纳雍县| 闻喜县| 当涂县| 太康县| 宜春市| 凤城市| 观塘区| 徐闻县| 卢龙县|