国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度時空域卷積神經(jīng)網(wǎng)絡的表情識別模型

2016-08-16 10:01:52楊格蘭鄧曉軍劉琮同濟大學電子與信息工程學院上海20804湖南城市學院信息科學與工程學院湖南益陽4000湖南工業(yè)大學計算機與通信學院湖南株洲42007
中南大學學報(自然科學版) 2016年7期
關鍵詞:空域正確率卷積

楊格蘭,鄧曉軍,劉琮(.同濟大學 電子與信息工程學院,上海,20804;2.湖南城市學院 信息科學與工程學院,湖南 益陽,4000;.湖南工業(yè)大學 計算機與通信學院,湖南 株洲,42007)

基于深度時空域卷積神經(jīng)網(wǎng)絡的表情識別模型

楊格蘭1,2,鄧曉軍3,劉琮1
(1.同濟大學 電子與信息工程學院,上海,201804;
2.湖南城市學院 信息科學與工程學院,湖南 益陽,413000;
3.湖南工業(yè)大學 計算機與通信學院,湖南 株洲,412007)

基于特征抽取是表情識別算法中的重要步驟,但是現(xiàn)有算法依賴手工設計特征且適應性差等問題,提出基于深度時空域卷積神經(jīng)網(wǎng)絡的表情識別模型,采用數(shù)據(jù)驅動策略直接從表情視頻中自動抽取時空域中的動靜態(tài)特征。使用新穎的卷積濾波器響應積替代權重和,使得模型能同時抽取到動態(tài)特征和靜態(tài)特征。引入深度學習的多層設計,使得模型能逐層學習到更抽象、更宏觀的特征。采用端對端的有監(jiān)督學習策略,使得所有參數(shù)在同一目標函數(shù)下優(yōu)化。研究結果表明:訓練后的卷積核類似于Garbor濾波器的形態(tài),這與視覺皮層細胞對激勵的響應相似;該模型能對表情視頻進行更準確分類;通過與其他幾種近年出現(xiàn)的算法進行比較,驗證該算法的優(yōu)越性。

情感計算;表情識別;時空域;卷積神經(jīng)網(wǎng)絡;深度學習

感知表情有別于理性思維和邏輯推理,是第三類人類智能表情[1]。表情是人類交往的重要渠道,是計算機理解人類行為的前提,也是情感計算的基礎。表情識別被廣泛地應用于商業(yè)營銷、人機交互、疲勞駕駛檢測、遠程護理和疼痛評估等領域。然而,從表情視頻中自動識別人臉表情是一項極具挑戰(zhàn)的機器視覺任務。光照、位置、化妝、飾物和遮擋等對計算機理解表情都有影響。表情識別系統(tǒng)的實用化需要魯棒的算法才能實現(xiàn)?,F(xiàn)有的表情識別算法大致上可以分為2步:特征抽取和分類識別。在特征抽取階段,一般采用手工來顯性地設計特征。常用的特征描述子有Garbor[2],DAISY[3]和LBP[4]等。在分類識別階段,上一步生成的特征向量被輸入SVM、隨機森林等淺層[5]分類器中,進行表情歸類。這些分類器的設計原則是分辨類間變換(不同類型的表情)和類內變化(2個人的相同表情)?,F(xiàn)有算法存在一些弊端。一是在特征抽取階段,手工特征的通用性不足。雖然近年來出現(xiàn)了一些基于學習的(learning-based)、數(shù)據(jù)驅動(data-drive)的特征抽取方法[6],但是它們的優(yōu)化目標并不直接與表情分類相關,抽取的特征可能引入了與表情無關的其他信息。更為重要的是,現(xiàn)有算法是先獨立地抽取視頻中的多幀特征再進行匯總,沒有考慮多幀之間的相關性,可能會丟失視頻時域上的動態(tài)特征。而時域動態(tài)特征是視頻識別區(qū)別于靜態(tài)圖像識別的關鍵。表情視頻識別本質上是三維數(shù)據(jù)的分類。視頻數(shù)據(jù)有1個重要特性,即視頻數(shù)據(jù)在空域(兩維)和時域(一維)上都存在著明顯的統(tǒng)計相關性。空域相關性構成了圖像的邊緣、紋理等特征,時域相關性與表情的動態(tài)特征密切相關。近年來,深度卷積神經(jīng)網(wǎng)絡(deep convolutional neural networks)在靜態(tài)圖像的空域特征識別方面表現(xiàn)出較明顯優(yōu)勢[7-8],但時域特征在視頻識別中具有更重要的地位。卷積神經(jīng)網(wǎng)絡是針對靜態(tài)圖像識別設計的,從設計之初[9]就缺乏對時域特征的考慮,這導致深度卷積神經(jīng)網(wǎng)絡在視頻識別方面的效果較差。人們對有限的研究[10-12]集中在:擴展(復制)原有卷積神經(jīng)網(wǎng)絡的第1個卷積層,使得每幀都對應1個卷積層,期望通過這些并行多個卷積層來學習到時域特征。但在實驗中發(fā)現(xiàn)[12],當使用這種改進卷積神經(jīng)網(wǎng)絡來識別人類動作視頻時,使用單幀卷積層和使用多幀卷積層的準確率差別不大,也就是說改進后的卷積神經(jīng)網(wǎng)絡本質上還是使用空域特征來識別人體動作的,期望中的時域特征并沒有學習。JI等[10-11]通過事先抽取幀與幀之間的光流特征引入時域特征,但是這種方法分隔了特征抽取和分類識別階段,破壞了端對端的學習結構。在學習時域特征方面,近年來出現(xiàn)了一些符合深層和端到端神經(jīng)網(wǎng)絡架構的算法[13-14]。這些算法的共同點是:通過計算兩幀之間的逐元素乘積來抽取時域特征。實際上,這種逐元素乘相當于計算兩幀圖像的Gabor濾波器響應的平方和。實驗表明[14]:在視頻識別任務中,基于能量感知模型的算法可以學習到類似于人類大腦視覺皮層V1區(qū)復雜細胞(complex cell)的響應。但是,這些基于能量感知模型的算法存在1個明顯缺陷,即三維視頻數(shù)據(jù)在輸入網(wǎng)絡前,必須拉成一維向量的形式。這破壞了空域和時域上的相對位置關系,可能會引起空域和時域相關信息丟失,還會造成高維數(shù)據(jù)所具有的維度災難問題。針對以上算法不足,本文作者結合深度卷積網(wǎng)絡和能量感知模型的優(yōu)勢,提出一種新的表情識別模型。新模型使用多個并行卷積層從多幀中抽取特征(類似文獻[12]中的擴展卷積層),再計算這些特征的兩兩逐元素乘(類似能量感知模型)。這種神經(jīng)元間的乘法交互(multiplicative interactions)模型可以顯性地學習到時域動態(tài)特征。同時,新模型保留了卷積神經(jīng)網(wǎng)絡在處理空域特征上的優(yōu)勢,即直接處理二維圖像而不用事先拉成一維向量,這避免了能量感知模型的維度災難問題。另外,還證明了新模型可以同時學習空域靜態(tài)特征。因為視頻靜態(tài)特征與表情識別任務是強相關的,所以這是一個有用特性。稱這種新模型為基于時空域深度卷積神經(jīng)網(wǎng)絡(spatiotemporal convolutional neural networks,stCNN)的表情識別模型,以強調它能同時學習時空域特征的特性。

1 時空域卷積神經(jīng)網(wǎng)絡

1.1卷積神經(jīng)網(wǎng)絡結構

圖1 卷積神經(jīng)網(wǎng)絡結構Fig.1 Structure of convolutional neural networks

卷積神經(jīng)網(wǎng)絡是前饋多層神經(jīng)網(wǎng)絡中具有代表性的一類網(wǎng)絡,其思想來源于1962年HUBEL和WIESEL對貓腦主要視覺皮層的研究。深度卷積神經(jīng)網(wǎng)絡通過多個串行的卷積層(convolution layer)和池化層(pooling layer)間隔排列的方式逐層地學習數(shù)據(jù)特征,其網(wǎng)絡結構見圖1。其中,卷積層采用卷積操作的方式利用小于圖像尺寸的卷積核來掃描整個圖像并計算卷積核與圖像局部位置的權重之和。當輸入數(shù)據(jù)為二維結構的圖像時,因為卷積操作可以直接處理二維拓撲結構,還能減少權值數(shù)量,降低網(wǎng)絡復雜度,便于特征提取和模式分類。卷積層的輸出常常被離散化和歸一化,并稱之為特征映射(feature maps),每個卷積都對應1個特征映射。特征映射隨后被輸入到池化層進行空域上子抽樣(subsample),比較直接的方法是對輸入圖像感興趣點周圍的鄰居結點計算平均值,每次計算周圍鄰居結點的步進值在1到最大鄰居范圍之間。經(jīng)過池化層處理能減小輸出特征映射圖的分辨率,降低卷積神經(jīng)網(wǎng)絡對輸入圖像中待識別對象位置變化的敏感程度,使得卷積神經(jīng)網(wǎng)絡具有一定程度的抗畸變能力。網(wǎng)絡的更高層使用更寬泛的感受野對低分辨率特征映射進行結合和進一步抽象,以期獲得更具辨識力的特征。網(wǎng)絡的最頂層將所有得到的特征映射重新拉成一維向量并結合多分類回歸分類器反向傳播錯誤信號來調整網(wǎng)絡參數(shù)。卷積神經(jīng)網(wǎng)絡主要用來識別位移、縮放和其他形式扭曲不變性的二維圖像。網(wǎng)絡直接輸入訓練數(shù)據(jù)進行學習,避免了手工設計特征。另外,卷積神經(jīng)網(wǎng)絡還可以利用現(xiàn)代GPU的多個流處理器架構進行并行計算,這大大加快了網(wǎng)絡的訓練速度。卷積神經(jīng)網(wǎng)絡以其獨特的卷積操作、卷積核共享和子抽樣結構,在二維圖像處理方面有著先天優(yōu)越性,其較強的容錯能力、并行處理能力和自學習能力可處理復雜環(huán)境下的二維信號識別問題。

1.2時空域卷積神經(jīng)網(wǎng)絡的結構

雖然卷積神經(jīng)網(wǎng)絡不能抽取時域上的動態(tài)特征,但其適合處理圖像二維拓撲結構,并能保持像素間的相對位置關系。本文提出的時空域卷積神經(jīng)網(wǎng)絡將這些優(yōu)勢整合于能量感應模型,以高效地抽取視頻中的時空域特征。

時空域卷積神經(jīng)網(wǎng)絡的基本結構如圖2所示。從圖2可見:為了應對視頻的多幀,它首先擴展了原卷積神經(jīng)網(wǎng)絡的卷積層,使得不同的幀都有相應的卷積層對其處理。這種結構保留了卷積層對二維信號處理的優(yōu)勢。其次,為了模擬能量感知模型的逐元素乘操作來捕捉幀之間的時域相關性,還設計了新的乘法層和加法層。

圖2 時空域卷積神經(jīng)網(wǎng)絡Fig.2 Spatiotemporal convolutional neural networks

時空域卷積神經(jīng)網(wǎng)絡由4層組成。

1)輸入層使用2個相鄰幀X和Y作為輸入,網(wǎng)絡要能捕捉到它們之間時域上的動態(tài)特征和空域上的靜態(tài)特征。

2)卷積層使用與標準卷積神經(jīng)網(wǎng)絡一樣的卷積操作。但這里的卷積核被分成4組,每幀分別對應2組卷積核。將每組中的某個卷積核寫作矩陣形式:Fx,和,則經(jīng)過訓練Fx和Fy,和之間會自動地形成正交基函數(shù)對。相應的4個特征映射可以記為:,和。若輸入圖像的大小為N×N,卷積核的大小為K×K,則采用有效卷積操作(valid convolution)后的特征映射大小為(N-K+1)×(N-K+1)。注意:在實際操作中,卷積一般采用多通道卷積操作(即3D卷積)來處理彩色圖像的RGB三通道;還可以添加偏置參數(shù),以便用仿射來代替線性映射,可以使用stride技術來減少參數(shù),可以使用傳統(tǒng)神經(jīng)網(wǎng)絡的非線性激活函數(shù)(activation function):sigmoid或者tanh。但是,為了使推導簡潔,這里只用簡潔的2D卷積來表達公式。

3)乘法層用來計算2個特征映射之間的逐元素乘(element-wise product)。參與運算的2個特征映射需分別處于2組特征映射中,并分別對應相鄰幀X和Y。稱乘法層的輸出為積映射,則積映射有2組,記每組中的某個積映射為和,這里的“·”表示逐元素乘。注意:在能量感知模型中,2個相鄰幀X和Y之間的變換關系也是被表達成這種逐元素乘的形式。

4)加法層用來計算2個積映射的逐元素和(element-wise sum),即

這里的“+”表示逐元素求和,稱加法層的輸出為和映射。因為是逐元素求和,所以和映射的尺寸與上層的一致。每一個和映射都代表了某一特定空時域特征在圖像空域上出現(xiàn)的情況。

時空域卷積神經(jīng)網(wǎng)絡有別于標準卷積神經(jīng)網(wǎng)絡之處在于:采用不同幀對應的濾波器響應的乘積操作來代替求和操作。這種乘積操作可看作是2個向量化圖像的外積,即2個圖像的相關系數(shù),也可看作是能量感知模型的變形。正是這種相關分析給時空域卷積神經(jīng)網(wǎng)絡提供了相鄰幀之間的變換信息。

1.3和映射上的節(jié)點值

根據(jù)時空域卷積神經(jīng)網(wǎng)絡的結構,輸入2個連續(xù)幀時網(wǎng)絡會在和映射的節(jié)點上給出多個響應值??紤]其中1個節(jié)點,此節(jié)點的感受野在X和Y上的尺寸為K×K,見圖3。圖中輸入層小矩形框里的圖像為節(jié)點能見的范圍。注意:因為采用了逐元素乘與逐元素加,所以,乘法層和加法層并不改變感受野的范圍。

節(jié)點sk是1個標量,可寫作以下形式:

這里的i和j用來索引節(jié)點sk的感受野范圍。

式(2)中的卷積操作還可以寫作矩陣與向量乘的形式。這是因為二維離散循環(huán)卷積操作可用1個特殊的塊循環(huán)矩陣(block circulant matrix)來實現(xiàn)。例如:卷積操作可以寫作。其中,x是按照列順序將矩陣X的列連接而生成,F(xiàn)x為N2×N2的雙塊循環(huán)矩陣(doubly block circulant),F(xiàn)x的每行都包含了合適的濾波器系數(shù)來實現(xiàn)X和Fx之間的二維卷積操作。若把Fx,,F(xiàn)y和對應的雙循環(huán)矩陣中的某一行表示成大小為1×N2向量和,由以上分析,式(2)可重新寫作:

圖3 和映射上節(jié)點的感受野Fig.3 Receptive fields of node on sum map

由式(3)可知:卷積可以看作在輸入圖像的一定空域范圍內進行線性變換。2個濾波器的響應被先相乘再相加,使得節(jié)點sk成為1個時空域特征描述子。卷積操作一般有2個類型:循環(huán)卷積(circular convolution)和可用卷積(valid convolution),為了能將其寫成矩陣向量乘的形式,這里考慮循環(huán)卷積并在Fx的周圍增補0直至與x的大小相同。該結論對可用卷積也近似成立。這是因為在計算有效卷積時,卷積核需要整個位于圖像的內部,而循環(huán)卷積不對此有要求,且當卷積核不能整個位于圖像內部時,允許卷積核循環(huán)位移,所以,2種卷積生成的結果在圖像內部區(qū)域是一致的。

2 復平面上的時空特征描述子

這里將證明每個與映射上的每個節(jié)點sk都是時空特征描述子(spatiotemporal descriptor),它通過檢測復平面上的旋轉角度來同時抽取時域上的動態(tài)特征和空域上的靜態(tài)特征。考慮兩幀x和y之間的圖像變換L,

其中:x和y是矩陣X和Y中每列首尾相接形成的大小為1×N2的向量;L為它們之間的圖像變換矩陣(image warp)。注意:這里不是通常意義上的仿射變換(affine transformation)。當使用圖像變換時,對應的L是置換矩陣(permutation matrix),這是一種特殊的、用于在像素空間中轉換圖像內容的矩陣,這種矩陣的每一行和每一列只有1個元素為1,其余全是0。當圖像向量與這種矩陣相乘時,可以實現(xiàn)將圖像的像素任意排列。實際上,初等幾何變換中的平移、旋轉、縮放等都可以用置換矩陣來近似描述。顯然,置換矩陣是正交規(guī)范矩陣,正交矩陣的1個重要性質是:其在復數(shù)域上可以被對角化,即。其中:復數(shù)域,為L的特征向量組成的正交規(guī)范矩陣且所有元素都為復數(shù),對角矩陣的對角線元素都是模為1的復數(shù)。將此公式代入式(4)則有

若只考慮x在U中1列μ上的投影,則有

其中:r∈C是R中對角線上的1個元素。因為特征向量的選擇不是唯一的,可以選擇μ使得其上的所有元素的模也為1,使用歐拉公式,將這些模相同而方向不同的復數(shù)中的1個寫作:。整列可以寫作:, i=1,…,N2。其中,ω表示U中列μ對應的頻率,注意每列對應的頻率不同。又因為復數(shù)乘實數(shù)等于復數(shù)的實部乘實數(shù)加上復數(shù)的虛部乘實數(shù),所以,可以把每個復數(shù)拆成cos(實部)和sin(虛部)而不會丟失任何信息。這樣,μ就可以拆成2列u(由cos函數(shù)組成的實部)和uˊ(由sin函數(shù)組成的虛部)。相應地,式(6)可以被重新寫作:

其中,],[uuˊ與x、],[uuˊ與x之間的點積會生成二維向量,且位于基],[uuˊ撐起的二維復平面上。所以,式(7)相當于:先把圖像x投影到μ對應的復平面上得到復數(shù),再將其乘以模為1的復數(shù)r(即在復平面中旋轉一個角度θ,θ由r決定),最后再映射回像素空間。

同理,矩陣U中的每一列(特征向量)都可以按照前面方法被分拆成2列:

其中:i和j索引列,n索引行。這些被拆分的每對列與離散傅里葉變換有密切的聯(lián)系。這是因為圖像x的離散傅里葉變換是將圖像x投影到一組由cos和sin函數(shù)組成的基即和,并精心設計每組基對應的頻率ω使得基之間正交,即μi與μj之間正交。顯然,規(guī)范正交化的矩陣U的列滿足此條件,且U中每對被分拆的列組成相位差為90°的正交對(quadrature pairs)。所以,這些正交對相當于離散傅里葉分析中的基函數(shù)cos(ωn)和sin(ωn),其與人類大腦視覺皮層V1區(qū)域的簡單細胞和復雜細胞有密切的聯(lián)系,見圖7。把x和y投影到U的每列上,就相當于對圖像進行了離散傅里葉變換。

下面證明對于不同類型的圖像變換,式(5)中的U或者式(6)中的μ是相同的,而R或者r不同。對角化理論認為:對所有的線性變換L,若存在1個可逆矩陣U,使得UTLU是對角矩陣,則稱所有的L可被同時對角化。同時對角化成立的條件是:不同的L符合交換律,即LLˊ=LˊL。事實上,不同的置換矩陣L符合交換律。考慮2個相繼的平移變換L(向下平移) 和Lˊ(向左平移),則先向下平移再向左平移 LLˊ后的目標物體位置和先向左平移再向下平移的位置相同。所以,置換矩陣L符合交換律,U在不同的圖像變換中都是相同的,圖像變換間的差異只體現(xiàn)在R或者r上。

下面證明“和映射”上的節(jié)點sk是特定圖像變換的描述子。從以上分析可見:x和y之間的變換可以通過將x和y投影到響應的復平面上,再通過計算復平面上的旋轉角度就可以判定x和y之間的變換類型。假設式(7)中的二維向量和的長度都為1,并設其投影在復平面[u,uˊ]上的角度分別為 θx和,則r對應的旋轉角度,也就是和之間夾角的余弦為

下面證明“和映射”上的節(jié)點sk不僅是特定圖像變換的描述子,而且是圖像內容的描述子。前面在推導式(9)時,使用了假設:二維向量和的長度都為1。這明顯是不合理的,因為大部分圖像在[u,uˊ]T對應的復平面上的投影長度不為1。例如,圖4中,要投影的圖像(左下)缺乏豎直方向上頻率的內容(frequent contents)(右上),造成其在對應復平面上的投影長度為0(右下)。而其在水平方向頻率(中上)對應的復平面上的投影長度不為0(中下)。

由以上分析可知:sk會受到圖像內容的影響,但這并不會對表情識別造成不利影響。因為單幀圖像中的靜態(tài)內容也是判斷表情分類的重要依據(jù),而人類甚至可以根據(jù)單幀的笑臉圖像判斷出對應的表情是高興??梢姡成渖系拿總€時空特征描述子sk具有以下

圖4 圖像在正交對對應的復平面上的投影Fig.4 Projection of images on complex planes corresponding to different quadrature pairs

性質:1)和映射上的每個節(jié)點sk在自己的感受野中檢查特定的圖像變換和圖像內容是否出現(xiàn);2)通過不共享卷積核,1個和映射可以高效地在圖像上檢查多個不同的圖像變換和圖像內容。

3 基于時空域深度卷積神經(jīng)網(wǎng)絡的表情識別模型

基于時空域卷積神經(jīng)網(wǎng)絡,再結合標準深度卷積神經(jīng)網(wǎng)絡結構設計1種表情識別模型,如圖5所示。

圖5中,模型使用5個時空域卷積神經(jīng)網(wǎng)絡模塊來學習時空特征描述子,并在其加法層輸出這些特征描述,訓練或測試視頻按照5幀一組按順序輸入模型。使用5個連續(xù)幀的原因是:在建模動作時,5~7幀就可以較好地表達整個視頻的時域特征[15]。所有的卷積層使用localconnect策略,不共享參數(shù)。卷積層、加法層和全連接層使用ReLUs非線性,以便加速計算。歸一層使用局部響應歸一化(local response normalization)來提高模型的泛化能力(generalization)。池化層用來消除數(shù)據(jù)噪音和小形變帶來的不利影響。時空域深度卷積神經(jīng)網(wǎng)絡的卷積層有4組共96個10×10的濾波器。第2個卷積層使用256個5×5的濾波器。第3,4和5個卷積層分別使用384,384和256個3×3的濾波器。最后的全連接層有1 024個神經(jīng)元,并使用dropout技術來防止過擬合,從而提高模型的泛化能力,dropout的值設定為0.7。所有的池化層使用2×2的重疊滑動窗口進行池化操作。模型相當于把空域深度卷積神經(jīng)網(wǎng)絡模塊插入標準的深度卷積神經(jīng)網(wǎng)絡架構中,并使用了2012年imagenet挑戰(zhàn)賽冠軍Alex Net[7]中的大部分網(wǎng)絡參數(shù)。期望這種設計可以利用深度學習的層次化結構在網(wǎng)絡高層學到抽象的、全局的時空域特征。模型使用有監(jiān)督策略訓練,softmax層連接全連接層來計算每個分類的后驗概率。分類誤差被反向傳播至每一層中計算各參數(shù)的梯度。采用基于小批量(min-batch)策略的隨機梯度下降算法來更新參數(shù),并對相鄰幀組成的數(shù)據(jù)集進行隨機排序以保證每次迭代時采用的小批量數(shù)據(jù)達到類均衡。實驗使用 5折交叉驗證。最后的識別率為 5次實驗的平均值。

圖5 基于深度時空域卷積神經(jīng)網(wǎng)絡的表情識別模型Fig.5 Facial expression recognition model based on Spatiotemporal convolutional neural network

4 試驗

4.1CK+人臉表情庫

使用CK+人臉表情數(shù)據(jù)集(extended Cohn-Kanade facial expression)[16]測試基于深度時空域卷積神經(jīng)網(wǎng)絡的表情識別模型。CK+數(shù)據(jù)集包含了210個人的7種表情(生氣、高興、驚訝、厭惡、恐懼、悲傷、輕蔑)的大約2 000個視頻,見圖6(a),試驗只使用有分類標簽的視頻子集。視頻的空間分辨率為640×490或者640×480,黑白或者彩色圖像,該數(shù)據(jù)庫中每個人的每種表情都包括一系列臉部活動,由開始表情到極強表情的表情序列構成,見圖6(b)。

圖6 CK+人臉表情數(shù)據(jù)集Fig.6 CK+facial expression datasets

為簡化模型,試驗將彩色視頻轉為黑白視頻,并把視頻的空域尺寸縮小為160×120,視頻還經(jīng)過減像素均值預處理。

圖7所示為基于深度時空域卷積神經(jīng)網(wǎng)絡的表情識別模型在訓練后相鄰幀X和Y對應的16個隨機選擇的濾波器,發(fā)現(xiàn)在自然數(shù)據(jù)集上,時空域深度卷積神經(jīng)網(wǎng)絡學習到的特征類似于Gabor濾波器的形態(tài),即不同的濾波器對于大小、位置、頻率、方向和相位有著不同的選擇性。這些濾波器的形態(tài)非常類似于神經(jīng)學在人腦V1區(qū)域中發(fā)現(xiàn)的簡單細胞(simple cells)對外界刺激的響應。圖7(a)和圖7(b)所示2組濾波器互相成對,與時間存在90°的相位差。

圖7 卷積層濾波器的最優(yōu)響應Fig.7 Optimal filter responses of convolutional lay

圖8所示為本文模型在CK+數(shù)據(jù)集上的混淆矩陣。其中,行代表正確的類別,列代表模型的分類結果。從圖8可見模型的總體識別率較高,而在傷心和害怕兩類上錯誤率較高,這也與人們的直覺相似,因為有時人類要正確判斷這2個類較困難。

表1所示為本文模型與其他3種算法的平均正確率的比較。從表1可以看出本文模型在7類上的平均正確率為92.3%,高于AAM算法(active appearance models)[16],CLM 算法(constrained local models)[17]和TMS算法(temporal modelling of shapes)[18]的平均正確率。

圖8 模型在CK+數(shù)據(jù)集上的混淆矩陣Fig.8 Confusion matrix of CK+dataset

表1 4種算法在CK+數(shù)據(jù)集上的平均正確率Table 1 Average recognition accuracy on CK+dataset %

因為一次性輸入模型的連續(xù)幀的數(shù)量是本模型抽取時空域特征的基礎,所以,連續(xù)幀數(shù)量是決定模型性能的重要參數(shù)。此外,對于每一幀都需要1個并行的卷積層,所以,連續(xù)幀數(shù)量也決定了模型的計算復雜度。通常地,在不影響模型性能的前提下,為了降低計算復雜度和發(fā)生過擬合的概率,希望連續(xù)幀的數(shù)量越少越好。為了研究連續(xù)幀的數(shù)量對本文模型性能的影響,選擇數(shù)量從1~10的連續(xù)幀,改造識別模型的并行卷積層的數(shù)量,在其他參數(shù)不變的條件下計算模型在3種類別上的正確率與連續(xù)幀數(shù)量的關系。這3種類別分別是:驚訝和傷心上的正確率,以及其他4種類別上的平均正確率。圖9(a)所示為實驗結果。從圖9(a)可見:隨著連續(xù)幀數(shù)量的增加,3種表情類別的正確率都呈現(xiàn)穩(wěn)步上升趨勢;當模型看到的表情幀數(shù)量從1幀上升到2幀時,3種表情類別的正確率較大提高;當表情幀數(shù)量達到5幀時,3種表情類別的正確率逐漸趨于穩(wěn)定??紤]到模型的計算復雜度,建議連續(xù)幀數(shù)量取值5是一個較好的折中策略。

與正確率不同,召回率是指識別出的相關視頻數(shù)量與數(shù)據(jù)庫中所有的相關視頻數(shù)量的比率,衡量模型對相關視頻的查全率。為了研究本文模型在不同連續(xù)幀數(shù)量下的召回率,計算模型在連續(xù)幀數(shù)量為1~6幀的條件下6種表情類別的召回率,圖9(b)所示為實驗結果。從圖9(b)可以發(fā)現(xiàn)模型的召回率隨著連續(xù)幀數(shù)量的增加呈現(xiàn)上升趨勢,但與正確率不同的是其上升趨勢并不穩(wěn)定。與正確率類似,大多數(shù)表情類別在連續(xù)幀數(shù)量達到5幀時,已能較好地覆蓋數(shù)據(jù)庫中的樣本,但繼續(xù)增加連續(xù)幀數(shù)量,個別表情類別出現(xiàn)了召回率下降的趨勢,故根據(jù)實驗結果建議連續(xù)幀數(shù)量取值在6以下。

4.2FABO雙模態(tài)情感數(shù)據(jù)庫

本文模型的1個重要優(yōu)點是能夠端對端地采用數(shù)據(jù)驅動策略從視頻數(shù)據(jù)中直接抽取時空域特征,這意味著不用人工干預,模型就可自動地借助視頻中的其他因素(除去表情因素)來輔助表情識別。為了驗證基于模型的這一特性,采用 FABO即身體姿態(tài)和人臉表情的雙模態(tài)情感數(shù)據(jù)庫[19]對本文模型性能進行測試。

圖9 連續(xù)幀數(shù)量與正確率和召回率的關系Fig.9 Relationship between number of contiguous frames and accuracy recall

FABO是目前唯一公開的表情和姿態(tài)雙模態(tài)情感數(shù)據(jù)庫,其理論基礎是人類的情感表達并不僅僅通過單種模態(tài),而是多種模態(tài)情感信息融合的方式。FABO數(shù)據(jù)庫包括了大約1 900條18~50歲人的雙模態(tài)視頻。

FABO數(shù)據(jù)庫由單模態(tài)的表情視頻和雙模態(tài)的表情+姿態(tài)視頻組成,圖10所示為模型在2種模態(tài)下的混淆矩陣,2種模態(tài)下的平均正確率分別為88.5%和96.1%。從圖10可以看出:在表情+姿態(tài)雙模態(tài)下本文模型在7種表情上的正確率都比表情單模態(tài)下的正確率高,特別是迷惑類別的正確率從80%提高到89%,這說明姿態(tài)能有效地輔助表情識別,而且模型能自動地從姿態(tài)中抽取空時域特征。

圖11所示為本文模型在表情+姿態(tài)模態(tài)下與其他3種算法平均正確率的比較結果。為了公平對比,選取的3種算法均采用表情+姿態(tài)視頻雙模態(tài)進行處理。3種算法分別是 BayesNet,AD+HMM(automatic determination+hidden markov model)和CCA(canonical correlation analysis),數(shù)據(jù)均來自文獻[20]??梢钥闯霰疚哪P偷钠骄_率要比其他3種算法的高。

圖10 模型在FABO數(shù)據(jù)庫上的混淆矩陣Fig.10 Confused martrix of model in FABO dataset

圖11 4種算法在FABO數(shù)據(jù)集上的平均正確率Fig.11 Averagerecognition accuracy on FABO dataset

5 結論

1)提出基于深度時空域卷積神經(jīng)網(wǎng)絡的表情識別模型。使用卷積濾波器的響應積來代替?zhèn)鹘y(tǒng)神經(jīng)網(wǎng)絡的響應和,使得模型能從相鄰幀之間高效地抽取表情的靜態(tài)特征和動態(tài)特征。使用深度學習策略,使模型能逐層抽取更抽象、更宏觀的特征。

2)采用端對端的學習策略,直接從原始像素中學習特征,并將特征抽取和分類識別統(tǒng)一在同個優(yōu)化目標下,使這2個階段的參數(shù)得到優(yōu)化,提高了模型在基準測試數(shù)據(jù)集上的平均正確率。

3)空時域卷積神經(jīng)網(wǎng)絡還可應用到其他需要學習圖像間關系的領域,如人類行為視頻分析、雙目視覺中的深度估計、全景圖拼接等。

[1]GAVRILA D M.The visual analysis of human movement:a survey[J].Computer Vision and Image Understanding,1999, 73(1):82-98.

[2]宋偉,趙清杰,宋紅,等.基于關鍵塊空間分布與Gabor濾波的人臉表情識別算法[J].中南大學學報(自然科學版),2013, 44(S2):239-243. SONG Wei,ZHAO Qingjie,SONG Hong,et al.Keyblock distribution and Gabor filter based facial expression recognition algorithm[J].Journal of Central South University(Science and Technology),2013,44(S2):239-243.

[3]TOLA E,TOLA E,LEPETIT V,et al.A fast local descriptor for dense matching[C]//IEEE Conference on Computer Vision and Pattern Recognition.Alaska,USA:IEEE,2008:1-8.

[4]陳炳權,劉宏立.基于二次修正的LBP算子和稀疏表示的人臉表情識別[J].中南大學學報(自然科學版),2014,45(5): 1503-1509. CHEN Bingquan,LIU Hongli.Facial expression recognition based on improved IBP operator and sparse representation[J]. Journal of Central South University(Science and Technology), 2014,45(5):1503-1509.

[5]BENGIO Y.Learning deep architectures for AI[J].Foundations and trends in Machine Learning,2009,2(1):1-127.

[6]HUANG G B,LEE H,LEARNED-MILLER E.Learning hierarchicalrepresentationsforfaceverificationwith convolutional deep belief networks[C]//IEEE Conference on Computer Vision and Pattern Recognition.Providence,USA: IEEE,2012:2518-2525.

[7]SKLAN J E,PLASSARD A J,FABBRI D,et al.Toward content basedimageretrievalwithdeepconvolutionalneural networks[C]//SPIE Medical Imaging,International Society for Optics and Photonics.Renaissance Orlando,Florida,at Seaword, USA:SPIE,2015:94172c.

[8]SZEGEDY C,LIU W,JIA Y,et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Boston,MA,USA:IEEE, 2015:1-9.

[9]LECUN Y,BOTTOU L,BENGIO Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[10]JI S,YANG M,YU K.3D convolutional neural networks for human action recognition[J].IEEE Trans Pattern Anal Mach Intell,2013,35(1):221-231.

[11]SIMONYAN K,ZISSERMAN A.Two-stream convolutional networks for action recognition in videos[C]//Advances in Neural Information Processing Systems.2014:568-576.

[12]KARPATHY A,TODERICI G,SHETTY S,et al.Large-scale video classification with convolutional neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition. Columbus,OH,USA:IEEE,2014:1725-1732.

[13]MEMISEVICR.Learningtorelateimages[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013, 35(8):1829-1846.

[14]LE Q V,ZOU W Y,YEUNG S Y,et al.Learning hierarchical invariant spatio-temporal features for action recognition with independentsubspaceanalysis[C]//IEEEConferenceon Computer Vision and Pattern Recognition.Colorado Springs, USA:IEEE,2011:3361-3368.

[15]SCHINDLER K,SCHINDLER K,van GOOL L,et al.Action snippets:how many frames does human action recognition requireC]//IEEE Conference on Computer Vision and Pattern Recognition.Alaska,USA:IEEE,2008:1-8.

[16]LUCEY P,COHN J F,KANADE T,et al.The extended Cohn-Kanade Dataset(CK+):a complete dataset for action unit and emotion-specified expression[C]//IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA, USA:2010:94-101.

[17]CHEW S W,LUCEY P,LUCEY S,et al.Person-independent facial expression detection using constrained local models[C]// IEEE International Conference on Automatic Face Gesture Recognition.Santa Barbara,California,USA:IEEE,2011: 915-920.

[18]JAIN S,HU C,AGGARWAL J K.Facial expression recognition with temporal modeling of shapes[C]//IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011: 1642-1649.

[19]GUNES H,PICCARDI M.A bimodal face and body gesture database for automatic analysis of human nonverbal affective behavior[C]//18thInternationalConferenceonPattern Recognition.Hong Kong,China,2006:1148-1153.

[20]GUNESH,PICCARDIM.Automatictemporalsegment detection and affect recognition from face and body display[J]. IEEE Trans Syst Man Cybern B Cybern,2009,39(1):64-84.

(編輯陳燦華)

Facial expression recognition model based on deep spatiotemporal convolutional neural networks

YANG Gelan1,2,DENG Xiaojun3,LIU Cong1
(1.School of Electronics and Information Engineering,Tongji University,Shanghai 201804,China;
2.School of Information Science and Engineering,Hunan City University,Yiang 413000,China;
3.College of Computer and Communication,Hunan University of Technology,Zhuzhou 412007,China)

Considering that the feature extraction is crucial phases in the process of facial recognition,and it incorporates manual intervention that hinders the development of reliable and accurate algorithms,in order to describe facial expression in a data-driven fashion,a temporal extension of convolutional neural network was developed to exploit dynamics of facial expressions and improve performance.The model was fundamental on the multiplicative interactions between convolutional outputs,instead of summing filter responses,and the responses were multiplied.The developed approach was capable of extracting features not only relevant to facial motion,but also sensitive to the appearance and texture of the face.The introduction of hierarchical structure from deep learning makes the approach learn the high-level and global features.The end to end training strategy optimizes all the parameters under the uniform objective.The results show that the approach extracts the two types of features simultaneously as natural outcome of the developed architecture. The learnt fitters are similar to the receptive field area of visual cortex.The model is proved to be effective.

affect computing;facial expression recognition;spatiotemporal space;convolutional neural networks;deep learning

鄧曉軍,副教授,從事圖像處理和參數(shù)優(yōu)化等研究;E-mail:little_army@139.com

TP301

A

1672-7207(2016)07-2311-09

10.11817/j.issn.1672-7207.2016.07.019

2015-07-12;

2015-09-22

湖南省自然科學基金資助項目(2015JJ2046);湖南省教育廳優(yōu)秀青年項目(12B023)(Project(2015JJ2046)supported by the Natural Science Foundation of Hunan Province;Project(12B023)supported by Science Research Foundation of Education Department of Hunan Province)

猜你喜歡
空域正確率卷積
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
我國全空域防空體系精彩亮相珠海航展
門診分診服務態(tài)度與正確率對護患關系的影響
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
生意
品管圈活動在提高介入手術安全核查正確率中的應用
天津護理(2016年3期)2016-12-01 05:40:01
生意
故事會(2016年15期)2016-08-23 13:48:41
基于貝葉斯估計的短時空域扇區(qū)交通流量預測
淺談我國低空空域運行管理現(xiàn)狀及發(fā)展
谢通门县| 库尔勒市| 光山县| 新丰县| 珲春市| 连城县| 富裕县| 会东县| 阳西县| 虎林市| 罗定市| 灵台县| 靖宇县| 德化县| 和平区| 齐齐哈尔市| 错那县| 广灵县| 梨树县| 定日县| 天全县| 定结县| 定边县| 绿春县| 保山市| 福泉市| 新巴尔虎右旗| 潮州市| 锡林浩特市| 依安县| 玉屏| 遵义县| 木兰县| 黄龙县| 长寿区| 古交市| 潜江市| 高台县| 香港| 金坛市| 同心县|