国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人臉表情識(shí)別研究進(jìn)展

2021-12-17 00:56:12姜月武路東生黨良慧楊永兆施建新
關(guān)鍵詞:人臉特征提取深度

姜月武,路東生,黨良慧,楊永兆,施建新

(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)

0 引言

人臉表情是肢體語言的一種,肢體語言在人際交流中具有表達(dá)情感的作用。人臉表情識(shí)別是一個(gè)多學(xué)科交叉研究的熱點(diǎn),主要有心理學(xué)、生物學(xué)、計(jì)算機(jī)科學(xué)等。早在20 世紀(jì)70 年代,Ekman 和Friesen就在跨文化研究結(jié)論的基礎(chǔ)上定義了6 種基本情緒:憤怒、厭惡、恐懼、高興、悲傷和驚訝,而這項(xiàng)研究表明人類對(duì)某些基本情緒的感知方式是相同的[1]。還有其它情感描述模型如面部動(dòng)作編碼系統(tǒng)(FACS),其可以進(jìn)行更寬泛和多種類的人臉表情刻畫和分類。人臉識(shí)別技術(shù)的早期探索始于SUWA M等通過在連續(xù)的人臉圖像序列上進(jìn)行特征點(diǎn)的標(biāo)記,再去跟蹤識(shí)別這些特征點(diǎn)的變化與原模型進(jìn)行比較得到表情信息[2]。基于傳統(tǒng)機(jī)器學(xué)習(xí)的人臉表情識(shí)別技術(shù)依賴于人工特征。局部二值算法(LBP)、Gabor 特征提取、主動(dòng)形狀模型(ASM)等是機(jī)器學(xué)習(xí)算法常用提取特征的方法,這些方法常常用于小數(shù)據(jù)集。隨著計(jì)算機(jī)硬件的提升和高性能GPU 的出現(xiàn),深度學(xué)習(xí)網(wǎng)絡(luò)重新成為了熱點(diǎn),2012 年基于CNN 搭建的AlexNet 模型的出現(xiàn),表情識(shí)別的準(zhǔn)確率實(shí)現(xiàn)了大幅提升,遠(yuǎn)超傳統(tǒng)機(jī)器學(xué)習(xí)的準(zhǔn)確率[3]。

本文對(duì)人臉表情識(shí)別在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)上國(guó)內(nèi)外的研究進(jìn)展進(jìn)行綜述,首先介紹常用的人臉表情數(shù)據(jù)集;而后分別就機(jī)器學(xué)習(xí)與深度學(xué)習(xí)在人臉表情識(shí)別的主要算法分別進(jìn)行了總結(jié);最后展望未來表情識(shí)別技術(shù)的挑戰(zhàn)與機(jī)遇,對(duì)表情識(shí)別技術(shù)的未來發(fā)展趨勢(shì)進(jìn)行了分析。

1 面部表情數(shù)據(jù)集

常用的人臉表情數(shù)據(jù)集有CK+數(shù)據(jù)集、MMI數(shù)據(jù)集、JAFFE數(shù)據(jù)集、BHU數(shù)據(jù)集、FER2013 數(shù)據(jù)集、AFEW數(shù)據(jù)集等。FER2013 包含的7 種表情,如圖1 所示。本文根據(jù)數(shù)據(jù)集的屬性,從數(shù)據(jù)集數(shù)據(jù)樣本、收集環(huán)境及方式和表情分布進(jìn)行了總結(jié),見表1。

表1 表情數(shù)據(jù)集及簡(jiǎn)介Tab.1 Expression data set and introduction

圖1 FER2013 數(shù)據(jù)集包含的7 種基本表情Fig.1 The seven basic emoticons of FER2013 dataset

2 基于機(jī)器學(xué)習(xí)的人臉表情識(shí)別

人臉表情識(shí)別是圖像識(shí)別的一種,機(jī)器學(xué)習(xí)算法一直是圖像識(shí)別任務(wù)的常用算法,具有較高的識(shí)別精度?;跈C(jī)器學(xué)習(xí)的人臉表情識(shí)別算法的主要處理步驟包含:圖像預(yù)處理、特征提取和表情分類。

2.1 圖像預(yù)處理

圖像預(yù)處理的2 個(gè)主要作用:一是去除與人臉表情無關(guān)的成分;二是削弱對(duì)特征有影響的因素。去除與人臉無關(guān)的成分,包含去除背景、截取只含有人臉的圖片。一幅圖像除圖像信息外還包含噪聲信息,這些噪聲信息會(huì)對(duì)特征提取造成影響。由于光照的波動(dòng)影響特征的提取率,人臉表情特征提取的紋理特征比較容易受到不均衡光照強(qiáng)度的影響。通過光照歸一化可有效的去除了光照的影響[4]。還有一些處理涉及到圖像的大小問題,只需要考慮關(guān)鍵特征不丟失的情況,適當(dāng)?shù)臏p小圖像尺寸。

2.2 圖像的特征提取

特征提取在分類任務(wù)上是核心問題,提取到能代表分類信息的有用特征關(guān)乎到人臉表情識(shí)別的準(zhǔn)確度。下面列舉一些常用的人臉表情特征提取算法:

局部二值算法(LBP)是一種描述圖像局部紋理的算子,由于LBP 具有良好的灰度不變性與旋轉(zhuǎn)不變性,根據(jù)這種特性LBP 常被用來應(yīng)用于紋理分類、人臉識(shí)別、手勢(shì)識(shí)別等領(lǐng)域[5]。王憲等根據(jù)基本LBP 算子提取的特征缺乏完整性的特點(diǎn),提出了分塊的完備局部二值模式(CLBP),先進(jìn)行不同的算子分塊的直方圖統(tǒng)計(jì)特征的提取,然后將所有分塊的CLBP 直方圖序列連接起來得到人臉的CLBP特征[6];Jabid 提出基于局部方向模式(LDP),通過計(jì)算邊緣反應(yīng)來增強(qiáng)算法的魯棒性[7]。

Gabor 小波的響應(yīng)與人類視覺系統(tǒng)中簡(jiǎn)單細(xì)胞的視覺刺激響應(yīng)非常相似,Gabor 小波對(duì)圖像邊緣具有良好的敏感性,同時(shí)對(duì)光照具有魯棒性,Gabor小波被廣泛的應(yīng)用于視覺處理領(lǐng)域[8]。針對(duì)傳統(tǒng)的Gabor 濾波器特征冗余的缺點(diǎn),改進(jìn)了一種新穎的局部Gabor 濾波器組,在人臉表情特征提取上有了很大的提升[9];劉帥師等提出采用Gabor 多方向特征融合與分塊直方統(tǒng)計(jì)圖相結(jié)合的方法來提取表情特征,能夠有效地表征圖像的全局特征[10]。

Haar-like 特征定義了4 種由黑色區(qū)域和白色區(qū)域組成的基本窗口,這些窗口在圖像上滑動(dòng),遍歷整個(gè)圖像,黑色區(qū)域像素之和減去白色區(qū)域像素之和的差就是特征的一個(gè)維度;Lienhart R等在4 個(gè)特征基礎(chǔ)上進(jìn)行了擴(kuò)展,擴(kuò)展為14 個(gè),增加了旋轉(zhuǎn)性,能夠提取到更為豐富的邊緣信息[11];胡敏等提出Haar-like 特征與直方圖加權(quán)的方法,使得局部特征描述的更加充分[12]。

光流法是基于光流的運(yùn)動(dòng)目標(biāo)檢測(cè)算法,應(yīng)用于行人識(shí)別、目標(biāo)檢測(cè)。光流法在人臉表情識(shí)別中被應(yīng)用于基于序列的表情識(shí)別。吳新根等提出了一種改進(jìn)的瞬時(shí)位置速度估計(jì)方法,克服了光流算法的漂移問題,也加快了收斂速度[13]。

人臉表情特征提取是表情識(shí)別的關(guān)鍵問題,符合任務(wù)場(chǎng)景的特征有利于表情識(shí)別的完成,上述提取特征算法是人臉表情識(shí)別常用的算法,另外還有顏色特征、形狀特征、HOG 特征等也被用來刻畫人臉表情。

2.3 表情分類算法

特征提取后,通過分類器進(jìn)行表情所屬類別的判斷。合適的分類器對(duì)表情分類起著重要作用,如何設(shè)計(jì)高性能的分類器也是表情識(shí)別任務(wù)的一個(gè)重要研究方向,人臉表情識(shí)別幾種分類器介紹:

支持向量機(jī)(SVM)是建立在統(tǒng)計(jì)學(xué)VC 理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,其對(duì)于小樣本、非線性和高位模式識(shí)別問題的分類問題具有良好的解決能力。標(biāo)準(zhǔn)的SVM 問題的本質(zhì)是求解一個(gè)受約束的二次型規(guī)劃。通過特征融合,再利用SVM 進(jìn)行人臉表情的識(shí)別,在CK 數(shù)據(jù)集上取得了95%的準(zhǔn)確率[14];結(jié)合Gabor 小波與SVM,減少了數(shù)據(jù)量的處理,取得了很好地效果[15]。

隱馬爾可夫模型(HMM)是一種基于數(shù)理統(tǒng)計(jì)模型,描述一個(gè)含有隱含未知數(shù)的馬爾科夫過程,其在語音識(shí)別、模式識(shí)別被廣泛應(yīng)用,一般用于解決基于序列的問題。在表情識(shí)別領(lǐng)域,隱馬爾可夫模型一般用于處理基于動(dòng)態(tài)序列的人臉表情識(shí)別問題。

貝葉斯分類器是指以貝葉斯定理為核心的算法總稱,貝葉斯決策通過相關(guān)概率已知的情況利用誤判的損失來選擇最優(yōu)的類別分類。改進(jìn)貝葉斯分類器并結(jié)合傳統(tǒng)的人臉特征,提高了識(shí)別率并對(duì)光照和表情變化有較好的魯棒性[16]。

傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法對(duì)大型數(shù)據(jù)處理往往面臨著各種問題,傳統(tǒng)機(jī)器學(xué)習(xí)算法大都只學(xué)習(xí)出一種分類邊界,不具有多維分類的特性。人臉表情識(shí)別也逐漸向深度學(xué)習(xí)領(lǐng)域發(fā)展,但傳統(tǒng)機(jī)器學(xué)習(xí)在表情識(shí)別上的應(yīng)用依然值得探索。機(jī)器學(xué)習(xí)算法在常用的數(shù)據(jù)上的識(shí)別結(jié)果見表2。

表2 傳統(tǒng)機(jī)器學(xué)習(xí)算法在常用表情數(shù)據(jù)集上的比較Tab.2 Comparison of traditional machine learning algorithms on commonly used expression datasets

3 基于深度學(xué)習(xí)的人臉表情識(shí)別

深度學(xué)習(xí)的相關(guān)研究在圖像識(shí)別領(lǐng)域取得很大進(jìn)展,在ImageNet 數(shù)據(jù)集的識(shí)別率已經(jīng)接近人類水平。在表情識(shí)別領(lǐng)域,深度學(xué)習(xí)相關(guān)算法已經(jīng)居于主要地位,被廣泛應(yīng)用于基于靜態(tài)圖像和動(dòng)態(tài)序列的表情識(shí)別問題。研究者們從各個(gè)角度出發(fā)提高表情識(shí)別的準(zhǔn)確率,從特征的優(yōu)化到數(shù)據(jù)的增強(qiáng),從網(wǎng)絡(luò)結(jié)構(gòu)的變化到新的分類器的提出。

3.1 數(shù)據(jù)預(yù)處理

深度學(xué)習(xí)同樣也需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,去除與面部表情無關(guān)的背景和圖像在光照、頭部姿態(tài)上的差異。這些因素會(huì)影響到深度網(wǎng)絡(luò)的特征學(xué)習(xí),在訓(xùn)練之前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是很有必要的。

3.1.1 人臉對(duì)齊

人臉對(duì)齊是表情識(shí)別的一個(gè)關(guān)鍵步驟。給定一系列的數(shù)據(jù),首先要檢測(cè)出人臉,之后再進(jìn)行人臉圖像的裁剪以及其它變化。Viola-Jones 檢測(cè)器是最廣泛和經(jīng)典的檢測(cè)器,其輸入特征為haar-like 特征,對(duì)矩形圖像區(qū)域像素及和差的閾值化,具有良好的魯棒性,用于正面人臉識(shí)別[22];監(jiān)督下降法(supervised descent method,SDM)通過級(jí)聯(lián)回歸函數(shù),將圖像外觀映射到關(guān)鍵點(diǎn)位,取得比較好的效果,深度網(wǎng)絡(luò)被廣泛用于人臉識(shí)別[23];級(jí)聯(lián)CNN 是早期以級(jí)聯(lián)方式預(yù)測(cè)關(guān)鍵點(diǎn),級(jí)聯(lián)回歸在人臉對(duì)齊任務(wù)上具有高速度和準(zhǔn)確性,除此之外還考慮多個(gè)人臉檢測(cè)器組合來提高性能[24]。將不同的面部關(guān)鍵點(diǎn)探測(cè)器串聯(lián)起來,通過不同關(guān)鍵點(diǎn)的幾何位置進(jìn)行人臉對(duì)齊[25]。

3.1.2 人臉標(biāo)準(zhǔn)化

在表情識(shí)別中光照和姿態(tài)的變化往往對(duì)特征提取造成影響,導(dǎo)致提取不到人臉表情特征,光照歸一化和姿態(tài)歸一化是比較常用的歸一化方法?;诟飨蛲詳U(kuò)散(IS)的歸一化方法、局域離散余弦變換歸一化與高斯分布的差分(DOG)在光照歸一化上取得了很好地效果,有效的去除了光照不均衡對(duì)特征的影響;直方圖均衡化于光照歸一化在人臉識(shí)別取得不錯(cuò)的性能[26]。姿態(tài)歸一化問題一直以來是一個(gè)難題,野外數(shù)據(jù)集的姿態(tài)復(fù)雜,不同于實(shí)驗(yàn)室數(shù)據(jù)集,對(duì)表情識(shí)別任務(wù)造成嚴(yán)重影響,最新的研究方法是基于GAN 網(wǎng)絡(luò)進(jìn)行正面表情的合成。

3.2 深度網(wǎng)絡(luò)結(jié)構(gòu)

深度學(xué)習(xí)網(wǎng)絡(luò)利用組合低層特征去形成更加抽象的高維表示特征,應(yīng)用這些高維特征來發(fā)現(xiàn)數(shù)據(jù)的分布,從而實(shí)現(xiàn)數(shù)據(jù)的分類。深度學(xué)習(xí)網(wǎng)絡(luò)有著豐富的結(jié)構(gòu),實(shí)現(xiàn)端到端的分類任務(wù)。表情識(shí)別常用的網(wǎng)絡(luò)結(jié)構(gòu):

3.2.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)

由于CNN 對(duì)人臉位置變化和尺度變化具有很強(qiáng)的魯棒性,CNN 網(wǎng)絡(luò)被廣泛的應(yīng)用。使用CNN對(duì)人臉表情識(shí)別中主體獨(dú)立性、平移、旋轉(zhuǎn)、尺度不變性等問題有了很好地解決[27]。CNN 由卷積層、池化層、全連接層組成,其結(jié)構(gòu)如圖2 所示。卷積層主要利用卷積核計(jì)算,卷積核是指對(duì)于輸入圖像的一部分區(qū)域,進(jìn)行加權(quán)平均的處理,這個(gè)過程的權(quán)重由一個(gè)函數(shù)定義,這個(gè)函數(shù)就是卷積核。通過核函數(shù)對(duì)輸入的圖像進(jìn)行卷積操作,經(jīng)過激活函數(shù)線性化后得到特征圖;池化層連接在卷積層之后,其作用相當(dāng)于對(duì)特征圖進(jìn)行特征提取,減小輸入特征圖尺寸和數(shù)據(jù)量,同時(shí)獲取更抽象的特征,防止過擬合,提高泛化性;全連接層將高維的特征圖轉(zhuǎn)化為一維特征圖,實(shí)現(xiàn)分類的任務(wù)。常見的CNN 網(wǎng)絡(luò)架構(gòu)有AlexNet、VGGNet、GoogleNet、ResNet等。

圖2 CNN 結(jié)構(gòu)圖Fig.2 CNN structure diagram

3.2.2 深度信念網(wǎng)絡(luò)(DBN)

深度信念網(wǎng)絡(luò)(DBN)由Geoffrey Hinton 提出,其是一種生成模型,通過訓(xùn)練不斷優(yōu)化其神經(jīng)元間的權(quán)重,可以讓整個(gè)神經(jīng)網(wǎng)絡(luò)按照最大概率來生成訓(xùn)練數(shù)據(jù)。DBN 由多層神經(jīng)元構(gòu)成,這些神經(jīng)元分為顯性神經(jīng)元(顯元)和隱性神經(jīng)元(隱元),顯元接收輸入,隱元提取特征,如圖3 所示。最上面的兩層間的連接是無向的,組成聯(lián)合內(nèi)存;較低的其它層之間有連接上下的有向連接;最底層代表了數(shù)據(jù)向量,每一個(gè)神經(jīng)元代表數(shù)據(jù)向量的一維。DBN 的組成元件是受限玻爾茲曼機(jī)(RBM),其訓(xùn)練過程一般包含2 個(gè)階段,第一階段被稱為預(yù)訓(xùn)練階段,通過無監(jiān)督地訓(xùn)練每一層RBM 網(wǎng)絡(luò),使特征向量盡可能的映射到不同特征空間,從而盡可能多地保留特征信息;第二階段叫做微調(diào),通過反向傳播網(wǎng)絡(luò),將錯(cuò)誤信息自頂向下傳播至每一層RBM,微調(diào)DBN 網(wǎng)絡(luò)。

圖3 DBN 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 DBN network structure diagram

3.2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)

循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)常用于挖掘數(shù)據(jù)中的時(shí)序信息以及語義信息的深度表達(dá),在語音識(shí)別、語言模型、機(jī)器翻譯以及時(shí)序分析等方面實(shí)現(xiàn)了突破。網(wǎng)絡(luò)架構(gòu)上,循環(huán)神經(jīng)網(wǎng)絡(luò)會(huì)記憶之前的信息,并對(duì)后面的信息造成影響。長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)解決了RNN 在信息間隔比較大時(shí)喪失學(xué)習(xí)能力,或者在信息間隔大小不同、長(zhǎng)短不一時(shí)RNN 的性能有所降低[28]。LSTM 通過一些“門”結(jié)構(gòu)讓信息有選擇的影響循環(huán)神經(jīng)網(wǎng)絡(luò)每個(gè)時(shí)刻的狀態(tài),LSTM 的門一般包括遺忘門、輸入門和輸出門3 種,如圖4 所示。遺忘門在LSTM 中即以一定的概率控制是否遺忘上一層的隱藏細(xì)胞狀態(tài)。一種嵌套LSTM,內(nèi)部進(jìn)行時(shí)間動(dòng)態(tài)建模,外部進(jìn)行輸出,集成獲取多層次特征[29]。

圖4 LSTM 的門運(yùn)算結(jié)構(gòu)Fig.4 Gate operation structure of LSTM

3.3 基于深度網(wǎng)絡(luò)的表情識(shí)別

隨著深度學(xué)習(xí)在人臉表情識(shí)別領(lǐng)域的發(fā)展,基于深度網(wǎng)絡(luò)的表情識(shí)別算法大量出現(xiàn),根據(jù)處理數(shù)據(jù)類型可分為靜態(tài)圖像的表情識(shí)別和動(dòng)態(tài)序列的表情識(shí)別算法。

3.3.1 靜態(tài)圖像

靜態(tài)圖像表情識(shí)別算法通過預(yù)訓(xùn)練和微調(diào)、增加功能模塊、構(gòu)建級(jí)聯(lián)網(wǎng)絡(luò)等策略來提升表情識(shí)別的準(zhǔn)確率。Yao等提出了一個(gè)新穎的CNN 架構(gòu)HoloNet,其將CReLU 激活函數(shù)與殘差網(wǎng)絡(luò)相結(jié)合,在不降低效率的情況下增加網(wǎng)絡(luò)深度,并設(shè)計(jì)了一個(gè)殘差塊,使得人臉表情識(shí)別系統(tǒng)通過學(xué)習(xí)多尺度特征以捕獲表情的變化,在人臉表情識(shí)別上取得很好地效果[30];基于單個(gè)深度網(wǎng)絡(luò)能取得了良好的結(jié)果,研究人員又把方向轉(zhuǎn)向多網(wǎng)絡(luò)集成的方向,一個(gè)良好的集成網(wǎng)絡(luò)應(yīng)考慮各個(gè)網(wǎng)絡(luò)的集成效果和網(wǎng)絡(luò)的互補(bǔ)性[31]。S.A.Bargal等提出了集合最優(yōu)的表情識(shí)別網(wǎng)絡(luò)如圖5 所示,通過串聯(lián)特征一維輸出層再進(jìn)行分類任務(wù)[32]。級(jí)聯(lián)網(wǎng)絡(luò)通過對(duì)不同任務(wù)的模塊進(jìn)行組合構(gòu)成一個(gè)更深層次的網(wǎng)絡(luò),Lv.Y等利用級(jí)聯(lián)結(jié)構(gòu)設(shè)計(jì)了新的人臉表情識(shí)別結(jié)構(gòu),使用DBN檢測(cè)人臉和與表情相關(guān)的區(qū)域,用堆疊式自動(dòng)編碼器對(duì)這些解析過的面元進(jìn)行分類[33]。

圖5 網(wǎng)絡(luò)集成結(jié)構(gòu)網(wǎng)絡(luò)Fig.5 The network integration structure

3.3.2 動(dòng)態(tài)序列

基于動(dòng)態(tài)序列的表情識(shí)別通過從連續(xù)幀的時(shí)間相關(guān)性來獲取信息,常用的策略有幀聚合、表情強(qiáng)度網(wǎng)絡(luò)、深度時(shí)空網(wǎng)絡(luò)。幀聚合策略利用視頻片段中,幀在表達(dá)強(qiáng)度上不同的特點(diǎn)進(jìn)行特征的提取,通過各種算法來聚合幀的輸出[34]。通過將所有幀的特征的均值、方差、最小值和最大值串聯(lián)起來實(shí)現(xiàn)幀聚合[35];對(duì)于大多基于序列的表情識(shí)別算法往往忽略細(xì)微的表情,表情強(qiáng)度以不同強(qiáng)度的訓(xùn)練樣本作為輸入,利用表情強(qiáng)度不同序列中表達(dá)之間的內(nèi)在相關(guān)性進(jìn)行特征的優(yōu)化提?。?5];Zhao等提出峰值導(dǎo)數(shù)深度網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,將同一表情、同一對(duì)象的一對(duì)峰值和非峰值圖像作為輸入,利用L2 范數(shù)損失來最小化兩幅圖像之間的距離[36]。在反向傳播過程中,提出了一種峰值梯度抑制(PGS)方法,在避免反向傳播的同時(shí),將非峰值表達(dá)式的學(xué)習(xí)特征推向峰值表達(dá)式的學(xué)習(xí)特征,從而提高了對(duì)低強(qiáng)度表達(dá)式的網(wǎng)絡(luò)識(shí)別能力。雖然幀聚合技術(shù)可以在視頻序列中集成幀,但時(shí)間依賴性沒有被利用。利用深度時(shí)空網(wǎng)絡(luò)在未知表情強(qiáng)度的前提下,將時(shí)間窗口中的一系列幀作為單個(gè)輸入,利用紋理和時(shí)間信息對(duì)更細(xì)微的表達(dá)進(jìn)行編碼[37]。在真實(shí)場(chǎng)景中,人的面部表情是一個(gè)動(dòng)態(tài)的過程,從細(xì)微到明顯,通過序列進(jìn)行人臉表情的分析是未來研究的重要方向。

圖6 PPDN 級(jí)聯(lián)網(wǎng)絡(luò)Fig.6 PPDN cascade network

構(gòu)建良好的深度表情識(shí)別系統(tǒng)主要存在以下問題:缺乏豐富多樣的訓(xùn)練數(shù)據(jù)和表情無關(guān)的變化因素,如光照、頭部姿勢(shì)和人種。為了解決訓(xùn)練數(shù)據(jù)不足和過度擬合的問題,預(yù)訓(xùn)練和微調(diào)、網(wǎng)絡(luò)級(jí)聯(lián)、網(wǎng)絡(luò)集合等成為人臉表情識(shí)別的主流。圖像預(yù)處理階段進(jìn)行光照歸一化、姿態(tài)歸一化和圖像裁剪操作,都能很好地去除無關(guān)因素的影響。面對(duì)頭部姿態(tài)的變化,大多數(shù)深度表情識(shí)別網(wǎng)絡(luò)還是沒能很好地處理這個(gè)問題。本文對(duì)深度學(xué)習(xí)在人臉識(shí)別任務(wù)上的算法進(jìn)行了總結(jié),以不同的表情庫(kù)為依據(jù),分別對(duì)研究者、深度網(wǎng)絡(luò)結(jié)構(gòu)、網(wǎng)絡(luò)層數(shù)、訓(xùn)練數(shù)據(jù)的選擇和準(zhǔn)確率進(jìn)行了統(tǒng)計(jì),見表3。

表3 基于深度網(wǎng)絡(luò)的人臉表情識(shí)別算法Tab.3 Facial expression recognition algorithm based on deep network

4 表情識(shí)別的挑戰(zhàn)和發(fā)展趨勢(shì)

表情識(shí)別目前無論是基于圖像還是基于序列的人臉表情識(shí)別都已經(jīng)很成熟了,并實(shí)現(xiàn)了很高的識(shí)別率,但是仍然存在一些問題和亟待突破的問題:

(1)表情識(shí)別的數(shù)據(jù)庫(kù)往往都是在實(shí)驗(yàn)室環(huán)境下獲取的,數(shù)據(jù)集相對(duì)單一;

(2)在SFEW 數(shù)據(jù)集上的表情識(shí)別準(zhǔn)確率比較低,原因在于野外靜態(tài)面部數(shù)據(jù)集的數(shù)據(jù)來自自然環(huán)境,包含很多影響因素如光照、姿態(tài)等,凸顯了表情識(shí)別算法的魯棒性不足;

(3)數(shù)據(jù)集的匱乏也是人臉識(shí)別問題的關(guān)鍵問題。面對(duì)人臉表情的差異性、膚色、外貌都有可能不同,數(shù)據(jù)對(duì)于深度學(xué)習(xí)方法有著重要作用,使用豐富度更高的數(shù)據(jù)集可訓(xùn)練出泛化性更好的表情識(shí)別網(wǎng)絡(luò);

(4)傳統(tǒng)的表情分類相對(duì)較少。人的情緒比較復(fù)雜,傳統(tǒng)的幾類表情不能適應(yīng)人機(jī)交互的復(fù)雜性,實(shí)用性可能大打折扣。

人臉表情識(shí)別基于圖像與其它媒介進(jìn)行結(jié)合研究也取得了較大進(jìn)展。語音與圖像的人臉表情識(shí)算法、3D 表情的人臉識(shí)別在解決遮擋問題上有了很大的突破;通過紅外線獲取面部的熱數(shù)據(jù),微調(diào)學(xué)習(xí)熱特征來進(jìn)行人臉表情識(shí)別,有效的避免了光照的影響。人臉表情識(shí)別在人臉遮擋上也是一個(gè)比較熱門的研究方向,遮擋和非正面識(shí)別目前是人臉識(shí)別及表情識(shí)別的兩大難題。

猜你喜歡
人臉特征提取深度
有特點(diǎn)的人臉
深度理解一元一次方程
深度觀察
深度觀察
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
三國(guó)漫——人臉解鎖
深度觀察
Bagging RCSP腦電特征提取算法
馬面部與人臉相似度驚人
基于MED和循環(huán)域解調(diào)的多故障特征提取
湖口县| 广宗县| 金阳县| 喀喇沁旗| 文成县| 台北县| 古丈县| 永福县| 海伦市| 巍山| 辰溪县| 鄯善县| 淮北市| 茶陵县| 汉寿县| 合川市| 德江县| 萨迦县| 工布江达县| 洪洞县| 东乌珠穆沁旗| 醴陵市| 云霄县| 陈巴尔虎旗| 海盐县| 三河市| 湟中县| 博兴县| 奇台县| 闽清县| 高平市| 富民县| 信阳市| 出国| 平度市| 绥德县| 潞城市| 霍州市| 乐亭县| 达尔| 共和县|