国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

傳統(tǒng)機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的表情識(shí)別綜述

2020-07-24 02:11皮冰斌王云光
軟件導(dǎo)刊 2020年6期
關(guān)鍵詞:機(jī)器學(xué)習(xí)特征提取深度學(xué)習(xí)

皮冰斌 王云光

摘要:面部表情識(shí)別是計(jì)算機(jī)視覺熱門領(lǐng)域.表情識(shí)別技術(shù)使得計(jì)算機(jī)能夠理解人類的情緒,具有廣闊應(yīng)用前景。針對(duì)基于傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的表情識(shí)別方法進(jìn)行研究,首先歸納表情識(shí)別領(lǐng)域常用的公開數(shù)據(jù)集;然后從傳統(tǒng)的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)角度介紹表情識(shí)別基本流程與常見方法;最后指出表情識(shí)別領(lǐng)域存在的問題,并對(duì)未來(lái)可能的發(fā)展方向進(jìn)行了總結(jié)。

.

關(guān)鍵詞:表情識(shí)別;機(jī)器學(xué)習(xí);深度學(xué)習(xí);圖像預(yù)處理;特征提取;表情分類

DOI:10.11907/rjdk.192322 開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

中圖分類號(hào):TP301文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2020)006-0044-04

0 引言

心理學(xué)家Russeli的研究結(jié)果表明,人們?nèi)粘=涣髦兄挥?%的信息是通過語(yǔ)言傳遞的,55%的信息是通過面部表情體現(xiàn)的。文獻(xiàn)[1]-文獻(xiàn)[2]表明,面部表情是人類傳達(dá)情緒狀態(tài)和意圖最有效、最自然和最普遍的信號(hào)之一。

早在2l世紀(jì),心理學(xué)家Ekman&Friesen就提出人類有6種主要情感(憤怒、高興、悲傷、驚訝、厭惡和恐懼)。人臉表情識(shí)別,就是利用表情識(shí)別技術(shù)對(duì)人面部的表情信息進(jìn)行特征提取和表情分類的過程。計(jì)算機(jī)獲知人的表情信息,進(jìn)而推斷人的心理狀態(tài),最終實(shí)現(xiàn)人機(jī)智能交互。

表情識(shí)別是計(jì)算機(jī)視覺和人工智能的一個(gè)重要領(lǐng)域,不僅具有突出的科研價(jià)值,還有廣闊的應(yīng)用前景,例如臨床醫(yī)療、網(wǎng)絡(luò)學(xué)習(xí)、安全駕駛等。在相關(guān)領(lǐng)域,國(guó)內(nèi)已取得不少研究成果,但國(guó)外表情識(shí)別研究大幅領(lǐng)先,目前已經(jīng)進(jìn)入商業(yè)化階段。

1 表情識(shí)別數(shù)據(jù)集

對(duì)于深度表達(dá)識(shí)別系統(tǒng)設(shè)計(jì),擁有足夠數(shù)量的標(biāo)記訓(xùn)練數(shù)據(jù)且數(shù)據(jù)盡可能多地考慮到種群和環(huán)境變化是十分重要的。表情識(shí)別領(lǐng)域常用的公開數(shù)據(jù)集如表l所示。

2 表情識(shí)別基本流程與方法

表情識(shí)別分為圖像預(yù)處理、特征提取和表情分類3個(gè)步驟,如圖1所示。①?gòu)妮斎说膱D片中識(shí)別找出目標(biāo)區(qū)域(人臉檢測(cè)),并將圖片進(jìn)行歸一化處理;②從處理后的圖片中提取能夠最大程度上表達(dá)整個(gè)人臉面部的特征信息;③將上一步得到的特征送到分類器中進(jìn)行表情分類。

2.1 傳統(tǒng)方法

2.1.1 圖像輸入

目前表情識(shí)別研究中,輸人數(shù)據(jù)的形式主要是靜態(tài)二維圖像和動(dòng)態(tài)視頻流。表情識(shí)別數(shù)據(jù)集經(jīng)歷了從傳統(tǒng)實(shí)驗(yàn)室獲取較小樣本再到現(xiàn)實(shí)生活中大規(guī)模數(shù)據(jù)庫(kù)的過程,前者的表情圖片一般具有良好頭部姿態(tài),并且整個(gè)面部基本無(wú)遮擋,例如CK+、JAFFE和MMI等數(shù)據(jù)集;后者的識(shí)別因圖片接近真實(shí)的復(fù)雜環(huán)境而十分困難,常見的有FER2013和SFEW2.0等數(shù)據(jù)集。在表1中可以查看更多相關(guān)信息。

2.1.2 預(yù)處理

圖像預(yù)處理結(jié)果直接影響表情特征提取的準(zhǔn)確性和表情分類效果,從而影響表情識(shí)別準(zhǔn)確率。表情識(shí)別的預(yù)處理包括人臉檢測(cè)和歸一化兩部分。

人臉檢測(cè)就是使用人臉檢測(cè)算法檢測(cè)出人臉區(qū)域,即從包含非人臉區(qū)域的人臉圖像中找到并框選出人臉部分。傳統(tǒng)方法包括模板匹配、形狀與邊緣特征、紋理特征等基于知識(shí)的方法,以及支持向量機(jī)、隱馬爾可夫模型、Adaboost算法和主成分分析等基于統(tǒng)計(jì)的方法。

傳統(tǒng)人臉檢測(cè)技術(shù)最重要的突破是Viola-Jones人臉檢測(cè)器的成功設(shè)計(jì)。2001年,Paul Viola&Michael Jones設(shè)計(jì)出基于Haar特征的高效人臉檢測(cè)器,即VJ人臉檢測(cè)器。其算法創(chuàng)新包括3個(gè)方面:使用積分圖作為特征的快速計(jì)算方法、使用AdaBoost作為有效的分類器學(xué)習(xí)方法,以及高效的級(jí)聯(lián)結(jié)構(gòu)作為分類策略。在特征選擇方面,還有基于LBP、SURF和SIFT等特征的人臉檢測(cè)方法。直到2006年深度學(xué)習(xí)逐漸走進(jìn)人們視野之后,人臉檢測(cè)技術(shù)才慢慢實(shí)現(xiàn)深度學(xué)習(xí)的跨越式發(fā)展。

人臉圖像的歸一化,目的是使不同成像條件(光照強(qiáng)度、方向、距離、姿勢(shì)等)下拍攝的同一人照片具有一致性。人臉歸一化主要包括幾何歸一化和灰度歸一化。幾何歸一化目的是將表情子圖像變換為統(tǒng)一尺寸,有利于表情特征提取;灰度歸一化作用是增加圖像亮度,使圖像細(xì)節(jié)更加清晰,以降低光線和光照強(qiáng)度的影響。

2.1.3 特征提取

表情特征提取主要采用數(shù)學(xué)方法,依靠計(jì)算機(jī)技術(shù)對(duì)人臉表情的數(shù)字圖像進(jìn)行數(shù)據(jù)的組織和處理,提取表情特征,去除非表情噪聲。傳統(tǒng)特征提取方式可根據(jù)面部形變及紋理的不同分為主成分分析(PCA)、獨(dú)立分量分析(ICA)、線性判別分析(LDA)等方法,以及根據(jù)局部肌肉、紋理劃分為Gabor小波法、LBP算子法和Haar-like特征提取等方法,再就是基于動(dòng)態(tài)的光流法和模型法(ASM、AAM)等。文獻(xiàn)中使用優(yōu)化的ASM提取幾何特征并在模型中采用三角特征,最終得到了不錯(cuò)的結(jié)果;文獻(xiàn)[16]中結(jié)合使用AAM和ASM方法,彌補(bǔ)了AAM中特征點(diǎn)收斂問題。

絕大多數(shù)傳統(tǒng)方法使用人工提取特征或淺層特征。隨著大量表情數(shù)據(jù)庫(kù)的建立、計(jì)算能力的大幅提高以及表現(xiàn)良好的神經(jīng)網(wǎng)絡(luò)架構(gòu)出現(xiàn),表情識(shí)別領(lǐng)域的研究重心從傳統(tǒng)方法逐步轉(zhuǎn)向深度學(xué)習(xí)方法。

2.1.4 表情分類

表情分類是根據(jù)特征提取所得的信息,將輸入的圖片分為某種基本表情的過程。傳統(tǒng)表情分類方法有KNN、HMM、貝葉斯分類算法、SVM等傳統(tǒng)機(jī)器學(xué)習(xí)算法。

2.2 深度學(xué)習(xí)方法

基于深度學(xué)習(xí)的表情識(shí)別過程是一個(gè)端到端過程,基于深度學(xué)習(xí)的預(yù)處理過程包括傳統(tǒng)學(xué)習(xí)中的人臉檢測(cè)、人臉對(duì)齊、數(shù)據(jù)增強(qiáng)等一系列操作?;谏疃葘W(xué)習(xí)的人臉檢測(cè)和人臉對(duì)齊方法有CascadeCNN、MTCNN、Deep Face和FaceNet等。文獻(xiàn)中提出的CascadeCNN是較早的基于深度學(xué)習(xí)的人臉檢測(cè)方法,該方法是當(dāng)時(shí)基于CNN的人臉檢測(cè)方法中速度最快的;MTCNN將人臉檢測(cè)與關(guān)鍵點(diǎn)檢測(cè)放在一起完成,并在之后使用小網(wǎng)絡(luò)級(jí)聯(lián)方法;DeepFace主要是對(duì)人臉預(yù)處理部分做出很多精細(xì)化調(diào)整,而在算法上調(diào)整不大,但是識(shí)別效果卻得到大幅提升;FaceNet可以直接將人臉圖像映射到歐幾里得空間,空間距離長(zhǎng)度代表人臉圖像的相似性,基于該映射空間就可完成人臉識(shí)別等操作;文獻(xiàn)提出了基于GAN的數(shù)據(jù)增強(qiáng)方法;文獻(xiàn)闡述了基于GAN的歸一化處理方法。

深度學(xué)習(xí)特征提取是一個(gè)熱門研究方向。很多方法已經(jīng)應(yīng)用在表情識(shí)別領(lǐng)域,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)、深度置信網(wǎng)絡(luò)(DBN)、深度自編碼(DAE)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)等。

不同于傳統(tǒng)方法,深度學(xué)習(xí)特征提取和分類過程并不是獨(dú)立的。在卷積神經(jīng)網(wǎng)絡(luò)中,最常見的方法是在網(wǎng)絡(luò)的最末端使用softmax分類器作為最后的表情分類器,也有人嘗試使用SVM等傳統(tǒng)分類方法作為最后的表情分類,取得了不錯(cuò)的效果。

文獻(xiàn)[27]使用DBN和adaboost方法得到了較好的結(jié)果;文獻(xiàn)[28]使用CNN網(wǎng)絡(luò)在CK+數(shù)據(jù)集上得到了七分類96.1%的結(jié)果;文獻(xiàn)[29]使用CNN網(wǎng)絡(luò)進(jìn)行特征提取,將SVM作為分類器在MMI數(shù)據(jù)集上取得了六分類78.46%的準(zhǔn)確率。還有其它一些方法,對(duì)應(yīng)結(jié)果如表2所示。

3 研究展望

3.1 存在問題

表情識(shí)別是情感識(shí)別的一種重要方式,相對(duì)于語(yǔ)音和行為等主要的情感識(shí)別模式,表情識(shí)別具有很多優(yōu)點(diǎn),因此在圖像識(shí)別領(lǐng)域熱度很高。特別是在人臉識(shí)別技術(shù)日趨成熟且商業(yè)運(yùn)行愈發(fā)利好的環(huán)境下,作為其分支的表情識(shí)別更加備受關(guān)注。但是,目前仍然存在著很多亟待解決的問題。

(1)需要大量數(shù)據(jù)作為訓(xùn)練支撐。與深度學(xué)習(xí)其它領(lǐng)域一樣,一個(gè)數(shù)量和所攜帶信息充足同時(shí)又帶有標(biāo)注的高質(zhì)量數(shù)據(jù)集,在現(xiàn)實(shí)生活中并不容易獲取,而數(shù)據(jù)對(duì)于最后的處理結(jié)果來(lái)說至關(guān)重要。無(wú)監(jiān)督學(xué)習(xí)能否突破數(shù)據(jù)標(biāo)記的局限?對(duì)此,深度學(xué)習(xí)界領(lǐng)軍人物Yann LeCun多次探討“如何超越傳統(tǒng)深度學(xué)習(xí)的標(biāo)記訓(xùn)練例子”。他認(rèn)為另辟蹊徑的道路就是無(wú)監(jiān)督學(xué)習(xí),而整個(gè)AI界可能需要在基于能量的學(xué)習(xí)方法上做更多工作。

(2)過于依賴圖像預(yù)處理過程。不論輸入的表情圖片來(lái)自實(shí)驗(yàn)室還是真實(shí)環(huán)境的攝像頭,這些原始數(shù)據(jù)都很難達(dá)到直接輸入模型和算法進(jìn)行處理的程度。眾所周知,傳統(tǒng)識(shí)別方法過度依賴人工處理,但即使是進(jìn)行“端到端”的深度學(xué)習(xí)也需要很多預(yù)處理過程來(lái)提高最后的識(shí)別準(zhǔn)確度。

(3)方法創(chuàng)新程度跟不上發(fā)展需求。目前很多深度學(xué)習(xí)算法都是基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的改進(jìn),例如通過增加CNN網(wǎng)絡(luò)寬度和深度等方法實(shí)現(xiàn)創(chuàng)新。在特征選擇上的創(chuàng)新也只是通過多種模型的集成或不同特征的融合加以實(shí)現(xiàn)。雖然最終會(huì)提高準(zhǔn)確率,但這些方法在本質(zhì)上并沒有很大創(chuàng)新。

(4)分類表情種類受限。現(xiàn)階段很多研究都是基于1971年心理學(xué)家提出的基本表情,但實(shí)際中人類的表情非常復(fù)雜,遠(yuǎn)非六、七種能表達(dá)清楚,其中還可能包括表情的疊加和融合,以及微表情等等。

(5)數(shù)據(jù)結(jié)構(gòu)限制。目前絕大多數(shù)表情識(shí)別數(shù)據(jù)來(lái)源都是基于圖片或視頻,但這些數(shù)據(jù)缺乏很多重要的原始信息,如紋理和空間信息等等,這在本質(zhì)上與人類自身通過面部表情判斷對(duì)方情緒的模式存在很大差距。

3.2 未來(lái)展望

傳統(tǒng)表情識(shí)別技術(shù)的缺點(diǎn)是繁瑣的人工處理過程,以及識(shí)別準(zhǔn)確率易受位置、光照等不利因素的干擾。深度學(xué)習(xí)方法是一種端到端的過程,相對(duì)于傳統(tǒng)方法在處理大規(guī)模數(shù)據(jù)上有不少優(yōu)勢(shì),但在小樣本上容易表現(xiàn)過擬合和耗費(fèi)大量計(jì)算資源等問題。下面介紹目前比較前沿的研究方向。

(1)增加時(shí)空維度。人類表情的變化其實(shí)是一個(gè)動(dòng)態(tài)過程,如果能將平靜到產(chǎn)生情緒峰值,或者其它兩種表情之間的變化作為一種特征(序列信息)來(lái)學(xué)習(xí),就可形成三維數(shù)據(jù)輸入。目前該研究方向是引入RNN以及C3D模型。

(2)網(wǎng)絡(luò)集成。研究表明,融合了多個(gè)網(wǎng)絡(luò)的集成網(wǎng)絡(luò)比單個(gè)網(wǎng)絡(luò)表現(xiàn)更好。網(wǎng)絡(luò)集成一般要考慮兩個(gè)方面:特征集成和輸出的決策集成。特征集成包括兩種方法:①使用不同網(wǎng)絡(luò)模型產(chǎn)生不同的網(wǎng)絡(luò),比如使用分別經(jīng)過遷移VGGl9與Resnet的特征進(jìn)行集成;②使用不用的特征進(jìn)行特征融合,如文獻(xiàn)融合了Gabor和LBP特征。不論哪種方法,目的都是為了集成更多的原始數(shù)據(jù),輔助判斷有效信息,提高識(shí)別準(zhǔn)確率。

4 結(jié)語(yǔ)

針對(duì)表情識(shí)別研究,本文分別從傳統(tǒng)方法和深度學(xué)習(xí)兩個(gè)方面,對(duì)表情識(shí)別流程以及方法進(jìn)行了較為全面的闡述。對(duì)表情識(shí)別技術(shù)進(jìn)行了深入探討,并對(duì)未來(lái)的發(fā)展趨勢(shì)進(jìn)行了總結(jié)。

猜你喜歡
機(jī)器學(xué)習(xí)特征提取深度學(xué)習(xí)
基于Daubechies(dbN)的飛行器音頻特征提取
Bagging RCSP腦電特征提取算法
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
前綴字母為特征在維吾爾語(yǔ)文本情感分類中的研究
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于MED和循環(huán)域解調(diào)的多故障特征提取
Walsh變換在滾動(dòng)軸承早期故障特征提取中的應(yīng)用
廉江市| 寿光市| 临高县| 湘潭县| 海林市| 昂仁县| 衢州市| 通海县| 如东县| 庄浪县| 栖霞市| 门源| 山东省| 区。| 吉林省| 富平县| 班玛县| 务川| 称多县| 南皮县| 张家口市| 林口县| 内黄县| 池州市| 西城区| 泾源县| 庆云县| 盐城市| 新乐市| 宜州市| 成安县| 高台县| 平乐县| 微博| 海门市| 昌乐县| 西充县| 贵州省| 贡觉县| 疏附县| 玉溪市|