張?jiān)?/p>
隨著網(wǎng)絡(luò)媒體的飛速發(fā)展,大量用戶已經(jīng)習(xí)慣用視頻通話來與親朋好友交流,從而產(chǎn)生了龐大的數(shù)據(jù)量和各種各樣的微表情。這些微表情不僅表達(dá)了用戶本人的思想感情,還帶有極高的社會價(jià)值。為此,分析這些微表情中蘊(yùn)藏的情感已經(jīng)成為當(dāng)下研究熱點(diǎn)之一。
人工神經(jīng)網(wǎng)絡(luò)[1]是對人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行信息處理以達(dá)到抽象的目的,由大量的節(jié)點(diǎn)(或稱神經(jīng)元)相互聯(lián)接構(gòu)成。前饋神經(jīng)網(wǎng)絡(luò)FNN[2]就是最簡單的人工神經(jīng)網(wǎng)絡(luò)之一,它由輸入層、輸出層及隱含層三種層構(gòu)成。它可以接受輸入并進(jìn)行輸出,但由于各層之間沒有反饋,F(xiàn)NN沒有記憶功能,處理數(shù)據(jù)時(shí)只能使用當(dāng)前時(shí)刻信息,這樣便不能將捕獲到的微表情保留下來供以后使用。為了改進(jìn)這一缺點(diǎn),Jordan和Elman率先提出了循環(huán)反饋的神經(jīng)網(wǎng)絡(luò)RNN[3]。1997年Hochreiter&Schmidhuber提出了用長短期記憶單元LSTM[5]來改進(jìn)傳統(tǒng)的RNN模式,才有效解決了梯度消失與梯度爆炸的問題。針對以上神經(jīng)網(wǎng)絡(luò)的優(yōu)劣勢,本文提出基于LSTM的微表情分析模型——雙門LSTM模型,以提高對微表情的情感分析能力。
本文具體章節(jié)安排如下:第二節(jié)介紹了FNN、RNN與LSTM的運(yùn)作機(jī)制,尋找差異并比對了各自的優(yōu)缺點(diǎn);第三節(jié)闡述了自己的雙門LSTM模型,并介紹其工作原理;第四節(jié)將雙門LSTM模型運(yùn)用到情感分析當(dāng)中,實(shí)現(xiàn)長短時(shí)記憶網(wǎng)絡(luò)模型在一段微表情片段中的應(yīng)用,針對微表情小視頻對人進(jìn)行情感分析;第五節(jié)進(jìn)行實(shí)驗(yàn),進(jìn)一步改進(jìn)雙門LSTM模型;第六節(jié)總結(jié)歸納實(shí)驗(yàn)結(jié)果,并在人工神經(jīng)網(wǎng)絡(luò)知識的基礎(chǔ)下整理模型,得出情感分析的最終優(yōu)化方法,同時(shí)說明自己的局限性,指出后續(xù)的工作方向。
FNN是傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò),又叫前饋神經(jīng)網(wǎng)絡(luò),F(xiàn)NN在輸入層處接收前一層的輸出,并在輸出層處輸出給下一層。但由于FNN每個(gè)神經(jīng)元只與前一層的神經(jīng)元相連[2],導(dǎo)致了各層間沒有反饋。針對FNN的無法記憶的問題,Jordan和Elman率先提出了循環(huán)反饋的神經(jīng)網(wǎng)絡(luò)RNN[3]。隱含層能夠保存并利用歷史信息來輔助處理當(dāng)前數(shù)據(jù),可以將信息持久化,這也導(dǎo)致了梯度的不斷減小甚至于消失[6],這種現(xiàn)象也被稱為梯度爆炸。
Hochreiter & Schimidhuber提出了用長短期記憶單元LSTM改進(jìn)傳統(tǒng)的RNN模式,普通的RNN的重復(fù)模塊結(jié)構(gòu)非常簡單,只有一個(gè)tanh層[7]。調(diào)節(jié)門由一個(gè)Sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)元素級相乘操作組成[8]。雖然LSTM有很好的利用長距離歷史信息的能力,但是它畢竟只能夠利用一種數(shù)據(jù)。針對這一缺陷,本文提出了雙門LSTM模型。
圖1 雙門LSTM示意圖
與普通LSTM單元類似,雙門LSTM單元也同樣由輸入門、輸出門、遺忘門以及記憶單元組成。但是雙門LSTM門的個(gè)數(shù)卻要多一些:雙門LSTM模型擁有2個(gè)輸入門、2個(gè)遺忘門,但它的輸出門也只有1個(gè)。
由圖1我們可以觀察到雙門LSTM模型也是由輸入層、輸出層及隱含層構(gòu)成。
(1)首先我們根據(jù)傳統(tǒng)RNN公式1計(jì)算出當(dāng)前記憶單元候選值,與當(dāng)前時(shí)刻輸入值和上一時(shí)刻輸出值有關(guān):
(2)第二步我們計(jì)算輸入門的值it。輸入門用于控制我們要更新哪些信息,控制當(dāng)前信息對記憶單元造成的影響。需要注意的是,輸入門的計(jì)算還與上一時(shí)刻記憶單元的值有關(guān):
(3)第三步計(jì)算遺忘門的值ft。遺忘門決定我們要從當(dāng)前歷史信息中扔掉哪些信息,控制歷史信息對當(dāng)前記憶單元狀態(tài)值的影響:
(4)第四步計(jì)算當(dāng)前記憶單元狀態(tài)值ct,當(dāng)前時(shí)刻記憶單元狀態(tài)值取決于上一時(shí)刻的記憶單元狀態(tài)值ct-1與候選記憶單元狀態(tài)值,并受遺忘門與輸入門兩部分進(jìn)行調(diào)節(jié):
(5)第五步計(jì)算輸出門ot,用于控制記憶單元狀態(tài)值的輸出:
(6)最后計(jì)算當(dāng)前時(shí)刻LSTM單元的輸出:
其中xt、yt分別對應(yīng)這一時(shí)刻x、y方向上的輸入,ht-1對應(yīng)上一時(shí)刻的輸ht-1x、
長短期記憶網(wǎng)絡(luò)LSTM在許多方面都取得了不錯(cuò)的效果,例如翻譯語言、制機(jī)器人以及語音識別等。然而普通的LSTM由于只有一個(gè)輸入門,只能固定的獲得一種信息,并不能很好的分析情感,尤其是微表情這種人們可能刻意掩的信息。此模型優(yōu)勢在于遺忘門在不斷遺忘一些已失去效用的微表情,從而控制歷史信息對當(dāng)前時(shí)刻分析的影響,既充分利用了歷史信息又不至于失去效用的歷史信息積累過多。再結(jié)合輸入門每一刻輸入的微表情數(shù)據(jù)信息,LSTM便可分析出人的情感。因?yàn)榻Y(jié)合生活經(jīng)驗(yàn)與對微表情的觀察,我們可以知道人的面部在產(chǎn)生微表情時(shí),他的身體可能會同時(shí)產(chǎn)生一些不由自主的動(dòng)作,例如抖肩、揉鼻子、眼睛向兩側(cè)看等等。這樣的肢體語言為我們多提供了一種信息,恰好可以輔助我們分析情感?;谏鲜鏊悸?,本文提出了雙門LSTM模型運(yùn)用于情感分析,該雙門LSTM模型的優(yōu)勢便在于此。它通過對微表情與肢體語言兩種信息的分析處理,并將其綜合起來,得出了更為準(zhǔn)確的情感數(shù)據(jù)。改進(jìn)了普通LSTM模型只能運(yùn)用一種信息的不足。
表1 隱含層數(shù)目與誤差的關(guān)系
為了驗(yàn)證基于LSTM模型的雙門LSTM的有效性并進(jìn)一步改進(jìn)該模型,本文使用The Extended Cohn-Kanade Dataset(CK+)數(shù)據(jù)庫[9],并采用監(jiān)督學(xué)習(xí)的方式(因?yàn)殡p門LSTM模型的樣本類別是已知的,即微表情和肢體語言兩類),將雙門LSTM模型做了不同的改變并進(jìn)行了對比。顯而易見的是,最優(yōu)的雙門LSTM模型便是實(shí)際圖像能夠與目標(biāo)圖像(即理論上誤差最小的圖像)收斂。雙門LSTM模型的圖像扔難以收斂,且誤差一直在上下振蕩。隨著隱含層數(shù)的增多,雙門LSTM模型最初的誤差逐漸降低,并且收斂所需的訓(xùn)練次數(shù)也越來越少,即越來越容易收斂,最后將在目標(biāo)圖像附近波動(dòng)。實(shí)驗(yàn)數(shù)據(jù)整理如表1:
結(jié)合表1可知,隱含層數(shù)較少時(shí),圖像難以收斂,誤差較大且不斷振蕩;隱含層數(shù)增多時(shí),圖像收斂所需的訓(xùn)練次數(shù)越來越少,誤差減??;隱含層數(shù)目多到一定值時(shí),即使再增加隱含層,誤差也不能再次下降,而是在一定范圍內(nèi)波動(dòng)。因此選擇隱含層數(shù)較多的雙門LSTM模型將更有利于分析情感。
本文將普通的LSTM延伸到雙門的LSTM模型上,從而得以同時(shí)運(yùn)用微表情與肢體語言兩種信息,以便更好地分析人的情感,同時(shí)進(jìn)行了實(shí)驗(yàn)對比,得出了隱含層數(shù)與誤差之間的關(guān)系,明白選擇隱含層數(shù)較多的雙門LSTM模型將更有利于分析情感,進(jìn)一步優(yōu)化了雙門LSTM模型。
由于時(shí)間與技術(shù)的原因,本文并沒有實(shí)際做實(shí)驗(yàn)去比對普通LSTM與雙門LSTM模型的誤差曲線,僅僅是從理論分析上比較了一下,認(rèn)為同時(shí)運(yùn)用兩種數(shù)據(jù)的雙門LSTM模型的分析將更加準(zhǔn)確。同時(shí),雙門LSTM模型的具體實(shí)現(xiàn)也亟待解決。下一步的工作也將從這兩個(gè)角度展開,以便更好地處理有關(guān)微表情片段的情感分析問題。