施宇楠 吳自萬(wàn) 孫 文
(淮陰師范學(xué)院 物理與電子電氣工程學(xué)院,江蘇 淮安223300)
在生活中,人的表情常常代表著他所抒發(fā)的情緒和他的真實(shí)感情,因此表情是語(yǔ)言以外的另一種交流方式。人臉表情識(shí)別做的就是運(yùn)用計(jì)算機(jī)進(jìn)行高效、自動(dòng)、精準(zhǔn)的去識(shí)別人的面部表情,根據(jù)學(xué)者早期研究,將人臉表情定義為6 種:驚奇、恐懼、厭惡、憤怒、高興、悲傷。人臉表情識(shí)別有著非常廣泛的應(yīng)用前景,例如可以實(shí)現(xiàn)人類與機(jī)器人之間的交互,應(yīng)用人臉表情識(shí)別來(lái)對(duì)罪犯供詞過(guò)程中的細(xì)節(jié)進(jìn)行監(jiān)測(cè),以及醫(yī)學(xué)方面通過(guò)人臉表情識(shí)別來(lái)進(jìn)行面部神經(jīng)癱瘓?jiān)\斷等[1]。
人臉識(shí)別技術(shù)的主要研究有基于幾何特征和基于代數(shù)特征的方法[2],隨著人工智能時(shí)代的到來(lái),機(jī)器學(xué)習(xí)的快速發(fā)展,深度學(xué)習(xí)下的BP 神經(jīng)網(wǎng)絡(luò),CNN(卷積神經(jīng)網(wǎng)絡(luò))模型極大地提高了人臉識(shí)別的速度和精度,讓人臉識(shí)別系統(tǒng)在穩(wěn)定性,準(zhǔn)確性,快速性等全方面得到了很大的提升。但存在缺陷的是,人臉特征的高復(fù)雜性導(dǎo)致傳統(tǒng)模型在運(yùn)算方面負(fù)載比較大,速度與準(zhǔn)確度不高。本文研究的項(xiàng)目通過(guò)自己收集和引用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的人臉表情圖片作為數(shù)據(jù)集,CNN 作為模型算法,利用Opencv對(duì)人臉表情進(jìn)行動(dòng)態(tài)捕捉。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network ,CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu),其中包括據(jù)輸入層,卷積層,池化層,全連接層和輸出層。
輸入層:將圖片以矩陣的形式填充到輸入層。
卷積層:卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心,卷積是兩個(gè)函數(shù)的運(yùn)算,稱為卷積運(yùn)算[4],例如圖1-2 就是一個(gè)簡(jiǎn)單的卷積操作。卷積運(yùn)算就是卷積核以固定的步長(zhǎng)去乘以輸入矩陣的每個(gè)元素,卷積核又稱為此過(guò)程可以是濾波器,看作是提取圖片的每一個(gè)部分的信息。
池化層:作用是保留強(qiáng)度高的部分,將強(qiáng)度低的部分濾除從而達(dá)到減小卷積運(yùn)算后矩陣的尺寸大小,之所以要減小尺寸空間大小是因?yàn)榫矸e運(yùn)算后的矩陣大小過(guò)大的話會(huì)導(dǎo)致最后全連接層出現(xiàn)過(guò)擬合的狀況會(huì)影響分類器的質(zhì)量[5]。
全連接層:將一系列經(jīng)過(guò)卷積和池化操作后的數(shù)據(jù)放入全連接層中,輸出類別分值向量,在這片文章中,根據(jù)6 種表情,可以將全連接層的輸出為1*6 的向量。
Softmax 函數(shù):Softmax 函數(shù)用于分類,將多個(gè)神經(jīng)元的輸出映射到(0,1)的區(qū)間中,使用歸一化函數(shù)將分類轉(zhuǎn)化為概率的比較問(wèn)題。
激活函數(shù):由于線性模型只能對(duì)線性可分的訓(xùn)練集達(dá)到較好的分類效果,因此我們需要對(duì)其進(jìn)行非線性變換,在神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)有Sigmoid,Tanh,Relu 等,在此次的研究過(guò)程中使用的是Relu 函數(shù)。
卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)作過(guò)程:將圖片以矩陣的形式輸入到輸入層,接著在卷積層的卷積運(yùn)算下進(jìn)行特征提取,然后再經(jīng)過(guò)池化層進(jìn)行空間尺寸的減小,可以把卷積層和池化層看作是一次操作,卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算就是若干次重復(fù)以上操作,最后的全連接層對(duì)圖片進(jìn)行分類,輸出類別對(duì)應(yīng)的值。
1.2.1 前向傳播
設(shè)x 為訓(xùn)練樣本集中的樣本,y 為樣本x 對(duì)應(yīng)的類別標(biāo)簽,在本次實(shí)驗(yàn)中,x 為圖片的尺寸大小,y 為圖片對(duì)應(yīng)表情的類別標(biāo)簽,將x 輸入到卷積神經(jīng)網(wǎng)絡(luò)中,經(jīng)過(guò)卷積,池化,全連接最后到輸出層(在此過(guò)程中,每一層的輸出都是后一層的輸入),輸出層是一個(gè)6 維的向量,其中每一維代表一種表情的概率大小。
1.2.2 后向誤差傳播
輸出與類別標(biāo)簽y 向量值的誤差,使用最小化均方誤差,來(lái)反向一層層更新權(quán)值。本次研究采用梯度的方式進(jìn)行反向誤差傳播。
將預(yù)處理后的訓(xùn)練集味入輸入層,根據(jù)輸出值與類別標(biāo)簽值的誤差進(jìn)行迭代更新,每訓(xùn)練一定的次數(shù)將測(cè)試集的數(shù)據(jù)進(jìn)行測(cè)試,來(lái)觀測(cè)準(zhǔn)確值,當(dāng)準(zhǔn)確值高于0.8 并且收斂的時(shí)候停止訓(xùn)練,最后將訓(xùn)練好的模型保存。
在人臉表情識(shí)別系統(tǒng)中,對(duì)象針對(duì)的是人臉表情,因此為了提高精確度,舍棄頭發(fā),耳朵,脖子等與表情無(wú)關(guān)的部分,可以使用相應(yīng)軟件(Opencv)對(duì)圖片進(jìn)行人臉特征提取。
為了解決圖片的多樣性從而提取盡量多的人臉表情特征,對(duì)表情數(shù)據(jù)集進(jìn)行一系列擴(kuò)展處理。在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí),需要大量使用各種各樣的訓(xùn)練數(shù)據(jù),一方面可以提高人臉表情識(shí)別的精確度,另一方面可以防止過(guò)多訓(xùn)練造成的過(guò)擬合現(xiàn)象。對(duì)于訓(xùn)練數(shù)據(jù)集,我們可以通過(guò)旋轉(zhuǎn),鏡像,添加噪聲等方式來(lái)拓展。本次研究對(duì)人臉表情照片進(jìn)行兩個(gè)操作:鏡像和旋轉(zhuǎn)。圖像旋轉(zhuǎn)的角度不宜過(guò)大,在5°到15°以內(nèi)。通過(guò)數(shù)據(jù)擴(kuò)展,數(shù)據(jù)集更加多樣,并且容納了更多不同情況,使得數(shù)據(jù)集更加可靠。
本次實(shí)驗(yàn)采用CK+人臉表情數(shù)據(jù)庫(kù),方法采用基于卷積神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行訓(xùn)練。Loss 率表示每次迭代訓(xùn)練的結(jié)果與目標(biāo)值的誤差程度,Ess 為準(zhǔn)確度,即驗(yàn)證集進(jìn)行檢驗(yàn)的準(zhǔn)確程度。
在Loss 率訓(xùn)練跟蹤中,一共更新了2500 輪,前1000 輪更新的Loss 率下降的速率比較快,后1500 輪更新的速率變化很小。
在Ess 率訓(xùn)練跟蹤中,測(cè)試集的準(zhǔn)確率在1600 輪次左右開(kāi)始向1 收斂,由Loss 率和準(zhǔn)確率可以調(diào)整訓(xùn)練的次數(shù)為1600左右,此做法可以大大減少過(guò)擬合的可能性。
為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)的快速性與準(zhǔn)確性,本次采用K-近鄰法和BP- 神經(jīng)網(wǎng)絡(luò)框架模型進(jìn)行對(duì)比。卷積神經(jīng)網(wǎng)絡(luò)的卷積層和池化層起到了濾波作用把圖像的主要特征部分提取出來(lái),再進(jìn)行訓(xùn)練,對(duì)于神經(jīng)網(wǎng)絡(luò),大大地減小了計(jì)算的復(fù)雜程度,節(jié)約了大量的訓(xùn)練時(shí)間。
同樣對(duì)每個(gè)模型進(jìn)行2500 次的訓(xùn)練,在500 次時(shí),CNN,BP神經(jīng)網(wǎng)絡(luò),K- 近鄰的Loss 率分別為0.83,0.91,0.93,Ess 率為0.43,0.34,0.29 此時(shí)看不出什么特別大的區(qū)別,但到1000 輪差距開(kāi)始變大,CNN 的Loss 率此時(shí)已經(jīng)下降到0.51,但BP 神經(jīng)網(wǎng)絡(luò)和K- 近鄰僅僅降到了0.8 左右,CNN 的Ess 率上升到0.8,相較于0.5 左右的BP 神經(jīng)網(wǎng)絡(luò)和K- 近鄰在速度上和準(zhǔn)確性上都有很大的提升,在1400 輪,卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率先收斂于1,bp 神經(jīng)網(wǎng)絡(luò)在1600 輪收斂,最后的K- 近鄰在1700 時(shí)收斂。
以上對(duì)比可以看出,雖然三種模型Ess 率最后都成功的收斂于于1,但卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練相比傳統(tǒng)的k- 近鄰法和一般的BP 神經(jīng)網(wǎng)絡(luò)法在速度與準(zhǔn)確性方面都有提升。
本文研究分析了基于BP 神經(jīng)網(wǎng)絡(luò),k- 近鄰法與卷積神經(jīng)網(wǎng)絡(luò)的分類法在CK+人臉表情庫(kù)的準(zhǔn)確性與快速性,接著分析了卷積神經(jīng)網(wǎng)絡(luò)相較BP 神經(jīng)網(wǎng)絡(luò)與k- 近鄰而言更快速與準(zhǔn)確的原因,通過(guò)以上的仿真分析對(duì)比,卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)人臉表情的分類識(shí)別率更高。