基于卷積神經(jīng)網(wǎng)絡(luò)的人臉表情識(shí)別研究

2020-01-07 06:14施宇楠吳自萬(wàn)

科學(xué)技術(shù)創(chuàng)新 2020年5期

施宇楠吳自萬(wàn) 孫文

（淮陰師范學(xué)院物理與電子電氣工程學(xué)院，江蘇淮安223300）

在生活中，人的表情常常代表著他所抒發(fā)的情緒和他的真實(shí)感情，因此表情是語(yǔ)言以外的另一種交流方式。人臉表情識(shí)別做的就是運(yùn)用計(jì)算機(jī)進(jìn)行高效、自動(dòng)、精準(zhǔn)的去識(shí)別人的面部表情，根據(jù)學(xué)者早期研究，將人臉表情定義為6 種：驚奇、恐懼、厭惡、憤怒、高興、悲傷。人臉表情識(shí)別有著非常廣泛的應(yīng)用前景，例如可以實(shí)現(xiàn)人類與機(jī)器人之間的交互，應(yīng)用人臉表情識(shí)別來(lái)對(duì)罪犯供詞過(guò)程中的細(xì)節(jié)進(jìn)行監(jiān)測(cè)，以及醫(yī)學(xué)方面通過(guò)人臉表情識(shí)別來(lái)進(jìn)行面部神經(jīng)癱瘓?jiān)\斷等[1]。

人臉識(shí)別技術(shù)的主要研究有基于幾何特征和基于代數(shù)特征的方法[2]，隨著人工智能時(shí)代的到來(lái)，機(jī)器學(xué)習(xí)的快速發(fā)展，深度學(xué)習(xí)下的BP 神經(jīng)網(wǎng)絡(luò)，CNN（卷積神經(jīng)網(wǎng)絡(luò)）模型極大地提高了人臉識(shí)別的速度和精度，讓人臉識(shí)別系統(tǒng)在穩(wěn)定性，準(zhǔn)確性，快速性等全方面得到了很大的提升。但存在缺陷的是，人臉特征的高復(fù)雜性導(dǎo)致傳統(tǒng)模型在運(yùn)算方面負(fù)載比較大，速度與準(zhǔn)確度不高。本文研究的項(xiàng)目通過(guò)自己收集和引用網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的人臉表情圖片作為數(shù)據(jù)集，CNN 作為模型算法，利用Opencv對(duì)人臉表情進(jìn)行動(dòng)態(tài)捕捉。

1 主要算法

1.1 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network ,CNN）是一種前饋神經(jīng)網(wǎng)絡(luò)，卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)，其中包括據(jù)輸入層，卷積層，池化層，全連接層和輸出層。

輸入層：將圖片以矩陣的形式填充到輸入層。

卷積層：卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心，卷積是兩個(gè)函數(shù)的運(yùn)算，稱為卷積運(yùn)算[4]，例如圖1-2 就是一個(gè)簡(jiǎn)單的卷積操作。卷積運(yùn)算就是卷積核以固定的步長(zhǎng)去乘以輸入矩陣的每個(gè)元素，卷積核又稱為此過(guò)程可以是濾波器，看作是提取圖片的每一個(gè)部分的信息。

池化層：作用是保留強(qiáng)度高的部分，將強(qiáng)度低的部分濾除從而達(dá)到減小卷積運(yùn)算后矩陣的尺寸大小，之所以要減小尺寸空間大小是因?yàn)榫矸e運(yùn)算后的矩陣大小過(guò)大的話會(huì)導(dǎo)致最后全連接層出現(xiàn)過(guò)擬合的狀況會(huì)影響分類器的質(zhì)量[5]。

全連接層：將一系列經(jīng)過(guò)卷積和池化操作后的數(shù)據(jù)放入全連接層中，輸出類別分值向量，在這片文章中，根據(jù)6 種表情，可以將全連接層的輸出為1*6 的向量。

Softmax 函數(shù)：Softmax 函數(shù)用于分類，將多個(gè)神經(jīng)元的輸出映射到（0，1）的區(qū)間中，使用歸一化函數(shù)將分類轉(zhuǎn)化為概率的比較問(wèn)題。

激活函數(shù)：由于線性模型只能對(duì)線性可分的訓(xùn)練集達(dá)到較好的分類效果，因此我們需要對(duì)其進(jìn)行非線性變換，在神經(jīng)網(wǎng)絡(luò)中常用的激活函數(shù)有Sigmoid，Tanh，Relu 等，在此次的研究過(guò)程中使用的是Relu 函數(shù)。

卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)作過(guò)程：將圖片以矩陣的形式輸入到輸入層，接著在卷積層的卷積運(yùn)算下進(jìn)行特征提取，然后再經(jīng)過(guò)池化層進(jìn)行空間尺寸的減小，可以把卷積層和池化層看作是一次操作，卷積神經(jīng)網(wǎng)絡(luò)的計(jì)算就是若干次重復(fù)以上操作，最后的全連接層對(duì)圖片進(jìn)行分類，輸出類別對(duì)應(yīng)的值。

1.2 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練

1.2.1 前向傳播

設(shè)x 為訓(xùn)練樣本集中的樣本，y 為樣本x 對(duì)應(yīng)的類別標(biāo)簽，在本次實(shí)驗(yàn)中，x 為圖片的尺寸大小，y 為圖片對(duì)應(yīng)表情的類別標(biāo)簽，將x 輸入到卷積神經(jīng)網(wǎng)絡(luò)中，經(jīng)過(guò)卷積，池化，全連接最后到輸出層（在此過(guò)程中，每一層的輸出都是后一層的輸入），輸出層是一個(gè)6 維的向量，其中每一維代表一種表情的概率大小。

1.2.2 后向誤差傳播

輸出與類別標(biāo)簽y 向量值的誤差，使用最小化均方誤差，來(lái)反向一層層更新權(quán)值。本次研究采用梯度的方式進(jìn)行反向誤差傳播。

1.3 訓(xùn)練目標(biāo)

將預(yù)處理后的訓(xùn)練集味入輸入層，根據(jù)輸出值與類別標(biāo)簽值的誤差進(jìn)行迭代更新，每訓(xùn)練一定的次數(shù)將測(cè)試集的數(shù)據(jù)進(jìn)行測(cè)試，來(lái)觀測(cè)準(zhǔn)確值，當(dāng)準(zhǔn)確值高于0.8 并且收斂的時(shí)候停止訓(xùn)練，最后將訓(xùn)練好的模型保存。

2 建立人臉表情數(shù)據(jù)集擴(kuò)庫(kù)

在人臉表情識(shí)別系統(tǒng)中，對(duì)象針對(duì)的是人臉表情，因此為了提高精確度，舍棄頭發(fā)，耳朵，脖子等與表情無(wú)關(guān)的部分，可以使用相應(yīng)軟件（Opencv）對(duì)圖片進(jìn)行人臉特征提取。

為了解決圖片的多樣性從而提取盡量多的人臉表情特征，對(duì)表情數(shù)據(jù)集進(jìn)行一系列擴(kuò)展處理。在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí)，需要大量使用各種各樣的訓(xùn)練數(shù)據(jù)，一方面可以提高人臉表情識(shí)別的精確度，另一方面可以防止過(guò)多訓(xùn)練造成的過(guò)擬合現(xiàn)象。對(duì)于訓(xùn)練數(shù)據(jù)集，我們可以通過(guò)旋轉(zhuǎn)，鏡像，添加噪聲等方式來(lái)拓展。本次研究對(duì)人臉表情照片進(jìn)行兩個(gè)操作：鏡像和旋轉(zhuǎn)。圖像旋轉(zhuǎn)的角度不宜過(guò)大，在5°到15°以內(nèi)。通過(guò)數(shù)據(jù)擴(kuò)展，數(shù)據(jù)集更加多樣，并且容納了更多不同情況，使得數(shù)據(jù)集更加可靠。

3 實(shí)驗(yàn)結(jié)果及分析

本次實(shí)驗(yàn)采用CK+人臉表情數(shù)據(jù)庫(kù)，方法采用基于卷積神經(jīng)網(wǎng)絡(luò)模型，進(jìn)行訓(xùn)練。Loss 率表示每次迭代訓(xùn)練的結(jié)果與目標(biāo)值的誤差程度，Ess 為準(zhǔn)確度，即驗(yàn)證集進(jìn)行檢驗(yàn)的準(zhǔn)確程度。

在Loss 率訓(xùn)練跟蹤中，一共更新了2500 輪，前1000 輪更新的Loss 率下降的速率比較快，后1500 輪更新的速率變化很小。

在Ess 率訓(xùn)練跟蹤中，測(cè)試集的準(zhǔn)確率在1600 輪次左右開(kāi)始向1 收斂，由Loss 率和準(zhǔn)確率可以調(diào)整訓(xùn)練的次數(shù)為1600左右，此做法可以大大減少過(guò)擬合的可能性。

為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)的快速性與準(zhǔn)確性，本次采用K-近鄰法和BP- 神經(jīng)網(wǎng)絡(luò)框架模型進(jìn)行對(duì)比。卷積神經(jīng)網(wǎng)絡(luò)的卷積層和池化層起到了濾波作用把圖像的主要特征部分提取出來(lái)，再進(jìn)行訓(xùn)練，對(duì)于神經(jīng)網(wǎng)絡(luò)，大大地減小了計(jì)算的復(fù)雜程度，節(jié)約了大量的訓(xùn)練時(shí)間。

同樣對(duì)每個(gè)模型進(jìn)行2500 次的訓(xùn)練，在500 次時(shí)，CNN，BP神經(jīng)網(wǎng)絡(luò)，K- 近鄰的Loss 率分別為0.83，0.91，0.93，Ess 率為0.43，0.34，0.29 此時(shí)看不出什么特別大的區(qū)別，但到1000 輪差距開(kāi)始變大，CNN 的Loss 率此時(shí)已經(jīng)下降到0.51，但BP 神經(jīng)網(wǎng)絡(luò)和K- 近鄰僅僅降到了0.8 左右，CNN 的Ess 率上升到0.8，相較于0.5 左右的BP 神經(jīng)網(wǎng)絡(luò)和K- 近鄰在速度上和準(zhǔn)確性上都有很大的提升，在1400 輪，卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率先收斂于1，bp 神經(jīng)網(wǎng)絡(luò)在1600 輪收斂，最后的K- 近鄰在1700 時(shí)收斂。

以上對(duì)比可以看出，雖然三種模型Ess 率最后都成功的收斂于于1，但卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練相比傳統(tǒng)的k- 近鄰法和一般的BP 神經(jīng)網(wǎng)絡(luò)法在速度與準(zhǔn)確性方面都有提升。

4 結(jié)論

本文研究分析了基于BP 神經(jīng)網(wǎng)絡(luò)，k- 近鄰法與卷積神經(jīng)網(wǎng)絡(luò)的分類法在CK+人臉表情庫(kù)的準(zhǔn)確性與快速性，接著分析了卷積神經(jīng)網(wǎng)絡(luò)相較BP 神經(jīng)網(wǎng)絡(luò)與k- 近鄰而言更快速與準(zhǔn)確的原因，通過(guò)以上的仿真分析對(duì)比，卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)人臉表情的分類識(shí)別率更高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡