基于改進的SSD的人臉識別算法研究

2019-07-09 02:20:56王斌

中小企業(yè)管理與科技 2019年16期

王斌

（山西建設(shè)投資集團有限公司，太原030006）

1 引言

隨著計算機視覺的發(fā)展，圖像/視頻中的人臉識別廣泛用于身份驗證、公共交通、辦公場所等方面，在現(xiàn)代化社會中發(fā)揮著重要的作用，已經(jīng)成為人工智能與機器視覺的研究和應(yīng)用熱點[1,2]。人臉識別技術(shù)是一種基于人類面部特征的用于個人身份識別的一種技術(shù)，在初期階段，主要方法是利用人臉各部分比例特征作為參數(shù)，建立人臉識別系統(tǒng)的原型。隨著信息技術(shù)的發(fā)展，對信息的收集和分析變得不那么復(fù)雜，人臉識別的發(fā)展方向也逐步轉(zhuǎn)變?yōu)橐哉麖埬槥槟Ｐ?，并采用彈性匹配、灰度處理和形狀分離等方法進行處理。目前，人臉識別的代表方法有Eigenface、SphereFace、Fisherface 等，但是特征仍需要人工提取，送入分類器中進行識別的過程比較復(fù)雜，特別是遇到角度變化、表情變化、遮擋等問題時識別效率將有所下降。卷積神經(jīng)網(wǎng)絡(luò)在圖像、語音等領(lǐng)域發(fā)展快速，不但可以自適應(yīng)提取面部特征，在速度和準確率上相較傳統(tǒng)的機器學習的方法都有出色的表現(xiàn)。本文采用遷移學習優(yōu)化SSD 網(wǎng)絡(luò)模型訓(xùn)練過程，改進的SSD 網(wǎng)絡(luò)模型對不同人臉目標進行識別，識別效率較高。

2 經(jīng)典SSD 網(wǎng)絡(luò)模型結(jié)構(gòu)

深度卷積神經(jīng)網(wǎng)絡(luò)使得圖像的識別率相比傳統(tǒng)的識別方法有了長足的進步，由于直接對原始數(shù)據(jù)進行學習，對比非深度方法，它能夠自動地提取更具表現(xiàn)力的特征，以及滿足了實際應(yīng)用中的端到端的需求。從AlexNet 的8 層網(wǎng)絡(luò)到VGG 的16 層網(wǎng)絡(luò)，更深的卷積網(wǎng)絡(luò)整合了不同層次的特征。相關(guān)研究表明，可以通過增加網(wǎng)絡(luò)層數(shù)豐富特征，Simonyan 等證明識別的精度隨著網(wǎng)絡(luò)深度的加深而提高，然而反向傳播時梯度爆炸導(dǎo)致簡單的堆疊卷積層并不能順利地訓(xùn)練網(wǎng)絡(luò)。有研究通過dropout 技術(shù)和批量歸一化使得有限的深層能夠繼續(xù)訓(xùn)練，但在一定的訓(xùn)練迭代之后出現(xiàn)精度的飽和導(dǎo)致精度下降問題依然存在。

圖1 SSD 網(wǎng)絡(luò)模型結(jié)構(gòu)

SSD（Single Shot MultiBox Detector）是Wei Liu 于2016年在ECCV 上提出的一種目標檢測算法，與Faster RCNN 相比，該算法沒有生成proposal 的過程，極大提高了檢測速度。其基本結(jié)構(gòu)如圖1所示。

SSD 網(wǎng)絡(luò)在基礎(chǔ)網(wǎng)絡(luò)部分采用了VGG16 卷積結(jié)構(gòu)直接作用特征圖預(yù)測目標類別和外圍框。通過網(wǎng)絡(luò)主體結(jié)構(gòu)對特征進行提取，在各卷積層中進行卷積與下采樣處理。輸入的圖像尺寸通常為300*300。網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練的過程中會產(chǎn)生損失量，定義損失函數(shù)在訓(xùn)練過程中具有評估網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)劣的作用，所對應(yīng)的損失函數(shù)包括位置損失函數(shù)Lloc和分類損失函數(shù)Lconf，損失函數(shù)如式（1）所示：

3 基于遷移學習的SSD 設(shè)計

數(shù)據(jù)對于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練至關(guān)重要。一般來說，原始數(shù)據(jù)量越大，訓(xùn)練出來的模型精度越高，泛化能力越強。但是，做數(shù)據(jù)標注費時費力，往往不容易收集太多。并且當在一定數(shù)據(jù)集上訓(xùn)練好一個卷積神經(jīng)網(wǎng)絡(luò)后，變換了對應(yīng)的數(shù)據(jù)又要費時費力地進行新任務(wù)的模型訓(xùn)練，訓(xùn)練時間長、收斂速度慢。

遷移學習（Transfer learning）是一種機器學習方法，就是把為任務(wù)A 開發(fā)的模型作為初始點，把已學訓(xùn)練好的模型參數(shù)遷移到為任務(wù)B 開發(fā)模型的過程中。

考慮到大部分數(shù)據(jù)或任務(wù)是存在相關(guān)性的，本文將ORL標準人臉庫預(yù)訓(xùn)練的網(wǎng)絡(luò)權(quán)重參數(shù)作為SSD 檢測框架的初始權(quán)重模型，通過遷移學習將已經(jīng)學到的模型參數(shù)分享給SSD網(wǎng)絡(luò)模型，共享底層結(jié)構(gòu)權(quán)值參數(shù)，然后修改SSD 模型的頂層網(wǎng)絡(luò)結(jié)構(gòu)進行微調(diào)，以此克服不同人臉數(shù)據(jù)之間的差異性，模型訓(xùn)練快速地收斂于鄰域很小的損失值。該方法可以加快并優(yōu)化模型的學習效率，降低隨機設(shè)置初始權(quán)值帶來的網(wǎng)絡(luò)不穩(wěn)定性，避免網(wǎng)絡(luò)從零學習的盲目性。

針對人臉識別過程中，會出現(xiàn)斜側(cè)、遮擋等問題，本文利用已有的標準人臉庫，對數(shù)據(jù)集進行了水平翻轉(zhuǎn)、裁剪和顏色抖動等操作，制造出更多的圖片進行數(shù)據(jù)增強應(yīng)用于網(wǎng)絡(luò)遷移學習的過程，進而提高改進SSD 網(wǎng)絡(luò)的精度和泛化能力。

4 改進SSD 模型訓(xùn)練及結(jié)果分析

4.1 改進SSD 模型訓(xùn)練

人臉識別的模型建立過程中，為了提高模型的泛化能力，提高人臉識別的準確率和訓(xùn)練速度，本文設(shè)計的模型性能提升方法主要包括3 點：①增加卷積模型深度；②標準人臉庫訓(xùn)練SSD 模型基礎(chǔ)上，進行遷移學習，降低訓(xùn)練時間；③結(jié)合人臉斜側(cè)、遮擋對視頻窗口的實際可能發(fā)生的情況，對數(shù)據(jù)訓(xùn)練集進行水平翻轉(zhuǎn)、裁剪和顏色抖動等操作，增強網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)。

人臉識別仿真實驗中，本文基于Tensorflow 深度學習框架，首先配置訓(xùn)練環(huán)境，選擇輸入圖像參數(shù)，網(wǎng)絡(luò)深度等參數(shù)進行模型訓(xùn)練?；谶w移學習的原始數(shù)據(jù)預(yù)訓(xùn)練得到的超參數(shù)：Learning momentum 設(shè)置為0.9，regularization parameter 設(shè)置為0.02，圖像批處理大小設(shè)置為16，learning rate 設(shè)置為10-3 防止過擬合。

4.2 改進SSD 模型人臉識別結(jié)果及分析

將本文提出的基于遷移學習的SSD 網(wǎng)絡(luò)進行建模訓(xùn)練后，應(yīng)用于測試集進行識別結(jié)果檢測。圖2（a）和（b）給出了人臉識別的測試原圖1和原圖2，對應(yīng)的識別結(jié)果分別為圖2（c）和（d），并且圖中給出了人臉準確率、處理時長及每秒可處理的幀數(shù)。可以看出，當圖像中的人臉有較大的表情動作或者人臉比例較小的情況下，改進后的SSD 能夠快速準確識別人的正臉。

圖2 基于改進SSD 人臉識別原圖及結(jié)果圖

圖3給出了未經(jīng)過數(shù)據(jù)增強的SSD 模型及經(jīng)過數(shù)據(jù)增強的改進的SSD 模型對側(cè)臉的識別對比結(jié)果圖。如圖3（a）中人臉向左邊傾斜，左右不對稱，左臉部分面積小。圖3（b）為未經(jīng)過數(shù)據(jù)增強的SSD 識別結(jié)果，圖3（c）為經(jīng)過數(shù)據(jù)增強后的改進SSD 識別結(jié)果。由圖中數(shù)據(jù)可以明顯看出未經(jīng)過數(shù)據(jù)增強的SSD 模型識別對側(cè)臉的覆蓋率差，識別準確率相對更低。反之，經(jīng)過數(shù)據(jù)增強后的改進SSD 模型對微側(cè)臉的模型具有更好的覆蓋率和準確率。

圖3 數(shù)據(jù)增強的側(cè)臉識別結(jié)果對比

圖4（a）和（b）給出了由于人物動作導(dǎo)致人臉圖像不完整、出現(xiàn)輕微遮擋的原圖1和原圖2，圖4（c）、（d）為識別后的圖像，由結(jié)果圖可以看出，改進后的SSD 模型對有輕微遮擋的人臉識別效果較好，且識別速度較快、魯棒性強。

圖4 基于改進SSD 人臉識別模型識別輕微遮擋圖像

為了對本文提出的改進SSD 模型進行客觀評價，采用指標查準率P（%）和召回率R（%）進行評價。其中P 表示檢測框正確的比例，如式（2）所示，R 表示正確預(yù)測框在所有預(yù)測框中的比例，如式（3）所示。

mAP（mean average precision）表示目標查準率基礎(chǔ)上對召回率積分的平均，本文的改進SSD 模型的P-R 曲線如圖5所示，由圖可見，本文的SSD 網(wǎng)絡(luò)識別精度較高。

圖5 基于改進SSD 模型P-R 曲線圖

5 結(jié)論

人臉識別是人工智能應(yīng)用的熱門問題，而卷積神經(jīng)網(wǎng)絡(luò)則是圖像識別領(lǐng)域新興的有效方法。本文以人臉識別為研究內(nèi)容，在經(jīng)典SSD 模型的基礎(chǔ)上，運用遷移學習的方法，將標準數(shù)據(jù)集下的權(quán)重移植到SSD 模型訓(xùn)練中作為初始權(quán)重模型，并采用數(shù)據(jù)加強和增加卷積模型深度的方法進一步提高模型檢測精度和準確性，仿真實驗結(jié)果表明，本文SSD 模型可以有效識別多姿態(tài)、多角度、輕微遮擋的人臉目標，準確率較高、識別速度快、魯棒性強。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡