王斌
(山西建設(shè)投資集團有限公司,太原030006)
隨著計算機視覺的發(fā)展,圖像/視頻中的人臉識別廣泛用于身份驗證、公共交通、辦公場所等方面,在現(xiàn)代化社會中發(fā)揮著重要的作用,已經(jīng)成為人工智能與機器視覺的研究和應(yīng)用熱點[1,2]。人臉識別技術(shù)是一種基于人類面部特征的用于個人身份識別的一種技術(shù),在初期階段,主要方法是利用人臉各部分比例特征作為參數(shù),建立人臉識別系統(tǒng)的原型。隨著信息技術(shù)的發(fā)展,對信息的收集和分析變得不那么復(fù)雜,人臉識別的發(fā)展方向也逐步轉(zhuǎn)變?yōu)橐哉麖埬槥槟P?,并采用彈性匹配、灰度處理和形狀分離等方法進行處理。目前,人臉識別的代表方法有Eigenface、SphereFace、Fisherface 等,但是特征仍需要人工提取,送入分類器中進行識別的過程比較復(fù)雜,特別是遇到角度變化、表情變化、遮擋等問題時識別效率將有所下降。卷積神經(jīng)網(wǎng)絡(luò)在圖像、語音等領(lǐng)域發(fā)展快速,不但可以自適應(yīng)提取面部特征,在速度和準確率上相較傳統(tǒng)的機器學習的方法都有出色的表現(xiàn)。本文采用遷移學習優(yōu)化SSD 網(wǎng)絡(luò)模型訓(xùn)練過程,改進的SSD 網(wǎng)絡(luò)模型對不同人臉目標進行識別,識別效率較高。
深度卷積神經(jīng)網(wǎng)絡(luò)使得圖像的識別率相比傳統(tǒng)的識別方法有了長足的進步,由于直接對原始數(shù)據(jù)進行學習,對比非深度方法,它能夠自動地提取更具表現(xiàn)力的特征,以及滿足了實際應(yīng)用中的端到端的需求。從AlexNet 的8 層網(wǎng)絡(luò)到VGG 的16 層網(wǎng)絡(luò),更深的卷積網(wǎng)絡(luò)整合了不同層次的特征。相關(guān)研究表明,可以通過增加網(wǎng)絡(luò)層數(shù)豐富特征,Simonyan 等證明識別的精度隨著網(wǎng)絡(luò)深度的加深而提高,然而反向傳播時梯度爆炸導(dǎo)致簡單的堆疊卷積層并不能順利地訓(xùn)練網(wǎng)絡(luò)。有研究通過dropout 技術(shù)和批量歸一化使得有限的深層能夠繼續(xù)訓(xùn)練,但在一定的訓(xùn)練迭代之后出現(xiàn)精度的飽和導(dǎo)致精度下降問題依然存在。
圖1 SSD 網(wǎng)絡(luò)模型結(jié)構(gòu)
SSD(Single Shot MultiBox Detector)是Wei Liu 于2016年在ECCV 上提出的一種目標檢測算法,與Faster RCNN 相比,該算法沒有生成proposal 的過程,極大提高了檢測速度。其基本結(jié)構(gòu)如圖1所示。
SSD 網(wǎng)絡(luò)在基礎(chǔ)網(wǎng)絡(luò)部分采用了VGG16 卷積結(jié)構(gòu)直接作用特征圖預(yù)測目標類別和外圍框。通過網(wǎng)絡(luò)主體結(jié)構(gòu)對特征進行提取,在各卷積層中進行卷積與下采樣處理。輸入的圖像尺寸通常為300*300。網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練的過程中會產(chǎn)生損失量,定義損失函數(shù)在訓(xùn)練過程中具有評估網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)劣的作用,所對應(yīng)的損失函數(shù)包括位置損失函數(shù)Lloc和分類損失函數(shù)Lconf,損失函數(shù)如式(1)所示:
數(shù)據(jù)對于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練至關(guān)重要。一般來說,原始數(shù)據(jù)量越大,訓(xùn)練出來的模型精度越高,泛化能力越強。但是,做數(shù)據(jù)標注費時費力,往往不容易收集太多。并且當在一定數(shù)據(jù)集上訓(xùn)練好一個卷積神經(jīng)網(wǎng)絡(luò)后,變換了對應(yīng)的數(shù)據(jù)又要費時費力地進行新任務(wù)的模型訓(xùn)練,訓(xùn)練時間長、收斂速度慢。
遷移學習(Transfer learning)是一種機器學習方法,就是把為任務(wù)A 開發(fā)的模型作為初始點,把已學訓(xùn)練好的模型參數(shù)遷移到為任務(wù)B 開發(fā)模型的過程中。
考慮到大部分數(shù)據(jù)或任務(wù)是存在相關(guān)性的,本文將ORL標準人臉庫預(yù)訓(xùn)練的網(wǎng)絡(luò)權(quán)重參數(shù)作為SSD 檢測框架的初始權(quán)重模型,通過遷移學習將已經(jīng)學到的模型參數(shù)分享給SSD網(wǎng)絡(luò)模型,共享底層結(jié)構(gòu)權(quán)值參數(shù),然后修改SSD 模型的頂層網(wǎng)絡(luò)結(jié)構(gòu)進行微調(diào),以此克服不同人臉數(shù)據(jù)之間的差異性,模型訓(xùn)練快速地收斂于鄰域很小的損失值。該方法可以加快并優(yōu)化模型的學習效率,降低隨機設(shè)置初始權(quán)值帶來的網(wǎng)絡(luò)不穩(wěn)定性,避免網(wǎng)絡(luò)從零學習的盲目性。
針對人臉識別過程中,會出現(xiàn)斜側(cè)、遮擋等問題,本文利用已有的標準人臉庫,對數(shù)據(jù)集進行了水平翻轉(zhuǎn)、裁剪和顏色抖動等操作,制造出更多的圖片進行數(shù)據(jù)增強應(yīng)用于網(wǎng)絡(luò)遷移學習的過程,進而提高改進SSD 網(wǎng)絡(luò)的精度和泛化能力。
人臉識別的模型建立過程中,為了提高模型的泛化能力,提高人臉識別的準確率和訓(xùn)練速度,本文設(shè)計的模型性能提升方法主要包括3 點:①增加卷積模型深度;②標準人臉庫訓(xùn)練SSD 模型基礎(chǔ)上,進行遷移學習,降低訓(xùn)練時間;③結(jié)合人臉斜側(cè)、遮擋對視頻窗口的實際可能發(fā)生的情況,對數(shù)據(jù)訓(xùn)練集進行水平翻轉(zhuǎn)、裁剪和顏色抖動等操作,增強網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)。
人臉識別仿真實驗中,本文基于Tensorflow 深度學習框架,首先配置訓(xùn)練環(huán)境,選擇輸入圖像參數(shù),網(wǎng)絡(luò)深度等參數(shù)進行模型訓(xùn)練?;谶w移學習的原始數(shù)據(jù)預(yù)訓(xùn)練得到的超參數(shù):Learning momentum 設(shè)置為0.9,regularization parameter 設(shè)置為0.02,圖像批處理大小設(shè)置為16,learning rate 設(shè)置為10-3 防止過擬合。
將本文提出的基于遷移學習的SSD 網(wǎng)絡(luò)進行建模訓(xùn)練后,應(yīng)用于測試集進行識別結(jié)果檢測。圖2(a)和(b)給出了人臉識別的測試原圖1和原圖2,對應(yīng)的識別結(jié)果分別為圖2(c)和(d),并且圖中給出了人臉準確率、處理時長及每秒可處理的幀數(shù)。可以看出,當圖像中的人臉有較大的表情動作或者人臉比例較小的情況下,改進后的SSD 能夠快速準確識別人的正臉。
圖2 基于改進SSD 人臉識別原圖及結(jié)果圖
圖3給出了未經(jīng)過數(shù)據(jù)增強的SSD 模型及經(jīng)過數(shù)據(jù)增強的改進的SSD 模型對側(cè)臉的識別對比結(jié)果圖。如圖3(a)中人臉向左邊傾斜,左右不對稱,左臉部分面積小。圖3(b)為未經(jīng)過數(shù)據(jù)增強的SSD 識別結(jié)果,圖3(c)為經(jīng)過數(shù)據(jù)增強后的改進SSD 識別結(jié)果。由圖中數(shù)據(jù)可以明顯看出未經(jīng)過數(shù)據(jù)增強的SSD 模型識別對側(cè)臉的覆蓋率差,識別準確率相對更低。反之,經(jīng)過數(shù)據(jù)增強后的改進SSD 模型對微側(cè)臉的模型具有更好的覆蓋率和準確率。
圖3 數(shù)據(jù)增強的側(cè)臉識別結(jié)果對比
圖4(a)和(b)給出了由于人物動作導(dǎo)致人臉圖像不完整、出現(xiàn)輕微遮擋的原圖1和原圖2,圖4(c)、(d)為識別后的圖像,由結(jié)果圖可以看出,改進后的SSD 模型對有輕微遮擋的人臉識別效果較好,且識別速度較快、魯棒性強。
圖4 基于改進SSD 人臉識別模型識別輕微遮擋圖像
為了對本文提出的改進SSD 模型進行客觀評價,采用指標查準率P(%)和召回率R(%)進行評價。其中P 表示檢測框正確的比例,如式(2)所示,R 表示正確預(yù)測框在所有預(yù)測框中的比例,如式(3)所示。
mAP(mean average precision)表示目標查準率基礎(chǔ)上對召回率積分的平均,本文的改進SSD 模型的P-R 曲線如圖5所示,由圖可見,本文的SSD 網(wǎng)絡(luò)識別精度較高。
圖5 基于改進SSD 模型P-R 曲線圖
人臉識別是人工智能應(yīng)用的熱門問題,而卷積神經(jīng)網(wǎng)絡(luò)則是圖像識別領(lǐng)域新興的有效方法。本文以人臉識別為研究內(nèi)容,在經(jīng)典SSD 模型的基礎(chǔ)上,運用遷移學習的方法,將標準數(shù)據(jù)集下的權(quán)重移植到SSD 模型訓(xùn)練中作為初始權(quán)重模型,并采用數(shù)據(jù)加強和增加卷積模型深度的方法進一步提高模型檢測精度和準確性,仿真實驗結(jié)果表明,本文SSD 模型可以有效識別多姿態(tài)、多角度、輕微遮擋的人臉目標,準確率較高、識別速度快、魯棒性強。