王斌
【摘 要】針對(duì)人臉識(shí)別中在非限定條件下,人臉多角度多姿態(tài)識(shí)別精度低的問(wèn)題,論文提出利用SSD(Single Shot MultiBox Detector)擅長(zhǎng)處理圖像方面的機(jī)器學(xué)習(xí)問(wèn)題這一特性,設(shè)計(jì)了一種基于遷移學(xué)習(xí)的SSD算法,把已訓(xùn)練好的模型參數(shù)遷移到新的SSD模型來(lái)幫助新模型訓(xùn)練,直接提升了對(duì)不同人臉識(shí)別的效果。仿真實(shí)驗(yàn)結(jié)果表明,論文提出的改進(jìn)SSD可以有效、快速識(shí)別不同人臉目標(biāo),對(duì)于不同姿態(tài)、角度及輕遮擋問(wèn)題,此算法有一定的魯棒性。
【Abstract】Aiming at the low accuracy problem of face recognition with multi-angle and multi-pose recognition accuracy under unqualified conditions, this paper proposes an improved SSD (Single Shot MultiBox Detector) based on transfer learning, which adopts the good feature of SSD to deal with machine learning problems in images. Transfering the trained model parameters to the new SSD model to help the new model training, which directly improves the effect of different face recognition. The simulation results show that the improved SSD proposed in this paper can effectively and quickly recognize different face targets, and the algorithm has certain robustness for different poses, angles and light occlusion.
【關(guān)鍵詞】人臉識(shí)別;遷移學(xué)習(xí);SSD
【Keywords】face recognition; transfer learning; SSD
【中圖分類號(hào)】F407? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻(xiàn)標(biāo)志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號(hào)】1673-1069(2019)06-0190-03
1 引言
隨著計(jì)算機(jī)視覺的發(fā)展,圖像/視頻中的人臉識(shí)別廣泛用于身份驗(yàn)證、公共交通、辦公場(chǎng)所等方面,在現(xiàn)代化社會(huì)中發(fā)揮著重要的作用,已經(jīng)成為人工智能與機(jī)器視覺的研究和應(yīng)用熱點(diǎn)[1,2]。人臉識(shí)別技術(shù)是一種基于人類面部特征的用于個(gè)人身份識(shí)別的一種技術(shù),在初期階段,主要方法是利用人臉各部分比例特征作為參數(shù),建立人臉識(shí)別系統(tǒng)的原型。隨著信息技術(shù)的發(fā)展,對(duì)信息的收集和分析變得不那么復(fù)雜,人臉識(shí)別的發(fā)展方向也逐步轉(zhuǎn)變?yōu)橐哉麖埬槥槟P?,并采用彈性匹配、灰度處理和形狀分離等方法進(jìn)行處理。目前,人臉識(shí)別的代表方法有Eigenface、SphereFace、Fisherface等,但是特征仍需要人工提取,送入分類器中進(jìn)行識(shí)別的過(guò)程比較復(fù)雜,特別是遇到角度變化、表情變化、遮擋等問(wèn)題時(shí)識(shí)別效率將有所下降。卷積神經(jīng)網(wǎng)絡(luò)在圖像、語(yǔ)音等領(lǐng)域發(fā)展快速,不但可以自適應(yīng)提取面部特征,在速度和準(zhǔn)確率上相較傳統(tǒng)的機(jī)器學(xué)習(xí)的方法都有出色的表現(xiàn)。本文采用遷移學(xué)習(xí)優(yōu)化SSD網(wǎng)絡(luò)模型訓(xùn)練過(guò)程,改進(jìn)的SSD網(wǎng)絡(luò)模型對(duì)不同人臉目標(biāo)進(jìn)行識(shí)別,識(shí)別效率較高。
2 經(jīng)典SSD網(wǎng)絡(luò)模型結(jié)構(gòu)
深度卷積神經(jīng)網(wǎng)絡(luò)使得圖像的識(shí)別率相比傳統(tǒng)的識(shí)別方法有了長(zhǎng)足的進(jìn)步,由于直接對(duì)原始數(shù)據(jù)進(jìn)行學(xué)習(xí),對(duì)比非深度方法,它能夠自動(dòng)地提取更具表現(xiàn)力的特征,以及滿足了實(shí)際應(yīng)用中的端到端的需求。從AlexNet的8層網(wǎng)絡(luò)到VGG的16層網(wǎng)絡(luò),更深的卷積網(wǎng)絡(luò)整合了不同層次的特征。相關(guān)研究表明,可以通過(guò)增加網(wǎng)絡(luò)層數(shù)豐富特征,Simonyan等證明識(shí)別的精度隨著網(wǎng)絡(luò)深度的加深而提高,然而反向傳播時(shí)梯度爆炸導(dǎo)致簡(jiǎn)單的堆疊卷積層并不能順利地訓(xùn)練網(wǎng)絡(luò)。有研究通過(guò)dropout技術(shù)和批量歸一化使得有限的深層能夠繼續(xù)訓(xùn)練,但在一定的訓(xùn)練迭代之后出現(xiàn)精度的飽和導(dǎo)致精度下降問(wèn)題依然存在。
SSD(Single Shot MultiBox Detector)是Wei Liu于2016年在ECCV上提出的一種目標(biāo)檢測(cè)算法,與Faster RCNN相比,該算法沒(méi)有生成proposal的過(guò)程,極大提高了檢測(cè)速度。其基本結(jié)構(gòu)如圖1所示。
SSD網(wǎng)絡(luò)在基礎(chǔ)網(wǎng)絡(luò)部分采用了VGG16卷積結(jié)構(gòu)直接作用特征圖預(yù)測(cè)目標(biāo)類別和外圍框。通過(guò)網(wǎng)絡(luò)主體結(jié)構(gòu)對(duì)特征進(jìn)行提取,在各卷積層中進(jìn)行卷積與下采樣處理。輸入的圖像尺寸通常為300*300。網(wǎng)絡(luò)結(jié)構(gòu)在訓(xùn)練的過(guò)程中會(huì)產(chǎn)生損失量,定義損失函數(shù)在訓(xùn)練過(guò)程中具有評(píng)估網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)劣的作用,所對(duì)應(yīng)的損失函數(shù)包括位置損失函數(shù)Lloc和分類損失函數(shù)Lconf,損失函數(shù)如式(1)所示:
3 基于遷移學(xué)習(xí)的SSD設(shè)計(jì)
數(shù)據(jù)對(duì)于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練至關(guān)重要。一般來(lái)說(shuō),原始數(shù)據(jù)量越大,訓(xùn)練出來(lái)的模型精度越高,泛化能力越強(qiáng)。但是,做數(shù)據(jù)標(biāo)注費(fèi)時(shí)費(fèi)力,往往不容易收集太多。并且當(dāng)在一定數(shù)據(jù)集上訓(xùn)練好一個(gè)卷積神經(jīng)網(wǎng)絡(luò)后,變換了對(duì)應(yīng)的數(shù)據(jù)又要費(fèi)時(shí)費(fèi)力地進(jìn)行新任務(wù)的模型訓(xùn)練,訓(xùn)練時(shí)間長(zhǎng)、收斂速度慢。
遷移學(xué)習(xí)(Transfer learning)是一種機(jī)器學(xué)習(xí)方法,就是把為任務(wù)A開發(fā)的模型作為初始點(diǎn),把已學(xué)訓(xùn)練好的模型參數(shù)遷移到為任務(wù)B開發(fā)模型的過(guò)程中。
考慮到大部分?jǐn)?shù)據(jù)或任務(wù)是存在相關(guān)性的,本文將ORL標(biāo)準(zhǔn)人臉庫(kù)預(yù)訓(xùn)練的網(wǎng)絡(luò)權(quán)重參數(shù)作為SSD檢測(cè)框架的初始權(quán)重模型,通過(guò)遷移學(xué)習(xí)將已經(jīng)學(xué)到的模型參數(shù)分享給SSD網(wǎng)絡(luò)模型,共享底層結(jié)構(gòu)權(quán)值參數(shù),然后修改SSD模型的頂層網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行微調(diào),以此克服不同人臉數(shù)據(jù)之間的差異性,模型訓(xùn)練快速地收斂于鄰域很小的損失值。該方法可以加快并優(yōu)化模型的學(xué)習(xí)效率,降低隨機(jī)設(shè)置初始權(quán)值帶來(lái)的網(wǎng)絡(luò)不穩(wěn)定性,避免網(wǎng)絡(luò)從零學(xué)習(xí)的盲目性。
針對(duì)人臉識(shí)別過(guò)程中,會(huì)出現(xiàn)斜側(cè)、遮擋等問(wèn)題,本文利用已有的標(biāo)準(zhǔn)人臉庫(kù),對(duì)數(shù)據(jù)集進(jìn)行了水平翻轉(zhuǎn)、裁剪和顏色抖動(dòng)等操作,制造出更多的圖片進(jìn)行數(shù)據(jù)增強(qiáng)應(yīng)用于網(wǎng)絡(luò)遷移學(xué)習(xí)的過(guò)程,進(jìn)而提高改進(jìn)SSD網(wǎng)絡(luò)的精度和泛化能力。
4 改進(jìn)SSD模型訓(xùn)練及結(jié)果分析
4.1 改進(jìn)SSD模型訓(xùn)練
人臉識(shí)別的模型建立過(guò)程中,為了提高模型的泛化能力,提高人臉識(shí)別的準(zhǔn)確率和訓(xùn)練速度,本文設(shè)計(jì)的模型性能提升方法主要包括3點(diǎn):①增加卷積模型深度;②標(biāo)準(zhǔn)人臉庫(kù)訓(xùn)練SSD模型基礎(chǔ)上,進(jìn)行遷移學(xué)習(xí),降低訓(xùn)練時(shí)間;③結(jié)合人臉斜側(cè)、遮擋對(duì)視頻窗口的實(shí)際可能發(fā)生的情況,對(duì)數(shù)據(jù)訓(xùn)練集進(jìn)行水平翻轉(zhuǎn)、裁剪和顏色抖動(dòng)等操作,增強(qiáng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)。
人臉識(shí)別仿真實(shí)驗(yàn)中,本文基于Tensorflow深度學(xué)習(xí)框架,首先配置訓(xùn)練環(huán)境,選擇輸入圖像參數(shù),網(wǎng)絡(luò)深度等參數(shù)進(jìn)行模型訓(xùn)練?;谶w移學(xué)習(xí)的原始數(shù)據(jù)預(yù)訓(xùn)練得到的超參數(shù):Learning momentum設(shè)置為0.9,regularization parameter設(shè)置為0.02,圖像批處理大小設(shè)置為16,learning rate設(shè)置為10-3防止過(guò)擬合。
4.2 改進(jìn)SSD模型人臉識(shí)別結(jié)果及分析
將本文提出的基于遷移學(xué)習(xí)的SSD網(wǎng)絡(luò)進(jìn)行建模訓(xùn)練后,應(yīng)用于測(cè)試集進(jìn)行識(shí)別結(jié)果檢測(cè)。圖2(a)和(b)給出了人臉識(shí)別的測(cè)試原圖1和原圖2,對(duì)應(yīng)的識(shí)別結(jié)果分別為圖2(c)和(d),并且圖中給出了人臉準(zhǔn)確率、處理時(shí)長(zhǎng)及每秒可處理的幀數(shù)??梢钥闯?,當(dāng)圖像中的人臉有較大的表情動(dòng)作或者人臉比例較小的情況下,改進(jìn)后的SSD能夠快速準(zhǔn)確識(shí)別人的正臉。
圖3給出了未經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的SSD模型及經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的改進(jìn)的SSD模型對(duì)側(cè)臉的識(shí)別對(duì)比結(jié)果圖。如圖3(a)中人臉向左邊傾斜,左右不對(duì)稱,左臉部分面積小。圖3(b)為未經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的SSD識(shí)別結(jié)果,圖3(c)為經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的改進(jìn)SSD識(shí)別結(jié)果。由圖中數(shù)據(jù)可以明顯看出未經(jīng)過(guò)數(shù)據(jù)增強(qiáng)的SSD模型識(shí)別對(duì)側(cè)臉的覆蓋率差,識(shí)別準(zhǔn)確率相對(duì)更低。反之,經(jīng)過(guò)數(shù)據(jù)增強(qiáng)后的改進(jìn)SSD模型對(duì)微側(cè)臉的模型具有更好的覆蓋率和準(zhǔn)確率。
圖4(a)和(b)給出了由于人物動(dòng)作導(dǎo)致人臉圖像不完整、出現(xiàn)輕微遮擋的原圖1和原圖2,圖4(c)、(d)為識(shí)別后的圖像,由結(jié)果圖可以看出,改進(jìn)后的SSD模型對(duì)有輕微遮擋的人臉識(shí)別效果較好,且識(shí)別速度較快、魯棒性強(qiáng)。
為了對(duì)本文提出的改進(jìn)SSD模型進(jìn)行客觀評(píng)價(jià),采用指標(biāo)查準(zhǔn)率P(%)和召回率R(%)進(jìn)行評(píng)價(jià)。其中P表示檢測(cè)框正確的比例,如式(2)所示,R表示正確預(yù)測(cè)框在所有預(yù)測(cè)框中的比例,如式(3)所示。
mAP(mean average precision)表示目標(biāo)查準(zhǔn)率基礎(chǔ)上對(duì)召回率積分的平均,本文的改進(jìn)SSD模型的P-R曲線如圖5所示,由圖可見,本文的SSD網(wǎng)絡(luò)識(shí)別精度較高。
5 結(jié)論
人臉識(shí)別是人工智能應(yīng)用的熱門問(wèn)題,而卷積神經(jīng)網(wǎng)絡(luò)則是圖像識(shí)別領(lǐng)域新興的有效方法。本文以人臉識(shí)別為研究?jī)?nèi)容,在經(jīng)典SSD模型的基礎(chǔ)上,運(yùn)用遷移學(xué)習(xí)的方法,將標(biāo)準(zhǔn)數(shù)據(jù)集下的權(quán)重移植到SSD模型訓(xùn)練中作為初始權(quán)重模型,并采用數(shù)據(jù)加強(qiáng)和增加卷積模型深度的方法進(jìn)一步提高模型檢測(cè)精度和準(zhǔn)確性,仿真實(shí)驗(yàn)結(jié)果表明,本文SSD模型可以有效識(shí)別多姿態(tài)、多角度、輕微遮擋的人臉目標(biāo),準(zhǔn)確率較高、識(shí)別速度快、魯棒性強(qiáng)。
【參考文獻(xiàn)】
【1】秦鴻,李泰峰,郭亨藝,等.人臉識(shí)別技術(shù)在圖書館的應(yīng)用研究[J].大學(xué)圖書館學(xué)報(bào),2018,36(6):49-54.
【2】侯小毛,徐仁伯.云環(huán)境中考慮隱私保護(hù)的人臉圖像識(shí)別[J].沈陽(yáng)工業(yè)大學(xué)學(xué)報(bào),2018,40(2):203-207.