吳志洋,卓 勇,廖生輝
WU Zhiyang,ZHUO Yong,LIAO Shenghui
廈門大學(xué) 航空航天學(xué)院,福建 廈門 361005
College of Aerospace Engineering,Xiamen University,Xiamen,Fujian 361005,China
人臉檢測(cè)是計(jì)算機(jī)視覺(jué)和模式識(shí)別中一個(gè)重要而又基礎(chǔ)的研究,同時(shí)也是眾多跟人臉相關(guān)應(yīng)用的關(guān)鍵環(huán)節(jié),比如人臉識(shí)別、人證比對(duì)等。傳統(tǒng)計(jì)算機(jī)領(lǐng)域的研究者對(duì)人臉檢測(cè)的研究主要集中在人工設(shè)計(jì)特征提取器,如SIFT[1]、HOG[2]用傳統(tǒng)的機(jī)器學(xué)習(xí)算法訓(xùn)練有效的分類器來(lái)進(jìn)行圖像中的人臉檢測(cè)和識(shí)別任務(wù)。這樣的方法要求研究人員必須手工提取到有效的特征,然后對(duì)每個(gè)部分分別進(jìn)行優(yōu)化,這導(dǎo)致了在檢測(cè)過(guò)程中得到的往往是局部最優(yōu)而不是全局最優(yōu)?;贏daboost[3]的傳統(tǒng)人臉檢測(cè)算法現(xiàn)階段在速度上仍然具有明顯優(yōu)勢(shì),而深度學(xué)習(xí)方法在檢測(cè)的準(zhǔn)確率上則可以取得更好的性能表現(xiàn),比如,在人臉測(cè)評(píng)數(shù)據(jù)集FDDB[4]上,傳統(tǒng)方法只有85%的準(zhǔn)確率,而深度學(xué)習(xí)方法已超過(guò)95%,包括人臉識(shí)別的深度學(xué)習(xí)方法[5]也取得了極大進(jìn)展。因此,基于深度學(xué)習(xí)的人臉檢測(cè)方法已經(jīng)成為當(dāng)前的研究主流。
目前,基于深度學(xué)習(xí)的主流方法可以總結(jié)為三個(gè)步驟:首先,從一張圖片中提取目標(biāo)候選區(qū),常用的方法有Selective Search[6]等;然后,把這些提取到的候選區(qū)送入一個(gè)卷積神經(jīng)網(wǎng)絡(luò)中進(jìn)行識(shí)別或者分類;最后,對(duì)某些分類結(jié)果的候選區(qū)進(jìn)行邊框微調(diào)。對(duì)于以上的三個(gè)環(huán)節(jié),其中的瓶頸在于候選區(qū)的提取,即第一個(gè)環(huán)節(jié),這個(gè)環(huán)節(jié)同時(shí)制約著物體檢測(cè)的準(zhǔn)確率與檢測(cè)速度。一方面,由于候選區(qū)提取環(huán)節(jié)是基于低級(jí)的語(yǔ)義特征的,且傳統(tǒng)的區(qū)域推薦算法對(duì)局部外觀變化敏感,導(dǎo)致了算法在許多情況下會(huì)失效,比如物體遮擋等情況;另一方面,大量的區(qū)域推薦算法基于圖像分割[6]或者是稠密的滑動(dòng)窗口形式[7],這帶來(lái)了龐大的計(jì)算量,使得算法無(wú)法在實(shí)時(shí)的物體檢測(cè)系統(tǒng)中得到應(yīng)用。
為了克服這些缺陷,近幾年出現(xiàn)了一系列改進(jìn)的深度學(xué)習(xí)算法,大大加速了區(qū)域推薦環(huán)節(jié)。Zhang Xiang[8]等為檢測(cè)的目標(biāo)訓(xùn)練一個(gè)分類器,用一種高效的滑動(dòng)窗口的方式遍歷多張不同尺寸的圖像,實(shí)現(xiàn)了物體的分類與定位,由于檢測(cè)器需要在圖像金字塔上面遍歷所有層級(jí)的圖像,當(dāng)層級(jí)過(guò)多時(shí),將耗費(fèi)大量的計(jì)算時(shí)間,而當(dāng)層級(jí)太少時(shí),檢測(cè)效果則會(huì)明顯下降;Girshick R等[9]提出了R-CNN方法,該方法首先在一張圖像上產(chǎn)生2 000個(gè)候選區(qū)域,然后把這些區(qū)域送入SVM分類器,最后把含有物體的區(qū)域傳入下一個(gè)網(wǎng)絡(luò)進(jìn)行邊框的回歸,這種復(fù)雜的方式導(dǎo)致檢測(cè)速度慢,且每個(gè)部分是獨(dú)立訓(xùn)練的,造成優(yōu)化十分困難;為了克服這些問(wèn)題,Ren S等[10]提出了Faster R-CNN方法,在生成候選框的部分采用一個(gè)淺層的全卷積網(wǎng)絡(luò)RPN在每張圖像上生成約300個(gè)候選框,但是由于這些候選框的尺度和比例是提前設(shè)計(jì)好的,且是固定的,這就造成了當(dāng)圖像中物體尺寸范圍波動(dòng)較大時(shí),RPN網(wǎng)絡(luò)表現(xiàn)不理想;Redmon J等[11]把物體檢測(cè)看作是一個(gè)簡(jiǎn)單的回歸問(wèn)題,把圖片劃分成7×7的網(wǎng)格,直接回歸出每個(gè)物體的種類與邊框,且不需要圖像金字塔,因而在檢測(cè)速度方面具有十分明顯的優(yōu)勢(shì)。然而,該方法對(duì)物體邊框信息的四個(gè)變量用L2損失函數(shù)(平方誤差)分別進(jìn)行回歸,這種過(guò)于簡(jiǎn)單的方式割裂了四個(gè)位置變量之間的關(guān)系,導(dǎo)致在物體定位上效果不夠理想且網(wǎng)絡(luò)訓(xùn)練不易收斂,而Jiang Y等[12]提出了IoU Loss避免了L2損失函數(shù)的缺陷,但在檢測(cè)速度上卻達(dá)不到實(shí)時(shí)性,很難應(yīng)用于實(shí)際的工程項(xiàng)目。
本文受回歸思想與IoU Loss的啟發(fā),創(chuàng)造性地提出了結(jié)合回歸思想與檢測(cè)評(píng)價(jià)函數(shù)IoU作為損失函數(shù)的人臉檢測(cè)算法,該算法與傳統(tǒng)算法以及經(jīng)典深度學(xué)習(xí)算法相比具有如下3個(gè)優(yōu)點(diǎn):
(1)應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)能夠自動(dòng)學(xué)習(xí)到數(shù)據(jù)中的特征,比傳統(tǒng)的人工設(shè)計(jì)特征更加有效。
(2)融合IoU函數(shù)克服了實(shí)時(shí)多目標(biāo)回歸算法變量分離的缺陷,使得模型的代價(jià)函數(shù)更加合理,不僅使原有的多目標(biāo)回歸算法在檢測(cè)不同尺度的人臉時(shí)更加魯棒,而且使得深度網(wǎng)絡(luò)的訓(xùn)練更加容易收斂。
(3)不需要采用圖片金字塔的方式,只需處理一個(gè)層級(jí)的圖片,較好地權(quán)衡了算法的檢測(cè)速度與檢測(cè)精度。
YOLO是Redmon J等[11]提出的一種通用物體檢測(cè)深度卷積神經(jīng)網(wǎng)絡(luò)模型,它主要由24個(gè)卷積層、4個(gè)最大池化層、2個(gè)全連接層、L2損失函數(shù)層組成,如圖1所示。圖中省略了激活函數(shù)層、Batch Normalization(BN)層[13],其中C代表卷積層,P代表最大池化層,F(xiàn)C代表全連接層,L2 Loss代表平方損失層,且在所有的卷積層、倒數(shù)第二個(gè)全連接層后附加Leaky[11]激活函數(shù)層,所有卷積層之前帶有BN層。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)示意圖(省略了激活函數(shù)層、BN層)
YOLO把物體檢測(cè)分開(kāi)的幾個(gè)部分整合到一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)中,整體流程如圖2所示,該方法把一張圖片分割成7×7個(gè)小網(wǎng)格,然后每個(gè)網(wǎng)格回歸出兩個(gè)包圍框,最后用NMS[14]算法合并多余的人臉框,得到最終的人臉區(qū)域。
其損失函數(shù)定義如下:
圖2 多目標(biāo)回歸算法示意圖
其中,Loss表示網(wǎng)絡(luò)的損失值;λpos=5;λnoobj=1;表示第i個(gè)網(wǎng)格中的第 j個(gè)包圍框含有物體中心,當(dāng)有物體中心時(shí),=1,否則=0;表示第i個(gè)網(wǎng)格是否含有物體中心,如果有物體中心時(shí),=1,否則為0;xi、yi表示預(yù)測(cè)出來(lái)的包圍框中心點(diǎn)坐標(biāo)相對(duì)于網(wǎng)格的大??;、表示訓(xùn)練圖片中標(biāo)記的物體邊框的中心點(diǎn)坐標(biāo)相對(duì)于網(wǎng)格的大??;wi、hi表示預(yù)測(cè)出來(lái)的包圍框的寬和高相對(duì)于整張圖片的大小;、表示訓(xùn)練圖片中標(biāo)記的物體邊框的寬和高相對(duì)于圖片的大小;Confij、Cofij分別表示第i個(gè)網(wǎng)格中預(yù)測(cè)的第 j個(gè)包圍框的置信度與第i個(gè)網(wǎng)格訓(xùn)練圖片標(biāo)注的置信度;pi(c),(c)分別表示第i個(gè)網(wǎng)格預(yù)測(cè)出的類別概率和訓(xùn)練數(shù)據(jù)標(biāo)注的類別概率,其中位置參數(shù)如圖3示。
圖3 位置參數(shù)示意圖
檢測(cè)評(píng)價(jià)函數(shù)IoU(Intersection over Union)是被用來(lái)評(píng)價(jià)模型檢測(cè)效果好壞的一個(gè)標(biāo)準(zhǔn),表示的是兩個(gè)框的交集I和并集U的比例,如圖4所示:重疊程度越高,IoU值越大。其中紅色框是標(biāo)注框,綠色框是預(yù)測(cè)框,IoU函數(shù)表達(dá)式為IoU=I/U。
圖4 IoU示意圖
通過(guò)式(1)所示:模型的預(yù)測(cè)框參數(shù)x,y,w,h通過(guò)L2損失函數(shù)獨(dú)立進(jìn)行優(yōu)化,這樣的方式割裂了四個(gè)位置參數(shù)之間的強(qiáng)相關(guān)性??梢缘贸觯?/p>
(1)在相同IoU的條件下,理論上網(wǎng)絡(luò)損失函數(shù)的貢獻(xiàn)應(yīng)該是均等的,但當(dāng)用L2損失函數(shù)時(shí),如圖5所示,尺度大的人臉對(duì)損失函數(shù)所產(chǎn)生的誤差將大大超過(guò)小尺度人臉?biāo)a(chǎn)生的誤差,導(dǎo)致深度網(wǎng)絡(luò)在訓(xùn)練時(shí),更加偏向于尺度較大的人臉,而容易忽略尺度較小的人臉,這對(duì)于網(wǎng)絡(luò)的收斂以及模型的檢測(cè)效果都將帶來(lái)負(fù)面影響。
圖5 相同IoU下的大小人臉
(2)人臉數(shù)據(jù)集中人臉尺寸的跨度較大,且小人臉占了一定的比例,在FDDB[4]中,分辨率為40×40的小人臉占到10%左右,在Wider Face[14]中則占到33%左右,也就意味著(1)中所分析的情況,如果采用L2 Loss,則帶來(lái)的缺陷是不可避免的。
(3)當(dāng)單獨(dú)優(yōu)化各個(gè)位置參數(shù)時(shí),容易導(dǎo)致僅有部分變量回歸正確,如圖6所示,回歸出的人臉區(qū)域(綠色)僅有人臉區(qū)域的左上角坐標(biāo)回歸正確,而無(wú)法完全正確回歸出整個(gè)人臉位置。
圖6 位置參數(shù)單獨(dú)優(yōu)化的缺陷
基于卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法在檢測(cè)的準(zhǔn)確程度上比傳統(tǒng)人臉檢測(cè)算法有較大的優(yōu)勢(shì),而在檢測(cè)速度上,大多數(shù)深度學(xué)習(xí)算法卻達(dá)不到實(shí)時(shí)性。
如基于Faster RCNN[14]的人臉檢測(cè),其不能達(dá)到實(shí)時(shí)的核心問(wèn)題在于人臉推薦區(qū)域的環(huán)節(jié)上,其設(shè)計(jì)相當(dāng)于是用一個(gè)滑動(dòng)窗口對(duì)最后的特征圖上的每一個(gè)位置都進(jìn)行了估計(jì),每個(gè)位置上預(yù)測(cè)9種不同尺度的候選區(qū)域,一張圖片約推薦2 000個(gè)候選區(qū),代價(jià)在于采用滑動(dòng)窗口的方式十分耗時(shí),且推薦了過(guò)多的候選區(qū),而這些候選區(qū)還要進(jìn)入下一級(jí)網(wǎng)絡(luò)再次進(jìn)行特征提??;DenseBox[15]與Overfeat[8]則需要通過(guò)構(gòu)建多個(gè)層級(jí)的圖像金字塔來(lái)保證檢測(cè)效果,由于要處理多張圖像,將帶來(lái)巨大的計(jì)算量;Unibox[12]提出了一種不需要圖像金字塔的人臉檢測(cè)策略,通過(guò)對(duì)圖像中的每一個(gè)像素進(jìn)行分類(人臉與非人臉),以及在每一個(gè)像素預(yù)測(cè)出距離人臉邊界的距離,通過(guò)獲取人臉置信度大于閾值的像素以及該像素對(duì)應(yīng)的邊界距離來(lái)實(shí)現(xiàn)人臉檢測(cè),但由于其對(duì)像素的分類提取的是網(wǎng)絡(luò)的淺層特征,往往會(huì)得到過(guò)多被預(yù)測(cè)為人臉的像素,遍歷這些像素需要較多的計(jì)算時(shí)間。
在多目標(biāo)回歸算法中,直接將輸入圖像劃分為7×7個(gè)網(wǎng)格,每個(gè)網(wǎng)格預(yù)測(cè)2個(gè)人臉區(qū)域,共有98個(gè)候選區(qū),相比于Faster RCNN,這種網(wǎng)格劃分的方式在獲取候選區(qū)方面,速度上有著巨大的優(yōu)勢(shì);相比于DenseBox與Overfeat,多目標(biāo)回歸算法則不需要構(gòu)建圖像金字塔;相比于Unibox,多目標(biāo)回歸算法則直接對(duì)這98個(gè)候選框進(jìn)行位置參數(shù)的調(diào)整,并不會(huì)產(chǎn)生不可預(yù)估的大量候選區(qū)。
為了實(shí)現(xiàn)實(shí)時(shí)檢測(cè)的目的,本文選擇多目標(biāo)回歸的機(jī)制進(jìn)行人臉檢測(cè)。
基于2.2節(jié)的算法缺陷分析,本文擬作如下改進(jìn):
首先,發(fā)現(xiàn)IoU函數(shù)在面對(duì)任意尺度的人臉時(shí),當(dāng)人臉預(yù)測(cè)框與標(biāo)注框(ground truth)具有相同的重合效果時(shí),其IoU值是一致的,如果用IoU函數(shù)來(lái)作為位置參數(shù)的損失函數(shù),將能夠避免2.2節(jié)中(1)、(2)所分析的缺陷,即克服了不同人臉尺度帶來(lái)誤差不均衡的問(wèn)題。
其次,從2.1節(jié)式(1)中截取了部分關(guān)于位置參數(shù)的L2損失函數(shù),令,則,可以看出 xi,yi的梯度并無(wú)牽連。當(dāng)用IoU作為損失函數(shù)時(shí),如果一個(gè)網(wǎng)格中包含物體中心,其IoU值應(yīng)為1,當(dāng)不包含物體中心時(shí),其IoU值應(yīng)為0,因此,將該輸出情況看作0~1分布,引入交叉熵?fù)p失函數(shù)來(lái)對(duì)IoU進(jìn)行優(yōu)化,約束模型的輸出分布與訓(xùn)練數(shù)據(jù)標(biāo)簽分布的一致性。設(shè)期望的輸出分布為 p,則在含有物體中心的網(wǎng)格,p=1,則交叉熵?fù)p失函數(shù)為:J2=-pln(IoU)-(1-p)ln(1-IoU)=-ln(IoU),對(duì) J2求導(dǎo)數(shù)得:
從式(2)可以看出,各個(gè)變量的梯度都是關(guān)于xi,yi,,的函數(shù),即網(wǎng)絡(luò)在更新參數(shù)時(shí),是進(jìn)行聯(lián)動(dòng)更新,而非獨(dú)立優(yōu)化四個(gè)位置參數(shù),更具體的求導(dǎo)公式參考3.2節(jié)。
此外,由于IoU的取值范圍為[0,1],自動(dòng)地將任意尺度的輸入數(shù)據(jù)標(biāo)簽進(jìn)行了歸一化處理。
3.2.1 IoU函數(shù)前向傳播算法
前向傳播算法如下所示。
前向傳播算法(Forward)步驟如下:
輸入:G表示訓(xùn)練樣本中的標(biāo)注框
P表示模型預(yù)測(cè)出的包圍框
輸出:L表示位置參數(shù)的損失
步驟1:對(duì)含有物體中心的網(wǎng)格進(jìn)行如下計(jì)算:
步驟2:對(duì)不含物體中心的網(wǎng)格:
L=0
其中,X表示預(yù)測(cè)出的包圍框的面積;X表示訓(xùn)練標(biāo)注框的面積;Gx、Gy、Px、Py分別表示預(yù)測(cè)出的包圍框和訓(xùn)練標(biāo)注框的中心點(diǎn)坐標(biāo)值;Gw、Gh、Pw、Ph分別表示預(yù)測(cè)出的包圍框和訓(xùn)練標(biāo)注框的寬和高;I表示預(yù)測(cè)框與標(biāo)注框的交集;U表示預(yù)測(cè)框與標(biāo)注框的并集;Iw、Ih表示預(yù)測(cè)框和標(biāo)注框交集部分的寬和高,參考圖3。
3.2.2 IoU函數(shù)反向傳播算法
為了更簡(jiǎn)潔地描述反向傳播算法的計(jì)算公式,本文進(jìn)行了相應(yīng)的符號(hào)規(guī)定:?pI表示I對(duì)P中任意一個(gè)參數(shù)的偏導(dǎo)數(shù),即 ?pI為?pxI、?pyI、?pwI、?phI中任意一個(gè);?pX表示X對(duì)P中任意一個(gè)參數(shù)的偏導(dǎo)數(shù);且令:
則位置信息損失函數(shù)L對(duì)預(yù)測(cè)框的梯度為:
其中,
式(3)~(8)即為隨機(jī)梯度下降算法的深度網(wǎng)絡(luò)位置參數(shù)的學(xué)習(xí)算法。
本文基于實(shí)時(shí)多目標(biāo)回歸模型YOLO,融合IoU函數(shù),構(gòu)建了本文的模型結(jié)構(gòu),如圖7所示。
圖7 本文提出的網(wǎng)絡(luò)結(jié)構(gòu)MIFD示意圖
IoU Loss定義如下:
其中,ln(IOUij)表示取第i個(gè)網(wǎng)格的第 j個(gè)包圍框與標(biāo)注信息IoU的對(duì)數(shù)值,其余參數(shù)的含義與取值參考公式(1)中的相關(guān)說(shuō)明。
實(shí)驗(yàn)建立在64位的Linux操作系統(tǒng)和NVIDIA GTX Geforce 1080 GPU的服務(wù)器上,采用的深度學(xué)習(xí)框?yàn)閏affe,下載地址為:https://github.com/BVLC/caffe,相關(guān)軟件有Python2.7版本、Matlab2014b版本。
為驗(yàn)證本文提出的算法MIFD在圖像中人臉檢測(cè)的有效性,采用的數(shù)據(jù)集為香港中文大學(xué)公開(kāi)的人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集Wider Face[16],有32 203張圖片,共包含393 703張人臉,全部手工標(biāo)注,標(biāo)注的人臉有較大程度的尺寸、姿態(tài)和遮擋等變化。另一個(gè)數(shù)據(jù)集為馬薩諸塞大學(xué)計(jì)算機(jī)系維護(hù)的一套公開(kāi)數(shù)據(jù)庫(kù)FDDB[4],共有2 845張圖片包含5 171張人臉,涵蓋了在自然環(huán)境下的各種姿態(tài)的人臉。Wider Face分為2個(gè)部分,分別用于訓(xùn)練集、驗(yàn)證集,F(xiàn)DDB為測(cè)試集。
為了方便本文提出的算法MIFD與YOLO的算法對(duì)比,訓(xùn)練兩個(gè)模型時(shí),采取了相同的訓(xùn)練數(shù)據(jù)與訓(xùn)練策略,圖片均劃分為11×11個(gè)網(wǎng)格。將每張訓(xùn)練圖片隨機(jī)截取面積不小于圖片面積70%,舍棄殘缺的標(biāo)注框,對(duì)保留下來(lái)的框的坐標(biāo)進(jìn)行相應(yīng)的變換,然后截取的區(qū)域縮放到448×448,作為數(shù)據(jù)增強(qiáng)的手段,來(lái)減小過(guò)擬合。初始學(xué)習(xí)率(learning rate)設(shè)置為1×10-5,每個(gè)批次的圖片數(shù)量(batch size)為32,網(wǎng)絡(luò)從YOLO的原始模型獲得初始權(quán)重,采用隨機(jī)優(yōu)化算法Adam[17]進(jìn)行網(wǎng)絡(luò)訓(xùn)練。
4.2.1 MIFD與YOLO的性能對(duì)比
圖8為本文算法MIFD和YOLO算法的人臉檢測(cè)效果圖,可以看到:YOLO采用了L2 Loss,在面對(duì)不同尺度的人臉時(shí),本文提出的MIFD更具魯棒性;L2 Loss不采用位置參數(shù)聯(lián)合優(yōu)化的方式,雖然能夠?qū)⒛承┏叨认碌娜四樋蜃?,但是框住人臉的?zhǔn)確程度卻不如IOU Loss。
圖8 檢測(cè)結(jié)果圖
為進(jìn)一步比較本文算法與基礎(chǔ)算法的性能,本文將兩個(gè)模型在人臉數(shù)據(jù)庫(kù)FDDB上進(jìn)行測(cè)試,繪制ROC曲線(圖9),并給出模型訓(xùn)練時(shí)Loss的收斂情況(圖10)。
圖9 MIFD與YOLO的ROC曲線對(duì)比
圖10 訓(xùn)練情況對(duì)比
如圖9所示,橫軸表示圖像中非人臉區(qū)域被誤檢為人臉的數(shù)量,YOLO的誤檢數(shù)量為275,MIFD的誤檢數(shù)量為205,誤檢率降低了(275-205)/275=24.5%;縱軸表示人臉區(qū)域被正確檢出的比例,YOLO為82.5%,MIFD達(dá)到91.2%,準(zhǔn)確率提高了91.2%-82.5%=8.7%;如圖10所示,橫坐標(biāo)代表訓(xùn)練迭代次數(shù),縱坐標(biāo)代表訓(xùn)練過(guò)程中的Loss值,可以看出,MIFD最終的loss比YOLO模型的更小,且更為穩(wěn)定,充分說(shuō)明了本文算法在加快訓(xùn)練收斂的有效性。
4.2.2 MIFD與傳統(tǒng)主流人臉檢測(cè)算法Adaboost的對(duì)比
基于Opencv庫(kù)的Adaboost分類器,在CPU模式下進(jìn)行對(duì)比分析。從FDDB人臉庫(kù)中隨機(jī)抽取1 000張圖片,共含有1 605張人臉,進(jìn)行算法性能比較。
從表1可以得出,本文提出的方法相比于傳統(tǒng)的人臉檢測(cè)算法Adaboost,檢測(cè)精度上:準(zhǔn)確率提升了7.9%,漏檢率減少了7.88%,誤檢率減少了30.5%;檢測(cè)速度上:Adaboost則具有明顯的優(yōu)勢(shì),MIFD可通過(guò)GPU加速來(lái)彌補(bǔ)檢測(cè)速度上的不足。
表1 MIFD與Adaboost算法性能比較
4.2.3 MIFD與其他深度學(xué)習(xí)方法對(duì)比
這部分對(duì)比包括檢測(cè)精度與檢測(cè)速度,選取了其他四種經(jīng)典的人臉檢測(cè)深度學(xué)習(xí)算法進(jìn)行檢測(cè)精度上的比較,分別是CascadeCNN[18]、Boosted Exemplar[19]、PEPAdapt[20]、Faster-RCNN[14],將這些算法在FDDB數(shù)據(jù)集上進(jìn)行評(píng)估,繪制ROC曲線,在1080 GPU的服務(wù)器上進(jìn)行測(cè)試,結(jié)果如圖11所示。
圖11 各算法檢測(cè)效果比較
選取了MIFD、YOLO、Faster RCNN進(jìn)行了算法檢測(cè)速度的比較,結(jié)果如表2所示。
表2 模型檢測(cè)速度對(duì)比
通過(guò)圖11可以得出,本文提出的算法MIFD在誤檢數(shù)量上低于其他深度學(xué)習(xí)方法;在檢測(cè)準(zhǔn)確率上不如Faster RCNN方法,但與其他深度學(xué)習(xí)方法相比,仍然具有明顯優(yōu)勢(shì)。根據(jù)表2可以得出,MIFD的檢測(cè)速度達(dá)到38 f/s,能達(dá)到實(shí)時(shí)檢測(cè)人臉的目的,速度是Faster RCNN的4.13倍,在檢測(cè)速度上具有十分明顯的優(yōu)勢(shì)。因此,本文算法MIFD在檢測(cè)精度與檢測(cè)速度上取得了一個(gè)很好的權(quán)衡。
構(gòu)建實(shí)用的人臉檢測(cè)相關(guān)的應(yīng)用系統(tǒng),需要解決自然環(huán)境下的各種姿態(tài)、不同尺度人臉的檢測(cè)準(zhǔn)確性、魯棒性問(wèn)題,同時(shí)在檢測(cè)速度上必須達(dá)到一定的要求。本文基于深度卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征的優(yōu)越特性,且基于實(shí)時(shí)多目標(biāo)回歸思想,使得提出的算法滿足了檢測(cè)實(shí)時(shí)性的要求;同時(shí),分析了實(shí)時(shí)多目標(biāo)回歸算法割裂了位置參數(shù)之間的關(guān)系,造成了模型的檢測(cè)效果不夠理想的問(wèn)題,針對(duì)存在的缺陷,引入了IOU函數(shù),把位置參數(shù)變量融合為一個(gè)整體進(jìn)行優(yōu)化,克服了該缺陷,提升了檢測(cè)效果。實(shí)驗(yàn)結(jié)果表明:提出的算法在人臉檢測(cè)的精度以及檢測(cè)速度上取得了一個(gè)較好的平衡,檢測(cè)精度上優(yōu)于傳統(tǒng)主流的Adaboost算法,檢測(cè)速度也能夠達(dá)到實(shí)時(shí)性,該算法可用于出入口人證比對(duì)、視頻監(jiān)控分析等人臉相關(guān)的視覺(jué)系統(tǒng)。
參考文獻(xiàn):
[1]Lowe D G.Distinctive image features from scale invariant keypoints[J].International Journal of Computer Vision,2004,60(2):91-110.
[2]Dalal N,Triggs B.Histograms of oriented gradients forhuman detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer SocietyPress,2005:886-893.
[3]曾鴻軍,沈燕飛,王毅.基于感興趣區(qū)域的頭像視頻前處理方法[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(6):188-192.
[4]Jain V,Learned-Miller E.FDDB:A benchmark for facedetection in unconstrained settings[R].UMass Amherst-Technical Report,2010:222-231.
[5]張國(guó)云,向燦群,羅百通,等.一種改進(jìn)的人臉識(shí)別CNN結(jié)構(gòu)研究[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(17):180-185.
[6]Uijlings J R R,Sande K E A V D,Gevers T,et al.Selective search for object recognition[J].International Journal of Computer Vision,2013,104(2):154-171.
[7]Zitnick C L,Dollar P.Edge boxes:Locating object proposals from edges[C]//European Conference on Computer Vision,2014:162-172.
[8]Zhang Xiang,Sermanet P.Overfeat:Integrated recognition,localization and detection using convolution networks[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Columbus:IEEE Computer Society Press,2014:651-667.
[9]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.
[10]Ren S,He K,Girshick R,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,39(6):1137-1148.
[11]Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE Computer Society Press,2016:779-788.
[12]Jiang Y,Jiang Y,Cao Z,et al.UnitBox:An advanced object detection network[C]//ACM on Multimedia Conference,2016:516-520.
[13]Ioffe S,Szegedy C.Batch normalization:Accelerating deep network training by reducing internal covariate shift[J].Computer Science,2015,70(2):23-35.
[14]Jiang H,Learned-Miller E.Face detection with the Faster RCNN[EB/OL].[2016-07-10].http://arxiv.org/abs/1606.03473.
[15]Huang L,Yang Y,Deng Y,et al.DenseBox:Unifyinglandmark localization with end to end object detection[J].Computer Science,2015,26(3):254-267.
[16]Yang S,Luo P,Chen C L,et al.WIDER FACE:A face detection benchmark[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2016:5525-5533.
[17]Kingma D P,Ba J.Adam:A method for stochastic optimization[J].Computer Science,2014,32(3):111-125.
[18]Li H,Lin Z,Shen X,et al.A convolutional neural network cascade for face detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2015:5325-5334.
[19]Li H,Lin Z,Brandt J,et al.Efficient boosted exemplar based face detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2014:1843-1850.
[20]Li H,Hua G,Lin Z,et al.Probabilistic elastic part model for unsupervised face detector adaptation[C]//Proceedings of 2014 IEEE International Conference on Computer Vision,2014:793-800.