国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于單一神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人臉檢測(cè)

2019-11-02 05:45熊寒穎魯統(tǒng)偉蔣沖宇
關(guān)鍵詞:人臉尺度卷積

熊寒穎,魯統(tǒng)偉,閔 峰,蔣沖宇

武漢工程大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,湖北 武漢 430205

隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺技術(shù)的飛速發(fā)展,人臉檢測(cè)技術(shù)被廣泛應(yīng)用于生活的各個(gè)角落。例如拍照美顏、安防監(jiān)控、視頻會(huì)議等,其中人臉檢測(cè)技術(shù)是人臉識(shí)別[1]中最開始的一步。由于人臉尺度多樣性,使得人臉檢測(cè)模型在CPU上很難達(dá)到實(shí)時(shí)檢測(cè)速度,所以如何讓模型在不降低精度的同時(shí)保障運(yùn)行速度,依舊是巨大的挑戰(zhàn)。

在深度學(xué)習(xí)爆發(fā)之前,人臉檢測(cè)主要使用淺層模型完成。人們利用算法把那些看上去抽象的信息變得易于處理,最后人工設(shè)計(jì)處理得到的半成品再交給模型去學(xué)習(xí)[2],這種方法嚴(yán)重影響了人臉檢測(cè)算法的檢測(cè)速度和精度。Viola等[3]使用Haar(Haar-based)的級(jí)聯(lián)分類器來(lái)檢測(cè)對(duì)象,使人臉檢測(cè)算法有很大的改進(jìn)。Viola等將Haar特征與Adaboost[4]算法相結(jié)合實(shí)現(xiàn)人臉檢測(cè)算法。Ahonen等[5]利用局部二值特征實(shí)現(xiàn)人臉檢測(cè)算法。這些傳統(tǒng)的人臉測(cè)算法在速度上具有一定優(yōu)勢(shì),但是人臉圖像易受光照不均、姿態(tài)多樣性和遮擋等情況的影響,實(shí)際應(yīng)用中檢測(cè)精度不高。

隨著深度學(xué)習(xí)的發(fā)展,人們提出了使用深層模型來(lái)實(shí)現(xiàn)人臉檢測(cè)。深度學(xué)習(xí)舍棄了人工提取特征的步驟,讓模型更好地根據(jù)數(shù)據(jù)的原始狀態(tài)學(xué)習(xí),因此更容易學(xué)到數(shù)據(jù)中有價(jià)值的信息[6]。Yang等[7]提出通道特征(aggregation channel feature,ACF)算法,將傳統(tǒng)方法和神經(jīng)網(wǎng)絡(luò)相結(jié)合,利用多通道特征實(shí)現(xiàn)人臉檢測(cè)。Chen等[8]提出Jiont Cascade算法,將人臉關(guān)鍵點(diǎn)檢測(cè)與人臉檢測(cè)相結(jié)合,提高人臉檢測(cè)算法精度。Ghiasi等[9]提出高分辨率可變形部件模型(multires hierarchial deformable pot model,MultiresHPM),利用級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉檢測(cè)和關(guān)鍵點(diǎn)定位,實(shí)現(xiàn)多角度和遮擋情境下的人臉檢測(cè)。Zhan等[10]提出多任務(wù)級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)(multi-task cascaded convolutional network,MTCNN),利用三層級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)人臉檢測(cè)和關(guān)鍵點(diǎn)對(duì)齊算法。Zhang等[11]提出 Faceboxes算法,基于CPU的快速準(zhǔn)確人臉檢測(cè)。

現(xiàn)有的人臉檢測(cè)網(wǎng)絡(luò)可分為級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)和單一神經(jīng)網(wǎng)絡(luò)兩種。其中級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)適合檢測(cè)單個(gè)人臉圖像,當(dāng)圖像中存在多個(gè)人臉時(shí)會(huì)增加檢測(cè)時(shí)間,且訓(xùn)練方法復(fù)雜。單一神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法,可快速檢測(cè)出一張圖像中多個(gè)人臉,且結(jié)構(gòu)簡(jiǎn)單易于訓(xùn)練。為實(shí)現(xiàn)實(shí)時(shí)的人臉檢測(cè),本文選擇單一神經(jīng)網(wǎng)絡(luò)。在網(wǎng)絡(luò)的前2個(gè)卷積層中設(shè)置較大的步長(zhǎng),使輸入圖像尺寸快速減??;為防止圖像中小尺寸的人臉信息丟失,將淺層特征信息和深層特征信息相融合,增加小尺寸人臉的信息并減少重疊檢測(cè)框;由于圖像中存在多尺度[12-13]的人臉,利用 Inception[14]結(jié)構(gòu)和重疊框預(yù)測(cè)策略,增加小尺寸人臉的檢測(cè)概率;使用多級(jí)損失函數(shù),分別預(yù)測(cè)人臉框和人臉類別。

1 基于單一神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人臉檢測(cè)

基于單一神經(jīng)網(wǎng)絡(luò)的實(shí)時(shí)人臉檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)的輸入為1024*1024像素大小的圖像,當(dāng)輸入圖像尺寸小于該尺寸時(shí),用值為0的像素將圖像自動(dòng)填充成到1024*1024像素大??;Conv1、Pool1、Conv2和Pool2層采用較大的卷積核和步長(zhǎng),快速縮小輸入圖像尺寸,保證人臉檢測(cè)的實(shí)時(shí)性;Conv3和Conv4層引入淺層特征信息,實(shí)現(xiàn)上下文特征融合,提高網(wǎng)絡(luò)對(duì)細(xì)節(jié)信息的感知能力;Inception1、Inception2和Inception3層實(shí)現(xiàn)人臉的多尺度檢測(cè),利用多尺度卷積和預(yù)測(cè)框重疊策略,減少尺度變化對(duì)檢測(cè)效果的影響;利用多任務(wù)損失函數(shù),加快模型的收斂速度。

圖1 人臉檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure diagram of face detection network

1.1 快速下降卷積

當(dāng)輸入網(wǎng)絡(luò)的檢測(cè)特征圖尺寸較大時(shí),網(wǎng)絡(luò)卷積的時(shí)間會(huì)增加,在CPU上的運(yùn)行時(shí)間會(huì)加長(zhǎng)。本文網(wǎng)絡(luò)使用輸入尺寸為1024*1024像素的彩色圖,為快速縮小輸入特征圖尺寸,在Conv1、Pool1、Conv2、Pool2這4層設(shè)置較大的卷積核步長(zhǎng),分別為4、2、2和2,經(jīng)過(guò)這4層卷積操作使輸入空間快速縮小32倍。Conv1層和Conv2層卷積核的大小分別為7*7和5*5,特征圖像填充為3。Pool1和Pool2層的卷積核大小都為3*3,無(wú)圖像填充。為提高檢測(cè)速度,在Conv1和Conv2層采用了C.ReLU[15]激活函數(shù)。C.ReLU激活函數(shù)應(yīng)用在ReLU之前簡(jiǎn)單地連接否定輸出,在保證輸出維度不變的情況下減少卷積核數(shù)量,提高檢測(cè)速度。C.ReLU結(jié)構(gòu)如圖2所示。

圖2 C.ReLU結(jié)構(gòu)圖Fig.2 Structure diagram of C.ReLU

1.2 特征圖融合

由于低層特征分辨率較高,包含更多位置和細(xì)節(jié)信息,但是其經(jīng)過(guò)的卷積少,語(yǔ)義性低,噪聲多;高層特征具有更強(qiáng)的語(yǔ)義信息,但是分辨率很低,對(duì)細(xì)節(jié)的感知能力較差[16]。因此將低層特征和高層特征融合增加不同層之間的聯(lián)系,減少重復(fù)的人臉框,另一方面引入上下文信息可以提高小尺寸人臉的檢測(cè)精度。本文提出的特征圖融合模型如圖3所示,圖3(a)將Inception1和Inception2經(jīng)過(guò)特定方式融合構(gòu)成一個(gè)特征圖Conv3;圖3(b)將Conv3和Inception3經(jīng)過(guò)特定方式融合構(gòu)成一個(gè)特征圖Conv4。Concat層可以將2個(gè)及以上的特征圖按照通道數(shù)或特征維度進(jìn)行拼接,以此融合輸入層的特征信息;Conv1*1是卷積核大小為1*1的卷積層,可使特征圖降維,減少網(wǎng)絡(luò)計(jì)算量,加快檢測(cè)速度。

圖3 特征圖融合模塊:(a)Inception1和Inception2,(b)Inception3和Conv3Fig.3 Modules of feature map fusion:(a)Inception 1 and 2,(b)Inception 3 and Conv 3

1.3 多尺度人臉檢測(cè)

為了解決人臉的多尺度問(wèn)題,采用多個(gè)卷積層預(yù)測(cè)人臉框位置。在網(wǎng)絡(luò)中的Conv4、Conv5和Conv6層進(jìn)行多尺度檢測(cè),利用不同大小的檢測(cè)框和檢測(cè)框密集策略來(lái)實(shí)現(xiàn)多尺度檢測(cè)。Inception模塊可用于檢測(cè)多尺度的人臉,該模塊由多個(gè)卷積核大小不同的卷積組成,針對(duì)網(wǎng)絡(luò)寬度做多尺度設(shè)計(jì),可以增加網(wǎng)絡(luò)深度和寬度,減少網(wǎng)絡(luò)參數(shù)。在圖1人臉檢測(cè)網(wǎng)絡(luò)中使用了3個(gè)Inception結(jié)構(gòu),其結(jié)構(gòu)如圖4所示。

圖4 Inception結(jié)構(gòu)圖Fig.4 Structure diagram of inception

使用不同大小的檢測(cè)框預(yù)測(cè)人臉位置,可以共享網(wǎng)絡(luò)層參數(shù),減少計(jì)算量提高人臉檢測(cè)速度。利用人臉的形狀特點(diǎn)將檢測(cè)框設(shè)置成正方形,檢測(cè)框內(nèi)的任意輸入都會(huì)影響輸出結(jié)果。然而測(cè)試結(jié)果顯示,中間位置的輸入對(duì)輸出結(jié)果的影響最大,整體呈現(xiàn)一種中心高斯分布形態(tài)。定義檢測(cè)框密集公式,如公式(1)所示。Adensity是預(yù)測(cè)框的密度,指的是檢測(cè)框的長(zhǎng)寬比;m是檢測(cè)框密集次數(shù),指檢測(cè)框的重復(fù)次數(shù);Ascale是預(yù)測(cè)框的尺寸,指的是對(duì)應(yīng)檢測(cè)框的像素大小;Astride是預(yù)測(cè)框移動(dòng)的位移量,指檢測(cè)框移動(dòng)的像素個(gè)數(shù)。

為更好檢測(cè)多尺度人臉,利用檢測(cè)框重疊策略。將Adensity的值設(shè)為4,這樣不同尺度的人臉匹配到的檢測(cè)框密度相同。當(dāng)出現(xiàn)小尺度的預(yù)測(cè)框時(shí),適當(dāng)增加檢測(cè)框密集次數(shù)m,使Adensity的值等于4。多尺度人臉檢測(cè)框的參數(shù)設(shè)置如表1所示。

1.4 損失函數(shù)

算法預(yù)測(cè)了人臉框的坐標(biāo)和人臉的類別信息,所以采用多級(jí)損失函數(shù)。根據(jù)默認(rèn)檢測(cè)框和真實(shí)檢測(cè)框位置做Jaccard相似度計(jì)算,把相似度大于0.5的默認(rèn)框設(shè)置為正樣本,其它為負(fù)樣本。使用2級(jí)Softmax損失函數(shù)進(jìn)行分類,用Smooth1Loss進(jìn)行回歸。損失函數(shù)公式如下。

表1 多尺度人臉檢測(cè)框參數(shù)Tab.1 Parameters of face detection in multi-scale

公式(2)中,pi是目標(biāo)感受野的概率是標(biāo)簽,為0時(shí),表示為負(fù)樣本為1時(shí),表示為正樣本;ti={tx,ty,tw,th}是一個(gè)向量,表示預(yù)測(cè)框的4個(gè)參數(shù)坐標(biāo);ti*是正確的目標(biāo)感受野的坐標(biāo)向量;是目標(biāo)和非目標(biāo)的對(duì)數(shù)損失,是回歸損失

2 實(shí)驗(yàn)部分

2.1 實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)方法

人臉檢測(cè)模型首先在廣泛人臉數(shù)據(jù)集(wider face dataset,WIDERFACE)上訓(xùn)練,然后在人臉檢測(cè)數(shù)據(jù)集基準(zhǔn)(face detection dataset and benchmark,F(xiàn)DDB)和野外標(biāo)注人臉數(shù)據(jù)集(annotated face in the wild,AFW)上驗(yàn)證。WIDERFACE數(shù)據(jù)集包含3萬(wàn)多個(gè)身份,其中人臉圖像有40多萬(wàn)張,該數(shù)據(jù)庫(kù)還標(biāo)記了所有的人臉位置坐標(biāo)。若人臉圖片太小,在訓(xùn)練人臉檢測(cè)模型時(shí)會(huì)降低模型收斂速度,所以先將尺寸小于20*20像素的人臉圖像過(guò)濾掉再進(jìn)行網(wǎng)絡(luò)訓(xùn)練。

網(wǎng)絡(luò)訓(xùn)練和測(cè)試都是基于Caffe深度學(xué)習(xí)框架。使用學(xué)習(xí)率衰減策略,前8萬(wàn)次網(wǎng)絡(luò)迭代使用的學(xué)習(xí)率為0.001,然后每訓(xùn)練2萬(wàn)次迭代學(xué)習(xí)率會(huì)降低0.1倍,一共訓(xùn)練12萬(wàn)次。為避免網(wǎng)絡(luò)陷入局部最小,網(wǎng)絡(luò)的動(dòng)量設(shè)置為0.9。為避免過(guò)擬合,使用l2正則化,權(quán)重衰減為0.0005。在CPU檢測(cè)圖像可以達(dá)到21幀/s的速度,在GPU上測(cè)試可達(dá)到125幀/s的速度。

2.2 實(shí)驗(yàn)結(jié)果分析

2.2.1 模型合理性驗(yàn)證 為了驗(yàn)證本文網(wǎng)絡(luò)模型的合理性,做了2個(gè)對(duì)比試驗(yàn)。實(shí)驗(yàn)一:沒有加入特征融合模塊,直接在Inception3、Conv5和Conv6層進(jìn)行多尺度檢測(cè),人臉檢測(cè)框參數(shù)與本文算法一致。實(shí)驗(yàn)二:在多個(gè)特征圖上進(jìn)行多尺度檢測(cè),Conv4設(shè)置檢測(cè)框大小為32*32像素,檢測(cè)框密集次數(shù)為4;Conv5層設(shè)置檢測(cè)框大小為64*64像素,檢測(cè)框密集次數(shù)為2;Inception3設(shè)置檢測(cè)框大小為128*128像素,檢測(cè)框密集次數(shù)為0;Conv5和Conv6層的檢測(cè)框參數(shù)與本文算法一致。在AFW數(shù)據(jù)集上驗(yàn)證模型合理性,AFW數(shù)據(jù)集包含205張人臉圖像。實(shí)驗(yàn)結(jié)果表明本文模型優(yōu)于對(duì)比模型,如表2所示。

表2 不同融合方式的精確度比較Tab.2 Accuracy comparison of different fusion methods

2.2.2 模型檢測(cè)速度對(duì)比 為驗(yàn)證本文方法的實(shí)時(shí)性,對(duì)比了 ACF、Jiont Cascade、MultiresHPM、MTCNN和Faceboxes 5種人臉檢測(cè)方法。從網(wǎng)絡(luò)輸入圖像尺寸、網(wǎng)絡(luò)檢測(cè)人臉尺寸和檢測(cè)速度做了對(duì)比。人臉檢測(cè)算法在CPU環(huán)境下檢測(cè)速度對(duì)比,如表3所示。由表3可知,在CPU下檢測(cè)大小為640*480像素的圖像,本文算法對(duì)比其他5種算法,網(wǎng)絡(luò)檢測(cè)到的人臉尺寸最小且速度最快。

表3 算法的檢測(cè)速度和檢測(cè)尺寸比較Tab.3 Comparison of detection speed and time with different algorithms

2.2.3 模型檢測(cè)精度對(duì)比 為驗(yàn)證本文模型檢測(cè)精度,在FDDB數(shù)據(jù)集與5種人臉檢測(cè)算法進(jìn)行對(duì)比。FDDB數(shù)據(jù)集包括2845張圖像,一共標(biāo)注了5171張人臉。FDDB是具有標(biāo)準(zhǔn)評(píng)估過(guò)程的數(shù)據(jù)集,使用橢圓框標(biāo)注人臉位置。本文算法用矩形框標(biāo)注,所以先把橢圓標(biāo)注轉(zhuǎn)化為矩形標(biāo)注。我們遵循FDDB數(shù)據(jù)集的評(píng)估流程,用官方提供的工具箱測(cè)試本文人臉檢測(cè)算法的精度。FDDB數(shù)據(jù)集的測(cè)試標(biāo)準(zhǔn)可分為離散評(píng)分和連續(xù)評(píng)分2種情況。離散評(píng)分以檢測(cè)到的人臉框和真實(shí)人臉框的重合面積為評(píng)判標(biāo)準(zhǔn),當(dāng)2個(gè)框的重合面積大于0.5時(shí)認(rèn)為檢測(cè)到了人臉。連續(xù)評(píng)分是以檢測(cè)框和重疊框的重合面積的比率為評(píng)判標(biāo)準(zhǔn),重疊比越大識(shí)別率越高。FDDB數(shù)據(jù)集檢測(cè)評(píng)分如圖5所示,圖5(a)為離散評(píng)分,圖5(b)為連續(xù)評(píng)分。

由圖5可知,檢測(cè)算法在FDDB數(shù)據(jù)集上的離散和連續(xù)情況下正確率分別為92.1%和71.1%,都達(dá)到了較為領(lǐng)先的檢測(cè)效果。雖然算法檢測(cè)精度低于MTCNN,但是算法在速度上是快于MTCNN,所以本文算法可實(shí)現(xiàn)實(shí)時(shí)高效的人臉檢測(cè)。

圖5 FDDB數(shù)據(jù)集結(jié)果:(a)離散評(píng)分,(b)連續(xù)評(píng)分Fig.5 Evaluation on FDDB dataset:(a)discontinuous score,(b)continuous score

3 結(jié) 語(yǔ)

為提高人臉檢測(cè)速度,在初始卷積層中使用較大的卷積核和移動(dòng)步長(zhǎng),快速縮小輸入圖像尺寸;加入特征圖融合模塊,增強(qiáng)不同層之間的聯(lián)系,減少人臉重復(fù)框;使用多尺度卷積層,檢測(cè)不同尺度的人臉;利用多級(jí)損失函數(shù),使模型訓(xùn)練更快收斂。該算法在FDDB和AFW數(shù)據(jù)集上達(dá)到了良好的檢測(cè)效果,在CPU上圖像的檢測(cè)速度為21幀/s。但是該算法限制了最小檢測(cè)的人臉尺寸,當(dāng)檢測(cè)的人臉圖像尺寸小于20*20的像素時(shí)檢測(cè)效果不佳。因此對(duì)小尺寸人臉圖像的檢測(cè)需要進(jìn)一步提高其檢測(cè)效果。

猜你喜歡
人臉尺度卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
有特點(diǎn)的人臉
一種并行不對(duì)稱空洞卷積模塊①
一起學(xué)畫人臉
玻璃窗上的人臉
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
宇宙的尺度
9