国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

臉眼協(xié)同檢測(cè)算法在廣告推薦系統(tǒng)中的應(yīng)用

2021-08-02 03:49:08彬,梁
關(guān)鍵詞:人臉眼睛尺寸

蘇 彬,梁 棟

(1.南京航空航天大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 模式分析與機(jī)器智能工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210016;2.軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心,江蘇 南京 210016)

0 引 言

作為人臉識(shí)別、人臉對(duì)齊、人臉驗(yàn)證和人臉跟蹤等應(yīng)用程序中的關(guān)鍵步驟,人臉檢測(cè)的主要任務(wù)是確定給定圖像或視頻中存在的人臉,然后查明臉部的位置和大小[1-3]。在廣告推薦場(chǎng)景中,目標(biāo)是檢測(cè)當(dāng)前在廣告屏幕前并且正視廣告屏幕的用戶(hù),識(shí)別用戶(hù)的性別、年齡和身份信息,從而做出準(zhǔn)確的廣告推薦。廣告終端中攝像頭的主要目的是檢測(cè)抓取面向終端屏幕的人臉圖像,避免檢測(cè)抓取到側(cè)臉等其他非正視廣告設(shè)備的人臉進(jìn)而導(dǎo)致無(wú)效的廣告推薦。

人臉姿態(tài)估計(jì)[4-5]方法有很多,這些方法通常通過(guò)二維圖像間接獲得三維參數(shù)[6],以達(dá)到人臉姿態(tài)估計(jì)的目的。然而,非配合式的人臉圖像檢測(cè)[7]在工程應(yīng)用中由于硬件成本的限制,具有人臉檢測(cè)功能的智能設(shè)備僅適用于簡(jiǎn)單的人臉檢測(cè)不具備使用較復(fù)雜的人臉姿態(tài)檢測(cè)的算法能力,在該應(yīng)用中,僅需要檢測(cè)正對(duì)照相機(jī)的臉部即可,無(wú)需對(duì)人臉姿態(tài)進(jìn)行全面的檢測(cè)評(píng)估。因此,需要一種簡(jiǎn)單有效的檢測(cè)算法用于檢測(cè)到關(guān)鍵用戶(hù)的臉圖。

1 算法的選擇和優(yōu)化

1.1 算法比較分析

目標(biāo)檢測(cè)算法有兩個(gè)主要分支:anchor-based的目標(biāo)檢測(cè)算法和anchor-free目標(biāo)檢測(cè)算法。然而,anchor被越來(lái)越多的目標(biāo)檢測(cè)算法使用,原因在于預(yù)先對(duì)要檢測(cè)的目標(biāo)可以使用k-means[8]等聚類(lèi)算法計(jì)算出目標(biāo)可能存在的尺度,這樣網(wǎng)絡(luò)對(duì)目標(biāo)的預(yù)測(cè)會(huì)更加準(zhǔn)確。

在PASCAL VOC數(shù)據(jù)集和COCO數(shù)據(jù)集[9]上對(duì)anchor-based的目標(biāo)檢測(cè)算法中的Faster R-CNN[10]、Cascade R-CNN[11]、YOLOv2[12]、YOLOv3[13]、YOLT[14]和SSD網(wǎng)絡(luò)[15]進(jìn)行了對(duì)比分析。表1是在PASCAL VOC數(shù)據(jù)集上的對(duì)比結(jié)果,表2是在COCO數(shù)據(jù)集上的對(duì)比結(jié)果。

在表1中,除YOLT之外,其他目標(biāo)檢測(cè)算法在PASCAL VOC上的實(shí)驗(yàn)結(jié)果來(lái)自于對(duì)應(yīng)的論文里面的最好的實(shí)驗(yàn)結(jié)果。

表1 基于anchor的目標(biāo)檢測(cè)算法在PASCAL VOC上的檢測(cè)結(jié)果

從表1中可以看到,YOLO、YOLT和SSD的速度要比Faster R-CNN快,這主要是因?yàn)閅OLO、YOLT和SSD沒(méi)有生成目標(biāo)建議區(qū)域的步驟,從而大大節(jié)省了目標(biāo)建議區(qū)域,進(jìn)而減少了算法的時(shí)間消耗。但是從表2發(fā)現(xiàn),表現(xiàn)最佳的仍然是Cascade R-CNN,與理論結(jié)果相同。從理論上講,F(xiàn)aster R-CNN和Cascade R-CNN比YOLO和SSD更準(zhǔn)確,但是檢測(cè)速度較低。

表2 基于anchor的目標(biāo)檢測(cè)算法在COCO數(shù)據(jù)集上的檢測(cè)結(jié)果

因?yàn)樵搼?yīng)用場(chǎng)景的困難在于檢測(cè)作為小目標(biāo)的眼睛,因此,該文特別關(guān)注COCO數(shù)據(jù)集上的小目標(biāo)檢測(cè)結(jié)果APs??梢园l(fā)現(xiàn)最佳結(jié)果是Cascade R-CNN,其次是YOLOv3,然后是SSD,最后是YOLOv2?;谝陨系谋容^分析和工程經(jīng)驗(yàn),該文選擇SSD網(wǎng)絡(luò)作為基本檢測(cè)器并根據(jù)這種情況對(duì)其進(jìn)行優(yōu)化。

1.2 SSD介紹

Single Shot MultiBox Detector(SSD)[15]是一種端到端的目標(biāo)檢測(cè)算法,該算法也是一種一階段檢測(cè)算法,將檢測(cè)問(wèn)題直接轉(zhuǎn)化為回歸的問(wèn)題,SSD網(wǎng)絡(luò)還借鑒了Faster R-CNN中的anchor機(jī)制,生成了prior box機(jī)制。prior box其實(shí)也就是一些目標(biāo)的候選邊界框,之后使用softmax分類(lèi)和邊界框回歸得到目標(biāo)置信度得分和邊界框信息。SSD按照如圖1方式生成prior box:以特征圖上每個(gè)網(wǎng)格的中心點(diǎn)為中心,生成一系列同中心的prior box。prior box最小邊長(zhǎng)為min_size,最大邊長(zhǎng)定義如下:

圖1 prior box

(1)

SSD設(shè)置了aspect ratio,利用aspect ratio生成2個(gè)長(zhǎng)方形,這兩個(gè)長(zhǎng)方形的長(zhǎng)和寬分別為:

(2)

(3)

prior box的min_size和max_size由以下公式?jīng)Q定:

(4)

SSD網(wǎng)絡(luò)最重要的貢獻(xiàn)是加入了基于特征金字塔的目標(biāo)預(yù)測(cè)方法,該方法使用conv4_3、fc7、conv6_2、conv7_2、conv8_2和conv9_2這些大小不同的特征圖來(lái)預(yù)測(cè)不同尺度的目標(biāo)。SSD在金字塔層次結(jié)構(gòu)的預(yù)測(cè)特征圖上同時(shí)添加了分類(lèi)和邊界框回歸兩個(gè)分支網(wǎng)絡(luò)來(lái)進(jìn)行目標(biāo)預(yù)測(cè)。該網(wǎng)絡(luò)的突出貢獻(xiàn)還在于使用高層特征圖檢測(cè)大目標(biāo),使用中層特征圖預(yù)測(cè)中等目標(biāo),使用低層特征圖檢測(cè)小目標(biāo)。

該網(wǎng)絡(luò)采用標(biāo)準(zhǔn)的VGG16作為特征提取器,然后添加額外的卷積層到被截?cái)嗟腣GG16網(wǎng)絡(luò)中。SSD采用特征金字塔層次結(jié)構(gòu),利用逐層預(yù)測(cè)的方法來(lái)檢測(cè)目標(biāo)。該網(wǎng)絡(luò)通過(guò)多尺度的方法來(lái)提高mAP。但是,對(duì)于人眼這種小目標(biāo)檢測(cè),SSD的檢測(cè)效果并不是很好,原因主要有兩個(gè)方面。原因一在于占圖像比例過(guò)小的目標(biāo)經(jīng)過(guò)卷積之后,在conv4_3層輸出的特征圖上目標(biāo)尺寸大約為1×1,目標(biāo)細(xì)節(jié)的信息將會(huì)在conv4_3層之后逐漸消失直至完全消失。原因二在于SSD網(wǎng)絡(luò)低層的特征圖尺寸大,但是特征圖所包含的語(yǔ)義信息不夠,高層的特征圖的語(yǔ)義信息豐富了,但經(jīng)過(guò)太多的池化層,特征圖太小了。因此,對(duì)于小目標(biāo)檢測(cè)來(lái)講,增加特征圖尺寸是非常重要的,同時(shí)語(yǔ)義信息的添加有益于分類(lèi)特征的提取。

1.3 優(yōu)化后的SSD

針對(duì)小目標(biāo)檢測(cè)的特點(diǎn)[16-17],根據(jù)經(jīng)驗(yàn),特征圖尺寸的大小與小目標(biāo)檢測(cè)的性能有很大關(guān)系。為了增大SSD網(wǎng)絡(luò)預(yù)測(cè)特征圖的尺寸,將輸入圖像的尺寸從300×300調(diào)整為500×500。同時(shí)為了獲得更多有益于小目標(biāo)分類(lèi)的特征,追加了3個(gè)卷積層在SSD網(wǎng)絡(luò)之后,這也意味著預(yù)測(cè)層從原來(lái)的6個(gè)變?yōu)?個(gè)。

圖2表明優(yōu)化后的SSD與SSD相比主要有三個(gè)方面不同:

圖2 優(yōu)化后的SSD 500×500的網(wǎng)絡(luò)架構(gòu)

(1)增大了conv7_2、conv8_2和conv9_2層輸出的特征圖尺寸。

(2)在SSD網(wǎng)絡(luò)后追加了conv10、conv11和conv12三個(gè)卷積層,從而獲取更多有益于小目標(biāo)分類(lèi)的特征。

(3)預(yù)測(cè)層從原來(lái)的6個(gè)變?yōu)?個(gè),增大了網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的可能性。金字塔結(jié)構(gòu)網(wǎng)絡(luò)低層用來(lái)檢測(cè)小目標(biāo),網(wǎng)絡(luò)高層用來(lái)檢測(cè)大目標(biāo)。

優(yōu)化后的深層次SSD算法,損失函數(shù)的計(jì)算同SSD算法一致,損失函數(shù)如下:

(5)

(6)

(7)

需要分別計(jì)算bounding box loss(Loc loss)和classification loss(Conf loss),并最終求和。另外系數(shù)α用來(lái)平衡兩種模型的優(yōu)化比例,本方法中,它被賦值1;同時(shí)在本系統(tǒng)中僅關(guān)注人臉、眼睛兩個(gè)目標(biāo),所以檢測(cè)目標(biāo)分為2類(lèi),即人臉和眼睛,把這種優(yōu)化后的SSD算法命名為optimized SSD。

1.4 目標(biāo)臉圖的選擇和標(biāo)準(zhǔn)化方法

在檢測(cè)到人臉和眼睛后,首先將人臉按照像素大小進(jìn)行排序,并從最大的人臉圖像中判斷在該人臉區(qū)域中是否同時(shí)有兩只眼睛,如果沒(méi)有,則判斷下一張人臉。如果存在,則檢查左眼與人臉圖像左邊緣之間的距離以及右眼與人臉圖像右邊緣之間的距離差是否超出限制;如果否,則該人臉為目標(biāo)人臉,即正對(duì)廣告屏幕的用戶(hù),并停止判斷;如果不是,將判斷下一張臉,直到判斷出檢測(cè)到的最小臉為止。判斷左右眼睛和臉邊緣的距離差是否超過(guò)限制的方法如下:第一步設(shè)備臉圖的bounding box為Pf(xfyfwfhf),兩只眼睛的bounding box分別為Pe1(xe1ye1we1he1)和Pe2(xe2ye2we2he2),如果xe1

|2*[(xe1-xf)-(xf+wf-xe2-we2)]/[(xe1-xf)+(xf+wf-xe2-we2)]|*100%

(8)

如果xe1>xe2,則誤差率是:

|2*[(xe2-xf)-(xf+wf-xe1-we1)]/[(xe2-xf)+(xf+wf-xe1-we1)]|*100%

(9)

如果誤差率大于等于30%,將認(rèn)為誤差率超限,這種檢測(cè)器定義為臉眼協(xié)同檢測(cè)器。

2 實(shí) 驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)和訓(xùn)練

相比于眼睛檢測(cè),人臉檢測(cè)屬于大目標(biāo)檢測(cè),所以在數(shù)據(jù)選擇和設(shè)計(jì)階段更關(guān)注眼睛的檢測(cè),而且適合工程場(chǎng)景的人臉及眼睛數(shù)據(jù)采集與標(biāo)注是進(jìn)行實(shí)驗(yàn)的基礎(chǔ)。這些圖像的采集主要有三個(gè)方面,一個(gè)是自己收集的場(chǎng)景應(yīng)用中的正樣本圖像2 680張,負(fù)樣本圖像896張,另外是使用了FDDB和CAS-PEAL[18]中的數(shù)據(jù)集。訓(xùn)練集、驗(yàn)證集和測(cè)試集的詳細(xì)信息如表3所示。數(shù)據(jù)集中的負(fù)樣本圖像是非目標(biāo)對(duì)象(例如側(cè)面,頭部等),由于人眼的尺寸在圖片中所占比例太小,因此,眼睛檢測(cè)定位是一項(xiàng)重要的任務(wù)。

表3 訓(xùn)練數(shù)據(jù)集

分析了數(shù)據(jù)集中眼睛占整個(gè)畫(huà)面比例大小的分布情況,眼睛尺寸占畫(huà)面的比例定義如下:

?=object_size/image_size

(10)

根據(jù)?值的范圍,將單只眼睛尺寸從小到大(S,M,L,XL)進(jìn)行了排序,其中S對(duì)應(yīng)?≤0.5%,M對(duì)應(yīng)0.5%

訓(xùn)練數(shù)據(jù)集經(jīng)過(guò)分類(lèi)后小尺寸眼睛圖片S占整個(gè)數(shù)據(jù)集的35.62%,中尺寸眼睛圖片M占整個(gè)數(shù)據(jù)集的56.44%,大尺寸眼睛圖片L占整個(gè)數(shù)據(jù)集的7.78%,因此該數(shù)據(jù)集更加關(guān)注小尺眼睛目標(biāo),同時(shí)也考慮到了不同尺度眼睛目標(biāo)。

文中使用小尺寸眼睛數(shù)據(jù)集S和整個(gè)數(shù)據(jù)集W的訓(xùn)練集來(lái)訓(xùn)練網(wǎng)絡(luò)。在Caffe框架下,使用一塊P4的NVIDIA GPU進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)中使用訓(xùn)練好的SSD 500×500網(wǎng)絡(luò)模型作為預(yù)訓(xùn)練模型來(lái)訓(xùn)練Optimized SSD和它的變種網(wǎng)絡(luò),然后在訓(xùn)練集S和W上微調(diào)網(wǎng)絡(luò)模型。為了定量和定性地分析比較網(wǎng)絡(luò),所有網(wǎng)絡(luò)的基本參數(shù)設(shè)置如下:迭代次數(shù)為120 k,動(dòng)量大小為0.8,權(quán)重衰減大小為0.000 5,批處理大小為6。網(wǎng)絡(luò)訓(xùn)練的初始學(xué)習(xí)率為10-3。當(dāng)網(wǎng)絡(luò)迭代到6萬(wàn)次,9萬(wàn)次和12萬(wàn)次時(shí),學(xué)習(xí)率變?yōu)?0-4,10-5和10-6。所有新的添加層初始化模式是“xavier”。訓(xùn)練階段的每次迭代過(guò)程,網(wǎng)絡(luò)模型會(huì)預(yù)測(cè)目標(biāo)的邊界框和類(lèi)別,然后去更新網(wǎng)絡(luò)參數(shù)來(lái)最小化分類(lèi)和定位損失。

2.2 實(shí)驗(yàn)結(jié)果

2.2.1 Optimized SSD與SSD的比較

實(shí)驗(yàn)中,使用了SSD網(wǎng)絡(luò)在小尺寸數(shù)據(jù)集S和整個(gè)數(shù)據(jù)集W訓(xùn)練集上訓(xùn)練SSD和Optimized SSD網(wǎng)絡(luò),然后在對(duì)應(yīng)的驗(yàn)證集上評(píng)估它們,實(shí)驗(yàn)結(jié)果如表4所示。

表4 Optimized SSD和SSD網(wǎng)絡(luò)在驗(yàn)證集S和W上的實(shí)驗(yàn)結(jié)果

Optimized SSD方法在驗(yàn)證集S和W上都取得了更好的性能。在驗(yàn)證集S上,Optimized SSD網(wǎng)絡(luò)將SSD網(wǎng)絡(luò)的檢測(cè)精度從87.61%提升到了89.81%。同時(shí),在驗(yàn)證集W上,Optimized SSD網(wǎng)絡(luò)將檢測(cè)結(jié)果從92.03%提高到了93.16%。雖然Optimized SSD 500×500的檢測(cè)速度略低于SSD 500×500,但仍然能滿(mǎn)足實(shí)時(shí)檢測(cè)的要求。

2.2.2 基于Optimized SSD 的Face detector和Face-eyes Co-detector對(duì)比實(shí)驗(yàn)

為了評(píng)估Face-eyes Co-detector在檢測(cè)目標(biāo)人臉中的性能,使用Optimized SSD訓(xùn)練了僅檢測(cè)人臉的檢測(cè)器,和同時(shí)檢測(cè)人臉和雙眼的Face-eyes Co-detector,兩種檢測(cè)器使用相同的訓(xùn)練數(shù)據(jù)和參數(shù),比較并分析了上述兩個(gè)檢測(cè)器的實(shí)際效果。使用了兩種方法,第一種方法是使用CAS-PEAL數(shù)據(jù)集中的1 084個(gè)樣本圖像,包括586個(gè)正臉圖像、382個(gè)45°側(cè)臉圖和116個(gè)90°側(cè)臉圖。

驗(yàn)證負(fù)樣本檢測(cè)率,比較結(jié)果如表5所示。

表5 使用方法一的比較結(jié)果

第二種方法用來(lái)驗(yàn)證在相同應(yīng)用環(huán)境中的實(shí)際檢測(cè)效果。這種方法分別使用Face detector的設(shè)備收集了3 005張臉圖和使用Face-eyes Co-detector收集了2 982張圖像,然后使用基于三維模型和仿射對(duì)應(yīng)原理的人臉姿態(tài)估計(jì)方法將采集的圖像分類(lèi)為正臉(小于15°的),15°至45°的人臉和大于45°的人臉三個(gè)類(lèi)別。實(shí)驗(yàn)比較結(jié)果如表6所示。

表6 方法二對(duì)比結(jié)果

定義錯(cuò)檢率為非目標(biāo)人臉數(shù)量占總檢出人臉總數(shù)的比例,非目標(biāo)人臉包含了yaw大于15°的側(cè)臉,其中細(xì)分為15°≤yaw<45°側(cè)臉和yaw>45°的側(cè)臉。從圖3可以看出,使用Face-eyes Co-detector在廣告推薦場(chǎng)景中錯(cuò)檢率遠(yuǎn)低于非臉眼協(xié)同檢測(cè)器,尤其是大角度的側(cè)臉,兩種方法使用臉眼協(xié)同檢測(cè)器檢出率均為0。

圖3 錯(cuò)檢率

3 結(jié)束語(yǔ)

針對(duì)廣告推薦場(chǎng)景,提出了眼臉協(xié)同檢測(cè)器(Face-eyes detector)和Optimized SSD網(wǎng)絡(luò),Optimized SSD算法可提高檢測(cè)眼睛等小目標(biāo)的準(zhǔn)確性。同時(shí),設(shè)計(jì)的協(xié)同檢測(cè)器,能夠快速篩選出注視廣告屏幕的人臉,避免捕獲無(wú)效的人臉進(jìn)行進(jìn)一步的檢測(cè)分析,減少對(duì)資源的消耗,并有效提升廣告推薦的精準(zhǔn)度。此外該算法避免使用復(fù)雜的臉部關(guān)鍵點(diǎn)檢測(cè)和姿態(tài)評(píng)估算法,減少了對(duì)硬件資源的消耗,提高了檢測(cè)效率。

猜你喜歡
人臉眼睛尺寸
尺寸
智族GQ(2022年12期)2022-12-20 07:01:18
CIIE Shows Positive Energy of Chinese Economy
有特點(diǎn)的人臉
三國(guó)漫——人臉解鎖
D90:全尺寸硬派SUV
我有一雙探索的眼睛
眼睛在前
為什么眼睛不怕冷?
眼睛真實(shí)太重要了
佳石選賞
中華奇石(2015年5期)2015-07-09 18:31:07
鄂州市| 阿克苏市| 满洲里市| 宣恩县| 徐闻县| 渑池县| 绥棱县| 陵水| 丰镇市| 尼木县| 浦城县| 朝阳区| 云阳县| 杂多县| 台州市| 同仁县| 荆门市| 林芝县| 平果县| 开鲁县| 绥化市| 桐柏县| 犍为县| 甘泉县| 崇文区| 尉犁县| 邮箱| 湘西| 安岳县| 科技| 张家界市| 保德县| 双桥区| 驻马店市| 房山区| 郓城县| 乐亭县| 寻乌县| 台江县| 大丰市| 宣城市|