基于回歸置信度的多尺度精確人臉檢測(cè)

2020-02-08 04:09于賢杰張建偉楊夢(mèng)龍

計(jì)算機(jī)工程與設(shè)計(jì) 2020年1期

于賢杰，張建偉，楊夢(mèng)龍

(1.四川大學(xué) 計(jì)算機(jī)學(xué)院(軟件學(xué)院)，四川成都 610065；2.四川大學(xué) 空天科學(xué)與工程學(xué)院，四川成都 610065；3.四川川大智勝軟件股份有限公司，四川成都 610045)

0 引言

人臉檢測(cè)技術(shù)發(fā)展至今，已有很多工作者對(duì)其進(jìn)行總結(jié)，對(duì)人臉檢測(cè)方法全面的調(diào)查可參考文獻(xiàn)[1]。目前人臉檢測(cè)算法主要分為One-stage和Two-stage方法，One-stage如YOLO[2]、SSD[3]等采用多層直接預(yù)測(cè)的方式，層與層之間無(wú)相互關(guān)聯(lián)，檢測(cè)速度快但檢測(cè)框準(zhǔn)確度不佳。Two-stage算法如Faster-RCNN[4]、R-FCN[5]等采用由粗到精的檢測(cè)方式，檢測(cè)質(zhì)量明顯提升，但由于僅采用一層特征作為特征輸入，對(duì)小目標(biāo)檢測(cè)效果很差。

神經(jīng)網(wǎng)絡(luò)隨著層數(shù)加深對(duì)分類越來(lái)越敏感，對(duì)回歸越來(lái)越不利，因此如何找到一個(gè)折中方案對(duì)檢測(cè)質(zhì)量有很大影響。近幾年提出了很多算法在一定程度上解決了此類難題：IRNN[6]算法通過(guò)整合ROI(region of interest)內(nèi)外部信息提升網(wǎng)絡(luò)檢測(cè)質(zhì)量；FPN[7]算法采用特征金字塔結(jié)構(gòu)，明顯提升了小目標(biāo)的檢測(cè)質(zhì)量；RON[8]算法采用特征融合結(jié)構(gòu)，可以檢測(cè)圖像中多尺度的目標(biāo)；CoupleNet[9]算法融合了全局信息與局部信息用于目標(biāo)檢測(cè)；DetNet[10]算法平衡了分類任務(wù)與回歸任務(wù)，引入空洞卷積既保持感受野大小又保持較大的分辨率。

本文提出一種基于回歸置信度的多尺度人臉檢測(cè)網(wǎng)絡(luò)(regression-based multi-scale face detection net，RM net)。該網(wǎng)絡(luò)以R-FCN網(wǎng)絡(luò)為原型，采用多尺度特征融合結(jié)構(gòu)提取特征，在預(yù)測(cè)階段既輸出分類置信度又輸出回歸置信度，同時(shí)將回歸置信度作為NMS[11]算法的排序指標(biāo)。該網(wǎng)絡(luò)不僅能檢測(cè)多尺度的人臉，還能獲得精確的候選框。

1 回歸置信

通過(guò)分析目前的人臉檢測(cè)算法發(fā)現(xiàn)一個(gè)問(wèn)題：檢測(cè)任務(wù)與分類任務(wù)是分開(kāi)進(jìn)行的，而最終得到的預(yù)測(cè)框的依據(jù)是分類置信度。這個(gè)問(wèn)題會(huì)產(chǎn)生兩方面不利影響。一是基于分類置信度的目標(biāo)框迭代回歸存在缺點(diǎn)。二是分類任務(wù)與回歸任務(wù)沒(méi)有明顯的正相關(guān)性，部分更優(yōu)的預(yù)測(cè)框被排除掉。

1.1 傳統(tǒng)算法的迭代問(wèn)題

在R-FCN網(wǎng)絡(luò)中，分類與回歸分別通過(guò)兩條支路得到，二者之間無(wú)必然聯(lián)系，由此得到的預(yù)測(cè)結(jié)果勢(shì)必會(huì)引入誤差，這也是傳統(tǒng)方法最終預(yù)測(cè)結(jié)果與真實(shí)值有些許偏離的原因。針對(duì)這個(gè)問(wèn)題，在改進(jìn)的網(wǎng)絡(luò)中增加一條用于預(yù)測(cè)回歸置信度的支路，回歸置信度的監(jiān)督信息由預(yù)測(cè)結(jié)果和真實(shí)值決定，通過(guò)這種改進(jìn)方法將回歸置信度與預(yù)測(cè)結(jié)果聯(lián)系起來(lái)。圖1中對(duì)比了傳統(tǒng)方法與改進(jìn)后算法的迭代過(guò)程，在視覺(jué)上傳統(tǒng)基于分類置信度得到的預(yù)測(cè)框與真實(shí)框的IOU(intersection over union)隨著迭代次數(shù)先上升后下降，而改進(jìn)方法得到的預(yù)測(cè)框與真實(shí)框的IOU隨著迭代次數(shù)是不斷上升的。改進(jìn)的方法使得預(yù)測(cè)框與真實(shí)框越來(lái)越接近，對(duì)于人臉尺度變化較大的情況也會(huì)有不錯(cuò)的效果。

圖1 傳統(tǒng)方法與改進(jìn)方法的迭代過(guò)程

1.2 錯(cuò)誤排除質(zhì)量高的預(yù)測(cè)框

在目標(biāo)檢測(cè)文獻(xiàn)[12]中，該作者通過(guò)聚類算法計(jì)算預(yù)測(cè)框和真實(shí)框的IOU值與分類置信度、回歸置信度的關(guān)系，發(fā)現(xiàn)預(yù)測(cè)框與分類置信度并無(wú)明顯的正相關(guān)，而與回歸置信度有明顯的正相關(guān)性。人臉檢測(cè)一般在最后階段通過(guò)NMS移除部分預(yù)測(cè)框，NMS算法以分類置信度為排序依據(jù)保留分類置信度最高的預(yù)測(cè)框，這種方法并不能很好表征預(yù)測(cè)框的準(zhǔn)確性，換言之，可能將部分最接近真實(shí)框的預(yù)測(cè)框排除，分類置信度高的預(yù)測(cè)框并不一定是最優(yōu)的預(yù)測(cè)框。圖2中對(duì)比了分類置信度與回歸置信度兩個(gè)指標(biāo)，其中預(yù)測(cè)框1與預(yù)測(cè)框2都是對(duì)同一真實(shí)框的預(yù)測(cè)，根據(jù)傳統(tǒng)算法，預(yù)測(cè)框1比預(yù)測(cè)框2分類置信度高，因此只要預(yù)測(cè)框1與預(yù)測(cè)框2的IOU超過(guò)NMS算法設(shè)定的閾值，將會(huì)保留預(yù)測(cè)框1并過(guò)濾掉預(yù)測(cè)框2，但無(wú)論視覺(jué)上還是觀測(cè)IOU值，均可發(fā)現(xiàn)預(yù)測(cè)框2應(yīng)為最優(yōu)檢測(cè)框，同時(shí)通過(guò)計(jì)算預(yù)測(cè)框1與預(yù)測(cè)框2的回歸置信度，可以發(fā)現(xiàn)預(yù)測(cè)框2的回歸置信度優(yōu)于預(yù)測(cè)框1，因此采用回歸置信度替代分類置信度將有更好的效果。

圖2 分類置信度與回歸置信度的影響對(duì)比

2 RM net

這部分介紹改進(jìn)的人臉檢測(cè)模型。2.1節(jié)展示整體的網(wǎng)絡(luò)結(jié)構(gòu)，2.2節(jié)詳細(xì)介紹多尺度特征融合方法，2.3節(jié)介紹基于回歸置信度的NMS算法。

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文提出的RM net是在R-FCN網(wǎng)絡(luò)的基礎(chǔ)上衍化而來(lái)，圖3為R-FCN與RM net網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比圖，圖3(a)為R-FCN網(wǎng)絡(luò)結(jié)構(gòu)圖，圖3(b)為RM net網(wǎng)絡(luò)結(jié)構(gòu)圖。R-FCN網(wǎng)絡(luò)僅采用基礎(chǔ)網(wǎng)絡(luò)最后一層作為特征輸入，這種方法提取的特征對(duì)尺度信息不夠敏感，將單尺度特征結(jié)構(gòu)改進(jìn)為多尺度特征融合結(jié)構(gòu)以融合高低層特征。R-FCN網(wǎng)絡(luò)最終預(yù)測(cè)結(jié)果有兩條支路，分別預(yù)測(cè)分類置信度和得到預(yù)測(cè)坐標(biāo)，由于兩條全連接層支路計(jì)算量太大，改為采用同一條支路進(jìn)行預(yù)測(cè)、回歸，同時(shí)借鑒文獻(xiàn)[13]的思想，將全連接層改為1×1卷積層，大大減少了計(jì)算量。另一處改進(jìn)為增加回歸置信度支路，該支路參數(shù)與計(jì)算分類置信度、回歸坐標(biāo)的支路相同。

圖3 R-FCN與RM net網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比

2.2 多尺度特征融合結(jié)構(gòu)

特征金字塔結(jié)構(gòu)已經(jīng)被廣泛證明了其有效性，正如DetNet論文中所說(shuō)，需要在分類任務(wù)與檢測(cè)任務(wù)中找到一個(gè)平衡點(diǎn)，借鑒其網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建基礎(chǔ)網(wǎng)絡(luò)，以ResNet-101[14]為基礎(chǔ)網(wǎng)絡(luò)，將網(wǎng)絡(luò)最后一個(gè)階段去掉，然后增加兩個(gè)新的階段，網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，其中Stage5、Stage6為兩個(gè)dense block模塊，dense block模塊借鑒論文DenseNet[15]。

圖4 多尺度特征融合結(jié)構(gòu)

2.3 基于回歸置信度的NMS算法

傳統(tǒng)算法存在分類置信度與精確定位之間的不匹配問(wèn)題，由此提出基于回歸置信度的NMS算法，該算法采用回歸置信度作為排序指標(biāo)。算法具體過(guò)程如下，選擇與真實(shí)框具有最高回歸置信度的候選框bi，用該候選框bi去評(píng)估候選框集合中的所有候選框，選擇所有與候選框bi的IOU值大于Ωnms的候選框bj組成新的候選框集合，比較候選框bi的分類置信度si與所有候選框bj的分類置信度sj，令si=max(si,sj)，在候選框集合中去除候選框bi與所有bj，繼續(xù)進(jìn)行以上步驟至候選框列表為空。算法的偽代碼見(jiàn)表1。

表1 基于回歸置信度的NMS算法

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)環(huán)境配置見(jiàn)表2。

表2 實(shí)驗(yàn)環(huán)境配置

3.2 模型訓(xùn)練

RM net采用end-to-end的方式訓(xùn)練，圖片輸入進(jìn)行了縮放，將圖片設(shè)置為長(zhǎng)寬限制為800px～1200px，batch size設(shè)置為2，預(yù)訓(xùn)練模型采用在ImageNet上訓(xùn)練好的ResNet模型。正負(fù)樣本界定準(zhǔn)則：IOU大于0.5設(shè)置為正樣本，IOU小于0.3設(shè)置為負(fù)樣本，保證正負(fù)樣本比例為1∶3。采用動(dòng)量梯度下降(gradient descent with momentum)算法進(jìn)行訓(xùn)練，學(xué)習(xí)率設(shè)置：低于120 000次：0.0025；120 000 次至170 000次：0.000 25；170 000次至200 000次：0.000 03。數(shù)據(jù)增廣采用隨機(jī)水平翻轉(zhuǎn)圖片的方法。

3.3 實(shí)驗(yàn)FDDB

FDDB是一個(gè)專門(mén)為無(wú)約束人臉檢測(cè)問(wèn)題的研究而設(shè)計(jì)的，該數(shù)據(jù)集共包括2845張圖片，共5171張人臉，這些圖片采集于自然條件下拍攝的人臉，在表情、光照、遮擋、分辨率等各個(gè)方面都存在豐富的多樣性，貼近現(xiàn)實(shí)情況，因而是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集。實(shí)驗(yàn)采用10重交叉驗(yàn)證的方式進(jìn)行，結(jié)果如圖5所示。誤檢個(gè)數(shù)為0時(shí)檢測(cè)率能達(dá)到80%以上，誤檢個(gè)數(shù)為27時(shí)檢測(cè)率即可達(dá)到90%，誤檢個(gè)數(shù)為2000時(shí)，檢測(cè)率達(dá)到98.5%，相比其它算法優(yōu)勢(shì)明顯。

圖5 FDDB實(shí)驗(yàn)結(jié)果

同時(shí)，通過(guò)對(duì)比模型在FDDB數(shù)據(jù)集上的檢測(cè)結(jié)果與FDDB標(biāo)注數(shù)據(jù)集，將所有漏檢的圖片篩選出來(lái)，共有82張圖片存在漏檢，圖6為部分漏檢圖片展示，矩形框?yàn)轭A(yù)測(cè)框，橢圓形框?yàn)檎鎸?shí)框。實(shí)驗(yàn)結(jié)果中90%以上漏檢人臉為模糊人臉，即造成效果低于其它模型的原因是模型未能學(xué)習(xí)好模糊人臉的特征(即困難人臉問(wèn)題)。

圖6 部分漏檢圖片展示

3.4 實(shí)驗(yàn)WIDER FACE

WIDER FACE[16]是一個(gè)更廣泛的人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集，該數(shù)據(jù)集包含32 203張圖片和393 703張人臉。該數(shù)據(jù)集基于61個(gè)事件類別分類，對(duì)于每個(gè)事件類別選取其中的40%作為訓(xùn)練集，10%用于交叉驗(yàn)證，50%作為測(cè)試集。使用該數(shù)據(jù)集提供的訓(xùn)練集訓(xùn)練之后，widerface實(shí)驗(yàn)結(jié)果如圖7所示，圖7(a)為簡(jiǎn)單樣本的檢測(cè)結(jié)果，圖7(b)為中等樣本的檢測(cè)結(jié)果，圖7(c)為困難樣本的檢測(cè)結(jié)果。從圖中可以看出模型的檢測(cè)結(jié)果在簡(jiǎn)單樣本、中等樣本上的檢測(cè)得分分別為0.96、0.948，效果明顯優(yōu)于其它算法，但是在困難樣本上的檢測(cè)得分僅僅達(dá)到0.797，檢測(cè)質(zhì)量明顯下降。通過(guò)分析其中原因發(fā)現(xiàn)與在FDDB上測(cè)試的問(wèn)題一致，都是模糊人臉的辨別能力不足，即模型對(duì)未聚焦人臉檢測(cè)能力有所欠缺。

圖7 widerface實(shí)驗(yàn)結(jié)果

4 結(jié)束語(yǔ)

本文提出了一種基于回歸置信度的多尺度精確人臉檢測(cè)模型RM net，提升了人臉尺度變化較大情況下的人臉檢測(cè)率以及人臉檢測(cè)框的準(zhǔn)確率。通過(guò)融合多尺度的特征增強(qiáng)了對(duì)小人臉的敏感性，采用回歸置信度替代分類置信度的方式使得人臉檢測(cè)更加精確。本模型使用了在ImageNet上預(yù)訓(xùn)練的Resnet101模型，只需要很短時(shí)間即可達(dá)到很高的準(zhǔn)確率，且采用了多尺度特征融合后對(duì)人臉不同姿態(tài)、尺度等有很好的魯棒性。實(shí)驗(yàn)過(guò)程已驗(yàn)證該模型對(duì)不同尺度人臉具有很好的效果，但對(duì)模糊人臉檢測(cè)率低下，下一步工作準(zhǔn)備處理模糊人臉難以檢測(cè)問(wèn)題，進(jìn)一步提升模型效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡