于賢杰,張建偉,楊夢(mèng)龍
(1.四川大學(xué) 計(jì)算機(jī)學(xué)院(軟件學(xué)院),四川 成都 610065;2.四川大學(xué) 空天科學(xué)與工程學(xué)院,四川 成都 610065;3.四川川大智勝軟件股份有限公司,四川 成都 610045)
人臉檢測(cè)技術(shù)發(fā)展至今,已有很多工作者對(duì)其進(jìn)行總結(jié),對(duì)人臉檢測(cè)方法全面的調(diào)查可參考文獻(xiàn)[1]。目前人臉檢測(cè)算法主要分為One-stage和Two-stage方法,One-stage如YOLO[2]、SSD[3]等采用多層直接預(yù)測(cè)的方式,層與層之間無(wú)相互關(guān)聯(lián),檢測(cè)速度快但檢測(cè)框準(zhǔn)確度不佳。Two-stage算法如Faster-RCNN[4]、R-FCN[5]等采用由粗到精的檢測(cè)方式,檢測(cè)質(zhì)量明顯提升,但由于僅采用一層特征作為特征輸入,對(duì)小目標(biāo)檢測(cè)效果很差。
神經(jīng)網(wǎng)絡(luò)隨著層數(shù)加深對(duì)分類越來(lái)越敏感,對(duì)回歸越來(lái)越不利,因此如何找到一個(gè)折中方案對(duì)檢測(cè)質(zhì)量有很大影響。近幾年提出了很多算法在一定程度上解決了此類難題:IRNN[6]算法通過(guò)整合ROI(region of interest)內(nèi)外部信息提升網(wǎng)絡(luò)檢測(cè)質(zhì)量;FPN[7]算法采用特征金字塔結(jié)構(gòu),明顯提升了小目標(biāo)的檢測(cè)質(zhì)量;RON[8]算法采用特征融合結(jié)構(gòu),可以檢測(cè)圖像中多尺度的目標(biāo);CoupleNet[9]算法融合了全局信息與局部信息用于目標(biāo)檢測(cè);DetNet[10]算法平衡了分類任務(wù)與回歸任務(wù),引入空洞卷積既保持感受野大小又保持較大的分辨率。
本文提出一種基于回歸置信度的多尺度人臉檢測(cè)網(wǎng)絡(luò)(regression-based multi-scale face detection net,RM net)。該網(wǎng)絡(luò)以R-FCN網(wǎng)絡(luò)為原型,采用多尺度特征融合結(jié)構(gòu)提取特征,在預(yù)測(cè)階段既輸出分類置信度又輸出回歸置信度,同時(shí)將回歸置信度作為NMS[11]算法的排序指標(biāo)。該網(wǎng)絡(luò)不僅能檢測(cè)多尺度的人臉,還能獲得精確的候選框。
通過(guò)分析目前的人臉檢測(cè)算法發(fā)現(xiàn)一個(gè)問(wèn)題:檢測(cè)任務(wù)與分類任務(wù)是分開(kāi)進(jìn)行的,而最終得到的預(yù)測(cè)框的依據(jù)是分類置信度。這個(gè)問(wèn)題會(huì)產(chǎn)生兩方面不利影響。一是基于分類置信度的目標(biāo)框迭代回歸存在缺點(diǎn)。二是分類任務(wù)與回歸任務(wù)沒(méi)有明顯的正相關(guān)性,部分更優(yōu)的預(yù)測(cè)框被排除掉。
在R-FCN網(wǎng)絡(luò)中,分類與回歸分別通過(guò)兩條支路得到,二者之間無(wú)必然聯(lián)系,由此得到的預(yù)測(cè)結(jié)果勢(shì)必會(huì)引入誤差,這也是傳統(tǒng)方法最終預(yù)測(cè)結(jié)果與真實(shí)值有些許偏離的原因。針對(duì)這個(gè)問(wèn)題,在改進(jìn)的網(wǎng)絡(luò)中增加一條用于預(yù)測(cè)回歸置信度的支路,回歸置信度的監(jiān)督信息由預(yù)測(cè)結(jié)果和真實(shí)值決定,通過(guò)這種改進(jìn)方法將回歸置信度與預(yù)測(cè)結(jié)果聯(lián)系起來(lái)。圖1中對(duì)比了傳統(tǒng)方法與改進(jìn)后算法的迭代過(guò)程,在視覺(jué)上傳統(tǒng)基于分類置信度得到的預(yù)測(cè)框與真實(shí)框的IOU(intersection over union)隨著迭代次數(shù)先上升后下降,而改進(jìn)方法得到的預(yù)測(cè)框與真實(shí)框的IOU隨著迭代次數(shù)是不斷上升的。改進(jìn)的方法使得預(yù)測(cè)框與真實(shí)框越來(lái)越接近,對(duì)于人臉尺度變化較大的情況也會(huì)有不錯(cuò)的效果。
圖1 傳統(tǒng)方法與改進(jìn)方法的迭代過(guò)程
在目標(biāo)檢測(cè)文獻(xiàn)[12]中,該作者通過(guò)聚類算法計(jì)算預(yù)測(cè)框和真實(shí)框的IOU值與分類置信度、回歸置信度的關(guān)系,發(fā)現(xiàn)預(yù)測(cè)框與分類置信度并無(wú)明顯的正相關(guān),而與回歸置信度有明顯的正相關(guān)性。人臉檢測(cè)一般在最后階段通過(guò)NMS移除部分預(yù)測(cè)框,NMS算法以分類置信度為排序依據(jù)保留分類置信度最高的預(yù)測(cè)框,這種方法并不能很好表征預(yù)測(cè)框的準(zhǔn)確性,換言之,可能將部分最接近真實(shí)框的預(yù)測(cè)框排除,分類置信度高的預(yù)測(cè)框并不一定是最優(yōu)的預(yù)測(cè)框。圖2中對(duì)比了分類置信度與回歸置信度兩個(gè)指標(biāo),其中預(yù)測(cè)框1與預(yù)測(cè)框2都是對(duì)同一真實(shí)框的預(yù)測(cè),根據(jù)傳統(tǒng)算法,預(yù)測(cè)框1比預(yù)測(cè)框2分類置信度高,因此只要預(yù)測(cè)框1與預(yù)測(cè)框2的IOU超過(guò)NMS算法設(shè)定的閾值,將會(huì)保留預(yù)測(cè)框1并過(guò)濾掉預(yù)測(cè)框2,但無(wú)論視覺(jué)上還是觀測(cè)IOU值,均可發(fā)現(xiàn)預(yù)測(cè)框2應(yīng)為最優(yōu)檢測(cè)框,同時(shí)通過(guò)計(jì)算預(yù)測(cè)框1與預(yù)測(cè)框2的回歸置信度,可以發(fā)現(xiàn)預(yù)測(cè)框2的回歸置信度優(yōu)于預(yù)測(cè)框1,因此采用回歸置信度替代分類置信度將有更好的效果。
圖2 分類置信度與回歸置信度的影響對(duì)比
這部分介紹改進(jìn)的人臉檢測(cè)模型。2.1節(jié)展示整體的網(wǎng)絡(luò)結(jié)構(gòu),2.2節(jié)詳細(xì)介紹多尺度特征融合方法,2.3節(jié)介紹基于回歸置信度的NMS算法。
本文提出的RM net是在R-FCN網(wǎng)絡(luò)的基礎(chǔ)上衍化而來(lái),圖3為R-FCN與RM net網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比圖,圖3(a)為R-FCN網(wǎng)絡(luò)結(jié)構(gòu)圖,圖3(b)為RM net網(wǎng)絡(luò)結(jié)構(gòu)圖。R-FCN網(wǎng)絡(luò)僅采用基礎(chǔ)網(wǎng)絡(luò)最后一層作為特征輸入,這種方法提取的特征對(duì)尺度信息不夠敏感,將單尺度特征結(jié)構(gòu)改進(jìn)為多尺度特征融合結(jié)構(gòu)以融合高低層特征。R-FCN網(wǎng)絡(luò)最終預(yù)測(cè)結(jié)果有兩條支路,分別預(yù)測(cè)分類置信度和得到預(yù)測(cè)坐標(biāo),由于兩條全連接層支路計(jì)算量太大,改為采用同一條支路進(jìn)行預(yù)測(cè)、回歸,同時(shí)借鑒文獻(xiàn)[13]的思想,將全連接層改為1×1卷積層,大大減少了計(jì)算量。另一處改進(jìn)為增加回歸置信度支路,該支路參數(shù)與計(jì)算分類置信度、回歸坐標(biāo)的支路相同。
圖3 R-FCN與RM net網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
特征金字塔結(jié)構(gòu)已經(jīng)被廣泛證明了其有效性,正如DetNet論文中所說(shuō),需要在分類任務(wù)與檢測(cè)任務(wù)中找到一個(gè)平衡點(diǎn),借鑒其網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建基礎(chǔ)網(wǎng)絡(luò),以ResNet-101[14]為基礎(chǔ)網(wǎng)絡(luò),將網(wǎng)絡(luò)最后一個(gè)階段去掉,然后增加兩個(gè)新的階段,網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,其中Stage5、Stage6為兩個(gè)dense block模塊,dense block模塊借鑒論文DenseNet[15]。
圖4 多尺度特征融合結(jié)構(gòu)
傳統(tǒng)算法存在分類置信度與精確定位之間的不匹配問(wèn)題,由此提出基于回歸置信度的NMS算法,該算法采用回歸置信度作為排序指標(biāo)。算法具體過(guò)程如下,選擇與真實(shí)框具有最高回歸置信度的候選框bi,用該候選框bi去評(píng)估候選框集合中的所有候選框,選擇所有與候選框bi的IOU值大于Ωnms的候選框bj組成新的候選框集合,比較候選框bi的分類置信度si與所有候選框bj的分類置信度sj,令si=max(si,sj),在候選框集合中去除候選框bi與所有bj,繼續(xù)進(jìn)行以上步驟至候選框列表為空。算法的偽代碼見(jiàn)表1。
表1 基于回歸置信度的NMS算法
本文實(shí)驗(yàn)環(huán)境配置見(jiàn)表2。
表2 實(shí)驗(yàn)環(huán)境配置
RM net采用end-to-end的方式訓(xùn)練,圖片輸入進(jìn)行了縮放,將圖片設(shè)置為長(zhǎng)寬限制為800px~1200px,batch size設(shè)置為2,預(yù)訓(xùn)練模型采用在ImageNet上訓(xùn)練好的ResNet模型。正負(fù)樣本界定準(zhǔn)則:IOU大于0.5設(shè)置為正樣本,IOU小于0.3設(shè)置為負(fù)樣本,保證正負(fù)樣本比例為1∶3。采用動(dòng)量梯度下降(gradient descent with momentum)算法進(jìn)行訓(xùn)練,學(xué)習(xí)率設(shè)置:低于120 000次:0.0025;120 000 次至170 000次:0.000 25;170 000次至200 000次:0.000 03。數(shù)據(jù)增廣采用隨機(jī)水平翻轉(zhuǎn)圖片的方法。
FDDB是一個(gè)專門(mén)為無(wú)約束人臉檢測(cè)問(wèn)題的研究而設(shè)計(jì)的,該數(shù)據(jù)集共包括2845張圖片,共5171張人臉,這些圖片采集于自然條件下拍攝的人臉,在表情、光照、遮擋、分辨率等各個(gè)方面都存在豐富的多樣性,貼近現(xiàn)實(shí)情況,因而是一個(gè)具有挑戰(zhàn)性的數(shù)據(jù)集。實(shí)驗(yàn)采用10重交叉驗(yàn)證的方式進(jìn)行,結(jié)果如圖5所示。誤檢個(gè)數(shù)為0時(shí)檢測(cè)率能達(dá)到80%以上,誤檢個(gè)數(shù)為27時(shí)檢測(cè)率即可達(dá)到90%,誤檢個(gè)數(shù)為2000時(shí),檢測(cè)率達(dá)到98.5%,相比其它算法優(yōu)勢(shì)明顯。
圖5 FDDB實(shí)驗(yàn)結(jié)果
同時(shí),通過(guò)對(duì)比模型在FDDB數(shù)據(jù)集上的檢測(cè)結(jié)果與FDDB標(biāo)注數(shù)據(jù)集,將所有漏檢的圖片篩選出來(lái),共有82張圖片存在漏檢,圖6為部分漏檢圖片展示,矩形框?yàn)轭A(yù)測(cè)框,橢圓形框?yàn)檎鎸?shí)框。實(shí)驗(yàn)結(jié)果中90%以上漏檢人臉為模糊人臉,即造成效果低于其它模型的原因是模型未能學(xué)習(xí)好模糊人臉的特征(即困難人臉問(wèn)題)。
圖6 部分漏檢圖片展示
WIDER FACE[16]是一個(gè)更廣泛的人臉檢測(cè)基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含32 203張圖片和393 703張人臉。該數(shù)據(jù)集基于61個(gè)事件類別分類,對(duì)于每個(gè)事件類別選取其中的40%作為訓(xùn)練集,10%用于交叉驗(yàn)證,50%作為測(cè)試集。使用該數(shù)據(jù)集提供的訓(xùn)練集訓(xùn)練之后,widerface實(shí)驗(yàn)結(jié)果如圖7所示,圖7(a)為簡(jiǎn)單樣本的檢測(cè)結(jié)果,圖7(b)為中等樣本的檢測(cè)結(jié)果,圖7(c)為困難樣本的檢測(cè)結(jié)果。從圖中可以看出模型的檢測(cè)結(jié)果在簡(jiǎn)單樣本、中等樣本上的檢測(cè)得分分別為0.96、0.948,效果明顯優(yōu)于其它算法,但是在困難樣本上的檢測(cè)得分僅僅達(dá)到0.797,檢測(cè)質(zhì)量明顯下降。通過(guò)分析其中原因發(fā)現(xiàn)與在FDDB上測(cè)試的問(wèn)題一致,都是模糊人臉的辨別能力不足,即模型對(duì)未聚焦人臉檢測(cè)能力有所欠缺。
圖7 widerface實(shí)驗(yàn)結(jié)果
本文提出了一種基于回歸置信度的多尺度精確人臉檢測(cè)模型RM net,提升了人臉尺度變化較大情況下的人臉檢測(cè)率以及人臉檢測(cè)框的準(zhǔn)確率。通過(guò)融合多尺度的特征增強(qiáng)了對(duì)小人臉的敏感性,采用回歸置信度替代分類置信度的方式使得人臉檢測(cè)更加精確。本模型使用了在ImageNet上預(yù)訓(xùn)練的Resnet101模型,只需要很短時(shí)間即可達(dá)到很高的準(zhǔn)確率,且采用了多尺度特征融合后對(duì)人臉不同姿態(tài)、尺度等有很好的魯棒性。實(shí)驗(yàn)過(guò)程已驗(yàn)證該模型對(duì)不同尺度人臉具有很好的效果,但對(duì)模糊人臉檢測(cè)率低下,下一步工作準(zhǔn)備處理模糊人臉難以檢測(cè)問(wèn)題,進(jìn)一步提升模型效果。