史夢(mèng)安,蔡慧敏,陸振宇
(1.蘇州大學(xué)應(yīng)用技術(shù)學(xué)院 工學(xué)院,江蘇 蘇州 215325;2.南京信息工程大學(xué) 人工智能學(xué)院, 江蘇 南京 210044;3.南京信息工程大學(xué) 江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,江蘇 南京 210044)
如今的人臉檢測(cè)技術(shù)大致可分為兩類:人工設(shè)計(jì)特征的傳統(tǒng)方法和特征自動(dòng)提取的深度學(xué)習(xí)方法。人工設(shè)計(jì)一般從人臉的膚色、結(jié)構(gòu)、紋理、輪廓等特征入手。Mollah等[1]將Harr-like特征與膚色特征相結(jié)合,降低了人臉樣本假陽性的概率。Zheng等[2]先后選取膚色特征與紋理特征,使用局部二進(jìn)制模型進(jìn)一步減少誤檢率。Sudhaker團(tuán)隊(duì)[3]使用Gabor濾波器進(jìn)行人臉的檢測(cè),通過濾波生成不同角度和方向的人臉圖像通過匹配算法與數(shù)據(jù)庫中的人臉輪廓進(jìn)行比對(duì)。人工設(shè)計(jì)特征的檢測(cè)算法,由于特征表達(dá)能力有限,容易受外界環(huán)境變化的影響,所以在復(fù)雜場(chǎng)景下檢測(cè)性能難有提升。
基于深度學(xué)習(xí)的人臉檢測(cè)算法大致分為兩類:以Faster R-CNN[4]為代表的兩步法(Two-Stage):這類方法首先提取候選區(qū)域,再基于候選區(qū)域做二次修正,特點(diǎn)是速度較慢,但精度很高;以SSD[5]為代表的一步法(One-Stage):這類方法通過直接對(duì)預(yù)設(shè)在圖像上的邊界框做修正來獲得檢測(cè)結(jié)果,特點(diǎn)是速度與精度相均衡。
目前人臉檢測(cè)技術(shù)的難點(diǎn)是如何在有限的資源上完成實(shí)時(shí)檢測(cè)并兼顧準(zhǔn)確性,究其原因是現(xiàn)在通用的目標(biāo)檢測(cè)模型往往本身復(fù)雜度高,神經(jīng)網(wǎng)絡(luò)模型參數(shù)多,計(jì)算量大,而它們的簡(jiǎn)化版本(tiny)雖然速度有所提高,但是檢測(cè)精度卻大打折扣,不能滿足現(xiàn)實(shí)生活中的需要。
為解決上述不足,本文認(rèn)為關(guān)鍵點(diǎn)是輕量化模型設(shè)計(jì),并增加一系列的trick提高網(wǎng)絡(luò)的檢測(cè)精度,提出了以YOLOv3[6]為基礎(chǔ)的一種基于MobileNet[7-9]中深度可分卷積替換傳統(tǒng)卷積的輕量化模型,主要貢獻(xiàn)可總結(jié)為:
(1)針對(duì)人臉檢測(cè)不能滿足實(shí)時(shí)性的問題,采用MobileNet中的深度可分卷積輕量化YOLOv3模型,降低計(jì)算量,加快檢測(cè)速度。
(2)針對(duì)人臉檢測(cè)因人臉尺寸不一容易出現(xiàn)漏檢的情況,增加了SPP結(jié)構(gòu),尺度不變的同時(shí)可提取不同尺寸的空間特征信息,提升模型的魯棒性。
(3)針對(duì)人臉檢測(cè)易受環(huán)境影響召回率不高的問題,基于YOLOv3中的FPN[10]結(jié)構(gòu),增加Self-attention[11]機(jī)制,加強(qiáng)不同尺度預(yù)測(cè)特征層上語義信息與位置信息的融合,提高檢測(cè)精度,降低環(huán)境對(duì)人臉檢測(cè)的影響。
MobileNet是google團(tuán)隊(duì)于2017年發(fā)表的專門針對(duì)移動(dòng)端或者小型設(shè)備開發(fā)的輕量級(jí)CNN網(wǎng)絡(luò),提出了深度可分卷積這一結(jié)構(gòu)。相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),在略微降低準(zhǔn)確率的前提下大幅減少了模型參數(shù)與運(yùn)算量,與同樣是通過堆疊卷積層構(gòu)建的VGG16網(wǎng)絡(luò)相比準(zhǔn)確率僅降低了0.9個(gè)百分點(diǎn)但是模型參數(shù)只有VGG大小的1/32。
深度可分卷積(depthwise separable convolution)的定義請(qǐng)參見文獻(xiàn)[7]。圖1中的depthwise convolution就是深度卷積,在深度卷積中,每一個(gè)卷積核的深度都為1,也就是說每一個(gè)卷積都只對(duì)應(yīng)輸入特征矩陣中的一個(gè)通道,也只提取一個(gè)通道的特征,所以得到的輸出特征矩陣的深度等于輸入特征矩陣的深度。逐點(diǎn)卷積則對(duì)應(yīng)圖1中的pointwise convolution,其實(shí)逐點(diǎn)卷積就是卷積核大小為1的普通卷積,它對(duì)深度卷積計(jì)算出來的結(jié)果進(jìn)行1×1的卷積運(yùn)算,并將得到的特征圖再串聯(lián)起來,維持特征的完整性。標(biāo)準(zhǔn)的卷積運(yùn)算是一步中就包含了深度計(jì)算和合并計(jì)算,然后直接將輸入變成一個(gè)新的尺寸的輸出。深度可分卷積是將這個(gè)一步的操作分成了兩層,一層做深度計(jì)算,一層做合并計(jì)算。這種分解的方式極大地減少了計(jì)算量和模型的大小。深度卷積和逐點(diǎn)卷積如圖1所示。
圖1 深度可分卷積
2018年Redmon發(fā)布的YOLOv3(you olny look once)可謂是前兩代YOLO[12,13]的集大成者,在原有YOLO算法的基礎(chǔ)上修改主干特征提取網(wǎng)絡(luò),改變對(duì)邊界框的預(yù)測(cè)方式并引入一些新的結(jié)構(gòu)來增加mAP,使其成為當(dāng)時(shí)最受歡迎的one-stage目標(biāo)檢測(cè)網(wǎng)絡(luò)之一。
YOLOv3的主干特征提取網(wǎng)絡(luò)較之于YOLOv2[13]的Darknet-19,采用重新訓(xùn)練的Darknet-53,Top-1達(dá)到了77.2個(gè)百分點(diǎn),對(duì)比原來的Darknet-19有非常明顯的提升。和Darknet-19一樣,Darknet-53中有53個(gè)卷積層,所以稱為Darknet-53。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)
YOLOv3引入了FPN結(jié)構(gòu),會(huì)在3個(gè)預(yù)測(cè)特征層上進(jìn)行預(yù)測(cè),每個(gè)預(yù)測(cè)特征層上使用3種尺度的預(yù)測(cè)邊界框。這3種尺度也是通過k-means聚類算法得到的,一共9組尺度。在YOLOv3中稱這些預(yù)設(shè)的目標(biāo)邊界框作bounding box priors,與SSD中的anchor類似。每一個(gè)預(yù)測(cè)特征層上的一個(gè)網(wǎng)格會(huì)預(yù)測(cè)3種尺度,所以在每個(gè)預(yù)測(cè)特征層上會(huì)預(yù)測(cè)N×N×[3×(4+1+80)] (N是指特征矩陣的高和寬),也就是說一個(gè)bounding box priors需要預(yù)測(cè)85個(gè)參數(shù)(4個(gè)偏移參數(shù),1個(gè)confidence,80個(gè)classes score(因?yàn)槭窃赾oco數(shù)據(jù)集上))。
對(duì)于YOLOv3而言,其網(wǎng)絡(luò)結(jié)構(gòu)可以大致分為以下兩個(gè)部分:①主干特征提取網(wǎng)絡(luò)Darknet-53;②預(yù)測(cè)網(wǎng)絡(luò)YOLO-head。第一部分的主干特征提取網(wǎng)絡(luò)進(jìn)行圖像特征的初步提取,提取后可以獲得3個(gè)初步的有效特征層,預(yù)測(cè)網(wǎng)絡(luò)則根據(jù)第一步獲取的有效特征層進(jìn)行目標(biāo)的預(yù)測(cè)。
MobileNet網(wǎng)絡(luò)雖然用于圖像分類任務(wù),但它的主干網(wǎng)絡(luò)(backbone)的作用也是初步的特征提取,可以使用MobileNet替換YOLOv3中的Darknet-53進(jìn)行特征的提取。
基于上述想法,要想用MobileNetV1模型替換Darknet-53模型,只需將經(jīng)過Darknet-53后得到的3個(gè)初步有效特征層替換成MobileNetV1中shape相同的特征層即可。如表1所示,輸入圖片的大小控制為320×320,第一次卷積為普通的卷積,其它卷積為DW卷積,DW的普遍使用提高了模型的計(jì)算速度,表中有3處加粗的Output分別為:40×40×256,20×20×512和10×10×1024,這3個(gè) Output是為后面的特征金字塔(FPN)提供的input即替代3個(gè)有效特征層的特征層的shape值。
表1 MobilenetV1架構(gòu)
He等提出卷積神經(jīng)網(wǎng)絡(luò)是由卷積層和全連接層組成,卷積層對(duì)輸入圖像的大小并沒有要求,但是第一個(gè)全連接層的輸入必須是大小固定的特征向量。人臉圖像由于圖像者本身,具體拍攝情況等一系列原因不可能達(dá)到固定的大小,如果直接對(duì)圖像進(jìn)行拉伸、縮放、裁剪等操作必然要損失信息從而影響到檢測(cè)的精度和算法的魯棒性。SPP(空間金字塔池化)也正是He等提出來的解決辦法。
考慮到與本文改進(jìn)模型的適配性,參考SPP結(jié)構(gòu)對(duì)其做出了改良,添加到第一個(gè)YOLO-head前的第5和第6層卷積之間。改良的SPP結(jié)構(gòu)如圖3所示。
圖3 改良的SPP結(jié)構(gòu)
選取池化核大小分別為13×13、9×9、5×5的池化核。首先從輸入直接接到輸出,這是第一個(gè)分支;第二個(gè)分支是池化核為5的最大池化下采樣;第三個(gè)是池化核大小為9的最大池化下采樣;第四個(gè)分支是池化核大小為13的最大池化下采樣。注意這里的步距都是1,意味著在池化之前會(huì)對(duì)特征矩陣進(jìn)行padding填充,填充之后進(jìn)行最大池化下采樣之后所得到的特征層的高度和寬度是沒有發(fā)生變化的。最后在深度上進(jìn)行一個(gè)Concatenate拼接就完成了。通過改良的SPP結(jié)構(gòu)實(shí)現(xiàn)了不同尺度的特征融合,并且使特征層的表達(dá)能力增強(qiáng),有利于對(duì)不同尺寸的人臉圖像進(jìn)行檢測(cè)。
由2.1節(jié)可知,改進(jìn)的模型(以下簡(jiǎn)稱改進(jìn)的模型為SMYOLO)中FPN(特征金字塔)是基于MobileNetV1的第6層、第12層、第14層輸出來實(shí)現(xiàn)的,圖4為融合后的整體架構(gòu),第一行Conv1、DWConv12、DWConv14為MobileNetV1的架構(gòu)。第二行以下模塊屬于FPN,圖4中紅色模塊與黃色模塊為Self-attention。黃色的Self-attention接收的是DWConv14輸出的特征圖(10×10×1024),紅色右接收DWConv12與DWConv14上采樣的特征圖,紅色左接收DWConv6與DWConv12上采樣的特征圖。
圖4 SMYOLO框架
在介紹Self-attention與FPN融合前,首先介紹下Self-attention機(jī)制。Self-attention的流程如圖5所示。
圖5 Self-attention[11]
f(x),g(x) 和h(x) 都是普通的1×1卷積,差別只在于輸出通道大小不同也就是每個(gè)權(quán)重的規(guī)格是不一樣的,規(guī)格見式(1)。將f(x) 的輸出轉(zhuǎn)置,并和g(x) 的輸出相乘,再經(jīng)過Softmax歸一化得到一個(gè)Attention map。將得到的Attention map和h(x) 逐像素點(diǎn)相乘,就能得到自適應(yīng)注意力的feature maps
(1)
圖5中輸入的feature map(x)就是經(jīng)過隱藏層后得到的特征圖,對(duì)應(yīng)圖4中3個(gè)Self-attention接收的特征圖,對(duì)于x來說它的維度是C×N,C表示通道數(shù),N表示圖片的寬度×高度,換句話來說就是這個(gè)feature map中一共有多少個(gè)像素點(diǎn)。f(x)、g(x)、h(x) 的計(jì)算公式見式(2)
f(x)=Wf·xg(x)=Wg·xh(x)=Wh·x
(2)
(3)
式中:βj,i代表生成第j個(gè)Attention map矩陣區(qū)域時(shí),模型對(duì)第i個(gè)位置的關(guān)注程度。
如何將Self-attention與FPN融合來降低環(huán)境對(duì)人臉檢測(cè)的干擾。第一部分是Self-attention機(jī)制一,如圖6所示,對(duì)應(yīng)圖4中SMYOLO框架黃色的Self-attention機(jī)制。將MobilenetV1的DWConv14輸出特征圖(10×10×1024)作為Self-attention機(jī)制一的輸入,然后通過Self-attention輸出特征圖(10×10×256)。
圖6 Self-attention機(jī)制一
第二部分是Self-attention機(jī)制二,如圖7所示,Self-attention機(jī)制二的輸入是兩部分,第一部分是MobileNetV1中DWConv12的輸出特征圖(20×20×512),第二部分是Self-attention機(jī)制一模塊的輸出特征圖(10×10×256)。將特征圖(10×10×512)進(jìn)行f(x) 和g(x) 的計(jì)算,并計(jì)算出Attention map,如圖7綠色部分。
Attention map是采用DWConv12輸出的特征圖計(jì)算出來的,相對(duì)于DWConv11輸出的特征圖語義信息強(qiáng),本文用Attention map來聚焦人臉的特征,Attention集中在人臉,減小環(huán)境對(duì)人臉的影響。為了使Attention map發(fā)揮作用,將DWConv11的特征圖與經(jīng)過h(x) 處理后的特征圖進(jìn)行融合(*)(對(duì)應(yīng)像素相加)。如圖7的黃色部分
(4)
式(4)是計(jì)算Attention map層的輸出,得到Self-attention feature maps的計(jì)算公式。其中,o代表最終的輸出,維度是C×N即C×N大小的一個(gè)自適應(yīng)注意力的矩陣。h(xi)+X是上文中的步驟*。v(xi) 表示一個(gè)1×1大小的矩陣,維度是C×C。
圖7 Self-attention機(jī)制二(模塊一)
圖8是Self-attention機(jī)制二的第二模塊,原理與第一模塊一樣,不同的是輸入不同,模塊二的輸入分為兩個(gè)部分,第一部分是Self-attention第一模塊的輸出特性圖(20×20×128),第二部分是MobileNetv1的DWConv5的輸出特征圖(40×40×256)。
圖8 Self-attention機(jī)制二(模塊二)
YOLOv3在計(jì)算置信度損失時(shí)使用的是IoU[14]損失函數(shù),IoU表示預(yù)測(cè)目標(biāo)邊界框和真實(shí)目標(biāo)邊界框之間的重合程度,計(jì)算公式見式(5)
(5)
式中:A為預(yù)測(cè)邊界框的面積,B為真實(shí)邊界框的面積,IoU(A,B)表示A與B的交并比,即A與B面積的交集和A與B面積的并集的比值??梢园l(fā)現(xiàn)IoU能夠很好反應(yīng)預(yù)測(cè)邊界框和目標(biāo)邊界框的重合程度,但是當(dāng)二者相交時(shí)損失直接就變成0,這是我們不想看到的結(jié)果。為了避免在改進(jìn)的模型中計(jì)算置信度損失時(shí)出現(xiàn)這種無法優(yōu)化的情況,本文采用DIoU[15]作為邊界框回歸損失函數(shù),公式見式(6)
(6)
式中:b是指預(yù)測(cè)目標(biāo)邊界框的中心坐標(biāo),bgt是指真實(shí)目標(biāo)邊界框的中心坐標(biāo),ρ代表兩個(gè)中心之間的歐氏距離的平方,即圖9中d的平方,c是指預(yù)測(cè)邊界框和真實(shí)邊界框的最小外接矩形的對(duì)角線的長(zhǎng)度。由此可見DIoU損失對(duì)預(yù)測(cè)邊界框和真實(shí)邊界框之間的歸一化距離進(jìn)行了建模,如圖9所示,在考率重合度的同時(shí)還考慮到兩者之間的中心距離和尺度,可以更快更穩(wěn)定地進(jìn)行回歸。因?yàn)榭紤]到了中心距離,即使在預(yù)測(cè)邊界框和真實(shí)邊界框不重合的情況下也能為回歸移動(dòng)提供方向,這樣就避免了IoU為0時(shí)訓(xùn)練發(fā)散,回歸收斂慢的問題。
圖9 DIoU計(jì)算參數(shù)
同時(shí)DIoU損失能夠直接最小化兩個(gè)邊界框之間的距離,因此收斂速度也更快,且對(duì)邊界框的尺度具有不變性,使預(yù)測(cè)邊界框回歸真實(shí)邊界框時(shí)定位更加準(zhǔn)確。
從表2可知,DIoU在mAP上優(yōu)于IoU,因此選擇DIoU作為邊界框回歸損失函數(shù)對(duì)模型的檢測(cè)性能是有很大提升的。
表2 IoU與DIoU損失函數(shù)對(duì)比
本文用于模型訓(xùn)練的人臉圖片來自大型人臉公開數(shù)據(jù)集WIDER FACE,由香港中文大學(xué)資訊工程學(xué)系多媒體實(shí)驗(yàn)室制作,包含32 203張圖像共40多萬張人臉,涵蓋不同尺度、光照、表情、遮擋等不同類型的人臉數(shù)據(jù),大部分?jǐn)?shù)據(jù)環(huán)境復(fù)雜,人臉和小人臉眾多,是訓(xùn)練和檢驗(yàn)人臉檢測(cè)模型較為官方有效的數(shù)據(jù)集之一。本文在一開始訓(xùn)練模型時(shí)還采用了LFW人臉數(shù)據(jù)集,LFW人臉數(shù)據(jù)集圖像尺寸固定,大部分圖像中只包含一張人臉且人臉特征十分明顯,相對(duì)于WIDER FACE而言識(shí)別簡(jiǎn)單,用于一開始初步訓(xùn)練模型非常合適。圖10為L(zhǎng)FW和WIDER FACE數(shù)據(jù)集中的示例圖片。
圖10 LFW和WIDER FACE數(shù)據(jù)集中的示例
最終選取WIDER FACE和LFW數(shù)據(jù)集中15 494張圖像進(jìn)行模型的訓(xùn)練,訓(xùn)練集和驗(yàn)證集和測(cè)試集的比例按照7∶2∶1的比例在總圖像中隨機(jī)抽取,保證各類人臉圖像的平衡。
實(shí)驗(yàn)訓(xùn)練所采用的設(shè)備為NVIDIA GeForce RTX 2080Ti,CPU i7 9700 K,內(nèi)存16 GB,操作系統(tǒng)為Ubuntu 18.04 64位,編譯環(huán)境/語言Pycharm2019.2/Python 3.7,使用Pytorch1.6框架進(jìn)行深度學(xué)習(xí),cuda版本10.1。
根據(jù)事先寫入用于訓(xùn)練的.yaml超參數(shù)文件進(jìn)行模型的訓(xùn)練,初始學(xué)習(xí)率0.001,衰減系數(shù)0.0005,最小批量32。
本實(shí)驗(yàn)針對(duì)人臉檢測(cè)效率、準(zhǔn)確度兩個(gè)方面,選取速度、召回率(Recall)、精度均值(average precision,AP)3個(gè)指標(biāo)來評(píng)估各模型的人臉檢測(cè)表現(xiàn)。
召回率(Recall)是所有真實(shí)目標(biāo)中,模型預(yù)測(cè)正確的目標(biāo)比例,公式為
(7)
平均精度(AP)是P-R曲線下面積,P-R曲線即Precision-Recall曲線,Precision為查準(zhǔn)率,表示模型預(yù)測(cè)的所有目標(biāo)中,預(yù)測(cè)正確的比例。求解Precision的公式為
(8)
其中,TP表示IoU>0.5時(shí)檢測(cè)框的數(shù)量,同一個(gè)真實(shí)目標(biāo)框只計(jì)算一次;FP表示IoU≤0.5的檢測(cè)框或者是檢測(cè)到同一個(gè)真實(shí)目標(biāo)框的多余的檢測(cè)框的數(shù)量;FN表示沒有檢測(cè)到的真實(shí)目標(biāo)框的數(shù)量。
檢測(cè)速度表示為每秒鐘處理圖像的數(shù)量,單位FPS。
考慮到本文提出的改進(jìn)網(wǎng)絡(luò)模型是用于人臉實(shí)時(shí)檢測(cè)的,在減少參數(shù)和計(jì)算量的同時(shí)要保留較高的檢測(cè)精度,故選擇YOLOv3-tiny、YOLOv3、Faster R-CNN、SSD-Lite作為對(duì)比模型。所有算法均在WIDER FACE和LFW共同構(gòu)建的數(shù)據(jù)集上進(jìn)行測(cè)試,測(cè)試對(duì)比結(jié)果見表3。
表3 不同算法結(jié)果對(duì)比
由表3可知,像Faster R-CNN這一two stage的大型網(wǎng)絡(luò),在人臉檢測(cè)任務(wù)中雖然檢測(cè)速率低但是檢測(cè)精度非常高,YOLOv3作為平衡速度和精度的one stage模型代表,在人臉檢測(cè)任務(wù)中雖不落下風(fēng),但和本文改進(jìn)的方法相比無論是精度還是速度都沒有任何優(yōu)勢(shì)。剩下的兩個(gè)輕量級(jí)網(wǎng)絡(luò),在檢測(cè)速度方面依然無人能敵,但是削減了網(wǎng)絡(luò)層數(shù),模型整體結(jié)構(gòu)簡(jiǎn)單檢測(cè)效果方面達(dá)不到實(shí)際中的要求。本文的方法雖然檢測(cè)精度略低于Faster R-CNN,但是速度是它的兩倍多。與原方法相比在YOLOv3的基礎(chǔ)上替換了主干特征提取網(wǎng)絡(luò),減少模型參數(shù)以及計(jì)算量更能滿足實(shí)際應(yīng)用中檢測(cè)速度的需求,同時(shí)增加了SPP結(jié)構(gòu)尺度不變的同時(shí)可提取不同尺寸的空間特征信息,提升模型的魯棒性,檢測(cè)速度低于兩個(gè)輕量級(jí)網(wǎng)絡(luò)也是因?yàn)樵谟?xùn)練后期mAP上升的同時(shí)能檢測(cè)出更多的人臉圖像。綜上所述,本文提出的方法更適合運(yùn)用在人臉檢測(cè)的任務(wù)當(dāng)中。
為了更明顯表示我們的方法更適合運(yùn)用在人臉檢測(cè)任務(wù)中,選取了測(cè)試中的一些圖片進(jìn)行檢測(cè)效果的分析,從上到下依次是原圖、YOLOv3-tiny的檢測(cè)結(jié)果、YOLOv3的檢測(cè)結(jié)果、本文的檢測(cè)結(jié)果。
從圖11看出,在小人臉眾多的場(chǎng)景下YOLOv3-tiny漏檢嚴(yán)重,且人臉置信度也是最低的,YOLOv3效果比YOLOv3-tiny較優(yōu),在右上方還是有3張人臉漏檢的情況,人臉置信度也有相應(yīng)的提升,本文的算法只有最后一張小人臉漏檢,檢測(cè)效果非常強(qiáng)勁,因此可見本文改進(jìn)的方法更適合用于人臉檢測(cè)任務(wù)當(dāng)中。
圖11 各種方法的效果對(duì)比
本文提出了一種改進(jìn)YOLOv3的輕量化人臉檢測(cè)方法。用MobileNetV1替代YOLOv3的主干特征提取網(wǎng)絡(luò)Drrknet-53,引入深度可分卷積,大幅減少網(wǎng)絡(luò)參數(shù)和計(jì)算量。增加了SPP結(jié)構(gòu),尺度不變的同時(shí)可提取不同尺寸圖像的空間特征信息,實(shí)現(xiàn)不同尺度的特征融合,并且使特征層的表達(dá)能力增強(qiáng)。Self-attention機(jī)制與FPN結(jié)構(gòu)的融合,減少環(huán)境對(duì)檢測(cè)的干擾,使用DIoU損失函數(shù)加速模型收斂。實(shí)驗(yàn)結(jié)果表明,相較于原算法YOLOv3,在公開人臉數(shù)據(jù)集WIDER FACE上mAP提高了9.0個(gè)百分點(diǎn),檢測(cè)速度達(dá)到了61 FPS,滿足人臉檢測(cè)任務(wù)中的準(zhǔn)確率和實(shí)時(shí)性。在今后的研究中,會(huì)從其它方面進(jìn)一步優(yōu)化我們的模型,使其速度更快精度更高,并且適應(yīng)多種場(chǎng)景下的人臉檢測(cè)任務(wù)。