茍 淞,趙緒言,侯 松,李 威
(西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,四川 成都 611756)
新冠肺炎(COVID-19)疫情給全世界人民的生活造成了嚴(yán)重的危害,在各國(guó)政府和醫(yī)療系統(tǒng)的共同努力下,新冠肺炎疫情正逐步得到控制。根據(jù)中華人民共和國(guó)國(guó)家衛(wèi)生健康委員會(huì)疾病預(yù)防控制局發(fā)布的信息可知,口罩是預(yù)防呼吸道傳染病的重要防線,可以降低新型冠狀病毒感染風(fēng)險(xiǎn)。口罩不僅可以防止病人噴射飛沫,降低飛沫量和噴射速度,還可以阻擋含病毒的飛沫核,防止佩戴者吸入[1]。科學(xué)佩戴口罩,對(duì)于新冠肺炎、流感等呼吸道傳染病具有預(yù)防作用,既保護(hù)自己,又有益于公眾健康[2]。
因此,智能口罩檢測(cè)成為了一項(xiàng)重要的任務(wù),可以督促人們?cè)诠采缃粓?chǎng)合佩戴口罩,對(duì)于維護(hù)公眾健康有著重要的意義。然而,基于深度學(xué)習(xí)的口罩檢測(cè)是一項(xiàng)全新的任務(wù),其核心主要是2個(gè)方面:一是獲取人臉目標(biāo)在圖像中的位置信息;二是判斷該人臉是否佩戴口罩。目前口罩檢測(cè)的相關(guān)研究和方法十分有限。該任務(wù)面臨著以下巨大的挑戰(zhàn):
(1)如圖1a所示,在口罩檢測(cè)的應(yīng)用場(chǎng)景中,首先需要對(duì)人臉進(jìn)行檢測(cè),而人臉具有尺度多變、數(shù)量冗大、表情多樣、視角差異、局部遮擋和化妝偽裝等特征,這些特征通常會(huì)對(duì)檢測(cè)方法帶來(lái)較大的影響,導(dǎo)致誤檢或漏檢。
(2)如圖1b所示,口罩的外觀具有多樣性,如款式多樣、顏色各異、帶有花紋圖案,且側(cè)臉戴口罩特征不明顯等,給口罩檢測(cè)算法的設(shè)計(jì)帶來(lái)了困難。并且,當(dāng)人戴上口罩后,部分面部被遮蓋,也會(huì)增加人臉檢測(cè)的難度。
(3)如圖1c所示,未正確佩戴口罩(口罩沒(méi)有遮住口鼻或置于其他位置等)和面部局部被遮擋,會(huì)對(duì)口罩檢測(cè)造成干擾,容易在戴口罩與未戴口罩兩類(lèi)間造成混淆。
按照現(xiàn)有的通用深度學(xué)習(xí)目標(biāo)檢測(cè)方法,口罩檢測(cè)任務(wù)可以由單階段目標(biāo)檢測(cè)模型或兩階段目標(biāo)檢測(cè)模型來(lái)完成。當(dāng)前通用單階段目標(biāo)檢測(cè)模型有CenterNet[3]、FCOS[4]和YOLOv1[5]等Anchor-Free檢測(cè)模型,也有基于Anchor 機(jī)制的SSD(Single Shot multibox Detector)[6]、YOLOv2[7]和YOLOv3[8]等檢測(cè)模型。通用2階段目標(biāo)檢測(cè)模型中,R-CNN[9]系列模型的檢測(cè)效果較為出色,該類(lèi)模型的推理過(guò)程分為2個(gè)階段,第1階段通過(guò)滑動(dòng)窗口推測(cè)出目標(biāo)可能的位置坐標(biāo),第2階段對(duì)預(yù)測(cè)框進(jìn)行分類(lèi)和評(píng)估。之后的Faster R-CNN[10]拋棄了傳統(tǒng)的滑動(dòng)窗口和Selective Search生成檢測(cè)框的方法,直接使用RPN(Region Proposal Network)生成檢測(cè)框,提升了檢測(cè)框的生成速度。然而,上述通用深度學(xué)習(xí)目標(biāo)檢測(cè)模型都缺乏針對(duì)口罩檢測(cè)特性的獨(dú)有設(shè)計(jì),在多尺度感知方面仍有不足,造成檢測(cè)效果不夠理想。
Figure 1 Examples of difficulties in face mask detection圖1 口罩檢測(cè)困難示例
人臉檢測(cè)是口罩檢測(cè)的重要組成部分。張修寶等[11]提出的口罩檢測(cè)方法具有重要的意義,該方法先進(jìn)行人臉檢測(cè),再對(duì)檢測(cè)結(jié)果進(jìn)行戴與未戴口罩分類(lèi)。近年來(lái),研究人員提出了一批專(zhuān)用的人臉檢測(cè)網(wǎng)絡(luò),例如用于人臉檢測(cè)與對(duì)齊的三級(jí)聯(lián)CNN(Convolutional Neural Network)[12]網(wǎng)絡(luò)MTCNN(Multi-Task Convolutional Neural Network)[13]、單階段人臉檢測(cè)器PyramidBox[14]和RetinaFace[15]等。其中PyramidBox基于FPN(Feature Pyramid Network)[16]進(jìn)行了優(yōu)化,提出低層級(jí)特征金字塔網(wǎng)絡(luò),充分結(jié)合高層級(jí)環(huán)境語(yǔ)義特征和低層級(jí)面部特征,能夠單步預(yù)測(cè)所有尺度的人臉。目前,能夠?qū)⒏邔蛹?jí)特征和低層級(jí)特征進(jìn)行結(jié)合,在多尺度上進(jìn)行感知,并作為專(zhuān)用口罩檢測(cè)的方法還非常少。
本文提出了一種多尺度優(yōu)化感知的口罩檢測(cè)方法——PyramidMask。本方法采用ResNet50作為骨干網(wǎng)絡(luò),保證深層的戴口罩人臉的特征能夠被有效地提?。辉?FPN思想的基礎(chǔ)上,結(jié)合骨干網(wǎng)絡(luò)的特性,設(shè)計(jì)尺度感知網(wǎng)絡(luò)和高密度先驗(yàn)框,增強(qiáng)檢測(cè)模型的多尺度感知能力,保證口罩檢測(cè)模型在處理不同尺度人臉、口罩時(shí)的性能;設(shè)計(jì)圖像拼接的數(shù)據(jù)增強(qiáng)方法,增強(qiáng)訓(xùn)練集中目標(biāo)的多尺度特征,同時(shí)在數(shù)量上擴(kuò)充數(shù)據(jù)集。上述3個(gè)優(yōu)化點(diǎn)的結(jié)合,能夠有效解決口罩檢測(cè)所面臨的3個(gè)挑戰(zhàn)。本文方法在公開(kāi)的口罩檢測(cè)數(shù)據(jù)集[17]上進(jìn)行了測(cè)試,相較于基準(zhǔn)方法,在未戴口罩和戴口罩的檢測(cè)召回率上分別有12.5%和5.4%的提升,在未戴口罩和戴口罩的檢測(cè)精確率上分別有4.1%和6.0%的提升;在多尺度檢測(cè)實(shí)驗(yàn)中,本文方法的檢測(cè)精度也領(lǐng)先于主流的單階段檢測(cè)模型YOLOv3和CenterNet,以及兩階段檢測(cè)模型Faster R-CNN R50 FPN;然后,通過(guò)對(duì)原訓(xùn)練數(shù)據(jù)進(jìn)行圖像拼接增強(qiáng),使得本文方法的檢測(cè)精度又有進(jìn)一步的提升。
Figure 2 Network structure of PyramidMask 圖2 PyramidMask口罩檢測(cè)方法網(wǎng)絡(luò)結(jié)構(gòu)
如圖2所示,本文提出的PyramidMask口罩檢測(cè)方法為一個(gè)端到端的單階段檢測(cè)模型,由骨干網(wǎng)絡(luò)、多級(jí)尺度感知模塊和多任務(wù)損失計(jì)算3個(gè)部分組成。使用ResNet50作為骨干網(wǎng)絡(luò),負(fù)責(zé)特征提取,生成特征圖,提高模型對(duì)未戴口罩人臉和戴口罩人臉特征的提取性能;設(shè)計(jì)多尺度感知優(yōu)化的尺度感知網(wǎng)絡(luò),提取足夠的淺層圖像信息和深層語(yǔ)義信息,減少特征未對(duì)準(zhǔn)和細(xì)節(jié)丟失的影響;損失計(jì)算是多任務(wù)的,分為位置損失和分類(lèi)損失2個(gè)部分,對(duì)尺度感知網(wǎng)絡(luò)的每一層輸出計(jì)算損失,計(jì)算L1范數(shù)得到位置損失,計(jì)算softmax和交叉熵得到分類(lèi)損失。PyramidMask每進(jìn)行一次推理,會(huì)輸出2部分信息:一是預(yù)測(cè)的目標(biāo)框位置,二是對(duì)應(yīng)目標(biāo)框的分類(lèi)置信度。
卷積神經(jīng)網(wǎng)絡(luò)CNN利用卷積核與原始圖像或特征映射進(jìn)行卷積,提取更高層級(jí)的特征。但是,研究人員發(fā)現(xiàn),當(dāng)卷積神經(jīng)網(wǎng)絡(luò)的深度超過(guò)19層時(shí),隨著卷積層深度的繼續(xù)增加,網(wǎng)絡(luò)在訓(xùn)練集和測(cè)試集上的性能卻降低了,這是因?yàn)檩^淺層和較深層的網(wǎng)絡(luò)在訓(xùn)練時(shí)的優(yōu)化難度不一樣,且難度的增長(zhǎng)并不是線性的,越深的網(wǎng)絡(luò)越難以?xún)?yōu)化。
ResNet[18]通過(guò)引入如圖3所示的殘差塊(Bottleneck Design)在輸入和輸出之間建立了一條直接的關(guān)聯(lián)通道,從而使得強(qiáng)大的有參層能集中精力學(xué)習(xí)輸入和輸出之間的殘差。檢測(cè)、分割和識(shí)別等領(lǐng)域的很多方法都是在ResNet的基礎(chǔ)上完成的。
Figure 3 Bottleneck design for ResNet(50/101/152)圖3 ResNet(50/101/152)的殘差塊
本文所提出的口罩檢測(cè)方法PyramidMask,使用ResNet50作為骨干網(wǎng)絡(luò),在面對(duì)外觀多樣、角度各異的口罩以及人臉時(shí),相較于VGG(Visual Geometry Group)[19]網(wǎng)絡(luò),有著更佳的深層特征提取性能[20],能為后續(xù)的尺度感知網(wǎng)絡(luò)提供更有效的、自上而下的和最初始的多尺度的語(yǔ)義信息和特征圖。
人臉、口罩這類(lèi)尺度多變的目標(biāo),對(duì)檢測(cè)模型的多尺度檢測(cè)性能有很高的要求。尤其是針對(duì)圖像中像素較少的小尺度目標(biāo),在經(jīng)過(guò)逐層卷積操作和下采樣后,在網(wǎng)絡(luò)末端,這些小尺度目標(biāo)的特征會(huì)變得更小且更不明顯。骨干網(wǎng)絡(luò)對(duì)圖像中物體特征進(jìn)行提取時(shí),淺層網(wǎng)絡(luò)分辨率高,提取到的是目標(biāo)的細(xì)節(jié)特征,深層網(wǎng)絡(luò)分辨率低,提取到的更多是目標(biāo)的語(yǔ)義特征。例如,SSD、YOLO等模型在增加網(wǎng)絡(luò)深度的同時(shí),卻沒(méi)有充分利用淺層特征,造成模型對(duì)口罩、人臉這類(lèi)多尺度目標(biāo)的檢測(cè)效果不理想。
針對(duì)這一問(wèn)題,在 FPN思想的基礎(chǔ)上,本文設(shè)計(jì)尺度感知網(wǎng)絡(luò)的核心思路是:
(1)將骨干網(wǎng)絡(luò)的淺層細(xì)節(jié)信息和深層語(yǔ)義信息充分融合,避免細(xì)節(jié)丟失;
(2)通過(guò)高密集的先驗(yàn)框(Anchor)采樣,保證小尺度的人臉、口罩目標(biāo)也有高召回率。
設(shè)計(jì)的尺度感知網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,左邊的網(wǎng)絡(luò)自底向上是骨干網(wǎng)絡(luò)ResNet50的正向傳播過(guò)程,特征圖經(jīng)過(guò)卷積核計(jì)算,尺度會(huì)越來(lái)越小;右邊的網(wǎng)絡(luò)自上而下,對(duì)更抽象、語(yǔ)義更強(qiáng)的深層特征圖進(jìn)行上采樣。在參考了FPN設(shè)計(jì)思想的基礎(chǔ)上,本文選擇ResNet50中4個(gè)殘差塊各自的最后一層作為特征圖提取層,即conv2_3、conv3_4、conv4_6和conv5_3,再將提取的特征圖與右邊的上采樣網(wǎng)絡(luò)橫向連接疊加(橫向連接的2層特征的空間尺寸相同),組成完整的尺度感知網(wǎng)絡(luò),并在每層進(jìn)行獨(dú)立預(yù)測(cè)。設(shè)計(jì)高密度先驗(yàn)框,在網(wǎng)絡(luò)6個(gè)從上至下的特征層中分別設(shè)計(jì)了25 600,6 400,1 600,400,100和25,總計(jì)34 125個(gè)先驗(yàn)框,相較于SSD的8 732個(gè)先驗(yàn)框,在數(shù)量上有較多的增加,從而保證了對(duì)不同尺度目標(biāo)檢測(cè)的高召回率。
至此,淺層特征得到了語(yǔ)義信息的增強(qiáng),每一層預(yù)測(cè)所用的特征圖都融合了不同分辨率、不同強(qiáng)度的特征,配合高密度先驗(yàn)框,可以增強(qiáng)對(duì)多尺度目標(biāo),尤其是小尺度目標(biāo)的檢測(cè)性能。
Figure 4 Structure of multi-scale awareness network圖4 尺度感知網(wǎng)絡(luò)結(jié)構(gòu)
多任務(wù)損失函數(shù)由2部分組成:一個(gè)是位置損失Lloc,另一個(gè)是分類(lèi)損失Lconf。在訓(xùn)練過(guò)程中,口罩檢測(cè)模型預(yù)測(cè)包括3類(lèi)矩陣:先驗(yàn)框坐標(biāo)矩陣Ppro(Ppro∈Rm×4)、分類(lèi)置信度矩陣Pconf(Pconf∈Rm×c)和預(yù)測(cè)框坐標(biāo)矩陣Ploc(Ploc∈Rt×4,t∈[0,m])。訓(xùn)練數(shù)據(jù)中標(biāo)注的內(nèi)容包括2類(lèi)矩陣:目標(biāo)真實(shí)框坐標(biāo)矩陣Tloc(Tloc∈Rn×4)和目標(biāo)真實(shí)框類(lèi)別矩陣Tconf(Tconf∈Rn×1),表示目標(biāo)真實(shí)框坐標(biāo)集合和目標(biāo)真實(shí)框類(lèi)別集合。其中,m為先驗(yàn)框個(gè)數(shù),n為正樣本個(gè)數(shù),t為預(yù)測(cè)框個(gè)數(shù),c為目標(biāo)類(lèi)別個(gè)數(shù),Rm×4為一個(gè)m行4列的矩陣。
(1)
其中,i為正樣本中的先驗(yàn)框序號(hào),j為預(yù)測(cè)框的序號(hào)。
(2)
其中,c為目標(biāo)類(lèi)別個(gè)數(shù),本文中c=3,表示存在戴口罩類(lèi)、未戴口罩類(lèi)和背景類(lèi)3個(gè)類(lèi)別。
(3)
最后,總的損失函數(shù)如式(4)所示:
L=Lloc+Lconf
(4)
本文實(shí)驗(yàn)使用公開(kāi)口罩檢測(cè)數(shù)據(jù)集[17],共計(jì)7 959幅RGB圖像(訓(xùn)練集6 120幅,測(cè)試集1 839幅),標(biāo)注框分為戴口罩和未戴口罩2個(gè)類(lèi)別,其中戴口罩標(biāo)注有3 970個(gè),未戴口罩標(biāo)注有9 586個(gè)。該數(shù)據(jù)集由WIDER FACE[21]人臉數(shù)據(jù)集和MAFA[22]人臉遮擋數(shù)據(jù)集中部分?jǐn)?shù)據(jù)組成。WIDER FACE人臉數(shù)據(jù)集共計(jì)32 203幅RGB圖像(含已標(biāo)注的訓(xùn)練集12 880幅,驗(yàn)證集3 226幅),訓(xùn)練集中標(biāo)注內(nèi)容只包含159 420個(gè)人臉類(lèi)(作為未戴口罩類(lèi))。MAFA人臉遮擋數(shù)據(jù)集共計(jì)30 811幅RGB圖像(訓(xùn)練集25 876幅,驗(yàn)證集4 938幅),其訓(xùn)練集中只標(biāo)注出了29 430個(gè)遮擋的人臉類(lèi)(篩選出部分作戴口罩類(lèi))。
口罩檢測(cè)數(shù)據(jù)集中人臉和口罩的尺度多樣,角度豐富,口罩樣式較多,且包含有手部和其他非口罩物品對(duì)面部的遮蓋等,數(shù)據(jù)集示例如圖5所示。
Figure 5 Examples of public face mask detection dataset圖5 公開(kāi)口罩檢測(cè)數(shù)據(jù)集示例
參照公開(kāi)口罩檢測(cè)數(shù)據(jù)集[16]的評(píng)估標(biāo)準(zhǔn),本文采用精確率precision和召回率recall作為本文實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn)。評(píng)價(jià)方法的混淆矩陣如表1。
Table 1 Confusion matrix for evaluating method表1 評(píng)價(jià)方法的混淆矩陣
精確率precision和召回率recall的計(jì)算分別如式(5)和式(6)所示:
(5)
(6)
模型的訓(xùn)練、推理均在Ubuntu16.04系統(tǒng)上完成,代碼使用PyTorch深度學(xué)習(xí)框架開(kāi)發(fā)。硬件平臺(tái)為4塊NVIDIA GeForce GTX TITAN xp。輸入圖像尺寸大小為640×640,batchsize設(shè)置為16,訓(xùn)練采用動(dòng)態(tài)學(xué)習(xí)率,初始值為0.000 1,前8 400批次的訓(xùn)練,每400個(gè)批次將學(xué)習(xí)率提升0.5倍,從第13 000批次的訓(xùn)練開(kāi)始,每6 000個(gè)批次將學(xué)習(xí)率降低一半。使用SGD(Stochastic Gradient Descent)優(yōu)化器進(jìn)行反向傳播和更新。
實(shí)驗(yàn)在原始的公開(kāi)口罩?jǐn)?shù)據(jù)集上訓(xùn)練本文的PyramidMask模型(單階段)、CenterNet模型(單階段)、YOLOv3模型(單階段)、Faster R-CNN R-50-FPN(兩階段)模型和基準(zhǔn)方法的SSD模型(單階段),實(shí)驗(yàn)結(jié)果如表2和表3所示。
Table 2 Results of controlled experiment without masks表2 未戴口罩類(lèi)對(duì)照實(shí)驗(yàn)結(jié)果 %
Table 3 Results of controlled experiment with masks表3 戴口罩類(lèi)對(duì)照實(shí)驗(yàn)結(jié)果 %
相較于基準(zhǔn)方法[17],本文提出的PyramidMask在未戴口罩和戴口罩的召回率上分別有12.5%和5.4%的提升,在未戴口罩和戴口罩的檢測(cè)精確率上分別有4.1%和6.0%的提升。YOLOv3輕量的模型結(jié)構(gòu)對(duì)小目標(biāo)特征的提取能力不足。CenterNet和Faster R-CNN在經(jīng)過(guò)下采樣后,因?yàn)镃enterNet網(wǎng)絡(luò)底層特征圖分辨率比Faster R-CNN的更高,保持了更多的細(xì)節(jié)特征,所以對(duì)于本文實(shí)驗(yàn)的小尺度數(shù)據(jù),CenterNet召回率更高,為網(wǎng)絡(luò)后續(xù)的熱力點(diǎn)估計(jì)奠定了良好的基礎(chǔ),進(jìn)而有著更高的精確率。
如圖6a所示,從左至右,將公開(kāi)口罩檢測(cè)數(shù)據(jù)集[16]的測(cè)試集中的圖像調(diào)整為原始圖像、相較于原始圖像邊長(zhǎng)的75%,50%和25%,生成多尺度的測(cè)試集,并使用3.3節(jié)中完成訓(xùn)練的模型在不同尺度的圖像上進(jìn)行測(cè)試,以獲取Faster R-CNN R-50-FPN、YOLOv3、CenterNet和PyramidMask模型在不同尺度目標(biāo)上的檢測(cè)性能。
圖像在輸入到檢測(cè)模型時(shí),模型會(huì)對(duì)圖像進(jìn)行分辨率調(diào)整,這會(huì)造成上述多尺度圖像輸入到模型時(shí)并沒(méi)有嚴(yán)格按照所設(shè)計(jì)的尺度。針對(duì)這一問(wèn)題,本文對(duì)輸入圖像進(jìn)行填充處理,如圖6b所示,使調(diào)整尺度后的圖像在分辨率上與原始圖像一致,從而確保多尺度檢測(cè)實(shí)驗(yàn)的嚴(yán)謹(jǐn)性。
實(shí)驗(yàn)結(jié)果如表4和表5所示,PyramidMask模型在4個(gè)檢測(cè)尺度上都有較高的精確率和召回率。
Figure 6 Multi-scale detection and padding operation on images圖6 多尺度檢測(cè)和圖像的填充操作
為了獲取更多尺度的目標(biāo)數(shù)據(jù),需要增加數(shù)據(jù)量。本文采用的方法為:對(duì)公開(kāi)口罩檢測(cè)數(shù)據(jù)集中的圖像進(jìn)行水平翻轉(zhuǎn),再進(jìn)行四合一圖像拼接處理,其對(duì)應(yīng)的標(biāo)注信息同時(shí)進(jìn)行翻轉(zhuǎn)和拼接。進(jìn)行圖像拼接處理具有以下優(yōu)點(diǎn):
(1)將4幅圖像尺度縮小后拼接,不僅獲得了多尺度的目標(biāo),也增加了單幅圖像中目標(biāo)的數(shù)量。可以模擬人臉尺度多變、數(shù)量冗大的特征。
(2)增加了單幅圖像背景的復(fù)雜度。
(3)變相增加了訓(xùn)練時(shí)的批處理數(shù)據(jù)量[23]。
數(shù)據(jù)增強(qiáng)后,訓(xùn)練集擴(kuò)充到了15 300幅圖像,四合一圖像拼接的數(shù)據(jù)示例如圖7所示,圖7a為原始圖像,圖7b為拼接后的圖像。
Table 4 Results of multi-scale detection experiment without masks表4 未戴口罩類(lèi)多尺度檢測(cè)實(shí)驗(yàn)結(jié)果 %
Table 5 Results of multi-scale detection experiment with masks表5 戴口罩類(lèi)多尺度檢測(cè)實(shí)驗(yàn)結(jié)果 %
Figure 7 Example of image mosaic expansion of mask detection dataset圖7 口罩檢測(cè)數(shù)據(jù)圖像拼接擴(kuò)充示例
Figure 8 Example of experiment on correct wearing of mask圖8 口罩正確性佩戴檢測(cè)實(shí)驗(yàn)結(jié)果示例
3.5節(jié)提出了四合一圖像拼接的數(shù)據(jù)增強(qiáng)方法后,本節(jié)實(shí)驗(yàn)使用的訓(xùn)練數(shù)據(jù)為:數(shù)據(jù)增強(qiáng)后的口罩檢測(cè)數(shù)據(jù)再加上未增強(qiáng)的口罩檢測(cè)數(shù)據(jù)集,共計(jì)15 300幅圖像。其他實(shí)驗(yàn)條件(包括測(cè)試集)與3.3節(jié)中的相同。實(shí)驗(yàn)結(jié)果如表6和表7所示。
Table 6 Results of data expansion experiment without masks表6 未戴口罩類(lèi)數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)結(jié)果
Table 7 Results of data expansion experiment with masks表7 戴口罩類(lèi)數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)結(jié)果
數(shù)據(jù)增強(qiáng)后,PyramidMask方法的精確率和召回率均有一定的提升。未戴口罩類(lèi)中,在保持精確率的情況下,召回率提升了0.2%;在戴口罩類(lèi)中,在召回率提升0.1%的情況下,精確率提升了0.3%,表明使用拼接數(shù)據(jù)增強(qiáng)方法后的數(shù)據(jù)訓(xùn)練模型,對(duì)提高檢測(cè)性能有一定的幫助。
為檢驗(yàn)本文模型對(duì)已戴口罩但佩戴不正確(沒(méi)有覆蓋到口鼻)現(xiàn)象的檢測(cè)能力,自建和網(wǎng)絡(luò)爬取了共計(jì)408幅未正確佩戴口罩類(lèi)的圖像,并使用3.3節(jié)中訓(xùn)練完成的各模型進(jìn)行推理、對(duì)照驗(yàn)證。評(píng)判標(biāo)準(zhǔn):若模型檢測(cè)結(jié)果為未戴口罩類(lèi),則模型檢測(cè)正確;若模型檢測(cè)結(jié)果為戴口罩類(lèi),則模型檢測(cè)錯(cuò)誤。統(tǒng)計(jì)各模型檢測(cè)正確的比例,比例越高,說(shuō)明模型對(duì)未正確佩戴口罩檢測(cè)的性能越好。實(shí)驗(yàn)結(jié)果如表8和圖8所示。PyramidMask檢測(cè)正確率高于其他3個(gè)對(duì)照組,有一定的正確佩戴口罩檢測(cè)能力,表明其網(wǎng)絡(luò)結(jié)構(gòu)對(duì)數(shù)據(jù)特征有較優(yōu)的提取和擬合能力。
Table 8 Results of experiment on correct wearing of mask 表8 口罩正確性佩戴檢測(cè)實(shí)驗(yàn)結(jié)果
本節(jié)在多尺度、多數(shù)量、多角度、多種外觀口罩和未遮住口鼻等圖像上,使用本文提出的PyramidMask口罩檢測(cè)方法進(jìn)行測(cè)試,以檢驗(yàn)PyramidMask方法的魯棒性。如圖9所示,PyramidMask在不同類(lèi)型的圖像中,都能夠檢測(cè)出人臉和戴口罩的人臉,表現(xiàn)出了較好的檢測(cè)效果。
Figure 9 Results of mask detection with PyramidMask圖9 PyramidMask方法的口罩檢測(cè)效果
本文針對(duì)當(dāng)前專(zhuān)用口罩檢測(cè)算法缺乏、通用目標(biāo)檢測(cè)模型在面對(duì)多尺度、多數(shù)量、多角度和多外觀樣式口罩以及人臉檢測(cè)效果不佳的問(wèn)題,提出了一種專(zhuān)用的、多尺度感知優(yōu)化的、單階段口罩檢測(cè)方法——PyramidMask。通過(guò)設(shè)計(jì)結(jié)合ResNet骨干網(wǎng)絡(luò)特性的尺度感知網(wǎng)絡(luò)、高密度先驗(yàn)框、目標(biāo)尺度特征增強(qiáng)和數(shù)量擴(kuò)充的方法,在包含大量困難檢測(cè)數(shù)據(jù)的公開(kāi)口罩檢測(cè)數(shù)據(jù)集上,獲得了高于SSD基準(zhǔn)、YOLOv3、Faster R-CNN和CenterNet檢測(cè)模型的檢測(cè)性能。在多尺度檢測(cè)實(shí)驗(yàn)中,PyramidMask檢測(cè)模型在多尺度目標(biāo)的感知能力上也領(lǐng)先于單階段檢測(cè)模型YOLOv3、CenterNet和兩階段檢測(cè)模型Faster R-CNN,表明了PyramidMask模型結(jié)構(gòu)中尺度感知網(wǎng)絡(luò)的有效性。并且,在公開(kāi)口罩檢測(cè)數(shù)據(jù)集的困難數(shù)據(jù)上,PyramidMask也表現(xiàn)出了較好的檢測(cè)效果,體現(xiàn)了本文方法的魯棒性。當(dāng)前模型參數(shù)仍較為龐大,未來(lái)可以嘗試在保證檢測(cè)準(zhǔn)確性的情況下,精簡(jiǎn)模型結(jié)構(gòu),以確保模型在現(xiàn)實(shí)場(chǎng)景中使用的便利性。