基于多尺度優(yōu)化感知網(wǎng)絡(luò)的口罩檢測(cè)方法*

2022-08-20 01:39趙緒言

計(jì)算機(jī)工程與科學(xué) 2022年8期

茍淞，趙緒言，侯松，李威

(西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,四川成都 611756)

1 引言

新冠肺炎(COVID-19)疫情給全世界人民的生活造成了嚴(yán)重的危害，在各國(guó)政府和醫(yī)療系統(tǒng)的共同努力下，新冠肺炎疫情正逐步得到控制。根據(jù)中華人民共和國(guó)國(guó)家衛(wèi)生健康委員會(huì)疾病預(yù)防控制局發(fā)布的信息可知，口罩是預(yù)防呼吸道傳染病的重要防線，可以降低新型冠狀病毒感染風(fēng)險(xiǎn)。口罩不僅可以防止病人噴射飛沫，降低飛沫量和噴射速度，還可以阻擋含病毒的飛沫核，防止佩戴者吸入[1]。科學(xué)佩戴口罩，對(duì)于新冠肺炎、流感等呼吸道傳染病具有預(yù)防作用，既保護(hù)自己，又有益于公眾健康[2]。

因此，智能口罩檢測(cè)成為了一項(xiàng)重要的任務(wù)，可以督促人們?cè)诠采缃粓?chǎng)合佩戴口罩，對(duì)于維護(hù)公眾健康有著重要的意義。然而，基于深度學(xué)習(xí)的口罩檢測(cè)是一項(xiàng)全新的任務(wù)，其核心主要是2個(gè)方面：一是獲取人臉目標(biāo)在圖像中的位置信息；二是判斷該人臉是否佩戴口罩。目前口罩檢測(cè)的相關(guān)研究和方法十分有限。該任務(wù)面臨著以下巨大的挑戰(zhàn)：

(1)如圖1a所示，在口罩檢測(cè)的應(yīng)用場(chǎng)景中，首先需要對(duì)人臉進(jìn)行檢測(cè)，而人臉具有尺度多變、數(shù)量冗大、表情多樣、視角差異、局部遮擋和化妝偽裝等特征，這些特征通常會(huì)對(duì)檢測(cè)方法帶來(lái)較大的影響，導(dǎo)致誤檢或漏檢。

(2)如圖1b所示，口罩的外觀具有多樣性，如款式多樣、顏色各異、帶有花紋圖案，且側(cè)臉戴口罩特征不明顯等，給口罩檢測(cè)算法的設(shè)計(jì)帶來(lái)了困難。并且，當(dāng)人戴上口罩后，部分面部被遮蓋，也會(huì)增加人臉檢測(cè)的難度。

(3)如圖1c所示，未正確佩戴口罩(口罩沒(méi)有遮住口鼻或置于其他位置等)和面部局部被遮擋，會(huì)對(duì)口罩檢測(cè)造成干擾，容易在戴口罩與未戴口罩兩類(lèi)間造成混淆。

按照現(xiàn)有的通用深度學(xué)習(xí)目標(biāo)檢測(cè)方法，口罩檢測(cè)任務(wù)可以由單階段目標(biāo)檢測(cè)模型或兩階段目標(biāo)檢測(cè)模型來(lái)完成。當(dāng)前通用單階段目標(biāo)檢測(cè)模型有CenterNet[3]、FCOS[4]和YOLOv1[5]等Anchor-Free檢測(cè)模型，也有基于Anchor 機(jī)制的SSD(Single Shot multibox Detector)[6]、YOLOv2[7]和YOLOv3[8]等檢測(cè)模型。通用2階段目標(biāo)檢測(cè)模型中，R-CNN[9]系列模型的檢測(cè)效果較為出色，該類(lèi)模型的推理過(guò)程分為2個(gè)階段，第1階段通過(guò)滑動(dòng)窗口推測(cè)出目標(biāo)可能的位置坐標(biāo)，第2階段對(duì)預(yù)測(cè)框進(jìn)行分類(lèi)和評(píng)估。之后的Faster R-CNN[10]拋棄了傳統(tǒng)的滑動(dòng)窗口和Selective Search生成檢測(cè)框的方法，直接使用RPN(Region Proposal Network)生成檢測(cè)框，提升了檢測(cè)框的生成速度。然而，上述通用深度學(xué)習(xí)目標(biāo)檢測(cè)模型都缺乏針對(duì)口罩檢測(cè)特性的獨(dú)有設(shè)計(jì)，在多尺度感知方面仍有不足，造成檢測(cè)效果不夠理想。

Figure 1 Examples of difficulties in face mask detection圖1 口罩檢測(cè)困難示例

人臉檢測(cè)是口罩檢測(cè)的重要組成部分。張修寶等[11]提出的口罩檢測(cè)方法具有重要的意義，該方法先進(jìn)行人臉檢測(cè)，再對(duì)檢測(cè)結(jié)果進(jìn)行戴與未戴口罩分類(lèi)。近年來(lái)，研究人員提出了一批專(zhuān)用的人臉檢測(cè)網(wǎng)絡(luò)，例如用于人臉檢測(cè)與對(duì)齊的三級(jí)聯(lián)CNN(Convolutional Neural Network)[12]網(wǎng)絡(luò)MTCNN(Multi-Task Convolutional Neural Network)[13]、單階段人臉檢測(cè)器PyramidBox[14]和RetinaFace[15]等。其中PyramidBox基于FPN(Feature Pyramid Network)[16]進(jìn)行了優(yōu)化，提出低層級(jí)特征金字塔網(wǎng)絡(luò)，充分結(jié)合高層級(jí)環(huán)境語(yǔ)義特征和低層級(jí)面部特征，能夠單步預(yù)測(cè)所有尺度的人臉。目前，能夠?qū)⒏邔蛹?jí)特征和低層級(jí)特征進(jìn)行結(jié)合，在多尺度上進(jìn)行感知，并作為專(zhuān)用口罩檢測(cè)的方法還非常少。

本文提出了一種多尺度優(yōu)化感知的口罩檢測(cè)方法——PyramidMask。本方法采用ResNet50作為骨干網(wǎng)絡(luò)，保證深層的戴口罩人臉的特征能夠被有效地提?。辉?FPN思想的基礎(chǔ)上，結(jié)合骨干網(wǎng)絡(luò)的特性，設(shè)計(jì)尺度感知網(wǎng)絡(luò)和高密度先驗(yàn)框，增強(qiáng)檢測(cè)模型的多尺度感知能力，保證口罩檢測(cè)模型在處理不同尺度人臉、口罩時(shí)的性能；設(shè)計(jì)圖像拼接的數(shù)據(jù)增強(qiáng)方法，增強(qiáng)訓(xùn)練集中目標(biāo)的多尺度特征，同時(shí)在數(shù)量上擴(kuò)充數(shù)據(jù)集。上述3個(gè)優(yōu)化點(diǎn)的結(jié)合，能夠有效解決口罩檢測(cè)所面臨的3個(gè)挑戰(zhàn)。本文方法在公開(kāi)的口罩檢測(cè)數(shù)據(jù)集[17]上進(jìn)行了測(cè)試，相較于基準(zhǔn)方法，在未戴口罩和戴口罩的檢測(cè)召回率上分別有12.5%和5.4%的提升，在未戴口罩和戴口罩的檢測(cè)精確率上分別有4.1%和6.0%的提升；在多尺度檢測(cè)實(shí)驗(yàn)中，本文方法的檢測(cè)精度也領(lǐng)先于主流的單階段檢測(cè)模型YOLOv3和CenterNet，以及兩階段檢測(cè)模型Faster R-CNN R50 FPN；然后，通過(guò)對(duì)原訓(xùn)練數(shù)據(jù)進(jìn)行圖像拼接增強(qiáng)，使得本文方法的檢測(cè)精度又有進(jìn)一步的提升。

Figure 2 Network structure of PyramidMask 圖2 PyramidMask口罩檢測(cè)方法網(wǎng)絡(luò)結(jié)構(gòu)

2 PyramidMask口罩檢測(cè)方法

如圖2所示，本文提出的PyramidMask口罩檢測(cè)方法為一個(gè)端到端的單階段檢測(cè)模型，由骨干網(wǎng)絡(luò)、多級(jí)尺度感知模塊和多任務(wù)損失計(jì)算3個(gè)部分組成。使用ResNet50作為骨干網(wǎng)絡(luò)，負(fù)責(zé)特征提取，生成特征圖，提高模型對(duì)未戴口罩人臉和戴口罩人臉特征的提取性能；設(shè)計(jì)多尺度感知優(yōu)化的尺度感知網(wǎng)絡(luò)，提取足夠的淺層圖像信息和深層語(yǔ)義信息，減少特征未對(duì)準(zhǔn)和細(xì)節(jié)丟失的影響；損失計(jì)算是多任務(wù)的，分為位置損失和分類(lèi)損失2個(gè)部分，對(duì)尺度感知網(wǎng)絡(luò)的每一層輸出計(jì)算損失，計(jì)算L1范數(shù)得到位置損失，計(jì)算softmax和交叉熵得到分類(lèi)損失。PyramidMask每進(jìn)行一次推理，會(huì)輸出2部分信息：一是預(yù)測(cè)的目標(biāo)框位置，二是對(duì)應(yīng)目標(biāo)框的分類(lèi)置信度。

2.1 骨干網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)CNN利用卷積核與原始圖像或特征映射進(jìn)行卷積，提取更高層級(jí)的特征。但是，研究人員發(fā)現(xiàn)，當(dāng)卷積神經(jīng)網(wǎng)絡(luò)的深度超過(guò)19層時(shí)，隨著卷積層深度的繼續(xù)增加，網(wǎng)絡(luò)在訓(xùn)練集和測(cè)試集上的性能卻降低了，這是因?yàn)檩^淺層和較深層的網(wǎng)絡(luò)在訓(xùn)練時(shí)的優(yōu)化難度不一樣，且難度的增長(zhǎng)并不是線性的，越深的網(wǎng)絡(luò)越難以?xún)?yōu)化。

ResNet[18]通過(guò)引入如圖3所示的殘差塊(Bottleneck Design)在輸入和輸出之間建立了一條直接的關(guān)聯(lián)通道，從而使得強(qiáng)大的有參層能集中精力學(xué)習(xí)輸入和輸出之間的殘差。檢測(cè)、分割和識(shí)別等領(lǐng)域的很多方法都是在ResNet的基礎(chǔ)上完成的。

Figure 3 Bottleneck design for ResNet(50/101/152)圖3 ResNet(50/101/152)的殘差塊

本文所提出的口罩檢測(cè)方法PyramidMask，使用ResNet50作為骨干網(wǎng)絡(luò)，在面對(duì)外觀多樣、角度各異的口罩以及人臉時(shí)，相較于VGG(Visual Geometry Group)[19]網(wǎng)絡(luò)，有著更佳的深層特征提取性能[20]，能為后續(xù)的尺度感知網(wǎng)絡(luò)提供更有效的、自上而下的和最初始的多尺度的語(yǔ)義信息和特征圖。

2.2 尺度感知網(wǎng)絡(luò)的設(shè)計(jì)

人臉、口罩這類(lèi)尺度多變的目標(biāo)，對(duì)檢測(cè)模型的多尺度檢測(cè)性能有很高的要求。尤其是針對(duì)圖像中像素較少的小尺度目標(biāo)，在經(jīng)過(guò)逐層卷積操作和下采樣后，在網(wǎng)絡(luò)末端，這些小尺度目標(biāo)的特征會(huì)變得更小且更不明顯。骨干網(wǎng)絡(luò)對(duì)圖像中物體特征進(jìn)行提取時(shí)，淺層網(wǎng)絡(luò)分辨率高，提取到的是目標(biāo)的細(xì)節(jié)特征，深層網(wǎng)絡(luò)分辨率低，提取到的更多是目標(biāo)的語(yǔ)義特征。例如，SSD、YOLO等模型在增加網(wǎng)絡(luò)深度的同時(shí)，卻沒(méi)有充分利用淺層特征，造成模型對(duì)口罩、人臉這類(lèi)多尺度目標(biāo)的檢測(cè)效果不理想。

針對(duì)這一問(wèn)題，在 FPN思想的基礎(chǔ)上，本文設(shè)計(jì)尺度感知網(wǎng)絡(luò)的核心思路是：

(1)將骨干網(wǎng)絡(luò)的淺層細(xì)節(jié)信息和深層語(yǔ)義信息充分融合，避免細(xì)節(jié)丟失；

(2)通過(guò)高密集的先驗(yàn)框(Anchor)采樣，保證小尺度的人臉、口罩目標(biāo)也有高召回率。

設(shè)計(jì)的尺度感知網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，左邊的網(wǎng)絡(luò)自底向上是骨干網(wǎng)絡(luò)ResNet50的正向傳播過(guò)程，特征圖經(jīng)過(guò)卷積核計(jì)算，尺度會(huì)越來(lái)越小；右邊的網(wǎng)絡(luò)自上而下，對(duì)更抽象、語(yǔ)義更強(qiáng)的深層特征圖進(jìn)行上采樣。在參考了FPN設(shè)計(jì)思想的基礎(chǔ)上，本文選擇ResNet50中4個(gè)殘差塊各自的最后一層作為特征圖提取層，即conv2_3、conv3_4、conv4_6和conv5_3，再將提取的特征圖與右邊的上采樣網(wǎng)絡(luò)橫向連接疊加(橫向連接的2層特征的空間尺寸相同)，組成完整的尺度感知網(wǎng)絡(luò)，并在每層進(jìn)行獨(dú)立預(yù)測(cè)。設(shè)計(jì)高密度先驗(yàn)框，在網(wǎng)絡(luò)6個(gè)從上至下的特征層中分別設(shè)計(jì)了25 600,6 400,1 600,400,100和25，總計(jì)34 125個(gè)先驗(yàn)框，相較于SSD的8 732個(gè)先驗(yàn)框，在數(shù)量上有較多的增加，從而保證了對(duì)不同尺度目標(biāo)檢測(cè)的高召回率。

至此，淺層特征得到了語(yǔ)義信息的增強(qiáng)，每一層預(yù)測(cè)所用的特征圖都融合了不同分辨率、不同強(qiáng)度的特征，配合高密度先驗(yàn)框，可以增強(qiáng)對(duì)多尺度目標(biāo)，尤其是小尺度目標(biāo)的檢測(cè)性能。

Figure 4 Structure of multi-scale awareness network圖4 尺度感知網(wǎng)絡(luò)結(jié)構(gòu)

2.3 多任務(wù)損失函數(shù)的設(shè)計(jì)

多任務(wù)損失函數(shù)由2部分組成：一個(gè)是位置損失Lloc，另一個(gè)是分類(lèi)損失Lconf。在訓(xùn)練過(guò)程中，口罩檢測(cè)模型預(yù)測(cè)包括3類(lèi)矩陣：先驗(yàn)框坐標(biāo)矩陣Ppro(Ppro∈Rm×4)、分類(lèi)置信度矩陣Pconf(Pconf∈Rm×c)和預(yù)測(cè)框坐標(biāo)矩陣Ploc(Ploc∈Rt×4，t∈[0,m])。訓(xùn)練數(shù)據(jù)中標(biāo)注的內(nèi)容包括2類(lèi)矩陣：目標(biāo)真實(shí)框坐標(biāo)矩陣Tloc(Tloc∈Rn×4)和目標(biāo)真實(shí)框類(lèi)別矩陣Tconf(Tconf∈Rn×1)，表示目標(biāo)真實(shí)框坐標(biāo)集合和目標(biāo)真實(shí)框類(lèi)別集合。其中，m為先驗(yàn)框個(gè)數(shù),n為正樣本個(gè)數(shù),t為預(yù)測(cè)框個(gè)數(shù),c為目標(biāo)類(lèi)別個(gè)數(shù)，Rm×4為一個(gè)m行4列的矩陣。

(1)

其中，i為正樣本中的先驗(yàn)框序號(hào)，j為預(yù)測(cè)框的序號(hào)。

(2)

其中，c為目標(biāo)類(lèi)別個(gè)數(shù)，本文中c=3,表示存在戴口罩類(lèi)、未戴口罩類(lèi)和背景類(lèi)3個(gè)類(lèi)別。

(3)

最后，總的損失函數(shù)如式(4)所示：

L=Lloc+Lconf

(4)

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)使用公開(kāi)口罩檢測(cè)數(shù)據(jù)集[17]，共計(jì)7 959幅RGB圖像(訓(xùn)練集6 120幅，測(cè)試集1 839幅)，標(biāo)注框分為戴口罩和未戴口罩2個(gè)類(lèi)別，其中戴口罩標(biāo)注有3 970個(gè)，未戴口罩標(biāo)注有9 586個(gè)。該數(shù)據(jù)集由WIDER FACE[21]人臉數(shù)據(jù)集和MAFA[22]人臉遮擋數(shù)據(jù)集中部分?jǐn)?shù)據(jù)組成。WIDER FACE人臉數(shù)據(jù)集共計(jì)32 203幅RGB圖像(含已標(biāo)注的訓(xùn)練集12 880幅，驗(yàn)證集3 226幅)，訓(xùn)練集中標(biāo)注內(nèi)容只包含159 420個(gè)人臉類(lèi)(作為未戴口罩類(lèi))。MAFA人臉遮擋數(shù)據(jù)集共計(jì)30 811幅RGB圖像(訓(xùn)練集25 876幅，驗(yàn)證集4 938幅)，其訓(xùn)練集中只標(biāo)注出了29 430個(gè)遮擋的人臉類(lèi)(篩選出部分作戴口罩類(lèi))。

口罩檢測(cè)數(shù)據(jù)集中人臉和口罩的尺度多樣，角度豐富，口罩樣式較多，且包含有手部和其他非口罩物品對(duì)面部的遮蓋等，數(shù)據(jù)集示例如圖5所示。

Figure 5 Examples of public face mask detection dataset圖5 公開(kāi)口罩檢測(cè)數(shù)據(jù)集示例

3.2 評(píng)估標(biāo)準(zhǔn)

參照公開(kāi)口罩檢測(cè)數(shù)據(jù)集[16]的評(píng)估標(biāo)準(zhǔn)，本文采用精確率precision和召回率recall作為本文實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn)。評(píng)價(jià)方法的混淆矩陣如表1。

Table 1 Confusion matrix for evaluating method表1 評(píng)價(jià)方法的混淆矩陣

精確率precision和召回率recall的計(jì)算分別如式(5)和式(6)所示：

(5)

(6)

3.3 對(duì)照實(shí)驗(yàn)

模型的訓(xùn)練、推理均在Ubuntu16.04系統(tǒng)上完成，代碼使用PyTorch深度學(xué)習(xí)框架開(kāi)發(fā)。硬件平臺(tái)為4塊NVIDIA GeForce GTX TITAN xp。輸入圖像尺寸大小為640×640，batchsize設(shè)置為16，訓(xùn)練采用動(dòng)態(tài)學(xué)習(xí)率，初始值為0.000 1，前8 400批次的訓(xùn)練，每400個(gè)批次將學(xué)習(xí)率提升0.5倍，從第13 000批次的訓(xùn)練開(kāi)始，每6 000個(gè)批次將學(xué)習(xí)率降低一半。使用SGD(Stochastic Gradient Descent)優(yōu)化器進(jìn)行反向傳播和更新。

實(shí)驗(yàn)在原始的公開(kāi)口罩?jǐn)?shù)據(jù)集上訓(xùn)練本文的PyramidMask模型(單階段)、CenterNet模型(單階段)、YOLOv3模型(單階段)、Faster R-CNN R-50-FPN(兩階段)模型和基準(zhǔn)方法的SSD模型(單階段)，實(shí)驗(yàn)結(jié)果如表2和表3所示。

Table 2 Results of controlled experiment without masks表2 未戴口罩類(lèi)對(duì)照實(shí)驗(yàn)結(jié)果 %

Table 3 Results of controlled experiment with masks表3 戴口罩類(lèi)對(duì)照實(shí)驗(yàn)結(jié)果 %

相較于基準(zhǔn)方法[17]，本文提出的PyramidMask在未戴口罩和戴口罩的召回率上分別有12.5%和5.4%的提升，在未戴口罩和戴口罩的檢測(cè)精確率上分別有4.1%和6.0%的提升。YOLOv3輕量的模型結(jié)構(gòu)對(duì)小目標(biāo)特征的提取能力不足。CenterNet和Faster R-CNN在經(jīng)過(guò)下采樣后，因?yàn)镃enterNet網(wǎng)絡(luò)底層特征圖分辨率比Faster R-CNN的更高，保持了更多的細(xì)節(jié)特征，所以對(duì)于本文實(shí)驗(yàn)的小尺度數(shù)據(jù)，CenterNet召回率更高，為網(wǎng)絡(luò)后續(xù)的熱力點(diǎn)估計(jì)奠定了良好的基礎(chǔ)，進(jìn)而有著更高的精確率。

3.4 多尺度檢測(cè)實(shí)驗(yàn)

如圖6a所示，從左至右，將公開(kāi)口罩檢測(cè)數(shù)據(jù)集[16]的測(cè)試集中的圖像調(diào)整為原始圖像、相較于原始圖像邊長(zhǎng)的75%，50%和25%，生成多尺度的測(cè)試集，并使用3.3節(jié)中完成訓(xùn)練的模型在不同尺度的圖像上進(jìn)行測(cè)試，以獲取Faster R-CNN R-50-FPN、YOLOv3、CenterNet和PyramidMask模型在不同尺度目標(biāo)上的檢測(cè)性能。

圖像在輸入到檢測(cè)模型時(shí)，模型會(huì)對(duì)圖像進(jìn)行分辨率調(diào)整，這會(huì)造成上述多尺度圖像輸入到模型時(shí)并沒(méi)有嚴(yán)格按照所設(shè)計(jì)的尺度。針對(duì)這一問(wèn)題，本文對(duì)輸入圖像進(jìn)行填充處理，如圖6b所示，使調(diào)整尺度后的圖像在分辨率上與原始圖像一致，從而確保多尺度檢測(cè)實(shí)驗(yàn)的嚴(yán)謹(jǐn)性。

實(shí)驗(yàn)結(jié)果如表4和表5所示，PyramidMask模型在4個(gè)檢測(cè)尺度上都有較高的精確率和召回率。

Figure 6 Multi-scale detection and padding operation on images圖6 多尺度檢測(cè)和圖像的填充操作

3.5 數(shù)據(jù)增強(qiáng)的方法

為了獲取更多尺度的目標(biāo)數(shù)據(jù)，需要增加數(shù)據(jù)量。本文采用的方法為：對(duì)公開(kāi)口罩檢測(cè)數(shù)據(jù)集中的圖像進(jìn)行水平翻轉(zhuǎn)，再進(jìn)行四合一圖像拼接處理，其對(duì)應(yīng)的標(biāo)注信息同時(shí)進(jìn)行翻轉(zhuǎn)和拼接。進(jìn)行圖像拼接處理具有以下優(yōu)點(diǎn)：

(1)將4幅圖像尺度縮小后拼接，不僅獲得了多尺度的目標(biāo)，也增加了單幅圖像中目標(biāo)的數(shù)量。可以模擬人臉尺度多變、數(shù)量冗大的特征。

(2)增加了單幅圖像背景的復(fù)雜度。

(3)變相增加了訓(xùn)練時(shí)的批處理數(shù)據(jù)量[23]。

數(shù)據(jù)增強(qiáng)后，訓(xùn)練集擴(kuò)充到了15 300幅圖像，四合一圖像拼接的數(shù)據(jù)示例如圖7所示，圖7a為原始圖像，圖7b為拼接后的圖像。

Table 4 Results of multi-scale detection experiment without masks表4 未戴口罩類(lèi)多尺度檢測(cè)實(shí)驗(yàn)結(jié)果 %

Table 5 Results of multi-scale detection experiment with masks表5 戴口罩類(lèi)多尺度檢測(cè)實(shí)驗(yàn)結(jié)果 %

Figure 7 Example of image mosaic expansion of mask detection dataset圖7 口罩檢測(cè)數(shù)據(jù)圖像拼接擴(kuò)充示例

Figure 8 Example of experiment on correct wearing of mask圖8 口罩正確性佩戴檢測(cè)實(shí)驗(yàn)結(jié)果示例

3.6 數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)

3.5節(jié)提出了四合一圖像拼接的數(shù)據(jù)增強(qiáng)方法后，本節(jié)實(shí)驗(yàn)使用的訓(xùn)練數(shù)據(jù)為：數(shù)據(jù)增強(qiáng)后的口罩檢測(cè)數(shù)據(jù)再加上未增強(qiáng)的口罩檢測(cè)數(shù)據(jù)集，共計(jì)15 300幅圖像。其他實(shí)驗(yàn)條件(包括測(cè)試集)與3.3節(jié)中的相同。實(shí)驗(yàn)結(jié)果如表6和表7所示。

Table 6 Results of data expansion experiment without masks表6 未戴口罩類(lèi)數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)結(jié)果

Table 7 Results of data expansion experiment with masks表7 戴口罩類(lèi)數(shù)據(jù)增強(qiáng)實(shí)驗(yàn)結(jié)果

數(shù)據(jù)增強(qiáng)后，PyramidMask方法的精確率和召回率均有一定的提升。未戴口罩類(lèi)中，在保持精確率的情況下，召回率提升了0.2%；在戴口罩類(lèi)中，在召回率提升0.1%的情況下，精確率提升了0.3%，表明使用拼接數(shù)據(jù)增強(qiáng)方法后的數(shù)據(jù)訓(xùn)練模型，對(duì)提高檢測(cè)性能有一定的幫助。

3.7 口罩正確性佩戴檢測(cè)實(shí)驗(yàn)

為檢驗(yàn)本文模型對(duì)已戴口罩但佩戴不正確(沒(méi)有覆蓋到口鼻)現(xiàn)象的檢測(cè)能力，自建和網(wǎng)絡(luò)爬取了共計(jì)408幅未正確佩戴口罩類(lèi)的圖像，并使用3.3節(jié)中訓(xùn)練完成的各模型進(jìn)行推理、對(duì)照驗(yàn)證。評(píng)判標(biāo)準(zhǔn)：若模型檢測(cè)結(jié)果為未戴口罩類(lèi)，則模型檢測(cè)正確；若模型檢測(cè)結(jié)果為戴口罩類(lèi)，則模型檢測(cè)錯(cuò)誤。統(tǒng)計(jì)各模型檢測(cè)正確的比例，比例越高，說(shuō)明模型對(duì)未正確佩戴口罩檢測(cè)的性能越好。實(shí)驗(yàn)結(jié)果如表8和圖8所示。PyramidMask檢測(cè)正確率高于其他3個(gè)對(duì)照組，有一定的正確佩戴口罩檢測(cè)能力，表明其網(wǎng)絡(luò)結(jié)構(gòu)對(duì)數(shù)據(jù)特征有較優(yōu)的提取和擬合能力。

Table 8 Results of experiment on correct wearing of mask 表8 口罩正確性佩戴檢測(cè)實(shí)驗(yàn)結(jié)果

3.8 檢測(cè)效果

本節(jié)在多尺度、多數(shù)量、多角度、多種外觀口罩和未遮住口鼻等圖像上，使用本文提出的PyramidMask口罩檢測(cè)方法進(jìn)行測(cè)試，以檢驗(yàn)PyramidMask方法的魯棒性。如圖9所示，PyramidMask在不同類(lèi)型的圖像中，都能夠檢測(cè)出人臉和戴口罩的人臉，表現(xiàn)出了較好的檢測(cè)效果。

Figure 9 Results of mask detection with PyramidMask圖9 PyramidMask方法的口罩檢測(cè)效果

4 結(jié)束語(yǔ)

本文針對(duì)當(dāng)前專(zhuān)用口罩檢測(cè)算法缺乏、通用目標(biāo)檢測(cè)模型在面對(duì)多尺度、多數(shù)量、多角度和多外觀樣式口罩以及人臉檢測(cè)效果不佳的問(wèn)題，提出了一種專(zhuān)用的、多尺度感知優(yōu)化的、單階段口罩檢測(cè)方法——PyramidMask。通過(guò)設(shè)計(jì)結(jié)合ResNet骨干網(wǎng)絡(luò)特性的尺度感知網(wǎng)絡(luò)、高密度先驗(yàn)框、目標(biāo)尺度特征增強(qiáng)和數(shù)量擴(kuò)充的方法，在包含大量困難檢測(cè)數(shù)據(jù)的公開(kāi)口罩檢測(cè)數(shù)據(jù)集上，獲得了高于SSD基準(zhǔn)、YOLOv3、Faster R-CNN和CenterNet檢測(cè)模型的檢測(cè)性能。在多尺度檢測(cè)實(shí)驗(yàn)中，PyramidMask檢測(cè)模型在多尺度目標(biāo)的感知能力上也領(lǐng)先于單階段檢測(cè)模型YOLOv3、CenterNet和兩階段檢測(cè)模型Faster R-CNN，表明了PyramidMask模型結(jié)構(gòu)中尺度感知網(wǎng)絡(luò)的有效性。并且，在公開(kāi)口罩檢測(cè)數(shù)據(jù)集的困難數(shù)據(jù)上，PyramidMask也表現(xiàn)出了較好的檢測(cè)效果，體現(xiàn)了本文方法的魯棒性。當(dāng)前模型參數(shù)仍較為龐大，未來(lái)可以嘗試在保證檢測(cè)準(zhǔn)確性的情況下，精簡(jiǎn)模型結(jié)構(gòu)，以確保模型在現(xiàn)實(shí)場(chǎng)景中使用的便利性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡