葛延良, 李德鑫, 王冬梅, 董太極, 賀 敏
(1.東北石油大學(xué) 電氣信息工程學(xué)院, 大慶 163000; 2.中國移動通信集團(tuán)黑龍江有限公司 大慶分公司, 大慶 163000)
根據(jù)世界衛(wèi)生組織的通告,戴口罩是預(yù)防新型冠狀病毒等空氣傳播傳染病最有效的措施之一。疫情期間,為了有效減少新型冠狀病毒的傳播,在公共場所或室內(nèi)工作時(shí),應(yīng)當(dāng)佩戴口罩。采用人工監(jiān)督和檢測方法不僅耗費(fèi)人力,還會存在與被檢查人員接觸從而感染病毒的風(fēng)險(xiǎn)。因此,對于企業(yè)和商場等公共場所來說,能夠?qū)崟r(shí)的進(jìn)行口罩佩戴檢測是非常有必要的。
隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,使得計(jì)算機(jī)視覺領(lǐng)域取得巨大進(jìn)展。目標(biāo)檢測屬于計(jì)算機(jī)視覺中非常重要的研究方向,目前主要有基于雙階段的目標(biāo)檢測算法和基于單階段的目標(biāo)檢測算法兩類。其中,基于雙階段的目標(biāo)檢測算法的典型代表主要有區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-convolutional neural network, R-CNN)[1]、快速的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast Region-convolutional neural network, Fast R-CNN)[2]、更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-convolutional neural network, Faster R-CNN)[3]、基于掩碼分割的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask Region-convolutional neural network, Mask R-CNN)[4]、特征金字塔網(wǎng)絡(luò)(Feature pyramid network, FPN)[5]等,此類算法對目標(biāo)進(jìn)行檢測時(shí)分為兩個(gè)步驟:首先生成一系列候選框,再用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類和邊框回歸。基于單階段的目標(biāo)檢測算法把生成候選框和分類回歸這兩個(gè)步驟合并在一個(gè)網(wǎng)絡(luò)中進(jìn)行,常見的基于單階段目標(biāo)檢測算法有OverFeat[6]、單階段多錨框目標(biāo)檢測器(Single shot multibox detector, SSMD)[7]、你只需看一次(You only look once, YOLO)[8-11]系列等。考慮到在實(shí)際監(jiān)控任務(wù)中需要達(dá)到實(shí)時(shí)檢測的目的,而單階段的目標(biāo)檢測算法在檢測速度上可以達(dá)到實(shí)時(shí)的效果。
近年來,為了解決口罩佩戴檢測的精度與速度問題,許多學(xué)者都已經(jīng)將YOLO系列目標(biāo)檢測算法應(yīng)用到了口罩佩戴檢測應(yīng)用中。張烈平等使用MobileNetV2作為特征提取網(wǎng)絡(luò)與YOLOv2相結(jié)合構(gòu)成口罩佩戴檢測網(wǎng)絡(luò)模型,使其均值平均精度(mean average precision,mAP)達(dá)到91.3%[12]。張鑫等將在特征提取網(wǎng)絡(luò)中引入空間金字塔池化,并結(jié)合GIoU損失函數(shù),在其使用的數(shù)據(jù)集上對比原始YOLOv3將mAP提高到90.1%[13]。王藝皓等提出在YOLOv3算法中引入改進(jìn)的空間金字塔池化結(jié)構(gòu),從而實(shí)現(xiàn)特征增強(qiáng),在其使用的數(shù)據(jù)集上mAP達(dá)到90.2%[14]。談世磊等基于YOLOv5網(wǎng)絡(luò)模型,在原數(shù)據(jù)集基礎(chǔ)上進(jìn)行擴(kuò)充,采用翻轉(zhuǎn)和旋轉(zhuǎn)兩種方式得到30 000張圖片來用于訓(xùn)練,使mAP達(dá)到92.4%[15]。Yang等采用將GIoU與Center Loss相結(jié)合的方式來提升口罩識別精度,在其數(shù)據(jù)集上mAP達(dá)到97.9%[16]。Popescu等通過將YOLOv5與ResNet相結(jié)合,使得在其數(shù)據(jù)集上mAP達(dá)到87%[17-18]。因此,本文選擇YOLOv5s算法為基礎(chǔ)進(jìn)行口罩佩戴檢測。
為了解決錯(cuò)檢和漏檢等問題,Hou等提出協(xié)調(diào)注意力機(jī)制(Coordinate attention, CA)模塊來提高檢測性能[19]。本文通過在YOLOv5s網(wǎng)絡(luò)模型中融入改進(jìn)的CA注意力機(jī)制模塊CA-A來增強(qiáng)網(wǎng)絡(luò)的特征提取能力,并引入改進(jìn)的CIoU損失函數(shù)AD-CIoU來提高邊界框的定位準(zhǔn)確度。實(shí)驗(yàn)表明所提出的口罩佩戴檢測算法精度相較于YOLOv5s有所提升。
YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)由四部分組成,分別為輸入端、主干網(wǎng)絡(luò)Backbone、Neck和輸出端,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。YOLOv5s所使用的主干特征提取網(wǎng)絡(luò)為跨階段局部網(wǎng)絡(luò)(Cross stage partial dark network, CSPDarknet),其中包含了CBS模塊、C3模塊[20]和空間金字塔池化模塊(Spatial pyramid pooling, SPP)[21]。CBS模塊可以在圖像進(jìn)行下采樣,其中第一個(gè)CBS模塊的卷積核尺寸為6×6用于替換Focus結(jié)構(gòu),以達(dá)到提高運(yùn)算速度、減少內(nèi)存開銷的目的。C3模塊主要功能為圖像特征的提取,SPP模塊主要解決了卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行重復(fù)特征提取的問題,既提高了產(chǎn)生候選框的速度又節(jié)約了計(jì)算成本。但是小目標(biāo)特征信息在C3模塊多次作用下,容易造成丟失現(xiàn)象,從而引起錯(cuò)檢與漏檢問題。為了提高檢測的精確度,在C3模塊后引入改進(jìn)的CA-A注意力機(jī)制模塊來增強(qiáng)網(wǎng)絡(luò)特征提取能力,達(dá)到提升檢測精度的目的。改進(jìn)后的Backbone 如圖2所示。
圖1 YOLOv5s網(wǎng)絡(luò)
圖2 改進(jìn)的主干網(wǎng)絡(luò)
CA注意力機(jī)制模塊使用的是Sigmoid歸一化,但是Sigmoid函數(shù)會存在梯度飽和現(xiàn)象,即在當(dāng)X>>0或X<<0時(shí),梯度接近于0,導(dǎo)致訓(xùn)練緩慢和梯度消失。因此,提出了一個(gè)改進(jìn)注意力機(jī)制模塊CA-A,將ACON激活函數(shù)與CA注意力機(jī)制模塊相融合的方法。與通過二維全局池化將特征張量轉(zhuǎn)換為單個(gè)特征向量的通道注意力不同,CA-A注意力模塊可以看作一個(gè)計(jì)算單元,其目的是增強(qiáng)網(wǎng)絡(luò)模型的特征表達(dá)能力。CA-A注意力機(jī)制通過坐標(biāo)信息嵌入和坐標(biāo)注意力生成兩個(gè)步驟來進(jìn)行編碼,這種編碼過程可以提升坐標(biāo)注意力的準(zhǔn)確度,從而幫助模型更好識別特征信息。ACON激活函數(shù)可以學(xué)習(xí)并決定是否要激活神經(jīng)元,從而提高檢測精度。CA-A注意力機(jī)制模塊的水平與垂直的特征信息由XAvg Pool和YAvg Pool沿著x與y軸做平均池化提取,隨后進(jìn)行特征信息的聚合并使用 ACON 激活函數(shù)進(jìn)行歸一化,具體如圖3所示。
圖3 CA-A注意力機(jī)制模塊
原YOLOv5s網(wǎng)絡(luò)模型中采用了CIoU作為Bounding Box的損失函數(shù),其公式定義為:
(1)
由于CIoU采用的是預(yù)測框與真實(shí)框的寬和高的比值,所以會存在一定的模糊性,即一旦收斂到預(yù)測框與真實(shí)框的寬和高的比值呈線性比例狀態(tài)時(shí),會導(dǎo)致預(yù)測框回歸時(shí)寬和高不可以同時(shí)增加或減少。為解決上述問題,提出了AD-CIoU,將CIoU結(jié)合角度損失與距離損失來提升邊界框定位的精確度。角度損失公式定義為:
(2)
(3)
(4)
(5)
距離損失的定義和具體參數(shù)公式為:
(6)
(7)
(8)
γ=2-Λ
(9)
改進(jìn)后的YOLOv5s網(wǎng)絡(luò)模型的回歸損失函數(shù)AD-CIoU公式為:
(10)
采用Kaggle的Face mask detection數(shù)據(jù)集進(jìn)行訓(xùn)練,此數(shù)據(jù)集一共5 049張圖片,其中訓(xùn)練集含有3 390張圖片,驗(yàn)證集與測試集分別為699張和960張圖片。
具體的測試環(huán)境:CPU采用12核 Intel(R) Xeon(R) Silver 4110 CPU @ 2.10GHz,GPU為Nvidia GeForce RTX 2080ti。深度學(xué)習(xí)框架為PyTorch1.8.1,編譯語言Python3.8,Cuda版本為11.1。
在目標(biāo)檢測領(lǐng)域,性能評價(jià)指標(biāo)常用精準(zhǔn)率P(Precision)、召回率R(Recall)和均值平均精度mAP(mean average precision)來進(jìn)行衡量檢測效果。其具體計(jì)算公式為:
(11)
(12)
(13)
采用官方預(yù)訓(xùn)練權(quán)重,輸入圖像的尺寸大小為640×640,訓(xùn)練的批量大小Batchsize為16,迭代次數(shù)Epoch為300次。
原YOLOv5s與改進(jìn)的YOLOv5s的mAP數(shù)據(jù)對比如圖4所示。圖中YOLOv5s的map@0.5達(dá)到了0.944,改進(jìn)后的YOLOv5s的map@0.5達(dá)到了0.961,提升了1.7%。
圖4 數(shù)據(jù)對比圖
為驗(yàn)證本研究提出的改進(jìn)方案,在相同的實(shí)驗(yàn)環(huán)境與數(shù)據(jù)集下,進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1所示??梢钥闯?在引入CA注意力機(jī)制時(shí),檢測均值平均精度mAP達(dá)到了0.957。CA注意力融合AD-CIoU損失函數(shù)時(shí),召回率Recall提升到0.929。僅使用CA-A注意力機(jī)制時(shí),mAP提升到了0.959。CA-A結(jié)合AD-CIoU損失函數(shù)在精度Precision和均值平均精度mAP上均有提升,可見改進(jìn)的方案相比原YOLOv5s有明顯優(yōu)勢。
表1 YOLOv5s消融實(shí)驗(yàn)
為了驗(yàn)證本研究提出的改進(jìn)算法具有更好的檢測效果,選擇YOLOv3-tiny、YOLOv4-tiny、YOLOv5s以及YOLOv5s結(jié)合SENet和CBAM注意力機(jī)制在相同配置下進(jìn)行對比實(shí)驗(yàn),結(jié)果如表2所示。
表2 不同網(wǎng)絡(luò)對比數(shù)據(jù)
為了展示改進(jìn)的YOLOv5s網(wǎng)絡(luò)模型的檢測效果,從測試集中隨機(jī)選取圖片進(jìn)行測試,原YOLOv5s網(wǎng)絡(luò)模型與改進(jìn)后的YOLOv5s網(wǎng)絡(luò)模型的對比數(shù)據(jù)如圖5和圖6所示。原始YOLOv5s在圖中的平均檢測精度達(dá)到了0.85和0.83,改進(jìn)的YOLOv5s在圖中的平均檢測精度可以達(dá)到0.95和0.91,可見在多人密集的情況下,改進(jìn)后的YOLOv5s網(wǎng)絡(luò)模型具有更高的檢測精度。
圖5 YOLOv5s檢測效果
圖6 改進(jìn)的YOLOv5s檢測效果
為了提升口罩佩戴檢測的精度,提出了一種基于YOLOv5s改進(jìn)的口罩佩戴檢測算法。原CA注意力機(jī)制模塊使用Sigmoid歸一化會存在梯度消失和訓(xùn)練緩慢等問題,所以將ACON激活函數(shù)融合CA注意力機(jī)制模塊構(gòu)成新的CA-A注意力機(jī)制模塊,并結(jié)合在原始YOLOv5s的主干網(wǎng)絡(luò)部分,通過坐標(biāo)信息嵌入和坐標(biāo)注意力生成兩個(gè)步驟來提升坐標(biāo)注意力的準(zhǔn)確度,從而達(dá)到增強(qiáng)網(wǎng)絡(luò)的特征提取能力;CIoU損失函數(shù)一旦收斂到預(yù)測框與真實(shí)框的寬和高的比值呈線性比例狀態(tài)時(shí),會導(dǎo)致預(yù)測框回歸時(shí)寬和高不可以同時(shí)增加或減少,為了改善其定位的模糊性,將CIoU通過結(jié)合角度損失和距離損失來構(gòu)建新的AD-CIoU損失函數(shù),以達(dá)到提升回歸精度的目的。經(jīng)過實(shí)驗(yàn)結(jié)果證明,改進(jìn)后的算法相比原始YOLOv5s網(wǎng)絡(luò)模型mAP提升了1.7%,達(dá)到了96.1%,同時(shí)與其他算法對比明顯具有更高的精確度。