融合坐標(biāo)注意力與多尺度特征的輕量級(jí)安全帽佩戴檢測(cè)

2023-12-06 03:06:44李忠飛馮仕詠郭駿張?jiān)弃Q徐飛翔

工礦自動(dòng)化 2023年11期

李忠飛，馮仕詠，郭駿，張?jiān)弃Q，徐飛翔

（1.內(nèi)蒙古電投能源股份有限公司北露天煤礦，內(nèi)蒙古霍林郭勒 029200；2.中國礦業(yè)大學(xué) 信息與控制工程學(xué)院，江蘇徐州 221116；3.北京和利時(shí)數(shù)字技術(shù)有限公司，北京 100176）

0 引言

近年來，在煤礦生產(chǎn)過程中由于不按規(guī)定佩戴安全帽引發(fā)的安全事故頻發(fā)。正確佩戴安全帽可有效保護(hù)工人頭部免受墜落物、碰撞和其他意外的侵害，因此，及時(shí)發(fā)現(xiàn)并糾正安全帽佩戴不符合規(guī)定的煤礦工人，實(shí)現(xiàn)安全帽佩戴檢測(cè)至關(guān)重要[1]。然而，當(dāng)前大部分安全帽佩戴檢測(cè)存在人力成本高、易受環(huán)境影響、準(zhǔn)確率和效率不高等問題。

進(jìn)入深度學(xué)習(xí)時(shí)代，利用計(jì)算機(jī)視覺技術(shù)進(jìn)行圖像處理分析已成為業(yè)界的主要研究方向[2-3]?；谟?jì)算機(jī)視覺技術(shù)的安全帽佩戴檢測(cè)研究分為2 類。一類是利用傳統(tǒng)目標(biāo)檢測(cè)算法進(jìn)行檢測(cè)，由于安全帽有著區(qū)別于背景的顏色特征及區(qū)別于人頭的形狀特征，所以多是與圖像分割技術(shù)相結(jié)合。李琪瑞[4]首先通過方向梯度直方圖找到人體區(qū)域，然后用“凸”字型頭部特征獲取頭部信息，最后用梯度直方圖（Histogram of Gradient，HOG）+支持向量機(jī)（Support Vector Machine，SVM）技術(shù)檢測(cè)安全帽。Sun Xiaoming 等[5]采用視覺背景差分算法檢測(cè)工人，通過頭部與全身的比例關(guān)系確定安全帽的初始定位，利用基于貝葉斯優(yōu)化的SVM 模型對(duì)安全帽進(jìn)行檢測(cè)。Li Tan 等[6]使用視覺背景提?。╒isual Background Extractor，ViBe）算法進(jìn)行背景建模，同時(shí)基于運(yùn)動(dòng)目標(biāo)分割圖像，使用實(shí)時(shí)人體分類框架定位行人，然后利用頭部位置、色彩空間變換和色彩特征實(shí)現(xiàn)安全帽佩戴檢測(cè)。另一類是利用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法進(jìn)行檢測(cè)。徐守坤等[7]對(duì)更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)（Faster Regions with CNN features，F(xiàn)aster RCNN）進(jìn)行不同尺度的訓(xùn)練，并引入在線難例挖掘策略以增強(qiáng)網(wǎng)絡(luò)檢測(cè)不同尺寸目標(biāo)的能力，最終采用多部件結(jié)合算法進(jìn)行安全帽佩戴檢測(cè)。Wang Xuanyu 等[8]通過添加大尺寸的特征輸入進(jìn)行多尺度預(yù)測(cè)以改進(jìn)YOLOv3 模型，從而實(shí)現(xiàn)安全帽佩戴檢測(cè)。羅欣宇[9]先采用限制對(duì)比度自適應(yīng)直方圖均衡（Contrast Limited Adaptive Histogram Equalization，CLAHE）算法進(jìn)行圖像預(yù)處理，再使用RetinaNet 算法進(jìn)行安全帽目標(biāo)檢測(cè)。梁思成[10]使用密集連接網(wǎng)絡(luò)來改善模型對(duì)安全帽特征的提取能力。張培基[11]在YOLOv5 基礎(chǔ)上，通過增加上采樣模塊構(gòu)成顯著性目標(biāo)檢測(cè)（Salient Object Detection，SOD）算法，以解決復(fù)雜場(chǎng)景下安全帽佩戴檢測(cè)困難問題。

但上述算法都未能很好地平衡檢測(cè)速度與檢測(cè)精度之間的關(guān)系，且模型的計(jì)算量、參數(shù)量較大，無法在相關(guān)智能視頻監(jiān)控終端上實(shí)現(xiàn)嵌入式安裝，同時(shí)作為小目標(biāo)的安全帽也進(jìn)一步加大了檢測(cè)難度。因此本文使用網(wǎng)絡(luò)結(jié)構(gòu)較簡(jiǎn)單的YOLOv4[12]作為安全帽佩戴檢測(cè)算法框架，并在此基礎(chǔ)上提出輕量化的M-YOLO 模型。本文主要貢獻(xiàn)如下：①在YOLOv4模型的基礎(chǔ)上，引入MobileNetV2 輕量級(jí)網(wǎng)絡(luò)[13]模型，并融合具有分組特征的混洗坐標(biāo)注意力（Shuffle Coordinate Attention，SCA）模塊，組成S-MobileNetV2特征提取網(wǎng)絡(luò)以替換原有的CSPDarknet53 網(wǎng)絡(luò)，在降低模型參數(shù)量的前提下，提高對(duì)目標(biāo)特征位置信息的提取能力，改善復(fù)雜環(huán)境下特征提取困難的問題。② 將原有的空間金字塔池化（Spatial Pyramid Pooling，SPP）[14-15]方式改為串行連接，將3 個(gè)不同大小的池化核統(tǒng)一替換成5×5 的池化核，減少運(yùn)算復(fù)雜度，有效提高計(jì)算效率。③將包含足夠多空間和細(xì)節(jié)特征信息的淺層特征加入特征融合網(wǎng)絡(luò)，有效實(shí)現(xiàn)淺層高分辨率特征和深層語義特征的融合，改善對(duì)安全帽小目標(biāo)檢測(cè)能力較弱的問題。同時(shí)在特征融合網(wǎng)絡(luò)中引入深度可分離卷積，有效降低添加淺層特征帶來的參數(shù)量與計(jì)算量。

1 M-YOLO 模型原理

1.1 M-YOLO 結(jié)構(gòu)

M-YOLO 在YOLOv4 基礎(chǔ)上進(jìn)行改進(jìn)，結(jié)構(gòu)如圖1 所示，其中紅色方框表示改進(jìn)的部分。

主干網(wǎng)絡(luò)使用由SCA 模塊組成的S-MobileNetV2特征提取網(wǎng)絡(luò)提取特征信息，頸部網(wǎng)絡(luò)使用添加了淺層特征和快速空間金字塔池化（Spatial Pyramid Pooling-Fast，SPPF）結(jié)構(gòu)的特征融合網(wǎng)絡(luò)，通過組合自上而下和自下而上的2 種特征融合方式，實(shí)現(xiàn)對(duì)特征提取網(wǎng)絡(luò)中提取到的深層特征和淺層特征的融合，使模型更好地綜合大、中、小尺度信息。同時(shí)為進(jìn)一步減小模型的參數(shù)量和計(jì)算量，將YOLOv4特征融合網(wǎng)絡(luò)中的部分卷積修改為深度可分離卷積。由于Mish 激活函數(shù)比Leaky-ReLU 激活函數(shù)擁有更好的非線性特征，所以在主干網(wǎng)絡(luò)輸出至特征融合網(wǎng)絡(luò)中的13×13 特征層處使用CBM 模塊，在模型的后續(xù)特征融合部分使用DBL 模塊取代CBL 模塊，以提高模型的泛化能力。

1.2 S-MobileNetV2 特征提取網(wǎng)絡(luò)

煤礦井下圖像背景復(fù)雜且存在目標(biāo)尺寸較小等特點(diǎn)，整體特征提取難度較大，單純減少模型參數(shù)量的操作會(huì)導(dǎo)致模型檢測(cè)能力明顯下降。為在保證模型特征提取能力的前提下滿足輕量化的要求，MYOLO 模型使用S-MobileNetV2 特征提取網(wǎng)絡(luò)替換YOLOv4 的特征提取網(wǎng)絡(luò)CSPDarknet53。

MobileNetV2 模型是輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)中的重要標(biāo)志性模型，具有很好的改進(jìn)可擴(kuò)展性，將其應(yīng)用在目標(biāo)檢測(cè)網(wǎng)絡(luò)中，可有效滿足應(yīng)用環(huán)境對(duì)模型輕量化的要求，相較于MobileNetV1、MobileNetV3[16]、GhostNet[17]等輕量級(jí)網(wǎng)絡(luò)，其特征提取能力表現(xiàn)更佳。但在應(yīng)用于安全帽佩戴檢測(cè)時(shí)，雖然相較于CSPDarknet53 網(wǎng)絡(luò)，MobileNetV2 輕量級(jí)主干網(wǎng)絡(luò)減少了較多計(jì)算量和參數(shù)量，但其特征提取能力也隨之下降。

為提高M(jìn)obileNetV2 的特征提取能力，將注意力模塊嵌入到卷積神經(jīng)網(wǎng)絡(luò)中。輕量級(jí)網(wǎng)絡(luò)的注意力模塊受限于輕量化需求，大多采用通道注意力模塊（Squeeze and Excitation，SE）[18]和卷積塊注意力模塊（Convolutional Block Attention Module，CBAM）[19]，但SE 模塊只考慮了特征通道間的信息，忽略了特征的位置信息，而CBAM 模塊雖然在降維操作后通過添加卷積來獲取特征的位置信息，但相關(guān)卷積只能獲取到特征位置的局部關(guān)系，無法對(duì)長距離的特征關(guān)系進(jìn)行提取。

坐標(biāo)注意力模塊[20]則有效解決了上述2 種注意力模塊存在的問題。坐標(biāo)注意力模塊將橫向和縱向的位置信息編碼到通道注意力中，同時(shí)為避免通道注意力的二維全局平均池化導(dǎo)致的完整位置特征信息的損失，注意力模塊將通道注意力劃分為2 個(gè)并行的一維特征編碼，從而高效地將空間坐標(biāo)信息整合到生成的注意力映射圖中。

坐標(biāo)注意力模塊結(jié)構(gòu)如圖2 所示。在通道注意力中，對(duì)于輸入特征圖m，先使用2 個(gè)不同尺寸的池化核分別沿著水平（X）和豎直（Y）這2 張坐標(biāo)方向?qū)Ω鱾€(gè)通道進(jìn)行平均池化，這2 種池化分別沿水平和豎直空間方向聚合特征，得到2 張包含方向信息的特征圖。這與通道注意力中生成單一特征向量的SE 模塊有很大區(qū)別。這種方式使得坐標(biāo)注意力模塊在提取到其中一個(gè)空間方向的長距離的依賴關(guān)系時(shí)，還可保存另外一個(gè)空間方向的相關(guān)位置信息，從而使網(wǎng)絡(luò)在面對(duì)待檢目標(biāo)時(shí)可以更精確地定位。

通過坐標(biāo)注意力模塊獲得全局感受野和感興趣目標(biāo)的位置信息特征。為充分利用這些信息，將上述分開的特征堆疊（Concat）在一起，然后使用1×1 大小的卷積對(duì)其進(jìn)行降維操作，沿著空間維度對(duì)中間特征圖在水平方向和豎直方向進(jìn)行分離操作，切分為豎直方向的特征張量f1∈Rc/r×h和水平方向的特征張量f2∈Rc/r×w，其中c為通道數(shù)，r為下采樣的比例，用以控制模塊大小，h，w分別為特征圖高度、寬度。再利用2 個(gè)1×1 大小的豎直方向上的卷積F1和水平方向上的卷積F2，將特征張量f1和f2的通道數(shù)升維至m（m為輸出特征的通道數(shù)），具體公式如下。

式中：G1和G2分別為豎直、水平方向上擴(kuò)展后的注意力權(quán)重；σ（·）為Sigmoid 激活函數(shù)。

坐標(biāo)注意力模塊通過提取2 個(gè)方向上的并行特征來保留完整的位置特征信息，但這無疑會(huì)增加參數(shù)量。因此，本文提出了SCA 模塊，在減少坐標(biāo)注意力參數(shù)量的前提下，有效改善特征之間的聯(lián)系。

SCA 模塊結(jié)構(gòu)如圖3 所示。首先將原始特征圖沿通道維度平均分成g組，然后對(duì)每組通道進(jìn)行坐標(biāo)注意操作，將2 個(gè)并行的特征進(jìn)行融合，最后進(jìn)行通道混洗操作[21]，對(duì)特征組進(jìn)行重排，以改善不同特征組之間的信息交流。

圖3 SCA 模塊結(jié)構(gòu)Fig.3 Shuffle coordinate attention module structure

MobileNetV2 中的每一個(gè)Bottleneck 都是由2 個(gè)1×1 普通卷積和1 個(gè)3×3 深度卷積組成。安全帽普遍較小，將SCA 模塊加入Bottlenetck 中形成SCABottleneck，將得到更準(zhǔn)確的位置特征信息，更有利于檢測(cè)小目標(biāo)。

初始MobileNetV2 中有17 個(gè)Bottlenetck，如果將所有Bottlenetck 全部替換為SCA-Bottleneck 模塊，會(huì)導(dǎo)致模型的參數(shù)量與計(jì)算量增大，檢測(cè)速度下降明顯，因此選用輸出特征圖尺寸為104×104、52×52、26×26、13×13 的Bottlenetck 進(jìn)行替換，模塊中的分組數(shù)g選定為4。融合了SCA 模塊的S-MobileNetV2結(jié)構(gòu)見表1。

表1 S-MobileNetV2 結(jié)構(gòu)Table 1 S-MobileNetV2 structure

1.3 SPP 結(jié)構(gòu)改進(jìn)

YOLOv4 的SPP 結(jié)構(gòu)如圖4 所示。對(duì)輸入的特征圖分別使用3 個(gè)不同尺度的最大池化得到3 張感受野擴(kuò)大的特征圖。池化核尺寸越大，提取到的特征就越具全局語義性；池化核尺寸較小時(shí)，提取到的特征更多地包含局部細(xì)節(jié)信息。將3 張經(jīng)過不同池化核的特征圖與輸入特征圖進(jìn)行拼接，融合成新的特征。通過最大池化操作可降低卷積層參數(shù)誤差造成的估計(jì)均值偏移，從而保留更多的淺層特征信息。

圖4 SPP 結(jié)構(gòu)Fig.4 Spatial pyramid pooling structure

雖然SPP 結(jié)構(gòu)對(duì)于特征提取起到了積極作用，但9×9、13×13 的最大池化會(huì)給模型增添部分計(jì)算復(fù)雜度，同時(shí)并聯(lián)3 個(gè)不同尺度的最大池化也會(huì)導(dǎo)致模型運(yùn)算時(shí)間增加。為提高模型對(duì)安全帽佩戴檢測(cè)的速度，本文使用SPPF 結(jié)構(gòu)，如圖5 所示，將SPP 結(jié)構(gòu)中的各個(gè)并行池化改為串行池化。

圖5 SPPF 結(jié)構(gòu)Fig.5 Spatial pyramid pooling-fast structure

串行2 個(gè)池化核大小為5×5 的最大池化層的計(jì)算結(jié)果和1 個(gè)池化核大小為9×9 的最大池化層的計(jì)算結(jié)果相同，而串行3 個(gè)池化核大小為5×5 的最大池化層的計(jì)算結(jié)果和1 個(gè)池化核大小為13×13 的最大池化層的計(jì)算結(jié)果相同。結(jié)合主干網(wǎng)絡(luò)添加的注意力模塊，將SPP 結(jié)構(gòu)中3 個(gè)并行的不同尺度最大池化層替換為3 個(gè)串行的池化核大小相等的最大池化層，這樣不僅實(shí)現(xiàn)了全局特征與局部特征的融合，還將原來3 個(gè)5×5、9×9、13×13 大小的池化核統(tǒng)一替換成5×5 大小的池化核，減少了相關(guān)模型運(yùn)算的復(fù)雜度，有效提高了計(jì)算效率。

1.4 特征融合網(wǎng)絡(luò)重構(gòu)

將主干網(wǎng)絡(luò)提取到的不同尺度特征充分融合是提高目標(biāo)檢測(cè)性能的一個(gè)重要手段。主干網(wǎng)絡(luò)中深層特征圖由于經(jīng)過多次卷積，其特征信息表現(xiàn)得更具語義性，但分辨率很低，對(duì)細(xì)節(jié)的感知能力較差，而淺層特征圖由于經(jīng)過的卷積次數(shù)少，其特征信息表現(xiàn)得更具細(xì)節(jié)化，同時(shí)也由于其經(jīng)過的卷積少，語義性較差，包含的噪聲也更多[22]。在實(shí)際應(yīng)用中，安全帽多以小目標(biāo)出現(xiàn)，因此應(yīng)提高模型對(duì)于小目標(biāo)檢測(cè)的精度。但YOLOv4 特征融合結(jié)構(gòu)并沒有特意加強(qiáng)對(duì)小目標(biāo)檢測(cè)的操作，隨著主干網(wǎng)絡(luò)卷積層的不斷加深，小尺寸的安全帽目標(biāo)在特征圖上的信息逐漸丟失，如圖6 所示，可看出卷積層次越深，圖像特征就越抽象，細(xì)節(jié)特征就越少。為提高安全帽小目標(biāo)檢測(cè)的準(zhǔn)確性，需要對(duì)淺層特征圖上的細(xì)節(jié)信息進(jìn)行充分利用。

圖6 特征圖可視化Fig.6 Feature map visualization

為降低模型對(duì)安全帽的漏檢率，改善模型對(duì)小目標(biāo)的檢測(cè)效果，本文對(duì)特征融合網(wǎng)絡(luò)進(jìn)行改進(jìn)。將主干網(wǎng)絡(luò)中的淺層特征圖加入到特征融合網(wǎng)絡(luò)中，具有高分辨率、多細(xì)節(jié)紋理信息的淺層特征圖可有效加強(qiáng)模型對(duì)檢測(cè)目標(biāo)特征表達(dá)能力的提取，使得淺層的表征信息和深層的語義信息充分融合[23]，提高目標(biāo)檢測(cè)的準(zhǔn)確性。

主干網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。將416×416 大小的圖像輸入YOLOv4，主干網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)之間傳輸13×13、26×26 和52×52 這3 種不同尺寸的特征圖。這3 種特征圖分別經(jīng)過特征融合網(wǎng)絡(luò)的各項(xiàng)操作，最終分別用于檢測(cè)大、中、小目標(biāo)。為豐富特征圖的細(xì)節(jié)特征，本文在特征圖P3—P5 的基礎(chǔ)上額外增加淺層特征圖進(jìn)入特征融合網(wǎng)絡(luò)。雖然特征圖P1 包含較多空間和細(xì)節(jié)特征信息，但P1 因?yàn)榻?jīng)過的卷積層過少，其包含的背景噪聲信息過多，加大了模型檢測(cè)難度。而特征圖P2 相較于P1 經(jīng)過了若干卷積層的提取，減少了因淺層特征而帶來的背景噪聲，同時(shí)相比于特征圖P3—P5，其包含了足夠多的空間和細(xì)節(jié)特征信息，因此本文選擇將特征圖P2 加入特征融合網(wǎng)絡(luò)，實(shí)現(xiàn)淺層高分辨率特征和深層語義特征的融合。

圖7 主干網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Backbone network structure

2 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)使用由Munkhjargal Gochoo 收集的5 000 張圖像組成的SHWD（Safety Helmet Wearing Dataset）數(shù)據(jù)集，原有數(shù)據(jù)集包含5 個(gè)類別：安全帽、戴安全帽的頭部、戴安全帽的人、頭部、不戴安全帽的人。為方便研究和展示檢測(cè)效果，本文對(duì)數(shù)據(jù)集的標(biāo)簽XML 文件進(jìn)行更新，只保留戴安全帽的頭部（helmet）和不戴安全帽的人（no-helmet）2 個(gè)類別。按照8∶1∶1 的比例設(shè)置訓(xùn)練集、驗(yàn)證集、測(cè)試集。

同時(shí)為驗(yàn)證模型性能的魯棒性，本文引入公開數(shù)據(jù)集Pascal VOC，數(shù)據(jù)集包含人、自行車、汽車等20 個(gè)類別的圖像，使用VOC2007 和VOC2012 數(shù)據(jù)集中的16 551 張圖像進(jìn)行訓(xùn)練，VOC2007test 部分的4 952 張圖像進(jìn)行測(cè)試。

2.1 基礎(chǔ)MobileNetV2 特征提取能力實(shí)驗(yàn)

為驗(yàn)證MobileNetV2 主干網(wǎng)絡(luò)的特征提取能力，對(duì)不同主干網(wǎng)絡(luò)在VOC 數(shù)據(jù)集、SHWD 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。按照主干網(wǎng)絡(luò)差異，將不同主干網(wǎng)絡(luò)的M-YOLO 模型分別命名：主干網(wǎng)絡(luò)為CSPDarkNet53的M-YOLO、主干網(wǎng)絡(luò)為MobileNetV1 的M1-YOLO、主干網(wǎng)絡(luò)為MobileNetV2 的M2-YOLO、主干網(wǎng)絡(luò)為MobileNetV3 的M3-YOLO、主干網(wǎng)絡(luò)為GhostNet的G-YOLO。不同主干網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果見表2。

表2 不同主干網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different backbone networks

從表2 可看出，相較于其他輕量級(jí)網(wǎng)絡(luò)，M2-YOLO 模型在VOC 數(shù)據(jù)集、SHWD 數(shù)據(jù)集上的檢測(cè)精度最高。

2.2 不同SCA 模塊位置實(shí)驗(yàn)

為進(jìn)一步探究SCA 模塊對(duì)網(wǎng)絡(luò)特征提取能力的貢獻(xiàn)，在SCA-Bottleneck 模塊中使用不同位置的SCA 模塊來進(jìn)行實(shí)驗(yàn)。SCA 模塊融入到逆殘差結(jié)構(gòu)Bottleneck 不同位置的方式如圖8 所示。

圖8 SCA 模塊不同分布位置Fig.8 Different distribution positions of shuffle coordinate attention module

分別由SCA-Bottleneck-1、SCA-Bottleneck-2、SCA-Bottleneck-3、SCA-Bottleneck-4 組成的不同SMobileNetV2 的實(shí)驗(yàn)結(jié)果見表3?？煽闯霾捎肧CABottleneck-3 的位置分布時(shí)檢測(cè)精度最高，且處理速度較快。

表3 不同位置SCA 模塊實(shí)驗(yàn)結(jié)果Table 3 Results of shuffle coordinate attention module experiments at different positions

2.3 消融實(shí)驗(yàn)

為進(jìn)一步評(píng)估各項(xiàng)改進(jìn)對(duì)檢測(cè)效果的影響，針對(duì)M-YOLO 的各項(xiàng)輕量化改進(jìn)在SHWD 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)，結(jié)果見表4。

表4 消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experiment results

從表4 可看出，使用S-MobileNetV2 主干網(wǎng)絡(luò)的M-YOLO 相較于使用MobileNetV2 主干網(wǎng)絡(luò)的M2-YOLO 平均精度均值提高了2.84%；M-YOLO使用SPPF 結(jié)構(gòu)后，模型在平均精度均值提升0.72%的基礎(chǔ)上，處理速度提高了3.6 幀/s；使用深度可分離卷積替換特征融合網(wǎng)絡(luò)的部分卷積后，模型在平均精度均值提高1.63% 的同時(shí)，處理速度提高了6.7 幀/s。

2.4 模型對(duì)比實(shí)驗(yàn)

為進(jìn)一步評(píng)估M-YOLO 模型對(duì)安全帽佩戴檢測(cè)的性能，將M-YOLO 與其他目標(biāo)檢測(cè)模型進(jìn)行對(duì)比實(shí)驗(yàn)，結(jié)果見表5。

表5 不同模型對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Comparative experimental results of different models

從表5 可看出，在SHWD 數(shù)據(jù)集上，M-YOLO模型的平均精度均值只比輕量化改進(jìn)前的YOLOv4模型低了0.84%，但模型的計(jì)算量、參數(shù)量、模型大小相較于YOLOv4 模型分別減小了74.5%，72.8%，81.6%，檢測(cè)速度提高了53.4%。相較于其他YOLO系列模型、以Transformer 為基礎(chǔ)的DETR 模型、無錨框策略的CenterNet 和YOLOX 系列模型，M-YOLO模型在準(zhǔn)確率和實(shí)時(shí)性方面取得了較好的平衡。雖然YOLOX-S，YOLOv4-tiny，YOLOv5-S，Efficientdetd0 這4 種輕量級(jí)模型的檢測(cè)速度與M-YOLO 模型相近或略優(yōu)，但在平均精度均值上低于M-YOLO 模型，無法滿足工業(yè)場(chǎng)景下準(zhǔn)確檢測(cè)的要求。

2.5 實(shí)際場(chǎng)景檢測(cè)效果對(duì)比實(shí)驗(yàn)

在實(shí)際場(chǎng)景檢測(cè)中，將M-YOLO 模型與除YOLOv4 模型外表現(xiàn)較好的2 個(gè)模型YOLOv5-M，CenterNet 進(jìn)行檢測(cè)效果對(duì)比，結(jié)果如圖9 所示。

圖9 實(shí)際場(chǎng)景檢測(cè)結(jié)果Fig.9 Detection result of actual scenarios

從圖9 可看出，對(duì)于黑白場(chǎng)景的煤礦井下監(jiān)控視頻，其具有目標(biāo)與背景對(duì)比度低的特點(diǎn)，雖然M-YOLO，YOLOv5-M，CenterNet 都正確檢測(cè)到了目標(biāo)，但這3 種模型對(duì)目標(biāo)檢測(cè)的置信度不同，M-YOLO 對(duì)安全帽目標(biāo)的置信度為0.99，而CenterNet、YOLOv5-M 對(duì)安全帽目標(biāo)的置信度分別為0.57，0.49。對(duì)于正常場(chǎng)景下目標(biāo)個(gè)數(shù)為24 的煤礦井下圖像，可看到M-YOLO 正確檢測(cè)到23 個(gè)目標(biāo)，漏檢1 個(gè)目標(biāo)，無錯(cuò)檢；YOLOv5-M 正確檢測(cè)到19 個(gè)目標(biāo)，漏檢1 個(gè)目標(biāo)，錯(cuò)檢4 個(gè)目標(biāo)；CenterNet正確檢測(cè)到21 個(gè)目標(biāo)，漏檢2 個(gè)目標(biāo)，錯(cuò)檢1 個(gè)目標(biāo)。M-YOLO 模型雖然因安全帽不完整而導(dǎo)致漏檢1 個(gè)目標(biāo)，但整體效果依然優(yōu)于YOLOv5-M 和CenterNet 模型。

3 結(jié)論

1）以YOLOv4 模型為基礎(chǔ)，提出了一種融合坐標(biāo)注意力與多尺度的輕量級(jí)模型M-YOLO 用于安全帽佩戴檢測(cè)。該模型通過在輕量級(jí)主干網(wǎng)絡(luò)中使用SCA 模塊，以提高網(wǎng)絡(luò)的特征提取能力；在特征融合網(wǎng)絡(luò)中使用SPPF 結(jié)構(gòu)和深度可分離卷積，以加快檢測(cè)速度；同時(shí)將特征提取網(wǎng)絡(luò)中的淺層特征加入特征融合網(wǎng)絡(luò)，改善了模型對(duì)于復(fù)雜場(chǎng)景小目標(biāo)的檢測(cè)效果。

2）實(shí)驗(yàn)結(jié)果表明，該模型在保證檢測(cè)精度的前提下，具有參數(shù)量少、計(jì)算復(fù)雜度低、處理速度快等特點(diǎn)，滿足在相關(guān)智能視頻監(jiān)控終端上嵌入式安裝和使用的需求。

3）雖然該模型實(shí)現(xiàn)了對(duì)安全帽佩戴的精準(zhǔn)檢測(cè)，但是需依托大量安全帽數(shù)據(jù)集來進(jìn)行訓(xùn)練，未來可進(jìn)一步研究無監(jiān)督或弱監(jiān)督的安全帽佩戴檢測(cè)算法，以減少相應(yīng)樣本標(biāo)注工作，增強(qiáng)算法的泛化性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡