李忠飛,馮仕詠,郭駿,張?jiān)弃Q,徐飛翔
(1.內(nèi)蒙古電投能源股份有限公司 北露天煤礦,內(nèi)蒙古 霍林郭勒 029200;2.中國礦業(yè)大學(xué) 信息與控制工程學(xué)院,江蘇 徐州 221116;3.北京和利時(shí)數(shù)字技術(shù)有限公司,北京 100176)
近年來,在煤礦生產(chǎn)過程中由于不按規(guī)定佩戴安全帽引發(fā)的安全事故頻發(fā)。正確佩戴安全帽可有效保護(hù)工人頭部免受墜落物、碰撞和其他意外的侵害,因此,及時(shí)發(fā)現(xiàn)并糾正安全帽佩戴不符合規(guī)定的煤礦工人,實(shí)現(xiàn)安全帽佩戴檢測(cè)至關(guān)重要[1]。然而,當(dāng)前大部分安全帽佩戴檢測(cè)存在人力成本高、易受環(huán)境影響、準(zhǔn)確率和效率不高等問題。
進(jìn)入深度學(xué)習(xí)時(shí)代,利用計(jì)算機(jī)視覺技術(shù)進(jìn)行圖像處理分析已成為業(yè)界的主要研究方向[2-3]?;谟?jì)算機(jī)視覺技術(shù)的安全帽佩戴檢測(cè)研究分為2 類。一類是利用傳統(tǒng)目標(biāo)檢測(cè)算法進(jìn)行檢測(cè),由于安全帽有著區(qū)別于背景的顏色特征及區(qū)別于人頭的形狀特征,所以多是與圖像分割技術(shù)相結(jié)合。李琪瑞[4]首先通過方向梯度直方圖找到人體區(qū)域,然后用“凸”字型頭部特征獲取頭部信息,最后用梯度直方圖(Histogram of Gradient,HOG)+支持向量機(jī)(Support Vector Machine,SVM)技術(shù)檢測(cè)安全帽。Sun Xiaoming 等[5]采用視覺背景差分算法檢測(cè)工人,通過頭部與全身的比例關(guān)系確定安全帽的初始定位,利用基于貝葉斯優(yōu)化的SVM 模型對(duì)安全帽進(jìn)行檢測(cè)。Li Tan 等[6]使用視覺背景提?。╒isual Background Extractor,ViBe)算法進(jìn)行背景建模,同時(shí)基于運(yùn)動(dòng)目標(biāo)分割圖像,使用實(shí)時(shí)人體分類框架定位行人,然后利用頭部位置、色彩空間變換和色彩特征實(shí)現(xiàn)安全帽佩戴檢測(cè)。另一類是利用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法進(jìn)行檢測(cè)。徐守坤等[7]對(duì)更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Regions with CNN features,F(xiàn)aster RCNN)進(jìn)行不同尺度的訓(xùn)練,并引入在線難例挖掘策略以增強(qiáng)網(wǎng)絡(luò)檢測(cè)不同尺寸目標(biāo)的能力,最終采用多部件結(jié)合算法進(jìn)行安全帽佩戴檢測(cè)。Wang Xuanyu 等[8]通過添加大尺寸的特征輸入進(jìn)行多尺度預(yù)測(cè)以改進(jìn)YOLOv3 模型,從而實(shí)現(xiàn)安全帽佩戴檢測(cè)。羅欣宇[9]先采用限制對(duì)比度自適應(yīng)直方圖均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)算法進(jìn)行圖像預(yù)處理,再使用RetinaNet 算法進(jìn)行安全帽目標(biāo)檢測(cè)。梁思成[10]使用密集連接網(wǎng)絡(luò)來改善模型對(duì)安全帽特征的提取能力。張培基[11]在YOLOv5 基礎(chǔ)上,通過增加上采樣模塊構(gòu)成顯著性目標(biāo)檢測(cè)(Salient Object Detection,SOD)算法,以解決復(fù)雜場(chǎng)景下安全帽佩戴檢測(cè)困難問題。
但上述算法都未能很好地平衡檢測(cè)速度與檢測(cè)精度之間的關(guān)系,且模型的計(jì)算量、參數(shù)量較大,無法在相關(guān)智能視頻監(jiān)控終端上實(shí)現(xiàn)嵌入式安裝,同時(shí)作為小目標(biāo)的安全帽也進(jìn)一步加大了檢測(cè)難度。因此本文使用網(wǎng)絡(luò)結(jié)構(gòu)較簡(jiǎn)單的YOLOv4[12]作為安全帽佩戴檢測(cè)算法框架,并在此基礎(chǔ)上提出輕量化的M-YOLO 模型。本文主要貢獻(xiàn)如下:①在YOLOv4模型的基礎(chǔ)上,引入MobileNetV2 輕量級(jí)網(wǎng)絡(luò)[13]模型,并融合具有分組特征的混洗坐標(biāo)注意力(Shuffle Coordinate Attention,SCA)模塊,組成S-MobileNetV2特征提取網(wǎng)絡(luò)以替換原有的CSPDarknet53 網(wǎng)絡(luò),在降低模型參數(shù)量的前提下,提高對(duì)目標(biāo)特征位置信息的提取能力,改善復(fù)雜環(huán)境下特征提取困難的問題。② 將原有的空間金字塔池化(Spatial Pyramid Pooling,SPP)[14-15]方式改為串行連接,將3 個(gè)不同大小的池化核統(tǒng)一替換成5×5 的池化核,減少運(yùn)算復(fù)雜度,有效提高計(jì)算效率。③將包含足夠多空間和細(xì)節(jié)特征信息的淺層特征加入特征融合網(wǎng)絡(luò),有效實(shí)現(xiàn)淺層高分辨率特征和深層語義特征的融合,改善對(duì)安全帽小目標(biāo)檢測(cè)能力較弱的問題。同時(shí)在特征融合網(wǎng)絡(luò)中引入深度可分離卷積,有效降低添加淺層特征帶來的參數(shù)量與計(jì)算量。
M-YOLO 在YOLOv4 基礎(chǔ)上進(jìn)行改進(jìn),結(jié)構(gòu)如圖1 所示,其中紅色方框表示改進(jìn)的部分。
主干網(wǎng)絡(luò)使用由SCA 模塊組成的S-MobileNetV2特征提取網(wǎng)絡(luò)提取特征信息,頸部網(wǎng)絡(luò)使用添加了淺層特征和快速空間金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)結(jié)構(gòu)的特征融合網(wǎng)絡(luò),通過組合自上而下和自下而上的2 種特征融合方式,實(shí)現(xiàn)對(duì)特征提取網(wǎng)絡(luò)中提取到的深層特征和淺層特征的融合,使模型更好地綜合大、中、小尺度信息。同時(shí)為進(jìn)一步減小模型的參數(shù)量和計(jì)算量,將YOLOv4特征融合網(wǎng)絡(luò)中的部分卷積修改為深度可分離卷積。由于Mish 激活函數(shù)比Leaky-ReLU 激活函數(shù)擁有更好的非線性特征,所以在主干網(wǎng)絡(luò)輸出至特征融合網(wǎng)絡(luò)中的13×13 特征層處使用CBM 模塊,在模型的后續(xù)特征融合部分使用DBL 模塊取代CBL 模塊,以提高模型的泛化能力。
煤礦井下圖像背景復(fù)雜且存在目標(biāo)尺寸較小等特點(diǎn),整體特征提取難度較大,單純減少模型參數(shù)量的操作會(huì)導(dǎo)致模型檢測(cè)能力明顯下降。為在保證模型特征提取能力的前提下滿足輕量化的要求,MYOLO 模型使用S-MobileNetV2 特征提取網(wǎng)絡(luò)替換YOLOv4 的特征提取網(wǎng)絡(luò)CSPDarknet53。
MobileNetV2 模型是輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)中的重要標(biāo)志性模型,具有很好的改進(jìn)可擴(kuò)展性,將其應(yīng)用在目標(biāo)檢測(cè)網(wǎng)絡(luò)中,可有效滿足應(yīng)用環(huán)境對(duì)模型輕量化的要求,相較于MobileNetV1、MobileNetV3[16]、GhostNet[17]等輕量級(jí)網(wǎng)絡(luò),其特征提取能力表現(xiàn)更佳。但在應(yīng)用于安全帽佩戴檢測(cè)時(shí),雖然相較于CSPDarknet53 網(wǎng)絡(luò),MobileNetV2 輕量級(jí)主干網(wǎng)絡(luò)減少了較多計(jì)算量和參數(shù)量,但其特征提取能力也隨之下降。
為提高M(jìn)obileNetV2 的特征提取能力,將注意力模塊嵌入到卷積神經(jīng)網(wǎng)絡(luò)中。輕量級(jí)網(wǎng)絡(luò)的注意力模塊受限于輕量化需求,大多采用通道注意力模塊(Squeeze and Excitation,SE)[18]和卷積塊注意力模塊(Convolutional Block Attention Module,CBAM)[19],但SE 模塊只考慮了特征通道間的信息,忽略了特征的位置信息,而CBAM 模塊雖然在降維操作后通過添加卷積來獲取特征的位置信息,但相關(guān)卷積只能獲取到特征位置的局部關(guān)系,無法對(duì)長距離的特征關(guān)系進(jìn)行提取。
坐標(biāo)注意力模塊[20]則有效解決了上述2 種注意力模塊存在的問題。坐標(biāo)注意力模塊將橫向和縱向的位置信息編碼到通道注意力中,同時(shí)為避免通道注意力的二維全局平均池化導(dǎo)致的完整位置特征信息的損失,注意力模塊將通道注意力劃分為2 個(gè)并行的一維特征編碼,從而高效地將空間坐標(biāo)信息整合到生成的注意力映射圖中。
坐標(biāo)注意力模塊結(jié)構(gòu)如圖2 所示。在通道注意力中,對(duì)于輸入特征圖m,先使用2 個(gè)不同尺寸的池化核分別沿著水平(X)和豎直(Y)這2 張坐標(biāo)方向?qū)Ω鱾€(gè)通道進(jìn)行平均池化,這2 種池化分別沿水平和豎直空間方向聚合特征,得到2 張包含方向信息的特征圖。這與通道注意力中生成單一特征向量的SE 模塊有很大區(qū)別。這種方式使得坐標(biāo)注意力模塊在提取到其中一個(gè)空間方向的長距離的依賴關(guān)系時(shí),還可保存另外一個(gè)空間方向的相關(guān)位置信息,從而使網(wǎng)絡(luò)在面對(duì)待檢目標(biāo)時(shí)可以更精確地定位。
通過坐標(biāo)注意力模塊獲得全局感受野和感興趣目標(biāo)的位置信息特征。為充分利用這些信息,將上述分開的特征堆疊(Concat)在一起,然后使用1×1 大小的卷積對(duì)其進(jìn)行降維操作,沿著空間維度對(duì)中間特征圖在水平方向和豎直方向進(jìn)行分離操作,切分為豎直方向的特征張量f1∈Rc/r×h和水平方向的特征張量f2∈Rc/r×w,其中c為通道數(shù),r為下采樣的比例,用以控制模塊大小,h,w分別為特征圖高度、寬度。再利用2 個(gè)1×1 大小的豎直方向上的卷積F1和水平方向上的卷積F2,將特征張量f1和f2的通道數(shù)升維至m(m為輸出特征的通道數(shù)),具體公式如下。
式中:G1和G2分別為豎直、水平方向上擴(kuò)展后的注意力權(quán)重;σ(·)為Sigmoid 激活函數(shù)。
坐標(biāo)注意力模塊通過提取2 個(gè)方向上的并行特征來保留完整的位置特征信息,但這無疑會(huì)增加參數(shù)量。因此,本文提出了SCA 模塊,在減少坐標(biāo)注意力參數(shù)量的前提下,有效改善特征之間的聯(lián)系。
SCA 模塊結(jié)構(gòu)如圖3 所示。首先將原始特征圖沿通道維度平均分成g組,然后對(duì)每組通道進(jìn)行坐標(biāo)注意操作,將2 個(gè)并行的特征進(jìn)行融合,最后進(jìn)行通道混洗操作[21],對(duì)特征組進(jìn)行重排,以改善不同特征組之間的信息交流。
圖3 SCA 模塊結(jié)構(gòu)Fig.3 Shuffle coordinate attention module structure
MobileNetV2 中的每一個(gè)Bottleneck 都是由2 個(gè)1×1 普通卷積和1 個(gè)3×3 深度卷積組成。安全帽普遍較小,將SCA 模塊加入Bottlenetck 中形成SCABottleneck,將得到更準(zhǔn)確的位置特征信息,更有利于檢測(cè)小目標(biāo)。
初始MobileNetV2 中有17 個(gè)Bottlenetck,如果將所有Bottlenetck 全部替換為SCA-Bottleneck 模塊,會(huì)導(dǎo)致模型的參數(shù)量與計(jì)算量增大,檢測(cè)速度下降明顯,因此選用輸出特征圖尺寸為104×104、52×52、26×26、13×13 的Bottlenetck 進(jìn)行替換,模塊中的分組數(shù)g選定為4。融合了SCA 模塊的S-MobileNetV2結(jié)構(gòu)見表1。
表1 S-MobileNetV2 結(jié)構(gòu)Table 1 S-MobileNetV2 structure
YOLOv4 的SPP 結(jié)構(gòu)如圖4 所示。對(duì)輸入的特征圖分別使用3 個(gè)不同尺度的最大池化得到3 張感受野擴(kuò)大的特征圖。池化核尺寸越大,提取到的特征就越具全局語義性;池化核尺寸較小時(shí),提取到的特征更多地包含局部細(xì)節(jié)信息。將3 張經(jīng)過不同池化核的特征圖與輸入特征圖進(jìn)行拼接,融合成新的特征。通過最大池化操作可降低卷積層參數(shù)誤差造成的估計(jì)均值偏移,從而保留更多的淺層特征信息。
圖4 SPP 結(jié)構(gòu)Fig.4 Spatial pyramid pooling structure
雖然SPP 結(jié)構(gòu)對(duì)于特征提取起到了積極作用,但9×9、13×13 的最大池化會(huì)給模型增添部分計(jì)算復(fù)雜度,同時(shí)并聯(lián)3 個(gè)不同尺度的最大池化也會(huì)導(dǎo)致模型運(yùn)算時(shí)間增加。為提高模型對(duì)安全帽佩戴檢測(cè)的速度,本文使用SPPF 結(jié)構(gòu),如圖5 所示,將SPP 結(jié)構(gòu)中的各個(gè)并行池化改為串行池化。
圖5 SPPF 結(jié)構(gòu)Fig.5 Spatial pyramid pooling-fast structure
串行2 個(gè)池化核大小為5×5 的最大池化層的計(jì)算結(jié)果和1 個(gè)池化核大小為9×9 的最大池化層的計(jì)算結(jié)果相同,而串行3 個(gè)池化核大小為5×5 的最大池化層的計(jì)算結(jié)果和1 個(gè)池化核大小為13×13 的最大池化層的計(jì)算結(jié)果相同。結(jié)合主干網(wǎng)絡(luò)添加的注意力模塊,將SPP 結(jié)構(gòu)中3 個(gè)并行的不同尺度最大池化層替換為3 個(gè)串行的池化核大小相等的最大池化層,這樣不僅實(shí)現(xiàn)了全局特征與局部特征的融合,還將原來3 個(gè)5×5、9×9、13×13 大小的池化核統(tǒng)一替換成5×5 大小的池化核,減少了相關(guān)模型運(yùn)算的復(fù)雜度,有效提高了計(jì)算效率。
將主干網(wǎng)絡(luò)提取到的不同尺度特征充分融合是提高目標(biāo)檢測(cè)性能的一個(gè)重要手段。主干網(wǎng)絡(luò)中深層特征圖由于經(jīng)過多次卷積,其特征信息表現(xiàn)得更具語義性,但分辨率很低,對(duì)細(xì)節(jié)的感知能力較差,而淺層特征圖由于經(jīng)過的卷積次數(shù)少,其特征信息表現(xiàn)得更具細(xì)節(jié)化,同時(shí)也由于其經(jīng)過的卷積少,語義性較差,包含的噪聲也更多[22]。在實(shí)際應(yīng)用中,安全帽多以小目標(biāo)出現(xiàn),因此應(yīng)提高模型對(duì)于小目標(biāo)檢測(cè)的精度。但YOLOv4 特征融合結(jié)構(gòu)并沒有特意加強(qiáng)對(duì)小目標(biāo)檢測(cè)的操作,隨著主干網(wǎng)絡(luò)卷積層的不斷加深,小尺寸的安全帽目標(biāo)在特征圖上的信息逐漸丟失,如圖6 所示,可看出卷積層次越深,圖像特征就越抽象,細(xì)節(jié)特征就越少。為提高安全帽小目標(biāo)檢測(cè)的準(zhǔn)確性,需要對(duì)淺層特征圖上的細(xì)節(jié)信息進(jìn)行充分利用。
圖6 特征圖可視化Fig.6 Feature map visualization
為降低模型對(duì)安全帽的漏檢率,改善模型對(duì)小目標(biāo)的檢測(cè)效果,本文對(duì)特征融合網(wǎng)絡(luò)進(jìn)行改進(jìn)。將主干網(wǎng)絡(luò)中的淺層特征圖加入到特征融合網(wǎng)絡(luò)中,具有高分辨率、多細(xì)節(jié)紋理信息的淺層特征圖可有效加強(qiáng)模型對(duì)檢測(cè)目標(biāo)特征表達(dá)能力的提取,使得淺層的表征信息和深層的語義信息充分融合[23],提高目標(biāo)檢測(cè)的準(zhǔn)確性。
主干網(wǎng)絡(luò)結(jié)構(gòu)如圖7 所示。將416×416 大小的圖像輸入YOLOv4,主干網(wǎng)絡(luò)和特征融合網(wǎng)絡(luò)之間傳輸13×13、26×26 和52×52 這3 種不同尺寸的特征圖。這3 種特征圖分別經(jīng)過特征融合網(wǎng)絡(luò)的各項(xiàng)操作,最終分別用于檢測(cè)大、中、小目標(biāo)。為豐富特征圖的細(xì)節(jié)特征,本文在特征圖P3—P5 的基礎(chǔ)上額外增加淺層特征圖進(jìn)入特征融合網(wǎng)絡(luò)。雖然特征圖P1 包含較多空間和細(xì)節(jié)特征信息,但P1 因?yàn)榻?jīng)過的卷積層過少,其包含的背景噪聲信息過多,加大了模型檢測(cè)難度。而特征圖P2 相較于P1 經(jīng)過了若干卷積層的提取,減少了因淺層特征而帶來的背景噪聲,同時(shí)相比于特征圖P3—P5,其包含了足夠多的空間和細(xì)節(jié)特征信息,因此本文選擇將特征圖P2 加入特征融合網(wǎng)絡(luò),實(shí)現(xiàn)淺層高分辨率特征和深層語義特征的融合。
圖7 主干網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Backbone network structure
實(shí)驗(yàn)使用由Munkhjargal Gochoo 收集的5 000 張圖像組成的SHWD(Safety Helmet Wearing Dataset)數(shù)據(jù)集,原有數(shù)據(jù)集包含5 個(gè)類別:安全帽、戴安全帽的頭部、戴安全帽的人、頭部、不戴安全帽的人。為方便研究和展示檢測(cè)效果,本文對(duì)數(shù)據(jù)集的標(biāo)簽XML 文件進(jìn)行更新,只保留戴安全帽的頭部(helmet)和不戴安全帽的人(no-helmet)2 個(gè)類別。按照8∶1∶1 的比例設(shè)置訓(xùn)練集、驗(yàn)證集、測(cè)試集。
同時(shí)為驗(yàn)證模型性能的魯棒性,本文引入公開數(shù)據(jù)集Pascal VOC,數(shù)據(jù)集包含人、自行車、汽車等20 個(gè)類別的圖像,使用VOC2007 和VOC2012 數(shù)據(jù)集中的16 551 張圖像進(jìn)行訓(xùn)練,VOC2007test 部分的4 952 張圖像進(jìn)行測(cè)試。
為驗(yàn)證MobileNetV2 主干網(wǎng)絡(luò)的特征提取能力,對(duì)不同主干網(wǎng)絡(luò)在VOC 數(shù)據(jù)集、SHWD 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。按照主干網(wǎng)絡(luò)差異,將不同主干網(wǎng)絡(luò)的M-YOLO 模型分別命名:主干網(wǎng)絡(luò)為CSPDarkNet53的M-YOLO、主干網(wǎng)絡(luò)為MobileNetV1 的M1-YOLO、主干網(wǎng)絡(luò)為MobileNetV2 的M2-YOLO、主干網(wǎng)絡(luò)為MobileNetV3 的M3-YOLO、主干網(wǎng)絡(luò)為GhostNet的G-YOLO。不同主干網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果見表2。
表2 不同主干網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different backbone networks
從表2 可看出,相較于其他輕量級(jí)網(wǎng)絡(luò),M2-YOLO 模型在VOC 數(shù)據(jù)集、SHWD 數(shù)據(jù)集上的檢測(cè)精度最高。
為進(jìn)一步探究SCA 模塊對(duì)網(wǎng)絡(luò)特征提取能力的貢獻(xiàn),在SCA-Bottleneck 模塊中使用不同位置的SCA 模塊來進(jìn)行實(shí)驗(yàn)。SCA 模塊融入到逆殘差結(jié)構(gòu)Bottleneck 不同位置的方式如圖8 所示。
圖8 SCA 模塊不同分布位置Fig.8 Different distribution positions of shuffle coordinate attention module
分別由SCA-Bottleneck-1、SCA-Bottleneck-2、SCA-Bottleneck-3、SCA-Bottleneck-4 組成的不同SMobileNetV2 的實(shí)驗(yàn)結(jié)果見表3??煽闯霾捎肧CABottleneck-3 的位置分布時(shí)檢測(cè)精度最高,且處理速度較快。
表3 不同位置SCA 模塊實(shí)驗(yàn)結(jié)果Table 3 Results of shuffle coordinate attention module experiments at different positions
為進(jìn)一步評(píng)估各項(xiàng)改進(jìn)對(duì)檢測(cè)效果的影響,針對(duì)M-YOLO 的各項(xiàng)輕量化改進(jìn)在SHWD 數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),結(jié)果見表4。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Ablation experiment results
從表4 可看出,使用S-MobileNetV2 主干網(wǎng)絡(luò)的M-YOLO 相較于使用MobileNetV2 主干網(wǎng)絡(luò)的M2-YOLO 平均精度均值提高了2.84%;M-YOLO使用SPPF 結(jié)構(gòu)后,模型在平均精度均值提升0.72%的基礎(chǔ)上,處理速度提高了3.6 幀/s;使用深度可分離卷積替換特征融合網(wǎng)絡(luò)的部分卷積后,模型在平均精度均值提高1.63% 的同時(shí),處理速度提高了6.7 幀/s。
為進(jìn)一步評(píng)估M-YOLO 模型對(duì)安全帽佩戴檢測(cè)的性能,將M-YOLO 與其他目標(biāo)檢測(cè)模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果見表5。
表5 不同模型對(duì)比實(shí)驗(yàn)結(jié)果Table 5 Comparative experimental results of different models
從表5 可看出,在SHWD 數(shù)據(jù)集上,M-YOLO模型的平均精度均值只比輕量化改進(jìn)前的YOLOv4模型低了0.84%,但模型的計(jì)算量、參數(shù)量、模型大小相較于YOLOv4 模型分別減小了74.5%,72.8%,81.6%,檢測(cè)速度提高了53.4%。相較于其他YOLO系列模型、以Transformer 為基礎(chǔ)的DETR 模型、無錨框策略的CenterNet 和YOLOX 系列模型,M-YOLO模型在準(zhǔn)確率和實(shí)時(shí)性方面取得了較好的平衡。雖然YOLOX-S,YOLOv4-tiny,YOLOv5-S,Efficientdetd0 這4 種輕量級(jí)模型的檢測(cè)速度與M-YOLO 模型相近或略優(yōu),但在平均精度均值上低于M-YOLO 模型,無法滿足工業(yè)場(chǎng)景下準(zhǔn)確檢測(cè)的要求。
在實(shí)際場(chǎng)景檢測(cè)中,將M-YOLO 模型與除YOLOv4 模型外表現(xiàn)較好的2 個(gè)模型YOLOv5-M,CenterNet 進(jìn)行檢測(cè)效果對(duì)比,結(jié)果如圖9 所示。
圖9 實(shí)際場(chǎng)景檢測(cè)結(jié)果Fig.9 Detection result of actual scenarios
從圖9 可看出,對(duì)于黑白場(chǎng)景的煤礦井下監(jiān)控視頻,其具有目標(biāo)與背景對(duì)比度低的特點(diǎn),雖然M-YOLO,YOLOv5-M,CenterNet 都正確檢測(cè)到了目標(biāo),但這3 種模型對(duì)目標(biāo)檢測(cè)的置信度不同,M-YOLO 對(duì)安全帽目標(biāo)的置信度為0.99,而CenterNet、YOLOv5-M 對(duì)安全帽目標(biāo)的置信度分別為0.57,0.49。對(duì)于正常場(chǎng)景下目標(biāo)個(gè)數(shù)為24 的煤礦井下圖像,可看到M-YOLO 正確檢測(cè)到23 個(gè)目標(biāo),漏檢1 個(gè)目標(biāo),無錯(cuò)檢;YOLOv5-M 正確檢測(cè)到19 個(gè)目標(biāo),漏檢1 個(gè)目標(biāo),錯(cuò)檢4 個(gè)目標(biāo);CenterNet正確檢測(cè)到21 個(gè)目標(biāo),漏檢2 個(gè)目標(biāo),錯(cuò)檢1 個(gè)目標(biāo)。M-YOLO 模型雖然因安全帽不完整而導(dǎo)致漏檢1 個(gè)目標(biāo),但整體效果依然優(yōu)于YOLOv5-M 和CenterNet 模型。
1)以YOLOv4 模型為基礎(chǔ),提出了一種融合坐標(biāo)注意力與多尺度的輕量級(jí)模型M-YOLO 用于安全帽佩戴檢測(cè)。該模型通過在輕量級(jí)主干網(wǎng)絡(luò)中使用SCA 模塊,以提高網(wǎng)絡(luò)的特征提取能力;在特征融合網(wǎng)絡(luò)中使用SPPF 結(jié)構(gòu)和深度可分離卷積,以加快檢測(cè)速度;同時(shí)將特征提取網(wǎng)絡(luò)中的淺層特征加入特征融合網(wǎng)絡(luò),改善了模型對(duì)于復(fù)雜場(chǎng)景小目標(biāo)的檢測(cè)效果。
2)實(shí)驗(yàn)結(jié)果表明,該模型在保證檢測(cè)精度的前提下,具有參數(shù)量少、計(jì)算復(fù)雜度低、處理速度快等特點(diǎn),滿足在相關(guān)智能視頻監(jiān)控終端上嵌入式安裝和使用的需求。
3)雖然該模型實(shí)現(xiàn)了對(duì)安全帽佩戴的精準(zhǔn)檢測(cè),但是需依托大量安全帽數(shù)據(jù)集來進(jìn)行訓(xùn)練,未來可進(jìn)一步研究無監(jiān)督或弱監(jiān)督的安全帽佩戴檢測(cè)算法,以減少相應(yīng)樣本標(biāo)注工作,增強(qiáng)算法的泛化性。