王彬 趙作鵬
收稿日期:2023-09-14
DOI:10.19850/j.cnki.2096-4706.2024.06.015
摘? 要:井下礦工的吸煙行為嚴(yán)重影響煤礦生產(chǎn)安全,對井下礦工吸煙行為的有效識別迫在眉睫。針對煤礦井下的特殊環(huán)境和傳統(tǒng)識別方法準(zhǔn)確率低的問題,提出一種基于YOLOv7的礦工吸煙行為識別算法YOLO-SFN。將SimAM嵌入到Y(jié)OLOv7的網(wǎng)絡(luò)結(jié)構(gòu)中,用Focus模塊替換MPConv下分支中的3×3卷積核,提高模型在復(fù)雜背景下的特征提取能力。在后處理階段采用Soft-NMS作為網(wǎng)絡(luò)模型的后處理算法,解決了傳統(tǒng)NMS算法在復(fù)雜密集環(huán)境中的漏檢問題。實驗結(jié)果表明,該方法的準(zhǔn)確率為96.45%,召回率為92%,精確率為97.05%。研究成果已經(jīng)在陳四樓煤礦得以推廣應(yīng)用,實現(xiàn)了對煤礦井下礦工吸煙行為的有效監(jiān)管。
關(guān)鍵詞:目標(biāo)檢測;注意力機(jī)制;YOLOv7;NMS算法;吸煙識別
中圖分類號:TP391.4? ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2024)06-0066-05
Research on Miner Smoking Recognition Method Based on YOLOv7
WANG Bin1,2, ZHAO Zuopeng1
(1.School of Computer Science & Technology, China University of Mining and Technology, Xuzhou? 221116, China;
2. Department of Information Technology, Jiangsu Union Technical Institute, Xuzhou? 221008, China)
Abstract: Smoking behavior of underground miners seriously affects the production safety of coal mines, and effective recognition of underground miners' smoking behavior is imminent. Aiming at the special environment of underground coal mines and the problem of low accuracy of traditional recognition methods, it proposes a YOLOv7-based miners' smoking behavior recognition algorithm YOLO-SFN. SimAM is embedded into the network structure of YOLOv7, and the Focus module is used to replace the 3×3 convolution kernel in the lower branch of MPConv, so as to improve the model's feature extraction ability in the complex background. Soft-NMS is used as the post-processing algorithm for the network model in the post-processing stage, which solves the leakage detection problem of the traditional NMS algorithm in the complex and dense environment. The experimental results show that the accuracy rate of the method is 96.45%, the recall rate is 92%, and the precision rate is 97.05%. The research results have been popularized and applied in Chensilou coal mine, realizing the effective supervision of the smoking behavior of miners in underground coal mines.
Keywords: target detection; Attention Mechanism; YOLOv7; NMS algorithm; smoking recognition
0? 引? 言
《煤礦安全規(guī)程》規(guī)定,入井人員嚴(yán)禁攜帶煙草和點火物品。井下吸煙會引燃坑道內(nèi)的可燃性氣體從而引起火災(zāi)或爆炸,有很多瓦斯爆炸事故為礦工井下吸煙所致[1]。因而,加強(qiáng)對礦工井下吸煙行為的監(jiān)測預(yù)警對確保煤礦安全生產(chǎn)具有重要意義。
傳統(tǒng)的監(jiān)測方法是安裝煙霧報警器進(jìn)行吸煙行為監(jiān)測,但其監(jiān)測范圍有限,不適用于井下特殊環(huán)境的大范圍布設(shè)。基于視覺的礦工吸煙識別方法可以實現(xiàn)實時、防篡改的識別效果,學(xué)者們利用不同的卷積方法對圖像進(jìn)行分類識別以及對人的各種行為進(jìn)行有效識別[2,3]。隨著人工智能技術(shù)的不斷發(fā)展,將深度學(xué)習(xí)應(yīng)用到控?zé)燁I(lǐng)域,在煤礦井下實現(xiàn)AI控?zé)熆墒钟行У卮_保煤礦作業(yè)安全。針對井下巷道狹長、光線不足的特殊環(huán)境,研究高精度吸煙識別算法有助于煤礦對礦工吸煙行為的有效監(jiān)管。
目前,針對吸煙行為的識別方法主要集中在對實驗數(shù)據(jù)進(jìn)行處理、利用吸煙行為的手勢或吸煙時的煙霧進(jìn)行識別。Liao等人[4]提出一種基于YOLOv3的吸煙目標(biāo)檢測方法,使用的YOLOv3模型以DarkNet53作為骨干,檢測結(jié)果表明該方法具有良好的煙霧檢測效果,mAP達(dá)到0.76;趙鑒福等人[5]提出一種基于人體關(guān)鍵點和YOLOv4的吸煙行為檢測方法。本研究在利用深度學(xué)習(xí)方法實現(xiàn)煙頭檢測的基礎(chǔ)上,還額外增加了對人體關(guān)鍵點的檢測。通過分析目標(biāo)對象關(guān)鍵點之間的距離、角度變化以及吸煙動作的時間周期特征,判斷目標(biāo)對象是否發(fā)生了吸煙行為。實驗結(jié)果表明,本研究提出的方法能夠準(zhǔn)確檢測出自行收集數(shù)據(jù)中的吸煙行為,實現(xiàn)了對吸煙行為的及時監(jiān)測。以上模型能夠較好地應(yīng)用于吸煙行為實時檢測任務(wù)。但上述方法對香煙這種較小目標(biāo)的檢測依然存在檢測準(zhǔn)確率不高,漏檢時有發(fā)生的問題。
1? 改進(jìn)基于YOLOv7的礦工吸煙檢測模型
1.1? YOLOv7模型
與其他目標(biāo)識別算法相比,YOLO的多尺度預(yù)測具有更好的可檢測性和實時性,可以滿足裝配線高速率的測量需求。YOLOv7 [6]采用了遠(yuǎn)程注意力網(wǎng)絡(luò)(E-ELAN),在級聯(lián)模型模型縮放[7]和卷積重參數(shù)化[8]的加持下,實現(xiàn)了檢測效率和準(zhǔn)確性的完美平衡。YOLOv7網(wǎng)絡(luò)由四個模塊組成:輸入、骨干、頭部和預(yù)測。輸入模塊將輸入圖像縮放為均勻的像素大小以滿足骨干網(wǎng)絡(luò)的輸入尺寸要求。為滿足骨干網(wǎng)絡(luò)的輸入尺寸要求,本研究對圖像進(jìn)行了統(tǒng)一的尺寸調(diào)整。骨干網(wǎng)絡(luò)模塊由BConv、E-ELAN和MPConv卷積層組成,其中BConv模塊包含卷積層、歸一化層和LeakyReLU激活函數(shù),用以提取多尺度的圖像特征。頭部模塊是由路徑聚合進(jìn)而組成特征金字塔網(wǎng)絡(luò)(PAFPN)結(jié)構(gòu)[9],特征信息自下而上傳遞,實現(xiàn)了不同語義層次特征的有效融合。預(yù)測模塊采用REP結(jié)構(gòu)調(diào)整了PAFPN輸出的P3、P4、P5多尺度特征映射的通道數(shù),最終利用1×1卷積核來預(yù)測目標(biāo)的置信度、類別及錨框坐標(biāo)。礦下吸煙檢測模型需要同時滿足實時性和準(zhǔn)確性的要求,考慮到檢測精度和速度之間的良好平衡,選擇YOLOv7作為基礎(chǔ)模型。
1.2? 模型改進(jìn)思路
礦下檢測環(huán)境復(fù)雜,如復(fù)雜的光照環(huán)境、目標(biāo)太小、煙霧遮擋以及煙霧模糊等問題都會導(dǎo)致檢測結(jié)果不夠理想。因此本文提出一種基于改進(jìn)YOLOv7的礦工吸煙識別算法YOLO-SFN,首先引入注意力機(jī)制模塊SimAM,在不額外添加參數(shù)的情況下提高網(wǎng)絡(luò)在復(fù)雜礦下環(huán)境中的特征提取能力。其次用Focus模塊替換MPConv下分支中的3×3卷積核,減少網(wǎng)絡(luò)參數(shù)量和計算量,使檢測速度得以提升。在后處理階段采用Soft-NMS作為網(wǎng)絡(luò)模型的后處理算法,解決了傳統(tǒng)NMS算法在復(fù)雜密集環(huán)境中的漏檢問題。
1.3? 數(shù)據(jù)預(yù)處理
實驗中采用的是真實的圖像數(shù)據(jù),共采集8 000張圖像數(shù)據(jù),其中吸煙圖像有4 000張,正常工作圖像4 000張。為減小計算量并降低圖像背景信息的干擾,對原始圖像剪裁后再進(jìn)行計算。裁剪圖像是由臉部識別代碼計算所得,通過Opencv實現(xiàn)對圖像中人臉的識別,將識別結(jié)果保存下來。程序剪裁后的圖像大小不統(tǒng)一,將輸入圖像大小改為416×416。
1.4? 網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)
首先,將注意力機(jī)制模塊SimAM [10]嵌入到Y(jié)OLOv7的網(wǎng)絡(luò)結(jié)構(gòu)中。注意力機(jī)制是指在網(wǎng)絡(luò)輸入部分采用了賦權(quán)機(jī)制,使模型可以忽略不相關(guān)的信息而聚焦在關(guān)鍵信息上,從而提高了模型在復(fù)雜背景下的特征提取能力。SimAM是一個注意力機(jī)制模塊,并不會增加網(wǎng)絡(luò)參數(shù)的數(shù)量,具有即插即用的特點,可以嵌入到模型的任意位置,避免了額外參數(shù)的計算,其原理如圖1所示。
SimAM的核心在于利用其能量函數(shù)計算注意力權(quán)重。SimAM通過對香煙的相鄰神經(jīng)元產(chǎn)生空間抑制來減少復(fù)雜背景對香煙檢測的干擾,突出香煙的關(guān)鍵特征,增強(qiáng)對香煙關(guān)鍵特征的提取能力,計算過程如下:
(1)
(2)
,? ? ? ? ? ?(3)
其中, 表示香煙的增強(qiáng)特征圖;E表示每個通道的能量函數(shù)。能量越低,香煙神經(jīng)元和相鄰神經(jīng)元之間的區(qū)分度越高。為了防止E值過大,采用sigmoid函數(shù)來限制E值的大小; 表示點乘運算;X表示輸入特征圖;μ表示輸入特征圖中每個通道的平均值;σ2表示輸入煙霧特征圖中每個通道的方差;λ表示超級參數(shù);t表示目標(biāo)神經(jīng)元。
MPConv的主要功能是下采樣,它可以通過一定的特征損失來減小特征大小。YOLOv7中MPConv模塊兩個分支的下分支使用3×3的卷積核進(jìn)行卷積操作。當(dāng)步長為2時,一些特征信息可能會丟失,網(wǎng)絡(luò)中可能會出現(xiàn)低效的特征學(xué)習(xí)。受YOLOv5中Focus模塊的啟發(fā),將MPConv下分支中的3×3卷積核替換成Focus模塊。如圖1所示,在特征圖減半的情況下,減少了特征的損失,提高了特征的學(xué)習(xí)效率,提升了復(fù)雜背景下香煙檢測的性能。
1.5? 后處理改進(jìn)
本文選擇Soft-NMS作為網(wǎng)絡(luò)模型的后處理算法。傳統(tǒng)的NMS算法從檢測結(jié)果中選擇得分最高的檢測框,判斷相鄰檢測框是否被重疊閾值保留,如果相鄰檢測框得分大于閾值,則直接設(shè)置為零。傳統(tǒng)的NMS算法從檢測結(jié)果中選擇得分最高的框,并根據(jù)與相鄰框的重疊情況判斷是否保留,如果重疊超過閾值則直接抑制,這在人群密集場景下容易造成漏檢。本研究引入Soft-NMS算法,其設(shè)定懲罰函數(shù)而非直接抑制得分較高的相鄰框。這樣可以降低這些框的置信度而不會完全抑制,從而提高了此方法在復(fù)雜場景下的檢測性能。這樣,對于一些高分的檢測框,即使在NMS階段降低了分?jǐn)?shù),在后續(xù)的計算中也可以作為正確的檢測盒,切實提高了檢測精度和召回率。同時,采用高斯懲罰函數(shù)解決連續(xù)性問題。本文Soft-NMS算法的分?jǐn)?shù)重置函數(shù)如下:
(4)
(5)
其中,σ表示高斯函數(shù)的方差。
本文提出的YOLO-SFN網(wǎng)絡(luò)模型如圖2所示。
2? 實驗仿真與結(jié)果
2.1? 實驗平臺
實驗環(huán)境為Intel(R) Core(TM) i5-7400 CPU @ 3.00 GHz的CPU處理器,8.00 GB的運行內(nèi)存,GeForce GTX 3080Ti的GPU。為了獲得更好的訓(xùn)練效果,將學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減系數(shù)設(shè)置為0.000 5,優(yōu)化器為Adam,訓(xùn)練批次設(shè)置為32,迭代周期設(shè)置為200次。
2.2? 評價指標(biāo)與結(jié)果比較
本文通過準(zhǔn)確率、精確率、召回率等指標(biāo)對網(wǎng)絡(luò)性能進(jìn)行評估。計算上述性能指標(biāo)需要混淆矩陣,如表1所示。
表1? 混淆矩陣
樣本分類 預(yù)測1 預(yù)測0 合計
實際1(P) TP FN TP + FN
實際0(N) FP TN FP + TN
合計 TP + FP FN + TN TP + FN + FP + TN
為了對YOLO-SFN網(wǎng)絡(luò)進(jìn)行評估,采用不同的網(wǎng)絡(luò)結(jié)構(gòu)與其進(jìn)行比較,方法驗證集的準(zhǔn)確率變化圖如圖3所示,具體數(shù)值如表2所示。
圖3? 不同網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練驗證集的準(zhǔn)確率變化圖
表2? 不同算法的性能
Method Accuracy Re Sp Pre
YOLOv5m 88.56 88.50 93.50 91.33
YOLOv6 92.02 87.50 96.00 93.41
YOLOv7 94.51 89.50 95.50 94.64
YOLO-SFN 96.45 92.00 95.00 97.05
2.3? 消融實驗
為了驗證改進(jìn)策略的有效性,進(jìn)行消融實驗來評估每個改進(jìn)策略。采用整個測試集作為數(shù)據(jù)集,使測試環(huán)境和數(shù)據(jù)集保持不變。消融實驗的檢測結(jié)果如表3所示。
表3? 消融實驗檢測結(jié)果
SimAM F-MP Soft-NMS Accuracy Re Precision
94.51 79.50 94.64
√ 95.92 80.02 94.85
√ √ 95.58 81.53 95.36
√ √ √ 96.45 97.05 97.05
3? 分析討論
從結(jié)果數(shù)據(jù)來看,YOLOv7的準(zhǔn)確率為94.51%,而本文提出的YOLO-SFN準(zhǔn)確率為96.45%,提高了1.94個百分點,所以實驗驗證了本文算法的優(yōu)異性能。YOLOv6檢測吸煙圖像的準(zhǔn)確率與精確率分別是92.02%和93.41%,檢測性能僅僅優(yōu)于YOLOv5m。YOLO-SFN網(wǎng)絡(luò)的檢測性能最佳,不管是準(zhǔn)確率還是精確率都優(yōu)于其他三種流行網(wǎng)絡(luò)。為了驗證改進(jìn)策略的有效性,本文做了消融實驗對每個改進(jìn)之處進(jìn)行評估。從如表3所示的檢測結(jié)果上看,將SimAM注意力機(jī)制融入YOLOv7網(wǎng)絡(luò)中,檢測礦工吸煙的準(zhǔn)確率可達(dá)95.92%,比原模型YOLOv7提高1.41個百分點,證明此改進(jìn)策略可以加強(qiáng)對礦工吸煙行為的特征提取。在使用注意力機(jī)制的基礎(chǔ)上,引入Focus模塊的網(wǎng)絡(luò)檢測礦工吸煙行為的準(zhǔn)確率也高于原模型,但低于只加入注意力機(jī)制的模型,準(zhǔn)確率可達(dá)95.58%,做到了在保證檢測精度的同時減少參數(shù)量。在后處理階段加入Soft-NMS算法,檢測效果最佳,準(zhǔn)確率高達(dá)96.45%,比原模型高1.94%,解決了礦工吸煙漏檢的問題,提高了檢測精度。綜上所述,本文方法相較于其他流行方法,在礦工吸煙行為識別中的表現(xiàn)較好,可以有效識別礦工是否存在吸煙行為。
4? 結(jié)? 論
本文針對礦工吸煙圖像識別,研究了基于YOLOv7的礦工吸煙行為檢測方法。所使用的數(shù)據(jù)集均來源于礦工真實圖像,仿真實驗結(jié)果表明,該方法對礦工吸煙圖像的檢測識別具有良好的效果。本文的研究成果已經(jīng)在陳四樓煤礦推廣應(yīng)用半年以上,實現(xiàn)了對井下人員吸煙行為的視頻監(jiān)測預(yù)警,加強(qiáng)了對煤礦井下人員吸煙行為的有效監(jiān)管,提高了煤礦的安全生產(chǎn)管理水平。
參考文獻(xiàn):
[1] 殷文韜.煤礦瓦斯爆炸事故的不安全動作原因研究 [D].北京:中國礦業(yè)大學(xué)(北京),2015.
[2] VOLODYMYR M,KORAY K,DAVID S,et al. Human-level Control through Deep Reinforcement Learning [J].Nature,2015,518(7540):529-533.
[3] 梁緒,李文新,張航寧.人體行為識別方法研究綜述 [J].計算機(jī)應(yīng)用研究,2022,39(3):651-660.
[4] LIAO J,ZOU J. Smoking Target Detection Based on YOLO V3 [C]//2020 5th International Conference on Mechanical, Control and Computer Engineering (ICMCCE). Harbin:IEEE,2020:2241-2244.
[5] 趙鑒福.基于人體關(guān)鍵點識別的吸煙行為檢測方法研究 [D].天津:河北工業(yè)大學(xué),2023.
[6] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. YOLOv7: Trainable Bag-of-freebies Sets New State-of-the-art for Real-time Object Detectors [C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Vancouver:IEEE,2023:7464-7475.
[7] WANG C Y,BOCHKOVSKIY A,LIAO H Y M. Scaled-YOLOv4: Scaling Cross Stage Partial Network [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13024-13033.
[8] DING X H,ZHANG X,MA N N,et al. Repvgg: Making Vgg-style Convnets Great Again [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13728-13737.
[9] GE Z,LIU S T,WANG F,et al. Yolox: Exceeding YOLO Series in 2021 [J/OL].arXiv:2107.08430 [cs.CV].[2023-08-10].https://arxiv.org/abs/2107.08430.
[10] YANG L X,ZHANG R Y,LI L D,et al. Simam: A Simple, Parameter-free Attention Module for Convolutional Neural Networks [C]//International Conference on Machine Learning. [S.l.]:PMLR,2021:11863-11874.
作者簡介:王彬(1978—),男,漢族,江蘇徐州人,副教授,碩士,研究方向:人工智能、網(wǎng)絡(luò)技術(shù)、圖像識別等。