郝明月,閔冰冰,張新建,趙作鵬,吳晨,王欣
(1.河南龍宇能源股份有限公司 陳四樓煤礦,河南 永城 476600;2.中國礦業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)
規(guī)范的生產(chǎn)秩序是煤礦安全生產(chǎn)的必然要求?!叭嗟埂钡娜后w礦工在候罐、候車和等候礦山架空乘人索道時需要排隊,若出現(xiàn)秩序混亂的情況,將影響工作效率、破壞生產(chǎn)秩序,進而產(chǎn)生安全問題[1-2]。
人工監(jiān)管礦工排隊行為,難以做到對多時段、多場所排隊行為的全覆蓋管理。隨著人工智能技術(shù)的不斷發(fā)展,深度學(xué)習(xí)在實時監(jiān)測礦工排隊秩序方面日益重要[3]。目前,常用的煤礦井下目標檢測算法有傳統(tǒng)的目標檢測算法和基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的目標檢測算法[4]。傳統(tǒng)的目標檢測算法識別排隊異常行為時需人工提取特征,工作量大,易對插隊等異常情況產(chǎn)生誤檢。如張海彬等[5]提出了一種基于背景差分法的室內(nèi)排隊檢測方法,在室內(nèi)背景變化不大的場所采用固定的攝像頭,對室內(nèi)場景進行背景建模,應(yīng)用背景差分法處理當前捕捉到的彩色圖像與彩色背景模型,根據(jù)處理后圖像中隊伍所占畫面的比例計算出當前排隊人數(shù)。該方法雖然能夠準確識別室內(nèi)排隊行為,但準確度會受圖像質(zhì)量的影響,無法適用于井下光照不均、昏暗的場景?;贑NN 的目標檢測算法可提取層與層之間的連接和空間信息,且可表示圖像內(nèi)的相關(guān)特征[6-7],從而有效進行排隊檢測。如陳國棟等[8]采用OpenPose 提取人體骨架序列,采用OpenCV 測量人體骨架關(guān)鍵點距離,能夠在光線良好的環(huán)境中檢測異常排隊行為。但該方法對于視頻質(zhì)量要求較高,需要精準地測量出前后2 個人的眼部距離和手部距離,不能滿足煤礦井下光線受限的環(huán)境檢測需求。
YOLOv5s 作為CNN 在目標檢測領(lǐng)域的代表性模型,能夠在簡單場景檢測中實現(xiàn)較高的準確率,具有較高的穩(wěn)定性和可泛化能力,且計算量小,確保在資源受限的環(huán)境中也能進行有效部署[9-10]。但對于井下高粉塵、低光照等復(fù)雜環(huán)境導(dǎo)致的圖像質(zhì)量較差時,YOLOv5s 模型檢測效果難以保證。因此,本文在YOLOv5s 模型基礎(chǔ)上進行改進,融合雙向交叉特征金字塔網(wǎng)絡(luò)(Bidirectional Cross Feature Pyramid Network,BCrFPN)和自適應(yīng)訓(xùn)練樣本選擇(Adaptive Training Sample Selection,ATSS)動態(tài)標簽分配策略(ATSS_PLUS),構(gòu)建了一種更高性能的YOLOv5s(Higher Performance Improvement-YOLOv5s,HPIYOLOv5s)模型用于礦工排隊檢測,針對遮擋、昏暗、光照不均等煤礦井下環(huán)境具有較高的檢測精度和速度。
HPI-YOLOv5s 結(jié)構(gòu)如圖1 所示。使用ImageNet對骨干網(wǎng)絡(luò)進行預(yù)訓(xùn)練,并將BCrFPN 作為特征網(wǎng)絡(luò),從骨干網(wǎng)絡(luò)中獲取每層特征,反復(fù)進行自上而下和自下而上的雙向交叉特征融合。這些融合的特征被輸入到分類預(yù)測網(wǎng)絡(luò)和回歸預(yù)測網(wǎng)絡(luò),進行類別預(yù)測和邊界框參數(shù)回歸。分類預(yù)測網(wǎng)絡(luò)和回歸預(yù)測網(wǎng)絡(luò)的權(quán)重在每一層網(wǎng)絡(luò)中共享[11]。
圖1 HPI-YOLO5s 結(jié)構(gòu)Fig.1 Higher performance improvement-YOLO5s structure
YOLOV5s 使用路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[12]代替特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[13],改善了傳統(tǒng)FPN 單向信息流限制的問題,具有更好的精度,但需要更多的參數(shù)和計算成本。為解決該問題,提出了一種結(jié)構(gòu)簡單、高效的BCrFPN。如果1 個節(jié)點只有1 條輸入邊,不利于進行多尺度特征融合,因此刪除該節(jié)點;如果輸入到輸出節(jié)點處于同一級別,則添加1 條額外的邊,使其在不增加太多成本的情況下融合更多特征;與PANet 只有1 個自上而下和1 個自下而上的路徑不同,BCrFPN 將每個雙向(自上而下和自下而上)路徑作為1 個特征網(wǎng)絡(luò)層,并多次重復(fù)同一層,以實現(xiàn)更高級的特征融合。
BCrFPN 在重復(fù)應(yīng)用自上向下和自下向上的多尺度特征融合時,由于不同的輸入特征具有不同的分辨率,引入可學(xué)習(xí)權(quán)重來學(xué)習(xí)每個輸入特征的重要性。本文采用快速歸一化融合方法:
式中:O為輸出特征;wi,wj為第i,j個特征的可學(xué)習(xí)權(quán)重,i,j∈[1,n],n為權(quán)重個數(shù),i≠j;ε為極小值,以避免數(shù)值不穩(wěn)定,本文取0.000 1;Ii為輸入特征。
通過在每個wi之后應(yīng)用ReLU 來保證wi≥0。類似地,每個標準化權(quán)重范圍為0~1,由于沒有Softmax 操作,計算速度更快。
YOLOv5s 的標簽分配策略與之前YOLO 系列[14-15]的標簽分配策略不同,不再使用預(yù)定義的錨框和真實框的交并比(Intersection of Union,IoU)作為判斷標準,而是使用錨框和真實框的寬高比例來判斷錨框是否適合作為正樣本,當寬高比小于手動設(shè)置的閾值時,則判定該錨框為正樣本。但這種標簽分配策略存在一定的局限:①忽略了網(wǎng)絡(luò)的預(yù)測結(jié)果,不能很好地評估樣本的質(zhì)量。② 為每個真實目標增加正樣本數(shù)量的方式過于簡單,僅在匹配網(wǎng)格的臨近網(wǎng)格進行選擇。③手動設(shè)置閾值的方式魯棒性不高,需根據(jù)數(shù)據(jù)集精細調(diào)整閾值。
因此,本文引進ATSS 標簽分配策略[16],并為了更好地選取高質(zhì)量的正樣本,對ATSS 標簽分配策略進行優(yōu)化,將其命名為ATSS_PLUS。具體來說:對于候選區(qū)域,本文將樣本候選區(qū)域設(shè)置為真實目標的中心部分;對于正樣本的判定標準,結(jié)合網(wǎng)絡(luò)預(yù)測的分類結(jié)果和定位結(jié)果來評估候選樣本的質(zhì)量;對于閾值設(shè)置,使用ATSS 中動態(tài)指定閾值的方式。
式中:t為正樣本的質(zhì)量得分;s為網(wǎng)絡(luò)預(yù)測的候選樣本與真實目標對應(yīng)的類別得分;λ為平衡因子;G為網(wǎng)絡(luò)預(yù)測的回歸框與真實框的IoU;T為正樣本選取的閾值;tmean,tstd分別為t的平均值和方差。
在所有候選樣本中選取t大于T的樣本為正樣本。由于這種標簽分配方式對預(yù)定義的錨框數(shù)量不敏感,所以對于每個網(wǎng)格,本文只設(shè)置1 個預(yù)定義錨框。這種基于ATSS 改進的標簽分配策略相比于YOLOv5s 的標簽分配策略,使用了網(wǎng)絡(luò)的預(yù)測結(jié)果,更合理地評估了每個候選樣本的質(zhì)量,且閾值是針對每個真實目標動態(tài)設(shè)定的,因此具有更高的檢測精度和魯棒性。
通過人臉識別準確捕捉到人臉后,計算人臉框與所劃定排隊區(qū)域的相交面積,并將相交面積與人臉框面積之比與設(shè)置的閾值進行比較,以判斷礦工是否有序地站在隊列中[17]。
礦工排隊時通常分散且難以形成規(guī)整的隊列。若采用規(guī)則的矩形(圖2(a)中綠色框)作為排隊區(qū)域,其尺寸難以與礦工實際排隊的形態(tài)相匹配,因此選擇多邊形作為排隊區(qū)域(圖2(b)中綠色框)。
圖2 排隊區(qū)域Fig.2 Queue area
當排隊區(qū)域為凸多邊形時,使用半平面交法計算人臉框與排隊區(qū)域的相交面積;當排隊區(qū)域為凹多邊形時,先將凹多邊形分解為多個凸多邊形,再計算人臉框與排隊區(qū)域的相交面積。
半平面交法先把每個凸多邊形的點按照逆時針排序,再將每個凸多邊形的邊放入邊集L。求半平面交的面積,需先求邊集L的半平面交,過程如圖3 所示。首先選取一個正方向(一般為逆時針),以保證核在有向線段的左邊;然后將有向線段通過極角排序,排序之后的線段是有序的,可以在雙端隊列里進行操作;最后按順序遍歷每條線段,取左邊區(qū)域,刪右邊區(qū)域,剩下的藍色部分就是多邊形的和,即所有直線的半平面交。在此過程中,需使用叉積求出兩平面的交點,從而判斷直線X是否處于直線Y的逆時針方向。
圖3 求解半平面交過程Fig.3 Process of solving the half-plane intersection
式中:×為叉積操作;θ為直線X和Y之間的夾角。
在計算人臉框與排隊區(qū)域的相交面積后,根據(jù)相交面積來判斷隊列的有序性。若相交面積與人臉框面積之比小于閾值,則認為異常排隊,否則認為正常排隊。
式中:M=0 代表異常排隊,M=1 代表正常排隊;f為人臉框與排隊區(qū)域的相交面積;q為人臉框面積;Q為閾值。
實驗環(huán)境為Ubuntu 18.04 操作系統(tǒng),配置Intel(R)Core(TM)i5-7400 CPU @ 3.00 GHz 的CPU處理器,24 GiB 的運行內(nèi)存,GeForce RTX 3090 的GPU。實驗使用PyTorch 框架對井下礦工排隊行為進行檢測。
實驗使用Wider Face 數(shù)據(jù)集、MAFA 數(shù)據(jù)集和自建井下礦工人臉檢測數(shù)據(jù)集對模型進行訓(xùn)練。
由于井下礦工排隊需要對礦工人臉進行檢測,所以選擇Wider Face 數(shù)據(jù)集進行訓(xùn)練。Wider Face數(shù)據(jù)集標注了393 703 張人臉數(shù)據(jù)。對于每張人臉都附帶更加詳細的信息,包括模糊程度、表情、光照、遮擋、姿態(tài)。在數(shù)據(jù)集中,根據(jù)事件場景的類型分為61 個類,每個類別按照70%,10%,20%的比例劃分到訓(xùn)練集、驗證集及測試集中。
MAFA 數(shù)據(jù)集共有30 811 張圖像,該數(shù)據(jù)集標注出了有遮擋的人臉面部,但沒有遮擋的面部沒有標出,因此在實驗前用LabelImg 重新對MAFA 數(shù)據(jù)集進行標注,并選取70%作為訓(xùn)練集,10%作為驗證集,20%作為測試集。
自建井下礦工人臉檢測數(shù)據(jù)集中所有圖像均由河南龍宇能源股份有限公司陳四樓煤礦視頻監(jiān)控系統(tǒng)提供。系統(tǒng)提供礦工排隊視頻300 段,每段視頻中都包含正確排隊和插隊的情況。在這些視頻中提取10 000 張圖像,并使用LabelImg 進行人工標注。本實驗選取8 000 張圖像作為訓(xùn)練集,2 000 張圖像作為測試集。其中正常排隊7 563 張圖像,異常排隊2 437 張圖像。為了優(yōu)化排隊檢測性能,除了使用常用的數(shù)據(jù)增強手段(如圖像平移、縮放、剪切、翻轉(zhuǎn))外,本文還使用了數(shù)據(jù)增強方法Mosaic[18]。隨機將4 張訓(xùn)練圖像按一定比例拼接成一幅新的圖像,能夠豐富訓(xùn)練集,避免過擬合。由于井下環(huán)境昏暗,不利于模型訓(xùn)練,所以利用 Python 腳本實現(xiàn)暗光增強技術(shù)[19],對自建井下礦工人臉檢測數(shù)據(jù)集中圖像的暗光區(qū)域進行亮度增強。
采用不同的目標檢測模型SSD、YOLOv3、YOLOv4、YOLOv5s、Deit 及本文提出的HPIYOLOv5s 模型進行對比實驗。為保證公平性,采用最高權(quán)重分別在MAFA、Wider Face 和自建井下礦工人臉檢測數(shù)據(jù)集上進行實驗。
選取準確率A、召回率R、精確率P、特異性S來評估模型在數(shù)據(jù)集上表現(xiàn)的優(yōu)劣[20-21]。
式中:NTP為分類器識別正確,分類器認為該樣本是正樣本;NTN為分類器識別正確,分類器認為該樣本是負樣本;NFN為分類器識別結(jié)果錯誤,分類器認為該樣本是負樣本,實際上該樣本是正樣本;NFP為分類器識別結(jié)果錯誤,分類器認為該樣本是正樣本,實際上該樣本是負樣本。
不同模型在MAFA 數(shù)據(jù)集、Wider Face 數(shù)據(jù)集和自建井下礦工人臉檢測數(shù)據(jù)集上的性能見表1-表3。可看出HPI-YOLOv5s 模型在3 個數(shù)據(jù)集上的準確率、精確率、特異性均最優(yōu),僅在MAFA 數(shù)據(jù)集和自建井下礦工人臉檢測數(shù)據(jù)集上,HPI-YOLOv5s模型的召回率分別比YOLOv5s 模型、Deit 模型略低。
表1 不同模型在MAFA 數(shù)據(jù)集上的性能Table 1 Performance of different models on MAFA dataset%
表2 不同模型在Wider Face 數(shù)據(jù)集上的性能Table 2 Performance of different models on Wider Face dataset%
表3 不同模型在自建井下礦工人臉檢測數(shù)據(jù)集上的性能Table 3 Performance of different models on self-built miner face detection dataset%
為驗證BCrFPN 和ATSS_PLUS 的有效性,在自建井下礦工人臉檢測數(shù)據(jù)集上進行消融實驗,結(jié)果見表4??煽闯鲈赮OLOv5s 模型中添加BCrFPN后,顯著減少了網(wǎng)絡(luò)冗余,降低了計算復(fù)雜度,但準確率降低了0.1%;在YOLOv5s 模型中添加ATSS后,相比原始YOLOv5s 模型準確率提高了0.4%;對ATSS 進行優(yōu)化后,在YOLOv5s 模型中添加ATSS_PLUS 比ATSS 的準確率提高了1.6%,比YOLOv5s模型的準確率提高了2%,彌補了引入BCrFPN 造成的精度損失;將BCrFPN 和ATSS_PLUS 合并到Y(jié)OLOv5s 模型中,比YOLOv5s 模型的準確率提高了1.9%,權(quán)重大小減少了32%,參數(shù)量減少了6.9%,檢測速度提高了7.8%。
表4 消融實驗結(jié)果Table 4 Ablation experiment results
為了選擇合適的閾值,實驗選擇正常排隊圖像682 張,異常排隊圖像318 張,對不同閾值下的檢測效果進行比較。當閾值分別為0.4,0.5,0.6 時,檢測準確率分別為82.1%,85.4%,83.8%,因此設(shè)置閾值為0.5。
在自建井下礦工人臉檢測數(shù)據(jù)集上的礦工排隊檢測結(jié)果如圖4 所示。在所選區(qū)域內(nèi),綠色框表示正常排隊,藍色框表示異常排隊。從圖4(a)可看出,礦工均在正常排隊;從圖4(b)可看出,異常排隊人員被檢測出來,并用藍色框標注。
圖4 礦工排隊檢測結(jié)果Fig.4 Miner queue detection results
為直觀驗證HPI-YOLOv5s 模型的有效性,選擇YOLOv3,YOLOv4,YOLOv5s 3 種主流模型在自建井下礦工人臉檢測數(shù)據(jù)集(選擇遮擋、光照不均、昏暗3 種場景)上進行礦工排隊檢測對比實驗,結(jié)果如圖5所示。
圖5 煤礦不同場景下不同模型排隊檢測效果對比Fig.5 Comparison of queue detection effect of different models in different scenarios of coal mines
從圖5 可看出,在出現(xiàn)礦工遮擋的情況時,YOLOv3,YOLOv4,YOLOv5s 模型識別礦工時置信度偏低,但HPI-YOLOv5s 模型由于引入了ATSS_PLUS,更好地選取高質(zhì)量的正樣本,因此能更精確地檢測礦工人臉,置信度較高。在光照嚴重不均的情況下,YOLOv3 和YOLOv4 模型均出現(xiàn)誤檢和檢測不全的情況,雖然YOLOv5s 模型未出現(xiàn)這種情況,但檢測結(jié)果的置信度極低,而HPI-YOLOv5s 模型通過BCrFPN 可高效進行多尺度特征融合,比其他模型具有更高的檢測精度。在昏暗環(huán)境下,雖沒有出現(xiàn)誤檢和漏檢的情況,但由于光照不足,導(dǎo)致圖像質(zhì)量下降,影響YOLOv3 和YOLOv4 模型的檢測精度,而HPI-YOLOv5s 模型能更好地適應(yīng)昏暗環(huán)境,具有較高的檢測精度。
1)針對井下礦工不按規(guī)定排隊的現(xiàn)象,提出了一種HPI-YOLOv5s 模型用于礦工排隊檢測。該模型在YOLOv5s 模型基礎(chǔ)上,構(gòu)建了一種高效的BCrFPN 作為特征網(wǎng)絡(luò),能夠進行多尺度特征融合,提高檢測效率;對ATSS 標簽分配策略進行改進,可更好地選取高質(zhì)量的正樣本,有效提高檢測精度;通過計算人臉框與所劃定排隊區(qū)域的相交面積,并將相交面積與人臉框面積之比與閾值進行比較來判斷隊列的有序性。
2)與YOLOv5s 模型相比,HPI-YOLOv5s 模型的準確率提高了1.9%,權(quán)重大小減少了32%,參數(shù)量減少了6.9%,檢測速度提高了7.8%,且針對遮擋、昏暗、光照不均的礦井圖像,能夠更準確地識別礦工排隊情況。