王向前,史 策
(安徽理工大學,安徽 淮南 232001)
安全帽是在物體打擊發(fā)生時用來減輕或避免沖擊對頭部造成傷害的防護用具,是從事建筑、采礦等危險行業(yè)一線施工人員的重要安全保障。但是由于部分施工人員缺乏安全意識,因不佩戴安全帽而導致的安全事故時有發(fā)生。目前許多行業(yè)仍然采用人工監(jiān)督檢查的方式對施工人員佩戴安全帽的情況進行監(jiān)管,耗費大量的人力成本與時間成本。因此基于深度學習的安全帽佩戴檢測具有重要的現(xiàn)實需求。
YOLOV5算法包括YOLOV5n、YOLOV5s、YOLOV5m、YOLOV5l、YOLOV5x五個網絡模型,本文選用YOLOV5s網絡模型進行安全帽佩戴檢測。YOLOV5s由輸入端、主干網絡、頸部網絡、檢測端4個部分組成。輸入端包括馬賽克數(shù)據(jù)增強、自適應圖片縮放和自適應錨框計算。主干網絡用來提取圖片的特征,采用CSPDarkNet35網絡,主要由C3模塊、CSP模塊和SPPF模塊構成。頸部網絡由FPN和PAN的模塊組合對骨干網絡提取的特征進行融合。輸出端利用頸部網絡傳來的3種尺度不同的特征圖對不同大小的目標進行檢測。
2021年中山大學提出一種無參數(shù)注意力SimAM[1]如圖1所示。現(xiàn)有的通道注意力和空間注意力往往采用額外的子網絡生成注意力權重,而SimAM注意力認為信息豐富的神經元與普通神經元具有不同的放電模式,并且重要的神經元會對周圍普通的神經元產生空域抑制現(xiàn)象。SimAM注意力通過度量神經元之間的線性可分性尋找更重要的神經元并給予它額外的權重。
圖1 SimAM注意力
SimAM注意力定義了一個能量函數(shù),公式如下:
(1)
(2)
解析公式2得到:
(3)
(4)
(5)
安全帽不僅有多種顏色,成像尺寸也有差異。為了更好的融合特征,引入雙向特征金字塔網絡(Bidirectional Feature Pyramid Network,Bi-FPN)[2]。Bi-FPN網絡對YOLOV5s原有的FPN+PAN[3]網絡進行簡化,刪去只有一個輸入和一個輸出的節(jié)點。同時對于處于同一層的輸入和輸出節(jié)點,在兩個節(jié)點之間添加一條直接相連的通道,在不增加計算量的前提下可以融合更多的特征。Bi-FPN中一對自底向上和自頂向下的路徑視為一個模塊,可以重復疊加融合更高層次的特征,Bi-FPN網絡結構如圖2所示。
圖2 Bi-FPN網絡結構
在安全帽檢測場景中,攝像頭往往距離安全帽比較遠,導致安全帽目標的成像較小。為了提高YOLOV5s對小目標安全帽的檢測能力,本文在YOLOV5s原有的3個檢測層的基礎上增加一個額外的小目標檢測層。首先在21層之后,增加一個CBS模塊提取特征,同時將通道數(shù)由512降為256。接著繼續(xù)對特征圖進行上采樣處理,擴大特征圖尺寸為160×160,在23層和主干網絡傳入的第2層的特征圖進行拼接操作,最后經過24層的C3模塊實現(xiàn)小目標檢測層的搭建,整體改進后的YOLOV5s網絡結構如圖3所示。
圖3 改進后的YOLOV5s網絡結構
在檢測安全帽任務時,經常出現(xiàn)由于工人密集導致安全帽目標存在遮擋的情況,為了解決這個問題,本文采用DIOU-NMS代替原有的NMS算法。DIOU-NMS借鑒了DIOU損失函數(shù)[4]的思想,具體公式為:
(6)
式中:M代表預測分數(shù)最高的預測框,Bi代表其他預測框,Si代表分類得分,ε代表NMS閾值大小,RDIOU代表兩個框之間的距離,RDIOU公式如所示:
(7)
式中:ρ2(b,bgt)為預測框和檢測框之間的中心點距離,b是預測框中心點,bgt為真實框中心點,c為兩個框之間最小外接矩形對角線距離。
本文選用開源的安全帽數(shù)據(jù)集GDUT-HWD,該數(shù)據(jù)集包括3174張不同場景、天氣、光照、人物等變化的數(shù)據(jù)照片,包含五類樣本,分別是None、Red、Blue、Yellow、White。本文將數(shù)據(jù)集按照9∶1的比例隨機劃分為訓練集和測試集。
本文實驗采用ubuntu20.04操作系統(tǒng),內存30GB,GPU為RTXA4000,顯存16GB;深度學習框架為PyTorch1.10.0;Cuda版本為11.3,Python版本為3.8。YOLOV5s訓練學習率采用Warmup訓練,通過余弦退火算法對學習率進行更新,epoch設置為200,batch size設置為16。
本實驗采用精確率(Precision,P)、平均精度均值(mean average precision,mAP)來評價YOLOV5s對安全帽的檢測性能,其中精確率P、平均精度均值mAP的公式分別為:
(8)
(9)
(10)
式中:TP是指正確檢測到安全帽的檢測框數(shù)量;FP是指誤檢為安全帽的檢測框數(shù)量;NC為類別總數(shù)。
3.3.1 消融實驗
為了分析不同改進對整個YOLOV5s模型性能的影響,以YOLOV5s為基礎模型對所提出的改進算法進行消融實驗,實驗結果如表1所示。字母A~D分別表示加入SimAM注意力、增加小目標檢測層、引入Bi-FPN網絡、引入DIOU-NMS。從表中可以看出,本文提出的4種改進相比較原始YOLOV5s算法都有不同程度的提升,4種改進共同加入YOLOV5s后,精確率P提升了4.1%、平均精度均值mAP提升了4.5%,說明本文提出的算法能夠更好的檢測現(xiàn)實場景下安全帽佩戴檢測問題。
表1 YOLOV5s消融實驗
為了能夠更加直觀地看出改進后的YOLOV5s帶來的檢測性能的提升,本文用改進前后的YOLOV5s算法對同樣的測試集進行檢測,部分測試結果如圖4所示。圖4(a)中,YOLOV5s沒有檢測出遠處的安全帽,并將近處的鋼管橫截面誤檢為黃色頭盔,而改進后的YOLOV5s準確地檢測出了遠處的安全帽,沒有發(fā)生誤檢并且置信度也高于原始YOLOV5s算法。圖4(b)是安全帽密集遮擋圖像,YOLOV5s算法出現(xiàn)了漏檢的情況,而改進后的YOLOV5s算法準確地檢測到所有被遮擋的安全帽。綜上所述,改進后的YOLOV5s在現(xiàn)實場景下表現(xiàn)出了更加優(yōu)異的性能,在小目標和遮擋目標的檢測中也優(yōu)于原始YOLOV5s算法。
圖4 不同場景下算法檢測對比
為了解決當前安全帽佩戴檢測任務中存在檢測精度低,對于小目標和遮擋目標的檢測容易出現(xiàn)誤檢、漏檢的問題,本文提出了一種基于改進YOLOV5s的安全帽佩戴檢測算法。通過結合SimAM注意力、增加小目標檢測層、引入Bi-FPN網絡以及采用DIOU-NMS來改進YOLOV5s算法。由實驗結果可知改進后的YOLOV5s算法對安全帽的檢測取得了較高的檢測精度,并且在小目標和遮擋目標的檢測上也獲得了明顯的進步,滿足現(xiàn)實施工場景下的安全帽檢測需求。由于本實驗都是在高算力的設備上進行,下一步研究的重點是將檢測模型移植到嵌入式設備中實現(xiàn)工業(yè)應用。