白培瑞,王 瑞,劉慶一,韓 超,杜紅萱,軒轅夢玉,傅穎霞
1) 山東科技大學電子信息工程學院,青島 266590 2) 山東科技大學能源與礦業(yè)工程學院 ,青島 266590
在不同行業(yè)的施工和生產(chǎn)現(xiàn)場,使用基于視頻分析技術對安全帽佩戴情況進行自動檢測與識別,是保障人員生命安全的重要措施.但生產(chǎn)現(xiàn)場視頻采集環(huán)境往往更復雜,目標遮擋、光照不均勻和目標尺度差異大等原因,都會對基于視頻的安全帽佩戴情況自動檢測與識別提出挑戰(zhàn).安全帽佩戴檢測與識別算法分為基于傳統(tǒng)機器學習和基于深度學習的方法.傳統(tǒng)機器學習方法通常采用背景減法、人體檢測和安全帽檢測識別等步驟,利用的是手工選定特征或統(tǒng)計特征.劉曉慧和葉西寧[1]提出利用膚色輔助確定安全帽位置,提取 Hu矩特征向量,再用支持向量機對安全帽進行識別分類.Li 等[2]針對位置固定的監(jiān)控場景下的運動目標,采用Vibe 對運動背景進行分割處理,使用實時的人體分類框架C4 對人體定位,最終通過顏色特征判別實現(xiàn)安全帽檢測.
基于深度學習的方法進一步分為“兩階段”方法和“單階段”方法[3].“兩階段”方法即由算法提取特征后進行候選區(qū)域生成,然后使用分類器進行分類回歸.Yogameena 等[4]利用Faster R-CNN 檢測帶標記的摩托車目標,再利用卷積網(wǎng)絡模型和空間轉(zhuǎn)換器識別頭盔.Ferdous 等[5]設計以ResNet50為主干融合特征金字塔網(wǎng)絡(FPN),采用分類和回歸模型對安全帽進行分類和定位.“兩階段”方法的優(yōu)勢是可以有效提升檢測精度,但是難以滿足實時性檢測的要求.“單階段”方法使用端到端策略對圖像進行目標位置的檢測和分類.SSD(Single shot multibox detector)[6]模型和YOLO(You only look once)[7]模型是“單階段”算法的典型代表.SSD 模型結(jié)合回歸和 anchor 思想實現(xiàn)多尺度預測,但密集采樣會造成模型難收斂,對小目標檢測能力較差.吳等[8]使用結(jié)合反向漸進注意機制的SSD 網(wǎng)絡對安全帽進行檢測,使用H-SVM 對安全帽顏色分類,SSD-RPA512 模型達到了83.89% 的準確率.徐先峰等[9]使用MobileNet 為主干構建MobileNet-SSD 模型,將安全帽檢測速度提高了10.2 倍.YOLO模型采用邊檢測邊分類的策略,具有計算效率高的優(yōu)勢,其升級版本得到相關領域的廣泛關注.YOLOv3[10]提出Darknet53 網(wǎng)絡,使用FPN 架構和多尺度融合策略,提高了對小目標檢測的精度.YOLOv4[11]的主干采用具有不同層間交叉的CSPDarknet53,采用Mosaic 數(shù)據(jù)增強方法和自我對抗訓練策略以提高網(wǎng)絡的檢測與識別性能.YOLOv5[12]通過增加模型檢測規(guī)模和數(shù)據(jù)優(yōu)化處理,采用DIoU-NMS邊界盒抑制措施提高小目標的檢測精度.YOLOv5模型輕量且易移植,讓很多研究在其基礎上都得到了良好的檢測性能[13-14].針對復雜環(huán)境下檢測也成為新的研究領域,例如,黃林泉等[15]提出YOLOv3結(jié)合Deep SORT 多目標跟蹤技術實現(xiàn)跳幀檢測,結(jié)合可微圖像處理模塊提高目標檢測在惡劣天氣的適應性.受到自然語言處理中Transformer[16]應用的啟發(fā),使用CNN 的架構與Transformer 結(jié)合能對圖像中全局信息和局部信息統(tǒng)一建模,得到靈活高效的網(wǎng)絡模型.Zhu 等[17]針對無人機采集圖片的尺度變化和運動模糊問題,提出了TPH-YOLOv5模型,結(jié)合Transformer 和注意力模塊CBAM 提高預測輸出效果,提高小目標的檢測性能.前人研究證明結(jié)合注意力機制和特征融合機制可提高檢測器的學習能力進而提升檢測性能.上述安全帽檢測包含以下幾種難題:(1)CNN 模型通常關注局部信息忽略全局信息,而安全帽佩戴檢測往往要伴隨人體或人臉特征信息進行學習;(2)主干網(wǎng)絡的特征提取往往針對單目標情況進行優(yōu)化,在視頻場景下的檢測伴隨著多目標和遮擋問題,算法缺乏魯棒性;(3)對多尺度目標特征提取不充分.
本文針對以上難題,提出一種基于Deep selfattention YOLOv5(DS-YOLOv5)的安全帽檢測模型,主要改進如下:
(1)使用YOLOv5 模型為基礎,融合改進的Deep SORT 多目標跟蹤算法,改進的Deep SORT 使用DIoU 提高檢測框與預測框匹配準確度,加強視頻檢測中前后幀的數(shù)據(jù)關聯(lián),能改善遮擋和多目標造成的漏檢錯檢問題;
(2)YOLOv5 主干網(wǎng)絡融合Transformer 模塊,將圖片轉(zhuǎn)成序列向量提取局部特征之間的關系,加強對圖像全局信息的捕獲和注重上下文信息的聯(lián)系;
(3)YOLOv5 頸部網(wǎng)絡部分使用加權雙向特征金字塔網(wǎng)絡(BiFPN)融合多尺度特征,根據(jù)特征的重要程度賦以權重,提高小目標的檢測準確度.本文構建一種能夠應對復雜環(huán)境,提高安全帽佩戴情況檢測精度和實時性的深度學習模型DS-YOLOv5.實驗結(jié)果表明,該模型的多個定量指標優(yōu)于目前主流的安全帽佩戴檢測模型,其mAP 可以達到95.5%.
YOLO 模型的核心思想是把物體檢測問題轉(zhuǎn)化為回歸問題,用一個卷積神經(jīng)網(wǎng)絡從輸入圖像直接預測邊界框位置和目標的類別概率.YOLOv5結(jié)構主要分為輸入端、主干(Backbone)、頸部網(wǎng)絡(Neck)和預測頭(Prediction)四個部分.輸入端采用mosaic 數(shù)據(jù)增強,主干采用Focus 結(jié)構和CSPDarknet53(Cross stage partial darknet53)結(jié)構相結(jié)合的方案,CSPDarknet53 是特征提取的核心網(wǎng)絡,借助殘差塊實現(xiàn)了對特征圖的快速降維,在不損失檢測精度的前提下,提升對特征提取的能力和檢測速度.頸部網(wǎng)絡采用空間金字塔池(Spatial pyramid pooling, SPP)[18]和路徑聚合網(wǎng)絡(Path aggregation network, PANet)[19]的結(jié)構,加強來自不同特征層的特征聚合,提高網(wǎng)絡檢測不同尺度目標的能力.輸出端采用CIoU_Loss 和DIoU_NMS 操作,輸出對象坐標和分類結(jié)果.YOLOv5s 設置了兩種CSP 模塊,在主干應用CSP1_X 結(jié)構,在Neck 部分應用CSP2_X結(jié)構,CSP1_X 比CSP2_X 多設有殘差結(jié)構,可以增加層與層之間反向傳播的梯度值,避免因為網(wǎng)絡過深帶來的梯度消失,加強網(wǎng)絡提取特征的能力.
當輸入端接收圖像后,YOLOv5 模型首先將每幅圖像劃分為7×7 的網(wǎng)格,每個網(wǎng)格作為一個預測盒,用于捕獲落入網(wǎng)格單元中心的目標.每個網(wǎng)格單元輸出M個預測邊界框,每個邊界框的預測輸出位置信息和置信度C(Confidence),C主要反映預測盒與Ground Truth 之間的交并比 (Intersection over union,IOU)得分.置信度得分公式為:
式中,Pr(object)表示目標出現(xiàn)在單元格的條件類概率,規(guī)定單元格中有目標其值取1,否則取0.表示預測邊界框與Ground Truth 的交并比,C反映預測類別的概率和邊界框定位的準確性.根據(jù)網(wǎng)絡深度和寬度參數(shù)的不同,YOLOv5 提供了YOLOv5s、YOLOv5m、YOLOv5l 和YOLOv5x 四種模型配置文件.YOLOv5s 是網(wǎng)絡深度和特征圖寬度最小的網(wǎng)絡,考慮到面向工業(yè)應用,本文采用YOLOv5s 為基礎模型進行研究.
深度簡單在線實時跟蹤(Deep simple online and realtime tracking,Deep SORT)的核心思想是利用傳統(tǒng)的卡爾曼濾波和匈牙利算法分別負責跟蹤目標的狀態(tài)估計和軌跡分配問題[20].通過引入視頻序列中檢測結(jié)果的數(shù)據(jù)關聯(lián),整合目標的運動信息和外觀信息,對丟失目標進行重識別.改進的Deep SORT 算法流程如圖1 所示.Deep SORT 中使用卡爾曼濾波器與勻速運動和線性觀測模型來觀察目標的狀態(tài).對于輸入的軌跡,卡爾曼濾波器通過預測狀態(tài)與上一時刻的對比和檢測框信息的校正,估計每個目標位置的均值和協(xié)方差矩陣,再通過卡爾曼濾波框架最優(yōu)地求解速度分量對目標狀態(tài)進行更新[21].匈牙利算法將前一幀的跟蹤框與當前幀的檢測框關聯(lián),通過特征信息和馬氏距離來計算代價矩陣.首先,基于已存在目標運動狀態(tài)的卡爾曼預測結(jié)果與檢測結(jié)果之間的馬氏距離進行運行信息的關聯(lián),馬氏距離如式(2):
圖1 改進的Deep SORT 算法流程圖Fig.1 Flow chart of the improved Deep SORT algorithm
式中, (yi,Si) 表示第i個跟蹤到測量空間的投影,其中yi為當前時刻的預測框,Si為協(xié)方差矩陣,dj表示第j個檢測框.
當目標遮擋或者鏡頭視角抖動時,借助外觀信息對檢測框dj計算出對應的外觀特征描述符rj,即重識別網(wǎng)絡提取的128 維單位特征向量.對于每個軌跡k,都保留在最后100 個外觀描述符作為集合 {Ri} , 通過計算第i個 跟蹤框和第j個檢測框最小余弦距離來減少跟蹤誤差,余弦距離如式(3):
級聯(lián)匹配將卡爾曼濾波器判斷為確認的軌跡框與檢測框在卷積網(wǎng)絡進行特征提取,根據(jù)軌跡框與檢測框的l1和l2,進行匹配確認.再利用距離交并比 (Distance-IoU,DIoU)[22]對級聯(lián)匹配中的未匹配軌跡和未匹配檢測以及卡爾曼預測未確定的軌跡,進行再次匹配,對確認狀態(tài)的軌跡框設置最大匹配壽命Max_age,并對超過Max_age 軌跡框刪除處理,避免因短暫性遮擋而造成的漏檢.
Deep SORT 算法中IoU 匹配方式回歸速度快,但是無法衡量預測框與軌跡框的重疊方式.本研究使用DIoU 關聯(lián)匹配,它在IoU 的基礎上引入一個懲罰項,對重疊情況更加敏感,訓練過程損失收斂更快,減少遮擋情況下ID 切換的問題,有更好的跟蹤效果.檢測框和目標框之間的歸一化距離損失函數(shù)公式為:
式中,b和bGT分別代表檢測框和預測框的中心點,ρ代表兩個中心點之間的歐氏距離.c代表同時覆蓋檢測框和預測框的最小矩形的對角線距離.
Transformer 是谷歌團隊提出基于注意力結(jié)構來處理序列模型相關問題的模型,Transformer 的基本結(jié)構由編碼組件、解碼組件和連接(positionwise FFN)組成.編碼器中有自注意力層和前饋層,解碼器中除了有自注意力層和前饋層之外,還有一個解碼器注意力層用于關注層之間的交叉信息,它推翻了以往自然語言處理通常需要CNN 結(jié)構的思想.Transformer 最初應用于自然語言處理領域,近來越來越多地被應用到計算機視覺領域.在目標檢測領域,Carion 等[23]提出了一種端到端的目標檢測模型(Detection transformer,DETR),將CNN 與transformer 架構相結(jié)合直接預測最終的檢測結(jié)果,唯一的不足是需要大量的數(shù)據(jù)進行訓練才能得到良好的精度.VIT(Vision transformer)是一種基于Transformer 進行圖像塊序列預測的分類模型,在多個圖像識別基準數(shù)據(jù)集上獲得優(yōu)越的性能[24].研究表明Transformer 在計算機視覺領域有優(yōu)秀的學習能力.
受到VIT 的啟發(fā),我們將YOLOv5 主干中部分原始卷積模塊替換為VIT 中的Transformer Block,Transformer 將圖像切塊輸入,借助對圖像間的空間信息,提高主干的特征提取能力,最后使用YOLOv5檢測頭進行分類.VIT 模型包含Embedding 層、Transformer Encoder 和MLP(Multilayer perceptron) Head.Linear 層主要負責將二維圖像轉(zhuǎn)化為序列向量作為Transformer 的輸入,Transformer Encoder 功能是捕獲序列向量之間的相互關系,MLP Head 用于最終的分類.
(1)Embedding 層.
對輸入的安全帽圖像x∈RH×W×C分為N個不重疊的二維圖像塊xP∈RN×(S2×C),其中R是包含所有圖像塊的集合,并使用卷積核大小為D的網(wǎng)絡對圖像塊編碼生成序列向量xr={rclass,r1,r2,···,rN}用于Transformer 的輸入,圖像塊數(shù)量與原圖像之間的關系為:
其中,H,W,C為原圖像的高、寬和通道數(shù),S為圖像塊的尺寸大小,rclass是為防止在多層感知機(MLP)學習全局特征不夠充分而加入的分類向量.圖像塊的序列向量代表圖像塊的內(nèi)容信息,而自注意力機制處理序列還需要向量間的位置關系,因此在原文中還引入了位置編碼Epoc用于捕獲圖像塊之間的位置關系,E是實現(xiàn)線性映射的矩陣.因此在Embedding 層處理后,特征向量F表示為:
(2)Transformer Block 和MLP Block.
Transformer Block 主 要 由Transformer 編 碼 器組成,作用是對序列向量提取局部特征之間的關系,首先對Embedding 層的輸出進行歸一化處理,經(jīng)多頭注意力層(Mutli-head self-attention,MSA)提取得到當前節(jié)點的全局特征向量,經(jīng)過Dropout和殘差輸出相加,進一步Norm 處理,最終經(jīng)過多層感知機模塊(MLP block)獲得分類特征.MLP block主要由全連接層、GELU 激活函數(shù)和Dropout 層組成,序列向量經(jīng)過MSA 融合特征信息,最終選擇一項特征作為全局特征送入MLP 中進行分類.
2.1.1 Backbone
模塊如圖2 所示C3TR 模塊結(jié)構圖,將原C3殘差模塊中的Resunit 替換為Transformer 模塊,C3TR模塊由卷積層和Transformer block 經(jīng)Concat 操作構成,由于模塊參數(shù)復雜度過高,為了降低訓練成本僅在YOLOv5 主干網(wǎng)絡的最后一個階段進行加強特征提取,圖2 中模塊中k、s、n分別代表卷積神經(jīng)網(wǎng)絡卷積核、步長以及包含Bottleneck 的數(shù)量,T 代表C3 中設有殘差模塊,F(xiàn) 代表C3 中沒有殘差模塊.同時在研究中發(fā)現(xiàn)Norm 能削弱模型的特征表征能力,如圖3 所示,將Transformer 簡化成圖3 的Transformer block,首先去除MSA 和MLP模塊后的歸一化處理,僅使用Dropout 加速網(wǎng)絡收斂;其次MLP block 去除激活函數(shù),使用全連接層和Dropout 進行分類處理,可加強特征全局表達的能力,同時降低一定計算成本.簡化后Transformer block 減少了計算量,同時可以加強捕獲全局特征的能力,其多頭注意力機制還可以獲得上下文的語義信息,對于低分辨率圖像有良好的處理能力,可以應對小目標的特征提取.
圖2 改進的YOLOv5 的網(wǎng)絡結(jié)構Fig.2 Improved network architecture of YOLOv5
圖3 Transformer 模塊Fig.3 Transformer block
2.1.2 Neck
傳統(tǒng)的PANet 可融合不同層級間的特征且各層級是逐級通道順序連接,這種結(jié)構忽略了不相鄰層級之間的特征信息關系,遺失細節(jié)信息.本文使用BiFPN[25]對提取的特征進行跨層級融合,通過對特征賦予不同的權重進行有重點的融合,可增強對有益特征的針對性,同時抑制冗余特征的干擾.圖4 為PANet 和BiFPN 實現(xiàn)不同層級特征傳遞與融合的示意圖,自下到上為3~7 層特征圖(P3~P7),(a)是PANet 結(jié)構,(b)是BiFPN 結(jié)構.
圖4 PANet 與BiFPN 結(jié)構示意圖.(a) PANet; (b) BiFPNFig.4 Schematic diagram of the Path Aggregation Network and bidirectional feature pyramid network structures: (a) PANet; (b) BiFPN
BiFPN 實現(xiàn)了深淺層特征雙向融合,跨尺度殘差連接增強不同網(wǎng)絡層之間特征信息的傳遞,有利于小尺寸安全帽的特征學習,而且與PANet 相比,它移出了沒有特征融合的節(jié)點,進一步減少模型的計算量.此外,BiFPN 針對特征融合增加了一個可學習的權重,可以有效聚合不同尺度的特征并進行特征輸出.BiFPN 以更輕量的結(jié)構同時提升模型對有益特征的敏感性,帶來模型性能的提升.
DS-YOLOv5 模型的工作流程:首先利用帶標簽的安全帽數(shù)據(jù)集,對YOLOv5 網(wǎng)絡和改進的Deep SORT 特征提取網(wǎng)絡分別進行訓練得到安全帽檢測模型和安全帽特征模型,為視頻序列的檢測識別做好模型權重.最后,將待檢測視頻輸入YOLOv5進行檢測,得到安全帽的檢測框信息和分類信息,再將檢測框送入改進的Deep SORT 進行特征提取進行建模標準化,對目標軌跡進行卡爾曼預測和更新,經(jīng)過級聯(lián)匹配和IOU 匹配得到跟蹤結(jié)果,輸出安全帽位置信息和類別信息.
為了驗證DS-YOLOv5 模型的性能,本文采用GDUT-HWD 數(shù)據(jù)集進行測試.GDUT-HWD 數(shù)據(jù)集考慮包括場景、照明、個人姿態(tài)和遮擋等復雜環(huán)境,包含3174 張圖像,18893 個實例,小目標實例數(shù)占比達到了47.4%,環(huán)境更復雜、分類更精細.實驗的硬件配置為Intel(R) Xeon(R) Silver 4210R CPU @ 2.40 GHz 和2.39 GHz NVIDIA GTX1070GPU,模型搭建在Pytorch 深度學習框架.所有YOLO 模型的訓練最大周期為300,Batch-size 為8,學習率為0.0001,在訓練過程中采用早停策略避免過擬合.評價指標采用多個定量指標,分別為精確率P、召回率R、F1分值、平均精確度AP 和全類平均精度mAP和每次迭代花費的時間Spend Time.各指標的定義如下:
式中,真陽性(True positive, TP)代表實際為正例,預測為正;真陰性(True negative, TN)實際為負例,預測為負;假陽性(False positive, FP)為實際為負例,預測為正;假陰性(False negative, FN)實際為正例,預測為負.一般來說精確度和召回率是互相矛盾的兩個值,定義F1說明了精確度和召回率的實際平均情況,公式為:
對于數(shù)據(jù)集給定的類別,先得到其精確率/召回率(P/R)曲線,平均精確度AP 為使用積分法計算P/R曲線與坐標軸所圍面積,mAP 是將AP 進行加權平均而得到,評價指標AP 和mAP 計算方法如公式(10)和(11)所示:
式中,P(R)是關于P和R函數(shù)關系,class 表示檢測數(shù)據(jù)集的類別數(shù).
消融實驗基于YOLOv5 模型為基礎模型,對Deep SORT、BiFPN 結(jié)構、Transformer 模塊和Deep SORT 進行分析,了解各模塊對模型性能提升起到的作用以及結(jié)構改進的有效性.
表1 列出了在GDUT-HWD 數(shù)據(jù)集上的消融實驗結(jié)果,可以看到,加入Transformer、BiFPN 和Deep SORT 分別使mAP 提升1.2%、1.4%和0.8%,最終模型mAP 提升了3%.加入Transformer 的模型召回率有明顯的提高,進一步證明本模塊對捕獲全局特征有良好能力,減少小目標漏檢情況.Deep SORT模型將使用視頻圖像驗證其識別跟蹤可靠性.F1反映出模型精度和召回率的實際平均情況,本模型加入BiFPN 和Transformer 后F1下降1.7%,仍比YOLOv5 原模型提高了2.2%,mAP 能達到95.5%,此時模型檢測精度最高.根據(jù)消融實驗結(jié)果,增加模塊后網(wǎng)絡復雜度增加,Spend Time 也隨之增加,而使用BiFPN 模塊后可以比原模型節(jié)約3%的訓練時間.我們將表1 中的最后一組模型稱為DS-YOLOv5.
表1 基于GDUT-HWD 數(shù)據(jù)集的消融實驗結(jié)果Table 1 Results of the ablation experiments based on the GDUT-HWD dataset
如表2 對改進前后Deep SORT 跟蹤性能對比.使用行人數(shù)據(jù)集Market-1501 對改進的Deep SORT重識別網(wǎng)絡進行訓練,訓練集包含了751 個類別行人[26].表2 中評價指標MOTA(Multi-object tracking accuracy)為衡量跟蹤器的準確率,MOTP (Multiobject tracking precision)為檢測器的準確率,IDs(Identity switch)為Ground Truth 分配ID 發(fā)生切換的次數(shù)(表中向上箭頭表示值越大性能越好,向下箭頭表示值越小性能越好).實驗結(jié)果可以看到MOTA提高了2.7,IDs 在原有基礎上降低的16%.
表2 Deep SORT 改進前后的實驗結(jié)果對比Table 2 Comparison results for improved Deep SORT
為了驗證模型的可靠性,使用MOT16 訓練集中視頻MOT16-09 對改進前后Deep SORT 進行跟蹤性能測試[27],對測試的MOT16-09 視頻每10 幀抽取一次,Deep SORT 改進前后在MOT16-09 測試對比如圖5 所示,可視化中展示了三個場景,圖5 (a)和(d)為場景1、圖5 (b)和(e)為場景2、圖5 (c)和(f)為場景3.場景1 中,改進的模型檢測到左下角漏檢目標并修正了(a)中與背景相似誤判為藍色安全帽的小目標;場景2 中,面對右側(cè)密集且互相遮擋的小目標,改進后的算法幾乎無漏檢情況;場景3 中,對白色頭發(fā)的目標,改進的算法修正了原算法誤判的白色安全帽的檢測.可以看到改進后的Deep SORT 在跟蹤性能得到改善,可以應對實時檢測中目標被遮擋或多目標、小目標的情況.
圖5 Deep SORT 與改進模型在MOT16-09 測試對比.(a) Deep SORT 在場景 1 的檢測結(jié)果; (b) Deep SORT 在場景 2 的檢測結(jié)果; (c) Deep SORT 在場景 3 的檢測結(jié)果; (d)改進模型在場景 1 的檢測結(jié)果; (e)改進模型在場景 2 的檢測結(jié)果; (f)改進模型在場景 3 的檢測結(jié)果Fig.5 Comparison of Deep SORT and improved Deep SORT in MOT16-09 detection: (a) detection results of Deep SORT in scenario 1; (b) detection results of Deep SORT in scenario 2; (c) detection results of Deep SORT in scenario 3; (d) detection results of improved Deep SORT in scenario 1;(e) detection results of improved Deep SORT in scenario2; (f) detection results of improved Deep SORT in scenario 3
本節(jié)使用五種單階段算法和現(xiàn)有的安全帽識別方法進行對比實驗,表3 列出了5 種算法在GDUT-HWD 數(shù)據(jù)集上的檢測與識別指標.表中的PRed、PWhite、PYellow和PBlue分別代表佩戴紅色、白色、黃色和藍色安全帽的準確率,PNone表示未佩戴安全帽的準確率,P表示模型檢測精度,R為模型召回率,Weight 為模型權重大小,Time 為單張圖片檢測時間,fps 表示模型部署在開發(fā)板Jetson Xavier NX上每秒能檢測的幀數(shù).在輸入端,YOLOv3 系列的圖像分辨率為416×416,YOLOv4 和YOLOv5 圖像分辨率為640×640.YOLOv3-tiny 速度更快,但各項指標均低于其他YOLO 系列模型.YOLOv4 召回率僅為81.1%,在實際檢測中不能檢測到所有安全帽,模型權重237.4 MB,模型訓練時間長且難以部署.在本實驗進行對比的“單階段”算法中,YOLOv5模型為最輕量、檢測效率最好的模型,原模型權重僅有14.2 MB,在測試集平均每張檢測時間2 ms,改進后的DS-YOLOv5 以少量的參數(shù)數(shù)量和計算量為代價,提高了3%的檢測精度,本模型mAP 值和召回率都處于領先地位.
表3 基于GDUT 數(shù)據(jù)集的對比實驗結(jié)果Table 3 Results of comparison experiments based on the GDUT dataset
對比實驗中使用模型在主機上測試單張檢測時間和模型在嵌入式開發(fā)板Jetson Xavier NX 部署測得的fps,對模型效率和實用性進行直觀表示.SSD 和YOLOv4 因網(wǎng)絡結(jié)構和模型過大難以在嵌入式設備進行檢測,YOLOv3-tiny 的檢測速度優(yōu)于YOLOv3 模型,YOLOv4 由于模型過大,難以在開發(fā)板上實現(xiàn)實時檢測.YOLOv5 模型部署后fps 可以達到25,本模型在改進后fps 為18.對于非節(jié)奏極其快速的場景視頻外,fps 達到15 是保持視頻畫面連續(xù)的最低幀率.參數(shù)增加在一定程度影響DSYOLOv5 模型的檢測速度,但仍能達到視頻檢測的需求.
為了驗證DS-YOLOv5 有效性,將DS-YOLOv5模型與研究安全帽檢測工作[8-9,28-29]中所提及的模型在GDUT 測試集上進行對比實驗,從表4 中可以看到,對比其他模型DS-YOLOv5 的mAP 分別提升了10.8%、1.8%、2.4%和9.4%.最新的YOLOXs在準確率上處于領先地位,但本模型的召回率和mAP值最高.模型檢測速度與模型大小決定了模型是否很好地應用于實際場景下,在表4 中可以看到DS-YOLOv5 模型不論是在模型大小、模型參數(shù)或檢測時間上都有明顯優(yōu)勢,模型參數(shù)量小代表模型空間復雜度低,有利于在邊緣化設備進行部署,實驗中YOLO 系列和改進的MobileNet-SSD 網(wǎng)絡參數(shù)量有明顯優(yōu)勢,DS-YOLOv5 模型僅比文獻[9]模型參數(shù)量多0.1 MB.DS-YOLOv5 模型大小為各文獻模型的1%、45%、43%和64%,本模型網(wǎng)絡參數(shù)量較小且性能優(yōu)越,可滿足工業(yè)場景下的實時性要求.
表4 安全帽檢測模型對比實驗Table 4 Results of the comparison of different safety helmet detection models
圖6 給出了幾種復雜環(huán)境下DS-YOLOv5 模型對安全帽佩戴情況檢測與識別結(jié)果.圖中展示被檢測安全帽的檢測框、分類和置信度分數(shù),其中圖6(a)光線不足場景;圖6 (b) 在多個目標互相遮擋場景;圖6(c)由于拍攝距離造成安全帽尺度差異場景,檢測結(jié)果表明DS-YOLOv5 融合多尺度特征對特征學習充分,在圖6 (a)光線不足的環(huán)境下仍能得到正確的檢測結(jié)果,加入改進的Deep SORT有利于應對遮擋情況和尺寸差異較大的目標,在圖6 (b)中正確檢測目標遮擋將近1/2 的None 標簽,在圖6 (c)中三個尺度差異較大的目標能正確檢測并識別.在圖5 中視頻檢測和圖6 中復雜環(huán)境的圖像檢測中,分別展示了包含光線不足、小目標、多目標、遮擋、目標與背景色相似的例子,DSYOLOv5 模型表現(xiàn)穩(wěn)定,可以適應復雜環(huán)境下的安全帽檢測.
圖6 復雜環(huán)境下DS-YOLOv5 對安全帽佩戴情況檢測與識別結(jié)果.(a) 光線不足; (b) 遮擋情況; (c) 目標尺度差異Fig.6 Detection and recognition results of the DS-YOLOv5 model for the wearing of safety helmets in complex environments: (a) underlighting conditions; (b) occlusion conditions; (c) different target scales
本文針對復雜環(huán)境下安全帽佩戴情況的實時檢測與識別任務,以YOLOv5 模型為基礎網(wǎng)絡,提出結(jié)合Deep SORT 多目標跟蹤,融合BiFPN 和Transformer 注意力機制的DS-YOLOv5 安全帽檢測與識別模型.在GDUT-HWD 數(shù)據(jù)集對比實驗和消融實驗結(jié)果表明,DS-YOLOv5 模型可以有效提升安全帽佩戴情況檢測的準確性、魯棒性和實時性.而且,DS-YOLOv5 模型可以有效應對包括亮度變化、多目標等復雜環(huán)境的影響.下一步,我們將對該模型進行輕量化設計并移植到邊緣化設備,以便將其應用于生產(chǎn)和施工現(xiàn)場對安全帽佩戴情況進行實時檢測與識別.