鐘銘恩, 譚佳威, 袁彬淦, 吳志華, 馮妍, 朱程林
(1. 廈門理工學院 機械與汽車工程學院, 福建 廈門 361024;2. 廈門大學 航空航天學院, 福建 廈門 361104)
路口等復雜交通環(huán)境下的二輪機動車違法行為是政府部門提升通行安全的一大障礙.數(shù)據表明,一半以上的交通死亡發(fā)生在弱勢道路使用者中,包括摩托車、電動車載乘人員等,而未規(guī)范佩戴頭盔正是二輪機動車載乘人員發(fā)生事故后死亡的重要原因[1].相較于宣傳教育,行政治理由于其威懾作用而更加直接有效.目前,交管部門主要采用人工攔檢的方式在路口查處此類行為,需耗用大量的人力資源,且易因駕駛員的危險逃竄行為及執(zhí)法人員可能實施的不文明執(zhí)法而阻礙交通,甚至誘發(fā)嚴重事故.因此,如何在目標密集和隨機遮擋頻發(fā)的復雜路口環(huán)境下更科學、高效地檢測和治理二輪機動車乘員不規(guī)范佩戴頭盔的行為,一直是社會各界積極探索的課題.
得益于數(shù)字圖像處理、模式識別等技術的不斷發(fā)展,機器視覺在交通管理和智能交通系統(tǒng)中扮演著越來越重要的角色.近年來,相關研究主要集中于數(shù)據集制備[2-3]和頭盔佩戴檢測算法[4-8]等方面.然而,現(xiàn)有數(shù)據集的場景較為單一且對應算法的泛化能力不足.因此,有必要進一步提出更為復雜、多樣的二輪機動車交通圖像數(shù)據集,以充分體現(xiàn)我國的交通現(xiàn)狀和特點,并探討在該交通條件下提升算法的頭盔佩戴綜合檢測性能的方法.基于此,本文提出一種復雜交通環(huán)境下二輪機動車乘員頭盔檢測算法.
數(shù)據集是研究的前提,鑒于當前公開的二輪機動車交通數(shù)據集的場景相對簡單、交通密度較低、攝像頭視野角度不夠多樣、乘員頭盔較少出現(xiàn)重疊和遮擋等不足,擬自行構建數(shù)據集以增強檢測算法的適應能力.通過運動相機分別采用固定和移動拍攝模式(圖1)在福建省廈門市各路口實景多角度拍攝二輪機動車的交通視頻圖像.通過調整三腳架和自行車上金屬立桿的高度和拍攝角度,充分利用運動相機的防抖和高幀率攝像功能,較好地模擬了交管部門部署于道路上方的監(jiān)控探頭固定視角和警用車輛(警用汽車、警用摩托車)行車記錄儀的移動視角,采集的數(shù)據有利于算法在實際交通場景的大規(guī)模應用.
(a) 固定 (b) 移動
重點考慮在勞動力集中型工業(yè)區(qū)路口進行數(shù)據采集,以提高密集、混合交通圖像數(shù)據的占比,并在不同時段(白天、早高峰、晚高峰和夜間)、不同天氣(晴天、陰天、雨天和霧天)、不同光照(逆光、平光和順光)條件下進行采集,以提高圖像的復雜性和多樣性.拍攝后將圖像分辨率統(tǒng)一調整為800 px×600 px,并使用開源工具Labelimg進行手動標注,標簽為helmet和helmetless.最終構建1個包含5 381張圖像的、能夠較好體現(xiàn)交通目標密集分布和隨機遮擋特點的二輪機動車乘員頭盔佩戴數(shù)據集,并將其命名為XMUT-HELMET.XMUT-HELMET數(shù)據示例,如圖2所示.
圖2 XMUT-HELMET數(shù)據示例
該數(shù)據集中的頭盔多為小目標,且像素尺寸變化范圍較大.采用深度學習技術進行目標檢測時,為使模型先驗框尺寸更加符合數(shù)據特點,加快網絡回歸,降低目標漏檢率,使用K-means++算法對頭盔目標的真實標注框進行聚類.聚類后的先驗框尺寸,如表1所示.
表1 聚類后的先驗框尺寸
目前,學術界和工業(yè)界已涌現(xiàn)諸多經典的算法模型,例如,基于錨框的Faster R-CNN系列、SSD系列和YOLO系列和無需錨框的CenterNet,RetinaNet,以及從屬于不同架構的Vision transformer等[9-16].對比評價這些模型的性能時,更多的是在COCO,PASCAL VOC等大型開源數(shù)據集上進行.然而,針對不同的檢測任務時,不同算法模型的檢測性能很可能發(fā)生變化.
主流算法模型在XMUT-HELMET數(shù)據集上的檢測指標,如圖3所示.圖3中:Pma為平均準確率;Q為模型的參數(shù)量[17].由圖3可知:YOLOv4,YOLOv7的平均準確率明顯優(yōu)于其他算法,對圖片中密集分布和隨機遮擋的小尺度頭盔目標的檢測效果較好;YOLOv7的平均準確率比YOLOv4略低,但參數(shù)量卻減少了約50%,故選取YOLOv7作為基線參考模型,進一步對特征提取主干網絡、特征融合結構和檢測頭等3個模型組成部分進行替換或改進,以提高平均準確率,使其在XMUT-HELMET數(shù)據集上達到最高水平(SOTA).
圖3 主流算法模型在XMUT-HELMET數(shù)據集上的檢測指標
YOLOv7主干網絡由CBS,ELANB,MPConv和SPPCSPC等模塊堆疊而成,這一復雜的結構對于多個類別的公共數(shù)據集目標檢測任務的適應能力較強,但對僅有兩個類別的二輪機動車頭盔檢測任務則存在大量冗余參數(shù)和運算量.為了便于在邊緣設備上進行部署,使用輕量級網絡進行替換(改進1),以壓縮整體資源占用量.
EfficientNet[17]是一種輕量級網絡,具有特征提取能力強、浮點運算量(FLOPs)和參數(shù)量較小的特點[18].該網絡共有EfficientNet-B0~EfficientNet-B7等8種結構,這些結構是類似的,但參數(shù)量和浮點運算量存在較大差異.EfficientNet的參數(shù)量和浮點運算量[19],如表2所示.由表2可知:EfficientNet系列模型的參數(shù)量和浮點運算量從EfficientNet-B4開始大幅增加,導致網絡的訓練和調用難度也隨之增加.因此,選擇具有優(yōu)良特征抽取能力的EfficientNet-B3作為主干網絡,可有效降低模型參數(shù)量,滿足交管部門在警用車輛、監(jiān)控探頭等設備上的部署需求.
表2 EfficientNet的參數(shù)量和浮點運算量[19]
YOLOv7的特征融合結構通過拼接等多種操作,可充分利用二輪機動車附近區(qū)域的高低維語義信息,但也易使感受野過小,從而忽略頭盔底層邊緣信息,造成模型在密集、遮擋等不利條件下漏檢小目標頭盔.為了提高模型對復雜交通場景小目標頭盔的檢測能力,降低漏檢率,在特征融合結構中引入增大感受野模塊(RFB)[20](改進2).不同層數(shù)的感受野RFn+1為
(1)
式(1)中:n為層數(shù);k為卷積核尺寸;s為步長.
RFB從卷積核尺寸著手,使用不同膨脹率的多分支空洞卷積,有效地增大卷積核,從而達到模擬人類視覺,增大感受野的目的.RFB結構,如圖4所示.將RFB引入模型第1個負責小尺寸頭盔檢測的低維特征分支,防止細粒度特征(如頭盔顏色、橢圓形邊緣等)語義信息的丟失.
YOLOv7中的檢測頭先使用RepConv對特征融合結構的輸出進行提煉,再進行頭盔目標框的特征解碼.鑒于二輪車頭盔檢測場景的復雜性和強干擾性,若能在特征解碼前使用注意力機制糾正網絡感興趣區(qū)域偏差,從大量全局信息中獲取頭盔重點關注區(qū)域,則能進一步降低模型漏檢率和誤檢率.
常用的注意力機制有高效的通道注意力(ECA)[21]等,它們大多是單一地對通道或空間的神經元進行權重學習,進行權值分配時往往會缺失某些必要特征(如頭盔輪廓信息等),而SimAM[22]機制能更好地模擬視覺信號處理過程,使通道和空間注意力協(xié)同工作,從而對乘員頭盔主要特征區(qū)域進行強調,對馬路、紅綠燈和公交站臺等背景次要干擾特征進行抑制,且SimAM機制不會引入額外的參數(shù),有利于實際部署.SimAM機制的操作主要由能量值計算(CEV)和特征加權(WF)兩部分組成,首先,通過CEV操作獲取單個通道中神經元的能量值,再基于該能量值使用WF操作,對輸入的圖像特征進行加權,CEV操作的描述為
(2)
WF操作的描述為
(3)
綜合上述參考模型和改進內容,提出二輪機動車乘員頭盔檢測算法(文中算法),用于實現(xiàn)密集目標和隨機遮擋情況下的二輪機動車乘員頭盔佩戴檢測.二輪機動車頭盔檢測算法模型的整體結構,如圖5所示.該模型分為主干網絡、特征融合結構和檢測頭3個部分.主干網絡EfficientNet-B3通過多個模塊的堆疊不斷提取輸入圖像特征,首先,是一個包含BN和Swish激活函數(shù)的3×3卷積層,然后,是7個重復堆疊的MBConv結構,最后,是1個由1×1卷積層和1個平均池化層組成的CP模塊.特征融合結構中沿用了YOLO系列模型的FPN和PANet結構思想,先進行上采樣擴大特征圖尺寸,再使用池化的方式提煉上、下文特征,并通過跨層連接將它們合并,最后得到用于預測的有效特征.檢測頭基于預先設定好的交并比(IoU)閾值和置信度閾值進行非極大值抑制,以得到較好的頭盔檢測結果.
圖5 二輪機動車乘員頭盔檢測算法的整體結構
考慮到交管部門的應用需求,選擇準確率(P)、召回率(R)、Pma(IoU=0.5)、參數(shù)量、浮點運算量和幀率作為模型性能的評估指標. 準確率表示預測樣本中實際正樣本數(shù)占所有正樣本數(shù)的比例;召回率表示預測樣本中實際正樣本數(shù)占所有預測的樣本數(shù)的比例;參數(shù)量和浮點運算量反映模型占用資源的大小;幀率反映模型推理速度.Pma的計算原理為
(4)
(5)
(6)
式(4)~(6)中:Pa為單個類別的平均精度;TP為真正例,表示實際為正例且被分類器劃分為正例的樣本數(shù);FP為假正例,表示實際為負例,但被分類器劃分為正例的樣本數(shù);FN為假反例,表示實際為正例,但被分類器劃分為負例的實例數(shù).
實驗基于Windows 10×64平臺,且通過Python語言編程實現(xiàn),使用深度學習框架Pytorch 1.8.0搭建網絡模型.CPU為Intel(R) Core(TM) i7-10700K CPU@3.80 GHz,內存為32 GB,GPU為NVIDIA RTX3090,顯存為24 GB.
模型訓練時,設置批尺寸為12,初始學習率為0.001,使用EfficientNet-B3預訓練權重進行遷移學習.訓練的平均準確率和損失(l)曲線,如圖6所示.經過100個輪次(e)的訓練后,YOLOv7的平均準確率為87.10%,而文中算法的平均準確率達到90.36%,提升了3.26%,損失降至3.92.
(a) 平均準確率曲線 (b) 損失曲線
在相同的訓練設備和參數(shù)配置下,使用XMUT-HELMET數(shù)據集分別對YOLOv7和文中算法進行訓練,訓練后使用測試集中的圖片進行推理.YOLOv7和文中算法檢測結果對比,如圖7所示.
(a) 圖片1 (b) 圖片2 (c) 圖片3
由圖7可知:在交通密集和隨機遮擋場景下,通過YOLOv7進行頭盔檢測的效果不甚理想,魯棒性較差,如圖7(a)中間有一個佩戴黃色頭盔的騎行人員被部分遮擋,導致漏檢,圖7(b)左側有一個正常佩戴頭盔的騎行人員被座位后方人員遮擋,導致其被誤檢,圖7(c)的左側有一個未佩戴頭盔的騎行人員被立柱式紅綠燈部分遮擋,右側有一個正常佩戴頭盔的人員被密集分布的其他人員遮擋,這均被YOLOv7忽略,而文中算法在這些情況下依然具備優(yōu)良的檢測能力.
為了分析改進1~改進3對模型檢測效果的影響,進行消融實驗(實驗A~實驗C),結果如表3所示.由表3可知以下3個結論:1) 采用EfficientNet-B3作為主干特征提取網絡后,準確率、召回率、平均準確率分別提升了1.69%,0.29%,1.98%,最主要的是模型的參數(shù)量和浮點運算量分別減少了26.55 MB和34.45×109,幀率提升了17.54 F·s-1;2) 在特征融合結構中引入RFB后,準確率提升較少,僅為0.28%,但召回率增加了1.67%,說明模塊對小尺度、部分被遮擋的頭盔的檢測效果較好,降低了漏檢率;3) 在檢測頭部分引入SimAM機制后,準確率、召回率和平均準確率分別增加了0.87%,0.30%和0.61%,算法排除無關干擾的能力有所提升.
表3 消融實驗結果
綜合這3項改進,文中算法實現(xiàn)了提升目標檢測效果、降低參數(shù)量和運算量的目的,這有利于將該算法部署于智能交通設施等邊緣設備中.
為進一步驗證文中算法的先進性,選用Faster R-CNN,SSD,YOLOv3,YOLOv4,YOLOv5,YOLOv7,CenterNet,RetinaNet,Vision transformer-DETR,Swin Transformer-Mask RCNN[24]等算法與文中算法進行對比實驗,結果如表4所示.由表4可知:文中算法在準確率、召回率、平均準確率、浮點運算量和幀率上都達到了當前最佳值,僅在模型參數(shù)量上為次優(yōu)(12.330 MB),比其他算法更具有優(yōu)越性;文中算法的參數(shù)量和浮點運算量分別為YOLOv7的33.1%,23.5%,相較于YOLOv7,準確率、召回率、平均準確率分別提高了2.84%,2.26%,3.26%.
表4 各模型檢測性能對比
此外,為驗證文中算法在邊緣設備上的部署能力,在NVIDIA Jetson Nano開發(fā)板上進行實驗.該開發(fā)板采用4核64位ARM CPU和128核集成NVIDIA GPU,提供每秒浮點運算量為472×109的計算性能.結果顯示,文中模型的平均準確率為90.24%,幀率達到47.58 F·s-1,而同等情況下YOLOv7的平均準確率為86.98%,幀率為18.05 F·s-1,說明文中算法能在計算資源有限的情況下實現(xiàn)較為準確、快速的推理,具備優(yōu)良的輕量化部署能力.
為了實現(xiàn)密集目標和隨機遮擋下頭盔佩戴情況快速、準確的檢測,制作二輪機動車在復雜交通環(huán)境下的圖像數(shù)據集,并以此為基礎參考YOLOv7提出一種輕量級的二輪機動車乘員頭盔檢測算法.實驗結果表明,在該數(shù)據集上的頭盔佩戴檢測任務中,文中算法在準確率、召回率、平均準確率、浮點運算量和幀率上都達到了當前最佳,并在邊緣設備上有更好的部署能力,有利于在現(xiàn)有智能交通設施或警用車輛上應用推廣.然而,從實驗結果來看,文中模型的參數(shù)量仍高于YOLOv5,存在進一步優(yōu)化的空間.未來將采取模型剪枝、量化和蒸餾等措施,進一步縮減參數(shù)量.此外,文中模型對檢出目標的置信度不高,這可能是因為稠密交通環(huán)境下二輪機動車背景對模型推理過程仍存在較大干擾,今后將借助CAM熱力圖等手段,探究模型推理過程的可解釋性,并使用其他有效策略對模型進行進一步優(yōu)化.