孟彩霞,王兆楠,石 磊,高宇飛,衛(wèi) 琳
1(鄭州大學 計算機與人工智能學院,鄭州 450001) 2(鄭州大學 網(wǎng)絡(luò)空間安全學院,鄭州 450002) 3(鐵道警察學院 圖像與網(wǎng)絡(luò)偵查系,鄭州 450053)
鐵路是國家經(jīng)濟大動脈、國家重要基礎(chǔ)設(shè)施和大眾運輸工具,鐵路沿線的安全環(huán)境直接關(guān)系到鐵路運輸?shù)陌踩晚槙尺\行.隨著鐵路的快速發(fā)展,鐵路覆蓋地形不斷增加,形成了復雜的列車運行環(huán)境,列車運行速度的不斷提高使得制動距離越來越大,鐵路沿線行人非法進入、機動車越過道口等異物的入侵會對列車安全行駛造成嚴重威脅.隨著鐵路交通行業(yè)對列車的行駛安全要求逐漸的提高,對異物的入侵檢測一直是研究人員的研究重點[1],有效的入侵檢測方法對鐵路運營的安全具有重要意義.
目前鐵路入侵檢測主要有接觸式檢測和非接觸式檢測兩類方法[2].接觸式檢測需要大量硬件的支持,安裝麻煩,不適合大規(guī)模使用,并且當設(shè)備檢測到異物入侵時不能進行及時的處置,會嚴重影響列車的正常行駛.計算機視覺是一種有效的非接觸式入侵檢測方法,廣泛應用于鐵路環(huán)境,具有易于維護和結(jié)果直觀的優(yōu)點,但鐵路環(huán)境的復雜多變性以及惡劣天氣的干擾會導致誤報問題.隨著深度學習算法的發(fā)展,可以一定程度上實現(xiàn)高檢測精度和低誤報率,然而深度學習算法速度慢,占用內(nèi)存大,需要高性能計算機的支持.鐵路上的攝像頭很多,但鐵路入侵現(xiàn)象比較稀少,大量使用高性能計算機并不經(jīng)濟.在復雜的鐵路場景中需要一種高效的鐵路入侵檢測方法.
為了解決這些問題,本文提出了一種基于改進YOLOv5s算法的鐵路異物入侵檢測方法,稱為SD-YOLO,可以有效地檢測復雜鐵路場景中的異物入侵.該方法準確率高、誤報率低、速度快.本文的主要貢獻如下:
1)提出一種Spartial空間注意力與SENet通道注意力串聯(lián)的SSA混合注意力機制.有效提高局部表征能力,融合了多感受野,信息更加豐富,使特征覆蓋到待識別物體的更多部位,更好地擬合相關(guān)特征信息,增強對小目標的關(guān)注程度,提高模型對小目標識別的效果;
2)提出一種DW-Decoupled Head解耦檢測頭,采用混合通道策略來構(gòu)建更高效的解耦頭部.相比較于非解耦的端到端方式,DW-Decoupled Head解耦檢測能加快網(wǎng)絡(luò)收斂速度,降低了計算成本,實現(xiàn)更快的推理速度;
3)引入一種更平衡的回歸損失函數(shù)SIoU,考慮真實框與預測檢測框之間不匹配的方向,加快模型收斂速度;另外使用轉(zhuǎn)置卷積作為采樣方法,采樣更適合鐵路軌道侵限障礙物特征的尺寸和比例;
4)提出RS鐵路入侵異物數(shù)據(jù)集.目前沒有公開的鐵路入侵異物數(shù)據(jù)集,因此本文提出并公開RS鐵路入侵異物數(shù)據(jù)集,選擇行人、汽車、自行車作為主要異物進行研究實驗.
入侵檢測是鐵路安全的一個活躍研究課題.目前對列車異物侵入的檢測方法分為兩類:接觸型和非接觸型.其中,接觸型主要采用傳感技術(shù),通過設(shè)置傳感器來判定異物是否侵入,此類方法實現(xiàn)了物理防護,但易受到外部環(huán)境的干擾、安裝成本高.
基于卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法是一種有效的非接觸式入侵檢測方法,廣泛應用于鐵路環(huán)境,分為單階段算法和雙階段算法[3].常見的單階段算法包括YOLO系列[4-6]、SSD[7]、RetinaNet[8]等等.One-stage算法將定位和分類視為一個回歸問題,實現(xiàn)了端到端的檢測,檢測速度較快,但其基于Anchor機制的方法會生成大量矩形候選框,而且檢測到目標的候選框數(shù)量較少,造成了候選框冗余現(xiàn)象,降低了算法檢測性能.常見的雙階段算法包括 R-CNN[9]、Fast R-CNN[10]、Faster R-CNN[11]等等.雙階段算法首先篩選出所有正樣本,生成感興趣區(qū)域(Region of Interest,ROI),然后在第2階段對前一階段生成的感興趣區(qū)域進行區(qū)域分類和位置細化,進而調(diào)整邊界框.整個過程需要進行重復檢測、分類和位置細化,導致檢測速度較慢,但檢測精度較高.
傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的目標檢測算法在實際應用中參數(shù)量較大,運行速度慢.目前有很多學者采用深度學習的方法對鐵路異物入侵檢測進行了研究.He和Ren等人[12]提出了一種基于改進R-CNN的列車障礙物檢測方法,通過在 R-CNN 的架構(gòu)中引入新的上采樣并行結(jié)構(gòu)和上下文提取模塊,達到了90.6%的精度;He等人[13]使用改進Mask R-CNN軌道交通障礙物檢測方法,提出新的特征提取網(wǎng)絡(luò)并綜合多種多尺度增強方法,提高小目標物體的檢測能力.以上這些方法都是基于雙階段檢測方法,增加感受野,結(jié)合淺層特征與深層特征進行多尺度特征融合的方式,提高了目標檢測的能力,但Region Proposal網(wǎng)絡(luò)存在無法實時檢測的問題.張等人[14]提出一種基于YOLOv3網(wǎng)絡(luò)改進的高鐵異物入侵的檢測算法,該算法通過改進FPN結(jié)構(gòu),增強提取特征的能力,減少了目標檢測的誤報,但FPS較低,滿足不了實時檢測的要求;文獻[15]提出一種基于YOLOv3的輕量級自適應多尺度特征融合對象檢測網(wǎng)絡(luò),采取輕量級特征提取模塊和增強自適應特征融合模塊,提高了復雜環(huán)境下的目標檢測性能,尤其是對小物體具有較高的檢測精度,但這項工作基于YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)進行,目前有性能更好、速度更快、被工業(yè)界廣泛使用的YOLOv5算法,可以基于YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)繼續(xù)研究,不斷得到最適合復雜環(huán)境下的鐵路入侵檢測算法,提升檢測性能.
為滿足鐵路異物入侵檢測實時性與準確性的需求,本文以同時具有良好的準確性和實時性的YOLOv5作為基本網(wǎng)絡(luò),提出一種基于 YOLOv5s 網(wǎng)絡(luò)改進的鐵路異物入侵檢測方法.YOLOv5網(wǎng)絡(luò)模型分為輸入端,Backbone骨干網(wǎng)絡(luò),Neck特征融合和檢測輸出端.輸入端采用Mosaic數(shù)據(jù)增強方法,隨機選取4張圖片進行裁剪,然后拼接成一張指定分辨率的圖像;Backbone骨干網(wǎng)絡(luò)采用跨階段局部網(wǎng)絡(luò)(Cross Stage Partial Network,CSPNet)[16]架構(gòu)網(wǎng)絡(luò)進行特征提取,顯著減少參數(shù)和計算量,并提升速度;Neck特征融合部分采用特征金字塔網(wǎng)絡(luò)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[17],將主干網(wǎng)絡(luò)提取到的深層特征上采樣,與淺層信息逐元素地相加,構(gòu)建尺寸不同的特征金字塔結(jié)構(gòu),獲取到豐富的特征信息;YOLO檢測頭部分的3個檢測層分別負責預測大目標、中目標和小目標,檢測結(jié)果包括目標的定位信息、對象信息和類別信息.本文針對YOLOv5網(wǎng)絡(luò)架構(gòu)的輸出特征方式、上采樣方式、邊框回歸損失函數(shù)等進行改進,提升算法對遠且小的入侵異物的特征提取能力,進一步降低鐵路侵限檢測的誤報率和漏檢率.
SD-YOLO算法在YOLOv5s網(wǎng)絡(luò)基礎(chǔ)上通過加入一種通道注意力與空間注意力串聯(lián)的SSA混合注意力機制,提取全局上下文信息來增強對小目標特征的挖掘,從而提高對圖像中小目標的識別;加入更加高效的DW-Decoupled Head解耦檢測頭來提取有用的位置信息,采用混合通道策略來構(gòu)建更高效的解耦頭部,加快網(wǎng)絡(luò)收斂速度;加入更平衡的邊界框回歸損失函數(shù)SIoU,考慮真實框與預測檢測框之間不匹配的方向,加快模型收斂速度;另外使用轉(zhuǎn)置卷積作為采樣方法,采樣更適合鐵路入侵異物特征的尺寸和比例.SD-YOLO算法模型如圖1所示.
圖1 SD-YOLO算法模型Fig.1 SD-YOLO algorithm model
在YOLOv5特征融合路徑聚合網(wǎng)絡(luò)中,卷積層的通道數(shù)多達上百層,會導致重要特征不明顯.為了兼顧網(wǎng)絡(luò)模型的輕量化、模型精度問題以及小目標的誤檢、漏檢問題,本文提出了SSA混合注意力模塊.在YOLOv5模型的Neck網(wǎng)絡(luò)中加入SSA混合注意力,通過學習不同通道的重要性、目標的空間位置信息與類別信息,為特征圖的通道、空間位置添加權(quán)重信息,使特征覆蓋到待識別物體的更多部位,增強對小目標的關(guān)注程度,提高小目標的識別效果.混合注意力模塊可分為兩個部分,空間注意力模塊(Spartial Attention Module,SAM)與通道注意力模塊(Squeeze-and-Excitation Networks,SENet)[18],分別在特征圖的空間維度與通道維度實現(xiàn)注意力機制.本文所使用的SSA混合注意力模塊如圖2所示,其中SAM與SENet模塊如圖2(a)、圖2(b)所示.
圖2 SSA混合注意力模塊Fig.2 SSA hybrid attention module
其中,Ftr表示卷積操作,Fex表示激勵映射,Ssq表示壓縮映射,Fscale表示通過乘法逐通道加權(quán)到先前的特征上.
如圖2(a)所示,卷積層輸出的結(jié)果先通過SAM空間注意力模塊,首先在對特征圖進行最大池化和平均池化操作,將C×W×H的特征圖壓縮成1×W×H的信息,然后通過帶有注意力權(quán)重的卷積來提取注意力信息,最后把得到的空間注意力矩陣對應相乘原特征圖得到新的特征圖.
如圖2(b)所示,得到空間注意力加權(quán)結(jié)果之后,再經(jīng)過一個SENet通道注意力模塊,輸入一個特征通道數(shù)為C的特征圖,通過一系列卷積變換后得到一個特征通道數(shù)為C′的特征,最終進行加權(quán)得到最終提取的特征信息.卷積變換依次為Squeeze 操作、Excitation 操作、Reweight 操作.首先將特征圖沿通道維度劃分為若干個區(qū)域,然后通過卷積壓縮和激勵分配通道權(quán)重,可以顯式地建模特征通道間的相關(guān)性最后以殘差的形式輸出聚合特征.區(qū)域劃分的目的是綜合利用特征圖的區(qū)域信息為通道分配權(quán)重.
如圖2(c)所示,SSA混合注意力由通道注意力與空間注意力串聯(lián)組成,使全局信息充分發(fā)揮作用,更好的擬合相關(guān)特征信息,提高模型對小目標識別的效果.
在鐵路復雜背景和多類別目標的干擾下,目標的識別任務(wù)更具有挑戰(zhàn)性.互相遮擋的目標需要精確的定位信息來確定各自的位置.為了提高定位和分類的精確度,本文提出DW-Decoupled Head解耦檢測頭對目標進行預測,為定位與分類任務(wù)解耦出單獨的特征通道,用于邊界框坐標回歸和對象分類.
如圖3所示,DW-Decoupled Head解耦檢測頭對輸入特征圖使用1×1卷積降低通道維數(shù),以減少參數(shù)量的產(chǎn)生.然后特征圖輸出分為兩條支路,一條支路負責分類任務(wù),通過3×3的Depthwise Convolution提取特征,再使用1×1的卷積將特征圖的通道維數(shù)調(diào)整至預測目標的類別數(shù)量,在該特征圖上完成分類任務(wù);另一條支路負責定位任務(wù),使用3×3 Depthwise Convolution提取特征,提取特征后將特征圖分為兩個,一個預測邊界框的中心坐標以及框的高度和寬度,另一個則獲取目標的置信度分數(shù)判斷該點真實目標框與預測框的交并比.
圖3 耦合頭與 DW-Decoupled HeadFig.3 Couple Head and DW-Decoupled Head
相比耦合檢測頭直接將多種信息集成在一個特征圖,本文提出的DW-Decoupled Head解耦頭能夠有效的避免不同任務(wù)需求不同特征信息的沖突,加強定位和分類的能力;同時解耦頭通過深度以及廣度的操作能很好的保留各個通道信息,降低計算開銷,能加快網(wǎng)絡(luò)收斂速度,實現(xiàn)更快的推理速度.
YOLOv5模型中邊界框回歸損失函數(shù)為CIoU:
(1)
(2)
(3)
其中IoU是預測框和真實框之間的交集和并集之比,b是預測的中心點,bgt是真實框的中心點,ρ表示的是歐氏距離,c表示預測框和真實框所構(gòu)成的外接矩形對角線長度,α表示權(quán)重系數(shù), v表示預測框和真實框之間的長寬比差異.
CIoU沒有考慮真實框與預測檢測框之間不匹配的方向,導致收斂速度較慢且效率較低.因此引入一種更為均衡的損失函數(shù)SIoU[19],加入了回歸之間的向量角度,重新定義了懲罰指標,有效降低了回歸的自由度,加快網(wǎng)絡(luò)收斂,進一步提升了回歸精度.SIoU由4個Cost函數(shù)組成.
1) 角度損失Angle_Cost最大限度地減少與距離相關(guān)的變量數(shù)量.公式為:
(4)
其中σ為真實框和預測框中心點的距離,ch為真實框和預測框中心點的高度差.
2) 距離損失Distance_Cost盡可能探索不同的邊界框在不同中心的距離.公式為:
(5)
(6)
3) 形狀損失Shape_Cost代表預測框的中心位置相對于真實框中心的偏差,努力取得最優(yōu)的預測框.公式為:
(7)
(8)
其中w,h,wgt,hgt分別為預測框和真實框的寬和高,θ控制對形狀損失的關(guān)注程度.
4) IoU_Cost是預測框和真實框之間的交集和并集之比.公式為:
(9)
最后,回歸損失函數(shù)SIoU為:
(10)
YOLOv5的上采樣使用最鄰近插值法,該方法選用單像素點的灰度值代替源圖像中與其最鄰近像素的灰度值,算法簡單、易于實現(xiàn)且速度較快,但是在上采樣時會產(chǎn)生色塊現(xiàn)象,從而導致特征丟失,會降低小目標的檢測精度[20].與最鄰近插值法相比,轉(zhuǎn)置卷積的上采樣方式具有可學習的參數(shù),可通過網(wǎng)絡(luò)學習來獲取最優(yōu)的上采樣方式,得到的特征圖更加細膩,細節(jié)的損失更少,采樣到更適合鐵路軌道侵限障礙物特征的尺寸和比例,于是本文將上采樣方法改為轉(zhuǎn)置卷積.卷積操作與轉(zhuǎn)置卷積操作如圖4所示.
圖4 卷積操作與轉(zhuǎn)置卷積操作Fig.4 Convolution operation and transposed convolution operation
圖4(a)為卷積操作過程的示意圖.輸入尺寸為4×4的特征圖在經(jīng)過卷積操作之后輸出尺寸為2×2的特征圖,卷積操作的卷積核尺寸為3×3,移動步長為1.
卷積操作公式為:
(11)
其中,w1表示輸入尺寸,f表示卷積核尺寸,s表示步長,p表示卷積過程中的填充值,?·」表示向下取整操作.
圖4(b)為轉(zhuǎn)置卷積操作過程的示意圖.表示輸出尺寸為2×2的特征圖,經(jīng)過轉(zhuǎn)置卷積操作得到與卷積輸入相同尺寸的特征圖實現(xiàn)上采樣.
轉(zhuǎn)置卷積操作公式為:
(12)
具體實驗環(huán)境如表1所示.
表1 實驗環(huán)境Table 1 Experimental environment
在模型訓練過程中,為減小模型陷入局部最優(yōu)的可能性,使用隨機梯度下降(Stochastic GradientDescent,SGD)優(yōu)化器,同時為了加速網(wǎng)絡(luò)收斂,使用官方提供的基于COCO數(shù)據(jù)集訓練的預訓練權(quán)重作為初始權(quán)重,將網(wǎng)絡(luò)訓練的初始學習率設(shè)為0.01,動量因子設(shè)為0.937,權(quán)重衰減設(shè)為0.0005,超參數(shù)使用hyp.scratch-low,批次大小batch-size設(shè)為16,共訓練250輪.
為了評估本文改進的目標檢測算法的優(yōu)越性,本研究使用RS鐵路入侵異物數(shù)據(jù)集進行主要實驗,并使用公開的PASCAL VOC 2012數(shù)據(jù)集[21]輔助實驗驗證.
當前沒有公開的鐵路入侵異物數(shù)據(jù)集,因此自制鐵路入侵異物數(shù)據(jù)集RS.數(shù)據(jù)集來源為互聯(lián)網(wǎng)和鐵路監(jiān)控真實圖片.行人、汽車、自行車3類目標是在鐵路異物入侵事件中最常發(fā)生的,所以本文以行人、汽車和自行車3類目標研究實驗.RS數(shù)據(jù)集共6000張圖片,其中訓練集4000 張,驗證集1000張,測試集 1000 張,大小尺寸基本與600×800一致.同時人為挑選數(shù)據(jù)集中含有3類目標的圖片,使樣本數(shù)量均衡.其中訓練集與驗證集的圖片來自于互聯(lián)網(wǎng),測試集的圖片來自于真實鐵路監(jiān)控下的異物入侵場景,測試集中的各個類別也保持相對均衡.RS數(shù)據(jù)集示例如圖5所示.PASCAL VOC 2012數(shù)據(jù)集是一個包含類別豐富的數(shù)據(jù)集,包含4個大類和20個小類,共17125張圖片,其中訓練集13700張,驗證集1713張,測試集1712張.PASCAL VOC 2012數(shù)據(jù)集示例如圖6所示.本文提出的SD-YOLO算法模型分別在RS數(shù)據(jù)集和PASCAL VOC 2012數(shù)據(jù)集的訓練集和驗證集上進行訓練,在測試集上測得最終的平均精度和檢測速度.
圖5 RS數(shù)據(jù)集示例Fig.5 RS dataset example
圖6 PASCAL VOC 2012數(shù)據(jù)集示例Fig.6 PASCAL VOC 2012 dataset example
實驗采用精度(Precision,P)、召回率(Recall,R)、所有類別平均精度值(mean Average Precision,mAP)、參數(shù)量(Parameters)、浮點運算次數(shù)(Giga Floating-point Operations Per Second,GFLOPS)、每張圖片的推理時間(Inference)、每秒檢測幀數(shù)(Frames Per Second,FPS)性能指標評估本文所提算法的性能.公式分別表示為:
(13)
(14)
(15)
(16)
其中:TP表示模型預測的結(jié)果積極是準確的,FP表示模型預測的結(jié)果積極是錯誤的,FN表示模型預測的結(jié)果消極是錯誤的.平均精度AP(Average Precision)為PR曲線下的面積,平均精度平均值(Mean Average Precision)衡量全部類別下的AP的均值.mAP@0.5表示IoU設(shè)為0.5時的平均精確度,mAP@0.5∶.95表示IoU從0.5到0.95,步長為0.05時的平均精確度.FPS表示網(wǎng)絡(luò)模型每秒能檢測的圖片數(shù)量,即網(wǎng)絡(luò)檢測速度.
混合注意力模塊由Spatial空間注意力子模塊與SENet通道注意力子模塊串聯(lián)組成,使全局信息充分發(fā)揮作用,更好的擬合相關(guān)特征信息,提高模型對小目標識別的效果.為了探究SSA混合注意力子模塊中通道注意力和空間注意力兩個模塊的不同組成以及不同串行順序的效果,本文在RS數(shù)據(jù)集上進行實驗對比.實驗結(jié)果如表2所示.
表2 注意力子模塊中不同組成和串行順序的實驗Table 2 Experiments on different compositions and serial sequences in attention sub-modules
從實驗中可以看出空間注意力Spatial與通道注意力SENet順序串行表現(xiàn)的效果最好,平均精度mAP@0.5與mAP@0.5∶.95分別提升了1.1%和1.5%,并且處理每張圖片的速度也有所提升,達到了90 FPS,證明了所提出的混合注意力模塊對網(wǎng)絡(luò)提取特征的有效性.因此將空間注意力Spatial與通道注意力SENet串聯(lián)組成的混合注意力命名為SSA混合注意力機制.
為了對比驗證提出的SSA混合注意力模塊的有效性與泛化性,本文在RS數(shù)據(jù)集與PASCAL VOC 2012數(shù)據(jù)集上分別設(shè)置5組對比試驗實驗,對比提出SSA混合注意力與4種主流使用的注意力模塊的效果.實驗結(jié)果如表3和表4所示,在兩個數(shù)據(jù)集中平均精度mAP@0.5分別提升了1.1%和0.6%,mAP@0.5∶.95分別提升了1.5%與0.6%,同時還保持了良好的檢測速度,保證了實時檢測的性能,證明了本文提出的SSA混合注意力模塊具有有效性與廣泛適用性.
表3 不同注意力機制在RS數(shù)據(jù)集上的對比實驗Table 3 Comparative experiment of different attention mechanisms on RS dataset
表4 不同注意力機制在PASCAL VOC 2012數(shù)據(jù)集上的對比實驗Table 4 Comparative experiment of different attention mechanisms on PASCAL VOC 2012 dataset
為了更加直觀的說明本文所提出的SSA混合注意力模塊的效果,采用Grad-CAM(Gradient-weighted Class Activation Map)[22]對本文提出的SD-YOLO網(wǎng)絡(luò)模型的訓練權(quán)重進行視覺可視化,其輸出網(wǎng)格的每個位置表示該類別的重要程度.通過Grad-CAM繪制不同注意力模塊的熱力圖,呈現(xiàn)圖片中每個位置與該類別的相似程度,與之相似程大特征就顯的越集中.如圖7所示,對本文提出的SSA混合注意力機制與主流注意力機制進行熱力圖效果對比,明顯可以看出SSA混合注意力機制的對人這個目標的關(guān)注區(qū)域中熱力特征更為集中,并且對不相關(guān)特征的關(guān)注度更低,沒有過多的非相關(guān)特征區(qū)域,證明SSA混合注意力真正地提取出了積極有效的特征.
圖7 各種注意力機制熱力對比效果圖Fig.7 Thermal contrast effect diagram of various attention mechanisms
SD-YOLO對YOLOv5s網(wǎng)絡(luò)模型的注意力機制、輸出特征方式和上采樣方式進行了改進,同時引入了更加平衡的邊界框回歸損失函數(shù)SIoU.為評估本文提出的模塊或引入的模塊和不同模塊的組合順序?qū)τ谒惴ㄐ阅軆?yōu)化的程度,設(shè)計了一系列消融實驗.同時為了證明本文所提算法在不同數(shù)據(jù)集場景下的泛化性能,本文的消融實驗在自制的鐵路入侵檢測數(shù)據(jù)集RS和PASCAL VOC 2012數(shù)據(jù)集上分別進行,兩組消融實驗結(jié)果分別如表5、表6所示.
表5 SD-YOLO在RS數(shù)據(jù)集上的消融實驗Table 5 Ablation experiment of SD-YOLO on RS dataset
表6 SD-YOLO在PASCAL VOC 2012數(shù)據(jù)集上的消融實驗Table 6 Ablation experiment of SD-YOLO on PASCAL VOC 2012 dataset
“√”表示在YOLOv5s網(wǎng)絡(luò)模型的基礎(chǔ)上加入該方法,從兩個表中可以看出,本文所提出的4個改進方法在RS數(shù)據(jù)集和PASCAL VOC 2012數(shù)據(jù)集上檢測精度都有不同程度的提升.通過設(shè)置的10組消融實驗,每次增加一種改進方法都分別提升了檢測精度,證明了本文所提出的不同改進方法組合的有效性.本文提出的SD-YOLO算法相較于原始 YOLOv5s,在RS數(shù)據(jù)集和 PASCAL VOC 2012數(shù)據(jù)集上平均檢測精度mAP@0.5分別提高了2.7%、1.8%,mAP@.5:.95分別提高了2.9%、2.1%,檢測速度分別達到79 FPS和78 FPS,在耗費極少參數(shù)量與浮點運算次數(shù)的條件下有著更高的檢測精度,同時能夠很好地保持算法實時性.通過在兩個數(shù)據(jù)集上的實驗證明了本文所提算法在通用檢測領(lǐng)域具有較好的泛化性和有效性,也進一步證明了本文所提算法能夠更好地處理復雜鐵路背景下的異物入侵檢測問題.
為了評估本文所提算法模型SD-YOLO的先進性與有效性,本文將最終提出的算法與原YOLOv5s算法、SSD、Faster R-CNN、YOLOv3、YOLOv4-tiny[23]、YOLOv4[24]、YOLOv5m、YOLOX-tiny[25]、YOLOX-S[25]、YOLOv6-tiny[26]、YOLOv7-tiny[27]算法在RS數(shù)據(jù)集上進行實驗對比,實驗結(jié)果如表7所示.
表7 不同目標檢測算法在RS數(shù)據(jù)集上的對比實驗Table 7 Comparative experiment of different target detection algorithms on RS dataset
從表7不同目標檢測算法在RS數(shù)據(jù)集上的對比實驗結(jié)果可以看出,本文提出的SD-YOLO算法相較于其他主流的算法模型,有著最高的檢測精度.其中相較于同一個網(wǎng)絡(luò)結(jié)構(gòu)的YOLOv5m網(wǎng)絡(luò),本文所提算法比YOLOv5m參數(shù)少130%,檢測精度高了0.5%;相較于檢測速度較為相近的YOLOv5s算法以及YOLOv3算法,本文所提算法的檢測精度優(yōu)勢明顯,比 YOLOv5s高2.7%,比YOLOv3高4.4%,而YOLOv4-tiny與YOLOv7-tiny雖然有著較高的檢測速度,達到110 FPS和118 FPS,但是檢測精度卻相對較低,只有73.4%和83.1%,無法在復雜鐵路背景下應用;相較于參數(shù)較為相似的YOLOv5s、YOLOv4-tiny、YOLOX-S、YOLOX-tiny以及YOLOv6-tiny算法,本文所提算法的檢測精度分別高了2.7%、13.3%、2.1%、4.2%、0.5%.綜上所述,本文提出的SD-YOLO算法有著最高的檢測精度,并且保持著較好的實時性,整體表現(xiàn)較為突出,證明了本文所提算法的優(yōu)越性.
為了更加直觀地進行評價本文所提算法的性能,本文對改進前后的檢測效果對比進行了展示,如圖8所示.對比檢測結(jié)果表明,SD-YOLO在兩組圖片中表現(xiàn)出了優(yōu)秀的檢測性能,檢測到了更多小目標,并識別出被遮擋目標,且不存在誤檢問題,表明在復雜的鐵路背景下,本文提出的SD-YOLO算法,相比于原始的YOLOv5s算法,對遮擋目標以及小目標檢測時存在的誤檢和漏檢問題都有所改進,并且FPS達到79,保持著實時的檢測速度,能夠在很好地保持算法實時性的同時有著更高的檢測精度,滿足鐵路復雜場景下實時性與精確性的需求.
圖8 YOLOv5s和SD-YOLO檢測效果對比Fig.8 Comparison of detection effects between YOLOv5s and SD-YOLO
針對復雜鐵路背景下異物入侵檢測方法中精度低、時效性差等問題,本文提出SSD-YOLO算法模型進行復雜鐵路背景下的異物入侵檢測.在YOLOv5基礎(chǔ)上加入提出的SSA混合注意力、DW-Decoupled Head解耦頭,并利用回歸損失函數(shù)SIoU、轉(zhuǎn)置卷積方法,在保持算法速度和體量優(yōu)勢的同時獲得了更高的檢測精度,相比其他主流目標檢測算法模型,本文提出的算法檢測精度更高且對遮擋目標以及小目標檢測存在的誤檢和漏檢問題都有所改進,檢測速度也具有實時性,更適用于復雜鐵路背景下的異物入侵檢測.本文接下來的工作是對網(wǎng)絡(luò)進行輕量化處理,更利于部署在嵌入式GPU平臺應用于真實場景.