劉天時 周澤華 郝敏杰
收稿日期:2023-10-26
DOI:10.19850/j.cnki.2096-4706.2024.04.029
摘? 要:針對物流包裹安檢圖像中小目標違禁品易漏檢問題,通過在感受野模塊的多分支并行網絡上引入卷積注意力模塊,構建一種適用于小目標違禁品檢測的特征提取模塊。在此基礎上,將構建的特征提取模塊融入YOLOv5模型的主干部分,使得模型在違禁品檢測的過程中聚焦于圖像的重要特征。為了充分發(fā)揮所構建模塊對于小目標物體的特征提取能力,采用空間深度轉換模塊替代原模型中的下采樣模塊,使得YOLOv5模型在特征提取的過程中能夠盡可能地保留小目標物體的特征信息,提高對小目標違禁品的檢測效果。
關鍵詞:安檢圖像;小目標違禁品;特征提取模塊;計算機視覺;物流包裹
中圖分類號:TP391.4;TP18 文獻標識碼:A 文章編號:2096-4706(2024)04-0136-06
Construction and Application of a Feature Extraction Module for Small Target Prohibited Items in Security Inspection Images
LIU Tianshi, ZHOU Zehua, HAO Minjie
(School of Computer Science, Xi'an Shiyou University, Xi'an? 710065, China)
Abstract: Aiming at the problem that small target prohibited items in logistics package security inspection images is easy to miss detection, a feature extraction module suitable for small target prohibited items detection is constructed by introducing a convolutional attention module on the multi-branch parallel network of the receptive field module. On this basis, the constructed feature extraction module is integrated into the backbone of the YOLOv5 model, so that the model focuses on the important features of the image in the process of prohibited items detection. In order to fully utilize the feature extraction ability of the constructed module for small target objects, a spatial depth conversion module is used to replace the downsampling module in the original model, so that the YOLOv5 model can retain the feature information of small target objects as much as possible during the feature extraction process, and improve the detection effect for small target prohibited items.
Keywords: security inspection image; small target prohibited item; feature extraction module; computer vision; logistics package
0? 引? 言
近年來,隨著線上購物的快速普及,物流包裹數目的激增給安全監(jiān)管帶來了巨大的挑戰(zhàn)。包裹限制品檢測作為物流行業(yè)及安防行業(yè)提供安全保障的重要環(huán)節(jié),承擔著防止限制品進入貨運渠道的重要任務。因此,必須通過提高安檢工作質量的方式排除安全隱患。目前,物流包裹的安檢工作主要是由安檢員對安檢圖像進行肉眼判別和檢查,這種安檢方式的可靠性很大程度上依賴于安檢人員的工作經驗和狀態(tài)[1]。但長時間從事大量的、單一的人工視檢工作很容易造成安檢員視覺疲勞、注意力難以集中,導致錯檢、漏檢等現象發(fā)生,帶來安全隱患。與普通自然圖像不同,安檢圖像的成像效果與物體自身的密度、成分以及成像時的空間位置等因素有關[2]。在安檢圖像中原本空間上交錯的物品,外形輪廓會發(fā)生重疊,這就給人眼識別造成較大的干擾。由于違禁品種類較為龐雜,不同類別甚至同一類別違禁品之間的輪廓、尺度也存在明顯差異,特別是對于電池、打火機等小目標違禁品來說目前的檢測效果還不夠理想,這就要求針對違禁品的目標檢測方法應具備檢測密集分布物品和小目標物品的能力。造成小目標物體檢測效果不夠理想的因素主要分為以下幾個方面:1)小目標物體分辨率較低,可利用的特征信息少,相較于大目標物體而言,小目標物體的特征信息更難以提取[3]。2)小目標物體容易受到遮擋、聚集以及周圍噪聲的影響。3)針對一些大型的圖像公共數據集,其中絕大部分都是正常尺度的物體,小目標物體占比較少,容易造成數據不均衡的問題[4]。針對上述問題,國內外學者做出了一系列研究和改進,并取得了一定進展。Lin等人構建了一種具有橫向連接的、自頂向下的特征金字塔網絡FPN,使得淺層特征和深層特征能進行更好的融合[5]。PANet在FPN的基礎上添加了一條自底向上的路徑,進一步增強了整個特征層次的定位能力[6]。Lim等人將小目標物體的特征與來自深層次的上下文特征進行融合,為小目標特征補充了上下文信息,使得網絡模型對于小目標物體的檢測精度有所提高[7]。楊慧劍等人采用空洞空間池化金字塔模塊代替SPP模塊,以減輕池化操作帶來的影響[8]。高偉等人采用超分辨率生成網絡,將檢測效果較差的低分辨率圖像重構為高分辨率圖像,可以提升模型對于小目標物體的辨識能力[9]。
綜上所述,目前提高小目標物體檢測效果的主要方法是對模型的特征融合模塊進行優(yōu)化,使得圖像的細節(jié)信息和語義信息能夠相互融合。然而,由于小目標物體本身分辨率較低,且容易受到背景和噪聲的影響,這些融合模塊很難充分地獲取到小目標物體的特征信息。為此,本文設計并構建了一種特征提取模塊(Attention-Receptive Field Block, Att-RFB),將其融入YOLOv5模型的主干部分,以增強模型對于小目標物體特征信息的提取能力,提高小目標違禁品的檢測精度。
1? Att-RFB特征提取模塊構建
1.1? CBAM卷積注意力模塊
在實際的安檢圖像中,違禁品可能只占圖像中的一小部分,大部分是一些無效的冗余背景。因此,在特征提取的過程中需要特別關注圖像中的主體部分。卷積注意力模塊(Convolution Block Attention Module, CBAM)由通道注意力和空間注意力兩個子模塊級聯構成[10],該模塊可以對輸入圖像的語義特征和位置特征進行自適應調整,避免模型在訓練的過程中提取到過多的無效特征。CBAM模塊架構如圖1所示。
圖1? CBAM模塊架構
1.2? RFB感受野模塊
感受野模塊(Receptive Field Block, RFB)是基于人類視覺系統中感受野機制提出的一種特征提取模塊[11],它采用了一種多分支并聯的結構,在不同的分支上采用不同大小的卷積核來捕獲多尺度信息,在通道維度上將各個分支提取的結果進行拼接,以實現多尺度特征信息的融合。除此之外,RFB模塊還引入了空洞卷積的思想,根據卷積核的大小插入相應擴張率的空洞,可以在不增加額外參數量的條件下擴大感受野,使得卷積模塊能在更大的范圍內捕獲信息,提高網絡模型的特征提取能力。RFB模塊的結構如圖2所示。
圖2? RFB模塊結構圖
1.3? 特征提取模塊構建
相較于圖像中的中、大目標物體,小目標物體普遍存在由于分辨率低而導致特征信息難以提取的問題。在日常的違禁品檢測任務中,物品的擺放位置具有一定的隨機性,經常會出現大目標物體遮擋小目標物體的現象,對小目標物體的特征信息表達造成較大干擾,影響小目標物體的檢測效果。雖然RFB模塊可以捕獲到不同尺度的特征信息,但是增強重要特征以及抑制冗余特征的能力依然欠缺。因此,為了進一步提升RFB模塊的特征提取能力,通過在RFB模塊的多分支并行網絡上引入CBAM模塊,構建Att-RFB模塊,如圖3所示。
圖3? Att-RFB模塊結構圖
首先,該模塊使用1×1大小的卷積核對通道數進行調整,然后采用不同大小的卷積核對多尺度特征信息進行提取。通過引入空洞卷積在更大的感受野范圍內提取全局特征。最后將每個分支提取到的特征信息輸入到各自的CBAM模塊中,進行通道維度和空間維度上的自適應調整。添加CBAM模塊后的Att-RFB模塊,不僅可以提取到圖像中的細節(jié)特征和全局特征,還可以增強和抑制某些特征信息,使得網絡模型更加聚焦圖像中的主體部分,以提高對于小目標違禁品的定位能力。
2? Att-RFB特征提取模塊應用
2.1? 下采樣模塊改進
空間深度轉換模塊(Space-to-Depth Layer-Non-Strided Convolution Layer, SPD-Conv)由非跨步卷積模塊和抽樣模塊構成[12],它采用逐幀抽樣的方式,將維度為S×S×C的特征圖轉換為4個維度為S / 2×S / 2×C的特征子圖,并沿通道維度進行拼接。該模塊在實現下采樣的同時,盡可能地保留了特征圖中的信息,有效避免了跨步卷積帶來的非對稱采樣的問題。因此,為了充分發(fā)揮Att-RFB模塊的特征提取能力,提高模型對低分辨率小目標物體的檢測效果,采用SPD-Conv模塊替代YOLOv5模型中的下采樣模塊,SPD-Conv模塊的抽樣過程為:
其中:fx, y表示分割出來的特征子圖;scale表示抽樣尺度。
2.2? 融入特征提取模塊
YOLOv5模型的淺層網絡感受野較小,無法很好地提取到全局的特征信息。為進一步增強模型對于小目標物體的分類以及定位能力,在模型主干中兩處C3模塊的輸出位置添加Att-RFB模塊。在增加少量參數的條件下擴大了淺層網絡的感受野,使得模型在淺層網絡上也能獲取到圖像中的全局特征。此外,淺層網絡生成的特征圖上保留著較為豐富的細節(jié)信息和位置信息,將Att-RFB模塊融入淺層網絡中可以提升網絡模型對于重要特征信息的提取能力,抑制噪聲和背景等冗余信息,融入Att-RFB模塊的改進模型結構如圖4所示。
使用SPD-Conv模塊對原模型中的下采樣模塊進行改進后,網絡的主干部分能充分保留輸入圖像的特征信息。同樣,在網絡的特征融合部分可以將經過多尺度融合后的特征信息更加完整地交付給檢測模塊。由于淺層網絡包含較多的細節(jié)特征但是含有的語義特征少,深層網絡含有較為豐富的語義特征但是缺乏位置、紋理等細節(jié)信息。因此,將Att-RFB模塊融入模型中淺層網絡的輸出位置,可以更好地提取主干部分保留下來的特征信息,并將這些特征信息注入后面的特征融合部分。
3? 數據集增強
實驗采用津南算法挑戰(zhàn)賽賽道二的物流包裹X光限制品數據集。該數據集包含鐵殼打火機、黑釘打火機、刀具、電池電容以及剪刀5類物流包裹里常見的違禁品。為提高模型的魯棒性和泛化性,對原數據集中的圖像進行數據增強,使用水平翻轉、豎直翻轉、旋轉3種方式來模擬真實安檢場景中物品擺放位置隨機、角度多變等容易對檢測效果造成干擾的情況,增強后的數據集圖像效果如圖5所示。
(a)原圖像? ? ? ? ? ?(b)水平翻轉后的圖像
(c)豎直翻轉后的圖像? ? ? ? (d)旋轉后的圖像
圖5? 增強后的數據集圖像
對增強后的數據集進行可視化分析后由圖6(a)可知,該數據集中黑釘打火機(Lighter2)和電池(Power)兩類違禁品的數量較多,而其余種類違禁品的數量較少,具有嚴重的類別不均衡問題,這就可能造成不同類別的違禁品檢測精度相差較大的情況。從圖6(b)可以看出,該數據集中含有較多長寬占比僅為原圖像0.1倍的小目標違禁品,因此類別嚴重不均以及含有較多的小目標違禁品會給檢測帶來一定的挑戰(zhàn)。
4? 實驗結果分析
4.1? 評價指標
本文選取的模型評價指標包括:參數量(Parameters)、計算量(Flops)、準確率(Precision)、召回率(Recall)、均值平均準確率(Map0.5)、每秒傳輸幀數(FPS)。
對于檢測類別c而言,以召回率為橫軸,精確率為縱軸,繪制坐標曲線,平均準確率AP為該曲線與坐標軸圍成的面積,其計算式為:
(2)
Map0.5表示預測框與真實框的交并比為0.5時的均值平均準確率,n表示類別總數,其計算式為:
(3)
FPS表示單位時間內檢測的圖片數量,其計算式為:
(4)
其中:N(Frames)表示檢測圖片的數量;ElapsedTime表示檢測花費的總時間。
(a)類別數量
(b)目標寬高占比分布
圖6? 數據集類別數量及目標寬高占比分布
4.2? 消融實驗結果分析
為了驗證Att-RFB模塊的有效性,以YOLOv5n模型為基線網絡進行消融實驗。其中打勾表示在基線網絡上添加此模塊,打叉表示未添加此模塊。實驗結果如表1所示。
表1? 消融實驗結果對比
SPD-Conv Att-RFB 準確率/ % 召回率/ % 計算量/ GB 檢測
速度/ s 參數量/ M Map0.5 / %
× × 86.1 96 3.8 109.8 1.73 86.1
√ × 86.2 97 8.2 75.7 2.11 88.7
× √ 84.6 96 4.2 90.9 1.66 87.8
√ √ 87.5 96 8.9 69.4 2.26 89.2
由表1可得,在只將原模型中的下采樣模塊替換為SPD-Conv模塊的情況下,模型的準確率和召回率有小幅提升,Map0.5在原模型的基礎上提高了2.6%。單獨將Att-RFB模塊融入模型主干,在增加少量參數的條件下Map0.5提升了1.7%。將兩個模塊同時作用于模型,準確率提升了1.4%,Map0.5提升了3.1%,并且檢測速度可以達到每秒69.4幀,能夠滿足日常違禁品檢測任務中對于實時性的要求。通過以上消融實驗可知,所構建的Att-RFB模塊可以有效提升模型的檢測精度,且與該改進模塊之間的相容性較好。
4.3? 對比實驗結果分析
在保證初始參數一致的條件下對模型改進前后進行對比試驗,實驗結果如圖7至圖9所示。相較于原始模型,融入Att-RFB模塊后的模型對于所有類別的違禁品檢測精度均有提高。其中黑釘打火機和刀具(Knife)的檢測精度提升最為明顯,Map0.5分別提升了3.7%及2.1%。將融入Att-RFB模塊的改進模型在數據集上進行驗證可得,所有類別違禁品的檢測精度得到進一步提升,黑釘打火機以及電池兩類小目標違禁品的檢測效果得到顯著提升,Map0.5分別提升了6.4%以及3.1%。
圖10中使用EigenCAM注意力可視化工具將數據集中部分圖像的注意力區(qū)域以熱力圖的形式進行可視化展示,通過對比模型改進前后注意力區(qū)域的大小可知,改進后模型的注意力區(qū)域范圍更大,且基本能夠覆蓋安檢圖像中的主體內容。
(a)原圖? ? ? ? (b)原模型? ? ? (c)改進模型
圖10? 注意力區(qū)域可視化對比圖
圖11為含有違禁品的真實安檢圖像,該圖像包含1個刀具、3個黑釘打火機、7個電池以及2把剪刀。使用原模型對安檢圖像進行實例檢測,僅得到1把剪刀以及6個電池的信息,對融入Att-RFB模塊的改進模型進行實例檢測,可以檢測出1個刀具、2個黑釘打火機、1個電池以及1把剪刀。將實例檢測結果進行對比可知,Att-RFB模塊能夠有效提升模型對于打火機以及電池等小目標違禁品的檢測精度,對于刀具等輪廓尺寸較為固定的違禁品也能有較好的檢測效果。
(a)原模型檢測效果? ? ? ?(b)改進模型檢測效果
圖11? 實例檢測效果對比圖
為了驗證融入Att-RFB模塊的改進模型性能,采用Map0.5以及FPS作為評價指標,將改進模型與其他目標檢測模型進行對比,結果如圖12所示。融入Att-RFB模塊的改進模型相較于原模型Map0.5提高了3.1%,相較于更新的YOLOX模型Map0.5提高了8.7%,相較于Faster-RCNN兩階段目標檢測模型Map0.5提高了13%。改進模型的檢測精度具有一定的優(yōu)越性,檢測速度方面有所下降,但是仍能滿足實時檢測的任務需求。
圖12? 模型性能對比圖
5? 結? 論
構建了一種特征提取模塊Att-RFB。為了充分發(fā)揮Att-RFB模塊對于小目標違禁品的特征提取能力,對YOLOv5模型的下采樣模塊進行了改進。通過消融實驗可得,融入Att-RFB模塊的改進模型,在檢測的準確率以及檢測精度上相較于原始模型有所提升。通過對比實驗可以得出,融入Att-RFB模塊的改進模型對于數據集中標注的所有類別違禁品的檢測效果均有提升。其中,黑釘打火機和電池兩類小目標違禁品的檢測效果得到顯著提升,Map0.5分別提升了6.4%、3.1%。所構建的Att-RFB模塊可以顯著提高模型對于小目標違禁品的檢測精度。為了充分發(fā)揮Att-RFB模塊對于小目標物體的檢測能力,后期將針對不同檢測場景對該模塊進行改進,以增強該模塊的泛化能力。
參考文獻:
[1] 朱成,李柏巖,劉曉強,等.基于YOLO的違禁品檢測深度卷積網絡 [J].合肥工業(yè)大學學報:自然科學版,2021,44(9):1198-1203.
[2] 穆思奇,林進健,汪海泉,等.基于改進YOLOv4的X射線圖像違禁品檢測算法 [J].兵工學報,2021,42(12):2675-2683.
[3] 潘曉英,賈凝心,穆元震,等.小目標檢測研究綜述 [J].中國圖象圖形學報,2023,28(9):2587-2615.
[4] 張艷,張明路,呂曉玲,等.深度學習小目標檢測算法研究綜述 [J].計算機工程與應用,2022,58(15):1-17.
[5] LIN T Y,DOLLáR P,GIRSHICK R,et al. Feature Pyramid Networks for Object Detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:936-944.
[6] LIU S,QI L,QIN H F,et al. Path Aggregation Network for Instance Segmentation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:8759-8768.
[7] LIM J S,ASTRID M,YOON H J,et al. Small Object Detection using Context and Attention [C]//2021 International Conference on Artificial Intelligence in Information and Communication (ICAIIC).Jeju Island:IEEE,2021:181-186.
[8] 楊慧劍,孟亮.基于改進的YOLOv5的航拍圖像中小目標檢測算法 [J].計算機工程與科學,2023,45(6):1063-1070.
[9] 高偉,周宸,郭謀發(fā).基于改進YOLOv4及SR-GAN的絕緣子缺陷辨識研究 [J].電機與控制學報,2021,25(11):93-104.
[10] WOO S,PARK J,LEE J Y,et al. CBAM: Convolutional Block Attention Module [C]//Proceedings of the European Conference on Computer Vision (ECCV).Munich:Springer,2018:3-19.
[11] LIU S T,HUANG D,WANG Y H. Receptive Field Block Net for Accurate and Fast Object Detection [C]//Proceedings of the European Conference on Computer Vision (ECCV).Munich:Springer,2018:409-419.
[12] SUNKARA R,LUO T. No More Strided Convolutions or Pooling: A New CNN Building Block for Low-Resolution Images and Small Objects [C]//Joint European Conference on Machine Learning and Knowledge Discovery in Databases. Grenoble:Springer,2022:443-459.
作者簡介:劉天時(1960—),男,漢族,陜西渭南人,教授,工學博士,主要研究方向:計算機應用技術;周澤華(1999—),男,漢族,陜西西安人,碩士研究生在讀,主要研究方向:智能計算與控制;郝敏杰(2000—),女,漢族,陜西漢中人,碩士研究生在讀,主要研究方向:油氣信息技術。