陳富榮 肖明明
摘? 要:文章針對(duì)小目標(biāo)檢測(cè)存在的可利用特征少、定位精度要求高、數(shù)據(jù)集小目標(biāo)占比少、樣本不均衡和小目標(biāo)對(duì)象聚集等問題,提出將coordinate attention注意力嵌入YOLOv5模型。Coordinate attention注意力機(jī)制通過獲取位置感知和方向感知的信息,能使YOLOv5模型更準(zhǔn)確地識(shí)別和定位感興趣的目標(biāo)。YOLOv5改進(jìn)模型采用木虱和VisDrone2019數(shù)據(jù)集開展實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明嵌入coordinate attention能有效提高YOLOv5的算法性能。
關(guān)鍵詞:目標(biāo)檢測(cè);YOLOv5;coordinate attention;注意力機(jī)制
中圖分類號(hào):TP391.4? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)03-0055-07
Research on Improved Algorithm of Small Target Detection Based on YOLOv5
CHEN Furong1, XIAO Mingming2
(1.College of Information Science and Technology, Zhongkai University of Agricultural and Engineering, Guangzhou? 510225, China; 2.College of Information and Communication Engineering, Guangzhou Maritime University, Guangzhou? 510725, China)
Abstract: Aiming at the problems of small target detection, such as few available features, requirement of high positioning accuracy, small proportion of small target in data set, unbalanced samples and small target aggregation, this paper proposes to embed coordinate attention into YOLOv5 model. Coordinated attention mechanism can enable YOLOv5 model to identify and locate interested targets more accurately by obtaining information of location awareness and direction awareness. The improved YOLOv5 model uses psyllid and VisDrone 2019 datasets to carry out experiments to verify, and the experimental results show that embedding coordinate attention can effectively improve the algorithm performance of YOLOv5.
Keywords: target detection; YOLOv5; coordinate attention; attention mechanism
0? 引? 言
隨著人工智能的快速發(fā)展,目標(biāo)檢測(cè)算法同時(shí)也獲得迅速發(fā)展。目標(biāo)檢測(cè)是計(jì)算機(jī)視覺的研究重點(diǎn),目標(biāo)檢測(cè)在計(jì)算機(jī)視覺中非常重要。目標(biāo)檢測(cè)算法廣泛應(yīng)用于無(wú)人駕駛,醫(yī)療,金融等領(lǐng)域。目標(biāo)檢測(cè)算法有兩個(gè)任務(wù),一是識(shí)別出物體的位置,二是對(duì)物體進(jìn)行分類。目標(biāo)檢測(cè)技術(shù)目前還存在較多需要改善之處,其中包含對(duì)小目標(biāo)檢測(cè)精確度不高。
小目標(biāo)檢測(cè)有兩種定義,一種是基于相對(duì)尺度定義,一種是基于絕對(duì)尺度定義?;谙鄬?duì)尺度定義為檢測(cè)目標(biāo)邊框面積與圖像面積之比的中位數(shù)在0.08%~0.58%之間。絕對(duì)尺度是在目標(biāo)絕對(duì)像素大小這一方面考慮,當(dāng)前最為通用的是MS COCO數(shù)據(jù)集的定義,MS COCO數(shù)據(jù)集將小目標(biāo)定義為分辨率小于32像素×32像素的目標(biāo)。在目標(biāo)檢測(cè)中,小目標(biāo)檢測(cè)是難點(diǎn)。小目標(biāo)檢測(cè)的難點(diǎn)在于小目標(biāo)可利用特征比較少,對(duì)目標(biāo)的定位精度要求高,位置信息不夠準(zhǔn)確,特征的表達(dá)不完全等方面。這導(dǎo)致小目標(biāo)檢測(cè)比大目標(biāo)和中目標(biāo)檢測(cè)更為困難。
1? 國(guó)內(nèi)外研究現(xiàn)狀
1.1? 國(guó)外研究現(xiàn)狀
Kisantal[1]分析MS COCO數(shù)據(jù)集,以及Mask RCNN在這個(gè)數(shù)據(jù)集上的目標(biāo)識(shí)別、分割性能表現(xiàn),針對(duì)小目標(biāo)圖片少,即使有圖片含有小目標(biāo),小目標(biāo)出現(xiàn)得少的原因,提出在對(duì)存在小目標(biāo)的圖像進(jìn)行過采樣,以及復(fù)制小目標(biāo)粘貼到不同位置的方法。Lin[2]提出的FPN結(jié)構(gòu),可以很好地結(jié)合具有高分辨率的low-level和具有豐富語(yǔ)義的深層網(wǎng)絡(luò),提高小目標(biāo)的檢測(cè)效果。Noh[3]提出對(duì)生成器的訓(xùn)練過程進(jìn)行直接監(jiān)督和使用空洞卷積匹配訓(xùn)練圖像對(duì)的感受野方法,提高特征超分辨網(wǎng)絡(luò)對(duì)小目標(biāo)的超分性能。賈可心[4]提出的海面小目標(biāo)檢測(cè)模型,能夠在壓縮模型的同時(shí),保證模型的檢測(cè)速度和檢測(cè)精度,達(dá)到網(wǎng)絡(luò)輕量化的效果,并且降低了小目標(biāo)的漏檢率,可以有效實(shí)現(xiàn)對(duì)海綿小目標(biāo)的檢測(cè)。在DERT小目標(biāo)檢測(cè)困難和收斂過程緩慢的問題,Zhu[5]團(tuán)隊(duì)做出Deformable DETR,讓注意力模塊只注意到參考點(diǎn)附近的少量樣本點(diǎn),其根據(jù)Deformable convolution的思想對(duì)DETR改進(jìn)。由于基于無(wú)錨框和錨框的標(biāo)簽分配范式將導(dǎo)致許多微小真實(shí)樣本遠(yuǎn)離檢測(cè)范圍,造成檢測(cè)器對(duì)小物體施加較少的關(guān)注,Xu[6]提出一種基于高斯接感受野的標(biāo)簽分配(RFLA)策略使用在小目標(biāo)檢測(cè)。Wang[7]提出一種新的度量包圍框相似度的方法,用來(lái)取代IoU,解決小目標(biāo)檢測(cè)使用IoU,對(duì)于位置變化過于敏感的缺點(diǎn)。Yang[8]提出QueryDet,QueryDet使用粗略位置稀疏引導(dǎo)的高分辨率特征計(jì)算檢測(cè)結(jié)果,粗略位置由低分辨率特征上預(yù)測(cè)小物體得到,這種新穎的查詢機(jī)制有效加速基于特征金字塔的目標(biāo)檢測(cè)器的推理速度。
1.2? 國(guó)內(nèi)研究現(xiàn)狀
竇其龍[9]針對(duì)星載合成孔徑雷達(dá)圖像的小目標(biāo)檢測(cè),提出一種基于YOLOv5的算法。該算法優(yōu)化深度學(xué)習(xí)網(wǎng)絡(luò),通過自適應(yīng)錨點(diǎn)框算法重新設(shè)置錨點(diǎn)框大小,再嵌入GDAL模塊,提高YOLOv5算法的檢測(cè)速度,降低漏檢率。劉閃亮[10]提出注意力特征融合結(jié)構(gòu)并應(yīng)用在YOLOv5s模型上,在特征圖上通過注意力特征融合結(jié)構(gòu)融合更多的小目標(biāo)信息,并使用更淺的特征層檢測(cè)目標(biāo),進(jìn)一步提高原模型對(duì)小目標(biāo)檢測(cè)的性能。田楓[11]提出改進(jìn)YOLOv5的油田場(chǎng)景規(guī)范化著裝檢測(cè)方法Cascade-YOLOv5,該算法為搭建yolo-people和yolo-dress級(jí)聯(lián)的小目標(biāo)檢測(cè)網(wǎng)絡(luò),提高油田作業(yè)現(xiàn)場(chǎng)監(jiān)控視頻中工人安全著裝小目標(biāo)檢測(cè)性能。奉志強(qiáng)[12]提出一種基于YOLOv5的無(wú)人機(jī)實(shí)時(shí)密集小目標(biāo)檢測(cè)算法,在保證目標(biāo)檢測(cè)實(shí)時(shí)性的情況下,提高無(wú)人機(jī)視角下密集小目標(biāo)的檢測(cè)精度。
由于小目標(biāo)相對(duì)大中目標(biāo)占圖像像素較小,現(xiàn)有算法存在檢測(cè)不出小目標(biāo)問題,使用注意力機(jī)制,可使模型提高對(duì)小目標(biāo)的檢測(cè)性能。本文為在YOLOv5網(wǎng)絡(luò)中增加CA(coordinate attention)[13]模塊,分析增加CA對(duì)YOLOv5算法的檢測(cè)性能的影響。
2? 目標(biāo)檢測(cè)算法
2.1? RCNN系列目標(biāo)檢測(cè)算法
RCNN目標(biāo)檢測(cè)算法的出現(xiàn),使得深度學(xué)習(xí)開始在目標(biāo)檢測(cè)算法發(fā)揮作用。RCNN檢測(cè)物體步驟為先在圖像中使用選擇性搜索獲取2 000個(gè)候選框,然后將每個(gè)候選框輸入神經(jīng)網(wǎng)絡(luò)獲得輸出,然后將2 000×4 096維矩陣輸入SVM分類器,之后使用非極大值抑制去除重復(fù)框再對(duì)框進(jìn)行微調(diào)。但是RCNN存在以下問題,一是經(jīng)過縮放處理后會(huì)使一些圖片特征信息丟失,從而降低檢測(cè)的準(zhǔn)確性,不利于小目標(biāo)的檢測(cè),二是在訓(xùn)練和預(yù)測(cè)中,RCNN的速度都非常慢。
相比于RCNN,F(xiàn)ast RCNN解決RCNN的兩個(gè)問題,F(xiàn)ast Rcnn使用一個(gè)神經(jīng)網(wǎng)絡(luò)對(duì)2 000個(gè)候選框進(jìn)行特征提取并分類和生成邊界框,相比與RCNN的2000和候選框使用2 000個(gè)神經(jīng)網(wǎng)絡(luò),這提高了模型訓(xùn)練的速度。Fast Rcnn將整張圖像輸入卷積神經(jīng)網(wǎng)絡(luò),然后輸出特征圖,然后使用選擇性搜索算法得到的候選框與特征圖進(jìn)行映射得到固定長(zhǎng)度的特征向量,然后將特征向量輸入一系列的全連接層得到感興趣的特征向量,后續(xù)是通過softmax層進(jìn)行分類和對(duì)邊界框的回歸。Faster Rcnn先將圖片輸入卷積神經(jīng)網(wǎng)絡(luò),然后輸出特征圖,該特征圖用于RPN層和全連接層共享。特征圖輸入RPN中,RPN中的滑動(dòng)窗口在特征圖上的每個(gè)像素上形成9種anchor,9種anchor又輸出2×9個(gè)分類輸出和輸出4×9個(gè)邊界框回歸,然后再使用RoI池化層應(yīng)用于這些對(duì)象并將這些對(duì)象變成固定大小,最后將這些特征向量輸入全連接層得到感興趣的特征向量,然后再將感興趣的特征向量輸入softmax層和線性回歸層進(jìn)行分類和回歸。Faster不是端到端的模型,所以訓(xùn)練時(shí)間相較于端到端模型較慢。
2.2? YOLOv1~v4目標(biāo)檢測(cè)算法
YOLO網(wǎng)絡(luò)是one-stage,其把檢測(cè)變?yōu)榛貧w問題,位置和類別是用一個(gè)網(wǎng)絡(luò)輸出,實(shí)現(xiàn)了流程的統(tǒng)一。YOLOv1檢測(cè)流程為將一張多目標(biāo)圖像輸入并將圖像劃分為多個(gè)網(wǎng)格,然后網(wǎng)絡(luò)預(yù)測(cè)每個(gè)網(wǎng)格中2個(gè)預(yù)測(cè)框的定位信息和置信度,然后網(wǎng)格的類別預(yù)測(cè)信息使用高置信度的預(yù)測(cè)框的類別判斷,對(duì)于每個(gè)類別,預(yù)測(cè)框?yàn)榉诸愔眯哦鹊偷南热コ?,然后重?fù)的預(yù)測(cè)框再通過NMS去除,最后將位置和類別信息輸出。其不足之處為兩個(gè)物體相互靠得很近時(shí),或者檢測(cè)的物體為很小時(shí),檢測(cè)效果不好。YOLOv2在YOLOv1的基礎(chǔ)上使用一些方法提高性能,YOLOv2添加了BN層,使用了高分辨率主干網(wǎng)絡(luò),使用了anchor box機(jī)制,使用全卷積網(wǎng)絡(luò)結(jié)構(gòu),使用DarkNet19主干網(wǎng)絡(luò),使用K-means聚類先驗(yàn)框,使用更高分辨率的特征,使用多尺度訓(xùn)練方式。
YOLOv3使用的特征提取網(wǎng)絡(luò)為Darknet-53,并使用了FPN特征金字塔,F(xiàn)PN將淺層獲取位置信息與深層獲取語(yǔ)義信息進(jìn)行融合,提高網(wǎng)絡(luò)對(duì)小目標(biāo)檢測(cè)的檢測(cè)精度,YOLOv3有三個(gè)輸出,13×13輸出對(duì)大目標(biāo)的檢測(cè),26×26輸出對(duì)中目標(biāo)的檢測(cè),52×52輸出對(duì)小目標(biāo)的檢測(cè),YOLOv3使用邏輯回歸為每一個(gè)邊界框預(yù)測(cè)一個(gè)分?jǐn)?shù)。YOLOv4使用了差不多所有的檢測(cè)技巧,也提出一些技巧對(duì)YOLOv3進(jìn)行改進(jìn),其網(wǎng)絡(luò)結(jié)構(gòu)與傳統(tǒng)的YOLO網(wǎng)絡(luò)結(jié)構(gòu)幾乎相同,在檢測(cè)速度和準(zhǔn)確度方面有一定提高。
2.3? YOLOv5
YOLOv5網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,分為輸入端、Backbone、Neck、Prediction四部分。
在輸入端使用Mosaic數(shù)據(jù)增強(qiáng)。YOLOv5將自適應(yīng)錨框計(jì)算功能嵌入到整個(gè)訓(xùn)練代碼中。自適應(yīng)地在每次訓(xùn)練時(shí)計(jì)算不同訓(xùn)練集的最佳錨框值。YOLOv5使用自適應(yīng)圖像縮放,是一個(gè)使其推理速度變快的trick。
在Backbone端,YOLO5使用了Focus結(jié)構(gòu),在Focus結(jié)構(gòu)中,F(xiàn)ocus處理608×608×3的圖像成304×304×12的特征圖,這在一定情況下提高特征圖的操作。然后32個(gè)卷積核再將特征圖變成304×304×32的特征圖。YOLOv5使用了兩種CSP結(jié)構(gòu),Backbone主干網(wǎng)絡(luò)應(yīng)用CSP1_X,Neck部分使用CSP2_X。CSP1_X是CSPNet變化而來(lái),該模塊由CBL模塊、CONv、Resunit和Concate組成,X是指有X個(gè)這樣的模塊。CSP2_X也是由CSPNet網(wǎng)絡(luò)組成,由X個(gè)Resunit和CONv組成。YOLOv5使用CSPDarknet作為特征提取網(wǎng)絡(luò)。
在Neck端,采用SPPF結(jié)構(gòu),在特征提取上為了提高網(wǎng)絡(luò)的感受野使用不同池化核大小的最大池化進(jìn)行提取。使用FPN+PAN,借鑒了來(lái)之18年CVPR的PANet網(wǎng)絡(luò),F(xiàn)PN將高分辨率的特征圖與低分辨率的特征圖進(jìn)行融合,自低分辨率特征圖向高分辨率特征圖傳遞強(qiáng)語(yǔ)義信息,PAN將含有強(qiáng)位置信息的高分辨率特征圖和強(qiáng)語(yǔ)義信息的低分辨率特征圖進(jìn)行融合,自高分辨率特征圖向低分辨率特征圖傳遞強(qiáng)位置信息,通過這樣做來(lái)加強(qiáng)網(wǎng)絡(luò)的特征提取能力。
在輸出端,YOLOv5中Bounding box的損失函數(shù)為CIoU_Loss:
(1)
(2)
而YOLOv5的NMS非極大值抑制則采用加權(quán)nms的方式。NMS的實(shí)質(zhì)就是尋找局部極大值,將非極大值的元素抑制,非極大值主要用處就是用來(lái)消除冗余的檢測(cè)框。如果檢測(cè)的類別有N個(gè)類別,那么就要進(jìn)行N次執(zhí)行,因?yàn)镹MS一次只處理一個(gè)類別。
3? 基于YOLOv5的改進(jìn)
目前已提出的注意力機(jī)制中,SE Attention[14]是SENet提出的目前最流行的注意力機(jī)制。它的通道注意力由2D全局池化來(lái)計(jì)算,它在很低的成本條件下提高了性能。
但是SE模塊丟失了位置信息,而位置信息對(duì)下游的視覺任務(wù)具有非常重要的作用。之后CBAM[15]等方法使用大卷積來(lái)利用位置信息是通過減少通道數(shù)來(lái)完成,但是局部相關(guān)性只能被卷積局部捕獲,對(duì)于對(duì)視覺任務(wù)很重要的長(zhǎng)程依賴卻很難解決。
在CA中,CA在通道注意力加入位置信息,讓網(wǎng)絡(luò)在大區(qū)域內(nèi)進(jìn)行注意力操作,同時(shí)不用產(chǎn)生大量的計(jì)算開銷。為了減少2D全局池化形成的位置信息的丟失,兩個(gè)并行的1D特征編碼過程由CA將通道注意力分解而成,位置信息被有效地整合到生成的注意力圖中。因?yàn)檫@種注意力操作能辨別坐標(biāo)并且生成坐標(biāo)感知的特征圖,因此這方法稱為坐標(biāo)注意力。
相比于SE注意力和CBAM注意力,CA存在以下優(yōu)勢(shì),首先,它除了獲取通道的信息,還可以獲取位置感知和方向感知的信息,這能讓模型更精確地識(shí)別和定位感興趣目標(biāo)。然后,CA輕量而且靈活,可以很容易地插入經(jīng)典模塊,像MobileNetV2提出的invertd residual block和MobileNeXt提出sandglass block,是通過增強(qiáng)信息表示的方法來(lái)增強(qiáng)特征。最后,作為一個(gè)經(jīng)過預(yù)訓(xùn)練的模型,CA在輕量化網(wǎng)絡(luò)的基礎(chǔ)上可以帶來(lái)巨大的增益,特別是那些存在密集預(yù)測(cè)的任務(wù)。
CA模塊對(duì)長(zhǎng)程依賴和通道關(guān)系進(jìn)行編碼是通過精準(zhǔn)的位置信息,和SE模塊一樣,分為兩個(gè)步驟:坐標(biāo)注意力生成和坐標(biāo)信息嵌入,它的具體結(jié)構(gòu)如圖2所示。
CA擁有加強(qiáng)特征表示的能力。它可以將中間張量X=[x1,x2,…,xc]∈RC×H×W作為輸入并輸出Y=[ y1,y2,…,yc]由同樣尺寸和有增強(qiáng)的表示能力的輸出。
首先,在坐標(biāo)信息嵌入這部分很難保存坐標(biāo)信息,CA將輸入特征圖進(jìn)行全局池化,分別在水平和垂直方向進(jìn)行,這為通道注意力保留了水平和垂直方向上的長(zhǎng)距離依賴關(guān)系。因此,第c個(gè)通道寬度為w的輸出表述為:
(3)
相應(yīng)的,第c通道高度為h的輸出表述為:
(4)
上面的特征聚合是兩個(gè)變換沿著兩個(gè)空間方向進(jìn)行,返回一對(duì)包含方向感知的特征圖。這和其他方法由SE模塊產(chǎn)生一個(gè)特征向量的方法不同,CA在空間的水平方向和垂直方向上獲取長(zhǎng)距離依賴關(guān)系和位置信息,這使神經(jīng)網(wǎng)絡(luò)更精確獲取目標(biāo)信息。
在經(jīng)過全局池化后,這部分為將這兩個(gè)方向上的向量進(jìn)行拼接然后再進(jìn)行卷積,然后再進(jìn)行BN加非線性激活函數(shù)操作:
(5)
經(jīng)過BN加非線性激活函數(shù)后。然后再將特征圖分割開來(lái)再進(jìn)行卷積操作,這里作用為在水平方向和垂直方向上對(duì)它進(jìn)行關(guān)注,再進(jìn)行sigmoid函數(shù),這得到:
(6)
(7)
在這里是sigmoid激活函數(shù)。這里減少通道數(shù)經(jīng)常使用適當(dāng)?shù)目s減比,這是為了降低模型的計(jì)算開銷和復(fù)雜性。之后attention weight對(duì)輸出和進(jìn)行擴(kuò)展。最后,CA block的輸出可以寫成:
(8)
CA注意力機(jī)制插在YOLOv5的backbone結(jié)構(gòu)之后,圖3為CA插入YOLOv5之后的網(wǎng)絡(luò)結(jié)構(gòu)。
4? 目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)
目標(biāo)檢測(cè)算法中常用的評(píng)價(jià)指標(biāo)有:交并比IoU、準(zhǔn)確率、召回率和平均準(zhǔn)確率mAP等。下面簡(jiǎn)要介紹本文使用的幾種評(píng)價(jià)指標(biāo)。
(1)精確率:計(jì)算在預(yù)測(cè)的樣本中,預(yù)測(cè)為正樣本的正確率。精確率公式為:
(9)
其中TP表示實(shí)例為正類,預(yù)測(cè)為正類,F(xiàn)P表示實(shí)例為負(fù)類,預(yù)測(cè)為正類。
(2)召回率:是用來(lái)判斷所有要檢測(cè)的對(duì)象是否都能檢測(cè)到。召回率公式為:
(10)
其中FN表示實(shí)例是正類,預(yù)測(cè)為負(fù)類。
(3)平均精度均值:多個(gè)類別物體檢測(cè)中,每一個(gè)類別可根據(jù)精確度和召回率制作一條曲線,AP表示該曲線下的面積,mAP表示多個(gè)類別AP的平均值,其值越高,表明模型檢測(cè)效果越好。mAP公式為:
(11)
其中Average Precision(c)為一個(gè)類c的平均精度,N(classes)表示是數(shù)據(jù)集所有類別的數(shù)量。
5? 數(shù)據(jù)集及環(huán)境配置
5.1? 木虱數(shù)及VisDrone2019數(shù)據(jù)集
木虱導(dǎo)致柑橘產(chǎn)生黃龍病,檢測(cè)木虱為預(yù)防黃龍病有重要的作用,本實(shí)驗(yàn)使用木虱數(shù)據(jù)集來(lái)訓(xùn)練增加CA的YOLOv5網(wǎng)絡(luò)模型、并使用增加CA的YOLOv5網(wǎng)絡(luò)模型檢測(cè)木虱,該工作為預(yù)防黃龍病提供依據(jù)。本數(shù)據(jù)集為廣東廉江紅橙基地采集的木虱圖像數(shù)據(jù)集,本實(shí)驗(yàn)數(shù)據(jù)集共有186張圖片。使用標(biāo)記軟件LabelImg制作成VOC格式,然后轉(zhuǎn)變成YOLO格式。數(shù)據(jù)集中有一種格式,分別是with_mushi(木虱)。VisDrone2019數(shù)據(jù)集由天津大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘?qū)嶒?yàn)室的AISKYEYE團(tuán)隊(duì)收集,本實(shí)驗(yàn)使用VisDrone2019-DET-train的336張圖片作為訓(xùn)練集,VisDrone2019-DET-val的112張圖片作為驗(yàn)證機(jī)。VisDrone2019包含10個(gè)類別,分別是pedestrain(行人)、people(人)、bicycle(自行車)、car(汽車)、van(廂式貨車)、truck(卡車)、tricycle(三輪車)、awning-tricycle(遮陽(yáng)三輪車)、bus(公共汽車)、motor(摩托車)。
5.2? 實(shí)驗(yàn)環(huán)境配置
實(shí)驗(yàn)環(huán)境使用了NVIDIA GeForce RTX 3060,顯存類型GDDR6,顯存容量為12 GB,接口類型為PCI Express 4.0 16X,核心頻率為基礎(chǔ)頻率:1 320 MHz,CUDA核心為3 584個(gè),顯存頻率為12 000 MHz。系統(tǒng)使用了Ubuntu20.04,虛擬環(huán)境使用Anaconda 3,IDE環(huán)境使用了PyCharm Community,開源框架使用了PyTorch。Anaconda支持創(chuàng)建了多個(gè)虛擬環(huán)境,其中包含180個(gè)科學(xué)包。實(shí)驗(yàn)中還使用到多個(gè)庫(kù)函數(shù),例如圖像處理的OpenCV庫(kù),矩陣運(yùn)算的numpy庫(kù),可視化庫(kù)Tensorboard,將檢測(cè)結(jié)果在圖像上標(biāo)注出來(lái)的matplotlib庫(kù)。
6? 實(shí)驗(yàn)結(jié)果
6.1? 對(duì)比實(shí)驗(yàn)
下述圖中線條顏色為深藍(lán)色且加粗的曲線表示YOLOv5模型在木虱數(shù)據(jù)集上F1值隨置信度值的變化曲線,如圖4所示,當(dāng)置信度值為0.494時(shí)達(dá)到精確度的峰值0.79,其余曲線依據(jù)顏色分別對(duì)應(yīng)圖例中的類別。
圖4至圖9為增加CA注意力機(jī)制的YOLOv5算法在木虱數(shù)據(jù)集和VisDrone2019數(shù)據(jù)集上的精確度和召回率的對(duì)比,由此組圖可知,增加CA注意力機(jī)制的YOLOv5在木虱數(shù)據(jù)集上的F1值相比在VisDrone 2019數(shù)據(jù)集上的F1值高0.63個(gè)百分點(diǎn),在木虱數(shù)據(jù)集上的召回率相比在VisDrone 2019數(shù)據(jù)集上的召回率高0.702個(gè)百分點(diǎn),平均精度均值高0.75個(gè)百分點(diǎn),這說明增加CA注意力機(jī)制的YOLOv5算法在小目標(biāo)的表現(xiàn)上高于中等目標(biāo)和大目標(biāo)。
表1為圖4至圖9的實(shí)驗(yàn)結(jié)果總結(jié),實(shí)驗(yàn)結(jié)果表明增加CA注意力機(jī)制的YOLOv5在木虱數(shù)據(jù)集上檢測(cè)效果更好。
6.2? 消融實(shí)驗(yàn)
為驗(yàn)證增加CA的YOLOv5算法的有效性,設(shè)置消融實(shí)驗(yàn)驗(yàn)證CA改進(jìn)策略對(duì)模型性能的影響,實(shí)驗(yàn)考慮了CA模塊,將CA模塊加入原YOLOv5算法中,在同一條件下,訓(xùn)練300批次,圖10~15為F1值,平均精確均值和召回率的實(shí)驗(yàn)結(jié)果圖。
圖10至圖15分別是YOLOv5和增加CA的YOLOv5的F1值,平均精度均值,召回率的對(duì)比,在YOLOv5加入CA注意力后,使模型的F1值下降0.02個(gè)百分點(diǎn),平均精度均值下降0.03個(gè)百分點(diǎn),召回率提高0.01個(gè)百分點(diǎn)。召回率的小幅提升表明增加CA注意力之后模型對(duì)數(shù)據(jù)集中的小目標(biāo)漏檢率降低,能提高復(fù)雜場(chǎng)景下目標(biāo)的檢測(cè)率,如被遮擋的物體。
數(shù)據(jù)集的類別為Mushi(木虱),表2為算法中檢測(cè)類別為Mushi(木虱)的檢測(cè)類別實(shí)驗(yàn)結(jié)果對(duì)比。
由實(shí)驗(yàn)結(jié)果對(duì)比可知,在檢測(cè)木虱類別(Mushi)中,在增加coordinate attention注意力機(jī)制后的YOLOv5在F1值下降2%的情況,平均精度均值下降3%的情況下,召回率提高1%,這表明增加CA能提高YOLOv5的檢測(cè)性能。
6.3? 檢測(cè)結(jié)果
在圖16中,左邊圖為YOLOv5算法檢測(cè)出的木虱圖像,右圖像是增加CA注意力機(jī)制后YOLOv5算法檢測(cè)出的木虱圖像。從圖像檢測(cè)木虱結(jié)果上看,增加CA注意力機(jī)制后的YOLO5檢測(cè)木虱圖像檢測(cè)出圖像中右上角和右邊的木虱,而YOLOv5算法沒有檢測(cè)出來(lái),這表明增加CA能提高YOLOv5的檢測(cè)性能。
通過上述實(shí)驗(yàn)結(jié)果分析可得,增加CA注意力機(jī)制對(duì)于提高YOLOv5的檢測(cè)性能有作用,并且通過對(duì)比木虱數(shù)據(jù)集和VisDrone數(shù)據(jù)集可知,增加CA注意力機(jī)制在小目標(biāo)上性能更好。
7? 結(jié)? 論
通過增加CA注意力機(jī)制,改進(jìn)后的YOLOv5算法的精確度、F1值、召回率和平均精確均值都提高,但是改進(jìn)后的YOLOv5算法對(duì)小目標(biāo)的檢測(cè)仍然存在誤檢問題。在未來(lái)的研究中,可以從數(shù)據(jù)集中小目標(biāo)占比少、樣本不均衡、網(wǎng)絡(luò)結(jié)構(gòu)方面研究,通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高數(shù)據(jù)集中小目標(biāo)占比和增加小目標(biāo)的訓(xùn)練正樣本來(lái)提高YOLOv5目標(biāo)檢測(cè)算法的性能。
參考文獻(xiàn):
[1] KISANTAL M,WOJNA Z,MURAWSKI J,et al. Augmentation for small object detection [J/OL].arXiv:1902.07296 [cs.CV].(2019-02-19).https://arxiv.org/abs/1902.07296v1.
[2] LIN T Y,DOLLAR P,GIRSHICK R. Feature Pyramid Networks for Object Detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE,2017:936-944.
[3] NOH J,BAE W,LEE W,et al. Better to Follow,F(xiàn)ollow to Be Better:Towards Precise Supervision of Feature Super-Resolution for Small Object Detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).Seoul:IEEE,2019:9724-9733.
[4] 賈可心,馬正華,朱蓉,等.注意力機(jī)制改進(jìn)輕量SSD模型的海面小目標(biāo)檢測(cè) [J].中國(guó)圖象圖形學(xué)報(bào),2022,27(4):1161-1175.
[5] ZHU X,SU W,LU L,et al. Deformable DETR:Deformable Transformers for End-to-End Object Detection [J/OL].arXiv:2010.04159 [cs.CV].(2020-10-08).https://arxiv.org/abs/2010.04159.
[6] XU C,WANG J,YANG W,et al. RFLA:Gaussian Receptive Field Based Label Assignment for Tiny Object Detection [C]//Computer Vision-ECCV 2022.Cham:Springer,2022:526-543.
[7] WANG J,XU C,YANG W,et al. A Normalized Gaussian Wasserstein Distance for Tiny Object Detection [J/OL].arXiv:2110.13389 [cs.CV].(2021-10-26).https://arxiv.org/abs/2110.13389v2.
[8] YANG C,HUANG Z,WANG N. QueryDet:Cascaded Sparse Query for Accelerating High-Resolution Small Object Detection [C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).IEEE:New Orleans,2022:13658-13667.
[9] 竇其龍,顏明重,朱大奇.基于YOLO-v5的星載SAR圖像海洋小目標(biāo)檢測(cè) [J].應(yīng)用科技,2021,48(6):1-7.
[10] 劉閃亮,吳仁彪,屈景怡,等.基于A-YOLOv5s的機(jī)場(chǎng)小目標(biāo)檢測(cè)方法 [J/OL].安全與環(huán)境學(xué)報(bào):1-8[2022-08-01].DOI:10.13637/j.issn.1009-6094.2022.0819.
[11] 田楓,賈昊鵬,劉芳.改進(jìn)YOLOv5的油田作業(yè)現(xiàn)場(chǎng)安全著裝小目標(biāo)檢測(cè) [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2022,31(3):159-168.
[12] 奉志強(qiáng),謝志軍,包正偉,等.基于改進(jìn)YOLOv5的無(wú)人機(jī)實(shí)時(shí)密集小目標(biāo)檢測(cè)算法 [J/OL].航空學(xué)報(bào):1-15[2022-09-01].http://kns.cnki.net/kcms/detail/11.1929.V.20220509.2316.010.html.
[13] HOU Q,ZHOU D,F(xiàn)ENG J. Coordinate Attention for Efficient Mobile Network Design [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Nashville:IEEE,2021:13708-13717.
[14] HU J,SHEN L,ALBANIE S,et al. Squeeze-and-Excitation [J].Networks IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,42(8):2011-2023.
[15] WOO S,PARK J,LEE J,et al. CBAM:Convolutional Block Attention Module[C]//ECCV 2018.Munich:Springer,2018:3-19.
[16] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:1440-1448.
[17] HE K,GKIOXARI G,DOLLAR P,et al. Mask R-CNN [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017:2980-2988.
[18] BAI Y,ZHANG Y,DING M,et al. SOD-MTGAN:Small Object Detection via Multi-Task Generative Adversarial Network [C]//Computer Vision–ECCV 2018.Munich:Springer,2018:210–226.
[19] LI J,LIANG X,WEI Y,et al. Perceptual Generative Adversarial Networks for Small Object Detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu:IEEE,2017:1951-1959.
[20] CHEN G,CHOI W,YU X,et al. Learning efficient object detection models with knowledge distillation [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach:Curran Associates Inc.,2017:742-751.
[21] CARION N,MASSA F,SYNNAEVE G,et al. End-to-End Object Detection with Transformers [C]//Computer Vision-ECCV 2020.Cham:Springer,2020:213–229.
[22] LIN T,DOLLAR P,GIRSHICK R,et al. Feature Pyramid Networks for Object Detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:936-994.
[23] LUC C,MINH-TAN P,SEBASTIEN L. Small Object Detection in Remote Sensing Images Based on Super-Resolution with Auxiliary Generative Adversarial Networks [J/OL].Remote Sensing,2020,12(19):3152(2020-08-25).https://doi.org/10.3390/rs12193152.
[24] HE K,ZHANG X,REN S,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2016:770-778.
作者簡(jiǎn)介:陳富榮(1995—),男,漢族,碩士研究生在讀,研究方向:計(jì)算機(jī)視覺;通訊作者:肖明明(1972—),男,漢族,廣東三水人,教授,博士研究生,研究方向:計(jì)算機(jī)視覺。
收稿日期:2022-10-04