楊昊霖 王其歡 李華彪 耿端陽(yáng) 武繼達(dá) 姚艷春
摘要:為實(shí)現(xiàn)田間復(fù)雜環(huán)境下農(nóng)業(yè)機(jī)器人自主導(dǎo)航作業(yè)過(guò)程中障礙物快速檢測(cè),提出一種基于改進(jìn)YOLOv5的田間復(fù)雜環(huán)境下障礙物檢測(cè)方法。建立包含農(nóng)業(yè)機(jī)械、人、羊三類目標(biāo)障礙物共計(jì)6 766張圖片的農(nóng)田障礙物數(shù)據(jù)集;通過(guò)k-means聚類算法生成最佳先驗(yàn)錨框尺寸;引入CBAM卷積塊注意力模塊,抑制目標(biāo)障礙物周圍復(fù)雜環(huán)境的干擾,增強(qiáng)目標(biāo)顯著度;增加一個(gè)檢測(cè)頭,跨層級(jí)連接主干特征,增強(qiáng)多尺度特征表達(dá)能力,緩解標(biāo)注對(duì)象尺度方差帶來(lái)的負(fù)面影響;使用Ghost卷積替換Neck層中普通卷積,減少模型參數(shù),降低模型復(fù)雜度。改進(jìn)后的模型比YOLOv5s基準(zhǔn)模型檢測(cè)精度提高2.3%,召回率提高3.1%,精確率提高1.9%,參數(shù)量降低7%左右,為無(wú)人農(nóng)業(yè)機(jī)械自主作業(yè)過(guò)程中導(dǎo)航避障的研究提供技術(shù)參考。
關(guān)鍵詞:農(nóng)業(yè)機(jī)器人;農(nóng)田障礙物檢測(cè);改進(jìn)YOLOv5;圖像處理;機(jī)器視覺(jué)
中圖分類號(hào):S220; TP391.4
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):2095-5553 (2024) 06-0216-08
收稿日期:2022年9月13日
修回日期:2023年3月21日
*基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃(2021YFD2000502);山東省現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系崗位專家項(xiàng)目(SDAIT—02—12)
第一作者:楊昊霖,男,1997年生,山東濰坊人,碩士;研究方向?yàn)橹悄苻r(nóng)機(jī)裝備。E-mail: 942740554@qq.com
通訊作者:耿端陽(yáng),男,1969年生,陜西澄城人,博士,教授,博導(dǎo);研究方向?yàn)樾滦娃r(nóng)業(yè)機(jī)械裝備。E-mail: dygxt@sdut.edu.cn
Obstacle detection in complex farmland environment based on improved YOLOv5
Yang Haolin, Wang Qihuan, Li Huabiao, Geng Duanyang, Wu Jida, Yao Yanchuan
(College of Agricultural Engineering and Food Science, Shandong University of Technology, Zibo, 255000, China)
Abstract: In order to realize the rapid detection of obstacles in the process of autonomous navigation of agricultural robots in complex field environments, an obstacle detection method based on improved YOLOv5 in complex field environments is proposed. The farmland obstacle data set containing a total of 6766 images of agricultural machinery, human and sheep objects are established. The optimal prior anchor box size is generated by the k-means clustering algorithm. The CBAM convolution block attention module is introduced to suppress the interference of the complex environment around the target obstacle and enhance the target saliency. A detection head is added to connect the backbone features across levels, enhance the ability to express multi-scale features, and alleviate the negative impact of the variance of the scale of the labeled objects. The Ghost convolution is used to replace the ordinary convolution in the Neck layer to reduce the model parameters and decrease the model complexity. Compared with the YOLOv5s benchmark model, the improved model has increased the detection accuracy by 2.3%, the recall rate by 3.1%, the accuracy rate by 1.9%, and has decreased the reference number by about 7%. It provides technical reference for the research of navigation and obstacle avoidance during autonomous operation of unmanned agricultural machinery.
Keywords: agricultural robot; farmland obstacle detection; improved YOLOv5; image processing; machine vision
0 引言
近年來(lái),隨著自動(dòng)駕駛和智能化作業(yè)的廣泛應(yīng)用,在農(nóng)業(yè)生產(chǎn)領(lǐng)域,利用無(wú)人農(nóng)業(yè)機(jī)械,自主完成枯燥繁瑣的田間作業(yè),已經(jīng)成為當(dāng)前解決農(nóng)村勞動(dòng)力短缺和用工成本上升的主要技術(shù)手段,而在自主作業(yè)過(guò)程中所面臨的環(huán)境感知、決策與邏輯判斷等技術(shù),是無(wú)人農(nóng)機(jī)必須面對(duì)的問(wèn)題。在環(huán)境感知方面,當(dāng)無(wú)人農(nóng)機(jī)作業(yè)時(shí),在作業(yè)路徑上,會(huì)不可避免地出現(xiàn)多種障礙物,如樹(shù)木、房屋、電線桿、動(dòng)物和其他農(nóng)機(jī)等[1]。傳統(tǒng)的無(wú)人農(nóng)機(jī),只對(duì)周圍的障礙物進(jìn)行定位,而不對(duì)障礙物進(jìn)行識(shí)別檢測(cè)分類,這不利于對(duì)不同類別障礙物危險(xiǎn)等級(jí)的劃分、避障決策的制定和執(zhí)行,如在面對(duì)活體障礙物時(shí),很難準(zhǔn)確預(yù)測(cè)其行動(dòng)軌跡,需要立即停車,避免造成危險(xiǎn)[2];而在面對(duì)樹(shù)木、電線桿等靜止物體時(shí),基本不要高危險(xiǎn)等級(jí)的制動(dòng)方案,只需選擇更加有效的避障策略即可。因此,開(kāi)展基于機(jī)器視覺(jué)的障礙物檢測(cè)和識(shí)別對(duì)農(nóng)業(yè)機(jī)器人或者無(wú)人農(nóng)機(jī)開(kāi)發(fā)具有重要的意義[3]。
針對(duì)農(nóng)田障礙物,傳統(tǒng)的基于手工特征進(jìn)行的目標(biāo)檢測(cè)存在檢測(cè)精度低、易受環(huán)境干擾和泛化能力不強(qiáng)等缺點(diǎn)[4]。而基于深度學(xué)習(xí)的目標(biāo)檢測(cè)則有效地解決了這些問(wèn)題,成為當(dāng)前計(jì)算機(jī)視覺(jué)領(lǐng)域的重要研究方向?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法分為兩類:一類是兩階段(two-stage)目標(biāo)檢測(cè)算法,包括R-CNN、Fast R-CNN、Faster R-CNN等[5-7]。薛金林等[1]通過(guò)改進(jìn)Faster R-CNN目標(biāo)檢測(cè)算法來(lái)識(shí)別農(nóng)田中的障礙物,有效提高了農(nóng)田障礙物的識(shí)別速度,減少了誤檢和漏檢,滿足拖拉機(jī)低速作業(yè)的實(shí)時(shí)檢測(cè)需求。夏成楷[8]設(shè)計(jì)了一種改進(jìn)的Faster R-CNN檢測(cè)模型,通過(guò)對(duì)特征提取網(wǎng)絡(luò)和RPN (Region Proposal Network)進(jìn)行改進(jìn),提高了農(nóng)田障礙物檢測(cè)的準(zhǔn)確率和檢測(cè)速度。另一類是單階段(one-stage)目標(biāo)檢測(cè)算法,包括SSD、Retina Net、YOLO系列等[9-13],該類算法具有結(jié)構(gòu)簡(jiǎn)單、計(jì)算高效、實(shí)時(shí)性好等優(yōu)點(diǎn)[14, 15]。劉慧等[16]通過(guò)對(duì)SSD進(jìn)行改進(jìn),解決了果園復(fù)雜環(huán)境障礙物信息難以準(zhǔn)確檢測(cè)出的問(wèn)題。魏建勝等[17]在YOLOv3的基礎(chǔ)上,使用Darknet53作為特征提取網(wǎng)絡(luò),加入殘差模塊解決梯度問(wèn)題,實(shí)現(xiàn)了農(nóng)田中障礙物準(zhǔn)確檢測(cè)。李文濤等[18]在YOLOv3-tiny檢測(cè)框架上混合使用注意力機(jī)制,通過(guò)強(qiáng)化檢測(cè)目標(biāo)提高了障礙物識(shí)別過(guò)程的抗背景干擾能力,且在占用內(nèi)存和檢測(cè)速度方面較SSD、YOLOv3等算法具有明顯優(yōu)勢(shì)。YOLOv5作為YOLO系列算法的代表,相較于YOLOv3、YOLOv4來(lái)說(shuō),在檢測(cè)精度和實(shí)時(shí)性方面都有了較大的提升[19]。
針對(duì)非結(jié)構(gòu)農(nóng)田環(huán)境下檢測(cè)目標(biāo)障礙物存在作物遮擋、光線影響、自然背景干擾[20]以及障礙物與周圍作物相似造成傳統(tǒng)算法檢測(cè)準(zhǔn)確率有待提高的問(wèn)題,本文提出一種改進(jìn)YOLOv5田間障礙物檢測(cè)方法,即建立農(nóng)田障礙物目標(biāo)檢測(cè)數(shù)據(jù)集,通過(guò)k-means聚類算法[21]匹配最佳先驗(yàn)錨框尺寸;針對(duì)目標(biāo)障礙物在復(fù)雜背景下難以檢測(cè)的問(wèn)題,在YOLOv5檢測(cè)模型的基礎(chǔ)上引入卷積塊注意模塊(Convolutional Block Attention Module,CBAM)[22],加強(qiáng)對(duì)檢測(cè)目標(biāo)的關(guān)注度,增強(qiáng)目標(biāo)障礙物在復(fù)雜環(huán)境中的顯著度,進(jìn)而提高網(wǎng)絡(luò)的檢測(cè)精度;增加一個(gè)檢測(cè)頭,跨層級(jí)融合多尺度特征;引入Ghost卷積[23],替換Neck層中的卷積操作,減少增加檢測(cè)頭以及引入注意力機(jī)制后對(duì)檢測(cè)速度的影響,降低模型復(fù)雜度,提高網(wǎng)絡(luò)的檢測(cè)速度。
1 YOLOv5目標(biāo)檢測(cè)算法原理
YOLOv5是YOLO系列中最新算法,屬于單階段目標(biāo)檢測(cè)模型,是直接對(duì)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練,主要包含四部分:輸入端、Backbone、Neck、Head。其中輸入端是圖像預(yù)處理階段,主要由Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖片縮放三部分組成,最終將輸入樣本圖片調(diào)整為640×640;Backbone層中,最新v6.0版本將Conv標(biāo)準(zhǔn)卷積層替換v5.x中的Focus模塊,減少模型參數(shù)量,提升速度和精度,便于導(dǎo)出其他框架,還包含跨階段局部網(wǎng)絡(luò)(Cross Stage Partial Network, CSP)和快速空間金字塔池化(Spatial Pyramid Pooling-Fast, SPPF)三部分;Neck層采用了FPN+PAN特征金字塔結(jié)構(gòu),其中FPN用來(lái)增強(qiáng)語(yǔ)義信息,PAN用來(lái)增強(qiáng)定位信息,兩者互補(bǔ),加強(qiáng)網(wǎng)絡(luò)特征的融合能力;在Head層中采用GIOU_Loss(Generalized Intersection over Union Loss)做Bounding box的損失函數(shù),用來(lái)估算檢測(cè)目標(biāo)矩形框的識(shí)別損失。網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2 改進(jìn)YOLOv5的農(nóng)田障礙物檢測(cè)方法
本研究的YOLOv5改進(jìn)算法框架如圖2所示。從圖2可以看出首先將樣本劃分為訓(xùn)練集和測(cè)試集,并對(duì)訓(xùn)練集樣本進(jìn)行數(shù)據(jù)增強(qiáng),然后將所得到訓(xùn)練集樣本輸入到算法檢測(cè)模型進(jìn)行訓(xùn)練,以得到檢測(cè)算法的訓(xùn)練權(quán)重,最后使用得到的訓(xùn)練權(quán)重在測(cè)試集上進(jìn)行測(cè)試驗(yàn)證。
2.1 k-means聚類
YOLOv5算法是基于錨框的目標(biāo)檢測(cè)算法,原算法中先驗(yàn)錨框參數(shù)是對(duì)COCO數(shù)據(jù)集使用k-means算法聚類生成,如果基于原始設(shè)定anchor參數(shù)進(jìn)行訓(xùn)練,會(huì)對(duì)識(shí)別精度和定位精度產(chǎn)生影響。
k-means算法是在數(shù)據(jù)集所有的邊界框中挑選k個(gè)樣本作為簇的中心,針對(duì)數(shù)據(jù)集中的每個(gè)樣本計(jì)算它到k個(gè)簇中心的距離并將樣本劃分到它最近的簇中,然后對(duì)每個(gè)簇中所有樣本的均值作為簇的中心,然后求的新的簇心,循環(huán)該過(guò)程到簇心不發(fā)生變化或樣本數(shù)不發(fā)生變化為止,最終篩選出k個(gè)簇中心。在YOLOv5中使用的k-means算法,是基于歐氏距離(Euclidean Distance)作為樣本與樣本之間的距離進(jìn)行聚類。然而歐氏距離只考慮了樣本距離,不考慮長(zhǎng)寬比和覆蓋面積,容易導(dǎo)致適應(yīng)度(Fitness)變差,所以,本文將在標(biāo)準(zhǔn)k-means算法的基礎(chǔ)上,使用d(bboxes,anchors)作為樣本之間的距離進(jìn)行聚類,d(bboxes,anchors)的計(jì)算公式如式(1)所示。
d(bboxes,anchors)=1-IoU(bboxes,anchors)(1)
式中:d(bboxes,anchors)——當(dāng)前錨框到聚類簇中心框的距離;
IoU(bboxes,anchors)——當(dāng)前錨框和聚類簇中心框的交并比。
IoU的取值范圍為0~1,兩個(gè)bboxes重合程度越高,IoU值就越大,1-IoU就越趨近于0,d(bboxes,anchors)越小,表示兩個(gè)樣本之間的距離越近。通過(guò)試驗(yàn)對(duì)比歐氏距離與d(bboxes,anchors)在本文數(shù)據(jù)集聚類差異,試驗(yàn)結(jié)果如表1所示。
其中,適應(yīng)度為每個(gè)真實(shí)框與聚類得到的12個(gè)錨框滿足閾值條件下寬高比的平均值,最大可能召回為滿足條件的寬高比概率。從表1可知,使用d(bboxes,anchors)作為樣本與樣本之間的距離進(jìn)行聚類適應(yīng)度(Fitness)比使用歐氏距離的方法提升2.12%,最大可能召回率(Best Possible Recall, BPR)提升了0.88%,最終得到適用本文數(shù)據(jù)集的12個(gè)聚類中心,并確定先驗(yàn)錨框的尺寸,如表2所示。
2.2 注意力機(jī)制
由于農(nóng)田環(huán)境的復(fù)雜性,周圍農(nóng)作物對(duì)目標(biāo)障礙物的影響,光照等自然因素的作用,可能存在對(duì)目標(biāo)障礙物漏檢的現(xiàn)象。因此,在原模型Neck層C3模塊后,引入串聯(lián)通道注意力機(jī)制和空間注意力機(jī)制的CBAM卷積塊注意模塊,自適應(yīng)的細(xì)化中間的特征映射,增加其表征能力,其結(jié)構(gòu)如圖3所示。
使用最大池化(Max Pooling)和平均池化(Average Pooling)對(duì)特征圖特征進(jìn)行空間信息匯總,得到兩個(gè)1×1×C的通道描述,然后將這兩個(gè)描述輸入共享多層感知機(jī)內(nèi),共享多層感知機(jī)是由一個(gè)多層感知機(jī)和一個(gè)隱藏層組成,再將得到的兩個(gè)特征元素相加,經(jīng)過(guò)一個(gè)sigmoid函數(shù)激活得到通道注意力Mc(F),其計(jì)算方法如式(2)所示。
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
=σ(W1(W0(Fcavg))+W1(W0(Fcmax)))(2)
式中:F——輸入特征;
σ(·)——sigmoid激活函數(shù);
MLP——多層感知機(jī);
Fcavg——平均池化后的特征;
Fcmax——最大池化后的特征;
W1、W0——MLP的兩個(gè)對(duì)輸入共享的權(quán)重參數(shù)。
利用特征圖的空間關(guān)系生成空間注意力模塊,在加強(qiáng)圖像空間位置信息的同時(shí),也彌補(bǔ)了通道注意力模塊所造成的一些位置信息的損失。其計(jì)算方法如式(3)所示。
Ms(F)=σ(f7×7([AvgPool(F);MaxPool(F)]))
=σ(f7×7([Fsavg;Fsmax]))(3)
輸入特征F首先沿著通道軸應(yīng)用平均池化和最大池化操作,得到Fsavg和Fsmax,并將它們拼接起來(lái)得到一個(gè)特征描述符,再經(jīng)過(guò)一個(gè)7×7的卷積層和sigmoid函數(shù)激活得到空間注意力Ms。
CBAM注意力模塊加入前后對(duì)比結(jié)果如圖4所示。圖4中高顯著度區(qū)域用紅色表示,顏色越深表示顯著度越高。
從圖4可以看出,加入CBAM注意力模塊后,抑制了周圍無(wú)用的環(huán)境信息,增強(qiáng)了待測(cè)目標(biāo)的顯著度,解決原網(wǎng)絡(luò)無(wú)注意力偏好的問(wèn)題,使網(wǎng)絡(luò)能夠更多地關(guān)注有意義的信息,為后續(xù)障礙物的精確檢測(cè)奠定了基礎(chǔ)。
2.3 Ghost卷積
深度卷積神經(jīng)網(wǎng)絡(luò)包含大量的卷積操作,而在實(shí)際應(yīng)用中需要將模型部署在嵌入式終端,但是當(dāng)具有大量參數(shù)的復(fù)雜模型加在性能較差的終端上時(shí),會(huì)導(dǎo)致即使訓(xùn)練后模型精度高,但在使用過(guò)程中因?yàn)橛?jì)算工作量問(wèn)題導(dǎo)致實(shí)時(shí)性較低、精度下降。因?yàn)槠胀ň矸e生成的特征圖會(huì)出現(xiàn)大量相似的特征,針對(duì)這一問(wèn)題,引入Ghost卷積模塊,將普通卷積生成特征圖的過(guò)程分解為兩部分,首先Ghost卷積將原始圖像先通過(guò)少量卷積生成一小部分特征,然后利用廉價(jià)的線性操作生成剩下相似的特征,Ghost卷積模塊如圖5所示。
假設(shè)輸入為X,經(jīng)過(guò)任意卷積層可生成n個(gè)特征映射,在Ghost卷積模塊中,輸入X首先使用普通卷積生成m個(gè)固有特征映射Y′,然后對(duì)每個(gè)固有特征映射Y′進(jìn)行s次廉價(jià)的線性變換,根據(jù)式(4)得到s個(gè)Ghost特征。
yij=Φi,j(yi′) i=1,…,m,j=1,…,s(4)
式中:y′i——Y′第i個(gè)固有特征;
Φi,j——生成第j個(gè)ghost特征線性運(yùn)算。
最終得到n=m×s特征圖Y=[y11,y12,…,yms],作為Ghost卷積模塊的輸出。
本文利用Ghost卷積構(gòu)建GhostC3模塊,替換原模型特征融合層中Conv和C3模塊,在保證模型精度的基礎(chǔ)上,大幅降低模型復(fù)雜度,減少模型參數(shù),利于低性能設(shè)備上的部署。
2.4 Neck層改進(jìn)
原YOLOv5模型中采用的是FPN+PAN的特征金字塔結(jié)構(gòu),F(xiàn)PN自頂向下傳達(dá)強(qiáng)語(yǔ)義特征,PAN則自底向上傳達(dá)強(qiáng)定位特征。通過(guò)對(duì)本文所構(gòu)建數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)所檢測(cè)物體尺度跨度過(guò)大。針對(duì)這一問(wèn)題,在YOLOv5的基礎(chǔ)上增加一個(gè)預(yù)測(cè)頭來(lái)應(yīng)對(duì)多尺度物體的檢測(cè),結(jié)合其他三個(gè)預(yù)測(cè)頭,四個(gè)檢測(cè)頭輸出結(jié)構(gòu)可以緩解標(biāo)注對(duì)象尺度方差帶來(lái)的負(fù)面影響,有效提高多尺度目標(biāo)識(shí)別的精度。同時(shí)因?yàn)樯窠?jīng)網(wǎng)絡(luò)層數(shù)不斷加深,特征信息會(huì)不可避免地有所損失,并在Neck層特征融合過(guò)程中,跨層級(jí)連接主干網(wǎng)絡(luò)提取的特征,使預(yù)測(cè)特征層既擁有頂層的語(yǔ)義信息又擁有底層的位置信息,實(shí)現(xiàn)更高層次的特征融合,如圖2中Neck層所示。
3 試驗(yàn)結(jié)果與分析
3.1 試驗(yàn)環(huán)境
本試驗(yàn)使用的操作系統(tǒng)為Ubuntu18.04,顯卡型號(hào)為NVIDIA RTX2060 6G,CPU為i7-1165G7,運(yùn)行內(nèi)存大小為16 G,基于Pytorch深度學(xué)習(xí)框架,編程語(yǔ)言為Python,使用CUDA11.3和CUDNN8.2.4對(duì)GPU進(jìn)行加速, Learning_rate設(shè)為0.01,Weight_decay為0.000 5,Momentum為0.937,訓(xùn)練100個(gè)Epochs。
3.2 數(shù)據(jù)集介紹
數(shù)據(jù)集可視化分析如圖6所示。
試驗(yàn)中所用數(shù)據(jù)集為從多種渠道搜集、具有典型農(nóng)業(yè)生產(chǎn)信息的圖片6 766張,包含以田間勞作農(nóng)民為主的人,農(nóng)業(yè)機(jī)械和羊三類目標(biāo)障礙物,并通過(guò)LabelImg標(biāo)注軟件對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,按照9∶1的比例將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集和測(cè)試集,最終得到的數(shù)據(jù)集包含6 766張標(biāo)注圖片,其中訓(xùn)練集6 089張圖片,測(cè)試集677張圖片。
3.3 評(píng)價(jià)指標(biāo)
為準(zhǔn)確評(píng)價(jià)本文改進(jìn)模型的性能,使用mAP@0.5、召回率(Recall, R)、精確率(Precision, P)、模型參數(shù)量作為本文模型的評(píng)價(jià)指標(biāo)。其中mAP@0.5為IoU閾值為0.5時(shí)所有類別平均精度(Average Precision,AP)的平均值,召回率表示所有障礙物被識(shí)別出來(lái)的比率,精確率表示障礙物在所識(shí)別目標(biāo)中所占比率,計(jì)算如式(5)~式(7)所示。
AP=∫10P(R)dR(5)
P=TPTP+FP(6)
R=TPTP+FN(7)
式中:TP——實(shí)際為正樣本,檢測(cè)為正樣本的數(shù)量;
FP——實(shí)際為負(fù)樣本,檢測(cè)為正樣本的數(shù)量;
FN——實(shí)際為正樣本,檢測(cè)為負(fù)樣本的數(shù)量。
3.4 結(jié)果分析
改進(jìn)后的網(wǎng)絡(luò)模型與YOLOv5s訓(xùn)練平均精度(mean Average Precision, mAP)對(duì)比結(jié)果如圖7所示。
從圖7(a)可以看出,兩種算法都具有較高的精度,其中YOLOv5改進(jìn)算法mAP@0.5在迭代到第16輪時(shí)就達(dá)到0.8,最終逐漸穩(wěn)定到0.9左右,而YOLOv5s算法迭代到第34輪mAP@0.5才達(dá)到0.8,最終穩(wěn)定在0.87左右,YOLOv5改進(jìn)算法較改進(jìn)前提升了3個(gè)百分點(diǎn);圖7(b)表示是在0.5~0.95區(qū)間內(nèi)不同IoU閾值上的平均mAP。
表4為各子類在改進(jìn)算法上的檢測(cè)結(jié)果。可以看出三類目標(biāo)物的檢測(cè)精度都在90%左右。召回率和準(zhǔn)確率都在80%以上。
為驗(yàn)證改進(jìn)后算法的優(yōu)勢(shì),選取主流的單階段及兩階段目標(biāo)檢測(cè)模型進(jìn)行比較,對(duì)比結(jié)果如表5所示。
由表5可知,YOLOv5改進(jìn)算法較原來(lái)YOLOv5s算法檢測(cè)精度提高了2.3%,召回率提高3.1%,精確率提高了1.9%,時(shí)間提高3%,說(shuō)明YOLOv5改進(jìn)算法更適應(yīng)于農(nóng)田檢測(cè)環(huán)境,減少因?yàn)檎趽醯榷斐傻穆z問(wèn)題,提高了算法的魯棒性。Faster R-CNN作為兩階段目標(biāo)檢測(cè)算法的代表,精度和召回率都高于YOLO算法及SSD算法,但是精確率較低,檢測(cè)速度要遠(yuǎn)慢于其他算法,實(shí)時(shí)性方面較差,硬件需求較高。而YOLOv5改進(jìn)算法經(jīng)過(guò)輕量化的改進(jìn),訓(xùn)練后的網(wǎng)絡(luò)權(quán)重從14.4 MB減少到14.0 MB,檢測(cè)速度也得到了提升,遠(yuǎn)快于其他目標(biāo)檢測(cè)算法。通過(guò)對(duì)比試驗(yàn)可以看出,YOLOv5改進(jìn)算法在農(nóng)田障礙物檢測(cè)方面有較高的精度和檢測(cè)速度,可以更有效地進(jìn)行障礙物的識(shí)別,同時(shí)擁有更好的檢測(cè)性能。
為驗(yàn)證YOLOv5改進(jìn)算法各部分作用,進(jìn)行消融試驗(yàn)驗(yàn)證,其結(jié)果如表6所示。
通過(guò)表6可以看出,在原YOLOv5s模型基礎(chǔ)上,通過(guò)使用k-means聚類算法修改先驗(yàn)框尺寸,mAP提高了0.7%,召回率提高了0.4%,準(zhǔn)確率提高了0.4%。說(shuō)明修改后的先驗(yàn)框尺寸比原始尺寸更加合理;在Neck層增加跨層級(jí)特征融合并增加一個(gè)檢測(cè)頭,雖然參數(shù)量有所增加,但是mAP提高了1.2%,召回率提高了1.3%,精確率提高了1.7%,緩解了數(shù)據(jù)集標(biāo)注尺度方差大的問(wèn)題,提高了檢測(cè)精度;針對(duì)由于檢測(cè)物體周圍環(huán)境影響造成的漏檢問(wèn)題,在Neck層增加CBAM注意力模塊,mAP提高了0.9%,召回率提高了2.4%,降低漏檢風(fēng)險(xiǎn);對(duì)改進(jìn)后的模型進(jìn)行輕量化的改進(jìn),將Neck層中所有的普通卷積替換為Ghost卷積,mAP雖稍有下降,但仍然比原YOLOv5s模型檢測(cè)精度提高了2.3%,召回率提高了3.1%,精確率提高了1.9%,參數(shù)量降低了7%左右,緩解了由于方法改進(jìn)所造成參數(shù)量增加的問(wèn)題,更有利于嵌入式設(shè)備的部署。總之,YOLOv5s改進(jìn)算法在農(nóng)田障礙物檢測(cè)上,具有更高的準(zhǔn)確率、召回率和更少的模型參數(shù)量,更適用于農(nóng)田障礙物檢測(cè)。
為進(jìn)一步驗(yàn)證YOLOv5改進(jìn)算法的有效性,選取相似環(huán)境干擾、沙塵、逆光、遮擋等幾種典型情況進(jìn)行驗(yàn)證測(cè)試,測(cè)試結(jié)果如圖8所示。
從圖8可以看出,YOLOv5改進(jìn)算法比YOLOv5s算法檢測(cè)出目標(biāo)的置信度都有明顯的提升;其中YOLOv5s算法在逆光、遮擋和相似環(huán)境影響的情況下都出現(xiàn)漏檢問(wèn)題,漏檢目標(biāo)在圖8(a)中用藍(lán)色框標(biāo)出,而YOLOv5改進(jìn)算法在這些環(huán)境因素影響下,仍然檢測(cè)出目標(biāo),說(shuō)明YOLOv5改進(jìn)算法經(jīng)過(guò)改進(jìn)后減少了因?yàn)檎趽醵斐傻哪繕?biāo)特征表達(dá)能力不足的問(wèn)題,通過(guò)加入注意力模塊,增強(qiáng)了特定目標(biāo)區(qū)域的表征能力,弱化背景環(huán)境的影響,有效解決了檢測(cè)過(guò)程中的漏檢問(wèn)題。
4 結(jié)論
1) 提出一種基于YOLOv5的田間復(fù)雜環(huán)境障礙物檢測(cè)的改進(jìn)型算法,即應(yīng)用基于使用d(bboxes,anchors)作為樣本之間的距離的k-means聚類算法得到先驗(yàn)錨框的最佳匹配結(jié)果,提高目標(biāo)障礙物的識(shí)別精度和定位精度;引入CBAM注意力模塊,緩解由于環(huán)境影響導(dǎo)致目標(biāo)顯著度弱造成的漏檢;通過(guò)增加檢測(cè)頭,跨層級(jí)連接主干特征,增強(qiáng)多尺度特征表達(dá)能力,提高檢測(cè)精度;將Neck層中的普通卷積替換為Ghost卷積,減少模型參數(shù),提高檢測(cè)速度,有效提高了嵌入式設(shè)備部署的適應(yīng)性。
2) 通過(guò)構(gòu)建農(nóng)田障礙物數(shù)據(jù)集,完成YOLOv5改進(jìn)算法的測(cè)試驗(yàn)證。結(jié)果表明:YOLOv5改進(jìn)算法在田間復(fù)雜環(huán)境下,對(duì)目標(biāo)障礙物的平均檢測(cè)精度達(dá)90.1%,較YOLOv5s檢測(cè)算法提升了2.3個(gè)百分點(diǎn),并且降低了模型的復(fù)雜度,單張圖片的檢測(cè)速度減少到0.009 s。
參 考 文 獻(xiàn)
[1]薛金林, 李雨晴, 曹梓建. 基于深度學(xué)習(xí)的模糊農(nóng)田圖像中的障礙物檢測(cè)技術(shù)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022, 53(3): 234-242.
Xue Jinlin, Li Yuqing, Cao Zijian. Obstacle detection based on deep learning for blurred farmland images [J]. Transactions of the Chinese Society for Agricultural Machinery, 2022, 53(3): 234-242.
[2]Mwalupaso G E, Wang S, Rahman S, et al. Agricultural informatization and technical efficiency in maize production in Zambia [J]. Sustainability, 2019, 11(8): 2451.
[3]何勇, 蔣浩, 方慧, 等. 車輛智能障礙物檢測(cè)方法及其農(nóng)業(yè)應(yīng)用研究進(jìn)展[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2018, 34(9): 21-32.
He Yong, Jiang Hao, Fang Hui, et al. Research progress of intelligent obstacle detection methods of vehicles and their application on agriculture [J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(9): 21-32.
[4]郝帥, 楊磊, 馬旭, 等. 基于注意力機(jī)制與跨尺度特征融合的YOLOv5輸電線路故障檢測(cè)[J]. 中國(guó)電機(jī)工程學(xué)報(bào), 2023(6): 2319-2330.
Hao Shuai, Yang Lei, Ma Xu, et al. YOLOv5 transmission line fault detection based on attention mechanism and cross-scale feature fusion [J]. Proceedings of the CSEE, 2023(6): 2319-2330.
[5]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580-587.
[6]Girshick R. Fast R-CNN [C]. Proceedings of the IEEE International Conference on Computer Vision, 2015: 1440-1448.
[7]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 28.
[8]夏成楷. 基于深度學(xué)習(xí)的農(nóng)田障礙物的識(shí)別和無(wú)人農(nóng)業(yè)車輛避障策略研究[D]. 南京: 南京農(nóng)業(yè)大學(xué), 2020.
Xia Chengkai. Research on farmland obstacle recognition based on deep learning and obstacle avoidance strategies for unmanned agricultural vehicles [D]. Nanjing: Nanjing Agricultural University, 2020.
[9]Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector [C]. Computer Vision-ECCV, 2016: 14th European Conference, 2016: 21-37.
[10]Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection [C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 2980-2988.
[11]Redmon J, Farhadi A. YOLO9000: Better, faster, stronger [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 7263-7271.
[12]Redmon J, Farhadi A. Yolov3: An incremental improvement [J]. ArXiv preprint ArXiv: 1804.02767, 2018.
[13]Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection [J]. arXiv preprint arXiv: 2004.10934, 2020.
[14]劉俊明, 孟衛(wèi)華. 基于深度學(xué)習(xí)的單階段目標(biāo)檢測(cè)算法研究綜述[J]. 航空兵器, 2020, 27(3): 44-53.
Liu Junming, Meng Weihua. Review on single-stage object detection algorithm based on deep learning [J]. Aero Weaponry, 2020, 27(3): 44-53.
[15]趙奇慧, 劉艷洋, 項(xiàng)炎平. 基于深度學(xué)習(xí)的單階段車輛檢測(cè)算法綜述[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(S2): 30-36.
Zhao Qihui, Liu Yanyang, Xiang Yanping. Review of one-stage vehicle detection algorithms based on deep learning [J]. Journal of Computer Applications, 2020, 40(S2): 30-36.
[16]劉慧, 張禮帥, 沈躍, 等. 基于改進(jìn)SSD的果園行人實(shí)時(shí)檢測(cè)方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2019, 50(4): 29-35, 101.
Liu Hui, Zhang Lishuai, Shen Yue, et al. Real-time pedestrian detection in orchard based on improved SSD [J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(4): 29-35, 101.
[17]魏建勝, 潘樹(shù)國(guó), 田光兆, 等. 農(nóng)業(yè)車輛雙目視覺(jué)障礙物感知系統(tǒng)設(shè)計(jì)與試驗(yàn)[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2021, 37(9): 55-63.
Wei Jiansheng, Pan Shuguo, Tian Guangzhao, et al. Design and experiments of the binocular visual obstacle perception system for agricultural vehicles [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(9): 55-63.
[18]李文濤, 張巖, 莫錦秋, 等. 基于改進(jìn)YOLOv3-tiny的田間行人與農(nóng)機(jī)障礙物檢測(cè)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2020, 51(S1): 1-8, 33.
Li Wentao, Zhang Yan, Mo Jinqiu, et al. Detection of pedestrian and agricultural vehicles in field based on improved YOLOv3-tiny [J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(S1): 1-8, 33.
[19]Wang J, Chen Y, Gao M, et al. Improved YOLOv5 network for real-time multi-scale traffic sign detection [J]. arXiv preprint arXiv: 2112.08782, 2021.
[20]楊娟娟, 高曉陽(yáng), 李紅嶺, 等. 基于機(jī)器視覺(jué)的無(wú)人機(jī)避障系統(tǒng)研究[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2020, 41(2): 155-160.
Yang Juanjuan, Gao Xiaoyang, Li Hongling, et al. Research on UAV obstacle avoidance system based on machine vision [J]. Journal of Chinese Agricultural Mechanization, 2020, 41(2): 155-160.
[21]劉路, 潘艷娟, 陳志健, 等. 高遮擋環(huán)境下玉米植保機(jī)器人作物行間導(dǎo)航研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2020, 51(10): 11-17.
Liu Lu, Pan Yanjuan, Chen Zhijian, et al. Inter-rows navigation method for corn crop protection vehicles under high occlusion environment [J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(10): 11-17.
[22]Woo S, Park J, Lee J Y, et al. CBAM: Convolutional block attention module [C]. Proceedings of the European Conference on Computer Vision (ECCV), 2018: 3-19.
[23]Han K, Wang Y, Tian Q, et al. GhostNet: More features from cheap operations [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1580-1589.
中國(guó)農(nóng)機(jī)化學(xué)報(bào)2024年6期