摘要:在復(fù)雜的自然環(huán)境中綠色柑橘生長(zhǎng)形態(tài)各異,顏色與背景色相近,為有效識(shí)別綠色柑橘,提出一種基于混合注意力機(jī)制并改進(jìn)YOLOv5模型的柑橘識(shí)別方法。首先,改進(jìn)YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu),在主干網(wǎng)絡(luò)中添加混合注意力機(jī)制,即在主干網(wǎng)絡(luò)中的第2層嵌入SE(squeeze and excitation)注意力,第11層嵌入CA(coordinateattention)注意力;其次,改進(jìn)網(wǎng)絡(luò)模型特征融合結(jié)構(gòu),將YOLOv5模型Concat特征融合操作的下層分支放在模型C3模塊之前,再與另一條上層分支進(jìn)行特征融合;最后,改進(jìn)模型分類損失函數(shù),將YOLOv5模型的分類損失函數(shù)改成Varifocal Loss函數(shù),加強(qiáng)綠色柑橘特征信息的提取,提高綠色柑橘檢測(cè)精度。根據(jù)自然環(huán)境和柑橘自身的特點(diǎn),對(duì)自建數(shù)據(jù)集進(jìn)行分類,設(shè)計(jì)3組不同分類場(chǎng)景下柑橘的對(duì)比試驗(yàn)以驗(yàn)證其有效性。試驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv5-SC模型準(zhǔn)確率為91.74%,平均精度為95.09%,F(xiàn)1為89.56%,在自然環(huán)境下對(duì)綠色柑橘的識(shí)別具有更高的準(zhǔn)確率和更好的魯棒性,為綠色水果智能采摘提供技術(shù)支持。
關(guān)鍵詞:目標(biāo)檢測(cè);YOLOv5;注意力機(jī)制;損失函數(shù);綠色柑橘
doi:10.13304/j.nykjdb.2022.0994
中圖分類號(hào):S126;S225.93 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1008?0864(2024)07?0111?10
中國(guó)是柑橘的重要原產(chǎn)地,柑橘資源豐富,品種優(yōu)良繁多,表皮顏色分為黃色和綠色[1?2]。傳統(tǒng)的水果采摘仍以人工作業(yè)為主,隨著人工智能技術(shù)與中國(guó)農(nóng)業(yè)高質(zhì)量發(fā)展,柑橘類果實(shí)的采摘方式逐漸轉(zhuǎn)向智能化。智能果實(shí)采摘機(jī)器人能有效節(jié)約勞動(dòng)力成本,滿足實(shí)際生產(chǎn)需要,促進(jìn)農(nóng)業(yè)的智能化發(fā)展[3-5]。
機(jī)器視覺技術(shù)是實(shí)現(xiàn)農(nóng)業(yè)智能化采摘的關(guān)鍵技術(shù)之一,它能利用算法對(duì)相機(jī)等設(shè)備采集到的圖像進(jìn)行分析,替代人眼檢測(cè)與定位。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,以Faster RCNN、YOLO(you onlylook once)為代表的深度學(xué)習(xí)算法模型相繼出現(xiàn)[6],使機(jī)器視覺技術(shù)在農(nóng)業(yè)智能采摘、果實(shí)識(shí)別、產(chǎn)量預(yù)估、病蟲害檢測(cè)等方面發(fā)揮著重要的作用。但綠色柑橘與自然背景顏色相似,且生長(zhǎng)形態(tài)各異,識(shí)別時(shí)易受到枝葉遮擋、果實(shí)重疊、天氣變化等自然環(huán)境因素的影響[7?8]。因此,如何實(shí)現(xiàn)自然環(huán)境下綠色柑橘的準(zhǔn)確識(shí)別是亟待解決的重要問題。
利用機(jī)器視覺技術(shù)對(duì)柑橘進(jìn)行了智能化檢測(cè)。Wang 等[9] 基于局部二值模式(local binarypatterns,LBP)特征研發(fā)一種自適應(yīng)AdaBoost分類器,對(duì)綠色柑橘識(shí)別的準(zhǔn)確率達(dá)到85.6%。Lu等[10]基于LBP特征和層次輪廓提出一種未成熟柑橘檢測(cè)方法,準(zhǔn)確率達(dá)到82.3%。Gan等[11]通過主動(dòng)熱成像系統(tǒng)來檢測(cè)未成熟的柑橘類水果,并根據(jù)主動(dòng)熱成像系統(tǒng)構(gòu)建深度學(xué)習(xí)模型,平均精度達(dá)到87.2%。韓文等[12] 提出Tiny-Dense-YOLOv3 網(wǎng)絡(luò)模型,采用卷積層替換Tiny的池化層以減少目標(biāo)信息丟失,并借鑒DenseNet網(wǎng)絡(luò)在Tiny網(wǎng)絡(luò)中嵌入2個(gè)層密集塊,最終準(zhǔn)確率達(dá)到88.98%。Zheng等[13]利用多尺度卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)自然環(huán)境中的綠色柑橘,最終模型的平均準(zhǔn)確率達(dá)到91.55%。陳文康等[14]通過改進(jìn)YOLOv4網(wǎng)絡(luò)模型對(duì)果園柑橘進(jìn)行檢測(cè),對(duì)先驗(yàn)框的選擇和損失函數(shù)進(jìn)行優(yōu)化,同時(shí)利用密集連接形成多尺度融合,該模型對(duì)果園環(huán)境下不同生長(zhǎng)期柑橘檢測(cè)的準(zhǔn)確率達(dá)到良好的效果。黃彤鑌等[15]在YOLOv5網(wǎng)絡(luò)模型的基礎(chǔ)上,引入CBAM(convolutional block attentionmodule)注意力機(jī)制,并用α-IoU 損失函數(shù)替代GIoU損失函數(shù)作為邊界框損失函數(shù)來檢測(cè)柑橘果實(shí),平均精度達(dá)到91.3%。
綠色柑橘是柑橘類果實(shí)的重要組成部分,其營(yíng)養(yǎng)價(jià)值豐富,但綠色柑橘生長(zhǎng)環(huán)境復(fù)雜,顏色與背景相近,果實(shí)數(shù)量、形態(tài)等具有多樣性,識(shí)別難度較大。智能采摘機(jī)器人作業(yè)過程中,對(duì)果實(shí)更準(zhǔn)確地識(shí)別和定位是主要難點(diǎn)[16]。因此,本文提出一種改進(jìn)YOLOv5模型,對(duì)自然環(huán)境下柑橘進(jìn)行識(shí)別。該模型采用混合注意力機(jī)制,將通道注意力SE(sequeeze and excitation)[17]和協(xié)同注意力機(jī)制CA(coordinate attention)[18]融入模型的主干網(wǎng)絡(luò),改進(jìn)模型的特征融合連接結(jié)構(gòu)和分類損失函數(shù),引入Varifocal Loss[19]分類損失函數(shù),可實(shí)現(xiàn)自然環(huán)境下綠色柑橘的有效識(shí)別,為綠色水果智能采摘技術(shù)提供支持。
1 材料與方法
1.1 柑橘圖像采集與分類
柑橘圖像的采集地點(diǎn)位于廣西壯族自治區(qū)桂林市靈川縣九屋鎮(zhèn)。采集設(shè)備為三星S10手機(jī),圖像的分辨率為4 032 像素×3 024 像素(大小約3.9 MB),保存格式為JPEG。拍攝時(shí)天氣條件為晴天和陰天,共采集柑橘圖像6 018幅。對(duì)采集到的柑橘圖像按果實(shí)數(shù)量和大小進(jìn)一步分類,得到柑橘數(shù)據(jù)集(表1)。
1.2 數(shù)據(jù)預(yù)處理
YOLOv5 模型利用Mosaic 對(duì)數(shù)據(jù)進(jìn)行增強(qiáng),能保證圖像樣本的均衡性。Mosaic隨機(jī)選取4幅圖像進(jìn)行預(yù)處理,將其拼接到1幅圖上進(jìn)行訓(xùn)練,該方法不需要增加最小批次的大小,可以直接計(jì)算4幅圖像的數(shù)據(jù),能有效擬合訓(xùn)練集中的圖像,減少GPU(graphics processing unit)的使用率,使模型的魯棒性更好。
1.3 自然環(huán)境下的綠色柑橘檢測(cè)模型
1.3.1 YOLOv5 模型
YOLOv5 模型的主干網(wǎng)絡(luò)主要分為Focus模塊和C3模塊,F(xiàn)ocus模塊在圖像進(jìn)入主干網(wǎng)絡(luò)之前對(duì)圖像進(jìn)行切片操作,將圖像相鄰的4個(gè)位置進(jìn)行堆疊,把高分辨率的特征圖拆分成多個(gè)低分辨率特征圖,實(shí)現(xiàn)下采樣的同時(shí)減少計(jì)算量,提升網(wǎng)絡(luò)速度。C3 模塊通過改進(jìn)BottleneckCSP[20]模塊,使其結(jié)構(gòu)比BottleneckCSP少1個(gè)卷積層,模型體積變小。特征融合后,卷積模塊中的激活函數(shù)替換成SiLU函數(shù),檢測(cè)性能不斷增強(qiáng)。Neck 中采用了FPN(feature pyramidnetworks)[21]與PAN(path aggregation network)結(jié)合的結(jié)構(gòu),其主要思想來源于PANet(path aggregationnetwork)[22]網(wǎng)絡(luò)結(jié)構(gòu)。FPN是一種自頂向下的結(jié)構(gòu),將下層特征與上層特征連接,再與自底向上的特征金字塔結(jié)合,增強(qiáng)模型的語義信息。模型檢測(cè)(predict)采用CIOU_Loss[23]作為邊界框損失函數(shù),網(wǎng)絡(luò)共輸出3個(gè)尺寸的特征圖,用于檢測(cè)不同尺寸的目標(biāo)對(duì)象,最后生成的圖像通過預(yù)測(cè)的邊界框和類別進(jìn)行標(biāo)記。
1.3.2 改進(jìn)YOLOv5模型
根據(jù)自然環(huán)境下綠色柑橘的特點(diǎn),對(duì)YOLOv5模型進(jìn)行改進(jìn),提升自然環(huán)境下柑橘的識(shí)別效果:①在主干網(wǎng)絡(luò)中融入混合注意力機(jī)制,即將通道注意力SE和協(xié)同注意力CA結(jié)合使用;②將模型所有Concat特征融合操作的淺層特征分支連接在C3模塊之前,再與深層特征分支特征進(jìn)行融合;③改進(jìn)模型的分類損失函數(shù),引入新的分類損失函數(shù)Varifocal Loss。改進(jìn)后的模型如圖1所示。
1.3.3 混合注意力機(jī)制
由于綠色柑橘圖像與自然環(huán)境背景色相近,導(dǎo)致模型通道特征信息和圖像的像素值有限,因此需要加強(qiáng)模型通道間特征信息的訓(xùn)練。此外,為了讓模型更精準(zhǔn)地定位和識(shí)別柑橘對(duì)象,需要加強(qiáng)位置感知信息的訓(xùn)練。
SE機(jī)制利用壓縮(squeeze)操作,在深層次網(wǎng)絡(luò)中優(yōu)化學(xué)習(xí)特定類別的特征信息,再經(jīng)過激發(fā)(excitation)操作,如式(1)所示。
X? = Xσ (z?) (1)
z?= T2 (ReLU(T1 (z ))) (2)
式中,σ 表示sigmoid激活函數(shù),X 表示輸入的特征圖,X?表示最終輸出的特征圖,z?是轉(zhuǎn)換函數(shù)生成后的結(jié)果。T1和T2是2個(gè)線性變換,用來捕獲每個(gè)通道的重要性,對(duì)通道間的特征進(jìn)行加權(quán)后,將通道間的權(quán)值與原始特征圖的特征相乘,得出新通道權(quán)值。
CA機(jī)制不僅關(guān)注了通道間的信息,同時(shí)還關(guān)注方向感知和位置感知。CA機(jī)制在水平和垂直方向,利用全局平均池化對(duì)每個(gè)通道進(jìn)行編碼,從而嵌入了坐標(biāo)信息,得到2個(gè)特征圖。將2個(gè)特征圖Concat連接,使用1個(gè)共享的1×1卷積變換函數(shù)進(jìn)行操作。然后沿著空間維度,分成2個(gè)獨(dú)立的張量fh和fw。為了使張量的通道數(shù)相同,再利用2個(gè)1×1卷積變換分別對(duì)fh和fw進(jìn)行變換,得到擴(kuò)展的注意力權(quán)重gh和gw,如式(3)所示。
yc (i,j ) = xc (i,j ) × ghc(i) × gwc( j ) (3)
式中,yc (i,j ) 表示第c 個(gè)通道(i,j ) 位置處最終的輸出,xc (i,j ) 表示嵌入坐標(biāo)信息后的輸出,ghc(i)和gwc( j ) 分別表示高度為h、寬度為w 方向上生成的協(xié)同注意力參數(shù)。
本文將2種注意力機(jī)制結(jié)合,稱作混合注意力。分別將SE注意力和CA注意力機(jī)制添加到模型的第2層和第11層,不僅能捕獲方向和位置信息,也能捕獲通道信息,讓模型更好地提取、定位柑橘圖像的特征。為驗(yàn)證混合注意力機(jī)制的有效性,設(shè)計(jì)以下幾組對(duì)比試驗(yàn)進(jìn)行驗(yàn)證:①模型第2層不嵌入注意力機(jī)制,第11層嵌入CBAM注意力機(jī)制;②模型第2層不嵌入注意力機(jī)制,第11層嵌入CA注意力機(jī)制;③模型第2層不嵌入注意力機(jī)制,第11層嵌入SE注意力機(jī)制;④模型第2層嵌入SE注意力機(jī)制,第11層嵌入CA注意力機(jī)制。
1.3.4 改進(jìn)模型特征融合連接結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)能更好地提取圖像的特征信息,YOLOv5模型的C3模塊可防止在卷積過程中產(chǎn)生的梯度爆炸和網(wǎng)絡(luò)退化的問題,所以YOLOv5模型使用大量C3 結(jié)構(gòu)。同時(shí),為了豐富上下文特征信息,YOLOv5模型采用Concat方法將深層特征分支與淺層特征分支進(jìn)行特征融合。但由于C3模塊內(nèi)部仍然存在多個(gè)卷積結(jié)構(gòu),導(dǎo)致模型后續(xù)特征融合時(shí)參數(shù)量過大,在特征提取過程中也容易出現(xiàn)特征信息丟失的問題。為減少淺層特征分支的卷積次數(shù)和特征融合時(shí)的參數(shù)量、反饋多尺度間特征的重要性及相關(guān)性,同時(shí)提高網(wǎng)絡(luò)模型識(shí)別柑橘的性能,本文將淺層特征分支連接在C3模塊之前,再與深層特征分支進(jìn)行特征融合,改進(jìn)后結(jié)構(gòu)如圖2所示。
1.3.5 改進(jìn)分類損失函數(shù)
YOLOv5模型的損失函數(shù)可以分為分類損失函數(shù)和回歸損失函數(shù)2類,YOLOv5模型的分類損失函數(shù)采用的是FocalLoss( FL),其定義如下。
式中,y∈{±1},表示真實(shí)類;p∈[0,1],表示前景類的預(yù)測(cè)概率;α 表示用來平衡正負(fù)樣本的權(quán)重;(1-p)γ和pγ用來調(diào)整每個(gè)樣本的權(quán)重;Focal Loss對(duì)于正負(fù)樣本的處理相同。
本文引入Varifocal Loss替換YOLOv5原網(wǎng)絡(luò)模型的Focal Loss。Varifocal Loss 是在Focal Loss基礎(chǔ)上進(jìn)行改進(jìn)的分類損失函數(shù),其對(duì)于圖像正負(fù)樣本的處理不同,能夠更加平衡柑橘圖像正負(fù)樣本的損失,定義如下。
式中,p 是預(yù)測(cè)的分類得分,q 是目標(biāo)IoU(intersection over union)的得分,α 表示用來平衡正負(fù)樣本的權(quán)重,pγ表示縮放系數(shù)。
與Focal Loss不同的是,增加q 來對(duì)正樣本加權(quán),如果正樣本的真實(shí)IoU得分較高,則損失函數(shù)的權(quán)重會(huì)更大,可以使訓(xùn)練聚焦在質(zhì)量高的樣本上。由于正樣本的數(shù)量較少,為了充分利用正樣本的監(jiān)督信息,縮放系數(shù)pγ只會(huì)對(duì)負(fù)樣本進(jìn)行調(diào)節(jié)。為了平衡整體的正負(fù)樣本數(shù)量,使用α 對(duì)負(fù)樣本進(jìn)行加權(quán)。
1.3.6 試驗(yàn)平臺(tái)及評(píng)價(jià)指標(biāo)
試驗(yàn)硬件環(huán)境采用Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GH 處理器,內(nèi)存64GB,操作系統(tǒng)為Ubuntu 16.04 LST 64位,深度學(xué)習(xí)框架為Pytorch,CUDA 11.2版本,使用Tesla P40顯卡對(duì)圖像進(jìn)行加速處理。
為驗(yàn)證模型的有效性,選取準(zhǔn)確率(P)、平均精度均值(mean average precision,mAP)和調(diào)和平均數(shù)(F1)為整體評(píng)價(jià)指標(biāo),準(zhǔn)確率表示模型預(yù)測(cè)為正樣本確實(shí)為正樣本的概率,平均精度均值將每個(gè)類別的平均精度(average precision,AP)計(jì)算均值,F(xiàn)1表示準(zhǔn)確率和召回率(R)的調(diào)和平均數(shù),反映模型的整體性能,計(jì)算公式如下。
式中,TP表示真正例數(shù),F(xiàn)P表示假正例數(shù),F(xiàn)N表示假負(fù)例數(shù),APi 為第i 類檢測(cè)準(zhǔn)確率,N(number)為類別數(shù)量。
2 結(jié)果與分析
2.1 圖像數(shù)據(jù)增強(qiáng)分析
柑橘圖像數(shù)據(jù)集使用Mosaic 數(shù)據(jù)增強(qiáng)通過隨機(jī)剪裁、隨機(jī)縮放、隨機(jī)排列等方式進(jìn)行拼接,使得數(shù)據(jù)集得到有效填充,樣本的均衡性更強(qiáng),訓(xùn)練出來的模型魯棒性更好,如圖3所示。
2.2 模型優(yōu)化對(duì)比分析
2.2.1 混合注意力優(yōu)化分析
試驗(yàn)在陰天條件下5~10個(gè)柑橘的維度內(nèi)進(jìn)行。將SE、CBAM、CA注意力機(jī)制分別嵌入模型第11層進(jìn)行對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表2所示。經(jīng)驗(yàn)證,在第2層加入SE注意力機(jī)制后模型準(zhǔn)確率更高,相較于單獨(dú)添加CBAM、CA、SE 注意力機(jī)制,準(zhǔn)確率分別提高了3.22%、1.89%和1.09%。
2.2.2 模型性能對(duì)比分析
模型改進(jìn)后,在整體數(shù)據(jù)集上進(jìn)行驗(yàn)證,并將改進(jìn)后的YOLOv5模型取名為YOLOv5-SC模型,不同模型的性能對(duì)比結(jié)果如表3所示。YOLOv5-SC模型準(zhǔn)確率更高,與YOLOv5、Faster RCNN、YOLOv3-LITE網(wǎng)絡(luò)模型相比較,準(zhǔn)確率分別提高2.61%、4.13% 和6.27%。在平均精度均值和F1值方面也表現(xiàn)更好,分別達(dá)到95.09% 和89.56%。從模型準(zhǔn)確率的變化(圖4)可以看出,經(jīng)過100 次迭代后,改進(jìn)后的YOLOv5-SC模型準(zhǔn)確率趨于穩(wěn)定,準(zhǔn)確率優(yōu)于各對(duì)比模型。這表明YOLOv5-SC模型具有更強(qiáng)的柑橘檢測(cè)能力。
從圖5可以看出,改進(jìn)后的YOLOv5-SC模型能提取更多關(guān)于柑橘的特征信息,提升了自然環(huán)境下柑橘的檢測(cè)效果。
2.3 不同分類場(chǎng)景下檢測(cè)性能分析
綠色柑橘與自然背景色相似,但在實(shí)際自然環(huán)境中綠色柑橘還會(huì)受到其他復(fù)雜情況的影響。果實(shí)重疊、枝葉遮擋、天氣條件變化、果實(shí)大小等復(fù)雜情形對(duì)果實(shí)采摘機(jī)器人的檢測(cè)和采摘效果造成不同的影響。選取3個(gè)自然條件(天氣條件、果實(shí)數(shù)量、果實(shí)大?。┫碌臋z測(cè)效果進(jìn)行對(duì)比試驗(yàn),從柑橘數(shù)據(jù)集中選取合適的類別,并按7∶3的比例劃分訓(xùn)練集及測(cè)試集,以驗(yàn)證改進(jìn)后的模型在自然環(huán)境下的檢測(cè)效果。
2.3.1 不同天氣條件下性能分析
由于晴天和陰天光照強(qiáng)度不同,柑橘會(huì)呈現(xiàn)不同的光澤、對(duì)比度和飽和度。在晴天條件下,柑橘飽和度更強(qiáng),其本身的色彩會(huì)更加鮮艷,光照越強(qiáng)柑橘光澤更亮,而在陰天條件下則恰好相反,這會(huì)對(duì)模型的識(shí)別效果產(chǎn)生一定的影響。本研究在5~10個(gè)柑橘的維度內(nèi)進(jìn)行試驗(yàn),分析不同天氣條件下對(duì)柑橘的檢測(cè)效果,結(jié)果如圖6所示??梢钥闯觯诓煌鞖鈭?chǎng)景下,改進(jìn)后的YOLOv5-SC模型對(duì)柑橘的檢測(cè)效果更好,其不僅能識(shí)別出更多數(shù)量的柑橘,還能改善模型將綠色背景識(shí)別成綠色柑橘的情形。YOLOv5-SC模型比YOLOv5模型準(zhǔn)確率更高,在陰天條件下準(zhǔn)確率提高1.95%,在晴天條件下準(zhǔn)確率提高2.34%(表4)。
2.3.2 不同果實(shí)數(shù)量下性能分析
在柑橘圖像拍攝過程中,隨著拍攝角度和距離的移動(dòng),每幅圖像包含的柑橘個(gè)數(shù)不同。如果圖像中柑橘數(shù)量較少,柑橘對(duì)象往往完整清晰,受環(huán)境因素的影響少;反之,包含的柑橘數(shù)量較多,它們會(huì)受到枝葉遮擋、果實(shí)重疊等自然因素的影響,其檢測(cè)難度提升。在不同天氣條件下,本節(jié)通過對(duì)比試驗(yàn)驗(yàn)證不同果實(shí)數(shù)量下模型的檢測(cè)效果,試驗(yàn)在少量(lt;5個(gè))和多量(5~10個(gè))柑橘2個(gè)維度進(jìn)行,檢測(cè)效果如圖7所示??梢钥闯觯槍?duì)不同果實(shí)數(shù)量下的柑橘圖像,YOLOv5-SC模型比YOLOv5模型準(zhǔn)確率更高。在陰天和晴天天氣下,如果柑橘果實(shí)數(shù)量在5個(gè)以內(nèi),準(zhǔn)確率能分別提高3.04、3.13個(gè)百分點(diǎn)。當(dāng)果實(shí)數(shù)量較多時(shí),準(zhǔn)確率能分別提高1.95、2.34個(gè)百分點(diǎn)。在自然因素條件下,仍能檢測(cè)出更多的柑橘(表5)。
2.3.3 不同果實(shí)大小下性能分析
在不同果實(shí)數(shù)量情況下,柑橘圖像呈現(xiàn)大小不一的形狀,影響果實(shí)采摘機(jī)器人的采摘效率。在單果實(shí)圖像中,近焦拍攝果實(shí)呈現(xiàn)單一較大的形態(tài),遠(yuǎn)焦拍攝果實(shí)呈現(xiàn)單一較小的形態(tài)。在實(shí)際工作中,機(jī)器人識(shí)別果實(shí)也會(huì)自助調(diào)焦來識(shí)別果實(shí),這會(huì)導(dǎo)致果實(shí)的大小不同。因此,本節(jié)在5個(gè)以內(nèi)柑橘的維度進(jìn)一步研究果實(shí)大小對(duì)識(shí)別性能的影響,結(jié)果如圖8所示??梢钥闯觯琘OLOv5-SC模型仍能檢測(cè)出更多柑橘,并能改善將綠色背景誤檢成綠色柑橘的情形,相較于YOLOv5模型準(zhǔn)確率更高。較大和較小的柑橘經(jīng)過模型識(shí)別后,在陰天條件下準(zhǔn)確率能分別提高1.25、0.73個(gè)百分點(diǎn)。在晴天,準(zhǔn)確率能分別提高0.55、0.85個(gè)百分點(diǎn)(表6)。
3 討論
柑橘生長(zhǎng)環(huán)境復(fù)雜,會(huì)受到遮擋、重疊、天氣等因素的影響,且綠色柑橘顏色與自然環(huán)境相近,識(shí)別難度較大。早期的機(jī)器視覺技術(shù)能根據(jù)柑橘的輪廓、紋理、形狀等特征設(shè)計(jì)識(shí)別算法,或利用高光圖譜、熱成像系統(tǒng)等方式進(jìn)行識(shí)別,取得一定的研究成果。但是,這些方法需要人工對(duì)柑橘圖像進(jìn)行特征提取,其識(shí)別效果有待提升,部分技術(shù)的研究成本也較高。隨著機(jī)器視覺技術(shù)的發(fā)展,能通過深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)柑橘圖像進(jìn)行特征提取,由數(shù)據(jù)本身來驅(qū)動(dòng)特征及表達(dá)關(guān)系的自主學(xué)習(xí)[24]。YOLO 是端到端的深度卷積神經(jīng)網(wǎng)絡(luò)模型,能識(shí)別和定位對(duì)象,檢測(cè)速度快[25]。YOLOv5模型結(jié)構(gòu)與YOLOv4模型相似,其核心是將目標(biāo)檢測(cè)作為單一回歸任務(wù),但YOLOv5模型均值權(quán)重文件更小,推理速度和時(shí)間更短。本文以YOLOv5深度學(xué)習(xí)模型為基礎(chǔ)對(duì)綠色柑橘對(duì)象進(jìn)行了研究,并提出了一種改進(jìn)的YOLOv5-SC模型對(duì)綠色柑橘進(jìn)行識(shí)別。對(duì)比原模型,添加了混合注意力機(jī)制,優(yōu)化了特征融合結(jié)構(gòu)和分類損失函數(shù),準(zhǔn)確率提升了2.61個(gè)百分點(diǎn),說明提出的改進(jìn)方法能提升對(duì)綠色柑橘的識(shí)別效果。
為驗(yàn)證模型優(yōu)化方法的有效性,本研究添加混合注意力機(jī)制,與單獨(dú)添加一種注意力機(jī)制相比模型的準(zhǔn)確率更高。模型優(yōu)化完成后,YOLOv5-SC模型準(zhǔn)確率最高,其平均精度和F1值也最高,對(duì)綠色柑橘的特征提取效果更好。
本文數(shù)據(jù)集能覆蓋多種自然環(huán)境條件,再利用YOLOv5的Mosaic數(shù)據(jù)增強(qiáng)策略,增加了圖像樣本的均衡性。針對(duì)綠色柑橘復(fù)雜的生長(zhǎng)環(huán)境,本文進(jìn)一步研究了不同自然環(huán)境下綠色柑橘的檢測(cè)性能。分別在不同天氣、不同果實(shí)數(shù)量、不同果實(shí)大小條件下,YOLOv5-SC模型準(zhǔn)確率能得到一定的提升。從識(shí)別效果來看,YOLOv5-SC能識(shí)別出更多柑橘果實(shí),也能有效減少綠色背景被誤檢成綠色柑橘的情形。
本文通過改進(jìn)YOLOv5模型來識(shí)別自然環(huán)境下的綠色柑橘,能為綠色水果智能采摘領(lǐng)域提供理論研究與技術(shù)支撐。為了讓模型更好地與智能采摘落地,未來在最小損失模型精度的前提下,需要減少模型體積,提升模型檢測(cè)速度,以實(shí)現(xiàn)模型輕量化部署與檢測(cè)。
參 考 文 獻(xiàn)
[1] 王林惠,蘭玉彬,劉志壯,等.便攜式柑橘蟲害實(shí)時(shí)檢測(cè)系統(tǒng)的研制與試驗(yàn)[J].農(nóng)業(yè)工程學(xué)報(bào),2021,37(9):282-288.
WANG L H, LAN Y B, LIU Z Z, et al .. Development andexperiment of the portable real-time detection system for citruspests [J]. Trans. Chin. Soc. Agric. Eng., 2021,37(9):282-288.
[2] CHEN W, ZHOU Y, CHEN Y. The environmental impacts ofcitrus residue management in China: a case study in the threegorges reservoir region [J]. Waste Manage., 2021, 133(6):80-88.
[3] TANG Y, CHEN M, WANG C, et al .. Recognition andlocalization methods for vision-based fruit picking robots: areview [J/OL]. Front. Plant Sci., 2020, 11:510 [2022-12-14].https://doi.org/10.3389/fpls.2020.00510.
[4] YE L, DUAN J, YANG Z, et al .. Collision-free motion planningfor the litchi-picking robot [J/OL]. Comput. Electron. Agric.,2021, 185: 106151 [2022-12-14]. https://doi.org/10.1016/j.compag.2021.106151.
[5] 趙德安,吳任迪,劉曉洋,等.基于YOLO深度卷積神經(jīng)網(wǎng)絡(luò)的復(fù)雜背景下機(jī)器人采摘蘋果定位[J].農(nóng)業(yè)工程學(xué)報(bào),2019,35(3):164-173.
ZHAO D A, WU R D, LIU X Y, et al .. Apple positioning basedon YOLO deep convolutional neural network forpicking robotin complex background [J]. Trans. Chin. Soc. Agric. Eng.,2019,35(3):164-173.
[6] 許德剛,王露,李凡.深度學(xué)習(xí)的典型目標(biāo)檢測(cè)算法研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(8):10-25.
XU D G, WANG L, LI F. Review of typical object detectionalgorithms for deep learning [J]. Comput. Eng. Appl., 2021,57(8):10-25.
[7] 易詩,李俊杰,張鵬,等.基于特征遞歸融合YOLOv4網(wǎng)絡(luò)模型的春見柑橘檢測(cè)與計(jì)數(shù)[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(18):161-169.
YI S, LI J J, ZHANG P, et al .. Detecting and counting of springseecitrus using YOLOv4 network model and recursive fusionof features [J]. Trans. Chin. Soc. Agric. Eng., 2021, 37(18):161-169.
[8] 楊婷婷,郭志勛,雷定湘,等.機(jī)器視覺技術(shù)在農(nóng)業(yè)中的應(yīng)用[J].安徽農(nóng)學(xué)通報(bào),2021, 27(18):110-111.
YANG T T, GUO Z X, LEI D X, et al .. Application of machinevision technology in agriculture [J]. Anhui Agric. Sci. Bull.,2021,27(18):110-111.
[9] WANG C, LEE W S, ZOU X, et al .. Detection and counting ofimmature green citrus fruit based on the Local Binary Patterns(LBP) feature using illumination-normalized images [J]. Precis.Agric., 2018,19(6):1062-1083.
[10] LU J, LEE W S, HAO G, et al .. Immature citrus fruit detectionbased on local binary pattern feature and hierarchical contouranalysis [J]. Biosys. Eng., 2018,171:78-90.
[11] GAN H , LEE W S, ALCHANATIS V, et al .. Active thermalimaging for immature citrus fruit detection [J]. Biosys. Eng.,2020,198:291-303.
[12] 韓文,魏超宇,劉輝軍.基于Tiny-YOLOv3的田間綠色柑橘目標(biāo)檢測(cè)方法[J].中國(guó)計(jì)量大學(xué)學(xué)報(bào), 2020, 31(3):349-356,392.
HAN W, WEI C Y, LIU H J. Green citrus detection based onTiny-YOLOv3 in field [J]. J. China Metrol. Univ., 2020,31(3):349-356,392.
[13] ZHENG Z, XIONG J, LIN H, et al .. A method of green citrusdetection in natural environments using a deep convolutionalneural network [J/OL]. Front. Plant Sci., 2021, 12: 705737[2022-12-28]. https://doi.org/10.3389/fpls.2021.705737.
[14] 陳文康,陸聲鏈,劉冰浩,等.基于改進(jìn)YOLOv4的果園柑橘檢測(cè)方法研究[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,39(5):134-146.
CHEN W K, LU S L, LIU B H, et al .. Real-time citrusrecognition under orchard environment by improved YOLOv4 [J]. J.Guangxi Norm. Univ. (Nat. Sci.), 2021,39(5):134-146.
[15] 黃彤鑌,黃河清,李震,等.基于YOLOv5改進(jìn)模型的柑橘果實(shí)識(shí)別方法[J].華中農(nóng)業(yè)大學(xué)學(xué)報(bào),2022,41(4):170-177.
HUANG T B, HUANG H Q, LI Z, al.el. Citrus fruit recognitionmethod based on the improved model of YOLOv5 [J]. J.Huazhong Agric. Univ., 2022,41(4):170-177.
[16] 楊長(zhǎng)輝,劉艷平,王毅,等. 自然環(huán)境下柑橘采摘機(jī)器人識(shí)別定位系統(tǒng)研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(12):14-22.
YANG C H, LIU Y P, WANG Y, et al .. Research andexperiment on recognition and location system for citruspicking robot in natural environment [J]. Trans. Chin. Soc.Agric. Mach., 2019,50(12):14-22.
[17] JIE H, LI S, GANG S, et al .. Squeeze-and-excitation networks[C]// Proceedings of 2018 IEEE/CVF Conference on ComputerVision and Pattern Recognition (CVPR) . IEEE, 2018:7132-7141.
[18] HOU Q, ZHOU D, FENG J. Coordinate attention for efficientmobile network design [C]// Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.IEEE, 2021:13713-13722.
[19] ZHANG H, WANG Y, DAYOUB F, et al .. Varifocalnet:A n iouawaredense object detector [C]// Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition. IEEE,2021:8514-8523.
[20] WANG C Y, LIAO H Y M, WU Y H, et al .. CSPNet:A newbackbone that can enhance learning capability of CNN [J/OL].2019, 1911: 11929 [2022-12-28]. https://doi.org/10.48550/arXiv.1911.11929.
[21] LIN T, DOLLAER P, GIRSHICK R, et al .. Feature pyramidnetworks for object detection [C]// Proceedings of the IEEEConference on Computer Vision and Pattern Recognition. IEEE,2017:936-944.
[22] LIU S, QI L, QIN H, et al .. Path aggregation network forinstance segmentation [C]// Proceedings of 2018 IEEE/CVFConference on Computer Vision and Pattern Recognition(CVPR). IEEE,2018:8759-8768.
[23] ZHENG Z H, WANG P, LIU W, et al .. Distance-IoU Loss:Faster and Better Learning for Bounding Box Regression [C]//Proceedings of The Thirty-Fourth AAAI Conference onArtificial Intelligence 2017: 12993-13000.
[24] 宋中山,劉越,鄭祿,等.基于改進(jìn)YOLOV3的自然環(huán)境下綠色柑橘的識(shí)別算法[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào), 2021, 42(11):159-165.
SONG Z S, LIU Y, ZHENG L, al. el. Identification of greencitrus based on improved YOLOV3 in natural environment [J].J. Chin. Agric. Mechan., 2021,42(11):159-165.
[25] 劉芳,劉玉坤,林森,等.基于改進(jìn)型YOLO的復(fù)雜環(huán)境下番茄果實(shí)快速識(shí)別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(6):229-237.
LIU F, LIU Y K, LIN S, et al .. Fast Recognition method fortomatoes under complex environments based on improvedYOLO [J]. Trans. Chin. Soc. Agric. Mach., 2020,51(6):229-237.
基金項(xiàng)目:國(guó)家民委中青年英才培養(yǎng)計(jì)劃項(xiàng)目(MZR20007);湖北省科技重大專項(xiàng)(2020AEA011);武漢市科技計(jì)劃應(yīng)用基礎(chǔ)前沿項(xiàng)目(2020020601012267);中南民族大學(xué)研究生學(xué)術(shù)創(chuàng)新基金項(xiàng)目(3212022sycxjj333)。