趙方 左官芳 顧思睿 任肖恬 陶旭
摘要:番茄檢測(cè)模型的檢測(cè)速度和識(shí)別精度會(huì)直接影響到番茄采摘機(jī)器人的采摘效率,因此,為實(shí)現(xiàn)復(fù)雜溫室環(huán)境下對(duì)番茄精準(zhǔn)實(shí)時(shí)的檢測(cè)與識(shí)別,為采摘機(jī)器人視覺系統(tǒng)研究提供重要的參考價(jià)值,提出一種以YOLO v5s模型為基礎(chǔ),使用改進(jìn)的MobileNet v3結(jié)構(gòu)替換主干網(wǎng)絡(luò),平衡模型速度和精度。同時(shí),在頸部網(wǎng)絡(luò)引入Ghost輕量化模塊和CBAM注意力機(jī)制,在保證模型檢測(cè)精度的同時(shí)提高模型的檢測(cè)速度。通過擴(kuò)大網(wǎng)絡(luò)的輸入尺寸,并設(shè)置不同尺度的檢測(cè)網(wǎng)絡(luò)來提高對(duì)遠(yuǎn)距離小目標(biāo)番茄的識(shí)別精度。采用SIoU損失函數(shù)來提高模型訓(xùn)練的收斂速度。最終,改進(jìn)YOLO v5s模型檢測(cè)番茄的精度為94.4%、召回率為92.5%、均值平均精度為96.6%、模型大小為7.1 MB、參數(shù)量為3.69 M、浮點(diǎn)運(yùn)算(FLOPs)為6.0 G,改進(jìn)的模型很好地平衡了模型檢測(cè)速度和模型識(shí)別精度,能夠快速準(zhǔn)確地檢測(cè)和識(shí)別復(fù)雜溫室環(huán)境下的番茄,且對(duì)遠(yuǎn)距離小目標(biāo)番茄等復(fù)雜場(chǎng)景都能實(shí)現(xiàn)準(zhǔn)確檢測(cè)與識(shí)別,該輕量化模型未來能夠應(yīng)用到嵌入式設(shè)備,對(duì)復(fù)雜環(huán)境下的溫室番茄實(shí)現(xiàn)實(shí)時(shí)準(zhǔn)確的檢測(cè)與識(shí)別。
關(guān)鍵詞:番茄;小目標(biāo)檢測(cè);YOLO v5s;輕量化網(wǎng)絡(luò);注意力機(jī)制
中圖分類號(hào):S126? 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1002-1302(2024)08-0200-09
收稿日期:2023-06-05
基金項(xiàng)目:江蘇省高等學(xué)校基礎(chǔ)科學(xué)(自然科學(xué))研究面上項(xiàng)目(編號(hào):22KJB140015);江蘇省無錫市創(chuàng)新創(chuàng)業(yè)資金“太湖之光”科技攻關(guān)計(jì)劃(基礎(chǔ)研究)項(xiàng)目(編號(hào):K20221043);教育部產(chǎn)學(xué)合作協(xié)同育人項(xiàng)目(編號(hào):220604210140248)。
作者簡(jiǎn)介:趙 方(1997—),男,山東臨沂人,碩士,主要從事嵌入式人工智能。E-mail:zhaofang_1997@163.com。
通信作者:左官芳,碩士,高級(jí)工程師,主要從事嵌入式設(shè)計(jì)研究。E-mail:zgf@cwxu.edu.cn。
近年來,自高性能、低功耗、嵌入式處理器出現(xiàn)以來,越來越多的視覺檢測(cè)任務(wù)可以在嵌入式系統(tǒng)上實(shí)現(xiàn),這使得農(nóng)業(yè)機(jī)器人變得更加先進(jìn)。在智慧農(nóng)業(yè)背景下,用番茄采摘機(jī)器人代替人工采摘、降低人工成本、提高勞動(dòng)生產(chǎn)率成為發(fā)展趨勢(shì)[1]。目前國(guó)內(nèi)外相關(guān)文獻(xiàn)針對(duì)番茄檢測(cè)算法研究主要分為傳統(tǒng)目標(biāo)檢測(cè)算法與深度學(xué)習(xí)目標(biāo)檢測(cè)算法。
李寒等使用紅綠藍(lán)深度(RGB-D)相機(jī)捕捉圖像,對(duì)圖像進(jìn)行預(yù)處理,得到水果輪廓,分離重疊水果的輪廓,并將其擬合成圓圈,將k均值聚類(KMC)與自組織映射(SOM)神經(jīng)網(wǎng)絡(luò)算法相結(jié)合,對(duì)番茄進(jìn)行識(shí)別,結(jié)果表明,輪廓提取受到光照的影響,對(duì)番茄的識(shí)別率僅為87.2%[2]。孫建桐等提出一種基于幾何形態(tài)學(xué)與迭代隨機(jī)圓的番茄識(shí)別方法,利用Canny邊緣檢測(cè)算法獲得果實(shí)邊緣輪廓點(diǎn),并對(duì)果實(shí)邊緣輪廓進(jìn)行幾何形態(tài)學(xué)處理,最后對(duì)果實(shí)輪廓點(diǎn)分組后進(jìn)行迭代隨機(jī)圓的處理,試驗(yàn)結(jié)果表明,對(duì)番茄識(shí)別的正確率為85.1%[3],但該研究沒有解決自然環(huán)境下番茄遮擋嚴(yán)重的問題。
傳統(tǒng)番茄檢測(cè)算法對(duì)番茄檢測(cè)的結(jié)果很容易受到光照、遮擋等影響導(dǎo)致番茄識(shí)別率低,同時(shí)傳統(tǒng)識(shí)別算法無法較好地達(dá)到精度和實(shí)時(shí)性平衡的要求,難以滿足實(shí)際需求。
近年來,隨著圖形處理器(GPU)計(jì)算能力的提升,深度學(xué)習(xí)被廣泛應(yīng)用于各個(gè)領(lǐng)域,特別為智慧農(nóng)業(yè)領(lǐng)域帶來了創(chuàng)新的解決方案[4]。目前基于深度學(xué)習(xí)算法的目標(biāo)檢測(cè)算法主要可分為2類:one-stage與two-stage。One-Stage目標(biāo)檢測(cè)方法的核心思想是使用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN)直接處理整個(gè)圖像來檢測(cè)物體并預(yù)測(cè)物體類別,它通常比two-stage更快,代表性的方法有單次多框檢測(cè)器(SSD)[5]和單次目標(biāo)檢測(cè)器(YOLO)[6]。two-stage目標(biāo)檢測(cè)方法的核心思想是首先生成候選區(qū)域,然后通過卷積神經(jīng)網(wǎng)絡(luò)對(duì)區(qū)域進(jìn)行分類,代表方法有基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)[7]、快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast R-CNN)[8]、更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster R-CNN)[9]、掩膜基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Mask-RCNN)[10]。
針對(duì)番茄生長(zhǎng)環(huán)境復(fù)雜,枝葉對(duì)番茄遮擋影響番茄檢測(cè)與識(shí)別問題,張文靜等提出一種基于Faster R-CNN的番茄識(shí)別檢測(cè)方法,結(jié)果表明,平均精度達(dá)到83.9%,單樣本圖像處理時(shí)間為245 ms[11]。總體來看,該方法檢測(cè)時(shí)間過長(zhǎng)且精度不高。為減少光照、遮擋的影響,Yuan等提出了一種基于SSD溫室場(chǎng)景櫻桃番茄檢測(cè)算法,試驗(yàn)結(jié)果顯示,平均精度為98.85%[12]。但該模型耗時(shí)過長(zhǎng),難以滿足實(shí)時(shí)性要求。針對(duì)夜間光照不足影響檢測(cè)算法準(zhǔn)確性問題,何斌等提出了一種改進(jìn)YOLO v5的夜間番茄檢測(cè)模型,通過改進(jìn)損失函數(shù)來構(gòu)建檢測(cè)模型,結(jié)果表明,該模型的平均精度達(dá)到96.8%[13]。但該模型缺乏對(duì)枝葉遮擋以及番茄重疊問題的研究。
在復(fù)雜溫室環(huán)境中,番茄果實(shí)的姿態(tài)、大小、稀疏度和光照條件各不相同,在許多情況下,果實(shí)被枝葉嚴(yán)重遮擋,且當(dāng)前算法對(duì)遠(yuǎn)距離小目標(biāo)番茄和輕量化番茄檢測(cè)模型的研究仍然不足?;谝陨蠁栴},本研究在自然光條件下收集了未成熟的綠色番茄和成熟的紅色番茄圖片構(gòu)建數(shù)據(jù)集,使用改進(jìn)MobileNet v3對(duì)YOLO v5s主干進(jìn)行改進(jìn),在頸部網(wǎng)絡(luò)引入Ghost卷積和CBAM注意力機(jī)制,并改變網(wǎng)絡(luò)輸入大小和輸出網(wǎng)絡(luò)尺度大小,最后對(duì)原損失函數(shù)進(jìn)行改進(jìn)。
1 建立數(shù)據(jù)集
1.1 數(shù)據(jù)集采集
本研究的數(shù)據(jù)集拍攝于山東省蘭陵縣溫室大棚,拍攝時(shí)間為2023年1月5日09:00—16:00。番茄品種為愛吉158,所有圖片在距離番茄0.5~2 m 處進(jìn)行多角度和不同光照條件下拍攝。選擇 1 200 張番茄圖片,存儲(chǔ)格式為.jpg,制作數(shù)據(jù)集,其中包含不同的光照條件、遮擋、重疊、遠(yuǎn)距離小目標(biāo)等復(fù)雜環(huán)境。
1.2 數(shù)據(jù)增強(qiáng)
為解決番茄受光照、遮擋等因素的影響,同時(shí)為了增強(qiáng)模型對(duì)小目標(biāo)檢測(cè)能力及模型的魯棒性和泛化性,防止模型學(xué)習(xí)與目標(biāo)無關(guān)的信息,避免樣本不平衡和過擬合現(xiàn)象,本研究采用數(shù)據(jù)增強(qiáng)技術(shù)[14]擴(kuò)增數(shù)據(jù)集容量,對(duì)圖片進(jìn)行裁剪、平移、改變亮度、加噪聲、旋轉(zhuǎn)角度、鏡像操作,使用Lableimg標(biāo)注成熟的紅色番茄和未成熟的綠色番茄。由于綠色番茄在溫室環(huán)境下和綠色枝葉顏色相似,會(huì)造成目標(biāo)檢測(cè)模型識(shí)別率低甚至漏檢的現(xiàn)象,所以本研究通過在數(shù)據(jù)集中增加綠色番茄圖片的比重,提高模型對(duì)綠色番茄的識(shí)別能力,將1 200張?jiān)紙D片按照1 ∶4擴(kuò)展至6 000張圖片,訓(xùn)練集、驗(yàn)證集、測(cè)試集按照8 ∶1 ∶1進(jìn)行分配,最終的數(shù)據(jù)集包含訓(xùn)練集4 800張圖片、驗(yàn)證集600張圖片、測(cè)試集600張圖片。對(duì)番茄進(jìn)行圖像增強(qiáng)后的結(jié)果如圖1所示。
2 基于改進(jìn)YOLO v5s的番茄識(shí)別網(wǎng)絡(luò)
2.1 YOLO v5s算法基本原理
YOLO v5網(wǎng)絡(luò)包括4種網(wǎng)絡(luò)模型:YOLO v5s、YOLO v5m、YOLO v5l、YOLO v5x。YOLO v5s是其中網(wǎng)絡(luò)深度和寬度最小的模型,越小的網(wǎng)絡(luò)模型對(duì)移動(dòng)端的性能要求也越低,符合輕量化、實(shí)時(shí)性要求,因此本研究選擇在YOLO v5s網(wǎng)絡(luò)模型的基礎(chǔ)上進(jìn)行改進(jìn)。
YOLO v5s網(wǎng)絡(luò)分為4個(gè)部分:輸入、主干網(wǎng)絡(luò)、頸部和輸出。輸入端使用馬賽克數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算、自適應(yīng)圖像縮放等方法。
主干網(wǎng)絡(luò)是一個(gè)可以提取圖像特征的CNN,它集成了Conv、C3、SPPF和其他特征提取模塊用于特征提取,其中Conv是YOLO v5s的基本卷積單元,依次對(duì)輸入進(jìn)行二維卷積、正則化和激活操作。C3模塊采用殘差連接的設(shè)計(jì)思路,其結(jié)構(gòu)分為2個(gè)分支,一支使用了卷積和Bottleneck,另一支僅經(jīng)過基本卷積模塊,將2支進(jìn)行Concat操作,最后經(jīng)過基本卷積模塊。SPPF是基于SPP(spatial pyramid pooling)空間金字塔池化提出的,速度優(yōu)于SPP,所以叫SPP-Fast,SPPF模塊使用3個(gè)不同的池化層,在特征圖執(zhí)行這些池化操作之后,得到的結(jié)果將級(jí)聯(lián)在一起,形成一個(gè)固定大小的特征圖。它可以提高檢測(cè)精度,并且對(duì)不同大小的目標(biāo)具有很好的適應(yīng)性。
頸部采用FPN+PAN結(jié)構(gòu),F(xiàn)PN結(jié)構(gòu)采用自頂向下的方法,利用上采樣將高層特征圖與低層特征圖融合,增強(qiáng)語義特征,提高對(duì)不同尺度物體的檢測(cè)。PAN結(jié)構(gòu)采用自底向上路徑增強(qiáng)方法,將低層位置信息傳輸至高層,實(shí)現(xiàn)多尺度特征融合。FPN+PAN結(jié)構(gòu)將提取的語義信息和位置信息融合,大大提高了模型的特征提取能力。
輸出端是一個(gè)包含3個(gè)不同尺度檢測(cè)頭的卷積層,它將網(wǎng)絡(luò)特征圖轉(zhuǎn)換為目標(biāo)檢測(cè)結(jié)果。
2.2 改進(jìn)YOLO v5s算法
番茄采摘機(jī)器人設(shè)計(jì)的難點(diǎn)在其視覺系統(tǒng)能否檢測(cè)和識(shí)別番茄目標(biāo),但是番茄生長(zhǎng)在復(fù)雜環(huán)境下,番茄采摘機(jī)器人面臨光照變化、枝葉遮擋、重疊和遠(yuǎn)距離小番茄難以識(shí)別的問題,同時(shí)番茄采摘機(jī)器人的工作效率與其視覺系統(tǒng)的檢測(cè)速度和識(shí)別精度有直接關(guān)系。因此,在復(fù)雜的環(huán)境下,研究快速、精確的識(shí)別和檢測(cè)番茄果實(shí)技術(shù)具有重要意義。
為構(gòu)建輕量、高效的番茄檢測(cè)模型,本研究提出了MCG-YOLO v5s輕量化番茄檢測(cè)模型,模型如圖2所示。本研究對(duì)以下幾方面進(jìn)行改進(jìn):首先,為實(shí)現(xiàn)番茄檢測(cè)速度與識(shí)別精度的平衡,使用改進(jìn)的MobileNet v3取代YOLO v5s骨干網(wǎng)絡(luò)。其次,為進(jìn)一步減少模型部署時(shí)所需的計(jì)算資源,提高模型的檢測(cè)速度,在頸部通過使用少量卷積與線性變換運(yùn)算相結(jié)合的GhostConv代替頸部網(wǎng)絡(luò)中的普通卷積,實(shí)現(xiàn)進(jìn)一步輕量化改進(jìn);使用C3CBAM代替原始C3,提高網(wǎng)絡(luò)對(duì)番茄特征提取能力,在空間和通道維度上更進(jìn)一步準(zhǔn)確提取番茄特征,使模型能準(zhǔn)確定位和識(shí)別番茄;YOLO v5網(wǎng)絡(luò)的輸入圖像尺寸為640×640,預(yù)測(cè)頭部的輸出尺寸為80×80、40×40、20×20,由于遠(yuǎn)距離小目標(biāo)番茄圖像中目標(biāo)特征較少,因此本研究為提高對(duì)小目標(biāo)番茄的檢測(cè)精度,將網(wǎng)絡(luò)的輸入大小從640×640增加到1 024×1 024,將輸出的特征圖大小分別設(shè)置為128×128、64×64、32×32,通過擴(kuò)大網(wǎng)絡(luò)的輸入大小和改變輸出網(wǎng)絡(luò)尺度的大小,克服遠(yuǎn)距離圖像中番茄小目標(biāo)漏檢問題。最后,SIOU作為改進(jìn)算法的損失函數(shù)進(jìn)一步提高模型訓(xùn)練的收斂速度。
2.3 主干網(wǎng)絡(luò)改進(jìn)
MobileNet v3[15]是一種輕量級(jí)的網(wǎng)絡(luò)架構(gòu),它結(jié)合NAS(neural architecture search)自動(dòng)搜索技術(shù)和NetAdapt自適應(yīng)算法來提高模型的性能和效率。首先,MobileNet v3使用了MobileNet v1[16]中的深度可分離卷積(depthwise separable convolution,DSC)。深度可分離卷積運(yùn)算如圖3所示,分為深度卷積(depthwise convolution,DW)和逐點(diǎn)卷積(pointwise convolution,PW)2個(gè)步驟,深度卷積通過減少模型的參數(shù)量和計(jì)算量,使模型輕量化,逐點(diǎn)卷積將每個(gè)通道之間的信息進(jìn)行交互和組合,從而提高網(wǎng)絡(luò)的表達(dá)能力。其次,MobileNet v3通過使用MobileNet v2[17]中的倒殘差結(jié)構(gòu)使特征傳輸能力更好,并通過引入輕量化SE(squeeze and excitation)[18]注意力機(jī)制,更有利于通道信息來調(diào)整每個(gè)通道對(duì)應(yīng)的權(quán)重。最后,MobileNet v2將原有的swish函數(shù)替換為h-swish激活函數(shù),確保在參數(shù)數(shù)量一定的情況下,計(jì)算量大大減少,有效提高了模型的識(shí)別精度。本研究引入MobileNet v3模型主要是為了減少計(jì)算量,減小模型的尺寸,提高檢測(cè)精度。
從YOLO v5s中的C3設(shè)計(jì)模塊得到靈感,對(duì)原始MobileNet v3的bottleneck增加1個(gè)含有1×1卷積層的并行支路,目的是為了提高對(duì)小目標(biāo)番茄的檢測(cè)精度,提高綠色背景下對(duì)綠色番茄特征提取能力,同時(shí),由于2條支路的特征提取方式不同,可以使模型學(xué)習(xí)到不同的特征,提高模型的表達(dá)能力??紤]到CBAM模型將通道維度與空間維度結(jié)合,相比于只關(guān)注通道維度的ECA模型和SE模型,可以獲得更好的結(jié)果,所以本研究使用CBAM注意力機(jī)制將原MobileNet v3中的SE注意力機(jī)制替換,其作
用是調(diào)整各通道的權(quán)重,僅增加少量的參數(shù),但有效提高了模型的精度。改進(jìn)結(jié)構(gòu)如圖4所示,第1步輸入進(jìn)入2條支路,其中主支路輸入通過1×1卷積層、3×3深度可分離卷積層,并通過CBAM注意力機(jī)制提高檢測(cè)精度;另一條支路輸入使用1×1卷積核進(jìn)行卷積操作。此時(shí)對(duì)2條支路進(jìn)行特征融合,作為下一層的輸入,并使用降維1×1卷積層。第2步進(jìn)行殘差連接。
2.4 輕量化模型改進(jìn)
在設(shè)計(jì)輕量化模型時(shí),筆者意識(shí)到特征層中冗余的信息可能是成功模型的重要組成部分,因此沒有去除這些冗余,而是采用更低成本的計(jì)算方式來獲得它們。本研究使用輕量級(jí)Ghost模塊[19]進(jìn)一步減少了卷積過程中的計(jì)算量和參數(shù)數(shù)量,可以使用更少的計(jì)算和參數(shù)來生成更多的特征圖。
3.4 消融試驗(yàn)
為了驗(yàn)證各個(gè)改進(jìn)模塊的作用,本研究進(jìn)行消融試驗(yàn)。從表1可以看出,該模型輕量化主要是因?yàn)槭褂酶倪M(jìn)MobileNet v3模塊替換原模型主干網(wǎng)絡(luò),原模型主干網(wǎng)絡(luò)中的C3結(jié)構(gòu)有較大參數(shù)量,增加了模型的復(fù)雜度,而MobileNet v3模塊中運(yùn)用了深度可分離卷積而減少了模型參數(shù)量,同時(shí)改進(jìn)的MoblieNet v3增加了1×1卷積模塊分支,提高了模型精度,與原始模型相比,均值平均精度提高了1.7百分點(diǎn),參數(shù)減少了2.54 M,浮點(diǎn)運(yùn)算減少了9.0 G,因此,使用改進(jìn)MoblieNet v3替換主干網(wǎng)絡(luò)進(jìn)行輕量化操作的同時(shí),仍能保證精度。在模型的頸部中使用C3CBAM模塊,不但均值平均精度提高了2.8百分點(diǎn),而且參數(shù)減少了0.49 M,浮點(diǎn)運(yùn)算減少了 1.0 G,所以C3CBAM對(duì)提高模型精度起到了很大的作用。同時(shí),在頸部使用Ghost卷積替換普通卷積,均值平均精度提高了2.1百分點(diǎn),參數(shù)減少了0.51 M,浮點(diǎn)運(yùn)算減少了0.6 G,實(shí)現(xiàn)對(duì)模型進(jìn)一步輕量化操作。對(duì)原模型的損失函數(shù)進(jìn)行改進(jìn)后,模型的均值平均精度提高了0.6百分點(diǎn)。將這4項(xiàng)改進(jìn)融入模型中,與原始YOLO v5s模型相比,均值平均精度提高了6.0百分點(diǎn),參數(shù)降低3.54 M,浮點(diǎn)運(yùn)算減少了10.6 G。結(jié)果表明,MCG-YOLO v5s通過輕量化改進(jìn)降低了模型的復(fù)雜性,對(duì)番茄目標(biāo)具有更好的檢測(cè)性能。
3.5 對(duì)比試驗(yàn)
為了驗(yàn)證本研究提出的輕量化番茄檢測(cè)模型的性能,選擇YOLO v3-tiny、YOLO v4-tiny、YOLO v5s與MCG-YOLO v5s進(jìn)行比較和測(cè)試,所有模型都使用相同的番茄數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試,選擇精度、召回率、均值平均精度、模型大小、參數(shù)量和浮點(diǎn)運(yùn)算作為評(píng)價(jià)指標(biāo),結(jié)果見表2。
表2顯示,與YOLO v3-tiny、YOLO v4-tiny、YOLO v5s相比,MCG-YOLO v5s模型的精度分別提高6.1、5.8、4.9百分點(diǎn),召回率分別提高5.8、7.3、3.9百分點(diǎn),均值平均精度分別提高5.1、6.5、6.0百分點(diǎn)。與輕量化模型 YOLO v3-tiny、YOLO v4-tiny 模型相比,MCG-YOLO v5s模型大小分別減少22.97、17.97 MB,參數(shù)量分別減少5.21、4.21 M,浮點(diǎn)運(yùn)算減少2.6、3.2 G。
MCG-YOLO v5s模型大小為7.1 MB,參數(shù)量為3.69 M,浮點(diǎn)運(yùn)算為6.0 G。結(jié)果表明,MCG-YOLO v5s模型體積最小,參數(shù)量、浮點(diǎn)運(yùn)算最小,非常適合部署至算力不高的嵌入式邊緣設(shè)備,為番茄采摘機(jī)器人的視覺系統(tǒng)提供切實(shí)可行的參考方案,提高番茄采摘機(jī)器人自動(dòng)采摘番茄的工作效率。
通過YOLO v5s與MCG-YOLO v5s模型對(duì)復(fù)雜溫室環(huán)境下的番茄圖片檢測(cè)進(jìn)行可視化測(cè)試,驗(yàn)證MCG-YOLO v5s模型的可行性。
可視化結(jié)果如圖9、圖10所示,對(duì)于多果、枝葉遮擋、光照不足的情形,YOLO v5s模型雖然能夠檢測(cè)與識(shí)別成熟的紅色番茄和未成熟的綠色番茄,但相比于MCG-YOLO v5s模型,YOLO v5s模型的精度低6~20百分點(diǎn)。對(duì)光照充足、番茄重疊、背景相似情形,YOLO v5s漏檢了圖片中的綠色番茄,這是由于綠色番茄與枝葉有相同的顏色,所以增加了模型的識(shí)別難度,然而MCG-YOLO v5s對(duì)于相似背景的綠色番茄具有更好的特征提取能力,能夠準(zhǔn)確識(shí)別與檢測(cè)。對(duì)于單果情形,從圖9、圖10中可以看到枝葉嚴(yán)重遮擋了圖中的紅色番茄,導(dǎo)致YOLO v5s出現(xiàn)漏檢的情況,而MCG-YOLO v5s對(duì)嚴(yán)重遮擋的紅色番茄更友好,在嚴(yán)重遮擋環(huán)境下仍能準(zhǔn)確識(shí)別與檢測(cè)。對(duì)于遠(yuǎn)距離小目標(biāo)番茄,YOLO v5s漏檢了圖片中的紅色番茄和綠色番茄;而MCG-YOLO v5s對(duì)于小目標(biāo)番茄具有很強(qiáng)的識(shí)別能力,能識(shí)別與檢測(cè)圖中的遠(yuǎn)距離小目標(biāo)番茄,雖然圖中漏檢了幾個(gè)小目標(biāo)番茄,但相比于YOLO v5s模型,MCG-YOLO v5s對(duì)小目標(biāo)番茄的識(shí)別能力明顯提高了。
4 總結(jié)
本研究為實(shí)現(xiàn)在復(fù)雜溫室環(huán)境下對(duì)番茄進(jìn)行準(zhǔn)確實(shí)時(shí)檢測(cè),提出一種MCG-YOLO v5s的番茄檢測(cè)模型,通過對(duì)YOLO v5s模型的改進(jìn),提高模型檢測(cè)速度與識(shí)別精度。首先是對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),提高對(duì)小目標(biāo)番茄的檢測(cè)能力及模型魯棒性。其次在YOLO v5s中使用改進(jìn)的MobileNet v3,改進(jìn)后的MobileNet v3結(jié)構(gòu)很好地平衡了番茄檢測(cè)模型的速度與精度;同時(shí),使用Ghost模塊減少番茄檢測(cè)模型計(jì)算量,進(jìn)一步實(shí)現(xiàn)模型輕量化,為提高模型的識(shí)別精度,引入CBAM注意力機(jī)制。最后對(duì)原損失函數(shù)改進(jìn),引入SIoU Loss,提高模型精度,同時(shí)也加快了模型的收斂速度。最終試驗(yàn)結(jié)果表明,MCG-YOLO v5s的番茄檢測(cè)模型比原YOLO v5s模型,模型大小減少50.5%,參數(shù)量減少49.0%,浮點(diǎn)運(yùn)算減少63.9%,均值平均精度提升6.0百分點(diǎn)。通過可視化檢測(cè)結(jié)果可知,MCG-YOLO v5s模型對(duì)遮擋嚴(yán)重番茄、重疊番茄、相似背景、小目標(biāo)番茄的檢測(cè)與識(shí)別都有改善,魯棒性較好,檢測(cè)效果明顯優(yōu)于未改進(jìn)YOLO v5s,改進(jìn)后的模型適用于復(fù)雜環(huán)境下對(duì)番茄進(jìn)行實(shí)時(shí)檢測(cè)的任務(wù),滿足對(duì)番茄準(zhǔn)確識(shí)別且實(shí)時(shí)檢測(cè)的要求。
參考文獻(xiàn):
[1] 王海楠,弋景剛,張秀花. 番茄采摘機(jī)器人識(shí)別與定位技術(shù)研究進(jìn)展[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2020,41(5):188-196.
[2]李 寒,陶涵虓,崔立昊,等. 基于SOM-K-means算法的番茄果實(shí)識(shí)別與定位方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(1):23-29.
[3]孫建桐,孫意凡,趙 然,等. 基于幾何形態(tài)學(xué)與迭代隨機(jī)圓的番茄識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(增刊1):22-26,61.
[4]封靖川,胡小龍,李 斌. 基于特征融合的目標(biāo)檢測(cè)算法研究[J]. 數(shù)字技術(shù)與應(yīng)用,2018,36(12):114-115.
[5]Liu W,Anguelov D,Erhan D,et al. SSD:single shot MultiBox detector[M]//Computer Vision-ECCV 2016.Cham:Springer International Publishing,2016:21-37.
[6]Redmon J,Divvala S,Girshick R,et al. You only look once:unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,2016:779-788.
[7]Girshick R,Donahue J,Darrell T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.ACM,2014:580-587.
[8]Girshick R. Fast R-CNN[C]//Proceedings of the 2015 IEEE International Conference on Computer Vision. ACM,2015:1440-1448.
[9]Ren S Q,He K M,Girshick R,et al. Faster R-CNN:towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[10]He K M,Gkioxari G,Dollár P,et al. Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision. Venice,2017:2980-2988.
[11]張文靜,趙性祥,丁睿柔,等. 基于Faster R-CNN算法的番茄識(shí)別檢測(cè)方法[J]. 山東農(nóng)業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,52(4):624-630.
[12]Yuan T,Lyu L,Zhang F,et al. Robust cherry tomatoes detection algorithm in greenhouse scene based on SSD[J]. Agriculture,2020,10(5):160.
[13]何 斌,張亦博,龔健林,等. 基于改進(jìn)YOLO v5的夜間溫室番茄果實(shí)快速識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(5):201-208.
[14]Shorten C,Khoshgoftaar T M. A survey on image data augmentation for deep learning[J]. Journal of Big Data,2019,6(1):60.
[15]Howard A,Sandler M,Chen B,et al. Searching for MobileNet v3[C]//2019 IEEE/CVF International Conference on Computer Vision. Seoul,2019:1314-1324.
[16]Howard A G,Zhu M,Chen B,et al. Mobilenets:effificient convolutional neural networks for mobile vision applications[EB/OL].(2017-04-17)[2023-04-24]. https://arxiv.org/abs/1704.04861.
[17]Sandler M,Howard A,Zhu M L,et al. MobileNet v2:inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,2018:4510-4520.
[18]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,2018:7132-7141.
[19]Han K,Wang Y H,Tian Q,et al. GhostNet:more features from cheap operations[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,2020:1577-1586.
[20]Woo S,Park J,Lee J Y,et al. CBAM:convolutional block attention module[M]//Computer Vision-ECCV 2018.Cham:Springer International Publishing,2018:3-19.
[21]Zheng Z H,Wang P,Ren D W,et al. Enhancing geometric factors in model learning and inference for object detection and instance segmentation[J]. IEEE Transactions on Cybernetics,2022,52(8):8574-8586.
[22]Zheng Z H,Wang P,Liu W,et al. Distance-IoU loss:faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000.
[23]Gevorgyan Z. SIoU loss:more powerful learning for bounding box regression[EB/OL]. (2022-05-25)[2023-04-24]. https://arxiv.org/abs/2205.12740.