改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法

2021-11-24 09:59龍潔花趙春江郭文忠文朝武

農(nóng)業(yè)工程學(xué)報(bào) 2021年18期

關(guān)鍵詞：掩膜成熟度主干

龍潔花，趙春江，林森，郭文忠，文朝武，張宇

?農(nóng)業(yè)信息與電氣技術(shù)?

改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法

龍潔花1,2，趙春江1,2，林森2※，郭文忠2，文朝武1,2，張宇2

（1. 上海海洋大學(xué)信息學(xué)院，上海 01306；2. 北京市農(nóng)林科學(xué)院智能裝備技術(shù)研究中心，北京 00097）

基于深度神經(jīng)網(wǎng)絡(luò)的果實(shí)識(shí)別和分割是采摘機(jī)器人作業(yè)成功的關(guān)鍵步驟，但由于網(wǎng)絡(luò)參數(shù)多、計(jì)算量大，導(dǎo)致訓(xùn)練時(shí)間長，當(dāng)模型部署到采摘機(jī)器人上則存在運(yùn)行速度慢，識(shí)別精度低等問題。針對(duì)這些問題，該研究提出了一種改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法，采用跨階段局部網(wǎng)絡(luò)（Cross Stage Partial Network，CSPNet）與Mask R-CNN網(wǎng)絡(luò)中的殘差網(wǎng)絡(luò)（Residual Network，ResNet）進(jìn)行融合，通過跨階段拆分與級(jí)聯(lián)策略，減少反向傳播過程中重復(fù)的特征信息，降低網(wǎng)絡(luò)計(jì)算量的同時(shí)提高準(zhǔn)確率。在番茄果實(shí)測(cè)試集上進(jìn)行試驗(yàn)，結(jié)果表明以層數(shù)為50的跨階段局部殘差網(wǎng)絡(luò)（Cross Stage Partial ResNet50，CSP-ResNet50）為主干的改進(jìn)Mask R-CNN模型對(duì)綠熟期、半熟期、成熟期番茄果實(shí)分割的平均精度均值為95.45%，F(xiàn)1分?jǐn)?shù)為91.2%，單張圖像分割時(shí)間為0.658 s。該方法相比金字塔場景解析網(wǎng)絡(luò)（Pyramid Scene Parsing Network，PSPNet）、DeepLab v3+模型和以ResNet50為主干的Mask R-CNN模型平均精度均值分別提高了16.44、14.95和2.29個(gè)百分點(diǎn)，相比以ResNet50為主干的Mask R-CNN模型分割時(shí)間減少了1.98%。最后將以CSP- ResNet50為主干的改進(jìn)Mask R-CNN模型部署到采摘機(jī)器人上，在大型玻璃溫室中開展不同成熟度番茄果實(shí)識(shí)別試驗(yàn)，該模型識(shí)別正確率達(dá)到90%。該研究在溫室環(huán)境下對(duì)不同成熟度番茄果實(shí)具有較好的識(shí)別性能，可為番茄采摘機(jī)器人精準(zhǔn)作業(yè)提供依據(jù)。

圖像處理；機(jī)器視覺；模型；番茄；成熟度分割；Mask R-CNN；殘差網(wǎng)絡(luò)；跨階段局部網(wǎng)絡(luò)

0 引言

番茄是全球栽培最為普遍的蔬菜之一，在歐美、中國和日本等國家大多采用設(shè)施栽培方式[1]。設(shè)施農(nóng)業(yè)中番茄采摘主要依靠人工作業(yè)，其勞動(dòng)強(qiáng)度大、工作效率低[2]。番茄采摘機(jī)器人可節(jié)約勞動(dòng)力、提升生產(chǎn)效率，對(duì)工廠化番茄種植具有重要意義。制約番茄采摘機(jī)器人執(zhí)行采摘的關(guān)鍵是番茄果實(shí)的識(shí)別、分割和定位[3]。由于識(shí)別果實(shí)的深度神經(jīng)網(wǎng)絡(luò)參數(shù)多，計(jì)算量大，同時(shí)番茄果實(shí)所處為非結(jié)構(gòu)化環(huán)境，光照復(fù)雜，果實(shí)之間存在密集分布、遮擋等因素[4]，導(dǎo)致網(wǎng)絡(luò)識(shí)別精度低，運(yùn)行速度慢。因此，亟需研究一種溫室環(huán)境下番茄果實(shí)識(shí)別與分割方法。

近年來，國內(nèi)外學(xué)者對(duì)果蔬的識(shí)別和分割開展了大量的研究，其中包括傳統(tǒng)分割方法和目前流行的基于深度學(xué)習(xí)的分割方法。傳統(tǒng)分割方法主要包括基于閾值的分割方法、基于區(qū)域生長的分割方法和基于邊緣檢測(cè)的分割方法等，用于從不同顏色空間中提取果蔬的外觀特征，包括顏色、紋理、形狀等。王春雷等[5]以根茬頂端切口為目標(biāo)，提出一種基于遺傳算法和閾值濾噪的玉米根茬行分割方法，該方法分割玉米根茬行平均相對(duì)目標(biāo)面積誤差率為24.68%，具有較好的分割準(zhǔn)確率，但當(dāng)行間秸稈也在根茬行上時(shí)，將被視為玉米根茬切口，易導(dǎo)致誤分割。孫建桐等[6]以串收番茄為研究對(duì)象，利用Canny邊緣檢測(cè)算法對(duì)圖像進(jìn)行分割，獲得果實(shí)輪廓點(diǎn)，結(jié)果表明果實(shí)識(shí)別正確率為85.1%，該方法在一定程度上解決了多個(gè)果實(shí)粘連的分割問題，但是浪費(fèi)了大量非果實(shí)粘連處的點(diǎn)。深度學(xué)習(xí)分割中語義分割和實(shí)例分割較為流行，語義分割實(shí)現(xiàn)像素級(jí)別的分類，而實(shí)例分割不僅要實(shí)現(xiàn)像素級(jí)別上的分類，還要在具體類別基礎(chǔ)上劃分出不同的實(shí)例個(gè)體。Peng等[7]采用DeepLab v3+模型對(duì)荔枝枝條進(jìn)行分割，DeepLab v3+模型采用編碼和解碼結(jié)構(gòu)減少網(wǎng)絡(luò)參數(shù)數(shù)量，同時(shí)使用空間金字塔池化提取語義像素位置信息，試驗(yàn)結(jié)果表明，模型對(duì)荔枝枝條分割的平均交并比為76.5%，該模型只對(duì)類別分割，未對(duì)同一類別中不同實(shí)例進(jìn)行劃分。Jia等[8]提出使用Mask R-CNN模型對(duì)果園中重疊綠色蘋果進(jìn)行識(shí)別和分割，將殘差網(wǎng)絡(luò)與密集連接卷積網(wǎng)絡(luò)相結(jié)合作為骨干網(wǎng)絡(luò)提取特征，該方法對(duì)120幅圖像的蘋果檢測(cè)結(jié)果表明，平均檢測(cè)準(zhǔn)確率為97.31%，但由于數(shù)據(jù)集太少，仍需增加樣本集和豐富樣本多樣性以更具說服力。Afonso等[9]使用RealSense相機(jī)拍攝溫室中番茄果實(shí)圖像，采用Mask R-CNN模型檢測(cè)成熟和未成熟番茄果實(shí)，試驗(yàn)結(jié)果表明，使用ResNext101為主干的Mask R-CNN模型檢測(cè)成熟番茄和未成熟番茄準(zhǔn)確率分別達(dá)到95%和94%，該方法雖準(zhǔn)確率高，但試驗(yàn)僅在番茄果實(shí)沒有遮擋情況下進(jìn)行的，未考慮遮擋和重疊等環(huán)境因素。岳有軍等[10]提出一種改進(jìn)型Mask R-CNN模型對(duì)蘋果進(jìn)行檢測(cè)研究，該方法在原始Mask R-CNN網(wǎng)絡(luò)基礎(chǔ)上增加邊界加權(quán)損失函數(shù)，使邊界檢測(cè)更加準(zhǔn)確，訓(xùn)練后的模型在驗(yàn)證集下精度為92.62%，同時(shí)在不同果實(shí)數(shù)目、不同光照和識(shí)別綠色蘋果情況下，該模型具有較好的分割效果，但仍有待進(jìn)一步優(yōu)化提高檢測(cè)精度。

綜上，國內(nèi)外學(xué)者針對(duì)果實(shí)分割做了大量研究，為進(jìn)一步提高復(fù)雜環(huán)境下番茄果實(shí)識(shí)別率和網(wǎng)絡(luò)運(yùn)行速度，本研究提出將跨階段局部網(wǎng)絡(luò)（Cross Stage Partial Network，CSPNet）引入Mask R-CNN網(wǎng)絡(luò)中對(duì)不同成熟度番茄果實(shí)進(jìn)行識(shí)別和分割。將跨階段局部網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)（Residual Network，ResNet）相融合，通過跨階段拆分與級(jí)聯(lián)策略，減少特征傳播過程中重復(fù)的信息，從而降低網(wǎng)絡(luò)計(jì)算量，提高網(wǎng)絡(luò)運(yùn)行速度。最后將改進(jìn)的Mask R-CNN模型部署到番茄采摘機(jī)器人上，對(duì)溫室環(huán)境下不同成熟度番茄果實(shí)進(jìn)行識(shí)別試驗(yàn)，為番茄采摘機(jī)器人精準(zhǔn)作業(yè)提供參考。

1 材料與方法

1.1 樣本采集及預(yù)處理

1.1.1 樣本采集

本研究番茄果實(shí)數(shù)據(jù)采集于全國蔬菜質(zhì)量標(biāo)準(zhǔn)中心（山東壽光，中國）的智慧農(nóng)業(yè)科技園，試驗(yàn)番茄品種為“意佰芬”，根據(jù)采摘需求將番茄果實(shí)成熟度定義為綠熟期、半熟期、成熟期[11]，其中成熟期番茄為最佳采摘時(shí)期。采用三維（3D）工業(yè)相機(jī)圖漾（FM850-GI-E1，上海圖漾信息科技有限公司，中國）采集番茄樣本，相機(jī)分辨率為1 280×960像素，像素精度為4 mm，安裝在國家農(nóng)業(yè)智能裝備工程技術(shù)研究中心（北京，中國）自主研發(fā)的番茄采摘機(jī)器人上，通過手動(dòng)操作機(jī)器人進(jìn)行樣本采集。為保證番茄果實(shí)樣本的多樣性，分別采集不同光照強(qiáng)度（正常光和弱光）、不同果實(shí)數(shù)量、不同遮擋程度的番茄果實(shí)樣本共1 000張（圖1），其中綠熟期圖片175張，半熟期圖片73張，成熟期圖片206張，包含多種成熟度果實(shí)的圖片546張。

1.1.2 樣本增強(qiáng)

為提高網(wǎng)絡(luò)訓(xùn)練模型效果和模型泛化能力，采用數(shù)據(jù)增強(qiáng)方法增加番茄樣本數(shù)量[12]，防止網(wǎng)絡(luò)因訓(xùn)練樣本不足導(dǎo)致過擬合，其次采用數(shù)據(jù)增強(qiáng)方法模擬溫室實(shí)際環(huán)境中不同光照的樣本采集效果。本研究分別從綠熟期、半熟期、成熟期和包含多種成熟度的番茄樣本中選取50 張?jiān)紨?shù)據(jù)，共200 張，利用翻轉(zhuǎn)、調(diào)整圖像的亮度、對(duì)比度和顏色對(duì)番茄樣本進(jìn)行數(shù)據(jù)增強(qiáng)（圖2）。數(shù)據(jù)增強(qiáng)的樣本共1 000張，與原番茄樣本合計(jì)共2 000 張，并按照15∶3∶2的比例將數(shù)據(jù)集劃分為訓(xùn)練集（1 500張）、測(cè)試集（300張）、驗(yàn)證集（200張）。

1.2 番茄果實(shí)分割模型

1.2.1 改進(jìn)的Mask R-CNN網(wǎng)絡(luò)模型

Mask R-CNN[13]是經(jīng)典的實(shí)例分割網(wǎng)絡(luò)，在Faster R-CNN[14]基礎(chǔ)上添加了一個(gè)以全卷積網(wǎng)絡(luò)（Fully Convolutional Network，F(xiàn)CN）[15]為主的掩膜分支用于預(yù)測(cè)分割任務(wù)，與分類和回歸分支并行，使Mask R-CNN不僅可以檢測(cè)物體，還具有語義分割功能，實(shí)現(xiàn)檢測(cè)與分割于一體，同時(shí)引入興趣區(qū)域?qū)R層（Region of Interest Align layer，RoI Align）保證特征圖與輸入像素一一對(duì)應(yīng)，以提高分割精度。Mask R-CNN采用殘差網(wǎng)絡(luò)（ResNet）[16]和特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PN）[17]作為主干網(wǎng)絡(luò)提取特征，殘差網(wǎng)絡(luò)在淺層網(wǎng)絡(luò)和深層網(wǎng)絡(luò)間以跳躍連接的方式將輸入直接與輸出相加，用于解決深度神經(jīng)網(wǎng)絡(luò)中的梯度消失或梯度爆炸問題[18-19]，但由于其網(wǎng)絡(luò)參數(shù)多、計(jì)算量大，導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)間長、運(yùn)行速度慢。

針對(duì)上述問題，本研究設(shè)計(jì)了一種跨階段局部殘差網(wǎng)絡(luò)（Cross Stage Partial Residual Network，CSP-ResNet），該網(wǎng)絡(luò)將跨階段局部網(wǎng)絡(luò)（CSPNet）[20]與Mask R-CNN中的殘差網(wǎng)絡(luò)相融合，將基礎(chǔ)層特征映射成2部分，通過跨階段拆分與級(jí)聯(lián)策略，有效解決了深度網(wǎng)絡(luò)重復(fù)學(xué)習(xí)梯度信息造成計(jì)算量大的問題，在降低了計(jì)算量的同時(shí)還提高了準(zhǔn)確率。改進(jìn)的Mask R-CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

主干網(wǎng)絡(luò)由層數(shù)為50的跨階段局部殘差網(wǎng)絡(luò)（Cross Stage Partial ResNet50，CSP-ResNet50）或?qū)訑?shù)為101的跨階段局部殘差網(wǎng)絡(luò)（Cross Stage Partial ResNet101，CSP-ResNet101）和特征金字塔網(wǎng)絡(luò)組成，跨階段局部殘差網(wǎng)絡(luò)提取輸入圖像的特征信息，通過卷積核大小為1×1的卷積層將特征傳入特征金字塔網(wǎng)絡(luò)中，特征金字塔網(wǎng)絡(luò)采用雙金字塔結(jié)構(gòu)將底層特征和高層特征融合，提取跨階段局部殘差網(wǎng)絡(luò)中各個(gè)跨階段局部殘差模塊的特征，用于解決多尺度預(yù)測(cè)問題。主干網(wǎng)絡(luò)提取的特征傳入?yún)^(qū)域生成網(wǎng)絡(luò)（Region Proposal Network，RPN）中產(chǎn)生感興趣區(qū)域（Region of Interest，RoI），RPN分別采用卷積核大小為1×1的卷積層對(duì)RoI進(jìn)行分類和回歸，生成候選區(qū)域，興趣區(qū)域?qū)R層將候選區(qū)域像素與主干網(wǎng)絡(luò)提取的特征圖一一對(duì)應(yīng)，產(chǎn)生相同尺寸的特征，以提高掩膜準(zhǔn)確率。網(wǎng)絡(luò)頭部由類別、邊界框和掩膜分支組成，類別分支采用全連接層和Softmax分類器對(duì)目標(biāo)進(jìn)行分類并輸出類別概率，邊界框分支采用全連接層和邊界框回歸對(duì)目標(biāo)進(jìn)行定位，掩膜分支采用全連接網(wǎng)絡(luò)實(shí)現(xiàn)像素到像素上的掩膜分割，掩膜損失值采用帶權(quán)交叉熵?fù)p失函數(shù)計(jì)算。改進(jìn)的Mask R-CNN網(wǎng)絡(luò)相較于Mask R-CNN在跨階段局部殘差網(wǎng)絡(luò)和掩膜損失函數(shù)兩方面做了改進(jìn)，具體實(shí)現(xiàn)如下：

1）跨階段局部殘差網(wǎng)絡(luò)

將跨階段局部網(wǎng)絡(luò)與Mask R-CNN的主干網(wǎng)絡(luò)中層數(shù)為50和101的殘差網(wǎng)絡(luò)融合，跨階段局部殘差網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。輸入特征通過卷積核大小為7×7、通道數(shù)為64、步長為2的基礎(chǔ)層，再通過卷積核大小為3×3和步長為2的最大池化層后，通道數(shù)增加至原來的4倍，進(jìn)入跨階段局部殘差模塊。跨階段局部殘差模塊由殘差塊和2個(gè)卷積層組成，每個(gè)殘差塊由3個(gè)卷積層組成，殘差塊之間以跳躍連接的方式將淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)特征融合用于解決梯度消失或梯度爆炸問題，2個(gè)卷積層都使用1×1卷積核對(duì)特征圖進(jìn)行降維，減少網(wǎng)絡(luò)參數(shù)。跨階段局部殘差模塊1中殘差塊步長都為1；跨階段局部殘差模塊2中殘差塊2的第1個(gè)殘差的第2個(gè)卷積步長為2，通道數(shù)增加至原來的2倍；跨階段局部殘差模塊3和跨階段局部殘差模塊4中殘差的步長變化與跨階段局部殘差模塊2相同。每個(gè)跨階段局部殘差模塊使用拆分與級(jí)聯(lián)策略將反向傳播過程中的梯度流截?cái)啵乐共煌瑢又貜?fù)學(xué)習(xí)梯度信息，以減少網(wǎng)絡(luò)參數(shù)。網(wǎng)絡(luò)最后通過卷積核為1×1、通道數(shù)為1 000的卷積層將特征融合輸出。

2）掩膜損失函數(shù)

Mask R-CNN網(wǎng)絡(luò)經(jīng)過特征區(qū)域篩選，網(wǎng)絡(luò)頭部對(duì)各特征圖進(jìn)行分類、邊框和掩膜計(jì)算，網(wǎng)絡(luò)整體損失值為分類、邊框和掩膜三者損失值之和，其中掩膜損失值采用平均二值交叉熵?fù)p失函數(shù)（mask）計(jì)算如式（1）所示

式中表示樣本總數(shù)；(i)表示樣本的期望輸出，值為0或1；(i)表示樣本的實(shí)際輸出，即分割結(jié)果。

掩膜分支處理感興趣區(qū)域（RoI）產(chǎn)生××（為實(shí)例類別個(gè)數(shù)，=80，一般為14或28）的特征圖大小，在分辨率為×像素上有個(gè)二分類掩膜，每個(gè)像素點(diǎn)都應(yīng)用了Sigmoid激活函數(shù)，為每個(gè)類別都產(chǎn)生掩膜，即對(duì)于一個(gè)屬于第個(gè)類別的感興趣區(qū)域，mask僅考慮第個(gè)掩膜。在分割時(shí)，若第個(gè)類別像素?cái)?shù)量小于背景像素?cái)?shù)量時(shí)，平均二值交叉熵?fù)p失函數(shù)會(huì)導(dǎo)致樣本數(shù)較少的類別分割效果較差。

本研究采集的番茄果實(shí)樣本中半熟期番茄數(shù)量少于綠熟期和成熟期，整體樣本存在不均衡的情況，在原交叉熵?fù)p失函數(shù)基礎(chǔ)上添加權(quán)重因子后的交叉熵?fù)p失函數(shù)（mask+weight）的計(jì)算如式（2）所示。

1.2.2 對(duì)照組網(wǎng)絡(luò)

對(duì)照組網(wǎng)絡(luò)分別為Mask R-CNN網(wǎng)絡(luò)、金字塔場景解析網(wǎng)絡(luò)（Pyramid Scene Parsing Network，PSPNet）[21]和DeepLab v3+網(wǎng)絡(luò)[22]，本研究將改進(jìn)的Mask R-CNN網(wǎng)絡(luò)與對(duì)照組各網(wǎng)絡(luò)分別對(duì)溫室環(huán)境下不同成熟度番茄圖像進(jìn)行了分割。

PSPNet和DeepLab v3+是經(jīng)典的語義分割網(wǎng)絡(luò)，數(shù)據(jù)標(biāo)注采用Labelme[23]工具，生成的標(biāo)簽文件需轉(zhuǎn)換為灰度圖。PSPNet通過MobileNet[24]主干網(wǎng)絡(luò)和空洞卷積策略提取特征，特征經(jīng)過金字塔池化模塊（Pyramid Pooling Module）得到融合的帶有全局信息的特征，將融合后的特征進(jìn)行上采樣，最后通過一個(gè)卷積層輸出語義分割結(jié)果。DeepLab v3+以DeepLab v3為基礎(chǔ)，通過Xception-65[25]主干網(wǎng)絡(luò)提取特征，使用空間金字塔池化（Spatial Pyramid Pooling，SPP）[26]和編碼-解碼結(jié)構(gòu)實(shí)現(xiàn)語義分割，空間金字塔池化在不同尺度特征層上進(jìn)行池化操作獲取豐富的上下層信息，編碼-解碼結(jié)構(gòu)采用大小為3×3的卷積核提取上下層信息，得到物體的空間信息，最后通過上采樣輸出預(yù)測(cè)結(jié)果。

1.2.3 評(píng)價(jià)指標(biāo)

采用的性能評(píng)價(jià)指標(biāo)主要包括準(zhǔn)確率（Precision，，%）、召回率（Recall，，%）、平均精度（Average Precision，AP，%）、平均精度均值（Mean Average Precision，MAP，%）、F1分?jǐn)?shù)（F1-score）、識(shí)別正確率（Recognition accuracy，Racc，%），各評(píng)價(jià)指標(biāo)計(jì)算如式（3）～（8）所示

式中TP表示模型預(yù)測(cè)為正的正樣本，F(xiàn)P表示模型預(yù)測(cè)為正的負(fù)樣本，F(xiàn)N表示模型預(yù)測(cè)為負(fù)的正樣本，TN表示模型預(yù)測(cè)為負(fù)的負(fù)樣本；AP是準(zhǔn)確率在召回率上的積分，一般AP值越高，模型性能越好；MAP為每一類別的AP的平均值，其中為類別數(shù)，本研究中=3；F1-score為準(zhǔn)確率和召回率的調(diào)和平均值，取值范圍為[0,1]，1代表模型輸出最好，0代表模型輸出最差；Racc為本研究模型部署到機(jī)器人上的識(shí)別正確率。

模型運(yùn)行速度評(píng)估指標(biāo)采用模型分割單張圖片所耗費(fèi)的平均時(shí)間（即平均分割時(shí)間，s）表示。

1.3 試驗(yàn)設(shè)計(jì)

1.3.1 試驗(yàn)環(huán)境

本試驗(yàn)主機(jī)操作系統(tǒng)為Ubuntu16.04，中央處理器為Intel? CoreTM i7-9800X CPU @ 3.8 GHz×16，運(yùn)行內(nèi)存為16 GB，顯卡為GeForce GTX 1080ti。神經(jīng)網(wǎng)絡(luò)在Anaconda3虛擬環(huán)境下訓(xùn)練，分別采用Tensorflow1.13.1和Keras2.2.4、Tensorflow1.14.0和Keras2.2.5深度學(xué)習(xí)框架以適應(yīng)不同網(wǎng)絡(luò)訓(xùn)練需求，配置安裝Python3.7編程環(huán)境、GPU并行計(jì)算架構(gòu)Cuda10.0和深度神經(jīng)網(wǎng)絡(luò)GPU加速庫Cudnn7.4。

1.3.2 試驗(yàn)參數(shù)

1）改進(jìn)的Mask R-CNN 和Mask R-CNN模型參數(shù)

改進(jìn)的Mask R-CNN和Mask R-CNN模型均采用MS COCO數(shù)據(jù)集的預(yù)訓(xùn)練權(quán)重訓(xùn)練，每個(gè)批次處理1 張圖片，圖片最大維度設(shè)置為768，最小維度設(shè)置為384，區(qū)域生成網(wǎng)絡(luò)（RPN）錨框大小分別為8×6、16×6、32×6、64×6和128×6，每張圖片訓(xùn)練的RoI為100，每輪迭代次數(shù)為50，驗(yàn)證次數(shù)為50，網(wǎng)絡(luò)頭部訓(xùn)練學(xué)習(xí)率為0.001，整個(gè)網(wǎng)絡(luò)訓(xùn)練初始學(xué)習(xí)率為0.001，每迭代100 次，學(xué)習(xí)率降低0.1，總迭代次數(shù)均設(shè)置為1 000，網(wǎng)絡(luò)權(quán)重衰減系數(shù)為0.000 1，動(dòng)量為0.9。

2）其他對(duì)照組模型參數(shù)

本研究中其他對(duì)照組模型為PSPNet和 DeepLab v3+網(wǎng)絡(luò)，均采用PASCAL VOC（PASCAL Visual Object Classes）預(yù)訓(xùn)練模型訓(xùn)練。PSPNet和DeepLab v3+網(wǎng)絡(luò)訓(xùn)練圖片分辨率大小設(shè)置為768像素×384 像素，總迭代次數(shù)為1 000，初始學(xué)習(xí)率為0.001，每迭代100次，學(xué)習(xí)率降低0.1，其余參數(shù)設(shè)置與文獻(xiàn)[21-22]中參數(shù)一致。

1.3.3 對(duì)比試驗(yàn)

1）掩膜損失函數(shù)對(duì)比試驗(yàn)

改進(jìn)的Mask R-CNN采用帶權(quán)交叉熵?fù)p失函數(shù)計(jì)算掩膜損失值，分別以CSP-ResNet50和CSP-ResNet101作為主干網(wǎng)絡(luò)訓(xùn)練模型；Mask R-CNN采用平均二值交叉熵?fù)p失函數(shù)計(jì)算掩膜損失值，分別以ResNet50和ResNet101作為主干網(wǎng)絡(luò)訓(xùn)練模型。通過對(duì)比訓(xùn)練損失函數(shù)曲線的收斂程度確定最優(yōu)主干網(wǎng)絡(luò)。

2）番茄果實(shí)分割模型對(duì)比試驗(yàn)

在掩膜損失函數(shù)試驗(yàn)的基礎(chǔ)上，選出改進(jìn)的Mask R-CNN和Mask R-CNN的最優(yōu)主干網(wǎng)絡(luò)，與基于MobileNet主干網(wǎng)絡(luò)的PSPNet、基于Xception-65主干網(wǎng)絡(luò)的DeepLab v3+在番茄果實(shí)測(cè)試集上進(jìn)行對(duì)比試驗(yàn)，比較不同模型的分割性能。

2 結(jié)果與分析

2.1 掩膜損失函數(shù)結(jié)果分析

改進(jìn)Mask R-CNN模型采用帶權(quán)交叉熵?fù)p失函數(shù)用于計(jì)算掩膜損失值，設(shè)置權(quán)重因子=[0.15, 0.7, 0.15]，分別以CSP-ResNet50和CSP-ResNet101作為主干網(wǎng)絡(luò)訓(xùn)練模型；Mask R-CNN采用平均二值交叉熵?fù)p失函數(shù)計(jì)算掩膜損失值，分別以ResNet50和ResNet101作為主干網(wǎng)絡(luò)訓(xùn)練模型，不同主干網(wǎng)絡(luò)模型訓(xùn)練的掩膜損失函數(shù)曲線如圖5所示。由圖5可知，4個(gè)主干網(wǎng)絡(luò)隨著迭代次數(shù)的增加，網(wǎng)絡(luò)掩膜損失值逐漸下降并趨于穩(wěn)定，且在迭代次數(shù)為0～200范圍內(nèi)下降速度最快，當(dāng)?shù)螖?shù)為800～1 000范圍時(shí)訓(xùn)練掩膜損失值變化不大基本趨于穩(wěn)定，網(wǎng)絡(luò)達(dá)到收斂狀態(tài)。改進(jìn)Mask R-CNN模型以CSP-ResNet50和CSP-ResNet101作為主干網(wǎng)絡(luò)的掩膜損失值分別為0.05和0.088，Mask R-CNN模型以ResNet50和ResNet101作為主干網(wǎng)絡(luò)的掩膜損失值分別為0.174和0.244，由此可知，改進(jìn)的Mask R-CNN模型采用帶權(quán)交叉熵?fù)p失函數(shù)訓(xùn)練，其掩膜損失值低于Mask R-CNN模型，泛化能力較強(qiáng)。

為確定最優(yōu)主干網(wǎng)絡(luò)，分別對(duì)比這4個(gè)主干網(wǎng)絡(luò)模型在驗(yàn)證集上的性能（表1）。CSP-ResNet50主干網(wǎng)絡(luò)參數(shù)量為24.28 M，模型訓(xùn)練時(shí)間為10 h，相比ResNet50主干網(wǎng)絡(luò)參數(shù)量和模型訓(xùn)練時(shí)間分別減少5%和16.67%，CSP-ResNet50為主干的改進(jìn)Mask R-CNN的平均精度均值為94.31%，性能高于其他主干網(wǎng)絡(luò)模型。CSP-ResNet101主干網(wǎng)絡(luò)參數(shù)量為43.99 M，模型訓(xùn)練時(shí)間為14 h，相比ResNet101主干網(wǎng)絡(luò)參數(shù)量和模型訓(xùn)練時(shí)間分別減少1.25%和6.67%。CSP-ResNet101為主干的改進(jìn)Mask R-CNN的平均精度均值為92.92%，與ResNet50為主干的Mask R-CNN模型的平均精度均值差異較小，僅差0.73個(gè)百分點(diǎn)，但ResNet50主干網(wǎng)絡(luò)參數(shù)量為25.56 M，模型訓(xùn)練時(shí)間為12 h，考慮電腦配置和網(wǎng)絡(luò)性能等情況，選取CSP-ResNet50和ResNet50分別作為改進(jìn)模型和Mask R-CNN的最優(yōu)主干網(wǎng)絡(luò)，用于番茄果實(shí)分割試驗(yàn)。

2.2 番茄果實(shí)分割模型性能結(jié)果分析

在掩膜損失函數(shù)結(jié)果分析中分別確定了CSP-ResNet50為改進(jìn)Mask R-CNN模型的最優(yōu)主干網(wǎng)絡(luò)和ResNet50為Mask R-CNN模型的最優(yōu)主干網(wǎng)絡(luò)，為進(jìn)一步驗(yàn)證本研究的以CSP-ResNet50為主干網(wǎng)絡(luò)的改進(jìn)Mask R-CNN模型對(duì)溫室環(huán)境下不同成熟度番茄圖像分割的性能，將其與以ResNet50為主干網(wǎng)絡(luò)的Mask R-CNN模型，以MobileNet為主干網(wǎng)絡(luò)的PSPNet模型，以Xception-65為主干網(wǎng)絡(luò)的DeepLab v3+模型行分割比較。

以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型與其他模型在測(cè)試集上對(duì)不同成熟度番茄分割的試驗(yàn)結(jié)果如表2所示。以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型對(duì)比以ResNet50為主干的Mask R-CNN模型平均精度均值、準(zhǔn)確率、召回率、F1分?jǐn)?shù)分別提高2.29、1.29、2.16和2.01個(gè)百分點(diǎn)；其次，以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型分割單張圖像時(shí)間為0.658 s，相比以ResNet50為主干的Mask R-CNN模型減少1.98%。試驗(yàn)結(jié)果表明，本研究模型在殘差網(wǎng)絡(luò)中引入跨階段局部網(wǎng)絡(luò)，減少特征傳播過程中重復(fù)的梯度信息，相比殘差網(wǎng)絡(luò)能有效降低網(wǎng)絡(luò)計(jì)算量，提高網(wǎng)絡(luò)運(yùn)行速度，網(wǎng)絡(luò)分割性能在一定程度上相比Mask R-CNN模型有明顯提升；以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型對(duì)比PSPNet和DeepLab v3+模型對(duì)不同成熟度番茄果實(shí)分割的平均精度均值分別提高16.44和14.95個(gè)百分點(diǎn)，F(xiàn)1分?jǐn)?shù)分別提高16.48和14.72個(gè)百分點(diǎn)，但本研究模型分割單張圖像時(shí)間相比PSPNet和DeepLab v3+模型分別增加14.83%和27.52%，主要是因?yàn)橹鞲删W(wǎng)絡(luò)CSP-ResNet50和ResNet50相比MobileNet、Xception-65網(wǎng)絡(luò)層數(shù)較深，訓(xùn)練參數(shù)多且對(duì)硬件配置要求較高，導(dǎo)致模型運(yùn)行速度相對(duì)較慢，綜合權(quán)衡平均精度均值和運(yùn)行速度，以CSP-ResNet50為主干的改進(jìn)的Mask R-CNN模型分割不同成熟度番茄果實(shí)更具魯棒性。

表1 不同主干網(wǎng)絡(luò)模型在驗(yàn)證集中的性能結(jié)果

表2 不同分割模型在測(cè)試集中對(duì)不同成熟度番茄的分割性能

不同分割方法在測(cè)試集上對(duì)溫室環(huán)境下不同成熟度番茄果實(shí)的分割效果如圖6所示。由圖6b和圖6c可知，PSPNet和DeepLab v3+模型分割效果較差，分割目標(biāo)輪廓區(qū)域均出現(xiàn)重疊，圖6b中PSPNet模型在正常光和弱光環(huán)境下分別出現(xiàn)半熟期番茄誤分割為成熟期番茄現(xiàn)象和成熟期番茄誤分割為半熟期番茄現(xiàn)象，而圖6c中DeepLab v3+模型在弱光環(huán)境下出現(xiàn)綠熟期番茄誤分割為半熟期番茄和半熟期番茄誤分割為成熟期番茄現(xiàn)象，可見這2種模型受光照影響較大，尤其是弱光環(huán)境下，模型難以區(qū)分番茄顏色特征，出現(xiàn)誤分割現(xiàn)象。由圖6d和圖6e可知，以ResNet50為主干的Mask R-CNN模型和以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型分割目標(biāo)輪廓均清晰，但圖6d中以ResNet50為主干的Mask R-CNN模型將葉子背景誤分割為綠熟期番茄，因?yàn)槿豕猸h(huán)境下綠熟期番茄顏色特征與背景相近[27]，導(dǎo)致模型識(shí)別與分割精度下降，而圖6e中，以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型無誤分割現(xiàn)象，能準(zhǔn)確提取背景顏色和番茄果實(shí)顏色特征，且改進(jìn)Mask R-CNN模型成功將遮擋嚴(yán)重的綠熟期番茄果實(shí)分割。綜上，以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型在不同光照強(qiáng)度和遮擋環(huán)境下對(duì)不同成熟度番茄果實(shí)具有較好的分割性能。

2.3 改進(jìn)的Mask R-CNN模型驗(yàn)證

為驗(yàn)證以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型的實(shí)際分割效果，將其部署到番茄采摘機(jī)器人上，對(duì)溫室環(huán)境下不同成熟度番茄識(shí)別效果進(jìn)行驗(yàn)證。機(jī)器人平臺(tái)核心控制器配置為I7-7500 U、8 G運(yùn)行內(nèi)存、128 G固態(tài)硬盤。

采摘機(jī)器人分別從不同光照強(qiáng)度、果實(shí)遮擋重疊程度等情況下每隔5 s拍攝1 張番茄果實(shí)圖像，模型平均每分割1張番茄圖像約0.88 s，隨機(jī)選取4 張樣例圖片對(duì)綠熟期、半熟期、成熟期番茄個(gè)數(shù)進(jìn)行人工檢驗(yàn)，分別為人工檢驗(yàn)輕度遮擋的番茄果實(shí)數(shù)量和遮擋超過70%的番茄個(gè)數(shù)，人工檢驗(yàn)結(jié)果和改進(jìn)的Mask R-CNN模型識(shí)別結(jié)果如表3所示。由表3可知，樣例3中人工檢驗(yàn)輕度遮擋番茄數(shù)量和遮擋超過70%番茄數(shù)量總和為10個(gè)，模型識(shí)別番茄總數(shù)為9個(gè)，正確率達(dá)到90%；樣例4中模型識(shí)別番茄總數(shù)為11個(gè)，人工檢驗(yàn)輕度遮擋番茄數(shù)量和遮擋超過70%番茄數(shù)量總和為13個(gè)，模型識(shí)別總數(shù)為人工檢驗(yàn)總數(shù)的84.62%，其中人工檢驗(yàn)輕度遮擋的半熟期番茄僅有3個(gè)，但模型識(shí)別半熟期為4個(gè)，是因?yàn)榫G熟期番茄誤分割為半熟期番茄，導(dǎo)致模型分割正確率下降，除去誤分割數(shù)量，模型識(shí)別正確番茄數(shù)量為10個(gè)，正確率為76.92%；樣例1中模型對(duì)于遮擋超過70%的番茄果實(shí)未識(shí)別，識(shí)別番茄總數(shù)量與人工檢驗(yàn)總數(shù)量有較大差距，正確率僅為66.67%，是因?yàn)榉压麑?shí)遮擋超過70%以上時(shí)像素少，特征不明顯，導(dǎo)致模型難以提取番茄顏色、形狀等特征，且遮擋嚴(yán)重時(shí)番茄果實(shí)表現(xiàn)為小目標(biāo)，模型識(shí)別較為困難。其次，不同光照強(qiáng)度對(duì)算法分割性能也有影響，尤其是弱光環(huán)境下，會(huì)增加模型分割番茄難度，出現(xiàn)誤分割現(xiàn)象，導(dǎo)致準(zhǔn)確率下降。對(duì)于此類問題，后續(xù)可以采用農(nóng)藝農(nóng)機(jī)結(jié)合方法來提高設(shè)施環(huán)境下模型識(shí)別正確率?？傮w上，本研究在實(shí)際應(yīng)用中具有適用性，可為溫室環(huán)境下采摘機(jī)器人精準(zhǔn)采摘成熟期番茄奠定基礎(chǔ)。

表3 改進(jìn)的Mask R-CNN模型番茄識(shí)別與人工檢驗(yàn)對(duì)比結(jié)果

注：*表示出現(xiàn)誤分割現(xiàn)象，人工檢驗(yàn)輕度遮擋的半熟期番茄僅有3個(gè)，而模型識(shí)別半熟期番茄為4個(gè)，這是因?yàn)槟Ｐ蛯⒕G熟期番茄誤分割為半熟期番茄所致。

Note: * indicates that the model has mis-segmentation. There are only 3 half ripe tomatoes with lightly shaded by manual inspection, but 4 half-ripe tomatoes identified by the model. This is because the model misclassifies green ripe tomatoes into half ripe tomatoes.

3 結(jié) 論

本研究提出了一種改進(jìn)Mask R-CNN模型對(duì)溫室環(huán)境下不同成熟度番茄果實(shí)進(jìn)行分割，并將改進(jìn)的Mask R-CNN模型部署到番茄采摘機(jī)器人上進(jìn)行識(shí)別驗(yàn)證，結(jié)論如下。

1）本研究在番茄果實(shí)測(cè)試集上的試驗(yàn)結(jié)果表明，以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型對(duì)番茄果實(shí)分割的準(zhǔn)確率為95.25%，召回率為87.43%，F(xiàn)1分?jǐn)?shù)為91.2%，平均精度均值為95.45%。本研究模型的平均精度均值相比金字塔場景解析網(wǎng)絡(luò)（Pyramid Scene Parsing Network，PSPNet）模型、DeepLab v3+模型、以ResNet50為主干的Mask R-CNN模型分別提高了16.44、14.95和2.29個(gè)百分點(diǎn)；本研究模型平均分割單張圖像的時(shí)間為0.658 s，相比以ResNet50為主干的Mask R-CNN模型平均分割單張圖像時(shí)間減少了1.98%。由于半熟期番茄是綠熟期番茄到成熟期番茄的一個(gè)過渡階段，顏色特征與綠熟期和成熟期些許相似，識(shí)別精度低于成熟期和綠熟期，但不影響后期采摘機(jī)器人采摘成熟期番茄。

2）將以CSP-ResNet50為主干的改進(jìn)Mask R-CNN模型部署到番茄采摘機(jī)器人上，在溫室環(huán)境下開展不同成熟度番茄果實(shí)識(shí)別論證試驗(yàn)，并與人工檢驗(yàn)進(jìn)行對(duì)比。試驗(yàn)結(jié)果表明，當(dāng)番茄果實(shí)遮擋較低且未誤分割時(shí)，改進(jìn)Mask R-CNN模型識(shí)別番茄數(shù)量與人工檢驗(yàn)數(shù)量差距較小，正確率達(dá)到90%；當(dāng)番茄果實(shí)遮擋嚴(yán)重、光照較弱時(shí)，模型識(shí)別準(zhǔn)確率下降，針對(duì)此問題可在未來進(jìn)一步研究。

[1] 霍建勇. 中國番茄產(chǎn)業(yè)現(xiàn)狀及安全防范[J]. 蔬菜，2016(6)：1-4.

Huo Jianyong. Current status and safety precautions of Chinese tomato industry[J]. Vegetables, 2016(6)：1-4. (in Chinese with English abstract)

[2] 張振，王新龍，劉軍民，等. 現(xiàn)代果園作業(yè)平臺(tái)與試驗(yàn)[J]. 農(nóng)業(yè)工程，2019，9(6)：106-111.

Zhang Zhen, Wang Xinlong, Liu Junmin, et al. Modern orchard operating platform and experiment[J]. Agricultural Engineering, 2019, 9(6): 106-111. (in Chinese with English abstract)

[3] 樊艷英，張自敏，陳冠萍，等. 視覺傳感器在采摘機(jī)器人目標(biāo)果實(shí)識(shí)別系統(tǒng)中的應(yīng)用[J]. 農(nóng)機(jī)化研究，2019，41(5)：210-214.

Fan Yanying, Zhang Zimin, Chen Guanping, et al. Application of vision sensor in the target fruit recognition system of picking robot[J]. Journal of Agricultural Mechanization Research, 2019, 41(5): 210-214. (in Chinese with English abstract)

[4] 劉芳，劉玉坤，林森，等. 基于改進(jìn)型YOLO的復(fù)雜環(huán)境下番茄果實(shí)快速識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2020，51(6)：229-237.

Liu Fang, Liu Yukun, Lin Sen, et al. Fast recognition method for tomatoes under complex environments based on improved YOLO[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(6): 229-237. (in Chinese with English abstract)

[5] 王春雷，盧彩云，陳婉芝，等. 基于遺傳算法和閾值濾噪的玉米根茬行圖像分割[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2019，35(16)：198-205.

Wang Chunlei, Lu Caiyun, Chen Wanzhi, et al. Image segmentation of maize stubble row based on genetic algorithm and threshold filtering noise[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(16): 198-205. (in Chinese with English abstract)

[6] 孫建桐，孫意凡，趙然，等. 基于幾何形態(tài)學(xué)與迭代隨機(jī)圓的番茄識(shí)別方法[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2019，50(增刊1)：22-26，61.

Sun Jiantong, Sun Yifan, Zhao Ran, et al. Tomato recognition method based on iterative random circle and geometric morphology[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(Supp. 1): 22-26, 61. (in Chinese with English abstract)

[7] Peng H X, Xue C, Shao Y Y, et al. Semantic segmentation of litchi branches using DeepLab v3+ model[J]. IEEE Access, 2020, 8: 164546-164555.

[8] Jia W K, Tian Y Y, Luo R, et al. Detection and segmentation of overlapped fruits based on optimized Mask R-CNN application in apple harvesting robot[J]. Computers and Electronics in Agriculture, 2020, 172: 1-7.

[9] Afonso M, Fonteijn H, Fiorentin F S, et al. Tomato fruit detection and counting in greenhouses using deep learning[J]. Frontiers in Plant Science, 2020, 11: 571299-571310.

[10] 岳有軍，田博凱，王紅君，等. 基于改進(jìn)Mask R-CNN的復(fù)雜環(huán)境下蘋果檢測(cè)研究[J]. 中國農(nóng)機(jī)化學(xué)報(bào)，2019，40(10)：128-134.

Yue Youjun, Tian Bokai, Wang Hongjun, et al. Research on apple detection in complex environment based on improved Mask R-CNN[J]. Journal of Chinese Agricultural Mechanization, 2019, 40(10): 128-134. (in Chinese with English abstract)

[11] 張靖祺. 基于機(jī)器視覺溫室番茄成熟度檢測(cè)研究[D]. 泰安：山東農(nóng)業(yè)大學(xué)，2019.

Zhang Jingqi. Research on Maturity Detection of Greenhouse Tomato Based on Machine Vision[D]. Tai’an, Shandong Agricultural University, 2019. (in Chinese with English abstract)

[12] 朱逢樂，鄭增威. 基于圖像和卷積神經(jīng)網(wǎng)絡(luò)的蝴蝶蘭種苗生長勢(shì)評(píng)估[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2020，36(9)：185-194.

Zhu Fengle, Zheng Zengwei. Image-based assessment of growth vigor forseedlings using convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(9): 185-194. (in Chinese with English abstract)

[13] He K M, Gkioxari G, Dollar P, et al. Mask R-CNN[C]//Proceedings of 2017 Conference on Computer Vision (ICCV), Venice: IEEE, 2017.

[14] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[15] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

[16] He K M, Zhang X Y, Ren S Q, et al. Deep residual Learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016.

[17] Lin T Y, Dollar P, Girshick P, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017.

[18] 王春山，周冀，吳華瑞，等. 改進(jìn)Multi-scale ResNet的蔬菜葉部病害識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2020，36(20)：209-217.

Wang Chunshan, Zhou Ji, Wu Huarui, et al. Identification of vegetable leaf diseases based on improved Multi-scale ResNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(20): 209-217. (in Chinese with English abstract)

[19] 婁甜田，楊華，胡志偉. 基于深度卷積網(wǎng)絡(luò)的葡萄簇檢測(cè)與分割[J]. 山西農(nóng)業(yè)大學(xué)學(xué)報(bào)：自然科學(xué)版，2020，40(5)：109-119.

Lou Tiantian, Yang Hua, Hu Zhiwei. Grape cluster detection and segmentation based on deep convolutional network[J]. Journal of Shanxi Agricultural University: Natural Science Edition, 2020, 40(5): 109-119. (in Chinese with English abstract)

[20] Wang C Y, Liao H Y M, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, Seattle: IEEE, 2020.

[21] Zhao H S, Shi J P, Qi X J, et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017.

[22] Chen L C, Zhu Y K, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proceedings of the European Conference on Computer Vision, Mountain View: ECCV, 2018.

[23] Russell B C, Torralba A, Murphy K P, et al. LabelMe: A database and web-based tool for image annotation[J]. International Journal of Computer Vision, 2008, 77(1/2/3): 157-173.

[24] Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[J/OL]. Computer Vision and Pattern Recognition, 2017, [2017-04-17]. https: //arxiv. org/abs/1704. 04861.

[25] Chollet F. Xception: Deep learning with depthwise separable convolutions[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition, Honolulu: IEEE, 2017.

[26] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 37(9): 1904-1916.

[27] 廖崴，鄭立華，李民贊，等. 基于隨機(jī)森林算法的自然光照條件下綠色蘋果識(shí)別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào)，2017，48(增刊1)：86-91.

Liao Wei, Zheng Lihua, Li Minzan, et al. Green apple recognition in natural illumination based on random Forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(Supp. 1): 86-91. (in Chinese with English abstract)

Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN

Long Jiehua1,2, Zhao Chunjiang1,2, Lin Sen2※, Guo Wenzhong2, Wen Chaowu1,2, Zhang Yu2

(1.,,201306,; 2.,,100097,)

Fruit recognition and segmentation using deep neural networks have widely been contributed to the operation of picking robots in modern agriculture. However, the most current models present a low accuracy of recognition with a low running speed, due mainly to a large number of network parameters and calculations. In this study, a high-resolution segmentation was proposed for the different ripeness of tomatoes under a greenhouse environment using improved Mask R-CNN. Firstly, a Cross Stage Partial Network (CSPNet) was used to merge with Residual Network (ResNet) in the Mask R-CNN model. Cross-stage splitting and cascading strategies were contributed to reducing the repeated features in the backpropagation process for a higher accuracy rate, while reducing the number of network calculations. Secondly, the cross-entropy loss function with weight factor was utilized to calculate the mask loss for the better segmentation effect of the model, due to the imbalance of the whole sample. An experiment was also performed on the test sets of tomato fruits with three ripeness levels. The results showed that the improved Mask R-CNN model with CSP-ResNet50 as the backbone network presented the mean average precision of 95.45%, the precision of 95.25%, the recall of 87.43%, F1-score of 0.912, and average segmentation time was 0.658 s. Furthermore, the mean average precision increased by 16.44, 14.95, and 2.29 percentage points, respectively, compared with the Pyramid Scene Parsing Network (PSPNet), DeepLab v3+, and Mask R-CNN with ResNet50 as the backbone network. Nevertheless, the average segmentation time increased by 14.83% and 27.52%, respectively, compared with PSPNet and DeepLab v3+. More importantly, the average segmentation time of improved Mask R-CNN with CSP-ResNet50 as the backbone network was reduced by 1.98%, compared with Mask R-CNN with ResNet50 as the backbone network. Additionally, the new model performed well in the segmentation of green and half-ripe tomato fruits under different light intensities, especially under low light, compared with PSPNet and DeepLab v3+. Finally, the improved Mask R-CNN model with CSP-ResNet50 as the backbone network was deployed to the picking robot, in order to verify the recognition and segmentation effect on different ripeness of tomato fruits in large glass greenhouses. In a low overlap rate of tomato fruits, the model identified the number of tomato fruits consistent with manual detection, where the accuracy was more than 90%. When the occlusion or overlap rate of tomato fruits exceeded 70%, particularly when the target was far away, the accuracy of 66.67% was achieved in the improved Mask R-CNN model, indicating a large gap with manual detection. Only a few features with the blur pixels were attributed to the difficulty to extract the shape and color features of tomato fruits. In addition, low light also posed a great challenge on recognition difficulty. Correspondingly, it was more difficult to pick tomatoes for the picking robot, particularly a relatively low success rate of picking, as the overlap was more serious. Fortunately, the picking success rate improved greatly, as the occlusions reduced. Consequently, the integrated multiple technologies (such as image acquisition equipment, the performance of the model, the execution end design of robotic arm, and automatic mechanization) can widely be expected to effectively improve the picking rate of mature tomatoes under the complex environment of a specific greenhouse. The new model also demonstrated strong robustness and applicability for the precise operation of tomato-picking robots in various complex environments.

image processing; machine vision; models; tomato; maturity segmentation; Mask R-CNN; residual network; cross stage partial network

龍潔花，趙春江，林森，等. 改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法[J]. 農(nóng)業(yè)工程學(xué)報(bào)，2021，37(18)：100-108.doi：10.11975/j.issn.1002-6819.2021.18.012 http://www.tcsae.org

Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.18.012 http://www.tcsae.org

2020-11-15

2021-07-26

國家自然科學(xué)基金項(xiàng)目（31601794）；北京市農(nóng)林科學(xué)院青年基金（QNJJ202027）；北京市重點(diǎn)研發(fā)計(jì)劃項(xiàng)目（D171100007617003）；寧夏回族自治區(qū)重點(diǎn)研發(fā)計(jì)劃項(xiàng)目（2018BBF02024）

龍潔花，研究方向?yàn)檗r(nóng)業(yè)機(jī)器人和機(jī)器視覺。Email：seven060422@163.com

林森，高級(jí)工程師，研究方向?yàn)檗r(nóng)業(yè)智能裝備。Email：linseng@nercita.org.cn

10.11975/j.issn.1002-6819.2021.18.012

TP391.4

1002-6819(2021)-18-0100-09

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

改進(jìn)Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實(shí)分割方法

0 引 言

1 材料與方法

1.1 樣本采集及預(yù)處理

1.2 番茄果實(shí)分割模型

1.3 試驗(yàn)設(shè)計(jì)

2 結(jié)果與分析

2.1 掩膜損失函數(shù)結(jié)果分析

2.2 番茄果實(shí)分割模型性能結(jié)果分析

2.3 改進(jìn)的Mask R-CNN模型驗(yàn)證

3 結(jié) 論

0 引言