基于Mask R-CNN的番茄植株整枝操作點(diǎn)定位方法

2022-04-16 03:19馮青春李亞軍王博文陳立平

農(nóng)業(yè)工程學(xué)報 2022年3期

馮青春，成偉，李亞軍，王博文，陳立平

（1. 北京市農(nóng)林科學(xué)院智能裝備技術(shù)研究中心，北京 100097；2. 國家農(nóng)業(yè)智能裝備工程技術(shù)研究中心，北京 100097；3. 農(nóng)業(yè)智能裝備技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室，北京 100097）

0 引言

番茄是全球廣泛種植的大宗蔬菜，對于保障人類營養(yǎng)需求具有重要作用。中國番茄種植規(guī)模和產(chǎn)量居全球首位，全國種植面積約100萬hm，年產(chǎn)量約6 100萬t，占全球番茄總產(chǎn)量的35%，產(chǎn)值占中國蔬菜總產(chǎn)值的12%，是菜農(nóng)增收、蔬菜產(chǎn)業(yè)發(fā)展的重要支撐。整枝打葉是番茄栽培管理的必要環(huán)節(jié)，幾乎貫穿整個生產(chǎn)周期。及時摘除成熟變色果實(shí)區(qū)域的側(cè)枝葉片，可以調(diào)節(jié)植株?duì)I養(yǎng)和生殖生長平衡，改善通風(fēng)透光條件，降低病蟲害發(fā)生風(fēng)險，對于提高番茄產(chǎn)量和品質(zhì)具有重要意義。然而每周2～3次的人工整枝打葉，是目前工廠化番茄種植過程中操作最復(fù)雜、效率最低、人力投入最大的生產(chǎn)環(huán)節(jié)之一，約消耗人力成本總投入的40%～60%。研發(fā)溫室番茄整枝打葉機(jī)器人，代替人工作業(yè)，對于提升番茄種植效益具有重要意義。

近年來，歐美國家果蔬整枝打葉機(jī)器人研發(fā)應(yīng)用成果顯著，部分產(chǎn)品初步實(shí)現(xiàn)了產(chǎn)業(yè)應(yīng)用。準(zhǔn)確識別和定位植株主莖和側(cè)枝目標(biāo)是機(jī)器人整枝的必要依據(jù)。然而番茄植株主莖、葉片與側(cè)枝色彩相近、叢生交錯、無序生長，基于有限特征閾值的傳統(tǒng)分類方法較難實(shí)現(xiàn)圖像目標(biāo)區(qū)域的準(zhǔn)確分割。融合色彩、形態(tài)以及紋理特征的多尺度信息建立自適應(yīng)語義分割模型，可以有效改善番茄莖稈目標(biāo)的識別和分割效果。

以多層卷積特征提取網(wǎng)絡(luò)為核心的深度學(xué)習(xí)模型，其“端到端”的模型結(jié)構(gòu)和算法的可遷移性，避免了傳統(tǒng)機(jī)器學(xué)習(xí)模型的復(fù)雜構(gòu)建過程，并且具有更高的識別精度，對于農(nóng)業(yè)作業(yè)對象復(fù)雜視覺信息的感知具有獨(dú)特優(yōu)勢。目標(biāo)識別方面，孫哲等提出了一種基于Faser R-CNN的自然環(huán)境下西蘭花幼苗檢測方法，平均精度達(dá)到91%；Henry等提出了一種基于全卷積網(wǎng)絡(luò)的奇異果識別方法，并應(yīng)用于采摘機(jī)器人，對密集果實(shí)的探測準(zhǔn)確率達(dá)到76.3%；趙德安等提出了基于YOLOv3深度卷積神經(jīng)網(wǎng)絡(luò)的蘋果定位方法，果實(shí)識別準(zhǔn)確率為97%；孫紅等建立了基于SSDLite-MobileDet輕量化網(wǎng)絡(luò)模型的玉米冠層識別模型，識別精度為91%，檢測幀頻89幀/s。目標(biāo)分割方面，Yu等通過對Mask R-CNN語義分割模型的遷移訓(xùn)練，實(shí)現(xiàn)了對重疊草莓圖像區(qū)域的識別，分割準(zhǔn)確率為89.5%；鄧穎等建立了基于改進(jìn)Mask R-CNN的柑橘花朵分割模型，平均精度36.3%，花量計數(shù)誤差11.9%；龍潔花等引入CSPNet改進(jìn)Mask R-CNN的ResNet，對不同成熟度番茄果實(shí)識別正確率為90%；Loyani等基于Mask R-CNN識別番茄葉片赤霉病斑，精度達(dá)到85.67%；Liu等采用改進(jìn)的Mask R-CNN對近色背景下的黃瓜果實(shí)進(jìn)行分割，識別精度1值為89.47%。目前基于深度學(xué)習(xí)模型的植物花、葉和果目標(biāo)識別，主要以固定尺度和視角場景為主。然而番茄側(cè)枝隨機(jī)分布于高大植株不同區(qū)域，攝像機(jī)需要以動態(tài)變化的視場尺度和視角采集圖像。因此，了解深度學(xué)習(xí)模型對于不同遠(yuǎn)近視場尺度和拍攝視角場景下莖稈的識別分割效果，是構(gòu)建整枝機(jī)器人視覺系統(tǒng)的必要依據(jù)。

本文以工廠化番茄植株為研究對象，以不同生長階段、遠(yuǎn)近視場尺度和拍攝視角的植株圖像為樣本，建立基于Mask R-CNN的莖稈分割模型，研究以離散主莖和側(cè)枝位置關(guān)系為約束的整枝操作點(diǎn)定位方法，并通過試驗(yàn)評估算法對不同場景下目標(biāo)的識別定位效果，從而為整枝機(jī)器人研發(fā)提供技術(shù)依據(jù)。

1 番茄植株整枝原理

1.1 工廠化溫室番茄整枝規(guī)范

中國工廠化溫室番茄普遍采用單桿整枝栽培方式，即只保留植株主莖，植株底部枝葉全部摘除。單次整枝打葉需要摘除植株成熟變色果實(shí)上方的2～3片側(cè)枝（圖1）。在植株結(jié)果生產(chǎn)期間，果實(shí)沿主莖自下而上依次生長和成熟，需要定期對植株不同區(qū)域進(jìn)行整枝打葉。

圖1 番茄植株整枝打葉Fig.1 Tomato plant pruning

1.2 整枝操作點(diǎn)

整枝操作需要在植株側(cè)枝和主莖的結(jié)合點(diǎn)處，通過折擰或者切割的方式將二者分離，以摘掉側(cè)枝。因此，側(cè)枝與主莖的結(jié)合點(diǎn)即為整枝操作點(diǎn)。如圖2所示，該目標(biāo)點(diǎn)為主莖和側(cè)枝中心線交點(diǎn)沿側(cè)枝中心線偏移主莖半徑距離后得到的點(diǎn)。識別分割主莖和側(cè)枝像素區(qū)域，是對整枝操作點(diǎn)定位的必要前提。

圖2 整枝操作點(diǎn)定位原理Fig.2 Principle of locating pruning point

2 基于Mask R-CNN的番茄莖稈圖像分割

2.1 Mask R-CNN算法原理

番茄植株圖像中莖桿與葉片和果實(shí)背景顏色相近、姿態(tài)各異、叢生交錯，傳統(tǒng)的閾值分割和色差分割算法難以對其進(jìn)行準(zhǔn)確識別和分割。鑒于深度卷積模型具備特征提取和識別的獨(dú)特優(yōu)勢，本文選用Mask R-CNN對番茄主莖和側(cè)枝兩類莖稈目標(biāo)進(jìn)行識別和分割。Mask R-CNN算法流程如圖3所示，主要包括以下步驟：

1）通過特征提取網(wǎng)絡(luò)ResNet50+FPN對輸入圖像數(shù)據(jù)進(jìn)行多尺度信息的提取和融合，并生成一系列特征圖。

2）根據(jù)特征圖與輸入圖像的映射關(guān)系，設(shè)置各種尺度比例和形態(tài)的矩形錨點(diǎn)框，區(qū)域建議網(wǎng)絡(luò)（Region Proposal Network，RPN）對特征圖進(jìn)行滑窗掃描，對框內(nèi)目標(biāo)和輪廓進(jìn)行初步判斷，形成候選目標(biāo)區(qū)域。

3）為了匹配后端全連接層固定數(shù)量的輸入節(jié)點(diǎn)，RoIAlign（Region of Interest Align network）算法對各個候選區(qū)域的特征圖規(guī)格進(jìn)行標(biāo)準(zhǔn)化變換，將RPN網(wǎng)絡(luò)獲得的目標(biāo)候選區(qū)域與特征圖進(jìn)行匹配對齊。

4）標(biāo)準(zhǔn)化的候選區(qū)域特征圖，分別輸入目標(biāo)檢測和分割兩個分支網(wǎng)絡(luò)。前者通過全連接層（Full Connection，F(xiàn)C）識別主莖和側(cè)枝目標(biāo)類別，并定位其各自邊界框位置；后者通過全卷積網(wǎng)絡(luò)（Fully Convolutional Networks，F(xiàn)CN）對主莖和側(cè)枝目標(biāo)像素區(qū)域進(jìn)行分割。

圖3 Mask R-CNN模型架構(gòu)Fig.3 Mask R-CNN model architecture

2.2 圖像樣本采集和標(biāo)注

除了自身外觀特征，目標(biāo)在圖像中的成像特征還決定于拍攝角度和成像距離。鑒于番茄整枝幾乎貫穿整個生長周期，自然生長的主莖和側(cè)枝個體之間位置和形態(tài)各不相同，本文選用的植株樣本包括生長期植株（側(cè)枝目標(biāo)主要生長于主莖底部區(qū)域，如圖4a所示）和生產(chǎn)期植株（主莖底部側(cè)枝已經(jīng)被去除，側(cè)枝主要生長于植株中部區(qū)域，如圖4b所示）；樣本圖像視場尺度分為遠(yuǎn)景視場（包含3個以上側(cè)枝）和近景視場（包含1～2個側(cè)枝）；樣本圖像的拍攝角度分為仰視視場（從側(cè)枝下方采集圖像）和正視視場（從水平正視方向采集圖像）。如圖4所示，番茄植株圖像數(shù)據(jù)集可分為8組圖像樣本。

圖4 圖像樣本舉例Fig.4 Example of image samples

在溫室內(nèi)共采集各組圖像1 500幅，為了提高模型訓(xùn)練和檢測效率，圖像樣本設(shè)置為720×720像素規(guī)格。通過隨機(jī)添加高斯噪聲，將樣本擴(kuò)充至3 000幅。按照8∶2的比例劃分為訓(xùn)練集與驗(yàn)證集，8組圖像樣本訓(xùn)練集和驗(yàn)證集樣本數(shù)量均分別為300和75。

由莖稈圖像觀察可知，主莖與側(cè)枝相間生長，主莖呈豎直傾斜姿態(tài)，側(cè)枝在其兩側(cè)生長，呈橫向傾斜姿態(tài)。為了模型能夠充分解析二者的特征，將側(cè)枝之間的離散主莖標(biāo)注為一類目標(biāo)，側(cè)枝及其與主莖的連接區(qū)域標(biāo)注為另一類目標(biāo)。采用Labelme標(biāo)注工具，通過沿主莖和側(cè)枝輪廓多邊形描點(diǎn)方式，對圖片內(nèi)的目標(biāo)區(qū)域分別進(jìn)行標(biāo)注，并生成json文件保存標(biāo)注信息。

2.3 Mask R-CNN模型遷移訓(xùn)練

本文選用的Mast RCNN預(yù)訓(xùn)練模型，來自于香港中文大學(xué)Multimedia Laboratory開發(fā)的基于PyTorch的開源對象檢測工具箱MMDetection。深度學(xué)習(xí)工作站主要硬件配置包括Intel i7-10700K CPU、NVIDIA 1080TI GPU、DDR4 16GB內(nèi)存。

訓(xùn)練方法采用微調(diào)遷移訓(xùn)練方法，具體步驟包括：1）以預(yù)訓(xùn)練模型的特征提取網(wǎng)絡(luò)權(quán)值對Mask R-CNN網(wǎng)絡(luò)進(jìn)行初始化，而后端目標(biāo)分類、邊框回歸和全卷積網(wǎng)絡(luò)參數(shù)為隨機(jī)初始化；2）凍結(jié)特征提取網(wǎng)絡(luò)權(quán)值參數(shù)，設(shè)置學(xué)習(xí)率0.02對后端網(wǎng)絡(luò)進(jìn)行訓(xùn)練；3）設(shè)置學(xué)習(xí)率0.002，對整個網(wǎng)絡(luò)權(quán)值參數(shù)進(jìn)行微調(diào)訓(xùn)練。

對2 400個訓(xùn)練集圖像樣本進(jìn)行200次重復(fù)訓(xùn)練，模型更新迭代12萬次（單次迭代樣本批量為4），每次迭代耗時0.12 s，總耗時30 h。當(dāng)?shù)?萬次時，將學(xué)習(xí)率調(diào)整至0.1倍，最終10萬次迭代以后，模型各項(xiàng)損失下降趨于平穩(wěn)。模型各項(xiàng)損失函數(shù)和總體識別精確度隨模型迭代次數(shù)變化如圖5所示，最終總體損失函數(shù)值為0.126、平均精度均值（mean Average Precision，mAP）為0.866。

圖5 損失函數(shù)與平均精度均值變化曲線Fig.5 Loss function and mean Average Precision (mAP) curve

模型對莖稈目標(biāo)類別識別和區(qū)域分割效果如圖6所示，主莖區(qū)域被標(biāo)注為藍(lán)色掩膜，側(cè)枝區(qū)域被標(biāo)注為紅色掩膜。

圖6 Mask R-CNN識別結(jié)果Fig.6 Identification result of Mask R-CNN

3 整枝操作點(diǎn)定位

3.1 離散莖稈位置關(guān)系判別

在同一植株上，且處于相鄰位置的主莖和側(cè)枝中心線交點(diǎn)才能作為整枝操作參考點(diǎn)。對于圖像中屬于不同植株，隨機(jī)分布的主莖和側(cè)枝，明確離散主莖和側(cè)枝目標(biāo)區(qū)域相對植株的從屬關(guān)系和位置關(guān)系，是對整枝操作點(diǎn)進(jìn)行定位的必要依據(jù)。

圖7 主莖與側(cè)枝位置關(guān)系判別Fig.7 Relative location estimation of main stem and lateral branch

3.2 莖稈中心線擬合

圖8 中心線擬合與整枝操作點(diǎn)定位Fig.8 Centerline fitting and pruning point locating

4 試驗(yàn)及結(jié)果分析

4.1 試驗(yàn)

為了驗(yàn)證整枝操作點(diǎn)的識別定位效果，結(jié)合工廠化番茄溫室實(shí)際作業(yè)工況條件特點(diǎn)，進(jìn)一步采集番茄植株圖像，建立與訓(xùn)練集樣本構(gòu)成相同比例的測試集，包括遠(yuǎn)景和近景視場、正視和仰視視角、生長期和生產(chǎn)期植株圖像樣本80幅。模型自動輸出和保存對圖像中主莖和側(cè)枝離散區(qū)域的識別和分割結(jié)果，并記錄整枝操作點(diǎn)的圖像坐標(biāo)。

1）主莖和側(cè)枝目標(biāo)識別精度評估

2）整枝操作點(diǎn)定位精度評估

以操作點(diǎn)自動識別定位結(jié)果與人工標(biāo)注結(jié)果的圖像坐標(biāo)偏差，評價模型對操作點(diǎn)的定位精度。鑒于坐標(biāo)絕對偏差在不同遠(yuǎn)近尺度圖像內(nèi)表示的物理距離不同，無法定量表征真實(shí)定位誤差。假設(shè)番茄植株整枝區(qū)域主莖的物理直徑是常數(shù)，表示主莖在不同遠(yuǎn)近尺度圖像樣本中的像素寬度。以自動識別和人工標(biāo)注整枝操作點(diǎn)圖像像素偏差距離與的比值，表征操作點(diǎn)圖像定位誤差。

4.2 結(jié)果與分析

對測試集80幅圖像進(jìn)行人工檢測，其中每個場景分組各10幅。測試集莖稈目標(biāo)分布涉及94株番茄植株，其中14幅圖像包含2株以上。測試集共包含離散主莖區(qū)域224個、側(cè)枝區(qū)域163個、標(biāo)定整枝操作點(diǎn)163個。每幅圖像平均包含主莖區(qū)域2.80個、側(cè)枝2.03個。具體統(tǒng)計如表1所示。

表1 測試集莖稈目標(biāo)人工標(biāo)注統(tǒng)計Table 1 Manual identification results on test set

1）主莖和側(cè)枝目標(biāo)識別結(jié)果與分析

將測試集圖像分別輸入自動識別模型，根據(jù)圖像場景特征對識別結(jié)果進(jìn)行分組統(tǒng)計。模型對測試集圖像樣本內(nèi)的主莖和側(cè)枝目標(biāo)識別分類結(jié)果如表2所示。

表2 測試集中主莖和側(cè)枝目標(biāo)識別結(jié)果Table 2 Identification results for main stems and lateral branches in test sample set

以人工檢測結(jié)果為對照，正確識別主莖和側(cè)枝數(shù)量分別為211和154、誤判數(shù)量分別為6和19、未被識別的數(shù)量為13和9，其中近景仰視圖像中錯誤和未被識別的主莖和側(cè)枝數(shù)量均為0，遠(yuǎn)景仰視圖像中錯誤和未被識別的側(cè)枝數(shù)量為0。

對于全體測試集樣本，主莖識別錯誤率（0.08）低于側(cè)枝（0.17）。生長期植株的仰視遠(yuǎn)景圖像和生產(chǎn)期植株的正視近景圖像中主莖識別錯誤較大，分別為0.17和0.16，主要原因?yàn)椋?）前者植株底部葉片較多，主莖受到葉片遮擋（圖9a），識別難度增大，從而導(dǎo)致未識別的主莖較多（29個主莖中6個未被識別）；2）后者枝葉普遍相對較粗（圖9b），4個側(cè)枝或葉柄被錯判為主莖。生產(chǎn)期遠(yuǎn)近景的正視圖像中側(cè)枝識別錯誤均較大，分別為0.43和0.31，主要原因?yàn)椋赫晽l件下果柄被誤判為側(cè)枝（圖9c），隨著生產(chǎn)期植株果實(shí)數(shù)量增加，識別錯誤率更高。此外，生產(chǎn)期植株的遠(yuǎn)景正視圖像中，受其他枝葉遮擋（圖9d），8個側(cè)枝未被識別，導(dǎo)致錯誤率較高為0.28。

圖9 目標(biāo)錯誤識別結(jié)果Fig.9 False identification results

如表3所示，模型對于主莖和側(cè)枝的總體識別錯誤率、精確率和召回率分別為0.12、0.93和0.94，并且對于生長期和生產(chǎn)期的近景仰視圖像樣本均具有最好的識別效果，即模型對于近景仰視的番茄植株場景具有較好的適應(yīng)性。該場景下主莖和側(cè)枝受到遮擋較少，同時仰視條件下果柄被果實(shí)遮擋，在圖像中出現(xiàn)較少，從而避免了被誤判為側(cè)枝。

表3 目標(biāo)識別精度統(tǒng)計Table 3 Targets identification accuracy statistics

2）整枝操作點(diǎn)定位結(jié)果與分析

本文將不同尺度圖像中整枝操作點(diǎn)定位像素偏差與主莖像素寬度的比值作為其定位誤差，統(tǒng)計如表4所示。全體測試集樣本圖像中，整枝操作點(diǎn)的圖像定位誤差平均值為0.34。不同場景中最大誤差平均值為0.47、最小誤差平均值為0.11。對于生長期植株的正視遠(yuǎn)景圖像，誤差最大為0.76，生產(chǎn)期植株的仰視近景圖像，誤差最小為0.03。由于與生產(chǎn)期植株相比，生長期植株的主莖較細(xì)，因此生長期植株圖像樣本的操作點(diǎn)定位誤差普遍偏大。同時，由于近景圖像樣本具有較高的目標(biāo)分割精度，因此近景圖像的操作點(diǎn)定位精度較高。此外，相比正視場景，仰視場景圖像中側(cè)枝自身彎曲特征被弱化，側(cè)枝中心線擬合較為準(zhǔn)確，整枝操作點(diǎn)的定位誤差較小。

表4 整枝操作點(diǎn)圖像定位誤差統(tǒng)計Table 4 Pruning point location pixel error statistics

假設(shè)番茄主莖直徑為15 mm（人工測量統(tǒng)計的平均值），由表4可知，整枝操作點(diǎn)的絕對定位誤差平均值為5.12 mm、最大誤差11.4 mm、最小誤差0.45 mm?？紤]到側(cè)枝平均直徑約為10 mm、可夾持長度約150 mm，為了包容整枝操作點(diǎn)定位誤差，側(cè)枝夾持手爪有效行程最大增加11.4 mm。該額外行程的增加對手爪構(gòu)型設(shè)計、運(yùn)動控制方面構(gòu)成的技術(shù)風(fēng)險較小，因此認(rèn)為本文定位精度可以滿足整枝機(jī)器人的作業(yè)需要。

5 結(jié) 論

針對番茄智能化整枝莖稈目標(biāo)視覺信息獲取需要，綜合考慮植株生長階段、遠(yuǎn)景視場以及拍攝角度等因素，建立了番茄植株莖稈圖像樣本數(shù)據(jù)集，采用微調(diào)遷移訓(xùn)練方法，建立了基于Mask R-CNN的主莖和側(cè)枝目標(biāo)識別分割模型。通過離散莖稈區(qū)域圖像位置關(guān)系判別，實(shí)現(xiàn)了整枝操作點(diǎn)的定位。

試驗(yàn)結(jié)果表明，對于不同場景的圖像樣本，Mask R-CNN模型對主莖和側(cè)枝識別的錯誤率、準(zhǔn)確率和召回率分別為0.12、0.93和0.94，并且對于仰視近景視場具有更好識別效果。對于整枝操作點(diǎn)定位誤差的平均值、最大值和最小值與對應(yīng)主莖像素寬度的比值分別為0.34、0.76和0.03。若設(shè)定主莖直徑為15 mm，枝操作點(diǎn)的定位誤差平均值為5.12 mm、最大誤差11.4 mm、最小誤差0.45 mm，同樣在仰視近景場景下定位精度較高。因此，仰視近景圖像信息獲取有利于整枝目標(biāo)視覺信息的準(zhǔn)確獲取，本文研究結(jié)論為后期開展整枝機(jī)器人視覺系統(tǒng)研發(fā)提供了設(shè)計依據(jù)。

此外，由于本文算法僅限于二維圖像特征處理，缺乏莖稈形態(tài)立體信息融合，對于整枝操作點(diǎn)定位方法和精度評估試驗(yàn)，尚有待改進(jìn)之處，可進(jìn)一步采用深度相機(jī)獲取莖稈立體位姿信息，以得到更加精確定位效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡