馮青春,成 偉,李亞軍,王博文,陳立平
(1. 北京市農(nóng)林科學(xué)院智能裝備技術(shù)研究中心,北京 100097;2. 國家農(nóng)業(yè)智能裝備工程技術(shù)研究中心,北京 100097;3. 農(nóng)業(yè)智能裝備技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室,北京 100097)
番茄是全球廣泛種植的大宗蔬菜,對于保障人類營養(yǎng)需求具有重要作用。中國番茄種植規(guī)模和產(chǎn)量居全球首位,全國種植面積約100萬hm,年產(chǎn)量約6 100萬t,占全球番茄總產(chǎn)量的35%,產(chǎn)值占中國蔬菜總產(chǎn)值的12%,是菜農(nóng)增收、蔬菜產(chǎn)業(yè)發(fā)展的重要支撐。整枝打葉是番茄栽培管理的必要環(huán)節(jié),幾乎貫穿整個生產(chǎn)周期。及時摘除成熟變色果實(shí)區(qū)域的側(cè)枝葉片,可以調(diào)節(jié)植株?duì)I養(yǎng)和生殖生長平衡,改善通風(fēng)透光條件,降低病蟲害發(fā)生風(fēng)險,對于提高番茄產(chǎn)量和品質(zhì)具有重要意義。然而每周2~3次的人工整枝打葉,是目前工廠化番茄種植過程中操作最復(fù)雜、效率最低、人力投入最大的生產(chǎn)環(huán)節(jié)之一,約消耗人力成本總投入的40%~60%。研發(fā)溫室番茄整枝打葉機(jī)器人,代替人工作業(yè),對于提升番茄種植效益具有重要意義。
近年來,歐美國家果蔬整枝打葉機(jī)器人研發(fā)應(yīng)用成果顯著,部分產(chǎn)品初步實(shí)現(xiàn)了產(chǎn)業(yè)應(yīng)用。準(zhǔn)確識別和定位植株主莖和側(cè)枝目標(biāo)是機(jī)器人整枝的必要依據(jù)。然而番茄植株主莖、葉片與側(cè)枝色彩相近、叢生交錯、無序生長,基于有限特征閾值的傳統(tǒng)分類方法較難實(shí)現(xiàn)圖像目標(biāo)區(qū)域的準(zhǔn)確分割。融合色彩、形態(tài)以及紋理特征的多尺度信息建立自適應(yīng)語義分割模型,可以有效改善番茄莖稈目標(biāo)的識別和分割效果。
以多層卷積特征提取網(wǎng)絡(luò)為核心的深度學(xué)習(xí)模型,其“端到端”的模型結(jié)構(gòu)和算法的可遷移性,避免了傳統(tǒng)機(jī)器學(xué)習(xí)模型的復(fù)雜構(gòu)建過程,并且具有更高的識別精度,對于農(nóng)業(yè)作業(yè)對象復(fù)雜視覺信息的感知具有獨(dú)特優(yōu)勢。目標(biāo)識別方面,孫哲等提出了一種基于Faser R-CNN的自然環(huán)境下西蘭花幼苗檢測方法,平均精度達(dá)到91%;Henry等提出了一種基于全卷積網(wǎng)絡(luò)的奇異果識別方法,并應(yīng)用于采摘機(jī)器人,對密集果實(shí)的探測準(zhǔn)確率達(dá)到76.3%;趙德安等提出了基于YOLOv3深度卷積神經(jīng)網(wǎng)絡(luò)的蘋果定位方法,果實(shí)識別準(zhǔn)確率為97%;孫紅等建立了基于SSDLite-MobileDet輕量化網(wǎng)絡(luò)模型的玉米冠層識別模型,識別精度為91%,檢測幀頻89幀/s。目標(biāo)分割方面,Yu等通過對Mask R-CNN語義分割模型的遷移訓(xùn)練,實(shí)現(xiàn)了對重疊草莓圖像區(qū)域的識別,分割準(zhǔn)確率為89.5%;鄧穎等建立了基于改進(jìn)Mask R-CNN的柑橘花朵分割模型,平均精度36.3%,花量計數(shù)誤差11.9%;龍潔花等引入CSPNet改進(jìn)Mask R-CNN的ResNet,對不同成熟度番茄果實(shí)識別正確率為90%;Loyani等基于Mask R-CNN識別番茄葉片赤霉病斑,精度達(dá)到85.67%;Liu等采用改進(jìn)的Mask R-CNN對近色背景下的黃瓜果實(shí)進(jìn)行分割,識別精度1值為89.47%。目前基于深度學(xué)習(xí)模型的植物花、葉和果目標(biāo)識別,主要以固定尺度和視角場景為主。然而番茄側(cè)枝隨機(jī)分布于高大植株不同區(qū)域,攝像機(jī)需要以動態(tài)變化的視場尺度和視角采集圖像。因此,了解深度學(xué)習(xí)模型對于不同遠(yuǎn)近視場尺度和拍攝視角場景下莖稈的識別分割效果,是構(gòu)建整枝機(jī)器人視覺系統(tǒng)的必要依據(jù)。
本文以工廠化番茄植株為研究對象,以不同生長階段、遠(yuǎn)近視場尺度和拍攝視角的植株圖像為樣本,建立基于Mask R-CNN的莖稈分割模型,研究以離散主莖和側(cè)枝位置關(guān)系為約束的整枝操作點(diǎn)定位方法,并通過試驗(yàn)評估算法對不同場景下目標(biāo)的識別定位效果,從而為整枝機(jī)器人研發(fā)提供技術(shù)依據(jù)。
中國工廠化溫室番茄普遍采用單桿整枝栽培方式,即只保留植株主莖,植株底部枝葉全部摘除。單次整枝打葉需要摘除植株成熟變色果實(shí)上方的2~3片側(cè)枝(圖1)。在植株結(jié)果生產(chǎn)期間,果實(shí)沿主莖自下而上依次生長和成熟,需要定期對植株不同區(qū)域進(jìn)行整枝打葉。
圖1 番茄植株整枝打葉Fig.1 Tomato plant pruning
整枝操作需要在植株側(cè)枝和主莖的結(jié)合點(diǎn)處,通過折擰或者切割的方式將二者分離,以摘掉側(cè)枝。因此,側(cè)枝與主莖的結(jié)合點(diǎn)即為整枝操作點(diǎn)。如圖2所示,該目標(biāo)點(diǎn)為主莖和側(cè)枝中心線交點(diǎn)沿側(cè)枝中心線偏移主莖半徑距離后得到的點(diǎn)。識別分割主莖和側(cè)枝像素區(qū)域,是對整枝操作點(diǎn)定位的必要前提。
圖2 整枝操作點(diǎn)定位原理Fig.2 Principle of locating pruning point
番茄植株圖像中莖桿與葉片和果實(shí)背景顏色相近、姿態(tài)各異、叢生交錯,傳統(tǒng)的閾值分割和色差分割算法難以對其進(jìn)行準(zhǔn)確識別和分割。鑒于深度卷積模型具備特征提取和識別的獨(dú)特優(yōu)勢,本文選用Mask R-CNN對番茄主莖和側(cè)枝兩類莖稈目標(biāo)進(jìn)行識別和分割。Mask R-CNN算法流程如圖3所示,主要包括以下步驟:
1)通過特征提取網(wǎng)絡(luò)ResNet50+FPN對輸入圖像數(shù)據(jù)進(jìn)行多尺度信息的提取和融合,并生成一系列特征圖。
2)根據(jù)特征圖與輸入圖像的映射關(guān)系,設(shè)置各種尺度比例和形態(tài)的矩形錨點(diǎn)框,區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)對特征圖進(jìn)行滑窗掃描,對框內(nèi)目標(biāo)和輪廓進(jìn)行初步判斷,形成候選目標(biāo)區(qū)域。
3)為了匹配后端全連接層固定數(shù)量的輸入節(jié)點(diǎn),RoIAlign(Region of Interest Align network)算法對各個候選區(qū)域的特征圖規(guī)格進(jìn)行標(biāo)準(zhǔn)化變換,將RPN網(wǎng)絡(luò)獲得的目標(biāo)候選區(qū)域與特征圖進(jìn)行匹配對齊。
4)標(biāo)準(zhǔn)化的候選區(qū)域特征圖,分別輸入目標(biāo)檢測和分割兩個分支網(wǎng)絡(luò)。前者通過全連接層(Full Connection,F(xiàn)C)識別主莖和側(cè)枝目標(biāo)類別,并定位其各自邊界框位置;后者通過全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)對主莖和側(cè)枝目標(biāo)像素區(qū)域進(jìn)行分割。
圖3 Mask R-CNN模型架構(gòu)Fig.3 Mask R-CNN model architecture
除了自身外觀特征,目標(biāo)在圖像中的成像特征還決定于拍攝角度和成像距離。鑒于番茄整枝幾乎貫穿整個生長周期,自然生長的主莖和側(cè)枝個體之間位置和形態(tài)各不相同,本文選用的植株樣本包括生長期植株(側(cè)枝目標(biāo)主要生長于主莖底部區(qū)域,如圖4a所示)和生產(chǎn)期植株(主莖底部側(cè)枝已經(jīng)被去除,側(cè)枝主要生長于植株中部區(qū)域,如圖4b所示);樣本圖像視場尺度分為遠(yuǎn)景視場(包含3個以上側(cè)枝)和近景視場(包含1~2個側(cè)枝);樣本圖像的拍攝角度分為仰視視場(從側(cè)枝下方采集圖像)和正視視場(從水平正視方向采集圖像)。如圖4所示,番茄植株圖像數(shù)據(jù)集可分為8組圖像樣本。
圖4 圖像樣本舉例Fig.4 Example of image samples
在溫室內(nèi)共采集各組圖像1 500幅,為了提高模型訓(xùn)練和檢測效率,圖像樣本設(shè)置為720×720像素規(guī)格。通過隨機(jī)添加高斯噪聲,將樣本擴(kuò)充至3 000幅。按照8∶2的比例劃分為訓(xùn)練集與驗(yàn)證集,8組圖像樣本訓(xùn)練集和驗(yàn)證集樣本數(shù)量均分別為300和75。
由莖稈圖像觀察可知,主莖與側(cè)枝相間生長,主莖呈豎直傾斜姿態(tài),側(cè)枝在其兩側(cè)生長,呈橫向傾斜姿態(tài)。為了模型能夠充分解析二者的特征,將側(cè)枝之間的離散主莖標(biāo)注為一類目標(biāo),側(cè)枝及其與主莖的連接區(qū)域標(biāo)注為另一類目標(biāo)。采用Labelme標(biāo)注工具,通過沿主莖和側(cè)枝輪廓多邊形描點(diǎn)方式,對圖片內(nèi)的目標(biāo)區(qū)域分別進(jìn)行標(biāo)注,并生成json文件保存標(biāo)注信息。
本文選用的Mast RCNN預(yù)訓(xùn)練模型,來自于香港中文大學(xué)Multimedia Laboratory開發(fā)的基于PyTorch的開源對象檢測工具箱MMDetection。深度學(xué)習(xí)工作站主要硬件配置包括Intel i7-10700K CPU、NVIDIA 1080TI GPU、DDR4 16GB內(nèi)存。
訓(xùn)練方法采用微調(diào)遷移訓(xùn)練方法,具體步驟包括:1)以預(yù)訓(xùn)練模型的特征提取網(wǎng)絡(luò)權(quán)值對Mask R-CNN網(wǎng)絡(luò)進(jìn)行初始化,而后端目標(biāo)分類、邊框回歸和全卷積網(wǎng)絡(luò)參數(shù)為隨機(jī)初始化;2)凍結(jié)特征提取網(wǎng)絡(luò)權(quán)值參數(shù),設(shè)置學(xué)習(xí)率0.02對后端網(wǎng)絡(luò)進(jìn)行訓(xùn)練;3)設(shè)置學(xué)習(xí)率0.002,對整個網(wǎng)絡(luò)權(quán)值參數(shù)進(jìn)行微調(diào)訓(xùn)練。
對2 400個訓(xùn)練集圖像樣本進(jìn)行200次重復(fù)訓(xùn)練,模型更新迭代12萬次(單次迭代樣本批量為4),每次迭代耗時0.12 s,總耗時30 h。當(dāng)?shù)?萬次時,將學(xué)習(xí)率調(diào)整至0.1倍,最終10萬次迭代以后,模型各項(xiàng)損失下降趨于平穩(wěn)。模型各項(xiàng)損失函數(shù)和總體識別精確度隨模型迭代次數(shù)變化如圖5所示,最終總體損失函數(shù)值為0.126、平均精度均值(mean Average Precision,mAP)為0.866。
圖5 損失函數(shù)與平均精度均值變化曲線Fig.5 Loss function and mean Average Precision (mAP) curve
模型對莖稈目標(biāo)類別識別和區(qū)域分割效果如圖6所示,主莖區(qū)域被標(biāo)注為藍(lán)色掩膜,側(cè)枝區(qū)域被標(biāo)注為紅色掩膜。
圖6 Mask R-CNN識別結(jié)果Fig.6 Identification result of Mask R-CNN
在同一植株上,且處于相鄰位置的主莖和側(cè)枝中心線交點(diǎn)才能作為整枝操作參考點(diǎn)。對于圖像中屬于不同植株,隨機(jī)分布的主莖和側(cè)枝,明確離散主莖和側(cè)枝目標(biāo)區(qū)域相對植株的從屬關(guān)系和位置關(guān)系,是對整枝操作點(diǎn)進(jìn)行定位的必要依據(jù)。
圖7 主莖與側(cè)枝位置關(guān)系判別Fig.7 Relative location estimation of main stem and lateral branch
圖8 中心線擬合與整枝操作點(diǎn)定位Fig.8 Centerline fitting and pruning point locating
為了驗(yàn)證整枝操作點(diǎn)的識別定位效果,結(jié)合工廠化番茄溫室實(shí)際作業(yè)工況條件特點(diǎn),進(jìn)一步采集番茄植株圖像,建立與訓(xùn)練集樣本構(gòu)成相同比例的測試集,包括遠(yuǎn)景和近景視場、正視和仰視視角、生長期和生產(chǎn)期植株圖像樣本80幅。模型自動輸出和保存對圖像中主莖和側(cè)枝離散區(qū)域的識別和分割結(jié)果,并記錄整枝操作點(diǎn)的圖像坐標(biāo)。
1)主莖和側(cè)枝目標(biāo)識別精度評估
2)整枝操作點(diǎn)定位精度評估
以操作點(diǎn)自動識別定位結(jié)果與人工標(biāo)注結(jié)果的圖像坐標(biāo)偏差,評價模型對操作點(diǎn)的定位精度。鑒于坐標(biāo)絕對偏差在不同遠(yuǎn)近尺度圖像內(nèi)表示的物理距離不同,無法定量表征真實(shí)定位誤差。假設(shè)番茄植株整枝區(qū)域主莖的物理直徑是常數(shù),表示主莖在不同遠(yuǎn)近尺度圖像樣本中的像素寬度。以自動識別和人工標(biāo)注整枝操作點(diǎn)圖像像素偏差距離與的比值,表征操作點(diǎn)圖像定位誤差。
對測試集80幅圖像進(jìn)行人工檢測,其中每個場景分組各10幅。測試集莖稈目標(biāo)分布涉及94株番茄植株,其中14幅圖像包含2株以上。測試集共包含離散主莖區(qū)域224個、側(cè)枝區(qū)域163個、標(biāo)定整枝操作點(diǎn)163個。每幅圖像平均包含主莖區(qū)域2.80個、側(cè)枝2.03個。具體統(tǒng)計如表1所示。
表1 測試集莖稈目標(biāo)人工標(biāo)注統(tǒng)計Table 1 Manual identification results on test set
1)主莖和側(cè)枝目標(biāo)識別結(jié)果與分析
將測試集圖像分別輸入自動識別模型,根據(jù)圖像場景特征對識別結(jié)果進(jìn)行分組統(tǒng)計。模型對測試集圖像樣本內(nèi)的主莖和側(cè)枝目標(biāo)識別分類結(jié)果如表2所示。
表2 測試集中主莖和側(cè)枝目標(biāo)識別結(jié)果Table 2 Identification results for main stems and lateral branches in test sample set
以人工檢測結(jié)果為對照,正確識別主莖和側(cè)枝數(shù)量分別為211和154、誤判數(shù)量分別為6和19、未被識別的數(shù)量為13和9,其中近景仰視圖像中錯誤和未被識別的主莖和側(cè)枝數(shù)量均為0,遠(yuǎn)景仰視圖像中錯誤和未被識別的側(cè)枝數(shù)量為0。
對于全體測試集樣本,主莖識別錯誤率(0.08)低于側(cè)枝(0.17)。生長期植株的仰視遠(yuǎn)景圖像和生產(chǎn)期植株的正視近景圖像中主莖識別錯誤較大,分別為0.17和0.16,主要原因?yàn)椋?)前者植株底部葉片較多,主莖受到葉片遮擋(圖9a),識別難度增大,從而導(dǎo)致未識別的主莖較多(29個主莖中6個未被識別);2)后者枝葉普遍相對較粗(圖9b),4個側(cè)枝或葉柄被錯判為主莖。生產(chǎn)期遠(yuǎn)近景的正視圖像中側(cè)枝識別錯誤均較大,分別為0.43和0.31,主要原因?yàn)椋赫晽l件下果柄被誤判為側(cè)枝(圖9c),隨著生產(chǎn)期植株果實(shí)數(shù)量增加,識別錯誤率更高。此外,生產(chǎn)期植株的遠(yuǎn)景正視圖像中,受其他枝葉遮擋(圖9d),8個側(cè)枝未被識別,導(dǎo)致錯誤率較高為0.28。
圖9 目標(biāo)錯誤識別結(jié)果Fig.9 False identification results
如表3所示,模型對于主莖和側(cè)枝的總體識別錯誤率、精確率和召回率分別為0.12、0.93和0.94,并且對于生長期和生產(chǎn)期的近景仰視圖像樣本均具有最好的識別效果,即模型對于近景仰視的番茄植株場景具有較好的適應(yīng)性。該場景下主莖和側(cè)枝受到遮擋較少,同時仰視條件下果柄被果實(shí)遮擋,在圖像中出現(xiàn)較少,從而避免了被誤判為側(cè)枝。
表3 目標(biāo)識別精度統(tǒng)計Table 3 Targets identification accuracy statistics
2)整枝操作點(diǎn)定位結(jié)果與分析
本文將不同尺度圖像中整枝操作點(diǎn)定位像素偏差與主莖像素寬度的比值作為其定位誤差,統(tǒng)計如表4所示。全體測試集樣本圖像中,整枝操作點(diǎn)的圖像定位誤差平均值為0.34。不同場景中最大誤差平均值為0.47、最小誤差平均值為0.11。對于生長期植株的正視遠(yuǎn)景圖像,誤差最大為0.76,生產(chǎn)期植株的仰視近景圖像,誤差最小為0.03。由于與生產(chǎn)期植株相比,生長期植株的主莖較細(xì),因此生長期植株圖像樣本的操作點(diǎn)定位誤差普遍偏大。同時,由于近景圖像樣本具有較高的目標(biāo)分割精度,因此近景圖像的操作點(diǎn)定位精度較高。此外,相比正視場景,仰視場景圖像中側(cè)枝自身彎曲特征被弱化,側(cè)枝中心線擬合較為準(zhǔn)確,整枝操作點(diǎn)的定位誤差較小。
表4 整枝操作點(diǎn)圖像定位誤差統(tǒng)計Table 4 Pruning point location pixel error statistics
假設(shè)番茄主莖直徑為15 mm(人工測量統(tǒng)計的平均值),由表4可知,整枝操作點(diǎn)的絕對定位誤差平均值為5.12 mm、最大誤差11.4 mm、最小誤差0.45 mm??紤]到側(cè)枝平均直徑約為10 mm、可夾持長度約150 mm,為了包容整枝操作點(diǎn)定位誤差,側(cè)枝夾持手爪有效行程最大增加11.4 mm。該額外行程的增加對手爪構(gòu)型設(shè)計、運(yùn)動控制方面構(gòu)成的技術(shù)風(fēng)險較小,因此認(rèn)為本文定位精度可以滿足整枝機(jī)器人的作業(yè)需要。
針對番茄智能化整枝莖稈目標(biāo)視覺信息獲取需要,綜合考慮植株生長階段、遠(yuǎn)景視場以及拍攝角度等因素,建立了番茄植株莖稈圖像樣本數(shù)據(jù)集,采用微調(diào)遷移訓(xùn)練方法,建立了基于Mask R-CNN的主莖和側(cè)枝目標(biāo)識別分割模型。通過離散莖稈區(qū)域圖像位置關(guān)系判別,實(shí)現(xiàn)了整枝操作點(diǎn)的定位。
試驗(yàn)結(jié)果表明,對于不同場景的圖像樣本,Mask R-CNN模型對主莖和側(cè)枝識別的錯誤率、準(zhǔn)確率和召回率分別為0.12、0.93和0.94,并且對于仰視近景視場具有更好識別效果。對于整枝操作點(diǎn)定位誤差的平均值、最大值和最小值與對應(yīng)主莖像素寬度的比值分別為0.34、0.76和0.03。若設(shè)定主莖直徑為15 mm,枝操作點(diǎn)的定位誤差平均值為5.12 mm、最大誤差11.4 mm、最小誤差0.45 mm,同樣在仰視近景場景下定位精度較高。因此,仰視近景圖像信息獲取有利于整枝目標(biāo)視覺信息的準(zhǔn)確獲取,本文研究結(jié)論為后期開展整枝機(jī)器人視覺系統(tǒng)研發(fā)提供了設(shè)計依據(jù)。
此外,由于本文算法僅限于二維圖像特征處理,缺乏莖稈形態(tài)立體信息融合,對于整枝操作點(diǎn)定位方法和精度評估試驗(yàn),尚有待改進(jìn)之處,可進(jìn)一步采用深度相機(jī)獲取莖稈立體位姿信息,以得到更加精確定位效果。