穆龍濤 高宗斌 崔永杰,2 李 凱 劉浩洲 傅隆生,3
(1.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院, 陜西楊凌 712100; 2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室, 陜西楊凌 712100;3.陜西省農(nóng)業(yè)信息感知與智能服務(wù)重點(diǎn)實(shí)驗(yàn)室, 陜西楊凌 712100)
中國獼猴桃種植面積和總產(chǎn)量位居世界前列[1],且經(jīng)濟(jì)效益高[2],但目前多采用人工采摘收獲,耗時(shí)且勞動(dòng)力成本高[3-5],亟待實(shí)現(xiàn)果實(shí)采摘的機(jī)械化與自動(dòng)化。目前,國內(nèi)外學(xué)者對(duì)果實(shí)采摘機(jī)器人進(jìn)行了研究,但采摘效率較低[6-7]。要提高采摘效率,獼猴桃果實(shí)的精準(zhǔn)識(shí)別定位尤為重要。由于獼猴桃果實(shí)在田間受不同天氣(晴天、陰天)及不同光照強(qiáng)度變化的影響,且由于果實(shí)大小各異并存在枝葉或果實(shí)重疊遮擋等情況,對(duì)廣域復(fù)雜環(huán)境中多目標(biāo)果實(shí)的準(zhǔn)確識(shí)別造成很大困難。因此,廣域復(fù)雜環(huán)境下存在遮擋情況的多目標(biāo)識(shí)別對(duì)提高機(jī)器人采摘效率并實(shí)現(xiàn)自動(dòng)化及智能化具有重要意義。
針對(duì)棚架式栽培獼猴桃識(shí)別,多采用如Sobel邊緣提取[8]、Hough變換[9]、構(gòu)建顏色網(wǎng)絡(luò)的識(shí)別分類器[10]、果萼特征識(shí)別[11]、K-means多目標(biāo)識(shí)別[12]等傳統(tǒng)圖像處理方法,上述方法基于像素顏色、形狀或紋理特征,主要針對(duì)近距離拍攝的小范圍少量果實(shí)圖像進(jìn)行目標(biāo)識(shí)別,對(duì)于單簇果實(shí)的識(shí)別效果較好。而對(duì)于廣域復(fù)雜環(huán)境下所采集的獼猴桃果實(shí)圖像中果實(shí)目標(biāo)小且密集,其中包括多個(gè)果實(shí)簇,果實(shí)數(shù)量達(dá)30個(gè)以上,并且受光照強(qiáng)弱變化及枯枝葉遮擋情況的影響,易對(duì)圖像成像品質(zhì)產(chǎn)生較大影響,進(jìn)而造成目標(biāo)誤識(shí)別與漏識(shí)別[13]。因此,需要對(duì)廣域復(fù)雜環(huán)境下細(xì)小而密集型多目標(biāo)果實(shí)的識(shí)別方法進(jìn)行研究。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)對(duì)于農(nóng)作物圖像具有很好的分類和表征識(shí)別能力[14]。文獻(xiàn)[15]使用LeNet提高了獼猴桃識(shí)別精度和速度,卻未對(duì)枝葉遮擋或果實(shí)重疊遮擋所致的誤識(shí)別或漏識(shí)別等問題進(jìn)行研究。文獻(xiàn)[16]提出一種SSD網(wǎng)絡(luò),對(duì)具有復(fù)雜特征的4種水果進(jìn)行了目標(biāo)識(shí)別。另外,文獻(xiàn)[17]利用深度網(wǎng)絡(luò)亦對(duì)復(fù)雜特征的不同種類水果進(jìn)行了識(shí)別,均取得了較好的識(shí)別效果,但上述兩種方法未能解決復(fù)雜環(huán)境下小而密集的多目標(biāo)果實(shí)遮擋識(shí)別問題。文獻(xiàn)[18]通過ResNet對(duì)疏果前蘋果進(jìn)行識(shí)別研究,取得了較高的識(shí)別精度,但存在漏識(shí)別現(xiàn)象。文獻(xiàn)[19]采用YOLO v3來定位蘋果目標(biāo),精度高且速度快,但該網(wǎng)絡(luò)對(duì)密集的小目標(biāo)檢測效果不佳。除將YOLO檢測網(wǎng)絡(luò)用于圖像識(shí)別以外,還有將Faster R-CNN應(yīng)用于存在部分目標(biāo)被遮擋情況的圖像進(jìn)行分類和識(shí)別方面[20],如對(duì)污損指紋[21]和遮擋面部[22-23]等特征缺失圖像的識(shí)別與分類。此外,CNN還被應(yīng)用于作物病蟲害檢測及識(shí)別[24-25]、作物器官[26]和品種識(shí)別[27-28]、雜草識(shí)別及外形分級(jí)[29-30]等農(nóng)業(yè)領(lǐng)域。盡管上述對(duì)CNN的研究解決了不同領(lǐng)域復(fù)雜圖像中的目標(biāo)檢測存在耗時(shí)費(fèi)力且精度較低等問題,但對(duì)于廣域復(fù)雜環(huán)境下果實(shí)受葉片遮擋或果實(shí)相互遮擋情況下的小而密集的目標(biāo)識(shí)別研究較少。研究表明,F(xiàn)aster R-CNN對(duì)圖像中多個(gè)小而密集的目標(biāo)識(shí)別效果較好[31]。另外,對(duì)比深度神經(jīng)網(wǎng)絡(luò)中LeNet、AlexNet、VGG16、ResNet18、YOLO等結(jié)構(gòu),AlexNet具有層數(shù)相對(duì)較少、參數(shù)少和所需計(jì)算資源低等優(yōu)勢,而簡化網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于網(wǎng)絡(luò)在實(shí)際部署和應(yīng)用中優(yōu)化網(wǎng)絡(luò)至關(guān)重要[31-32]。因此本文采用改進(jìn)AlexNet為特征提取層的Faster R-CNN目標(biāo)檢測算法進(jìn)行獼猴桃果實(shí)識(shí)別。
通過對(duì)獼猴桃果園實(shí)地環(huán)境進(jìn)行調(diào)研后發(fā)現(xiàn):獼猴桃果實(shí)呈簇生生長,且受枝葉遮擋及果實(shí)相互遮擋等情況約占26.4%。由此可見,對(duì)廣域復(fù)雜環(huán)境下獼猴桃受枝葉遮擋或果實(shí)相互遮擋情況下的目標(biāo)精準(zhǔn)識(shí)別,成為研究的難點(diǎn)與關(guān)鍵。鑒于此,本文提出一種基于改進(jìn)AlexNet的廣域復(fù)雜環(huán)境下獼猴桃受枝葉遮擋或果實(shí)相互重疊遮擋的目標(biāo)識(shí)別方法,以期解決此情況下目標(biāo)漏識(shí)別和誤識(shí)別等多目標(biāo)識(shí)別與定位缺陷問題,為獼猴桃采摘機(jī)器人在田間復(fù)雜環(huán)境下高效精準(zhǔn)作業(yè)奠定基礎(chǔ)。
本文試驗(yàn)樣本數(shù)據(jù)庫的圖像采集地點(diǎn)選自陜西省秦嶺北麓獼猴桃產(chǎn)區(qū)(34°7′39″N, 107°59′50″E, 海拔約648 m)西北農(nóng)林科技大學(xué)(眉縣)獼猴桃試驗(yàn)站,以海沃德獼猴桃作為本研究所需圖像采集對(duì)象。海沃德獼猴桃以棚架式栽培為主,棚架高1.8 m,兩行間距4.0 m,果實(shí)分布于棚架底部呈簇生且自然下垂式生長(圖1),該地區(qū)天氣條件復(fù)雜多變,由于獼猴桃果實(shí)受枝葉遮擋且存在果實(shí)相互遮擋等情況,眾多復(fù)雜因素對(duì)獼猴桃果實(shí)的精準(zhǔn)識(shí)別造成較大影響,同時(shí)對(duì)獼猴桃采摘機(jī)器人的實(shí)地高效精準(zhǔn)作業(yè)造成一定影響。
圖1 獼猴桃的棚架栽培模式Fig.1 Scaffolding cultivation kiwifruit tree1.果實(shí)簇 2.果樹 3.棚架
圖像采集裝置如圖2所示,采用CCD(型號(hào):Microsoft LifeCam)和Kinect v2傳感器。將CCD和Kinect v2分別安裝于三角架上,并與計(jì)算機(jī)相連(試驗(yàn)軟件平臺(tái)為LifeCam Studio 和 Kinect for windows SDK,硬件平臺(tái)為Dell i5-8250U 1.80 GHz處理器,4 GB內(nèi)存),從棚架底部利用圖2所示圖像采集裝置豎直向上對(duì)廣域復(fù)雜環(huán)境下的多目標(biāo)簇生獼猴桃果實(shí)進(jìn)行圖像采集,其中包括果實(shí)受枝葉遮擋或果實(shí)間相互遮擋的情況。另外,因果園地面平整度有差異,并非完全平整的硬質(zhì)地面,因此為保證所采集圖像的成像品質(zhì),每次進(jìn)行圖像采集時(shí),均通過調(diào)整三腳架來確保相機(jī)處于水平位置且鏡頭距棚架平面下方(0.8±0.1) m處。此外,對(duì)于夜間環(huán)境下的圖像采集均使用LED補(bǔ)光燈(CM-LED 1200HS型,KEMA Co.)提供光源以進(jìn)行照明。
圖2 獼猴桃圖像采集裝置Fig.2 Device of kiwifruit image acquisition with artificial light1.LED補(bǔ)光燈 2.相機(jī) 3.果實(shí)簇 4.計(jì)算機(jī) 5.小車
綜合考慮天氣及光照因素,于2018年9—10月對(duì)海沃德獼猴桃進(jìn)行了圖像采集。采集工作分別選擇在2種不同天氣(晴天、陰天)條件下進(jìn)行,其中在晴天條件下采集圖像時(shí),重點(diǎn)考慮光照強(qiáng)度和角度變化,采集晴天逆光、晴天側(cè)逆光2種條件下的獼猴桃圖像。共采集晴天逆光(Sunny backlight,SB)、側(cè)逆光(Sunny rembrandt light, SR)、陰天(Cloudy, CL)和夜間補(bǔ)光(Night with illumination, NI;光照強(qiáng)度為30~50 lx[4])4種類型樣本圖像共1 823幅(圖3),圖像總共包含獼猴桃果實(shí)樣本約為46 394個(gè),并且4種類型的樣本圖像中均存在果實(shí)被非目標(biāo)物(如枝葉)所遮擋或果實(shí)間相互遮擋等情況。將所采集樣本統(tǒng)一設(shè)置為jpg格式的多尺度RGB圖像(分辨率為640像素×360像素、640像素×480像素、1 920像素×1 080像素),以避免因棚架高度不均勻造成的遮擋果實(shí)圖像多樣性的影響。由此建立試驗(yàn)樣本數(shù)據(jù)庫。
圖3 廣域復(fù)雜環(huán)境下采集的獼猴桃圖像Fig.3 Complex kiwifruit images under far-view environment
在對(duì)4類圖像進(jìn)行采集的過程中,均需要考慮遮擋所造成的影響。由于部分果實(shí)生長位置所在平面距地面平均高度超過棚架平均高度而被棚架所遮擋,也有部分果實(shí)顏色與枯葉、枝干的灰暗色相近,上述2種情況均無法分辨果萼及果實(shí)輪廓,因此該情況的果實(shí)不易被識(shí)別。本研究對(duì)存在部分遮擋情況的果實(shí)目標(biāo)(即輪廓不全的獼猴桃果實(shí)圖像)隨機(jī)選取并進(jìn)行圖像采集,其中包括枝葉遮擋(圖4a)、光照及陰影遮擋(圖4b)、果實(shí)重疊遮擋(圖4c)、果實(shí)簇密集生長觸碰遮擋(圖4d)等情形,均歸類為本文所表述的部分遮擋果實(shí)圖像。
對(duì)所采集的1 823幅獼猴桃果實(shí)樣本圖像按照4種采集條件和4種遮擋類型情況分別進(jìn)行數(shù)量統(tǒng)計(jì),如表1所示。其中每種采集條件圖像中均包含4類目標(biāo)被遮擋情況。
本研究將試驗(yàn)樣本數(shù)據(jù)庫中的1 823幅獼猴桃樣本圖像,進(jìn)行亮度、對(duì)比度調(diào)整,分別將亮度、對(duì)比度設(shè)置為60%、70%、80%、90%、110%、120%、130%、140%,并將高亮度設(shè)置為120%和140%。將試驗(yàn)樣本進(jìn)行數(shù)據(jù)增強(qiáng)(Data augmentation),經(jīng)擴(kuò)充后,樣本集圖像數(shù)量增加到21 147幅。隨機(jī)抽選65%的樣本數(shù)據(jù)(15 132幅)作為訓(xùn)練集,剩余35%樣本數(shù)據(jù)(6 015幅)作為測試集。其中訓(xùn)練集所有標(biāo)簽都經(jīng)過人工標(biāo)定,標(biāo)定原則為:對(duì)訓(xùn)練集每一幅樣本中的果實(shí)前景目標(biāo)以最小外接矩形對(duì)其進(jìn)行畫框標(biāo)定,包括前景目標(biāo)輪廓不全的果實(shí)也將其進(jìn)行畫框標(biāo)定,以保證果實(shí)特征標(biāo)簽訓(xùn)練的可靠性,避免偶然因素對(duì)網(wǎng)絡(luò)訓(xùn)練及后期測試造成的影響。另外,為開展獼猴桃果園實(shí)地的果實(shí)目標(biāo)現(xiàn)場識(shí)別試驗(yàn),隨機(jī)選取現(xiàn)場目標(biāo)果實(shí)進(jìn)行圖像采集,將新采集的340幅圖像用于實(shí)地現(xiàn)場識(shí)別驗(yàn)證。在具體識(shí)別檢測試驗(yàn)中,圖像數(shù)據(jù)集的多樣性能夠促進(jìn)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的有效性及網(wǎng)絡(luò)泛化能力,提高果實(shí)目標(biāo)的識(shí)別精度。
圖4 不同遮擋類型的獼猴桃圖像樣本示例Fig.4 Examples of kiwifruit images with different occluded conditions
采集條件圖像數(shù)量/幅遮擋圖像數(shù)量/幅類型1類型2類型3類型4遮擋圖像比例/%SB576497223826.39SR3683932151126.36CL5498218281726.41NI330560191226.36合計(jì)18232261228548
1.3.1遷移學(xué)習(xí)
圖5 基于改進(jìn)AlexNet的Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Structure of faster R-CNN model with AlexNet
AlexNet的全連接層的作用是進(jìn)行分類判別[33-34],利用卷積層對(duì)訓(xùn)練集圖像提取到的特征來判斷所識(shí)別測試集圖像中的特征區(qū)域?qū)儆讷J猴桃果實(shí)區(qū)域還是屬于背景區(qū)域[35]。由于遷移學(xué)習(xí)可提高網(wǎng)絡(luò)識(shí)別精度,因此,通過遷移學(xué)習(xí)將AlexNet預(yù)訓(xùn)練得到的權(quán)重用于獼猴桃果實(shí)目標(biāo)的檢測,保留原網(wǎng)絡(luò)的卷積層,同時(shí)對(duì)全連接層參數(shù)進(jìn)行調(diào)整。利用提取的特征,可將獼猴桃識(shí)別檢測視為區(qū)分果實(shí)與背景的一個(gè)二分類問題(1屬于獼猴桃,0屬于背景)。并通過對(duì)AlexNet網(wǎng)絡(luò)的L6~L8的全連接層參數(shù)、訓(xùn)練參數(shù)和防止過擬合(Dropout)的參數(shù)進(jìn)行微調(diào),能夠提高果實(shí)的識(shí)別精度。本研究對(duì)Faster R-CNN網(wǎng)絡(luò)中的AlexNet特征提取層進(jìn)行改進(jìn),其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
神經(jīng)網(wǎng)絡(luò)輸出層公式為
(1)
式中i——輸入單元序號(hào)
j——隱含層序號(hào)
d——濾波器個(gè)數(shù)
l——網(wǎng)絡(luò)層序號(hào)
由于改進(jìn)AlexNet的輸出與原圖尺寸相同,因此通過對(duì)L6、L7進(jìn)行設(shè)置來降低特征維度,使其輸出尺寸和原圖一致,輸出層則采用ReLU函數(shù)作為激活函數(shù),其函數(shù)表達(dá)式為
(2)
對(duì)改進(jìn)AlexNet進(jìn)行訓(xùn)練,為使訓(xùn)練精確度更高,損失函數(shù)采用二次均方誤差函數(shù)(Mean squared squared error,MSSE),其函數(shù)表達(dá)式為
(3)
式中ω——權(quán)重Y(i)——原始值
|Y|——樣本個(gè)數(shù)
1.3.2Im-AlexNet結(jié)構(gòu)
AlexNet網(wǎng)絡(luò)的卷積核尺寸、數(shù)量及步長對(duì)于網(wǎng)絡(luò)識(shí)別精度影響顯著,為避免過擬合和訓(xùn)練速度減慢,僅以檢測獼猴桃果實(shí)特征為主,并對(duì)AlexNet網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn):保留AlexNet前5個(gè)卷積層,去除所有全連接層。并對(duì)網(wǎng)絡(luò)進(jìn)行調(diào)參,通過將AlexNet中L6、L7的全連接層參數(shù)從24~214依次設(shè)置進(jìn)行多輪訓(xùn)練,并將L6、L7全連接層在不同參數(shù)設(shè)置下的網(wǎng)絡(luò)識(shí)別精度(Average precision,AP)VAP進(jìn)行對(duì)比,識(shí)別精度在不同參數(shù)設(shè)置下的統(tǒng)計(jì)結(jié)果,如表2所示。經(jīng)對(duì)測試集進(jìn)行試驗(yàn)得出,當(dāng)AlexNet中的全連接層L6、L7的節(jié)點(diǎn)數(shù)為768和256時(shí),改進(jìn)的AlexNet對(duì)獼猴桃果實(shí)識(shí)別精度最高。
表2 全連接層參數(shù)微調(diào)測試及對(duì)應(yīng)識(shí)別精度Tab.2 Fine-tuning full connection layer parameters and recognition results
由于卷積層的作用是提取圖像特征,從淺層卷積層對(duì)邊緣、顏色等底層特征的提取到深層卷積層對(duì)目標(biāo)高級(jí)特征的提取過程中,通過保留卷積層和預(yù)訓(xùn)練權(quán)重,可使網(wǎng)絡(luò)收斂更快,提取目標(biāo)特征更容易,因此本研究并未對(duì)AlexNet網(wǎng)絡(luò)的卷積層參數(shù)進(jìn)行改動(dòng)設(shè)置。其中,所保留的AlexNet第1層卷積核大小為11×11×3;第2層卷積核大小為5×5×48,與原網(wǎng)絡(luò)的卷積層設(shè)置一致[35-36]。因此可知,用于獼猴桃識(shí)別的改進(jìn)AlexNet包括5個(gè)卷積層、2個(gè)全連接層和1個(gè)輸出層。由于考慮到獼猴桃果實(shí)識(shí)別屬于二分類問題,將最后一個(gè)全連接層參數(shù)設(shè)置為2。并將改進(jìn)的AlexNet網(wǎng)絡(luò)命名為Im-AlexNet。網(wǎng)絡(luò)結(jié)構(gòu)修改調(diào)整后的具體網(wǎng)絡(luò)參數(shù)配置如表3所示。
表3 Im-AlexNet網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)設(shè)置Tab.3 Parameters of Im-AlexNet model
選用艮泰SP16HDIET深度學(xué)習(xí)計(jì)算模擬機(jī)作為訓(xùn)練處理平臺(tái),處理器為Intel Xeon E5-1650 v4,主頻為3.6 GHz;32 GB內(nèi)存;顯卡為Nvidia TITAN XP(GPU),12 GB GDRR5顯存;2TB 7200RPM SATA硬盤。使用的深度學(xué)習(xí)軟件為Matlab 2018a,Deep learning toolbox model for AlexNet network,支持GPU運(yùn)算。
根據(jù)表3所示網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行參數(shù)設(shè)置后,對(duì)候選區(qū)域網(wǎng)絡(luò)(Region proposal network,RPN)進(jìn)行多輪訓(xùn)練并進(jìn)行測試試驗(yàn)。具體訓(xùn)練過程中,將起始學(xué)習(xí)率(Learning rate)設(shè)為0.001,每批圖像數(shù)量設(shè)置為64,動(dòng)量(Momentum)設(shè)置為0.9,權(quán)值衰減(Decay)設(shè)置為0.000 5,最大迭代次數(shù)設(shè)置為60次;并在L6、L7全連接層中加入Dropout層,以確保每層提取特征的相互獨(dú)立,同時(shí)將防止過擬合Dropout設(shè)置為0.4,此時(shí)網(wǎng)絡(luò)的識(shí)別精度較高。Im-AlexNet最終輸出為獼猴桃目標(biāo)果實(shí)的識(shí)別結(jié)果,為提高獼猴桃目標(biāo)的識(shí)別精度,本研究僅保留置信度大于0.85的目標(biāo)。為驗(yàn)證本研究所提算法的有效性,在與上述參數(shù)配置相同情況下,對(duì)LeNet、AlexNet和VGG16網(wǎng)絡(luò)進(jìn)行識(shí)別測試驗(yàn)證,并對(duì)識(shí)別結(jié)果進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。
為驗(yàn)證本研究所提識(shí)別方法的性能優(yōu)越性,用AP對(duì)Im-AlexNet網(wǎng)絡(luò)的識(shí)別性能進(jìn)行評(píng)價(jià),AP是PR曲線在準(zhǔn)確率基礎(chǔ)上對(duì)召回率的積分[36]。評(píng)價(jià)指標(biāo)為
(4)
(5)
(6)
式中P——準(zhǔn)確率R——召回率
TP——算法正確識(shí)別的獼猴桃數(shù)量
FP——將背景誤識(shí)別為獼猴桃的數(shù)量
FN——未識(shí)別到的獼猴桃數(shù)量
利用Im-AlexNet對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,共分為4步,損失函數(shù)(Loss function)每一步訓(xùn)練采用60次迭代運(yùn)算,4步訓(xùn)練的損失函數(shù)值變化曲線如圖6所示。
圖6 獼猴桃樣本訓(xùn)練損失函數(shù)值變化曲線Fig.6 Loss changing curves of training using Im-AlexNet
由圖6可看出,第1步使用ImageNet網(wǎng)絡(luò)初始化,獨(dú)立訓(xùn)練一個(gè)RPN網(wǎng)絡(luò),訓(xùn)練迭代次數(shù)(Epochs)由0次逐漸增加到60次的過程中,損失函數(shù)值由0.85降至0.35;第2步繼續(xù)使用ImageNet,將上一步RPN網(wǎng)絡(luò)產(chǎn)生的候選框(Proposal)作為輸入,訓(xùn)練一個(gè)Fast R-CNN網(wǎng)絡(luò),訓(xùn)練迭代由0次逐漸增加到60次的過程中,損失函數(shù)值由0.90降至0.63;第3步使用第2步的Fast R-CNN參數(shù)初始化一個(gè)新的RPN網(wǎng)絡(luò),并將其共享卷積層的學(xué)習(xí)率設(shè)置為0,僅更新RPN特有的網(wǎng)絡(luò)層,重新訓(xùn)練兩個(gè)網(wǎng)絡(luò)已共享的所有公共卷積層,訓(xùn)練迭代由0次逐漸增加到60次的過程中,損失函數(shù)值由0.65降至0.41;第4步保持共享的卷積層固定,微調(diào)Fast R-CNN的全連接層,訓(xùn)練迭代由0次逐漸增加到60次的過程中,損失函數(shù)值由0.72降至0.61。此時(shí),網(wǎng)絡(luò)內(nèi)部預(yù)測Proposal并實(shí)現(xiàn)獼猴桃果實(shí)的目標(biāo)檢測。通過數(shù)據(jù)分析,從圖6整體來看,隨迭代次數(shù)不斷增加,訓(xùn)練集和驗(yàn)證集的分類誤差基本呈逐漸降低趨勢,訓(xùn)練損失基本收斂到穩(wěn)定值,表明Im-AlexNet基本達(dá)到了預(yù)期的訓(xùn)練效果。
利用LeNet、AlexNet、VGG16和Im-AlexNet分別對(duì)試驗(yàn)樣本數(shù)據(jù)庫中篩選出的包含4類采集條件的圖像訓(xùn)練集進(jìn)行標(biāo)記并進(jìn)行交叉訓(xùn)練,驗(yàn)證測試集中所包含的4類采集條件圖像測試集的識(shí)別精度。其中,4種網(wǎng)絡(luò)分別對(duì)4種不同類型圖像的識(shí)別精度統(tǒng)計(jì)結(jié)果如表4所示。
表4 不同網(wǎng)絡(luò)識(shí)別獼猴桃圖像試驗(yàn)結(jié)果Tab.4 Recognition results of kiwifruit used different networks
3.2.1不同光照條件下的識(shí)別結(jié)果
由表4可知,Im-AlexNet對(duì)4種類型的樣本圖像識(shí)別精度明顯高于LeNet、AlexNet和VGG16,Im-AlexNet識(shí)別精度比LeNet、AlexNet和VGG16 3種網(wǎng)絡(luò)識(shí)別精度的平均值高出5.74個(gè)百分點(diǎn)。其中夜間和晴天側(cè)逆光條件下的圖像識(shí)別精度較高,對(duì)于晴天逆光條件下的圖像識(shí)別精度較低,由此說明光照變化對(duì)于圖像成像品質(zhì)影響較大,當(dāng)光照強(qiáng)度過大且不均勻時(shí)易形成逆光條件,逆光、光照強(qiáng)度對(duì)于圖像識(shí)別精度有較大影響。
使用準(zhǔn)確率-召回率曲線來凸顯分類器在準(zhǔn)確率與召回率間的權(quán)衡關(guān)系。Im-AlexNet對(duì)獼猴桃目標(biāo)識(shí)別的準(zhǔn)確率-召回率曲線如圖7所示。
圖7 Im-AlexNet的準(zhǔn)確率-召回率曲線Fig.7 Precision-recall curves of Im-AlexNet
由圖7可得出,所選擇網(wǎng)絡(luò)在召回率增長的同時(shí),準(zhǔn)確率保持在一個(gè)較高的水平,說明Im-AlexNet對(duì)于多目標(biāo)獼猴桃果實(shí)的識(shí)別精度較高,識(shí)別精度為96.00%。為保證本研究所提出Im-AlexNet與LeNet、AlexNet和VGG16 3種網(wǎng)絡(luò)對(duì)比論證的科學(xué)嚴(yán)謹(jǐn)性,均選用相同采集條件下所獲取的遮擋情況相同、背景一致、曝光程度相同的同類型圖像進(jìn)行目標(biāo)識(shí)別檢測試驗(yàn)(以SR圖像為例),其關(guān)于4種網(wǎng)絡(luò)對(duì)測試集圖像的識(shí)別結(jié)果實(shí)例,如圖8所示。由圖8可看出,相較于LeNet、AlexNet和VGG16,本研究所提出的Im-AlexNet對(duì)獼猴桃果實(shí)的目標(biāo)識(shí)別精度更高,漏識(shí)別和誤識(shí)別情況較少,而LeNet、AlexNet和VGG16在對(duì)測試集圖像進(jìn)行目標(biāo)檢測的識(shí)別過程中,目標(biāo)漏識(shí)別率和誤識(shí)別率較高(圖8中紅框的標(biāo)記位置為算法識(shí)別的結(jié)果,黃色框的標(biāo)記位置為漏識(shí)別和誤識(shí)別果實(shí))。由此可知,Im-AlexNet能夠克服田間環(huán)境變化對(duì)圖像成像品質(zhì)的影響,對(duì)于獼猴桃目標(biāo)果實(shí)的精準(zhǔn)識(shí)別性能更加優(yōu)良。
圖8 4種網(wǎng)絡(luò)對(duì)獼猴桃果實(shí)圖像的識(shí)別結(jié)果對(duì)比Fig.8 Comparison of kiwifruit recognition results used four networks
3.2.2存在遮擋情況下的識(shí)別結(jié)果
將試驗(yàn)樣本數(shù)據(jù)庫中(表1)的遮擋樣本作為測試集,利用LeNet、AlexNet、VGG16、Im-AlexNet網(wǎng)絡(luò)進(jìn)行目標(biāo)識(shí)別驗(yàn)證,試驗(yàn)結(jié)果表明對(duì)廣域復(fù)雜環(huán)境下存在遮擋情況的4類獼猴桃果實(shí)圖像的目標(biāo)識(shí)別精度分別為83.01%、89.36%、89.52%、94.75%。可明顯看出該Im-AlexNet網(wǎng)絡(luò)對(duì)于廣域復(fù)雜環(huán)境下果實(shí)遮擋情況的識(shí)別精度明顯優(yōu)于LeNet、AlexNet和VGG16 3種網(wǎng)絡(luò),由此可證明該算法能夠降低對(duì)獼猴桃果實(shí)遮擋情況下的漏識(shí)別率與誤識(shí)別率,并能夠提高對(duì)目標(biāo)果實(shí)的識(shí)別精度,亦證明本研究所提出的Im-AlexNet能夠應(yīng)用于獼猴桃采摘機(jī)器人對(duì)廣域復(fù)雜環(huán)境下存在遮擋情況的目標(biāo)果實(shí)識(shí)別。
3.3.1不同光照條件下的識(shí)別結(jié)果
針對(duì)廣域復(fù)雜環(huán)境下生長的獼猴桃,將上述經(jīng)過樣本標(biāo)記訓(xùn)練后的Im-AlexNet應(yīng)用于采摘機(jī)器人視覺識(shí)別模塊(Kinect v2和軟件Matlab 2018a)和便攜計(jì)算機(jī)(Dell i5-8250U),對(duì)實(shí)地果園環(huán)境中的獼猴桃果實(shí)進(jìn)行檢測識(shí)別與目標(biāo)驗(yàn)證,并將目標(biāo)檢測所獲取的用以驗(yàn)證實(shí)地大田環(huán)境下采摘機(jī)器人視覺識(shí)別模塊性能的340幅(果實(shí)數(shù)量為10 177個(gè))驗(yàn)證圖像建立試驗(yàn)集,其中包括晴天逆光(圖9a)、晴天側(cè)逆光(圖9b)、陰天(圖9c)、夜間補(bǔ)光(圖9d)4類圖像。利用采摘機(jī)器人的視覺識(shí)別模塊對(duì)驗(yàn)證集進(jìn)行目標(biāo)識(shí)別驗(yàn)證,具體識(shí)別統(tǒng)計(jì)結(jié)果如表5所示。
由表5可知,Im-AlexNet對(duì)于獼猴桃果實(shí)目標(biāo)具有較好的識(shí)別效果,對(duì)4類圖像的識(shí)別精度的平均值為(96.00±0.16)%。經(jīng)統(tǒng)計(jì),該網(wǎng)絡(luò)對(duì)4種類型圖像的正確識(shí)別果實(shí)總數(shù)為9 804個(gè),漏識(shí)別果實(shí)總數(shù)為373個(gè),誤識(shí)別果實(shí)總數(shù)為403個(gè),其中,對(duì)晴天逆光和側(cè)逆光類型圖像的果實(shí)誤識(shí)別情況較嚴(yán)重,誤識(shí)別果實(shí)總數(shù)達(dá)到335個(gè),明顯高于陰天和夜間補(bǔ)光2種類型圖像,造成誤識(shí)別的主要原因是受自然光的影響,因強(qiáng)光照射使得采摘機(jī)器人視覺識(shí)別模塊所獲取圖像中目標(biāo)前景特征與背景區(qū)分不明顯或因異物遮擋果實(shí)所致。
本文識(shí)別方法對(duì)4種類型圖像的目標(biāo)識(shí)別檢測示例如圖9所示,圖中1、2、3表示逆光(陰影)、被枝葉遮擋、果實(shí)簇重疊遮擋情況,4、5表示漏識(shí)別和誤識(shí)別的情況。由圖9可明顯看出Im-AlexNet網(wǎng)絡(luò)能夠?qū)V域復(fù)雜環(huán)境下包括晴天逆光、晴天側(cè)逆光、陰天、夜間補(bǔ)光的4類獼猴桃果實(shí)圖像的前景目標(biāo)進(jìn)行有效準(zhǔn)確識(shí)別。另外,將所得圖像識(shí)別結(jié)果中被標(biāo)定框標(biāo)記鎖定的目標(biāo)果實(shí)位置設(shè)為(xi,yi,wi,hi),其平面坐標(biāo)中心點(diǎn)則作為機(jī)器人末端執(zhí)行器對(duì)該目標(biāo)果實(shí)的采摘抓取位置,并且果實(shí)果萼的位置坐標(biāo)誤差,在采摘機(jī)器人末端執(zhí)行器的容差范圍內(nèi)(25 mm)[37]。因此,該網(wǎng)絡(luò)對(duì)目標(biāo)果實(shí)的識(shí)別精度和定位精度均滿足獼猴桃采摘機(jī)器人的要求。試驗(yàn)結(jié)果表明,Im-AlexNet網(wǎng)絡(luò)泛化性較好,滿足獼猴桃采摘機(jī)器人在實(shí)際生產(chǎn)中對(duì)視覺系統(tǒng)識(shí)別精度與識(shí)別速度的要求。
圖9 不同光照條件下獼猴桃果實(shí)識(shí)別結(jié)果示例Fig.9 Recognition results examples of kiwifruit under different illuminations
序號(hào)圖像類型實(shí)際果實(shí)數(shù)量/個(gè)正確識(shí)別果實(shí)數(shù)誤識(shí)別果實(shí)數(shù)漏識(shí)別果實(shí)數(shù)VAP/%識(shí)別時(shí)間/s單幅圖像平均果實(shí)數(shù)量/個(gè)1SB16681574379494.39±0.111.07422SR3125300529812096.87±0.211.10303CL13001229627194.91±0.191.02224NI4084399668897.83±0.141.0854合計(jì)101779804403373平均96.00±0.161.0737
3.3.2存在遮擋情況下的識(shí)別結(jié)果
本研究重點(diǎn)對(duì)驗(yàn)證集圖像中的遮擋情況進(jìn)行分析討論,并利用Im-AlexNet網(wǎng)絡(luò)對(duì)存在遮擋情況(表1,共4種類型)的果實(shí)目標(biāo)進(jìn)行識(shí)別驗(yàn)證。通過分析可知,遮擋情況主要由于逆光拍攝造成光影遮擋(圖9a),致使目標(biāo)果實(shí)與背景不易區(qū)分,導(dǎo)致識(shí)別率降低;另外,由于獼猴桃呈現(xiàn)簇生密集生長(圖9b、9c),使得在對(duì)廣域范圍內(nèi)的獼猴桃果實(shí)進(jìn)行圖像采集時(shí),獲取到的目標(biāo)前景特征多為小而密集目標(biāo),而所采集圖像中僅存在單個(gè)或稀疏少量果實(shí)前景目標(biāo)的情況占極少數(shù),因此,易導(dǎo)致對(duì)目標(biāo)果實(shí)的識(shí)別精度有所降低。通過Im-AlexNet對(duì)存在上述遮擋情況的圖像進(jìn)行目標(biāo)檢測識(shí)別,識(shí)別結(jié)果表明,Im-AlexNet網(wǎng)絡(luò)能夠克服因果實(shí)部分遮擋對(duì)識(shí)別所造成的影響(圖9a、9c),但亦存在因果實(shí)簇間相互重疊遮擋所致的被遮擋果實(shí)漏識(shí)別情況的發(fā)生(圖9b、9d),同時(shí)也存在果實(shí)被枯枝葉所遮擋而導(dǎo)致果實(shí)誤識(shí)別的情況(圖9c)。
較其他識(shí)別方法而言,本文所提出的識(shí)別方法性能優(yōu)越。在有關(guān)目標(biāo)識(shí)別的研究當(dāng)中,文獻(xiàn)[15]用LeNet網(wǎng)絡(luò)對(duì)獼猴桃的識(shí)別精度為89.29%,而本研究采用的Im-AlexNet識(shí)別精度達(dá)到96.00%,比LeNet網(wǎng)絡(luò)識(shí)別率高出6.71個(gè)百分點(diǎn);文獻(xiàn)[16]所提出4種果實(shí)的SSD網(wǎng)絡(luò)識(shí)別方法對(duì)無遮擋情況下單簇果實(shí)圖像識(shí)別精度較高,但對(duì)于多簇果實(shí)圖像的識(shí)別精度并未做研究說明。同時(shí),在識(shí)別精度相同的情況下,本文所提出的基于Im-AlexNet網(wǎng)絡(luò)的多目標(biāo)果實(shí)識(shí)別方法,在對(duì)單幅圖像進(jìn)行目標(biāo)識(shí)別時(shí),識(shí)別率遠(yuǎn)高于文獻(xiàn)[16]所提方法,而對(duì)圖像中單果識(shí)別時(shí)間遠(yuǎn)快于文獻(xiàn)[16]所提方法。文獻(xiàn)[18]R_FCN網(wǎng)絡(luò)對(duì)疏果前蘋果與綠葉背景相近的目標(biāo)特征檢測識(shí)別進(jìn)行了研究,取得了一定成效,但存在漏識(shí)別的現(xiàn)象。與文獻(xiàn)[19]所采用的YOLO v3網(wǎng)絡(luò)相比,該網(wǎng)絡(luò)對(duì)于密集且小的獼猴桃目標(biāo)檢測效果不佳。本文采用的Im-AlexNet識(shí)別率較高,能夠克服光照變化、枝葉遮擋對(duì)圖像識(shí)別精度造成的影響,減少了誤識(shí)別、漏識(shí)別果實(shí)的數(shù)量。該方法具有較好的可操控性和實(shí)用性,且對(duì)網(wǎng)絡(luò)進(jìn)行了精簡,便于植入到移動(dòng)端,能夠滿足獼猴桃采摘機(jī)器人果園移動(dòng)式作業(yè)的需求。本研究通過對(duì)AlexNet網(wǎng)絡(luò)進(jìn)行改進(jìn),通過遷移學(xué)習(xí)對(duì)AlexNet網(wǎng)絡(luò)當(dāng)中的全連接層節(jié)點(diǎn)數(shù)量進(jìn)行微調(diào),有效解決了晴天逆光、晴天側(cè)逆光、陰天和夜間補(bǔ)光4種條件下有遮擋情況存在的獼猴桃果實(shí)目標(biāo)識(shí)別精度較低的問題。且將Im-AlexNet 、LeNet、AlexNet和VGG16網(wǎng)絡(luò)的識(shí)別精度進(jìn)行對(duì)比,Im-AlexNet的識(shí)別精度較高(表4)。此外,文中并未選擇使用如Faster R-CNN(VGG19,ResNet)、YOLO v3等類型的深層網(wǎng)絡(luò),其主要原因是該網(wǎng)絡(luò)較大,無法被植入移動(dòng)端控制器當(dāng)中,降低了CNN在獼猴桃采摘機(jī)器人視覺系統(tǒng)實(shí)際應(yīng)用中的性價(jià)比。
(1)針對(duì)獼猴桃采摘機(jī)器人信息感知單元對(duì)存在遮擋情況下的目標(biāo)果實(shí)識(shí)別精度較低等問題,提出一種基于Im-AlexNet網(wǎng)絡(luò)的廣域復(fù)雜環(huán)境遮擋情況下的多目標(biāo)果實(shí)識(shí)別方法。利用Im-AlexNet網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)4類獼猴桃果實(shí)的圖像識(shí)別,識(shí)別精度為96.00%,單幅圖像識(shí)別時(shí)間約為1 s。滿足獼猴桃采摘機(jī)器人在實(shí)際生產(chǎn)中對(duì)視覺系統(tǒng)識(shí)別精度及識(shí)別速度的要求。
(2)提出的Im-AlexNet降低了網(wǎng)絡(luò)復(fù)雜程度,通過減少全連接層參數(shù)而壓縮了網(wǎng)絡(luò),減少了計(jì)算量,對(duì)于廣域復(fù)雜環(huán)境下存在遮擋情況的獼猴桃果實(shí)圖像的目標(biāo)識(shí)別精度有較大提高。
(3)利用搭建的獼猴桃采摘機(jī)器人試驗(yàn)平臺(tái),對(duì)實(shí)地田間生長的獼猴桃果實(shí)進(jìn)行了識(shí)別測試,結(jié)果表明,本文提出的以Im-AlexNet為特征提取層的Faster R-CNN網(wǎng)絡(luò),相比其他網(wǎng)絡(luò)具有更高的識(shí)別精度。本研究為多機(jī)械手采摘機(jī)器人協(xié)同作業(yè)任務(wù)分配方法的研究奠定了基礎(chǔ),同時(shí)也促進(jìn)了獼猴桃采摘機(jī)器人工作效率的提高。