張軍凱,李 欣,韓俊先,趙 娟,程龍雪
(河北機(jī)電職業(yè)技術(shù)學(xué)院 電氣工程系,河北 邢臺 054000)
蘋果作為一種深受大眾喜愛的水果,在我國種植面積廣泛,但由于蘋果生長位置較高,需要進(jìn)行登高采摘,勞動強(qiáng)度較大[1-2]。隨著城鎮(zhèn)化進(jìn)程的加劇,大量的農(nóng)村勞動力涌入城鎮(zhèn)就業(yè),從事農(nóng)業(yè)生產(chǎn)的人口規(guī)模逐漸減小[3],故缺乏勞動力和高強(qiáng)度的蘋果采摘勞動形成了一對鮮明的矛盾,而實(shí)現(xiàn)蘋果采摘自動化成為解決該矛盾的有效手段。目前,蘋果采摘系統(tǒng)廣泛采用圖像識別技術(shù)。傳統(tǒng)的圖像識別需要將圖像進(jìn)行灰度化處理和圖像分割,進(jìn)而確定蘋果位置[4-5];但不同天氣的光照強(qiáng)度直接影響著圖像分割精度,故傳統(tǒng)的圖像識別技術(shù)不能有效適應(yīng)所有地形和天氣情況。本系統(tǒng)基于改進(jìn)型深度學(xué)習(xí)網(wǎng)絡(luò),具有很強(qiáng)的環(huán)境適應(yīng)能力[6-7],同時改進(jìn)型深度學(xué)習(xí)網(wǎng)絡(luò)可以有效降低學(xué)習(xí)樣本量,提高識別經(jīng)度;采用單目視覺系統(tǒng)和激光測距器可實(shí)現(xiàn)蘋果定位,采用雙反饋系統(tǒng)對采摘機(jī)械臂進(jìn)行控制。測試結(jié)果表明,系統(tǒng)具有良好的圖像識別精度和采摘機(jī)械手控制精度。
為了實(shí)現(xiàn)蘋果的自動化采摘,基于深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)了蘋果自動采摘系統(tǒng),如圖1所示。其中,電瓶為整個系統(tǒng)供電,中央控制器完成行走系控制、機(jī)械臂控制和深度圖像識別與目標(biāo)蘋果定位。中央控制器通過后輪驅(qū)動器和前輪驅(qū)動器控制后驅(qū)動輪和前驅(qū)動輪,實(shí)現(xiàn)采摘系統(tǒng)的移動;機(jī)械臂通過水平舵機(jī)實(shí)現(xiàn)水平轉(zhuǎn)動,大臂舵機(jī)和小臂舵機(jī)實(shí)現(xiàn)采摘機(jī)械臂的關(guān)節(jié)運(yùn)動,小臂伸長氣缸實(shí)現(xiàn)采摘終端的前后移動,采摘終端配有采摘器、攝像頭和激光測距器。
工作時,攝像頭采集蘋果圖像,在中央控制器完成深度學(xué)習(xí),識別圖像中蘋果區(qū)域;激光測距器完成距離測定,進(jìn)而實(shí)現(xiàn)目標(biāo)蘋果圖像坐標(biāo)向空間坐標(biāo)的轉(zhuǎn)換;根據(jù)視覺定位系統(tǒng)得到的目標(biāo)蘋果空間坐標(biāo)位置,中央控制器調(diào)整機(jī)械臂舵機(jī)與氣缸伸長量,完成采摘終端向目標(biāo)蘋果的轉(zhuǎn)移,實(shí)現(xiàn)采摘;中央控制器控制行走底盤,向下一處采摘地點(diǎn)轉(zhuǎn)移。
圖1 系統(tǒng)組成Fig.1 Structure of system
CCD攝像頭采集圖像是進(jìn)行整個分析過程的基礎(chǔ),但由于光照強(qiáng)度及天氣等原因會對采集到的圖像造成干擾,因此需要對CCD攝像頭采集的圖像進(jìn)行濾波處理,降低自然環(huán)境因素對于圖像的影響。
CCD攝像頭采集到的蘋果枝頭的圖像如圖2(a)所示。由于光照的影響,在蘋果葉片邊緣出現(xiàn)模糊,同時蘋果的果實(shí)上出現(xiàn)葉片影子的暗區(qū)域以及陽光直射造成的明亮區(qū)域。采用目前的主流降噪方法(即均值濾波、高斯濾波和中值濾波)對圖像進(jìn)行預(yù)處理,均值濾波[8]結(jié)果如圖2(b)所示。由圖2(b)可知:整張圖片明顯發(fā)亮,對于蘋果果實(shí)上的暗區(qū)域和亮區(qū)域調(diào)整效果明顯,但整張圖像趨于模糊。高斯濾波[9]結(jié)果如圖2(c)所示。由圖2(c)可知:葉片邊界趨于清晰,果實(shí)整體色調(diào)趨于統(tǒng)一。中值濾波[10]結(jié)果如圖2(d)所示。由圖2(d)可知:葉片邊緣出現(xiàn)模糊情況,同時果實(shí)存在色調(diào)、亮度不統(tǒng)一問題。因此,選用高斯濾波作為圖像預(yù)處理算法。
圖2 圖像預(yù)處理Fig.2 The preprocessing for image
傳統(tǒng)的圖像識別技術(shù)是將圖像灰度化處理后進(jìn)行圖像分割,進(jìn)而得到圖像的邊界信息,整個過程采用灰度化算法、二值化算法和邊界算法固定,對環(huán)境變化的適應(yīng)能力差;深度學(xué)習(xí)的圖像識別技術(shù)是在全彩色狀態(tài)下對圖像進(jìn)行分析,具有自主識別的特點(diǎn),深度學(xué)習(xí)算法具有適應(yīng)能力強(qiáng)、準(zhǔn)確度高的特點(diǎn)。因此,本系統(tǒng)在經(jīng)典VGG16深度學(xué)習(xí)網(wǎng)絡(luò)[11-12]上進(jìn)行優(yōu)化,以提高識別速度和精度。
傳統(tǒng)卷積深度學(xué)習(xí)網(wǎng)絡(luò)分為卷積層、池化層、全連接層等。其中,卷積層作用為輸入圖像和卷積核進(jìn)行卷積運(yùn)算得到的結(jié)果,在池化層完成圖像降維,實(shí)現(xiàn)特征的提取;卷積層、池化層進(jìn)行多次重復(fù)設(shè)置,最終實(shí)現(xiàn)圖像特征提取,在全連接層特征圖像得到整合,進(jìn)而完成圖像特征提取[13-14]。
建立整個網(wǎng)絡(luò)的損失函數(shù),用來表征預(yù)測值與實(shí)際值的差距。輸入圖像從輸入層進(jìn)入網(wǎng)絡(luò),經(jīng)歷多個卷積層和池化層后,在全連接層實(shí)現(xiàn)圖像特征提取,同時計(jì)算損失函數(shù),完成正向?qū)W習(xí)過程;利用損失函數(shù)對每個卷積層參量進(jìn)行梯度計(jì)算,得到結(jié)果用于優(yōu)化卷積層參量,完成逆向?qū)W習(xí)。
目前,主流的深度學(xué)習(xí)網(wǎng)絡(luò)為VGG16網(wǎng)絡(luò),其網(wǎng)絡(luò)特點(diǎn)為卷積層和池化層結(jié)構(gòu)單一,由16層結(jié)構(gòu)相同的卷積層和池化層組成。其中,卷積層中卷積核大小為3×3,填充量為1;池化層窗口為3×3,步幅為2。由于將圖像進(jìn)行統(tǒng)一卷積處理,造成學(xué)習(xí)周期較長,因此在其基礎(chǔ)上進(jìn)行改進(jìn),改進(jìn)后深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。由圖3可知:在VGG16最后一層卷積池化層后,增加區(qū)域推薦網(wǎng)絡(luò);將區(qū)域推薦學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)得到的特征圖和VGG16得到的卷積特征圖,在Roi Pooling池化層進(jìn)行融合,完成特征圖像大小的格式統(tǒng)一,而后進(jìn)入全連接層,完成特征圖像的邊界框預(yù)測和類別預(yù)測。整個優(yōu)化學(xué)習(xí)網(wǎng)絡(luò)的核心為區(qū)域推薦學(xué)習(xí)網(wǎng)絡(luò)和Roi Pooling池化層。
圖3 基于VGG16的深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)Fig.3 The deep learning optimization network based on VGG16
區(qū)域推薦網(wǎng)絡(luò)的卷積層填充數(shù)為1,通道數(shù)為256;以每個像素為中心,建立大小不同的方形區(qū)域(即建立錨框),每個錨框具有256個通道。建立背景分類器,原理如下:①計(jì)算每個錨框預(yù)測概率p,按照預(yù)計(jì)概率p由大到小將此類錨框進(jìn)行排列,得到一次向量L;②將預(yù)測概率p最大的錨框與其他本類錨框進(jìn)行交并比計(jì)算,將大于閾值的非基準(zhǔn)錨框剔除;③按照步驟②方法,將預(yù)測概率p第2大的錨框與本類錨框進(jìn)行交并比計(jì)算,將大于閾值的非基準(zhǔn)錨框剔除;④重復(fù)步驟②和步驟③,直到向量L中的所有錨框的交并比均小于閾值為止,剩下的錨框即為預(yù)測錨框。區(qū)域推薦網(wǎng)絡(luò)的損失函數(shù)為
(1)
VGG16學(xué)習(xí)網(wǎng)絡(luò)得到的卷積特征圖像,經(jīng)過區(qū)域推薦網(wǎng)絡(luò)后大小發(fā)生變化;Roi Pooling池化層的作用為實(shí)現(xiàn)不同大小的圖像融合,即完成VGG16學(xué)習(xí)網(wǎng)絡(luò)特征圖像并和經(jīng)過區(qū)域推薦網(wǎng)絡(luò)的特征圖像的融合。Roi Pooling池化層原理如下:假定輸入前圖像大小為16×16,輸出標(biāo)準(zhǔn)大小為8×8,過程為將16×16平均分為2×2的8個區(qū)域,每個區(qū)域取最大特征值,進(jìn)而構(gòu)成大小為8×8的標(biāo)準(zhǔn)圖像。
對改進(jìn)型學(xué)習(xí)算法和VGG16學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行比較,測試兩種深度學(xué)習(xí)網(wǎng)絡(luò)達(dá)到穩(wěn)定預(yù)測值所需要的樣本容量和穩(wěn)定預(yù)測值精度,采用AP值來表征穩(wěn)定預(yù)測精度,即
(2)
其中,P為預(yù)測準(zhǔn)確度;R為預(yù)測樣本召回度。
改進(jìn)型學(xué)習(xí)算法和VGG16學(xué)習(xí)網(wǎng)絡(luò)穩(wěn)定預(yù)測值及所需樣本量如圖4所示。
圖4 改進(jìn)型學(xué)習(xí)算法性能對比Fig.4 The performance comparison for improved learning algorithm
其中,VGG16網(wǎng)絡(luò)達(dá)到的穩(wěn)定準(zhǔn)確率AP值為0.855,穩(wěn)定所需樣本量為13;改進(jìn)型學(xué)習(xí)網(wǎng)絡(luò)能達(dá)到的穩(wěn)定準(zhǔn)確率為0.92,穩(wěn)定所需樣本量為11。結(jié)果表明:改進(jìn)型學(xué)習(xí)網(wǎng)絡(luò)在學(xué)習(xí)速度和準(zhǔn)確率上均優(yōu)于VGG16網(wǎng)絡(luò)。
攝像頭采集的圖像通過改進(jìn)型深度學(xué)習(xí)網(wǎng)絡(luò),得到蘋果的特征邊界。采用圖像定位的方法,根據(jù)圖像中蘋果位置,計(jì)算實(shí)際環(huán)境中蘋果的位置坐標(biāo),進(jìn)而控制采摘機(jī)械臂,完成蘋果的采摘。其中,蘋果定位系統(tǒng)采用單目圖像定位系統(tǒng)配合激光測距方案[15],采摘機(jī)械臂采用雙反饋控制系統(tǒng)。
蘋果視覺定位系統(tǒng)如圖5所示。圖5中,蘋果空間坐標(biāo)P(X,Y,Z)在成像平面內(nèi),已知整個圖像的中心坐標(biāo)為O(u0,v0),P點(diǎn)在成像平面的投影點(diǎn)為P1(u,v),則投影平面內(nèi)P1點(diǎn)到O點(diǎn)的坐標(biāo)增量為Δu和Δv,則
(3)
其中,du和dv為水平方向和豎直方向像素點(diǎn)間距對應(yīng)的實(shí)際距離(mm/pixel)。
圖5 蘋果視覺定位Fig.5 The visual positioning for apple
由相似三角關(guān)系可知,蘋果空間坐標(biāo)P的水平坐標(biāo)和豎直坐標(biāo)與成像平面水平坐標(biāo)和豎直坐標(biāo)增量的關(guān)系,即
(4)
其中,f為攝像頭焦距;Z為攝像頭鏡頭到蘋果位置之間的距離,由激光測距儀檢測得到。
通過視覺系統(tǒng)計(jì)算目標(biāo)蘋果的空間位置坐標(biāo)P,機(jī)器人控制器比對目標(biāo)蘋果位置坐標(biāo)和采摘終端位置坐標(biāo),通過逆運(yùn)動學(xué)方程調(diào)整機(jī)械臂各關(guān)節(jié)舵機(jī)和小臂伸長氣缸,完成機(jī)械臂采摘機(jī)構(gòu)向蘋果移動,進(jìn)而實(shí)現(xiàn)采摘。
機(jī)械臂控制系統(tǒng)如圖6所示。其中,上控制閉環(huán)實(shí)現(xiàn)機(jī)械臂采摘控制、機(jī)器人動作控制器、計(jì)算機(jī)械臂逆運(yùn)動學(xué)方程、機(jī)器人各關(guān)節(jié)舵機(jī)調(diào)整,伸長氣缸調(diào)整、進(jìn)而控制采摘機(jī)械臂完成采摘作業(yè);下控制閉環(huán)CCD攝像頭采集蘋果圖像,通過改進(jìn)型深度學(xué)習(xí)算法提取蘋果特征信息,進(jìn)而確定蘋果在成像平面上的坐標(biāo)增量,通過機(jī)器視覺控制器實(shí)現(xiàn)圖像位置向空間位置坐標(biāo)的轉(zhuǎn)化。整個系統(tǒng)工作過程為CCD攝像頭采集蘋果圖像,通過深度學(xué)習(xí)算法提取蘋果圖像特征,輸入信號在機(jī)器視覺控制器內(nèi)進(jìn)行分析,將蘋果圖像坐標(biāo)轉(zhuǎn)化為蘋果空間距坐標(biāo);采摘端坐標(biāo)和目標(biāo)蘋果坐標(biāo)在機(jī)器人控制器進(jìn)行比對,通過機(jī)器人逆運(yùn)動學(xué)方程調(diào)整機(jī)器人關(guān)節(jié)舵機(jī)和小臂氣缸,改變采摘終端位置,直到完成蘋果的采摘。
圖6 采摘機(jī)械臂控制系統(tǒng)Fig.6 The control system for picking manipulator
為了實(shí)現(xiàn)蘋果采摘的自動化,基于深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)了蘋果圖像自動識別技術(shù);采用單目視覺系統(tǒng)配合測距儀的方案,實(shí)現(xiàn)了圖像坐標(biāo)向空間坐標(biāo)的轉(zhuǎn)移,通過控制機(jī)械臂采摘終端,最終實(shí)現(xiàn)了機(jī)械臂向蘋果移動,完成采摘任務(wù)。本系統(tǒng)兩大關(guān)鍵環(huán)節(jié)為圖像識別和機(jī)械臂控制,現(xiàn)對二者進(jìn)行測試,結(jié)果如圖7所示。
對深度學(xué)習(xí)網(wǎng)絡(luò)蘋果識別精度進(jìn)行測試,進(jìn)行8組試驗(yàn),對比圖像中蘋果個數(shù)與識別個數(shù),結(jié)果如圖7(a)中實(shí)線及偏差棒所示。圖像中蘋果個數(shù)區(qū)間為20~27,偏差分布區(qū)間為0~2,在第6組和第7組時出現(xiàn)最大偏差;相對誤差分布如圖7(a)中虛線所示,分布區(qū)間為0~7.8%。測試結(jié)果表明,深度學(xué)習(xí)網(wǎng)絡(luò)具有較高的識別精度。
對采摘機(jī)械手進(jìn)行動作精度測試,測試方法為指定采摘終端移動距離,控制機(jī)械手移動,得到實(shí)際移動距離,計(jì)算二者之間的誤差,測試結(jié)果如圖7(b)所示。其中,數(shù)據(jù)點(diǎn)為實(shí)際移動距離,偏差棒為實(shí)際移動距離和設(shè)置距離之間的偏差,實(shí)際移動距離分布區(qū)間為[895mm, 1414mm],偏差分布區(qū)間為[-10mm, 12mm]。測試結(jié)果表明:機(jī)械手具有較高的控制精度,偏差分布區(qū)間可以滿足蘋果采摘要求。
圖7 系統(tǒng)測試Fig.7 The test for system
為了實(shí)現(xiàn)蘋果采摘的自動化,基于改進(jìn)型深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計(jì)了視覺采摘系統(tǒng)。首先,對攝像頭采集的蘋果圖像進(jìn)行高斯濾波處理;其次,在VGG16深度學(xué)習(xí)網(wǎng)絡(luò)基礎(chǔ)上增加區(qū)域推薦網(wǎng)絡(luò),將區(qū)域推薦學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)得到的特征圖和VGG16得到的卷積特征圖在Roi Pooling池化層進(jìn)行融合,完成圖片大小的格式統(tǒng)一。測試結(jié)果表明:改進(jìn)型網(wǎng)絡(luò)在所需樣本量為11,小于VGG16網(wǎng)絡(luò)所需的13個樣本量,同時改進(jìn)型學(xué)習(xí)網(wǎng)絡(luò)能達(dá)到的穩(wěn)定準(zhǔn)確率為0.92,優(yōu)于VGG16深度學(xué)習(xí)網(wǎng)絡(luò)的0.855;基于單目視覺系統(tǒng)和激光測距器,可實(shí)現(xiàn)目標(biāo)蘋果由圖像坐標(biāo)向空間坐標(biāo)的轉(zhuǎn)化。測試結(jié)果表明:蘋果識別相對誤差小于7.8%,機(jī)械臂實(shí)際移動距離分布區(qū)間為[895mm,1414mm],偏差分布區(qū)間為[-10mm, 12mm],表明機(jī)械臂具有較高的控制精度。