国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)DQN算法的茶葉采摘機(jī)械手路徑規(guī)劃*

2023-09-11 09:22:36李航廖映華黃波
關(guān)鍵詞:嫩芽機(jī)械手坐標(biāo)系

李航,廖映華,黃波

(四川輕化工大學(xué),四川宜賓,644000)

0 引言

目前,國內(nèi)外市場對于名優(yōu)茶的需求量較大,并且隨著中國經(jīng)濟(jì)不斷向外拓展,茶葉市場增長速度快[1]。名優(yōu)茶采摘時效性、采摘完整率和采摘品質(zhì)是保證名優(yōu)茶產(chǎn)量的關(guān)鍵因素[2]。為提高名優(yōu)茶的產(chǎn)量和質(zhì)量,茶葉采摘技術(shù)的研究逐漸增加。采摘技術(shù)主要包括人工采摘、半機(jī)械采摘、智能采摘三種方式,其中人工采摘的效率低、成本高,但采摘精度高;機(jī)械采摘產(chǎn)量大,效率較高,但嫩芽的完成率較低,優(yōu)質(zhì)茶產(chǎn)量小;智能采摘具有效率高、成本低、采摘精度高、設(shè)備價格貴的特點(diǎn)。智能采摘過程中采摘路徑易受阻擋干擾,導(dǎo)致嫩芽采摘完整率低,采摘切割不準(zhǔn)確等問題,需要設(shè)計一種智能終端采摘設(shè)備,利用圖像處理和運(yùn)動控制技術(shù),解決因運(yùn)動路徑規(guī)劃而影響名優(yōu)茶的采摘效率低的問題。

孫肖肖等[3]提出在深度學(xué)習(xí)的基礎(chǔ)上利用目標(biāo)檢測算法YOLO,根據(jù)大、小尺度檢測并結(jié)合超綠特征及OSTU算法實現(xiàn)目標(biāo)圖像的分割,使得目標(biāo)對象特征更加明顯,便于智能終端的采摘;湯一平等[4]提出基于機(jī)器視覺設(shè)計的智能采茶機(jī),利用機(jī)器視覺識別嫩茶同時自動調(diào)整采茶機(jī)割刀平臺高度,使得割刀面與茶隴蓬面有較好的吻合,通過自動調(diào)整切割臺的高度可以解決采茶機(jī)老嫩茶葉一刀切的問題;汪琳等[5]提出通過提高機(jī)械手的運(yùn)動跟蹤精度,減小機(jī)械手各關(guān)節(jié)之間的運(yùn)動誤差,從而提高茶葉采摘的運(yùn)動定位精度,采用自適應(yīng)魯棒PD控制策略,實現(xiàn)各關(guān)節(jié)的精確控制且迅速達(dá)到期望路徑,但對于如何識別嫩芽目標(biāo)還需要解決。姜宏濤等[6]提出在傳統(tǒng)分水嶺算法的基礎(chǔ)上,引入BM3D去噪和灰度拉伸法分割圖像,利用SURF算法對目標(biāo)對象進(jìn)行特征點(diǎn)數(shù)據(jù)進(jìn)行采集,然后去除誤匹配點(diǎn),最小外接矩形法與雙目測距原理方法基礎(chǔ)上完成采摘點(diǎn)的三維空間定位,最后利用機(jī)械手完成定位運(yùn)動,但該方法對于機(jī)械手的運(yùn)動路徑缺少優(yōu)化。袁加紅等[7]提出基于RGB顏色空間及組合因子對圖像進(jìn)行灰度處理,利用維納濾波和梯度增強(qiáng)技術(shù)進(jìn)行濾波去噪,通過大律法和迭代法分割圖像獲取二值圖像,最后通過質(zhì)心法對目標(biāo)進(jìn)行定位。毛騰躍等[8]提出一種便攜式真空吸附采茶機(jī),通過網(wǎng)格劃分模型,利用GAMBIT軟件得到網(wǎng)格質(zhì)量信息定義扭曲率的百分比以及邊界類型和區(qū)域模型,最后分析對比得到真空度和吸入功率,驗證采茶機(jī)的可靠性和可行性。

針對目前名優(yōu)茶采摘過程中易受阻礙物干擾,導(dǎo)致采摘完整率低等問題,利用圖像識別技術(shù)將葉梗、葉莖等阻礙物進(jìn)行判斷,獲得名優(yōu)茶嫩芽的切割點(diǎn)在三維空間中的空間位置坐標(biāo)。然后通過對茶樹面進(jìn)行分析判別處理得到嫩芽分布集中區(qū)域,利用本文運(yùn)動路徑規(guī)劃算法得到采摘運(yùn)動路徑,根據(jù)改進(jìn)型DQN算法將采摘路徑進(jìn)行強(qiáng)化訓(xùn)練,優(yōu)化采摘運(yùn)動路徑。

1 名優(yōu)茶嫩芽特征

1.1 茶葉形態(tài)標(biāo)定

茶葉類型較多,由于我國地域的氣候環(huán)境復(fù)雜,茶葉種植方式較多,所以茶葉的形態(tài)特征各異,其中名優(yōu)茶作為茶葉中的優(yōu)品,其形態(tài)可將茶葉分為單芽、單芽單葉、單芽雙葉、單芽三葉[9]。茶葉采摘需要根據(jù)茶葉特征進(jìn)行采摘技術(shù)的開發(fā),由于優(yōu)質(zhì)嫩芽的采摘是根據(jù)識別嫩芽葉梗的位置,然后通過切割葉梗而獲得嫩芽,嫩芽葉梗切割位置如圖1所示。

圖1 優(yōu)質(zhì)嫩芽切割位置及形態(tài)分析

為獲取嫩芽的切割位,需要對嫩芽的幾何特征進(jìn)行采集標(biāo)注,用于嫩芽信息的提取,根據(jù)嫩芽在茶樹上的生長特性可知,優(yōu)質(zhì)茶葉的采摘時間只有短暫的半個月,所以采摘最優(yōu)時間段的優(yōu)質(zhì)茶葉形態(tài)如圖1所示,為便于茶葉成熟度和嫩芽形態(tài)的識別,通過對優(yōu)質(zhì)茶葉形態(tài)進(jìn)行數(shù)字化識別,定義其中嫩芽規(guī)范的參數(shù),圖1中a1表示嫩芽的開合寬度,d1表示嫩芽的生長高度,d2表示嫩芽的最大外圍寬度。

1.2 嫩芽圖像處理

嫩芽圖像特征的識別容易受到外界環(huán)境的干擾,其中光照對于特征的提取影響最大,由于茶葉采摘周期短,為解決在長時段光照強(qiáng)度不均勻條件下提取嫩芽圖像特征的問題,利用相機(jī)獲取茶葉采摘范圍內(nèi)圖像,對特征圖像進(jìn)行灰度處理,調(diào)整灰度閾值尋找嫩芽區(qū)域,通過特征點(diǎn)的提取獲得采摘區(qū)域,根據(jù)對采摘區(qū)域進(jìn)行濾波、去噪等預(yù)處理,得到如圖2所示的處理效果圖。

圖2 嫩芽圖像預(yù)處理

圖像預(yù)處理可以得到灰度圖,為獲取嫩芽在圖像實際空間中的坐標(biāo)位置,需要進(jìn)一步處理得到嫩芽切割位的坐標(biāo)位置圖,由此引入HSI顏色模型,調(diào)整色調(diào)、飽和度和亮度可以通過圖像體現(xiàn)出不同空間位置的深淺度,如圖3所示。由于嫩芽的顏色與老葉、莖梗明顯不同,所以調(diào)整色調(diào)獲取嫩芽的圖像,利用R通道的參數(shù)設(shè)置得到基于嫩芽的顏色圖像,如圖4所示為處理后的嫩芽圖像特征。

圖3 嫩芽HSI空間圖

圖4 嫩芽圖像特征

2 采摘機(jī)械手模型分析

名優(yōu)茶的采摘形式較多,采摘形式主要包括人工采摘、半自動采摘、全自動采摘等方式,其中依靠全自動采摘設(shè)備的智能采摘方式效率較高,但是在實際運(yùn)用過程中也存在采摘精度、嫩芽識別誤差大等問題,為了解決采摘路徑受到障礙阻擋的問題,利用機(jī)械手來提高采摘效率,并對機(jī)械手進(jìn)行模型分析。

2.1 機(jī)械手運(yùn)動學(xué)模型分析

根據(jù)茶樹的外形特點(diǎn),并結(jié)合名優(yōu)茶的采摘要求,利用三自由度的機(jī)械手進(jìn)行嫩芽的采摘,由于高度、環(huán)境、穩(wěn)定性、位移距離等方面的要求,三自由度的機(jī)械手更加適合嫩芽的采摘[10]。

如圖5所示為三自由度機(jī)械手的結(jié)構(gòu)簡化模型,主要包括兩個機(jī)械手臂、一個旋轉(zhuǎn)機(jī)械切割爪,通過聯(lián)動控制可以實現(xiàn)切割爪的抓取,其中根據(jù)每個自由度旋轉(zhuǎn)點(diǎn)建立了局部坐標(biāo)系分別為Xa-Ya-Za、Xb-Yb-Zb、Xc-Yc-Zc、Xd-Yd-Zd,便于空間坐標(biāo)系運(yùn)動點(diǎn)的表示。機(jī)械手基座在空間運(yùn)動坐標(biāo)表示則是基于全局坐標(biāo)系X-Y-Z。坐標(biāo)系Xa-Ya-Za通過控制Za軸旋轉(zhuǎn)可使得手臂在Xa-Ya平面旋轉(zhuǎn)運(yùn)動,旋轉(zhuǎn)Ob-Xb軸,可實現(xiàn)Ob-Oc手臂在Zb-Yb平面運(yùn)動,再旋轉(zhuǎn)Oc-Xc使得Oc-Od在Yc-Zc平面運(yùn)動,最后通過對Od-Zd軸的運(yùn)動控制即可得到切割爪在Xd-Od-Yd平面上做旋轉(zhuǎn)運(yùn)動。

圖5 機(jī)械手簡化模型圖

三自由度機(jī)械手的運(yùn)動控制需要符合采摘機(jī)械手的運(yùn)動特點(diǎn),同時由于機(jī)械手的運(yùn)動空間范圍有限,所以對機(jī)械手的運(yùn)動極限空間進(jìn)行分析,根據(jù)如圖6所示為機(jī)械手運(yùn)動空間的極限范圍,機(jī)械切割手爪的旋轉(zhuǎn)直徑為ΦD,虛線輪廓的運(yùn)動表示為機(jī)械手的活動空間,所以采摘過程需要滿足機(jī)械手運(yùn)動空間覆蓋嫩芽的采摘范圍。

圖6 機(jī)械手運(yùn)動空間范圍

2.2 空間坐標(biāo)轉(zhuǎn)換

機(jī)械手聯(lián)動控制主要是基于圖像識別的嫩芽采摘點(diǎn),從而帶動機(jī)械手的聯(lián)動控制,利用已知坐標(biāo)點(diǎn)的變換帶動多坐標(biāo)系的位置變化。全局坐標(biāo)系中令嫩芽采摘位置點(diǎn)的空間坐標(biāo)位置為[x,y,z],機(jī)械手的固定基座在全局坐標(biāo)系的空間坐標(biāo)為A[xa,ya,za],已知OA-OB軸的距離為Lab,OB-OC軸的距離為Lbc,OC-OD軸的距離為Lcd,采摘切割點(diǎn)到OD原點(diǎn)的距離為L,所以采摘點(diǎn)在末端坐標(biāo)系Xd-Yd-Zd中坐標(biāo)值為N[xd,yd,-L]。

全局坐標(biāo)系需要對于局部坐標(biāo)系進(jìn)行空間轉(zhuǎn)換,所以{D}坐標(biāo)系通過{C}、{B}、{A}坐標(biāo)系的轉(zhuǎn)換實現(xiàn)采摘點(diǎn)坐標(biāo)在全局坐標(biāo)中的位置確定,通過式(1)可得坐標(biāo)系的連續(xù)轉(zhuǎn)換關(guān)系。

(1)

(2)

坐標(biāo)系OB到坐標(biāo)系OC之間的轉(zhuǎn)換關(guān)系為Y軸方向的位置變化,即可得到OB坐標(biāo)系在OC坐標(biāo)系中的坐標(biāo)轉(zhuǎn)換,如式(3)所示。

(3)

D坐標(biāo)系與C坐標(biāo)系之間的轉(zhuǎn)換過程不僅需要平移,還需要按照Oc-Xc軸旋轉(zhuǎn)才能實現(xiàn)坐標(biāo)轉(zhuǎn)換,其中R表示為旋轉(zhuǎn)矩陣,通過轉(zhuǎn)換可轉(zhuǎn)換坐標(biāo),如式(4)所示。

(4)

最后通過坐標(biāo)系的計算轉(zhuǎn)換可以得到,采摘切割點(diǎn)在全局坐標(biāo)系中空間坐標(biāo)位置點(diǎn)。

2.3 運(yùn)動學(xué)分析

機(jī)械手運(yùn)動控制主要是通過控制關(guān)節(jié)電機(jī)的運(yùn)動,多自由度機(jī)械手則需要聯(lián)動控制每個電機(jī)的運(yùn)動位移和速度,并需要對機(jī)械手進(jìn)行運(yùn)動學(xué)分析,如式(5)所示的轉(zhuǎn)換矩陣計算公式可以得到相鄰轉(zhuǎn)動關(guān)節(jié)的轉(zhuǎn)換矩陣,其中i=1,2,3,4分別表示不同關(guān)節(jié),s表示正弦函數(shù),c表示余弦函數(shù),di表示機(jī)械臂的長度,θi表示繞Zi軸從Xi-1旋轉(zhuǎn)到Xi的角度,αi表示繞Xi軸,從Zi-1旋轉(zhuǎn)到Zi的角度[11]。

(5)

利用轉(zhuǎn)換矩陣的乘積可以計算機(jī)械手的運(yùn)動學(xué)方程,通過轉(zhuǎn)換矩陣可以得到坐標(biāo)系{D}的位姿相對于全局坐標(biāo)系中位姿如式(6)所示,其中c23表示第二個關(guān)節(jié)旋轉(zhuǎn)角度與第三個關(guān)節(jié)旋轉(zhuǎn)角度的余弦值乘積,而s23則表示第二個關(guān)節(jié)旋轉(zhuǎn)角度與第三個關(guān)節(jié)旋轉(zhuǎn)角度的正弦值乘積,c2、c1表示關(guān)節(jié)1和關(guān)節(jié)2的旋轉(zhuǎn)角度余弦值,s1、s2表示關(guān)節(jié)1和關(guān)節(jié)2的旋轉(zhuǎn)角度正弦值,Lbc、Lcd分別表示不同坐標(biāo)系的原點(diǎn)距離。

(6)

3 改進(jìn)DQN路徑規(guī)劃

多自由度機(jī)械手的運(yùn)動路徑設(shè)計是基于圖像識別技術(shù)判斷影響嫩芽采摘阻擋物的位置,根據(jù)規(guī)劃的采摘路徑,利用機(jī)械手的運(yùn)動控制技術(shù),實現(xiàn)采摘過程。在此過程中需要利用路徑規(guī)劃算法實現(xiàn)對空間軌跡的規(guī)劃,結(jié)合控制技術(shù)實現(xiàn)采摘。

3.1 DQN規(guī)劃算法

名優(yōu)茶采摘環(huán)境復(fù)雜,受到各種外部環(huán)境干擾大,基于人工采摘的思維模式,能夠準(zhǔn)確判斷嫩芽的位置,而圖像處理和運(yùn)動控制技術(shù)比較與人工,精度方面在技術(shù)上存在差距,但效率方面則遠(yuǎn)超過人工。目前深度強(qiáng)化學(xué)習(xí)(Deep Q-learing,簡稱DQN)不僅結(jié)合深度學(xué)習(xí)在環(huán)境信息的感知能力而且還對強(qiáng)化學(xué)習(xí)的決策能力進(jìn)行融合,生產(chǎn)了一種類似于人類思維方式的學(xué)習(xí)能力,根據(jù)識別對象的特征提出決策策略[12]。DQN學(xué)習(xí)算法用于環(huán)境復(fù)雜、干擾因素多的茶葉采摘技術(shù)具有很大的優(yōu)勢,如圖7所示為強(qiáng)化學(xué)習(xí)算法模型。

圖7 強(qiáng)化學(xué)習(xí)算法模型

DQN主要是通過引入經(jīng)驗回收提高采集樣本的關(guān)聯(lián)性和利用率,通過固定目標(biāo)值Q降低不平穩(wěn)性[13]。DQN算法的實現(xiàn)主要分為三個步驟分別為建立目標(biāo)函數(shù)、目標(biāo)網(wǎng)絡(luò)和引入經(jīng)驗回收[14]。

1) 建立目標(biāo)函數(shù)。DQN目標(biāo)函數(shù)利用Q-learing構(gòu)建得到,利用式(7)可得更新后的動作值和狀態(tài)值。

(7)

式中: (s,a)——當(dāng)前的狀態(tài)和動作值;

當(dāng)運(yùn)動到s狀態(tài)時則可以得到獎勵值r,然后對其進(jìn)行評估計算。

(8)

式中:ω——神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的權(quán)值參數(shù);

γ——衰減系數(shù)。

由此損失函數(shù)的均方差損失函數(shù)L(ω)表達(dá)式如式(9)所示。

(9)

2) 建立目標(biāo)網(wǎng)絡(luò)。DQN利用目標(biāo)網(wǎng)絡(luò)和預(yù)測網(wǎng)絡(luò)評估當(dāng)前狀態(tài)-動態(tài)值函數(shù),目標(biāo)網(wǎng)絡(luò)基于神經(jīng)網(wǎng)絡(luò)得到目標(biāo)值Q,利用當(dāng)前目標(biāo)值Q估計下一時刻的目標(biāo)值Q,預(yù)測網(wǎng)絡(luò)則可以使用隨機(jī)梯度下降法,不斷更新網(wǎng)絡(luò)參數(shù),實現(xiàn)端到端的學(xué)習(xí)控制,梯度下降法的表達(dá)式如式(10)所示。

(10)

3) 經(jīng)驗回放。經(jīng)驗回收主要是解決樣本的關(guān)聯(lián)性和效率利用問題。機(jī)器人和環(huán)境交互時,可獲得樣本數(shù)據(jù),把樣本數(shù)據(jù)存儲到建立的經(jīng)驗池中,從經(jīng)驗池中隨機(jī)抽取小部分?jǐn)?shù)據(jù)用于訓(xùn)練樣本,再將訓(xùn)練樣本送入神經(jīng)網(wǎng)絡(luò)中訓(xùn)練。經(jīng)驗回收主要通過利用樣本來提高學(xué)習(xí)效率。

3.2 DQN算法改進(jìn)

智能體通過DQN算法可以實現(xiàn)自身對環(huán)境的認(rèn)知強(qiáng)化,通過訓(xùn)練可以達(dá)到理想的軌跡規(guī)劃[15]。DQN在運(yùn)動控制過程中,通過智能體和環(huán)境的交互利用獎勵值函數(shù),實現(xiàn)采摘過程的訓(xùn)練,得到優(yōu)化的采摘路徑。運(yùn)動過程中從當(dāng)前狀態(tài)值到下個狀態(tài)值分配的獎勵值不同,則會影響訓(xùn)練的收斂速度和程度,茶葉采摘過程需要滿足嫩芽實時性、準(zhǔn)確性的采摘要求,故以準(zhǔn)確識別采摘位置為目標(biāo),設(shè)計具有明確導(dǎo)向性的獎勵值函數(shù),通過強(qiáng)化學(xué)習(xí)得到最優(yōu)動作策略,在訓(xùn)練過程中碰到阻擋物時即返回起始點(diǎn),往復(fù)訓(xùn)練不斷探索最優(yōu)采摘路徑。改進(jìn)后的DQN算法模型如圖8所示,根據(jù)改進(jìn)的控制算法實現(xiàn)對采摘路徑的規(guī)劃。

圖8 改進(jìn)DQN設(shè)計模型

改進(jìn)的獎勵函數(shù)是根據(jù)切割點(diǎn)到采摘點(diǎn)的空間位置距離、運(yùn)動的速度、角速度來實現(xiàn)獎懲機(jī)制的導(dǎo)向,同時由于強(qiáng)化學(xué)習(xí)在學(xué)習(xí)開始階段可能出現(xiàn)全是負(fù)面學(xué)習(xí),導(dǎo)致學(xué)習(xí)進(jìn)度較慢,也會出現(xiàn)全是積極學(xué)習(xí),導(dǎo)致學(xué)習(xí)過程不全面,所以獎勵值函數(shù)從中間難度點(diǎn)開始學(xué)習(xí),能夠更加全面地掌握學(xué)習(xí)過程,所以改進(jìn)后的獎勵值函數(shù)表達(dá)式如式(11)所示。

(11)

4 試驗仿真

茶葉采摘機(jī)械手的試驗仿真主要基于ROS(Robot Operation System)系統(tǒng)中的Gazebo平臺,并搭建采摘機(jī)械手的運(yùn)動模型,利用算法結(jié)構(gòu)調(diào)整控制參數(shù),實現(xiàn)采摘機(jī)械手運(yùn)動路徑規(guī)劃。

4.1 茶樹外形分析

采摘機(jī)械手在進(jìn)行茶葉采摘過程中需要根據(jù)茶樹的外形特征進(jìn)行環(huán)境適應(yīng)判斷,由于嫩芽的生長區(qū)域在茶樹的頂端,所以茶樹的外形特征對于采摘機(jī)械手的采摘路徑設(shè)計有較大影響,根據(jù)常見茶樹特征分析,茶樹的基本外形特征如圖9所示,茶葉采摘區(qū)域的高度為h,有效高度范圍主要集中在H1和H2之間,茶樹寬度在B1內(nèi)。

圖9 茶樹外形特征

4.2 試驗設(shè)計

主要在仿真環(huán)境中利用本文算法對茶葉采摘過程進(jìn)行采摘路徑規(guī)劃的強(qiáng)化訓(xùn)練,通過SolidWorks設(shè)計出茶葉采摘機(jī)械手模型,其中三維模型及仿真平臺如圖10所示。

圖10 采摘機(jī)械手試驗仿真平臺

試驗仿真平臺的搭建主要模擬實際茶葉采摘環(huán)境,采摘機(jī)械手移動平臺的運(yùn)動效率是根據(jù)茶樹的種植布局環(huán)境和地勢特征決定,同時根據(jù)茶葉采摘的效率和速度進(jìn)行實時調(diào)整。采摘機(jī)械手進(jìn)行強(qiáng)化訓(xùn)練,隨著訓(xùn)練次數(shù)的增加可以得到優(yōu)化的路徑,當(dāng)訓(xùn)練得到最優(yōu)運(yùn)動路徑則訓(xùn)練結(jié)束。根據(jù)DQN算法的原理可知,訓(xùn)練過程主要利用具有導(dǎo)向性的獎勵函數(shù)實現(xiàn)對采摘路徑的探索,為保證強(qiáng)化訓(xùn)練的效率,需對訓(xùn)練參數(shù)進(jìn)行設(shè)置如表1所示。

表1 訓(xùn)練參數(shù)設(shè)置Tab. 1 Training parameter settings

通過訓(xùn)練參數(shù)的設(shè)置可在Gazebo平臺上經(jīng)過強(qiáng)化訓(xùn)練,采摘機(jī)械手末端采摘爪從初始位置到采摘點(diǎn)的運(yùn)動過程,采摘機(jī)械手的采摘運(yùn)動路徑的漸變過程如圖11所示。為避免采摘老葉和莖梗,并為提高采摘效率,采摘路徑通過強(qiáng)化訓(xùn)練得到的優(yōu)化的采摘運(yùn)動路徑,主要利用導(dǎo)向性的獎勵函數(shù),根據(jù)速度、角速度、切點(diǎn)的距離誤差的導(dǎo)向可以高效地實現(xiàn)嫩芽采摘路徑的規(guī)劃。

(a) 機(jī)械臂45°狀態(tài)

如圖12所示為訓(xùn)練強(qiáng)化后的運(yùn)動路徑圖,主要以采摘機(jī)械手末端上的采摘機(jī)械爪為參考點(diǎn),利用機(jī)械臂的旋轉(zhuǎn),可以準(zhǔn)確到達(dá)采摘區(qū)域,最后旋轉(zhuǎn)末端采摘手爪實現(xiàn)老葉和莖梗的躲避,控制切割爪的運(yùn)動實現(xiàn)切割功能,由此產(chǎn)生的采摘運(yùn)動路徑即為強(qiáng)化訓(xùn)練后的優(yōu)化路徑。

圖12 運(yùn)行路徑軌跡

4.3 試驗分析

4.3.1 獎勵函數(shù)值分析

根據(jù)仿真試驗得到采摘機(jī)械手經(jīng)過強(qiáng)化訓(xùn)練可規(guī)劃出采摘路徑,評價訓(xùn)練過程中的優(yōu)化效果可通過獎勵函數(shù)值進(jìn)行判斷,通過對比改進(jìn)DQN算法和傳統(tǒng)DQN算法可以得訓(xùn)練次數(shù)與采摘機(jī)械手運(yùn)動規(guī)劃獎勵值的變化關(guān)系如圖13所示。根據(jù)獎勵值的變化趨勢可知,由于本文的獎勵函數(shù)為了避免開始階段的出現(xiàn)全是負(fù)面獎勵和積極獎勵,從中位開始,開始階段的獎勵值較大,隨著訓(xùn)練次數(shù)的增加不斷獎勵值不斷趨近于平穩(wěn),由于在末端需要避免障礙物的阻擋所以在3 000~5 000次的時候遇到末端障礙物時則會出現(xiàn)獎勵值降低幅度較大的情況,3 000次之前路徑探索獎勵值從高獎勵值降低,當(dāng)達(dá)到目標(biāo)點(diǎn)時則出現(xiàn)增加并逐漸達(dá)到穩(wěn)定的獎勵值。

圖13 獎勵值變化圖

4.3.2 路徑定位精度分析

根據(jù)分析仿真結(jié)果可知,采摘機(jī)械手末端切割爪的運(yùn)動路徑,隨著強(qiáng)化訓(xùn)練次數(shù)不斷增加,可不斷迭代規(guī)劃出運(yùn)動路徑,為驗證運(yùn)動路徑的可靠性,可通過采摘機(jī)械手末端切割點(diǎn)與茶葉采摘點(diǎn)之間的距離變化關(guān)系,判斷本文算法的有效性,如圖14所示為位置誤差變化曲線關(guān)系。

圖14 訓(xùn)練次數(shù)與采摘點(diǎn)距離變化關(guān)系

本文主要對比分析訓(xùn)練在1 000~5 000次的位置誤差變化關(guān)系,隨著訓(xùn)練次數(shù)的增加,位置誤差變化速度越快,訓(xùn)練次數(shù)1 000次在預(yù)測時間1~3.5 s的時間變化較慢,而在預(yù)測時間3.5~8.0 s的預(yù)測時間變化較快。然而訓(xùn)練次數(shù)1 000次的穩(wěn)定預(yù)測時間為8.3 s,訓(xùn)練次數(shù)5 000次的趨向穩(wěn)定的變化時間為7.9 s。訓(xùn)練結(jié)果顯示訓(xùn)練次數(shù)在5 000次時切割點(diǎn)位置精度誤差穩(wěn)定在0.005 m范圍內(nèi)。

4.3.3 損失函數(shù)值變化分析

試驗仿真結(jié)果顯示損失函數(shù)的收斂性和波動性可以判斷本文算法的有效性,試驗對比關(guān)系如圖15所示,本文對比分析改進(jìn)型DQN算法和傳統(tǒng)DQN算法,可得改進(jìn)DQN算法的損失函數(shù)在訓(xùn)練1 000次之前的波動性較大,但在1 000~2 000次之間的波動性逐漸降低,2 000次后則趨近于穩(wěn)定;傳統(tǒng)DQN算法的波動性在2 000次之前都沒有趨近于穩(wěn)定,但是2 000次后逐漸趨于穩(wěn)定收斂,通過對比也可知,改進(jìn)型的收斂速度更快。

圖15 損失函數(shù)的對比效果

5 結(jié)論

茶葉采摘機(jī)械手易受到老葉、莖梗等阻擋干擾導(dǎo)致采摘效率低,采摘路徑長以及茶葉品質(zhì)低,利用基于改進(jìn)DQN算法實現(xiàn)采摘路徑的規(guī)劃,同時保證機(jī)械手末端切割裝置的定位精度,利用圖像識別技術(shù)對茶葉切割位置的識別以及空間位置進(jìn)行確定,采用改進(jìn)型DQN算法進(jìn)行強(qiáng)化訓(xùn)練,實現(xiàn)采摘路徑的高效規(guī)劃。本文通過模擬仿真試驗得到運(yùn)行狀態(tài)數(shù)據(jù),利用速度、角速度、距離誤差作為路徑規(guī)劃中的導(dǎo)向引導(dǎo)參數(shù),用于改變運(yùn)動規(guī)劃過程,實現(xiàn)規(guī)劃效率的提高,由此可得如下結(jié)論。

1) 改進(jìn)型DQN算法能夠提高機(jī)械手末端切割裝置的定位精度,通過強(qiáng)化訓(xùn)練迭代次數(shù)的增加定位精度會隨著訓(xùn)練次數(shù)的改變發(fā)生變化,驗證試驗得到訓(xùn)練次數(shù)較少的情況下,誤差穩(wěn)定控制時間較長,同時控制定位精盾不高,而訓(xùn)練試驗結(jié)果分析在訓(xùn)練次數(shù)為5 000次時,定位精度能夠穩(wěn)定控制在0.005 m范圍內(nèi)。

2) 機(jī)械手的采摘路徑規(guī)劃通過改進(jìn)的DQN算法優(yōu)化采摘路徑,利用獎勵值對比分析改進(jìn)型DQN平穩(wěn)變化,分析可知在3 000~4 500次時改進(jìn)算法的效果較為明顯;損失函數(shù)值在訓(xùn)練2 000次前的變化幅度較大,改進(jìn)算法收斂后的數(shù)據(jù)值較低,說明采摘路徑的有效性更高;驗證改進(jìn)型DQN算法對采摘路徑優(yōu)化有效。

猜你喜歡
嫩芽機(jī)械手坐標(biāo)系
抓取脆弱物體的機(jī)械手
小嫩芽
嫩芽
嫩芽的面積
解密坐標(biāo)系中的平移變換
坐標(biāo)系背后的故事
基于重心坐標(biāo)系的平面幾何證明的探討
希望的嫩芽
搬運(yùn)機(jī)械手PLC控制系統(tǒng)設(shè)計
基于ADAMS與MATLAB的機(jī)械手控制系統(tǒng)仿真研究
阳山县| 玉龙| 兖州市| 定结县| 荔波县| 吉安县| 三江| 石城县| 鹤岗市| 新兴县| 商洛市| 淄博市| 福贡县| 明星| 米泉市| 抚宁县| 黑河市| 江山市| 唐河县| 隆安县| 安溪县| 阿荣旗| 元江| 东安县| 河北区| 内江市| 新巴尔虎右旗| 逊克县| 关岭| 永福县| 商都县| 葵青区| 临沧市| 辉南县| 云安县| 龙陵县| 兴海县| 报价| 临沧市| 陆川县| 武宁县|