国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強化學(xué)習(xí)的煤矸石分揀機械臂智能控制算法研究

2021-01-26 03:39:48張永超于智偉丁麗林
工礦自動化 2021年1期
關(guān)鍵詞:煤矸石執(zhí)行器控制算法

張永超, 于智偉, 丁麗林

(山東科技大學(xué) 機械電子工程學(xué)院,山東 青島 266590)

0 引言

煤矸石分揀是煤炭粗選的首要環(huán)節(jié),也是提高煤炭質(zhì)量以及礦井效益的重要方法[1]。傳統(tǒng)煤矸石分揀如人工分揀、濕選和干選等分揀方式正面臨工傷風(fēng)險率高、環(huán)境污染嚴重及智能化程度低的困境[2-3]。而機械臂分揀不僅能有效降低工傷風(fēng)險率,同時還具有效率高、綠色分揀的優(yōu)勢?!蛾P(guān)于加快煤礦智能化發(fā)展的指導(dǎo)意見》也明確提出對具備條件的煤礦要加快智能化改造,推進危險崗位的機器人作業(yè),到2035年各類煤礦基本實現(xiàn)智能化,建成智能感知、智能決策、自動執(zhí)行的煤礦智能化體系。煤矸石分揀朝著智能機器人化方向發(fā)展符合現(xiàn)代工業(yè)發(fā)展趨勢。

目前,用于機器人分揀機械臂的控制算法主要有抓取函數(shù)法[4]、基于費拉里法的動態(tài)目標抓取算法[5]、金字塔形尋優(yōu)算法[6]、比例導(dǎo)引法[7]等。這些控制算法中除抓取函數(shù)法僅適用靜態(tài)目標外,其他控制算法均可在已獲取目標位置的前提下,實現(xiàn)快速接近目標的目的。然而將以上控制算法應(yīng)用于煤矸石分揀機械臂時發(fā)現(xiàn),煤矸石分揀機械臂的工作效率嚴重受限于控制算法中機械臂運動學(xué)或動力學(xué)等環(huán)境模型的設(shè)計精度,若精度低則會使煤矸石分揀機械臂末端執(zhí)行器不能良好接近目標,造成較高的漏選率[8]。王鵬等[9]設(shè)計了一種基于機器視覺技術(shù)的多機械臂煤矸石分揀機器人系統(tǒng),該系統(tǒng)可高效分揀50~260 mm粒度的煤矸石,并且能良好適應(yīng)不同帶速,但其機械臂控制算法仍依賴模型的精確性。因此,研究一種可使煤矸石分選機械臂穩(wěn)定高效運行的無模型智能控制算法對實現(xiàn)煤矸石分選作業(yè)無人化、智能化具有重要意義。

強化學(xué)習(xí)作為一種重要的機器學(xué)習(xí)方法,因其控制過程不依賴于精確環(huán)境模型的特點,在機器人智能控制領(lǐng)域具有重要地位。它強調(diào)在與環(huán)境的交互中獲取反映真實目標達成度的反饋信號,強調(diào)模型的試錯學(xué)習(xí)和序列決策行為的動態(tài)和長期效應(yīng)。深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法是強化學(xué)習(xí)中常用來處理具有連續(xù)性動作空間任務(wù)的一種優(yōu)秀控制算法[10],但傳統(tǒng)DDPG算法的獎勵函數(shù)僅是基于歐幾里得距離設(shè)計的,缺乏動作懲罰項等約束項,訓(xùn)練過程中容易使機械臂學(xué)習(xí)到輸出較大關(guān)節(jié)角控制量的策略。若獎勵函數(shù)設(shè)計不合理,還會出現(xiàn)稀疏獎勵問題,使機械臂學(xué)不到期望的策略[11]。

針對以上問題,本文提出了一種基于強化學(xué)習(xí)的改進DDPG算法,并用于煤矸石分揀機械臂的控制。通過設(shè)計獎勵函數(shù)使機械臂能更快學(xué)習(xí)到平穩(wěn)接近目標的策略。通過改進Actor和Critic神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以及使用批標準化和Dropout優(yōu)化方法,使算法具有更穩(wěn)健處理機械臂關(guān)節(jié)角等低維輸入觀測值的能力[12]。仿真實驗結(jié)果表明,改進的DDPG算法與傳統(tǒng)控制算法相比具有無模型通用性強及在與環(huán)境交互中可自適應(yīng)學(xué)習(xí)抓取姿態(tài)的優(yōu)勢,并且學(xué)習(xí)能力優(yōu)于傳統(tǒng)DDPG算法,其在大型連續(xù)動作空間具有巨大的潛在應(yīng)用價值。

1 DDPG算法

DDPG算法屬于Actor-Critic算法,它在確定性策略梯度(Deterministic Policy Gradient,DPG)算法[13]的基礎(chǔ)上融入了深度神經(jīng)網(wǎng)絡(luò)[14]。DDPG算法的參數(shù)更新思想借鑒了深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)算法中的雙網(wǎng)絡(luò)延時更新和經(jīng)驗回放機制來切斷數(shù)據(jù)相關(guān)性,訓(xùn)練過程中使用批量標準化[15]來提高學(xué)習(xí)效率。

DDPG算法中的Actor策略網(wǎng)絡(luò)可在連續(xù)動作空間進行探索以及做出動作決策,Critic價值網(wǎng)絡(luò)則負責評判決策優(yōu)劣,以此指引Actor策略網(wǎng)絡(luò)參數(shù)更新。兩者均包含2個具有相同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),即目標網(wǎng)絡(luò)和估計網(wǎng)絡(luò)。Actor的估計網(wǎng)絡(luò)是根據(jù)Critic的估計網(wǎng)絡(luò)的指引實時更新,Critic的估計網(wǎng)絡(luò)是根據(jù)自身目標網(wǎng)絡(luò)的指引實時更新,因此,估計網(wǎng)絡(luò)的參數(shù)是最新參數(shù),而目標網(wǎng)絡(luò)參數(shù)則是根據(jù)估計網(wǎng)絡(luò)參數(shù)使用滑動平均方式來延遲更新的,Critic的估計網(wǎng)絡(luò)參數(shù)的更新方式為最小化均方誤差L:

(1)

式中:N為從經(jīng)驗池中取出的數(shù)據(jù)總個數(shù);yi為i時刻目標Q值的更好估計;Q(si,ai|θQ)為估計Q值;si為i時刻的環(huán)境狀態(tài);ai為i時刻的輸入動作;θQ為Critic網(wǎng)絡(luò)中估計網(wǎng)絡(luò)的參數(shù),Q代表Critic網(wǎng)絡(luò)中的估計網(wǎng)絡(luò);ri為i時刻的即時獎勵;γ為折扣率;Q′(si+1,μ′(si+1|θμ′)|θQ′)為目標Q值;μ′(si+1|θμ′)為確定性策略,μ′為Actor網(wǎng)絡(luò)中的目標網(wǎng)絡(luò),θμ′為Actor網(wǎng)絡(luò)中目標網(wǎng)絡(luò)的參數(shù);θQ′為Critic網(wǎng)絡(luò)中目標網(wǎng)絡(luò)的參數(shù),Q′為Critic網(wǎng)絡(luò)中的目標網(wǎng)絡(luò)。

這種利用估計網(wǎng)絡(luò)和目標網(wǎng)絡(luò)進行參數(shù)更新的雙網(wǎng)絡(luò)機制切斷了數(shù)據(jù)相關(guān)性,有效提高了算法收斂性。類似于監(jiān)督學(xué)習(xí)標簽的yi為Critic估計網(wǎng)絡(luò)參數(shù)的更新指明了方向,使參數(shù)更新更穩(wěn)定。

Actor策略網(wǎng)絡(luò)基于策略梯度更新網(wǎng)絡(luò)參數(shù):

θμJ(θμ)≈

(2)

圖1 DDPG算法結(jié)構(gòu)

2 改進DDPG算法

2.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

改進DDPG算法應(yīng)用對象為六自由度煤矸石分揀機械臂,其動作空間龐大且應(yīng)用環(huán)境復(fù)雜,為使神經(jīng)網(wǎng)絡(luò)更容易學(xué)習(xí)其輸入特征數(shù)據(jù)的分布,同時也為緩解訓(xùn)練過程中神經(jīng)網(wǎng)絡(luò)的過擬合問題,Actor網(wǎng)絡(luò)使用4層計算層并引入批量標準化方法和Dropout方法,以使模型訓(xùn)練更穩(wěn)健,Actor網(wǎng)絡(luò)的雙網(wǎng)絡(luò)均采用圖2所示的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

圖2 Actor神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

Actor框架中的估計網(wǎng)絡(luò)輸入層接收環(huán)境實時狀態(tài)si,目標網(wǎng)絡(luò)輸入層接收智能體與環(huán)境交互后的下一狀態(tài)si+1。批量標準化(Batch Normalization,BN)層通過減小數(shù)據(jù)在神經(jīng)網(wǎng)絡(luò)層傳遞過程中數(shù)據(jù)分布的改變,使神經(jīng)網(wǎng)絡(luò)參數(shù)更新更快且更易學(xué)習(xí)到知識,又因其是在小批量樣本上計算均值和方差,難免引入小噪聲,這也同時提高了神經(jīng)網(wǎng)絡(luò)的泛化能力。隱藏層中層1和層2中的黃色神經(jīng)元表示該層使用了Dropout方法,Dropout方法通過使部分神經(jīng)元隨機失活以減小神經(jīng)元之間的依賴性,促使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)更穩(wěn)健的特征,提高了網(wǎng)絡(luò)的魯棒性。

Critic網(wǎng)絡(luò)的估計網(wǎng)絡(luò)和目標網(wǎng)絡(luò)采用如圖3所示的3層全連接神經(jīng)網(wǎng)絡(luò)來擬合Q(si,ai|θQ)和Q′(si+1,μ′(si+1|θμ′)|θQ′),并使用BN層和Dropout方法緩解神經(jīng)網(wǎng)絡(luò)過擬合,從而使Critic網(wǎng)絡(luò)可更好評判Actor網(wǎng)絡(luò)輸出動作的優(yōu)劣。

圖3 Critic神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

2.2 獎勵函數(shù)設(shè)計

為使煤矸石分揀機械臂可自適應(yīng)學(xué)習(xí)到接近目標的方法,同時解決傳統(tǒng)機械臂強化學(xué)習(xí)控制方法輸出動作過大以及稀疏獎勵容易被淹沒的問題,本文在傳統(tǒng)DDPG算法的基礎(chǔ)上設(shè)計了可持續(xù)輸出收益的獎勵函數(shù):

(3)

終止狀態(tài)判定項通過給可輸出連續(xù)跟蹤目標動作的智能體一個較大的獎勵值來誘導(dǎo)機械臂學(xué)習(xí)到跟蹤目標的能力,減小目標與機械臂末端執(zhí)行器的沖擊。

3 煤矸石分揀機械臂智能控制原理

改進DDPG算法依據(jù)馬爾科夫決策過程[16]控制機械臂在與環(huán)境交互中學(xué)習(xí)知識,任務(wù)是找到能最大化智能體期望回報的最優(yōu)策略[17],即最大化估計Q值。在煤矸石分揀機械臂控制任務(wù)中,強化學(xué)習(xí)中的智能體為具有決策能力的煤矸石分揀機械臂。估計Q值的更新依據(jù)自身梯度以及其與目標Q值q的均方誤差來指引,其中q為

q=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)

(4)

機械臂根據(jù)相應(yīng)傳感器返回的煤矸石位置以及機械臂狀態(tài)進行決策,輸出機械臂預(yù)測控制量,并根據(jù)機械臂執(zhí)行動作之后的環(huán)境狀態(tài)如末端執(zhí)行器與煤矸石的距離、機械臂的位置、煤矸石的位置等進行下一步?jīng)Q策。通過不斷試錯學(xué)習(xí),使網(wǎng)絡(luò)參數(shù)向可輸出機械臂探索過程中所遇最大q值方向更新,直到機械臂可以根據(jù)環(huán)境狀態(tài)準確輸出接近煤矸石的策略或幕獎勵波動趨于穩(wěn)定時即可提前終止訓(xùn)練。煤矸石分揀機械臂控制流程如圖4所示。首先初始化改進DDPG算法權(quán)重,然后加載訓(xùn)練權(quán)重,最后根據(jù)煤矸石位置及關(guān)節(jié)角狀態(tài)輸出相應(yīng)的關(guān)節(jié)角來控制機械臂運動,以使末端執(zhí)行器接近煤矸石。煤矸石位置以及機械臂關(guān)節(jié)角狀態(tài)由相應(yīng)檢測模塊和傳感器測得。

圖4 機械臂控制流程

4 實驗及結(jié)果分析

4.1 環(huán)境配置

本文采用CoppeliaSim搭建虛擬環(huán)境模型,并在環(huán)境模型中創(chuàng)建UR5機械臂、RG2執(zhí)行器、輸送帶、煤和煤矸石,以此模擬實際煤矸石分揀環(huán)境,仿真平臺如圖5所示。

圖5 仿真平臺

使用Python在tensorflow2.2.0上編寫改進DDPG算法框架,并調(diào)用CoppeliaSim創(chuàng)建的虛擬環(huán)境來訓(xùn)練算法。算法中Actor的雙網(wǎng)絡(luò)和Critic的雙網(wǎng)絡(luò)神經(jīng)元配置見表1,其神經(jīng)網(wǎng)絡(luò)輸入狀態(tài)si為6個關(guān)節(jié)角度、執(zhí)行器指定點的絕對坐標、第5個關(guān)節(jié)的絕對坐標、末端執(zhí)行器指定點與煤矸石中心的距離。獎勵函數(shù)參數(shù)c1和c2經(jīng)測試設(shè)定為0.1和0.2,使用30倍的高斯分布噪聲,設(shè)定算法循環(huán)幕數(shù)為5 000,每幕迭代步數(shù)為300,若末端執(zhí)行器中設(shè)定的特定點與煤矸石中心距離為0時,超參數(shù)b被賦值為10,若下一步距離仍為0,則b繼續(xù)累加10,當其累加了20步時,即跟蹤了20步,則提前結(jié)束當前幕。

表1 Actor和Critic神經(jīng)網(wǎng)絡(luò)中各層神經(jīng)元數(shù)量

4.2 性能對比測試

為測試改進DDPG算法的性能,將其與僅使用歐幾里得距離作為獎勵函數(shù)的傳統(tǒng)DDPG算法在相同環(huán)境下進行訓(xùn)練對比,經(jīng)5 000幕迭代后,改進DDPG算法每幕獎勵結(jié)果如圖6所示,傳統(tǒng)DDPG算法每幕獎勵結(jié)果如圖7所示。

圖6 改進DDPG算法每幕獎勵

強化學(xué)習(xí)不同于傳統(tǒng)監(jiān)督學(xué)習(xí),其訓(xùn)練樣本沒有確定標簽,也就沒有真正意義上的損失函數(shù),因此,當幕獎勵趨于穩(wěn)定時,即可認為機械臂在當前環(huán)境中學(xué)習(xí)到了基于所用算法的最優(yōu)策略。由圖6和圖7可看出,改進DDPG算法和傳統(tǒng)DDPG算法指引下的機械臂在環(huán)境中經(jīng)過隨機探索后都學(xué)習(xí)到了一種策略,改進DDPG算法訓(xùn)練穩(wěn)定后的每幕獎勵接近機械臂探索過程中的最大值,而傳統(tǒng)DDPG算法訓(xùn)練穩(wěn)定后的每幕獎勵與機械臂探索過程中遇到的最大獎勵相差較大,這表示所設(shè)計的獎勵函數(shù)比傳統(tǒng)獎勵函數(shù)更具有誘導(dǎo)機械臂學(xué)習(xí)到最優(yōu)策略的能力。

圖7 傳統(tǒng)DDPG算法每幕獎勵

為了進一步測試2種算法訓(xùn)練后的性能,將訓(xùn)練后的改進DDPG算法和傳統(tǒng)DDPG算法進行泛化能力對比驗證,測試過程為在虛擬環(huán)境中繼續(xù)添加紅色、黃色、綠色物塊,如圖8所示,圖中灰色物塊為2種算法在學(xué)習(xí)過程中所用的訓(xùn)練目標,使用這4種顏色的物塊代替實際分揀環(huán)境中的煤矸石,將這4種煤矸石分別設(shè)定為測試目標,并使用2種算法分別對其進行10次接近測試,結(jié)果見表2。

圖8 CoppeliaSim虛擬環(huán)境

表2 測試結(jié)果

由表2可看出,改進DDPG算法具有良好的泛化能力,即接近訓(xùn)練過程中未曾出現(xiàn)過目標的能力,而傳統(tǒng)DDPG算法泛化能力較差,這也進一步驗證了改進DDPG算法控制下的機械臂所學(xué)策略質(zhì)量較高。在接近測試過程中,傳統(tǒng)DDPG算法控制下的煤矸石分揀機械臂的末端執(zhí)行器多數(shù)以一種垂直于虛擬環(huán)境中地面的非常規(guī)姿態(tài)位于物塊之上,這也證明了傳統(tǒng)DDPG算法控制下的機械臂并未學(xué)習(xí)到良好的策略。在黃色物塊接近測試中,傳統(tǒng)DDPG算法控制下的煤矸石分揀機械臂末端執(zhí)行器特定位置的運動軌跡如圖9所示,改進DDPG算法控制下的末端執(zhí)行器特定位置運動軌跡如圖10所示。從圖9和圖10可看出,改進DDPG算法與傳統(tǒng)DDPG算法相比,其控制策略可以更好地使末端執(zhí)行器接近目標。

圖9 傳統(tǒng)DDPG算法控制結(jié)果

圖10 改進DDPG算法控制結(jié)果

黃色物塊接近測試中,2種算法輸出的一次關(guān)節(jié)角控制量對比如圖11所示。從圖11可看出,改進DDPG算法因受獎勵函數(shù)輸出動作懲罰項的影響,其關(guān)節(jié)角輸出控制量小于傳統(tǒng)DDPG算法的輸出,降低了因大幅度更新關(guān)節(jié)角對機械臂性能造成的影響。

圖11 2種算法輸出的一次關(guān)節(jié)角控制量對比

綜上可知,改進DDPG算法和傳統(tǒng)DDPG算法控制下的煤矸石分揀機械臂通過與環(huán)境交互均可使機械臂學(xué)習(xí)到一種控制策略,但測試結(jié)果表明,傳統(tǒng)DDPG算法所學(xué)策略性能較差,不能良好接近目標,改進DDPG算法所學(xué)策略更接近最優(yōu)。

5 結(jié)論

(1)對傳統(tǒng)DDPG算法中的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和獎勵函數(shù)進行了改進,提出了適合處理六自由度煤矸石分揀機械臂的改進DDPG算法。改進DDPG算法經(jīng)過訓(xùn)練后,Actor網(wǎng)絡(luò)即可根據(jù)環(huán)境狀態(tài)映射成具有最大估計Q值的關(guān)節(jié)狀態(tài)控制量,最終經(jīng)相應(yīng)運動控制器控制煤矸石分揀機械臂接近煤矸石,實現(xiàn)煤矸石分揀。

(2)實驗結(jié)果表明,改進DDPG算法相較于傳統(tǒng)DDPG算法可更快收斂于探索過程中所遇最大獎勵值。改進DDPG算法可控制機械臂小幅度接近煤矸石,具有較強的泛化能力,為解決實際煤矸石機械臂智能分揀問題提供了一種新方法,同時也為后期與基于深度學(xué)習(xí)的視覺檢測聯(lián)合使用提供了理論保障。

猜你喜歡
煤矸石執(zhí)行器控制算法
淺談煤矸石在固廢混凝土中的應(yīng)用
測控技術(shù)(2018年12期)2018-11-25 09:37:50
煤矸石的綜合利用
上海建材(2018年2期)2018-06-26 08:50:56
基于ARM+FPGA的模塊化同步控制算法研究
飛機裝配預(yù)連接緊固件自動化安裝末端執(zhí)行器設(shè)計
考慮執(zhí)行器飽和的改進無模型自適應(yīng)控制
一類具有執(zhí)行器飽和的非線性系統(tǒng)抗飽和方法研究
一種優(yōu)化的基于ARM Cortex-M3電池組均衡控制算法應(yīng)用
改性煤矸石對污水中油的吸附作用
一種非圓旋轉(zhuǎn)工件支撐裝置控制算法
长兴县| 乌兰县| 枣强县| 报价| 奇台县| 固原市| 都兰县| 富民县| 屯留县| 五指山市| 乌苏市| 秭归县| 台前县| 大兴区| 衡阳市| 青冈县| 大竹县| 即墨市| 区。| 驻马店市| 吉木乃县| 轮台县| 龙胜| 三江| 彩票| 垣曲县| 克东县| 呼伦贝尔市| 孟津县| 定襄县| 得荣县| 桐城市| 黄龙县| 内黄县| 鄂托克前旗| 玉田县| 建瓯市| 苏尼特右旗| 大新县| 四川省| 岗巴县|