宋 宇,胡 莉,劉滿祿,2*,張 華,徐冬苓
(1.西南科技大學 信息工程學院,綿陽 621000;2.中國科技大學 信息科學技術學院,合肥 230026;3.上海核工程研究設計院有限公司,上海 200233)
隨著我國核能發(fā)電、軍用核動力裝置、輻照產業(yè)的廣泛開展[1,2],在放射性環(huán)境下采用機器人代替人進入核電廠等涉核設施內部對設備進行維修、檢查等操作具有廣闊的應用前景[3,4]。機器人在核電廠等涉核設施內部工作時,需要完成大量諸如軸孔裝配這類的高精度裝配任務。軸孔裝配是一個復雜的裝配過程,由于零件普遍存在加工誤差,使得軸孔裝配在孔內只能使用較小的位姿進行調整,在裝配精度上有較高的要求。傳統(tǒng)的軸孔裝配任務中,機器人與環(huán)境的接觸環(huán)境較為穩(wěn)定,一旦在未知環(huán)境中面臨不確定因素,機器人的適應性就會變得很差,機器人處理核電廠這類未構造的復雜環(huán)境的能力受限。因此,研究如何讓機器人在核電廠這類未構造的環(huán)境中完成高精度軸孔裝配任務具有深刻的現(xiàn)實意義。
在CAP1400示范工程項目中,核電廠部分系統(tǒng)采用了特殊的布置和設備設計,堆腔底部的堆外核測探測器安裝作業(yè)空間狹小,需要利用專用工具把探測器安裝在儀器井內部,并通過銷釘固定,涉及的軸孔裝配操作步驟比較繁瑣,直接依靠人工的工作強度很大,且堆腔底部輻照劑量非常高。本文重點考慮核電廠堆外核測探測器安裝過程中,探測器與儀器井的軸孔柔順裝配問題,研究利用主從遙操作機械臂進行軸孔裝配的關鍵策略。核電廠堆外核測探測器軸孔裝配環(huán)境如圖1所示。
圖1 核電廠堆外核測探測器軸孔裝配環(huán)境
核電廠堆外核測探測器所處環(huán)境較為復雜且狹小,使用傳統(tǒng)的控制方法并不能很好的完成軸孔裝配任務。傳統(tǒng)的控制方式是使用稱為“示教器”的控制箱定義機器人運動的關鍵位置和動作來執(zhí)行裝配任務[5,6],但是這種在線編程的方式通常需要消耗大量的時間,即使在完成編程后,由于生產環(huán)境的改變,仍然需要花費很長時間來調整用于將機器人部署在新環(huán)境的參數(shù),因此并不適用于核電廠環(huán)境下的軸孔裝配任務。另一種常見的控制方式是基于視覺傳感器完成裝配任務[7,8],這種控制方式需要測量銷釘和孔之間的位置和方向。但是,在許多實際的裝配任務中,孔的位置和方向通常是難以通過視覺傳感器準確測量的,位置誤差或部分遮擋而產生的較大接觸力將導致裝配過程失敗,所以這種基于視覺傳感器的裝配方法難以成功完成裝配任務。
深度強化學習算法(deep reinforcement learning,DRL)作為一種新興的通用人工智能算法技術,在游戲、機器人控制等領域被大量使用[9],是人工智能邁向智能決策的重要一步。將具有良好適應性和魯棒性的DRL應用在機器人軸孔裝配任務中,可以有效提升機器人軸孔裝配的精度。Luo J等人[10]將機器人手腕傳感器的扭矩測量結果合并為兩個部分,將其集成到策略網(wǎng)絡學習過程中,并在與神經(jīng)網(wǎng)絡耦合的導納控制器中使用,這使得機器人可以學習接觸環(huán)境復雜的裝配任務,而無需精確的關節(jié)力矩控制。Hou Z等人[11]提出了一種基于模型的深度確定性策略梯度算法,用來學習解決多孔軸孔裝配問題的通用裝配策略,為了在真實環(huán)境的組裝任務中實現(xiàn)快速學習過程,在策略搜索階段,采用了一種混合探索策略驅動的探索方式。Inoue T等人[12]提出了一種高精度軸孔裝配策略,通過訓練帶有強化學習的長短期記憶網(wǎng)絡學習兩種單獨的裝配策略來完成緊密間隙的軸孔裝配任務。以上方法雖然能夠實現(xiàn)部分典型環(huán)境、對象、狀態(tài)的軸孔裝配任務,但針對核電廠這類具有工作環(huán)境復雜、輻射劑量較高等特征對象的軸孔裝配任務難以廣泛應用。
為降低運維人員所受輻射劑量,提高運維效率,本文提出一種基于人機合作的核運維機器人軸孔裝配方法。在堆外核測探測器安裝流程中引入機器人自主控制技術,但所有作業(yè)必須在有人監(jiān)控的前提下進行,即“遙操作+局部自主”。把機器人智能跟人的智能充分結合起來:利用人的經(jīng)驗知識完成軸孔裝配的尋孔任務,增強操作過程的可靠性,保證風險可控;同時,利用DRL算法使機器人在局部區(qū)域自主完成銷釘?shù)牟迦肴蝿铡?/p>
根據(jù)核運維機器人在核電廠環(huán)境中的運行特點,將軸孔裝配任務分為搜索階段和插入階段:
1)搜索階段:主端機械臂控制夾持住銷釘?shù)膹亩藱C械臂進行尋孔,將銷釘放置在孔的中心位置(允許誤差內)。
2)插入階段:從端機械臂依據(jù)力反饋信息實時調整銷釘?shù)奈恢煤头较?驅動銷釘插入孔中。
核電廠堆腔底部的堆外核測探測器安裝作業(yè)空間狹小,且安裝環(huán)境中其他設備較為精密,不能發(fā)生碰撞,機器人自主完成搜索階段的尋孔任務難度較大,需要借助人工輔助搜索的方式完成。主端機械臂通過操作空間映射算法控制從端機械臂將由末端夾持器夾持住的銷釘移動到孔的周圍,需要說明的是,從端機械臂每次都是以相同的姿態(tài)夾持銷釘相同的位置。然后再控制銷釘與孔端面接觸,基于力反饋信息對銷釘進行平移,當力反饋數(shù)據(jù)為0時,銷釘?shù)竭_孔的中心位置。搜索階段尋孔模型如圖2所示。
圖2 搜索階段尋孔模型
在核電廠探測器與儀器井的軸孔裝配任務中,銷釘和孔之間的間隙很小,通常只有10微米,對于操作人員來說是極其困難的。對于機器人來說,完成比自身位置精度更小的插入任務也是非常困難的。因此,機器人需要采用基于力矩傳感器信息的DRL算法自主完成精確的插入任務。
根據(jù)對于核運維機器人軸孔裝配任務的問題描述,軸孔裝配的作業(yè)流程如下圖3所示。在搜索階段建立主從機械臂控制系統(tǒng),實現(xiàn)異構遙操作控制,將銷釘放置在孔的中心位置。在插入階段基于DRL算法模型,以從端機械臂末端的力反饋和銷釘位姿兩種信息為依據(jù)構建馬爾科夫決策過程,通過訓練得到從端機械臂當前狀態(tài)與動作的映射關系從而獲取最優(yōu)控制策略,依據(jù)力反饋信息實時調整銷釘?shù)奈恢煤头较?推動銷釘插入孔中。
圖3 軸孔裝配流程圖
在核運維機器人軸孔裝配任務中,主端機械臂和從端機械臂是異構系統(tǒng),通過關節(jié)空間映射的方法建立主從機械臂各關節(jié)之間的控制系統(tǒng)將非常復雜[13],而采用操作空間映射的方法,將主端機械臂末端的位姿通過操作空間映射算法映射到從端機械臂末端的位姿可以解決這一問題。
由于核電廠堆腔底部的堆外核測探測器安裝作業(yè)空間是不規(guī)則的,因此在進行操作空間映射時需要對主從機械臂的操作空間進行限定,設主從機械臂末端在三維空間中的操作范圍為pmd∈[pmdmin,pmdmax]和psd∈[psdmin,psdmax],d分別取x,y,z方向,pmd與psd分別為主從機械臂末端在某一方向的位置分量。主從機械臂操作空間映射算法如圖4所示。
圖4 主從異構機械臂操作空間映射示意圖
在t時刻時,主從機械臂末端執(zhí)行器空間位置分別為pm(t)=(pmx(t),pmy(t),pmz(t))T,ps(t)=(psx(t),psy(t),psz(t))T,映射關系如式(1)所示:
通過式(1)得到從端機械臂末端在工作空間中的位置ps,根據(jù)逆運動學可以計算出一組關節(jié)角作為輸入傳遞到從端機械臂的編碼器中,進而實現(xiàn)主從機械臂的跟隨控制。
可以將核運維機器人軸孔裝配任務的插入階段公式化為一個馬爾可夫決策過程模型(markov decision process,MDP)。MDP作為強化學習的基本框架,由一個四元組構成,即(S,A,Psa,R),其中S為狀態(tài)空間集,A為動作空間集,Psa為狀態(tài)轉移概率,R為獎勵函數(shù)。在插入階段,從端機械臂作為強化學習中的智能體,當從端機械臂執(zhí)行某個動作后,裝配環(huán)境將會轉到一個新的狀態(tài)。對于該新的狀態(tài),裝配環(huán)境會給出一個獎勵信號(正向獎勵或者負向獎勵)。智能體根據(jù)新的狀態(tài)和裝配環(huán)境反饋的獎勵信號,按照一定的策略執(zhí)行新的動作。智能體學習的目標就是學會將狀態(tài)映射到動作從而求得從端機械臂控制的最優(yōu)策略μ*。
核運維機器人軸孔裝配任務的插入階段是一個連續(xù)動作過程,常見的面向離散控制任務的DRL算法——深度Q網(wǎng)絡[14,15](deep Q-network,DQN)并不適用,因此本文使用可應用于連續(xù)型動作的深度確定性策略梯度網(wǎng)絡[16](deep deterministic policy gradient algorithms,DDPG)。
從端機械臂的狀態(tài)空間定義為:
其中,F和M分別表示力矩傳感器返回的力和力矩;P和R分別表示根據(jù)正運動學從從端機械臂編碼器測量的關節(jié)角度計算出的由末端夾持器夾持的銷釘?shù)奈恢煤头较颉O聵藊,y,z表示從端機械臂末端坐標軸的方向。
從端機械臂的動作空間定義為:
其中,Pd是銷釘?shù)奈恢?Rd是銷釘?shù)姆较?根據(jù)逆運動學計算出一組關節(jié)角作為輸入傳遞到從端機械臂的編碼器中。
強化學習算法通過使累積獎勵最大化來學習機器人裝配策略:
其中,γ是折扣因子,是介于[0,1]的常數(shù);rk是分配給每個狀態(tài)-動作對的即時獎勵;k是步數(shù)的索引;n是一個回合的總步數(shù)。
機器人軸孔裝配的插入階段從開始到結束的過程稱為一個回合。在本文提出的算法中,我們僅在每個回合的最后一步計算一個獎勵r。如果裝配成功,則會向網(wǎng)絡提供一個正向獎勵:
其中,c為常數(shù);k是裝配完成時的實際步數(shù);kmax是一個回合的最大步數(shù)。
本文提出的算法目標是使用最少的步數(shù)完成裝配任務,如果不能在kmax內完成任務,則會向網(wǎng)絡提供一個負向獎勵:
其中,D是孔的深度,dt是時間步長t時銷釘插入孔的深度。
在DDPG算法中,將深度神經(jīng)網(wǎng)絡與確定性策略梯度(deterministic policy gradient,DPG)算法進行融合,并使用演說家-評論家(actor-critic,AC)算法作為該算法的基本框架。分別使用參數(shù)為μθ的策略網(wǎng)絡來表示確定性行為策略a=μ(s|θμ),輸入為當前的狀態(tài)s,輸出確定性的動作值a;使用參數(shù)為θQ的價值網(wǎng)絡來表示動作值函數(shù)Q(s,a|θQ),用于求解貝爾曼方程。DDPG算法框架滿足強化學習的馬爾可夫決策過程,actor和critic為智能體的內容,其中actor負責策略網(wǎng)絡,critic負責價值網(wǎng)絡。通過智能體與環(huán)境進行交互的過程,把交互所產生的樣本存儲在經(jīng)驗池中,下一時間步從經(jīng)驗池中隨機提取小批量樣本數(shù)據(jù)傳遞給actor和critic進行計算。
根據(jù)實踐證明,在只使用單個神經(jīng)網(wǎng)絡算法的強化學習算法中,動作值函數(shù)Q的學習過程可能會出現(xiàn)不穩(wěn)定,因為價值網(wǎng)絡的參數(shù)在頻繁梯度更新的同時,又用于計算策略網(wǎng)絡的梯度。基于這個問題,DDPG算法分別為策略網(wǎng)絡和價值網(wǎng)絡各自創(chuàng)建兩個神經(jīng)網(wǎng)絡,一個為在線網(wǎng)絡,另一個為目標網(wǎng)絡。DDPG算法使用了4個網(wǎng)絡模型,其更新關系是在結束一次小批量樣本數(shù)據(jù)的訓練后,通過梯度上升或梯度下降算法更新在線網(wǎng)絡的參數(shù),然后再通過軟更新(每一時間步都會更新目標網(wǎng)絡)算法更新目標網(wǎng)絡的參數(shù)。核運維機器人軸孔裝配任務的插入階段算法結構如圖5所示。
圖5 插入階段算法結構圖
機器人在對軸孔裝配環(huán)境進行探索,其目的是尋找更多潛在的更優(yōu)策略,因此在網(wǎng)絡模型的訓練過程中,引入隨機噪聲影響動作的選擇。DDPG算法中使用OU隨機過程(ornstein-uhlenbeck)作為引入的隨機噪聲。
DDPG算法的目標函數(shù)被定義為折扣累積獎勵的期望,即如式(7)所示:
其中β為行為策略,行為策略根據(jù)當前在線策略網(wǎng)絡μ和隨機OU噪聲生成隨機過程,并從該隨機過程進行采樣獲得動作值at。
DDPG算法的目標是求解最優(yōu)確定性行為策略μ*,即目標函數(shù)最大化的策略如式(8)所示:
從經(jīng)驗池中隨機采樣小批量的N個轉換經(jīng)驗樣本(si,ai,ri,si+1),使用最小化損失函數(shù)來更新critic網(wǎng)絡如式(9)所示:
其中yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′),θμ′為actor目標策略網(wǎng)絡的參數(shù),θQ′為critic目標價值網(wǎng)絡的參數(shù),使用梯度下降算法更新網(wǎng)絡模型中的參數(shù)。actor目標策略網(wǎng)絡μ′和critic目標價值網(wǎng)絡Q′使得網(wǎng)絡在學習過程中更加穩(wěn)定,更容易收斂。
目標函數(shù)Jβ(μ)關于策略網(wǎng)絡參數(shù)θμ的梯度,等價于動作值函數(shù)Q(s,a|θQ關于θμ的期望梯度,因此遵循鏈式求導法則對目標函數(shù)進行求導,使用梯度策略算法更新actor網(wǎng)絡:
對式(10)使用梯度上升算法的目標函數(shù)進行優(yōu)化計算,使用梯度上升的目標是提高折扣累積獎勵的期望。最終使得算法沿著提升動作值函數(shù)Q(s,a|θQ的方向更新actor策略網(wǎng)絡的參數(shù)θμ。
在本節(jié)中,通過實驗驗證基于人機合作的機器人軸孔裝配算法的可行性。
3.1.1 實物環(huán)境搭建
在真實場景中搭建基于Phantom omni力反饋設備和UR5機械臂的主從異構遙操作系統(tǒng),編寫Python語言腳本通過機器人開源操作系統(tǒng)ROS完成主從機械臂的跟隨控制,并完成搜索階段的尋孔任務。插入階段的主從異構遙操作系統(tǒng)實物圖如圖6所示。
圖6 主從異構遙操作系統(tǒng)實物圖
3.1.2 實驗與結果分析
搜索階段的主從異構遙操作系統(tǒng)如圖7所示。首先操作者控制主端機械臂完成一系列動作,然后ROS系統(tǒng)獲取主端機械臂節(jié)點omni1的末端位姿信息并發(fā)布名為/phantom/pose的主題,從端機械臂在python腳本中設置一個節(jié)點UR5_control實時訂閱該主題,最后將訂閱的主端機械臂末端位姿信息通過操作空間映射算法發(fā)送給從端機械臂,控制銷釘?shù)竭_孔的中心位置。其中,節(jié)點robot_state_publisher用來訂閱節(jié)點omni1發(fā)布的名為joint_states的主題,該節(jié)點可以觀察主端機械臂末端的實時位置信息,用于判斷末端是否在主端工作空間內。搜索階段的ROS節(jié)點圖如圖8所示。
圖7 搜索階段的主從異構遙操作系統(tǒng)
圖8 搜索階段的ROS節(jié)點圖
通過主從異構遙操作系統(tǒng)完成搜索階段的尋孔任務,在一次尋孔的過程中,我們可視化了機器人尋孔的軌跡,如圖9、圖10所示。由于充當主從機械臂的兩個設備的空間坐標軸設置存在差異,為了便于操作,將從端機械臂末端的Y坐標軸對應主端機械臂末端的-Z坐標軸,從端機械臂末端的Z坐標軸對應主端機械臂末端的Y坐標軸。
圖9 搜索階段主端機械臂末端運行軌跡
圖10 搜索階段從端機械臂末端運行軌跡
從圖9、圖10中觀察到,主從機械臂末端可以實現(xiàn)實時跟隨并完成搜索階段的尋孔任務。
3.2.1 仿真環(huán)境搭建
在機器人仿真軟件webots中建立軸孔裝配仿真環(huán)境,編寫python語言腳本控制仿真環(huán)境中的機器人完成軸孔裝配任務的插入階段。其中包括UR5機械臂,六維力矩傳感器,夾持器和軸孔裝配工件。仿真環(huán)境中,基于DRL算法模型,通過訓練得到從端機械臂當前狀態(tài)與動作的映射關系從而獲取最優(yōu)控制策略,依據(jù)力反饋信息實時調整銷釘?shù)奈恢煤头较?驅動銷釘插入孔中。插入階段仿真環(huán)境如圖11所示。
圖11 插入階段仿真環(huán)境
3.2.2 實驗與結果分析
插入階段的仿真系統(tǒng)如圖12所示。首先獲取webots中銷釘位姿和力矩傳感器信息,將獲取的信息進行篩選和計算,將其結果作為環(huán)境狀態(tài)發(fā)送給DRL智能體進行決策;actor網(wǎng)絡根據(jù)當前狀態(tài)按照確定性行為策略選擇合適的動作,同時發(fā)送動作指令給控制器控制從端機械臂運動,然后獲取下一個數(shù)據(jù)作為環(huán)境狀態(tài)再次發(fā)送給智能體;critic網(wǎng)絡判斷當前狀態(tài)的價值并更新網(wǎng)絡。重復以上過程,直到裝配成功或者達到最大的訓練回合數(shù)。
圖12 插入階段仿真系統(tǒng)
搜索階段已將銷釘放置在孔的中心位置,插入階段的DRL訓練實驗進行了300回合,對于仿真中的一個回合,銷釘?shù)姆较蚴窃陔S機初始化的,每回合最大步數(shù)kmax為300,部分參數(shù)如表1所示。實驗訓練結果如圖13和圖14所示。
表1 算法使用的部分參數(shù)
圖13 每個回合的累積獎勵
圖14 每個回合的裝配步數(shù)
圖13為訓練過程中每個回合的累積獎勵變化情況,圖14為訓練過程中每個回合的裝配步數(shù)變化情況,從圖中可以看到,剛開訓練時,裝配失敗的次數(shù)較多,每個回合得到的累積獎勵很低且裝配步數(shù)較多,隨著裝配成功次數(shù)及訓練回合數(shù)的增加,智能體逐漸學會如何通過調整銷釘?shù)奈蛔送瓿裳b配,當訓練回合數(shù)達到200回合時,累積獎勵趨于穩(wěn)定且達到最大值附近,單個回合的裝配步數(shù)也逐漸變少。智能體通過不斷的訓練,學會了插入階段的軸孔裝配控制策略。
訓練完成之后,基于學習到的插入階段軸孔裝配控制策略執(zhí)行插入階段的裝配任務,在一次成功裝配的單一回合中,裝配過程中的力和力矩變化如圖15所示,裝配過程中銷釘?shù)奈恢煤妥藨B(tài)變化如圖16、圖17所示。從圖15中可以看到插入過程中從端機械臂末端的力和力矩分量最終都在零值附近,結合圖15~圖17可以看到從端機械臂依據(jù)力反饋信息實時調整銷釘?shù)奈恢煤妥藨B(tài)逐漸將銷釘插入孔中,圖16中銷釘位置的三個坐標分量最終都為零值,說明銷釘成功插入孔中。
圖15 單一回合中力及力矩的變化
圖16 單一回合中銷釘位置的變化
圖17 單一回合中銷釘姿態(tài)的變化
為了提高核設施日常運行維護的效率,保障核設施的安全運行,同時降低工作人員的受輻射劑量,針對CAP1400核電廠示范工程項目的任務需求,本文提出一種基于人機合作的核運維機器人軸孔裝配方法。根據(jù)核運維機器人在核電廠環(huán)境中的運行特點,將軸孔裝配任務分為基于遙操作系統(tǒng)的搜索階段和基于DRL的插入階段。在真實場景中搭建基于Phantom omni力反饋設備和UR5機械臂的主從異構遙操作系統(tǒng),使用ROS通信實現(xiàn)了主從機械臂的跟隨控制,并很好的完成了搜索階段的尋孔任務。在webots中建立簡化軸孔裝配仿真環(huán)境,通過編寫python語言腳本控制仿真環(huán)境中的機器人完成軸孔裝配任務的插入階段,進行了300回合的仿真訓練實驗,實驗中算法可以用少量的裝配步數(shù)和較高的獎勵實現(xiàn)銷釘?shù)牟迦肴蝿铡?/p>
在未來進一步的研究中,需要考慮真實環(huán)境下插入階段的軸孔接觸情況,并且增加該方法的泛化能力。同時,開展在核電廠環(huán)境下的實物驗證也是接下來的重要工作。