陳砆興 朱亞軍
摘 要: 為了解決傳統(tǒng)機械臂視覺伺服受外界環(huán)境影響較大的問題,提出一種基于圖像的無標定視覺伺服控制方法。該方法對采集的每一幀圖像參數(shù)進行處理,無需繁瑣的攝像頭校準定位等操作,從而在復雜環(huán)境下獲得了較高的抗干擾工作性能。通過動態(tài)的迭代學習過程實現(xiàn)機械臂的最優(yōu)軌跡控制。在自由度機器臂測試平臺上的實驗結(jié)果表明:所提方法既可以減少模型參數(shù),提高計算速度,又可以有效地對機械臂進行控制,可以對位置信息實施精確調(diào)整。
關(guān)鍵詞: 機械臂 無標定視覺 非線性矩陣 軌跡控制
中圖分類號: TP24文獻標識碼: A文章編號: 1679-3567(2024)04-0001-04
基金項目:甘肅省教育廳2022年度高等學校創(chuàng)新基金項目“蘋果采摘機器人視覺定位與檢測系統(tǒng)研究”(項目編號:2022A-225)。
The Uncalibrated Visual Servo System for Manipulators Based on the Reinforcement Learning of Images
CHEN Fuxing ZHU Yajun
Lanzhou Petrochemical University of Vocational Technology, Lanzhou, Gansu Province, 730060 China
Abstract: In order to solve the problem that the traditional visual servo of manipulators is greatly affected by the external environment, this paper proposes an image-based uncalibrated visual servo control method. This method processes the parameters of each frame of captured image without complicated camera calibration and positioning and other operations, so as to obtain high anti-interference performance in the complex environment, and realizes the optimal trajectory control of the manipulator through a dynamic iterative learning process. Experimental results on the freedom testing platform of the manipulator show that the proposed method can not only reduce model parameters and increase the calculation speed, but also effectively control the manipulator and accurately adjust its position information.
Key Words: Mechanical arm; Uncalibrated vision; Nonlinear matrix; Trajectory control
機械臂無標定視覺伺服是通過分析攝像機采集到每一幀的圖像對機械臂進行控制。此領(lǐng)域涵蓋的技術(shù)有機器人技術(shù)、計算機圖像處理、控制等內(nèi)容。傳統(tǒng)的視覺伺服是基于無標定的需要大量的預處理和設(shè)置參數(shù)等操作。自20世紀90年代,無標定的視覺伺服系統(tǒng)應(yīng)運而生,成為研究熱點。
隨著人工智能和機器人技術(shù)的發(fā)展,將強化學習應(yīng)用于機械臂控制系統(tǒng)變成近年來機器人控制技術(shù)發(fā)展熱點[1]。李靜提出了基于模糊的強化學習方法來實現(xiàn)自動化路徑規(guī)劃的控制[2]。朱光耀利用強化學習解決了多關(guān)節(jié)機械臂軌跡跟蹤等問題,該方法的模型分別為評價網(wǎng)絡(luò)和動作網(wǎng)絡(luò),評價網(wǎng)絡(luò)可以無限逼近長期的代價函數(shù),動作網(wǎng)絡(luò)被用于系統(tǒng)輸入[3]。楊加超提出將非同步迭代規(guī)則用于強化學習中,可使機械臂在較強干擾條件下進行指定的動作,該方法在多機器人系統(tǒng)上加入了并行計算,節(jié)省了訓練時間[4]。但是上述基于強化學習的方法均沒有有效利用圖像屬性參數(shù),因此本文嘗試在強化學習中合理結(jié)合圖像屬性參數(shù),來提高抗干擾能力,實現(xiàn)快速精確的機械臂控制。
本文采取強化學習的機械臂無標定視覺伺服控制方法,首先,利用機械臂無標定視覺伺服控制進行每一幀的特征提取;其次,利用TD算法遞推估計機械臂關(guān)節(jié)空間與圖像屬性參數(shù)空間之間的非線性矩陣。展示了基于強化學習的無標定視覺伺服控制平臺。Cam1和Cam2為兩個采集動態(tài)圖像的攝像機。為了便于圖像進行屬性參數(shù)提取,為位姿定位提供有利條件。
1.1 基于強化學習的控制方法
基于強化學習的無標定視覺伺服總體控制結(jié)構(gòu)和詳細設(shè)計方案如圖1所示。當機械臂在目標空間運動時,通過雙目攝像頭Cam1、Cam2來采集每一幀的圖像信息,通過采集可以收集到4個圖像屬性參數(shù)點來反映機械臂末端位姿狀態(tài),其中,Cam1產(chǎn)生點P11、P12;Cam2產(chǎn)生點P21、P22;θ1是點P11、P12和Cam1采集的u軸之間夾角;θ2是點P21、P22和Cam2采集的u軸之間夾角。機械臂無標定視覺伺服控制利用當前fc與期望圖像屬性參數(shù)fd進行偏差運算,然后將關(guān)節(jié)控制器操控機械臂達到目標關(guān)節(jié)位置q,得出機械臂空間位姿信息T,最后使用雙目攝像頭Cam1、Cam2進行每一幀的圖信息采集,并得到控制偏差的信息。迭代此過程,即可得到機械臂到期望位姿。
本文提出一種基于強化學習的視覺伺服控制方法,為特征偏差加權(quán)一個學習而得到的系數(shù),通過使用Kalman在線濾波,可以令采集的圖像信息特征和機械臂關(guān)節(jié)運動變化之間達到較優(yōu)的逼近效果,以產(chǎn)生相對較優(yōu)的空間運動軌跡。本文采用基于無模型強化學習算法中的幀間差分學習算法,學習訓練無標定視覺伺服控制器,圖1中Δf表示圖像屬性參數(shù)偏差值,S表示Agent狀態(tài),k表示圖像屬性參數(shù)偏差的運算系數(shù)[5]。
1.2 圖像屬性參數(shù)提取方法
無標定視覺伺服控制方法的優(yōu)劣性,關(guān)鍵的一步在于對每一幀圖像提取特征的效率和質(zhì)量。為解決機械臂的軌跡控制問題,就必須在三維笛卡爾空間中對圖像屬性參數(shù)進行有效表示。因此,本文對圖像屬性參數(shù)提取的方法如圖2所示。
如圖2所示,為機械臂末端染上紅黃顏料作為標記,可以使攝像頭在提取圖像信息時更高效,更有區(qū)別度,為后面圖像處理時創(chuàng)造便捷條件。通過視覺傳感器以及圖像處理后,機械臂末端上分別投影到采集的圖像1上的二維坐標為P11(u11,v11)和P12(u12,v12),采集的圖像2上的二維坐標為P21(u21,v21)和P22(u22,v22)。當機械臂末端達到期望位姿,圖像平面1的點P11(u11,v11)和P12() u12,v12與采集的圖像2的點P21(u21,v21)和P22(u22,v22)分別為P1和P2在圖像1和2上的期望投影點。
2.1 環(huán)境建模
利用自由度機器臂測試平臺搭建實驗環(huán)境,選取MT-ARM機械臂作為控制對象。首先要獲悉機械臂的D-H參數(shù)。實驗所用機械臂各連桿D-H參數(shù)如表1所示。
2.2 控制性能
為了將機械臂移動范圍限制在測試攝像機的工作區(qū)域內(nèi),訓練開始前需要調(diào)節(jié)機械臂初始關(guān)節(jié)角。機械臂的兩攝像機圖像平面的圖像屬性參數(shù)如圖3所示。
如圖3所示,下方直線連接的2個坐標視為采集到的圖片參數(shù)信息,上方2個坐標視為所需的圖片參數(shù)信息。通過強化學習后,控制機械臂移動到當前迭代期望的目標位姿,其對應(yīng)圖像屬性參數(shù)如圖4所示。
在運行每一次強化學習任務(wù)后,對機械臂的圖像屬性參數(shù)偏差進行判斷,如果Δf小于s16,則表示該強化學習任務(wù)結(jié)束。最終結(jié)合望位姿對應(yīng)圖像屬性參數(shù),利用所得的參數(shù)對機械臂進行訓練。
在相同的實驗條件下,將常規(guī)PID控制和本文強化學習控制進行了對比,機械臂控制和期望圖像屬性參數(shù)信息分別如表2和表3所示。
從表4可以看出,強化學習訓練機械臂運動的前后過程,機械臂的開始位姿和采集的圖像信息特征與期望位姿相同,但終止位姿和圖像采集信息的特征上存有偏差。利用強化學習訓練后,訓練后期望圖像屬性參數(shù)與結(jié)束時圖像屬性參數(shù)偏差見表4。訓練前后機械臂的控制軌跡見圖5。
從表3和圖5可以看出,機械臂經(jīng)過訓練后機械臂最終獲得的圖像屬性參數(shù)偏差大大小于一個像素rad,也就是說位置準確度可以保持小于0.001 m范圍。圖5中,訓練前后機械臂的控制軌跡通過迭代次數(shù)的增加與預測軌跡誤差不斷減少,當執(zhí)行到100次迭代時趨于穩(wěn)定,由此可見本文方法的魯棒性較高。
本文通過引入強化學習來對機械臂進行控制,提出一種無標定視覺伺服的方法,對采集的每一幀圖像參數(shù)進行處理,利用強化學習中的TD算法遞推估計機械臂關(guān)節(jié)空間與圖像屬性參數(shù)空間之間的非線性矩陣。實驗結(jié)果表明:本文方法對于無標定的伺服系統(tǒng)控制起到了有效的作用,具有良好的性能。但是,TD算法僅能夠處理離散函數(shù)問題,這對機械臂的控制精度有不利影響,因此后續(xù)將嘗試采用能夠處理連續(xù)函數(shù)問題的強化學習技術(shù)來進一步改進控制性能。
參考文獻
[1]李濤.機械臂無標定視覺伺服及其網(wǎng)絡(luò)化控制技術(shù)研究[D].天津:天津大學,2020.
[2]李靜.機械臂視覺伺服控制研究[D].淮南:安徽理工大學,2022.
[3]朱光耀.全向移動機械臂的無標定視覺拾取控制系統(tǒng)設(shè)計[D].青島:青島科技大學,2021.
[4]楊加超.無標定視覺伺服中圖像雅可比矩陣在線估計方法的研究[D].株洲:湖南工業(yè)大學,2021.
[5]程亮瑋.工業(yè)機械臂的無標定視覺伺服系統(tǒng)研究[D].綿陽:西南科技大學,2021.