馬麗新 劉磊 劉晨
摘要為了提高移動(dòng)機(jī)器人自主導(dǎo)航系統(tǒng)的智能化水平和安全性,設(shè)計(jì)了安全屏障機(jī)制下基于SAC(Soft Actor-Critic)算法的自主導(dǎo)航系統(tǒng),并構(gòu)建了依賴于機(jī)器人與最近障礙物距離、目標(biāo)點(diǎn)距離以及偏航角的回報(bào)函數(shù).在Gazebo仿真平臺(tái)中,搭建載有激光雷達(dá)的移動(dòng)機(jī)器人以及周圍環(huán)境.實(shí)驗(yàn)結(jié)果表明,安全屏障機(jī)制在一定程度上降低了機(jī)器人撞擊障礙物的概率,提高了導(dǎo)航的成功率,并使得基于SAC算法的移動(dòng)機(jī)器人自主導(dǎo)航系統(tǒng)具有更高的泛化能力.在更改起終點(diǎn)甚至將靜態(tài)環(huán)境改為動(dòng)態(tài)時(shí),系統(tǒng)仍具有自主導(dǎo)航的能力.
關(guān)鍵詞移動(dòng)機(jī)器人;SAC算法;安全屏障機(jī)制;激光雷達(dá);自主導(dǎo)航;Gazebo
中圖分類號(hào)
TP242.6
文獻(xiàn)標(biāo)志碼
A
收稿日期
2022-06-01
資助項(xiàng)目
國(guó)家自然科學(xué)基金(61773152).
作者簡(jiǎn)介馬麗新,女,碩士生,研究方向?yàn)閺?qiáng)化學(xué)習(xí)、自主體控制.1623406486@qq.com
劉磊(通信作者),男,博士,教授,研究方向?yàn)閺?qiáng)化學(xué)習(xí)理論研究與應(yīng)用、多智能體系統(tǒng)分析與控制.liulei_hust@163.com
1河海大學(xué)理學(xué)院,南京,210098
0 引言
近幾年,具有自主導(dǎo)航功能的無(wú)人車已應(yīng)用到日常生活中,如無(wú)人公交、無(wú)人網(wǎng)約巴士、無(wú)人配送車等.路徑規(guī)劃能力是衡量無(wú)人駕駛車輛是否可以自主導(dǎo)航的重要標(biāo)準(zhǔn).傳統(tǒng)的路徑規(guī)劃方法通常需要人為提取特征來(lái)獲知環(huán)境信息,以完成對(duì)環(huán)境地圖的繪制、移動(dòng)機(jī)器人的定位以及路徑規(guī)劃,但在復(fù)雜環(huán)境下很難實(shí)現(xiàn).而強(qiáng)化學(xué)習(xí)[1]不依賴于環(huán)境模型以及先驗(yàn)知識(shí),還可自主在線學(xué)習(xí),近年來(lái)逐漸成為移動(dòng)機(jī)器人自主導(dǎo)航的研究熱點(diǎn)[2].
隨著計(jì)算機(jī)硬件水平的提升,深度學(xué)習(xí)的任意逼近能力得以更大化地發(fā)揮,許多深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合的算法被提出,如深度Q網(wǎng)絡(luò)[3] (Deep Q-Network,DQN)、深度確定性策略梯度[4](Deep Deterministic Policy Gradient,DDPG)等.2018年,Haarnoja等[5-6]針對(duì)無(wú)模型深度學(xué)習(xí)算法訓(xùn)練不穩(wěn)定、收斂性差、調(diào)參困難等問(wèn)題,提出一種基于最大熵強(qiáng)化學(xué)習(xí)框架的軟更新行動(dòng)者-評(píng)論家算法(Soft Actor-Critic,SAC).最大熵的設(shè)計(jì)使得算法在動(dòng)作的選擇上盡可能地隨機(jī),既避免收斂到局部最優(yōu),也提高了訓(xùn)練的穩(wěn)定性.另外,通過(guò)在MuJoCo模擬器上一系列最具挑戰(zhàn)性的連續(xù)控制任務(wù)中與DDPG、每步梯度更新都需要一定數(shù)量新樣本的近似策略優(yōu)化[7]等算法做對(duì)比實(shí)驗(yàn),凸顯了SAC算法性能的高穩(wěn)定性和先進(jìn)性.
在路徑規(guī)劃領(lǐng)域,基于SAC算法的機(jī)器人自主導(dǎo)航相關(guān)研究已引起學(xué)者的廣泛關(guān)注.Xiang等[8]將LSTM網(wǎng)絡(luò)融入到SAC算法中用于移動(dòng)機(jī)器人導(dǎo)航,以360°的10維激光雷達(dá)信息和目標(biāo)信息為輸入,輸出連續(xù)空間的線速度和角速度,驗(yàn)證了改進(jìn)后的算法在訓(xùn)練過(guò)程中平均回合回報(bào)(累計(jì)回報(bào)/累計(jì)回合數(shù))的增長(zhǎng)速度較快.de Jesus等[9]同樣基于稀疏的10維激光雷達(dá)數(shù)據(jù),不過(guò)激光范圍是正前方180°,以雷達(dá)信息、目標(biāo)方位、動(dòng)作為網(wǎng)絡(luò)輸入,并創(chuàng)建了兩個(gè)不同的Gazebo環(huán)境,在每個(gè)環(huán)境中都對(duì)SAC、DDPG兩種深度強(qiáng)化學(xué)習(xí)技術(shù)在移動(dòng)機(jī)器人導(dǎo)航中的應(yīng)用效果做了比較,從導(dǎo)航成功率等方面驗(yàn)證了SAC算法的性能優(yōu)于DDPG算法.
移動(dòng)機(jī)器人的安全性在自主導(dǎo)航過(guò)程中是不可忽視的.近些年有學(xué)者通過(guò)在訓(xùn)練環(huán)節(jié)增加安全機(jī)制,來(lái)降低危險(xiǎn)動(dòng)作被選擇的概率,進(jìn)而促進(jìn)機(jī)器人特定任務(wù)的完成.代珊珊等[10]針對(duì)無(wú)人車探索的安全問(wèn)題,提出一種基于動(dòng)作約束的軟行動(dòng)者-評(píng)論家算法(Constrained Soft Actor-Critic,CSAC),將其用于載有攝像頭的無(wú)人車車道保持任務(wù)上.動(dòng)作約束具體表現(xiàn)為當(dāng)無(wú)人車轉(zhuǎn)動(dòng)角度過(guò)大時(shí),回報(bào)會(huì)相對(duì)較小;當(dāng)無(wú)人車執(zhí)行某動(dòng)作后偏離軌道或發(fā)生碰撞時(shí),該動(dòng)作將被標(biāo)記為約束動(dòng)作并在之后的訓(xùn)練中合理約束.
基于以上啟發(fā),考慮到SAC算法在移動(dòng)機(jī)器人路徑規(guī)劃領(lǐng)域的應(yīng)用尚未被充分研究,本文以提高機(jī)器人自主導(dǎo)航系統(tǒng)的智能化水平和安全性為出發(fā)點(diǎn),設(shè)計(jì)出一種安全屏障機(jī)制下基于SAC算法的機(jī)器人導(dǎo)航系統(tǒng).首先對(duì)SAC算法以及仿真平臺(tái)Gazebo做了簡(jiǎn)單描述.然后搭建導(dǎo)航系統(tǒng),包括機(jī)器人狀態(tài)、動(dòng)作、回報(bào)函數(shù)的定義以及安全屏障機(jī)制的設(shè)計(jì).最后在Gazebo中訓(xùn)練模型,通過(guò)靜態(tài)環(huán)境和動(dòng)態(tài)環(huán)境等5組共300回合的對(duì)比測(cè)試驗(yàn)證了安全屏障機(jī)制在提高導(dǎo)航成功率上的有效性.
4 模型效果測(cè)試
4.1 靜態(tài)環(huán)境
為了多方位探測(cè)模型的效果,共進(jìn)行4組不同的測(cè)試,且在每組測(cè)試中都將SAC+安全屏障機(jī)制模型(SAC+)效果和無(wú)安全屏障機(jī)制的SAC模型效果做對(duì)比.其中,測(cè)試1的環(huán)境、起點(diǎn)和終點(diǎn)與訓(xùn)練時(shí)的設(shè)置相同,測(cè)試2相對(duì)訓(xùn)練僅更改了終點(diǎn),測(cè)試3相對(duì)訓(xùn)練更改了起點(diǎn)和終點(diǎn),測(cè)試4的設(shè)置與模型訓(xùn)練時(shí)完全不同,不僅將環(huán)境變得相對(duì)復(fù)雜,還改變了起點(diǎn)和終點(diǎn)(圖11).詳細(xì)測(cè)試條件配置及兩種模型的成功率對(duì)比結(jié)果如表4所示.
由表4看出,在測(cè)試3中,兩種模型的成功率均為100%,在測(cè)試1、2中,SAC+安全屏障機(jī)制模型的成功率略高于后者,而在更改了環(huán)境的測(cè)試4中,SAC+安全屏障機(jī)制模型的成功率遠(yuǎn)高于SAC模型.
在4組測(cè)試中,兩種模型的導(dǎo)航軌跡長(zhǎng)度(即動(dòng)作步數(shù))對(duì)比如圖12—15所示(點(diǎn)狀表示該模型在當(dāng)前回合導(dǎo)航失?。?在測(cè)試1圖12中,SAC+安全屏障機(jī)制模型的導(dǎo)航軌跡長(zhǎng)度普遍低于SAC模型,而且100個(gè)回合無(wú)一失敗,驗(yàn)證了SAC+安全屏障機(jī)制模型的高效性和穩(wěn)定性.在測(cè)試2圖13中,兩種模型均有導(dǎo)航失敗的情況,但SAC+安全屏障機(jī)制模型失敗次數(shù)較少,且在軌跡長(zhǎng)度與SAC模型相差不大的情況下波動(dòng)相對(duì)較小,更加體現(xiàn)出前者的穩(wěn)定性.在測(cè)試3圖14中,雖然SAC+安全屏障機(jī)制模型和SAC模型均無(wú)導(dǎo)航失敗的回合,但是在大多數(shù)回合中前者導(dǎo)航的軌跡長(zhǎng)度短于后者.在測(cè)試4圖15中,兩種模型的效果差距很大,在SAC+安全屏障機(jī)制模型50次均導(dǎo)航成功時(shí),SAC模型僅成功導(dǎo)航3次,一定程度上凸顯了前者在新環(huán)境的高適用度.
4.2 動(dòng)態(tài)環(huán)境
根據(jù)表4中的模型測(cè)試結(jié)果,可以看出安全屏障機(jī)制下基于SAC算法的移動(dòng)機(jī)器人自主導(dǎo)航系統(tǒng)在不同的靜態(tài)環(huán)境中導(dǎo)航成功率均較高.為了更全面地探究訓(xùn)練模型對(duì)不同環(huán)境的泛化性以及魯棒性,創(chuàng)建含有靜態(tài)和動(dòng)態(tài)障礙物的環(huán)境(圖16),再次測(cè)試模型的導(dǎo)航效果.
在動(dòng)態(tài)環(huán)境圖16中,物體A為動(dòng)態(tài)障礙物,在點(diǎn)(3.5,5.5)與點(diǎn)(4.3,4.7)之間以約0.062 m/s 的速度做勻速直線往返運(yùn)動(dòng)(圖16中黃色虛線).模型測(cè)試條件配置及導(dǎo)航成功率如表5所示.由表5可知,本文設(shè)計(jì)的系統(tǒng)在動(dòng)態(tài)環(huán)境中的導(dǎo)航成功率表現(xiàn)雖然不及靜態(tài)環(huán)境,但仍優(yōu)于無(wú)安全屏障機(jī)制的導(dǎo)航系統(tǒng),表明安全屏障機(jī)制在提高導(dǎo)航成功率方面具有積極作用.
圖17為模型導(dǎo)航路徑長(zhǎng)度對(duì)比(點(diǎn)狀表示該模型在當(dāng)前回合導(dǎo)航失?。?其中SAC+安全屏障機(jī)制模型在第1、12回合導(dǎo)航的步數(shù)多于其他回合,是因?yàn)橐苿?dòng)機(jī)器人為了躲避動(dòng)態(tài)障礙物,選擇了先繞過(guò)障礙物B再向終點(diǎn)前進(jìn)的路徑,體現(xiàn)了該導(dǎo)航系統(tǒng)的靈活性.
5 結(jié)論
本文在Gazebo3D仿真平臺(tái)構(gòu)建了基于安全屏障機(jī)制和SAC算法的移動(dòng)機(jī)器人自主導(dǎo)航系統(tǒng),通過(guò)靜態(tài)和動(dòng)態(tài)環(huán)境中的多組對(duì)比實(shí)驗(yàn)驗(yàn)證了安全屏障機(jī)制在提高機(jī)器人導(dǎo)航成功率方面的有效性.仿真使用的激光雷達(dá)只可掃描360°的同一平面信息,因此只有當(dāng)障礙物相對(duì)規(guī)則(如長(zhǎng)方體形、圓柱形等)時(shí)才能比較準(zhǔn)確地測(cè)出距離信息.未來(lái)可通過(guò)配置多個(gè)不同水平面的雷達(dá)或使用更高級(jí)的雷達(dá)來(lái)增大導(dǎo)航系統(tǒng)對(duì)障礙物形狀的包容度,使得仿真環(huán)境更加貼近復(fù)雜的現(xiàn)實(shí)場(chǎng)景.
參考文獻(xiàn)
References
[1] Sutton R S,Barto A G.Reinforcement learning:an intro-duction[J].IEEE Transactions on Neural Networks,1998,9(5):1054
[2] 劉志榮,姜樹(shù)海.基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究綜述[J].制造業(yè)自動(dòng)化,2019,41(3):90-92
LIU Zhirong,JIANG Shuhai.Review of mobile robot path planning based on reinforcement learning[J].Manufacturing Automation,2019,41(3):90-92
[3] Mnih V,Kavukcuoglu K,Silver D,et al.Playing atari with deep reinforcement learning[J].arXiv e-print,2013,arXiv:1312.5602
[4] Lillicrap T P,Hunt J J,Pritzel A,et al.Continuous control with deep reinforcement learning[J].arXiv e-print,2015,arXiv:1509.02971
[5] Haarnoja T,Zhou A,Abbeel P,et al.Soft actor-critic:off-policy maximum entropy deep reinforcement learning with a stochastic actor[J].arXiv e-print,2018,arXiv:1801.01290
[6] Haarnoja T,Zhou A,Hartikainen K,et al.Soft actor-critic algorithms and applications[J].arXiv e-print,2018,arXiv:1812.05905
[7] Schulman J,Wolski F,Dhariwal P,et al.Proximal policy optimization algorithms[J].arXiv e-print,2017,arXiv:1707.06347
[8] Xiang J Q,Li Q D,Dong X W,et al.Continuous control with deep reinforcement learning for mobile robot navigation[C]//2019 Chinese Automation Congress (CAC).November 22-24,2019,Hangzhou,China.IEEE,2019:1501-1506
[9] de Jesus J C,Kich V A,Kolling A H,et al.Soft actor-critic for navigation of mobile robots[J].Journal of Intelligent & Robotic Systems,2021,102(2):31
[10] 代珊珊,劉全.基于動(dòng)作約束深度強(qiáng)化學(xué)習(xí)的安全自動(dòng)駕駛方法[J].計(jì)算機(jī)科學(xué),2021,48(9):235-243
DAI Shanshan,LIU Quan.Action constrained deep reinforcement learning based safe automatic driving method[J].Computer Science,2021,48(9):235-243
[11] Polyak B T,Juditsky A B.Acceleration of stochastic approximation by averaging[J].SIAM Journal on Control and Optimization,1992,30(4):838-855
[12] Koenig N,Howard A.Design and use paradigms for Gazebo,an open-source multi-robot simulator[C]//2004 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).September 28-October 2,2004,Sendai,Japan.IEEE,2004:2149-2154
[13] Quigley M,Gerkey B P,Conley K,et al.ROS:an open-source robot operating system[C]//ICRA Workshop on Open-Source Software,2009
Robot navigation system based on SAC with security barrier mechanism
MA Lixin1 LIU Lei1 LIU Chen1
1College of Science,Hohai University,Nanjing 210098
Abstract An autonomous navigation system was proposed based on Soft Actor-Critic under the security barrier mechanism to improve the intelligence and security of mobile robot autonomous navigation system.The return function was designed based on distance between the robot and the nearest obstacle,the distance from the target point,and the yaw angle.On the Gazebo simulation platform,a mobile robot with lidar and its surrounding environment were built.Experiments showed that the security barrier mechanism reduced the probability of collision with obstacles to a certain extent,improved the success rate of navigation,and made the SAC-based mobile robot autonomous navigation system have high generalization ability.The system still had the ability of autonomous navigation when changing the origin and destination or even changing the environment from static to dynamic.
Key words mobile robot;soft actor-critic (SAC);security barrier mechanism;lidar;autonomous navigation;Gazebo