摘 要:利用深度強化學習方法對威脅區(qū)域環(huán)境下多無人機(UAV) 自主路徑規(guī)劃問題進行研究。為了解決強化學習算法中普遍存在難以收斂的問題,提出了一種改進的Actor-Attention-Critic for Multi-Agent Reinforcement Learning (MAAC) 算法用于多UAV 的自主路徑規(guī)劃。通過建立多UAV 勢場環(huán)境模型定義強化學習的馬爾科夫決策過程(Markov ModulatedProcess,MDP),在動態(tài)環(huán)境中規(guī)劃出合理的無碰撞路徑。仿真實驗驗證了所設計的多UAV 自主路徑規(guī)劃控制算法的有效性,并通過對比仿真驗證了該算法在收斂速度和避免碰撞方面具有更優(yōu)越的性能。
關鍵詞:無人機;多智能體深度強化學習;自主路徑規(guī)劃;MAAC 算法
中圖分類號:V279 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)07-1816-08
0 引言
無人機(UAV)作為人類完成復雜危險任務的重要工具,在近幾十年得到了迅速發(fā)展[1]。與單架UAV 相比,多UAV 協(xié)同作業(yè)具有魯棒性好、效率高等優(yōu)勢[2]。路徑規(guī)劃技術是UAV 執(zhí)行任務的關鍵技術之一,多UAV 路徑規(guī)劃在軍事、消防等領域得到了廣泛的應用,如協(xié)同搜救[3]、運輸[4] 與監(jiān)測[5-7]等。
多UAV 自主路徑規(guī)劃的研究重點在于考慮環(huán)境因素的同時為所有UAV 尋找從起點到終點的無碰撞的最優(yōu)路徑??偨Y近年來的UAV 路徑規(guī)劃算法,可以大致分為傳統(tǒng)算法與智能仿生學算法。其中傳統(tǒng)算法發(fā)現(xiàn)時間較早,且需要建立準確的模型。典型的傳統(tǒng)路徑規(guī)劃算法包括A* 算法[8]和人工勢場法[9]等。由于處理實際的路徑規(guī)劃問題時,傳統(tǒng)算法往往存在建模難的問題,因此人們開始傾向于研究基于智能仿生學的算法來解決路徑規(guī)劃問題。較為突出的有遺傳算法[10]、蟻群算法[11]和粒子群算法[12]等。
上述文獻的方法基本都需要環(huán)境的全局信息且計算量巨大,因此在動態(tài)環(huán)境以及復雜的任務下這些方法難以高效地得到最優(yōu)的結果。這些年,基于深度強化學習解決UAV 路徑規(guī)劃問題受到廣泛關注,其優(yōu)勢為可以避免復雜的動力學建模,通過端到端的自學習能力良好應對未知環(huán)境的變化。如文獻[13]對Multi-Agent Proximal Policy Optimization(MAPPO)算法進行了改進,提出了一種基于網(wǎng)絡剪枝的NP-MAPPO 算法用于多UAV 的路徑規(guī)劃,該算法通過去除神經網(wǎng)絡多余的神經元以及不重要的權重從而減少訓練時間,同時提高算法效率。文獻[14]使用Multi-Agent Deep Deterministic PolicyGradient (MADDPG)算法實現(xiàn)多UAV 的自主避障與導航,同時引入了優(yōu)先經驗回放機制,使優(yōu)先級較高的樣本選擇參數(shù)更新的概率更高,從而加快了算法的收斂速度。文獻[15]將MADDPG 算法與多UAV 任務決策問題相結合,分別從網(wǎng)絡結構和馬爾科夫決策過程(Markov Modulated Process,MDP)設計算法模型,提高了收斂速度以及學習效率。
上述文獻均利用強化學習算法對各自場景下的UAV 路徑規(guī)劃任務進行了研究和改進。然而大多數(shù)文獻僅針對靜態(tài)環(huán)境任務,沒有考慮環(huán)境中存在動態(tài)威脅區(qū)域的情況。另一方面,使用強化學習方法解決路徑規(guī)劃問題時,由于獎勵稀疏性的存在,通常會出現(xiàn)算法模型難以收斂的情況。基于上述問題,本文將傳統(tǒng)人工勢場方法引入深度強化學習,建立基于勢場的多UAV 路徑規(guī)劃系統(tǒng)模型。同時提出了一種多UAV 強化學習路徑規(guī)劃框架,該框架基于Actor-Attention-Critic for Multi-Agent ReinforcementLearning(MAAC)算法。訓練開始時,算法將勢場環(huán)境中UAV 所受到的斥力以及引力作為狀態(tài)值,同時利用獎勵函數(shù)進行訓練,實現(xiàn)在動態(tài)環(huán)境中的多UAV 自主導航與避障。仿真結果表明,本文所提出的方法可以很好地完成威脅區(qū)域環(huán)境下的多UAV自主路徑規(guī)劃任務。
1 問題描述與建模
多UAV 自主路徑規(guī)劃場景如圖1 所示。為了簡化問題,本文將UAV 運動環(huán)境設置在二維空間中。多UAV 自主路徑規(guī)劃的目標是制定合理的運動策略,使所有UAV 能夠快速到達目標位置,同時避免與環(huán)境中的威脅區(qū)域以及其他UAV 發(fā)生碰撞。
在人工勢場法的基礎上,首先對UAV 運動空間中的勢場環(huán)境進行建模,隨后定義基于勢場的深度強化學習框架。多UAV 環(huán)境建模如圖2 所示,環(huán)境中存在N 組UAV 與目標位置,存在M 個威脅區(qū)域,(pxui,pyui)和(pxti,pyti )分別表示第i 個UAV 和目標區(qū)域的位置,(pxol,pyol )表示第l 個威脅區(qū)域的位置。第i 個目標位置的引力勢場如下:
在多UAV 環(huán)境中,目標位置的斥力勢場值最小,UAV 距離目標位置越遠,其引力勢場值越大。在威脅區(qū)域附近的勢場中,距離威脅區(qū)域越近,斥力勢場值越大。
2 基于深度強化學習的多UAV 路徑規(guī)劃
2. 1 多智能體深度強化學習
在單智能體強化學習中,對于智能體來說,環(huán)境是穩(wěn)定的,但在多智能體系統(tǒng)中,每個智能體都會與環(huán)境進行交互,會導致環(huán)境對于每個智能體來說都變得不穩(wěn)定,針對這個問題,在研究中通常使用中心化訓練和去中心化執(zhí)行框架(Centralized TrainingDecentralized Execution,TDE)[16]來解決。在開始時,所有智能體同時參與訓練,共同改進策略網(wǎng)絡參數(shù)和價值網(wǎng)絡參數(shù),完成訓練后,智能體根據(jù)各自的策略網(wǎng)絡進行決策,并做出動作。
MDP 定義為智能體與環(huán)境的交互過程[17]。多UAV 自主路徑規(guī)劃的MDP 可以具體由一個多元組{S,A,R,O,P}來表示,其中S 表示環(huán)境狀態(tài)空間,st∈S 表示t 時刻的狀態(tài);A = {A1 ,A2 ,…,AN }表示所有UAV 的聯(lián)合動作空間,所有UAV 的聯(lián)合動作表示為a = {a1 ,a2 ,…,aN },其中ai ∈Ai 表示無人機i 的動作;R = {R1 ,R2 ,…,RN }表示所有UAV 的獎勵函數(shù)集合,用ri = Ri(st,ai)表示無人機i 在狀態(tài)st執(zhí)行動作ai 時的獎勵值;所有UAV 的觀測空間可以表示為集合O = {O1 ,O2 ,…,ON },用o = {o1 ,o2 ,…,oN }表示所有UAV 的觀測結果;狀態(tài)轉移概率函數(shù)表示為P(st+1| st,ai ),即指定無人機i 在狀態(tài)st 執(zhí)行動作ai 時,環(huán)境狀態(tài)st 改變?yōu)橄乱粫r刻的狀態(tài)st+1 時的概率。
2. 2 MAAC 算法
MADDPG 算法[16]是一種經典的CTDE 算法,該算法的每個智能體均有各自獨立的Actor 網(wǎng)絡和Critic 網(wǎng)絡,可以適用于合作或競爭的多智能體環(huán)境。但當環(huán)境中智能體數(shù)量增多時,集中式訓練的Critic 網(wǎng)絡輸入維度會爆炸式增長,導致算法難以收斂。
M AAC 算法[18]在MADDPG 的基礎上進行了改進,引入了帶有注意力機制的集中式Critic 網(wǎng)絡,在每個時間步為每個智能體動態(tài)選擇相關的信息,在一定程度上緩解了難以收斂的問題?;冢停粒粒盟惴ǖ亩啵眨粒?路徑規(guī)劃網(wǎng)絡框架如圖3 所示,MAAC 使用了2Actor-Critic 結構,每個UAV 均有各自獨立的帶有參數(shù)θμi的Actor 網(wǎng)絡μ(oti;θμi),其根據(jù)無人機i 的當前觀測值oti計算動作ati。集中式Critic 網(wǎng)絡表示為:
Q(ot1,ot2,…,otN ,at1,at2,…,atN ;θQi) = fi(gi(oti,ati),xti), (5)
式中:fi 為雙層多層感知機(Multilayer Perceptron,MLP),gi 為單層MLP 編碼器。訓練開始時,將無人機i 的當前觀測值oti以及動作ati輸入編碼器gi(oti,ati)得到無人機i 的編碼信息eti。對其他UAV 的編碼信息進行多頭自注意力選取得到其他UAV 對環(huán)境的總貢獻xti,具體表示為:
3. 2 狀態(tài)空間與動作空間
使用強化學習解決多UAV 路徑規(guī)劃問題時,需要設計多UAV 路徑規(guī)劃MDP。根據(jù)勢場環(huán)境模型,無人機i 的狀態(tài)空間包括引力勢場產生的引力以及所有斥力勢場產生的斥力,具體定義為:
4 仿真實驗
4. 1 環(huán)境設置
本文的實驗硬件環(huán)境為Intel Core i7-10700KCPU 和NVIDIA GeForce RTX 3090 GPU?;冢希穑澹睿粒?平臺構建了多UAV 路徑規(guī)劃模擬訓練環(huán)境,仿真環(huán)境是一個邊長為8 m 的正方形二維平面,環(huán)境中存在3 組UAV 和目標位置,每個UAV 的半徑和質量被設定為0. 1 m 和1 kg,最大速度限制為0. 85 m / s,目標位置的半徑為0. 05 m;環(huán)境中的威脅區(qū)域設置為半徑0. 35 m 的圓形區(qū)域。在訓練開始時,所有UAV、目標位置與威脅區(qū)域在環(huán)境中隨機生成。
4. 2 參數(shù)設置
本實驗使用了MADDPG 算法、MAAC 算法和改進的MAAC 算法進行訓練。3 種算法均設置了相同的參數(shù),激活函數(shù)使用ReLU,優(yōu)化器為Adam。最大訓練回合數(shù)為105 ,每個回合的最大時間步數(shù)為100,學習率設置為0. 001,網(wǎng)絡參數(shù)每100 步更新一次,折扣因子γ 為0. 95,回放緩存區(qū)大小為106 ,訓練批量大小為1 024,參數(shù)α、β 分別設置為0. 5、10,勢場閾值do 與du 均設置為0. 5。
4. 3 實驗結果與分析
為了驗證本文算法在不同場景下完成多UAV自主路徑規(guī)劃任務的有效性,分別在靜態(tài)威脅區(qū)域和動態(tài)威脅區(qū)域的情況下進行了實驗。同時,分別從碰撞率和目標到達率(Target Achievement Rate,TAR)兩方面來評價本文算法與基線算法的性能。碰撞率包括UAV 之間的碰撞率(Collision Rate Be-tween UAVs,CBRS)和UAV 與威脅區(qū)域之間的碰撞率(Collision Rate Between UAVs and Threat Area,CBRO),TAR 則為每回合UAV 路徑規(guī)劃的成功率,具體如下:
在靜態(tài)威脅區(qū)域實驗中,環(huán)境中的威脅區(qū)域為靜止狀態(tài)。強化學習的目標是使累積折扣獎勵最大化,因此累積回合平均獎勵通常用于衡量訓練結果是否收斂,使用最后1 000 回合的平均獎勵作為最終平均獎勵值,如圖4 所示。可以看出,算法在30 000 回合左右能夠學習到比較優(yōu)秀的策略,并逐漸達到收斂。
UAV 的碰撞率實驗結果如圖5(a)和圖5(b)所示,顯然改進后的MAAC 算法在避免碰撞方面的能力更加出色。TAR 是衡量UAV 路徑規(guī)劃能力的關鍵因素之一,實驗結果如圖5(c)所示??梢钥吹较啾扔谄渌惴?,改進后的MAAC 算法具有更高的TAR。
在動態(tài)威脅區(qū)域實驗中,環(huán)境中的威脅區(qū)域為隨機移動狀態(tài),其速度為0 ~ 0. 2 m / s。由于動態(tài)威脅區(qū)域環(huán)境更加復雜,使得UAV 完成路徑規(guī)劃任務更加困難。實驗結果如圖6 所示,與基線算法模型相比,改進的MAAC 算法具有更好的穩(wěn)定性,同時具有更低的碰撞率。經過訓練的多UAV 軌跡如圖7 所示,在靜態(tài)環(huán)境中,UAV 可以在避免發(fā)生碰撞的同時,快速地到達目標點。
環(huán)境中存在動態(tài)威脅區(qū)域時不同時間步長的多UAV 軌跡如圖8 所示,可以看出UAV 面對隨機移動的威脅區(qū)域時仍具備良好的避障性能與自主導航的能力。
3 種算法訓練數(shù)據(jù)對比如表1 所示??梢钥闯觯倪M的MAAC 算法在2 組實驗中的收斂速度以及收斂后的避障與導航能力具有更優(yōu)越的性能表現(xiàn)。
為了測試不同環(huán)境對算法模型的影響,本文在不同威脅區(qū)域數(shù)量下的環(huán)境中進行了改進的MAAC算法多UAV 路徑規(guī)劃任務,結果如圖9 所示。訓練結果表明,當環(huán)境中威脅區(qū)域數(shù)量上升時,碰撞率呈緩慢上升趨勢。當靜態(tài)和動態(tài)威脅區(qū)域的數(shù)量從2增加至6 時,算法模型的平均碰撞率分別從1. 22%和1. 42% 上升到3. 82% 和5. 08% ,且2 種環(huán)境的碰撞率相差不大。因此,改進的MAAC 算法在復雜的環(huán)境中仍然具有良好的性能。
5 結束語
針對現(xiàn)有多UAV 路徑規(guī)劃問題研究中的不足之處,本文利用深度強化學習方法對多UAV 自主路徑規(guī)劃進行了研究。通過引入傳統(tǒng)人工勢場法的概念,提出了一種基于勢場的MAAC 多UAV 自主路徑規(guī)劃方法,分別從狀態(tài)空間、動作空間和獎勵函數(shù)設計算法模型結構。最終仿真實驗結果表明,本文所提出的多智能體強化學習算法能夠使得UAV 在自主路徑規(guī)劃任務中獲得較好的控制策略,同時相較于基線算法有著更快的收斂速度以及更優(yōu)越的避障性能。
參考文獻
[1] 閆超,涂良輝,王聿豪,等. 無人機在我國民用領域應用綜述[J]. 飛行力學,2022,40(3):1-6.
[2] 楊旭,王銳,張濤. 面向無人機集群路徑規(guī)劃的智能優(yōu)化算法綜述[J]. 控制理論與應用,2020,37 (11 ):2291-2302.
[3] 楊陽,羅婷,唐偉革,等. 多旋翼無人機在醫(yī)學救援領域的應用研究[J]. 醫(yī)療衛(wèi)生裝備,2018,39 (6 ):91-95.
[4] KIM J,KIM S,JU C,et al. Unmanned Aerial Vehiclesin Agriculture:A Review of Perspective of Platform,Control,and Applications [J ]. IEEE Access,2019,7:105100-105115.
[5] YU H Y,LI G R,ZHANG W G,et al. The UnmannedAerialvehicle Benchmark:Object Detection,Tracking andBaseline[J]. International Journal of Computer Vision,2020,128(5):1141-1159.
[6] BASILICO N,CARPIN S. Deploying Teams of Heterogeneous UAVs in Cooperative Twolevel Surveillance Missions[C]∥ 2015 IEEE / RSJ International ConferenceonIntelligent Robots and Systems (IROS). Hamburg:IEEE,2015:610-615.
[7] XU X W,ZHANG X Y,YU B,et al. DACSDC LowPower Object Detection Challenge for UAV Applications[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence,2021,43(2):392-403.
[8] 孫淑光,孫濤. 基于融合A* 算法的無人機路徑規(guī)劃研究[J]. 電子測量技術,2022,45(9):82-91.
[9] 叢玉華,趙宗豪,邢長達,等. 基于改進人工勢場的無人機動態(tài)避障路徑規(guī)劃[J]. 兵器裝備工程學報,2021,42(9):170-176.
[10] 吳振,吳紅蘭. 基于改進遺傳算法的無人機航路規(guī)劃[J]. 電子測量技術,2021,44(24):52-58.
[11] 蘇梅梅,程詠梅,胡勁文,等. 基于改進蟻群算法的無人機集群任務分配和路徑規(guī)劃聯(lián)合優(yōu)化[J]. 無人系統(tǒng)技術,2021,4(4):40-50.
[12] 許諾. 基于改進PSO 算法的UAV 三維路徑規(guī)劃研究[J]. 電子測量技術,2022,45(2):78-83.
[13] 司鵬搏,吳兵,楊睿哲,等. 基于多智能體深度強化學習的無人機路徑規(guī)劃[J]. 北京工業(yè)大學學報,2023,49(4):449-458.
[14] WU D W,WAN K F,TANG J Q,et al. An ImprovedMethod Towards MultiUAV Autonomous NavigationUsing Deep Reinforcement Learning[C]∥2022 7th International Conference on Control and Robotics Engineering(ICCRE). Beijing:IEEE,2022:96-101.
[15] 李波,越凱強,甘志剛,等. 基于MADDPG 的多無人機協(xié)同任務決策[J]. 宇航學報,2021,42(6):757-765.
[16] LOWE R,WU Y I,TAMAR A,et al. Multiagent Actorcritic for Mixed CooperativeCompetitive Environments[C]∥31st International Conference on Neural Information Processing Systems. New York:ACM,2017:6382-6393.
[17] VAN OTTERLO M,WIERING M. Reinforcement Learningand Markov Decision Processes [M ]∥ ReinforcementLearning:Stateoftheart. [S. l. :s. n. ],2012:3-42.
[18] IQBAL S,SHA F. Actorattentioncritic for MultiagentReinforcement Learning [EB / OL ]. (2018 - 10 - 05 )[2023-07-10]. https:∥arxiv. org / abs / 1810. 02912.
作者簡介
周從航 男,(1999—),碩士研究生。主要研究方向:多智能體系統(tǒng)、強化學習。
李建興 男,(1968—),碩士,教授。主要研究方向:分布式控制、集成自動化、智能控制、機器視覺等。
(*通信作者)石宇靜 女,(1978—),博士,副教授。主要研究方向:復雜網(wǎng)絡同步控制、非線性系統(tǒng)控制理論、電力系統(tǒng)控制等。
林致睿 男,(1998—),碩士研究生。主要研究方向:復雜網(wǎng)絡同步控制。
基金項目:福建省自然科學基金(2020J01876);福建工程學院科研啟動基金(GY-Z21215,GY-Z21216)