吳健發(fā) 王宏倫 王延祥 劉一恒
目前,隨著無人機(jī)(Unmanned aerial vehicles,UAV)的作業(yè)空域,由中高空向低空乃至超低空不斷拓展,其所面臨的障礙環(huán)境也日趨復(fù)雜,具體表現(xiàn)為低空障礙具有密集性、動態(tài)性和不確定性的特點(diǎn)[1].復(fù)雜障礙環(huán)境對無人機(jī)的飛行安全帶來了極大的挑戰(zhàn),同時也對無人機(jī)的自主控制能力提出了更高要求.作為無人機(jī)自主控制能力的關(guān)鍵技術(shù),在線路徑規(guī)劃方法受到廣泛關(guān)注,從決策行為角度看,可大致分為慎思式和反應(yīng)式兩類方法[2-3].
慎思式在線路徑規(guī)劃方法主要基于全局靜態(tài)障礙信息和對動態(tài)障礙的狀態(tài)預(yù)測信息進(jìn)行決策,其代表性方法為基于預(yù)測控制的路徑規(guī)劃方法,即預(yù)測有限步長內(nèi)的障礙物狀態(tài),基于此優(yōu)化該時間段內(nèi)的控制序列,最后執(zhí)行當(dāng)前時刻所需控制輸入并以此類推,例如Lindqvist 等[4]和茹常劍等[5]采用非線性模型預(yù)測控制方法直接產(chǎn)生規(guī)避機(jī)動的控制輸入;Luo 等[6]和Wu 等[7]將勢場類路徑規(guī)劃方法與滾動時域控制策略(Receding horizon control,RHC)相結(jié)合,通過RHC 策略在線優(yōu)化勢場類方法的參數(shù),以應(yīng)對復(fù)雜多變的障礙環(huán)境.這類方法雖然能取得較好的規(guī)劃效果,但由于障礙狀態(tài)預(yù)測和串行優(yōu)化控制序列兩大過程需要耗費(fèi)較長的計算時間,因此可能無法滿足復(fù)雜環(huán)境下規(guī)劃的實(shí)時性要求.
與慎思式方法相反,反應(yīng)式在線路徑規(guī)劃方法一般不需要對未來障礙狀態(tài)進(jìn)行預(yù)測,而是基于當(dāng)前或過去檢測到的障礙與規(guī)劃主體間相對狀態(tài)進(jìn)行快速決策,例如Steiner 等[3]提出一種基于開放扇區(qū)的無人機(jī)反應(yīng)性避障路徑規(guī)劃方法,該方法根據(jù)機(jī)載激光雷達(dá)的二維掃描信息和對無人機(jī)過去機(jī)動行為的短期記憶信息,設(shè)計了一系列規(guī)避規(guī)則;魏瑞軒等[8]借鑒生物條件反射機(jī)制,提出基于Skinner理論的無人機(jī)反應(yīng)式應(yīng)急規(guī)避方法;Hebecker 等[9]將無人機(jī)傳感器視場離散化為網(wǎng)格地圖,然后基于障礙在網(wǎng)格地圖中的分布情況采用波前算法實(shí)現(xiàn)局部三維路徑規(guī)劃.
近年來,以深度強(qiáng)化學(xué)習(xí)為代表的新一代人工智能方法廣泛應(yīng)用于各類復(fù)雜系統(tǒng)的優(yōu)化控制問題,此類機(jī)器學(xué)習(xí)方法具有如下優(yōu)點(diǎn)[10-12]: 1)不依賴于環(huán)境模型和先驗(yàn)知識,僅需要通過與環(huán)境進(jìn)行交互即可實(shí)現(xiàn)策略的升級;2)所引入的深度神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的非線性逼近能力,可以有效應(yīng)對高維連續(xù)狀態(tài)-動作空間下的優(yōu)化控制問題(三維復(fù)雜障礙環(huán)境下無人機(jī)避障路徑規(guī)劃的本質(zhì));3)由于深度強(qiáng)化學(xué)習(xí)得到的策略在使用時只需進(jìn)行一個神經(jīng)網(wǎng)絡(luò)的前向傳播過程,非常適用于具有高實(shí)時性需求的決策任務(wù).基于上述優(yōu)點(diǎn),部分學(xué)者對其在反應(yīng)式路徑規(guī)劃中的應(yīng)用進(jìn)行了一定的探索,例如Guo 等[13]提出一種面向離散動作空間的分層Q 學(xué)習(xí)反應(yīng)式路徑規(guī)劃方法,可用于動態(tài)威脅環(huán)境下的無人機(jī)自主導(dǎo)航;Tai 等[14]、Wang 等[15-16]和Hu 等[17]則針對連續(xù)動作空間,基于深度確定性策略梯度算法(Deep deterministic policy gradient,DDPG)(也是應(yīng)用最為廣泛的連續(xù)型深度強(qiáng)化學(xué)習(xí)方法之一)及其衍生算法設(shè)計反應(yīng)式路徑規(guī)劃方法.這些方法均實(shí)現(xiàn)了良好的避障效果,但仍有如下兩個問題值得進(jìn)一步進(jìn)行深入研究:
1)深度強(qiáng)化學(xué)習(xí)本質(zhì)上屬于一種通用型的決策方法,在處理路徑規(guī)劃這種特定問題時可能難以兼顧安全性和路徑質(zhì)量.從上述文獻(xiàn)的仿真結(jié)果可以看出,直接使用深度強(qiáng)化學(xué)習(xí)方法生成控制輸入以規(guī)劃路徑雖然能確保無人機(jī)快速安全避障,但路徑的平滑性并不理想,不利于底層控制器精確跟蹤.如果能將深度強(qiáng)化學(xué)習(xí)與經(jīng)典路徑規(guī)劃方法有機(jī)結(jié)合,分別發(fā)揮二者在優(yōu)化速度和路徑規(guī)劃質(zhì)量方面的優(yōu)勢,則有望取得更好的規(guī)劃效果.然而,如何設(shè)計此類反應(yīng)式路徑規(guī)劃架構(gòu),使其能有效應(yīng)對復(fù)雜的障礙環(huán)境(如動靜態(tài)障礙并發(fā)、多障礙、環(huán)境中存在不同形狀尺寸的障礙等),目前仍處于探索階段.
2)基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃方法需要無人機(jī)與模擬的任務(wù)環(huán)境進(jìn)行交互,并根據(jù)環(huán)境的反饋不斷更新深度神經(jīng)網(wǎng)絡(luò)的權(quán)重,最終提取訓(xùn)練好的深度動作網(wǎng)絡(luò)用于實(shí)際環(huán)境下的在線規(guī)劃.因此如何設(shè)計與所用路徑規(guī)劃方法相適配的模擬訓(xùn)練環(huán)境,對于提升訓(xùn)練效率并保障動作網(wǎng)絡(luò)在復(fù)雜障礙環(huán)境下泛化性能至關(guān)重要.遺憾的是,上述文獻(xiàn)并沒有對訓(xùn)練環(huán)境的規(guī)范性建模方法進(jìn)行針對性的研究.
針對上述兩個問題,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)反應(yīng)式擾動流體路徑規(guī)劃架構(gòu),主要貢獻(xiàn)如下:
1)在一種經(jīng)典自然啟發(fā)式路徑規(guī)劃方法: 擾動流體動態(tài)系統(tǒng)算法(Interfered fluid dynamical system,IFDS)[7,18-20]基礎(chǔ)上,進(jìn)一步引入無人機(jī)運(yùn)動學(xué)模型和約束條件以提升規(guī)劃路徑的可跟蹤性,改進(jìn)算法稱為受約束IFDS 算法(Constrained-IFDS,C-IFDS).
2)將深度強(qiáng)化學(xué)習(xí)中的DDPG 算法與C-IFDS 算法相結(jié)合,分別發(fā)揮二者在實(shí)時性和生成路徑質(zhì)量方面的優(yōu)勢,構(gòu)建反應(yīng)式路徑規(guī)劃架構(gòu).該架構(gòu)以C-IFDS 算法為路徑規(guī)劃的基礎(chǔ)方法,根據(jù)當(dāng)前各障礙與無人機(jī)的相對狀態(tài)、無人機(jī)自身狀態(tài)和障礙包絡(luò)形狀,通過DDPG 算法在線優(yōu)化對應(yīng)障礙的反應(yīng)系數(shù)和方向系數(shù),繼而計算相應(yīng)的總和擾動矩陣修正無人機(jī)的飛行路徑,實(shí)現(xiàn)反應(yīng)式避障.
3)提出一種與上述反應(yīng)式路徑規(guī)劃架構(gòu)相適配的強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境規(guī)范性建模方法,以提升訓(xùn)練效率.
假設(shè)飛控系統(tǒng)可保證無人機(jī)姿態(tài)和速度的穩(wěn)定,可建立如下運(yùn)動學(xué)模型:
P=[x,y,z]T表示無人機(jī)的三維位置;V為飛行速度;γ和χ分別為航跡傾角和航跡偏角;g為重力常數(shù);作為控制輸入的nx、ny、nz表示沿航跡系x、y、z軸的過載.該式所描述的運(yùn)動學(xué)模型還須滿足如下約束條件:
為了避免過于精細(xì)地描述飛行環(huán)境信息,提升路徑規(guī)劃效率,可采用標(biāo)準(zhǔn)凸面體包絡(luò)對地形或威脅進(jìn)行等效.對于地形或其他靜態(tài)障礙可用相應(yīng)凸多面體及其組合體直接等效,例如延綿的山脈可用半球體等效,建筑可視為平行六面體或圓柱體;對于動態(tài)威脅(如入侵飛行器) 可建模為具有速度的球體.因此,可建立如下障礙/威脅的等效標(biāo)準(zhǔn)凸面體包絡(luò)方程:
式中,a,b,c >0 和p,q,r >0 分別決定了障礙物的覆蓋范圍與形狀,例如: 當(dāng)p=q=r=1 且a=b=c時,障礙為圓球;當(dāng)p=q=1,r >1 且a=b時,障礙為圓柱;P0=[x0,y0,z0]T表示障礙物中心;無人機(jī)自身安全半徑為RA;Γ(P)>1,Γ(P)=1和Γ(P)<1 分別表示無人機(jī)位置P位于障礙物等效 包絡(luò)的外部、表面和內(nèi)部.
IFDS 路徑規(guī)劃方法模擬了自然界水流的宏觀特征: 當(dāng)無障礙物時,水流沿直線流動;當(dāng)遇到障礙物時,水流總會平滑地繞過該障礙并最終流向終點(diǎn).基于障礙物的位置、速度、形狀等具體信息,該方法可將障礙物對初始流線的擾動影響量化表示,經(jīng)計算得到的擾動流線即可作為規(guī)劃路徑.傳統(tǒng)IFDS方法的基本原理如下[18-19].
假設(shè)無人機(jī)當(dāng)前位置和目的地位置分別為P和Pd=[xd,yd,zd]T,飛行速度為V.當(dāng)環(huán)境內(nèi)不存在障礙物時,初始流場(飛行路徑)應(yīng)為從P到Pd的直線,慣性系下的初始流速(飛行速度矢量)u(P)應(yīng)為:
當(dāng)環(huán)境中存在K個障礙物時,障礙物對u(P)的干擾影響可用總和擾動矩陣表示:
式中,ωk(P) 為第k個障礙物的權(quán)重系數(shù),該值取決于無人機(jī)與障礙物等效表面的距離,距離越大權(quán)重系數(shù)越小;Mk(P) 為第k個障礙物的擾動矩陣.ωk(P)和Mk(P) 的公式如下:
式中,Γ(P) 表示由式(3)定義的障礙包絡(luò)方程,I為三階單位吸引矩陣.式(7)等號右邊第2 項(xiàng)和第3 項(xiàng)分別為排斥矩陣和切向矩陣;ρk和σk分別為對應(yīng)障礙的排斥反應(yīng)系數(shù)和切向反應(yīng)系數(shù),其值決定了規(guī)劃路徑的形狀,值越大,規(guī)避障礙的時機(jī)越早;nk(P) 為徑向法向量,垂直于障礙表面向外;tk(P)為慣性系O-xyz下的切向矩陣,推導(dǎo)過程如下.
在與nk(P) 垂直的切平面S上定義兩個相互垂直的切向量tk,1(P) 和tk,2(P):
以tk,1(P)、tk,2(P)、nk(P) 為x′、y′、z′三軸建立坐標(biāo)系O′-x′y′z′,則切平面S內(nèi)任意單位切向量在O′-x′y′z′表示為:
式中,θk ∈[-π,π] 為任意切向量與x′軸的夾角,稱為切向方向系數(shù),決定流線的方向.
式中,v(P) 為障礙總和速度矢量,定義為:
式中,vk為第k個障礙物的速度矢量.
由上述推導(dǎo)過程可以看出,傳統(tǒng)IFDS 在規(guī)劃時并未直接考慮無人機(jī)的運(yùn)動模型和約束.因此,本文引入了如式(1)的模型和式(2)的約束對擾動流速進(jìn)一步修正,改進(jìn)后的算法即為受約束IFDS (C-IFDS)算法.假設(shè)當(dāng)前時刻為n,此時航跡傾角和航跡偏角分別為γn和χn,則修正步驟如下:
步驟1.式(12) 所計算出的擾動流速為無人機(jī)規(guī)避障礙的期望速度,據(jù)此計算期望航跡角γc和χc,以及相應(yīng)期望角速率,分別如式(14)、式(15)所示:
步驟2.在式(15)中引入式(2)的角速率和航跡傾角約束,可計算出如下實(shí)際可達(dá)的角度γaf和χaf:
步驟3.將γaf和χaf代入式(15),得到受約束的角速率
步驟4. 將代入式(1)中的航跡角方程,得到此時按規(guī)劃路徑飛行的需用過載nx、ny、nz,并根據(jù)式(2)對需用過載進(jìn)行約束.
步驟5.將約束后的過載作為控制輸入代入式(1)的速度和航跡角方程中,可求解得到下一個路徑點(diǎn)位置.
由式(7)可以看出,擾動矩陣Mk(P) 除了與無人機(jī)位置P和障礙方程Γk(P) 等不可更改的因素有關(guān)外,還與兩個可調(diào)的反應(yīng)系數(shù)ρk和σk以及一個方向系數(shù)θk有關(guān),其對規(guī)劃航路的影響如圖1 所示.
圖1 不同反應(yīng)系數(shù)和方向系數(shù)組合對規(guī)劃路徑的影響Fig.1 Effects of different combinations of reaction coefficients and direction coefficients on planned paths
如圖1 所示,不同系數(shù)的組合能夠決定路徑的形狀和方向.在之前的研究中[7,18-20],大多采用RHC策略在線優(yōu)化這些系數(shù).然而,RHC 的串行求解機(jī)制并不能很好地滿足復(fù)雜障礙環(huán)境下的強(qiáng)實(shí)時性需求,因此本文將強(qiáng)化學(xué)習(xí)中的DDPG 算法與C-IFDS 算法相結(jié)合,將C-IFDS 算法作為路徑規(guī)劃的基礎(chǔ)方法,經(jīng)由DDPG 算法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)用于優(yōu)化相應(yīng)的路徑規(guī)劃參數(shù),從而構(gòu)建反應(yīng)式路徑規(guī)劃架構(gòu).
DDPG 是Lillicrap 等[21]提出的一種面向連續(xù)狀態(tài)/動作空間的深度強(qiáng)化學(xué)習(xí)方法.該方法使用深度神經(jīng)網(wǎng)絡(luò)逼近價值函數(shù)和確定性策略,可以看作深度Q 學(xué)習(xí)與動作-評價算法的結(jié)合.DDPG 中共使用了動作現(xiàn)實(shí)網(wǎng)絡(luò)、動作目標(biāo)網(wǎng)絡(luò)、評價現(xiàn)實(shí)網(wǎng)絡(luò)和評價目標(biāo)網(wǎng)絡(luò)4 個神經(jīng)網(wǎng)絡(luò).兩個評價網(wǎng)絡(luò)的參數(shù)隨機(jī)給定,兩個動作網(wǎng)絡(luò)的參數(shù)則通過深度學(xué)習(xí)方法對傳統(tǒng)方法進(jìn)行輸入輸出擬合而給定,通過這種方式,動作網(wǎng)絡(luò)可以獲得一個初始可行解,在此基礎(chǔ)上,進(jìn)一步部署強(qiáng)化學(xué)習(xí)訓(xùn)練過程,可以提高算法的訓(xùn)練效率和收斂性.本文反應(yīng)式路徑規(guī)劃的DDPG 訓(xùn)練機(jī)制如圖2 所示,步驟設(shè)計如下.
圖2 所提反應(yīng)式路徑規(guī)劃的DDPG 訓(xùn)練機(jī)制Fig.2 DDPG training mechanism of the proposed reaction path planning
在訓(xùn)練回合j(1≤j ≤M) 時(M為最大回合數(shù)),首先,初始化隨機(jī)噪聲π1以及從模型對象(即C-IFDS 與無人機(jī)運(yùn)動學(xué)模型)和訓(xùn)練環(huán)境(即無人機(jī)與障礙間的相對幾何關(guān)系)中得到的觀測量o1,本文定義如下:
式中,Δxk、Δyk、Δzk分別為無人機(jī)與障礙物k的中心在慣性系三軸方向的相對位置; ΔLk為無人機(jī)到障礙物k表面的距離; ΔVxk、ΔVyk、ΔVzk為無人機(jī)與障礙物k的中心在慣性系三軸方向的相對速度幅值.注意需要對o中各量進(jìn)行近似地歸一化處理,確保其數(shù)值處于同一數(shù)量級,提高網(wǎng)絡(luò)訓(xùn)練的收斂性.
然后,進(jìn)入如下循環(huán)過程:
步驟1.動作現(xiàn)實(shí)網(wǎng)絡(luò)根據(jù)從對象模型及環(huán)境信息得到的觀測量選擇一個動作輸出a,并與噪聲疊加,增加探索性,最終得到的動作下達(dá)給對象模型執(zhí)行.上述過程可表述為:
式中,t(1≤t ≤T) 為當(dāng)前迭代次數(shù),T為最大迭代次數(shù);A表示動作現(xiàn)實(shí)網(wǎng)絡(luò),λA為其參數(shù);ot為當(dāng)前的觀測量;at為最終對象執(zhí)行的動作量,本文中定義為C-IFDS 的2 個反應(yīng)系數(shù)和1 個方向系數(shù):
式中,動作的上下界在本文中設(shè)置為ρk ∈[1, 5],σk ∈[1, 5]和θk ∈[0,π].
步驟2.對象模型執(zhí)行at,返回路徑規(guī)劃獎勵rt和新的觀測量ot+1,然后將狀態(tài)轉(zhuǎn)移過程{ot,at,rt,ot+1}存入經(jīng)驗(yàn)存儲集合中.
步驟3.利用動作目標(biāo)網(wǎng)絡(luò)得到的動作輸出和評價目標(biāo)網(wǎng)絡(luò)得到的Q 值計算期望Q 值以切斷相關(guān)性,提高收斂性:
式中,C'和C分別表示評價目標(biāo)網(wǎng)絡(luò)和評價現(xiàn)實(shí)網(wǎng)絡(luò);分別為評價目標(biāo)網(wǎng)絡(luò)和評價現(xiàn)實(shí)網(wǎng)絡(luò)的參數(shù);A'表示動作目標(biāo)網(wǎng)絡(luò);為動作目標(biāo)網(wǎng)絡(luò)參數(shù);γ′為獎勵衰減系數(shù).
步驟4.從經(jīng)驗(yàn)存儲集合中,采樣NS個狀態(tài)轉(zhuǎn)換過程數(shù)據(jù),作為動作網(wǎng)絡(luò)和評價網(wǎng)絡(luò)訓(xùn)練的一個小批量數(shù)據(jù).該過程采用基于優(yōu)先級的經(jīng)驗(yàn)回放機(jī)制[22-23],即優(yōu)先采樣Q 值估計誤差較大的樣本,以提高訓(xùn)練效率,相應(yīng)樣本i的時間差分誤差δi定義如下:
則樣本i的采樣概率Pi為:
式中,α∈[0, 1] 用于調(diào)節(jié)優(yōu)先程度(當(dāng)α=0 時退化為均勻采樣);pi為樣本i的優(yōu)先級,定義如下:
式中,ε用于防止概率為0.
由于基于優(yōu)先級的經(jīng)驗(yàn)回放改變了樣本的采樣頻率,因此需要引入重要性采樣更新樣本計算梯度時的誤差權(quán)重wi:
式中,β用于控制校正程度.
步驟5.通過Q*和評價現(xiàn)實(shí)網(wǎng)絡(luò)輸出Q 值的均方差作為損失函數(shù)計算評價現(xiàn)實(shí)網(wǎng)絡(luò)的梯度,評價現(xiàn)實(shí)網(wǎng)絡(luò)的損失函數(shù)L由下式計算:
式中,C的梯度可由L計算.
步驟6.使用Adam 優(yōu)化器[24]更新至
步驟7.動作現(xiàn)實(shí)網(wǎng)絡(luò)的目標(biāo)是使評價網(wǎng)絡(luò)的輸出Q 值增大,得到可以獲得更多獎勵的策略,所以動作現(xiàn)實(shí)網(wǎng)絡(luò)的梯度通過評價現(xiàn)實(shí)網(wǎng)絡(luò)的梯度計算:
式中,J表示給定策略的期望回報.由式(27)可知,J對的梯度由C對控制輸入a的梯度點(diǎn)乘A對其參數(shù)的梯度得到.
步驟8.使用Adam 優(yōu)化器更新至
步驟9.用現(xiàn)實(shí)網(wǎng)絡(luò)的參數(shù)漸變更新目標(biāo)網(wǎng)絡(luò)的參數(shù):
式中,τ是漸變更新系數(shù).然后返回步驟1.
當(dāng)?shù)螖?shù)達(dá)到最大值T或達(dá)到此時設(shè)定的終止條件(例如無人機(jī)與障礙發(fā)生碰撞或無人機(jī)成功到達(dá)目的地)時,進(jìn)入下一回合,直至達(dá)到最大回合M結(jié)束訓(xùn)練.通過上述迭代過程,DDPG 深度強(qiáng)化學(xué)習(xí)模型通過對象模型及環(huán)境不斷學(xué)習(xí),調(diào)整自身網(wǎng)絡(luò)參數(shù),使得自身性能不斷增強(qiáng).
評價網(wǎng)絡(luò)和動作網(wǎng)絡(luò)所采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,其中,評價網(wǎng)絡(luò)包括觀測量輸入通路和動作量輸入通路;整個網(wǎng)絡(luò)由輸入層、全連接層(FC)、線性整流(ReLU)激活函數(shù)層和添加層(ADD)組成;動作網(wǎng)絡(luò)由輸入層、全連接層、ReLU 激活函數(shù)層和雙曲正切(tanh)激活函數(shù)層組成.全連接層節(jié)點(diǎn)數(shù)均為128.
圖3 評價網(wǎng)絡(luò)和動作網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structures of critic network and actor network
經(jīng)過上述迭代訓(xùn)練得到的動作網(wǎng)絡(luò)可用于對CIFDS 中反應(yīng)系數(shù)和方向系數(shù)的優(yōu)化,該系數(shù)優(yōu)化機(jī)制由多個經(jīng)DDPG 算法訓(xùn)練好的深度動作網(wǎng)絡(luò)并行組成,其數(shù)量與當(dāng)前檢測到的障礙物數(shù)量相同.對于各個障礙物,首先判斷其形狀(球體、圓柱等)和類型(靜態(tài)障礙或動態(tài)威脅),然后選擇對應(yīng)的DDPG 動作網(wǎng)絡(luò)(障礙形狀和類型對網(wǎng)絡(luò)選擇及訓(xùn)練環(huán)境建模的影響詳見本文第4 節(jié)),每個動作網(wǎng)絡(luò)以當(dāng)前無人機(jī)與對應(yīng)障礙物的相對狀態(tài)(相對位置、速度、距離)和無人機(jī)自身狀態(tài)(航跡角)作為輸入項(xiàng),以對應(yīng)的反應(yīng)系數(shù)和方向系數(shù)組合作為輸出項(xiàng),通過式(7)計算生成各障礙對應(yīng)的擾動矩陣Mk(P).最終通過加權(quán)求和的方式計算出總和擾動矩陣(P),從而實(shí)現(xiàn)對空間中多個障礙物的規(guī)避機(jī)動,反 應(yīng)式路徑規(guī)劃流程如圖4 所示.
圖4 基于深度強(qiáng)化學(xué)習(xí)的反應(yīng)式擾動流體路徑規(guī)劃總體流程圖Fig.4 Overview flow chart of the DRL-based reaction interfered fluid path planning
本文反應(yīng)式路徑規(guī)劃方法的關(guān)鍵在于訓(xùn)練,而在訓(xùn)練中最為重要的部分就是對規(guī)范性模擬環(huán)境的搭建,這也是之前研究所相對忽視的.具體建模過程如下.
首先,需要根據(jù)障礙物的類型和形狀精細(xì)化地設(shè)計相應(yīng)的模擬環(huán)境,也就是說,針對不同類型或形狀的障礙物應(yīng)設(shè)計不同的模擬環(huán)境,由不同類型模擬環(huán)境訓(xùn)練出的動作網(wǎng)絡(luò)將組成一個網(wǎng)絡(luò)集合,在真實(shí)環(huán)境應(yīng)用時,無人機(jī)應(yīng)首先判斷障礙物的類型,然后選擇對應(yīng)的網(wǎng)絡(luò)優(yōu)化C-IFDS 中的系數(shù)(如圖4 所示).原因有以下兩點(diǎn): 1)不同形狀的障礙可能對C-IFDS 中反應(yīng)系數(shù)和方向系數(shù)的選擇產(chǎn)生影響(特別是方向系數(shù)),例如當(dāng)無人機(jī)遭遇圓柱體障礙時,一般會傾向于規(guī)劃使無人機(jī)沿圓柱體側(cè)面進(jìn)行規(guī)避的路徑(如θ=0,π等);而當(dāng)遭遇半球體障礙時,還可規(guī)劃使無人機(jī)沿球體上方越過的路徑(如θ= 0.5π等);2)靜態(tài)障礙和動態(tài)威脅在環(huán)境構(gòu)建方面存在差異,主要體現(xiàn)在對環(huán)境中相對速度幅值和相對初始位置的設(shè)定上.對于相對速度幅值設(shè)定的差異,首先,模擬環(huán)境中統(tǒng)一設(shè)定障礙或威脅保持靜止?fàn)顟B(tài),將無人機(jī)的飛行速度等效為無人機(jī)與障礙或威脅的相對速度;然后,當(dāng)無人機(jī)在模擬環(huán)境中以恒定速率飛行時,其與靜態(tài)障礙的相對速度幅值始終為其飛行速度幅值,因此在每次模擬中不需要改變無人機(jī)速度幅值.但對于動態(tài)威脅來說,考慮到真實(shí)任務(wù)情景中動態(tài)威脅運(yùn)動的不確定性,因此在模擬環(huán)境的構(gòu)建中會引入不同運(yùn)動速率的動態(tài)威脅,即在每次模擬中設(shè)定的無人機(jī)速度幅值均有所不同.對于相對初始位置設(shè)定的差異,以靜態(tài)半球體障礙和動態(tài)球體威脅為例,如圖5 所示,當(dāng)模擬環(huán)境由靜態(tài)半球體障礙(球心位于地面)組成時,無人機(jī)的初始位置只能設(shè)置在球心所在水平面之上(稱為 “上半球”區(qū)域,同理還有 “下半球”區(qū)域);相反,當(dāng)模擬環(huán)境由空中的動態(tài)球體威脅組成時,無人機(jī)的初始位置既可設(shè)置在威脅的上半球區(qū)域,也可設(shè)置在下半球區(qū)域.
圖5 無人機(jī)相對初始位置設(shè)定的差異: 以靜態(tài)半球體障礙和動態(tài)球體威脅為例Fig.5 Differences in the setting of UAV initial locations:Taking the static hemispherical obstacle and the dynamic spherical threat as examples
綜上所述,對障礙/威脅進(jìn)行精細(xì)化的分類,有助于降低訓(xùn)練環(huán)境的設(shè)計難度,提升DDPG 訓(xùn)練效率.因此,本文主要考慮靜態(tài)半球體障礙、靜態(tài)圓柱體障礙和動態(tài)球體威脅三類障礙/威脅.
1)靜態(tài)半球體障礙
本文設(shè)計的模擬訓(xùn)練環(huán)境如圖6 所示,具體建模步驟如下:
圖6 針對靜態(tài)半球體障礙的無人機(jī)反應(yīng)式路徑規(guī)劃訓(xùn)練環(huán)境Fig.6 Training environment of UAV reaction path planning for static hemispherical obstacles
步驟1.設(shè)定訓(xùn)練環(huán)境中的無人機(jī)目的地處于固定位置Pd=(0, 400, 150)m,其在水平面的投影點(diǎn)為Pdxy,障礙球心處于固定位置Oobs=(0, 0, 0)m,障礙等效半徑為100~ 300 m 的隨機(jī)數(shù),Robs=(100+200·rand)m (rand表示[0,1] 的隨機(jī)數(shù)).
步驟2.以O(shè)obs為中心,以PdxyOobs的射線為軸Oobsxobs(該軸與慣性系Ox軸平行),建立直角坐標(biāo)系Oobs-xobsyobszobs(軸Oobsyobs和Oobszobs分別與慣性系Oy和Oz軸平行且相反).
步驟3.設(shè)定無人機(jī)的初始位置為P(0),初始航跡角為γ(0)=0,χ(0)=90°,速度幅值恒為V=30 m/s .然后,從P(0) 向下引垂線,其與水平面Oobsxobsyobs的交點(diǎn)為Pxy(0),此時可通過無人機(jī)的高度zUAV=|P(0)Pxy(0)|、水平面距離Lh=|OobsPxy(0)|和直線段OobsPxy(0) 與軸Oobsxobs的夾角θh確定無人機(jī)與障礙的相對關(guān)系,上述3 個量應(yīng)滿足如下約束條件:
式中,εDis >0 和εAng >0 分別表示一定的距離裕量和角度裕量;θh的約束的意義為: 從俯視角度來看,無人機(jī)的初始位置在Oobsyobs軸向上應(yīng)處于半球體半徑所覆蓋的 [-Robs,Robs] 范圍內(nèi),以提升訓(xùn)練過程中無人機(jī)與障礙的交互性(如果 |θh| 過大,則可能出現(xiàn)無論如何調(diào)整動作量,規(guī)劃路徑均不受障礙明顯影響的現(xiàn)象).在此基礎(chǔ)上,進(jìn)一步引入一定的角度裕量,從而進(jìn)一步提升無人機(jī)初始位置選擇的靈活性.
步驟4.根據(jù)式(29),首先設(shè)定zUAV=(50+(Robs-50)·rand)m (即50 m 至Robs內(nèi)的隨機(jī)高度)和Lh=600m,則當(dāng)εAng ≈5°時然后,根據(jù)常識,在無人機(jī)的初始速度方向與軸Oobsxobs平行且相反的情況下,迎頭障礙對無人機(jī)的威脅最大(即 |θh| 較小時),因此,隨機(jī)設(shè)定的初始θh應(yīng)滿足一定的概率分布條件,使得隨機(jī)得到越小|θh|的分布概率較高,反之分布概率越低,從而保證無人機(jī)能與環(huán)境進(jìn)行充分交互,避免過早滿足重置環(huán)境(即更新回合)的條件(見步驟7).本文設(shè)定θh滿足高斯分布,其概率分布函數(shù)為:
式中,σ2為隨機(jī)變量θh的方差,本文中σ2=4.在生成5 000 次隨機(jī)初始θh的條件下,其概率分布情況如圖7 所示.由圖7 可以看出,盡管隨機(jī)生成|θh|>的情況非常罕見,但仍存在可能性,因此規(guī)定,如果隨機(jī)生成了則將其分別強(qiáng)制置為
圖7 初始 θh 的概率分布Fig.7 Probability distribution of the initial θh
步驟5.根據(jù)步驟4 隨機(jī)產(chǎn)生的變量,生成無人機(jī)的初始位置:
則無人機(jī)與障礙表面的初始相對距離為ΔL(0)=
步驟6.步驟1~ 5 設(shè)置好初始環(huán)境后,應(yīng)設(shè)計相應(yīng)獎勵函數(shù)r,無人機(jī)正是以與環(huán)境交互獲得的獎勵函數(shù)值為依據(jù)來更新其每一步動作.r由避撞獎勵項(xiàng)rCol、航跡角速率獎勵項(xiàng)rAng和路徑長度獎勵項(xiàng)rLen組成:
式中,wCol,wAng,wLen為相應(yīng)獎勵的權(quán)重.
rCol表征無人機(jī)到障礙等效表面的距離,距離越遠(yuǎn),獎勵值越大.當(dāng)無人機(jī)與等效障礙發(fā)生碰撞時,需要給該獎勵項(xiàng)施加一個負(fù)的懲罰值pen,該值應(yīng)與未施加懲罰值時的rCol在量級上大致相等,從而避免出現(xiàn)因懲罰值過大而不易收斂的情況.因此rCol設(shè)計如下:
式中,P(t+1) 表示根據(jù)當(dāng)前動作執(zhí)行C-IFDS 路徑規(guī)劃方法而更新的無人機(jī)位置.
rAng表征無人機(jī)的航跡角變化量,變化越小,說明無人機(jī)機(jī)動幅度越小,獎勵值越大.因此,rAng設(shè)計如下:
rLen表征無人機(jī)規(guī)劃的下一個路徑點(diǎn)到目的地的距離,距離越小,說明無人機(jī)存在向目的地逐漸靠攏的趨勢,對應(yīng)路徑長度可能越短,獎勵值越大.因此,rLen設(shè)計如下:
式中,LSD為規(guī)劃起點(diǎn)到目的地的粗略直線距離,其目的在于將rLen的數(shù)量級調(diào)整至與rCol和rAng大致相等,從而提升學(xué)習(xí)算法的收斂性;當(dāng)無人機(jī)在訓(xùn)練過程中到達(dá)目的地時,則額外給予獎勵值rdes.
注1.式(33)~ 式(35)設(shè)置相應(yīng)分母項(xiàng)的目的,在于使各獎勵項(xiàng)在量級上大致相同.
步驟7.設(shè)置本回合的終止條件IsDone.當(dāng)無人機(jī)到達(dá)以Pd為中心,半徑為Rdes的球形區(qū)域時,或當(dāng)無人機(jī)與障礙發(fā)生碰撞時,以及本回合已達(dá)到最大迭代次數(shù)T時,觸發(fā)終止條件結(jié)束本回合,在進(jìn)入下一回合后重新依次隨機(jī)化設(shè)置Robs、zUAV和θh,進(jìn)行試探學(xué)習(xí).則IsDone的公式為:
2)靜態(tài)圓柱體障礙
針對靜態(tài)圓柱體障礙的環(huán)境構(gòu)建步驟與靜態(tài)半球體障礙的基本相同,區(qū)別在于除了要隨機(jī)生成圓柱底面半徑(同樣記為Robs,計算方法也相同)外,還要隨機(jī)生成圓柱體的高Hobs,其計算方法與Robs相同,則無人機(jī)的隨機(jī)初始高度改為zUAV=(50+(Hobs-50)·rand)m.
3)動態(tài)球體威脅
針對動態(tài)球體障礙的環(huán)境構(gòu)建步驟與靜態(tài)半球體障礙的也基本相同,區(qū)別有以下兩點(diǎn):
a)動態(tài)球體威脅的等效半徑范圍修改為Robs=(50+100·rand)m,球心處于固定位置Oobs=(0, 0,150)m,即與Pd處于相同高度.
b)無人機(jī)初始高度應(yīng)處于50 m 至(150+Robs+εDis)m的范圍內(nèi)(同時包含了威脅的上下半球區(qū)域),則初始隨機(jī)高度修改為zUAV=(50+(Robs+150)·rand)m; 初始速度幅值修改為隨機(jī)值V=(30+30·rand)m/s,以模擬無人機(jī)與不同威脅的相對速度.
注2.上述訓(xùn)練環(huán)境中的參數(shù)可根據(jù)實(shí)際無人機(jī) 性能和任務(wù)環(huán)境進(jìn)行調(diào)整.
仿真情景設(shè)置如下: 無人機(jī)的初始位置和目的地分別為(0,0,50) m 和(600,600,50) m,初始速度方向?yàn)棣?0)=0 和χ(0)=45°,速度幅值恒定為30 m/s;無人機(jī)運(yùn)動約束為:γ ∈[-π/3,π/3]rad、nx ∈[-0.5, 2]、ny ∈[-2, 2]、nz ∈[-1, 3];在(250,250,0) m 處設(shè)置等效半徑為200 m 的半球形障礙物(已含無人機(jī)安全半徑);仿真步長為 ΔT=1 s.為保證對比公平性,兩種方法中擾動矩陣參數(shù)統(tǒng)一設(shè)置為:ρ=2 、σ=4 和θ=π/4.部分受約束的狀態(tài)和規(guī)劃路徑對比情況如圖8所示.
實(shí)驗(yàn)結(jié)果表明,盡管IFDS 和C-IFDS 均可驅(qū)使無人機(jī)規(guī)避三維空間中的障礙,但采用C-IFDS 時無人機(jī)的角速率、航跡傾角和過載可以始終保持在其約束范圍內(nèi)(除圖8 所列舉的,其他狀態(tài)均滿足相應(yīng)約束),規(guī)劃路徑的可跟蹤性較好(路徑能夠被無人機(jī)精確跟蹤的可能性較高).相反,采用傳統(tǒng)IFDS 得到的路徑則表現(xiàn)出過大的角度和過載變化,這與無人機(jī)的實(shí)際運(yùn)動模型不符,意味著規(guī)劃路徑的可跟蹤性較差.因此,C-IFDS 是一種比傳統(tǒng)IFDS 更合理的方法.
圖8 采用IFDS 和C-IFDS 時部分受約束的狀態(tài)和規(guī)劃路徑的對比情況Fig.8 Comparisons of some constrained states and planned paths when using IFDS and C-IFDS
圖9 DDPG 訓(xùn)練過程中的獎勵函數(shù)情況Fig.9 Reward functions in the DDPG training process
仿真情景設(shè)置如下: 無人機(jī)的初始位置和目的地分別為(0,0,400) m 和(5 000,5 000,500) m,初始速度方向?yàn)棣?0)=0 和χ(0)=90°,速度幅值恒定為30 m/s;無人機(jī)運(yùn)動約束同第5.1 節(jié);任務(wù)空間內(nèi)存在多個靜態(tài)半球體和圓柱體障礙,還有一個等效半徑為100 m 的動態(tài)球體威脅,于第222 s 時突然被無人機(jī)檢測到,檢測后的運(yùn)動方程為x(t)=4 500 m,y(t)=(4 900-20t)m,z(t)=450 m.DDPG 訓(xùn)練參數(shù)如下: 訓(xùn)練回合數(shù)為5 000,回合最大迭代次數(shù)T為50,評價網(wǎng)絡(luò)和動作網(wǎng)絡(luò)的學(xué)習(xí)率分別為0.0001和0.001,批大小為256,獎勵衰減系數(shù)γ′為0.99,漸變更新因子τ為0.05,噪聲方差為0.1,基于優(yōu)先級的經(jīng)驗(yàn)回放機(jī)制的參數(shù)分別為:NS=106、α=0.6和β=0.4.對比項(xiàng)設(shè)置為基于RHC 的C-IFDS 在線航路規(guī)劃方法,并假設(shè)突發(fā)動態(tài)威脅的運(yùn)動軌跡能夠直接被精確預(yù)測(即省略了預(yù)測軌跡的時間);為保證對比的公平性,其代價函數(shù)組成和各指標(biāo)的權(quán)重與本文方法的獎勵函數(shù)相同,但取值相反;RHC的解算器為經(jīng)典的PSO 算法,其種群規(guī)模為50,迭代次數(shù)為20,滾動步長N分別取1、3 和5 (N=1時,即為貪心算法;由文獻(xiàn)[18-19]可知,N=5 時,具有相對最佳的優(yōu)化效果).仿真計算機(jī)配置為: CPU Intel Core i5-4460 3.20 GHz;內(nèi)存 8 GB.
DDPG 訓(xùn)練過程中的獎勵函數(shù)情況如圖9 所示,在線規(guī)劃的三維航路如圖10 所示(圖10 中所繪障礙輪廓均為其等效表面),與動態(tài)威脅等效表面的最近距離如圖11 所示,規(guī)劃路徑平滑性對比如表1 所示(平滑性指標(biāo)定義為各段路徑三維夾角的平方和除以總路徑段數(shù)量,值越小越平滑),兩類算法的規(guī)劃時間對比如圖12 所示.
圖10 案例2 中在線規(guī)劃的三維路徑Fig.10 3D online planned paths in case 2
圖11 案例2 中與動態(tài)威脅等效表面的最近距離Fig.11 Closest distances to the equivalent surface of the dynamic threat in case 2
圖12 案例2 中規(guī)劃時間對比Fig.12 Comparison of the planning time in case 2
如圖9 所示,針對三種障礙/威脅,DDPG 算法可分別在訓(xùn)練過程的約2 200、4 500 和3 500 回合使獎勵函數(shù)進(jìn)入收斂狀態(tài).如圖10~ 12 和表1 所示,本文方法和傳統(tǒng)基于RHC 的C-IFDS 方法均能使無人機(jī)對三維靜態(tài)障礙和動態(tài)威脅進(jìn)行有效的在線規(guī)避,對比項(xiàng)2 和3 在規(guī)劃路徑長度與平滑性方面與本文方法的規(guī)劃效果大致相近(本文方法規(guī)劃路徑的長度和平滑性指標(biāo)甚至更優(yōu)),但即使在忽略狀態(tài)預(yù)測時間的前提下,其單步平均運(yùn)行時間也遠(yuǎn)高于本文方法;而作為對比項(xiàng)1 的貪心算法雖然相較于其他對比項(xiàng)在規(guī)劃時間方面具有優(yōu)勢,但仍為本文方法單步平均運(yùn)行時間的8 倍以上,且其規(guī)劃路徑較長,質(zhì)量較低.
表1 案例2 中規(guī)劃路徑長度和平滑性指標(biāo)對比Table 1 Comparison of the length and the smooth indexes for planned paths in Case 2
為了進(jìn)一步驗(yàn)證本文方法的泛化能力以及訓(xùn)練環(huán)境規(guī)范性建模方法在訓(xùn)練效率方面的優(yōu)勢,本文針對該仿真情景進(jìn)行了20 次蒙特卡洛對比測試.無人機(jī)的初始位置設(shè)置為如下隨機(jī)值: (-500+1 000·rand,-500+1 000·rand,400)m;對比項(xiàng)為仍基于本文架構(gòu)但未采用本文訓(xùn)練環(huán)境建模方法的路徑規(guī)劃方法.具體地,將式(29)θh范圍擴(kuò)大為 [-90°,90°]間的隨機(jī)值,且不滿足類似于圖7 的概率分布情況,則以靜態(tài)半球體障礙為例,對比項(xiàng)訓(xùn)練情況中獎勵函數(shù)的情況如圖13 所示.
如圖13 所示,獎勵函數(shù)并沒有如圖9(a)一樣產(chǎn)生比較明顯的收斂趨勢,同時,蒙特卡洛仿真結(jié)果也表明,基于本文架構(gòu)和訓(xùn)練環(huán)境建模方法時,20 次測試中無人機(jī)成功避障并順利到達(dá)目的地的成功率達(dá)100%,而對比項(xiàng)僅有60%,這一方面說明本文方法具有較好的泛化能力,另一方面也說明通過對強(qiáng)化學(xué)習(xí)的訓(xùn)練環(huán)境進(jìn)行規(guī)范性的建模,可以顯著提升動作網(wǎng)絡(luò)的訓(xùn)練效率,在回合數(shù)相同時能夠取得更好的訓(xùn)練效果,從而使無人機(jī)的避障成功率更高.
圖13 未采用所提環(huán)境建模方法時,DDPG 訓(xùn)練過程中的獎勵函數(shù)情況: 以靜態(tài)半球體障礙為例Fig.13 Reward functions in the DDPG training process when the proposed environment modeling method is not adopted: Taking the static hemispherical obstacle as an example
本節(jié)進(jìn)一步驗(yàn)證本文方法在多動態(tài)威脅環(huán)境下的路徑規(guī)劃性能,仿真情景設(shè)置如下: 無人機(jī)的初始位置和目的地分別為(-1 200,-1 200,2 000) m和(4 000,4 000,2 000) m,初始速度方向?yàn)棣?0)=0和χ(0)=45°,速度幅值恒定為30 m/s;其他運(yùn)動學(xué)參數(shù)和DDPG 參數(shù)同第5.2 節(jié);任務(wù)空間內(nèi)存在3 個等效安全半徑200 m 的動態(tài)球體威脅,其運(yùn)動模式各有不同,具體為:
1)動態(tài)威脅1.勻速直線運(yùn)動:
2)動態(tài)威脅2.蛇形運(yùn)動:
3)動態(tài)威脅3.勻速圓周運(yùn)動:
則不同時刻無人機(jī)的航跡(實(shí)線)與規(guī)劃路徑(虛線)如圖14 所示,無人機(jī)與各威脅等效表面的最近距離如圖15 所示.由圖14、圖15 可見,無人機(jī)與威脅等效表面的最近距離為36.43 m,可對多個具有不同運(yùn)動模式的動態(tài)威脅進(jìn)行有效規(guī)避.
圖14 案例3 中不同時刻無人機(jī)的航跡與規(guī)劃路徑Fig.14 UAV flight paths and planned paths at different times in case 3
圖15 案例3 中與各動態(tài)威脅等效表面的最近距離Fig.15 Closest distances to the equivalent surface of each dynamic threat in case 3
綜上所述,本文將深度強(qiáng)化學(xué)習(xí)與C-IFDS 相結(jié)合的反應(yīng)式規(guī)劃方法具有規(guī)劃速度快、路徑質(zhì)量高等優(yōu)點(diǎn),可用于求解復(fù)雜障礙環(huán)境下的在線三維路徑規(guī)劃問題.
針對復(fù)雜障礙環(huán)境,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)反應(yīng)式擾動流體路徑規(guī)劃架構(gòu).首先,在傳統(tǒng)IFDS 方法的基礎(chǔ)上提出C-IFDS 路徑規(guī)劃方法作為架構(gòu)中的基礎(chǔ)規(guī)劃方法,該方法引入無人機(jī)運(yùn)動學(xué)模型和約束對擾動流速進(jìn)行可飛性修正;然后,提出面向反應(yīng)式擾動流體路徑規(guī)劃的強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境規(guī)范性建模方法,以提升訓(xùn)練效率.最后,采用DDPG 算法在構(gòu)造的環(huán)境中訓(xùn)練相應(yīng)的深度網(wǎng)絡(luò),并利用訓(xùn)練好的動作網(wǎng)絡(luò)在線優(yōu)化CIFDS 的反應(yīng)系數(shù)和方向系數(shù).仿真結(jié)果表明,在生成路徑質(zhì)量大體相同的前提下,取得了相較于傳統(tǒng)RHC 方法更快的規(guī)劃速度.
今后的研究工作主要集中在以下幾個方面:
1)本文架構(gòu)中的深度強(qiáng)化學(xué)習(xí)方法可以進(jìn)一步從以下兩個角度改進(jìn): a)本文通過對獎勵函數(shù)加權(quán)求和,從而將路徑規(guī)劃問題轉(zhuǎn)化為一個單目標(biāo)優(yōu)化問題,盡管這種思路比較簡單直接,但也存在著權(quán)值不易確定的缺點(diǎn),因此在未來可考慮在本文路徑規(guī)劃架構(gòu)的基礎(chǔ)上進(jìn)一步引入多目標(biāo)強(qiáng)化學(xué)習(xí)方法[25-26];b)理論上,其他連續(xù)型深度強(qiáng)化學(xué)習(xí)方法亦可應(yīng)用于本文架構(gòu),因此未來可將更先進(jìn)的強(qiáng)化學(xué)習(xí)方法(如SAC[27]和TD3[28]等)與反應(yīng)式路徑規(guī)劃相結(jié)合,并與本文方法進(jìn)行對比測試.
2)將本文架構(gòu)拓展應(yīng)用于更多復(fù)雜飛行任務(wù)中,例如目標(biāo)跟蹤[18-19]、邊界監(jiān)視[20]和編隊(duì)避障[29]等,同時適時開展相應(yīng)的實(shí)物驗(yàn)證工作.
3)與多數(shù)無人機(jī)路徑規(guī)劃研究[3-6,8-9,13,15-19]相同,本文架構(gòu)在規(guī)劃時只引入了如式(1)、式(2)所示的無人機(jī)運(yùn)動學(xué)模型和約束,而并未考慮更為復(fù)雜的無人機(jī)六自由度非線性動力學(xué)模型和約束,以及內(nèi)環(huán)控制器的響應(yīng)特性,這可能存在著規(guī)劃指令因無法被控制器及時精確跟蹤導(dǎo)致無人機(jī)與密集障礙發(fā)生碰撞的風(fēng)險.因此在未來應(yīng)考慮在本文路徑規(guī)劃架構(gòu)下,將無人機(jī)規(guī)劃-控制-模型所組成的閉環(huán)系統(tǒng)引入所構(gòu)建的強(qiáng)化學(xué)習(xí)訓(xùn)練環(huán)境中,實(shí)現(xiàn)考慮控制器和動力學(xué)特性的無人機(jī)狀態(tài)轉(zhuǎn)移,并據(jù)此計算相應(yīng)的獎勵函數(shù).