国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

RVO-DDPG算法在多UAV集結(jié)航路規(guī)劃的應(yīng)用

2023-01-13 11:59:20楊秀霞高恒杰
關(guān)鍵詞:航路航向代價(jià)

楊秀霞,高恒杰,劉 偉,張 毅

1.海軍航空大學(xué) 岸防兵學(xué)院,山東 煙臺 264001

2.海軍航空大學(xué) 作戰(zhàn)勤務(wù)學(xué)院,山東 煙臺 264001

在軍事應(yīng)用領(lǐng)域,單無人機(jī)往往很難實(shí)現(xiàn)任務(wù)預(yù)期,多無人機(jī)編隊(duì)、有人/無人協(xié)同編隊(duì)等編隊(duì)形式逐漸引起人們的重視,隨著UAV技術(shù)的不斷發(fā)展,無人機(jī)自主編隊(duì)控制技術(shù)已經(jīng)引起了國內(nèi)外學(xué)者的廣泛關(guān)注[1]。

無人機(jī)編隊(duì)航路規(guī)劃的重難點(diǎn)在于不確定環(huán)境下的動態(tài)避障航路規(guī)劃和多機(jī)協(xié)同規(guī)劃,而多無人機(jī)編隊(duì)集結(jié)路徑規(guī)劃不僅需要考慮不確定環(huán)境、無人機(jī)性能約束,還需要滿足各UAV之間的時(shí)間協(xié)同和空間協(xié)同約束,是一個(gè)約束眾多、復(fù)雜且相互耦合的多目標(biāo)優(yōu)化問題[2]。文獻(xiàn)[3]提出了具有合作機(jī)制的分布式協(xié)同粒子群算法,該方法使每架UAV規(guī)劃出一條滿足機(jī)間協(xié)同約束的最優(yōu)安全可飛行路徑。文獻(xiàn)[4]提出了一種新的路徑規(guī)劃和位置分配方法,通過矩陣迭代得到一組較優(yōu)的目標(biāo)點(diǎn)分配方案。文獻(xiàn)[5]設(shè)計(jì)了一種新的快速共識方法,實(shí)現(xiàn)了多UAV能夠同時(shí)到達(dá)目標(biāo)區(qū)域。文獻(xiàn)[6]提出了GRC-SAS算法將多UAV合作問題分解為連續(xù)的單UAV計(jì)劃問題,滿足了多UAV動態(tài)規(guī)劃的需要。文獻(xiàn)[7]提出了基于Dubins路徑的分層規(guī)劃方法,該方法相對于多UAV非線性方法提供更優(yōu)的路徑。文獻(xiàn)[8]采用粒子群優(yōu)化算法為UAV設(shè)計(jì)dubins曲線參數(shù),使得多UAV能夠同時(shí)到達(dá)集結(jié)點(diǎn)。文獻(xiàn)[9]采用模型預(yù)測控制實(shí)時(shí)調(diào)整各UAV航路以實(shí)現(xiàn)多UAV集結(jié)航路規(guī)劃。文獻(xiàn)[10]提出基于A*算法規(guī)劃UAV集結(jié)航路,并采用B樣條曲線對航路進(jìn)行平滑。文獻(xiàn)[11]提出了一種分區(qū)集結(jié)的控制策略,將集結(jié)點(diǎn)分為多個(gè)分區(qū),不同分區(qū)的UAV按一定規(guī)則向分配的集結(jié)點(diǎn)航行。文獻(xiàn)[12]提出基于定向A*算法的多UAV同時(shí)集結(jié)分步策略,通過調(diào)整各UAV的航路實(shí)現(xiàn)多UAV的同時(shí)集結(jié)。文獻(xiàn)[13]將UAV集群集結(jié)航路規(guī)劃問題轉(zhuǎn)化為最優(yōu)控制問題,并采用Radau偽譜法進(jìn)行求解。文獻(xiàn)[14]提出基于虛擬導(dǎo)引點(diǎn)的三階段UAV制導(dǎo)律,將UAV與虛擬導(dǎo)引點(diǎn)的距離分為三個(gè)階段并分別設(shè)計(jì)UAV制導(dǎo)律。文獻(xiàn)[15]根據(jù)編隊(duì)集結(jié)的要求為各UAV設(shè)計(jì)Dubins集結(jié)路徑,并通過一致性控制協(xié)議完成多UAV集結(jié)航路規(guī)劃。

盡管上述方法在其各自的環(huán)境中都實(shí)現(xiàn)了規(guī)劃的目標(biāo),但是仍然存在一些不足,主要表現(xiàn)在以下幾點(diǎn):一是大多算法僅在靜態(tài)環(huán)境中進(jìn)行多UAV編隊(duì)集結(jié)路徑規(guī)劃,缺乏處理動態(tài)障礙的能力,很難應(yīng)用于不確定環(huán)境中。二是上述方法過于依賴環(huán)境動態(tài)模型和UAV模型,這些模型的準(zhǔn)確性很大程度上影響其方法的性能。尤其在不確定環(huán)境中,上述方法時(shí)刻計(jì)算多UAV和障礙的狀態(tài)并為UAV尋找安全的航路,不但大量浪費(fèi)計(jì)算資源,而且計(jì)算時(shí)間長不易滿足多UAV應(yīng)用于不確定環(huán)境中的需求。因此,設(shè)計(jì)一種算法能夠使多UAV在集結(jié)過程中快速避障并安全達(dá)到集結(jié)點(diǎn)是十分必要的。

針對以上問題,在傳統(tǒng)DDPG算法基礎(chǔ)上引入互惠速度障礙法,本文提出了一種基于RVO-DDPG的多UAV集結(jié)路徑規(guī)劃算法,根據(jù)此算法對多UAV在集結(jié)過程中的航路進(jìn)行規(guī)劃。首先,提出了基于DDPG的多UAV集結(jié)航路規(guī)劃算法,基于馬爾可夫決策過程設(shè)計(jì)了集結(jié)航路規(guī)劃模型。其次,引入互惠速度障礙法指導(dǎo)UAV在避碰過程中有效地選擇動作,提高了算法的收斂速度。再次,將多UAV編隊(duì)中多目標(biāo)優(yōu)化問題轉(zhuǎn)化為獎勵函數(shù)設(shè)計(jì)問題,設(shè)計(jì)了一種基于綜合代價(jià)的獎勵函數(shù),有效解決了傳統(tǒng)DDPG算法應(yīng)用于集結(jié)航路規(guī)劃時(shí)易產(chǎn)生局部最優(yōu)路徑的問題。最后基于PyCharm軟件通過仿真實(shí)驗(yàn)驗(yàn)證了該算法的性能并與其他算法進(jìn)行對比分析。仿真實(shí)驗(yàn)結(jié)果表明,本文提出的基于RVO-DDPG算法不僅能夠?yàn)槎郩AV編隊(duì)集結(jié)任務(wù)快速規(guī)劃出最優(yōu)航路,而且具有良好的收斂性和實(shí)用性。

1 問題描述

1.1 任務(wù)描述

假設(shè)有N架UAV從起始點(diǎn)出發(fā),在不確定環(huán)境中的目標(biāo)點(diǎn)完成集結(jié)。環(huán)境內(nèi)存在多個(gè)動態(tài)障礙和靜態(tài)障礙。其中靜態(tài)障礙主要為禁飛區(qū)域、雷達(dá)威脅區(qū)域,動態(tài)障礙主要為非合作飛行器。為簡化問題,將不規(guī)則靜態(tài)障礙用其外接圓表示。任務(wù)環(huán)境如圖1所示,圖中黑色圓形區(qū)域表示靜態(tài)障礙,紅色圓形區(qū)域表示移動的非合作飛行器,統(tǒng)一視為動態(tài)障礙,三角形區(qū)域?yàn)閁AV的集結(jié)點(diǎn)。

圖1 飛行任務(wù)環(huán)境示意圖Fig.1 Schematic diagram of mission environment

本文的研究對象為裝備有機(jī)載探測器的UAV,UAV的探測能力用以下約束條件表示:

其中,d表示從UAV當(dāng)前位置到障礙的距離,dsensor為機(jī)載探測器的最大探測距離。為研究方便給出以下假設(shè):

(1)研究問題在二維平面內(nèi),不考慮無人機(jī)的高度。

(2)UAV能夠?qū)崟r(shí)探測并獲得該范圍內(nèi)的障礙信息,并且獲知障礙信息時(shí)沒有延遲。

(3)UAV和動態(tài)障礙的運(yùn)動方式為勻速直線運(yùn)動。

綜上所述,各UAV在不確定環(huán)境中的任務(wù)為從起始點(diǎn)出發(fā),在飛行過程中使得總代價(jià)J最小的前提下,避免我方UAV和動、靜態(tài)障礙物并達(dá)到集結(jié)區(qū)域形成編隊(duì)隊(duì)形。

1.2 UAV運(yùn)動學(xué)模型

根據(jù)前文描述,將航路規(guī)劃問題中的UAV看作質(zhì)點(diǎn)運(yùn)動模型,使用航向角的角速度來控制UAV的運(yùn)動過程。UAV的運(yùn)動方程可表示為:

式中,vu表示UAV在XOY平面內(nèi)的速度,α為航向角,ω為航向角速度。

1.3 多UAV飛行代價(jià)約束

1.3.1 UAV運(yùn)動學(xué)約束

在飛行過程中,UAV的航向角、航向角速度都必須在一定范圍內(nèi)變化,以滿足UAV的飛行性能約束JUAV。其約束條件為:

1.3.2 航程代價(jià)約束

UAV航程代價(jià)可以表示為:

式中,c1為比例系數(shù);Li表示第i架UAV的航路長度;JL,i為第i架UAV的航路代價(jià)函數(shù)。

1.3.3 碰撞代價(jià)約束

碰撞代價(jià)Jobs,i分為靜態(tài)障礙碰撞代價(jià)Js_obs,i、動態(tài)障礙碰撞代價(jià)Jd_obs,i以及UAV之間的碰撞代價(jià)JUAV,i,即:

在前文中已經(jīng)說明將各不規(guī)則障礙用其外接圓表示,在此設(shè)定其安全距離。動態(tài)、靜態(tài)障礙物的安全距離為其外接圓的半徑。而對于UAV之間,設(shè)定其安全距離為400 m。

其中:

1.3.4 時(shí)間協(xié)同代價(jià)約束

編隊(duì)成員間的時(shí)間協(xié)同代價(jià)可表示為:

式中,Li為第i架UAV達(dá)到集結(jié)點(diǎn)的航行路程,Lc為N架UAV達(dá)到集結(jié)點(diǎn)的航行路程平均值,N為UAV的數(shù)量,Jt為時(shí)間協(xié)同代價(jià)函數(shù)。

1.3.5 綜合航行代價(jià)

多UAV的綜合航行代價(jià)描述為:

式中,W1、W2、W3分別為航程代價(jià)、碰撞代價(jià)、時(shí)間協(xié)同代價(jià)的權(quán)重,JL,i為航程代價(jià),Jobs,i為碰撞代價(jià),Jt為時(shí)間協(xié)同代價(jià)。多UAV航路規(guī)劃的目的就是使無人機(jī)綜合代價(jià)最小化。

2 DDPG集結(jié)航路規(guī)劃算法

2.1 算法原理

深度確定性策略梯度算法(DDPG)是一種以確定性策略梯度算法(DPG)為基礎(chǔ)、加入深度神經(jīng)網(wǎng)絡(luò)的基于actor-critic架構(gòu)的確定性策略算法。DDPG網(wǎng)絡(luò)架構(gòu)由在線actor網(wǎng)絡(luò)、目標(biāo)actor網(wǎng)絡(luò)、在線Q網(wǎng)絡(luò)、目標(biāo)Q網(wǎng)絡(luò)四個(gè)網(wǎng)絡(luò)組成,其四個(gè)神經(jīng)網(wǎng)絡(luò)更新的方式如下所示。

在線actor網(wǎng)絡(luò)更新策略梯度為:

在線critic網(wǎng)絡(luò)通過最小化損失函數(shù)進(jìn)行更新,其損失函數(shù)為:

其中:

DDPG算法采取了軟更新的方式更新目標(biāo)網(wǎng)路參數(shù),其目標(biāo)actor網(wǎng)絡(luò)、目標(biāo)critic網(wǎng)絡(luò)更新方式分別為:

其中,τ?1。

對于DDPG算法而言,其存在的主要缺陷是探索能力不足。為解決此缺陷,DDPG算法引入了Behavior策略,即在線actor網(wǎng)絡(luò)輸出動作時(shí)加入隨機(jī)噪聲ηt,將智能體執(zhí)行的確定值動作變?yōu)殡S機(jī)值動作at。

2.2 馬爾可夫模型設(shè)計(jì)

通過DDPG算法將不確定環(huán)境中多UAV路徑規(guī)劃問題建模為馬爾可夫決策過程。下面依次對該模型的三個(gè)元素,即狀態(tài)空間、動作空間、獎勵函數(shù)進(jìn)行設(shè)計(jì)。

2.2.1 狀態(tài)空間設(shè)計(jì)

狀態(tài)空間s的設(shè)計(jì)與多UAV飛行任務(wù)密切相關(guān),要對各UAV飛行時(shí)的狀態(tài)變化有所反應(yīng)。在不確定環(huán)境下的多UAV集結(jié)路徑規(guī)劃問題中,UAV狀態(tài)空間設(shè)計(jì)主要考慮UAV的位置和航向信息以及集結(jié)點(diǎn)的位置。結(jié)合UAV運(yùn)動學(xué)模型,狀態(tài)空間s如式(15):

其中,( ux,uy)i為各UAV的位置;(α )i為各UAV的航向;( t arx,tary)i為各UAV的集結(jié)點(diǎn)。具體為:

2.2.2 動作空間設(shè)計(jì)

如前文所述,UAV的飛行通過改變航向角α實(shí)現(xiàn)??刂撇呗悦扛粢淮尾蓸訒r(shí)間δt更新一次航向角速度??紤]到無人機(jī)最大航向角速度,并避免航向角的劇烈變化影響無人機(jī)的安全飛行,定義航向角速度動作空間a∈A為:

若t時(shí)刻無人機(jī)航向角為αt,則下一時(shí)刻無人機(jī)狀態(tài)為:

2.2.3 獎勵函數(shù)設(shè)計(jì)

DDPG集結(jié)航路規(guī)劃算法中,獎勵函數(shù)是在各UAV做出動作并與環(huán)境進(jìn)行交互后由環(huán)境反饋的獎懲信號。針對航路規(guī)劃中UAV的安全和達(dá)到集結(jié)點(diǎn)的問題對獎勵函數(shù)設(shè)計(jì)如下:

2.3 算法流程

DDPG集結(jié)航路規(guī)劃算法通過對多UAV航向角速度的學(xué)習(xí)進(jìn)行航路規(guī)劃。在進(jìn)行航路規(guī)劃時(shí),UAV傳感器將獲取的環(huán)境數(shù)據(jù)輸入在線actor網(wǎng)絡(luò),在線actor網(wǎng)絡(luò)根據(jù)環(huán)境數(shù)據(jù)使用策略梯度進(jìn)行策略學(xué)習(xí)選擇各UAV航向角速度,在線critic網(wǎng)絡(luò)則根據(jù)UAV所處環(huán)境狀態(tài)以及所做動作對價(jià)值函數(shù)進(jìn)行評估,根據(jù)產(chǎn)生的評估信號評價(jià)各UAV航向角速度。

算法與環(huán)境交互獲得樣本數(shù)據(jù)(s,a,r,s′),并將其存入經(jīng)驗(yàn)池中。在樣本數(shù)據(jù)中,s為某一時(shí)刻各UAV從環(huán)境中觀測到的狀態(tài)信息,a為各UAV根據(jù)觀測到的狀態(tài)信息s執(zhí)行的動作,s′為各UAV在執(zhí)行動作a后從環(huán)境中觀測到的狀態(tài)信息,r為各UAV在狀態(tài)s的情況下執(zhí)行動作a后獲得的獎勵值,各UAV根據(jù)獎勵值的大小選擇最優(yōu)動作策略。DDPG路徑規(guī)劃算法進(jìn)行更新迭代時(shí),首先對經(jīng)驗(yàn)池進(jìn)行樣本數(shù)據(jù)積累直至達(dá)到最小批次所規(guī)定的數(shù)量,然后隨機(jī)從經(jīng)驗(yàn)池中采樣batch_size個(gè)樣本數(shù)據(jù)進(jìn)行訓(xùn)練并更新其神經(jīng)網(wǎng)絡(luò)。最后訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)為各UAV規(guī)劃出集結(jié)航路。

2.4 傳統(tǒng)DDPG集結(jié)航路規(guī)劃算法不足之處

首先是避障過程中動作調(diào)整具有隨機(jī)性導(dǎo)致算法收斂時(shí)間長。在采用DDPG算法的多UAV系統(tǒng)中,在線actor網(wǎng)絡(luò)由動作空間中每個(gè)動作的選擇概率和隨機(jī)噪聲的共同作用選擇動作。在當(dāng)前狀態(tài)下選擇此動作的獎勵值少,則會降低該動作的選擇概率,反之則提高該動作的選擇概率。由于算法初期網(wǎng)絡(luò)訓(xùn)練不充分,UAV在面對障礙時(shí)會選擇錯(cuò)誤航向角速度以降低該動作的選擇概率。在很多次試錯(cuò)之后在線actor網(wǎng)絡(luò)才會在面對障礙時(shí)選擇正確的航向角速度,此時(shí)算法才開始收斂。所以傳統(tǒng)DDPG算法應(yīng)用于多UAV集結(jié)航路規(guī)劃時(shí)存在訓(xùn)練時(shí)間長、算法收斂速度慢的缺點(diǎn)。

其次是航路集結(jié)問題中獎勵函數(shù)設(shè)計(jì)不合理,易產(chǎn)生局部最優(yōu)解。傳統(tǒng)DDPG算法通過最大化獎勵r計(jì)算目標(biāo)的最優(yōu)解。在多UAV編隊(duì)集結(jié)問題中,獎勵函數(shù)R對各UAV的動作決策進(jìn)行量化評估,為各UAV學(xué)習(xí)航向決策提供有效的指導(dǎo)。但是多UAV集結(jié)航路規(guī)劃問題的本質(zhì)為多目標(biāo)優(yōu)化問題,而經(jīng)過RVO-DDPG算法學(xué)習(xí)后的航路有可能只是使多UAV安全達(dá)到集結(jié)點(diǎn)的航路,只滿足了UAV能夠安全避障然后到達(dá)集結(jié)點(diǎn),并不滿足航路綜合代價(jià)最小。此時(shí)規(guī)劃出的集結(jié)航路為局部最優(yōu)航路,而非全局最優(yōu)航路。

3 RVO-DDPG航路規(guī)劃算法

針對上述問題,本文將互惠速度障礙法與DDPG算法相結(jié)合,提出基于RVO-DDPG的多UAV集結(jié)航路規(guī)劃算法,通過互惠速度障礙法指導(dǎo)各UAV在避障過程中的動作選擇以加快算法收斂速度。同時(shí)設(shè)計(jì)了一種基于引導(dǎo)和約束的綜合型獎勵函數(shù),避免產(chǎn)生局部最優(yōu)航路。

3.1 改進(jìn)動作選擇策略

3.1.1 互惠速度障礙法的引入

假設(shè)UAV2突然探測到動態(tài)障礙Po( )xo,yo,如圖2所示。只要調(diào)整α2使v2偏離速度障礙錐VO,即可完成避障。

圖2 速度障礙法示意圖Fig.2 Schematic diagram of speed obstacle method

假設(shè)UAV2突然探測到友方UAV1,在UAV2避免碰撞過程中,考慮到UAV1也會進(jìn)行機(jī)動,為了避免路徑發(fā)生抖動,設(shè)定UAV2在避障過程中承擔(dān)一半的避障任務(wù),即將v2偏轉(zhuǎn)出互惠速度障礙錐RVO即可[18]。如圖3所示,互惠速度障礙錐RVO可由碰撞錐CC平移得到。

圖3 互惠速度障礙法示意圖Fig.3 Diagram of reciprocal speed obstacle method

3.1.2 改進(jìn)動作選擇策略原理

當(dāng)UAV突然探測到友方UAV或動態(tài)障礙時(shí),改進(jìn)動作選擇策略通過互惠速度障礙法和速度障礙法指導(dǎo)其對友方UAV和動態(tài)障礙進(jìn)行避碰。首先UAV在探測范圍內(nèi)獲取友方UAV或動態(tài)障礙的信息,然后根據(jù)碰撞錐判斷是否產(chǎn)生碰撞。如果在未來某個(gè)時(shí)間點(diǎn)發(fā)生碰撞,則根據(jù)互惠速度障礙法或速度障礙法計(jì)算需要避碰的航向角,進(jìn)而計(jì)算此時(shí)需要調(diào)整的航向角速度范圍。如果在線actor網(wǎng)絡(luò)選擇的航向角速度在此范圍內(nèi),則給予獎勵,否則給予懲罰并重新選擇航向角?;セ菟俣日系K法指導(dǎo)流程圖如圖4所示。

圖4 改進(jìn)動作選擇策略原理圖Fig.4 Schematic diagram of improved action selection strategy

3.2 改進(jìn)獎勵函數(shù)

針對傳統(tǒng)DDPG算法獎勵函數(shù)設(shè)計(jì)不合理易產(chǎn)生局部最優(yōu)解的問題,本文提出一種基于UAV綜合航行代價(jià)的獎勵函數(shù)設(shè)計(jì)方法,將多UAV綜合航行代價(jià)約束轉(zhuǎn)化為獎勵函數(shù)設(shè)計(jì)問題。根據(jù)UAV不同飛行狀態(tài)和各種代價(jià)約束賦予不同的獎勵值:

式中,ki(i=1,2,…,5)對應(yīng)為相應(yīng)獎勵r的權(quán)重,rtar、rl、robs、rt、rother分別為UAV到達(dá)集結(jié)點(diǎn)、航行距離、碰撞、時(shí)間協(xié)同、其他飛行狀態(tài)時(shí)的獎勵。分別為:

其中,α為UAV調(diào)整后的航向角,αRVO為互惠速度障礙法計(jì)算后需要調(diào)整的航向角。需要注意的是,rtar、rl、rt為每一回合結(jié)束后計(jì)算的獎勵,robs、rother為UAV每次選擇動作與環(huán)境進(jìn)行交互后計(jì)算的獎勵。

3.3 RVO-DDPG算法偽代碼

使用RVO-DDPG算法對多UAV在不確定環(huán)境中的編隊(duì)集結(jié)任務(wù)進(jìn)行訓(xùn)練,算法偽代碼如下所示。

RVO-DDPG算法:

1.隨機(jī)初始化在線actor網(wǎng)絡(luò)Q(s,a|θQ)和在線critic網(wǎng)絡(luò)μ(s|θμ)的網(wǎng)絡(luò)參數(shù)θμ和θQ

2.初始化目標(biāo)網(wǎng)絡(luò)μ′和θQ′及其權(quán)重,θμ′←θμ,θQ′←θQ

3.初始化經(jīng)驗(yàn)池

4.forepisode=1,max_episodedo

5.為行為探索初始化隨機(jī)噪聲ηt

6.收到初始觀測狀態(tài)s1

7.fort=1,Tdo

8. 各UAV根據(jù)式(14)選擇動作at

9. 根據(jù)動作at、互惠速度障礙法與環(huán)境進(jìn)行交互

10. 產(chǎn)生獎勵值R,新的狀態(tài)st+1

11.將元組數(shù)據(jù)(st,at,rt,st+1)存放至經(jīng)驗(yàn)池中

12. 從經(jīng)驗(yàn)池中隨機(jī)采樣N個(gè)元組數(shù)據(jù)(st,at,rt,st+1)

13. 根據(jù)式(11)更新當(dāng)前critic網(wǎng)絡(luò)

14. 根據(jù)式(10)更新當(dāng)前actor網(wǎng)絡(luò)

15. 根據(jù)式(13)更新目標(biāo)網(wǎng)絡(luò)

16.end for

17.end for

4 仿真分析

為驗(yàn)證本文提出的RVO-DDPG算法在多UAV編隊(duì)集結(jié)路徑規(guī)劃問題的實(shí)用性和有效性,本文將以3架UAV從不同起始點(diǎn)出發(fā)集結(jié)生成V型編隊(duì)的路徑規(guī)劃為例進(jìn)行仿真實(shí)驗(yàn)。仿真軟件為Pycharm2020.1.3,采用Open AI的Gym建立訓(xùn)練環(huán)境。

操作系統(tǒng)環(huán)境為Windows10 x64,使用軟件工具包版本為Python3.6、Torch1.70,硬件信息為Intel i7-9750H,DDR4 16 GB和1.86 TB SSD。算法仿真參數(shù)如表1所示。

表1 算法訓(xùn)練參數(shù)設(shè)置Table 1 Algorithm training parameters setting

各UAV初始狀態(tài)與性能如表2所示。本文將UAV、障礙物的速度和環(huán)境距離同比例縮小,在實(shí)際應(yīng)用的過程中將其按比例放大即可。

表2 各UAV初始狀態(tài)與性能參數(shù)Table 2 Initial state and performance parameters of each UAV

4.1 不確定復(fù)雜環(huán)境實(shí)驗(yàn)仿真

為驗(yàn)證RVO-DDPG算法的可行性,在不確定復(fù)雜環(huán)境中驗(yàn)證和分析算法的有效性。不確定復(fù)雜環(huán)境包含多個(gè)靜態(tài)、動態(tài)障礙且障礙信息均未知,其參數(shù)如表3、表4所示;UAV初始位置為(100,100)、(250,118)、(550,80),集結(jié)點(diǎn)位置、航向?yàn)椋?70,550,90°)、(400,580,90°)、(430,550,90°)。

表3 動態(tài)障礙物參數(shù)Table 3 Dynamic obstacle parameters

表4 靜態(tài)障礙物參數(shù)Table 4 Static obstacle parameters

如圖5為3架UAV在不確定復(fù)雜環(huán)境中進(jìn)行航路規(guī)劃的情況。從圖中可以看出,各UAV在未知環(huán)境中各障礙信息的情況下,能夠利用互惠速度障礙法調(diào)整自身航向角進(jìn)行避障,還能夠得到平滑且安全的規(guī)劃航路。

圖6、圖7為各UAV在規(guī)劃航路中的航向角、航向角速度速度變化圖。由圖6可知,各UAV到達(dá)集結(jié)點(diǎn)時(shí)航向角速度一致,達(dá)到了預(yù)期的效果。從圖7中可以看出,各UAV的航向角速度變化范圍均在[-2(°)/s,2(°)/s]之間,能夠滿足UAV航向角的約束。結(jié)合圖5中平滑路徑可知,改進(jìn)DDPG算法能夠?yàn)楦鱑AV規(guī)劃出安全的集結(jié)航路。同時(shí),其航路平滑、所需航向角速度變化范圍小的優(yōu)點(diǎn)能夠更有利于UAV飛行。

圖5 UAV編隊(duì)協(xié)同集結(jié)路徑Fig.5 UAV formation collaborative assembly path

圖6 各UAV航向角變化Fig.6 Change in heading angle of each UAV

圖7 各UAV航向角速度變化Fig.7 Changes in heading angular velocity of each UAV

如表5為集結(jié)航路中各UAV與障礙的最小距離。當(dāng)UAV在探測范圍內(nèi)獲取到動態(tài)障礙運(yùn)動信息并判斷可能發(fā)生碰撞后,通過速度障礙法快速調(diào)整其航向角進(jìn)行避碰。由表5可知,航路中各UAV與動態(tài)障礙的最小距離均大于動態(tài)障礙的安全距離,說明UAV能夠安全避開動態(tài)障礙。同理,當(dāng)UAV探測到靜態(tài)障礙的位置時(shí),通過障礙錐判斷是否會發(fā)生碰撞,當(dāng)可能發(fā)生碰撞時(shí),UAV立刻調(diào)整其航向角進(jìn)行避碰。同時(shí),在航程獎勵函數(shù)的作用下,各UAV選擇最小機(jī)動方式調(diào)整航向角,即UAV與靜態(tài)障礙的距離稍大于靜態(tài)障礙安全距離。此時(shí),得到的集結(jié)航程獎勵最高,航程代價(jià)最小。

表5 各UAV與障礙最小距離Table 5 Minimum distance between UAV and obstacle

如圖8為改進(jìn)DDPG算法在訓(xùn)練回合下的平均獎勵值變化情況。從圖8中不難發(fā)現(xiàn),隨著訓(xùn)練的不斷進(jìn)行,RVO-DDPG算法給出的航路使得獎勵值不斷提高,最終趨于平穩(wěn),說明多UAV集結(jié)航路綜合代價(jià)獎勵值收斂到最優(yōu)值,即多UAV集結(jié)航路綜合代價(jià)最小、規(guī)劃的航路最優(yōu)。

圖8 獎勵值變化圖Fig.8 Change graph of reward value

4.2 對比仿真實(shí)驗(yàn)

為驗(yàn)證RVO-DDPG算法的實(shí)用性和有效性,將在3.1節(jié)環(huán)境下,分別采用改進(jìn)DDPG算法和傳統(tǒng)DDPG算法以及合作粒子群(CPSO)算法[9]進(jìn)行航路規(guī)劃實(shí)驗(yàn)仿真,其仿真結(jié)果如圖9、圖10和表6所示。

圖9 傳統(tǒng)DDPG算法規(guī)劃航路Fig.9 Traditional DDPG algorithm for route planning

圖10 CPSO算法規(guī)劃航路Fig.10 CPSO algorithm for route planning

由表6可知,在3.1節(jié)環(huán)境下,采用RVO-DDPG算法對多UAV進(jìn)行編隊(duì)集結(jié)航路規(guī)劃后,相比于DDPG算法和CPSO算法,航程代價(jià)減少了8.38%、3.12%,時(shí)間協(xié)同代價(jià)減少了47.65%、12.01%,綜合代價(jià)減少了23.15%、4.08%,航路規(guī)劃時(shí)間減少了13.89%、86.75%。由此分析可知,在相同條件下,RVO-DDPG算法在為多UAV集結(jié)規(guī)劃出合理、安全航路的同時(shí),也能夠使航程代價(jià)、時(shí)間協(xié)同代價(jià)、綜合代價(jià)大大減少,提高了多UAV在不確定復(fù)雜環(huán)境下執(zhí)行任務(wù)的效率,保證了多UAV在不確定復(fù)雜環(huán)境下的安全。

表6 三種算法的航路規(guī)劃數(shù)據(jù)Table 6 Route planning data of three algorithms

如圖11為3.1節(jié)環(huán)境中改進(jìn)DDPG算法前后獎勵值對比圖,獎勵值越高,表示UAV能夠在當(dāng)前狀態(tài)下選擇更優(yōu)的航向角。從圖中可以看出,改進(jìn)獎勵函數(shù)后DDPG算法獎勵收斂值明顯提升,這是因?yàn)閷⒑铰肪C合代價(jià)設(shè)計(jì)為獎勵函數(shù)后,算法規(guī)劃的航路更優(yōu)。同時(shí),改進(jìn)動作選擇策略后的DDPG算法獎勵值收斂速度明顯優(yōu)于傳統(tǒng)DDPG算法,說明引入速度障礙法、互惠速度障礙法后的DDPG算法避障效率更高。

圖11 改進(jìn)DDPG算法獎勵值對比Fig.11 Comparison of improved DDPG algorithm reward values

如表7為改進(jìn)DDPG算法獎勵值收斂時(shí)的迭代次數(shù)。由表7可知,改進(jìn)動作選擇策略的DDPG算法和RVO-DDPG算法在第3 654、4 352次迭代時(shí)開始收斂,相比于傳統(tǒng)DDPG算法在第6 528次開始收斂的迭代次數(shù)分別提高了44.03%、33.33%,說明改進(jìn)動作選擇策略能夠提高算法的訓(xùn)練效率,加快網(wǎng)絡(luò)的學(xué)習(xí)效率。同時(shí),由收斂時(shí)的獎勵均值可以看出,改進(jìn)獎勵函數(shù)的DDPG算法和RVO-DDPG算法的獎勵均值遠(yuǎn)遠(yuǎn)大于傳統(tǒng)DDPG算法,說明RVO-DDPG算法能夠使多UAV避免陷入局部最優(yōu)航路,更能滿足不確定復(fù)雜環(huán)境下多UAV集結(jié)航路規(guī)劃的任務(wù)需求。

表7 改進(jìn)DDPG算法收斂迭代次數(shù)Table 7 Improved DDPG algorithm convergence iteration times

5 結(jié)論

針對傳統(tǒng)智能算法難以處理不確定復(fù)雜環(huán)境下多UAV集結(jié)航路規(guī)劃的問題,本文將傳統(tǒng)DDPG算法與互惠速度障礙法相結(jié)合設(shè)計(jì)了RVO-DDPG算法。為提高傳統(tǒng)DDPG算法的收斂速度,采用互惠速度障礙法調(diào)整UAV航向,使多UAV成功躲避不確定復(fù)雜環(huán)境中的動態(tài)、靜態(tài)障礙物。設(shè)計(jì)了一種基于綜合代價(jià)約束的獎勵函數(shù),將多UAV航路規(guī)劃中的多約束問題轉(zhuǎn)化為獎勵函數(shù)設(shè)計(jì)問題,使算法規(guī)劃出的集結(jié)航路綜合代價(jià)最小。最后通過仿真實(shí)驗(yàn)驗(yàn)證了該算法的實(shí)用性和有效性,并與傳統(tǒng)DDPG算法和CPSO算法進(jìn)行對比用于驗(yàn)證RVO-DDPG算法的先進(jìn)性,實(shí)驗(yàn)結(jié)果表明RVODDPG算法能夠快速為各UAV在不確定環(huán)境中規(guī)劃出安全有效的航路。

猜你喜歡
航路航向代價(jià)
知坐標(biāo),明航向
基于實(shí)時(shí)航路的PFD和ND的仿真研究
考慮幾何限制的航向道模式設(shè)計(jì)
愛的代價(jià)
海峽姐妹(2017年12期)2018-01-31 02:12:22
代價(jià)
基于干擾觀測器的船舶系統(tǒng)航向Backstepping 控制
電子制作(2017年24期)2017-02-02 07:14:16
應(yīng)召反潛時(shí)無人機(jī)監(jiān)聽航路的規(guī)劃
托勒密世界地圖與新航路的開辟
成熟的代價(jià)
基于Event改進(jìn)模型的交叉航路碰撞風(fēng)險(xiǎn)評估
军事| 徐水县| 三门峡市| 邵阳市| 岢岚县| 嘉黎县| 开平市| 滁州市| 玉林市| 锡林浩特市| 望都县| 阜宁县| 绥滨县| 乐平市| 水城县| 建水县| 延长县| 保德县| 定日县| 勐海县| 钟祥市| 虹口区| 密云县| 洱源县| 和顺县| 山丹县| 安多县| 乐清市| 鸡泽县| 罗甸县| 开鲁县| 田东县| 哈巴河县| 大足县| 阜城县| 绥棱县| 宁海县| 博爱县| 靖西县| 霍山县| 开化县|