国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于IMM-PPO的無人機(jī)機(jī)動目標(biāo)追蹤

2022-03-20 09:06:46成旭明叢玉華歐陽權(quán)王志勝
彈箭與制導(dǎo)學(xué)報 2022年6期
關(guān)鍵詞:獎懲機(jī)動障礙物

成旭明,叢玉華,歐陽權(quán),王志勝

(南京航空航天大學(xué)自動化學(xué)院,南京 210016)

0 引言

隨著航空、軍事領(lǐng)域的發(fā)展,空中偵察追逃、災(zāi)后搜索救援等任務(wù)的危險和損耗與日俱增。無人機(jī)因其高機(jī)動性、低成本性,在這些任務(wù)中得到廣泛的應(yīng)用[1-2]。如何使無人機(jī)在復(fù)雜環(huán)境下具備自主避障導(dǎo)航與跟蹤機(jī)動目標(biāo)的能力是在實(shí)際應(yīng)用中需要解決的難題,為此國內(nèi)外學(xué)者進(jìn)行了深入研究。

智能體在復(fù)雜環(huán)境中進(jìn)行自主避障跟蹤可以視為一類具有動態(tài)目標(biāo)點(diǎn)的路徑規(guī)劃問題,在常見的路徑規(guī)劃問題上,Duchoň等[3]通過生成詳細(xì)網(wǎng)格地圖為智能體提供全局信息,采用改進(jìn)的A*算法完成路徑規(guī)劃。Huang等[4]采用RRT算法在環(huán)境不確定性下規(guī)劃智能體軌跡。Li等[5]將規(guī)劃問題轉(zhuǎn)換為目標(biāo)優(yōu)化問題,并提出了一種基于牛頓引力的啟發(fā)式算法進(jìn)行搜索尋優(yōu)。上述的路徑規(guī)劃策略在全局規(guī)劃上具備一定的優(yōu)勢,但對智能體模型與地圖環(huán)境的信息有較高的要求。

隨著計算機(jī)技術(shù)與人工智能的發(fā)展,一些研究者嘗試將強(qiáng)化學(xué)習(xí)應(yīng)用于無人機(jī)導(dǎo)航任務(wù)中,取得了不錯的成果。Q-learning是強(qiáng)化學(xué)習(xí)中一種較為常用的算法,能夠通過判斷長期折扣獎勵評估智能體的學(xué)習(xí)優(yōu)劣[6]。Zhao等[7]設(shè)計了基于Q-learning的自適應(yīng)路徑探索與避障策略,用以無人機(jī)導(dǎo)航。Chao等[8]改進(jìn)了Q-learning的動作選擇策略并采用新的Q值初始化方法,使無人機(jī)具有更強(qiáng)的探索最優(yōu)路徑的能力。深度神經(jīng)網(wǎng)絡(luò)以其強(qiáng)大的函數(shù)逼近擬合能力,與強(qiáng)化學(xué)習(xí)結(jié)合衍生出許多改進(jìn)算法,Jiang等[9]將經(jīng)驗(yàn)回放思想引入DQN提出了MP-Dueling DQN,相比DQN在無人機(jī)避障與跟蹤任務(wù)上具有更快的收斂速度與更強(qiáng)的泛化性。Guo等[10]采用分布式深度強(qiáng)化學(xué)習(xí)框架,利用LSTM神經(jīng)網(wǎng)絡(luò)處理時序問題的能力,提出了分層RQN的學(xué)習(xí)方法,能夠在高動態(tài)環(huán)境中完成導(dǎo)航。以上方法雖然具備完成導(dǎo)航任務(wù)的能力,但也存在智能體動作空間離散的局限性。與這些方法中的離散動作空間不同,在實(shí)際應(yīng)用中,無人機(jī)的動作空間往往是連續(xù)的,在現(xiàn)有的研究中,Li等[11-12]基于連續(xù)動作空間的DDPG算法框架,改進(jìn)了演員-評價者(Actor-Critic)網(wǎng)絡(luò)結(jié)構(gòu),使其對歷史觀測具備更好的擬合能力,對地面目標(biāo)跟蹤性能更優(yōu)。在DDPG探索中引入混合噪聲,對飛行任務(wù)解構(gòu)并基于遷移學(xué)習(xí)的思想進(jìn)行預(yù)訓(xùn)練權(quán)重,在面對不確定環(huán)境時具有良好的泛化性。以上研究通過強(qiáng)化學(xué)習(xí)訓(xùn)練決策網(wǎng)絡(luò),能夠?qū)σ苿幽繕?biāo)進(jìn)行有效避障跟蹤,但在面對具有混合運(yùn)動模型的機(jī)動目標(biāo)時,缺少了對目標(biāo)的狀態(tài)估計步驟,在實(shí)際任務(wù)中具有較大的偏差。

針對上述缺陷,提出一種基于交互式多模型濾波(IMM)和近端策略優(yōu)化(PPO)的機(jī)動目標(biāo)追蹤跟隨策略,定義了以無人機(jī)運(yùn)動模型為基礎(chǔ)的動作空間以及用來表示環(huán)境信息的狀態(tài)空間,根據(jù)追蹤時間、跟蹤性能以及避障約束構(gòu)建獎懲函數(shù),設(shè)計避障跟蹤決策網(wǎng)絡(luò)并進(jìn)行訓(xùn)練。根據(jù)仿真實(shí)驗(yàn)分析,提出的方法相比傳統(tǒng)算法在動態(tài)環(huán)境中具備更優(yōu)秀的追蹤避障及跟蹤性能。

1 問題描述

1.1 無人機(jī)運(yùn)動模型

研究無人機(jī)在三維空間中的動態(tài)目標(biāo)追蹤任務(wù),假設(shè)能夠通過自動駕駛儀使無人機(jī)運(yùn)動在某一固定高度,無人機(jī)在二維坐標(biāo)系中滿足如下的連續(xù)運(yùn)動方程:

(1)

式中:x(t),y(t)為t時刻無人機(jī)在二維坐標(biāo)系中的位置;v(t)表示t時刻無人機(jī)朝向方向的線速度;ψ(t),w(t)分別為t時刻無人機(jī)的偏航角與偏航角速度。將運(yùn)動方程離散化可以得到從t時刻到(t+1)時刻的無人機(jī)狀態(tài)更新方程為:

(2)

式中Δt為離散時間間隔。

1.2 任務(wù)目標(biāo)及約束

無人機(jī)在復(fù)雜障礙物環(huán)境中追蹤并跟隨移動目標(biāo)需要綜合考慮目標(biāo)跟蹤性能與追蹤耗時,同時需要滿足任務(wù)過程中的避障約束。

1.2.1 目標(biāo)跟蹤性能

對機(jī)動目標(biāo)的跟蹤性能通??梢杂脽o人機(jī)與目標(biāo)的距離表示,提升跟蹤性能即縮短無人機(jī)在單位時間內(nèi)與目標(biāo)的距離。跟蹤性能對應(yīng)的目標(biāo)函數(shù)可以表示為:

(3)

1.2.2 追蹤耗時

在無人機(jī)實(shí)際執(zhí)行目標(biāo)跟蹤任務(wù)時,會存在起始位置與目標(biāo)起始位置相距較大的問題。在這種情況下,無人機(jī)需要自主規(guī)劃路徑以快速追蹤并逼近機(jī)動目標(biāo),因此縮短無人機(jī)追蹤目標(biāo)的時間是需要考慮的另一個重要目標(biāo)。追蹤時間的待優(yōu)化目標(biāo)函數(shù)可以表示為:

minJ2=NΔt

(4)

式中N為無人機(jī)到達(dá)目標(biāo)跟蹤范圍內(nèi)的采樣步數(shù)。

1.2.3 避障約束

在無人機(jī)的飛行域內(nèi)存在大小、方位均未知的靜止障礙物,可視為移動障礙物的敵方無人機(jī),追蹤無人機(jī)在感知到敵方無人機(jī)后能夠獲取其最大半徑及當(dāng)前時刻的狀態(tài)信息。在復(fù)雜障礙物環(huán)境下,考慮到算法學(xué)習(xí)的收斂性,將實(shí)際觀測窗信息進(jìn)行處理,壓縮至9條激光束,且每個激光束的相隔角度為22.5°,如圖1所示。

圖1 基于激光測距的無人機(jī)障礙物檢測

圖中:vuav為無人機(jī)當(dāng)前的速度矢量;{di|d1,d2,…,dn}為第i個從無人機(jī)出發(fā)的激光束測得的與障礙物的距離,且di≤dmax。任務(wù)環(huán)境中存在靜止障礙與運(yùn)動狀態(tài)已知的移動障礙,若在無人機(jī)導(dǎo)航過程中發(fā)生碰撞,則任務(wù)失敗,因此無人機(jī)需要與障礙物保持合理安全的距離,約束條件為:

min(d1,d2,…,dn)>rsafe

(5)

式中rsafe為安全避障距離。

2 基于IMM-PPO的無人機(jī)避障跟蹤

為了實(shí)現(xiàn)復(fù)雜環(huán)境下對機(jī)動目標(biāo)更準(zhǔn)確的跟蹤,將IMM與PPO算法結(jié)合,對機(jī)動目標(biāo)進(jìn)行多模型融合狀態(tài)估計,并將融合輸出結(jié)合其他觀測量構(gòu)建狀態(tài)空間,作為強(qiáng)化學(xué)習(xí)算法Actor-Critic網(wǎng)絡(luò)的輸入,訓(xùn)練無人機(jī)自主跟蹤決策模型。作為一種基于策略的算法,PPO算法解決了傳統(tǒng)策略梯度算法收斂依賴步長選擇的問題并提高了經(jīng)驗(yàn)利用率,使訓(xùn)練過程能夠更快收斂。

2.1 跟蹤目標(biāo)狀態(tài)估計

卡爾曼濾波常用于運(yùn)動目標(biāo)的狀態(tài)估計,而在復(fù)雜環(huán)境下,機(jī)動目標(biāo)的運(yùn)動模型往往不是單一的,基于IMM的濾波方法能夠考慮多個運(yùn)動模型的轉(zhuǎn)移概率,通過馬爾可夫轉(zhuǎn)移矩陣完成模型概率更新,從而得到多個濾波器的融合輸出估計。IMM的優(yōu)化過程如圖2所示。

圖2 交互式多模型濾波融合估計

定義模型間的概率轉(zhuǎn)移矩陣P為:

(6)

其中pij(i=1,2,…,n;j=1,2,…,n)代表由模型i轉(zhuǎn)換到模型j的概率,根據(jù)轉(zhuǎn)移概率及概率更新計算模型混合概率為:

(7)

(8)

(9)

模型j的概率更新采用最大似然函數(shù)法,選取似然函數(shù)為:

(10)

式中vj(k),Sj(k)分別為濾波殘差與其協(xié)方差,由對應(yīng)于模型j的濾波器輸出得到,概率更新方式為:

(11)

(12)

至此完成了k時刻運(yùn)動目標(biāo)的狀態(tài)估計。

2.2 基于強(qiáng)化學(xué)習(xí)的目標(biāo)跟蹤框架

2.2.1 動作空間和狀態(tài)空間設(shè)計

參照1.1節(jié)中無人機(jī)運(yùn)動模型,以無人機(jī)朝向方向的線速度v與偏航角速度w作為控制量輸入,強(qiáng)化學(xué)習(xí)動作空間可表示為:

A=(v,w)

(13)

狀態(tài)空間從3個角度構(gòu)建:1)無人機(jī)自身信息;2)對障礙物和動態(tài)威脅的觀測量;3)機(jī)動目標(biāo)的狀態(tài)估計。在強(qiáng)化學(xué)習(xí)算法中,為了消除狀態(tài)信息的維度不同對訓(xùn)練效果造成的影響,對狀態(tài)空間St=(Sb,So,Star)中不同量綱的分量進(jìn)行歸一化處理,分別表示為:

(14)

(15)

(16)

其中:(xuav,yuav)為當(dāng)前時間步下無人機(jī)于坐標(biāo)系下的位置坐標(biāo);xmax,ymax分別為矩形飛行域的長、寬;ψ為無人機(jī)偏航角;vmax為無人機(jī)最大允許線速度;Svo表示碰撞域的狀態(tài)信息;θ表示當(dāng)前無人機(jī)和目標(biāo)的連線與坐標(biāo)系x軸所成夾角。無人機(jī)追蹤機(jī)動目標(biāo)的過程如圖3所示。

圖3 無人機(jī)追蹤機(jī)動目標(biāo)示意圖

2.2.2 獎懲函數(shù)設(shè)計

針對無人機(jī)自主避障跟蹤的獎懲函數(shù)設(shè)計建立在指標(biāo)函數(shù)與約束條件的基礎(chǔ)之上。一種常用的設(shè)計思路是采用稀疏獎懲,即智能體僅在回合結(jié)束的情況下得到獎懲,這就需要智能體以不加引導(dǎo)的隨機(jī)動作不斷探索環(huán)境以獲得獎懲,會導(dǎo)致算法的收斂速度降低,并且容易陷入局部最優(yōu)解。因此在任務(wù)中,獎懲函數(shù)由稀疏獎懲與單步獎懲組成,稀疏獎懲僅在特定任務(wù)完成或回合結(jié)束時產(chǎn)生,單步獎懲則在智能體與環(huán)境的每一步交互后產(chǎn)生,旨在引導(dǎo)智能體更快地完成追蹤任務(wù)。

1)障礙物懲罰函數(shù)

根據(jù)狀態(tài)空間及避障約束條件設(shè)計障礙物懲罰函數(shù),利用狀態(tài)信息{di|d1,d2,…,dn}構(gòu)造虛擬斥力場的思想,在無人機(jī)接近障礙物時給以較大的懲罰,而在遠(yuǎn)離障礙物時給以較小的懲罰,在未檢測到障礙物時懲罰為0,設(shè)置單步懲罰函數(shù)的數(shù)學(xué)形式為:

(17)

式中αso為障礙物懲罰系數(shù)。在面對具有避障功能的移動障礙物時,基于碰撞域提出一種考慮碰撞時間的懲罰函數(shù)設(shè)計方法。為了方便計算,將障礙物與無人機(jī)形狀簡化為其最小外接圓。如圖4所示,其中va,ra分別為無人機(jī)速度矢量和半徑,vb,rb分別為障礙物速度矢量和半徑。

圖4 無人機(jī)與移動障礙物示意圖

圖5 碰撞域示意圖

(18)

ACC=RCC⊕vb

(19)

根據(jù)碰撞域的數(shù)學(xué)形式,當(dāng)無人機(jī)的線速度矢量處于碰撞域ACC內(nèi)時,經(jīng)過時間tc,智能體將與移動障礙物發(fā)生碰撞?;陬A(yù)期碰撞時間的單步懲罰函數(shù)構(gòu)造為:

(20)

ro=rso+rvo

(21)

此外,為了縮減訓(xùn)練時間使其更快收斂,在無人機(jī)撞到障礙物或邊界時將得到稀疏懲罰:

(22)

2)快速追蹤獎勵函數(shù)

復(fù)雜環(huán)境下追蹤目標(biāo)需要無人機(jī)以較短的時間完成避障導(dǎo)航并快速進(jìn)入目標(biāo)跟蹤范圍,因此在避障導(dǎo)航階段決策網(wǎng)絡(luò)需要提供較大的速度決策量,設(shè)置單步獎勵函數(shù)為:

(23)

rt=-αtkLk

(24)

rf=rv1+rt

(25)

此外,為了鼓勵無人機(jī)到達(dá)跟蹤范圍,在完成避障導(dǎo)航后,給以稀疏獎勵:

(26)

3)跟蹤性能獎勵函數(shù)

為了實(shí)現(xiàn)更精準(zhǔn)的無人機(jī)地面目標(biāo)跟蹤,需要使跟蹤階段的無人機(jī)具有與目標(biāo)接近的速度,且在二維平面上無人機(jī)與目標(biāo)的距離越小代表跟蹤性能越好。因此設(shè)置基于速度、距離和角度的獎懲函數(shù)分別為:

(27)

rL=αL(Lk-1-Lk)

(28)

(29)

rc=rv2+rL+ra

(30)

將以上獎懲函數(shù)按照重要性分配權(quán)重系數(shù),則總獎懲函數(shù)的數(shù)學(xué)表達(dá)形式為:

r=woro+wfrf+wcrc+rdone1+rdone2

(31)

2.3 基于IMM-PPO的目標(biāo)追蹤策略訓(xùn)練

PPO算法采用了Actor-Critic網(wǎng)絡(luò),這種網(wǎng)絡(luò)結(jié)構(gòu)能夠同時進(jìn)行值函數(shù)與策略函數(shù)學(xué)習(xí),其中Actor學(xué)習(xí)策略函數(shù),Critic學(xué)習(xí)策略的近似值函數(shù)。

圖6 Actor-Critic網(wǎng)絡(luò)

在Actor-Critic框架下的策略更新[13]可以表示為:

(32)

圖7 無人機(jī)導(dǎo)航跟蹤策略訓(xùn)練框架

Actor網(wǎng)絡(luò)用于接收智能體與環(huán)境交互的狀態(tài)信息St=(Sbody,Sobs,Star),并輸出動作(v,w)的采樣Dt,Critic網(wǎng)絡(luò)通過對優(yōu)勢函數(shù)的估計來評估策略的優(yōu)劣。網(wǎng)絡(luò)權(quán)重及學(xué)習(xí)參數(shù)的更新本質(zhì)上是學(xué)習(xí)關(guān)于(a,s)的策略函數(shù),將待優(yōu)化的導(dǎo)航跟蹤策略函數(shù)近似參數(shù)化:

Π(a|s)~Πθ(a,s)

(33)

式中:a為無人機(jī)動作(v,w);s為狀態(tài)信息St。通過策略梯度算法對策略參數(shù)進(jìn)行基于梯度的優(yōu)化[14],定義策略梯度估計為:

(34)

(35)

式中:VΠ(st)表示無人機(jī)在t時刻下的狀態(tài)st時采用策略Π的價值;Rt′表示在t′時刻智能體得到的獎勵;γ為獎勵折扣因子。無人機(jī)導(dǎo)航跟蹤策略更新的目的是尋找到一個優(yōu)于原策略Πθ的Π′θ,以舊的策略Πθ與環(huán)境交互,將采集到的樣本用于更新策略Π′θ,為了防止新舊策略相差過大,使用一種截斷方式限制策略更新。因此采用優(yōu)勢函數(shù)估計描述策略更新的目標(biāo)函數(shù)表示為:

(36)

式中:Π′θ為新的策略,ε為超參數(shù)。clip()函數(shù)用來將新舊策略的比值限定在(1-ε)與(1+ε)之間,具體函數(shù)形式如圖8所示。

圖8 截斷函數(shù)示意圖

若在t時刻采取動作at的回報大于平均回報,即優(yōu)勢函數(shù)為正,則增大該動作概率,反之減小該動作概率。

2.4 無人機(jī)目標(biāo)追蹤策略網(wǎng)絡(luò)決策

對網(wǎng)絡(luò)權(quán)重參數(shù)訓(xùn)練完成后,決策網(wǎng)絡(luò)將無人機(jī)與環(huán)境交互采集到的狀態(tài)信息St=(Sb,So,Star)=(s1,s2,…,sn)作為輸入,其中n為狀態(tài)空間維度。采用權(quán)重參數(shù)和偏置計算網(wǎng)絡(luò)輸入的加權(quán)和,并得到神經(jīng)元的輸出,其表達(dá)式為:

(37)

圖9 決策神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

3 仿真驗(yàn)證

為驗(yàn)證IMM-PPO算法在無人機(jī)追蹤任務(wù)上的有效性,進(jìn)行仿真實(shí)驗(yàn)。首先進(jìn)行仿真環(huán)境的搭建以及參數(shù)設(shè)置,然后分析了策略訓(xùn)練過程中強(qiáng)化學(xué)習(xí)算法的獎勵變化曲線,最后分別采用IMM-PPO算法與DWA算法進(jìn)行無人機(jī)機(jī)動目標(biāo)追蹤仿真實(shí)驗(yàn),比較兩種算法的性能。

3.1 仿真環(huán)境

3.2 基于IMM-PPO的無人機(jī)跟蹤策略訓(xùn)練

采用IMM濾波算法對目標(biāo)狀態(tài)進(jìn)行估計,將估計值作為強(qiáng)化學(xué)習(xí)算法狀態(tài)空間的一部分進(jìn)行無人機(jī)跟蹤策略訓(xùn)練。訓(xùn)練過程中的回報隨回合數(shù)變化如圖10所示。

圖10 獎勵變化曲線

從圖中可以看出,在訓(xùn)練初始時刻,無人機(jī)在復(fù)雜環(huán)境中處于探索階段,得到的回合獎勵較少。在多個回合訓(xùn)練后,無人機(jī)逐漸具備避障跟蹤能力,能夠與障礙物保持安全距離并縮短與目標(biāo)之間的最小距離,回報呈逐漸上升趨勢。在900回合后無人機(jī)避障跟蹤決策網(wǎng)絡(luò)權(quán)重趨于收斂,表明無人機(jī)能夠在獎勵函數(shù)的指引下學(xué)習(xí)到最優(yōu)的跟蹤策略。

3.3 與傳統(tǒng)DWA算法對比

為了突出IMM-PPO算法在障礙物環(huán)境中追蹤機(jī)動目標(biāo)的優(yōu)越性,與傳統(tǒng)DWA算法作比較,設(shè)置兩種算法下無人機(jī)具備相同的初始狀態(tài)以及約束條件,在同樣的環(huán)境中追蹤運(yùn)動模式相同的機(jī)動目標(biāo)。

3.3.1 快速性對比

針對單位時間決策網(wǎng)絡(luò)的動作輸出,給出IMM-PPO算法和DWA算法下的無人機(jī)避障導(dǎo)航的過程圖如圖11所示。

圖11 避障導(dǎo)航過程圖

從圖中可以看出,IMM-PPO算法與DWA算法均能指引無人機(jī)躲避障礙并到達(dá)目標(biāo)跟蹤范圍。在t=16 s時,IMM-PPO算法下的無人機(jī)檢測到障礙物并調(diào)整偏航角,在獎勵函數(shù)的引導(dǎo)下以較快的速度躲避障礙并飛往下一個跟蹤點(diǎn),如圖11(a)所示。在t=21 s時DWA算法下的無人機(jī)檢測到障礙物并判斷后續(xù)k步的路徑指標(biāo)函數(shù),選擇最優(yōu)的避障路徑,并在t=31 s時完成避障,如圖11(d)所示。從t=36 s至t=42 s,IMM-PPO決策網(wǎng)絡(luò)根據(jù)環(huán)境信息預(yù)測的碰撞時間,結(jié)合快速追蹤的獎勵函數(shù),調(diào)整輸出的動作,使無人機(jī)能夠快速且以較低代價遠(yuǎn)離碰撞域,如圖11(e)、圖11(f)所示。t=50 s時,IMM-PPO算法下的無人機(jī)到達(dá)機(jī)動目標(biāo)的跟蹤范圍并開始執(zhí)行跟蹤任務(wù),而在t=79 s時,DWA算法指導(dǎo)的無人機(jī)才進(jìn)入目標(biāo)的跟蹤范圍,如圖11(g)、圖11(h)所示。兩種算法下無人機(jī)完成追蹤避障并進(jìn)入目標(biāo)跟蹤范圍的路徑長度如表1所示。

表1 IMM-PPO與DWA避障導(dǎo)航路徑長度比較

3.3.2 跟蹤性能對比

為了體現(xiàn)IMM-PPO在跟蹤性能方面的優(yōu)勢,無人機(jī)飛行過程中的速度控制量和目標(biāo)相對距離變化曲線及跟蹤任務(wù)軌跡分別如圖12~圖14所示。

圖12 IMM-PPO,DWA速度變化圖

圖13 無人機(jī)與目標(biāo)相對距離圖

圖14 機(jī)動目標(biāo)跟蹤任務(wù)軌跡圖

從圖12可以看出,在任務(wù)起始時刻,IMM-PPO算法與DWA算法都輸出較大的速度控制量,從而使無人機(jī)能夠快速接近目標(biāo),在檢測到障礙物并進(jìn)入避障任務(wù)環(huán)節(jié)時,IMM-PPO算法的速度控制量仍舊穩(wěn)定在最大允許速度附近,而DWA算法下無人機(jī)的速度控制量具有較大振幅。當(dāng)任務(wù)進(jìn)行到跟蹤階段,即無人機(jī)到達(dá)機(jī)動目標(biāo)的跟蹤范圍內(nèi)時,IMM-PPO策略網(wǎng)絡(luò)輸出一個接近機(jī)動目標(biāo)真實(shí)速度的速度控制量進(jìn)行跟蹤,并且直到仿真結(jié)束均能夠穩(wěn)定在目標(biāo)速度附近;而DWA算法下的無人機(jī)速度振蕩明顯,無法達(dá)到穩(wěn)定在目標(biāo)速度附近的跟蹤效果。圖13描述了任務(wù)過程中無人機(jī)與目標(biāo)相對位置變化,可以看出,從t=50 s至t=149 s,IMM-PPO決策網(wǎng)絡(luò)能夠使無人機(jī)以平穩(wěn)的速度穩(wěn)定在跟蹤范圍內(nèi),相比于DWA算法,IMM-PPO算法下的無人機(jī)具有更多的有效跟蹤步數(shù)。圖14展示了從初始時刻到最大時間步數(shù)的無人機(jī)運(yùn)動軌跡,從圖中可以看出,IMM-PPO算法下的無人機(jī)具有更加平滑的運(yùn)動軌跡,DWA算法犧牲了部分跟蹤性能而進(jìn)行避障,軌跡具有較明顯的突變。根據(jù)以上結(jié)果分析,基于IMM-PPO算法的無人機(jī)在線避障跟蹤策略明顯具有更好的跟蹤性能。

3.4 強(qiáng)化學(xué)習(xí)在線跟蹤策略

為了進(jìn)一步體現(xiàn)IMM-PPO的在線感知避障跟蹤能力,改變環(huán)境中障礙物的大小,分別設(shè)置無人機(jī)與移動障礙物位于與上述仿真不同的初始位置(110 m,10 m),(182 m,204 m)并且移動障礙物具有不同的避障軌跡,仿真結(jié)果如圖15所示。

由圖15可以得到,無人機(jī)能夠在無碰撞的情況下,在41 s時到達(dá)目標(biāo)跟蹤范圍執(zhí)行跟蹤任務(wù)并始終保持與目標(biāo)的相對距離在20 m內(nèi)。由此可以看出,在環(huán)境改變的情況下,訓(xùn)練后的無人機(jī)避障跟蹤策略網(wǎng)絡(luò)仍然能夠指導(dǎo)無人機(jī)進(jìn)行靜止與移動障礙躲避并跟蹤機(jī)動目標(biāo)。

圖15 不同環(huán)境下的無人機(jī)在線避障跟蹤仿真

總之,傳統(tǒng)的避障算法DWA能夠通過指標(biāo)函數(shù)選取最優(yōu)的無人機(jī)控制量(v,w),但在面對復(fù)雜障礙物時將得到較大的減速度,從而無法保持較高的速度追蹤機(jī)動目標(biāo),延長了無人機(jī)導(dǎo)航的路徑長度與耗時,在執(zhí)行跟蹤任務(wù)時無法保持與目標(biāo)接近的速度。而文中所提算法能夠在線自適應(yīng)調(diào)整動作,根據(jù)無人機(jī)與移動障礙的預(yù)期碰撞時間避免其在追蹤過程中陷入碰撞域內(nèi),從而快速躲避障礙物并到達(dá)目標(biāo)跟蹤范圍,在跟蹤目標(biāo)時速度能夠穩(wěn)定在目標(biāo)速度附近,更適用于無人機(jī)機(jī)動目標(biāo)跟蹤場景。

4 結(jié)論

針對復(fù)雜環(huán)境下無人機(jī)機(jī)動目標(biāo)追蹤的問題,提出一種基于IMM-PPO的目標(biāo)追蹤策略,首先采用交互式濾波算法對機(jī)動模型進(jìn)行濾波估計,接著根據(jù)優(yōu)化目標(biāo)及約束設(shè)計獎懲函數(shù),并對策略網(wǎng)絡(luò)權(quán)重進(jìn)行訓(xùn)練,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)根據(jù)智能體與環(huán)境交互得到的信息更新輸出動作的概率分布,在避開靜止與移動障礙物的前提下在線完成快速導(dǎo)航并對機(jī)動目標(biāo)進(jìn)行穩(wěn)定跟蹤。從仿真結(jié)果來看,相較于傳統(tǒng)避障算法DWA,文中所提算法能夠兼顧目標(biāo)跟蹤過程的安全性、快速性并且能夠保持更好的跟蹤性能,在環(huán)境改變時也能夠執(zhí)行目標(biāo)追蹤任務(wù),具備一定的泛化性。

猜你喜歡
獎懲機(jī)動障礙物
基于模糊馬爾可夫鏈的獎懲系統(tǒng)*
裝載機(jī)動臂的疲勞壽命計算
高低翻越
SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計和處理
12萬畝機(jī)動地不再“流浪”
機(jī)動三輪車的昨天、今天和明天
論如何正確對待高校學(xué)生獎懲工作
長江叢刊(2017年10期)2017-11-24 21:42:52
我國納稅信用體系建設(shè)研究
獎懲
海上機(jī)動之師
杨浦区| 周至县| 浪卡子县| 常德市| 岑巩县| 东源县| 铜山县| 边坝县| 鄂尔多斯市| 浮梁县| 靖州| 芦山县| 故城县| 泰宁县| 民县| 淳化县| 盐池县| 余干县| 永丰县| 来安县| 安达市| 中阳县| 辉南县| 新晃| 砚山县| 崇左市| 莲花县| 泗洪县| 莎车县| 东源县| 闸北区| 武定县| 漠河县| 留坝县| 军事| 广昌县| 邵阳市| 大姚县| 吉隆县| 子长县| 合江县|