成旭明,叢玉華,歐陽權(quán),王志勝
(南京航空航天大學(xué)自動化學(xué)院,南京 210016)
隨著航空、軍事領(lǐng)域的發(fā)展,空中偵察追逃、災(zāi)后搜索救援等任務(wù)的危險和損耗與日俱增。無人機(jī)因其高機(jī)動性、低成本性,在這些任務(wù)中得到廣泛的應(yīng)用[1-2]。如何使無人機(jī)在復(fù)雜環(huán)境下具備自主避障導(dǎo)航與跟蹤機(jī)動目標(biāo)的能力是在實(shí)際應(yīng)用中需要解決的難題,為此國內(nèi)外學(xué)者進(jìn)行了深入研究。
智能體在復(fù)雜環(huán)境中進(jìn)行自主避障跟蹤可以視為一類具有動態(tài)目標(biāo)點(diǎn)的路徑規(guī)劃問題,在常見的路徑規(guī)劃問題上,Duchoň等[3]通過生成詳細(xì)網(wǎng)格地圖為智能體提供全局信息,采用改進(jìn)的A*算法完成路徑規(guī)劃。Huang等[4]采用RRT算法在環(huán)境不確定性下規(guī)劃智能體軌跡。Li等[5]將規(guī)劃問題轉(zhuǎn)換為目標(biāo)優(yōu)化問題,并提出了一種基于牛頓引力的啟發(fā)式算法進(jìn)行搜索尋優(yōu)。上述的路徑規(guī)劃策略在全局規(guī)劃上具備一定的優(yōu)勢,但對智能體模型與地圖環(huán)境的信息有較高的要求。
隨著計算機(jī)技術(shù)與人工智能的發(fā)展,一些研究者嘗試將強(qiáng)化學(xué)習(xí)應(yīng)用于無人機(jī)導(dǎo)航任務(wù)中,取得了不錯的成果。Q-learning是強(qiáng)化學(xué)習(xí)中一種較為常用的算法,能夠通過判斷長期折扣獎勵評估智能體的學(xué)習(xí)優(yōu)劣[6]。Zhao等[7]設(shè)計了基于Q-learning的自適應(yīng)路徑探索與避障策略,用以無人機(jī)導(dǎo)航。Chao等[8]改進(jìn)了Q-learning的動作選擇策略并采用新的Q值初始化方法,使無人機(jī)具有更強(qiáng)的探索最優(yōu)路徑的能力。深度神經(jīng)網(wǎng)絡(luò)以其強(qiáng)大的函數(shù)逼近擬合能力,與強(qiáng)化學(xué)習(xí)結(jié)合衍生出許多改進(jìn)算法,Jiang等[9]將經(jīng)驗(yàn)回放思想引入DQN提出了MP-Dueling DQN,相比DQN在無人機(jī)避障與跟蹤任務(wù)上具有更快的收斂速度與更強(qiáng)的泛化性。Guo等[10]采用分布式深度強(qiáng)化學(xué)習(xí)框架,利用LSTM神經(jīng)網(wǎng)絡(luò)處理時序問題的能力,提出了分層RQN的學(xué)習(xí)方法,能夠在高動態(tài)環(huán)境中完成導(dǎo)航。以上方法雖然具備完成導(dǎo)航任務(wù)的能力,但也存在智能體動作空間離散的局限性。與這些方法中的離散動作空間不同,在實(shí)際應(yīng)用中,無人機(jī)的動作空間往往是連續(xù)的,在現(xiàn)有的研究中,Li等[11-12]基于連續(xù)動作空間的DDPG算法框架,改進(jìn)了演員-評價者(Actor-Critic)網(wǎng)絡(luò)結(jié)構(gòu),使其對歷史觀測具備更好的擬合能力,對地面目標(biāo)跟蹤性能更優(yōu)。在DDPG探索中引入混合噪聲,對飛行任務(wù)解構(gòu)并基于遷移學(xué)習(xí)的思想進(jìn)行預(yù)訓(xùn)練權(quán)重,在面對不確定環(huán)境時具有良好的泛化性。以上研究通過強(qiáng)化學(xué)習(xí)訓(xùn)練決策網(wǎng)絡(luò),能夠?qū)σ苿幽繕?biāo)進(jìn)行有效避障跟蹤,但在面對具有混合運(yùn)動模型的機(jī)動目標(biāo)時,缺少了對目標(biāo)的狀態(tài)估計步驟,在實(shí)際任務(wù)中具有較大的偏差。
針對上述缺陷,提出一種基于交互式多模型濾波(IMM)和近端策略優(yōu)化(PPO)的機(jī)動目標(biāo)追蹤跟隨策略,定義了以無人機(jī)運(yùn)動模型為基礎(chǔ)的動作空間以及用來表示環(huán)境信息的狀態(tài)空間,根據(jù)追蹤時間、跟蹤性能以及避障約束構(gòu)建獎懲函數(shù),設(shè)計避障跟蹤決策網(wǎng)絡(luò)并進(jìn)行訓(xùn)練。根據(jù)仿真實(shí)驗(yàn)分析,提出的方法相比傳統(tǒng)算法在動態(tài)環(huán)境中具備更優(yōu)秀的追蹤避障及跟蹤性能。
研究無人機(jī)在三維空間中的動態(tài)目標(biāo)追蹤任務(wù),假設(shè)能夠通過自動駕駛儀使無人機(jī)運(yùn)動在某一固定高度,無人機(jī)在二維坐標(biāo)系中滿足如下的連續(xù)運(yùn)動方程:
(1)
式中:x(t),y(t)為t時刻無人機(jī)在二維坐標(biāo)系中的位置;v(t)表示t時刻無人機(jī)朝向方向的線速度;ψ(t),w(t)分別為t時刻無人機(jī)的偏航角與偏航角速度。將運(yùn)動方程離散化可以得到從t時刻到(t+1)時刻的無人機(jī)狀態(tài)更新方程為:
(2)
式中Δt為離散時間間隔。
無人機(jī)在復(fù)雜障礙物環(huán)境中追蹤并跟隨移動目標(biāo)需要綜合考慮目標(biāo)跟蹤性能與追蹤耗時,同時需要滿足任務(wù)過程中的避障約束。
1.2.1 目標(biāo)跟蹤性能
對機(jī)動目標(biāo)的跟蹤性能通??梢杂脽o人機(jī)與目標(biāo)的距離表示,提升跟蹤性能即縮短無人機(jī)在單位時間內(nèi)與目標(biāo)的距離。跟蹤性能對應(yīng)的目標(biāo)函數(shù)可以表示為:
(3)
1.2.2 追蹤耗時
在無人機(jī)實(shí)際執(zhí)行目標(biāo)跟蹤任務(wù)時,會存在起始位置與目標(biāo)起始位置相距較大的問題。在這種情況下,無人機(jī)需要自主規(guī)劃路徑以快速追蹤并逼近機(jī)動目標(biāo),因此縮短無人機(jī)追蹤目標(biāo)的時間是需要考慮的另一個重要目標(biāo)。追蹤時間的待優(yōu)化目標(biāo)函數(shù)可以表示為:
minJ2=NΔt
(4)
式中N為無人機(jī)到達(dá)目標(biāo)跟蹤范圍內(nèi)的采樣步數(shù)。
1.2.3 避障約束
在無人機(jī)的飛行域內(nèi)存在大小、方位均未知的靜止障礙物,可視為移動障礙物的敵方無人機(jī),追蹤無人機(jī)在感知到敵方無人機(jī)后能夠獲取其最大半徑及當(dāng)前時刻的狀態(tài)信息。在復(fù)雜障礙物環(huán)境下,考慮到算法學(xué)習(xí)的收斂性,將實(shí)際觀測窗信息進(jìn)行處理,壓縮至9條激光束,且每個激光束的相隔角度為22.5°,如圖1所示。
圖1 基于激光測距的無人機(jī)障礙物檢測
圖中:vuav為無人機(jī)當(dāng)前的速度矢量;{di|d1,d2,…,dn}為第i個從無人機(jī)出發(fā)的激光束測得的與障礙物的距離,且di≤dmax。任務(wù)環(huán)境中存在靜止障礙與運(yùn)動狀態(tài)已知的移動障礙,若在無人機(jī)導(dǎo)航過程中發(fā)生碰撞,則任務(wù)失敗,因此無人機(jī)需要與障礙物保持合理安全的距離,約束條件為:
min(d1,d2,…,dn)>rsafe
(5)
式中rsafe為安全避障距離。
為了實(shí)現(xiàn)復(fù)雜環(huán)境下對機(jī)動目標(biāo)更準(zhǔn)確的跟蹤,將IMM與PPO算法結(jié)合,對機(jī)動目標(biāo)進(jìn)行多模型融合狀態(tài)估計,并將融合輸出結(jié)合其他觀測量構(gòu)建狀態(tài)空間,作為強(qiáng)化學(xué)習(xí)算法Actor-Critic網(wǎng)絡(luò)的輸入,訓(xùn)練無人機(jī)自主跟蹤決策模型。作為一種基于策略的算法,PPO算法解決了傳統(tǒng)策略梯度算法收斂依賴步長選擇的問題并提高了經(jīng)驗(yàn)利用率,使訓(xùn)練過程能夠更快收斂。
卡爾曼濾波常用于運(yùn)動目標(biāo)的狀態(tài)估計,而在復(fù)雜環(huán)境下,機(jī)動目標(biāo)的運(yùn)動模型往往不是單一的,基于IMM的濾波方法能夠考慮多個運(yùn)動模型的轉(zhuǎn)移概率,通過馬爾可夫轉(zhuǎn)移矩陣完成模型概率更新,從而得到多個濾波器的融合輸出估計。IMM的優(yōu)化過程如圖2所示。
圖2 交互式多模型濾波融合估計
定義模型間的概率轉(zhuǎn)移矩陣P為:
(6)
其中pij(i=1,2,…,n;j=1,2,…,n)代表由模型i轉(zhuǎn)換到模型j的概率,根據(jù)轉(zhuǎn)移概率及概率更新計算模型混合概率為:
(7)
(8)
(9)
模型j的概率更新采用最大似然函數(shù)法,選取似然函數(shù)為:
(10)
式中vj(k),Sj(k)分別為濾波殘差與其協(xié)方差,由對應(yīng)于模型j的濾波器輸出得到,概率更新方式為:
(11)
(12)
至此完成了k時刻運(yùn)動目標(biāo)的狀態(tài)估計。
2.2.1 動作空間和狀態(tài)空間設(shè)計
參照1.1節(jié)中無人機(jī)運(yùn)動模型,以無人機(jī)朝向方向的線速度v與偏航角速度w作為控制量輸入,強(qiáng)化學(xué)習(xí)動作空間可表示為:
A=(v,w)
(13)
狀態(tài)空間從3個角度構(gòu)建:1)無人機(jī)自身信息;2)對障礙物和動態(tài)威脅的觀測量;3)機(jī)動目標(biāo)的狀態(tài)估計。在強(qiáng)化學(xué)習(xí)算法中,為了消除狀態(tài)信息的維度不同對訓(xùn)練效果造成的影響,對狀態(tài)空間St=(Sb,So,Star)中不同量綱的分量進(jìn)行歸一化處理,分別表示為:
(14)
(15)
(16)
其中:(xuav,yuav)為當(dāng)前時間步下無人機(jī)于坐標(biāo)系下的位置坐標(biāo);xmax,ymax分別為矩形飛行域的長、寬;ψ為無人機(jī)偏航角;vmax為無人機(jī)最大允許線速度;Svo表示碰撞域的狀態(tài)信息;θ表示當(dāng)前無人機(jī)和目標(biāo)的連線與坐標(biāo)系x軸所成夾角。無人機(jī)追蹤機(jī)動目標(biāo)的過程如圖3所示。
圖3 無人機(jī)追蹤機(jī)動目標(biāo)示意圖
2.2.2 獎懲函數(shù)設(shè)計
針對無人機(jī)自主避障跟蹤的獎懲函數(shù)設(shè)計建立在指標(biāo)函數(shù)與約束條件的基礎(chǔ)之上。一種常用的設(shè)計思路是采用稀疏獎懲,即智能體僅在回合結(jié)束的情況下得到獎懲,這就需要智能體以不加引導(dǎo)的隨機(jī)動作不斷探索環(huán)境以獲得獎懲,會導(dǎo)致算法的收斂速度降低,并且容易陷入局部最優(yōu)解。因此在任務(wù)中,獎懲函數(shù)由稀疏獎懲與單步獎懲組成,稀疏獎懲僅在特定任務(wù)完成或回合結(jié)束時產(chǎn)生,單步獎懲則在智能體與環(huán)境的每一步交互后產(chǎn)生,旨在引導(dǎo)智能體更快地完成追蹤任務(wù)。
1)障礙物懲罰函數(shù)
根據(jù)狀態(tài)空間及避障約束條件設(shè)計障礙物懲罰函數(shù),利用狀態(tài)信息{di|d1,d2,…,dn}構(gòu)造虛擬斥力場的思想,在無人機(jī)接近障礙物時給以較大的懲罰,而在遠(yuǎn)離障礙物時給以較小的懲罰,在未檢測到障礙物時懲罰為0,設(shè)置單步懲罰函數(shù)的數(shù)學(xué)形式為:
(17)
式中αso為障礙物懲罰系數(shù)。在面對具有避障功能的移動障礙物時,基于碰撞域提出一種考慮碰撞時間的懲罰函數(shù)設(shè)計方法。為了方便計算,將障礙物與無人機(jī)形狀簡化為其最小外接圓。如圖4所示,其中va,ra分別為無人機(jī)速度矢量和半徑,vb,rb分別為障礙物速度矢量和半徑。
圖4 無人機(jī)與移動障礙物示意圖
圖5 碰撞域示意圖
(18)
ACC=RCC⊕vb
(19)
根據(jù)碰撞域的數(shù)學(xué)形式,當(dāng)無人機(jī)的線速度矢量處于碰撞域ACC內(nèi)時,經(jīng)過時間tc,智能體將與移動障礙物發(fā)生碰撞?;陬A(yù)期碰撞時間的單步懲罰函數(shù)構(gòu)造為:
(20)
ro=rso+rvo
(21)
此外,為了縮減訓(xùn)練時間使其更快收斂,在無人機(jī)撞到障礙物或邊界時將得到稀疏懲罰:
(22)
2)快速追蹤獎勵函數(shù)
復(fù)雜環(huán)境下追蹤目標(biāo)需要無人機(jī)以較短的時間完成避障導(dǎo)航并快速進(jìn)入目標(biāo)跟蹤范圍,因此在避障導(dǎo)航階段決策網(wǎng)絡(luò)需要提供較大的速度決策量,設(shè)置單步獎勵函數(shù)為:
(23)
rt=-αtkLk
(24)
rf=rv1+rt
(25)
此外,為了鼓勵無人機(jī)到達(dá)跟蹤范圍,在完成避障導(dǎo)航后,給以稀疏獎勵:
(26)
3)跟蹤性能獎勵函數(shù)
為了實(shí)現(xiàn)更精準(zhǔn)的無人機(jī)地面目標(biāo)跟蹤,需要使跟蹤階段的無人機(jī)具有與目標(biāo)接近的速度,且在二維平面上無人機(jī)與目標(biāo)的距離越小代表跟蹤性能越好。因此設(shè)置基于速度、距離和角度的獎懲函數(shù)分別為:
(27)
rL=αL(Lk-1-Lk)
(28)
(29)
rc=rv2+rL+ra
(30)
將以上獎懲函數(shù)按照重要性分配權(quán)重系數(shù),則總獎懲函數(shù)的數(shù)學(xué)表達(dá)形式為:
r=woro+wfrf+wcrc+rdone1+rdone2
(31)
PPO算法采用了Actor-Critic網(wǎng)絡(luò),這種網(wǎng)絡(luò)結(jié)構(gòu)能夠同時進(jìn)行值函數(shù)與策略函數(shù)學(xué)習(xí),其中Actor學(xué)習(xí)策略函數(shù),Critic學(xué)習(xí)策略的近似值函數(shù)。
圖6 Actor-Critic網(wǎng)絡(luò)
在Actor-Critic框架下的策略更新[13]可以表示為:
(32)
圖7 無人機(jī)導(dǎo)航跟蹤策略訓(xùn)練框架
Actor網(wǎng)絡(luò)用于接收智能體與環(huán)境交互的狀態(tài)信息St=(Sbody,Sobs,Star),并輸出動作(v,w)的采樣Dt,Critic網(wǎng)絡(luò)通過對優(yōu)勢函數(shù)的估計來評估策略的優(yōu)劣。網(wǎng)絡(luò)權(quán)重及學(xué)習(xí)參數(shù)的更新本質(zhì)上是學(xué)習(xí)關(guān)于(a,s)的策略函數(shù),將待優(yōu)化的導(dǎo)航跟蹤策略函數(shù)近似參數(shù)化:
Π(a|s)~Πθ(a,s)
(33)
式中:a為無人機(jī)動作(v,w);s為狀態(tài)信息St。通過策略梯度算法對策略參數(shù)進(jìn)行基于梯度的優(yōu)化[14],定義策略梯度估計為:
(34)
(35)
式中:VΠ(st)表示無人機(jī)在t時刻下的狀態(tài)st時采用策略Π的價值;Rt′表示在t′時刻智能體得到的獎勵;γ為獎勵折扣因子。無人機(jī)導(dǎo)航跟蹤策略更新的目的是尋找到一個優(yōu)于原策略Πθ的Π′θ,以舊的策略Πθ與環(huán)境交互,將采集到的樣本用于更新策略Π′θ,為了防止新舊策略相差過大,使用一種截斷方式限制策略更新。因此采用優(yōu)勢函數(shù)估計描述策略更新的目標(biāo)函數(shù)表示為:
(36)
式中:Π′θ為新的策略,ε為超參數(shù)。clip()函數(shù)用來將新舊策略的比值限定在(1-ε)與(1+ε)之間,具體函數(shù)形式如圖8所示。
圖8 截斷函數(shù)示意圖
若在t時刻采取動作at的回報大于平均回報,即優(yōu)勢函數(shù)為正,則增大該動作概率,反之減小該動作概率。
對網(wǎng)絡(luò)權(quán)重參數(shù)訓(xùn)練完成后,決策網(wǎng)絡(luò)將無人機(jī)與環(huán)境交互采集到的狀態(tài)信息St=(Sb,So,Star)=(s1,s2,…,sn)作為輸入,其中n為狀態(tài)空間維度。采用權(quán)重參數(shù)和偏置計算網(wǎng)絡(luò)輸入的加權(quán)和,并得到神經(jīng)元的輸出,其表達(dá)式為:
(37)
圖9 決策神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
為驗(yàn)證IMM-PPO算法在無人機(jī)追蹤任務(wù)上的有效性,進(jìn)行仿真實(shí)驗(yàn)。首先進(jìn)行仿真環(huán)境的搭建以及參數(shù)設(shè)置,然后分析了策略訓(xùn)練過程中強(qiáng)化學(xué)習(xí)算法的獎勵變化曲線,最后分別采用IMM-PPO算法與DWA算法進(jìn)行無人機(jī)機(jī)動目標(biāo)追蹤仿真實(shí)驗(yàn),比較兩種算法的性能。
采用IMM濾波算法對目標(biāo)狀態(tài)進(jìn)行估計,將估計值作為強(qiáng)化學(xué)習(xí)算法狀態(tài)空間的一部分進(jìn)行無人機(jī)跟蹤策略訓(xùn)練。訓(xùn)練過程中的回報隨回合數(shù)變化如圖10所示。
圖10 獎勵變化曲線
從圖中可以看出,在訓(xùn)練初始時刻,無人機(jī)在復(fù)雜環(huán)境中處于探索階段,得到的回合獎勵較少。在多個回合訓(xùn)練后,無人機(jī)逐漸具備避障跟蹤能力,能夠與障礙物保持安全距離并縮短與目標(biāo)之間的最小距離,回報呈逐漸上升趨勢。在900回合后無人機(jī)避障跟蹤決策網(wǎng)絡(luò)權(quán)重趨于收斂,表明無人機(jī)能夠在獎勵函數(shù)的指引下學(xué)習(xí)到最優(yōu)的跟蹤策略。
為了突出IMM-PPO算法在障礙物環(huán)境中追蹤機(jī)動目標(biāo)的優(yōu)越性,與傳統(tǒng)DWA算法作比較,設(shè)置兩種算法下無人機(jī)具備相同的初始狀態(tài)以及約束條件,在同樣的環(huán)境中追蹤運(yùn)動模式相同的機(jī)動目標(biāo)。
3.3.1 快速性對比
針對單位時間決策網(wǎng)絡(luò)的動作輸出,給出IMM-PPO算法和DWA算法下的無人機(jī)避障導(dǎo)航的過程圖如圖11所示。
圖11 避障導(dǎo)航過程圖
從圖中可以看出,IMM-PPO算法與DWA算法均能指引無人機(jī)躲避障礙并到達(dá)目標(biāo)跟蹤范圍。在t=16 s時,IMM-PPO算法下的無人機(jī)檢測到障礙物并調(diào)整偏航角,在獎勵函數(shù)的引導(dǎo)下以較快的速度躲避障礙并飛往下一個跟蹤點(diǎn),如圖11(a)所示。在t=21 s時DWA算法下的無人機(jī)檢測到障礙物并判斷后續(xù)k步的路徑指標(biāo)函數(shù),選擇最優(yōu)的避障路徑,并在t=31 s時完成避障,如圖11(d)所示。從t=36 s至t=42 s,IMM-PPO決策網(wǎng)絡(luò)根據(jù)環(huán)境信息預(yù)測的碰撞時間,結(jié)合快速追蹤的獎勵函數(shù),調(diào)整輸出的動作,使無人機(jī)能夠快速且以較低代價遠(yuǎn)離碰撞域,如圖11(e)、圖11(f)所示。t=50 s時,IMM-PPO算法下的無人機(jī)到達(dá)機(jī)動目標(biāo)的跟蹤范圍并開始執(zhí)行跟蹤任務(wù),而在t=79 s時,DWA算法指導(dǎo)的無人機(jī)才進(jìn)入目標(biāo)的跟蹤范圍,如圖11(g)、圖11(h)所示。兩種算法下無人機(jī)完成追蹤避障并進(jìn)入目標(biāo)跟蹤范圍的路徑長度如表1所示。
表1 IMM-PPO與DWA避障導(dǎo)航路徑長度比較
3.3.2 跟蹤性能對比
為了體現(xiàn)IMM-PPO在跟蹤性能方面的優(yōu)勢,無人機(jī)飛行過程中的速度控制量和目標(biāo)相對距離變化曲線及跟蹤任務(wù)軌跡分別如圖12~圖14所示。
圖12 IMM-PPO,DWA速度變化圖
圖13 無人機(jī)與目標(biāo)相對距離圖
圖14 機(jī)動目標(biāo)跟蹤任務(wù)軌跡圖
從圖12可以看出,在任務(wù)起始時刻,IMM-PPO算法與DWA算法都輸出較大的速度控制量,從而使無人機(jī)能夠快速接近目標(biāo),在檢測到障礙物并進(jìn)入避障任務(wù)環(huán)節(jié)時,IMM-PPO算法的速度控制量仍舊穩(wěn)定在最大允許速度附近,而DWA算法下無人機(jī)的速度控制量具有較大振幅。當(dāng)任務(wù)進(jìn)行到跟蹤階段,即無人機(jī)到達(dá)機(jī)動目標(biāo)的跟蹤范圍內(nèi)時,IMM-PPO策略網(wǎng)絡(luò)輸出一個接近機(jī)動目標(biāo)真實(shí)速度的速度控制量進(jìn)行跟蹤,并且直到仿真結(jié)束均能夠穩(wěn)定在目標(biāo)速度附近;而DWA算法下的無人機(jī)速度振蕩明顯,無法達(dá)到穩(wěn)定在目標(biāo)速度附近的跟蹤效果。圖13描述了任務(wù)過程中無人機(jī)與目標(biāo)相對位置變化,可以看出,從t=50 s至t=149 s,IMM-PPO決策網(wǎng)絡(luò)能夠使無人機(jī)以平穩(wěn)的速度穩(wěn)定在跟蹤范圍內(nèi),相比于DWA算法,IMM-PPO算法下的無人機(jī)具有更多的有效跟蹤步數(shù)。圖14展示了從初始時刻到最大時間步數(shù)的無人機(jī)運(yùn)動軌跡,從圖中可以看出,IMM-PPO算法下的無人機(jī)具有更加平滑的運(yùn)動軌跡,DWA算法犧牲了部分跟蹤性能而進(jìn)行避障,軌跡具有較明顯的突變。根據(jù)以上結(jié)果分析,基于IMM-PPO算法的無人機(jī)在線避障跟蹤策略明顯具有更好的跟蹤性能。
為了進(jìn)一步體現(xiàn)IMM-PPO的在線感知避障跟蹤能力,改變環(huán)境中障礙物的大小,分別設(shè)置無人機(jī)與移動障礙物位于與上述仿真不同的初始位置(110 m,10 m),(182 m,204 m)并且移動障礙物具有不同的避障軌跡,仿真結(jié)果如圖15所示。
由圖15可以得到,無人機(jī)能夠在無碰撞的情況下,在41 s時到達(dá)目標(biāo)跟蹤范圍執(zhí)行跟蹤任務(wù)并始終保持與目標(biāo)的相對距離在20 m內(nèi)。由此可以看出,在環(huán)境改變的情況下,訓(xùn)練后的無人機(jī)避障跟蹤策略網(wǎng)絡(luò)仍然能夠指導(dǎo)無人機(jī)進(jìn)行靜止與移動障礙躲避并跟蹤機(jī)動目標(biāo)。
圖15 不同環(huán)境下的無人機(jī)在線避障跟蹤仿真
總之,傳統(tǒng)的避障算法DWA能夠通過指標(biāo)函數(shù)選取最優(yōu)的無人機(jī)控制量(v,w),但在面對復(fù)雜障礙物時將得到較大的減速度,從而無法保持較高的速度追蹤機(jī)動目標(biāo),延長了無人機(jī)導(dǎo)航的路徑長度與耗時,在執(zhí)行跟蹤任務(wù)時無法保持與目標(biāo)接近的速度。而文中所提算法能夠在線自適應(yīng)調(diào)整動作,根據(jù)無人機(jī)與移動障礙的預(yù)期碰撞時間避免其在追蹤過程中陷入碰撞域內(nèi),從而快速躲避障礙物并到達(dá)目標(biāo)跟蹤范圍,在跟蹤目標(biāo)時速度能夠穩(wěn)定在目標(biāo)速度附近,更適用于無人機(jī)機(jī)動目標(biāo)跟蹤場景。
針對復(fù)雜環(huán)境下無人機(jī)機(jī)動目標(biāo)追蹤的問題,提出一種基于IMM-PPO的目標(biāo)追蹤策略,首先采用交互式濾波算法對機(jī)動模型進(jìn)行濾波估計,接著根據(jù)優(yōu)化目標(biāo)及約束設(shè)計獎懲函數(shù),并對策略網(wǎng)絡(luò)權(quán)重進(jìn)行訓(xùn)練,訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)根據(jù)智能體與環(huán)境交互得到的信息更新輸出動作的概率分布,在避開靜止與移動障礙物的前提下在線完成快速導(dǎo)航并對機(jī)動目標(biāo)進(jìn)行穩(wěn)定跟蹤。從仿真結(jié)果來看,相較于傳統(tǒng)避障算法DWA,文中所提算法能夠兼顧目標(biāo)跟蹤過程的安全性、快速性并且能夠保持更好的跟蹤性能,在環(huán)境改變時也能夠執(zhí)行目標(biāo)追蹤任務(wù),具備一定的泛化性。