基于零和微分對(duì)策的非仿射導(dǎo)彈攔截系統(tǒng)制導(dǎo)律設(shè)計(jì)

2023-09-15 01:41:22田輩輩袁斐然

彈箭與制導(dǎo)學(xué)報(bào) 2023年4期

田輩輩，劉奇，袁斐然

(1 焦作大學(xué)機(jī)電工程學(xué)院，河南焦作 454003；2 航空電子系統(tǒng)綜合技術(shù)重點(diǎn)實(shí)驗(yàn)室，上海 200233)

0 引言

導(dǎo)彈攔截系統(tǒng)[1-3]在國防領(lǐng)域中舉足輕重。制導(dǎo)律作為導(dǎo)彈攔截系統(tǒng)的關(guān)鍵部分,直接影響導(dǎo)彈性能并決定導(dǎo)彈能否成功攔截目標(biāo)。隨著攻防對(duì)抗形勢的日益復(fù)雜,為了提高生存能力,目標(biāo)可能采取更加隱蔽、多變的機(jī)動(dòng)方式進(jìn)行突防,因此,發(fā)展新型制導(dǎo)方式迫在眉睫。

近年來,將制導(dǎo)與現(xiàn)代控制理論相結(jié)合,形成諸如滑模制導(dǎo)[4-5],反步制導(dǎo)[6-7],自適應(yīng)制導(dǎo)[8-9]等現(xiàn)代制導(dǎo)策略,并且取得了很好的效果。文獻(xiàn)[10]針對(duì)制導(dǎo)攔截系統(tǒng),設(shè)計(jì)了一類固定時(shí)間終端滑模制導(dǎo)策略,利用固定時(shí)間擴(kuò)張狀態(tài)觀測器補(bǔ)償目標(biāo)機(jī)動(dòng),實(shí)現(xiàn)目標(biāo)的攔截?？紤]狀態(tài)和輸入約束;文獻(xiàn)[11]基于反步法自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù),設(shè)計(jì)了一類自適應(yīng)復(fù)合制導(dǎo)方法,實(shí)現(xiàn)了導(dǎo)彈在保證約束條件的前提下,對(duì)目標(biāo)的精確攔截。上述制導(dǎo)策略雖然成功實(shí)施,在實(shí)際制導(dǎo)過程中,受戰(zhàn)場環(huán)境等因素的影響,目標(biāo)機(jī)動(dòng)往往很難測量,這給制導(dǎo)律的設(shè)計(jì)帶來了困難。

微分對(duì)策[12-13]是研究雙方或多方?jīng)_突對(duì)抗或者競爭問題的有效工具,將博弈論的基本原理應(yīng)用于最優(yōu)控制中,研究多個(gè)控制輸入在系統(tǒng)中的動(dòng)態(tài)決策過程,控制的結(jié)果致使一方受益的同時(shí)另一方造成損失,被廣泛應(yīng)用于制導(dǎo)系統(tǒng)中,將導(dǎo)彈和機(jī)動(dòng)目標(biāo)視為對(duì)抗雙方,考慮目標(biāo)機(jī)動(dòng)最壞情況下的制導(dǎo)策略,能夠有效降低對(duì)目標(biāo)機(jī)動(dòng)信息的依賴。為此,文獻(xiàn)[14]提出了一種基于事件觸發(fā)的微分對(duì)策制導(dǎo)方法,考慮目標(biāo)最壞逃逸方式,實(shí)現(xiàn)對(duì)目標(biāo)攔截的同時(shí)降低導(dǎo)彈的通信負(fù)擔(dān);考慮目標(biāo)攜帶防御武器的情況,文獻(xiàn)[15]將其視為三方博弈問題,構(gòu)造融合脫靶量和需用過載性能指標(biāo),設(shè)計(jì)微分對(duì)策制導(dǎo)策略,使得導(dǎo)彈能夠避開防御武器并擊中目標(biāo);針對(duì)多約束制導(dǎo)系統(tǒng),文獻(xiàn)[16]提出了一類復(fù)合微分對(duì)策制導(dǎo)方法,實(shí)現(xiàn)了導(dǎo)彈對(duì)目標(biāo)的成功攔截。

然而,上述文獻(xiàn)考慮的都是仿射系統(tǒng),在實(shí)際系統(tǒng)中非仿射系統(tǒng)也是大量存在的,針對(duì)非仿射系統(tǒng)控制策略研究具有實(shí)際意義[17]。文獻(xiàn)[18]針對(duì)具有多約束受限的非線性非仿射系統(tǒng),提出了固定時(shí)間自適應(yīng)神經(jīng)網(wǎng)絡(luò)跟蹤控制方法;文獻(xiàn)[19]針對(duì)一類具有內(nèi)部動(dòng)態(tài)和外部擾動(dòng)未知以及非對(duì)稱輸入飽和約束的非仿射系統(tǒng),提出了一種自抗擾反演控制方法。在未來戰(zhàn)場中,攻防對(duì)抗必然更加復(fù)雜,當(dāng)制導(dǎo)系統(tǒng)對(duì)制導(dǎo)策略呈現(xiàn)非線性時(shí),針對(duì)仿射制導(dǎo)系統(tǒng)的研究顯然不足以應(yīng)對(duì),因此,發(fā)展針對(duì)非仿射制導(dǎo)系統(tǒng)的研究迫在眉睫。

綜上所述,文中針對(duì)非仿射導(dǎo)彈攔截系統(tǒng),結(jié)合微分對(duì)策技術(shù)及積分自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù),提出了一類新的制導(dǎo)策略。主要?jiǎng)?chuàng)新點(diǎn)如下:

1) 與文獻(xiàn)[4-11]所考慮的仿射導(dǎo)彈攔截系統(tǒng)不同,文中考慮的是更具一般性的非仿射導(dǎo)彈攔截系統(tǒng),當(dāng)前鮮有針對(duì)非仿射制導(dǎo)策略的設(shè)計(jì)成果,因此,文中所提的制導(dǎo)方法可以適用于更加復(fù)雜的制導(dǎo)系統(tǒng)。

2) 實(shí)際制導(dǎo)過程中目標(biāo)機(jī)動(dòng)信息往往未知且難以測量,文中所設(shè)計(jì)的制導(dǎo)策略不依賴目標(biāo)機(jī)動(dòng)信息,無需額外引入觀測器等測量工具,降低了制導(dǎo)律設(shè)計(jì)的復(fù)雜性。

1 問題描述與控制策略設(shè)計(jì)

考慮如下非仿射非線性系統(tǒng)

(1)

由于系統(tǒng)對(duì)控制輸入表現(xiàn)為非仿射形式,使得控制器設(shè)計(jì)變得困難,則考慮控制補(bǔ)償技術(shù)[20],構(gòu)建如下輔助系統(tǒng):

(2)

其中:M(u)∈Rn、G(u)∈Rmxp為已知函數(shù),且G(u)為有界函數(shù);μ∈Rp為輔助控制輸入。

定義新狀態(tài)z=[xT,uT]T,則式(2)變?yōu)槿缦略鰪V系統(tǒng):

(3)

考慮如下博弈型性能指標(biāo)[16]

(4)

其中:Q(z)為關(guān)于z的二次型函數(shù);R1,R2為正定對(duì)稱矩陣。定義哈密頓函數(shù)為:

(5)

基于Nash-Pontryagin極大極小值原理,納什均衡解(μ*,ω*)使得最優(yōu)性能指標(biāo)滿足:

(6)

則推導(dǎo)出微分對(duì)策最優(yōu)控制對(duì)為:

(7)

將式(7)代入式(6)可得相應(yīng)的HJI方程:

(8)

構(gòu)建如下神經(jīng)網(wǎng)絡(luò)逼近性能指標(biāo),在線求解HJI式(8)的解:

V(z)=WTθ(z)+Δ

(9)

其中:W∈RL表示理想神經(jīng)網(wǎng)絡(luò)權(quán)值向量;θ(z)∈RL表示激勵(lì)函數(shù);Δ表示逼近誤差。

相應(yīng)的最優(yōu)性能指標(biāo)偏導(dǎo)數(shù):

(10)

其中:θz=?θ(z)/?z;Δz=?Δ/?z表示相應(yīng)函數(shù)對(duì)z的偏導(dǎo)數(shù),代入式(7)得最優(yōu)微分對(duì)策控制為:

(11)

(12)

其中神經(jīng)網(wǎng)絡(luò)近似誤差為:

(13)

利用神經(jīng)網(wǎng)絡(luò)輸出值,得近似性能指標(biāo)

(14)

(15)

則神經(jīng)網(wǎng)絡(luò)權(quán)值誤差為:

(16)

則近似最優(yōu)微分對(duì)策控制器表達(dá)式為:

(17)

近似哈密頓函數(shù)表達(dá)式為:

(18)

為了設(shè)計(jì)權(quán)值更新律,首先定義如下積分二次型目標(biāo)函數(shù):

(19)

(20)

(21)

(22)

(23)

選擇Lyapunov函數(shù):

(24)

首先,求導(dǎo)第一項(xiàng)V*(z)可得:

(25)

接著,考慮第二項(xiàng)J(z),求導(dǎo)可得

(26)

對(duì)第三項(xiàng)求導(dǎo)可得:

(27)

觀察式(27)可以發(fā)現(xiàn),由于開關(guān)函數(shù)Γ的存在,結(jié)合式(23),系統(tǒng)分兩種情況討論:

(28)

(29)

(30)

(31)

2)Γ=1此時(shí)學(xué)習(xí)網(wǎng)絡(luò)不穩(wěn)定,則可得:

(32)

基于假設(shè),容易得到D1-D2也是有界的,令其界為ψ,則有:

(33)

由式(33)可知,下列不等式滿足其一:

(34)

(35)

2 仿真驗(yàn)證

2.1 導(dǎo)彈攔截系統(tǒng)模型

為了驗(yàn)證所提算法的有效性, 文中將設(shè)計(jì)的最優(yōu)控制器應(yīng)用于導(dǎo)彈攔截制導(dǎo)系統(tǒng)的末制導(dǎo)階段中,考慮如圖1所示導(dǎo)彈攔截系統(tǒng)。

圖1 導(dǎo)彈攔截系統(tǒng)Fig.1 Missile interception system

(36)

并且,導(dǎo)彈與目標(biāo)自動(dòng)駕駛儀系統(tǒng)均為一階系統(tǒng),且其質(zhì)心方程表達(dá)為:

(37)

(38)

根據(jù)控制補(bǔ)償技術(shù)(2),構(gòu)建如下輔助系統(tǒng):

u=-2u+0.2μ

(39)

。

仿真目標(biāo)為設(shè)計(jì)μ使得導(dǎo)彈能夠成功攔截目標(biāo)。然而,觀察式(38)可以發(fā)現(xiàn),當(dāng)r→0,此時(shí)系統(tǒng)被破壞。因此,存在一個(gè)最小距離參數(shù)rm,即脫靶量,使得當(dāng)r≤rm時(shí),制導(dǎo)結(jié)束,剩余攔截任務(wù)依靠慣性完成,且需滿足目標(biāo)攔截必要條件:

(40)

2.2 參數(shù)設(shè)定與仿真結(jié)果分析

圖2 相對(duì)距離Fig.2 Relative distance

圖3 導(dǎo)彈-目標(biāo)攔截軌跡Fig.3 Missile-target intercept trajectory

圖4 視線角速率Fig.4 The line of sight angle rate

圖5 相對(duì)速率Fig.5 Range rate

圖6為權(quán)值泛數(shù)曲線圖,可以看出,在積分權(quán)值更新律式(21)作用下,權(quán)值估計(jì)誤差有界,并且可以發(fā)現(xiàn),權(quán)值曲線在很短的時(shí)間內(nèi)即趨于穩(wěn)定,表明神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)時(shí)間相較于制導(dǎo)時(shí)間是很短的,則對(duì)于制導(dǎo)過程的實(shí)時(shí)性影響較小,因此可以實(shí)現(xiàn)控制器式(17)更好的在線學(xué)習(xí)。觀察圖2～圖6可以發(fā)現(xiàn),在制導(dǎo)的最后階段,曲線均呈現(xiàn)出發(fā)散特性,這主要是由制導(dǎo)動(dòng)力學(xué)模型的特點(diǎn)導(dǎo)致的,根據(jù)式(38),當(dāng)導(dǎo)彈與目標(biāo)足夠接近時(shí),即r→0,則系統(tǒng)動(dòng)態(tài)區(qū)域無窮大,導(dǎo)致狀態(tài)發(fā)散,此時(shí)制導(dǎo)律將不再適用。因此出現(xiàn)發(fā)散現(xiàn)象是必然的。

圖6 權(quán)值泛數(shù)Fig.6 Norm of weight

3 結(jié)論

為解決目標(biāo)機(jī)動(dòng)未知和存在控制非線性項(xiàng)的導(dǎo)彈攔截系統(tǒng)制導(dǎo)問題,研究了非仿射導(dǎo)彈攔截系統(tǒng)的制導(dǎo)律設(shè)計(jì)問題。利用控制補(bǔ)償技術(shù)處理非仿射控制輸入。進(jìn)而,將目標(biāo)機(jī)動(dòng)視為未知擾動(dòng),結(jié)合微分對(duì)策理論,給出目標(biāo)機(jī)動(dòng)最壞情況下的制導(dǎo)策略設(shè)計(jì)方案,實(shí)現(xiàn)制導(dǎo)過程的穩(wěn)定性并滿足最優(yōu)性能指標(biāo), 引入積分自適應(yīng)動(dòng)態(tài)規(guī)劃技術(shù), 利用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)一類新的積分權(quán)值更新律, 在線學(xué)習(xí)微分對(duì)策最優(yōu)制導(dǎo)策略,實(shí)現(xiàn)對(duì)機(jī)動(dòng)目標(biāo)的成功攔截。并保證整個(gè)閉環(huán)制導(dǎo)系統(tǒng)最終一致有界。與傳統(tǒng)制導(dǎo)策略相比,克服了因控制非線性項(xiàng)的存在從而導(dǎo)致制導(dǎo)策略解析形式無法獲得的問題,并且降低了對(duì)目標(biāo)機(jī)動(dòng)信息的依賴,無需額外引入觀測工具,減少了制導(dǎo)策略設(shè)計(jì)的復(fù)雜程度。然而,在制導(dǎo)的過程中受戰(zhàn)場環(huán)境的影響,外部擾動(dòng)、信息傳輸延遲問題總是不可避免,針對(duì)非仿射導(dǎo)彈攔截系統(tǒng)的魯棒控制和時(shí)滯問題將在之后的研究中進(jìn)一步討論。