国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于追逃博弈的非合作目標(biāo)接近控制

2020-03-05 05:06:18羅建軍王明明
宇航總體技術(shù) 2020年1期
關(guān)鍵詞:航天器控制策略坐標(biāo)系

柴 源,羅建軍,王明明,韓 楠

(1. 西北工業(yè)大學(xué)航天飛行動(dòng)力學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室, 西安 710072;2. 西北工業(yè)大學(xué)青島研究院,青島 266200)

0 引言

空間自主交會(huì)是航天領(lǐng)域的一大研究熱點(diǎn)。隨著航天技術(shù)的不斷進(jìn)步,合作目標(biāo)的自主交會(huì)技術(shù)已經(jīng)比較成熟,并成功應(yīng)用于空間站、在軌服務(wù)等多種空間任務(wù)中。目前,空間非合作目標(biāo)如故障衛(wèi)星、空間垃圾等的自主接近引起了學(xué)者的廣泛關(guān)注[1]。

非合作目標(biāo)由于其非合作性,具有如下特征:信息層面不溝通、機(jī)動(dòng)行為不配合、先驗(yàn)知識(shí)不完備等。因此在設(shè)計(jì)追蹤航天器的軌道控制方法時(shí)需要綜合考慮接近過(guò)程中的不確定性。針對(duì)非合作目標(biāo)接近問(wèn)題,目前已經(jīng)開展了部分研究工作。根據(jù)建模方法的不同可將已有研究分為3種:基于視線坐標(biāo)系的建模與控制、基于目標(biāo)軌道坐標(biāo)系的建模與控制、基于追蹤航天器軌道坐標(biāo)系的建模與控制。在目標(biāo)軌道坐標(biāo)系下,王洪宇等[2]提出了一種全局魯棒最優(yōu)滑??刂破鱽?lái)克服非合作目標(biāo)所帶來(lái)的不確定性。但是由于目標(biāo)航天器的軌道半徑和速度無(wú)法直接得到,基于目標(biāo)坐標(biāo)系的建模具有局限性。在基于視線坐標(biāo)系的建模與控制方面,陳統(tǒng)等[3]建立了姿軌聯(lián)合運(yùn)動(dòng)模型,并結(jié)合具有魯棒性的模糊控制理論實(shí)現(xiàn)對(duì)非合作目標(biāo)的接近;殷澤陽(yáng)等[4]提出了低復(fù)雜度預(yù)設(shè)性能控制方法,實(shí)現(xiàn)在未知系統(tǒng)參數(shù)情況下的快速高精度目標(biāo)接近,但是基于視線坐標(biāo)系的建模為非線性模型,增加了控制求解難度。在追蹤航天器軌道坐標(biāo)系下,盧山等[5]設(shè)計(jì)了針對(duì)自主交會(huì)和攔截兩種接近模式的基于李雅普諾夫的控制律;郭永等[6]基于人工勢(shì)場(chǎng)法與蔓葉線理論的障礙物模型,提出了可以避障的滑模控制器。該坐標(biāo)系下,追蹤航天器可以基于自身的軌道信息及星載傳感器測(cè)量得到相對(duì)位置和速度信息等進(jìn)行控制器設(shè)計(jì),更加方便簡(jiǎn)潔。因此,本文采用基于追蹤航天器軌道坐標(biāo)系的相對(duì)運(yùn)動(dòng)模型,以便于控制律的設(shè)計(jì)。

根據(jù)上述分析,多數(shù)設(shè)計(jì)方法都是通過(guò)提高控制器的魯棒性來(lái)克服非合作目標(biāo)的機(jī)動(dòng)以及外界干擾等。但是由于非合作目標(biāo)機(jī)動(dòng)上界的不確定,控制器的設(shè)計(jì)存在保守性,不利于燃料的優(yōu)化和接近精度的提高。

博弈論研究的是多個(gè)參與者的最優(yōu)控制與決策問(wèn)題,其中每一位參與者通過(guò)各自目標(biāo)函數(shù)的優(yōu)化獲得控制策略[7]。近年來(lái),博弈控制方法在各種工程問(wèn)題的研究中也得到了應(yīng)用。Abouheaf等[8]、Lin[9]和Mylvaganam等[10]將博弈控制方法應(yīng)用到多智能體一致性、編隊(duì)和避障等問(wèn)題中。韓楠等[11]利用微分博弈實(shí)現(xiàn)了多顆微小衛(wèi)星對(duì)失效航天器的姿態(tài)接管控制。Innocenti等[12]利用基于狀態(tài)相關(guān)里卡提方程SDRE的非合作微分博弈控制實(shí)現(xiàn)交會(huì)任務(wù)。追逃博弈研究追捕者與逃逸者以不同的策略完成追捕任務(wù)的協(xié)調(diào)過(guò)程[13]。Bardhan等[14]基于追逃博弈設(shè)計(jì)了導(dǎo)彈攔截導(dǎo)引律,Li等[15]將近圓軌道上的兩個(gè)航天器追逃問(wèn)題轉(zhuǎn)化為兩點(diǎn)邊值優(yōu)化問(wèn)題進(jìn)行求解。因此,本文將非合作目標(biāo)視為理性的博弈參與者,設(shè)計(jì)追蹤航天器的追逃博弈控制方法,從而實(shí)現(xiàn)非合作目標(biāo)的精確接近。為了簡(jiǎn)化納什均衡的求解,追逃博弈模型選擇線性二次型微分博弈模型[16],以得到控制策略的顯式表達(dá)式,便于在線應(yīng)用。

本文介紹了追蹤航天器的追逃博弈控制器的設(shè)計(jì)思路,基于追蹤航天器和非合作目標(biāo)的軌道相對(duì)運(yùn)動(dòng)模型,設(shè)計(jì)了與相對(duì)距離和燃耗有關(guān)的目標(biāo)函數(shù),并建立了二者的追逃博弈模型,推導(dǎo)了追逃博弈的均衡策略,并給出了策略求解算法,通過(guò)數(shù)值仿真驗(yàn)證了非合作目標(biāo)接近的追逃博弈控制方法的有效性。

1 設(shè)計(jì)思路

本文面向非合作目標(biāo)接近的軌道控制問(wèn)題,試圖提出一種基于線性二次型追逃博弈的控制方法。追逃博弈將參與雙方定義為追蹤者和逃脫者,在博弈過(guò)程中各博弈方均以己方最大利益為目標(biāo),一方的得益必然導(dǎo)致另一方的損失,二者的得失總和為0[14]。將非合作目標(biāo)接近問(wèn)題描述為追逃博弈問(wèn)題,其中追蹤航天器扮演追蹤者,非合作目標(biāo)扮演逃避者。要接近非合作目標(biāo),一方面,追蹤航天器要選擇其控制策略以調(diào)節(jié)到某種狀態(tài),并盡量減少博弈過(guò)程中的燃料消耗。另一方面,理性的非合作目標(biāo)試圖調(diào)節(jié)到使追蹤航天器難以追上的狀態(tài),選擇其控制策略的同時(shí)將自身燃料消耗降至最低。將二者互相沖突的目標(biāo)歸納為追逃博弈的目標(biāo)函數(shù)

(1)

式中,X為相對(duì)狀態(tài)量,具體含義在下文給出。u為追蹤者的控制量,v為逃逸者的控制量。Q>0,Ru>0,Rv>0均為對(duì)稱矩陣。追蹤航天器的目標(biāo)是最小化J,而非合作目標(biāo)則期望最大化J。

在考慮二者動(dòng)力學(xué)約束的情況下,通過(guò)優(yōu)化二者的目標(biāo)函數(shù),建立追逃博弈模型:

(2)

通過(guò)建立在追蹤航天器上的軌道相對(duì)運(yùn)動(dòng)方程,將非合作目標(biāo)軌道接近的任務(wù)要求轉(zhuǎn)化為追逃博弈控制優(yōu)化問(wèn)題中的動(dòng)力學(xué)約束。通過(guò)最優(yōu)化問(wèn)題的求解得到納什均衡控制策略,追蹤航天器盡可能在燃耗最小的情況下實(shí)現(xiàn)非合作目標(biāo)的接近。

2 非合作目標(biāo)接近的追逃博弈建模

空間非合作目標(biāo)接近問(wèn)題涉及兩個(gè)近距離航天器間的軌道運(yùn)動(dòng),本節(jié)先給出追蹤航天器軌道坐標(biāo)系下追蹤航天器和非合作目標(biāo)的相對(duì)運(yùn)動(dòng)模型,之后建立二者的追逃博弈模型。

2.1 相對(duì)運(yùn)動(dòng)建模

本文中下標(biāo)e和p分別代指非合作目標(biāo)和追蹤航天器。在慣性坐標(biāo)系下,非合作目標(biāo)追蹤航天器的軌道運(yùn)動(dòng)方程分別為

(3)

式中,rp和re分別為追蹤航天器和非合作目標(biāo)在慣性坐標(biāo)系下的位置矢量;up和ue分別為追蹤航天器和非合作目標(biāo)的控制加速度;μ為地球引力常數(shù),μ=3.986×1014m3/s2。

定義追蹤航天器和非合作目標(biāo)的相對(duì)位置為

r=re-rp

(4)

則慣性坐標(biāo)系下的相對(duì)運(yùn)動(dòng)方程為

(5)

將式(5)投影在追蹤航天器本體坐標(biāo)系中可得

(6)

式中,ωe和ωp分別表示二者的軌道角速度,r表示慣性系下的位置矢量。

在二者相對(duì)距離和非合作目標(biāo)地心距之比足夠小,即r?re的條件下,re=r+rp的2階及高階泰勒展開項(xiàng)可忽略不計(jì),則相對(duì)軌道運(yùn)動(dòng)方程寫成狀態(tài)空間形式

(7)

其中

其中

式(7)為非合作目標(biāo)和追蹤航天器之間的相對(duì)運(yùn)動(dòng)方程。由于目標(biāo)航天器為非合作目標(biāo),無(wú)法得到其軌道信息,因此坐標(biāo)系建立在追蹤航天器上。追蹤航天器可以基于自身的軌道信息及星載傳感器測(cè)量得到相對(duì)位置和速度信息,以便進(jìn)行博弈問(wèn)題的建模和求解。

2.2 追逃博弈建模

追逃博弈由以下3個(gè)要素構(gòu)成:博弈參與者N={p,e}、各參與者容許策略集Ui、參與者目標(biāo)函數(shù)J[7]。為滿足非合作目標(biāo)接近的任務(wù)要求,設(shè)計(jì)如下目標(biāo)函數(shù)

(8)

其中,Q∈R6×6、Rp∈R3×3、Re∈R3×3為對(duì)稱正定的加權(quán)矩陣。

非合作目標(biāo)和追蹤航天器進(jìn)行追逃博弈時(shí),二者通過(guò)獨(dú)立優(yōu)化各自目標(biāo)函數(shù)(8)來(lái)獲得控制策略。該策略稱為納什均衡,其定義如下:

(9)

其中Ui為參與者i的容許控制策略集。

對(duì)應(yīng)于可行控制策略集ui∈Ui的值函數(shù)為

(10)

則非合作目標(biāo)接近的追逃博弈問(wèn)題可由下式描述

(11)

追蹤航天器通過(guò)求解上述優(yōu)化問(wèn)題,得到追逃博弈的納什均衡策略,以實(shí)現(xiàn)對(duì)非合作目標(biāo)的接近。

3 非合作目標(biāo)接近的博弈控制策略

本節(jié)先給出追逃博弈控制策略的狀態(tài)反饋表達(dá)式,之后給出李亞普諾夫迭代法進(jìn)行狀態(tài)反饋矩陣的求解。

3.1 追逃博弈控制策略

值函數(shù)的微分等價(jià)為

(12)

其中,V(0)=0。

定義哈密爾頓函數(shù)為

(13)

對(duì)應(yīng)最優(yōu)值函數(shù)的反饋控制策略為

(14)

將其代哈密爾頓函數(shù)中可得HJ方程為

(15)

其中,V*(0)=0。

假設(shè)最優(yōu)值函數(shù)在狀態(tài)x(t)下有線性二次型形式的解

(16)

則追蹤航天器和非合作目標(biāo)對(duì)應(yīng)的納什均衡反饋控制策略為

(17)

則HJ方程可以整理為

(18)

整理得

(19)

通過(guò)對(duì)上述代數(shù)黎卡提方程(19)進(jìn)行求解,可以得到對(duì)稱正定矩陣P,從而根據(jù)式(17)得到狀態(tài)反饋控制策略。

本文控制策略與傳統(tǒng)的線性二次型調(diào)節(jié)器(LQR)方法有相似之處。LQR方法是現(xiàn)代控制理論中較成熟的一種狀態(tài)空間設(shè)計(jì)法,針對(duì)線性系統(tǒng),設(shè)計(jì)與系統(tǒng)狀態(tài)和控制輸入相關(guān)的二次型目標(biāo)函數(shù)

(20)

利用動(dòng)態(tài)規(guī)劃推導(dǎo)得到代數(shù)黎卡提方程

(21)

從而得到狀態(tài)反饋的最優(yōu)控制律

(22)

但是本文的控制策略是基于追逃博弈得到的,考慮最優(yōu)性的同時(shí),比傳統(tǒng)的LQR控制有更好的魯棒性。

3.2 控制策略求解

代數(shù)黎卡提方程(19)的求解已有豐富的研究成果[17],本文采用李雅普諾夫迭代法進(jìn)行計(jì)算。該方法將代數(shù)黎卡提方程解耦為李雅普諾夫方程來(lái)獨(dú)立運(yùn)算,算法速度快,準(zhǔn)確性高。

迭代算法

(A-SPP(k))TP(k+1)+P(k+1)(A-SPP(k))=
-(Q+P(k+1)SpP(k+1)+P(k+1)SeP(k+1)),
k=0,1,2,…

(23)

初值選擇

0=ATP(0)+P(0)A+Q-P(0)SpP(0)

(24)

通過(guò)迭代求解李亞普諾夫方程式(20)和式(21)可以得到矩陣P。

4 仿真算例及結(jié)果分析

為了突出本控制器的優(yōu)勢(shì),本節(jié)將基于追逃博弈的控制方法與傳統(tǒng)LQR控制進(jìn)行對(duì)比,通過(guò)3組數(shù)值仿真算例驗(yàn)證基于追逃博弈的控制方法應(yīng)用于非合作目標(biāo)接近問(wèn)題的有效性。假設(shè)追蹤航天器初始時(shí)刻相對(duì)于非合作目標(biāo)的位置為r=[300,150,-100]Tm,追蹤航天器進(jìn)行非合作目標(biāo)逼近,最終二者的相對(duì)運(yùn)動(dòng)狀態(tài)為0。追蹤航天器的控制加速度幅值約束為umax=5m/s2。仿真軌道初始值如表1所示。

表1 初始軌道參數(shù)

算例1假設(shè)空間非合作目標(biāo)不存在機(jī)動(dòng)。該工況相對(duì)理想,用于檢驗(yàn)所提出控制方法的可行性。本文方法選擇權(quán)重矩陣為:Q=10-5I6,Rp=0.01I3,Re=0.02I3。LQR方法選擇權(quán)重矩陣為:Q=10-5I6,R=0.01I3。仿真時(shí)間為200s,仿真步長(zhǎng)為0.1s。

圖1和圖3分別為本文提出的方法在接近過(guò)程中,非合作目標(biāo)和追蹤航天器相對(duì)距離和相對(duì)速度隨時(shí)間的變化曲線。圖2和圖4分別為L(zhǎng)QR提出的方法在接近過(guò)程中,非合作目標(biāo)和追蹤航天器相對(duì)距離和相對(duì)速度隨時(shí)間的變化曲線。經(jīng)過(guò)約40s,兩種控制器均使追蹤航天器與非合作目標(biāo)的相對(duì)距離穩(wěn)定在0.5m左右。

圖5和圖6分別為兩種控制器下追蹤航天器的控制加速度隨時(shí)間變化曲線??梢钥闯觯谡麄€(gè)非合作目標(biāo)接近過(guò)程中,初始相對(duì)距離較遠(yuǎn),接近非合作目標(biāo)所需控制力較大,隨著相對(duì)距離的減小,控制力逐漸減少并趨于0。通過(guò)上述分析,在非合作目標(biāo)無(wú)機(jī)動(dòng)的理想情況下,兩種方法均可實(shí)現(xiàn)對(duì)非合作目標(biāo)的接近。

算例2假設(shè)非合作目標(biāo)的未知機(jī)動(dòng)為納什均衡策略。該工況下,非合作目標(biāo)為理性的博弈參與者,有意識(shí)地與追蹤航天器對(duì)抗。假設(shè)非合作目標(biāo)的最大控制加速度umax=2m/s2。本文方法選擇加權(quán)矩陣為:Q=10-5I6,Rp=0.01I3,Re=0.02I3。LQR方法選擇目標(biāo)函數(shù)中的矩陣為:Q=10-5I6,Rp=0.01I3。仿真時(shí)間為200s,仿真步長(zhǎng)為0.1s。

圖1 相對(duì)距離隨時(shí)間變化曲線(本文)Fig.1 Relative distance by game

圖2 相對(duì)距離隨時(shí)間變化曲線(LQR)Fig.2 Relative distance by LQR

圖3 相對(duì)速度隨時(shí)間變化曲線(本文)Fig.3 Relative velocity by game

圖4 相對(duì)速度隨時(shí)間變化曲線(LQR)Fig.4 Relative velocity by LQR

圖5 控制加速度隨時(shí)間變化曲線(本文)Fig.5 Control acceleration by game

圖6 控制加速度隨時(shí)間變化曲線(LQR)Fig.6 Control acceleration by LQR

圖7和圖8為追逃博弈方法與LQR方法分別作用下的相對(duì)位置變化圖。圖9和圖10為兩種控制分別作用下的相對(duì)速度變化圖??梢钥闯?,在非合作目標(biāo)采取納什均衡策略時(shí),本文所提出的方法能夠快速平滑地使相對(duì)距離收斂到0.5m左右的穩(wěn)定值。而LQR方法則是震蕩收斂狀態(tài),所需時(shí)間較長(zhǎng)。

圖11和圖12分別為兩種控制器下追蹤航天器的控制加速度隨時(shí)間變化曲線。可以看出,基于追逃博弈的控制方法可以在燃耗較少的情況下快速收斂到0。對(duì)比二者的目標(biāo)函數(shù),在二者都采取納什均衡策略的情況下,即基于追逃博弈的控制下,J*=104;而在LQR控制下,J*=141,由此也可以驗(yàn)證式(9)的右不等式成立。

算例3假設(shè)非合作目標(biāo)存在未知機(jī)動(dòng)[4]:

本文方法選擇權(quán)重矩陣為:Q=10-5I6,Rp=0.01I3,Re=0.008I3。LQR方法選擇權(quán)重矩陣為:Q=10-5I6,Rp=0.01I3。仿真時(shí)間為200s,仿真步長(zhǎng)為0.1s。

在本工況下,圖13和圖14為追逃博弈方法與LQR方法分別作用下的相對(duì)位置變化圖。圖15和圖16為兩種控制方法下的相對(duì)速度變化圖??梢钥闯觯M管非合作目標(biāo)存在未知機(jī)動(dòng),追逃博弈的控制方法仍可以實(shí)現(xiàn)狀態(tài)的收斂,精度在1m左右。而LQR方法魯棒性不足,無(wú)法實(shí)現(xiàn)非合作目標(biāo)的接近。

圖17和圖18分別為兩種控制器下追蹤航天器的控制加速度隨時(shí)間變化曲線??梢钥闯?,控制加速度持續(xù)并不為0,而是隨著非合作目標(biāo)的運(yùn)動(dòng)震蕩。

圖7 相對(duì)距離隨時(shí)間變化曲線(本文)Fig.7 Relative distance by game

圖8 相對(duì)距離隨時(shí)間變化曲線(LQR)Fig.8 Relative distance by LQR

圖9 相對(duì)速度隨時(shí)間變化曲線(本文)Fig.9 Relative velocity by game

圖10 相對(duì)速度隨時(shí)間變化曲線(LQR)Fig.10 Relative velocity by LQR

圖11 控制加速度隨時(shí)間變化曲線(本文)Fig.11 Control acceleration by game

圖12 控制加速度隨時(shí)間變化曲線(LQR)Fig.12 Control acceleration by LQR

圖13 相對(duì)距離隨時(shí)間變化曲線(本文)Fig.13 Relative distance by game

圖14 相對(duì)距離隨時(shí)間變化曲線(LQR)Fig.14 Relative distance by LQR

圖15 相對(duì)速度隨時(shí)間變化曲線(本文)Fig.15 Relative velocity by game

圖16 相對(duì)速度隨時(shí)間變化曲線(LQR)Fig.16 Relative velocity by LQR

圖17 控制加速度隨時(shí)間變化曲線(本文)Fig.17 Control acceleration by game

圖18 控制加速度隨時(shí)間變化曲線(LQR)Fig.18 Control acceleration by LQR

5 結(jié)論

本文針對(duì)空間非合作目標(biāo)的接近控制問(wèn)題,基于追逃博弈方法設(shè)計(jì)了追蹤航天器的軌道控制器。面向非合作目標(biāo)接近的任務(wù)要求,合理設(shè)計(jì)了博弈的目標(biāo)函數(shù),并結(jié)合二者的動(dòng)力學(xué)約束,實(shí)現(xiàn)了對(duì)非合作目標(biāo)和追蹤航天器之間追逃博弈的數(shù)學(xué)描述。結(jié)合線性化動(dòng)力學(xué),通過(guò)優(yōu)化二次型目標(biāo)函數(shù),得到線性二次型追逃博弈的納什均衡解策略?;谧诽硬┺牡目刂撇呗跃哂酗@式表達(dá)式,方便工程應(yīng)用。數(shù)值仿真驗(yàn)證了本文設(shè)計(jì)的追逃博弈控制方法對(duì)于存在未知機(jī)動(dòng)的非合作目標(biāo)的有效性。本文未考慮接近過(guò)程中的姿態(tài)運(yùn)動(dòng),后續(xù)研究將進(jìn)一步考慮能夠?qū)崿F(xiàn)非合作目標(biāo)接近的姿軌聯(lián)合博弈控制。

猜你喜歡
航天器控制策略坐標(biāo)系
2022 年第二季度航天器發(fā)射統(tǒng)計(jì)
考慮虛擬慣性的VSC-MTDC改進(jìn)下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
2019 年第二季度航天器發(fā)射統(tǒng)計(jì)
工程造價(jià)控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
2018 年第三季度航天器發(fā)射統(tǒng)計(jì)
2018年第二季度航天器發(fā)射統(tǒng)計(jì)
現(xiàn)代企業(yè)會(huì)計(jì)的內(nèi)部控制策略探討
解密坐標(biāo)系中的平移變換
坐標(biāo)系背后的故事
基于重心坐標(biāo)系的平面幾何證明的探討
连江县| 江北区| 瓦房店市| 长垣县| 阿城市| 屏东市| 红原县| 进贤县| 神池县| 麻栗坡县| 抚远县| 奇台县| 郁南县| 祁连县| 乌审旗| 新余市| 黄梅县| 那坡县| 陵川县| 桦甸市| 阜阳市| 翁牛特旗| 科尔| 应城市| 衡阳市| 濉溪县| 安平县| 金阳县| 武夷山市| 库尔勒市| 旬阳县| 惠安县| 师宗县| 滨海县| 晴隆县| 盘山县| 宣恩县| 盐边县| 九寨沟县| 嘉禾县| 长垣县|