趙力冉 黨朝輝 張育林
1.西北工業(yè)大學(xué)航天學(xué)院航天飛行動力學(xué)技術(shù)重點實驗室陜西西安710072
空間安全是涉及國家安全與利益的“高邊疆”.隨著空間技術(shù)的迅猛發(fā)展,天基系統(tǒng)對現(xiàn)代戰(zhàn)爭的作用和影響越來越大.為了爭奪這一新的戰(zhàn)略“制高點”,確保在未來戰(zhàn)爭中獲得主動權(quán),美、俄等航天大國爭相研究新型空間操控技術(shù),加速改變太空力量格局.
2011年,美國國防高級研究計劃局(Defense Advanced Research Projects Agency,DAPAR)提出“鳳凰計劃”,通過航天器對靜止軌道退役衛(wèi)星上的耐損性元器件實施回收,然后在空間與其他模塊化衛(wèi)星進(jìn)行整合重組,生成具有完備功能的新衛(wèi)星,實現(xiàn)“空間資源再利用”[1].這種“在軌服務(wù)” 技術(shù)一方面可實現(xiàn)故障衛(wèi)星快速搶修和替換,另一方面可為正常衛(wèi)星提供“伴隨式” 防御服務(wù)[2].2014年7月,美國“地球同步軌道空間態(tài)勢感知計劃”(Geosynchronous Space Situational Awareness Program,GSSAP)的首批2 顆衛(wèi)星發(fā)射成功,進(jìn)入近地球同步軌道,通過相對漂移技術(shù)實現(xiàn)對GEO 軌道衛(wèi)星的逼近監(jiān)視[3].2014年至今,GSSAP 衛(wèi)星通過數(shù)百次軌道機(jī)動近距離(10~15 km)對俄羅斯和我國共12 顆航天器實施拍照和情報獲取,對我高軌衛(wèi)星安全造成了嚴(yán)重威脅.在拍照過程中,GSSAP 衛(wèi)星通常在目標(biāo)處于地球陰影區(qū)時接近,以躲避地基望遠(yuǎn)鏡的追蹤,展現(xiàn)了軌道博弈的基本原理.與GSSAP 衛(wèi)星一同發(fā)射入軌的,還有美國空軍研究室提出的“局部空間的自主導(dǎo)航與制導(dǎo)試驗”(Autonomous Navigation and Guidance Experiment in Local Space,ANGELS).該衛(wèi)星以上面級為目標(biāo)進(jìn)行逼近、繞飛、懸停等操作,在地球同步軌道上實施了多次沿威脅軌跡飛行試驗,演練了對在軌飛行器攻擊和防御的戰(zhàn)術(shù).由此可見,美國等航天強(qiáng)國的空間攻防手段不斷豐富,能力迅速提升,空間作戰(zhàn)體系初步構(gòu)建,對我國空間設(shè)施安全造成了極大的戰(zhàn)略威懾.
《孫子兵法》云:“兵者詭道也”.因此,從學(xué)術(shù)角度分析,空間軌道博弈需要具備一定的理論和方法.以軌道利用、軌道接管和軌道操控為特征的軌道博弈時代已到來,有必要從軌道動力學(xué)、博弈論及人工智能等多學(xué)科融合的角度,建立一套完整的空間軌道博弈理論和方法體系.空間軌道博弈是指發(fā)生在空間軌道上由于雙方或者多方、兩個或者多個航天器之間的任務(wù)目標(biāo)不同甚至沖突而導(dǎo)致的博弈對抗問題.本文首次給出了空間軌道博弈的定義,建立了軌道博弈的概念與體系.針對9 種不同的軌道博弈類型分別進(jìn)行了定義與分類,進(jìn)一步完成空間軌道博弈任務(wù)流程設(shè)計,結(jié)合人工智能與生物群體仿生智能對空間軌道博弈問題求解框架進(jìn)行了探討與分析.
博弈(game),其字面含義為游戲,在中文語境中更多是指對抗、競爭或斗爭,是指個體或團(tuán)隊在約定的規(guī)則和給定的條件下,從各自可以選擇的行為或策略中挑選對自身最有利的行為或策略,并使得各自期望的結(jié)果或收益達(dá)到最佳[4].博弈現(xiàn)象極其豐富,在人類生活的不同領(lǐng)域均可看到各種博弈實例,包括軍事、政治、外交、經(jīng)濟(jì)、體育、比賽、教育等.最典型的博弈實例即為各種棋類游戲,例如起源于我國春秋戰(zhàn)國時期的圍棋也稱作弈.博弈是一種動態(tài)過程,一般包括5 要素:參與者、博弈信息、行為集合、行為策略、博弈收益.博弈的本質(zhì),是具有交互作用的參與者在多種約束下的決策優(yōu)化問題.博弈的類型非常多,根據(jù)不同的標(biāo)準(zhǔn)會產(chǎn)生不同的分類結(jié)果.例如:合作/非合作博弈、靜態(tài)/動態(tài)博弈、完全信息/非完全信息博弈,有限/無限博弈等.
博弈論(Game Theory)是研究博弈問題的理論,也稱作對策論,屬于數(shù)學(xué)學(xué)科中運籌學(xué)的一個分支.雖然我國古代的《孫子兵法》也被視作是研究博弈問題的著作,但博弈論的真正誕生是由馮· 諾伊曼于1928年完成的,因其首次將博弈問題轉(zhuǎn)化為標(biāo)準(zhǔn)的數(shù)學(xué)問題并由此揭示了博弈的基本原理.博弈研究的數(shù)學(xué)化是使得博弈論這一門學(xué)問脫離經(jīng)驗主義走向真正科學(xué)的標(biāo)志.而在隨后的發(fā)展中,博弈論產(chǎn)生了一系列深刻的理論結(jié)果和實用化的方法,例如1950年約翰·納什利用不動點定理證明的均衡點存在性.
在博弈論的基礎(chǔ)上,Isaacs 提出了微分博弈(differential game)理論,可描述連續(xù)時間系統(tǒng)內(nèi)受微分方程約束的博弈競爭問題,其典型應(yīng)用即運動體間的博弈控制問題[5].微分博弈,也稱微分對策,是古典博弈論與最優(yōu)控制相結(jié)合的產(chǎn)物,其要解決的是雙邊最優(yōu)問題.微分博弈在導(dǎo)彈攔截[6?8]、飛機(jī)追逃[9?10]、網(wǎng)絡(luò)安全[11]等領(lǐng)域都有廣泛的應(yīng)用.初期研究主要解決“一對一”的運動博弈,稍后則擴(kuò)展為“多對一”的運動博弈,可以預(yù)期的是未來“多對多”或群體博弈也將成為重要的研究方向.“多對一” 博弈的一個典型案例為攔截器、目標(biāo)器、防御器構(gòu)成的導(dǎo)彈攔截問題,其中,防御器是目標(biāo)發(fā)出的誘餌,用于在攔截彈擊中目標(biāo)之前主動擊中攔截器.顯然,“多對一” 的攔截問題要比“一對一” 的問題復(fù)雜很多.群體博弈的典型案例是籃球運動、足球運動等多人球類比賽.群體博弈過程中蘊含著豐富的博弈對抗類型,其決策的智能化是復(fù)雜的NP 問題.微分博弈問題通常需要轉(zhuǎn)化為求解哈密頓雅可比方程以獲得納什均衡解,由于非線性和耦合性的緣故很難得到解析解[12].
空間軌道博弈,簡稱軌道博弈(orbital game),是航天器軌道動力學(xué)、博弈論與人工智能相結(jié)合的一門全新理論.本節(jié)將首先給出其定義,然后結(jié)合博弈論建立其基本的5 要素模型.
定義.軌道博弈是指在天體引力場內(nèi)受軌道動力學(xué)約束的兩個(含)以上運動物體在各自允許的控制能力和可獲得的信息支持下,主動施加控制行動,追求相反、矛盾或不一致的相對位姿狀態(tài)所形成的軌道演化過程及其結(jié)果.
從廣義上講,軌道博弈同時包括涉及軌道動力學(xué)的軌道運動問題和受軌道運動耦合影響的姿態(tài)運動問題;但狹義上軌道博弈只針對軌道運動問題,尤其是相對軌道運動問題.
按照博弈論的5 要素模型,軌道博弈涉及的因素包括:軌道對象、狀態(tài)信息、策略集合、運動策略、軌道收益.其中:
1)軌道對象.是軌道博弈中的參與者或局中人,包括火箭、衛(wèi)星、空間站等各類空間飛行器及潛在的自然天體.運動物體可能是正常運行的航天器,也可能是故障或失效的航天器,甚至有可能是空間碎片或需要捕獲和攔截的小行星、小天體等.
2)狀態(tài)信息.是軌道博弈中的博弈信息,包括軌道上運行的物體自身在慣性系中的位置、速度、姿態(tài)、角速度,也包括運動體之間的相對位置、相對速度、相對姿態(tài)和相對角速度等.在某些博弈問題中可能還包括其他信息,例如運動體的平臺參數(shù)、載荷能力、物理屬性,空間環(huán)境信息(例如太陽方位),以及運動體間的通信條件及信息交互拓?fù)涞?
3)策略集合也成為控制集合.是軌道博弈中運動體能夠?qū)嵤┑目刂屏蛄氐拇笮?、方向、持續(xù)時間(對應(yīng)燃耗或電量)允許的范圍.控制集合描述了運動個體的控制約束,對應(yīng)了經(jīng)典博弈論中的行為集合.控制集合是軌道博弈參與者的實力基礎(chǔ),也是判斷博弈成敗和采取合適博弈策略的基礎(chǔ).
4)運動策略.也稱控制策略或行為策略,是軌道博弈中運動個體施加或?qū)嵤┛刂频姆椒ɑ蛟瓌t,反映了運動個體的主動性,是實現(xiàn)博弈成功的具體行動.運動策略通常為時間或狀態(tài)量(即位姿信息)的連續(xù)函數(shù),但在離散問題里也可以為非連續(xù)函數(shù).在軌道博弈問題中,運動策略可以為控制力、控制加速度或速度增量(對應(yīng)純軌道問題),也可以為控制力矩(對應(yīng)姿態(tài)問題).需要指出的是,運動策略與策略集合是兩個不同的概念,運動策略是控制實施的具體策略或規(guī)則,而策略集合是能夠?qū)嵤┑目刂扑鶓?yīng)滿足的約束.
5)軌道收益.是指參與軌道博弈的個體處在某種特定位姿狀態(tài)下能夠獲得的價值或效益.例如,對于衛(wèi)星抵近觀測與反觀測所形成的一對一博弈問題,觀測衛(wèi)星的收益也即成像效果,與其相對目標(biāo)的距離呈正相關(guān)關(guān)系.
空間軌道博弈的5 要素中,最為核心也是需要解決的問題為運動策略的設(shè)計.針對不同空間軌道博弈類型,在設(shè)計運動策略的過程中,需要從狀態(tài)信息中獲取任務(wù)所需的信息,綜合考慮策略集合所提供的約束,設(shè)計符合任務(wù)需求的運動策略使得軌道對象的軌道收益最大化.
空間軌道博弈理論是一門全新的多學(xué)科交叉融合理論,并非博弈論在空間軌道問題中的簡單拓展或應(yīng)用.由于軌道動力學(xué)的特殊性及強(qiáng)有力約束,航天器燃料消耗及控制實施的巨大代價、空間環(huán)境的脆弱性,軌道博弈理論必須在軌道動力學(xué)規(guī)律的指導(dǎo)下,利用博弈論及人工智能方法,充分挖掘軌道博弈現(xiàn)象背后的一般規(guī)律,從而形成系統(tǒng)的理論和方法,為空間軌道運用、防護(hù)、監(jiān)視、開發(fā)等任務(wù)提供數(shù)學(xué)模型和計算工具,為保護(hù)地球及太空環(huán)境奠定理論基礎(chǔ).
空間軌道博弈依據(jù)任務(wù)場景和任務(wù)目標(biāo)表現(xiàn)出不同形式,包含但不限于:軌道潛伏、軌道偽裝、軌道追逃、軌道攔截、軌道防御、軌道封鎖、軌道包圍、軌道附著、軌道接管.接下來對軌道博弈不同類型及原理進(jìn)行介紹.
2.1.1 軌道潛伏
一個或多個衛(wèi)星分布于某條或某幾條潛伏軌道上,相對非合作目標(biāo)形成一種潛在的博弈前準(zhǔn)備狀態(tài).從潛伏軌道出發(fā),可以較短時間或較少的燃料耗費實現(xiàn)對目標(biāo)的接近觀測或接近操作.潛伏軌道通常具有一定的隱蔽性,其與目標(biāo)軌道或任務(wù)軌道不同,但可能存在相對接近點或交叉點.潛伏軌道的選擇或設(shè)計,需充分利用空間地形條件和環(huán)境特點.軌道潛伏蘊含的博弈問題是:如何優(yōu)化衛(wèi)星的軌道分布,使得對方的威脅預(yù)警程度最小化且我方抵近操作的時間以或燃料損耗最小化?
圖2 軌道潛伏示意圖Fig.2 Schematic diagram of orbital latency
2.1.2 軌道偽裝
軌道偽裝也用于隱藏真實意圖,但與軌道潛伏不同的是,偽裝的軌道處于工作狀態(tài)而非準(zhǔn)備狀態(tài).軌道偽裝具有多種不同形式,對于微納衛(wèi)星集群來說,可通過“化整為零” 或“擬態(tài)偽裝” 等方式實現(xiàn).在“化整為零”的方式中,多個微納衛(wèi)星通過聚集或組裝形成一個整體式衛(wèi)星,沿著初始軌道運行,在特定時刻或觸發(fā)條件下分散形成多個軌道運動個體.由于尺寸較小,微納衛(wèi)星難以被目標(biāo)觀測和識別,等效為在視野中憑空消失.在“擬態(tài)偽裝”方式中,多個微納衛(wèi)星在不同空間位置,以隨機(jī)或特定規(guī)則組合形成一個或多個聚集性團(tuán)簇,模擬出新的大型衛(wèi)星.由于不斷地切換和組合,團(tuán)簇出現(xiàn)的位置較難預(yù)測,具備極強(qiáng)的偽裝能力,可在戰(zhàn)術(shù)層面上實施突然抵近操作.軌道偽裝蘊含的博弈問題為:如何設(shè)計多個體分散與組合的時間序列、分散與組合的個體選擇、團(tuán)簇出現(xiàn)的位置以及團(tuán)簇的大小,使得對方對我軌道預(yù)報誤差最大化?
圖3 軌道偽裝示意圖Fig.3 Schematic diagram of orbital camouflag
2.1.3 軌道追逃
軌道追逃是最常見的軌道博弈問題,表現(xiàn)為追蹤者對目標(biāo)的主動靠近或目標(biāo)對追蹤者的主動遠(yuǎn)離.軌道追逃包括一對一、多對一、多對多等不同形式.目標(biāo)不機(jī)動時,軌道追逃退化為普通的軌道交會問題;目標(biāo)機(jī)動時,軌道追逃變?yōu)榈湫偷牟┺膯栴}.追逃成功與否不僅與雙方機(jī)動能力相關(guān),還與各自的感知能力相關(guān).追逃過程中,目標(biāo)逃逸的觸發(fā)條件通常為兩者距離達(dá)到感知臨界范圍.因此,若采用多個追蹤者,即使機(jī)動能力普遍弱于目標(biāo),也有可能通過戰(zhàn)術(shù)運用,利用目標(biāo)感知范圍的局限性實現(xiàn)有效追捕.此外,多對一或多對多追逃問題中,涉及多個體之間的信息共享機(jī)制問題.多個體星間通信或信息交互拓?fù)涞倪B通性是否支持有效的聯(lián)合追擊,是其中重要的問題.與地面追逃問題不同,空間軌道追逃面臨軌道動力學(xué)的強(qiáng)約束,追擊或逃跑策略必須盡可能利用軌道運動規(guī)律實現(xiàn)最優(yōu)化.軌道追逃蘊含的博弈問題是:如何設(shè)計追逃控制算法,使得追蹤者盡可能成功捕獲對方?同時作為逃跑者如何盡可能地逃離對方的捕獲?
在軌道追逃的任務(wù)場景中,策略集合所提供的約束主要為軌道動力學(xué)的約束和航天器機(jī)動能力的約束.在結(jié)合軌道追逃博弈任務(wù)需求設(shè)計追擊者(逃跑者)的運動策略時主要考慮的問題為:1)盡可能地減小(增大)雙方的相對距離;2)縮短(增長)追逃博弈的任務(wù)時間;3)減小任務(wù)過程中自身的燃料消耗.
2.1.4 軌道攔截
軌道攔截是指追蹤者到達(dá)目標(biāo)逃逸的前進(jìn)方向一定距離處,阻止或減緩目標(biāo)的進(jìn)一步逃逸.當(dāng)存在多運動體博弈時,軌道攔截也可能出現(xiàn)在相反進(jìn)程中,即逃逸方派出第三者阻止或減緩追擊方的前進(jìn).軌道攔截通常作為輔助任務(wù),幫助實現(xiàn)軌道追逃或軌道包圍/突圍.軌道攔截的有效實施需要考慮攔截對象的感知范圍,即攔截的轉(zhuǎn)移軌跡必須位于感知范圍之外.此外,當(dāng)空間中存在多個對象時,攔截軌跡的設(shè)計不僅需要考慮時間約束,還需要考慮多個體碰撞規(guī)避約束.軌道攔截蘊含的博弈問題是:時間及相對幾何約束下的軌道優(yōu)化與控制.
圖4 軌道追逃示意圖Fig.4 Schematic diagram of orbital pursuit-evasion
在軌道攔截的任務(wù)場景中,策略集合所提供的約束與軌道追逃基本相同,但是為了能夠?qū)崿F(xiàn)對目標(biāo)的攔截需要對獲取的狀態(tài)信息進(jìn)一步地分析處理,實現(xiàn)對目標(biāo)的運動軌跡和機(jī)動意圖的預(yù)測.在設(shè)計運動策略時需要結(jié)合對目標(biāo)的行為預(yù)測信息和軌道攔截的任務(wù)需求,主要考慮的問題包括:1)結(jié)合能夠獲取的狀態(tài)信息對目標(biāo)進(jìn)行行為預(yù)測;2)攔截航天器出現(xiàn)在目標(biāo)可能選擇的逃逸軌道上,并根據(jù)狀態(tài)信息的變化進(jìn)行調(diào)整;3)攔截航天器與目標(biāo)保持適當(dāng)?shù)木嚯x;4)避免多航天器協(xié)同攔截的碰撞規(guī)避問題.
圖5 軌道攔截示意圖Fig.5 Schematic diagram of orbital interception
2.1.5 軌道防御
軌道防御是追逃或攔截的反問題,具體是指:當(dāng)對方派出一個或多個衛(wèi)星對我進(jìn)行追擊、圍捕或攔截時,我方派出一個或多個護(hù)衛(wèi)衛(wèi)星,攔阻對方的前進(jìn)趨勢或破壞對方的群體態(tài)勢,使:1)對方攔截/追擊/包圍任務(wù)直接失敗,2)使對方攔截/追擊/包圍的構(gòu)形遭到破壞,3)使對方攔截/追擊/包圍的有效范圍縮小,4)使對方攔截/追擊/包圍的成本提高.防御的最終目的是為我方主航天器的機(jī)動或安全作出保障.軌道防御通常發(fā)生在重大空間資產(chǎn)的安全防護(hù)問題中,例如利用衛(wèi)星伴飛技術(shù)實現(xiàn)對空間站的巡視和防護(hù).軌道防御通常采用廉價的微納衛(wèi)星實現(xiàn),且多以集群方式提高防御的整體效果.以空間站防御為例,多個微納衛(wèi)星采用中心繞飛的環(huán)衛(wèi)方式,也可采用前出防御、側(cè)方拱衛(wèi)或后方防御的編隊方式.軌道防御蘊含的博弈問題為:如何實現(xiàn)多個護(hù)衛(wèi)器的軌跡規(guī)劃與控制,使得追擊方的態(tài)勢或效果被最小化?
圖6 軌道防御示意圖Fig.6 Schematic diagram of orbital defense
2.1.6 軌道封鎖
軌道封鎖是指通過多個衛(wèi)星占據(jù)某一部分軌道后,對目標(biāo)進(jìn)出該空間形成封鎖效應(yīng).如何度量封鎖效應(yīng)是該問題的一個難點.在封鎖效應(yīng)最大化的基礎(chǔ)上,如何優(yōu)化多個衛(wèi)星的軌道是其中的博弈問題.當(dāng)待封鎖軌道區(qū)域里沒有己方航天器出沒時,軌道封鎖的動力學(xué)機(jī)理及其幾何規(guī)律較為簡單;當(dāng)封鎖區(qū)域存在己方航天器運行與工作,或存在失效航天器、空間碎片等出沒時,如何設(shè)計軌道實現(xiàn)封鎖或半封鎖將成為一個復(fù)雜優(yōu)化問題.
2.1.7 軌道包圍
軌道包圍是指多個微納衛(wèi)星對一個目標(biāo)或多個目標(biāo)形成包圍環(huán)(圈).具體實現(xiàn)時,通常是使目標(biāo)正好位于包圍者構(gòu)成的凸包絡(luò)或凸面體內(nèi)部,且包圍者兩兩之間的距離小于目標(biāo)突圍的臨界距離.由于目標(biāo)的機(jī)動性,如何設(shè)計多個包圍者的運動軌跡和控制策略,使得目標(biāo)能夠進(jìn)入包圍環(huán)(圈)是軌道包圍博弈的難點.顯然,包圍者初始的相對狀態(tài)對這一問題的求解具有影響.包圍者構(gòu)成的集群中,多個體之間應(yīng)具有協(xié)同機(jī)制,并利用逃逸者的感知有限性實現(xiàn)包圍軌跡的有效規(guī)劃.由于自然界中具有廣泛的包圍現(xiàn)象,例如狼群圍捕等,軌道包圍博弈問題可借鑒生物群體智能原理加以解決.
軌道封鎖與軌道攔截問題相比,策略集合所提供的約束是基本相同的,但是由于兩種博弈類型的任務(wù)目標(biāo)不同:軌道攔截的主要目標(biāo)是使得攔截航天器出現(xiàn)在目標(biāo)可能的逃逸軌道上,實現(xiàn)對目標(biāo)攔截;軌道封鎖的任務(wù)目標(biāo)重點在于我方航天器對目標(biāo)形成包圍圈并使目標(biāo)進(jìn)入其中.這兩者所對應(yīng)的運動策略設(shè)計也是不同的,軌道攔截任務(wù)場景中運動策略的設(shè)計主要考慮的問題為:1)設(shè)計多航天器的包圍構(gòu)型,使得該構(gòu)型形成后能夠滿足避免目標(biāo)突圍的任務(wù)需求;2)設(shè)計多航天器包圍構(gòu)型的運動、演化軌跡,迫使目標(biāo)航天器進(jìn)入包圍圈內(nèi).
2.1.8 軌道附著
軌道附著是指一個或多個微納衛(wèi)星通過姿軌協(xié)同控制,登陸和附著于另一個航天器的表面,從而與后者構(gòu)成一個異構(gòu)組合體.軌道附著是實現(xiàn)多微納衛(wèi)星接管目標(biāo)軌道和姿態(tài)的前提,也是實現(xiàn)傳統(tǒng)空間機(jī)器人進(jìn)行目標(biāo)抓捕的前提.軌道附著要求附著者與目標(biāo)表面的可附著點進(jìn)行交會對接,在此過程中要求相對距離減小的同時實現(xiàn)兩者姿態(tài)同步.軌道附著的幾個關(guān)鍵問題為:如何選取附著點?如何追蹤附著點?當(dāng)目標(biāo)存在姿軌機(jī)動時,如何在對抗性條件下實現(xiàn)附著是重要的博弈問題;當(dāng)考慮多個附著者同時附著時,如何實現(xiàn)碰撞規(guī)避是其中的難題.
圖7 軌道附著示意圖Fig.7 Schematic diagram of orbital adhesion
2.1.9 軌道接管
軌道接管是指一個或多個微納衛(wèi)星附著或抓捕目標(biāo)后,如何通過多點力與力矩的聯(lián)合,實現(xiàn)對目標(biāo)的軌道控制.當(dāng)目標(biāo)靜止或穩(wěn)定自旋時,接管控制較為容易.但當(dāng)目標(biāo)存在主動博弈對抗,施加未知不確定姿軌控制時,如何確保軌道接管成功,是博弈難題.由于附著點通常取決于目標(biāo)表面的實際情況,很難作到均勻分配,因此,多個附著點之間能否構(gòu)成力封閉及形封閉是決定軌道接管能否有效實現(xiàn)的問題.當(dāng)無法滿足封閉要求時,多點的聯(lián)合控制輸出包絡(luò)不滿足可控性,軌道接管將會失效.
圖8 軌道接管示意圖Fig.8 Schematic diagram of orbital take-over
對于完整的軌道博弈任務(wù),前述介紹的9 種軌道博弈問題可能都會涉及.但對于實際發(fā)生的有限軌道博弈,上述博弈類型中的部分會涉及并具有一定的關(guān)系.按照軌道博弈的階段特征,給出任務(wù)流程設(shè)計的總體框架,如圖9所示.
圖9 軌道博弈任務(wù)全流程設(shè)計Fig.9 The whole process design of orbital game task
以微納衛(wèi)星集群接管操控非合作目標(biāo)為想定,則軌道博弈任務(wù)流程的具體過程如下.
1)軌道潛伏階段.是我方任務(wù)航天器面對非合作目標(biāo)時的一種博弈前準(zhǔn)備狀態(tài).在這個任務(wù)階段我方航天器需要達(dá)成以下目標(biāo):
a)航天器的軌道潛伏.為了避免打草驚蛇,在任務(wù)開始前需要找到合適的位置進(jìn)行軌道潛伏,在軌道潛伏過程中通過利用己方其他在軌衛(wèi)星或者失效衛(wèi)星等在軌航天器作掩護(hù),隱藏自身意圖和星群的分布.軌道潛伏還要考慮燃料和時間因素,使微納星群可以在較短的時間內(nèi)以較小的燃料損耗接近非合作目標(biāo).
b)任務(wù)規(guī)劃與分配.在任務(wù)開始前微納衛(wèi)星集群以防御姿態(tài)圍繞著己方航天器進(jìn)行繞飛巡防,當(dāng)確定以多個非合作航天器為任務(wù)目標(biāo)后,按照非合作目標(biāo)的數(shù)量對微納衛(wèi)星群進(jìn)行分組,在對各非合作目標(biāo)的性能進(jìn)行估計后,結(jié)合非合作目標(biāo)的距離、機(jī)動能力等因素和我方微納衛(wèi)星的功能對微納星群進(jìn)行任務(wù)分配.
2)軌道接近階段.是指微納星群開始對非合作目標(biāo)進(jìn)行接近,且非合作目標(biāo)沒有察覺開始采取逃跑策略之前的任務(wù)階段.在該階段我方衛(wèi)星需要進(jìn)行軌道偽裝.多個微納衛(wèi)星可以通過自組織方式連接形成一個具有較強(qiáng)的計算和機(jī)動能力的大型衛(wèi)星,但是因為體積較大比較容易被發(fā)現(xiàn).因此,當(dāng)微納星群進(jìn)入對方偵察盲區(qū)后再進(jìn)行組合,完成必要的復(fù)雜計算或較強(qiáng)機(jī)動任務(wù)之后再分散為微納衛(wèi)星.通過不斷地切換和自組合,實現(xiàn)較強(qiáng)的偽裝能力.
3)追擊攔截階段.在微納星群接近非合作目標(biāo)的過程中,如果非合作目標(biāo)察覺到并開始采取措施進(jìn)行逃跑,任務(wù)就進(jìn)入到了下一個階段,即軌道追擊攔截階段.該階段主要包括追逃博弈與攔截包圍兩種軌道博弈類型,前者實現(xiàn)對目標(biāo)的追擊接近,后者對目標(biāo)機(jī)動實施限制,兩種策略雙管齊下.
a)航天器的追逃博弈.在航天器的追逃博弈中,除了要考慮損耗燃料最小、追逃時間最短等目標(biāo)外,還需根據(jù)我方衛(wèi)星和非合作目標(biāo)的相對機(jī)動能力的不同情況設(shè)計不同的追逃策略.軌道追逃博弈與常見的機(jī)器人或飛行器追逃博弈問題的根本不同就是軌道追逃博弈受到其獨有的軌道動力學(xué)方程的約束.由于約束對追逃雙方是平等的,可以充分利用軌道動力學(xué)的特點設(shè)計軌道,就可以實現(xiàn)“抄近道”追擊.再結(jié)合之后所設(shè)計的多微納星協(xié)同圍捕策略實現(xiàn)高效性和智能性.
b)軌道攔截與包圍.由于非合作目標(biāo)具有抵抗性行為,只采用單一的追逃策略基本無法實現(xiàn)近距離下相對于非合作目標(biāo)的相對靜止?fàn)顟B(tài),這也是空間衛(wèi)星的抓捕不同于導(dǎo)彈或者機(jī)器人追逃問題的關(guān)鍵點之一.傳統(tǒng)的追逃問題只考慮追擊成功即可,但是衛(wèi)星圍捕要避免與非合作目標(biāo)的碰撞,因此,除了追逃博弈策略,還要結(jié)合攔截與包圍策略對非合作目標(biāo)的機(jī)動能力進(jìn)行約束.該過程主要包括軌道攔截和軌道包圍兩種軌道博弈類型.
4)附著階段.在完成軌道包圍與軌道攔截后,實現(xiàn)約束非合作目標(biāo)的機(jī)動能力,就可以進(jìn)入附著階段.在該階段首先通過目標(biāo)識別確認(rèn)非合作目標(biāo)上適合的附著點,然后通過多微納星的協(xié)同合作實現(xiàn)與非合作目標(biāo)的姿軌同步,其中,包圍非合作目標(biāo)的一部分衛(wèi)星,可以負(fù)責(zé)對附著過程進(jìn)行監(jiān)測,反饋我方衛(wèi)星與非合作目標(biāo)之間的相對距離和姿態(tài)信息,這樣可以對附著過程進(jìn)行更為精確的控制.
5)姿態(tài)接管博弈階段.該階段是一個非合作目標(biāo)抓捕后組合體的姿態(tài)穩(wěn)定博弈問題,屬于一種特殊的零和博弈.非合作目標(biāo)自身具有姿態(tài)控制器,與傳統(tǒng)的姿態(tài)消旋問題不同,非合作目標(biāo)會采取未知的不確定控制量對姿態(tài)消旋過程進(jìn)行抵抗.需要采用微分博弈論設(shè)計多衛(wèi)星協(xié)同博弈策略,完成對非合作目標(biāo)抓捕后組合體的姿態(tài)接管控制.除此之外,還要考慮優(yōu)化附著點的分配,以便于為后續(xù)軌道接管打好基礎(chǔ).
6)軌道接管階段.在完成非合作目標(biāo)的姿態(tài)接管控制后,就可以開始軌道接管.由于非合作目標(biāo)自身可能具有軌道控制能力,在對其進(jìn)行軌道接管時會受到未知的控制力抵抗,因此,需要結(jié)合微分博弈控制理論和軌道動力學(xué)設(shè)計軌道接管博弈控制策略.在軌道接管控制過程中,需要在非合作目標(biāo)參數(shù)不確定情況下,以及未知控制力的抵抗下實現(xiàn)軌道的成功接管,這是一種信息不完備的博弈控制問題.
博弈論是專門研究和刻畫多參與者在合作或者對抗場景中相互作用動力學(xué)方程的理論,在博弈中每個參與者的博弈策略都是通過成本函數(shù)(或軌道收益)所定義的,每個參與者都會通過改變自身狀態(tài)盡力優(yōu)化自身的成本函數(shù)[13].博弈的演變是通過狀態(tài)變量進(jìn)行定義的,如果狀態(tài)演變和博弈決策的過程都是發(fā)生在連續(xù)時間下且具有一組微分方程,那么該博弈為一個微分博弈[14].軌道博弈可以由微分博弈進(jìn)行定義:
式中,Xt為軌道博弈中的狀態(tài)量的集合,在不同軌道博弈問題中狀態(tài)量的物理意義不同,例如在追逃博弈中為我方衛(wèi)星和對方衛(wèi)星之間的距離,在姿態(tài)接管博弈中則是抓捕后組合體的姿態(tài)狀態(tài)量;P為博弈參與者的集合,包含所有我方衛(wèi)星和對方衛(wèi)星;Ui為博弈參與者的策略集合;Ci為微分博弈的約束,軌道博弈中主要約束為軌道動力學(xué)方程;Jt表示軌道微分博弈中每個參與者成本函數(shù)的集合;t為軌道博弈的時間變量.
常用的微分博弈控制策略主要有兩種:一種是基于梯度的博弈控制策略[15],另一種是基于哈密爾頓函數(shù)的最優(yōu)化博弈策略[14].無論哪種方法,博弈控制策略設(shè)計最本質(zhì)上是對成本函數(shù)的設(shè)計,因此,如何能夠設(shè)計一種成本函數(shù),能夠準(zhǔn)確地反映出軌道博弈的任務(wù)需求是其關(guān)鍵.
傳統(tǒng)微分博弈控制策略對成本函數(shù)的設(shè)計有一定的約束,過于復(fù)雜的成本函數(shù)無法利用傳統(tǒng)的方法進(jìn)行求解,傳統(tǒng)微分博弈控制策略需要系統(tǒng)的模型才能使用.該方法的優(yōu)點是在適用的場景下能夠精確地求解出最優(yōu)策略,傳統(tǒng)方法適用于模型信息已知且任務(wù)要求較為簡單的博弈場景,例如較為簡單的軌道追逃博弈、軌道姿態(tài)接管博弈等.由于傳統(tǒng)方法存在對成本函數(shù)的約束,設(shè)計出符合任務(wù)需求的運動策略難度較大.
神經(jīng)網(wǎng)絡(luò)是通過模仿生物神經(jīng)網(wǎng)絡(luò)所設(shè)計的分布式并行信息處理的一種數(shù)學(xué)模型.神經(jīng)網(wǎng)絡(luò)處理信息是通過調(diào)整系統(tǒng)內(nèi)部大量節(jié)點之間的連接關(guān)系而實現(xiàn)的,依靠的是系統(tǒng)的復(fù)雜程度[16].神經(jīng)網(wǎng)絡(luò)的基本信息處理單位是神經(jīng)元,神經(jīng)元模型如圖10所示,主要由3 種基本元素所組成.
圖1 空間軌道博弈的5 要素Fig.1 Five Elements of Space Orbital Game
圖10 神經(jīng)元模型圖Fig.10 A model diagram of a neuron
1)連接權(quán)值作用為表示各個連接的連接強(qiáng)度,當(dāng)取值為正值時表示系統(tǒng)為激活狀態(tài),相反為負(fù)值時表示出以抑制狀態(tài);
2)累加器作用為求輸入信號對神經(jīng)元突觸的加權(quán)和;
3)激活函數(shù)作用為限制神經(jīng)元的輸出振幅,也被稱為壓制函數(shù),給神經(jīng)網(wǎng)絡(luò)增添一些非線性因素以解決較為復(fù)雜的問題.
通過大量神經(jīng)元的相互連接構(gòu)成一個神經(jīng)網(wǎng)絡(luò).神經(jīng)網(wǎng)絡(luò)是由輸入層、隱層、輸出層所組成的,從輸入層到輸出層的長度便是神經(jīng)網(wǎng)絡(luò)的深度,通過增加隱層的數(shù)量,可以大大增加神經(jīng)網(wǎng)絡(luò)系統(tǒng)的復(fù)雜度以達(dá)到更好的學(xué)習(xí)效果,具有多個隱層的神經(jīng)網(wǎng)絡(luò)就是深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)[17].深度神經(jīng)網(wǎng)絡(luò)被認(rèn)為是最有可能實現(xiàn)人工智能計算的方法之一,具有很強(qiáng)的通用性[18].例如可以很好地對非線性函數(shù)進(jìn)行擬合,可以與微分博弈相結(jié)合實現(xiàn)對智能博弈策略的設(shè)計[19].
3.2.2 基于邊端云的軌道博弈體系設(shè)計
云計算可以在不受時間和空間限制的條件下,高效地管理和利用儲存在集中式云服務(wù)器上的資源[20].但是隨著云使用量的不斷增加,處理數(shù)據(jù)所需的時間也會增加,云計算是比較容易受到安全和網(wǎng)絡(luò)環(huán)境影響,一旦云數(shù)據(jù)中心受到攻擊,大量重要的信息就會泄露.為了解決上述問題,“邊緣計算”這種新型的計算技術(shù)被提了出來.邊緣計算是一種在收集數(shù)據(jù)的網(wǎng)絡(luò)邊緣立即對數(shù)據(jù)進(jìn)行分析和處理的技術(shù)[21].通過在物理上接近數(shù)據(jù)收集的邊緣實現(xiàn)數(shù)據(jù)處理的加速,達(dá)到節(jié)省時間、加快數(shù)據(jù)處理速度的目的.另一方面關(guān)鍵數(shù)據(jù)可以在邊緣進(jìn)行處理,從而大大加強(qiáng)了數(shù)據(jù)的安全性[22].邊緣計算是邊端云相結(jié)合的一種計算技術(shù)[23].
邊緣計算具有安全性、數(shù)據(jù)實時處理、分布式計算等特點,在自動駕駛汽車、智能工廠等領(lǐng)域的應(yīng)用研究已經(jīng)受到了重視.由于邊緣計算的特點也十分適用于軌道博弈體系.基于邊端云的邊緣計算設(shè)計一種軌道博弈體系如下:
通過生態(tài)補(bǔ)償制度的實施,可使帽兒山國家森林公園的生態(tài)效益與旅游經(jīng)濟(jì)效益雙贏,實現(xiàn)森林業(yè)旅游可持續(xù)發(fā)展。
基于邊緣計算的軌道博弈中,微納衛(wèi)星處于邊緣,主要負(fù)責(zé)信息收集、策略執(zhí)行、關(guān)鍵信息處理功能,由于體積限制,微納衛(wèi)星的計算能力有限,因此,將復(fù)雜的計算任務(wù)以及數(shù)據(jù)傳輸給與自身物理距離相近的段點設(shè)備.軌道博弈中端點設(shè)備的角色由大型衛(wèi)星擔(dān)任,主要負(fù)責(zé)完成自身能力范圍內(nèi)的計算任務(wù),對于超出能力范圍的任務(wù)再向上進(jìn)行傳輸給云端中央服務(wù)器.基于邊緣計算技術(shù)就可以快速、安全地完成復(fù)雜的數(shù)據(jù)處理和計算工作,解決人工智能算法在軌道博弈中需要大量計算的難題.
圖11 基于邊緣計算的軌道博弈體系Fig.11 Orbital game system based on edge computing
3.2.3 軌道博弈行為訓(xùn)練與學(xué)習(xí)
軌道博弈問題的復(fù)雜性使得其求解與優(yōu)化相比傳統(tǒng)軌道控制問題更難.因此,考慮采用深度強(qiáng)化學(xué)習(xí)方法實現(xiàn)軌道博弈.基本原理為:
1)在每個時刻,空間微納衛(wèi)星與決策模型交互可以得到一個高維度的觀察,利用深度學(xué)習(xí)方法來感知觀察,能夠得到抽象、具體的狀態(tài)特征表示;
2)基于預(yù)期的博弈任務(wù)回報來評價各個不同決策方案的價值函數(shù),并通過某種策略將當(dāng)前狀態(tài)映射為相應(yīng)的決策方案;
3)決策模型對此方案作出反應(yīng),并得到下一個觀察.通過不斷循環(huán)以上過程,最終可以得到實現(xiàn)目標(biāo)的博弈最優(yōu)策略.
構(gòu)建好基于深度強(qiáng)化學(xué)習(xí)的博弈決策模型之后,通過地面仿真系統(tǒng)進(jìn)行軌道控制演化的蒙特卡洛模擬仿真,可以獲取大量樣本數(shù)據(jù).將樣本數(shù)據(jù)輸入深度學(xué)習(xí)網(wǎng)絡(luò)中,進(jìn)行網(wǎng)絡(luò)迭代訓(xùn)練,制備軌道博弈任務(wù)決策策略庫,建立起博弈任務(wù)策略集的優(yōu)選學(xué)習(xí)機(jī)制,利用深度學(xué)習(xí)的大數(shù)據(jù)存儲能力,記錄樣本數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)的分布式特征.在在線應(yīng)用過程中,依據(jù)不同的博弈任務(wù)場景與需求,提取任務(wù)特征,應(yīng)用深度學(xué)習(xí)網(wǎng)絡(luò)的智能自學(xué)習(xí)特性,實現(xiàn)快速、動態(tài)、智能的頂層策略制定與任務(wù)分解,獲取最優(yōu)軌道博弈任務(wù)決策信息.
基于人工智能的軌道博弈方法是一種不基于模型的方法,由于引入了神經(jīng)網(wǎng)絡(luò),面對復(fù)雜的成本函數(shù)依然能夠完成優(yōu)化求解,基于人工智能的軌道博弈方法適用的場景更為廣泛,能夠利用復(fù)雜的成本函數(shù)對任務(wù)需求進(jìn)行更為貼切的描述.基于人工智能的軌道博弈方法適用的場景十分廣泛.
自然界生物群體演化過程中包含了形形色色的集群圍捕現(xiàn)象,例如狼群圍捕[24]、獅群圍捕[25]等.在典型的獅群圍捕羚羊的過程中,獅子的奔跑速度僅有80 km/h 左右,而羚羊的速度可達(dá)到100 km/h,但獅群的協(xié)同配合卻可以有效捕獲羚羊.由此可見,群體博弈通常具有較高的效率.
基于生物群體智能的博弈算法,已在無人車圍捕、無人機(jī)圍捕、導(dǎo)彈攔截等博弈問題中得到應(yīng)用.生物群體智能算法的本質(zhì)是設(shè)計博弈過程中個體的行為規(guī)則,從而實現(xiàn)運動體對確定狀態(tài)的應(yīng)激式響應(yīng).最早的生物群體智能算法是Craig Reynolds 于1986年開發(fā)的Boids 模型算法[26],其模擬鳥群運動規(guī)律建立了無人集群系統(tǒng)的個體運動3 大規(guī)則:向集群中心靠攏(規(guī)則1)、與鄰近個體運動方向一致(規(guī)則2)、彼此碰撞規(guī)避(規(guī)則3).通過上述行為規(guī)則的聯(lián)合使用,無人系統(tǒng)集群可實現(xiàn)復(fù)雜的編隊、遷移、聚集等任務(wù).
采用生物群體智能算法實現(xiàn)多個體軌道博弈時,考慮到軌道動力學(xué)的復(fù)雜性,可建立雙層博弈控制模型.外層用于多個體軌跡規(guī)劃,內(nèi)層用于軌跡跟蹤控制.軌跡規(guī)劃時,可以不考慮軌道動力學(xué)約束或通過簡單模型量化軌道約束下的轉(zhuǎn)移軌跡控制代價.軌跡規(guī)劃可通過空間離散化方法(例如網(wǎng)格法)實現(xiàn),其建立了航天器在空間中的狀態(tài)轉(zhuǎn)移關(guān)系,用于指導(dǎo)具體的博弈任務(wù).為確保軌跡跟蹤的連續(xù)性,軌跡規(guī)劃形成的離散軌跡點,還需根據(jù)軌道動力學(xué)約束進(jìn)行一定程度的平滑處理.在外層牽引下,內(nèi)層的軌跡跟蹤控制需在軌道動力學(xué)約束下,采用具體的控制算法(例如LQR 控制)實現(xiàn).博弈主要體現(xiàn)在外層離散軌跡點的生成策略上.需要指出的是,由于軌道博弈的高動態(tài)性,軌跡規(guī)劃必須在動態(tài)條件下不斷更新,從而適應(yīng)博弈任務(wù)要求.
基于生物群體智能的軌道博弈方法通過對自然界中的生物行為機(jī)理的研究,將生物智能應(yīng)用在軌道博弈任務(wù)中,設(shè)計的博弈策略智能性較高.該方法適用于與自然界生物群體行為類似的軌道博弈場景中,例如基于狼群圍捕設(shè)計軌道包圍的運動策略,利用生物偽裝機(jī)理設(shè)計軌道偽裝策略等.
本文針對未來空間非合作目標(biāo)接管操作的任務(wù)場景,給出了空間軌道博弈的概念和定義,建立了一套融合軌道動力學(xué)、博弈論及人工智能的空間軌道博弈理論體系框架.根據(jù)任務(wù)場景的不同,對9 種空間軌道博弈類型進(jìn)行了詳細(xì)描述和分類,并對每一種軌道博弈的原理和難點進(jìn)行分析,完成了一般軌道博弈任務(wù)流程的設(shè)計.最后分別對基于微分博弈論、基于人工智能、基于生物群體智能的軌道博弈進(jìn)行了分析和研究,建立了軌道博弈問題的求解框架.基于本文給出的軌道博弈概念、原理及方法,后續(xù)學(xué)者將能在軌道博弈的控制方法設(shè)計與實現(xiàn)上建立具體的方案,從而為高效完成軌道博弈任務(wù)奠定理論基礎(chǔ).