姜 斌,許宇航,楊 浩
(南京航空航天大學自動化學院,南京 211106)
隨著人工智能技術(shù)及其相關(guān)產(chǎn)業(yè)的空前發(fā)展, 人類社會生活和生產(chǎn)的方式發(fā)生了翻天覆地的變化。從系統(tǒng)規(guī)模的角度來看,傳統(tǒng)的單一、獨立的控制系統(tǒng)早已無法滿足與日俱增的生產(chǎn)需求,取而代之的是大規(guī)模網(wǎng)絡(luò)化和信息化的系統(tǒng)。從控制技術(shù)創(chuàng)新的角度來看,以往通常以實現(xiàn)系統(tǒng)穩(wěn)定性為主要目標;而現(xiàn)今,如何在保證系統(tǒng)穩(wěn)定性的同時降低系統(tǒng)的能源消耗、優(yōu)化系統(tǒng)的性能成為重要的控制目標。在這樣一個生產(chǎn)和需求相互矛盾的時代背景下,網(wǎng)絡(luò)系統(tǒng)的模型和架構(gòu)應(yīng)運而生。網(wǎng)絡(luò)系統(tǒng)是一類由多個子系統(tǒng)相互耦合構(gòu)成的系統(tǒng),包括互聯(lián)系統(tǒng)[1-2]、多智能體系統(tǒng)[3-4],以及近幾年成為研究熱點的信息-物理系統(tǒng)[5-6]等。網(wǎng)絡(luò)系統(tǒng)的耦合機制主要有兩種:機械耦合和通信耦合?;ヂ?lián)系統(tǒng)是一類典型的以機械耦合的網(wǎng)絡(luò)系統(tǒng),廣泛應(yīng)用于高速列車[7]和智能電網(wǎng)[8]等場景中。多智能體系統(tǒng)是一類典型的以通信耦合的網(wǎng)絡(luò)系統(tǒng),廣泛應(yīng)用于集群飛行器[9]和智能交通[10]等場景中。
在如此復雜的網(wǎng)絡(luò)系統(tǒng)中,其安全性成為首要考慮的因素。然而由于機械老化、儀表失靈等因素導致的故障時有發(fā)生[11],給人類的生命和財產(chǎn)安全帶來了巨大的威脅。1979 年5 月25 日,美國航空191 航班,在起飛過程中發(fā)生一側(cè)引擎脫落,引起飛機的襟翼失控,僅起飛不到1 min 便發(fā)生墜毀,事故造成共273 人不幸罹難。2011 年7 月23日,由于受到雷擊等惡劣天氣的影響,鐵路甬溫線發(fā)生數(shù)據(jù)采集回路保險管的熔斷事件,致使調(diào)度中心錯誤地以為當前鐵路區(qū)間空閑,造成兩列車追尾事故和重大人員傷亡。這些事例警示故障診斷和容錯控制的重要性[12-13]。在網(wǎng)絡(luò)系統(tǒng)中,故障可分為個體故障和網(wǎng)絡(luò)故障兩種類型[14]。個體故障指的是發(fā)生在子系統(tǒng)內(nèi)部的故障,如執(zhí)行器故障和傳感器故障等[15-18]。這類故障首先影響的是故障子系統(tǒng)的穩(wěn)定性,如果不加以處理,個體故障容易通過子系統(tǒng)之間的耦合,進而影響其他子系統(tǒng)的穩(wěn)定性。網(wǎng)絡(luò)故障指的是影響耦合機制的故障[19-20],如通信鏈路故障、網(wǎng)絡(luò)拓撲變化等。這類故障通過改變耦合機制,進而影響每個子系統(tǒng)的穩(wěn)定性。以上兩類故障都是威脅網(wǎng)絡(luò)系統(tǒng)安全性的關(guān)鍵因素,如果處理不當,極有可能導致整個網(wǎng)絡(luò)系統(tǒng)的崩潰和瓦解。
為了保障網(wǎng)絡(luò)系統(tǒng)的安全性,亟需設(shè)計可靠的容錯控制方法來降低甚至消除故障對系統(tǒng)的影響,使得系統(tǒng)可以穩(wěn)定安全地運行。經(jīng)典的容錯控制方法主要分為兩類[21-23]:被動容錯控制和主動容錯控制。被動容錯控制[24-25]基于魯棒控制的思想,在固定控制器結(jié)構(gòu)的情況下,設(shè)計對故障不敏感的控制器。當故障發(fā)生時,無需重新配置控制器,其自身對故障具有容錯能力。但是這種方法只適用于預設(shè)范圍內(nèi)的故障,無法靈活處理預設(shè)之外的故障。為了彌補被動容錯控制的局限性,主動容錯控制得以發(fā)展。主動容錯控制[26-28]通過設(shè)計故障診斷機制,采集故障信息,進行有效的故障估計,從而利用故障估計的信息來重新配置控制器,以保證系統(tǒng)的穩(wěn)定性。
隨著科學技術(shù)的不斷發(fā)展,僅僅維持系統(tǒng)的穩(wěn)定性已然不夠,如何優(yōu)化系統(tǒng)的性能成為重要的控制目標。最優(yōu)控制理論為實現(xiàn)系統(tǒng)性能的優(yōu)化提供了結(jié)實的理論基礎(chǔ)[29-30]。最優(yōu)控制理論不僅可以有效地處理網(wǎng)絡(luò)系統(tǒng)中各個子系統(tǒng)的動力學約束,還可以處理其他附加約束條件,比如最小能耗和最短時間等特殊的需求。而針對具有多個子系統(tǒng)的網(wǎng)絡(luò)系統(tǒng),其優(yōu)化過程往往面臨著雙邊或者多邊共同優(yōu)化的問題。博弈論成為處理這類問題的一個強有力的工具。
博弈論大致誕生于二戰(zhàn)之后,起源于經(jīng)濟學,博弈論之父——馮諾依曼教授所著的《博弈論與經(jīng)濟行為》是博弈論學科的奠基性著作[31]。20 世紀60 年代,數(shù)學家Issacs 教授在研究追逃問題時,將最優(yōu)控制理論中的相關(guān)概念和思想引入博弈論中,進而催生了微分對策理論[32]。而在國內(nèi),張嗣瀛院士是微分對策理論與應(yīng)用研究的先驅(qū)。他建立了一套完整的定量和定性的微分對策的理論體系[33],并將其成功地應(yīng)用于導彈制導等軍事場景中。博弈論和控制論的關(guān)系就好比一對孿生兄弟[34]。它們最大的相同之處在于優(yōu)化所設(shè)定的目標;最大的區(qū)別在于研究對象的智能化程度不同??刂普撁嫦虻氖欠侵悄芑南到y(tǒng),而博弈論面向的是智能化的玩家。因此,博弈論中的玩家像“人”一樣擁有自私屬性,并發(fā)揮這種自私屬性,試圖將自己的利益最大化。博弈論和控制論在各自發(fā)展了大半個世紀之后,在今天由于系統(tǒng)對象的復雜化和控制目標的多樣化而融合到一起,從而誕生了一個新興的交叉學科——博弈控制論。由于博弈控制論具有靈活處理多邊沖突、合作與競爭關(guān)系的能力,其諸多優(yōu)點和巨大的應(yīng)用潛力已經(jīng)被廣大學者認可,近幾年陸續(xù)取得了一系列代表性的成果[35-39]。而值得一提的是,在博弈論和容錯控制理論的交叉領(lǐng)域,其相關(guān)成果幾乎空白,至今鮮見。
博弈論在航空航天領(lǐng)域發(fā)揮著重要作用,特別是集群飛行器的相關(guān)領(lǐng)域,博弈論可以迎合集群飛行器的任務(wù)需求,設(shè)計不同的博弈類型,實現(xiàn)規(guī)定的任務(wù)目標并優(yōu)化系統(tǒng)的性能。根據(jù)集群的結(jié)構(gòu)特點,其編隊控制的設(shè)計可以分為基于領(lǐng)導者-跟隨者模式的編隊控制、基于行為模式的編隊控制和基于虛擬結(jié)構(gòu)的編隊控制等[40-42]?;诩旱慕Y(jié)構(gòu)特點,設(shè)計對應(yīng)的容錯控制方法能夠有效提升集群飛行器的安全性能[43],從而降低由于物理故障導致的經(jīng)濟損失。在此基礎(chǔ)上,根據(jù)集群飛行器任務(wù)分配、航跡規(guī)劃和編隊控制3 個環(huán)節(jié)各自的特點,設(shè)計面向博弈的機制,能夠有效提升無人機決策的智能性,使集群性能達到更高的品質(zhì)要求。
基于以上研究背景,本文將緊緊圍繞以下問題進行梳理總結(jié)。
問題描述 考慮兩類典型的網(wǎng)絡(luò)系統(tǒng),即通過機械耦合的互聯(lián)系統(tǒng)和通過網(wǎng)絡(luò)耦合的多智能體系統(tǒng),并以此類網(wǎng)絡(luò)系統(tǒng)的容錯控制、優(yōu)化與博弈為研究目標來梳理國內(nèi)外相關(guān)的研究成果。
下面將從網(wǎng)絡(luò)系統(tǒng)的容錯控制、容錯優(yōu)化和容錯博弈3 個角度梳理現(xiàn)有的研究成果,并總結(jié)博弈論在集群飛行器中的應(yīng)用現(xiàn)狀,最后給出幾個未來值得深入研究的方向。
本節(jié)首先總結(jié)網(wǎng)絡(luò)系統(tǒng)中3 種常用的控制器結(jié)構(gòu),接著根據(jù)容錯控制方法的不同特點,梳理網(wǎng)絡(luò)系統(tǒng)容錯控制的研究成果。
根據(jù)網(wǎng)絡(luò)系統(tǒng)中各個子系統(tǒng)之間信息交互的不同方式,容錯控制器的結(jié)構(gòu)可分為3 種類型:集中式容錯控制器[44]、分布式容錯控制器[45]和分散式容錯控制器[46]。3 類容錯控制器的特點如圖1所示。
圖1 網(wǎng)絡(luò)系統(tǒng)容錯控制器的結(jié)構(gòu)Fig.1 Structure of fault-tolerant controllers for network systems
3 種容錯控制器的優(yōu)缺點總結(jié)如下。
(1)集中式控制器:在網(wǎng)絡(luò)系統(tǒng)中設(shè)計一個集中監(jiān)測器,所有的子系統(tǒng)將自己的信息傳遞給集中監(jiān)測器,再通過監(jiān)測器把信息傳播給各個子系統(tǒng)。其造價昂貴,僅適用于規(guī)模較小的網(wǎng)絡(luò)系統(tǒng)[47]。
(2)分布式控制器:每個子系統(tǒng)均可以獲取其自身的信息以及鄰居子系統(tǒng)的信息。相較于集中式控制器,分布式控制器有助于節(jié)省信息交互的代價。因此,分布式控制器更適用于大規(guī)模的網(wǎng)絡(luò)系統(tǒng)[48]。
(3)分散式控制器:每個子系統(tǒng)僅獲取與自身相關(guān)的信息。因此,分散式控制器結(jié)構(gòu)較為簡單,且易于實現(xiàn),然而通常對系統(tǒng)的拓撲結(jié)構(gòu)有較強的約束[49-50]。
根據(jù)網(wǎng)絡(luò)系統(tǒng)容錯控制方法的不同特點,其容錯控制方法可以分為獨立容錯控制和協(xié)同容錯控制[14]。獨立容錯控制方法通過單獨調(diào)節(jié)故障子系統(tǒng)的控制器實現(xiàn)網(wǎng)絡(luò)系統(tǒng)的容錯目標;協(xié)同容錯控制方法通過綜合調(diào)節(jié)故障子系統(tǒng)和健康子系統(tǒng)的控制器實現(xiàn)網(wǎng)絡(luò)系統(tǒng)的容錯目標。針對這兩種容錯控制方法,目前已經(jīng)取得了相當豐富的研究成果。下面分別梳理這兩種容錯控制方法的研究成果。
獨立容錯控制方法延續(xù)傳統(tǒng)的被動/主動容錯控制[21-22]的思想,實現(xiàn)網(wǎng)絡(luò)系統(tǒng)的容錯目標。文獻[51]針對存在執(zhí)行器故障和領(lǐng)導者未知有界輸入的多智能體系統(tǒng),設(shè)計在線故障估計算法,并基于此設(shè)計自適應(yīng)容錯跟蹤控制,保證系統(tǒng)的穩(wěn)定性。文獻[52]基于分布式觀測器實現(xiàn)自適應(yīng)故障估計,并將估計的故障作為補償項設(shè)計容錯控制器,保證多智能體的期望編隊構(gòu)型。進一步,文獻[53]為分布式故障估計器設(shè)計了一個可調(diào)參數(shù),有效地改善了故障估計的精確度。此外,人工智能相關(guān)的技術(shù),例如模糊控制、神經(jīng)網(wǎng)絡(luò)控制等也已滲透入容錯控制的領(lǐng)域。文獻[54]結(jié)合模糊控制理論,設(shè)計了自適應(yīng)模糊跟蹤容錯控制方法,有效地解決了多智能體系統(tǒng)存在未知系統(tǒng)動態(tài)和時變執(zhí)行器故障的問題;文獻[55]基于神經(jīng)網(wǎng)絡(luò)技術(shù),設(shè)計在線故障估計器,通過最小化估計誤差獲得最優(yōu)神經(jīng)網(wǎng)絡(luò)的權(quán)重,進而盡可能精準地逼近故障的信息。文獻[56]針對發(fā)生執(zhí)行器故障的多智能體系統(tǒng)設(shè)計了基于迭代學習的智能容錯控制算法,從而擺脫了對精準參考軌跡的依賴。文獻[57]針對非線性互聯(lián)系統(tǒng),將耦合項當作是子系統(tǒng)的不確定項,進而設(shè)計魯棒容錯控制器,有效實現(xiàn)了對故障的補償。文獻[56-57]通過結(jié)合人工智能領(lǐng)域的相關(guān)方法,成功將針對單個智能體的容錯控制方法推廣至網(wǎng)絡(luò)系統(tǒng)中實現(xiàn)其智能獨立容錯控制。文獻[58]設(shè)計了分布式魯棒跟蹤控制器,有效解決了互聯(lián)系統(tǒng)同時發(fā)生執(zhí)行器故障和耦合故障時的容錯控制的問題。
協(xié)同容錯控制方法基于耦合機制的特點,量身定制網(wǎng)絡(luò)系統(tǒng)的容錯控制。文獻[59]針對具有機械耦合的互聯(lián)系統(tǒng),提出基于環(huán)小增益原理的協(xié)同容錯控制方案;其主要思想為通過同時調(diào)整故障和健康子系統(tǒng)的控制增益,使得小增益條件得以滿足,保證整個互聯(lián)系統(tǒng)的穩(wěn)定性。該方法首次提出協(xié)同容錯控制的思想,通過健康智能體和故障智能體之間的相互協(xié)作共同完成容錯目標,有效彌補了單個子系統(tǒng)容錯能力的不足。文獻[60]進一步地將研究成果推廣至非線性互聯(lián)系統(tǒng),實現(xiàn)其容錯安全控制。文獻[61]針對多智能體系統(tǒng)發(fā)生執(zhí)行器故障的情形,設(shè)計了分布式有限時間觀測器,并基于此設(shè)計分布式自適應(yīng)容錯控制器保證系統(tǒng)在有限時間內(nèi)收斂至理想值。文獻[62]提出基于分數(shù)階(Proportional integral derivative,PID)的自適應(yīng)協(xié)同容錯控制方法,實現(xiàn)網(wǎng)絡(luò)化無人機在執(zhí)行器故障和風擾的雙重影響下的安全控制。
獨立容錯控制方法是傳統(tǒng)的單個系統(tǒng)的容錯控制方法的直接推廣。協(xié)同容錯控制方法則立足于網(wǎng)絡(luò)系統(tǒng)的耦合特性,進而開發(fā)出的新的容錯控制方法。較之于獨立容錯控制方法,協(xié)同容錯控制方法通過充分調(diào)動健康子系統(tǒng)的控制器,從而有效地避免了故障子系統(tǒng)容錯能力的不足,保證了容錯目標的順利完成。
在保證網(wǎng)絡(luò)系統(tǒng)穩(wěn)定性的基礎(chǔ)上,網(wǎng)絡(luò)系統(tǒng)的性能也備受關(guān)注。本節(jié)將從網(wǎng)絡(luò)系統(tǒng)的局部性能優(yōu)化和全局性能優(yōu)化兩個角度,梳理有關(guān)網(wǎng)絡(luò)系統(tǒng)容錯優(yōu)化的研究成果。
局部系統(tǒng)性能優(yōu)化關(guān)注的是容錯過程中子系統(tǒng)的性能變化情況。文獻[63]針對線性多智能體系統(tǒng)的3 種執(zhí)行器故障:失效故障、卡死故障和浮動故障,建立其穩(wěn)定性和局部最優(yōu)性能的條件。研究表明,失效故障和卡死故障不會影響系統(tǒng)的穩(wěn)定性和團隊的一致性,但是會影響智能體的收斂速率。不同于以上兩種故障類型的影響,浮動故障將會影響多智能體系統(tǒng)的一致性,而不影響系統(tǒng)的穩(wěn)定性。進一步,文獻[63]設(shè)計了一個協(xié)同容錯控制方案使得領(lǐng)導者和健康跟隨者的策略可以隨著故障跟隨者策略的變化而變化。文獻[64]針對非線性多智能體系統(tǒng)提出了一個協(xié)同容錯控制方案,揭示了通訊協(xié)議和協(xié)同控制性能之間的關(guān)系,并且通過調(diào)整健康多智能體的控制率來實現(xiàn)多智能體的集結(jié)。
除了建立關(guān)于智能體本身的性能指標,還可以建立關(guān)于故障的指標作為控制器重構(gòu)的依據(jù)。文獻[65]建立了一個量化故障估計不準確性的指標,并構(gòu)建其與多智能體一致性之間的聯(lián)系。所設(shè)計的性能指標可以用來幫助重構(gòu)健康智能體的權(quán)重,從而有效地彌補故障智能體對系統(tǒng)性能的影響。
全局系統(tǒng)的性能優(yōu)化關(guān)注的是容錯控制過程中子系統(tǒng)局部性能和全局系統(tǒng)性能之間的平衡關(guān)系。文獻[66-67]建立了一個分層協(xié)同容錯控制的框架,如圖2 所示。整個分層協(xié)同容錯控制由3 層構(gòu)成:底層為子系統(tǒng)容錯層,中間為隊形恢復層,頂層為性能監(jiān)測層。子系統(tǒng)容錯層負責通過設(shè)計獨立容錯控制方案實現(xiàn)對故障的補償。隊形恢復層通過調(diào)節(jié)健康子系統(tǒng)的控制器來補償整個多智能體系統(tǒng)由于故障產(chǎn)生的性能損失,保證系統(tǒng)的穩(wěn)定性。性能監(jiān)測層負責綜合協(xié)調(diào)子系統(tǒng)容錯層和隊形恢復層,從而在最小化代價的情況下實現(xiàn)容錯目標。為了應(yīng)對復雜多變的實際環(huán)境,這個分層協(xié)同容錯控制的框架被進一步擴展至離散系統(tǒng)[68]中實現(xiàn)其容錯控制的目標。以上文獻說明了分層協(xié)同容錯控制框架在理論上的完備性,以及在各類復雜系統(tǒng)中的可擴展性。不僅如此,該協(xié)同容錯控制框架還被廣泛地應(yīng)用于航空航天領(lǐng)域,例如飛行器編隊和衛(wèi)星編隊[69-70],有效保障了系統(tǒng)的安全性。
圖2 分層協(xié)同容錯控制框架Fig.2 Framework of hierarchical cooperative fault-tolerant control
另一種行之有效地可以同步實現(xiàn)子系統(tǒng)性能優(yōu)化和全局系統(tǒng)性能優(yōu)化的方法是微分博弈。文獻[71]針對同時具有狀態(tài)耦合和輸入耦合的互聯(lián)系統(tǒng),提出基于零和微分圖博弈的被動容錯最優(yōu)控制方法。通過在每個子系統(tǒng)內(nèi)部構(gòu)建零和博弈,設(shè)計魯棒最優(yōu)控制器,并且在每個子系統(tǒng)之間構(gòu)建圖博弈,實現(xiàn)全局Nash 均衡。為了降低被動容錯最優(yōu)控制方法的保守性,文獻[72]針對互聯(lián)系統(tǒng)及其診斷觀測器之間存在的雙向交互影響而導致的分離原理無法成立的問題,提出基于斯坦伯格微分圖博弈的主動容錯最優(yōu)控制方法。通過分析互聯(lián)系統(tǒng)與其對應(yīng)的診斷觀測器之間的雙向交互影響,揭示兩者的運行機理,建立其主從決策機制,進而將互聯(lián)觀測器作為跟隨者,設(shè)計分布式最優(yōu)故障估計,并且將互聯(lián)系統(tǒng)作為領(lǐng)導者,利用故障估計的信息,進一步設(shè)計分布式容錯最優(yōu)控制器。所設(shè)計的控制策略可以保證閉環(huán)互聯(lián)系統(tǒng)的漸近穩(wěn)定性,并實現(xiàn)博弈的交互式斯坦伯格均衡。
局部系統(tǒng)性能優(yōu)化方法有利于各個子系統(tǒng)在容錯過程中單獨實現(xiàn)各自的控制目標并進行自身系統(tǒng)的優(yōu)化,然而由于網(wǎng)絡(luò)系統(tǒng)中各個子系統(tǒng)相互耦合,一個子系統(tǒng)的性能優(yōu)化可能會引起其他子系統(tǒng)性能的降級。為了解決這個問題,全局系統(tǒng)優(yōu)化方法油然而生。這種方法在容錯控制過程中同時兼顧了子系統(tǒng)局部性能和全局系統(tǒng)性能之間的關(guān)系,有效化解了兩者相互矛盾的問題。
本節(jié)沿著容錯博弈控制技術(shù)發(fā)展的進程,從網(wǎng)絡(luò)系統(tǒng)的博弈控制到面向物理故障的容錯博弈控制再到面向惡意決策的容錯博弈控制,梳理當前相關(guān)的研究成果。
博弈控制論通過融合博弈論和控制論的共同優(yōu)點,為實現(xiàn)網(wǎng)絡(luò)系統(tǒng)的多方優(yōu)化問題提供了強有力的理論基礎(chǔ)[73]。根據(jù)玩家之間關(guān)系的不同,博弈 分 為 多 種 類 型,如 零 和 博 弈[74,75-77]、追 逃 博弈[32,78]和斯坦伯格博弈[79-80]等。下面分別從零和博弈、追逃博弈和斯坦伯格博弈3 個方面總結(jié)國內(nèi)外博弈控制的研究成果。
零和博弈具有玩家雙方代價之和為零的特點,即,一方獲利,則另一方必然利益受損[73]。利用這個特點,文獻[74]基于零和博弈,設(shè)計多智能體系統(tǒng)的H∞控制器,有效地抑制了外界擾動對智能體的影響。文獻[75]針對導彈攔截制導的問題,設(shè)計一對一的魯棒攔截制導率,保證導彈打擊的精準度。文獻[76]將事件觸發(fā)問題中的控制器和控制輸入誤差的閾值當做是零和博弈中兩個對抗的玩家,將最壞情況下控制輸入誤差作為閾值來設(shè)計事件觸發(fā)的條件。文獻[77]將信息-物理系統(tǒng)中攻擊和防御的問題轉(zhuǎn)化為零和博弈的問題,進而設(shè)計攻擊檢測機制和彈性安全控制策略來抵御攻擊的侵擾,保障信息-物理系統(tǒng)的安全。零和博弈在控制領(lǐng)域可以理解為一種魯棒控制,面對一定預設(shè)范圍內(nèi)的對抗策略,所設(shè)計的另一方的博弈策略可以保證預期目標得以實現(xiàn)。
追逃博弈的玩家為追擊者和逃逸者,追擊者的目標是追捕逃逸者,而逃逸者的目標是逃離追擊者的追捕[32,78]。追逃博弈的問題通??梢赞D(zhuǎn)化為零和博弈[32,78]或者非零和博弈[81-83]來研究。文獻[78]將航天器之間的追逃博弈問題轉(zhuǎn)化為零和博弈的問題,通過設(shè)計追逃雙方航天器的反饋控制率,形成零和博弈的鞍點,保證逃逸者可以被成功捕獲。針對多追1 的追逃博弈問題中存在追捕雙方視野差異的情形(即追擊者只能觀測到部分逃逸者和部分追擊者的情況,而逃逸者可以觀測到所有追擊者的實際情況),文獻[82]通過改進性能指標,設(shè)計最優(yōu)追捕策略,保證追捕任務(wù)可以順利完成。文獻[84]基于非零和博弈設(shè)計多追多的追逃博弈策略,有效實現(xiàn)了有限時間內(nèi)對逃逸者的捕獲,并保證追擊者系統(tǒng)的漸近收斂性。針對出現(xiàn)超級逃逸者的情形,即逃逸者的速度比追擊者的速度快,文獻[84]設(shè)計了一套合作包圍逃逸者的方案,依靠團隊合作,逮捕逃逸者。進一步,文獻[85]研究追擊者和逃逸者的角色不斷切換的目標-攻擊-防御博弈,其中攻擊者既需要扮演逃逸者,逃離防御者的追擊,也需要扮演追擊者,負責打擊目標。在這樣一個角色需要切換的追逃博弈中,文獻[85]分析了攻擊者打擊目標成功的可能性,并針對不同的追捕階段,設(shè)計目標和防御者的控制策略,保證追捕任務(wù)的順利完成。
斯坦伯格博弈的玩家由領(lǐng)導者和跟隨者構(gòu)成[86],因此又稱之為主從博弈。這類博弈的特點是領(lǐng)導者和跟隨者構(gòu)成主從決策機制。其中,領(lǐng)導者有“一步優(yōu)先權(quán)”,可以將自身策略強加給跟隨者,在跟隨者收到領(lǐng)導者發(fā)布的策略之后,跟隨者會隨之做出最佳響應(yīng)。與此同時,領(lǐng)導者具有觀察當前局勢的能力,可以根據(jù)跟隨者的策略調(diào)整自身的策略,進而做出當前最有利于自己利益的決策。文獻[79]基于斯坦伯格博弈主從決策的特點,研究智能電網(wǎng)中的供電公司和終端用戶之間的供需關(guān)系,分析如何合理定價的問題。在供電公司和終端用戶只能獲取局部信息的情況下,設(shè)計分布式算法,保證其可以收斂至斯坦伯格均衡點。文獻[80]研究在平均場的影響下,由一個領(lǐng)導者和N個跟隨者構(gòu)成的斯坦伯格博弈的問題,提出了最優(yōu)分散式控制器,所設(shè)計的控制策略可以收斂至改進的斯坦伯格-納什均衡點。文獻[39]針對網(wǎng)絡(luò)系統(tǒng)受到虛假數(shù)據(jù)注入攻擊的問題,利用斯坦伯格博弈設(shè)計防御者的策略,以最大程度地保護防御者的資源。
雖然博弈控制論在各個領(lǐng)域呈現(xiàn)百花齊放之態(tài)勢,然而目前針對容錯控制和博弈控制的交叉研究領(lǐng)域的成果比較罕見。文獻[87]針對追逃博弈中追擊者和逃逸者發(fā)生執(zhí)行器故障的情形,采用傳統(tǒng)的主動容錯控制技術(shù),建立故障估計器,設(shè)計容錯最優(yōu)控制器來補償故障對網(wǎng)絡(luò)系統(tǒng)的影響,保證逃逸者可以被成功捕獲。文獻[88]建立了電動車的4 個執(zhí)行器發(fā)生故障情況下的合作博弈,通過設(shè)計帕累托最優(yōu)解實現(xiàn)其容錯控制。文獻[89]進一步研究人的行為對容錯控制的影響,進而減輕了電動車的工作負載。此類基于博弈的容錯控制擁有一個共同的特點:博弈的特性僅體現(xiàn)在各個子系統(tǒng)之間,而所采取的容錯控制方法仍為傳統(tǒng)的主動容錯控制或者被動容錯控制,可稱之為外環(huán)容錯博弈控制。為了讓容錯控制本身帶上博弈色彩,文獻[71-72]設(shè)計內(nèi)外環(huán)容錯博弈控制,通過深入挖掘控制器和故障之間博弈的機理設(shè)計了互聯(lián)系統(tǒng)的分布式被動和主動容錯最優(yōu)控制方法,同步實現(xiàn)了子系統(tǒng)性能和全局系統(tǒng)性能的優(yōu)化,并擺脫了互聯(lián)系統(tǒng)的主動容錯控制對分離原理的依賴。這種方法利用博弈將傳統(tǒng)的主動和被動容錯控制方法的工作機理加以實現(xiàn),有效地解決容錯目標和系統(tǒng)優(yōu)化目標相互矛盾的問題。
在博弈控制中,除了物理部件會發(fā)生故障,由于博弈本身的特性,玩家還有可能出現(xiàn)惡意決策的情形。相較于客觀因素造成的物理故障,惡意決策具有玩家的主觀性,帶有玩家的個人感情色彩,體現(xiàn)玩家感知能力的差異性。惡意決策的相關(guān)研究起始于行為學,近年來隨著人工智能的發(fā)展,慢慢滲透至工程領(lǐng)域。特別是針對人機交互的系統(tǒng)[90],如智能交通網(wǎng)絡(luò)等系統(tǒng),研究其惡意決策行為對提升網(wǎng)絡(luò)系統(tǒng)的安全性具有重要意義。文獻[91]建立分層感知的框架,賦予每個智能體不同的感知水平以處理各種不同的突發(fā)狀況。文獻[92]提出一種基于強化學習的算法,以迭代的形式來捕捉智能體不同等級的想法和行為。文獻[93]通過在性能指標中設(shè)計吸引因子和排斥因子,研究蜂群的覓食行為。目前現(xiàn)有文獻大多以移除惡意決策個體為主要解決方法[94]。雖然這種方法可以減輕惡意個體對全局系統(tǒng)的負面影響。然而,面對具有幾何約束和動態(tài)約束的網(wǎng)絡(luò)系統(tǒng),比如蜂群,這種方法不具有普適性。因為在蜂群中,移除惡意個體非常有可能造成正常個體和惡意個體之間的碰撞,從而導致蜂群的瓦解。另一方面,大多數(shù)關(guān)于惡意個體的研究成果關(guān)注的是由于資源或者通信交流限制等客觀因素造成的個體有限理性行為。為了研究主觀惡意行為對博弈的影響,文獻[95]建立了3 類具有主觀惡意決策行為的追擊者:貪婪型、懶惰型和背叛型追擊者,設(shè)計協(xié)同容錯博弈方法,并從可追捕性、Nash 均衡和追捕時間3 個方面分析了惡意決策對系統(tǒng)穩(wěn)定性和博弈均衡性的影響。相較于基于魯棒控制思想設(shè)計的容錯博弈控制方法,文獻[95]通過設(shè)計協(xié)同容錯追捕方案實現(xiàn)了對逃逸者的合作圍捕,在面對不同類型的惡意追擊者時,具有更強的容錯能力。
本節(jié)以集群飛行器執(zhí)行任務(wù)過程中核心的3個環(huán)節(jié):任務(wù)分配、航跡規(guī)劃和編隊控制為線索,總結(jié)和梳理博弈論在集群飛行器上的應(yīng)用成果,并分析當前研究現(xiàn)狀中3 個環(huán)節(jié)的設(shè)計特點以及不足之處。
集群飛行器作為一類以通信耦合的網(wǎng)絡(luò)系統(tǒng),在軍事和民用方面都發(fā)揮著重要作用,例如森林防火[96]、敵情監(jiān)測[97]等。近幾年,眾多學者開始將博弈論應(yīng)用于在集群飛行器上,以尋求更優(yōu)的系統(tǒng)性能。
在任務(wù)分配環(huán)節(jié),聯(lián)盟編隊博弈及其衍生的博弈可以幫助建立無人機的個體偏好[98-102],進而將無人機分成不同的簇,實現(xiàn)多線程多區(qū)域的無人機的部署。文獻[100]基于享樂聯(lián)盟編隊博弈,建立無人機的自私偏好,使得在無人機在僅關(guān)注自身利益的情況下完成任務(wù)分配。此方法有利于提高無人機對環(huán)境的適應(yīng)能力,使其可以靈活地應(yīng)對新任務(wù)的加入和舊任務(wù)的移除。除了自私偏好,文獻[101]基于聯(lián)盟編隊博弈建立了無人機的利他偏好,使得無人機在考量自身利益的情況下,同時考量團隊的集體利益,有效實現(xiàn)了無人機的任務(wù)和頻譜的雙重分配。進一步,隨著無人機的個體偏好從關(guān)注聯(lián)盟成員的身份轉(zhuǎn)換成了關(guān)注聯(lián)盟成員的數(shù)量,文獻[102]建立匿名享樂博弈,研究了具有社會性抑制特性的無人機,在盡可能減少合作成員的情況下,實施聯(lián)盟切換準則,形成與任務(wù)匹配的Nash穩(wěn)定的無人機分區(qū)。從以上文獻中可以看出聯(lián)盟編隊博弈及其衍生的博弈可以充分考量無人機的個體偏好,賦予無人機猶如人一樣的社會屬性,例如自私、利他和社會性抑制等屬性,進而無人機可以根據(jù)自己的喜好,選擇距離近的,燃油消耗較少的任務(wù),以及選擇想要合作的聯(lián)盟成員。因此,在聯(lián)盟編隊博弈框架下的無人機越來越趨于智能化,符合當前人工智能的時代背景,擁有巨大的應(yīng)用前景。
在航跡規(guī)劃環(huán)節(jié),博弈可以適合集群所具有的系統(tǒng)規(guī)模龐大、通信耦合密切的特點,實現(xiàn)無人機路徑的自主規(guī)劃,并同時實現(xiàn)自主避障、最小化能耗等多方面的功能[103-106]。文獻[104]基于非零和博弈,實現(xiàn)避障條件約束下的無人機期望飛行軌跡的規(guī)劃?;谶@個理論,文獻[105]設(shè)計了一個在線運行的機制,實現(xiàn)了軌跡規(guī)劃和軌跡跟蹤的同步優(yōu)化。面向具有作戰(zhàn)需求的集群飛行器,文獻[106]將前景理論引入至博弈論中,建立無人機對作戰(zhàn)時間的主觀評估以及對風險的感知能力,實現(xiàn)無人機最優(yōu)攻擊路徑的選擇,從而在盡可能降低自身損耗的情況下,保護目標點的資源。
在編隊控制環(huán)節(jié),博弈能夠有效地刻畫各個無人機的不同目標,實現(xiàn)多無人機的一致性與構(gòu)型保持[107-113]。文獻[107]基于非合作博弈,實現(xiàn)了領(lǐng)導者-跟隨者模式的集群編隊控制。進一步,通過將非合作博弈和收縮區(qū)間技術(shù)相結(jié)合,可以實現(xiàn)編隊飛行過程中的完全分布式控制[108]。文獻[109-110]基于Shapley 值建立各架無人機貢獻評價機制,利用超模博弈中策略互補的特性,可以選出最適合擔任領(lǐng)導者的無人機,進而實現(xiàn)有限領(lǐng)導者數(shù)量約束下性能指標的優(yōu)化,以及有限性能約束下領(lǐng)導者數(shù)目的優(yōu)化。文獻[111]針對存在外界擾動的編隊控制,構(gòu)建零和博弈,有效地保證無人機編隊過程中的魯棒性,并且設(shè)計了分布式編隊控制策略,有效地降低信息交互的代價。在編隊重構(gòu)的場景中,文獻[112]運用多目標多人博弈將編隊重構(gòu)控制轉(zhuǎn)化為納什談判過程,結(jié)合分布式模型預測控制方法,實現(xiàn)無人機的威脅規(guī)避、協(xié)同保護和相互支援,同時有效降低無人機編隊自主重構(gòu)控制問題的求解規(guī)模。
值得一提的是,在博弈框架下,目前集群飛行器的任務(wù)分配、航跡規(guī)劃和編隊控制3 個環(huán)節(jié)的策略通常是分開獨立設(shè)計的。這有利于實現(xiàn)每個環(huán)節(jié)的目標,并順著任務(wù)分配→路徑規(guī)劃→編隊控制的方向正向調(diào)節(jié)每個環(huán)節(jié)的性能,可稱之為開環(huán)設(shè)計。然而這種開環(huán)設(shè)計忽略了各個環(huán)節(jié)之間的雙向互動,無法建立反饋機制,難以根據(jù)實際情況對策略進行及時地調(diào)整。因此,亟需建立針對3 個環(huán)節(jié)一體化的博弈機制,使得每個環(huán)節(jié)的性能可以雙向可調(diào)。據(jù)調(diào)研,目前尚未有相關(guān)的研究成果。
本文從網(wǎng)絡(luò)系統(tǒng)的容錯控制、容錯優(yōu)化和容錯博弈3 個角度總結(jié)了國內(nèi)外相關(guān)的研究成果,并根據(jù)研究的問題、異常行為的類型以及所采取的容錯控制方法將現(xiàn)有的代表性文獻進行分類,總結(jié)為表1。進一步,梳理了博弈論在集群飛行器中的應(yīng)用情況。下面給出未來值得繼續(xù)深入探索的研究方向。
表1 網(wǎng)絡(luò)系統(tǒng)的容錯控制、優(yōu)化與博弈的相關(guān)研究成果Table 1 Representitive studies on fault-tolerant control,optimization,and game for network systems
(1)隨著科學技術(shù)的高速發(fā)展,現(xiàn)代控制系統(tǒng)呈現(xiàn)出復雜化和網(wǎng)絡(luò)化的特點,其故障特性更加難以捉摸。如何結(jié)合切換系統(tǒng)理論、非線性系統(tǒng)理論和圖論等理論知識,設(shè)計針對一般性線性/非線性網(wǎng)絡(luò)系統(tǒng)且滿足時變/切換等多種通信拓撲結(jié)構(gòu)需求的容錯博弈控制技術(shù)是一個挑戰(zhàn)。
(2)博弈論作為多邊優(yōu)化的有力工具,具有沖突消解的能力,如何將博弈論和容錯控制理論恰如其分地融合,發(fā)揮學科交叉的優(yōu)勢,從而推動容錯控制理論的發(fā)展是未來一個重要的研究方向。值得一提的是,目前控制領(lǐng)域廣泛使用的零和博弈、非零和博弈等微分博弈,僅為博弈論的冰山一角。博弈論中尚存大量的博弈類型,比如共演化博弈、超模博弈等,如何汲取這些博弈的思想,并將其引入至容錯控制領(lǐng)域,解決容錯控制中難以解決的問題是一個值得深入研究的課題。
(3)發(fā)展人工智能乃大勢所趨,如何實現(xiàn)人-機混合增強智能是一個值得深入研究的課題。通過結(jié)合前景理論、強化學習和深度學習等理論,研究人類行為對容錯博弈控制的影響,進而設(shè)計智能容錯博弈控制算法,有助于從智能決策和智能學習兩個維度提升系統(tǒng)的安全性。
(4)當前容錯博弈控制技術(shù)大多處于理論研究階段,未來亟需將容錯博弈控制技術(shù)應(yīng)用于例如衛(wèi)星組網(wǎng)、集群無人機和智能電網(wǎng)等實際網(wǎng)絡(luò)系統(tǒng)中,實現(xiàn)其安全可靠的運行,這將具有重要的實際應(yīng)用價值。