方 君,張立民,徐 濤,張兵強
(海軍航空工程學(xué)院信息融合研究所,山東煙臺264001)
超視距空戰(zhàn)仿真中的策略識別
方 君,張立民,徐 濤,張兵強
(海軍航空工程學(xué)院信息融合研究所,山東煙臺264001)
針對超視距空戰(zhàn)仿真中敵機策略的識別問題,研究了一種基于案例的策略識別方法。該方法通過構(gòu)建包含假定的對手任務(wù)目標(biāo)、觀測數(shù)據(jù)、策略等內(nèi)容的案例庫,采用相似度計算選擇與新的觀測相似的案例庫子集,并計算策略概率分布來識別對手策略。實驗證明,相比與常規(guī)的基于案例推理方法,在案例中增加敵機任務(wù)目標(biāo)提高了策略識別準(zhǔn)確率,并且在假定敵機目標(biāo)不正確時,能修復(fù)錯誤假定并進行策略識別,改善了基于案例策略識別方法的性能。
超視距;空戰(zhàn)仿真;策略識別;相似度
隨著機載電子設(shè)備和武器裝備性能的不斷提高,超視距(Beyond Visual Range,BVR)空戰(zhàn)已成為現(xiàn)代空戰(zhàn)的主要形式。BVR空戰(zhàn)仿真中,CGF(Computer Generated Force)在機動動作的仿真周期內(nèi)有充足的時間來預(yù)測對手機動并規(guī)劃應(yīng)對策略,對對手行動和計劃的準(zhǔn)確識別將大大降低規(guī)劃應(yīng)對策略的復(fù)雜程度[1]。然而,對對手進行遠(yuǎn)距離空中觀測往往受機載雷達所獲得的測量數(shù)據(jù)的限制,使得準(zhǔn)確識別對手的行動很困難[2]。因此,怎樣從不完整的觀測信息中識別出對手的策略是BVR空戰(zhàn)仿真中CGF策略識別的關(guān)鍵問題之一。
計劃、行動和意圖的識別近幾年成為了AI中比較活躍的研究領(lǐng)域[3]。文獻[4]在缺少具體動作或有噪聲的情況下使用動作序列圖來執(zhí)行基于案例的計劃識別,文獻[5]采用基于案例推理(Case-Based Reasoning,CBR)方法對人類駕駛汽車的控制動作以及技術(shù)水平進行建模,來降低汽車駕駛時的碰撞風(fēng)險,該方法在給定當(dāng)前環(huán)境狀態(tài)時通過CBR系統(tǒng)來預(yù)測駕駛員的下一個動作。但以上系統(tǒng)在上一步計劃識別出現(xiàn)錯誤的情況下均不能進行正確計劃識別,且不能改進計劃識別過程。
文獻[6]致力于研究為獲得更多的計劃信息,agents何時進行交互最合適或必須,其系統(tǒng)執(zhí)行符號化的計劃識別,通過決策特征樹來判斷多agent想定中某個agent是否應(yīng)該與其他agents進行交互。和BVR領(lǐng)域不同,該系統(tǒng)假定能獲得其他agent的全部觀測信息。文獻[7]展示了一個應(yīng)用于足球游戲中的學(xué)習(xí)團隊計劃的agent,該agent通過識別對手團隊計劃來修復(fù)策略。文獻[8]同樣研究了該領(lǐng)域的計劃識別,系統(tǒng)使用識別后的計劃來輔助進行基于案例的強化學(xué)習(xí)。文獻[9]將人類行為認(rèn)知應(yīng)用于識別老年人的行為,以調(diào)整agent在協(xié)助老年人時能提供更多幫助。與BVR領(lǐng)域的agent不同,這些認(rèn)知agents能夠獲得更加完善的信息。
單一agent的計劃可擴展到多agent領(lǐng)域,但面臨的難度將會更大[10]。通過將團隊計劃表示為加權(quán)最大滿意度問題,文獻[11]驗證了多agent計劃識別可應(yīng)用于部分可觀測系統(tǒng)。但其算法的運行時間與缺失的信息數(shù)量成比例,明顯不適用于類似于BVR空戰(zhàn)的實時作戰(zhàn)領(lǐng)域。
觀測信息的不完整或信息品質(zhì)的不確定是通過觀測進行學(xué)習(xí)的CBR系統(tǒng)要致力解決的問題[12-14]。這類系統(tǒng)通過觀測專家完成任務(wù)的行為過程來學(xué)習(xí)怎樣執(zhí)行任務(wù),與有無專家知識庫無關(guān)。
本文針對BVR空戰(zhàn)中觀測信息可能不完整的問題展開研究,采用基于案例推理的策略識別方法(Case-Based Policy Recognition,CBPR)。
該方法在傳統(tǒng)的基于案例推理方法基礎(chǔ)上,在案例中增加任務(wù)目標(biāo),并綜合觀測和任務(wù)目標(biāo)進行推理。仿真結(jié)果表明,與傳統(tǒng)的基于案例推理方法相比,該方法的策略識別準(zhǔn)確率有了明顯提高,同時,在假定任務(wù)目標(biāo)不準(zhǔn)確的情況下,該方法能有效糾正目標(biāo)來提高策略識別準(zhǔn)確率。
與傳統(tǒng)的CBR不同的是CBPR采用由3部分組成的案例結(jié)構(gòu)來有效識別仿真中對手的策略。傳統(tǒng)的CBR中案例分為:問題和解決方案[15-18],BVR空戰(zhàn)仿真領(lǐng)域可理解為當(dāng)前觀測和對手策略,CBPR增加了第三部分,即對手的任務(wù)目標(biāo)。典型的CBR循環(huán)包括4個步驟:檢索(Retrieval)、重用(Reuse)、修復(fù)(Revision)、保留(Retain)[19-20],由于本文重點是研究任務(wù)目標(biāo)對策略識別的影響,故CBPR方法僅執(zhí)行檢索和重用步驟。
1.1 案例描述
案例描述是對實際問題及解決方案的抽象化表示,是基于案例推理方法的基礎(chǔ)和前提,案例描述是否合理將對推理的結(jié)果產(chǎn)生重大影響。本文涉及BVR空戰(zhàn)領(lǐng)域,故案例描述是由經(jīng)驗豐富的飛行員的指導(dǎo)給出的。CBPR中每個案例由3部分組成,可表示為C=<G,O,Π>。
G表示任務(wù)目標(biāo),主要包括5類:
①全力攻擊(HA):直接接近并開火;
②迂回攻擊(IA):迂回接近并開火;
③安全攻擊(SA):攻擊距離內(nèi)開火并撤離;
④跟蹤觀察(TO):迂回接近但不開火;
⑤保持安全(BS):不接近。
在CBPR中,目標(biāo)G用agent的不同愿望加權(quán)表示,agent的愿望包括攻擊姿態(tài)、安全和開火,具體如表1所示。
表1 任務(wù)目標(biāo)加權(quán)愿望Tab.1 Weight of desires in mission goal
O表示實時觀測,將記錄對手agent的位置和方向信息。CBPR中觀測被映射成不同的特征,如面向目標(biāo)、目標(biāo)距離等。每個特征均為0-1歸一化值,體現(xiàn)了當(dāng)前觀測中該特征的表示程度。例如,當(dāng)對手agent直接面向目標(biāo)時,特征面向目標(biāo)值為1,當(dāng)面向目標(biāo)90°時值為0.5。
BVR空戰(zhàn)中的觀測特征有如下幾種:
①面向目標(biāo);
②目標(biāo)距離;
③在目標(biāo)武器攻擊范圍內(nèi);
④目標(biāo)在武器攻擊范圍內(nèi);
⑤朝目標(biāo)移動。
Π表示對手策略。策略是一系列動作的組合,超視距空戰(zhàn)中主要包括兩大類動作,即機動動作和武器發(fā)射動作。超視距空戰(zhàn)機動動作主要包括以下4種:
①純追蹤:agent朝直接目標(biāo)飛行;
②180°置尾:agent背離目標(biāo)同向直線飛行;
③90°擺脫:agent保持與目標(biāo)90°偏離角擺脫飛行;
④斜向機動:agent保持對目標(biāo)雷達可探測最大方位角飛行。
發(fā)射武器分為發(fā)射武器、不發(fā)射武器2種。
組合機動和發(fā)射武器2類動作,策略Π共有8種組合。
1.2 案例檢索
CBPR案例檢索采用案例相似度判斷方法。策略識別過程中,計算當(dāng)前問題q的目標(biāo)和觀測與案例庫CB中的每個案例c之間的相似度。
2個觀測之間的相似度定義為每個特征之間的平均距離:
式(1)中:simo(q,c)表示當(dāng)前問題q觀測和案例c觀測;σ(wf,qf,cf)表示特征f的兩個值之間的加權(quán)距離;N是指特征個數(shù)。
2個目標(biāo)之間的相似度定義為確定目標(biāo)的加權(quán)愿望之間的距離:
2個案例之間的相似度定義為觀測相似度和目標(biāo)相似度的加權(quán)平均:
式(3)中,wo+wg=1。
采用以上公式計算案例相似度,CBPR將檢索出一個案例子集Cq,案例子集中每個案例與問題q的相似度均大于給定的閾值參數(shù)τr。如果被檢索的案例相似度均不超過閾值,策略被標(biāo)記為未知,CBPR將根據(jù)新的觀測信息繼續(xù)重復(fù)檢索過程。檢索到Cq后,CBPR返回Cq中所有策略的歸一化比例,可理解為策略的概率分布,其值與案例壓縮過程中產(chǎn)生的案例權(quán)重有關(guān)。例如,策略p的比例為0.7,表示該策略有70%的可能是正在執(zhí)行的策略。
1.3案例壓縮
為控制案例庫CB的大小,提高檢索效率,在案例庫中所有案例構(gòu)建完成以后,需要對案例庫案例進行壓縮。
壓縮算法首先合并策略相同、相似度超過給定閾值的案例,即2個策略相同的案例無論何時相似度超過給定的閾值τπ,則將案例合并同時在案例中增加關(guān)聯(lián)計數(shù)器。
合并完成后,對案例庫進行壓縮。案例壓縮主要針對策略相同相似度超過給定閾值τπ的案例。相似度計算采用1.2節(jié)中的式(3)。對于任一案例c∈CB,從案例集中檢索出案例c′,其與c相似度超過給定閾值且策略相同,即sim(c,c′)>τπ且c?p=c′?p,則刪除案例c′。
案例壓縮完成后,將案例庫中案例的關(guān)聯(lián)計數(shù)器計數(shù)進行歸一化處理,得到該案例的歸一化策略分享權(quán)重。這種案例壓縮方法能夠避免出現(xiàn)大量相似案例,在檢索時其對不常見案例具有壓倒性的數(shù)量優(yōu)勢。最終的案例集比原始的規(guī)模要小很多,但保持了原始案例集中重要案例與非典型案例之間的差異。
1.4 CBPR應(yīng)用于BVR想定
本文研究的CBPR算法目前主要針對BVR空戰(zhàn)中1v1想定。在1v1想定運行前,假定紅方CGF使用CBPR方法對目標(biāo)策略進行識別,藍方CGF每次仿真中執(zhí)行固定的一個任務(wù)目標(biāo)。首先提供想定的任務(wù)簡報給紅方CGF的CBPR組件,任務(wù)簡報包含了期望的對手目標(biāo)和案例集CB。仿真中,針對任務(wù)目標(biāo),CBPR按3種方式進行配置:①忽略任務(wù)目標(biāo),即只使用觀測進行策略識別;②案例檢索時考慮簡報給定的任務(wù)目標(biāo),此時目標(biāo)任務(wù)可能正確也可能不正確;③在案例檢索過程中修復(fù)任務(wù)目標(biāo),
CBPR目標(biāo)修復(fù)過程與策略搜索過程類似。對于一個新的觀測q,CBPR檢索案例集中所有觀測相似度大于τr的案例子集Cq,并創(chuàng)建Cq中所有目標(biāo)的概率分布。目標(biāo)修復(fù)過程中,取平均概率最高的目標(biāo)作為新的任務(wù)簡報目標(biāo),用于檢索對手將來的策略。
2.1 想定設(shè)置
為驗證CBPR算法,本文創(chuàng)建了3種典型態(tài)勢的1v1超視距空戰(zhàn)想定,如圖1所示,并對每個想定設(shè)置5種不同的對手任務(wù)目標(biāo),如1.1節(jié)所述。紅機agent采用全力進攻策略,即在發(fā)現(xiàn)目標(biāo)后直接朝目標(biāo)飛行,并在藍機進入武器射程時發(fā)射導(dǎo)彈。紅機使用CBPR組件對藍機進行策略識別。藍機agent給定任務(wù)目標(biāo),假定對手采用固定策略,預(yù)測對手保持當(dāng)前的速度和航向飛行。
為創(chuàng)建足夠多的測試想定,本文對以上15對(想定、任務(wù)目標(biāo))均進行30次隨機微調(diào),共產(chǎn)生450種想定。想定微調(diào)指在一定的界限內(nèi)獨立修改每個agent的航向和位置,生成隨機但有效的想定。這里有效是指紅藍雙方最終會有一個agent進入另一個agent的雷達探測區(qū)域內(nèi)。
2.2 仿真驗證
本文采用k折交叉驗證方法,將2.1節(jié)中描述的想定進行均分,其中k=10。每次提取一個測試集,其他作為訓(xùn)練集來生成案例集CB,并采用1.3節(jié)描述的案例壓縮方法對案例集CB進行壓縮。
為測試在CBPR算法中使用任務(wù)目標(biāo)的效果,本文分別采用4種不同方法進行實驗。
1)任務(wù)目標(biāo)正確。即假定CBPR能獲得正確的對手任務(wù)目標(biāo)。仿真中對案例檢索時目標(biāo)相似度權(quán)重和觀測相似度權(quán)重的分配進行了多次實驗,結(jié)果表明目標(biāo)權(quán)重設(shè)置在wq∈[ ] 15%,25%范圍內(nèi)時,對策略識別的結(jié)果影響很小,故分別設(shè)置wq=0.2、wq=0.8。
2)不考慮任務(wù)目標(biāo)。該情況下,CBPR在進行策略識別時不使用任務(wù)目標(biāo),僅使用觀測來識別策略,可理解為在案例檢索過程中,目標(biāo)相似度權(quán)重wq=0。
3)任務(wù)目標(biāo)錯誤。此情況下除了給CBPR錯誤的任務(wù)目標(biāo)外,其他與情況1)一致。
4)修復(fù)目標(biāo)。這種情況下提供給CBPR一個錯誤的任務(wù)目標(biāo),但除了策略檢索識別外,CBPR還運行一個僅使用觀測的檢索,該檢索與策略檢索不同,其返回的是任務(wù)目標(biāo)而不是策略的概率分布。CBPR在想定運行中檢查概率最大的任務(wù)目標(biāo)是否與假定的任務(wù)目標(biāo),是否一致,如不一致,則返回目標(biāo)差異判斷,并用概率最大的任務(wù)目標(biāo)修正假定的任務(wù)目標(biāo)進行策略識別。
仿真實驗結(jié)果如圖2所示。圖2給出了采用4種不同識別方法,對8種策略的平均識別準(zhǔn)確率及總的平均值。可看出,當(dāng)CBPR假定的對手任務(wù)目標(biāo)正確時,其不同策略的識別準(zhǔn)確率普遍優(yōu)于CBPR不使用任務(wù)目標(biāo)方法;當(dāng)CBPR假定的對手任務(wù)目標(biāo)不正確時,策略識別準(zhǔn)確率極差;當(dāng)CBPR假定的對手任務(wù)目標(biāo)不正確,且CBPR執(zhí)行目標(biāo)修復(fù)算法時,策略識別準(zhǔn)確率與CBPR假定的任務(wù)目標(biāo)正確的情況基本相當(dāng)。
本文針對超視距空戰(zhàn)仿真中敵機策略的識別問題,采用一種改進的基于案例策略識別方法,通過在案例中增加假定對手任務(wù)目標(biāo),綜合任務(wù)目標(biāo)及觀測進行對手策略識別。實驗表明,相比于傳統(tǒng)的基于案例策略識別方法,該方法不僅在假定策略正確時能提高策略識別準(zhǔn)確率,在假定目標(biāo)策略錯誤時,該方法能夠通過目標(biāo)修復(fù)算法修正錯誤的任務(wù)目標(biāo),并提高對對手策略的識別準(zhǔn)確率。
[1]CARBERRY S.Techniques for plan recognition[J].User Modeling and User-Adapted Interaction,2001,11(1):31-48.
[2]BORCK H,KARNEEB J,ALFORD R,et al.Case-based behavior recognition in beyond visual range air combat [C]//Proceedings of the Twenty-Eighth International Florida Artificial Intelligence Research Society Conference. Menlo Park:AAAI Press.2015:379-384.
[3]GEIB C,PYNADATH D.Plan,Activity,and Intent Recognition[J].Ai Magazine,2007,14(5):5505-5511.
[4]VATTAM S S,AHA D W,F(xiàn)LOYD M.Case-based plan recognition using action sequence graphs[C]//International Conference on Case-Based Reasoning.Heidelberg:Springer International Publishing.2014:495-510.
[5]ONTA?óN S,LEE Y C,SNODGRASS S,et al.Casebased prediction of teen driver behavior and skill[C]//International Conference on Case-Based Reasoning.Heidelberg:Springer International Publishing.2014:375-389.
[6]FAGUNDES M S,MENEGUZZI F,BORDINI R H,et al.Dealing with ambiguity in plan recognition under time constraints[C]//Proceedings of the 2014 International Conference on Autonomous Agents and Multi-agent Systems.New York:ACM Press.2014:389-396.
[7]LAVIERS K,SUKTHANKAR G.A real-time opponent modeling system for rush football[C]//Proceedings-International Joint Conference on Artificial Intelligence.Menlo Park:AAAI Press.2011:2476-2481.
[8]MOLINEAUX M,AHA D W,SUKTHANKAR G.Beating the defense:using plan recognition to inform learning agents[C]//Proceedings of the Twenty-Second International Florida Artificial Intelligence Research Society Conference.Menlo Park:AAAI Press.2009:337-343
[9]LEVINE S J,WILLIAMS B C.Concurrent plan recognition and execution for human-robot teams[C]//ICAPS. Menlo Park:ACM Press.2014:490-498.
[10]BANERJEE B,LYLE J,KRAEMER L.The complexity of multi-agent plan recognition[J].Autonomous Agents and Multi-Agent Systems,2015,29(1):40-72.
[11]ZHUO H H,LI L.Multi-agent plan recognition with partial team traces and plan libraries[C]//Proceedings of the International Joint Conference on Artificial Intelligence. Menlo Park:AAAI Press,2011:484-489.
[12]ONTA?óN S,MISHRA K,SUGANDH N,et al.Casebased planning and execution for real-time strategy games [C]//International Conference on Case-Based Reasoning. Berlin Heidelberg:Springer,2007:164-178.
[13]RUBIN J,WATSON I D.On combining decisions from multiple expert imitators for performance[C]//Proceedings of the Twenty-Second International Joint Conference.Menlo Park:AAAI Press,2011:344-349
[14]FLOYD M W,ESFANDIARI B,LAM K.A case-based reasoning approach to imitating robocup players[C]//Proceedings of the Twenty-First International Florida Artificial Intelligence Research Society Conference.Menlo Park:AAAI Press,2008:251-256.
[15]楊健,趙秦怡.基于案例的推理技術(shù)研究進展及應(yīng)用[J].計算機工程與設(shè)計,2008,29(3):710-712. YANG JIAN,ZHAO QINYI.Research and application of CBR’s progression[J].Computer Engineering and Design,2008,29(3):710-712.(in Chinese)
[16]魏青,張世波.基于案例推理的研究綜述[J].電腦知識與技術(shù),2009,30(5):8518-8519. WEI QING,ZHANG SHIBO.The summary of casebased reasoning research[J].Computer Knowledge and Technology,2009,30(5):8518-8519.(in Chinese)
[17]羅忠良,王克運,康仁科,等.基于案例推理系統(tǒng)中案例檢索算法的探索[J].計算機工程與應(yīng)用,2005,41(25):230-232. LUO ZHONGLIANG,WANG KEYUN,KANG RENKE,et al.Study on a case retrieval algorithm in case-based reasoning system[J].Computer Engineering and Application,2005,41(25):230-232.(in Chinese)
[18]湯文宇.CBR的應(yīng)用研究[D].南京:南京郵電大學(xué),2007. TANG WENYU.The application Research of CBR[D]. Nanjing:Nanjing University of Posts and Telecomunications,2007.(in Chinese)
[19]蔡冬強,何欽銘.CBR技術(shù)在自動配色系統(tǒng)中的應(yīng)用研究[J].浙江大學(xué)學(xué)報:工學(xué)版,2006,40(10):1692-1695. CAI DONGQIANG,HE QINMING.Research of CBR in colour-matching system[J].Journal of Zhejiang University:Engineering Science,2006,40(10):1692-1695.(in Chinese).
[20]王潤生,賈希勝,王潤泉.基于CBR的損傷評估系統(tǒng)研究[J].系統(tǒng)工程與電子技術(shù),2005,27(10):1771-1775. WANG RUNSHENG,JIA XISHENG,WANG RUNQUAN.Research of the CBR-based damage assessment system[J].Systems Engineering and Electronics,2005,27(10):1771-1775.(in Chinese).
Policy Recognition in Beyond Visual Range Air Combat Simulation
FANG Jun,ZHANG Limin,XU Tao,ZHANG Bingqiang
(Research Institute of Information Fusion,NAAU,Yantai Shandong 264001,China)
To recognize the policy of adversary in beyond visual range air combat simulation,a case-based policy recogni?tion method was studied.In this method,a case base containing hypothetical mission goal,observations,and policy of ad?versarial aircraft was constructed.The similarity calculation was used to retrieval a subset of case base and calculate the probability distribution to recognize the adversary’s policy.Experiments showed that compared with the traditional casebased reasoning method,an adversary’s goal improved policy recognition.It also could recognize when its assumptions about the adversary agent’s goal were incorrect,and could correct these assumptions.
beyond visual range;air combat simulation;policy recognition;similarity
TP311
:A
1673-1522(2017)01-0116-05
10.7682/j.issn.1673-1522.2017.01.004
2016-12-06;
:2016-12-22
國家自然科學(xué)基金資助項目(91538201);泰山學(xué)者工程專項經(jīng)費資助項目(ts201511020)
方 君(1979-),男,講師,碩士。