文東日,陳小虎,李 文,杜二鋒
(1.國防大學(xué),北京 100091;2.中國人民解放軍63936部隊,北京 102202)
由于裝備是離散存在的,因此需要組合運用。組合運用是裝備運用的內(nèi)在要求,是裝備釋放體系作戰(zhàn)效能的主要形式,是實現(xiàn)裝備自動匹配的核心問題。但由于組合問題的復(fù)雜性,以及作戰(zhàn)意圖與作戰(zhàn)環(huán)境的不確定,求解裝備組合運用問題非常困難,各界對此進行了大量理論探索。孫盛智等[1]研究了面向作戰(zhàn)需求的衛(wèi)星應(yīng)用裝備組合優(yōu)化問題;李雄等[2]探索了面向目標(biāo)中心戰(zhàn)的自適應(yīng)裝備保障指揮方式;宋春龍[3]提出“使命任務(wù)—能力需求—體系設(shè)計—結(jié)構(gòu)優(yōu)化”的裝備組合問題研究框架;豆亞杰[4]提出用差分進化算法優(yōu)化武器系統(tǒng)組合選擇問題;孫建彬[5]提出基于遺傳算法的武器系統(tǒng)組合優(yōu)化方法;杜波[6]提出基于代理模型的武器裝備體系優(yōu)化方法;于少波[7]將多Agent評估方法用于電子信息裝備體系作戰(zhàn)效能評估。2020年,美國陸軍在項目融合演習(xí)中試驗了“烈火風(fēng)暴”(FireStorm[8])人工智能軟件,該軟件能夠根據(jù)打擊目標(biāo)自動匹配最優(yōu)的“射手”,表明在技術(shù)上可能實現(xiàn)裝備自動匹配。為此,本文構(gòu)建了基于深度強化學(xué)習(xí)[9-10]的裝備組合運用方法,探索裝備自動匹配的實現(xiàn)途徑。
本文分析了裝備組合運用問題,建立了基于深度強化學(xué)習(xí)的裝備組合運用方法的概念、模型、框架,進行了實驗驗證,在突破艦艇防空系統(tǒng)的作戰(zhàn)想定下,智能體均能按照作戰(zhàn)意圖推薦較合理的裝備運用方案,取得較理想的實驗效果,表明了基于深度強化學(xué)習(xí)的裝備組合運用方法的可行性。
冷兵器時代,裝備的組合運用主要是簡單的數(shù)量與功能組合,體現(xiàn)在“陣”的形式與變換之中。商周時期,車陣編成中士兵以5人為一伍,分別執(zhí)戈、戟、殳、矛、弓,形成5×5的步卒陣,是謂“兩”(如圖1所示[11])。在與商周同時代的西亞,出現(xiàn)了亞述軍事帝國及亞述陣(如圖2所示[12])。此外,還有雁行陣、錐形陣、鉤形陣、玄襄陣、鴛鴦陣等。通過“陣”的形式,發(fā)揮各個兵器的用途,形成整體的戰(zhàn)斗能力。熱兵器時代,“陣”逐步退出歷史舞臺,散兵戰(zhàn)術(shù)、機動作戰(zhàn)成為主要特征,裝備的組合在形式上沒有冷兵器時代那樣規(guī)整,但仍然是裝備運用的精要。信息化時代,基于網(wǎng)絡(luò)信息體系,各種裝備能夠在更廣闊的時空范圍內(nèi)進行組合,表現(xiàn)出體系對抗的特點。1999年科索沃戰(zhàn)爭,南斯拉夫聯(lián)盟由于沒有信息系統(tǒng)的支撐,其米格-29戰(zhàn)機在對陣F-16戰(zhàn)機(性能與米格-29相當(dāng))時,既搜索不到敵機目標(biāo),又不知面臨的威脅,以致其空軍司令員親自駕機升空也只有殞命藍天的悲壯??梢?,裝備組合運用是一個既古老又嶄新的課題,隨著時代發(fā)展,其組合的方法、形式、特點、規(guī)律又各不相同。
圖1 “兩”的示意圖
圖2 亞述陣示意圖
發(fā)現(xiàn)裝備最優(yōu)的組合形式,實現(xiàn)裝備體系運用的效果,關(guān)鍵在于科學(xué)的裝備組合運用方法。智能化時代,創(chuàng)新裝備組合運用方法,實現(xiàn)裝備根據(jù)任務(wù)自動匹配,是增強決策優(yōu)勢,重塑作戰(zhàn)流程、作戰(zhàn)組織和作戰(zhàn)理念的基礎(chǔ),是推動智能化軍事革命的關(guān)鍵。美軍開發(fā)的馬賽克戰(zhàn)、決策中心戰(zhàn)、分布式海上作戰(zhàn)、聯(lián)合全域指揮控制等作戰(zhàn)概念,都是首先基于裝備自動匹配問題的解決。為此,要進行智能化作戰(zhàn),需加強裝備組合運用問題研究,探索智能化的裝備組合運用方法。
為定量研究裝備組合問題,首先對問題進行形式化的描述。一般認(rèn)為:裝備組合運用問題,是在一定的作戰(zhàn)條件和作戰(zhàn)目標(biāo)下,軍事指揮人員為發(fā)揮最大的作戰(zhàn)效能,研究如何組合運用多個裝備的問題。用數(shù)學(xué)表述為:在一定的作戰(zhàn)條件和作戰(zhàn)目標(biāo)下,設(shè)有m型裝備,每型裝備的數(shù)量依次為x1,x2,x3,…,xm,用向量x表示,運用的每型裝備數(shù)量依次為a1,a2,a3…,am(0≤aj≤xj,1≤j≤m),用向量a表示,J(a)表示裝備組合運用的作戰(zhàn)效能,求解使得J(a)最大的a。
由于裝備在運用中是“活”的,具有各種屬性,比如時間先后順序、空間方位路徑、武器掛載方案、電磁管控措施等??紤]裝備的運用屬性,進一步把裝備組合運用問題表述為:在一定的作戰(zhàn)條件和作戰(zhàn)目標(biāo)下,設(shè)有m型裝備,每型裝備的數(shù)量依次為x1,x2,x3,…,xm,用向量x表示,每型裝備都有n個屬性,每個屬性可選的值的個數(shù)依次為s1,s2,s3,…,sn,用向量s表示,運用的每型裝備數(shù)量依次為a1,a2,a3…,am(0≤aj≤xj,1≤j≤m),用向量a表示,其中,某個裝備的運用屬性依次為b11,b12,b13,…,b1n,用向量bi表示,所有裝備的運用屬性依次為b1,b2,b3……,用矩陣B表示,J(a,B)表示裝備組合運用的作戰(zhàn)效能,求解使得J(a,B)最大的a及B。
深度強化學(xué)習(xí)也稱深度增強學(xué)習(xí),是融合深度學(xué)習(xí)與強化學(xué)習(xí)的一類人工智能算法。由于綜合利用了深度學(xué)習(xí)的感知表示能力和強化學(xué)習(xí)的決策規(guī)劃能力,深度強化學(xué)習(xí)更接近人類的思維方式,具有處理各種復(fù)雜問題的能力。
深度強化學(xué)習(xí)主要遵循強化學(xué)習(xí)的框架,采用馬爾科夫決策過程,形式化地描述智能體與環(huán)境的交互過程,如圖3所示[12]。
圖3 馬爾科夫決策過程中的“智能體-環(huán)境”交互
在強化學(xué)習(xí)中,智能體的目標(biāo)是最大限度地獲取長期收益。假設(shè)在時刻t采取動作At后接受的收益序列為Rt+1,Rt+2,Rt+3,…,引入折扣因子為?表示At對后續(xù)收益的貢獻衰減程度,Gt表示期望回報。
(1)
智能體期望回報的大小取決于智能體選擇的動作,選擇動作的根據(jù)稱之為策略,用π表示。vπ稱為策略π的狀態(tài)價值函數(shù),vπ(s)表示在策略π下狀態(tài)s的價值。
(2)
qπ稱為策略π的動作價值函數(shù),qπ(s,a)表示在狀態(tài)s時根據(jù)策略π采取動作a的價值。
(3)
為解決一般的強化學(xué)習(xí)算法對高維狀態(tài)空間和動作空間的難題,運用深度神經(jīng)網(wǎng)絡(luò)近似表示值函數(shù)或策略函數(shù),即為深度強化學(xué)習(xí)。最早將深度學(xué)習(xí)和強化學(xué)習(xí)結(jié)合,是郎齊(Lange)等人[13]將深度自編碼網(wǎng)絡(luò)應(yīng)用到強化學(xué)習(xí)中,解決路徑規(guī)劃尋優(yōu)問題。而深度強化學(xué)習(xí)的真正開端是尼曲(Mnih)等人[14]在2013年提出深度Q學(xué)習(xí)算法(DQN),直接從視頻圖像中學(xué)習(xí)玩Atari游戲。當(dāng)前,深度強化學(xué)習(xí)的算法主要有深度確定性策略梯度算法(DDPG)、異步的基于優(yōu)勢函數(shù)的“行動器-評判器”算法(A3C)、信賴域策略優(yōu)化算法(TRPO)等、近端策略優(yōu)化算法(PPO),以及分層深度強化學(xué)習(xí)、多智能體深度強化學(xué)習(xí)、多任務(wù)遷移深度強化學(xué)習(xí)等前沿研究方向。
深度強化學(xué)習(xí)解決復(fù)雜問題的能力在圍棋、星際爭霸、刀塔(Dota)等游戲中得到充分體現(xiàn),啟發(fā)廣大研究人員利用其解決軍事問題。而且應(yīng)用深度強化學(xué)習(xí)解決現(xiàn)實問題,具有無須數(shù)據(jù)樣本從而擺脫數(shù)據(jù)依賴、無須環(huán)境模型從而超越經(jīng)驗知識、無須提取特征從而繞過特征工程等優(yōu)勢。
本文采用馬爾科夫決策過程的框架,構(gòu)建裝備組合運用的基本模型:指揮人員從作戰(zhàn)環(huán)境中獲取戰(zhàn)場態(tài)勢,做出裝備運用決策,獲得戰(zhàn)績得分,持續(xù)以上循環(huán)過程直至任務(wù)結(jié)束,如圖4所示。
圖4 馬爾科夫決策過程中的裝備組合運用的基本模型
指揮人員即為智能體,是做出裝備組合運用決策的主體。軍事問題有戰(zhàn)略、戰(zhàn)役、戰(zhàn)術(shù)等不同的層次,不是所有層次的指揮員都被統(tǒng)一視為智能體,如在考慮戰(zhàn)術(shù)行動的裝備組合運用問題時,戰(zhàn)術(shù)層次的指揮員可被視為智能體,而戰(zhàn)役層次的指揮員則視為環(huán)境的一部分;考慮戰(zhàn)役行動的裝備組合運用問題時,戰(zhàn)役層次的指揮員可被視為智能體,而戰(zhàn)略層次的指揮員則視為環(huán)境的一部分。
在強化學(xué)習(xí)中,智能體之外所有與其相互作用的事物都被稱為環(huán)境。對于裝備組合運用問題,主要是對應(yīng)作戰(zhàn)環(huán)境。如上文把有的層次的指揮人員視為環(huán)境的一部分,基于深度強化學(xué)習(xí)的裝備組合運用方法所指的環(huán)境,不僅包括部隊所處的自然環(huán)境、社會環(huán)境等,還包括本層次指揮員所不能控制的其他所有的部分,如作戰(zhàn)對手、友方部隊、上級單位等。
狀態(tài)是任何對決策有幫助的信息,可以把戰(zhàn)場態(tài)勢作為狀態(tài)。指揮人員根據(jù)戰(zhàn)場態(tài)勢做出裝備決策。狀態(tài)信息主要來源于作戰(zhàn)對手(知彼)、己方部隊(知己)、客觀環(huán)境(知天知地)等三個方面。由于存在“戰(zhàn)爭迷霧”,裝備組合運用問題中的狀態(tài)不是完全可觀測的,屬于不完全信息決策問題。
裝備決策是指揮員的動作,包括決策動用裝備的型號、數(shù)量以及各種屬性等。決策動用一件裝備可以視為做出一個動作,多個動作決策形成裝備組合運用方案,從而把裝備組合問題轉(zhuǎn)變?yōu)樾蜇灈Q策問題。由于裝備是離散的,因而對于其組合運用問題,可認(rèn)為是在離散動作空間的強化學(xué)習(xí)問題。與收益存在延遲現(xiàn)象類似,指揮員做出裝備動用的決策可能是計劃的,因而其實際效果也可能存在延遲。
戰(zhàn)績得分是指揮員的目標(biāo),可被視為智能體的收益,衡量裝備運用的整體效能。戰(zhàn)績得分根據(jù)仿真推演評分標(biāo)準(zhǔn)(評分標(biāo)準(zhǔn)由作戰(zhàn)想定事先確定)計算得到,體現(xiàn)的是想定作業(yè)的任務(wù)要求。例如,設(shè)摧毀敵方指揮所為勝,得1分,否則得-1分。評分標(biāo)準(zhǔn)也可以是多種指標(biāo)的綜合。以戰(zhàn)績得分作為智能體的獎懲函數(shù),計算智能體的狀態(tài)或動作的價值函數(shù),引導(dǎo)指揮員學(xué)習(xí)最佳裝備運用策略,評估裝備整體作戰(zhàn)效能。為避免獎勵稀疏的問題,可根據(jù)具體情況,適當(dāng)調(diào)整智能體的獎懲函數(shù),以引導(dǎo)智能體更快收斂。
基于馬爾科夫決策過程的框架,利用一個主體(智能體)、一個客體(環(huán)境)、三個要素(狀態(tài)、動作、收益),抽象地描述了裝備運用的決策過程。智能體在仿真環(huán)境的交互中不斷收集狀態(tài)、動作、下一個狀態(tài)、收益以及是否結(jié)束的經(jīng)驗數(shù)據(jù),從而利用強化學(xué)習(xí)算法探索實現(xiàn)戰(zhàn)績得分最大的裝備運用策略。基于馬爾科夫決策過程的裝備組合運用模型體現(xiàn)了博伊德的“OODA環(huán)”模型(如圖5所示)的內(nèi)在邏輯?!癘ODA環(huán)”模型強調(diào)了指揮人員在“智能體—環(huán)境”交互中的主體地位,無論是裝備決策的輸出還是戰(zhàn)場態(tài)勢的輸入,指揮人員都可以能動地施加影響。這說明,基于馬爾科夫決策過程描述裝備組合運用現(xiàn)象,符合一般軍事規(guī)律。
圖5 “OODA”模型
為實現(xiàn)基于深度強化學(xué)習(xí)的裝備組合運用方法,仿真框架主要包括開發(fā)平臺、仿真平臺、計算平臺等三個部分。其中,開發(fā)平臺主要實現(xiàn)智能體的功能,搭建神經(jīng)網(wǎng)絡(luò),實現(xiàn)算法模型,輸入仿真數(shù)據(jù),輸出決策指令;仿真平臺主要實現(xiàn)環(huán)境的功能,提供支撐推演所需的作戰(zhàn)想定、裝備模型、作戰(zhàn)規(guī)則等,輸入決策指令,輸出仿真數(shù)據(jù);計算平臺提供基礎(chǔ)運行環(huán)境,并為算法模型優(yōu)化及仿真引擎運行提供支持。為實現(xiàn)開發(fā)平臺與仿真平臺的交互,仿真平臺AI開發(fā)包需提供各類函數(shù)接口以及通信接口??傮w框架如圖6所示。
圖6 基于深度強化學(xué)習(xí)的裝備組合運用方法的總體框架
想定紅方航空母艦在太平洋某海域戰(zhàn)斗歸航途中,發(fā)現(xiàn)藍方導(dǎo)彈驅(qū)逐艦。藍方導(dǎo)彈驅(qū)逐艦以37 km/h的速度向西北方向逃竄。紅方有三種作戰(zhàn)意圖:1)以最少的兵力摧毀藍方導(dǎo)彈驅(qū)逐艦;2)不惜一切代價盡快摧毀藍方導(dǎo)彈驅(qū)逐艦;3)以最少的兵力,盡快摧毀藍方導(dǎo)彈驅(qū)逐艦。紅藍雙方兵力編成如表1、表2所示。要求紅方根據(jù)評分標(biāo)準(zhǔn)(表3、表4、表5),派出合理的飛機編隊,摧毀藍方導(dǎo)彈驅(qū)逐艦,達成作戰(zhàn)意圖。想定時間為100 min。
表1 藍方兵力編成
表2 紅方兵力編成
表3 評分標(biāo)準(zhǔn)(一)
表4 評分標(biāo)準(zhǔn)(二)
表5 評分標(biāo)準(zhǔn)(三)
紅方擁有3種機型共24架飛機,在不考慮時間先后順序的情況下,存在585種組合方案。若考慮飛機出擊的先后順序(假設(shè)時間離散為30個時間段),則大約存在2116種組合方案。由于巨大的解空間,難以通過暴力搜索找出最優(yōu)組合方案。且不同的作戰(zhàn)意圖下,戰(zhàn)機組合運用的作戰(zhàn)效能不同,使得問題更加復(fù)雜。
運用深度強化學(xué)習(xí)方法求解該問題,紅方指揮員可視為智能體,目的是在各種作戰(zhàn)意圖之下獲取最大戰(zhàn)績得分。由于紅方共有24架飛機,設(shè)每個回合有24個決策步。在每個決策步,智能體決定動用某架飛機及其起飛時間。通過每個決策步的累積,最終形成紅方戰(zhàn)機組合運用方案。由于紅方指揮員在制定戰(zhàn)機運用方案中,對于藍方的情況是未知的,其每個決策步的狀態(tài)輸入是己方已決定動用的戰(zhàn)機及其出動時間。通過在仿真環(huán)境中獲得戰(zhàn)績得分的反饋,紅方指揮員經(jīng)過多個回合的訓(xùn)練,逐漸學(xué)習(xí)獲得最優(yōu)的戰(zhàn)機組合運用方案。
實驗采用深度強化學(xué)習(xí)PPO算法,設(shè)計F-35C戰(zhàn)斗機對艦打擊動作、F/A-18A戰(zhàn)斗機對艦打擊動作、EA-18G電子戰(zhàn)飛機電子干擾動作以及空動作等4種動作類型,每個動作包含單元、目標(biāo)、時間(時間離散化為30個時間段)、任務(wù)、條令5個要素,共91個動作。根據(jù)動作空間設(shè)計相應(yīng)的狀態(tài)空間,共設(shè)計91個狀態(tài)變量。仿真平臺根據(jù)智能體的動作進行推演,在推演結(jié)束時按照評分標(biāo)準(zhǔn)計算智能體的戰(zhàn)績得分。在不同的作戰(zhàn)意圖下,采用相同的網(wǎng)絡(luò)結(jié)構(gòu)及算法分別進行訓(xùn)練。學(xué)習(xí)率設(shè)為0.000 1,衰減因子設(shè)為0.999 98。
實驗在Windows7操作系統(tǒng)進行,采用“墨子”聯(lián)合作戰(zhàn)推演仿真軟件(包括“墨子”軍事AI平臺),以及Python、PyTorch等開發(fā)工具。實驗場景如圖7所示。
圖7 實驗場景
在以最少的兵力摧毀藍方導(dǎo)彈驅(qū)逐艦的作戰(zhàn)意圖下,智能體推薦的戰(zhàn)機組合運用方案為:4架EA-18G“咆哮者”電子戰(zhàn)飛機、2架F-35戰(zhàn)斗機,具體策略是:先運用電子戰(zhàn)飛機干擾藍方、引誘藍方發(fā)射防空導(dǎo)彈,再運用F-35戰(zhàn)斗機發(fā)射反艦導(dǎo)彈、摧毀藍方驅(qū)逐艦。實驗數(shù)據(jù)如圖8所示。運行保存的網(wǎng)絡(luò)模型,測試10個回合,智能體勝率為90%、平均戰(zhàn)績得分為725.5分。可以看出,由于用兵過于謹(jǐn)慎,智能體推薦的裝備方案有時不能達成作戰(zhàn)意圖。
圖8 訓(xùn)練數(shù)據(jù)
在不惜一切代價盡快摧毀藍方導(dǎo)彈驅(qū)逐艦的作戰(zhàn)意圖下,智能體推薦的戰(zhàn)機運用方案為:派出全部戰(zhàn)機攻擊藍方驅(qū)逐艦,具體策略是先派出飛行速度快、攻擊力強的F-35戰(zhàn)斗機,再派出其他機型。實驗數(shù)據(jù)如圖9所示。運行保存的網(wǎng)絡(luò)模型,測試10個回合,智能體平均戰(zhàn)績得分650分,平均耗時35 min。顯然,由于作戰(zhàn)意圖過于粗放,戰(zhàn)機運用方案過于冗余。
圖9 訓(xùn)練數(shù)據(jù)
在以最少的兵力、盡快摧毀藍方導(dǎo)彈驅(qū)逐艦的作戰(zhàn)意圖下,智能體推薦的戰(zhàn)機運用方案為:派出6架F-35戰(zhàn)斗機。實驗數(shù)據(jù)如圖10所示。運行保存的網(wǎng)絡(luò)模型,測試10個回合,智能體勝率100%、平均戰(zhàn)績得分334分、耗時35 min。此時,雖有4架戰(zhàn)機消耗,但能保證任務(wù)完成,既不至于兵力過于冗余,又不至于作戰(zhàn)時間過于拖沓。
圖10 訓(xùn)練數(shù)據(jù)
通過實驗,智能體在不同的作戰(zhàn)意圖之下,不利用人類經(jīng)驗,通過自我學(xué)習(xí)探索,均能推薦合理的裝備運用方案,顯示該方法具有一定的可行性和優(yōu)勢。但也發(fā)現(xiàn)該方法存在訓(xùn)練過程不穩(wěn)定、訓(xùn)練時耗過長等問題。
裝備組合運用方法研究是探索實現(xiàn)裝備自動匹配、發(fā)揮體系效能的關(guān)鍵。本文分析了裝備組合運用問題,構(gòu)建了基于深度強化學(xué)習(xí)的裝備組合運用方法。實例表明,該方法能夠有效解決裝備“組合爆炸”問題,可為裝備指揮和決策部門制定裝備運用方案提供理論和技術(shù)支持。本文主要針對給定想定下的裝備運用問題進行研究,而戰(zhàn)場環(huán)境和作戰(zhàn)目標(biāo)是持續(xù)變動的,如何在動態(tài)條件下實時地進行裝備運用的組合優(yōu)化是今后的研究重點。