基于AHP-DQN的作戰(zhàn)效能優(yōu)化方法研究

2023-06-12 10:31:28王國巖曹紅松劉鵬飛張芝源翟超凡

指揮控制與仿真 2023年3期

王國巖,曹紅松,劉鵬飛,張芝源,翟超凡

(中北大學(xué)機(jī)電工程工程學(xué)院,山西太原 030051)

某國外艦艇編隊(duì)威脅海域安全,使得反水面作戰(zhàn)策略研究更加緊迫。本文采用兵棋推演平臺——“墨子聯(lián)合作戰(zhàn)推演系統(tǒng)”,制定不同的作戰(zhàn)策略,并進(jìn)行作戰(zhàn)過程仿真與效能優(yōu)化分析。

目前,國內(nèi)通過兵棋推演進(jìn)行作戰(zhàn)策略效能評估的研究很多。程愷等人將作戰(zhàn)行動效能(即作戰(zhàn)效能)定義為作戰(zhàn)單元在規(guī)定條件下,完成其作戰(zhàn)任務(wù)的有效程度[1]。劉翔宇[2]等人將作戰(zhàn)方案評估歸結(jié)為6類,并對3種典型作戰(zhàn)方案進(jìn)行了分析。趙玉鵬[3]等人基于仿真推演,從海戰(zhàn)推演的不同階段全面地分析提取關(guān)鍵因素,綜合模糊評判和層次分析構(gòu)建了海戰(zhàn)的綜合評估模型,但并未結(jié)合仿真進(jìn)行驗(yàn)證。劉海洋[4]等人在規(guī)范評估指標(biāo)后,以兵棋推演實(shí)驗(yàn)產(chǎn)生方案級指標(biāo)度量結(jié)果,降維后構(gòu)建基于深度學(xué)習(xí)的評估模型,并利用數(shù)據(jù)樣本對評估模型進(jìn)行訓(xùn)練。李勇[5]等人對壓制機(jī)場跑道作戰(zhàn)過程進(jìn)行建模,構(gòu)建機(jī)場跑道打擊方案評估模型,并進(jìn)行了示例驗(yàn)證。以上的文章均未涉及齊射武器數(shù)、導(dǎo)彈的選擇以及戰(zhàn)機(jī)發(fā)射導(dǎo)彈的高度等參數(shù)對作戰(zhàn)效果的具體影響研究,本文采用墨子聯(lián)合作戰(zhàn)推演系統(tǒng),基于藍(lán)方防空反導(dǎo)設(shè)定條件下制定了紅方的作戰(zhàn)策略,依據(jù)經(jīng)驗(yàn)法,分別以陸基、空基、海基為主探索了引誘、攻擊等作戰(zhàn)過程,獲取仿真數(shù)據(jù),以AHP(Analytic Hierarchy Process)法獲取其作戰(zhàn)效能,以AHP的權(quán)重引入DQN(Deep Reinforcement Learning)算法的獎勵值,對?；呗赃M(jìn)行優(yōu)化,生成新策略,分析對比4種策略的優(yōu)劣。

1 作戰(zhàn)想定設(shè)計

想定設(shè)計主要是確定作戰(zhàn)場景、武器裝備及部署、作戰(zhàn)規(guī)則。假想藍(lán)方以艦艇編隊(duì)威脅紅方海域安全,紅方進(jìn)行主動打擊,以擊中毀傷為作戰(zhàn)目的,藍(lán)方艦隊(duì)攜帶“標(biāo)準(zhǔn)3”等艦空導(dǎo)彈,本次想定設(shè)計藍(lán)方以防空反導(dǎo)為主要策略。

1)作戰(zhàn)場景

選擇一片海域作為作戰(zhàn)場景,海域上分布小島,可起降戰(zhàn)機(jī),在大陸部署陸基反艦導(dǎo)彈。

2) 藍(lán)方兵力部署

藍(lán)方為艦艇編隊(duì),由1艘航母、1艘巡洋艦、4艘驅(qū)逐艦組成[6],在該海域朝向西北方向航行。巡洋艦距離航母前方40海里警戒,4艘驅(qū)逐艦距航空母艦8～10海里環(huán)狀鋪開。隊(duì)形如圖1所示。

圖1 藍(lán)方艦隊(duì)隊(duì)形Fig.1 Blue fleet formation

3)紅方兵力部署

紅方對于海域的防護(hù)主要采用3種方式,分別是基于陸基、海基、空基打擊為主的策略。因此,兵力部署也按照3種策略進(jìn)行設(shè)計。

①陸基打擊兵力部署

陸基打擊主要采用A、B兩款導(dǎo)彈,分布于紅方各地。8枚B導(dǎo)彈部署于大陸北部,考慮到射程小,16枚A導(dǎo)彈部署在南方,如圖2所示。

圖2 陸基打擊兵力部署Fig.2 Land based strike force deployment

②?；驌舯Σ渴?/p>

海基打擊主要利用艦載導(dǎo)彈為主進(jìn)行攻擊,部署驅(qū)逐艦攜帶64枚C導(dǎo)彈,部署航母1攜帶32枚D導(dǎo)彈。同時部署航母2搭載多戰(zhàn)機(jī)共攜帶80枚E導(dǎo)彈用于突防,如圖3所示。

③空基打擊兵力部署

空基打擊以機(jī)載導(dǎo)彈為主,紅方島嶼機(jī)場共部署多架殲擊轟炸機(jī)共掛載C3導(dǎo)彈攻擊藍(lán)方艦隊(duì)。紅方部署驅(qū)逐艦攜帶64枚E導(dǎo)彈用于突防。部署情況如圖4所示。

圖3 海基打擊兵力部署Fig.3 Sea based strike force deployment

圖4 空基打擊兵力部署Fig.4 Air based strike force deployment

2 紅藍(lán)方導(dǎo)彈裝備及性能分析

1)藍(lán)方導(dǎo)彈及性能

艦艇編隊(duì)自身攜帶的導(dǎo)彈射程以及可攔截的來襲導(dǎo)彈速度與高度范圍如表1所示。

表1 藍(lán)方艦空導(dǎo)彈性能Tab.1 Performance of blue ship to air missile

表中可信度代表了基準(zhǔn)命中率。從表1可以看出,主要的艦空導(dǎo)彈有4種,可信度均較高。射程覆蓋廣,目標(biāo)涵蓋高、中、低空。

2)紅方導(dǎo)彈及性能

由于紅方計劃采用陸基、?；?、空基為主的三種打擊策略對艦艇編隊(duì)進(jìn)行突防和攻擊,本文重點(diǎn)分析導(dǎo)彈穿透率、射程、速度以及巡航高度等戰(zhàn)技指標(biāo),其具體性能參數(shù)如表2所示。

表2 紅方各反艦導(dǎo)彈性能Tab.2 Performance of each anti-ship missile of the Red Party

表2中,穿透率以及毀傷參數(shù)代表單枚導(dǎo)彈穿透了目標(biāo)的百分比以及在此穿透率下的毀傷能力,該毀傷能力可表征彈藥當(dāng)量。如墨子系統(tǒng)中,航母損傷點(diǎn)設(shè)為7 700 DPs,A導(dǎo)彈穿透率為100%下毀傷是4 200 DPs,即1.83發(fā)A導(dǎo)彈即可完全毀傷航母。而巡洋艦、驅(qū)逐艦的損傷點(diǎn)分別為1 320、1 270 DPs。另外,A、B導(dǎo)彈射程遠(yuǎn)、速度高,均達(dá)到11Ma,適合陸基超遠(yuǎn)距離打擊;C導(dǎo)彈可基于多平臺發(fā)射,基于平臺的不同分為C1、C2、C3,飛行速度均在2～4Ma之間,相對機(jī)動性高、不易被攔截,適合做中期的攻擊;D導(dǎo)彈為艦載反艦導(dǎo)彈,毀傷大但巡航段速度僅為0.8Ma,前期易被攔截,適合在作戰(zhàn)后期攻擊。E導(dǎo)彈射程達(dá)800 km,巡航速度僅為0.7Ma,速度慢,毀傷小,適于在作戰(zhàn)中引誘敵方;F導(dǎo)彈屬機(jī)載超聲速反輻射導(dǎo)彈,飛行速度為2.4Ma,可用于打擊敵方雷達(dá)、發(fā)射架。

3 紅方打擊策略的設(shè)計與分析

紅藍(lán)雙方依據(jù)各自導(dǎo)彈性能制定作戰(zhàn)策略,藍(lán)方以防御敵方導(dǎo)彈為主,紅方以擊沉艦隊(duì)為目標(biāo)。

3.1 藍(lán)方導(dǎo)彈防御策略

在作戰(zhàn)時,藍(lán)方為確保艦隊(duì)安全,以艦隊(duì)雷達(dá)進(jìn)行監(jiān)測,發(fā)現(xiàn)敵方艦隊(duì)自動規(guī)避,武器均在最大射程自動開火。其中“標(biāo)準(zhǔn)3”攔截導(dǎo)彈,“海麻雀”、“海拉姆”、增程主動彈攔截導(dǎo)彈、戰(zhàn)機(jī)?！昂＠贰币詥伟l(fā)齊射方式攔截。其他藍(lán)方導(dǎo)彈對于超聲速導(dǎo)彈,4、5代戰(zhàn)機(jī),以2發(fā)齊射方式進(jìn)行攔截,其他目標(biāo)以單發(fā)齊射方式攔截。此外,“標(biāo)準(zhǔn)3”和“海拉姆”自防御距離為最大射程,其余導(dǎo)彈為9.26 km。

3.2 紅方打擊策略設(shè)計

紅方反艦的導(dǎo)彈有陸基、海基,空基三種平臺,以每一類平臺為主,通過仿真計算確定突防、攻擊時不同的導(dǎo)彈數(shù)量、齊射方式,從而確定作戰(zhàn)策略。

1)陸基打擊為主的作戰(zhàn)策略與分析

① 突擊策略

本次設(shè)計紅方發(fā)射8發(fā)導(dǎo)彈進(jìn)行突擊。針對航母、巡洋艦、驅(qū)逐艦?zāi)繕?biāo),采用1發(fā)、2發(fā)、4發(fā)的齊射策略進(jìn)行突擊。在墨子系統(tǒng)中,分別對不同的方案仿真,統(tǒng)計藍(lán)方導(dǎo)彈命中率、紅方導(dǎo)彈引誘比,結(jié)果如表3所示。

表3 導(dǎo)彈齊射突擊策略比較Tab.3 Comparison of A missile volley assault strategies

墨子系統(tǒng)中,命中率基于目標(biāo)速度、目標(biāo)信號特征以及彈目方位角進(jìn)行了修正,修正公式如下:

(1)

其中,P基準(zhǔn)為導(dǎo)彈可信度,P目標(biāo)速度修正為20%,P目標(biāo)信號特征修正為10%[7]。由圖2、式(1)和表3可知,A導(dǎo)彈任一齊射方式下突擊航母、巡洋艦、驅(qū)逐艦時,標(biāo)準(zhǔn)3的命中率隨其與A導(dǎo)彈的Target方位角增大而降低。并且由表2可看出,“標(biāo)準(zhǔn)3”的命中率隨著A導(dǎo)彈齊射數(shù)的增加而降低,即突擊策略選擇以4發(fā)齊射突擊驅(qū)逐艦,此時“標(biāo)準(zhǔn)3”修正角大,命中率最低,A導(dǎo)彈的引誘比最大。

② 攻擊策略

在突擊階段完成后,由表1、表2知,這兩種彈不在藍(lán)方剩余彈藥的攔截范圍內(nèi),藍(lán)方對陸基反艦彈道導(dǎo)彈的攔截威脅已清除。攻擊階段由A、B導(dǎo)彈攻擊艦艇編隊(duì)。但航母以及巡洋艦的防御型ECM對主動雷達(dá)導(dǎo)引頭具有35%的干擾概率,MK214具有20%的干擾率。需要通過計算所需導(dǎo)彈數(shù)量、多種齊射方式仿真,查看紅方彈藥利用情況、毀傷效果來確定攻擊各艦的彈藥數(shù)量、齊射方式。

以航母為例,實(shí)施方案如下:

?確定分配彈藥數(shù)量

由導(dǎo)彈需求數(shù)量公式:

(2)

式中n為擊沉某水面艦艇所需導(dǎo)彈數(shù)量,PCredibility為導(dǎo)彈可信度,PECM為防御型ECM的干擾率,PJammer為干擾彈的干擾率,PInterception為艦空導(dǎo)彈的平均攔截率,求得擊沉航母所需的彈藥量為3.542 5發(fā)B導(dǎo)彈或者4.21發(fā)A導(dǎo)彈,為比較相同當(dāng)量下的攻擊效果,兩種彈均選擇4發(fā)。

?確定彈藥齊射方式

經(jīng)蒙特卡洛仿真得2種彈不同齊射數(shù)量對航母的毀傷和彈藥利用的情況,如表4所示。

表4 彈藥毀傷效果Tab.4 Ammunition utilization and damage effect

由表4可知,B導(dǎo)彈的攻擊效果具有起伏性,2發(fā)齊射效果最差。A導(dǎo)彈單發(fā)與B導(dǎo)彈4發(fā)齊射在所有攻擊方式中對航母毀傷數(shù)同為最高0.85艘,且前者故障數(shù)較低,但B導(dǎo)彈命中數(shù)比A導(dǎo)彈多0.43發(fā),未命中數(shù)比其少0.57發(fā),因此,選擇總數(shù)4發(fā)的B導(dǎo)彈以4發(fā)齊射攻擊航母。

同理為驅(qū)逐艦各分配1發(fā)B導(dǎo)彈,為巡洋艦分配2發(fā)A導(dǎo)彈齊射。

③ 補(bǔ)射策略

經(jīng)20次蒙特卡洛攻擊仿真后,得藍(lán)方損失如表5。

表5 裝備損失

藍(lán)方被攻擊后,剩余受損嚴(yán)重的巡洋艦一艘、航母一艘、驅(qū)逐艦兩艘,紅方剩余6發(fā)導(dǎo)彈。為達(dá)到擊沉剩余艦艇、彈藥消耗最少的目的,以巡邏任務(wù)方式對戰(zhàn)艦單發(fā)補(bǔ)射,同樣仿真20次,4.3發(fā)導(dǎo)彈能夠?qū)⑹Ｓ嗯炌耆珦舫痢?/p>

通過上面的武器數(shù)量、攻擊方式的設(shè)計與仿真分析,得作戰(zhàn)策略流程如圖5所示。

2)以海基打擊為主的作戰(zhàn)策略與分析

① 突擊策略

據(jù)式(2),巡洋艦需分配70.34枚F導(dǎo)彈,這里共攜帶72枚F導(dǎo)彈低空[8]突襲巡洋艦。經(jīng)仿真,其中44.9發(fā)命中,使巡洋艦雷達(dá)、發(fā)射架完全失去功能。

圖5 陸基策略流程圖Fig.5 Land based strategy flow chart

同樣,航母需分配58.81枚E導(dǎo)彈,這里取整分配60枚進(jìn)行。經(jīng)仿真,共消耗藍(lán)方133發(fā)攔截的A/D型“海麻雀”導(dǎo)彈,另外19發(fā)擊沉航母,2發(fā)擊沉1艘驅(qū)逐艦,6枚未命中,29枚被攔截,4枚發(fā)生故障。

② 攻擊策略

在巡洋艦失去攔截能力,航母被擊沉后,紅方以某艦的C2三發(fā)齊射攻擊殘余艦艇。經(jīng)仿真,完全攻擊成功需要3波次發(fā)射,不再補(bǔ)射。

通過上面的武器數(shù)量、攻擊方式的設(shè)計與仿真分析,得作戰(zhàn)策略流程如圖6所示。

圖6 海基策略流程圖Fig.6 Sea based strategy flow chart

3)以空基打擊為主的作戰(zhàn)策略與分析

① 突擊策略

紅方驅(qū)逐艦發(fā)射58枚E導(dǎo)彈。經(jīng)仿真,其中2.3發(fā)擊沉了1艘驅(qū)逐艦,55.4發(fā)消耗增程主動彈、A/D型“海麻雀”共131枚,為后續(xù)攻擊清除障礙。

② 攻擊策略

依據(jù)式2,巡洋艦的攻擊需分配導(dǎo)彈7.424 1發(fā)。第一波分配多架戰(zhàn)機(jī)攜帶8發(fā)C3導(dǎo)彈,以低空飛行躲避雷達(dá)方式攻擊巡洋艦。仿真結(jié)果顯示2.3發(fā)擊沉了巡洋艦,1.6發(fā)未命中,0.5發(fā)故障,3.6發(fā)被“海麻雀”導(dǎo)彈攔截。

驅(qū)逐艦需分配6發(fā),第二波分配多架戰(zhàn)機(jī)共攜帶6發(fā)C3導(dǎo)彈進(jìn)行最小高度攻擊[9]。經(jīng)仿真,命中驅(qū)逐艦4.5發(fā),3發(fā)未命中,1.1發(fā)故障,9.4發(fā)被攔截。

計算得航母需分配23.5發(fā),以多架戰(zhàn)機(jī)共攜帶24發(fā)C3導(dǎo)彈,在13.716 km最大高度、距目標(biāo)9.26 km進(jìn)行飽和攻擊,同時,武器發(fā)射條令以27.78 km單發(fā)齊射,提防剩余驅(qū)逐艦。經(jīng)仿真,10.8發(fā)命中,7.5發(fā)未命中,1.7發(fā)故障,4發(fā)被攔截。

通過上面的武器數(shù)量、攻擊方式的設(shè)計與仿真分析,得作戰(zhàn)策略流程如圖7所示。

圖7 空基策略流程圖Fig.7 Air based strategy flow chart

3.3 三種作戰(zhàn)策略仿真結(jié)果分析

經(jīng)仿真得藍(lán)方裝備平均損失如表6。

由表6可知,3種策略均能使巡洋艦平均損失96%、航母平均損失97.6%、驅(qū)逐艦平均損失數(shù)量92.8%,策略有效,可在此條件下進(jìn)行作戰(zhàn)策略的分析與比較。

表6 藍(lán)方裝備平均損失Tab.6 Average loss rate of blue equipment %

4 作戰(zhàn)效能建模與分析

作戰(zhàn)策略效能評估的方法有數(shù)學(xué)解析法、試驗(yàn)統(tǒng)計分析法、專家評估法等,層次分析法AHP作為專家評估法的一種,具有系統(tǒng)、實(shí)用、簡潔的特點(diǎn)。DQN算法是DeepMind團(tuán)隊(duì)[10]提出的一種off-policy的深度強(qiáng)化學(xué)習(xí)算法,是對Q-learning算法思想的延伸,在該算法基礎(chǔ)上,引入了人工神經(jīng)網(wǎng)絡(luò)代替Q-table,可解決離散動作在連續(xù)狀態(tài)空間的問題。

通過依據(jù)各層級評估指標(biāo)建立層次結(jié)構(gòu)模型,構(gòu)造兩兩比較判斷矩陣,計算判斷矩陣權(quán)重,判斷矩陣一致性檢驗(yàn)的順序,從而獲得經(jīng)驗(yàn)法中作戰(zhàn)效能較優(yōu)策略,在此基礎(chǔ)上以AHP的權(quán)重引出DQN算法的R值,對較優(yōu)策略進(jìn)行優(yōu)化。

1)作戰(zhàn)效能層次模型建立

建立層次結(jié)構(gòu)模型需要依據(jù)各層級評估指標(biāo)[11],評估指標(biāo)應(yīng)是可比較、計算、測量、分析的,應(yīng)真實(shí)客觀,不受主觀因素的影響。

根據(jù)墨子系統(tǒng)的仿真數(shù)據(jù),將作戰(zhàn)策略的效能設(shè)為目標(biāo)層A,以引誘、攻擊、毀傷、生存、穩(wěn)定能力[12]作為準(zhǔn)則層B,指標(biāo)層C為評估作戰(zhàn)效能的各項(xiàng)指標(biāo)。具體評價指標(biāo)如下:

引誘能力(B1):代表了在正式攻擊前進(jìn)行的引誘,引誘能力的高低將直接影響后期的攻擊與毀傷。C1為引誘密集度:引誘時間內(nèi),紅方1發(fā)彈每分鐘內(nèi)引誘的藍(lán)方彈的數(shù)量。C2為引誘種類比:紅方彈種與其引誘的藍(lán)方彈種之比。C3為引誘當(dāng)量密集度:紅方引誘總當(dāng)量與引誘時間之比。C4為對敵艦傷害:紅方引誘彈對藍(lán)方艦艇的傷害。

攻擊能力(B2):代表了對藍(lán)方的打擊能力。C5為抗攔截密集度[13]:攻擊時間里,單發(fā)藍(lán)方攔截彈單位時間內(nèi)遭遇的紅方彈的數(shù)量。C6為抗干擾密集度:攻擊時間里,單發(fā)藍(lán)方誘餌或干擾彈單位時間內(nèi)遭遇的紅方彈的數(shù)量。C7為攻擊當(dāng)量密集度:紅方攻擊總當(dāng)量與攻擊時間之比。C8為命中率:紅方命中數(shù)與發(fā)射數(shù)之比。

毀傷能力(B3):代表對艦隊(duì)的毀傷效果。C9為艦船毀傷:藍(lán)方航母、巡洋艦、驅(qū)逐艦平均毀傷數(shù)量。C10為戰(zhàn)機(jī)毀傷:藍(lán)方艦載機(jī)平均毀傷數(shù)量。C11為人員傷亡:戰(zhàn)艦和戰(zhàn)機(jī)毀傷造成的人員傷亡。

生存能力[14](B4):遂行任務(wù)中后期,紅方單位的存活能力。C12為距航母的平均距離:紅方單位與艦隊(duì)的平均距離,選取艦隊(duì)典型目標(biāo)——航母作為基準(zhǔn)。C13為單實(shí)體防護(hù):紅方各單位的防護(hù)能力。

穩(wěn)定能力(B5):包含了使戰(zhàn)術(shù)更加穩(wěn)定的因素。C14為用彈種類:整個過程所用的彈的種類,種類越多,可選的攻擊方式越靈活多變。C15為協(xié)同方式[15]:對時間協(xié)同、空間協(xié)同、功能協(xié)同方式的使用。C16為戰(zhàn)術(shù)融合度:引誘與攻擊的重合時間。

依據(jù)上述指標(biāo)建立策略作戰(zhàn)效能層次結(jié)構(gòu)模型,如圖8所示。

圖8 作戰(zhàn)效能層次結(jié)構(gòu)模型Fig.8 Hierarchical structure model of operational strategy effectiveness

2)指標(biāo)判斷矩陣建立

利用9分位標(biāo)度,兩兩比較指標(biāo)層建立衡量指標(biāo),比較結(jié)果可得如下矩陣。

(3)

3)判斷矩陣權(quán)重計算

由yaahp軟件計算得到準(zhǔn)則層內(nèi)5因素對目標(biāo)層的權(quán)重以及指標(biāo)層5個矩陣對準(zhǔn)則層B1到B5的權(quán)重,如表7所示。

表7 綜合權(quán)重

由上表可知,毀傷能力是影響作戰(zhàn)效能最重要的因素,權(quán)重達(dá)到0.413 8,各指標(biāo)權(quán)重均在0.13以上,其次是攻擊能力,權(quán)重為0.273 4,引誘能力對作戰(zhàn)效能影響也較大,生存能力、穩(wěn)定能力對此影響較小。得AHP效能計算公式,即

Evalue=0.371*x1+0.010 3*x2+0.026 5*x3+0.062 8*x4+0.034 2*x5+0.034 2*x6+0.102 5*x7+0.102 5*x8+0.142 8*x9+0.137 9*x10+0.133 1*x11+0.040 1*x12+0.050 1*x13+0.0143*x14+0.042 9*x15+0.028 6*x16

(4)

其中,x1～x16為方案層對標(biāo)準(zhǔn)層的權(quán)重,將經(jīng)驗(yàn)法的3種策略仿真數(shù)據(jù)整理代入式(4),可得各策略的效能:海基(0.398 123 83)>陸基(0.327 920 52)>空基(0.273 822 18),即知以?；鶠橹鞯拇驌舨呗跃哂休^高效能。

4)基于AHP-DQN的效能優(yōu)化

由上可知?；呗孕茌^優(yōu),為求得效能最優(yōu)解,可在第二組仿真基礎(chǔ)上進(jìn)行優(yōu)化,這里使用DQN算法。

DQN在探索方式上采用ε-greedy的策略,即根據(jù)當(dāng)前的輸入狀態(tài)s和最新估值的Q(s,a),以概率(0,1]選擇argmaxa∈AQ(s,a),以概率ε隨機(jī)選擇動作,隨著訓(xùn)練的進(jìn)行,ε在區(qū)間(0,1]線性變化,DQN也從“強(qiáng)探索弱利用”轉(zhuǎn)化至“弱探索強(qiáng)利用”[16]。具體Q值更新公式如下:

Q(S,A)←Q(S,A)+α[R+γmaxQ(S′,a)-Q(S,A)]

(5)

其中,α為更新步長,α越大,表明越靠后的累計獎勵越重要;γ為折扣獎賞權(quán)重,γ值越大,表明之前的經(jīng)驗(yàn)越重要,R為獎勵或回報函數(shù),引導(dǎo)神經(jīng)網(wǎng)絡(luò)加工輸入狀態(tài)信息的特征[16],直接影響DQN算法的收斂速度和性能。

以引誘密集度為例,對E導(dǎo)彈航線進(jìn)行規(guī)劃即可引起其引誘能力的變化,進(jìn)而引起方案層對標(biāo)準(zhǔn)層權(quán)重的變化,即該類權(quán)重實(shí)際應(yīng)為某個范圍,如表8所示。

表8 方案層對標(biāo)準(zhǔn)層權(quán)重范圍Tab.8 Weight range of scheme layer to standard layer

即DQN的Agent將在以上連續(xù)狀態(tài)空間動作,以獲取最大獎勵。由實(shí)際可知,引誘種類比、距航母的平均距離、單實(shí)體防護(hù)、用彈種類不會變化,因此,表中僅列出了12個權(quán)重范圍。

將式(4)作為DQN的回報函數(shù):

(6)

從式(4)、(5)能夠看出引誘密集度、附帶損傷等共16個指標(biāo)權(quán)重對DQN優(yōu)化計算的影響。

AHP定獎勵的DQN效能評估優(yōu)化具體步驟詳見算法:

算法 APH定獎勵的DQN[17]作戰(zhàn)效能優(yōu)化。

輸入:明確目標(biāo)xi范圍,Q網(wǎng)絡(luò)目標(biāo)參數(shù),Experience buffer等參數(shù)。

輸出:16個目標(biāo)參數(shù)與效能分配表。如圖9所示。

圖9 AHP-DQN算法流程圖Fig.9 AHP-DQN algorithm flow chart

經(jīng)過53 804次訓(xùn)練,最終得到能使Evalue最大的各目標(biāo)參數(shù),以訓(xùn)練得到的參數(shù)組成第4種作戰(zhàn)策略,4種策略各指標(biāo)效能如圖10所示。

圖10 各策略指標(biāo)比較Fig.10 Comparison of various strategic indicators

由圖10中SUM可將各作戰(zhàn)策略效能排序:?；鶅?yōu)化(0.419 455 73)>?；?0.398 123 83)>陸基(0.327 920 52)>空基(0.273 822 18),基于AHP-DQN改進(jìn)的策略4作戰(zhàn)效能最優(yōu),由圖10整理,可得單一指標(biāo)效能的提升如表9。

表9 單一指標(biāo)效能提升百分比Tab.9 Single indicator performance improvement %

由表9可知引誘密集度提升最多,達(dá)到30.28%,人員傷亡提升較小,僅0.09%。整體效能比未經(jīng)優(yōu)化的海基策略提升5.36%,表明了基于AHP-DQN優(yōu)化的有效性,也說明了?；呗栽谝T、攻擊、協(xié)同方式等方面還有提升空間?；诮?jīng)驗(yàn)法的策略中,?；驌魹橹鞯淖鲬?zhàn)策略較優(yōu),其在附帶損傷、命中率、協(xié)同方式等方面有較高表現(xiàn),尤其攻擊當(dāng)量密集度、戰(zhàn)術(shù)融合度遠(yuǎn)超其他2種策略,但距離航母較近。而陸基策略在引誘密集度、引誘當(dāng)量密集度、距航母距離以及單實(shí)體防護(hù)方面表現(xiàn)突出,體現(xiàn)了陸基導(dǎo)彈的優(yōu)勢。相較于海、陸基策略,空基策略在引誘、抗攔截、毀傷上有優(yōu)勢,但距離近,防護(hù)性能不高。

5 結(jié)束語

本文以艦艇編隊(duì)威脅海域安全為背景,基于墨子聯(lián)合作戰(zhàn)推演系統(tǒng)建立了想定,詳細(xì)設(shè)計了以海陸空基為主的3種打擊策略,采用蒙特卡洛的作戰(zhàn)過程仿真分析了武器裝備毀損相關(guān)參數(shù)。以此構(gòu)建了效能評估指標(biāo)體系,基于AHP建立了作戰(zhàn)效能評估模型,并在?；呗缘幕A(chǔ)上加入了強(qiáng)化學(xué)習(xí)算法,形成AHP-DQN優(yōu)化方法。結(jié)果顯示,優(yōu)化后的?；驌舨呗孕茏罡??；沃?陸基稍次,空基打擊相對損耗高,打擊效果差。所建模型較清晰地展現(xiàn)了各作戰(zhàn)策略優(yōu)劣,對海陸空聯(lián)合作戰(zhàn)具有參考意義,所采用的方法對作戰(zhàn)策略研究與優(yōu)化具有參考價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于AHP-DQN的作戰(zhàn)效能優(yōu)化方法研究

1 作戰(zhàn)想定設(shè)計

2 紅藍(lán)方導(dǎo)彈裝備及性能分析

3 紅方打擊策略的設(shè)計與分析

3.1 藍(lán)方導(dǎo)彈防御策略

3.2 紅方打擊策略設(shè)計

3.3 三種作戰(zhàn)策略仿真結(jié)果分析

4 作戰(zhàn)效能建模與分析

5 結(jié)束語