對(duì)抗條件下空中目標(biāo)威脅評(píng)估方法 *

2024-03-18 07:22:24梁復(fù)臺(tái)周焰張晨浩宋子豪趙小瑞

現(xiàn)代防御技術(shù) 2024年1期

梁復(fù)臺(tái)，周焰，張晨浩，宋子豪，趙小瑞

（1. 空軍預(yù)警學(xué)院，湖北武漢 430000；2. 中國(guó)人民解放軍31121 部隊(duì)，江西南昌 330000）

0 引言

1988 年數(shù)據(jù)融合聯(lián)合指揮實(shí)驗(yàn)室提出JDL（joint directors of laboratories）模型，其將威脅評(píng)估（threat assessment，TA）定義為數(shù)據(jù)融合系統(tǒng)中的高層次數(shù)據(jù)融合處理過(guò)程，其通過(guò)推理紅方意圖和目的，量化并判斷紅方行為對(duì)藍(lán)方的威脅程度［1］。文獻(xiàn)［2-3］對(duì)初始JDL 模型中威脅評(píng)估的解釋進(jìn)行了擴(kuò)展，文獻(xiàn)［2］指出威脅評(píng)估應(yīng)該擴(kuò)展為影響評(píng)估，包括威脅評(píng)估、行為分析和結(jié)果預(yù)測(cè)。同時(shí)，文獻(xiàn)［4］認(rèn)為威脅評(píng)估不僅要對(duì)紅方能力及意圖進(jìn)行分析，還要對(duì)藍(lán)方能力進(jìn)行分析，將它們結(jié)合起來(lái)綜合分析，才算是威脅評(píng)估。在這個(gè)定義中，考慮了對(duì)抗雙方的能力，體現(xiàn)了威脅的對(duì)抗性。文獻(xiàn)［5］對(duì)JDL 數(shù)據(jù)融合模型進(jìn)行了新修訂，強(qiáng)調(diào)了威脅評(píng)估中雙方行動(dòng)計(jì)劃之間的互動(dòng)，進(jìn)一步明確了威脅評(píng)估的對(duì)抗性。

目前，戰(zhàn)場(chǎng)威脅評(píng)估的方法主要有：貝葉斯推理［6］、模糊推理［7］、多屬性決策理論［8］、案例推理［9］、專家系統(tǒng)或基于知識(shí)的方法［10］、遺傳算法［11］等?？偨Y(jié)起來(lái)，主要分為2 類：一是建立威脅評(píng)估數(shù)學(xué)模型的方法；二是基于各種智能算法的威脅評(píng)估方法。建立威脅評(píng)估數(shù)學(xué)模型時(shí)，對(duì)屬性權(quán)重確定與方案排序是重點(diǎn)。采用基于智能算法的威脅評(píng)估方法，對(duì)數(shù)據(jù)的標(biāo)記及模型的訓(xùn)練是重點(diǎn)。兩種方法中無(wú)論是屬性權(quán)值確定還是訓(xùn)練數(shù)據(jù)標(biāo)記，其前提都需要確定威脅因素指標(biāo)體系，但目前的研究中，大多只關(guān)注了紅方的靜態(tài)威脅，很少考慮雙方對(duì)抗因素，缺乏對(duì)戰(zhàn)場(chǎng)威脅動(dòng)態(tài)演化過(guò)程的研究。

真實(shí)戰(zhàn)場(chǎng)環(huán)境中，威脅評(píng)估存在動(dòng)態(tài)性和對(duì)抗性。受藍(lán)方預(yù)警探測(cè)、火力打擊兵器等反制力量及部署的影響，紅方空中目標(biāo)的行動(dòng)會(huì)做出相應(yīng)調(diào)整，從而帶來(lái)其威脅程度的變化，這種變化趨勢(shì)給人工研判帶來(lái)挑戰(zhàn)，亟需智能化方法對(duì)紅方空中目標(biāo)威脅變化趨勢(shì)提前預(yù)判以掌握戰(zhàn)場(chǎng)主動(dòng)。

應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)來(lái)解決對(duì)抗條件下的威脅評(píng)估問(wèn)題，更適用于真實(shí)戰(zhàn)場(chǎng)環(huán)境，可以減少人工參與，同時(shí)提高威脅評(píng)估的智能化程度。本文將強(qiáng)化學(xué)習(xí)應(yīng)用于威脅評(píng)估，是在靜態(tài)威脅評(píng)估方法基礎(chǔ)上，以紅方空中目標(biāo)為智能體設(shè)計(jì)強(qiáng)化學(xué)習(xí)模型，通過(guò)雙方的對(duì)抗博弈，使得強(qiáng)化學(xué)習(xí)模型具備自主決策能力，再對(duì)紅方動(dòng)態(tài)威脅進(jìn)行預(yù)測(cè)，實(shí)現(xiàn)對(duì)抗條件下的紅方空中目標(biāo)威脅評(píng)估。

1 方法框架

對(duì)抗條件下的目標(biāo)威脅評(píng)估方法以強(qiáng)化學(xué)習(xí)技術(shù)為基礎(chǔ)。首先，通過(guò)對(duì)紅方空中目標(biāo)、戰(zhàn)場(chǎng)環(huán)境及藍(lán)方反制力量的抽象，形成適合強(qiáng)化學(xué)習(xí)的戰(zhàn)場(chǎng)態(tài)勢(shì)表述。同時(shí)，以紅方目標(biāo)為智能體，采用強(qiáng)化學(xué)習(xí)技術(shù)，使其具備自主決策的能力，進(jìn)而可得到關(guān)于其下一步行動(dòng)的預(yù)判。最后根據(jù)其行動(dòng)預(yù)判得到紅方空中目標(biāo)的狀態(tài)變化，通過(guò)威脅評(píng)估模型實(shí)現(xiàn)對(duì)紅方目標(biāo)威脅的估計(jì)與預(yù)測(cè)。對(duì)抗條件下的目標(biāo)威脅評(píng)估的基本框架如圖1 所示。

圖1 對(duì)抗條件下威脅評(píng)估框架Fig. 1 Diagram of threat assessment framework under confrontational conditions

對(duì)抗條件下的威脅評(píng)估框架主要由威脅評(píng)估模塊及動(dòng)作預(yù)測(cè)模塊兩部分組成。

在動(dòng)作預(yù)測(cè)模塊中，以紅方空中目標(biāo)為智能體，建立強(qiáng)化學(xué)習(xí)模型，智能體和環(huán)境通過(guò)狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)進(jìn)行交互的方式進(jìn)行訓(xùn)練，生成紅方空中目標(biāo)決策策略。決策策略的形式由強(qiáng)化學(xué)習(xí)算法決定，可以是策略表，也可以是深度神經(jīng)網(wǎng)絡(luò)。訓(xùn)練完成后，輸入當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì)數(shù)據(jù)，可以根據(jù)決策策略輸出紅方空中目標(biāo)下一步動(dòng)作。

動(dòng)作預(yù)測(cè)模塊中，紅方空中目標(biāo)具備一定的態(tài)勢(shì)感知能力，通過(guò)對(duì)藍(lán)方策略及反制力量的實(shí)時(shí)感知，不斷更新強(qiáng)化學(xué)習(xí)模型并生成相應(yīng)策略。

在威脅評(píng)估模塊中，將當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì)輸入動(dòng)作預(yù)測(cè)模塊，預(yù)測(cè)得到紅方空中目標(biāo)下一步動(dòng)作，根據(jù)該動(dòng)作得到其下一步所處的狀態(tài)，然后根據(jù)預(yù)先建立的威脅因素指標(biāo)，使用威脅評(píng)估算法或已經(jīng)訓(xùn)練完成的威脅評(píng)估模型，得出對(duì)抗條件下紅方空中目標(biāo)的威脅預(yù)測(cè)評(píng)估結(jié)果。

2 威脅評(píng)估步驟

對(duì)抗條件下空中目標(biāo)威脅評(píng)估過(guò)程可以分為兩個(gè)主要步驟。一是紅方空中目標(biāo)動(dòng)作預(yù)測(cè)；二是紅方空中目標(biāo)威脅評(píng)估。

2.1 空中目標(biāo)動(dòng)作預(yù)測(cè)

對(duì)紅方空中目標(biāo)動(dòng)作進(jìn)行預(yù)測(cè)，首先構(gòu)建強(qiáng)化學(xué)習(xí)模型，其中重點(diǎn)是設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，然后進(jìn)行模型訓(xùn)練。

2.1.1 強(qiáng)化學(xué)習(xí)模型構(gòu)建

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的范式和方法論之一［12］。其基本原理是讓智能體與環(huán)境不斷地交互反饋，利用交互樣本和反饋信息不斷更新策略且利用策略，最終獲得最優(yōu)策略［13］。

強(qiáng)化學(xué)習(xí)的任務(wù)定義中主要有智能體和環(huán)境（此環(huán)境非戰(zhàn)場(chǎng)環(huán)境）兩個(gè)可以進(jìn)行交互的對(duì)象，基本要素有智能體狀態(tài)、智能體動(dòng)作、狀態(tài)轉(zhuǎn)移概率及獎(jiǎng)勵(lì)函數(shù)［14］。通常通過(guò)四元數(shù)組(S，A，T，R)來(lái)定義強(qiáng)化學(xué)習(xí)的數(shù)學(xué)模型。按照本文方法設(shè)計(jì)思想，這里的智能體是紅方空中目標(biāo)，環(huán)境包括戰(zhàn)場(chǎng)環(huán)境以及藍(lán)方兵力火力。

（1）狀態(tài)空間

提取紅方空中目標(biāo)所處的狀態(tài)，如目標(biāo)位置區(qū)域、距離、航向角等，構(gòu)建狀態(tài)空間。紅方空中目標(biāo)所處的所有狀態(tài)S被定義為有限集{s1，s2，…，sn}，集合的大小為n，即總共有n種狀態(tài)。

（2）動(dòng)作空間

紅方空中目標(biāo)動(dòng)作集A被定義為有限集{a1，a2，…，ak}，集合的大小為k，即紅方空中目標(biāo)可以執(zhí)行k種動(dòng)作。執(zhí)行動(dòng)作可以改變環(huán)境狀態(tài)，A(s) 表示在狀態(tài)s下可執(zhí)行的動(dòng)作集，很明顯A(s) ?A。通常，紅方空中目標(biāo)處在一個(gè)連續(xù)的動(dòng)作空間，可根據(jù)需要簡(jiǎn)化為前進(jìn)、拐彎、返回等。

（3）轉(zhuǎn)換函數(shù)

轉(zhuǎn)換函數(shù)是在當(dāng)前狀態(tài)st下執(zhí)行動(dòng)作at改變?yōu)樾聽(tīng)顟B(tài)st+1的概率分布。F(st，at，st+1)表示在狀態(tài)st執(zhí)行at動(dòng)作最后到達(dá)st+1狀態(tài)的概率，很明顯0 ≤F(st，at，st+1) ≤1。此外，對(duì)于所有狀態(tài)s和動(dòng)作a，，st+1∈S。

（4）獎(jiǎng)勵(lì)函數(shù)

獎(jiǎng)勵(lì)函數(shù)定義為R：S→R，其表示某一狀態(tài)或是在某一狀態(tài)執(zhí)行某一動(dòng)作的獎(jiǎng)勵(lì)。智能體從環(huán)境中獲取當(dāng)前狀態(tài)st和當(dāng)前狀態(tài)的獎(jiǎng)勵(lì)rt，根據(jù)策略執(zhí)行動(dòng)作at，環(huán)境返回給智能體執(zhí)行完動(dòng)作后的狀態(tài)st+1和獎(jiǎng)勵(lì)rt+1，這就是智能體和戰(zhàn)場(chǎng)環(huán)境的一次交互。在空中目標(biāo)狀態(tài)轉(zhuǎn)換過(guò)程中的獎(jiǎng)勵(lì)由任務(wù)完成獎(jiǎng)勵(lì)、任務(wù)區(qū)距離獎(jiǎng)勵(lì)、航向角獎(jiǎng)勵(lì)等綜合而成。

2.1.2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

強(qiáng)化學(xué)習(xí)的目的是實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化［15］。在空中目標(biāo)的任務(wù)場(chǎng)景來(lái)說(shuō)，獎(jiǎng)勵(lì)函數(shù)由以下部分組成：

（1）相對(duì)距離獎(jiǎng)勵(lì)

紅方目標(biāo)距離打擊目標(biāo)的距離越近，完成任務(wù)的可能性越大，其獎(jiǎng)勵(lì)函數(shù)為

式中：λ為距離獎(jiǎng)勵(lì)系數(shù)；d為紅方目標(biāo)距離任務(wù)區(qū)域距離。

（2）視線角獎(jiǎng)勵(lì)

紅方目標(biāo)速度和視線角，視線角越小，完成任務(wù)的可能性越大，其獎(jiǎng)勵(lì)函數(shù)為

式中：μ為視線角獎(jiǎng)勵(lì)系數(shù)；θ為紅方目標(biāo)與任務(wù)區(qū)域的視線角。

（3）突防概率獎(jiǎng)勵(lì)

紅方被藍(lán)方雷達(dá)探測(cè)的概率越低，其獎(jiǎng)勵(lì)越高，其獎(jiǎng)勵(lì)函數(shù)為

式中：p為藍(lán)方雷達(dá)探測(cè)概率。

（4）抵達(dá)任務(wù)區(qū)的獎(jiǎng)勵(lì)

紅方主要目的是避開(kāi)藍(lán)方預(yù)警及攔截，并成功抵達(dá)任務(wù)區(qū)完成任務(wù)。其獎(jiǎng)勵(lì)函數(shù)為

式中：σ為抵達(dá)任務(wù)區(qū)獎(jiǎng)勵(lì)值，為常量。

在當(dāng)前狀態(tài)st，紅方空中目標(biāo)執(zhí)行動(dòng)作at的獎(jiǎng)勵(lì)為

根據(jù)狀態(tài)集和動(dòng)作集可構(gòu)建獎(jiǎng)勵(lì)矩陣：

式中：rij為在狀態(tài)si時(shí)執(zhí)行動(dòng)作aj的獎(jiǎng)勵(lì)；n為狀態(tài)集元素?cái)?shù)目；k為動(dòng)作集元素?cái)?shù)目。

2.1.3 訓(xùn)練實(shí)現(xiàn)

可采用蒙特卡羅法、SARSA、Q-Learning 等強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練學(xué)習(xí)［16］，得到紅方空中目標(biāo)智能體的最優(yōu)策略，根據(jù)該策略實(shí)現(xiàn)對(duì)紅方目標(biāo)的威脅評(píng)估。本文采用Q-Learning 算法。

在設(shè)定衰減因子γ和獎(jiǎng)勵(lì)集合r后，初始化價(jià)值矩陣Q，使其為0，價(jià)值矩陣Q表示智能體從經(jīng)驗(yàn)中學(xué)到的知識(shí)。在一個(gè)episode 中，智能體從任意初始狀態(tài)開(kāi)始，不斷地依概率轉(zhuǎn)移函數(shù)從一個(gè)狀態(tài)轉(zhuǎn)到另一個(gè)狀態(tài)進(jìn)行探索，直至達(dá)到目標(biāo)，然后進(jìn)入下一個(gè)episode，直至模型收斂。此時(shí)，智能體學(xué)到了達(dá)到目標(biāo)狀態(tài)的最佳路徑。

價(jià)值矩陣Q的更新是通過(guò)狀態(tài)-動(dòng)作價(jià)值函數(shù)來(lái)實(shí)現(xiàn)的［17］，其表達(dá)式為

式中：折扣因子γ∈[0，1]，用來(lái)調(diào)節(jié)長(zhǎng)期收益的影響。

利用訓(xùn)練得到的價(jià)值矩陣Q，藍(lán)方可以預(yù)測(cè)紅方目標(biāo)下一步狀態(tài)，再通過(guò)對(duì)下一步狀態(tài)的威脅評(píng)估，實(shí)現(xiàn)在對(duì)抗條件下紅方目標(biāo)威脅估計(jì)。

2.2 威脅評(píng)估建模

建立威脅評(píng)估模型主要包括建立威脅元素指標(biāo)，設(shè)計(jì)評(píng)估方法2 個(gè)主要部分［18］。

2.2.1 建立威脅評(píng)估指標(biāo)

建立威脅元素指標(biāo)首要工作是確定并提取威脅影響因素。提取威脅因素，需處理好完整性、準(zhǔn)確性和及時(shí)性的關(guān)系，即需要考慮威脅目標(biāo)具體情況，確定威脅目標(biāo)的各項(xiàng)性能，又需要結(jié)合戰(zhàn)場(chǎng)實(shí)際情況，明確目標(biāo)運(yùn)動(dòng)過(guò)程特點(diǎn)，甚至還需考慮紅方行動(dòng)意圖，搞清其任務(wù)目的。

為簡(jiǎn)化問(wèn)題，主要從空中目標(biāo)作戰(zhàn)意圖、運(yùn)動(dòng)狀態(tài)、打擊能力、體系能力4 個(gè)方面表征目標(biāo)威脅程度?？罩心繕?biāo)作戰(zhàn)意圖一般由目標(biāo)類型、目標(biāo)國(guó)別、目標(biāo)任務(wù)、出現(xiàn)空域等要素反映；運(yùn)動(dòng)狀態(tài)一般包括空中目標(biāo)與打擊目標(biāo)之間的視線角、相對(duì)距離、飛行速度、飛行高度等；打擊能力一般包括其感知能力、生存能力、載荷能力、人員素質(zhì)等；體系能力一般包括空中目標(biāo)編隊(duì)數(shù)量、編隊(duì)組成、伴隨保障、情報(bào)保障等。具體如圖2 所示。

圖2 空中目標(biāo)威脅評(píng)估指標(biāo)體系Fig. 2 Aerial target threat assessment index

2.2.2 設(shè)計(jì)威脅評(píng)估方法

常用的威脅評(píng)估方法較多，本文將威脅評(píng)估視為分類問(wèn)題，通過(guò)生成仿真數(shù)據(jù)，經(jīng)過(guò)專家評(píng)估打分及一致性檢驗(yàn)形成數(shù)據(jù)集，然后采用GA-BP（genetic algorithm-back propagation）算法進(jìn)行訓(xùn)練，使得模型具備威脅評(píng)估能力。

BP 網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種，由多個(gè)神經(jīng)元組成多層結(jié)構(gòu)的非線性網(wǎng)絡(luò)，然后通過(guò)大量標(biāo)記數(shù)據(jù)訓(xùn)練，進(jìn)行調(diào)整網(wǎng)絡(luò)模型權(quán)重和閾值，最終得到自變量與因變量間的擬合函數(shù)。雖然BP 網(wǎng)絡(luò)擬合能力很強(qiáng)，但在訓(xùn)練過(guò)程中容易陷入局部最優(yōu)。GA是一種搜索算法，具有很強(qiáng)的全局搜索能力，可用于解決最優(yōu)化問(wèn)題。因此，將GA 與BP 網(wǎng)絡(luò)相結(jié)合形成GA-BP 算法，應(yīng)用遺傳算法搜尋最優(yōu)初始網(wǎng)絡(luò)權(quán)重和閾值，能夠有效提升BP 網(wǎng)絡(luò)的擬合效果［19］。

雖然GA-BP算法訓(xùn)練過(guò)程中需要更多次的迭代，但訓(xùn)練完成后，威脅評(píng)估所消耗時(shí)間與BP網(wǎng)絡(luò)一樣。

3 仿真分析

為驗(yàn)證本文威脅評(píng)估方法的有效性，設(shè)計(jì)一個(gè)紅方空中目標(biāo)空襲的想定，結(jié)合此想定，評(píng)估對(duì)抗條件下紅方空中目標(biāo)威脅。

3.1 仿真環(huán)境及參數(shù)設(shè)置

實(shí)驗(yàn)平臺(tái)為64 位Windows10 系統(tǒng)，CPU 型號(hào)為Intel（R） Core（TM） i7-10700 CPU@2.90 GHz，內(nèi)存為16 GB，基于Python 語(yǔ)言編程。

GA-BP 算法所用BP 網(wǎng)絡(luò)設(shè)計(jì)為3 層結(jié)構(gòu)：輸入層，隱藏層，輸出層。輸入層神經(jīng)元個(gè)數(shù)與威脅指標(biāo)數(shù)目相一致；隱藏層共20 個(gè)神經(jīng)元；輸出層5 個(gè)神經(jīng)元，與威脅程度層級(jí)相對(duì)應(yīng)，使用ReLU 激活函數(shù)。GA 算法種群規(guī)模為40，每個(gè)個(gè)體長(zhǎng)度為BP 網(wǎng)絡(luò)所有權(quán)值和閾值數(shù)目相對(duì)應(yīng)。進(jìn)化次數(shù)為100次，交叉概率為0.4，變異概率為0.05。個(gè)體適應(yīng)度函數(shù)為訓(xùn)練數(shù)據(jù)預(yù)測(cè)誤差絕對(duì)值之和。

3.2 想定設(shè)計(jì)

所設(shè)計(jì)的想定如圖3 所示。紅方出動(dòng)轟炸機(jī)編隊(duì)，任務(wù)目標(biāo)是轟炸藍(lán)方某港口。藍(lán)方在港口部署了防空導(dǎo)彈，其預(yù)警與攔截能力范圍由綠圈給出，同時(shí)，藍(lán)方前出一個(gè)海基預(yù)警攔截編隊(duì)與空基預(yù)警攔截編隊(duì)，?；A(yù)警攔截編隊(duì)能力范圍由圖中紅圈給出，空基預(yù)警攔截編隊(duì)能力范圍由圖中藍(lán)圈給出。

圖3 作戰(zhàn)想定圖示Fig. 3 Operational scenario diagram

為簡(jiǎn)化問(wèn)題，本文將對(duì)抗場(chǎng)景抽象成適合強(qiáng)化學(xué)習(xí)的戰(zhàn)場(chǎng)態(tài)勢(shì)表示，在其基礎(chǔ)上進(jìn)行威脅評(píng)估。

3.3 過(guò)程及分析

以紅方轟炸機(jī)空中目標(biāo)為智能體，建立其狀態(tài)空間、動(dòng)作空間。根據(jù)雙方兵力火力、戰(zhàn)場(chǎng)環(huán)境及交互關(guān)系，將紅方轟炸機(jī)目標(biāo)可能所處的區(qū)域抽象成6 種狀態(tài)，構(gòu)建狀態(tài)空間{s1，s2，s3，s4，s5，s6}，如圖4所示。

圖4 狀態(tài)空間圖示Fig. 4 State space diagram

在狀態(tài)空間基礎(chǔ)上，定義動(dòng)作為“進(jìn)入某狀態(tài)”，形成6 個(gè)動(dòng)作組成的動(dòng)作集，以動(dòng)作a3為例，其表示“進(jìn)入狀態(tài)s3”。

將狀態(tài)空間及動(dòng)作空間表示成有向圖的形式，如圖5 所示。狀態(tài)為節(jié)點(diǎn)，節(jié)點(diǎn)3 為目標(biāo)節(jié)點(diǎn)，代表紅方轟炸機(jī)空中目標(biāo)的任務(wù)終點(diǎn)s3。動(dòng)作為邊，部分節(jié)點(diǎn)間為雙向邊，表示這2 種狀態(tài)間可以相互轉(zhuǎn)換。

圖5 有向圖圖示Fig. 5 Directed graph

在狀態(tài)s下執(zhí)行動(dòng)作a定義為等概率事件。然后，根據(jù)2.1 節(jié)獎(jiǎng)勵(lì)函數(shù)的定義，獎(jiǎng)勵(lì)函數(shù)相關(guān)參數(shù)設(shè)定為：距離獎(jiǎng)勵(lì)系數(shù)λ為50，目標(biāo)距離任務(wù)區(qū)域距離d離散化為1，2，3，4，分別表示紅方目標(biāo)到目標(biāo)區(qū)域所需跨越的區(qū)域方格數(shù)。視線角獎(jiǎng)勵(lì)系數(shù)μ為50，θ離散化為0，90，分別表示紅方目標(biāo)與目標(biāo)區(qū)域間的視線角。突防概率獎(jiǎng)勵(lì)方面，考慮到?；c陸基雷達(dá)存在著一定的低空盲區(qū)，將?；A(yù)警、陸基預(yù)警與空基預(yù)警的探測(cè)概率p分別設(shè)為0.75，0.75和1。抵達(dá)任務(wù)區(qū)獎(jiǎng)勵(lì)值σ為100，后退獎(jiǎng)勵(lì)為0。經(jīng)過(guò)計(jì)算可得R矩陣為

將其表現(xiàn)在有向圖中，如圖6 所示。

圖6 獎(jiǎng)勵(lì)值標(biāo)注Fig. 6 Reward value annotation

經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練，不斷更新，得到最終的Q矩陣：

將其表現(xiàn)在有向圖中，如圖7 所示。

圖7 Q 值標(biāo)注Fig. 7 Q value annotation

從圖7 中可以看出，紅方目標(biāo)最優(yōu)攻擊路線有2條：①?gòu)墓?jié)點(diǎn)1 進(jìn)入，經(jīng)過(guò)4，5，6 節(jié)點(diǎn)，到達(dá)節(jié)點(diǎn)3 目標(biāo)節(jié)點(diǎn)；②從節(jié)點(diǎn)4 進(jìn)入，經(jīng)過(guò)5，6 節(jié)點(diǎn)，抵達(dá)節(jié)點(diǎn)3目標(biāo)節(jié)點(diǎn)。

一般而言，空中目標(biāo)在攻擊時(shí)將選擇最優(yōu)攻擊路徑。將紅方目標(biāo)最優(yōu)路徑所經(jīng)過(guò)節(jié)點(diǎn)時(shí)的各項(xiàng)評(píng)估指標(biāo)分別輸入已經(jīng)訓(xùn)練好的BP 模型，便可實(shí)現(xiàn)對(duì)抗條件下紅方空中目標(biāo)的威脅估計(jì)。

將最優(yōu)路徑所經(jīng)歷的節(jié)點(diǎn)逐個(gè)輸入評(píng)估模型，可得紅方目標(biāo)在4，5，6 節(jié)點(diǎn)威脅等級(jí)分別為3，4，5，在1，2 節(jié)點(diǎn)的威脅等級(jí)分別為2，3。而在不考慮藍(lán)方對(duì)抗因素時(shí)，紅方目標(biāo)在4，5，6 節(jié)點(diǎn)威脅等級(jí)分別為1，3，5，在1，2 節(jié)點(diǎn)的威脅等級(jí)分別為3，5。相比較而言，考慮了藍(lán)方對(duì)抗因素的威脅評(píng)估結(jié)果更符合戰(zhàn)場(chǎng)實(shí)際情況，紅方空中目標(biāo)在防守更薄弱的空域出現(xiàn)時(shí)構(gòu)成的威脅更大。

在考慮藍(lán)方策略變化的情況下，只需對(duì)紅方空中目標(biāo)的強(qiáng)化學(xué)習(xí)模型進(jìn)行更新，根據(jù)藍(lán)方策略變化情況更新模型的狀態(tài)空間，即可按照上述過(guò)程生成相應(yīng)的應(yīng)對(duì)策略。

4 建議

隨著現(xiàn)代聯(lián)合作戰(zhàn)樣式的廣泛實(shí)踐，紅藍(lán)雙方在多維多域空間的對(duì)抗日益激烈。尤其是在信息化、智能化條件下，戰(zhàn)場(chǎng)態(tài)勢(shì)感知能力得到極大增強(qiáng)，紅方威脅與藍(lán)方反制密切相關(guān)，威脅評(píng)估更多體現(xiàn)為動(dòng)態(tài)過(guò)程。對(duì)威脅評(píng)估概念的理解已不能僅僅局限于某一時(shí)刻的威脅，而是要在對(duì)紅方能力及意圖分析基礎(chǔ)之上，綜合考慮藍(lán)方能力及兵力部署對(duì)紅方的影響，開(kāi)展對(duì)抗條件下的威脅評(píng)估研究。

4.1 建立知識(shí)與數(shù)據(jù)雙驅(qū)動(dòng)的威脅評(píng)估指標(biāo)體系

在空中目標(biāo)威脅評(píng)估指標(biāo)選取及體系建立方面，需要考慮眾多影響因素，所選取的評(píng)估指標(biāo)既要具有代表性，還應(yīng)具有廣泛性，能從不同角度、不同層次體現(xiàn)目標(biāo)的威脅程度。隨著戰(zhàn)爭(zhēng)樣式的發(fā)展，戰(zhàn)場(chǎng)環(huán)境日趨復(fù)雜，“戰(zhàn)爭(zhēng)迷霧”效應(yīng)凸顯，爆炸式增長(zhǎng)的戰(zhàn)場(chǎng)大數(shù)據(jù)已給人腦的信息處理能力帶來(lái)極大的挑戰(zhàn)，人工選取威脅影響因素并建立指標(biāo)體系的方法已經(jīng)難以適應(yīng)形勢(shì)的發(fā)展。隨著人工智能技術(shù)的發(fā)展，深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù)為威脅指標(biāo)體系的構(gòu)建帶來(lái)了極大的促進(jìn)。人工選取威脅影響因素依賴人的經(jīng)驗(yàn)，體現(xiàn)了知識(shí)驅(qū)動(dòng)，人工智能較多地依賴歷史數(shù)據(jù)，體現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)。如將二者進(jìn)行有效結(jié)合，將極大克服傳統(tǒng)人工構(gòu)建威脅評(píng)估指標(biāo)體系的不足，增強(qiáng)其合理性。

4.2 開(kāi)展對(duì)抗條件下智能化評(píng)估方法的研究

預(yù)警防空作戰(zhàn)實(shí)踐具有很強(qiáng)的對(duì)抗性。在體系作戰(zhàn)框架下，紅方空中目標(biāo)具有很強(qiáng)的態(tài)勢(shì)感知能力，對(duì)藍(lán)方的兵力火力部署及能力變化反應(yīng)比較敏感，威脅的對(duì)抗性體現(xiàn)較為明顯。相比傳統(tǒng)靜態(tài)的威脅評(píng)估方法，研究對(duì)抗條件下的威脅評(píng)估問(wèn)題能夠?qū)ν{的變化趨勢(shì)更好地預(yù)測(cè)，對(duì)指導(dǎo)預(yù)警防空作戰(zhàn)具有更大現(xiàn)實(shí)意義。由于強(qiáng)化學(xué)習(xí)方法可以通過(guò)與環(huán)境交互獲得行為指導(dǎo)，在對(duì)抗中實(shí)現(xiàn)智能體的自主學(xué)習(xí)，從而在對(duì)抗條件下的威脅評(píng)估中得以應(yīng)用。但隨著戰(zhàn)場(chǎng)紅藍(lán)雙方對(duì)抗的激烈程度提高，戰(zhàn)場(chǎng)態(tài)勢(shì)變化劇烈，在使用基于經(jīng)典強(qiáng)化學(xué)習(xí)的目標(biāo)威脅評(píng)估方法時(shí)，存在著目標(biāo)狀態(tài)空間與動(dòng)作空間進(jìn)一步擴(kuò)大，或者為連續(xù)空間的情況，從而帶來(lái)維數(shù)爆炸的問(wèn)題。深度強(qiáng)化學(xué)習(xí)技術(shù)具有強(qiáng)大的處理復(fù)雜、高維環(huán)境特征的能力，在該場(chǎng)景的應(yīng)用中具有廣闊的前景。

4.3 提高威脅評(píng)估結(jié)果的可解釋性和可信度

人工智能技術(shù)的運(yùn)用，為解決對(duì)抗條件下的威脅評(píng)估問(wèn)題帶來(lái)契機(jī)，但同時(shí)也存在著結(jié)果可解釋性不強(qiáng)、可信度難評(píng)價(jià)的問(wèn)題。此問(wèn)題的存在，為該技術(shù)的應(yīng)用帶來(lái)一定的局限。對(duì)于用戶來(lái)說(shuō)，具有高可信度的方法更有利于輔助決策。人工智能技術(shù)的可解釋性要從數(shù)據(jù)采集、算法設(shè)計(jì)與實(shí)施、結(jié)果展示等環(huán)節(jié)入手。方法設(shè)計(jì)與實(shí)施存在著一定的“黑盒”特征，但數(shù)據(jù)采集與結(jié)果展示環(huán)節(jié)的解釋相對(duì)較為容易，解釋越透徹越能增加評(píng)估方法的可信度。很多人工智能方法對(duì)數(shù)據(jù)都有很強(qiáng)的依賴性，比如經(jīng)典機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等。大規(guī)模的、區(qū)分度高的、涵蓋問(wèn)題特征分布的數(shù)據(jù)集是智能化方法取得較好效果的基礎(chǔ)，其訓(xùn)練得到的模型具有更強(qiáng)的泛化能力。根據(jù)不同方法的特點(diǎn)，從方法實(shí)施的不同階段，設(shè)計(jì)相適應(yīng)的評(píng)價(jià)指標(biāo)，綜合運(yùn)用各種可視化手段，均能提高可信度，促進(jìn)用戶對(duì)評(píng)估方法的理解與運(yùn)用。

5 結(jié)束語(yǔ)

本文提出了一種對(duì)抗條件下空中目標(biāo)威脅評(píng)估方法，在建立威脅評(píng)估模型的基礎(chǔ)上，根據(jù)強(qiáng)化學(xué)習(xí)的思想，得出紅方目標(biāo)的最優(yōu)路徑，并根據(jù)最優(yōu)路徑對(duì)目標(biāo)的下一步威脅進(jìn)行評(píng)估，實(shí)現(xiàn)對(duì)抗條件下空中目標(biāo)的威脅評(píng)估。經(jīng)過(guò)仿真案例分析，該方法對(duì)紅方目標(biāo)的威脅進(jìn)行評(píng)估更符合戰(zhàn)場(chǎng)實(shí)際。但同時(shí)，也應(yīng)看到在使用基于經(jīng)典強(qiáng)化學(xué)習(xí)的目標(biāo)威脅評(píng)估方法時(shí)，還存在著諸多不足，對(duì)此，提出3條建議便于對(duì)此類問(wèn)題的進(jìn)一步研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡