国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

對(duì)抗條件下空中目標(biāo)威脅評(píng)估方法 *

2024-03-18 07:22:24梁復(fù)臺(tái)周焰張晨浩宋子豪趙小瑞
現(xiàn)代防御技術(shù) 2024年1期
關(guān)鍵詞:藍(lán)方紅方威脅

梁復(fù)臺(tái),周焰 ,張晨浩 ,宋子豪 ,趙小瑞

(1. 空軍預(yù)警學(xué)院,湖北 武漢 430000;2. 中國(guó)人民解放軍31121 部隊(duì),江西 南昌 330000)

0 引言

1988 年數(shù)據(jù)融合聯(lián)合指揮實(shí)驗(yàn)室提出JDL(joint directors of laboratories)模型,其將威脅評(píng)估(threat assessment,TA)定義為數(shù)據(jù)融合系統(tǒng)中的高層次數(shù)據(jù)融合處理過(guò)程,其通過(guò)推理紅方意圖和目的,量化并判斷紅方行為對(duì)藍(lán)方的威脅程度[1]。文獻(xiàn)[2-3]對(duì)初始JDL 模型中威脅評(píng)估的解釋進(jìn)行了擴(kuò)展,文獻(xiàn)[2]指出威脅評(píng)估應(yīng)該擴(kuò)展為影響評(píng)估,包括威脅評(píng)估、行為分析和結(jié)果預(yù)測(cè)。同時(shí),文獻(xiàn)[4]認(rèn)為威脅評(píng)估不僅要對(duì)紅方能力及意圖進(jìn)行分析,還要對(duì)藍(lán)方能力進(jìn)行分析,將它們結(jié)合起來(lái)綜合分析,才算是威脅評(píng)估。在這個(gè)定義中,考慮了對(duì)抗雙方的能力,體現(xiàn)了威脅的對(duì)抗性。文獻(xiàn)[5]對(duì)JDL 數(shù)據(jù)融合模型進(jìn)行了新修訂,強(qiáng)調(diào)了威脅評(píng)估中雙方行動(dòng)計(jì)劃之間的互動(dòng),進(jìn)一步明確了威脅評(píng)估的對(duì)抗性。

目前,戰(zhàn)場(chǎng)威脅評(píng)估的方法主要有:貝葉斯推理[6]、模糊推理[7]、多屬性決策理論[8]、案例推理[9]、專家系統(tǒng)或基于知識(shí)的方法[10]、遺傳算法[11]等??偨Y(jié)起來(lái),主要分為2 類:一是建立威脅評(píng)估數(shù)學(xué)模型的方法;二是基于各種智能算法的威脅評(píng)估方法。建立威脅評(píng)估數(shù)學(xué)模型時(shí),對(duì)屬性權(quán)重確定與方案排序是重點(diǎn)。采用基于智能算法的威脅評(píng)估方法,對(duì)數(shù)據(jù)的標(biāo)記及模型的訓(xùn)練是重點(diǎn)。兩種方法中無(wú)論是屬性權(quán)值確定還是訓(xùn)練數(shù)據(jù)標(biāo)記,其前提都需要確定威脅因素指標(biāo)體系,但目前的研究中,大多只關(guān)注了紅方的靜態(tài)威脅,很少考慮雙方對(duì)抗因素,缺乏對(duì)戰(zhàn)場(chǎng)威脅動(dòng)態(tài)演化過(guò)程的研究。

真實(shí)戰(zhàn)場(chǎng)環(huán)境中,威脅評(píng)估存在動(dòng)態(tài)性和對(duì)抗性。受藍(lán)方預(yù)警探測(cè)、火力打擊兵器等反制力量及部署的影響,紅方空中目標(biāo)的行動(dòng)會(huì)做出相應(yīng)調(diào)整,從而帶來(lái)其威脅程度的變化,這種變化趨勢(shì)給人工研判帶來(lái)挑戰(zhàn),亟需智能化方法對(duì)紅方空中目標(biāo)威脅變化趨勢(shì)提前預(yù)判以掌握戰(zhàn)場(chǎng)主動(dòng)。

應(yīng)用強(qiáng)化學(xué)習(xí)技術(shù)來(lái)解決對(duì)抗條件下的威脅評(píng)估問(wèn)題,更適用于真實(shí)戰(zhàn)場(chǎng)環(huán)境,可以減少人工參與,同時(shí)提高威脅評(píng)估的智能化程度。本文將強(qiáng)化學(xué)習(xí)應(yīng)用于威脅評(píng)估,是在靜態(tài)威脅評(píng)估方法基礎(chǔ)上,以紅方空中目標(biāo)為智能體設(shè)計(jì)強(qiáng)化學(xué)習(xí)模型,通過(guò)雙方的對(duì)抗博弈,使得強(qiáng)化學(xué)習(xí)模型具備自主決策能力,再對(duì)紅方動(dòng)態(tài)威脅進(jìn)行預(yù)測(cè),實(shí)現(xiàn)對(duì)抗條件下的紅方空中目標(biāo)威脅評(píng)估。

1 方法框架

對(duì)抗條件下的目標(biāo)威脅評(píng)估方法以強(qiáng)化學(xué)習(xí)技術(shù)為基礎(chǔ)。首先,通過(guò)對(duì)紅方空中目標(biāo)、戰(zhàn)場(chǎng)環(huán)境及藍(lán)方反制力量的抽象,形成適合強(qiáng)化學(xué)習(xí)的戰(zhàn)場(chǎng)態(tài)勢(shì)表述。同時(shí),以紅方目標(biāo)為智能體,采用強(qiáng)化學(xué)習(xí)技術(shù),使其具備自主決策的能力,進(jìn)而可得到關(guān)于其下一步行動(dòng)的預(yù)判。最后根據(jù)其行動(dòng)預(yù)判得到紅方空中目標(biāo)的狀態(tài)變化,通過(guò)威脅評(píng)估模型實(shí)現(xiàn)對(duì)紅方目標(biāo)威脅的估計(jì)與預(yù)測(cè)。對(duì)抗條件下的目標(biāo)威脅評(píng)估的基本框架如圖1 所示。

圖1 對(duì)抗條件下威脅評(píng)估框架Fig. 1 Diagram of threat assessment framework under confrontational conditions

對(duì)抗條件下的威脅評(píng)估框架主要由威脅評(píng)估模塊及動(dòng)作預(yù)測(cè)模塊兩部分組成。

在動(dòng)作預(yù)測(cè)模塊中,以紅方空中目標(biāo)為智能體,建立強(qiáng)化學(xué)習(xí)模型,智能體和環(huán)境通過(guò)狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)進(jìn)行交互的方式進(jìn)行訓(xùn)練,生成紅方空中目標(biāo)決策策略。決策策略的形式由強(qiáng)化學(xué)習(xí)算法決定,可以是策略表,也可以是深度神經(jīng)網(wǎng)絡(luò)。訓(xùn)練完成后,輸入當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì)數(shù)據(jù),可以根據(jù)決策策略輸出紅方空中目標(biāo)下一步動(dòng)作。

動(dòng)作預(yù)測(cè)模塊中,紅方空中目標(biāo)具備一定的態(tài)勢(shì)感知能力,通過(guò)對(duì)藍(lán)方策略及反制力量的實(shí)時(shí)感知,不斷更新強(qiáng)化學(xué)習(xí)模型并生成相應(yīng)策略。

在威脅評(píng)估模塊中,將當(dāng)前戰(zhàn)場(chǎng)態(tài)勢(shì)輸入動(dòng)作預(yù)測(cè)模塊,預(yù)測(cè)得到紅方空中目標(biāo)下一步動(dòng)作,根據(jù)該動(dòng)作得到其下一步所處的狀態(tài),然后根據(jù)預(yù)先建立的威脅因素指標(biāo),使用威脅評(píng)估算法或已經(jīng)訓(xùn)練完成的威脅評(píng)估模型,得出對(duì)抗條件下紅方空中目標(biāo)的威脅預(yù)測(cè)評(píng)估結(jié)果。

2 威脅評(píng)估步驟

對(duì)抗條件下空中目標(biāo)威脅評(píng)估過(guò)程可以分為兩個(gè)主要步驟。一是紅方空中目標(biāo)動(dòng)作預(yù)測(cè);二是紅方空中目標(biāo)威脅評(píng)估。

2.1 空中目標(biāo)動(dòng)作預(yù)測(cè)

對(duì)紅方空中目標(biāo)動(dòng)作進(jìn)行預(yù)測(cè),首先構(gòu)建強(qiáng)化學(xué)習(xí)模型,其中重點(diǎn)是設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),然后進(jìn)行模型訓(xùn)練。

2.1.1 強(qiáng)化學(xué)習(xí)模型構(gòu)建

強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的范式和方法論之一[12]。其基本原理是讓智能體與環(huán)境不斷地交互反饋,利用交互樣本和反饋信息不斷更新策略且利用策略,最終獲得最優(yōu)策略[13]。

強(qiáng)化學(xué)習(xí)的任務(wù)定義中主要有智能體和環(huán)境(此環(huán)境非戰(zhàn)場(chǎng)環(huán)境)兩個(gè)可以進(jìn)行交互的對(duì)象,基本要素有智能體狀態(tài)、智能體動(dòng)作、狀態(tài)轉(zhuǎn)移概率及獎(jiǎng)勵(lì)函數(shù)[14]。通常通過(guò)四元數(shù)組(S,A,T,R)來(lái)定義強(qiáng)化學(xué)習(xí)的數(shù)學(xué)模型。按照本文方法設(shè)計(jì)思想,這里的智能體是紅方空中目標(biāo),環(huán)境包括戰(zhàn)場(chǎng)環(huán)境以及藍(lán)方兵力火力。

(1) 狀態(tài)空間

提取紅方空中目標(biāo)所處的狀態(tài),如目標(biāo)位置區(qū)域、距離、航向角等,構(gòu)建狀態(tài)空間。紅方空中目標(biāo)所處的所有狀態(tài)S被定義為有限集{s1,s2,…,sn},集合的大小為n,即總共有n種狀態(tài)。

(2) 動(dòng)作空間

紅方空中目標(biāo)動(dòng)作集A被定義為有限集{a1,a2,…,ak},集合的大小為k,即紅方空中目標(biāo)可以執(zhí)行k種動(dòng)作。執(zhí)行動(dòng)作可以改變環(huán)境狀態(tài),A(s) 表示在狀態(tài)s下可執(zhí)行的動(dòng)作集,很明顯A(s) ?A。通常,紅方空中目標(biāo)處在一個(gè)連續(xù)的動(dòng)作空間,可根據(jù)需要簡(jiǎn)化為前進(jìn)、拐彎、返回等。

(3) 轉(zhuǎn)換函數(shù)

轉(zhuǎn)換函數(shù)是在當(dāng)前狀態(tài)st下執(zhí)行動(dòng)作at改變?yōu)樾聽(tīng)顟B(tài)st+1的概率分布。F(st,at,st+1)表示在狀態(tài)st執(zhí)行at動(dòng)作最后到達(dá)st+1狀態(tài)的概率,很明顯0 ≤F(st,at,st+1) ≤1。此外,對(duì)于所有狀態(tài)s和動(dòng)作a,,st+1∈S。

(4) 獎(jiǎng)勵(lì)函數(shù)

獎(jiǎng)勵(lì)函數(shù)定義為R:S→R,其表示某一狀態(tài)或是在某一狀態(tài)執(zhí)行某一動(dòng)作的獎(jiǎng)勵(lì)。智能體從環(huán)境中獲取當(dāng)前狀態(tài)st和當(dāng)前狀態(tài)的獎(jiǎng)勵(lì)rt,根據(jù)策略執(zhí)行動(dòng)作at,環(huán)境返回給智能體執(zhí)行完動(dòng)作后的狀態(tài)st+1和獎(jiǎng)勵(lì)rt+1,這就是智能體和戰(zhàn)場(chǎng)環(huán)境的一次交互。在空中目標(biāo)狀態(tài)轉(zhuǎn)換過(guò)程中的獎(jiǎng)勵(lì)由任務(wù)完成獎(jiǎng)勵(lì)、任務(wù)區(qū)距離獎(jiǎng)勵(lì)、航向角獎(jiǎng)勵(lì)等綜合而成。

2.1.2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

強(qiáng)化學(xué)習(xí)的目的是實(shí)現(xiàn)獎(jiǎng)勵(lì)最大化[15]。在空中目標(biāo)的任務(wù)場(chǎng)景來(lái)說(shuō),獎(jiǎng)勵(lì)函數(shù)由以下部分組成:

(1) 相對(duì)距離獎(jiǎng)勵(lì)

紅方目標(biāo)距離打擊目標(biāo)的距離越近,完成任務(wù)的可能性越大,其獎(jiǎng)勵(lì)函數(shù)為

式中:λ為距離獎(jiǎng)勵(lì)系數(shù);d為紅方目標(biāo)距離任務(wù)區(qū)域距離。

(2) 視線角獎(jiǎng)勵(lì)

紅方目標(biāo)速度和視線角,視線角越小,完成任務(wù)的可能性越大,其獎(jiǎng)勵(lì)函數(shù)為

式中:μ為視線角獎(jiǎng)勵(lì)系數(shù);θ為紅方目標(biāo)與任務(wù)區(qū)域的視線角。

(3) 突防概率獎(jiǎng)勵(lì)

紅方被藍(lán)方雷達(dá)探測(cè)的概率越低,其獎(jiǎng)勵(lì)越高,其獎(jiǎng)勵(lì)函數(shù)為

式中:p為藍(lán)方雷達(dá)探測(cè)概率。

(4) 抵達(dá)任務(wù)區(qū)的獎(jiǎng)勵(lì)

紅方主要目的是避開(kāi)藍(lán)方預(yù)警及攔截,并成功抵達(dá)任務(wù)區(qū)完成任務(wù)。其獎(jiǎng)勵(lì)函數(shù)為

式中:σ為抵達(dá)任務(wù)區(qū)獎(jiǎng)勵(lì)值,為常量。

在當(dāng)前狀態(tài)st,紅方空中目標(biāo)執(zhí)行動(dòng)作at的獎(jiǎng)勵(lì)為

根據(jù)狀態(tài)集和動(dòng)作集可構(gòu)建獎(jiǎng)勵(lì)矩陣:

式中:rij為在狀態(tài)si時(shí)執(zhí)行動(dòng)作aj的獎(jiǎng)勵(lì);n為狀態(tài)集元素?cái)?shù)目;k為動(dòng)作集元素?cái)?shù)目。

2.1.3 訓(xùn)練實(shí)現(xiàn)

可采用蒙特卡羅法、SARSA、Q-Learning 等強(qiáng)化學(xué)習(xí)算法進(jìn)行訓(xùn)練學(xué)習(xí)[16],得到紅方空中目標(biāo)智能體的最優(yōu)策略,根據(jù)該策略實(shí)現(xiàn)對(duì)紅方目標(biāo)的威脅評(píng)估。本文采用Q-Learning 算法。

在設(shè)定衰減因子γ和獎(jiǎng)勵(lì)集合r后,初始化價(jià)值矩陣Q,使其為0,價(jià)值矩陣Q表示智能體從經(jīng)驗(yàn)中學(xué)到的知識(shí)。在一個(gè)episode 中,智能體從任意初始狀態(tài)開(kāi)始,不斷地依概率轉(zhuǎn)移函數(shù)從一個(gè)狀態(tài)轉(zhuǎn)到另一個(gè)狀態(tài)進(jìn)行探索,直至達(dá)到目標(biāo),然后進(jìn)入下一個(gè)episode,直至模型收斂。此時(shí),智能體學(xué)到了達(dá)到目標(biāo)狀態(tài)的最佳路徑。

價(jià)值矩陣Q的更新是通過(guò)狀態(tài)-動(dòng)作價(jià)值函數(shù)來(lái)實(shí)現(xiàn)的[17],其表達(dá)式為

式中:折扣因子γ∈[0,1],用來(lái)調(diào)節(jié)長(zhǎng)期收益的影響。

利用訓(xùn)練得到的價(jià)值矩陣Q,藍(lán)方可以預(yù)測(cè)紅方目標(biāo)下一步狀態(tài),再通過(guò)對(duì)下一步狀態(tài)的威脅評(píng)估,實(shí)現(xiàn)在對(duì)抗條件下紅方目標(biāo)威脅估計(jì)。

2.2 威脅評(píng)估建模

建立威脅評(píng)估模型主要包括建立威脅元素指標(biāo),設(shè)計(jì)評(píng)估方法2 個(gè)主要部分[18]。

2.2.1 建立威脅評(píng)估指標(biāo)

建立威脅元素指標(biāo)首要工作是確定并提取威脅影響因素。提取威脅因素,需處理好完整性、準(zhǔn)確性和及時(shí)性的關(guān)系,即需要考慮威脅目標(biāo)具體情況,確定威脅目標(biāo)的各項(xiàng)性能,又需要結(jié)合戰(zhàn)場(chǎng)實(shí)際情況,明確目標(biāo)運(yùn)動(dòng)過(guò)程特點(diǎn),甚至還需考慮紅方行動(dòng)意圖,搞清其任務(wù)目的。

為簡(jiǎn)化問(wèn)題,主要從空中目標(biāo)作戰(zhàn)意圖、運(yùn)動(dòng)狀態(tài)、打擊能力、體系能力4 個(gè)方面表征目標(biāo)威脅程度??罩心繕?biāo)作戰(zhàn)意圖一般由目標(biāo)類型、目標(biāo)國(guó)別、目標(biāo)任務(wù)、出現(xiàn)空域等要素反映;運(yùn)動(dòng)狀態(tài)一般包括空中目標(biāo)與打擊目標(biāo)之間的視線角、相對(duì)距離、飛行速度、飛行高度等;打擊能力一般包括其感知能力、生存能力、載荷能力、人員素質(zhì)等;體系能力一般包括空中目標(biāo)編隊(duì)數(shù)量、編隊(duì)組成、伴隨保障、情報(bào)保障等。具體如圖2 所示。

圖2 空中目標(biāo)威脅評(píng)估指標(biāo)體系Fig. 2 Aerial target threat assessment index

2.2.2 設(shè)計(jì)威脅評(píng)估方法

常用的威脅評(píng)估方法較多,本文將威脅評(píng)估視為分類問(wèn)題,通過(guò)生成仿真數(shù)據(jù),經(jīng)過(guò)專家評(píng)估打分及一致性檢驗(yàn)形成數(shù)據(jù)集,然后采用GA-BP(genetic algorithm-back propagation)算法進(jìn)行訓(xùn)練,使得模型具備威脅評(píng)估能力。

BP 網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,由多個(gè)神經(jīng)元組成多層結(jié)構(gòu)的非線性網(wǎng)絡(luò),然后通過(guò)大量標(biāo)記數(shù)據(jù)訓(xùn)練,進(jìn)行調(diào)整網(wǎng)絡(luò)模型權(quán)重和閾值,最終得到自變量與因變量間的擬合函數(shù)。雖然BP 網(wǎng)絡(luò)擬合能力很強(qiáng),但在訓(xùn)練過(guò)程中容易陷入局部最優(yōu)。GA是一種搜索算法,具有很強(qiáng)的全局搜索能力,可用于解決最優(yōu)化問(wèn)題。因此,將GA 與BP 網(wǎng)絡(luò)相結(jié)合形成GA-BP 算法,應(yīng)用遺傳算法搜尋最優(yōu)初始網(wǎng)絡(luò)權(quán)重和閾值,能夠有效提升BP 網(wǎng)絡(luò)的擬合效果[19]。

雖然GA-BP算法訓(xùn)練過(guò)程中需要更多次的迭代,但訓(xùn)練完成后,威脅評(píng)估所消耗時(shí)間與BP網(wǎng)絡(luò)一樣。

3 仿真分析

為驗(yàn)證本文威脅評(píng)估方法的有效性,設(shè)計(jì)一個(gè)紅方空中目標(biāo)空襲的想定,結(jié)合此想定,評(píng)估對(duì)抗條件下紅方空中目標(biāo)威脅。

3.1 仿真環(huán)境及參數(shù)設(shè)置

實(shí)驗(yàn)平臺(tái)為64 位Windows10 系統(tǒng),CPU 型號(hào)為Intel(R) Core(TM) i7-10700 CPU@2.90 GHz,內(nèi)存為16 GB,基于Python 語(yǔ)言編程。

GA-BP 算法所用BP 網(wǎng)絡(luò)設(shè)計(jì)為3 層結(jié)構(gòu):輸入層,隱藏層,輸出層。輸入層神經(jīng)元個(gè)數(shù)與威脅指標(biāo)數(shù)目相一致;隱藏層共20 個(gè)神經(jīng)元;輸出層5 個(gè)神經(jīng)元,與威脅程度層級(jí)相對(duì)應(yīng),使用ReLU 激活函數(shù)。GA 算法種群規(guī)模為40,每個(gè)個(gè)體長(zhǎng)度為BP 網(wǎng)絡(luò)所有權(quán)值和閾值數(shù)目相對(duì)應(yīng)。進(jìn)化次數(shù)為100次,交叉概率為0.4,變異概率為0.05。個(gè)體適應(yīng)度函數(shù)為訓(xùn)練數(shù)據(jù)預(yù)測(cè)誤差絕對(duì)值之和。

3.2 想定設(shè)計(jì)

所設(shè)計(jì)的想定如圖3 所示。紅方出動(dòng)轟炸機(jī)編隊(duì),任務(wù)目標(biāo)是轟炸藍(lán)方某港口。藍(lán)方在港口部署了防空導(dǎo)彈,其預(yù)警與攔截能力范圍由綠圈給出,同時(shí),藍(lán)方前出一個(gè)海基預(yù)警攔截編隊(duì)與空基預(yù)警攔截編隊(duì),?;A(yù)警攔截編隊(duì)能力范圍由圖中紅圈給出,空基預(yù)警攔截編隊(duì)能力范圍由圖中藍(lán)圈給出。

圖3 作戰(zhàn)想定圖示Fig. 3 Operational scenario diagram

為簡(jiǎn)化問(wèn)題,本文將對(duì)抗場(chǎng)景抽象成適合強(qiáng)化學(xué)習(xí)的戰(zhàn)場(chǎng)態(tài)勢(shì)表示,在其基礎(chǔ)上進(jìn)行威脅評(píng)估。

3.3 過(guò)程及分析

以紅方轟炸機(jī)空中目標(biāo)為智能體,建立其狀態(tài)空間、動(dòng)作空間。根據(jù)雙方兵力火力、戰(zhàn)場(chǎng)環(huán)境及交互關(guān)系,將紅方轟炸機(jī)目標(biāo)可能所處的區(qū)域抽象成6 種狀態(tài),構(gòu)建狀態(tài)空間{s1,s2,s3,s4,s5,s6},如圖4所示。

圖4 狀態(tài)空間圖示Fig. 4 State space diagram

在狀態(tài)空間基礎(chǔ)上,定義動(dòng)作為“進(jìn)入某狀態(tài)”,形成6 個(gè)動(dòng)作組成的動(dòng)作集,以動(dòng)作a3為例,其表示“進(jìn)入狀態(tài)s3”。

將狀態(tài)空間及動(dòng)作空間表示成有向圖的形式,如圖5 所示。狀態(tài)為節(jié)點(diǎn),節(jié)點(diǎn)3 為目標(biāo)節(jié)點(diǎn),代表紅方轟炸機(jī)空中目標(biāo)的任務(wù)終點(diǎn)s3。動(dòng)作為邊,部分節(jié)點(diǎn)間為雙向邊,表示這2 種狀態(tài)間可以相互轉(zhuǎn)換。

圖5 有向圖圖示Fig. 5 Directed graph

在狀態(tài)s下執(zhí)行動(dòng)作a定義為等概率事件。然后,根據(jù)2.1 節(jié)獎(jiǎng)勵(lì)函數(shù)的定義,獎(jiǎng)勵(lì)函數(shù)相關(guān)參數(shù)設(shè)定為:距離獎(jiǎng)勵(lì)系數(shù)λ為50,目標(biāo)距離任務(wù)區(qū)域距離d離散化為1,2,3,4,分別表示紅方目標(biāo)到目標(biāo)區(qū)域所需跨越的區(qū)域方格數(shù)。視線角獎(jiǎng)勵(lì)系數(shù)μ為50,θ離散化為0,90,分別表示紅方目標(biāo)與目標(biāo)區(qū)域間的視線角。突防概率獎(jiǎng)勵(lì)方面,考慮到?;c陸基雷達(dá)存在著一定的低空盲區(qū),將?;A(yù)警、陸基預(yù)警與空基預(yù)警的探測(cè)概率p分別設(shè)為0.75,0.75和1。抵達(dá)任務(wù)區(qū)獎(jiǎng)勵(lì)值σ為100,后退獎(jiǎng)勵(lì)為0。經(jīng)過(guò)計(jì)算可得R矩陣為

將其表現(xiàn)在有向圖中,如圖6 所示。

圖6 獎(jiǎng)勵(lì)值標(biāo)注Fig. 6 Reward value annotation

經(jīng)過(guò)強(qiáng)化學(xué)習(xí)訓(xùn)練,不斷更新,得到最終的Q矩陣:

將其表現(xiàn)在有向圖中,如圖7 所示。

圖7 Q 值標(biāo)注Fig. 7 Q value annotation

從圖7 中可以看出,紅方目標(biāo)最優(yōu)攻擊路線有2條:①?gòu)墓?jié)點(diǎn)1 進(jìn)入,經(jīng)過(guò)4,5,6 節(jié)點(diǎn),到達(dá)節(jié)點(diǎn)3 目標(biāo)節(jié)點(diǎn);②從節(jié)點(diǎn)4 進(jìn)入,經(jīng)過(guò)5,6 節(jié)點(diǎn),抵達(dá)節(jié)點(diǎn)3目標(biāo)節(jié)點(diǎn)。

一般而言,空中目標(biāo)在攻擊時(shí)將選擇最優(yōu)攻擊路徑。將紅方目標(biāo)最優(yōu)路徑所經(jīng)過(guò)節(jié)點(diǎn)時(shí)的各項(xiàng)評(píng)估指標(biāo)分別輸入已經(jīng)訓(xùn)練好的BP 模型,便可實(shí)現(xiàn)對(duì)抗條件下紅方空中目標(biāo)的威脅估計(jì)。

將最優(yōu)路徑所經(jīng)歷的節(jié)點(diǎn)逐個(gè)輸入評(píng)估模型,可得紅方目標(biāo)在4,5,6 節(jié)點(diǎn)威脅等級(jí)分別為3,4,5,在1,2 節(jié)點(diǎn)的威脅等級(jí)分別為2,3。而在不考慮藍(lán)方對(duì)抗因素時(shí),紅方目標(biāo)在4,5,6 節(jié)點(diǎn)威脅等級(jí)分別為1,3,5,在1,2 節(jié)點(diǎn)的威脅等級(jí)分別為3,5。相比較而言,考慮了藍(lán)方對(duì)抗因素的威脅評(píng)估結(jié)果更符合戰(zhàn)場(chǎng)實(shí)際情況,紅方空中目標(biāo)在防守更薄弱的空域出現(xiàn)時(shí)構(gòu)成的威脅更大。

在考慮藍(lán)方策略變化的情況下,只需對(duì)紅方空中目標(biāo)的強(qiáng)化學(xué)習(xí)模型進(jìn)行更新,根據(jù)藍(lán)方策略變化情況更新模型的狀態(tài)空間,即可按照上述過(guò)程生成相應(yīng)的應(yīng)對(duì)策略。

4 建議

隨著現(xiàn)代聯(lián)合作戰(zhàn)樣式的廣泛實(shí)踐,紅藍(lán)雙方在多維多域空間的對(duì)抗日益激烈。尤其是在信息化、智能化條件下,戰(zhàn)場(chǎng)態(tài)勢(shì)感知能力得到極大增強(qiáng),紅方威脅與藍(lán)方反制密切相關(guān),威脅評(píng)估更多體現(xiàn)為動(dòng)態(tài)過(guò)程。對(duì)威脅評(píng)估概念的理解已不能僅僅局限于某一時(shí)刻的威脅,而是要在對(duì)紅方能力及意圖分析基礎(chǔ)之上,綜合考慮藍(lán)方能力及兵力部署對(duì)紅方的影響,開(kāi)展對(duì)抗條件下的威脅評(píng)估研究。

4.1 建立知識(shí)與數(shù)據(jù)雙驅(qū)動(dòng)的威脅評(píng)估指標(biāo)體系

在空中目標(biāo)威脅評(píng)估指標(biāo)選取及體系建立方面,需要考慮眾多影響因素,所選取的評(píng)估指標(biāo)既要具有代表性,還應(yīng)具有廣泛性,能從不同角度、不同層次體現(xiàn)目標(biāo)的威脅程度。隨著戰(zhàn)爭(zhēng)樣式的發(fā)展,戰(zhàn)場(chǎng)環(huán)境日趨復(fù)雜,“戰(zhàn)爭(zhēng)迷霧”效應(yīng)凸顯,爆炸式增長(zhǎng)的戰(zhàn)場(chǎng)大數(shù)據(jù)已給人腦的信息處理能力帶來(lái)極大的挑戰(zhàn),人工選取威脅影響因素并建立指標(biāo)體系的方法已經(jīng)難以適應(yīng)形勢(shì)的發(fā)展。隨著人工智能技術(shù)的發(fā)展,深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等技術(shù)為威脅指標(biāo)體系的構(gòu)建帶來(lái)了極大的促進(jìn)。人工選取威脅影響因素依賴人的經(jīng)驗(yàn),體現(xiàn)了知識(shí)驅(qū)動(dòng),人工智能較多地依賴歷史數(shù)據(jù),體現(xiàn)了數(shù)據(jù)驅(qū)動(dòng)。如將二者進(jìn)行有效結(jié)合,將極大克服傳統(tǒng)人工構(gòu)建威脅評(píng)估指標(biāo)體系的不足,增強(qiáng)其合理性。

4.2 開(kāi)展對(duì)抗條件下智能化評(píng)估方法的研究

預(yù)警防空作戰(zhàn)實(shí)踐具有很強(qiáng)的對(duì)抗性。在體系作戰(zhàn)框架下,紅方空中目標(biāo)具有很強(qiáng)的態(tài)勢(shì)感知能力,對(duì)藍(lán)方的兵力火力部署及能力變化反應(yīng)比較敏感,威脅的對(duì)抗性體現(xiàn)較為明顯。相比傳統(tǒng)靜態(tài)的威脅評(píng)估方法,研究對(duì)抗條件下的威脅評(píng)估問(wèn)題能夠?qū)ν{的變化趨勢(shì)更好地預(yù)測(cè),對(duì)指導(dǎo)預(yù)警防空作戰(zhàn)具有更大現(xiàn)實(shí)意義。由于強(qiáng)化學(xué)習(xí)方法可以通過(guò)與環(huán)境交互獲得行為指導(dǎo),在對(duì)抗中實(shí)現(xiàn)智能體的自主學(xué)習(xí),從而在對(duì)抗條件下的威脅評(píng)估中得以應(yīng)用。但隨著戰(zhàn)場(chǎng)紅藍(lán)雙方對(duì)抗的激烈程度提高,戰(zhàn)場(chǎng)態(tài)勢(shì)變化劇烈,在使用基于經(jīng)典強(qiáng)化學(xué)習(xí)的目標(biāo)威脅評(píng)估方法時(shí),存在著目標(biāo)狀態(tài)空間與動(dòng)作空間進(jìn)一步擴(kuò)大,或者為連續(xù)空間的情況,從而帶來(lái)維數(shù)爆炸的問(wèn)題。深度強(qiáng)化學(xué)習(xí)技術(shù)具有強(qiáng)大的處理復(fù)雜、高維環(huán)境特征的能力,在該場(chǎng)景的應(yīng)用中具有廣闊的前景。

4.3 提高威脅評(píng)估結(jié)果的可解釋性和可信度

人工智能技術(shù)的運(yùn)用,為解決對(duì)抗條件下的威脅評(píng)估問(wèn)題帶來(lái)契機(jī),但同時(shí)也存在著結(jié)果可解釋性不強(qiáng)、可信度難評(píng)價(jià)的問(wèn)題。此問(wèn)題的存在,為該技術(shù)的應(yīng)用帶來(lái)一定的局限。對(duì)于用戶來(lái)說(shuō),具有高可信度的方法更有利于輔助決策。人工智能技術(shù)的可解釋性要從數(shù)據(jù)采集、算法設(shè)計(jì)與實(shí)施、結(jié)果展示等環(huán)節(jié)入手。方法設(shè)計(jì)與實(shí)施存在著一定的“黑盒”特征,但數(shù)據(jù)采集與結(jié)果展示環(huán)節(jié)的解釋相對(duì)較為容易,解釋越透徹越能增加評(píng)估方法的可信度。很多人工智能方法對(duì)數(shù)據(jù)都有很強(qiáng)的依賴性,比如經(jīng)典機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等。大規(guī)模的、區(qū)分度高的、涵蓋問(wèn)題特征分布的數(shù)據(jù)集是智能化方法取得較好效果的基礎(chǔ),其訓(xùn)練得到的模型具有更強(qiáng)的泛化能力。根據(jù)不同方法的特點(diǎn),從方法實(shí)施的不同階段,設(shè)計(jì)相適應(yīng)的評(píng)價(jià)指標(biāo),綜合運(yùn)用各種可視化手段,均能提高可信度,促進(jìn)用戶對(duì)評(píng)估方法的理解與運(yùn)用。

5 結(jié)束語(yǔ)

本文提出了一種對(duì)抗條件下空中目標(biāo)威脅評(píng)估方法,在建立威脅評(píng)估模型的基礎(chǔ)上,根據(jù)強(qiáng)化學(xué)習(xí)的思想,得出紅方目標(biāo)的最優(yōu)路徑,并根據(jù)最優(yōu)路徑對(duì)目標(biāo)的下一步威脅進(jìn)行評(píng)估,實(shí)現(xiàn)對(duì)抗條件下空中目標(biāo)的威脅評(píng)估。經(jīng)過(guò)仿真案例分析,該方法對(duì)紅方目標(biāo)的威脅進(jìn)行評(píng)估更符合戰(zhàn)場(chǎng)實(shí)際。但同時(shí),也應(yīng)看到在使用基于經(jīng)典強(qiáng)化學(xué)習(xí)的目標(biāo)威脅評(píng)估方法時(shí),還存在著諸多不足,對(duì)此,提出3條建議便于對(duì)此類問(wèn)題的進(jìn)一步研究。

猜你喜歡
藍(lán)方紅方威脅
如何在方格紙上確定位置
人類的威脅
受到威脅的生命
精彩的足球比賽
面對(duì)孩子的“威脅”,我們要會(huì)說(shuō)“不”
家教世界(2017年11期)2018-01-03 01:28:49
暗號(hào)
Why Does Sleeping in Just Make Us More Tired?
暗號(hào)
暗號(hào)
試論棋例裁決難點(diǎn)
棋藝(2014年3期)2014-05-29 14:27:14
顺平县| 南召县| 江川县| 拉孜县| 永城市| 龙泉市| 昌宁县| 都昌县| 信宜市| 中阳县| 徐闻县| 若羌县| 凤阳县| 即墨市| 平武县| 武清区| 鹿泉市| 虎林市| 绥芬河市| 南漳县| 西安市| 当雄县| 东兰县| 茌平县| 兰西县| 边坝县| 普洱| 化州市| 宁城县| 定结县| 五莲县| 乌兰察布市| 武宣县| 宜兰县| 东台市| 大渡口区| 克山县| 敦化市| 广丰县| 新乡县| 高州市|