田紅亮,董志明,高 昂
(陸軍裝甲兵學院,北京100072)
目前,裝甲兵戰(zhàn)術分隊在與虛擬兵力進行對抗訓練過程中,虛擬兵力戰(zhàn)術對抗動作建模的參數(shù)主要有動作延遲和動作準確率,動作延遲和準確率可以作為衡量藍軍部隊戰(zhàn)斗力的兩個有效指標(動作延遲越小,動作準確率越高,部隊戰(zhàn)斗力越強),可以通過調節(jié)動作延遲時間和準確率參數(shù),來調節(jié)對抗對象的戰(zhàn)斗力水平,進而可以循序漸進提升紅軍部隊訓練水平[1]。
現(xiàn)有技術中動作延遲主要采用兩種方法進行仿真,一是完全不考慮動作延遲,即動作延遲Δt=0,二是隨機生成動作延遲。動作準確率仿真中除火力打擊環(huán)節(jié)采用蒙特卡洛方法仿真射擊命中概率外,其余動作均沒有考慮準確率。在不考慮動作延遲情況下,虛擬兵力的反應時間等于計算機的處理時間,遠遠超出人類的反應時間,導致虛擬兵力實力過于強大,而隨機生成動作延遲,又與真實戰(zhàn)術對抗中的動作延遲不相符,沒有意義[2]。不考慮動作的準確率,會使虛擬兵力做出的所有動作都是準確的,而蒙特卡洛法仿真射擊命中概率過于簡單,沒有考慮人的操作水平、戰(zhàn)斗經(jīng)驗、目標的距離、速度、隱蔽性。
虛擬兵力戰(zhàn)術對抗動作參數(shù)建模過程中動作延遲時間以及動作準確率設置不合理,導致裝甲兵戰(zhàn)術分隊在與虛擬兵力對抗訓練過程中訓練場景不真實,實際訓練效果不理想[1]。本文提出了一種基于神經(jīng)網(wǎng)絡的裝甲兵虛擬兵力戰(zhàn)術對抗動作參數(shù)建模方法,解決現(xiàn)有技術中虛擬兵力戰(zhàn)術對抗動作延遲時間及動作準確度設置不合理的問題。
根據(jù)OODA環(huán)理論,戰(zhàn)術對抗動作可分解為感知類動作、共享類動作、決策類動作、指揮類動作、打擊類動作,如圖1所示[3]。其中感知類動作是指車長在裝甲車內觀察到敵目標并完成目標識別;共享類動作是指車長利用電臺或指控信息終端將敵目標信息發(fā)送給上級;決策類動作是指上級車長接收下級發(fā)送過來的戰(zhàn)術情況后進行判斷并定下決心;指揮類動作是指上級車長利用電臺或指控信息終端完成對下級下達指揮命令;打擊類動作是指車長發(fā)現(xiàn)敵目標并指揮一炮手對敵目標完成火力打擊[4]。
圖1 按照OODA理論將戰(zhàn)術對抗動作分解示意圖
每類動作參數(shù)包括延遲時間和準確率兩個參數(shù),每類動作的延遲時間和準確率的影響因素表達式為:Xin(i=1,2,…,5;n=1,2,…,Ni)(Ni為第i類動作的延遲時間或準確率影響因素的個數(shù))。
感知類動作影響因素包括車長等級、天氣可見度、目標類型、車長行駛車速、距離目標的距離、目標的隱蔽方式等6種,表達式為X1n(n=1,2,…,6)。其中車長等級X11={特級,一級,二級,三級,初級}、天氣可見度X12={(0m,500m),(500m,1000m),(1000m,5000m)}、目標類型X13={坦克,裝甲車,無座力炮,地堡,機槍發(fā)射點,火箭筒}、車長行駛車速X14={(0km/h,20km/h),(20km/h,40km/h),(40km/h,60km/h)}、距離目標的距離X15={(0m,500m),(500m,1000m),(1000m,5000m)}、目標的隱蔽方式X16={暴露,利用掩體隱蔽,偽裝,利用掩體隱蔽與偽裝結合}。
共享類動作影響因素包括車長等級、通信設備操作友好程度、目標類型等3種,表達式為X2n(n=1,2,3)。其中車長等級X21={特級,一級,二級,三級,初級}、通信設備操作友好程度X22={非常容易,容易,難度適中,困難,非常困難}、目標類型X23={坦克,裝甲車,無座力炮,地堡,機槍發(fā)射點,火箭筒}。
決策類動作影響因素包括車長等級、戰(zhàn)術情況復雜程度等2種,表達式為X3n(n=1,2)。其中車長等級X31={特級,一級,二級,三級,初級},戰(zhàn)術情況復雜程度X32={非常簡單,簡單,適中,復雜,非常復雜}。
指揮類動作影響因素包括車長等級、戰(zhàn)術情況復雜程度等2種,表達式為X4n(n=1,2)。其中車長等級X41={特級,一級,二級,三級,初級},戰(zhàn)術情況復雜程度X42={非常簡單,簡單,適中,復雜,非常復雜}。
打擊類動作影響因素包括車長等級、天氣可見度、目標類型、車長行駛車速、距離目標的距離、目標的隱蔽方式等6種,表達式為X5n(n=1,2,…,6)。其中車長等級X51={特級,一級,二級,三級,初級},天氣可見度X52={(0m,500m),(500m,1000m),(1000m,5000m)}、目標類型X53={坦克,裝甲車,無座力炮,地堡,機槍發(fā)射點,火箭筒}、車長行駛車速X54={(0km/h,20km/h),(20km/h,40km/h),(40km/h,60km/h)}、距離目標的距離X55={(0m,500m),(500m,1000m),(1000m,5000m)}、目標的隱蔽方式X56={暴露,利用掩體隱蔽,偽裝,利用掩體隱蔽與偽裝結合}。
為使虛擬兵力更貼近實際,根據(jù)每類動作參數(shù)的影響因素,采集真實環(huán)境中各影響因素下戰(zhàn)術對抗動作的延遲時間和準確率數(shù)據(jù),構建樣本庫,建立并訓練BP神經(jīng)網(wǎng)絡模型,進行參數(shù)數(shù)值計算,將計算得到的動作參數(shù)數(shù)值加載到虛擬兵力動作參數(shù)中,完成對虛擬兵力動作的建模。
基于神經(jīng)網(wǎng)絡的裝甲兵虛擬兵力戰(zhàn)術對抗動作參數(shù)建模方法,如圖2所示,包括如下步驟。
圖2 裝甲兵虛擬兵力戰(zhàn)術對抗動作參數(shù)建模流程圖
步驟S1:參數(shù)數(shù)值初始化:將裝甲兵虛擬兵力對抗動作延遲時間T初始化為T=[T1=0,T2=0,T3=0,T4=0,T5=0],動作準確率A初始化為A=[A1=100%,A2=100%,A3=100%,A4=100%,A5=100%],其中Ti,Ai(i=1,2,…,5)分別表示戰(zhàn)術對抗過程中的感知、共享、決策、指揮、打擊五類動作的延遲時間和準確率。
步驟S2:分析各參數(shù)的影響因素:列出五類動作的延遲時間和準確率的影響Xin(i=1,2,…,5;n=1,2,…,Ni)(Ni為第i類動作的延遲時間或準確率影響因素的個數(shù))。將具有連續(xù)值的影響因素劃分為若干個區(qū)間,將具有離散值的影響因素劃分為若干個等級。
步驟S3:構建樣本庫:采集真實環(huán)境中各影響因素下所述五類動作的延遲時間和準確率數(shù)據(jù)Yi(i=1,2,…,5),將具有連續(xù)值的動作延遲時間、動作準確率分別劃分為若干個區(qū)間,與影響因素一同構建樣本庫{Yi|Xij(i=1,2,…,5;j=1,2,…,Nj)}。
步驟S4:樣本庫數(shù)據(jù)標準化處理:將樣本庫中的數(shù)據(jù)進行01編碼處理,構建標準化的數(shù)據(jù)集。
步驟S5:建立并訓練BP神經(jīng)網(wǎng)絡模型:利用標準化的數(shù)據(jù)集訓練BP神經(jīng)網(wǎng)絡;BP神經(jīng)網(wǎng)絡模型通過交叉驗證的方法確定網(wǎng)絡模型的層數(shù)[5]。
步驟S6:參數(shù)數(shù)值計算,包括如下分步驟:
S6-1:遍歷所述五類動作參數(shù)的所有影響因素;
S6-2:將各動作參數(shù)的影響因素值標準化后作為輸入數(shù)據(jù)輸入訓練好的所述BP神經(jīng)網(wǎng)絡模型;
S6-3:將所述BP神經(jīng)網(wǎng)絡模型的輸出向量(輸出結果為動作參數(shù)各區(qū)間的概率值向量)歸一化后分別與對應的區(qū)間中值進行相乘后求和,得到不同因素影響下的所述五類動作的延遲時間Δti(i=1,2,…,5)及準確率ai(i=1,2,…,5);
S6-4:將裝甲兵虛擬兵力戰(zhàn)術對抗動作延遲事件T設置為T=[T1+Δt1,T2+Δt2,T3+Δt3,T4+Δt4,T5+Δt5],動作準確率A設置為A=[a1,a2,a3,a4,a5]。
以裝甲兵虛擬兵力戰(zhàn)術對抗動作中的感知類動作延遲時間建模為例,按照上述方法進行參數(shù)建模。
步驟一:進行參數(shù)數(shù)值初始化,令裝甲兵虛擬兵力戰(zhàn)術對抗動作中的感知類動作延遲時間T1=0。
步驟二:列出感知類動作的延遲時間的影響因素X1n(n=1,2,…,6),包括車長等級X11、天氣可見度X12、目標類型X13、車長行駛車速X14、距離目標的距離X15、目標的隱蔽方式X16,將具有連續(xù)值的影響因素劃分為若干個區(qū)間,將具有離散值的影響因素劃分為若干個等級。
步驟三:采集真實環(huán)境中上述6個影響因素下感知類動作的延遲時間數(shù)據(jù),將具有連續(xù)值的動作延遲時間劃分為若干個區(qū)間,與影響因素一同構建樣本庫,數(shù)據(jù)格式如表1所示。
表1 樣本庫數(shù)據(jù)格式
步驟四:將樣本庫中的數(shù)據(jù)進行01編碼處理,構建標準化的數(shù)據(jù)集。
將感知類動作延遲時間的影響因素離散化處理并進行01編碼,包括:車長等級X11={"10000":特級,"01000":一級,"00100":二級,"00010":三級,"00001":初級},天氣可見度X12={"100":(0m,500m),"010":(500m,1000m),"001":(1000m,5000m)},目標類型X13={"100000":坦克,"010000":裝甲車,"001000":無座力炮,"000100":地堡,"000010":機槍發(fā)射點,"000001":火箭筒},車長行駛車速X14={"100":(0km/h,20km/h),"010":(20km/h,40km/h),"001":(40km/h,60km/h)}距離目標的距離X15={"100":(0m,500m),"010":(500m,1000m),"001":(1000m,5000m)},目標的隱蔽方式X16={"1000":暴露,"0100":利用掩體隱蔽,"0010":偽裝,"0001":利用掩體隱蔽與偽裝結合}。
將感知類動作延遲時間的實測值離散化處理并進行01編碼,得Y1={"100000":(0s,10s),"010000":(10s,20s),"001000":(20s,30s),"000100":(30s,40s),"000010":(40s,50s),"000001":(50s,60s)}。
步驟五:建立并訓練BP神經(jīng)網(wǎng)絡模型,如圖3所示[5],[6],利用標準化的數(shù)據(jù)集訓練BP神經(jīng)網(wǎng)絡,顯然輸入向量[X11,X12,X13,X14,X15,X16]為24維向量,輸出向量為一個6維向量,網(wǎng)絡模型的層數(shù)可以通過交叉驗證的方法預測準確度從而確定。
圖3 決策類動作參數(shù)及影響因素構建的多層BP神經(jīng)網(wǎng)絡示意圖
步驟六:參數(shù)數(shù)值計算,首先遍歷感知類動作延遲時間的所有影響因素;其次,將各影響因素值標準化后作為輸入數(shù)據(jù)輸入訓練好的所述BP神經(jīng)網(wǎng)絡模型;再次,將所述BP神經(jīng)網(wǎng)絡模型的輸出向量歸一化后分別與對應的區(qū)間中值進行相乘后求和,得到不同因素影響下的感知類動作的延遲時間Δt1。
例如求車長等級為特級、天氣可見度為300m,目標類型為裝甲車,車長行駛速度為55km/h,距離目標的距離為1200m,目標的隱蔽方式為利用掩體隱蔽條件下的感知類動作延遲時間,則可以將影響因素標準化為[1,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,1,0,0,1,0,1,0,0,],輸入上述訓練好的BP神經(jīng)網(wǎng)絡模型,求得輸出向量為[0.001,0.002,0.005,0.0092,0.04,0.003],將輸出向量歸一化后分別與對應的區(qū)間中值進行相乘后求和,即(0.001×5s+0.002×15s+0.005×25s+0.0092×35s+0.04×45s+0.003×55s)/(0.001+0.002+0.005+0.0092+0.04+0.003)≈34.89s,即在上述影響因素下的感知類動作的延遲時間為34.98s。
以此類推,即可按照上述方法完成對裝甲兵虛擬兵力戰(zhàn)術對抗動作參數(shù)(包括動作延遲時間、動作準確率)建模。
虛擬兵力是軍事仿真系統(tǒng)中必不可少的元素,其行為的表述是否準確,參數(shù)設置是否符合實際,是直接影響軍事問題研究結論的重要因素。本文以對裝甲兵虛擬兵力戰(zhàn)術對抗動作參數(shù)的建模為例,提出了一種方法,可以解決現(xiàn)有技術中虛擬兵力戰(zhàn)術對抗動作延遲時間及動作準確度設置不合理的問題,使虛擬兵力動作參數(shù)建模更符合實際,對抗訓練過程中訓練場景更加貼近實際。實際情況下,虛擬兵力的種類繁多,對抗動作紛繁復雜,不同類動作影響因素不一,對動作參數(shù)建模要求各不相同,本方法可為虛擬兵力行為建模方法及虛擬兵力的個性化生成提供借鑒。