趙頔,王躍利,戰(zhàn)曉蘇
(1.軍事科學院軍事運籌分析研究所,北京100091;2.武警北京指揮學院,北京100012)
基于戰(zhàn)例數(shù)據(jù)的制勝要素選擇方法
趙頔1,2,王躍利1,戰(zhàn)曉蘇1
(1.軍事科學院軍事運籌分析研究所,北京100091;2.武警北京指揮學院,北京100012)
針對戰(zhàn)爭制勝機理定量研究需求,提出了一種基于混合評估的制勝要素選擇算法。針對戰(zhàn)例數(shù)據(jù)特點,該算法選擇兩種過濾方法分別從不同方面對要素全集進行評估排序而后加權(quán)得到綜合排序結(jié)果;將結(jié)果作為遺傳算法的初始種群,而后以分類精度作為個體適應(yīng)度函數(shù)。選擇幾種典型的分類器綜合比較,篩選出規(guī)模較小、性能較好的要素子集。測試結(jié)果表明,該算法不僅能有效地減少要素子集規(guī)模,還可以進一步提高制勝機理分析模型的準確率和效率。
制勝機理,要素選擇,戰(zhàn)例數(shù)據(jù),過濾法,遺傳算法,分類器
制勝機理,就是戰(zhàn)爭諸要素發(fā)揮制勝作用的必然過程和方式,也可理解為打贏戰(zhàn)爭的內(nèi)在規(guī)律和必然途徑[1]。戰(zhàn)爭的勝負是由導致這一事物發(fā)生發(fā)展的諸多要素共同作用所決定的。比如戰(zhàn)爭主體、手段、時空條件、行動方法等,都是構(gòu)成這一復雜事物的重要因素[2]。這些因素中,有的是主要的,有的是次要的,有的直接發(fā)揮作用,有的間接發(fā)揮作用,因此,研究制勝機理,首先要找出影響戰(zhàn)爭勝負的關(guān)鍵因素,即制勝要素,以此為基礎(chǔ)研究各要素間的相互作用關(guān)系、動態(tài)發(fā)展規(guī)律,探尋制勝機理[3]。本文以戰(zhàn)例數(shù)據(jù)庫中的戰(zhàn)例數(shù)據(jù)為基礎(chǔ),通過現(xiàn)代數(shù)據(jù)分析方法,進行制勝要素選擇,研究結(jié)論可作為后續(xù)制勝機理研究的依據(jù)。
1.1 要素選擇方法
根據(jù)不同的評價準則,要素選擇方法主要有兩種類型:過濾方法(Filter)和封裝方法(Wrapper)。
過濾方法基于評估準則選擇要素子集。算法計算效率較高。過濾方法獨立于后續(xù)使用的建模算法,優(yōu)點是計算效率高,泛化性能也較好,適于大規(guī)模數(shù)據(jù)集;主要缺點是排名靠前的要素對于具體的建模可能并不是最優(yōu)的選擇;或者需要人為設(shè)定閾值,評估結(jié)果不客觀,無法確保選擇出一個規(guī)模較小的優(yōu)化要素子集[4]。
包裝方法將分類方法嵌入到要素選擇中,直接用選擇的要素來訓練分類器,通過測試要素子集的分類性能集分類識別率來評價要素子集。它并不要求最優(yōu)要素子集中的每個要素都是最優(yōu)的。包裝方法比過濾方法識別的準確率更高,效果更好,更能真實反應(yīng)要素選擇的效果,分類器的泛化性能也更優(yōu)。包裝方法的不足是評估子集時需要多次調(diào)用學習算法,學習慢,時間開銷大。常用的分類器包括神經(jīng)網(wǎng)絡(luò)、支持向量機、K最近鄰、決策樹和樸素貝葉斯等,幾種不同類型的分類器還可以集成使用,以提高分類器的泛化能力[5]。
1.2 子集搜索策略
要素選擇的大多數(shù)方法都要牽涉到在要素空間搜索中最有可能作出類預(yù)測的要素子集。搜索方法主要有:全局搜索、順序搜索和隨機搜索。
全局搜索可以保證獲得對于給定的評價準則是最優(yōu)的要素子集,但開銷過大。順序搜索算法雖然能夠取得不錯的識別效果,但卻容易陷入局部極小。隨機搜索對問題依賴性小,搜索能力強,可以避免局部最優(yōu),并能保證所選要素子集的最優(yōu)性[6]。總之,這3種方法中只有全局搜索能保證最優(yōu),但時間復雜度高,不適合高維情況,后兩者以犧牲性能來換取簡捷、高效,但不能保證性能最優(yōu)[7]。
基于前面提到的要素搜索方法和要素評估標準的基礎(chǔ)上,為了得到盡可能最優(yōu)的要素子集,本文提出基于混合評估的要素選擇算法(FSFW,F(xiàn)actor Selection based on Filter and Wrapper)。FSFW算法首先基于兩種過濾方法對全部要素進行排序,然后根據(jù)綜合排序結(jié)果作為初始化GA種群的依據(jù),對于每一次產(chǎn)生的新個體訓練多個分類器,以分類精度作為個體適應(yīng)度函數(shù)。在上述操作的基礎(chǔ)上,選擇幾種典型的分類器分別進行要素選擇得出最優(yōu)子集。最后,根據(jù)綜合比較,篩選出數(shù)量較少、性能較好的要素子集。
2.1 兩種過濾評估方法
本算法采用兩種過濾方法進行要素選擇,分別是:類可分法、Pearson相關(guān)系數(shù)。這兩種方法根據(jù)不同的評價標準評估要素,并產(chǎn)生不同的要素排序。類可分法根據(jù)類間距離計算要素的分離度值,該方法計算簡單但忽視了要素之間的相關(guān)性。Pearson相關(guān)系數(shù)法使用相關(guān)性作為評價標準,根據(jù)要素與類之間或要素與要素之間的相關(guān)性對要素進行評估。兩種方法各取所長,優(yōu)缺點互補[8-9]。
2.2 算法流程
本算法由兩部分構(gòu)成;第一步采用兩種不同的過濾方法從不同的側(cè)面對全部要素進行排序;第二步采用包裝方法,此處使用的是隨機搜索方法GA(遺傳算法)根據(jù)排序作為其初始種群的選擇依據(jù)。GA搜索首先根據(jù)排序給每個要素分配一個選擇概率,排序越靠前的要素被分配的概率越大,相應(yīng)的被選中的機會越大。因此,組成初始種群的大部分要素都是在第一步經(jīng)過過濾后排序靠前的要素。初始種群中個體的適應(yīng)度函數(shù)由多個分類器的分類精度確定,在經(jīng)過選擇、交叉、變異操作后生成新的個體,個體的每一位對應(yīng)一個要素,經(jīng)過多次變異后輸出適應(yīng)度最高的個體。該算法的流程如圖1所示。
圖1 FSFW算法流程
2.3 算法實現(xiàn)
首先采用過濾方法進行評分并進行排序,然后對要素進行綜合排序。根據(jù)要素的綜合排序生成遺傳算法的初始種群,最后經(jīng)過GA操作生成下一代個體,并選用人工神經(jīng)網(wǎng)絡(luò)等分類器,構(gòu)建、訓練分類器,根據(jù)分類精度輸出適應(yīng)度最高的個體。具體實現(xiàn)如下:
3.1 戰(zhàn)例數(shù)據(jù)集及預(yù)處理
3.1.1 戰(zhàn)例數(shù)據(jù)集
本文采用的戰(zhàn)例數(shù)據(jù)集是美國的概念分析機構(gòu)CAA和歷史評估與研究小組HERO建立的戰(zhàn)例數(shù)據(jù)庫CDB90G,該戰(zhàn)例庫中包含660個戰(zhàn)例,每個戰(zhàn)例包含146個屬性。每個戰(zhàn)例的數(shù)據(jù)是根據(jù)歷史上空地聯(lián)合作戰(zhàn)的實際數(shù)據(jù)生成的,盡管該數(shù)據(jù)集中數(shù)據(jù)存在空項以及部分數(shù)據(jù)不是很精確等問題,不過,CDB90G是目前公認的最為有效和權(quán)威的數(shù)據(jù)庫,具體的數(shù)據(jù)集要素定義如表1所示。
表1 戰(zhàn)例數(shù)據(jù)集描述
3.1.2 數(shù)據(jù)預(yù)處理
受目前軍事歷史研究現(xiàn)狀和戰(zhàn)例數(shù)據(jù)的獲取途徑等方面的制約,構(gòu)建模型時完全脫離相關(guān)領(lǐng)域?qū)<业慕?jīng)驗是很難獲得具備良好性能模型的。因此,在建模前對戰(zhàn)例數(shù)據(jù)的預(yù)處理主要包括以下兩個層面:
①軍事層面
每個戰(zhàn)例都由146個要素進行描述,通過表1可以看出,每項要素是基本要素,比如對于兵力數(shù)量就涉及到總兵力、初始兵力、戰(zhàn)爭過程中增援與替補兵力、傷亡兵力、最終剩余兵力等多項,若增援或替補兵力等于零(數(shù)據(jù)表中CODE=1時),則剩余兵力=初始兵力-傷亡兵力、總兵力=初始兵力;若增援或替補兵力不等于零(CODE=2或3),則總兵力=初始兵力+增援兵力。類似的情況還有攻守雙方采取的戰(zhàn)術(shù)類型,表中涉及到的戰(zhàn)術(shù)要素有6項,分別是主戰(zhàn)術(shù)計劃1-3,輔助戰(zhàn)術(shù)計劃1-3,輔助戰(zhàn)術(shù)計劃的制定受主戰(zhàn)術(shù)計劃影響,主輔戰(zhàn)術(shù)計劃1、2、3也互有影響。因此,雖然使用先進的數(shù)據(jù)分析技術(shù)對戰(zhàn)例數(shù)據(jù)進行定量分析過程中也可能分析出要素之間的冗余及關(guān)聯(lián)關(guān)系,但是由于戰(zhàn)爭系統(tǒng)的復雜性與特殊性,在數(shù)據(jù)預(yù)處理階段拋開要素的具體軍事意義僅就數(shù)據(jù)本身進行處理,顯然是欠妥當?shù)摹?/p>
②數(shù)據(jù)分析層面
在進行完軍事層面的預(yù)處理后,再觀察數(shù)據(jù)本身。由于戰(zhàn)例數(shù)據(jù)采集困難,數(shù)據(jù)集中的數(shù)據(jù)存在空項以及某些數(shù)值型要素數(shù)值變化范圍大等問題,因此,在進行建模前進行數(shù)據(jù)層面的數(shù)據(jù)預(yù)處理也必不可少。對數(shù)據(jù)的預(yù)處理方法多種多樣,并且也相對成熟,比如對于缺失數(shù)據(jù)可以采用刪除法或插補法等進行處理,對于數(shù)值型數(shù)據(jù)則采用規(guī)范化方法進行規(guī)范而后再視情況進行離散化處理,對于名詞性要素則根據(jù)不同要素特點進行賦值。按照上述方法進行完預(yù)處理后戰(zhàn)例數(shù)據(jù)集的數(shù)據(jù)均變?yōu)檫m合分析的規(guī)范化的數(shù)值要素。
3.2 FSFW算法與其他要素選擇算法的比較
為了驗證FSFW算法對于戰(zhàn)例數(shù)據(jù)集的適用性,對比測試了該算法與其他要素選擇算法的性能。測試分別使用FSFW算法、決策樹算法、粗糙集算法和Ludermir算法篩選制勝要素,用神經(jīng)網(wǎng)絡(luò)作為分類器評估相應(yīng)的要素子集。
神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置為:學習率0.3,迭代次數(shù)100次,均方誤差為0.000 1,隱層節(jié)點數(shù)目15個。表2是FSFW算法與其他要素選擇算法的比較結(jié)果。對比可知,F(xiàn)SFW算法在要素子集規(guī)模選擇上不大于其他算法,并且該要素子集在一定程度上提高了分類精度,即兩方面均獲得不錯的效果。
表2 FSFW算法與其他要素選擇算法的比較
FSFW算法之所以優(yōu)于其他3種要素選擇算法,原因是FSFW算法在使用filter方法對要素進行評估時,沒有設(shè)置閾值,將整個要素空間作為GA算法初始化種群的依據(jù),評估了所有可能的要素子集,在進行個體適應(yīng)度計算時,綜合多個分類器的分類精度作為評價標準,最終篩選出最優(yōu)要素子集。而其他要素選擇算法側(cè)重評估要素本身,沒有過多考慮要素間以及要素與類間相關(guān)關(guān)系,沒有基于具體分類評估要素子集。
3.3 FSFW算法對分類器分類性能的影響
為了評估FSFW算法對分類器分類性能的影響,在GA搜索階段分別使用C4.5、BPNN、BaysNet、Logistic、SVM分類器的分類精度作為個體適應(yīng)度。這5個分類器是軍事領(lǐng)域的主流分類器,每個都有鮮明的代表性,能較充分地反映主流算法的性能。
表3 不同分類器的實驗結(jié)果
GA算法參數(shù)設(shè)置:種群規(guī)模30,迭代次數(shù)30,交叉率0.6,變異率0.1。通過實驗,得到對應(yīng)分類器的最高分類精度以及對應(yīng)的要素個數(shù),結(jié)果如表3所示。可以看出,子集規(guī)模最小的是采用神經(jīng)網(wǎng)絡(luò)作為分類器,分類精度最高的是采用貝葉斯網(wǎng)絡(luò)作為分類器,但是神經(jīng)網(wǎng)絡(luò)分類器的分類精度僅比貝葉斯低0.36%,而子集規(guī)模卻相差10個,因此,最終實驗結(jié)果為使用神經(jīng)網(wǎng)絡(luò)分類器的分類性能。另外,從表3還可以看出,作為GA算法個體適應(yīng)度函數(shù),雖然使用不同分類器的分類精度作為評估標準,F(xiàn)SFW算法對于戰(zhàn)例數(shù)據(jù)集都能減少要素數(shù)量40%~60%,并且要素數(shù)量減少后對于各分類器的分類性能大多有所提高,最差的結(jié)果也提高了3.7%的分類精度。這表明,對于戰(zhàn)例數(shù)據(jù)集來說該算法是一種有效的要素選擇算法,能夠減少要素數(shù)量的同時而不降低分類器的分類性能。
3.4 實驗結(jié)果
GA算法參數(shù)設(shè)置:種群規(guī)模30,迭代次數(shù)30,交叉率0.6,變異率0.1。運用FSFW算法篩選制勝要素如表4所示??梢钥闯?,相對于原始數(shù)據(jù)集的146個要素,F(xiàn)SFW算法篩選出的要素子集規(guī)模為50個,要素數(shù)量減少了65.75%,分類精度為78.59%,對應(yīng)的分類器為神經(jīng)網(wǎng)絡(luò)分類器,對于戰(zhàn)爭這樣一個復雜巨系統(tǒng),能夠達到75%以上的分類精度,已經(jīng)是比較理想的結(jié)果。這些制勝要素能夠幫助軍事專家在定量分析制勝機理,構(gòu)建制勝模型時有效去除戰(zhàn)例數(shù)據(jù)集中與戰(zhàn)爭制勝相關(guān)性不大或冗余的要素,同時也降低了后續(xù)收集數(shù)據(jù)的難度,尤其是當樣本量有限的情況下,這樣有助于專家集中注意戰(zhàn)例的關(guān)鍵要素,以獲得效率更高的分析過程。不過,隨著戰(zhàn)例數(shù)據(jù)的不斷采集,戰(zhàn)爭形態(tài)的不斷變化,影響戰(zhàn)爭制勝的要素也在不斷變化,因此,本實驗結(jié)果僅對本文所使用的戰(zhàn)例數(shù)據(jù)集有效。
表4 制勝要素
本文結(jié)合戰(zhàn)例數(shù)據(jù)的特點,在過濾法評價單一要素的基礎(chǔ)上,搜索對應(yīng)的整個要素空間。由于過濾方法對分類的性能考慮較少,因此,選擇分類性能作為劃分選擇要素子空間的客觀依據(jù)。并且因為戰(zhàn)例數(shù)據(jù)的多模式,目前為止還沒有一種能夠滿足戰(zhàn)例數(shù)據(jù)特性的且功能顯著的分類器。為此我們將目前在軍事研究尤其是在戰(zhàn)例數(shù)據(jù)研究中常見的分類器挑選出來,綜合對比考慮,最后選擇幾種進行集成,以期獲得性能最佳的分類器,同時,還將要素間的相關(guān)性和冗余性納入考量范圍,以減少要素間存在的重復,提高后續(xù)研究的效率。
[1]任海泉.深入研究現(xiàn)代作戰(zhàn)制勝機理不斷創(chuàng)新作戰(zhàn)指導[J].軍事學術(shù),2014(1):6-10.
[2]張世平,陳榮弟.信息化戰(zhàn)爭制勝機理問題研究[J].軍事學術(shù),2014(5):5-16.
[3]王永華.關(guān)于作戰(zhàn)數(shù)據(jù)幾個問題的認識[J].中國軍事科學,2014(1):96-103.
[4]PENG Y,WU A,JIANG J.A novel feature selection approach for biomedical data classification[J].Journal of Biomedical Informatics,2010,43(1):15-23.
[5]ENZHE Y U,SUNGZOON C H O.Ensemble based on GA wrapper feature selection[J].Computer&Industrial Engineering,2006,51(1):111-116.
[6]KUDO M,JACK S.Comparison of algorithms that select feature for pattern classifiers[J].Pattern Recognition,2000,3(1):25-41.
[7]QIAN W B,SHU W H.An incremental algorithm to feature selection in decision systems with the variation of feature set[J].Chinese Journal of Electronics,2015(1):225-231.
[8]張岐龍.基于特征空間中類別可分性判據(jù)的特征選擇[J].火力與指揮控制,2010,35(6):79-84.
[9]高鵬毅.一種使用多Filter初始化GA種群的混合特征選擇模型[J].小型微型計算機系統(tǒng),2012,33(11): 2379-2384.
Research on Method of Winning Factors Selection Based on Data of Battle Cases
ZHAO Di1,2,WANG Yue-li1,ZHAN Xiao-su1
(1.Academy of Military Science,Operations Research Institute,Beijing 100091,China;2.Beijing Command College of Armed Police Force,Beijing 100012,China)
For the Demand of factor selection in quantitative study of winning mechanism,and considering the inadequaces of traditional methods,a new factor selection model based on filterwrapper is proposed to select the decisive factors in war.The model combines two filters to pre-rank all the variables in the battle cases dataset from different aspects,and then produce an initial GA population based on it.In the wrapper,Genetic Algorithm is selected to search the factor subsets.In GA,individual fitness degree is evaluated by classification accuracy of multi-classifier,which can help find the subsets with both of smaller size and better performance.Tests demonstrate that the FSFW model not only can reduce dimensionality of factor subset,but also can improve the accuracy and efficiency of winning models.
winning mechanism,factor selection,data of battle cases,filter,GA,classifier
E911
A
1002-0640(2017)04-0018-05
2016-03-05
2016-04-23
全軍軍事類研究生基金資助項目(2014JY637)
趙頔(1982-),女,遼寧沈陽人,博士生,講師。研究方向:數(shù)據(jù)工程。