徐 剛,劉金梅
(空軍勤務(wù)學(xué)院作戰(zhàn)保障實(shí)驗(yàn)與模擬訓(xùn)練中心,江蘇 徐州 221000)
未來(lái)戰(zhàn)爭(zhēng)將是信息化條件下的一體化聯(lián)合作戰(zhàn),是體系對(duì)抗,作戰(zhàn)樣式、作戰(zhàn)協(xié)同越來(lái)越復(fù)雜[1]。戰(zhàn)訓(xùn)一致要求背景下,模擬訓(xùn)練將由單純的操作技能訓(xùn)練向聯(lián)合對(duì)抗轉(zhuǎn)變,由單兵種模擬訓(xùn)練到多軍兵種合成作戰(zhàn)對(duì)抗模擬訓(xùn)練轉(zhuǎn)變[2],使作戰(zhàn)模擬訓(xùn)練內(nèi)容和組織實(shí)施變得越來(lái)越復(fù)雜。這對(duì)作戰(zhàn)模擬訓(xùn)練高效、準(zhǔn)確評(píng)估提出了更高要求,促使自動(dòng)評(píng)估將成為作戰(zhàn)模擬訓(xùn)練效能評(píng)估主要發(fā)展方向之一。
作戰(zhàn)模擬訓(xùn)練評(píng)估是運(yùn)用系統(tǒng)分析的方法,對(duì)影響作戰(zhàn)模擬訓(xùn)練的因素進(jìn)行分析,揭示這些因素和訓(xùn)練效果之間的關(guān)系,進(jìn)而對(duì)作戰(zhàn)模擬訓(xùn)練的全部構(gòu)成要素進(jìn)行評(píng)價(jià)與評(píng)估,尋求獲得最佳訓(xùn)練效能的方法[3]。因?yàn)橛?xùn)練科目目的和任務(wù)不同,評(píng)估既可以對(duì)單個(gè)個(gè)體崗位能力評(píng)價(jià),如文獻(xiàn)[4]對(duì)導(dǎo)彈射手使用的便攜式防空導(dǎo)彈裝備模擬訓(xùn)練的成績(jī)?cè)u(píng)定,和文獻(xiàn)[5]的指揮員作戰(zhàn)指揮能力模擬訓(xùn)練的成績(jī)?cè)u(píng)估,也可以對(duì)分隊(duì)、團(tuán)隊(duì)或群體協(xié)同作戰(zhàn)質(zhì)量評(píng)價(jià),如文獻(xiàn)[6]對(duì)陸軍機(jī)械化步兵團(tuán)的對(duì)抗模擬訓(xùn)練的成績(jī)?cè)u(píng)定。無(wú)論是個(gè)體能力評(píng)定還是群體訓(xùn)練效能評(píng)估,都首先依據(jù)考核評(píng)估的指標(biāo)體系標(biāo)準(zhǔn)評(píng)定,但其評(píng)估體系有可能會(huì)部分依賴主觀指標(biāo),如文獻(xiàn)[5]的“作戰(zhàn)方案的合理性”、文獻(xiàn)[6]的“實(shí)施階段的順暢性、戰(zhàn)斗配置合理性”等。這使得客觀與主觀評(píng)定交織在一起,當(dāng)主觀評(píng)定憑借評(píng)估專家經(jīng)驗(yàn)打分時(shí),組織實(shí)施評(píng)定需要?jiǎng)佑么罅咳藛T(導(dǎo)調(diào)、領(lǐng)域?qū)<?、組織者等),勢(shì)必給組織施訓(xùn)的籌措、調(diào)配、評(píng)價(jià)環(huán)節(jié)帶來(lái)一定工作量和復(fù)雜性,存在訓(xùn)練效能反饋不及時(shí)、前后銜接不順暢等問(wèn)題。為了實(shí)現(xiàn)作戰(zhàn)模擬訓(xùn)練效能自動(dòng)評(píng)估,本文引入人工智能的機(jī)器學(xué)習(xí)技術(shù)作為解決自動(dòng)評(píng)估的途徑,從重新構(gòu)建客觀指標(biāo)體系和評(píng)估模型上著眼,用基于訓(xùn)練集評(píng)分?jǐn)?shù)據(jù)而構(gòu)建的統(tǒng)計(jì)模型為新的評(píng)估指標(biāo)進(jìn)行效果自動(dòng)評(píng)分。
若想實(shí)現(xiàn)作戰(zhàn)模擬訓(xùn)練效能評(píng)估的自動(dòng)化,需要滿足3 個(gè)方面的要求:一是評(píng)估體系指標(biāo)可以量化,二是指標(biāo)數(shù)據(jù)能夠自動(dòng)獲取,三是評(píng)估(數(shù)學(xué))模型能夠自動(dòng)計(jì)算成績(jī)。其中指標(biāo)自動(dòng)量化是作戰(zhàn)模擬訓(xùn)練效能自動(dòng)評(píng)估的基礎(chǔ)和前提。例如文獻(xiàn)[7]是典型模擬訓(xùn)練自動(dòng)評(píng)估應(yīng)用,它根據(jù)飛行訓(xùn)練中記錄的飛行參數(shù),按照評(píng)分標(biāo)準(zhǔn)自動(dòng)對(duì)飛行員的飛行品質(zhì)進(jìn)行評(píng)估,其中評(píng)估體系指標(biāo)都能量化,如“飛機(jī)位置、速度、姿態(tài)、態(tài)角速度、航向角、迎角”等,這些指標(biāo)數(shù)據(jù)利用飛參識(shí)別系統(tǒng)自動(dòng)采集,并通過(guò)對(duì)比飛行姿態(tài)標(biāo)準(zhǔn),按照不同偏差大小進(jìn)行自動(dòng)成績(jī)?cè)u(píng)估。
對(duì)于“難于量化、不可量化”的指標(biāo),文獻(xiàn)[8]通過(guò)找到可量化特征數(shù)據(jù)或根據(jù)評(píng)判規(guī)則,借助隸屬度函數(shù)對(duì)指標(biāo)量化處理,比如它的難以量化指標(biāo)“規(guī)避過(guò)程”通過(guò)“航向與航速的幅度變化數(shù)據(jù)”確定隸屬度值,不能量化的指標(biāo)“號(hào)燈號(hào)型顯示”通過(guò)“避碰規(guī)則”的相關(guān)條款確定隸屬度值,實(shí)現(xiàn)對(duì)指標(biāo)的評(píng)分。但一旦找不到可量化特征數(shù)據(jù)或評(píng)判規(guī)則時(shí)需要借助主觀評(píng)定,如同一船舶模擬訓(xùn)練內(nèi)容,文獻(xiàn)[9]中的“船舶操縱熟練程度及合理性”需要通過(guò)培訓(xùn)教員進(jìn)行主觀評(píng)價(jià)。對(duì)于難以量化的主觀指標(biāo)量化問(wèn)題研究方面,在其他領(lǐng)域有相關(guān)解決方法,比如學(xué)生作文自動(dòng)批改,針對(duì)學(xué)生作文教師評(píng)閱存在任務(wù)重、效率低、反饋不及時(shí)、主觀性強(qiáng)等諸多問(wèn)題,國(guó)內(nèi)外對(duì)作文尤其英語(yǔ)作文自動(dòng)評(píng)估進(jìn)行了相關(guān)研究,比較先進(jìn)的“IntelliMet-ricTM、Holt Online Essay Scoring”英語(yǔ)作文自動(dòng)評(píng)分系統(tǒng)[10],通過(guò)挖掘作文特征指標(biāo)(遣詞造句、內(nèi)容體裁、語(yǔ)體語(yǔ)法等),并將訓(xùn)練集作文而構(gòu)建的評(píng)估模型用來(lái)為新的作文進(jìn)行自動(dòng)評(píng)分,其本質(zhì)是利用人工智能技術(shù)“學(xué)習(xí)”教師評(píng)閱作文經(jīng)驗(yàn)。
基于作文自動(dòng)評(píng)估系統(tǒng)的啟示,利用機(jī)器學(xué)習(xí)技術(shù)解決一些最優(yōu)化問(wèn)題,其目標(biāo)是訓(xùn)練模型的參數(shù)使得該模型能夠擬合數(shù)據(jù)樣本。在作戰(zhàn)模擬訓(xùn)練效能評(píng)估中,希望通過(guò)挖掘可量化客觀指標(biāo)替換掉原指標(biāo)體系的主觀指標(biāo),構(gòu)建一個(gè)與原指標(biāo)體系近似的客觀可度量的指標(biāo)體系,但又期望指標(biāo)的選擇、替換操作盡可能地避免較大的信息損失,那么這種操作可以根據(jù)指標(biāo)之間的線性相關(guān)性判斷:對(duì)于任意兩個(gè)高度線性相關(guān)的指標(biāo),可以用一個(gè)指標(biāo)表示另一個(gè)指標(biāo),其綜合評(píng)定誤差與兩個(gè)指標(biāo)的線性相關(guān)系數(shù)有關(guān),尤其共線指標(biāo),兩個(gè)指標(biāo)可以相互表示,不會(huì)影響綜合評(píng)定結(jié)果,證明如下:
設(shè)評(píng)估指標(biāo)集UA={a1,a2,…,an}有n 個(gè)指標(biāo),每個(gè)指標(biāo)有m 個(gè)無(wú)量綱評(píng)估數(shù)據(jù),即ai={ai1,ai2,…,aim}(i=1,2,…,n),于是得到指標(biāo)體系的評(píng)估數(shù)據(jù)矩陣A=(aij)n×m,設(shè)指標(biāo)體系的評(píng)估模型為:
根據(jù)最小二乘法[11],求參數(shù)偏導(dǎo),并偏導(dǎo)為0,不難推導(dǎo)出為:
又由于指標(biāo)x、y 線性相關(guān)系數(shù)為:
因此,希望重新構(gòu)建一個(gè)評(píng)估模型減小評(píng)定誤差,并能適用新的指標(biāo)體系,那么構(gòu)建模型的過(guò)程實(shí)質(zhì)是對(duì)原評(píng)定結(jié)果數(shù)據(jù)預(yù)測(cè)或回歸的過(guò)程,即構(gòu)建的新回歸模型或預(yù)測(cè)模型能夠在新指標(biāo)體系下有效減少誤差,而且不再依賴主觀經(jīng)驗(yàn)評(píng)定,實(shí)現(xiàn)模擬訓(xùn)練效能自動(dòng)評(píng)定。
根據(jù)上述原理,若想實(shí)現(xiàn)作戰(zhàn)模擬訓(xùn)練效能自動(dòng)評(píng)定,關(guān)鍵是構(gòu)建新的評(píng)估體系和新的評(píng)估模型,要求新的評(píng)估體系指標(biāo)不再依賴主觀評(píng)定,新的評(píng)估模型能夠準(zhǔn)確預(yù)測(cè)原訓(xùn)練成績(jī)。具體實(shí)現(xiàn)步驟為:
分析原指標(biāo)數(shù)據(jù)樣本之間線性相關(guān)性,以及挖掘外部特征數(shù)據(jù)與指標(biāo)體系線性相關(guān)性,依據(jù)選擇、替換特征指標(biāo)原理,并根據(jù)需要設(shè)定ρxy閾值,構(gòu)建與原指標(biāo)體系近似的指標(biāo)體系,使每一項(xiàng)指標(biāo)成績(jī)不再依賴專家或考官評(píng)定,且容易采集或獲取;但若替換指標(biāo)較多和相關(guān)系數(shù)ρxy閾值設(shè)置較小時(shí),很可能導(dǎo)致新的評(píng)估體系不能正確評(píng)定成績(jī),因此,新的指標(biāo)體系是否有效,還要根據(jù)最終模型實(shí)驗(yàn)測(cè)試效果,在不滿足精度要求下需要重新修訂評(píng)估指標(biāo)體系。
當(dāng)在原評(píng)估模型不再適用的情況下,可以考慮基于機(jī)器學(xué)習(xí)技術(shù)構(gòu)建新的成績(jī)?cè)u(píng)定模型,如多項(xiàng)式模型、決策回歸樹和BP 神經(jīng)網(wǎng)絡(luò)等,當(dāng)通用機(jī)器學(xué)習(xí)模型或算法不滿足要求時(shí),可以根據(jù)數(shù)據(jù)形態(tài)構(gòu)建專用評(píng)估模型。
通過(guò)實(shí)驗(yàn)測(cè)試,判斷效果是否滿足評(píng)定精度,其有效程度可以依據(jù)擬合優(yōu)度R2判斷,如表達(dá)式(6),考察模型在新的指標(biāo)體系下是否能有效判定模擬訓(xùn)練效能,最后將有效的評(píng)估模型應(yīng)用于作戰(zhàn)模擬訓(xùn)練效能自動(dòng)評(píng)估。
以某裝備技術(shù)保障模擬訓(xùn)練效能評(píng)估為例,保障活動(dòng)是以保障分隊(duì)為單位,成員間實(shí)施協(xié)同作業(yè),保障人員在不熟練掌握裝備技術(shù)規(guī)范情況下不能進(jìn)行保障活動(dòng),需要先單兵學(xué)習(xí)、訓(xùn)練,后進(jìn)行分隊(duì)訓(xùn)練及效能評(píng)估。對(duì)于單兵訓(xùn)練,主要側(cè)重個(gè)人的技能訓(xùn)練,掌握和熟練操作規(guī)范流程,對(duì)于分隊(duì)訓(xùn)練,主要訓(xùn)練成員間協(xié)同配合,發(fā)揮最大裝備技術(shù)保障效能。對(duì)于單兵模擬訓(xùn)練效能評(píng)估比較簡(jiǎn)單,通過(guò)模擬訓(xùn)練系統(tǒng)對(duì)單兵保障流程正誤自動(dòng)判斷,累加正確步驟分值計(jì)算評(píng)定結(jié)果。而對(duì)于分隊(duì)裝備保障模擬訓(xùn)練效能評(píng)估,相對(duì)于單兵模擬訓(xùn)練要考慮較多評(píng)估因素,如:人員配置合理性、組織指揮能力、分隊(duì)協(xié)同作業(yè)能力等。由于多數(shù)評(píng)估指標(biāo)借助專家和考官主觀評(píng)定,主觀評(píng)定結(jié)果靠手工錄入系統(tǒng),最終綜合評(píng)估結(jié)果通過(guò)“加權(quán)和”[3]計(jì)算,即:
式(12)中的Z 表示分隊(duì)模擬訓(xùn)練的綜合評(píng)估結(jié)果,xi表示指標(biāo)成績(jī),ωi表示該指標(biāo)對(duì)應(yīng)的權(quán)重。實(shí)施訓(xùn)練時(shí),以分布式模擬訓(xùn)練系統(tǒng)作為訓(xùn)練手段,如圖1所示。
圖1 某裝備技術(shù)保障模擬訓(xùn)練系統(tǒng)部分界面
圖1(a)是訓(xùn)練成員扮演各個(gè)角色使用的客戶端,圖1(b)是指揮員使用的服務(wù)端,協(xié)同客戶端角色完成作業(yè),并將協(xié)同技術(shù)保障活動(dòng)狀態(tài)投影到考官演練大廳屏幕上進(jìn)行評(píng)估,最后主觀評(píng)價(jià)成績(jī)錄入系統(tǒng),綜合評(píng)估效能按式(12)由軟件系統(tǒng)計(jì)算,圖2 所示是各個(gè)分隊(duì)模擬訓(xùn)練綜合計(jì)算記錄。
圖2 模擬訓(xùn)練綜合評(píng)估結(jié)果
從評(píng)估結(jié)果抽取5 條記錄,如表1 所示(百分制):
在表1 中第1 行表示評(píng)估指標(biāo)項(xiàng),“指標(biāo)項(xiàng)”下面“數(shù)字”表示該指標(biāo)的權(quán)重值,其中“完成時(shí)間(分鐘)”雖然不納入綜合評(píng)分計(jì)算,但用于考官主觀評(píng)估的參考數(shù)據(jù)。“人員配置”指標(biāo)結(jié)果按照表2 配置數(shù)據(jù)主觀評(píng)估:
表1 綜合評(píng)估結(jié)果的5 條記錄
表2 人員配置評(píng)估的5 條記錄
“人員配置”由學(xué)員在模擬訓(xùn)練開始前登陸系統(tǒng)選擇“角色”自動(dòng)生成,其數(shù)量由分隊(duì)成員事先計(jì)劃安排好,可以看成客觀數(shù)據(jù),而評(píng)價(jià)結(jié)果由考官依據(jù)經(jīng)驗(yàn)和訓(xùn)練標(biāo)準(zhǔn)要求確定。另外,值得注意的是模擬訓(xùn)練也有檢驗(yàn)和研究戰(zhàn)法、訓(xùn)法的效用[3],在參考訓(xùn)練標(biāo)準(zhǔn)同時(shí)考慮了實(shí)際情況,比如在表2中第3、4 條記錄“指揮員”兼顧了“電腦操作員”角色,節(jié)省了人員配置數(shù)量和提高了指揮員信息能力素質(zhì),得到了考官認(rèn)可,而第2 條記錄試圖用“操作手”兼顧“安全員”角色,卻沒(méi)被考官認(rèn)可。
總之,上述對(duì)裝備技術(shù)保障分隊(duì)模擬訓(xùn)練評(píng)價(jià)過(guò)程有諸多主觀評(píng)價(jià),實(shí)施訓(xùn)練評(píng)估效率低,導(dǎo)調(diào)過(guò)程復(fù)雜,模擬訓(xùn)練沒(méi)有充分發(fā)揮計(jì)算機(jī)技術(shù)自動(dòng)化優(yōu)勢(shì)。
該模擬訓(xùn)練評(píng)估指標(biāo)體系如圖3 所示。
圖3 保障分隊(duì)模擬訓(xùn)練效能評(píng)估指標(biāo)層級(jí)結(jié)構(gòu)圖
在圖3 的評(píng)估指標(biāo)體系中,大部分指標(biāo)需要借助專家經(jīng)驗(yàn)主觀打分,只有少部分指標(biāo)能夠客觀評(píng)定。各個(gè)指標(biāo)權(quán)重系數(shù)由考評(píng)專家給出,也可采用層次分析法[3,13]來(lái)確定,其中主觀指標(biāo)評(píng)定根據(jù)專家或考官經(jīng)驗(yàn)打分,逐漸形成一定規(guī)模的模擬訓(xùn)練成績(jī)樣本空間,作為后期預(yù)測(cè)模型的擬合數(shù)據(jù)。其中“保障方案合理性”在科目給定情況下裝備數(shù)量已經(jīng)確定,“裝備數(shù)量合理性”在此例中不作評(píng)價(jià)。另外,通過(guò)查看“完成任務(wù)時(shí)間”與評(píng)估體系指標(biāo)關(guān)系,確實(shí)發(fā)現(xiàn)與個(gè)別指標(biāo)有較強(qiáng)的線性關(guān)系,如圖4(a)“完成任務(wù)時(shí)間”與“作業(yè)協(xié)同性”散點(diǎn)分布關(guān)系,而與有些指標(biāo)線性相關(guān)關(guān)系就不大,如圖4(b)“完成任務(wù)時(shí)間”與“操作步驟正確率”散點(diǎn)分布關(guān)系。
圖4 完成任務(wù)時(shí)間-指標(biāo)數(shù)據(jù)關(guān)系散點(diǎn)分布
根據(jù)式(8)分別計(jì)算指標(biāo)間ρxy絕對(duì)值,其線性相關(guān)系數(shù)分布情況如圖5 所示:
圖5 指標(biāo)數(shù)據(jù)的相關(guān)系數(shù)分布
圖5 中的坐標(biāo)數(shù)字代表:0:完成任務(wù)時(shí)間、1:人員配置、2:指揮時(shí)機(jī)、3:資源調(diào)度、4:作業(yè)協(xié)同性、5:作業(yè)流程性、6:步驟正確率;不難發(fā)現(xiàn),相關(guān)系數(shù)|ρ23| 和|ρ45| 值基本接近1,而且|ρ02|、|ρ03|、|ρ04|和|ρ05| 數(shù)值在0.85 左右,明顯高于|ρ01|=0.76 和|ρ06|=0.68,其中“2、3、4、5”指標(biāo)與“0”存在較大程度線性相關(guān)性。根據(jù)上節(jié)的原理,若取|ρxy|>0.8 作為選擇或替換特征指標(biāo)標(biāo)準(zhǔn),那么主觀特征指標(biāo)相關(guān)系數(shù)符合條件從大到小順序?yàn)閨ρ23|、|ρ45|、|ρ12|或|ρ13|,從中可篩選指標(biāo)特征有a1、a3和a4。又由于客觀特征指標(biāo)“完成任務(wù)時(shí)間a0”與“人員調(diào)配a3和作業(yè)協(xié)同性a4”也有較強(qiáng)的相關(guān)性,即|ρ03|、|ρ04|>0.8,因此,可用a0替換a3和a4。綜上分析,根據(jù)指標(biāo)間的線性相關(guān)系數(shù),重新構(gòu)建近似可量化的指標(biāo)體系如下頁(yè)圖6 所示。
圖6 保障分隊(duì)模擬訓(xùn)練近似評(píng)估體系
在圖6 中,“保障方案合理性”成績(jī)可以通過(guò)客觀數(shù)據(jù)“資源配置數(shù)量”回歸或預(yù)測(cè)評(píng)定,“指揮時(shí)機(jī)、資源調(diào)度、作業(yè)協(xié)同性和作業(yè)流程性”主觀指標(biāo)被外部客觀特征指標(biāo)“完成任務(wù)時(shí)間”替換,形成近似的評(píng)估指標(biāo)體系,其指標(biāo)數(shù)據(jù)能夠通過(guò)模擬訓(xùn)練系統(tǒng)客觀獲取和度量。
重新構(gòu)建評(píng)估指標(biāo)體系后,新指標(biāo)體系是原評(píng)估指標(biāo)體系的近似,產(chǎn)生一定誤差,指標(biāo)數(shù)據(jù)已經(jīng)不適合在原評(píng)估模型直接引用,如“完成任務(wù)時(shí)間”指標(biāo),為了減小誤差和提高評(píng)估模型適應(yīng)性,需要重新構(gòu)建計(jì)算模型和算法。
為了減小評(píng)估模型誤差,選擇梯度漸進(jìn)回歸樹(Gradient Boosting Regression Trees,GBRT)[14]作為綜合效能預(yù)測(cè)模型,GBRT 是一種常見且有效的集成學(xué)習(xí)技術(shù),具有模型預(yù)測(cè)精度高、運(yùn)行速度快、模型的解釋性較強(qiáng)等特點(diǎn),對(duì)于噪聲數(shù)據(jù)具有很好的魯棒性。具體實(shí)現(xiàn)步驟為:
設(shè)訓(xùn)練數(shù)據(jù)集S= {(x1,y1),(x2,y2),…,(xN,yN)},設(shè)定損失函數(shù)L(y,f(x)),設(shè)定回歸樹的最大深度為D。
1)首先初始化,根據(jù)式(13)估計(jì)一個(gè)使損失函數(shù)最小化的常數(shù)值c,此時(shí)它只有一個(gè)節(jié)點(diǎn)的回歸樹。
2)迭代建立M 棵回歸樹,即m=1,2,…,M
對(duì)于i=1,2,…,N 樣本,根據(jù)式(14)計(jì)算損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,并將它作為殘差的估計(jì)值。
利用線性搜索求得模型的權(quán)重βm,使損失函數(shù)最小化:
根據(jù)式(16)對(duì)模型進(jìn)行更新,其中α 是更新步長(zhǎng)(或?qū)W習(xí)率)。
3)迭代結(jié)束,輸出最終模型:
根據(jù)以上過(guò)程,總結(jié)得到的模擬訓(xùn)練自動(dòng)評(píng)估流程如圖7 所示:
圖7 模擬訓(xùn)練自動(dòng)評(píng)估算法流程
從裝備保障分隊(duì)模擬訓(xùn)練某科目評(píng)分?jǐn)?shù)據(jù)庫(kù)中抽取80 個(gè)樣本,分成兩組,其中一組60 個(gè)樣本作為訓(xùn)練集,另一組20 個(gè)樣本作為測(cè)試集,自動(dòng)評(píng)估效果如下:
首先將評(píng)分指標(biāo)“人員配置合理性、裝備數(shù)量合理性、完成任務(wù)時(shí)間、操作步驟正確率、裝備操作規(guī)范性”無(wú)量綱數(shù)據(jù)作為GBRT 模型輸入集合。然后通過(guò)枚舉辦法,對(duì)60 個(gè)樣本數(shù)據(jù)進(jìn)行交叉驗(yàn)證,選擇最優(yōu)組合參數(shù)。比如,根據(jù)經(jīng)驗(yàn)選取最有可能較優(yōu)參數(shù),回歸樹深度D= {2,3,5}、步長(zhǎng)α={0.05,0.1,0.5,1}和M={30,50,80,200},通過(guò)遍歷所有組合,如參數(shù)組合{D=5,α=1,M=100},計(jì)算各個(gè)組合參數(shù)的模型擬合優(yōu)度,找出最大擬合優(yōu)度值對(duì)應(yīng)的組合參數(shù),經(jīng)過(guò)算法步驟計(jì)算,得到最優(yōu)參數(shù)為:D=3,α=0.05,M=80。
接下來(lái)對(duì)60 個(gè)樣本進(jìn)行GBRT 模型訓(xùn)練,訓(xùn)練后模型對(duì)測(cè)試集20 個(gè)成績(jī)樣本測(cè)試,迭代精度采用均方根誤差衡量,如式(19):
圖8 迭代過(guò)程中的分?jǐn)?shù)預(yù)測(cè)誤差變化
在圖8 中,雖然訓(xùn)練集RMSE 誤差在迭代80次時(shí)還有繼續(xù)下降趨勢(shì),但已經(jīng)不十分明顯,而且測(cè)試集RMSE 誤差很接近訓(xùn)練集誤差,說(shuō)明訓(xùn)練集RMSE 誤差的降低沒(méi)有發(fā)生過(guò)擬合而導(dǎo)致預(yù)測(cè)值不準(zhǔn)確現(xiàn)象。同時(shí)繪制測(cè)試集分?jǐn)?shù)預(yù)測(cè)散點(diǎn)分布圖,如圖9 所示。
圖9 實(shí)際成績(jī)和預(yù)測(cè)成績(jī)散點(diǎn)分布
圖9 直觀描述了實(shí)際評(píng)估分?jǐn)?shù)與GBRT 模型計(jì)算分?jǐn)?shù)誤差距離情況,兩個(gè)綜合成績(jī)分?jǐn)?shù)多數(shù)基本接近;根據(jù)式(6)計(jì)算擬合優(yōu)度R2=0.967,此時(shí)結(jié)果顯示模型計(jì)算精度能夠滿足模擬訓(xùn)練自動(dòng)評(píng)定需求。
由于樣本空間不同,使訓(xùn)練自動(dòng)評(píng)估結(jié)果準(zhǔn)確程度會(huì)有差別,因此,為了考察評(píng)估模型是否足夠穩(wěn)定在較精準(zhǔn)水平,還需要進(jìn)一步實(shí)驗(yàn)和測(cè)試。這里采用交叉驗(yàn)證方式考察模型的穩(wěn)定性,將抽取的80 個(gè)樣本平均分成4 等份(每20 個(gè)樣本1 份),其中一份20 個(gè)樣本作為交叉驗(yàn)證集,其他樣本作為交叉訓(xùn)練集,那么就有4 組測(cè)試結(jié)果,然后對(duì)80 個(gè)樣本重新“洗牌”,再進(jìn)行交叉驗(yàn)證,這樣重復(fù)50 次實(shí)驗(yàn),形成200 個(gè)測(cè)試結(jié)果,交叉驗(yàn)證集擬合優(yōu)度值,如圖10 所示。
圖10 模型的可靠性實(shí)驗(yàn)與測(cè)試
在圖8 中,平均交叉驗(yàn)證集擬合優(yōu)度值為0.952(圖10 虛線所示),最大擬合優(yōu)度值為0.985,最小擬合優(yōu)度值為0.861,標(biāo)準(zhǔn)差為0.021 4,計(jì)算變異系數(shù)(標(biāo)準(zhǔn)差/均值)為0.022 5,有2.25%發(fā)生變異,即約有2.25%幾率效果不理想,絕大多數(shù)情況是以很小方差穩(wěn)定在較高預(yù)測(cè)精度附近。因此,可以認(rèn)為參數(shù)為{D=3,α=0.05,M=80}的GBRT 自動(dòng)評(píng)估模型在此例中是可靠有效的。
效能評(píng)估是作戰(zhàn)模擬訓(xùn)練的一個(gè)重要內(nèi)容,尤其在復(fù)雜作戰(zhàn)模擬訓(xùn)練中,它的高效利用可以確保訓(xùn)練實(shí)施環(huán)節(jié)的前后銜接順暢,及時(shí)反饋?zhàn)鲬?zhàn)訓(xùn)練效果和受訓(xùn)人員能力水平。為了實(shí)現(xiàn)作戰(zhàn)模擬訓(xùn)練效能評(píng)估自動(dòng)化,將人工智能的機(jī)器學(xué)習(xí)技術(shù)作為解決自動(dòng)評(píng)估的途徑,其核心方法是利用算法模型“學(xué)習(xí)”(擬合)主觀經(jīng)驗(yàn)數(shù)據(jù),形成智能評(píng)估環(huán)境,無(wú)需再依靠主觀實(shí)施效能評(píng)定,達(dá)到自動(dòng)評(píng)估的目的。本研究通過(guò)詳細(xì)實(shí)例給出方法的步驟、原理和相關(guān)算法,通過(guò)實(shí)驗(yàn)與測(cè)試證明了研究方法的可行性和有效性,為作戰(zhàn)模擬訓(xùn)練效能自動(dòng)評(píng)估提供了可行思路。