耿 昊,盧 浩,黃 牧,孫善政,鄭辰翔
(1.陸軍工程大學(xué) 爆炸沖擊防災(zāi)減災(zāi)國家重點實驗室,南京 210007;2.中國人民解放軍95979部隊,沈陽 110000)
防護工程是針對武器殺傷破壞作用,按預(yù)定防護要求修建的軍事或民用設(shè)施,通常作為首腦指揮、戰(zhàn)略武器等重要作戰(zhàn)力量生存的依托,絕大多數(shù)埋設(shè)于地下,是我國積極防御戰(zhàn)略的重要基石[1]。針對防護工程的攻防對抗是現(xiàn)代戰(zhàn)爭中的一個重要環(huán)節(jié),其基本流程為:
通過全面的勘測與評估,防護方按照一定原則與戰(zhàn)技指標(biāo)進行工程設(shè)計與建設(shè);運用間諜滲透、衛(wèi)星偵察等方式,進攻方采集目標(biāo)工程防護信息,制定打擊方案;進攻方進行攻擊,造成防護工程毀傷;防護方對工程毀傷狀態(tài)進行評估,制定方案,針對毀傷特點改進工程設(shè)計策略。
防護方與進攻方是帶有對抗性質(zhì)的兩方。進攻方通過優(yōu)化火力配置、改進武器裝備等對目標(biāo)工程進行有效打擊,使目標(biāo)工程損失最大;綜合防護方通過改進防護效能對武器毀傷方進行防御和反擊,使武器毀傷效果最差。攻防雙方博弈的最終目標(biāo)都是利用最小的代價獲取最大的收益。
目前進行防護效能設(shè)計時,往往預(yù)設(shè)一定的戰(zhàn)技指標(biāo),利用可靠度理論等方法進行防護設(shè)計,在確定打擊條件下對己方設(shè)施進行優(yōu)化。然而戰(zhàn)爭是雙方博弈的行為,如果單憑傳統(tǒng)經(jīng)驗或己方?jīng)Q策的單方面優(yōu)化進行防護設(shè)計,一方面容易被對方洞悉設(shè)計方法,另一方面在對方改變攻擊策略時難以做出有益的防護選擇。因此,利用博弈論將防護策略從單方面發(fā)展為雙邊,更加符合實戰(zhàn),決策結(jié)果也更加科學(xué)。本研究利用博弈論對武器打擊下的工程防護設(shè)計策略進行研究,對博弈論在防護工程建設(shè)發(fā)展中應(yīng)用進行探討。
攻防雙方的目標(biāo)都是追求自身利益的最大化,不可能達成合作意向,且收益信息不固定,雙方收益和不為零。軍事對抗決策環(huán)境具有天然的不確定性,不可能完全了解對方的策略集與收益函數(shù),對于博弈雙方來說,信息都是不確定的。
攻防雙方的對抗不同于一般軍事對抗,不是一種同時選擇行為,防護工程作為不動體,其防護策略的選擇必然在打擊策略之前。因此,該博弈模型為非合作、非零和的動態(tài)貝葉斯博弈[2]。
從經(jīng)濟學(xué)的角度來看,收益大于成本的預(yù)期是人類理性行為的基本原則[3]。不管是進攻還是防護,都必須考慮其費效比。本研究以攻守雙方均為理性的決策主體為前提,給出以下相關(guān)假設(shè):
假設(shè)1:進攻方明確可選的攻擊方式和進攻手段,對未知的工程防護策略具有預(yù)期,帶有明確的偏好,在經(jīng)過一系列優(yōu)化后慎重選擇行動;防護方明確可選的防護策略,對對手進攻策略具有預(yù)期。雙方對對方策略的了解程度取決于各自有效信息的獲取以及對真實信息的判斷。
假設(shè)2:在攻防博弈中,進攻方與防護方都希望通過最優(yōu)策略來最大化收益。在進攻獲得收益相同的情況下,理性的武器打擊方會考慮攻擊成本,選擇具有低成本的進攻策略;理性的防護方同樣也會采取成本盡量低廉的防護策略,來獲得足夠的防護效能。
在以上兩條合理假設(shè)的基礎(chǔ)上,可以將攻防矛盾沖突關(guān)系描述的更為具體。此假設(shè)建立的矛盾沖突明確了攻防雙方策略集與收益的博弈模型,通過計算該博弈模型的精煉貝葉斯納什均衡獲得攻擊意圖和最優(yōu)的防護策略[4]。
該博弈模型為一個四元組,即W={P,A,S,U}[5],其中:P=(Pa,Pd)為參與者集合,Pa表示進攻方,Pd表示防護方。在對抗過程中,攻防雙方是策略選擇的主體和制定者。
A=(Aa,Ad)為攻防動作集,Aa為進攻動作集,Ad為防護動作集。其中Aa=(a1,a2,…,au),子元素a代表進攻方時采取的單個進攻動作u為進攻方動作總數(shù);Ad=(d1,d2,…,dv),子元素d代表綜合防護方防守時選用的單個防護策略,v為綜合防護方動作總數(shù)。
S=(Sa,Sd)為攻防策略集。進攻方(防護方)選擇的理性可行的行動方案稱為進攻(防護)策略,攻防策略集是全部策略的集合。進攻策略集Sa=(sa1,sa2,…,sam),m為可選進攻策略總數(shù);同理,防護策略集Sd=(sd1,sd2,…,sdn),n為可選防護策略總數(shù)。攻防雙方以概率形式選取可用的攻防策略,此時攻防策略也被稱之為混合策略,如果攻防策略唯一,此攻防策略被稱之為純策略[3]。
U=(Ua,Ud)分別為攻防雙方收益函數(shù)。該函數(shù)表達了攻防雙方從博弈中能夠得到的收益水平,它是攻防雙方真正關(guān)心的參數(shù)。
1)參與方的類型
一般進攻方進攻的目的性很強,常表現(xiàn)為對某種功能毀傷的偏好,因此其類型主要取決于選取的進攻策略,如采用大當(dāng)量動能侵徹導(dǎo)彈等主要是造成內(nèi)部設(shè)備與人員的毀傷,而采用導(dǎo)電纖維戰(zhàn)斗部、EMP戰(zhàn)斗部等的導(dǎo)彈主要針對工程內(nèi)部電子設(shè)備[6]。定義武器打擊方類型θa,其內(nèi)容與進攻策略sa一一對應(yīng),進攻策略數(shù)便是武器打擊方類型數(shù)。
綜合防護方必須擁有所有防護功能才能正常工作,因此其功能類型不可能像進攻方一樣只偏向某種或幾種功能,而是要全面考慮與決策。定義防護方工程設(shè)計類型θd,不同類型的防護工程其功能性大相徑庭,在設(shè)計與決策時的側(cè)重點也不同,部分類型如表1[7]。
表1 防護工程部分功能類型
建立攻防雙方類型向量,通過海薩尼轉(zhuǎn)換[4],可以將動態(tài)貝葉斯博弈轉(zhuǎn)化為完全但不完美信息的動態(tài)博弈。通過虛擬的“自然”博弈方Pn選擇攻守雙方的策略類型,既可以將攻防雙方收益區(qū)分開,也便于推斷對手后續(xù)策略。
2)參與方的信息知識集
定義攻防雙方各自的信息知識集分別為Ia和Id,攻防雙方信息集包含的信息來自于采取衛(wèi)星偵察、間諜滲透等措施收集信息做出的判斷。定義信息知識集幫助博弈雙方對對方的類型可能性進行推測,即經(jīng)過理性地判斷,將信息集歸結(jié)到攻守雙方對對方類型的先驗信念fa(θd)和fd(θa)上。運用加權(quán)模糊產(chǎn)生式規(guī)則將雙方的信息知識集轉(zhuǎn)化為對對方類型的先驗信念值,該方法是模糊產(chǎn)生式規(guī)則的擴展[8]。如下面這條推理:
規(guī)則R:
If {fa(θd1)+=0.05,fa(θd2)+=0.1
Thenfa(θd3)+=0.2,LwI,Gw(R)}
該規(guī)則表示,當(dāng)信息知識集Ia等于X時,進攻方對防護方類型θd1、θd2、θd3的先驗信念分別增加0.05、0.1、0.2。其中,LwI,Gw(R)分別表示規(guī)則前置條件“Ia=X”的局權(quán)和規(guī)則R的全權(quán),其定義域均為(0,1]。通過羅列規(guī)則并設(shè)置權(quán)值,對攻防雙方獲得的信息逐條推理,推理完畢后,對結(jié)果歸一化處理得出對方各類型的先驗信念。
通過分析不難發(fā)現(xiàn),雙方得到的信息知識集越大,對對方類型的先驗信念值越高,進攻或防護策略的制定也會更加準(zhǔn)確。因此,在現(xiàn)代戰(zhàn)爭攻防對抗中,通過一定方法獲取對手有效信息對戰(zhàn)爭打贏有著十分重要的意義與價值,知己知彼百戰(zhàn)不殆的戰(zhàn)法理念得到了很好的體現(xiàn)。
3)參與方的行動順序
定義參與方行動順序:自然博弈方Pn對參與方博弈類型進行定義,防護方Pd根據(jù)類型選取策略進行防護工程設(shè)計與建設(shè),然后進攻方Pa根據(jù)偵測到的動作從進攻策略集中選取合適策略進行打擊,計算雙方收益。博弈樹如圖1。
圖1 攻防博弈樹
博弈中,進攻方收益Ua由進攻獲利及進攻成本組成,防護方收益Ud由防護工程損失工程自身功能損失、防護目標(biāo)功能損失及防護成本組成。
1)進攻獲利與防護損失
進攻獲利較為復(fù)雜,分為直接獲利和間接獲利,有對防護工程的破壞、對防護方心理上的威懾等,也可能通過打擊重要經(jīng)濟目標(biāo)在信息、能源等方面占據(jù)優(yōu)勢。這些主觀或延伸的獲利很難量化,然而不管何種獲利其根源都是防護方工程的損失,因此以防護工程功能損失代表進攻方的進攻獲利。
防護損失由工程自身功能損失和防護目標(biāo)功能損失兩方面組成。工程自身功能損失是指防護工程設(shè)計功能的削弱或喪失,如指揮防護工程在打擊過后由設(shè)備損壞造成的通信功能損失;防護目標(biāo)功能損失是防護效能失效后工程防護目標(biāo)的功能損失,如飛機掩蔽庫內(nèi)被毀傷戰(zhàn)斗機的功能損失、人防設(shè)施內(nèi)被殺傷平民的價值損失。
因此,定義防護方損失(亦即進攻方獲利)
L(sd,sa,θd)=Ve×De(sd,sa)+Lt(sd,sa)
(1)
其中,Ve為使用Sd策略建造的θd類型防護工程的功能價值,由工程抗力等級、規(guī)模等指標(biāo)綜合評估確定;De(sd,sa)為攻防策略為Sa、Sd時,工程自身功能的平均毀傷程度,Lt(sd,sa)為攻防策略為Sa、Sd時,防護目標(biāo)毀傷后的功能損失值。
2)功能毀傷評估方法
在計算防護方損失時,求解工程自身與內(nèi)部防護目標(biāo)的功能毀傷程度十分關(guān)鍵,是模型計算時需重點解決的問題。本模型采用降階態(tài)易損性分析方法(DSVM),對防護工程與內(nèi)部防護目標(biāo)的功能毀傷進行探究。此方法作為武器裝備的重要分析方法之一,主要優(yōu)點是層次分明,對工程內(nèi)部各級部件狀態(tài)了解更加直觀,對毀傷狀態(tài)的戰(zhàn)術(shù)響應(yīng)更加及時[9]。
在確定攻防策略后,在武器毀傷效應(yīng)庫內(nèi)搜索最優(yōu)算法進行彈目交匯模擬,設(shè)定相應(yīng)參數(shù),計算工程自身與防護目標(biāo)的部件級物理毀傷,然后根據(jù)這些部件級物理毀傷狀態(tài)進行功能毀傷評估。
對于工程自身,先對工程的功能因素φ進行梳理,如表2為指揮防護工程功能因素[10-12]。然后從部件級物理毀傷狀態(tài)出發(fā),運用演繹法,將工程內(nèi)部關(guān)鍵部件(位)的毀傷作為基礎(chǔ)事件,將工程功能因素作為頂事件,按照一定邏輯關(guān)系構(gòu)造毀傷樹[9],由下至上逐級評估,運用降階態(tài)理論判斷各功能因素毀傷的程度dφ。如一定當(dāng)量的低阻式爆破彈以堵口爆炸方式打擊目標(biāo)工程[6],造成防護門、防護密閉門、擴散室等完全毀傷,防爆波活門、消波室等部分毀傷,根據(jù)毀傷樹逐級向上推演,可定量判斷出爆炸沖擊、生化毒害等功能因素的毀傷程度。根據(jù)防護工程類型定義各功能因素權(quán)重?,則:
(2)
其中we為工程功能因素總數(shù)。
表2 指揮防護工程功能因素
對于防護目標(biāo),將其分為人員與裝備兩類。人員按實現(xiàn)價值能力VHu分類,根據(jù)模擬出的物理毀傷狀態(tài)判斷不同VHu的人員傷亡占比dHu,計算打擊后的人員價值損失。裝備方面,不管是大型裝備(戰(zhàn)機、艦船等),還是小型裝備(單兵裝備、彈藥等),選取合適單元將其分類(如10枚MK-82低阻航彈)并定義每個單元的功能價值VEq,根據(jù)物理毀傷狀態(tài)通過降階態(tài)理論判斷每個單元的毀傷程度dEq,計算打擊后裝備功能損失。
故防護目標(biāo)毀傷后的功能損失值
(3)
其中,δHu、δEq為二進制系數(shù),值為1時表示有人員裝備毀傷,為0時表示無人員裝備毀傷。wHu、wEq分別為人員與裝備的分類總數(shù)。
綜上所述,防護方損失(進攻方獲利)
(4)
3)攻防成本
在博弈過程中,攻防支出成本也是雙方收益的重要組成部分。然而,如果簡單將消耗實際金錢數(shù)額表示攻防成本,一方面攻防雙方選取策略的效率與價值不能很好體現(xiàn),另一方面實際消耗金錢數(shù)額與工程功能損失值量綱并不統(tǒng)一,最終收益無法計算。因此,需要將攻防成本與工程功能損失價值貨幣統(tǒng)一化并體現(xiàn)選取策略支出的效率。
對于確定類型θd的防護工程,搜集大量工程實測數(shù)據(jù)可以計算出該類型工程的單位功能價值消耗期望QdAVG與標(biāo)準(zhǔn)差σd。使用sd策略建造的消耗為Md的防護工程的單位功能價值消耗
(5)
因此,通過z-score標(biāo)準(zhǔn)化方法[13]定義綜合防護方選用sd策略的防護成本
(6)
αθ為防護成本修正系數(shù),定義域為(0,1),由大量樣本數(shù)據(jù)統(tǒng)計歸納求得,在戰(zhàn)時作戰(zhàn)效能越高的工程值越小。
陸軍工程大學(xué)爆炸沖擊防災(zāi)減災(zāi)國家重點實驗室搜集國內(nèi)外最新武器數(shù)據(jù),建立了較為完整的武器毀傷效應(yīng)庫,同時也掌握大量實測防護工程數(shù)據(jù)。依托實驗室現(xiàn)有資源,進行多源數(shù)據(jù)融合處理,構(gòu)建確定類型θ與對應(yīng)功能價值Ve的標(biāo)準(zhǔn)防護工程BIM(Building Information Modeling)模型,運用相關(guān)算法進行多次模擬,確定造成相同功能毀傷程度De(sd,sa)時的打擊消耗期望MaAVG與標(biāo)準(zhǔn)差σa。
通過z-score標(biāo)準(zhǔn)化方法定義武器打擊方選用sa策略打擊θd類型工程的進攻成本
(7)
βθ為進攻成本修正系數(shù),定義域為(0,1),其值與武器類型、打擊方式和目標(biāo)類型相關(guān);Ma為選用sa策略進攻實際消耗。式(6)、式(7)統(tǒng)一了攻防成本與工程功能損失價值的量綱,也將攻防實際消耗與攻防效率結(jié)合起來,結(jié)果更加符合實際,與攻防獲利的比較也更加客觀。
4)攻防收益
確定防護損失與成本后,博弈中防護方的收益為防護損失的相反數(shù)與防護支出之差,即:
Ud(sd,sa)=-L(sd,sa,θd)-costd(sd,θd)
(8)
同樣地,進攻方收益為進攻獲利與進攻成本之差,即:
Ua(sd,sa)=L(sd,sa,θd)-costa(sa,θd)
(9)
將式(4)、式(6)、式(7)代入即可求解。
隨著衛(wèi)星等偵測手段的高速發(fā)展,進攻方可以了解防護工程的毀傷情況。本研究假定博弈過程是完美的,即進攻方對防護方的防護動作是了解的,因此進攻方對防護方類型的信念可以通過探測到的防護策略而做出調(diào)整,形成后驗信念。
已知攻防雙方對對方類型的先驗信念為fa(θd)和fd(θa)。根據(jù)貝葉斯定理,進攻方對防護方類型的后驗信念
(10)
式(10)表示進攻方偵測到工程毀傷情況Ds后對防護類型信念的調(diào)整,其中fa(Ds|θdi)為在防護方類型為θdi時,針對進攻策略sak進行設(shè)計的概率,一般由統(tǒng)計獲得。
(11)
(12)
根據(jù)納什均衡的存在條件[2]:任意有限策略型博弈至少存在一個混合策略納什均衡。由于攻守雙方的動作數(shù)目有限,博弈模型的擴展型博弈和對應(yīng)的策略型博弈均是有限的,因此至少存在一個混合策略納什均衡。又因博弈過程是完美的,根據(jù)“完美信息的有限擴展型博弈存在純策略納什均衡[14]”這個定理,該模型至少存在一個純策略納什均衡。
關(guān)于均衡的精煉,根據(jù)完美貝葉斯均衡法則[2],在所有后續(xù)動態(tài)貝葉斯博弈上也達成貝葉斯均衡,即對于進攻方的任意一個策略,均需滿足式(11),在計算后加以驗證。
在完成貝葉斯精煉計算后,該模型求解出的均衡策略仍然有可能大于一個。采用預(yù)設(shè)策略的方式進行指導(dǎo),根據(jù)設(shè)計經(jīng)驗以及防護工程類型,制定工程設(shè)計預(yù)方案,在解得的均衡策略中選擇更接近其經(jīng)驗預(yù)案的策略。
下面通過簡單算例介紹模型分析過程,并分析結(jié)果。防護方設(shè)計建造防護工程用于特定功能,進攻方針對需求進行戰(zhàn)略打擊,本文列舉部分攻防博弈策略進行簡要計算說明。
攻防策略由攻防動作集中不同動作組合而成,進攻策略包含動作與實際消耗見表3,防護策略包含動作與實際消耗見表4所示。表4中每種設(shè)計布局均代表一種設(shè)計樣式,如樣式5-1中,5代表該布局的功能類型,1代表該樣式的編號。
根據(jù)工程抗力、規(guī)模等指標(biāo)綜合評估確定防護工程價值,不僅要考慮工程自身的價值,也要考慮防護目標(biāo)的價值。表中工程主防護目標(biāo)均為人員,無儲存裝備損傷,為保證對工程功能的完全評估,在計算毀傷程度時考慮防護目標(biāo)滿編狀態(tài),將人員按職能劃分平均分配到各個功能房間,該房間完全毀傷則造成分配人員傷亡。各策略建造防護工程的詳細(xì)指標(biāo)見表5。利用上述數(shù)據(jù)進行部件級物理毀傷模擬,固定交匯速度與彈著角,引入彈著點圓概率偏差(CEP),運用空氣沖擊波、侵徹、爆炸等相關(guān)算法與蒙特卡洛方法計算打擊造成各節(jié)點(部件)平均物理毀傷參數(shù),編寫Matlab程序與設(shè)計抗力指標(biāo)進行比較,進而判斷物理毀傷程度。運用降階態(tài)易損性分析方法,構(gòu)建各級功能毀傷樹,由下到上逐級推演,計算工程平均功能毀傷程度De(sd,sa),見表6所示。已知工程部件級毀傷狀態(tài),可根據(jù)式(3)與表5,計算出工程內(nèi)部人員價值損失Lt(sd,sa),見表7。通過大量攻防樣本數(shù)據(jù)比對,修正攻防支出帶來的價值偏差,確定攻防成本修正系數(shù)。其中,防護成本修正系數(shù)αθ1=0.652,αθ5=0.829,進攻成本修正系數(shù)βθ見表8所示。在衡量進攻支出的均值時,提前構(gòu)造多種類型的樣本工程BIM模型,通過改變彈體型號、戰(zhàn)斗部型號、裝藥量等數(shù)據(jù)進行蒙特卡洛模擬,計算出造成相同功能毀傷De(sd,sa)時的打擊消耗期望MaAVG與標(biāo)準(zhǔn)差σa,儲存在數(shù)據(jù)庫中,使用時直接調(diào)用。
表3 進攻方進攻策略與消耗
表4 防護方防護策略與消耗
表5 防護方建造防護工程的詳細(xì)指標(biāo)
表6 工程平均功能毀傷程度
表7 內(nèi)部人員價值損失
表8 進攻成本修正系數(shù)
將上述數(shù)據(jù)代入式(11)、式(12),得到攻防雙方收益。進攻方收益見表9,防護方收益見表10所示。
根據(jù)獲得的信息集Ia和Id,攻守雙方推理出對對方策略的先驗信念。打擊后,進攻方對防護方類型信念進行調(diào)整,形成后驗信念。代入式(10),得出進攻方對防護方類型的后驗概率。
表9 進攻方收益
表10 防護方收益
在該算例中,如果僅從單方面考慮,防護方會選擇平均收益較高的sd5策略,此時其最佳收益為-40.7。而進攻方會通過判斷選擇對自己有利的(sa2,sd5)組合,攻防收益變?yōu)?3.7和-93.0。由此可知,如果僅從單方面判斷最優(yōu)策略是不穩(wěn)定的,模型充分考慮了雙方可能的策略變化與收益,計算結(jié)果的準(zhǔn)確性更高、穩(wěn)定性更強。
表11 攻防雙方博弈收益矩陣
本研究以博弈論為基礎(chǔ)建立攻防收益模型,充分考慮攻防雙方收益以及策略的變化因素,計算出雙方最優(yōu)策略集。由式(11)、式(12)易得,所求解出的最優(yōu)防護策略,是針對進攻方所有可能的進攻策略選出的最優(yōu)決策。它充分考慮了攻防雙方的收益,與單向考慮模型相比,其結(jié)果更加穩(wěn)定、可靠。計算中考慮攻防雙方類型的偏好,體現(xiàn)了雙方攻防博弈時的意圖與目的,同時也巧妙解決了攻防獲利與成本支出無法統(tǒng)一貨幣單位的問題,收益的計算更加準(zhǔn)確。
攻防收益的計算以功能毀傷程度為基準(zhǔn),嚴(yán)格考慮博弈中功能的損失,實現(xiàn)了功能價值的量化,比只從物理毀傷角度分析更加符合實戰(zhàn),也便于非工程專業(yè)的指揮人員了解實況并進行后續(xù)戰(zhàn)術(shù)部署。在計算中不可避免地使用了少量人工指定參數(shù)(如工程功能價值等),在下步工作中,要嚴(yán)格規(guī)范這些參數(shù)的評價標(biāo)準(zhǔn),進而提高模型的準(zhǔn)確性。另外,本文以攻防雙方行為均為理性的前提建立模型,在實際戰(zhàn)斗條件下雙方很難做到完全理性,在決策過程中難免會出現(xiàn)紕漏,可從進化博弈角度完善模型,解決防護工程遭受再打擊的難題。