周興旺,從福仲,龐世春,侯滿義,辛騰達
(空軍航空大學,長春 130000)
基于貝葉斯混合博弈的空襲火力資源分配決策模型*
周興旺,從福仲,龐世春,侯滿義,辛騰達
(空軍航空大學,長春130000)
從博弈論的角度出發(fā)研究空襲火力資源的分配問題,針對空襲編隊和防空火力單元攻防對抗過程中存在的不確定性、靜態(tài)性以及動態(tài)性,建立基于貝葉斯混合博弈的空襲對抗火力分配模型。通過構造貝葉斯混合博弈樹,采用逆向回溯法分別建立不同的博弈分析模型,利用混合粒子群算法求解那什均衡。仿真結果表明:以博弈論為背景研究空襲作戰(zhàn)火力分配問題,符合真實的作戰(zhàn)壞境,有效性好,有較高的理論應用價值。
博弈論,貝葉斯博弈,混合粒子群算法,火力分配
20世紀80年代以來,世界范圍內發(fā)生的幾場高技術局部戰(zhàn)爭充分體現(xiàn)了空襲與反空襲已成為信息化戰(zhàn)爭的主要作戰(zhàn)樣式,空襲火力的優(yōu)化與分配直接決定著戰(zhàn)爭的進程和勝負。目前,國外對空襲火力分配作了很多的研究,而國內的相關研究卻很有限,除了零星的幾篇UAV對地攻擊[1]和武裝直升機對地攻擊[2]火力分配外,大多都局限于防空火力資源[3-4]的分配研究中,難以滿足我國加快建設強大人民空軍的發(fā)展要求和研究空襲作戰(zhàn)的發(fā)展趨勢。
常規(guī)編隊對地突擊作戰(zhàn)是空襲戰(zhàn)爭的主要作戰(zhàn)力量,本文就是基于常規(guī)編隊的突擊特點為背景研究空襲作戰(zhàn)的火力資源分配。常用的火力分配(Weapon Target Assignment)方法有傳統(tǒng)解析分配算法[5]、智能優(yōu)化分配算法[6]和混合優(yōu)化分配算法[7]。但是這些方法的共同點都是基于一方最小的武器資源消耗和最大的攻擊或攔擊效果來選擇火力資源的分配策略,從博弈論的角度分析,這種分配策略忽視了對方的決策方案對自己分配策略的影響,即這種均衡策略可能是不可置信的那什均衡策略,存在著較大的風險指數(shù)。
基于不完全信息動態(tài)博弈[8](dynamic game of incomplete information)的思想,空襲火力資源分配中涉及兩個局中人,即空襲方A和反空襲方D;涉及一個虛擬的局中人,“自然人”N2,N2首先選擇博弈局中人D的類型(“防空火力強”(Strong Fire,SF)和“防空火力弱”(Weak Fire,WF)),局中人D自己知道,局中人A不知道,但A對D的類型有自己的先驗認識α;在自然選擇之后,局中人A開始行動。此過程為有先驗知識的貝葉斯博弈過程。
A有A1和A2兩個行為選擇,A1首先行動,可以選擇“防區(qū)外發(fā)射”(Stand-off Launch,STL)和“防區(qū)內突擊”(Protection Zone Within,PZW)兩個行動。當選擇PZW時,攻防雙方A2和D均能攻擊到對方,雙方都不確定誰先采取行動,卻都在爭取首先攻擊對方,所以此階段可以理解為雙方同時采取行動的靜態(tài)博弈過程;當選擇STL時,攻防雙方A2和D中有一方不能首先攻擊到對方,局中人的行動有先后順序,A2掌握主動權首先行動,D處于被動狀態(tài),D在探測發(fā)現(xiàn)到A行動進入自己的防區(qū)并對自己構成威脅后選擇自己的應對行動,所以此階段可以理解為行動有先后順序的動態(tài)博弈過程。
整個空襲火力分配問題可以用貝葉斯混合博弈樹進行描述,如圖1所示。
圖1 貝葉斯混合博弈樹
2.1PZW靜態(tài)博弈部分模型的建立
當博弈階段經(jīng)過局中人A1選擇PZW行動后進行到信息集x5或x6時,博弈類型變?yōu)楣シ离p方同時選擇戰(zhàn)略的靜態(tài)博弈過程。
設防區(qū)內空襲突擊飛機集合為{F1,F(xiàn)2,…,F(xiàn)H},防空火力單元集合為{D1,D2,…,DK},xij=1(或者0)表示第i架空襲飛機攻擊第j個防空火力單元(或者不攻擊而處于防御狀態(tài))。yji=1(或者0)表示第j個防空火力單元反擊第i架空襲飛機(或者不反擊而處于防御狀態(tài))。Ψ和φ分別表示電子干擾機對所有防空火力單元發(fā)射導彈命中概率的影響率和反空襲方釋放地面干擾對所有突擊飛機發(fā)射導彈命中概率的影響率。φij表示第i架突擊飛機自身干擾對第j個防空火力單元發(fā)射導彈命中概率的影響率。()和()分別表示第i架突擊飛機對第j個防空火力單元的(命中精度)毀傷概率和第j個防空火力單元毀傷對第i架突擊飛機的(命中概率)毀傷概率。突擊飛機編隊的價值矩陣為,,防空火力單元的價值矩陣為,…,分別表示第i個突擊飛機和第j個防空火力單元發(fā)射各自一枚導彈的價值,和分別表示第i個突擊飛機發(fā)射導彈的價值和第j個防空火力反擊突擊飛機導彈的價值。
收益是局中人在博弈中的所得或損失。本階段博弈中空襲方的收益必然是敵方的損失,反空襲方的收益是我方的損失,即此博弈為兩人有限零和博弈,博弈雙方收益之和為0。則雙方的收益函數(shù)為
ud=-ua
2.2STL動態(tài)博弈部分模型的建立
當博弈階段經(jīng)過局中人A1選擇STL行動后進行到信息集x4或x7時,博弈類型為博弈雙方行動有先后順序的動態(tài)博弈過程。空襲方A2首先行動,反空襲方D在觀測到A2的行動后選擇自己的行動。
STL動態(tài)博弈部分可以用一個五元函數(shù)表述為G=(Γ,Hi,Ai,,Ui),局中人集Γ為{A2,D}。Hi表示博弈樹中局中人i的信息集的集合,為其行動集合,其中A(hi)是在信息集hi的行動集合。表示為每一個信息集hi上的行動空間A(hi)的笛卡爾積,即。一般地,一個局中人可選擇的純戰(zhàn)略總數(shù)#,等于。Ui是局中人i的收益。
設防區(qū)外發(fā)射的空襲導彈集合為 {M1,M2,…,MZ},防空火力單元集合為{D1,D2,…,DK}。Ψ和φ*分別表示電子干擾機對所有防空火力單元發(fā)射導彈命中概率的影響率和反空襲方釋放地面干擾對所有空襲導彈命中概率的影響率。和分別表示第i個空襲導彈對第j個防空火力單元的(命中精度)毀傷概率和第j個防空火力單元對第i個空襲導彈的攔截成功概率。空襲導彈的價值矩陣為,防空火力單元的價值矩陣為表示第j個防空火力單元發(fā)射一枚導彈的價值,vjd表示第j個防空火力單元攔截空襲導彈的價值。
則空襲導彈的收益函數(shù)為
ud=-um
2.3貝葉斯混合博弈模型的求解
對于圖1這樣的既有靜態(tài)博弈部分又有動態(tài)博弈部分的貝葉斯混合博弈樹的求解,不能簡單地僅用納什均衡、子博弈精煉納什均衡或者貝葉斯納什均衡直接進行分析,應該根據(jù)各部分的特點和結果采用分塊處理思想。本文采用逆向回溯法,分別自下而上對每一部分應用相應的納什均衡求解策略:
步驟1:對于信息集x5或者x6開始的博弈采用納什均衡求解方法;
步驟2:對于子博弈Γ(x4)或者Γ(x7)采用子博弈精煉納什均衡求解方法;
步驟3:對于原博弈也就是子博弈Γ(x1),結合步驟1和步驟2的均衡結果采用貝葉斯納什均衡求解方法得到整個貝葉斯混合博弈的均衡結果。
定義1貝葉斯博弈[8]的純戰(zhàn)略貝葉斯納什均衡是一個類型依存的行動組合,其中每個局中人在給定自己的類型ti和其他局中人的類型依存行動的情況下最大化自己的期望效用。稱4.1行動組合是一個純戰(zhàn)略貝葉斯納什均衡,如果對于?i∈Γ,均滿足:
定義2擴展式博弈[8]的戰(zhàn)略組合是一個子博弈精煉納什均衡,當且僅當滿足如下兩個條件:
1)它是原博弈的納什均衡。
2)它在每一個子博弈上給出(或構成)納什均衡
不論是納什均衡還是子博弈精煉納什均衡首先都得求得納什均衡。而原博弈的貝葉斯納什均衡最優(yōu)戰(zhàn)略必然是每一個后續(xù)子博弈上的納什均衡最優(yōu)戰(zhàn)略,所有原博弈Γ(x1)的核心問題是求得Γ(x4)(或者Γ(x7))和Γ(x5)(或者Γ(x6))的納什均衡。
以Γ(x5)為例,設局中人A2的混合戰(zhàn)略為x= {x1,x2,…,xM},局勢{ai,dj}對應的純戰(zhàn)略收益為vija,則可得到其納什均衡值為:
上式可轉化為線性規(guī)劃問題來求解,即:
傳統(tǒng)求解上式規(guī)劃問題的方法有制約函數(shù)法,Lagrange乘子法等。但這些方法適用范圍有限,處理的都是相對簡單的優(yōu)化問題,而且精度不高,難以用編程實現(xiàn)。目前處理優(yōu)化問題比較理想的方法是采用混合智能算法。本文采用混合粒子群算法[9-10],通過在粒子群算法中引入遺傳機制,加快收斂速度并提高精度。具體的算法實現(xiàn)步驟如下:
步驟1:分別構造博弈雙方的收益函數(shù)并建立收益矩陣;
步驟2:建立博弈雙方求解納什均衡的目標函數(shù);
步驟3:設置算法的種群數(shù)popsize,最大迭代次數(shù)gen,以及交叉pc和變異率pm;
步驟4:隨機產(chǎn)生每個粒子的位置和速度初始化粒子群;
步驟5:以目標函數(shù)作為遺傳算法的適應度函數(shù),以當前粒子為個體最優(yōu)粒子,計算每個粒子的適應度;
步驟6:對粒子先進行實數(shù)編碼并轉化為遺傳算法的二進制編碼;
步驟7:將第i個粒子位置分別與個體最優(yōu)粒子和全局最優(yōu)粒子進行交叉變異并排序。選擇適應度最大的粒子(如果目標函數(shù)是越小越好,則選擇適應度最小的粒子)對第i個粒子位置、個體最優(yōu)粒子和全局最優(yōu)粒子進行更新[1]。
步驟8:重復步驟5~7,直到達到最大迭代次數(shù),輸出結果為全局最優(yōu)粒子。
采用上述混合粒子群算法可以直接求得Γ(x5)(或者Γ(x6))的納什均衡,而對于Γ(x4)(或者Γ(x7))開始的博弈必須先將其擴展式表述通過行動集合的笛卡爾積運算轉化為戰(zhàn)略式表述,才能進行混合粒子群算法的納什均衡求解。
假設有3個空襲作戰(zhàn)飛機,有3個防空火力單元,A在防區(qū)外具有一架電子干擾機,D在地面具有干擾源。假定同一作戰(zhàn)飛機對不同防空火力單元和同一防空火力單元對不同空襲飛機(或空襲導彈)的命中精度和毀傷概率相等。同一空襲飛機對不同防空單元命中概率的影響率相等,其部分數(shù)據(jù)假設如表1和表2。當防空火力弱時,Ψ=40%,φ=15%,φ*=12%;當防空火力強時Ψ=20%,φ=30%,φ*=25%。popsize=50,gen=100,pc=0.6,pm=0.05。
為提高作戰(zhàn)效能,在不同的空襲階段其攻防雙方對目標的毀傷率達到85%,可以認為目標的功能已喪失,并停止對其攻擊或攔截。一般實戰(zhàn)中對一個目標進行空襲時為了防止脫靶并提高命中率,普遍采用雙連發(fā)或者三連發(fā),本文默認對一個目標攻擊時,每次雙連發(fā),不夠雙連發(fā)的以單計算。
表1 空襲飛機及空襲導彈相關參數(shù)
表2 防空火力單元及防空導彈相關參數(shù)
3.1PZW靜態(tài)博弈部分均衡分析
首先需要確定空襲飛機和防空火力單元的攻防對抗戰(zhàn)略,再通過收益函數(shù)為空襲飛機和防空火力單元分別建立收益矩陣B1和B2,最后求得均衡戰(zhàn)略。
當自然選擇防空火力單元弱時,通過分析:對于一對一空防對抗狀態(tài),我方采用防區(qū)內突擊空襲 , 戰(zhàn) 略 為 (1,2,3;1,2,3),(1,2,3;1,3,2),(1,2,3;2,1,3),(1,2,3;3,1,2),(1,2,3;2,3,1),(1,2,3;3,2,1),例如(1,2,3;1,2,3)代表空襲方的一個戰(zhàn)略,表示為突擊飛機F1空襲防空火力單元D1,F(xiàn)2空襲D2,F(xiàn)3空襲D3,其收益矩陣分別為6*6維;若為多對一或者一對多空防狀態(tài),則其收益矩陣就為27*27維,計算量呈指數(shù)級增加,難以用傳統(tǒng)方法求解。本文采用混合粒子群算法,可以克服計算量的問題,且速度快,收斂性好。為了簡化計算量,假設空防對抗為一對一。
根據(jù)雙方攻防戰(zhàn)略建立B1和B2,采用混合粒子群算法步驟,通過Matlab編程,得到空襲方的那什均衡戰(zhàn)略為(0.046,0.104,0.241,0.082,0.425,0.102),收益為2.351。同理可得當自然選擇防空火力單元強時的均衡戰(zhàn)略為(0.051,0.106,0.208,0.392,0.125,0.118)收益為-0.785。
為了說明本文提出的算法在求解納什均衡的優(yōu)勢,將該算法與普通粒子群算法的仿真結果對比如表3。
表3 算法性能對比
表3可以看成,采用混合粒子群算法求解納什均衡明顯優(yōu)于普通粒子群算法。
3.2STL動態(tài)博弈部分均衡分析
具備防區(qū)外發(fā)射的導彈分別是3架空襲飛機上掛載的3種型號的導彈,共計7枚,編號為M1,M2,…,M7。一般實戰(zhàn)中對一個目標進行空襲時為了防止脫靶并提高命中率,普遍采用雙連發(fā)或者三連發(fā)。本文分為3組空襲組合:M1和M2為一組,M6和M7為一組,剩下的為第3組。經(jīng)過分析,空襲方的可選行動有6個,為(1-2,3-5,6-7;1,2,3),(1-2,3-5,6-7;1,3,2),(1-2,3-5,6-7;2,1,3),(1-2,3-5,6-7;3,1,2),(1-2,3-5,6-7;2,3,1),(1-2,3-5,6-7;3,2,1),分別用 λ1,λ2,…,λ6表示。其中(1-2,3-5,6-7;1,2,3)表示M1和M2空襲D1,M3、M4、M5空襲D2,M6和M7空襲D3。反空襲方在觀測到空襲方的行動后選擇自己的行動,其可供選擇的行動也為6個,行動集合跟空襲方相同,只是一個是空襲,一個是攔截,分別用λ1,λ2,…,λ6表示。從圖1中知,反空襲方有6個信息集,則其戰(zhàn)略空間為可選行動集合的笛卡爾積為36個,此時,空防對抗博弈的戰(zhàn)略式表述為一個6*36維的矩陣,并建立收益矩陣B3和B4。當自然選擇防空火力弱時,采用混合粒子群算法步驟,通過Matlab編程,得到空襲方的那什均衡戰(zhàn)略為(λ3;{λ4,λ3,λ3,λ6,λ5,λ1}),(λ4;λ6,λ4,λ1,λ3,λ4,λ2)和(λ6;λ2,λ5,λ1,λ2,λ3,λ6)。根據(jù)定義2,經(jīng)過分析知前兩個均衡戰(zhàn)略在由反空襲方D開始的子博弈上不構成納什均衡,所以(λ6;λ2,λ5,λ1,λ2,λ3,λ6)是唯一的子博弈精煉納什均衡,其均衡結果為空襲方選擇λ6行動,反空襲選擇λ6行動,得到收益1.473。同理可得當自然選擇防空火力單元強時的均衡戰(zhàn)略為(λ3;{λ4,λ3,λ4,λ6,λ2,λ5}),得到收益0.276。
3.3貝葉斯混合博弈均衡結果分析
3.1節(jié)和3.2節(jié)分別完成了靜態(tài)博弈部分和動態(tài)博弈部分的納什均衡求解,此時對于整個博弈可以看成是只有自然虛擬人N2、局中人A1和A2組成的貝葉斯博弈。SF和WF分別是局中人D的類型,局中人A1不知道D的類型,只知道自然人N2以α的概率選擇SF,以1-α的概率選擇WF。根據(jù)定義1并結合貝葉斯法則,得到貝葉斯納什均衡的臨界概率滿足為:
帶入數(shù)據(jù)的α*=0.453。即當空襲方判斷α≥0.453時,空襲方的最優(yōu)戰(zhàn)略是A1首先選擇行動STL,接著A2選擇行動λ3,D在觀測到A2的行動后選擇自己的最優(yōu)行動λ4;即當空襲方判斷α<0.453時,空襲方的最優(yōu)戰(zhàn)略是A1首先選擇行動PZW,接著A2和D同時選擇戰(zhàn)略,A2的最優(yōu)戰(zhàn)略是以(0.046,0.104,0.241,0.082,0.425,0.102)的概率選擇(1,2,3;1,2,3),(1,2,3;1,3,2),(1,2,3;2,1,3),(1,2,3;3,1,2),(1,2,3;2,3,1),(1,2,3;3,2,1)。實戰(zhàn)中,反空襲方為了最小化自己的損失,往往通過制造假象迷惑空襲方對α的正確判斷,同樣空襲方也為了最大化自己的收益,通過經(jīng)驗和偵察不斷修正對α后驗信念(概率分布)的認識和判斷。
本文采用博弈論的思想研究不確定條件下空襲作戰(zhàn)火力資源分配問題。這種建模方法克服了傳統(tǒng)分配方法從單方面優(yōu)化分配策略的缺陷,將各種分配策略聚合在攻防雙方相互對抗和不斷優(yōu)化調整的博弈環(huán)境下,是真實作戰(zhàn)環(huán)境的直接映射,意義明顯。同時本文采用混合粒子群算法求解納什均衡,計算速度快,收斂性好。仿真結果表明,該建模思路有效性好,真實性高,具有很強的軍事應用價值。
[1]史志富.基于貝葉斯網(wǎng)絡的UCAV編隊對地攻擊智能決策研究[D].西安:西北工業(yè)大學,2007.
[2]丁倩.空襲方案因素分析及優(yōu)化研究[D].長沙:國防科學技術大學,2010.
[3]譚樂祖,楊明軍,任東彥.彈炮結合防空動態(tài)火力分配模型[J].火力與指揮控制,2011,36(1):177-180.
[4]高志華,陳健,文建國,等.基于遺傳算法的要地防空武器系統(tǒng)最優(yōu)火力分配模型研究[J].計算機與數(shù)字工程,2013,41(5):733-736.
[5]丁紅巖,董曉明,寇祝.基于模糊AHP的水面艦艇編隊攻潛武器分配[J].指揮控制與仿真,2013,35(4):138-142.
[6]PAN Q K,SUGANTHAN P N,WANG L,et al.A differential evolution algorithm with self-adapting strategy and control parameters[J].ComputersandOperationsResearch,2011,38(1):394-408.
[7]吳志飛,馬曲立,翁輝,等.基于量子免疫遺傳算法的火力分配優(yōu)化問題[J].海軍工程大學學報,2014,26(1):76-80.
[8]羅云峰.博弈論教程[M].北京:清華大學出版社,2010.
[9]宋占玲,王忠武,王銳,等.空襲目標威脅的優(yōu)序法排序[J].四川兵工學報,2014(6):140-142.
[10]舒健生,武健,趙建波.基于改進粒子群算法的巡航高度優(yōu)化[J].電光與控制,2010,17(2):5-9.
[11]陳華東,王樹宗,王航宇.基于混合粒子群算法的多平臺多武器火力分配研究[J].系統(tǒng)工程與電子技術,2008,30(5):880-883.
Decision-Making Model Research of Air-raid Firepower Resources Allocation Based on Bayesian Mixed Game
ZHOU Xing-wang,CONG Fu-zhong,PANG Shi-chun,HOU Man-yi,XIN Teng-da
(Aviation University Air Force,Changchun 130000,China)
From the perspective of game theory to studying air-raid firepower resources allocation,for air-raid formation and defense firepower unit existing uncertainty,static and dynamic in the process of attack-defense,the firepower distribution model of air-raid countermeasures based on bayesian mixed game is built.By constructing a bayesian mixed game tree,using the reverse backtracking to setting up respectively different game analysis model,using hybrid particle swarm algorithm to solving the Nash equilibrium.The simulation results show:based on the game theory as background to researching the air-raid firepower assignment problem,conforms to the real operational environment,have good effectiveness,high theoretical and application value.
game theory,bayesian game,hybrid particle swarm algorithm,firepower distribution
E911
A
1002-0640(2016)07-0018-05
2015-06-05
2015-07-07
*
國家自然科學基金資助項目(11171350)
周興旺(1990-),男,陜西咸陽人,碩士研究生。研究方向:軍事運籌與決策建模。