周同樂 陳謀, 朱榮剛 賀建良
隨著隱形技術(shù)、人工智能等越來越多的高新技術(shù)在現(xiàn)代戰(zhàn)爭中的運用,現(xiàn)代空戰(zhàn)環(huán)境的復雜性和不確定性越來越高,無人作戰(zhàn)飛機代替有人機執(zhí)行聯(lián)合打擊任務(wù)將成為未來空戰(zhàn)的發(fā)展趨勢[1],無人作戰(zhàn)飛機具有速度范圍大、作戰(zhàn)范圍廣、高自主性、高智能性的特點[2],且由于無人作戰(zhàn)飛機不受飛行員的情緒和身體狀況的影響,具有自主決策能力的無人作戰(zhàn)飛機在作戰(zhàn)過程中不會因為受到刺激而出現(xiàn)操縱失誤,可以說,在危險復雜的飛行環(huán)境中,無人作戰(zhàn)飛機的優(yōu)越性更加突出,但是單一無人機的能力是有限的,而且功能和適用性往往是相互制約的[3],功能單一的無人機,可能在單個方面的功能很強大,但是卻只能執(zhí)行和自己功能相關(guān)的任務(wù),而現(xiàn)代戰(zhàn)爭中,獲取不同來源的信息以及對多源信息的有效處理是掌握戰(zhàn)場主動權(quán)的關(guān)鍵.因此,多無人機聯(lián)合作戰(zhàn)是無人機技術(shù)發(fā)展的新方向[4],為了使無人作戰(zhàn)飛機編隊打擊敵方目標的效率得到進一步提高,有必要深入研究多無人作戰(zhàn)飛機協(xié)同多目標攻防決策技術(shù).
目前,智能算法已經(jīng)廣泛應(yīng)用于多無人作戰(zhàn)飛機協(xié)同多目標攻防決策技術(shù)中,已有很多的研究成果.文獻[5]充分考慮目標之間的依賴關(guān)系和我方火力配置差異,通過改進遺傳算法求解考慮分配次序的多無人機協(xié)同目標分配問題;文獻[6]研究了基于合同網(wǎng)的目標分配方法,通過引入負載系數(shù)參數(shù),迭代執(zhí)行買賣合同與交換合同實現(xiàn)了無人機協(xié)同目標分配;文獻[7]結(jié)合協(xié)同決策和控制要求,根據(jù)無人機編隊的飛行特點和戰(zhàn)場約束條件,建立了無人機編隊的任務(wù)分配模型,并分別采用改進的粒子群算法(IPSO)、蟻群算法(ACA)和遺傳算法(GA)解決了協(xié)同任務(wù)分配問題;文獻[8]針對多機協(xié)同空戰(zhàn)的目標分配問題,建立了綜合優(yōu)勢函數(shù),并在此基礎(chǔ)上改進了人工免疫算法,得到了多機協(xié)同空戰(zhàn)最優(yōu)分配方案,滿足了實際作戰(zhàn)要求,但是,實際空戰(zhàn)中的多無人機協(xié)同多目標攻防決策受到各種不確定性影響,往往難以達到真正意義上的最優(yōu)[9],而且傳統(tǒng)的智能優(yōu)化算法往往無法滿足空戰(zhàn)高實時性的要求.
滿意決策方法是一種建立在博弈理論基礎(chǔ)之上融合了集合論思想的決策方法[10],為了提高搜索效率,滿意決策通過設(shè)置滿意度因子,將搜索空間限制在參與分配的個體提出的個體滿意集合上,過濾掉不可行和收益低的分配策略,文獻[11] 提出了基于滿意決策的無人機空對地多目標攻擊決策方法,根據(jù)參與目標分配的每架無人機完成任務(wù)的預估效益和預估代價提出滿意集,建立拒絕函數(shù)和選擇函數(shù)從而獲得滿意分配結(jié)果,文獻[12] 研究了基于滿意決策的多無人機目標分配問題,通過滿意決策剪裁搜索空間,大大提高了目標分配算法的運行效率.狼群算法(Wolf Pack Search Algorithm,WPS)是一種通過模擬自然界狼群相互協(xié)作圍捕獵物的行為抽象出來的新型元啟發(fā)式算法[13],該算法基于“強者生存”的自然規(guī)律,通過狼群職責分工的協(xié)作式搜索方式,保證狼群能夠快速圍捕獵物的同時避免陷入局部最優(yōu),文獻[14]基于狼群算法解決了多無人機協(xié)同任務(wù)分配問題,并與其他群智能算法進行比較,仿真結(jié)果表明,狼群搜索可以提高算法的局部開發(fā)能力,并能更好地解決多維優(yōu)化問題.
本文針對多無人機協(xié)同多目標攻防決策問題,研究基于狼群算法的多無人機協(xié)同多目標攻防滿意決策方法,通過狼群算法尋優(yōu)滿意決策的滿意度因子,在保證滿意決策快速性的同時,最大限度提高決策的精確性.
本文研究多無人作戰(zhàn)飛機協(xié)同多目標攻防決策問題,考慮M架我方無人機對N個敵方目標的攻防決策,多無人作戰(zhàn)飛機協(xié)同多目標攻防決策原理如圖1所示.
當敵方無人機進入我方無人機攻擊范圍后,對無人機進行攻防決策,形成無人機攻防決策方案,決策目標是確定哪架無人機具體攻擊哪個目標及哪架無人機采取防御策略.
在多無人作戰(zhàn)飛機協(xié)同多目標攻防決策過程中,主要考慮以下3個方面:
1)空戰(zhàn)態(tài)勢,無人空戰(zhàn)環(huán)境中各種態(tài)勢因素,如目標的角度、距離、高度、軌跡等的變化往往能夠直接影響攻防決策的結(jié)果.空戰(zhàn)態(tài)勢函數(shù)設(shè)計為[15]:
其中,Pα,Pd,Pe分別表示角度、距離、能量優(yōu)勢,k1,k2,k3為相應(yīng)的權(quán)重系數(shù).
圖1 多無人作戰(zhàn)飛機協(xié)同多目標攻防決策問題示意圖Fig.1 Schematic diagram of multi-UCAVs cooperative multiple target attack-defense decision-making
2)無人機性能.無人空戰(zhàn)決策早期,由于交戰(zhàn)雙方無人機種類較少、性能類似,攻防決策往往只考慮空戰(zhàn)態(tài)勢而未考慮無人機性能,但隨著不同國家科技水平的發(fā)展,交戰(zhàn)雙方空戰(zhàn)能力差異化越來越明顯,無人機性能在空戰(zhàn)中的作用也越發(fā)突出.無人機性能優(yōu)勢函數(shù)設(shè)計為:
式中,Capi和Capj分別為我方和敵方目標的無人機性能,與無人機的機動能力、打擊能力、探測能力、操縱能力、生存能力、航程能力和電子對抗能力有關(guān)[16].
3)目標意圖,現(xiàn)代無人空戰(zhàn)是復雜環(huán)境下的信息博弈過程,某方能夠率先解讀戰(zhàn)場信息,準確快速預測敵方未來動作,便能夠在空戰(zhàn)中掌握先機.目標意圖預測能夠通過前一階段的空戰(zhàn)態(tài)勢和戰(zhàn)場環(huán)境信息來推測下一階段敵方戰(zhàn)術(shù)意圖,進而預知敵方短時間內(nèi)的可能執(zhí)行的戰(zhàn)術(shù)動作.因此,結(jié)合敵方無人機意圖進行多機協(xié)同多目標攻防決策,能夠在預知敵方無人機戰(zhàn)術(shù)動作的前提下協(xié)調(diào)調(diào)度己方無人機資源,敵機對我機的每種意圖對應(yīng)的目標意圖優(yōu)勢SI如表1所示[17],敵機對我機的意圖越危險,我機對敵機的意圖優(yōu)勢越小.
表1 意圖優(yōu)勢表Table1 Intention superiority
多無人作戰(zhàn)飛機協(xié)同多目標攻防決策問題實質(zhì)上是一個多目標優(yōu)化問題,為了充分考慮空戰(zhàn)態(tài)勢和任務(wù)收益,建立如下兩種目標函數(shù)[8]:
其中,xij={0,1},xij=1表示將敵方無人機j分配給我方無人機i;Sij為空戰(zhàn)優(yōu)勢值,是我方無人機i對敵方無人機j的空戰(zhàn)優(yōu)勢的體現(xiàn);Bij和Cij為無人機i攻擊無人機j所獲得的收益和代價;式(3)中J1max以獲得空戰(zhàn)優(yōu)勢為基礎(chǔ),目的是最大限度地保全我方無人機;式(4)中J2max以攻擊結(jié)果的收益和代價為核心,旨在保證每一次攻擊產(chǎn)生的效果;約束條件式(5)保證所有敵方目標均會被攻擊到;約束條件式(6)保證兵力分配均衡,允許協(xié)同攻擊某一特定目標無人機j的最大數(shù)量為Dj;約束條件式(7)為無人機彈藥約束,我方無人機i能夠同時攻擊敵方目標的最大數(shù)量應(yīng)小于其載彈量Ei.
滿意決策通過設(shè)置滿意度因子,排除不可行和收益低的分配策略,從而提高算法搜索效率,但是,滿意度因子設(shè)置過大會使?jié)M意集合過小或為空集,太小則不能有效縮小搜索空間,滿意度因子是根據(jù)經(jīng)驗人為設(shè)定的,往往無法設(shè)置為最合適的值.因此,本部分使用狼群算法優(yōu)化滿意決策的滿意度因子.
狼群算法模擬了狼群的捕獵行為和獵物分配規(guī)則,將狼群分為頭狼、探狼和猛狼,狼群算法的實質(zhì)在于人工狼根據(jù)自己和其他狼的情況不斷地更新,從而向最優(yōu)位置靠近,人工狼的新位置是狼群由探狼游走、頭狼召喚和猛狼圍攻3種智能行為,以及“勝者為王”的頭狼產(chǎn)生規(guī)則和“強者生存”的狼群更新機制相互作用的結(jié)果[18],其原理如圖2所示.
圖2 狼群算法原理圖Fig.2 Schematic diagram of WPS algorithm
為了確定滿意度因子,在保證我方無人機能取得空戰(zhàn)優(yōu)勢的前提下,進行滿意決策,選用式(3)作為狼群算法的目標函數(shù),以人工狼i的位置X={xi1xi2,···,xij,···,xm}(1≤xij≤n)表示攻防決策方案,xij=k表示我方無人機j攻擊目標無人機k,人工狼感知到的獵物氣味濃度Y=f(X),即目標函數(shù)值.根據(jù)多無人作戰(zhàn)飛機協(xié)同多目標攻防決策問題的實際特點,對狼群算法的位置更新公式進行定義,如下式[18]:
式(8)表示隨機生成S tep個二維數(shù)組(xij,xik),其中j,k=1,2,···,L且j≠k,并按這些二維數(shù)組的順序?qū)i對應(yīng)位數(shù)編碼的數(shù)值進行交換.
游走行為中,探狼試探性地向h個方向進行偵察,即隨機地執(zhí)行h次Θ(Xi,stapa),其中stepa為探狼游走步長,并記錄每次所感知到的獵物氣味濃度[18].該過程可以理解為狼群試探性地在搜尋獵物.
召喚行為中,猛狼經(jīng)頭狼召喚迅速以較大奔襲步長stepb向頭狼所在位置靠攏,即對猛狼位置Xi執(zhí)行一次Θ(Xi,stapb)[18],該過程可以理解為在保留猛狼個體特性的同時,狼群優(yōu)秀個體(頭狼)對猛狼群體進行指導.
圍攻行為中,參與圍攻的人工狼執(zhí)行Θ(Xi,stapc)操作,探狼與猛狼在頭狼指揮下進行圍攻行為[18],圍攻行為可以理解為狼群在優(yōu)秀獵物周圍進行小范圍的群體運動,對優(yōu)秀解域進行精細搜索,同時增加種群多樣性,避免算法早熟.
在迭代過程中,狼群不斷進行游走、召喚和圍攻行為,直到達到優(yōu)化精度要求或最大迭代次數(shù)kmax,輸出頭狼的位置,即為在目標函數(shù)(3)下,優(yōu)先考慮無人機空戰(zhàn)優(yōu)勢函數(shù)保證我方無人機的生存能力的最優(yōu)決策方案XS,計算在此攻防決策方案下的收益BS和代價CS,則滿意度因子可由下式計算可得:
在得到空戰(zhàn)優(yōu)勢的滿意度因子后,再基于滿意決策獲得最終的多無人機協(xié)同多目標攻防決策方案.在目標函數(shù)(4)下,使得總體攻擊收益和總體損失代價之間達到一個有效的平衡,為了滿足無人空戰(zhàn)實時性的要求,該平衡也許并非最優(yōu),但可以達到戰(zhàn)術(shù)要求,完成攻擊任務(wù).
滿意決策理論的個體滿意集定義為[19]:
其中,Ws(u)和Wr(u)分別為定義在決策空間上的接受函數(shù)和拒絕函數(shù),Ws(u)和Wr(u)分別設(shè)計為:
其中,γ ∈(0,+∞)為懲罰調(diào)節(jié)因子,mj為同時攻擊目標j的無人機數(shù)量,當mj超過閾值Dj時,f會迅速減小,對無人機過于集中攻擊某一目標的行為進行懲罰.
最后,根據(jù)總體選擇函數(shù)和總體拒絕函數(shù)實現(xiàn)多無人機協(xié)同多目標攻防決策,得到最終決策方案.
綜上所述,多無人作戰(zhàn)飛機協(xié)同多目標攻防決策算法流程圖如圖3所示.
圖3 多無人作戰(zhàn)飛機協(xié)同多目標攻防決策算法流程圖Fig.3 Flow chart of multi-UCAVs Cooperative multiple target attack-defense decision-making algorithm
為了驗證本文所研究基于狼群算法的多無人機協(xié)同多目標攻防滿意決策算法的有效性,本節(jié)進行數(shù)值仿真研究.
考慮4架無人機攻擊6個敵方目標,仿真場景1和仿真場景2 空戰(zhàn)態(tài)勢分別如圖4和圖5所示所示.
圖4 仿真場景1空戰(zhàn)態(tài)勢圖Fig.4 Air combat situation of simulation scene 1
式(11)和式(12)中,Bz和Cz為攻防決策方案對應(yīng)的收益和代價,Vjmax和Vimax分別為敵方和我方無人機最大價值量,用于歸一化處理,f為懲罰因子,對過于集中的分配結(jié)果進行懲罰,設(shè)計為:
首先基于優(yōu)勢函數(shù)計算滿意決策的滿意度因子,根據(jù)戰(zhàn)場敵我雙方態(tài)勢信息、戰(zhàn)機性能和目標意圖,仿真場景1和仿真場景2 我方戰(zhàn)機對敵方戰(zhàn)機的綜合優(yōu)勢值分別如表2和表3所示.
圖5 仿真場景2 空戰(zhàn)態(tài)勢圖Fig.5 Air combat situation of simulation scene 2
表2 仿真場景1我方戰(zhàn)機對敵方戰(zhàn)機的綜合優(yōu)勢值Table2 Comprehensive superiority of simulation scene 1
表3 仿真場景2 我方戰(zhàn)機對敵方戰(zhàn)機的綜合優(yōu)勢值Table3 Comprehensive superiority of simulation scene 2
設(shè)置狼群規(guī)模為50,算法最大迭代次數(shù)為kmax=50.我方無人機與敵方目標攻防決策方案如表4所示.
表4 基于綜合優(yōu)勢值攻防決策方案Table4 Attack-defense scheme based on comprehensive superiority
對于仿真場景1,在此攻防決策方案下的收益和代價可以計算得到:BS1=2.631 2,CS1=1.938 9,對于仿真場景2,在此攻防決策方案下的收益和代價可以計算得到:BS2=2.578 7,CS2=1.925 0.
則滿意度因子可以計算得:
經(jīng)過滿意決策,最終攻防決策方案如表5所示.
表5 最終攻防決策方案Table5 Attack-defense scheme
在最終攻防決策方案下,仿真場景1的收益和代價分別是B1=2.588 2,C1=1.885 0;仿真場景2的收益和代價分別是B2=2.617 7,C2=1.810 6.
由仿真結(jié)果可知,在仿真場景1中,無人機U1攻擊目標T1、T3,U2 攻擊T6、T4,U3和U4分別攻擊T2和T5;在仿真場景2中,無人機U2 攻擊T1、T2,U3 攻擊T5、T6,T3、T4 則被分配給了U4,U1 由于所處環(huán)境較為不利,選擇防守策略保存自身實力,不對敵機進行攻擊.仿真結(jié)果與實際情況相符.
為了進一步分析本文所提出算法(WPSBSD)的性能,將本文算法與粒子群(PSO)算法、遺傳算法(GA)、傳統(tǒng)WPS算法和傳統(tǒng)滿意決策算法(SD)進行比較,對仿真場景1的空戰(zhàn)態(tài)勢進行50次仿真,統(tǒng)計每種算法求解的最優(yōu)值和消耗時間,仿真結(jié)果如表6所示.
表6 不同算法比較結(jié)果Table6 The comparison results of different algorithms
由表6可知,相比于其他方法,本文所提出的算法在保證運行效率的同時,能夠兼顧兩種目標函數(shù)的影響,使攻防決策結(jié)果更加合理,使用傳統(tǒng)的WPS算法更注重空戰(zhàn)優(yōu)勢函數(shù)的影響,而攻防收益和代價對滿意決策算法影響更大,基于滿意決策的無人機多機協(xié)同多目標攻防決策方法,和基于空戰(zhàn)優(yōu)勢函數(shù)運用WPS算法尋優(yōu)了滿意因子,大大縮小了滿意決策的尋優(yōu)空間,提升了算法運行效率,因此,本文提出的基于狼群算法和滿意決策的多無人作戰(zhàn)飛機協(xié)同多目標攻防決策算法能夠完成現(xiàn)代無人空戰(zhàn)的需求.
本文對多無人作戰(zhàn)飛機協(xié)同多目標攻防決策問題進行了研究,建立了多機對多目標攻防決策問題數(shù)學模型,在優(yōu)先考慮空戰(zhàn)優(yōu)勢的情況下,通過狼群算法尋優(yōu)滿意決策滿意度因子,在保證效率的同時提高了滿意決策的效率,然后基于滿意決策理論,根據(jù)攻擊滿意集來搜索攻防決策滿意解,使總體攻擊收益和總體損失代價之間達到一個有效的平衡,最后給出實驗數(shù)據(jù)和實驗結(jié)果.由仿真結(jié)果可知,所研究的基于狼群算法的多無人機協(xié)同多目標攻防滿意決策算法是可行有效的.