劉佳敏,吳慶憲,王玉惠,周大可
(南京航空航天大學(xué)自動化學(xué)院,南京 211106)
無人機在空戰(zhàn)中需要根據(jù)復(fù)雜的戰(zhàn)場信息決策出最優(yōu)的戰(zhàn)術(shù)方案。常用的攻防決策方法有專家系統(tǒng)法、狼群算法和影響圖法等,但這些方法有一定的局限性,如專家系統(tǒng)法的可適應(yīng)性較差。而采取以博弈論為基礎(chǔ)的決策方法更能體現(xiàn)空戰(zhàn)的對抗性,如文獻[7]提出了一種矩陣對策法與遺傳算法相結(jié)合的空戰(zhàn)決策算法等。然而由于傳感器精度、戰(zhàn)場環(huán)境干擾等原因,采集的空戰(zhàn)信息具有不確定性,這會影響空戰(zhàn)攻防決策的正確性。
關(guān)于不確定信息下無人機空戰(zhàn)攻防博弈的研究,目前已有文獻報道,并取得了一些研究成果。文獻[10]建立了無人機空戰(zhàn)機動直覺模糊博弈模型,但模糊數(shù)屬性權(quán)重的確定具有主觀性。文獻[11-13]基于區(qū)間數(shù)對不確定環(huán)境無人機攻防博弈策略進行了研究,但是沒有充分考慮戰(zhàn)場態(tài)勢對攻防博弈的影響,并且沒有客觀確定態(tài)勢權(quán)重。根據(jù)以上文獻的研究成果可以分析出,學(xué)者們已開展不確定信息下無人機空戰(zhàn)攻防博弈問題的研究,但還需充分考慮戰(zhàn)場態(tài)勢,以及客觀確定態(tài)勢權(quán)重。
綜上分析,針對無人機空戰(zhàn)面臨信息不確定等挑戰(zhàn),本文基于區(qū)間數(shù)和量子粒子群優(yōu)化(quantum particle swarm optimization,QPSO)提出一種無人機空戰(zhàn)攻防博弈模型。該模型采用區(qū)間數(shù)表示不確定信息,然后態(tài)勢分析,借助集對分析和QPSO 算法確定態(tài)勢最優(yōu)權(quán)重,建立博弈支付函數(shù),獲得區(qū)間數(shù)支付矩陣。結(jié)合區(qū)間數(shù)可能度概念,采用QPSO 算法對雙方混合策略納什均衡和期望收益區(qū)間進行求解。最后通過仿真,驗證該攻防博弈模型解決不確定環(huán)境下無人機攻防博弈問題的有效性。
不確定信息下無人機空戰(zhàn)攻防博弈決策原理如圖1 所示。無人機攻防博弈問題需要根據(jù)雙方無人機的角度、距離、速度、高度和性能數(shù)據(jù)計算態(tài)勢,并對態(tài)勢權(quán)重進行尋優(yōu),從而計算區(qū)間數(shù)支付矩陣進行決策。
建立攻防博弈模型,結(jié)合區(qū)間數(shù)的可能度公式,采用QPSO 算法來求解納什均衡策略。
對單矩陣博弈問題的求解本質(zhì)上是對式(14)進行求解,結(jié)合區(qū)間數(shù)的可能度概念,采用QPSO 算法求解納什均衡。
攻防博弈決策的具體步驟如下:
Step 1 采集不確定空戰(zhàn)信息,用區(qū)間數(shù)表示;Step 2 分析雙方每架無人機態(tài)勢,根據(jù)優(yōu)勢函數(shù)計算態(tài)勢區(qū)間數(shù)矩陣,并轉(zhuǎn)化為聯(lián)系數(shù)矩陣;
另外,圍繞碩博士學(xué)位論文的使用價值,機械與動力工程等學(xué)科提出學(xué)位論文有助于讀者快速了解某一領(lǐng)域發(fā)展及研究現(xiàn)狀,是學(xué)科用戶從事科研活動必不可少的一類文獻來源。
Step 3 根據(jù)得到的態(tài)勢聯(lián)系數(shù)矩陣和式(2)~式(8),采用QPSO 算法尋找每架無人機的最優(yōu)權(quán)重;
Step 4 根據(jù)Step 3 得到的最優(yōu)權(quán)重和式(9)~式(12),計算博弈區(qū)間數(shù)支付矩陣,并根據(jù)式(13)、式(14)將單矩陣博弈問題轉(zhuǎn)化為線性規(guī)劃問題;
Step 5 采用QPSO 算法求解敵我雙方的混合策略納什均衡。定義無人機策略粒子種群和適應(yīng)度函數(shù),結(jié)合區(qū)間數(shù)的可能度,根據(jù)式(15)~式(18)迭代更新個體最優(yōu)策略粒子和全局最優(yōu)策略粒子;
Step 6 重復(fù)Step 5,直至達到最大迭代次數(shù),輸出全局最優(yōu)策略粒子,即敵我方無人機混合策略的納什均衡解。
由于支付矩陣為區(qū)間數(shù)矩陣,策略粒子的適應(yīng)度值也為區(qū)間數(shù),通過可能度來比較適應(yīng)度值。設(shè)定策略粒子的適應(yīng)度值為
表1 敵我雙方策略集(部分)
我方和敵方無人機空戰(zhàn)信息(角度、速度、高度、距離)如下頁表2、表3 所示。
表2 我方UAV 角度、速度態(tài)勢、UAV 高度、距離態(tài)勢
表3 敵方UAV 角度、距離態(tài)勢、UAV 高度、距離態(tài)勢
表4 我方對敵方最優(yōu)態(tài)勢權(quán)重
表5 敵方對我方最優(yōu)態(tài)勢權(quán)重
當我方選擇策略x,敵方分別選擇策略y、y、y、y、y、y、y、y、y、y、y、y、y、y、y、y時,我方區(qū)間支付值分別為[-2.334 3,-1.902 2]、[-2.233 2,-1.866 2]、[-2.490 0,-1.973 1]、[-2.388 9,-1.937 0]、[-2.580 5,-2.060 8]、[-2.479 4,-2.024 7]、[-2.736 2,-2.131 6]、[-2.635 1,-2.095 5]、[-2.450 8,-2.006 9]、[-2.349 7,-1.970 9]、[-2.606 5,-2.077 7]、[-2.505 4,-2.041 7]、[-2.697 0,-2.165 5]、[-2.595 9,-2.129 4]、[-2.852 7,-2.236 3]、[-2.751 6,-2.200 2]。
圖2、圖3 為QPSO 算法求解納什均衡過程中敵我方適應(yīng)度變化曲線。分析可知,經(jīng)過一定次數(shù)迭代后,QPSO 算法能找到各自無人機的全局最優(yōu)粒子,即敵我方混合策略納什均衡,驗證了區(qū)間數(shù)攻防博弈模型解決不確定環(huán)境下無人機攻防博弈問題的有效性。
圖2 我方的區(qū)間適應(yīng)度變化曲線
圖3 敵方的區(qū)間適應(yīng)度變化曲線
對比QPSO 算法和PSO 算法求解混合策略納什均衡解的性能。分別用這兩種算法進行多次迭代求解實驗,并計算各自求得全局最優(yōu)解的平均迭代次數(shù),結(jié)果如表6 所示。
表6 兩種算法的平均迭代次數(shù)
通過表格數(shù)據(jù)可得,QPSO 算法求解區(qū)間數(shù)支付矩陣混合策略納什均衡解的平均迭代次數(shù)更少,體現(xiàn)QPSO 算法的性能優(yōu)越性。
針對不確定環(huán)境下空戰(zhàn),本文提出一種無人機空戰(zhàn)攻防博弈模型。該模型中不確定空戰(zhàn)信息用區(qū)間數(shù)表示,借助集對分析理論處理區(qū)間態(tài)勢,用QPSO 算法對態(tài)勢權(quán)重進行尋優(yōu),完善博弈支付函數(shù);結(jié)合可能度概念,采用QPSO 算法求解敵我方攻防博弈的混合策略納什均衡,并比較QPSO 算法和PSO 算法求得全局最優(yōu)解的平均迭代次數(shù)。該模型還可以應(yīng)用于其他不確定信息的博弈問題研究,但也還存在不足之處,在之后的研究中會不斷完善改進。