王躍東 顧以靜 梁 彥* 王增福 張會霞
①(西北工業(yè)大學(xué)自動化學(xué)院 西安 710072)
②(信息融合技術(shù)教育部重點實驗室 西安 710072)
組網(wǎng)雷達(Networked Radar,NR)因具有資源共享、協(xié)同探測、空間覆蓋范圍大和抗干擾等優(yōu)勢,已經(jīng)受到廣大學(xué)者和機構(gòu)的關(guān)注[1–8]。組網(wǎng)雷達資源管理在提升信息融合系統(tǒng)的探測、跟蹤性能中扮演著至關(guān)重要的角色。然而,干擾技術(shù)向智能化方向發(fā)展[9–13],給雷達系統(tǒng)資源管理帶來新的挑戰(zhàn)和任務(wù)需求。如何在時間、能量和計算等軟硬件資源限制下,降低干擾帶來的不利影響,是實現(xiàn)組網(wǎng)雷達探測性能提升的關(guān)鍵。
現(xiàn)有的組網(wǎng)雷達資源分配方法主要分為3類:基于啟發(fā)式優(yōu)化方法、基于博弈論方法和基于強化學(xué)習方法?;趩l(fā)式優(yōu)化方法通常利用最優(yōu)化方法或者群智能優(yōu)化方法求解某一探測性能指標下的最優(yōu)解。文獻[6]以最小化多輸入多輸出雷達的發(fā)射功率為目標,通過推導(dǎo)了各個目標定位誤差的克拉美羅界建立機會約束模型,并通過等效變換將機會約束問題變?yōu)榉蔷€性方程求解問題。文獻[14]將目標的后驗克拉美羅下界作為優(yōu)化目標函數(shù),提出一種同時優(yōu)化雷達功率和帶寬的改進型麻雀搜索算法對目標函數(shù)進行求解。啟發(fā)式優(yōu)化方法是資源優(yōu)化的有效手段,然而最優(yōu)化方法需要在每一個資源分配時刻沿著目標函數(shù)的負梯度方向?qū)ふ易顑?yōu)值,這個過程耗費大量時間且要求目標函數(shù)具有可導(dǎo)性。群體智能體方法在高維場景下其性能受到嚴重影響,導(dǎo)致算法搜索能力下降。
博弈論方法將組網(wǎng)雷達中的雷達節(jié)點視為博弈參與者,利用決策理論進行雷達資源分配。文獻[15]將雷達功率分配問題建立為合作博弈模型,提出一種基于合作博弈的分布式功率分配算法,利用一種基于shapley值的求解算法得到功率分配結(jié)果。文獻[16]針對組網(wǎng)雷達的抗截獲問題,將信干噪比(Signal to Interference plus Noise Ratio,SINR)和各雷達的發(fā)射功率作為約束條件,提出了一種基于非合作博弈的迭代功率控制方法,該方法可以快速收斂至納什均衡解。文獻[17]提出基于納什均衡的彈載雷達波形設(shè)計方法,根據(jù)最大化SINR準則分別設(shè)計了雷達和干擾的波形策略。博弈論方法無法提供資源分配的唯一解,而且需要每一時刻計算博弈雙方的收益矩陣,具有較大的計算復(fù)雜度。
近年來,隨著深度強化學(xué)習(Deep Reinforcement Learning,DRL)在資源分配和控制決策方面的成功應(yīng)用,已經(jīng)有基于DRL的雷達資源優(yōu)化技術(shù)被提出。DRL具有利用智能體與環(huán)境交互來學(xué)習狀態(tài)到動作最優(yōu)映射策略的能力。將組網(wǎng)雷達作為智能體,文獻[3]提出基于領(lǐng)域知識輔助強化學(xué)習的多輸入多輸出雷達功率方法,其利用領(lǐng)域知識來設(shè)計導(dǎo)向獎勵,從而增加策略網(wǎng)絡(luò)收斂性和收斂速度。文獻[18]考慮目標信息感知和平臺安全的情況下獲得傳感器目標探測分配序列,提出一種基于DRL的機載傳感器任務(wù)分配方法。文獻[19]考慮無線通信系統(tǒng)中的功率分配問題,提出一種近似SARSA[20]功率分配算法,其通過線性近似避免了SARSA功率分配策略中可能出現(xiàn)的“維數(shù)災(zāi)難”問題。毫無疑問DRL已經(jīng)成功的運用于組網(wǎng)雷達資源分配問題。
然而,上述組網(wǎng)雷達資源分配方法都是建立在沒有干擾或者干擾模型已知的基礎(chǔ)上,缺少干擾機和雷達的博弈與交互。隨著干擾技術(shù)的發(fā)展,干擾機在干擾時間、干擾功率控制方面具有更強的對抗能力。在干擾機資源調(diào)度方面,文獻[21]提出一種魯棒的干擾波束選擇和功率調(diào)度策略來協(xié)同壓制NR系統(tǒng),其中多個目標的后驗克拉美羅下界之和用來評估干擾性能。文獻[22]考慮在干擾資源有限的情況下的干擾波束和功率的分配問題,建立了一種基于改進遺傳算法的干擾資源分配模型,推導(dǎo)了壓制干擾下NR系統(tǒng)的探測概率,并將其作為評價干擾性能指標,提出一種基于粒子群算法的兩步求解方法。文獻[23]采用模糊綜合評價方法對影響輻射源威脅水平和干擾效率的綜合因素進行量化,提出了一種基于改進螢火蟲算法的干擾資源分配方法。文獻[11]提出一種基于雙Q學(xué)習算法的干擾資源分配策略。文獻[24]提出基于DRL的智能頻譜干擾方法,其對不同種類的跳頻通信信號具有很好的干擾效果。
綜上所述,DRL已經(jīng)被用于組網(wǎng)雷達或者干擾機的資源分配任務(wù),但是同時考慮伴隨壓制干擾與組網(wǎng)雷達功率分配的深度博弈仍然是一個開放性問題。由于以下因素,應(yīng)用DRL解決上述問題頗具挑戰(zhàn):組網(wǎng)雷達功率分配動作屬于連續(xù)動作,因此智能體探索空間很大,導(dǎo)致策略難以收斂;組網(wǎng)雷達和干擾機博弈過程中環(huán)境動態(tài)性增強,進一步增加智能體的策略學(xué)習難度。
考慮DRL在處理動態(tài)環(huán)境下的資源分配的優(yōu)勢,本文首先將干擾機和組網(wǎng)雷達映射為智能體,根據(jù)雷達目標檢測模型和干擾模型建立了壓制干擾下組網(wǎng)雷達目標檢測模型和檢測概率最大化優(yōu)化目標函數(shù)。然后,采用PPO策略網(wǎng)絡(luò)生成組網(wǎng)雷達功率分配動作;引入目標檢測模型和等功率分配策略兩類領(lǐng)域知識構(gòu)建導(dǎo)向獎勵以輔助智能體探索。其次,設(shè)計混合策略網(wǎng)絡(luò)生成干擾機智能體的波束選擇和功率分配動作;同樣引入領(lǐng)域知識(貪婪干擾資源分配策略)生成干擾機智能體的導(dǎo)向獎勵。最后,通過交替訓(xùn)練更新兩種智能體的策略網(wǎng)絡(luò)參數(shù)。實驗結(jié)果表明:當干擾機采用基于DRL的資源分配策略時,采用基于DRL的組網(wǎng)雷達功率分配在目標檢測概率和運行速度兩種指標上明顯優(yōu)于基于粒子群的組網(wǎng)雷達功率分配和基于人工魚群的組網(wǎng)雷達功率分配。
本文目的是在智能化壓制干擾下通過調(diào)度組網(wǎng)雷達的功率資源以提升雷達的探測性能。為此,首先提出干擾機掩護目標穿越組網(wǎng)雷達探測區(qū)域的任務(wù)想定。其次,根據(jù)干擾模型和雷達檢測模型建立壓制干擾下的組網(wǎng)雷達目標檢測模型,進而提出最大化目標檢測概率優(yōu)化目標函數(shù)。
圖1給出干擾機掩護目標穿越組網(wǎng)雷達防區(qū)的資源分配任務(wù)的示例。由一架干擾機伴隨一架飛機(目標)試圖穿越由N部雷達組成的組網(wǎng)雷達探測區(qū)域。在此過程中,干擾機生成電磁噪聲干擾雷達的探測信號來掩護目標,這種噪聲干擾被稱為壓制式干擾。在該任務(wù)想定中,干擾方希望盡可能地使組網(wǎng)雷達探測不到目標,而我方組網(wǎng)雷達則期望最大化目標的檢測性能。
圖1 壓制干擾機掩護目標穿越組網(wǎng)雷達防區(qū)的示例Fig.1 An example of a suppression jammer protecting a target through the networked radar defense area
如圖2所示,上述干擾機和組網(wǎng)雷達的博弈過程被進一步細化為干擾機智能體和組網(wǎng)雷達智能體資源分配策略的博弈。
圖2 干擾機智能體和組網(wǎng)雷達智能體的博弈流程圖Fig.2 The game closed-loop process of the jammer agent and the networked radar agent
(1) 假設(shè)干擾機在k時刻能夠發(fā)射L <N個干擾波束。干擾機智能體需要完成以下任務(wù),即:在k時刻選擇干擾哪幾部雷達?被選中的雷達的干擾功率分配多少才能使組網(wǎng)雷達探測目標的概率最???
(2) 假設(shè)組網(wǎng)雷達每個節(jié)點都工作單波束模式,在各個探測時刻,所有雷達節(jié)點均發(fā)射波束,即每個探測時刻有N個雷達波束探測目標。組網(wǎng)雷達智能體需要怎么為每個雷達-目標分配合理的發(fā)射功率使得目標檢測概率最大化?
與無干擾情況下的組網(wǎng)雷達功率分配不同,在干擾機干擾下,組網(wǎng)雷達需要考慮干擾機對資源分配和目標檢測的影響,因此需要引入干擾機的干擾特性和模型來優(yōu)化組網(wǎng)雷達功率分配。同時,由于干擾機的干擾波束和功率分配具有不確定性和動態(tài)性,因此需要動態(tài)地調(diào)整組網(wǎng)雷達功率分配策略,以實現(xiàn)最優(yōu)的干擾抑制和探測性能的平衡。在組網(wǎng)雷達功率分配策略求解方面,傳統(tǒng)的方法通常采用全局優(yōu)化算法對問題求解,如遺傳算法、粒子群算法等,這些方法都需要較高的計算成本,難以在大規(guī)模優(yōu)化問題中保證優(yōu)化的時效性和可靠性,因此需要探測探索具有大規(guī)模優(yōu)化空間搜索能力的DRL分配策略。
2.2.1 干擾模型
壓制干擾是一種噪聲干擾手段,干擾機發(fā)射強干擾信號進入雷達接收機,進而形成對雷達的回波的掩蓋和壓制,使雷達對目標的檢測性能下降。本文采用噪聲調(diào)頻干擾信號進行干擾信號建模,假設(shè)干擾機向敵方雷達n施加噪聲調(diào)頻干擾信號[10,21,23],即
2.2.2 壓制干擾下單雷達目標檢測模型
在無干擾情況下,目標的檢測概率與雷達接收天線處的信噪比(Signal Noise Ratio,SNR)相關(guān)。SNR的大小由目標回波功率ysignal和接收機輸入噪聲Pn共同決定[10,21,23]。
雷達n接收到的目標回波信號功率ysignal可表示為
其中,Pr,k為雷達的發(fā)射功率,Gr為雷達天線主瓣方向上的增益,σ為目標有效反射面積,λ為雷達的工作波長,為k時刻目標與探測雷達n之間的距離。
雷達接收機的內(nèi)部噪聲Pn可表示為
其中,k=1.38×10-23J/K為玻爾茲曼常數(shù),Bn為接收機帶寬,T0為接收機內(nèi)部有效熱噪聲溫度,F(xiàn)n為接收機噪聲系數(shù)。
因此,雷達n接收端的SNR表示為
在噪聲壓制干擾下,雷達接收端的信號由目標回波功率ysignal、內(nèi)部噪聲Pn以及干擾信號功率yinterf3部分組成。根據(jù)干擾方程[10,21,23],雷達n接收到來自干擾機發(fā)射的干擾信號功率為
其中,θ0.5為雷達天線波瓣寬度;β為常數(shù)。
如圖3所示,θk取決于干擾機、目標機和雷達三者之間的相對位置關(guān)系。根據(jù)干擾信號進入雷達的角度,壓制干擾劃分為伴隨干擾和支援干擾兩種類型。當干擾信號從雷達天線主瓣進入接收機時為伴隨干擾;當θk>θ0.5/2時干擾信號主要從雷達天線旁瓣進入,干擾方式為支援干擾。
圖3 干擾機、雷達和目標的相對空間位置Fig.3 The relative spatial position of the jammer,radar and target
壓制干擾下,雷達n接收機接收到關(guān)于目標的SINR為[10,23]
假設(shè)目標的起伏特性為Swerling I型,雷達累積脈沖數(shù)為1,則雷達n對目標的檢測概率可表示為[10,23,25]
其中,VT為檢測門限。將式(7)代入式(8)可得
由式(9)可以發(fā)現(xiàn)雷達對目標的檢測概率與干擾資源分配變量以及干擾機、目標機和雷達間的空間位置有關(guān)。
2.2.3 組網(wǎng)雷達檢測融合
組網(wǎng)雷達采用K-N融合規(guī)則來實現(xiàn)信息融合[10,23,26]。假設(shè)雷達n的局部判決為dn∈{0,1},其中dn=1或0表示發(fā)現(xiàn)目標與否。融合中心根據(jù)這些局部判據(jù)產(chǎn)生全局判決向量D=[d1d2...dN],共有 2N種可能。定義全局判決規(guī)則為R(D),當組網(wǎng)雷達中發(fā)現(xiàn)目標的雷達數(shù)超過檢測門限K(1≤K≤N)時,判定發(fā)現(xiàn)目標,否則判定為未發(fā)現(xiàn)目標,即
根據(jù)秩K融合準則可以得到k時刻組網(wǎng)雷達對目標的檢測概率Pd,k為
組網(wǎng)雷達探測任務(wù)的要求是在統(tǒng)計意義下探測到目標的次數(shù)越多越好。該指標可進一步量化為組網(wǎng)雷達對目標的檢測概率Pd,k,其值越大說明目標越容易被發(fā)現(xiàn)。根據(jù)任務(wù)需求,本文的優(yōu)化目標函數(shù)為
傳統(tǒng)的組網(wǎng)雷達功率方法一般先通過干擾性能評估建立優(yōu)化目標函數(shù),然后利用啟發(fā)式搜索算法進行策略求解。這些方法通常是在假定探測環(huán)境沒有干擾或者干擾模型給定的情況下進行方案設(shè)計,缺少干擾機和組網(wǎng)雷達相互博弈,不符合實際作戰(zhàn)需求。同時啟發(fā)式搜索方法存在計算成本高、搜索速度慢的缺點,難以保證優(yōu)化的有效性。與這些方法不同,本文考慮到體系協(xié)同作戰(zhàn)下干擾機與組網(wǎng)雷達的博弈,提出基于DRL的干擾機波束和功率分配條件下的組網(wǎng)雷達功率分配問題。在策略求解方面,結(jié)合了人工智能方法,干擾機和組網(wǎng)雷達被映射為智能體,利用DRL的交互試錯學(xué)習機制生成從環(huán)境狀態(tài)到組網(wǎng)雷達功率分配向量的映射。由于采用離線訓(xùn)練的方式進行策略探索,因此DRL相較于一般方法具有更快的在線運行速度。
本節(jié)首先將組網(wǎng)雷達智能體功率分配模型化為馬爾可夫決策過程(Markov Decision Process,MDP)[27]。一個MDP通常采用元組(S,A,P,r)表示,其中S為環(huán)境狀態(tài),它是智能體的環(huán)境觀測;A為動作,它是執(zhí)行器的輸出;P為狀態(tài)的轉(zhuǎn)移概率。值得注意的是,在無模型強化學(xué)習中P是未知的。r是由環(huán)境產(chǎn)生的單步獎勵。
圖4顯示組網(wǎng)雷達策略網(wǎng)絡(luò)同干擾機與雷達博弈環(huán)境的交互過程。首先組網(wǎng)雷達智能體的策略網(wǎng)絡(luò)根據(jù)環(huán)境狀態(tài)生成一個功率分配動作,并將該動作傳遞給組網(wǎng)雷達。然后雷達執(zhí)行探測動作獲取目標量測,并提取下一時刻的環(huán)境狀態(tài)。智能體的狀態(tài)、動作和獎勵被存入經(jīng)驗池用于組網(wǎng)雷達智能體的策略網(wǎng)絡(luò)參數(shù)更新。
圖4 組網(wǎng)雷達智能體與環(huán)境交互圖Fig.4 The networked radar agent and environment interaction diagram
(1) 組網(wǎng)雷達智能體的狀態(tài)
組網(wǎng)雷達能夠獲取的環(huán)境信息包括k時刻雷達n與目標的距離和雷達被干擾指示。通過對組網(wǎng)雷達的觀測進行預(yù)處理生成策略網(wǎng)絡(luò)的輸入狀態(tài)。預(yù)處理過程包括標準化和連接操作。標準化是為了將不同量綱的雷達觀測統(tǒng)一到[0,1]。定義距離標準化函數(shù)為
其中,Rmin,Rmax分別表示雷達的最小和最大觀測距離。
連接操作是在數(shù)據(jù)標準化后將不同類型的雷達觀測組合成策略網(wǎng)絡(luò)的輸入狀態(tài)。首先將任意雷達的觀測按照被干擾指示和雷達與目標的距離組合,即。然后將所有雷達的觀測按照雷達編號組合,即
(2) 組網(wǎng)雷達智能體的動作
組網(wǎng)雷達智能體的動作定義為ar,k=(n=1,2,...,N),其中表示k時刻雷達節(jié)點n的發(fā)射功率。
(3) 知識輔助的組網(wǎng)雷達智能體獎勵函數(shù)設(shè)計
強化學(xué)習模擬人類獎懲機制,利用智能體與環(huán)境交互試錯改進策略,本質(zhì)上是選擇獎勵大的動作。然而,強化學(xué)習的試錯過程仍然是隨機探索,對于壓制干擾下組網(wǎng)雷達功率分配任務(wù),干擾機和組網(wǎng)雷達的博弈與目標運動使得探測環(huán)境的動態(tài)性顯著增加,進而導(dǎo)致智能體策略學(xué)習困難。為了輔助智能體的探索,有必要引入人的認知模型和知識,提出知識輔助下的獎勵設(shè)計。通過專家知識和模型知識設(shè)計導(dǎo)向獎勵,以引導(dǎo)智能體向人類認知方向探索,最終生成符合任務(wù)想定的資源分配策略。如圖5所示,本文給出知識輔助的組網(wǎng)雷達智能體獎勵函數(shù)設(shè)計框圖。
圖5 知識輔助的組網(wǎng)雷達智能體獎勵模塊Fig.5 The knowledge-assisted reward module for the networked radar agent
根據(jù)壓制干擾下組網(wǎng)雷達目標探測模型(模型知識)可知,雷達發(fā)現(xiàn)目標的概率和雷達與目標的距離以及雷達的發(fā)射功率相關(guān)。對于使用相同發(fā)射功率的雷達,目標距離雷達越近,雷達接收端獲得的SINR越大,意味著發(fā)現(xiàn)目標的概率越大。因此定義評價函數(shù)為
在組網(wǎng)雷達功率分配任務(wù)中等功率分配策略(專家知識)被用來作為判斷智能體分配動作好壞的基準策略。如果k時刻智能體的探測收益大于基準策略的探測收益,那么給予智能體正的導(dǎo)向獎勵,否則做出適當?shù)膽土P。具體的規(guī)則定義如下:
其中,rrg,k表示組網(wǎng)雷達智能體的導(dǎo)向獎勵;b1和b2是正實數(shù);為等功率分配動作。
組網(wǎng)雷達智能體的環(huán)境獎勵是根據(jù)優(yōu)化目標給出的。組網(wǎng)雷達期望發(fā)現(xiàn)目標的概率越大越好,即目標的檢測概率越接近1給予的獎勵越大。因此,組網(wǎng)雷達的環(huán)境獎勵定義為
組網(wǎng)雷達智能體的導(dǎo)向獎勵和環(huán)境獎勵共同用于改進組網(wǎng)雷達智能體的策略??紤]到隨著訓(xùn)練次數(shù)的增加智能體的策略將超越基準策略,此時導(dǎo)向獎勵起到促進策略探索作用,相反會影響智能體向最優(yōu)策略探索。因此,本文設(shè)計導(dǎo)向獎勵衰減獎勵融合模塊,由知識產(chǎn)生的導(dǎo)向獎勵隨著訓(xùn)練幕數(shù)的增加逐漸減小,即
其中,rr,k為融合后組網(wǎng)雷達智能體的獎勵;β為衰減因子;t為訓(xùn)練幕數(shù)。
注意,上述設(shè)計過程中使用等功率分配策略作為專家知識來生成導(dǎo)向獎勵,事實上可以引入更加先進的分配策略輔助智能體探索。
(4) 組網(wǎng)雷達智能體的策略網(wǎng)絡(luò)
如圖6,組網(wǎng)雷達智能體的策略網(wǎng)絡(luò)采用演員-評論家(Actor-Critic,AC)框架,由一個Actor和一個Critic組成,其中Actor策略網(wǎng)絡(luò)用于產(chǎn)生功率分配動作,Critic策略網(wǎng)絡(luò)用來評估動作的好壞。Actor策略網(wǎng)絡(luò)采用3層全連接神經(jīng)網(wǎng)絡(luò)(Neural Network,NN)搭建,中間層采用ReLU激活函數(shù)激活,輸出層采用Tanh激活函數(shù)激活。Critic策略網(wǎng)絡(luò)同樣采用3層全連接NN搭建并使用Tanh激活。采用PPO算法進行策略學(xué)習[28]。
圖6 組網(wǎng)雷達智能體的策略網(wǎng)絡(luò)Fig.6 The policy network of the networked radar agent
圖7顯示了干擾機策略網(wǎng)絡(luò)同干擾機與雷達博弈環(huán)境的交互過程。首先由基于混合強化學(xué)習的干擾資源分配策略網(wǎng)絡(luò)生成干擾機智能體的波束選擇動作和波束功率分配動作。然后,干擾機執(zhí)行該動作對被選中雷達發(fā)射干擾波束。干擾機獲取環(huán)境觀察并提取下一時刻狀態(tài)。干擾機智能體的狀態(tài)、動作和獎勵被存入經(jīng)驗池,這些樣本用于混合策略網(wǎng)絡(luò)的參數(shù)更新。
圖7 干擾機智能體與環(huán)境交互圖Fig.7 The jammer agent and environment interaction diagram
(1) 干擾機智能體的狀態(tài)
(2) 干擾機智能體的動作
(3) 干擾機智能體的獎勵
干擾機的波束和功率聯(lián)合分配具有由離散動作和連續(xù)動作組成的混合動作空間,這比其他的資源分配任務(wù)更加復(fù)雜。其中,混合動作空間增加了智能體的探索難度,更少的最優(yōu)動作被遍歷,這意味著最優(yōu)動作下的環(huán)境獎勵是稀疏的,這導(dǎo)致DRL的策略難以改進。因此引入模型知識和專家知識設(shè)計導(dǎo)向獎勵輔助智能體探索,如圖8所示。
圖8 知識輔助的干擾機智能體獎勵函數(shù)模塊Fig.8 The knowledge-assisted reward function module for the jammer agent
將貪婪干擾資源分配策略視作評價干擾機智能體的資源分配動作的基準。當采用干擾機智能體的波束選擇和功率分配動作下組網(wǎng)雷達發(fā)現(xiàn)目標的概率小于使用基準干擾資源分配策略時,給予正的導(dǎo)向獎勵,否則懲罰,即
其中,rjg,k為干擾機智能體的導(dǎo)向獎勵;表示基準干擾資源分配策略下組網(wǎng)雷達發(fā)現(xiàn)目標的概率。
干擾機的優(yōu)化目標與組網(wǎng)雷達的優(yōu)化目標相反,目標的發(fā)現(xiàn)概率越小越好。因此干擾機智能體的環(huán)境獎勵表示為
與組網(wǎng)雷達的導(dǎo)向獎勵和環(huán)境獎勵融合的方法相同,干擾機智能體的獎勵融合模塊定義為
其中,rj,k表示融合后干擾機智能體的獎勵。
(4) 干擾機智能體的混合策略網(wǎng)絡(luò)
干擾機智能體需要同時產(chǎn)生兩種不同質(zhì)的混合動作,即離散的干擾波束選擇動作和連續(xù)的波束功率分配動作。因此本文設(shè)計一種混合策略網(wǎng)絡(luò),如圖9所示,用來表示兩種分配動作,其中利用具有分類分布輸出的離散Actor來表示干擾波束選擇動作,采用具有高斯分布的連續(xù)Actor來表示干擾波束功率分配動作。
圖9 干擾機智能體的混合策略網(wǎng)絡(luò)Fig.9 The hybrid policy network of the jammer agent
如圖2所示,由組網(wǎng)雷達和干擾機組成的資源對抗優(yōu)化問題由于以下困難使得資源分配策略很難收斂:(1)組網(wǎng)雷達和干擾的功率分配都是連續(xù)變量,因此策略學(xué)習的狀態(tài)-動作空間維度很大,難以收斂;(2)干擾機波束分配為非凸優(yōu)化并與功率分配耦合,這進一步增加策略搜索空間;(3)組網(wǎng)雷達和干擾機博弈過程中資源分配環(huán)境動態(tài)性增加。
為此本文提出基于交替訓(xùn)練的多步求解方法,設(shè)置最大迭代次數(shù)為M。具體步驟為:
步驟1 固定組網(wǎng)雷達的功率分配策略,訓(xùn)練干擾機的聯(lián)合波束與功率分配策略。
步驟2 固定干擾機的資源分配策略,訓(xùn)練組網(wǎng)雷達的功率分配策略。
進行下一次迭代m←m+1,重復(fù)執(zhí)行步驟1和步驟2,直到迭代訓(xùn)練次數(shù)m>M。此時得到訓(xùn)練后的組網(wǎng)雷達功率分配策略。
6.1.1 任務(wù)場景描述
如圖10所示,代表一種典型的部署方式,各部雷達以扇形方式部署到作戰(zhàn)區(qū)域,探測范圍相互重疊,這種部署有效地增加了雷達發(fā)現(xiàn)目標的能力。目標由西北方向朝向東南方向勻速運動,并且逐漸靠近雷達4和雷達5所在區(qū)域。
圖10 組網(wǎng)雷達部署和目標編隊軌跡Fig.10 The deployment of the networked radar and the trajectory of the target formation
值得注意的是,在測試場景干擾機和目標飛行軌跡的趨勢與訓(xùn)練場景中軌跡的飛行樣式相同,但每一次運行目標和干擾機的位置與速度都在一個區(qū)間內(nèi)隨機生成。在實際作戰(zhàn)過程中,如果測試場景與訓(xùn)練場景的匹配度很低,訓(xùn)練好的參數(shù)可能不再有效。因為DRL是通過訓(xùn)練階段不斷地與環(huán)境交互學(xué)習最優(yōu)策略。如果測試環(huán)境改變較大,可能會導(dǎo)致性能下降。此時,需要通過在線訓(xùn)練方式對模型進行微調(diào),以適應(yīng)新的環(huán)境。同時,本文通過對訓(xùn)練數(shù)據(jù)進行隨機擾動,即每一個訓(xùn)練幕干擾機和目標的位置和速度隨機產(chǎn)生,來增加模型對新情況的魯棒性。
6.1.2 仿真參數(shù)設(shè)置
仿真實驗在10 km×10 km的二維作戰(zhàn)平面進行。組網(wǎng)雷達由N=5部廣泛分布的單站雷達組成,融合中心采用K-N準則(K=2)。假設(shè)組網(wǎng)雷達和干擾機的工作頻率相等,基于文獻[9,10,23,29,30]提供的數(shù)據(jù),每部雷達的工作參數(shù)設(shè)置如表1所示,干擾機的工作參數(shù)設(shè)置如表2所示。雷達的工作帶寬為300 MHz,干擾機帶寬為雷達帶寬的2倍,各場景中目標的有效反射面積均設(shè)置為5 m2。
表1 雷達工作參數(shù)Tab.1 The working parameters of the radars
表2 干擾機工作參數(shù)Tab.2 The working parameters of the jammer
本文算法的參數(shù)設(shè)置如表3所示,其中組網(wǎng)雷達智能體中Actor網(wǎng)絡(luò)的層數(shù)和節(jié)點數(shù)與干擾機智能體中連續(xù)Actor的參數(shù)設(shè)置相同。仿真所使用的計算機硬件參數(shù)為:Intel i5-10400F CPU,8 GB RAM,NVIDIA GTX 1650顯示適配器,python版本為3.6,tensorflow版本為1.14.1。
表3 算法參數(shù)設(shè)置Tab.3 The algorithm parameters setting
算法的計算復(fù)雜度分析:算法的計算復(fù)雜度包含時間復(fù)雜度和空間復(fù)雜度[3]。前者由NN中乘法和加法的數(shù)量來衡量,后者由NN中帶優(yōu)化的參數(shù)數(shù)量決定,即
其中,M是NN的層數(shù)(隱藏層數(shù)+1),m表示NN層編號,F(xiàn)Cin(m)和 FCout(m)分別表示第m層NN的輸入節(jié)點數(shù)和輸出節(jié)點數(shù)。根據(jù)表3所示的Actor網(wǎng)絡(luò)的參數(shù)設(shè)置,本文算法干擾機策略網(wǎng)絡(luò)中離散Actor的時間復(fù)雜度是17792,空間復(fù)雜度是18049,連續(xù)Actor的時間復(fù)雜度是18048,空間復(fù)雜度是18307。組網(wǎng)雷達智能體策略網(wǎng)絡(luò)的時間復(fù)雜度為18304,空間復(fù)雜度為18565。
為驗證所提方法的有效性,在干擾機使用基于DRL的干擾策略時,將基于DRL的組網(wǎng)雷達功率分配算法與如下2種組網(wǎng)雷達功率分配策略進行對比:
基于粒子群(Particle Swarm Optimization,PSO)算法的組網(wǎng)雷達分配策略:該方法采用粒子群算法作為雷達功率資源分配策略,在使用時設(shè)計參數(shù)較少、粒子群規(guī)模較小,所以收斂速度相對較快。
基于人工魚群算法(Artificial Fish Swarms Algorithm,AFSA)的組網(wǎng)雷達分配策略:應(yīng)用人工魚群算法進行功率資源的分配,該方法通過模擬魚群的覓食行為進行策略尋優(yōu),具有較好的全局最優(yōu)解的求解能力,對初始值和參數(shù)要求較低、魯棒性強。
組網(wǎng)雷達功率資源分配的目的是最大化目標的檢測概率,因此選取目標檢測概率以及資源調(diào)度運行時間(Scheduling Run Time,SRT)作為性能評估指標。
根據(jù)6.1.2節(jié)設(shè)置的參數(shù)和第5節(jié)的訓(xùn)練方法學(xué)習組網(wǎng)雷達功率分配策略。每隔50步對目標運動狀態(tài)進行初始化,稱為一幕。干擾機策略訓(xùn)練的總幕數(shù)設(shè)置為3000幕,組網(wǎng)雷達智能體的訓(xùn)練總幕數(shù)設(shè)置為10000幕。圖11顯示了不同訓(xùn)練幕下獎勵收斂情況。從圖11(a)可以看出,隨著訓(xùn)練幕數(shù)的增加組網(wǎng)雷達智能體的獎勵逐漸收斂,表明訓(xùn)練是有效的。由圖11(b)可以發(fā)現(xiàn),隨著訓(xùn)練幕數(shù)的增加干擾機智能體的獎勵也逐漸收斂,表明干擾機的策略訓(xùn)練是有效的。
圖11 獎勵變化曲線Fig.11 The rewards convergence curve
將訓(xùn)練好的組網(wǎng)雷達功率分配策略參數(shù)和干擾機資源分配策略參數(shù)加載到測試環(huán)境。圖12顯示了單次運行下的干擾資源分配結(jié)果。可以發(fā)現(xiàn),在初始階段距離干擾機較近的雷達1、雷達2和雷達3受到的干擾較大;在運行到中間時刻時干擾機分配更多的干擾功率給雷達2;隨著目標編隊逐漸靠近雷達,干擾機選擇對距離近的雷達4和雷達5施加干擾。
圖12 干擾資源分配結(jié)果Fig.12 The interference resource allocation result
通過50次蒙特卡羅仿真測試了3種組網(wǎng)雷達功率分配策略在干擾機采用基于DRL的壓制干擾下的目標檢測性能。圖13顯示了幾種組網(wǎng)雷達功率分配策略在基于DRL干擾下的目標檢測概率,可以發(fā)現(xiàn)基于DRL的組網(wǎng)雷達功率分配方法可以有效地提升壓制干擾下的目標檢測性能,相較于其他兩種策略,目標檢測概率最多提升了大約11%,這是由于DRL通過智能體與環(huán)境交互學(xué)習,因此DRL分配策略考慮了干擾機帶來的不確定性。
圖13 3種組網(wǎng)雷達功率分配策略的目標檢測概率Fig.13 The target detection probability of three networked radar power allocation strategies
為了驗證本文算法在時變干擾條件下的優(yōu)勢,本文分別采用3種不同的策略進行測試,包括基于DRL干擾下訓(xùn)練的組網(wǎng)雷達功率分配策略(DRL-TI)、在無干擾下訓(xùn)練的組網(wǎng)雷達分配策略(DRL-NI)以及固定干擾情況下訓(xùn)練的組網(wǎng)雷達功率分配策略(DRL-FI)。其中,固定干擾設(shè)置為干擾機在所有時刻采用均等功率干擾雷達3、雷達4和雷達5。本文測試了這3種策略的目標檢測性能,結(jié)果如圖14所示。從圖14可以看出,DRL-TI組網(wǎng)雷達功率分配策略的目標檢測概率要比DRL-NI和DRL-FI策略的目標檢測概率高,最多提升了約15%。這是因為,DRL-TI分配策略在訓(xùn)練過程中考慮了干擾機與組網(wǎng)雷達的資源博弈,能夠適應(yīng)時變干擾帶來的不確定性,從而具有更好的目標檢測性能。
圖14 不同干擾模式下基于DRL組網(wǎng)雷達功率分配策略的目標檢測概率Fig.14 The target detection probability of the DRL-based networked radar power allocation strategy under different interference models
圖15對比了單次仿真測試下3種組網(wǎng)雷達功率分配策略雷達功率分配結(jié)果。圖16顯示了各雷達節(jié)點受干擾壓制干擾情況。圖17顯示了干擾機和組網(wǎng)雷達的距離變化。由圖15(a)—圖17可以發(fā)現(xiàn)基于DRL的組網(wǎng)雷達功率分配方法具有以下現(xiàn)象:
圖15 組網(wǎng)雷達功率分配結(jié)果Fig.15 The networked radar power allocation results
圖16 各雷達節(jié)點受壓制干擾情況Fig.16 The indication that each radar node is interfered
圖17 干擾機和組網(wǎng)雷達的距離變化Fig.17 The distance variation of the jammer and the networked radar
在1~25步,干擾機與雷達1、雷達2和雷達3的距離最近,因此干擾資源偏向于分配給這3部雷達,以達到最佳的干擾效果。為了對抗上述干擾策略,組網(wǎng)雷達分配資源大部分資源給雷達1、雷達4和雷達5,其能夠提升未被干擾且距離較遠的雷達4和雷達5檢測概率,同時能夠提升受干擾最嚴重的雷達1的檢測概率。采用該策略保證在K-N融合準則下對的檢測概率最大。在26~38步,干擾機所有的功率都用于干擾雷達3。在這種情況下組網(wǎng)雷達3的探測性能受到極大限制,所以在系統(tǒng)資源有限的情況下,幾乎不分配資源于此節(jié)點,以保證對突防目標的及時探測??傮w來看,基于DRL的組網(wǎng)雷達功率分配方法能夠隨著壓制干擾強度以及目標運動實時動態(tài)調(diào)整每個雷達節(jié)點的功率,從而提高資源的利用率,進而提高壓制干擾下目標的發(fā)現(xiàn)概率。
從圖15(b)可以發(fā)現(xiàn),基于PSO的組網(wǎng)雷達功率分配在整個仿真時刻呈現(xiàn)出交替分配較大功率給部分雷達,這種各個分配時刻交替分配功率的分配策略與雷達受干擾情況和雷達-目標的距離曲線的變化不符。原因在于基于PSO的組網(wǎng)雷達功率分配不能保證各個時刻的分配結(jié)果都是最優(yōu)。
從圖15(c)可以發(fā)現(xiàn),基于AFSA的組網(wǎng)雷達功率分配在1~10步的功率分配結(jié)果變化較大,選擇為部分雷達分配均等的發(fā)射功率;在6~25步組網(wǎng)雷達的能量主要分配給雷達1、雷達4和雷達5,而此時雷達2和雷達3受到干擾,可以發(fā)現(xiàn)AFSA將組網(wǎng)雷達功率分配給未受干擾的雷達,這種分配結(jié)果使雷達2和雷達3對目標的檢測概率較低,進而導(dǎo)致K-N融合準則下目標的檢測性能降低。在26~45步具有類似的結(jié)果,但是僅雷達3被干擾,因此融合后的目標檢測性能下降小。總體來看,AFSA將組網(wǎng)雷達功率均勻地分配給未受到干擾的雷達節(jié)點,這種分配方式是一種保守的分配策略,在被干擾雷達節(jié)點較少時有較好的目標檢測性能。
表4對比了50次蒙特卡羅仿真下各分配策略的資源調(diào)度運行時間。其中PSO算法和AFSA算法的種群規(guī)模數(shù)和最大迭代次數(shù)均相同,所有算法均在相同的仿真平臺上運行。從運行時間來看,所提方法的資源調(diào)度運行時間能夠達到0.01 s以下,相對于PSO優(yōu)化方法和AFSA優(yōu)化方法有顯著提升,完全能夠滿足高動態(tài)博弈場景下雷達功率資源調(diào)度的實時性要求。
表4 各策略的資源調(diào)度運行時間Tab.4 The resource scheduling running time of each strategy
考慮到干擾機與雷達相互博弈作戰(zhàn)場景,本文提出了一種基于DRL的伴隨壓制干擾下組網(wǎng)雷達功率分配問題的解決方案。在該問題中,干擾機和組網(wǎng)雷達被映射為智能體?;贒RL的策略網(wǎng)絡(luò)被用來訓(xùn)練組網(wǎng)雷達的功率分配策略,同時采用DRL生成干擾機智能體的波束選擇和功率分配動作。此外,引入模型知識和專家知識,以協(xié)助兩類智能體的策略探索。在仿真測試中,干擾機采用了基于DRL的干擾策略,而組網(wǎng)雷達分別采用了基于DRL的功率分配以及其他兩種啟發(fā)式組網(wǎng)雷達功率分配方法。比較了3種組網(wǎng)雷達功率分配方法在目標檢測概率和運行時間兩個指標下的表現(xiàn)。結(jié)果表明,當干擾機采用DRL資源分配策略時,組網(wǎng)雷達采用基于DRL的功率分配策略在兩個指標上都優(yōu)于其他方法。這是因為DRL采用離線訓(xùn)練生成策略模型,因此在線功率分配的運行時間相比PSO和AFSA更快。其次由于干擾機的干擾波束和功率具有不確定性和動態(tài)性,基于啟發(fā)式搜索的組網(wǎng)雷達功率分配策略難以在這種環(huán)境下求得最優(yōu)解,而DRL的分配策略是從智能體與環(huán)境交互的訓(xùn)練樣本得到的,這些樣本中包含了干擾機帶來的不確定性,因此基于DRL組網(wǎng)雷達功率分配具有更好的目標檢測性能。
在未來的工作中,我們將探究在多干擾機協(xié)同干擾下的組網(wǎng)雷達資源分配,并且拓展當前的組網(wǎng)雷達資源分配算法,使其能夠適應(yīng)分布式學(xué)習結(jié)構(gòu),以應(yīng)對集群體系的對抗場景。同時,我們也會考慮其他針對雷達的抗干擾措施,如波束置零和干擾濾除等。