解 烽 劉環(huán)宇* 胡錫坤 鐘 平 李君寶
①(哈爾濱工業(yè)大學(xué)計(jì)算學(xué)部信息對(duì)抗技術(shù)研究所 哈爾濱 150080)
②(國防科技大學(xué)電子科學(xué)學(xué)院 長沙 410073)
認(rèn)知雷達(dá)通過環(huán)境和目標(biāo)的變化情況調(diào)整其波形發(fā)射策略,實(shí)現(xiàn)比傳統(tǒng)雷達(dá)更好的抗干擾效果[1]。目前認(rèn)知雷達(dá)面臨的干擾主要為主瓣干擾。主瓣干擾是電子戰(zhàn)領(lǐng)域中最常見的干擾方式,它會(huì)顯著降低雷達(dá)系統(tǒng)的性能。當(dāng)前抗主瓣干擾的技術(shù)分為有源對(duì)抗與無源抑制[2]。無源抑制的方法主要針對(duì)干擾信號(hào)特征不變的場(chǎng)景,研究雷達(dá)與干擾機(jī)的單次對(duì)抗過程。如果雷達(dá)和干擾機(jī)的博弈持續(xù)多個(gè)回合,并且干擾機(jī)采用靈活多變的干擾形式,那么無源抑制方法的抗干擾性能將大幅降低[3]。有源對(duì)抗技術(shù)要求認(rèn)知雷達(dá)主動(dòng)改變抗干擾策略,從根本上降低雷達(dá)被干擾的概率。有源對(duì)抗方式主要從空、時(shí)、頻、極化等維度出發(fā)進(jìn)行發(fā)射波形設(shè)計(jì),并借助自適應(yīng)濾波等信號(hào)處理手段達(dá)到抗干擾的目的。如在時(shí)域上使用基于壓縮感知的抗射頻干擾波形[4]、在頻域上使用脈沖頻率捷變方法[5,6]、在極化域上使用極化和接收極化聯(lián)合優(yōu)化的波形[7]、在空域上采用一發(fā)多收模式下基于多站波束融合的抗干擾方法[8]和結(jié)合時(shí)頻域特征設(shè)計(jì)脈間-脈內(nèi)捷變頻雷達(dá)抗干擾方法[9]等。對(duì)不同的干擾類型(特別是主瓣干擾)和干擾樣式而言,頻域是一個(gè)重要且有效的可分域,因此目前學(xué)者大多數(shù)從頻域出發(fā)設(shè)計(jì)智能抗干擾方法。頻率捷變(Frequency Agile,FA)雷達(dá)的載波頻率可以在每個(gè)脈沖中隨機(jī)跳變,這使得干擾機(jī)難以預(yù)測(cè)雷達(dá)的載波頻率,無法有效實(shí)施干擾。
近年來,人工智能技術(shù),特別是深度學(xué)習(xí)[10,11]、深度強(qiáng)化學(xué)習(xí)[12,13]等相關(guān)理論的發(fā)展和成熟,極大地提高了雷達(dá)態(tài)勢(shì)感知、自主學(xué)習(xí)、自主推理與決策的能力。深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)技術(shù)通過建立智能體與環(huán)境的交互模型,使智能體充分探索環(huán)境信息,提高其行為決策的效果[14]。將DRL引入雷達(dá)抗干擾領(lǐng)域,通過采集雷達(dá)與干擾機(jī)的交互信息,優(yōu)化雷達(dá)抗干擾行為策略,實(shí)現(xiàn)雷達(dá)抗干擾行為決策能力的提升[15]。使用DRL解決雷達(dá)抗干擾問題的研究已經(jīng)取得了一些進(jìn)展。文獻(xiàn)[16]提出了一種基于強(qiáng)化學(xué)習(xí)的智能抗干擾方法,在抗干擾策略優(yōu)化訓(xùn)練過程中,將陣列波束數(shù)據(jù)與脈沖壓縮感知后的干擾狀態(tài)特征作為模型輸入,分別采用Q-learning算法與Sarsa算法對(duì)模型的值函數(shù)進(jìn)行計(jì)算與迭代,實(shí)現(xiàn)抗干擾知識(shí)庫的智能更新,根據(jù)知識(shí)庫確定最優(yōu)抗干擾策略。文獻(xiàn)[17]使用Q-learning算法對(duì)雷達(dá)發(fā)射功率進(jìn)行優(yōu)化分配決策,但只考慮了有限的雷達(dá)發(fā)射狀態(tài)。文獻(xiàn)[18]以雷達(dá)發(fā)射行為和回波信號(hào)的信干比作為狀態(tài)輸入,使用Q-learning和深度Q網(wǎng)絡(luò)(Deep QNetwork,DQN)兩種算法對(duì)認(rèn)知雷達(dá)抗干擾跳頻策略進(jìn)行優(yōu)化。文獻(xiàn)[19]以過去時(shí)刻的雷達(dá)發(fā)射行為作為狀態(tài)輸入,設(shè)計(jì)了一種基于DQN的FA雷達(dá)抗干擾策略。文獻(xiàn)[18]與文獻(xiàn)[19]中FA雷達(dá)面對(duì)的是同一種干擾類型的場(chǎng)景,此場(chǎng)景與實(shí)際復(fù)雜干擾場(chǎng)景差距較大,且文獻(xiàn)[16–19]只考慮到信號(hào)特征層級(jí),尚未實(shí)現(xiàn)從原始回波信號(hào)到波形發(fā)射的感知決策一體化。
在雷達(dá)抗干擾DRL算法中,合理的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)可以有效提高DRL算法的收斂速度與最佳性能表現(xiàn)。通常以雷達(dá)抗干擾行為是否成功躲避干擾的不同賦值作為獎(jiǎng)勵(lì)函數(shù)[20]或以信干噪比作為獎(jiǎng)勵(lì)函數(shù)[18]。文獻(xiàn)[19]從雷達(dá)能否檢測(cè)到目標(biāo)的角度出發(fā)設(shè)計(jì)了雷達(dá)檢測(cè)概率作為獎(jiǎng)勵(lì)函數(shù),文獻(xiàn)[21]將檢測(cè)目標(biāo)的準(zhǔn)確度作為獎(jiǎng)勵(lì)函數(shù),文獻(xiàn)[22]將雷達(dá)信號(hào)被干擾信號(hào)遮蓋程度和基于信噪比加權(quán)算法的檢測(cè)概率作為獎(jiǎng)勵(lì)函數(shù)。
上述文獻(xiàn)表明,雷達(dá)可以通過DRL算法選擇有效的抗干擾行為,且DRL算法在雷達(dá)抗干擾領(lǐng)域的應(yīng)用實(shí)現(xiàn)了雷達(dá)與干擾機(jī)多輪交互博弈的要求,更符合現(xiàn)代電子戰(zhàn)的場(chǎng)景假設(shè)。
然而,上述雷達(dá)抗干擾研究局限于特定單一干擾場(chǎng)景下抗干擾波形參數(shù)的尋優(yōu)問題,并未深入探討時(shí)序條件下復(fù)雜多干擾場(chǎng)景的抗干擾行為決策問題。在突防任務(wù)中,不同階段下干擾機(jī)選擇的干擾方式不同,這意味著不同階段中雷達(dá)所受的干擾策略是非穩(wěn)定的。因此有必要研究時(shí)序條件下復(fù)雜多干擾場(chǎng)景的雷達(dá)抗干擾行為決策方法。
本文設(shè)計(jì)了一種工作在多干擾策略模式下的干擾機(jī)模型,通過對(duì)干擾環(huán)境與FA雷達(dá)的建模仿真,并結(jié)合干擾信號(hào)的復(fù)數(shù)域特征,提出了一種基于復(fù)數(shù)域深度強(qiáng)化學(xué)習(xí)的多干擾場(chǎng)景雷達(dá)抗干擾方法。本文主要貢獻(xiàn)如下:
(1) 在DRL框架下建立了3種干擾模型,包括噪聲瞄準(zhǔn)干擾、距離假目標(biāo)欺騙干擾與密集假目標(biāo)轉(zhuǎn)發(fā)干擾。構(gòu)建了基于上述3種干擾的時(shí)序干擾策略,并在該策略的基礎(chǔ)上搭建了適用于對(duì)抗博弈的復(fù)雜電磁環(huán)境。
(2) 針對(duì)時(shí)序多干擾場(chǎng)景,提出了一種基于復(fù)數(shù)域DRL的雷達(dá)抗干擾算法。該算法使用本文提出的針對(duì)多干擾場(chǎng)景的獎(jiǎng)勵(lì)函數(shù)進(jìn)行優(yōu)化,并實(shí)現(xiàn)了感知決策一體化的端到端應(yīng)用。通過對(duì)比兩種經(jīng)典DRL算法的抗干擾性能,證明了該算法在雷達(dá)抗干擾行為決策上具有較高的準(zhǔn)確性與較快的速度。
(3) 在FA雷達(dá)與干擾機(jī)模型的基礎(chǔ)上,設(shè)計(jì)了一種針對(duì)雷達(dá)多干擾場(chǎng)景的DRL獎(jiǎng)勵(lì)函數(shù)。該獎(jiǎng)勵(lì)函數(shù)融合了雷達(dá)信干噪比與目標(biāo)航跡完整性的評(píng)價(jià)方法,實(shí)驗(yàn)驗(yàn)證了該獎(jiǎng)勵(lì)函數(shù)在雷達(dá)多干擾場(chǎng)景下的有效性。
本文研究脈沖級(jí)FA雷達(dá)與自衛(wèi)式干擾機(jī)之間的博弈問題。脈沖級(jí)FA雷達(dá)可以調(diào)控一個(gè)相干處理間隔(Coherent Processing Interval,CPI)中每個(gè)脈沖發(fā)射的頻率與持續(xù)時(shí)間,自衛(wèi)式干擾機(jī)工作在收發(fā)分時(shí)干擾模式。本節(jié)描述了發(fā)射線性調(diào)頻(Linear Frequency Modulated,LFM)信號(hào)的FA雷達(dá)模型與3種干擾類型的信號(hào)特征。
FA雷達(dá)指各發(fā)射脈沖載頻頻率在帶寬范圍內(nèi)按某種規(guī)律快速變化的一種脈沖體制雷達(dá)[23],如圖1所示。
圖1 頻率捷變雷達(dá)模型Fig.1 Frequency agile radar model
與恒定載波頻率雷達(dá)不同,F(xiàn)A雷達(dá)按照頻率捷變方式可分為脈內(nèi)捷變頻、脈間捷變頻和脈組間捷變頻3種方式,本文主要研究脈間FA雷達(dá)。現(xiàn)代FA雷達(dá)一般采用全相參脈沖體制,雷達(dá)的頻率綜合器可以在雷達(dá)載波頻率跳變的同時(shí)實(shí)現(xiàn)各脈沖相位相參,這也保證了目標(biāo)能夠被有效地相參處理與合成。
FA雷達(dá)載波頻率捷變信號(hào)模型可以表示為
其中,a(m)為隨機(jī)整數(shù),表示第m個(gè)脈沖的頻率控制碼,a(m) 取值范圍為[0,N -1];N為頻率帶寬內(nèi)允許的總跳頻數(shù),M為脈沖積累數(shù),滿足N >M,Δf表示最小頻率間隔,通常情況下為了保證脈沖信號(hào)間的正交性,Δf需要滿足
其中,n為正整數(shù),Tp為脈沖寬度。
FA雷達(dá)一般采用的LFM信號(hào)的復(fù)包絡(luò)表示為
飛行目標(biāo)上裝有自衛(wèi)式干擾機(jī)裝置,本文假設(shè)博弈環(huán)境中FA雷達(dá)主波束與飛行目標(biāo)在空間上是正對(duì)關(guān)系,因此干擾機(jī)施加的干擾主要從雷達(dá)主瓣進(jìn)入,故FA雷達(dá)主要受到主瓣干擾。根據(jù)飛行任務(wù)與階段的不同,博弈環(huán)境中的干擾機(jī)主要發(fā)射3種干擾類型,其中每種干擾類型的干擾波形參數(shù)都是可變的。
(1) 干擾類型1:噪聲瞄準(zhǔn)干擾。
在噪聲瞄準(zhǔn)干擾模式下,干擾機(jī)首先截取一個(gè)CPI內(nèi)第1個(gè)雷達(dá)脈沖,分析該脈沖的載頻,選取可用頻帶寬度內(nèi)的子頻帶發(fā)射窄帶干擾信號(hào)。一般情況下,窄帶干擾信號(hào)的帶寬會(huì)全覆蓋雷達(dá)探測(cè)波形的頻帶,使得雷達(dá)接收機(jī)無法有效分離真實(shí)回波信號(hào)特征,導(dǎo)致雷達(dá)系統(tǒng)的性能嚴(yán)重下降。噪聲瞄準(zhǔn)干擾中雷達(dá)與干擾信號(hào)時(shí)、頻域關(guān)系如圖2所示。
圖2 噪聲瞄準(zhǔn)干擾仿真圖Fig.2 Simulation diagram of noise spot jamming
(2) 干擾類型2:距離假目標(biāo)欺騙干擾。
在距離假目標(biāo)欺騙干擾模式下,干擾機(jī)首先截取一個(gè)CPI內(nèi)第1個(gè)雷達(dá)脈沖,分析脈沖載頻,然后在CPI剩余時(shí)間內(nèi)多次轉(zhuǎn)發(fā)相同頻率的干擾波形信號(hào)。使得雷達(dá)接收機(jī)接收到的雷達(dá)信號(hào)有多組同頻分時(shí)的雷達(dá)峰值,達(dá)到混淆真實(shí)回波的距離特征維度信息的目的。距離假目標(biāo)欺騙干擾中雷達(dá)與干擾信號(hào)時(shí)、頻域關(guān)系如圖3所示。
圖3 距離假目標(biāo)欺騙干擾仿真圖Fig.3 Simulation diagram of distance false-target deception jamming
假設(shè)在距離假目標(biāo)欺騙干擾中忽略慢時(shí)間tm的影響,則此時(shí)LFM信號(hào)可表達(dá)為
則雷達(dá)接收機(jī)中截獲到的真實(shí)目標(biāo)回波可表示為
距離假目標(biāo)欺騙干擾信號(hào)的表達(dá)式如下,其中干擾機(jī)改變了回波的延時(shí)參數(shù)。
(3) 干擾類型3:密集假目標(biāo)轉(zhuǎn)發(fā)干擾。
在密集假目標(biāo)轉(zhuǎn)發(fā)干擾模式下,干擾機(jī)在時(shí)序上通常分為偵察窗與干擾窗兩個(gè)階段,在偵察窗階段采樣存儲(chǔ),在干擾窗階段轉(zhuǎn)發(fā)生成干擾。雷達(dá)接收機(jī)收到密集同頻信號(hào)后難以有效提取真實(shí)目標(biāo)的特征,因此密集假目標(biāo)轉(zhuǎn)發(fā)干擾既能產(chǎn)生壓制效果又能產(chǎn)生欺騙干擾效果。
假設(shè)在密集假目標(biāo)轉(zhuǎn)發(fā)干擾場(chǎng)景下雷達(dá)發(fā)射信號(hào)sd(t)的表達(dá)式為
其中,雷達(dá)接收機(jī)接收Q個(gè)距離不同的真實(shí)目標(biāo)回波信號(hào)的表達(dá)式為
干擾假目標(biāo)回波信號(hào)的表達(dá)式為
其中,P代表密集假目標(biāo)轉(zhuǎn)發(fā)干擾的假目標(biāo)個(gè)數(shù);代表第p個(gè)干擾假目標(biāo)的幅度;代表第p個(gè)干擾假目標(biāo)的轉(zhuǎn)發(fā)時(shí)延。密集假目標(biāo)轉(zhuǎn)發(fā)干擾中雷達(dá)與干擾信號(hào)時(shí)域關(guān)系如圖4所示。
圖4 密集假目標(biāo)轉(zhuǎn)發(fā)干擾仿真圖Fig.4 Simulation diagram of dense false-target repeater jamming
上述3種干擾類型中的具體波形由波形控制參數(shù)決定。在每一輪干擾博弈過程中,干擾機(jī)根據(jù)概率從可用的類型中選擇一個(gè)具體的干擾行為。由于每個(gè)時(shí)刻生成的干擾類型與波形控制參數(shù)是不確定的,所以此假設(shè)符合雷達(dá)面臨的動(dòng)態(tài)干擾環(huán)境的要求。
本文把FA雷達(dá)看作DRL要素中的智能體,把干擾看作動(dòng)態(tài)可變的環(huán)境特征。此外本文考慮了多種干擾類型下的復(fù)雜干擾策略,且每種干擾類型都由不同波形參數(shù)所決定。下面將詳細(xì)描述DRL概念中的各元素設(shè)計(jì)方法。
通常情況下,F(xiàn)A雷達(dá)首先處于探測(cè)狀態(tài),向環(huán)境空間發(fā)射波形,改變電磁環(huán)境s。假設(shè)干擾機(jī)在時(shí)刻t偵測(cè)到雷達(dá)探測(cè)波形,則其將根據(jù)態(tài)勢(shì)與專家策略選擇相應(yīng)的干擾類型施加干擾,此時(shí)FA雷達(dá)會(huì)根據(jù)態(tài)勢(shì)選擇對(duì)應(yīng)的抗干擾行為。本文設(shè)計(jì)的博弈場(chǎng)景將干擾機(jī)與FA雷達(dá)各改變一次波形的過程定義為進(jìn)行了一回合博弈,每一回合博弈結(jié)束后,環(huán)境狀態(tài)空間會(huì)被重置。
本文將2.2節(jié)的3種干擾類型按照一定策略進(jìn)行編排,如圖5所示。
圖5 3種干擾策略順序Fig.5 Order of three jamming strategies
干擾類型J1表示噪聲瞄準(zhǔn)干擾,J2表示距離假目標(biāo)欺騙干擾,J3表示密集假目標(biāo)轉(zhuǎn)發(fā)干擾。干擾策略Ⅰ表示3種干擾按照順序進(jìn)行切換,每一個(gè)CPI切換一種干擾類型。策略Ⅱ表示3種干擾按照回文順序進(jìn)行切換,策略Ⅲ表示3種干擾隨機(jī)進(jìn)行切換,每一個(gè)CPI后隨機(jī)切換到下一種干擾類型。
此外,上述3種干擾類型也具有其獨(dú)立的波形控制參數(shù)。
在噪聲瞄準(zhǔn)干擾中,t時(shí)刻干擾機(jī)狀態(tài)可以表示為st=[st,f,st,B],其中,st,f表示干擾機(jī)發(fā)射信號(hào)的下頻頻率,st,B表示信號(hào)帶寬。
在距離假目標(biāo)欺騙干擾中,t時(shí)刻干擾機(jī)狀態(tài)為st=[st,f,st,B,st,t1,...,st,tN],其中st,f,st,B與 類型1中含義相同,st,tj表示第j個(gè)假目標(biāo)的時(shí)間標(biāo)度。N表示在t時(shí)刻產(chǎn)生與原始回波特征相同的假目標(biāo)個(gè)數(shù)。
在密集假目標(biāo)轉(zhuǎn)發(fā)干擾中,t時(shí)刻干擾機(jī)狀態(tài)可以表示為st=[st,f,st,B,st,t1,st,t2],其中st,f,st,B與類型1含義相同,st,t1表示干擾機(jī)偵察窗的持續(xù)時(shí)間,st,t2表示干擾窗的持續(xù)時(shí)間。假設(shè)在t1時(shí)間內(nèi)包含有雷達(dá)的探測(cè)波形,則干擾機(jī)將會(huì)在t2時(shí)間內(nèi)大量復(fù)制雷達(dá)波形并持續(xù)發(fā)射,使得雷達(dá)接收機(jī)處于資源過飽和狀態(tài),無法分辨真實(shí)目標(biāo)的特征信息。
FA雷達(dá)的抗干擾波形決策對(duì)應(yīng)著DRL中智能體對(duì)環(huán)境輸出的行為a。FA雷達(dá)可以決定每一時(shí)刻生成波形的載頻頻率和持續(xù)時(shí)間等要素。
在噪聲瞄準(zhǔn)干擾中,F(xiàn)A雷達(dá)通常使用頻率捷變抗干擾波形,假設(shè)t時(shí)刻雷達(dá)的發(fā)射波形可以表示為表示t時(shí)刻雷達(dá)信號(hào)中第m個(gè)脈沖的載頻頻率,at,γ表示t時(shí)刻雷達(dá)信號(hào)的調(diào)頻斜率,at,Tp表示t時(shí)刻雷達(dá)信號(hào)中每個(gè)脈沖的脈沖寬度。向量中3個(gè)元素將唯一確定t時(shí)刻發(fā)射的雷達(dá)脈沖波形,其他參數(shù)設(shè)定為固定值,忽略其他參數(shù)對(duì)波形生成的影響。
在距離假目標(biāo)欺騙干擾中,雷達(dá)使用頻率正交線性調(diào)頻信號(hào)[24]可以有效對(duì)抗干擾。頻率正交線性調(diào)頻信號(hào)利用鄰近兩個(gè)發(fā)射信號(hào)的正交性對(duì)脈沖壓縮信號(hào)幅度的影響對(duì)抗假目標(biāo)欺騙干擾。雷達(dá)抗干擾波形可以表示為at=,含義與類型1中相同。
在密集假目標(biāo)轉(zhuǎn)發(fā)干擾中,雷達(dá)使用掩護(hù)脈沖信號(hào)[24]可以有效對(duì)抗干擾。其原理是雷達(dá)在干擾機(jī)的偵察窗時(shí)間內(nèi)發(fā)射掩護(hù)脈沖,使得干擾機(jī)復(fù)制轉(zhuǎn)發(fā)與掩護(hù)脈沖特征相同的信號(hào),并讓雷達(dá)在干擾機(jī)的干擾窗時(shí)間內(nèi)發(fā)射真實(shí)探測(cè)信號(hào),最終,雷達(dá)接收端接收到真實(shí)目標(biāo)回波信號(hào)與干擾機(jī)生成的大量掩護(hù)脈沖假信號(hào),信號(hào)處理模塊根據(jù)兩種信號(hào)特征的不同進(jìn)而分離出真實(shí)目標(biāo)回波信號(hào)[25]。假設(shè)t時(shí)刻雷達(dá)的抗干擾波形可以表示為表示掩護(hù)脈沖的載頻頻率,at,fm2表示真實(shí)脈沖的載頻頻率,at,Tp1表示掩護(hù)脈沖的持續(xù)時(shí)間,at,Tp2表示真實(shí)脈沖的持續(xù)時(shí)間。
在雷達(dá)抗干擾場(chǎng)景中,合理的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)可以有效提高強(qiáng)化學(xué)習(xí)算法的收斂速度與最佳性能表現(xiàn)。本文將從兩個(gè)角度評(píng)價(jià)FA雷達(dá)的抗干擾決策性能:短時(shí)行為評(píng)價(jià)和長時(shí)連續(xù)性評(píng)價(jià)。
本文使用雷達(dá)獲得目標(biāo)的信干噪比[18](Signalto-Interference-plus-Noise Ratio,SINR)與干擾機(jī)/雷達(dá)信號(hào)間特征關(guān)系兩個(gè)指標(biāo)表征短時(shí)行為評(píng)價(jià)體系。SINR是雷達(dá)系統(tǒng)中一個(gè)重要的性能指標(biāo),它表示目標(biāo)回波信號(hào)與干擾和噪聲的比值,即在接收端接收到的目標(biāo)信號(hào)功率與干擾加噪聲功率之比。本文設(shè)計(jì)的干擾場(chǎng)景包含一部雷達(dá)與一部機(jī)載干擾機(jī),如圖6所示。
圖6 FA雷達(dá)與干擾機(jī)Fig.6 FA radar and target jammer
假設(shè)雷達(dá)同時(shí)受到目標(biāo)攜帶的自衛(wèi)式干擾機(jī)與環(huán)境雜波的影響,且目標(biāo)此時(shí)的雷達(dá)散射截面積(Radar Cross Section,RCS)值為σ,從FA雷達(dá)到目標(biāo)干擾機(jī)的信道增益為hs,環(huán)境雜波的噪聲功率為Pn。假設(shè)fn為FA雷達(dá)第n個(gè)脈沖的載波頻率,fJ為干擾機(jī)的頻率,則此時(shí)FA雷達(dá)的SINR值可表示為
其中,Ps是FA雷達(dá)發(fā)射功率,Pn是FA雷達(dá)接收環(huán)境噪聲的功率,PJ是 自衛(wèi)式干擾機(jī)功率,如果fJ=fn,則I(fJ=fn)為1,否則為0。SINR越大,表示目標(biāo)信號(hào)越容易被接收機(jī)檢測(cè)到,雷達(dá)系統(tǒng)的性能也就越好。
在短時(shí)行為評(píng)價(jià)體系中,針對(duì)3種干擾類型分別設(shè)計(jì)特定的獎(jiǎng)勵(lì)函數(shù)。對(duì)于噪聲瞄準(zhǔn)干擾,雷達(dá)采用頻率捷變抗干擾波形,單步博弈的獎(jiǎng)勵(lì)函數(shù)如下所示:
式(12)中符號(hào)如圖7所示,當(dāng)雷達(dá)未被干擾時(shí),獎(jiǎng)勵(lì)值為30,雷達(dá)被部分噪聲信號(hào)干擾時(shí),用SINR表示獎(jiǎng)勵(lì)值,當(dāng)雷達(dá)全部被干擾時(shí),用–100表示獎(jiǎng)勵(lì)結(jié)果。
圖7 噪聲瞄準(zhǔn)干擾頻域圖Fig.7 Frequency domain of noise spot jamming
針對(duì)距離假目標(biāo)欺騙干擾,雷達(dá)采用頻率捷變抗干擾波形,如圖8所示,動(dòng)作空間與噪聲瞄準(zhǔn)干擾相同,但由于距離假目標(biāo)抗干擾波形的發(fā)射頻率需具備正交性,故根據(jù)文獻(xiàn)[26]設(shè)計(jì)單步獎(jiǎng)勵(lì)函數(shù)如下所示:
圖8 距離假目標(biāo)欺騙干擾時(shí)域圖Fig.8 Time domain of distance false-target deception jamming
其中,n為正整數(shù),fsignal為發(fā)射波形的頻率,Δf為最小頻差。
如果捷變前后頻率滿足最小頻差,則經(jīng)過信號(hào)處理后的真假目標(biāo)間存在功率峰值的區(qū)別。當(dāng)相鄰發(fā)射信號(hào)間的頻差增大時(shí),互相關(guān)函數(shù)值會(huì)減小,信號(hào)間也就更加正交。但頻差的增大導(dǎo)致雷達(dá)總體帶寬的增大,加大了工程實(shí)現(xiàn)難度,故設(shè)定雷達(dá)發(fā)射頻率的中間頻段獎(jiǎng)勵(lì)值最大。
針對(duì)密集假目標(biāo)轉(zhuǎn)發(fā)干擾,雷達(dá)通常采用掩護(hù)脈沖抗干擾波形,單步博弈的獎(jiǎng)勵(lì)函數(shù)如下所示:
式(14)中符號(hào)如圖9所示。其中tcheat代表雷達(dá)發(fā)射掩護(hù)脈沖的時(shí)間,tobserve代表干擾機(jī)觀察窗口的時(shí)間,一般認(rèn)為當(dāng)掩護(hù)脈沖持續(xù)時(shí)間完全覆蓋干擾機(jī)偵察時(shí)間時(shí),其所發(fā)射的真實(shí)脈沖可以不被干擾,這種情況下獲得獎(jiǎng)勵(lì)值最大。
圖9 密集假目標(biāo)轉(zhuǎn)發(fā)干擾時(shí)域圖Fig.9 Time domain of dense false-target repeater jamming
在長時(shí)連續(xù)性評(píng)價(jià)體系中,主要關(guān)注雷達(dá)持續(xù)探測(cè)目標(biāo)的能力,即目標(biāo)航跡完整性[27]。FA雷達(dá)通過調(diào)整抗干擾波形,可在單步博弈中獲得較大的SINR,提高單位時(shí)間內(nèi)的目標(biāo)探測(cè)性能,進(jìn)而提高全過程目標(biāo)的航跡完整性。
假設(shè)一個(gè)對(duì)抗局存在500個(gè)博弈回合,每個(gè)博弈回合稱為一個(gè)干擾元時(shí)間,則目標(biāo)航跡完整性可以用成功博弈回合數(shù)與總博弈回合數(shù)的比值Pd表示,Pd表達(dá)式為:
其中,Nsucceed表示3種干擾類型中博弈成功的回合數(shù),Ntotal表示全局博弈的總回合數(shù)。Pd值越高,說明雷達(dá)探測(cè)目標(biāo)的航跡完整性越高。在3種干擾類型中,類型1跳頻后頻率在干擾頻率外判定成功,類型2跳頻后頻率是最小頻差的正整數(shù)倍判定成功,類型3掩護(hù)窗時(shí)間長于偵察窗時(shí)間判定成功。
本文研究的雷達(dá)與干擾機(jī)博弈場(chǎng)景存在多回合與長時(shí)效的特點(diǎn),故設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)優(yōu)勢(shì)在于融合了單一短時(shí)抗干擾與全局長時(shí)抗干擾的價(jià)值評(píng)價(jià)方法,并結(jié)合了雷達(dá)SINR與目標(biāo)航跡完整性的實(shí)際物理意義。
本文提出了一種基于復(fù)數(shù)域DRL的多干擾場(chǎng)景雷達(dá)抗干擾網(wǎng)絡(luò)(Deep RL based radar Anti-jamming Network under multi-jamming scenes in Complex Domain,DRL-ANCD),如圖10所示。
圖10 基于復(fù)數(shù)域深度強(qiáng)化學(xué)習(xí)的多干擾場(chǎng)景雷達(dá)抗干擾網(wǎng)絡(luò)Fig.10 Deep RL based radar anti-jamming network under multi-jamming scenes in complex domain
假設(shè)初始環(huán)境下雷達(dá)發(fā)射的LFM信號(hào)脈沖重復(fù)周期為50 μs,使用100 MHz采樣率進(jìn)行采樣得到5000×1的雷達(dá)離散波形。將離散波形的復(fù)數(shù)域特征分為實(shí)部和虛部分別進(jìn)行提取,內(nèi)部網(wǎng)絡(luò)圖如圖11所示。
圖11 復(fù)數(shù)域特征提取網(wǎng)絡(luò)Fig.11 Complex domain feature extraction network
圖11中每次一維卷積將通道數(shù)翻倍,分別為32,64,128,其中一維卷積的卷積核大小為9。每次卷積后使用ReLU激活并進(jìn)行最大池化操作,卷積核為2,步幅為2。最后將618×128維的特征進(jìn)行可適應(yīng)性平均池化,得到1×128維度的向量。將兩個(gè)1×128向量特征融合,得到256×1向量,經(jīng)過兩個(gè)全連接層與一個(gè)全局平均池化層后輸出感知環(huán)境的特征向量。
根據(jù)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),使用此特征向量計(jì)算出上一時(shí)間節(jié)點(diǎn)雷達(dá)抗干擾決策的有效性。并將此特征向量與獎(jiǎng)勵(lì)函數(shù)值以 (st,rt,st+1)形式輸入至行為決策網(wǎng)絡(luò)。
DRL-ANCD行為決策部分集成了3個(gè)獨(dú)立演化的深度確定性策略梯度網(wǎng)絡(luò),對(duì)應(yīng)3種干擾類型信號(hào)特征。深度確定性策略梯度網(wǎng)絡(luò)采用策略網(wǎng)絡(luò)和價(jià)值Q網(wǎng)絡(luò)兩組網(wǎng)絡(luò)并延續(xù)DQN[28]中固定目標(biāo)網(wǎng)絡(luò)的思想,每組網(wǎng)絡(luò)再細(xì)分為在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)圖如圖12所示,偽代碼如算法1所示。
圖12 深度確定性策略梯度網(wǎng)絡(luò)Fig.12 Deep deterministic policy gradient network
在線策略網(wǎng)絡(luò)的輸入為對(duì)抗環(huán)境中態(tài)勢(shì)預(yù)測(cè)的環(huán)境特征向量與獎(jiǎng)勵(lì)函數(shù)模塊計(jì)算得到的獎(jiǎng)勵(lì)值,輸出為一個(gè)確定性的動(dòng)作a=μθ(s)。以往的策略梯度使用隨機(jī)的方法在當(dāng)前策略下進(jìn)行行為采樣,這嚴(yán)重降低了樣本的利用效率,也增加了網(wǎng)絡(luò)的計(jì)算負(fù)擔(dān)。本文采用確定性策略,即網(wǎng)絡(luò)策略可由函數(shù)μθ(s) 表示,其中θ為神經(jīng)網(wǎng)絡(luò)的參數(shù)。此外,在線策略網(wǎng)絡(luò)還有一個(gè)相同結(jié)構(gòu)但不同參數(shù)的目標(biāo)策略網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)在線策略網(wǎng)絡(luò)的軟更新。
算法1 深度確定性策略梯度算法Alg.1 Deep deterministic policy gradient algorithm
與策略網(wǎng)絡(luò)相似,Q網(wǎng)絡(luò)分為在線Q網(wǎng)絡(luò)和目標(biāo)Q網(wǎng)絡(luò)。在線Q網(wǎng)絡(luò)的輸入是當(dāng)前狀態(tài)的觀測(cè)值和在線策略網(wǎng)絡(luò)的輸出動(dòng)作,目標(biāo)Q網(wǎng)絡(luò)的輸入則是當(dāng)前目標(biāo)策略網(wǎng)絡(luò)的輸出動(dòng)作。這兩個(gè)網(wǎng)絡(luò)的輸出為當(dāng)前狀態(tài)的價(jià)值Q,在線Q網(wǎng)絡(luò)目的是擬合價(jià)值函數(shù)Qω(s,a)。
Q網(wǎng)絡(luò)使用TD-error的梯度下降規(guī)則進(jìn)行更新,并結(jié)合真實(shí)收益r與下一時(shí)刻的價(jià)值Qω得到Qtarget,使用Qtarget與當(dāng)前價(jià)值Q的均方差作為梯度下降的損失值。策略網(wǎng)絡(luò)使用梯度上升規(guī)則進(jìn)行更新,梯度上升規(guī)則保證了輸出的最優(yōu)動(dòng)作a的價(jià)值Q最大。
DRL-ANCD同時(shí)使用了經(jīng)驗(yàn)回放方法,在訓(xùn)練階段中將一段時(shí)間的序列 (s,a,r,s′)存儲(chǔ)到經(jīng)驗(yàn)池,每個(gè)訓(xùn)練回合需要從經(jīng)驗(yàn)池隨機(jī)采樣一個(gè)批次的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,提高了樣本利用率和訓(xùn)練穩(wěn)定性。同時(shí)其行為決策部分的3個(gè)獨(dú)立演化網(wǎng)絡(luò)采用分布訓(xùn)練,統(tǒng)一決策的運(yùn)行模式。
本節(jié)通過3個(gè)仿真實(shí)驗(yàn)驗(yàn)證DRL-ANCD網(wǎng)絡(luò)的抗干擾效果。實(shí)驗(yàn)1單獨(dú)測(cè)試特征提取網(wǎng)絡(luò),驗(yàn)證特征提取網(wǎng)絡(luò)識(shí)別雷達(dá)干擾類型的能力;實(shí)驗(yàn)2單獨(dú)測(cè)試決策網(wǎng)絡(luò),驗(yàn)證其在單一干擾類型場(chǎng)景下的決策性能;實(shí)驗(yàn)3在構(gòu)建的3個(gè)策略序貫多干擾場(chǎng)景下驗(yàn)證DRL-ANCD的抗干擾決策性能。
仿真所使用的計(jì)算機(jī)硬件參數(shù)為:32 GB RAM,Intel i7-12700K CPU,NVIDIA RTX 3090 GPU,Python版本為3.9,Pytorch版本為1.12.0。
假設(shè)初始環(huán)境下雷達(dá)發(fā)射信號(hào)類型與參數(shù)如表1所示,在一個(gè)CPI中,雷達(dá)波形原始信號(hào)被離散采樣為5000個(gè)點(diǎn),將波形信號(hào)分為實(shí)部與虛部,分別傳遞給態(tài)勢(shì)預(yù)測(cè)網(wǎng)絡(luò)的兩個(gè)通道進(jìn)行特征提取,將兩個(gè)通道提取的1×128維特征合并后進(jìn)行態(tài)勢(shì)預(yù)測(cè)。
表1 雷達(dá)發(fā)射信號(hào)仿真參數(shù)表Tab.1 Radar transmit signal simulation parameters
本節(jié)設(shè)計(jì)了一組針對(duì)3種干擾類型的態(tài)勢(shì)預(yù)測(cè)實(shí)驗(yàn),每種干擾類型生成了1000個(gè)無序樣本,保證了其差異化,并盡量覆蓋了雷達(dá)工作頻段的全部情況,訓(xùn)練樣本分布如表2所示。學(xué)習(xí)率設(shè)置為0.005,批樣本量為128,損失函數(shù)使用MSE損失,優(yōu)化器使用Adam。
表2 3種干擾類型下的態(tài)勢(shì)預(yù)測(cè)性能Tab.2 Posture prediction performance under 3 interference types
訓(xùn)練過程的損失值和準(zhǔn)確度如圖13、圖14所示。為了準(zhǔn)確分析混合類型下的識(shí)別精度的影響因素,分別針對(duì)3種干擾類型進(jìn)行測(cè)試,隨機(jī)抽取同一類型下300個(gè)不同干擾樣本進(jìn)行對(duì)比,識(shí)別時(shí)間和識(shí)別精度如表2所示。針對(duì)3種干擾類型的平均識(shí)別時(shí)間為124 ms,平均預(yù)測(cè)準(zhǔn)確度達(dá)到96.8%,結(jié)果表明,態(tài)勢(shì)預(yù)測(cè)網(wǎng)絡(luò)在3種干擾類型的識(shí)別速度和精度上取得了很好的效果,可以為決策網(wǎng)絡(luò)提供環(huán)境特征的支持。
圖13 態(tài)勢(shì)預(yù)測(cè)過程損失值Fig.13 Loss value of situation awareness process
圖14 態(tài)勢(shì)預(yù)測(cè)過程準(zhǔn)確率Fig.14 Accuracy value of situation awareness process
本節(jié)實(shí)驗(yàn)將在單一干擾場(chǎng)景下進(jìn)行3種DRL算法的性能驗(yàn)證。根據(jù)5.1節(jié)所列的每個(gè)干擾類型的動(dòng)作狀態(tài)空間和獎(jiǎng)勵(lì)值設(shè)定規(guī)則,使用DRL-ANCD網(wǎng)絡(luò)、PPO網(wǎng)絡(luò)[29]和雙延遲深度確定性策略梯度網(wǎng)絡(luò)(Twin Delayed Deep Deterministic policy gradient,TD3)[30]3個(gè)算法進(jìn)行實(shí)驗(yàn)。3個(gè)算法的參數(shù)設(shè)置如表3所示。
表3 算法參數(shù)設(shè)置Tab.3 Algorithm parameters setting
3種干擾類型下不同DRL的決策性能如圖15與表4所示。圖15(a)表明3種DRL算法對(duì)于噪聲瞄準(zhǔn)干擾均可以較快地收斂,并且最終達(dá)到的最優(yōu)策略決策性能中,DRL-ANCD獲得回合獎(jiǎng)勵(lì)最大,平均決策時(shí)間為244 ms;圖15(b)表明DRL-ANCD與TD3兩個(gè)算法對(duì)于距離假目標(biāo)欺騙干擾穩(wěn)定性較高,但TD3算法的決策時(shí)間大于DRL-ANCD與PPO算法;圖15(c)表明在密集假目標(biāo)轉(zhuǎn)發(fā)干擾場(chǎng)景下,DRL-ANCD獲得的回合獎(jiǎng)勵(lì)值最大,TD3算法訓(xùn)練達(dá)到穩(wěn)定的時(shí)間最長。符合預(yù)期結(jié)果。
表4 單一干擾類型下3種強(qiáng)化學(xué)習(xí)算法抗干擾性能Tab.4 Performance of 3 RL algorithms for a single jamming type
圖15 3種干擾類型下不同強(qiáng)化學(xué)習(xí)算法的決策性能Fig.15 Decision performance of different RL algorithms under three types of interference
以部分博弈回合過程為例對(duì)訓(xùn)練所得DRL-ANCD模型的決策行為進(jìn)行分析,模型對(duì)于3種干擾類型的抗干擾行為決策結(jié)果如圖16所示。圖16(a)表明雷達(dá)頻率捷變后波形頻率在干擾機(jī)干擾頻帶外;圖16(b)表明雷達(dá)對(duì)于距離假目標(biāo)欺騙干擾采取的跳頻頻率可以滿足波形設(shè)計(jì)的頻率正交規(guī)則,可以提高后續(xù)目標(biāo)分離的顯著性;圖16(c)表明在密集假目標(biāo)干擾時(shí),雷達(dá)發(fā)射掩護(hù)脈沖的時(shí)間窗大于干擾機(jī)的偵察窗,經(jīng)信號(hào)處理后可以有效分辨真實(shí)目標(biāo)信息。
圖16 DRL-ANCD網(wǎng)絡(luò)對(duì)于3種干擾類型的抗干擾行為決策Fig.16 Anti-jamming decisions of DRL-ANCD networks for three interference
本節(jié)實(shí)驗(yàn)將在時(shí)序多干擾場(chǎng)景下進(jìn)行3種算法的性能驗(yàn)證。由于3種干擾類型對(duì)應(yīng)的狀態(tài)空間、動(dòng)作空間均不同,故將DRL-ANCD的態(tài)勢(shì)預(yù)測(cè)網(wǎng)絡(luò)與PPO,TD3算法分別連接,稱連接后的網(wǎng)絡(luò)為PPO-SL與TD3-SL。此時(shí)DRL-ANCD,PPO-SL與TD3-SL網(wǎng)絡(luò)均具備處理復(fù)雜多干擾場(chǎng)景的能力,在此基礎(chǔ)上比較3種算法的決策性能。
實(shí)驗(yàn)網(wǎng)絡(luò)參數(shù)設(shè)置如表3所示,態(tài)勢(shì)預(yù)測(cè)網(wǎng)絡(luò)的學(xué)習(xí)率設(shè)置為0.005。表5為DRL-ANCD算法中策略網(wǎng)絡(luò)與Q網(wǎng)絡(luò)的參數(shù)設(shè)置,DRL-ANCD網(wǎng)絡(luò)決策計(jì)算一次前向傳播占用3.69 Mb的訪存空間與0.28GFLOPs的計(jì)算量。假設(shè)雷達(dá)與干擾機(jī)在每個(gè)對(duì)抗局中交互500個(gè)回合,每組實(shí)驗(yàn)訓(xùn)練200個(gè)對(duì)抗局,設(shè)置5個(gè)隨機(jī)種子。3個(gè)干擾策略下的決策性能如圖17所示,實(shí)驗(yàn)結(jié)果如表6所示。
表5 在線網(wǎng)絡(luò)參數(shù)Tab.5 Online net parameters
表6 多干擾策略下3種強(qiáng)化學(xué)習(xí)算法抗干擾性能Tab.6 Performance of 3 RL algorithms for a multi-jamming strategies
圖17 3種干擾策略下不同強(qiáng)化學(xué)習(xí)算法的決策性能Fig.17 Decision performance of different RL algorithms under three interference strategies
圖17(a)表明在干擾策略Ⅰ場(chǎng)景下,DRL-ANCD算法獎(jiǎng)勵(lì)值最高,獲得的對(duì)抗獎(jiǎng)勵(lì)為3,遠(yuǎn)大于PPOSL與TD3-SL,經(jīng)過75輪次訓(xùn)練模型決策性能趨于穩(wěn)定。
圖17(b)表明,針對(duì)回文順序的干擾策略場(chǎng)景,3種算法的性能表現(xiàn)與策略Ⅰ相似。說明干擾策略Ⅰ與Ⅱ中干擾順序的改變對(duì)雷達(dá)抗干擾決策的性能影響較小。DRL-ANCD算法的平均回合獎(jiǎng)勵(lì)值為14,平均決策時(shí)間為392 ms。
圖17(c)表明在隨機(jī)干擾情況下,經(jīng)驗(yàn)池內(nèi)樣本豐富度的增加將極大縮短DRL-ANCD算法探索空間需要的時(shí)間,故在相同的訓(xùn)練輪次內(nèi),DRLANCD算法可以較快地學(xué)習(xí)更多干擾樣本特征,使得算法的收斂速度更快,并拿到更高的博弈場(chǎng)景獎(jiǎng)勵(lì)。DRL-ANCD網(wǎng)絡(luò)平均對(duì)抗獎(jiǎng)勵(lì)為107,決策時(shí)間為422 ms。其決策時(shí)間相對(duì)于干擾策略Ⅰ與Ⅱ分別增加了4.97%與7.65%。
圖18、圖19、圖20表示DRL-ANCD算法在隨機(jī)選取連續(xù)30個(gè)時(shí)間點(diǎn)內(nèi)的抗干擾行為決策,其中縱軸的整數(shù)部分代表干擾機(jī)的干擾類型,小數(shù)部分表示雷達(dá)與干擾機(jī)的決策參數(shù),藍(lán)色折線為干擾機(jī)策略,藍(lán)點(diǎn)為干擾機(jī)行為,黃點(diǎn)為雷達(dá)行為??v軸的整數(shù)部分1,2,3表示3種干擾類型,小數(shù)部分表示行為編碼,不同干擾類型的行為編碼區(qū)間如表2所示。例如:1.500表示此時(shí)干擾機(jī)采用干擾類型1(噪聲瞄準(zhǔn)干擾)中的編碼參數(shù)為500的干擾行為(噪聲瞄準(zhǔn)干擾的下頻為3.5 GHz);3.144表示采用干擾類型3(密集假目標(biāo)轉(zhuǎn)發(fā)干擾)中的編碼參數(shù)為144的干擾行為(密集假目標(biāo)轉(zhuǎn)發(fā)干擾的觀察窗為144 μs)。
圖18 干擾策略Ⅰ下DRL-ANCD網(wǎng)絡(luò)的抗干擾行為Fig.18 Anti-jamming behaviors of DRL-ANCD networks under interference strategy I
圖19 干擾策略Ⅱ下DRL-ANCD網(wǎng)絡(luò)的抗干擾行為Fig.19 Anti-jamming behaviors of DRL-ANCD networks under interference strategy Ⅱ
圖20 干擾策略Ⅲ下DRL-ANCD網(wǎng)絡(luò)的抗干擾行為Fig.20 Anti-jamming behaviors of DRL-ANCD networks under interference strategy Ⅲ
如圖18所示,干擾機(jī)工作在順序干擾類型的實(shí)驗(yàn)設(shè)定下。每一時(shí)間點(diǎn)選擇確定干擾類型下的隨機(jī)波形參數(shù)進(jìn)行干擾。為了便于雷達(dá)抗干擾行為與干擾機(jī)干擾行為的比較,將雷達(dá)的抗干擾行為提前一個(gè)時(shí)間點(diǎn)進(jìn)行可視化展示,即在時(shí)間t展示的是t時(shí)刻干擾機(jī)的行為與t+1時(shí)刻雷達(dá)的行為。
圖18表示在干擾策略Ⅰ下雷達(dá)與干擾機(jī)的對(duì)抗博弈行為選擇,在30個(gè)時(shí)間片段中雷達(dá)均可以主動(dòng)對(duì)抗干擾機(jī)的干擾行為。圖19為干擾策略Ⅱ下雷達(dá)與干擾機(jī)的行為選擇;圖20為干擾策略Ⅲ下雷達(dá)的抗干擾效果,可以看出,在第4,16,24,25個(gè)時(shí)刻,雷達(dá)抗干擾行為選擇與干擾行為在時(shí)、頻域內(nèi)相近,抗干擾決策準(zhǔn)確度降低,體現(xiàn)了算法對(duì)于隨機(jī)復(fù)雜干擾場(chǎng)景的決策過程的不穩(wěn)定性,符合隨機(jī)策略下的預(yù)期效果。
基于單一干擾場(chǎng)景下的雷達(dá)DRL抗干擾決策方法往往脫離了干擾復(fù)雜多樣的實(shí)際對(duì)抗博弈環(huán)境,限制了其在實(shí)際電子戰(zhàn)中的應(yīng)用。
為了解決該問題,本文提出了一種基于復(fù)數(shù)域深度強(qiáng)化學(xué)習(xí)的多干擾場(chǎng)景雷達(dá)抗干擾方法(DRLANCD),優(yōu)化了復(fù)雜干擾場(chǎng)景下FA雷達(dá)的抗干擾波形選擇策略。
本文研究了自衛(wèi)干擾機(jī)的3種典型干擾類型并構(gòu)建了基于DRL架構(gòu)的復(fù)雜時(shí)序干擾環(huán)境。同時(shí),為了有效提取雷達(dá)接收波形特征信息,構(gòu)建了一種基于復(fù)數(shù)域的雙通道態(tài)勢(shì)預(yù)測(cè)網(wǎng)絡(luò)?;谏鲜龉ぷ髟O(shè)計(jì)實(shí)驗(yàn)驗(yàn)證了DRL-ANCD網(wǎng)絡(luò)對(duì)于多干擾環(huán)境的有效性,證明本文所提算法具有實(shí)際意義與應(yīng)用價(jià)值。
實(shí)驗(yàn)結(jié)果表明,在隨機(jī)干擾策略下DRL-ANCD網(wǎng)絡(luò)的決策性能最好,但決策時(shí)間略高于PPO-SL算法。對(duì)于3種干擾策略,本文提出的DRL-ANCD方法均可以達(dá)到較好的決策性能,驗(yàn)證了算法框架的有效性。需要注意的是,固定干擾類型順序的干擾策略對(duì)3種DRL算法的影響較小。
本實(shí)驗(yàn)仿真的場(chǎng)景是基于環(huán)境完全可觀的條件下設(shè)置的,然而在實(shí)際應(yīng)用中,由于設(shè)備技術(shù)的限制與環(huán)境噪聲的存在,環(huán)境態(tài)勢(shì)多為非完全觀測(cè)狀態(tài);此外,構(gòu)建具有實(shí)際物理含義的獎(jiǎng)勵(lì)函數(shù)對(duì)算法的評(píng)估和應(yīng)用具有較大意義,未來將基于這兩項(xiàng)內(nèi)容深入開展研究。
利益沖突所有作者均聲明不存在利益沖突
Conflict of Interests The authors declare that there is no conflict of interests