国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于深度強(qiáng)化學(xué)習(xí)的頻率捷變雷達(dá)智能頻點(diǎn)決策方法

2024-01-21 13:16張嘉翔張凱翔梁振楠陳新亮劉泉華
雷達(dá)學(xué)報(bào) 2024年1期
關(guān)鍵詞:干擾機(jī)個(gè)子頻點(diǎn)

張嘉翔 張凱翔 梁振楠* 陳新亮③ 劉泉華②④

①(北京理工大學(xué)信息與電子學(xué)院雷達(dá)技術(shù)研究所 北京 100081)

②(北京理工大學(xué)重慶創(chuàng)新中心 重慶 401120)

③(北京理工大學(xué)長三角研究院(嘉興) 嘉興 314000)

④(衛(wèi)星導(dǎo)航電子信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(北京理工大學(xué)) 北京 100081)

1 引言

在現(xiàn)代戰(zhàn)爭中,敵方為了獲取電磁頻譜優(yōu)勢與戰(zhàn)場主動權(quán),通常會發(fā)射各種有源干擾破壞雷達(dá)作戰(zhàn)性能,從而掩護(hù)目標(biāo)完成預(yù)定的作戰(zhàn)任務(wù)[1]。雷達(dá)為了應(yīng)對各種干擾,相應(yīng)的抗干擾技術(shù)在對抗中不斷升級[2]。一般來說,抗干擾技術(shù)按照雷達(dá)處理階段的不同可以分為主動抗干擾和被動抗干擾[3]。在雷達(dá)發(fā)射信號階段,主動抗干擾技術(shù)可以通過雷達(dá)波形設(shè)計(jì)降低敵方干擾機(jī)對雷達(dá)信號的截獲概率或識別概率,從而降低干擾機(jī)的干擾效能[4-6]。如果雷達(dá)已經(jīng)接收到了干擾信號,被動抗干擾技術(shù)可以通過空、時(shí)、頻等多個(gè)處理域完成目標(biāo)與干擾的分離,達(dá)到對干擾抑制的目的[7-9]。

隨著雷達(dá)抗干擾研究的不斷深入,被動抗干擾手段日益豐富。然而,掛載在掩護(hù)目標(biāo)上的自衛(wèi)式干擾機(jī)通過發(fā)射大功率瞄準(zhǔn)干擾,使干擾與目標(biāo)回波在多處理域重疊,難以分離。頻率捷變雷達(dá)通過使用自主調(diào)節(jié)發(fā)射信號載頻的主動抗干擾手段,使得干擾機(jī)難以截獲和干擾,為對抗自衛(wèi)式壓制干擾提供了可能[10]。其抗干擾性能主要取決于跳頻策略,傳統(tǒng)隨機(jī)跳頻策略已經(jīng)被證明不是最佳選擇[11]。如何精準(zhǔn)預(yù)測干擾機(jī)下一時(shí)刻將要發(fā)射的干擾頻點(diǎn),從而指導(dǎo)雷達(dá)信號的頻點(diǎn)選擇,是頻率捷變雷達(dá)在與干擾機(jī)博弈中取勝的主要難點(diǎn)。

相比針對靜態(tài)優(yōu)化問題設(shè)計(jì)的啟發(fā)式搜索算法,強(qiáng)化學(xué)習(xí)可以讓智能體與環(huán)境不斷交互,獲得反饋,從而指導(dǎo)智能體在動態(tài)環(huán)境下進(jìn)行決策[12]?;谏疃葘W(xué)習(xí)模型強(qiáng)大的數(shù)據(jù)表征能力而衍生出的深度強(qiáng)化學(xué)習(xí),能夠處理高維數(shù)據(jù)并完成非線性映射,彌補(bǔ)了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的不足[13],在認(rèn)知電子戰(zhàn)方面已經(jīng)得到了一定的研究。如果將干擾信息看作環(huán)境狀態(tài),抗干擾措施看作雷達(dá)動作,抗干擾效能看作即時(shí)回報(bào),那么認(rèn)知抗干擾決策問題可以通過強(qiáng)化學(xué)習(xí)技術(shù)解決。文獻(xiàn)[14]針對干擾類型和參數(shù)固定的復(fù)合干擾場景,分別使用Q學(xué)習(xí)和SARSA (State-Action-Reward-State-Action)探索了抗干擾措施組合選取問題。文獻(xiàn)[15]使用改進(jìn)的DDPG (Deep Deterministic Policy Gradient)算法對12種抗干擾措施進(jìn)行選擇,以實(shí)施抗干擾措施前后干擾威脅度變化作為反饋。文獻(xiàn)[16]使用DDPGMADDPG (Deep Deterministic Policy Gradient and the Multi-Agent Deep Deterministic Policy Gradient)對包含復(fù)合干擾在內(nèi)的12種干擾類型,以抗干擾改善因子作為反饋,進(jìn)行多處理域抗干擾措施自適應(yīng)選取。

在頻點(diǎn)決策方面,強(qiáng)化學(xué)習(xí)主要圍繞瞄頻或掃頻干擾的頻率捷變波形設(shè)計(jì)展開研究[17]。文獻(xiàn)[18]首次對雷達(dá)脈沖級跳頻策略展開研究,分別對比了隨機(jī)頻點(diǎn)選擇、Q學(xué)習(xí)、深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)等3種策略,證明了DQN在決策方面具備更好的性能。并在文獻(xiàn)[19]中繼續(xù)深化研究內(nèi)容,將檢測概率作為獎勵(lì)值,而不是之前論文中的信干噪比,同時(shí)優(yōu)化了DQN模型。文獻(xiàn)[20]在文獻(xiàn)[18]和文獻(xiàn)[19]工作的基礎(chǔ)上,考慮了一種具備偵收功能的干擾機(jī),以及子脈沖頻率捷變雷達(dá),并基于近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法完成智能決策。文獻(xiàn)[21]考慮了網(wǎng)絡(luò)化無人機(jī)雷達(dá)工作系統(tǒng),使用雷達(dá)信息表示理論作為獎勵(lì)函數(shù),基于雙貪婪的改進(jìn)Q學(xué)習(xí)算法優(yōu)化系統(tǒng)抗干擾性能。文獻(xiàn)[22]假定干擾機(jī)也具備馬爾科夫性質(zhì),在預(yù)測得到干擾策略的基礎(chǔ)上選擇雷達(dá)頻點(diǎn)與之對抗。文獻(xiàn)[23]考慮了跳頻速率會影響相干積分性能和多普勒分辨率,使用Q學(xué)習(xí)自適應(yīng)調(diào)整雷達(dá)發(fā)射波形的脈寬和頻點(diǎn)以對抗掃頻干擾。

總體來說,上述研究均基于雷達(dá)不同的性能指標(biāo)設(shè)計(jì)獎勵(lì)函數(shù),以此優(yōu)化頻點(diǎn)等雷達(dá)參數(shù)。雖然在對抗成功率方面超過隨機(jī)頻點(diǎn)決策方法,然而缺少對抗干擾策略收斂速度的討論。應(yīng)當(dāng)指出,在現(xiàn)代電子戰(zhàn)中,干擾機(jī)可能具備多種策略,并根據(jù)某種規(guī)則在不同策略間切換。因此雷達(dá)在進(jìn)行抗干擾策略學(xué)習(xí)時(shí),應(yīng)當(dāng)盡快收斂到最優(yōu)策略,從而保持對抗先機(jī)。如果雷達(dá)還未收斂到最優(yōu)策略時(shí),干擾機(jī)改變策略,那么雷達(dá)將陷入被動地位。因此,網(wǎng)絡(luò)收斂時(shí)間或是所需樣本量是評價(jià)一個(gè)智能化算法能夠應(yīng)用于實(shí)際作戰(zhàn)場景的重要衡量指標(biāo)。

受上述研究啟發(fā),考慮到現(xiàn)代干擾機(jī)具備偵收-瞄準(zhǔn)-干擾的基本策略,本文針對頻率捷變雷達(dá),設(shè)計(jì)了一種基于強(qiáng)化學(xué)習(xí)的雷達(dá)子脈沖跳頻抗干擾策略。將當(dāng)前時(shí)刻感知到的干擾頻點(diǎn)以及上一時(shí)刻的雷達(dá)頻點(diǎn)作為狀態(tài),將當(dāng)前時(shí)刻的雷達(dá)頻點(diǎn)選擇策略作為動作,以目標(biāo)檢測結(jié)果和信干噪比作為即時(shí)獎勵(lì)函數(shù)設(shè)計(jì)強(qiáng)化學(xué)習(xí)關(guān)鍵要素,基于DQN完成子脈沖頻點(diǎn)選取策略的學(xué)習(xí)。仿真針對兩種不同偵收策略的干擾機(jī),證明了所提方法的有效性以及較高的收斂效率。

與文獻(xiàn)[20]不同的是,本文的主要貢獻(xiàn)在于如何通過對強(qiáng)化學(xué)習(xí)關(guān)鍵要素的設(shè)計(jì),從而達(dá)到快速收斂到最優(yōu)解的目的,而不是在于網(wǎng)絡(luò)設(shè)計(jì)與修改。具體包括4點(diǎn):(1)雖然干擾機(jī)具備偵干周期,但是我們通過狀態(tài)空間的合理設(shè)計(jì),僅使用單個(gè)時(shí)間步即可學(xué)習(xí)到干擾周期性策略,同時(shí)不需要使用長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)等時(shí)間記憶網(wǎng)絡(luò)即可完成最優(yōu)策略學(xué)習(xí),顯著降低了收斂時(shí)間。(2)在動作設(shè)計(jì)方面,我們設(shè)計(jì)了一種子脈沖頻點(diǎn)可重復(fù)選取的特殊波形,增大了動作空間選取范圍。(3)在動作選取方面,我們通過ε-貪婪原則,實(shí)現(xiàn)了搜索和利用的有效平衡。在訓(xùn)練初期,以隨機(jī)搜索為主,減小了收斂到局部最優(yōu)解的概率。隨著訓(xùn)練過程的進(jìn)行,隨機(jī)搜索概率逐漸降低,選擇網(wǎng)絡(luò)輸出動作的概率逐漸增加,便于收斂。(4)在獎勵(lì)設(shè)計(jì)方面,圍繞目標(biāo)檢測性能,在單次目標(biāo)檢測結(jié)果的基礎(chǔ)上,引入了更具差異性的信干噪比指標(biāo),緩解了因?yàn)椴蓸硬怀浞挚赡苁諗康骄植孔顑?yōu)解的情況。

2 背景

2.1 子脈沖頻率捷變波形設(shè)計(jì)

由于現(xiàn)代干擾機(jī)可以對接收到的雷達(dá)信號進(jìn)行快速測頻與頻率引導(dǎo),對傳統(tǒng)雷達(dá)具備較大威脅。而頻率捷變雷達(dá)可以實(shí)現(xiàn)子脈沖級的頻率調(diào)制,為與其對抗提供了可能。作為常用的雷達(dá)傳輸信號波形,基于線性調(diào)頻(Linear Frequency Modulation,LFM)信號的子脈沖頻率捷變波形如圖1(a)所示,其時(shí)域表達(dá)式如下:

圖1 頻率捷變波形示意圖Fig.1 Schematic diagram of the frequency agility waveform

其中,rect(·)表示矩形窗函數(shù),N表示子脈沖個(gè)數(shù),Tsub表示子脈沖脈寬;τn表示第n個(gè)子脈沖的延時(shí),fn表示子脈沖頻點(diǎn),Kn表示第n個(gè)子脈沖的調(diào)頻斜率。頻率捷變雷達(dá)各可選頻點(diǎn)應(yīng)當(dāng)去相關(guān)從而達(dá)到頻率抗干擾的目的,即保證si(ω)sj(ω)=0,其中,s i(ω)表 示子脈沖i的頻譜,sj(ω)表示子脈沖j的頻譜。

式(1)所定義的傳統(tǒng)頻率捷變雷達(dá)在進(jìn)行子脈沖頻點(diǎn)選取時(shí),通常會選擇不同的雷達(dá)頻點(diǎn)。為擴(kuò)充頻點(diǎn)選取自由度,增大波形復(fù)雜度,本文設(shè)計(jì)了一種子脈沖頻點(diǎn)可重復(fù)選取的雷達(dá)發(fā)射波形,如圖1(b)所示。當(dāng)相鄰子脈沖選取重復(fù)頻點(diǎn)時(shí),則將其合成一個(gè)寬脈沖,其脈寬為Tcom=NrepTsub,其中Nrep表示選取相同頻點(diǎn)的相鄰子脈沖數(shù)量。同時(shí)保證合成后的寬脈沖帶寬不變,即Bcom=Bsub。合成后的脈沖數(shù)用Ncom表示。

2.2 強(qiáng)化學(xué)習(xí)與Q學(xué)習(xí)算法原理

強(qiáng)化學(xué)習(xí)可以由馬爾科夫決策過程(Markov Decision Process,MDP)描述,滿足馬爾科夫性質(zhì)。強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo)為最大化累計(jì)回報(bào),定義為

其中,rt表示智能體在狀態(tài)st下執(zhí)行動作at并轉(zhuǎn)移到st+1后得到的回報(bào);γ為折扣因子,是st+1及其之后的獎勵(lì)權(quán)重,取值范圍為0~1,表示對未來獎勵(lì)的重視程度。

由于MDP是一種隨機(jī)過程,其隨機(jī)獨(dú)立性導(dǎo)致累計(jì)回報(bào)Gt是一個(gè)隨機(jī)變量,無法定量描述,如圖2所示。因此可對累計(jì)回報(bào)取期望,獲得狀態(tài)值函數(shù)Vπ(s) 和動作狀態(tài)值函數(shù)Qπ(s,a),將優(yōu)化問題變成找到一種最優(yōu)策略π,使任意一個(gè)狀態(tài)的Vπ(s)或Qπ(s,a)為最大。而Q學(xué)習(xí)的優(yōu)化目標(biāo)是針對Qπ(s,a),其貝爾曼方程及最優(yōu)動作狀態(tài)值函數(shù)Q*(s,a)定義如下:

圖2 MDP的隨機(jī)獨(dú)立性與強(qiáng)化學(xué)習(xí)的優(yōu)化目標(biāo)Fig.2 The random independence of MDP and the optimization objectives of reinforcement learning

由于在實(shí)際場景中,我們可能不知道環(huán)境先驗(yàn)信息p(s′|s,a),因此無法獲得值函數(shù)的解析表示。而Q學(xué)習(xí)可以通過多次取平均的方式,近似估計(jì)得到Q。具體來說,從任意狀態(tài)開始與環(huán)境1個(gè)時(shí)間步長,利用t時(shí)刻的即時(shí)回報(bào)rt和下一時(shí)刻最大的狀態(tài)動作值函數(shù)對當(dāng)前時(shí)刻動作狀態(tài)值函數(shù)Q(st,at)進(jìn)行估計(jì),最后重復(fù)上述動作多次取平均。值函數(shù)的更新公式為

其中,α為學(xué)習(xí)率,表示更新的步長。

Q學(xué)習(xí)通過不斷與環(huán)境進(jìn)行交互來獲取并更新Q值,并將Q值存入到由狀態(tài)和動作組成的Q表中。待智能體學(xué)習(xí)完成后,根據(jù)當(dāng)前狀態(tài)的Q值來選取能夠獲取最大收益的動作。

3 基于深度Q網(wǎng)絡(luò)的自適應(yīng)頻點(diǎn)決策

3.1 基于深度Q網(wǎng)絡(luò)的子脈沖頻點(diǎn)決策模型

雷達(dá)子脈沖級頻點(diǎn)決策往往對應(yīng)于指數(shù)級增長的動作空間,而傳統(tǒng)Q學(xué)習(xí)基于Q表存儲和查找Q值,維護(hù)難度巨大。而DQN利用神經(jīng)網(wǎng)絡(luò)擬合值函數(shù),替換了傳統(tǒng)Q表的存儲方式,有效解決了高維狀態(tài)和動作空間的尋優(yōu)問題。

圖3 DQN網(wǎng)絡(luò)參數(shù)的更新過程Fig.3 The network parameter update process of DQN

輸入當(dāng)前狀態(tài)st,通過估計(jì)值網(wǎng)絡(luò)預(yù)測得到當(dāng)前狀態(tài)st對應(yīng)的不同動作at的Q值,然后通過ε-貪婪原則選擇at并轉(zhuǎn)至下一狀態(tài)st+1,同時(shí)獲得rt。通過目標(biāo)值網(wǎng)絡(luò)計(jì)算下一狀態(tài)st+1的最大值,將其與估計(jì)值作差更新估計(jì)值網(wǎng)絡(luò)參數(shù)θ,表示為

其中,ε-貪婪原則以概率 1-ε選擇估計(jì)值網(wǎng)絡(luò)輸出的具有最大Q值的頻點(diǎn),以概率ε隨機(jī)選擇頻點(diǎn),并隨著訓(xùn)練步數(shù)的增加減小ε,從而達(dá)到搜索和利用的充分結(jié)合。

上述流程經(jīng)過一定次數(shù)后,基于軟更新來更新目標(biāo)值網(wǎng)絡(luò)參數(shù)θ-:

其中,0<τ ?1表示軟間隔更新系數(shù)。由于在一段時(shí)間內(nèi)目標(biāo)值具有一定穩(wěn)定性,這能在一定程度上降低估計(jì)值 Q網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)之間的耦合性,提升了網(wǎng)絡(luò)的收斂性和穩(wěn)定性。

訓(xùn)練完成后,測試時(shí)直接輸入當(dāng)前時(shí)刻狀態(tài)至訓(xùn)練好的模型中,即可獲取最優(yōu)動作。

3.2 強(qiáng)化學(xué)習(xí)關(guān)鍵要素設(shè)計(jì)

上述提及的狀態(tài)、動作和獎勵(lì)是強(qiáng)化學(xué)習(xí)的關(guān)鍵要素,其中狀態(tài)和獎勵(lì)是算法的輸入,動作是算法的輸出。設(shè)置如下:

(1) 狀態(tài)空間:假設(shè)雷達(dá)能夠通過干擾感知等手段獲取干擾頻點(diǎn)信息,則狀態(tài)空間由雷達(dá)子脈沖頻點(diǎn)和干擾頻點(diǎn)組成。

其中,fR,t-1=[fsub1,t-1,fsub2,t-1,...,fsubN,t-1] 和fJ,t分別表示t-1時(shí)刻雷達(dá)N個(gè)子脈沖的頻點(diǎn)選擇以及t時(shí)刻干擾瞄準(zhǔn)頻點(diǎn)。fJ,t取值范圍為 1~(N+1),1~N表示干擾機(jī)發(fā)射窄帶瞄頻干擾的瞄準(zhǔn)頻點(diǎn),(N+1)表示干擾機(jī)發(fā)射寬帶阻塞干擾。fsubn,t(1≤n≤N) 的取值范圍為 1~N,表示第n個(gè)子脈沖的頻點(diǎn)。

(2) 動作空間:t時(shí)刻雷達(dá)N個(gè)子脈沖頻點(diǎn)選擇:

(3) 獎勵(lì)函數(shù):獎勵(lì)函數(shù)應(yīng)當(dāng)圍繞雷達(dá)作戰(zhàn)任務(wù)設(shè)置,本文以預(yù)警雷達(dá)為例,采用目標(biāo)檢測結(jié)果Fd和信干噪比(Signal-to-Jamming-plus-Noise Ratio,SJNR)作為評價(jià)指標(biāo)。前者直接反映了目標(biāo)檢測能力,而后者的存在加快了最優(yōu)解的收斂速度,降低收斂到局部最優(yōu)解的可能,從而最大化目標(biāo)檢測性能。定義如下:

其中,對于目標(biāo)檢測結(jié)果Fd,我們可以根據(jù)提前獲取的戰(zhàn)場態(tài)勢信息預(yù)估目標(biāo)距離波門,在子脈沖脈壓后基于單元平均恒虛警率(Cell Average-Constant False Alarm Rate,CA-CFAR)檢測判斷目標(biāo)能否被檢測到[24]。如果第n個(gè)子脈沖檢測到目標(biāo)則Fd,n=1,反之則Fd,n=-1。同時(shí)可以獲取目標(biāo)平均功率PT,n和干擾噪聲平均功率η為歸一化系數(shù),用來將信干噪比限制在0~1之間,從而提高訓(xùn)練穩(wěn)定性。

結(jié)合狀態(tài)、動作和獎勵(lì)的定義,基于深度Q網(wǎng)絡(luò)的雷達(dá)子脈沖頻點(diǎn)決策流程如算法1所示。

4 仿真與分析

4.1 場景設(shè)置

4.1.1 仿真參數(shù)設(shè)置

本文以3個(gè)子脈沖和3個(gè)可選頻點(diǎn)為例,討論DQN應(yīng)用于子脈沖頻點(diǎn)自適應(yīng)選取的可行性。為避免子脈沖脈壓后出現(xiàn)虛假目標(biāo),非相鄰子脈沖不能選取重復(fù)頻點(diǎn),因此動作總數(shù)為 33-6=21。頻率捷變信號、干擾、DQN的仿真參數(shù)分別如表1-表3所示。其中,每幕表示1個(gè)相參處理間隔(Coherent Processing Interval,CPI),時(shí)間步t表示某個(gè)CPI中的第t個(gè)脈沖重復(fù)周期。

表1 頻率捷變信號參數(shù)設(shè)置Tab.1 The parameter settings of frequency agile signal

表2 干擾參數(shù)設(shè)置Tab.2 The parameter settings of jamming

表3 DQN參數(shù)設(shè)置Tab.3 The parameter settings of DQN

很重要的一個(gè)技巧是,本文在基于貪婪原則隨機(jī)選取動作時(shí),只考慮所有子脈沖選擇相同頻點(diǎn)的情況,即脈內(nèi)不跳頻。該處理旨在盡可能提高相參處理增益以及使干擾機(jī)偵收到單頻信號并誘導(dǎo)其發(fā)射窄帶瞄頻干擾,從而加快最優(yōu)策略學(xué)習(xí)。同樣出于加速收斂的目的,輸入到神經(jīng)網(wǎng)絡(luò)的獎勵(lì)按照子脈沖個(gè)數(shù)進(jìn)行了歸一化。

估計(jì)值網(wǎng)絡(luò)和目標(biāo)值網(wǎng)絡(luò)的結(jié)構(gòu)相同,均使用4層全連接神經(jīng)網(wǎng)絡(luò),分別為輸入層、2個(gè)隱藏層和輸出層。其中,隱藏層的神經(jīng)元個(gè)數(shù)均為64,并使用ReLU作為激活函數(shù),如圖4所示。

圖4 全連接神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.4 The schematic diagram of fully connected neural network structure

4.1.2 干擾策略設(shè)置

考慮一個(gè)具備偵收功能的干擾機(jī),并根據(jù)偵-干時(shí)間長短分別設(shè)置了脈內(nèi)偵干和脈間偵干等兩種固定干擾策略,分別如圖5、圖6所示。由于切片轉(zhuǎn)發(fā)干擾的對抗效果受限于切片寬度、轉(zhuǎn)發(fā)次數(shù)等參數(shù),靈活的參數(shù)變化可能會導(dǎo)致對抗失效,因此本文考慮的干擾類型為壓制干擾,包括窄帶瞄頻和寬帶阻塞。其中,窄帶瞄頻干擾的帶寬為雷達(dá)子脈沖帶寬的2倍,更寬的帶寬會使得全部狀態(tài)的獎勵(lì)值發(fā)生整體偏移,但在歸一化后會消除該影響。

算法 1 基于深度Q網(wǎng)絡(luò)的雷達(dá)子脈沖頻點(diǎn)決策Alg.1 Radar sub-pulse frequency decision based on Deep Q-Network (DQN)

圖5 脈內(nèi)偵干策略Fig.5 The intra-pulse interception-jamming strategy

圖6 脈間偵干策略Fig.6 The pulse-to-pulse interception-jamming strategy

對于脈內(nèi)偵干策略,假設(shè)干擾機(jī)偵收到雷達(dá)脈沖上升沿及下降沿,立即對其測頻,轉(zhuǎn)發(fā)對應(yīng)頻點(diǎn)的窄帶瞄頻干擾。值得注意的是,干擾時(shí)長設(shè)置略小于1個(gè)脈沖重復(fù)周期(Pulse Repetition Time,PRT),從而使得在當(dāng)前PRT會同時(shí)受到上一時(shí)刻以及當(dāng)前時(shí)刻的干擾。因此,雷達(dá)在該干擾策略下的一種較為合適的選擇為后續(xù)子脈沖發(fā)射不同于子脈沖1的雷達(dá)頻點(diǎn),并且每個(gè)PRT均保持相同的發(fā)射策略。由于干擾所在頻點(diǎn)在濾波后可能會在鄰近頻點(diǎn)上存在干擾功率殘留,因此最優(yōu)策略為雷達(dá)后續(xù)子脈沖跳頻到距離子脈沖1所選頻點(diǎn)的最遠(yuǎn)頻點(diǎn)上。即雷達(dá)最優(yōu)頻點(diǎn)選擇為 [1,N,N] 或 [N,1,1]。

對于脈間偵干策略,假設(shè)干擾機(jī)從偵收到第1個(gè)子脈沖開始持續(xù)偵收一段時(shí)間,直至沒有檢測到子脈沖時(shí)偵收結(jié)束。根據(jù)偵收結(jié)果發(fā)射一段時(shí)間長度的干擾,干擾時(shí)長在3~4個(gè)PRT之間。相比脈內(nèi)偵干策略,后者不會在某個(gè)PRT同時(shí)受到兩部分干擾。在偵收階段若只偵收到1個(gè)頻點(diǎn),則發(fā)射對應(yīng)頻點(diǎn)的窄帶瞄頻干擾,反之則發(fā)射寬帶阻塞干擾。雷達(dá)需要盡量避免干擾機(jī)發(fā)射寬帶阻塞干擾,為此雷達(dá)需要在干擾機(jī)偵收階段時(shí)只發(fā)射單頻信號,而在干擾階段時(shí)選擇其余頻點(diǎn)。類似地,考慮到濾波引起的干擾功率殘留,在干擾機(jī)偵收時(shí)雷達(dá)最優(yōu)策略為 [1,1,1] 或 [N,N,N],對應(yīng)的干擾時(shí)雷達(dá)最優(yōu)策略為 [N,N,N] 或 [1,1,1]。

值得注意的是,脈間偵干策略雖然具備周期性,但當(dāng)前時(shí)刻的干擾動作不完全取決于上一時(shí)刻的狀態(tài),而是按照固定的時(shí)序執(zhí)行偵收和干擾,因此不具備馬爾科夫性。脈間偵干策略尋求的是由4個(gè)PRT組成的偵干周期的最大獎勵(lì),滿足式(5)所示的貝爾曼最優(yōu)方程的價(jià)值迭代原理,因此可以使用強(qiáng)化學(xué)習(xí)解決。

4.2 脈內(nèi)偵干策略

此時(shí)干擾機(jī)偵收到1個(gè)子脈沖的上升沿與下降沿后,完成測頻并立刻發(fā)射干擾,雷達(dá)頻點(diǎn)對抗的訓(xùn)練結(jié)果如圖7所示。得分曲線在第4個(gè)CPI左右即可收斂,在36分附近波動,如圖7(a)所示。圖7(b)展示了文獻(xiàn)[20]提出的基于PPO與LSTM相結(jié)合的頻點(diǎn)決策算法,其至少需要30幕的時(shí)間才能提升到32分附近震蕩,因此策略學(xué)習(xí)耗時(shí)且魯棒性較差。其本質(zhì)原因在于PPO為on-policy算法,只能利用神經(jīng)網(wǎng)絡(luò)進(jìn)行動作搜索,導(dǎo)致探索性不足,所以存在收斂速度慢、可能會收斂到局部最優(yōu)解、得分無法保持等諸多問題。

圖7 脈內(nèi)偵干策略的子脈沖頻點(diǎn)決策訓(xùn)練結(jié)果Fig.7 The training results of sub-pulse frequency decision for the intra-pulse interception-jamming strategy

根據(jù)圖7(a)的收斂情況,保存前10個(gè)CPI的訓(xùn)練模型,每個(gè)模型對抗100幕,對抗成功率如圖8所示。根據(jù)4.1.2節(jié)對脈內(nèi)偵干策略的分析,雷達(dá)應(yīng)將未被偵收到的子脈沖頻點(diǎn)設(shè)置為距離偵收頻點(diǎn)的最遠(yuǎn)頻點(diǎn)。因此,PRT對抗成功定義為{fR=[1,3,3]&fJ=1} 或{fR=[3,1,1]&fJ=3},即21個(gè)動作中只有2個(gè)動作為最優(yōu),占比9.5%。CPI對抗成功的判決依據(jù)是當(dāng)前CPI內(nèi)所有PRT均對抗成功。

圖8 訓(xùn)練用CPI數(shù)量對脈內(nèi)偵干策略下對抗成功率的影響Fig.8 The impact of the number of CPI used for training on the success rate of confrontation for the intra-pulse interception-jamming strategy

發(fā)現(xiàn)訓(xùn)練所用CPI數(shù)量對對抗成功率的影響與收斂情況基本對應(yīng),從第3個(gè)CPI開始,對抗成功率即可達(dá)到100%。

表4展示了隨機(jī)頻點(diǎn)、PPO-LSTM和DQN的單次對抗(PRT)成功率,單幕(CPI)對抗成功率。隨機(jī)頻點(diǎn)決策的成功率與最優(yōu)動作占比,即理論值大致相同。基于PPO的頻點(diǎn)決策雖然在第2個(gè)和第3個(gè)子脈沖避開了干擾頻點(diǎn),但是由于其搜索力度不夠,有一定概率選取到次優(yōu)策略。而基于DQN的頻點(diǎn)決策算法由于使用了ε-貪婪算法,大大擴(kuò)展了動作搜索空間,更容易收斂到最優(yōu)策略。

表4 脈內(nèi)偵干策略的對抗成功率(%)Tab.4 The success rate of confrontation for the intra-pulse interception-jamming strategy (%)

PPO算法由于可以處理連續(xù)動作空間問題,并且可以學(xué)習(xí)到隨機(jī)策略,因此是強(qiáng)化學(xué)習(xí)中受眾面最廣的基線方法。然而在本文研究的頻點(diǎn)決策場景中,不涉及連續(xù)動作空間,最優(yōu)策略也可以由隨機(jī)策略退化到確定性策略,因此PPO算法優(yōu)勢沒有得到充分利用。更為重要的是,由于每幕對抗中次優(yōu)策略不低于最優(yōu)策略得分的10%,大大提高了僅依靠神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行動作搜索的最優(yōu)策略收斂難度。

圖9(a)展示了雷達(dá)和干擾在4個(gè)PRT下的頻點(diǎn)選取情況。對于第1個(gè)PRT,由于初始狀態(tài)的隨機(jī)性,雷達(dá)選取頻點(diǎn)[1,2,3],干擾瞄準(zhǔn)頻點(diǎn)1。由于單個(gè)子脈沖的信噪比增益有限,因此除被干擾的子脈沖外,另有1個(gè)子脈沖未能檢測到目標(biāo),獎勵(lì)為負(fù)值,如圖9(b)所示。在第2,3,4個(gè)PRT,基于訓(xùn)練好的模型,雷達(dá)的第2個(gè)和第3個(gè)子脈沖均選擇離干擾頻點(diǎn)1最遠(yuǎn)的頻點(diǎn)3,降低了干擾剩余能量的同時(shí),合成了寬脈沖,提高了信噪比增益。

圖9 雷達(dá)與干擾對抗4個(gè)PRT的策略及對抗獎勵(lì)Fig.9 The strategies and rewards for radar anti-jamming during four PRT periods

最優(yōu)動作的時(shí)頻圖及一維距離像如圖10所示。當(dāng)前PRT會同時(shí)收到瞄準(zhǔn)上一時(shí)刻第1個(gè)子脈沖以及瞄準(zhǔn)當(dāng)前時(shí)刻第1個(gè)子脈沖的窄帶瞄頻干擾,后者會在瞄準(zhǔn)后立即發(fā)射。因此,第1個(gè)子脈沖脈壓后,目標(biāo)尖峰出現(xiàn)在當(dāng)前時(shí)刻產(chǎn)生的大功率噪聲干擾邊緣,導(dǎo)致漏檢。第2個(gè)子脈沖由于跳頻策略與干擾頻域正交,因此脈壓后能夠檢測到目標(biāo)尖峰,具有較高的信干噪比。

圖10 雷達(dá)執(zhí)行最優(yōu)策略的時(shí)頻圖及一維距離像Fig.10 The time-frequency map and the one-dimensional High-Resolution Range Profile (HRRP) for radar executing optimal strategy

本文圍繞目標(biāo)檢測性能,基于單個(gè)PRT能否檢測到目標(biāo)以及脈壓后的信干噪比兩方面評價(jià)跳頻抗干擾效能。表5展示了蒙特卡洛1000次下,雷達(dá)的幾個(gè)典型頻點(diǎn)選取策略的目標(biāo)檢測率、脈壓后的信干噪比以及平均得分。為便于分析,假設(shè)當(dāng)前時(shí)刻和上一時(shí)刻均干擾相同的頻點(diǎn),頻點(diǎn)[3,1,1]和[1,3,3]為本文所提模型的策略??梢钥闯觯?/p>

表5 脈內(nèi)偵干策略下各種雷達(dá)策略對抗1000次結(jié)果(fJ=fsub1)Tab.5 The results of 1000 confrontations with various radar strategies for the intra-pulse interception-jamming strategy (fJ=fsub1)

(1) 由于在當(dāng)前PRT能同時(shí)受到上一時(shí)刻和當(dāng)前時(shí)刻的干擾,因此至少有一個(gè)雷達(dá)頻點(diǎn)會被干擾到。根據(jù)式(10)所示的獎勵(lì)函數(shù)計(jì)算方式,最大得分始終小于2;

(2) 當(dāng)子脈沖2和子脈沖3跳頻成功時(shí),兩個(gè)子脈沖均選擇離干擾頻點(diǎn)的最遠(yuǎn)頻點(diǎn)時(shí),平均得分最高,為最優(yōu)策略,即[1,3,3]和[3,1,1];

(3) 諸如[1,2,3]和[2,1,3]等傳統(tǒng)頻點(diǎn)選取策略,由于脈壓增益有限,導(dǎo)致目標(biāo)檢測率較低;而[1,2,2]和[2,1,1]等選擇了干擾頻點(diǎn)相鄰頻點(diǎn)的動作,由于濾波后的干擾能量殘余,從而降低了信干噪比,非最優(yōu)策略;

(4) 次優(yōu)策略和最優(yōu)策略的單次對抗得分僅差0.06,網(wǎng)絡(luò)能夠捕獲到細(xì)微差異,收斂到最優(yōu)解。

4.3 脈間偵干策略

針對脈間偵干策略,DQN和PPO的訓(xùn)練曲線如圖11所示。DQN在第15幕(CPI)左右即可收斂,得分在37分附近。而PPO的訓(xùn)練過程雖然整體呈現(xiàn)上升-平穩(wěn),但是其波動始終較為劇烈,且至少需要400幕左右才能趨于平穩(wěn)。

圖11 脈間偵干策略的子脈沖頻點(diǎn)決策訓(xùn)練結(jié)果Fig.11 The training results of sub-pulse frequency decision for the pulse-to-pulse interception-jamming strategy

圖12展示了訓(xùn)練所用CPI數(shù)量對對抗成功率的影響,蒙特卡洛次數(shù)為100幕。由于雷達(dá)初始頻點(diǎn)隨機(jī)選取,不參與決策,因此去除包含初始狀態(tài)在內(nèi)的第1個(gè)干擾偵干周期。從第2個(gè)周期開始統(tǒng)計(jì),即每幕(CPI)對抗28次。根據(jù)4.1.2節(jié)對脈間偵干策略的分析,雷達(dá)應(yīng)始終發(fā)射單頻信號,并在干擾機(jī)對當(dāng)前脈沖偵收干擾后的下個(gè)脈沖跳到另一頻點(diǎn),從而誘導(dǎo)干擾機(jī)在后續(xù)干擾周期內(nèi)發(fā)射窄帶瞄頻干擾,避免發(fā)射寬帶阻塞干擾導(dǎo)致跳頻手段失效。由于干擾機(jī)可以在偵收后立即發(fā)射對應(yīng)頻點(diǎn)的干擾,所以每個(gè)偵干周期內(nèi),無論采取何種手段,至少會存在1個(gè)PRT抗干擾失敗。因此可以僅針對剩余PRT計(jì)算抗干擾成功率,將PRT對抗成功定義為干擾機(jī)處于發(fā)射干擾階段時(shí)雷達(dá)選取到最優(yōu)策略,即{fJ=3&fR=[1,1,1]}或{fJ=1&fR=[3,3,3]};CPI對抗成功的判決依據(jù)是當(dāng)前CPI內(nèi)所有PRT均對抗成功。

可以發(fā)現(xiàn),在前20個(gè)CPI的訓(xùn)練過程中模型學(xué)習(xí)到的策略不是一直向好,而是波動變化。在第13個(gè)PRT策略出現(xiàn)了明顯惡化,這與圖11(a)的訓(xùn)練結(jié)果相一致。此時(shí)模型尚未穩(wěn)定學(xué)習(xí)到干擾機(jī)的偵干策略,因此仍主要處于試錯(cuò)探索階段。從第15~20個(gè)CPI,模型探索到干擾機(jī)策略,并學(xué)習(xí)到有效對抗策略,保持穩(wěn)定。

100次蒙特卡洛仿真下的隨機(jī)頻點(diǎn)、PPO和DQN決策的單次對抗(PRT)成功率,單幕(CPI)對抗成功率如表6所示。由于對抗成功率隱含雷達(dá)在干擾機(jī)偵-干PRT和干擾PRT均發(fā)射不同的單頻信號,因此隨機(jī)頻點(diǎn)選擇的成功概率極低,僅有0.7%。相比PPO,DQN動作搜索更加充分,使對抗成功率得到有效提高,達(dá)到100%。

表6 脈間偵干策略的對抗成功率(%)Tab.6 The success rate of confrontation for the pulse-to-pulse interception-jamming strategy (%)

圖13(a)展示了干擾機(jī)的3個(gè)偵干周期下的雷達(dá)子脈沖頻點(diǎn)選取和干擾瞄準(zhǔn)頻點(diǎn)。在第1個(gè)偵干周期中,由于雷達(dá)初始狀態(tài)的隨機(jī)性,3個(gè)子脈沖分別選取不同頻點(diǎn),導(dǎo)致干擾機(jī)在接下來的3個(gè)PRT中發(fā)射寬帶阻塞干擾,此時(shí)無論雷達(dá)如何跳頻,目標(biāo)均未被檢測到,獎勵(lì)為負(fù)值,如圖13(b)所示。在第2個(gè)偵干周期的第1次對抗中,雷達(dá)3個(gè)子脈沖均選擇頻點(diǎn)1,干擾機(jī)偵收到并立刻發(fā)射對應(yīng)頻點(diǎn)的干擾,因此第1個(gè)PRT的獎勵(lì)為負(fù)值。接下來的3個(gè)PRT,干擾機(jī)繼續(xù)發(fā)射頻點(diǎn)1,而雷達(dá)選擇離頻點(diǎn)1最遠(yuǎn)的頻點(diǎn)3。至此第2個(gè)偵干周期結(jié)束,雷達(dá)頻點(diǎn)選取成功。在第3個(gè)偵干周期中,雷達(dá)和干擾的頻點(diǎn)選取對調(diào),雷達(dá)仍然能夠通過頻點(diǎn)決策選擇受到干擾最小的頻點(diǎn)。

圖13 對抗3個(gè)偵干周期的雷達(dá)策略及對抗獎勵(lì)Fig.13 The strategies and rewards for radar anti-jamming during three interception-jamming periods

以干擾瞄準(zhǔn)頻點(diǎn)1為例,蒙特卡洛1000次,統(tǒng)計(jì)各種策略對抗的目標(biāo)檢測率、脈壓后的信干噪比以及平均得分,如表7所示,其中頻點(diǎn)[3,3,3]為本文所提模型的策略??梢钥闯觯?/p>

表7 脈間偵干策略下各種雷達(dá)策略對抗1000次的結(jié)果(fJ=1)Tab.7 The results of 1000 confrontations with various radar strategies for the pulse-to-pulse interception-jamming strategy (fJ=1)

(1) 對于傳統(tǒng)雷達(dá)跳頻策略[1,2,3],有1個(gè)子脈沖會被干擾到,此時(shí)獎勵(lì)雖然為正值,但是較低;

(2) 對于[2,2,2],雖然從頻點(diǎn)數(shù)值上看確實(shí)跳頻成功,但此時(shí)瞄準(zhǔn)頻點(diǎn)1的干擾功率可能未被全部濾掉,有很少一部分的功率會溢出到頻點(diǎn)2,使得其信干噪比略低于頻點(diǎn)3;

(3) 當(dāng)雷達(dá)所有子脈沖均選擇頻點(diǎn)3時(shí),接收到的干擾平均功率達(dá)到最小值,平均得分最高,為最優(yōu)策略。

5 結(jié)語

針對瞄準(zhǔn)式壓制干擾,本文面向頻率捷變雷達(dá),提出了一種基于深度強(qiáng)化學(xué)習(xí)的頻點(diǎn)自適應(yīng)快速選取方法。根據(jù)當(dāng)前時(shí)刻干擾狀態(tài),以及上一時(shí)刻雷達(dá)動作,依靠神經(jīng)網(wǎng)絡(luò)自適應(yīng)選取當(dāng)前時(shí)刻最優(yōu)雷達(dá)頻點(diǎn),并基于目標(biāo)檢測結(jié)果以及脈壓后的信干噪比作為獎勵(lì)反饋,迭代改進(jìn)策略。仿真部分考慮了具備偵收-瞄準(zhǔn)-干擾功能的干擾機(jī),證明了通過關(guān)鍵要素設(shè)計(jì)可以以單個(gè)時(shí)間步長作為輸入學(xué)習(xí)到干擾策略的時(shí)序性。同時(shí),所用DQN算法配合貪婪準(zhǔn)則實(shí)現(xiàn)了搜索-利用的平衡,配合信干噪比的反饋加速最優(yōu)抗干擾策略收斂,相比PPO算法收斂速度提升至少10倍??紤]到實(shí)際場景中,干擾頻點(diǎn)在濾波后可能在鄰近頻點(diǎn)存在能量殘余的情況,所提頻率捷變波形設(shè)計(jì)方法允許子脈沖多次重復(fù)選取距離干擾頻點(diǎn)最遠(yuǎn)的雷達(dá)頻點(diǎn),有效降低了回波中的干擾剩余能量,提高了信干噪比。同時(shí)擴(kuò)展了動作空間,提供了最優(yōu)動作選取的基礎(chǔ)。

通過本文研究發(fā)現(xiàn),當(dāng)子脈沖數(shù)或脈沖數(shù)較多時(shí),增大了網(wǎng)絡(luò)的搜索和決策空間,使得收斂時(shí)間進(jìn)一步增加,并且提高了最優(yōu)策略的收斂難度。但這不會影響強(qiáng)化學(xué)習(xí)的關(guān)鍵要素設(shè)計(jì),因此所提方法仍能根據(jù)交互數(shù)據(jù)的反饋結(jié)果進(jìn)行策略優(yōu)化。另外,考慮到子脈沖間、脈沖間的相位不一致,在積累時(shí)會帶來一定程度上的增益損失。因此在未來的研究中,考慮將子脈沖以及脈沖間的積累情況納入到獎勵(lì)函數(shù)中,從而指導(dǎo)策略選取。

利益沖突所有作者均聲明不存在利益沖突

Conflict of InterestsThe authors declare that there is no conflict of interests

猜你喜歡
干擾機(jī)個(gè)子頻點(diǎn)
基于4G MR的大數(shù)據(jù)分析優(yōu)化EPSFB語音時(shí)延
長頸鹿個(gè)子高
雷聲公司交付首套中頻段下一代干擾機(jī)
難怪個(gè)子長不高
基于壓縮感知的單脈沖雷達(dá)欺騙干擾機(jī)研究
個(gè)子不是一樣高
空襲遠(yuǎn)距離支援干擾機(jī)陣位選擇及航線規(guī)劃
美國海軍將研制新一代干擾機(jī)
基于測量報(bào)告數(shù)據(jù)優(yōu)化CSFB頻點(diǎn)配置的方法
機(jī)智的回答