基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)通信抗干擾算法

2022-11-01 11:43:48張惠婷劉敏提丁元明

兵器裝備工程學(xué)報(bào) 2022年10期

張惠婷，張然,2，劉敏提，丁元明

(1.遼寧省通信網(wǎng)絡(luò)與信息處理重點(diǎn)實(shí)驗(yàn)室，遼寧大連 116622； 2.大連大學(xué)信息工程學(xué)院，遼寧大連 116622； 3.西安電子科技大學(xué)雷達(dá)信號處理國家實(shí)驗(yàn)室，西安 710071)

1 引言

無人機(jī)作戰(zhàn)是未來戰(zhàn)場上至關(guān)重要的一部分，但是在通信環(huán)境面臨智能性干擾的情況下，要確保信息安全可靠的進(jìn)行傳輸就成為一項(xiàng)挑戰(zhàn)，因此無人機(jī)通信系統(tǒng)抗干擾研究至關(guān)重要。

為了有效對抗智能干擾，提高無人機(jī)系統(tǒng)通信質(zhì)量，目前研究熱點(diǎn)方向?yàn)闊o人機(jī)認(rèn)知抗干擾。認(rèn)知抗干擾目前主要通過智能決策算法對抗智能干擾，智能決策大致有兩類：一類基于功率域抗干擾角度，智能體的發(fā)射功率可以根據(jù)干擾方發(fā)射功率進(jìn)行調(diào)整來應(yīng)對攻擊。文獻(xiàn)[4-6]在干擾功率不大的情況下，基于博弈理論，根據(jù)博弈雙方的競爭關(guān)系，建立認(rèn)知抗干擾網(wǎng)絡(luò)模型，求出博弈均衡，獲得用戶最佳發(fā)射功率。另一類是基于頻域抗干擾的角度，利用強(qiáng)化學(xué)習(xí)選擇安全信道，規(guī)避干擾信道。文獻(xiàn)[8]將信道選擇問題建模為多臂賭博機(jī)模型(MAB)，選擇最小的臂對應(yīng)的信道進(jìn)行通信，但是不滿足信道非獨(dú)立的實(shí)際情況，文件[9]在MAB理論的基礎(chǔ)上提出碰撞規(guī)避上屆置信算法(UCB)的信道選擇改進(jìn)，在電臺頻譜接入問題中有效降低了碰撞概率和悔恨值，但是前期訓(xùn)練碰撞需要耗時(shí)。文獻(xiàn)[10]基于協(xié)作Q學(xué)習(xí)(Q learning,QL)進(jìn)行信道選擇，雖然提高了數(shù)據(jù)傳輸安全容量，但算法收斂速度較慢。文獻(xiàn)[11]利用深度Q網(wǎng)絡(luò)(deep Q network,DQN)進(jìn)行安全信道選擇，累計(jì)獎勵值高于QL算法，但是DQN由于Q值估計(jì)過高導(dǎo)致收斂速度減慢、估值失真。文獻(xiàn)[12]在集中式訓(xùn)練環(huán)境下通過競爭性深度Q網(wǎng)絡(luò)算法和優(yōu)先經(jīng)驗(yàn)回放技術(shù)以提高信道選擇算法的效率，但信道數(shù)量較多時(shí)碰撞效率提升較大。在信道數(shù)量較大的情況下，文獻(xiàn)[13-14]基于演員-評論員(actor-critic，AC)算法選擇安全信道，但該算法的Actor與Critic網(wǎng)絡(luò)實(shí)時(shí)更新數(shù)據(jù)，導(dǎo)致2個(gè)網(wǎng)絡(luò)依賴性較強(qiáng)，算法穩(wěn)定性較低。

針對智能性干擾攻擊靈活性較差的問題，多域聯(lián)合抗干擾方式被提出。文獻(xiàn)[16]考慮功率域和頻域，首先基于Stackelberg博弈從功率域判斷受干擾情況，再分別利用頻域進(jìn)行MAB算法進(jìn)行信道選擇，文獻(xiàn)[17]同樣將受干擾分為是輕度、中度以及嚴(yán)重程度，中度干擾從功率域博弈論角度出發(fā)，輕度干擾從優(yōu)化AC算法的頻域角度進(jìn)行信道選擇避免干擾。但是以上算法從頻域及功率域角度考慮，在干擾嚴(yán)重情況下，功率域抗干擾效果不佳，占用大量的頻譜資源，并且用戶傳輸時(shí)長固定，無法滿足無人機(jī)高動態(tài)運(yùn)行下對傳輸時(shí)間靈活性的要求。

基于以上抗干擾不同角度的分析，本文中將頻域和時(shí)域結(jié)合，提出一種基于動態(tài)深度雙Q學(xué)習(xí)(dynamic-deep double Q learning,D-DDQN)的無人機(jī)時(shí)頻域聯(lián)合認(rèn)知抗干擾(time-frequency domain joint cognitive anti-jamming,TFDJ-AJ)算法。該方法首先利用能量檢測法得到當(dāng)前回合的干擾判別信息，然后優(yōu)化DDQN的貪婪策略，將實(shí)際傳輸獎勵反饋給貪婪因子，進(jìn)行動態(tài)DDQN決策，最后把信道選擇和傳輸持續(xù)時(shí)間決策問題轉(zhuǎn)換為序貫決策問題，通過智能決策進(jìn)行最佳傳輸，實(shí)現(xiàn)時(shí)頻域聯(lián)合抗干擾，有效提高無人機(jī)系統(tǒng)通信安全容量。

2 無人機(jī)通信模型

2.1 系統(tǒng)模型

無人機(jī)通信抗干擾模型如圖1所示?？紤]由一個(gè)無人機(jī)、一個(gè)接收機(jī)和一個(gè)干擾機(jī)組成的通信系統(tǒng)。無人機(jī)向接收機(jī)發(fā)送數(shù)據(jù)，干擾機(jī)釋放干擾信號，進(jìn)行無人機(jī)通信破壞。系統(tǒng)模型中共有(>1)個(gè)信道，定義={1,2,…,}為信道集，在通信過程中，用戶傳輸持續(xù)時(shí)間是可變的。

圖1 通信抗干擾模型示意圖Fig.1 Communication model

2.2 干擾及檢測模型

無人機(jī)通信系統(tǒng)的干擾端用表示，干擾端通過不定期調(diào)整干擾方式來干擾和破壞用戶通信網(wǎng)絡(luò)。代表干擾頻率范圍，代表無人機(jī)傳輸頻率范圍。為了簡化分析，設(shè)置=，并用代表用戶傳輸帶寬，則可以計(jì)算出無人機(jī)信道集的數(shù)量，如式(1)所示。

(1)

基于能量檢測法建立一個(gè)干擾檢測模型，如式(2)所示。每個(gè)信道對應(yīng)頻率設(shè)置一個(gè)帶通濾波器，對不同頻率信號進(jìn)行濾波，得到檢測模型H，計(jì)算每個(gè)頻率上的信號功率。

(2)

其中:[]表示當(dāng)前信號；[]表示通信信號；[]表示干擾信號。

通過寬帶頻譜感知中的能量檢測法來檢測干擾信息，()代表每個(gè)頻率信號能量，代表門限值，判別干擾信號能量，如式(3)所示。若()高于則認(rèn)為當(dāng)前存在干擾，屬于H，否則屬于H或H，然后將每個(gè)頻率是否存在干擾信號的判別信息輸入至D-DDQN智能決策模型。

(3)

2.3 信道模型

檢測到信道中的干擾后，就可以在信道內(nèi)避開干擾進(jìn)行通信。在通信過程中，接收端根據(jù)能量檢測感知干擾信道信息對安全信道和傳輸持續(xù)時(shí)間進(jìn)行決策，然后將上一步完成的決策信息以確認(rèn)字符(acknowledge character,ACK)的形式送回發(fā)射端，表示確認(rèn)接收到正確決策成功通信。最后，無人機(jī)發(fā)射端根據(jù)新的傳輸策略在下一個(gè)時(shí)隙進(jìn)行通信。

將接收端信噪比定義如式(4)所示。

(4)

(5)

(6)

用戶更換安全通道的開銷為：

(7)

式中：表示信道切換系數(shù)；()表示用戶在時(shí)刻采取的動作。無人機(jī)優(yōu)化目標(biāo)是最大化累計(jì)效用值來選擇抗干擾策略如下式所示：

(8)

式中，代表折扣因子，且∈(0,1)。

假設(shè)傳輸信道=5，傳輸時(shí)間長度等級=4，狀態(tài)和動作時(shí)頻傳輸如圖2所示。橫軸代表頻率，豎軸代表時(shí)隙。

圖2 干擾機(jī)與用戶時(shí)頻傳輸示意圖Fig.2 Schematic diagram of time-frequency transmission between jammer and user

在第-1個(gè)時(shí)隙信道狀態(tài)為[01100]。因?yàn)樾诺?足夠安全，所以從-2個(gè)時(shí)隙進(jìn)入-1個(gè)時(shí)隙時(shí)可從信道5跳轉(zhuǎn)到信道1，可以持續(xù)傳輸較長時(shí)間，由于信道1在時(shí)隙依然沒有干擾，那么傳輸可以在2個(gè)時(shí)隙都保持成功，此時(shí)獎勵最大；如果-2跳轉(zhuǎn)到-1時(shí)選擇信道4，那么持續(xù)傳輸時(shí)間等級依然保持最大，但在傳輸之后若不立即進(jìn)行信道跳轉(zhuǎn)就會受到干擾，即使下個(gè)時(shí)隙進(jìn)行信道跳轉(zhuǎn)也會消耗轉(zhuǎn)換信道的能量。

2.4 傳輸時(shí)隙模型

現(xiàn)有的通信傳輸時(shí)隙模型全部都是固定傳輸時(shí)長，但在無人機(jī)通信過程中，若傳輸時(shí)間過長則信號會被干擾，若傳輸時(shí)間太短則系統(tǒng)吞吐量性能較差。針對此問題，本文中建立用戶數(shù)傳輸時(shí)長可改變的時(shí)隙模型。

用戶有個(gè)傳輸持續(xù)時(shí)間可供選擇且傳輸時(shí)間集為={,,…,}。每個(gè)時(shí)隙可以根據(jù)信道狀態(tài)選擇傳輸?shù)燃墸瑐鬏敃r(shí)隙結(jié)構(gòu)如圖3所示。

圖3 數(shù)據(jù)傳輸時(shí)隙結(jié)構(gòu)示意圖Fig.3 Schematic diagram of data transmission process

代表干擾時(shí)長，代表無人機(jī)的傳輸時(shí)長，代表ACK傳輸?shù)臅r(shí)間長度，表示進(jìn)行能量檢測的時(shí)間長度。在通信開始時(shí)隙中，用戶根據(jù)獲取的原始頻譜信息隨機(jī)選擇傳輸信道和傳輸時(shí)長，接收端開始數(shù)據(jù)接收，接收完成后計(jì)算該操作的獎勵值。在下一個(gè)時(shí)間，用戶接收端進(jìn)行能量檢測，得到干擾信道信息。最后，用戶根據(jù)該信息進(jìn)行D-DDQN學(xué)習(xí)，確定下一個(gè)時(shí)隙要選擇的傳輸信道和傳輸時(shí)長，并更新參數(shù)。在更新結(jié)束之后，接收端通過在時(shí)間內(nèi)發(fā)送ACK信號將判決信息反饋給無人機(jī)發(fā)射端。

3 多域聯(lián)合認(rèn)知抗干擾算法

3.1 基于ε動態(tài)更新D-DDQN優(yōu)化算法

3.1.1 強(qiáng)化學(xué)習(xí)框架

無人機(jī)抗干擾過程中，無法得知下一步狀態(tài)具體有哪幾步，狀態(tài)轉(zhuǎn)移概率未知，因此通常采用無監(jiān)督學(xué)習(xí)的QL算法求解，但狀態(tài)空間和動作空間較大時(shí)，搜索值的時(shí)間增加，收斂速度降低，很難對所有動作進(jìn)行探索。DQN算法引入神經(jīng)網(wǎng)絡(luò)代替QL中的Q值表格，解決了狀態(tài)、動作空間不足的問題。式(9)表示值函數(shù)優(yōu)化目標(biāo)：

(9)

式(9)每次都要選擇預(yù)測值最大的下一步動作，導(dǎo)致值估計(jì)過高。因此式(10)采用DDQN算法，更改DQN的網(wǎng)絡(luò)參數(shù)設(shè)置，改善標(biāo)簽過估計(jì)。

(10)

3.1.2 動態(tài)-greedy更新的D-DDQN算法

傳統(tǒng)DDQN一般將-greedy策略作為策略進(jìn)行訓(xùn)練更新，如式(11)所示。在該策略下，無人機(jī)隨機(jī)選擇動作的概率表示為，選擇值最大所對應(yīng)動作的概率表示為1-。

(11)

然而，取值固定就表示算法隨機(jī)性在所有回合中都相等。但是在實(shí)際過程中，起始狀態(tài)所需的隨機(jī)性和收斂狀態(tài)是不一樣的，固定取值的情況下，算法只能收斂到局部最優(yōu)，并且不能維持穩(wěn)定的收斂狀態(tài)。

算法基于DDQN提出動態(tài)策略，根據(jù)獎勵值與迭代次數(shù)動態(tài)調(diào)整值，得到D-DDQN算法，如式(12)所示。動態(tài)調(diào)整過程為：選擇最大值所對應(yīng)的動作時(shí)，增加選擇對應(yīng)動作的概率值；選擇其他動作時(shí)，減少選擇對應(yīng)動作的概率值。首先初始化為1，在算法的每次迭代后，都相應(yīng)動態(tài)調(diào)整1次，直到減少到0。若前一回合受到干擾，那么≤0，減少值，降低策略的隨機(jī)性，加快算法的收斂速度；若前一回合安全傳輸，那么≥0，則值不變，原有的隨機(jī)性繼續(xù)保持。改進(jìn)后的策略更新過程如式(13)所示。其中表示在0～1內(nèi)隨機(jī)生成數(shù)。

(12)

(13)

圖4 智能決策框圖Fig.4 Intelligent decision framework

定義誤差函數(shù)()，如式(14)所示。采用梯度下降法對估值神經(jīng)網(wǎng)絡(luò)進(jìn)行更新。

(14)

3.2 基于D-DDQN的TFDJ-AJ算法

本文中將時(shí)頻域選擇同D-DDQN算法結(jié)合，將算法所需基本元素定義如下：

1) 狀態(tài)空間

所有通道的當(dāng)前狀態(tài)定義為，為1表示信道在當(dāng)前時(shí)刻與干擾信號產(chǎn)生沖突，為0表示沒有與干擾信號產(chǎn)生沖突，信道共有個(gè)，則狀態(tài)集大小則為2。

2) 動作空間

將發(fā)射端在第個(gè)時(shí)隙的狀態(tài)下完成的動作選擇表示為=(,)，其中是第個(gè)時(shí)隙的傳輸信道，是第個(gè)時(shí)隙的傳輸持續(xù)時(shí)間等級且滿足={1,2,…,}，因此，動作空間大小定義為×。

表示無人機(jī)選擇信道的所有策略，根據(jù)當(dāng)前狀態(tài)和即時(shí)獎勵進(jìn)行動作選擇。信道索引如下式所示：

={,,,…,},()∈

(15)

3) 狀態(tài)轉(zhuǎn)移概率

由于強(qiáng)化學(xué)習(xí)中相鄰狀態(tài)之間存在相關(guān)性，將用戶在狀態(tài)條件下，執(zhí)行動作轉(zhuǎn)移到新狀態(tài)+1的轉(zhuǎn)移概率定義為：

={(+1|,)},+1,∈×

(16)

4) 獎勵函數(shù)

即時(shí)獎勵函數(shù)=(,,)代表第個(gè)時(shí)隙的狀態(tài)中執(zhí)行動作的獎勵，用式(8)來表示。

(17)

如式(18)和式(19)所示，通過梯度下降法更新，同時(shí)每經(jīng)過輪就同步回合目標(biāo)神經(jīng)網(wǎng)絡(luò)與估值神經(jīng)網(wǎng)絡(luò)，由于不用實(shí)時(shí)更新目標(biāo)價(jià)值，因此可以減少選取目標(biāo)價(jià)值的相關(guān)性。

(18)

(19)

綜上所述，提出的基于D-DDQN時(shí)頻域聯(lián)合的認(rèn)知抗干擾算法(TFDJ-AJ)實(shí)現(xiàn)過程如下：

輸入：干擾判別樣式信息()，經(jīng)驗(yàn)池

輸出：最優(yōu)策略估計(jì)，效用值函數(shù)

步驟1 建立估值神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)，經(jīng)驗(yàn)池，設(shè)置總回合數(shù)；

步驟3 隨機(jī)選擇通信頻率和傳輸時(shí)長；

步驟4≤時(shí)，重復(fù)執(zhí)行步驟5；

步驟5 獲得信道狀態(tài)集合；

步驟6 按照式(13)計(jì)算更新值；

步驟7 根據(jù)D-DDQN算法選擇下一回合通信頻率和通信時(shí)長+1；

步驟8 根據(jù)所得的獎勵(,+1)，決策下一回合的信道狀態(tài)集合+1；

步驟9 將=(,+1,(,+1,),+1)存入經(jīng)驗(yàn)池中；

步驟10 從中隨機(jī)選取經(jīng)驗(yàn)樣本個(gè)，代入到式(19)更新；

步驟12>時(shí)，程序結(jié)束。

算法流程如圖5所示。

((+(-1)+))

(20)

圖5 基于D-DDQN的TFDJ-AJ算法流程框圖Fig.5 Flow chart of TFDJ-AJ algorithm based on D-DDQN

4 實(shí)驗(yàn)仿真與分析

為驗(yàn)證所提算法有效性，對系統(tǒng)獲得效用值、通信安全容量、決策成功率、狀態(tài)均方誤差指標(biāo)進(jìn)行仿真，其中，系統(tǒng)獲得效用值以及通信安全容量分別由式(8)和式(5)計(jì)算所得。仿真環(huán)境采用Pytorch 1.2.0深度學(xué)習(xí)框架與Matlab 2018a仿真平臺。模型參數(shù)設(shè)置如表1所示。

表1 模型參數(shù)Table 1 Model parameter settings

經(jīng)驗(yàn)池容量大小=10 000，小批量經(jīng)驗(yàn)樣本=32。設(shè)定傳輸帶寬為5 MHz，則信道個(gè)數(shù)=16。設(shè)定干擾模式有4種，一是掃頻干擾，每個(gè)傳輸時(shí)隙掃頻帶寬為500 kHz；二是梳狀譜干擾，每個(gè)傳輸時(shí)隙選擇8個(gè)干擾譜，每個(gè)干擾譜帶寬為1 MHz；三是左右掃頻干擾，每個(gè)頻帶上的干擾帶寬為250 kHz；四是智能型干擾，為以上3種干擾每隔20個(gè)傳輸時(shí)隙隨機(jī)切換一種。

圖6表示不同傳輸時(shí)間下智能決策獲得的效用值。由圖6可知，效用值根據(jù)不同的時(shí)間設(shè)定變化較大，因?yàn)槌掷m(xù)傳輸時(shí)間較長會增加系統(tǒng)受干擾的可能，持續(xù)傳輸時(shí)間較短會加劇傳輸能量的消耗，實(shí)際應(yīng)用中干擾機(jī)隨機(jī)變化干擾策略，很難確定一個(gè)最佳持續(xù)傳輸時(shí)間。同樣在D-DDQN算法架構(gòu)下，持續(xù)傳輸時(shí)間的不同，算法到達(dá)效用值限值的收斂速度是大致相同的，但TFDJ-AJ算法由于自適應(yīng)的選擇持續(xù)傳輸時(shí)長，避免了頻繁切換信道造成的能量損失，效用值表現(xiàn)最佳。

圖6 不同時(shí)間傳輸策略下效用值曲線Fig.6 Comparison of effective values under different time transmission strategies

圖7表示在時(shí)頻聯(lián)合基礎(chǔ)下4種決策算法的通信安全容量。由圖7可知，提出的TFDJ-AJ算法要優(yōu)于DQN-AJ與AC-AJ以及QL-AJ算法。TFDJ-AJ算法采用DDQN的架構(gòu)，目標(biāo)值神經(jīng)網(wǎng)絡(luò)和估計(jì)值神經(jīng)網(wǎng)絡(luò)分別更新，與DQN-AJ算法和未使用網(wǎng)絡(luò)的QL-AJ算法相比，其算法收斂速度有明顯的提升，通信安全容量提高；同AC-AJ算法相比，雖然AC-AJ算法可以同時(shí)實(shí)現(xiàn)值函數(shù)的估計(jì)和動作的選擇，但是對于Actor和Critic網(wǎng)絡(luò)之間的依賴性太強(qiáng)，收斂速度盡管有所提升，但網(wǎng)絡(luò)穩(wěn)定性較差。TFDJ-AJ算法利用動態(tài)策略將原本的貪婪策略進(jìn)行改進(jìn)，增強(qiáng)了全局尋優(yōu)的能力，得到的數(shù)據(jù)可靠性更高，通信安全容量較AC-AJ算法提高了15%左右。

(21)

式中，||為信道系統(tǒng)狀態(tài)的個(gè)數(shù)。

圖7 不同算法的通信安全容量曲線Fig.7 Comparison of communication security capacity of different algorithms

圖8 狀態(tài)價(jià)值均方誤差曲線Fig.8 State value mean square error curve

為了驗(yàn)證所提算法抗干擾后的通信傳輸性能，定義決策成功率，如式(22)所示。

(22)

式中，為成功傳輸?shù)目倳r(shí)長。

圖9表示4種決策算法下的決策成功率。由圖9可知，在前2 000回合左右，D-DDQN算法同AC算法相比，平均決策成功率相差不大，這是因?yàn)锳C-AJ算法不需要經(jīng)驗(yàn)池回放數(shù)據(jù)，更快決定抗干擾策略，但是由于狀態(tài)不穩(wěn)定，所以波動較大，決策成功率相對較低。而基于D-DDQN的TFDJ-AJ算法在2 500回合之后逐漸收斂至95%以上，這說明D-DDQN算法能夠一定程度避免局部最優(yōu)，達(dá)到較好的抗干擾性能。

圖9 基于不同智能決策算法的決策成功率曲線Fig.9 Comparison of decision success rate based on different intelligent decision algorithms

圖10表示基于不同貪婪策略更新的決策算法在前 10 000回合下決策成功率。由圖10可知，在不同的貪婪因子設(shè)定的情況下，在前2 000回合左右，基于D-DDQN的TFDJ-AJ算法低于利用固定值進(jìn)行策略更新的決策成功率，這是因?yàn)樗惴▌討B(tài)調(diào)整值，前期具有較強(qiáng)的隨機(jī)性，成功率相對較低，但是收斂速度加快。在固定值的決策下，隨著值逐漸增大，收斂后的平均決策成功率逐漸降低，而在3 000回合之后，利用動態(tài)策略改進(jìn)的D-DDQN算法性能提升至95%以上，這再次證明了D-DDQN策略較好的性能。

圖10 基于不同ε策略的決策成功率曲線Fig.10 Based on different ε comparison of decision success rate of strategies

為了驗(yàn)證算法的泛化性，評估算法在更復(fù)雜場景下的性能，仿真改變表1中的通信場景，設(shè)定無人機(jī)信號傳輸帶寬為60 MHz，信道個(gè)數(shù)=60。無人機(jī)傳輸功率為-10 dBm，干擾機(jī)功率為-5 dBm。

圖11表示在更加復(fù)雜的通信場景下4種決策算法的決策成功率。輸入神經(jīng)元數(shù)量根據(jù)信道變化大大增加，網(wǎng)絡(luò)重新訓(xùn)練所需要的時(shí)間增加，因此決策算法在第3 000回合左右達(dá)到收斂狀態(tài)，基于D-DDQN的TFDJ-AJ算法在 3 500回合之后逐漸收斂至92%以上。綜合2個(gè)通信場景的決策成功率收斂性能對比，發(fā)現(xiàn)通信場景越復(fù)雜，本文中所提算法相較于AC-AJ算法優(yōu)勢越明顯。因?yàn)閺?fù)雜信道模型下，只要將D-DDQN網(wǎng)絡(luò)的神經(jīng)元參數(shù)進(jìn)行調(diào)整，就能夠解決當(dāng)前的決策問題，雖然計(jì)算復(fù)雜度增加，但是算法仍然收斂較為快速準(zhǔn)確，說明該模型運(yùn)用到單個(gè)無人機(jī)通信一般場景依然有效。

圖11 改變通信場景后決策成功率曲線Fig.11 Comparison of decision success rate after changing the communication scenario

5 結(jié)論

1) 針對軍用無人機(jī)面臨高動態(tài)干擾時(shí)需要同時(shí)滿足靈活控制時(shí)間傳輸長短和處理大規(guī)模狀態(tài)空間的問題，提出時(shí)頻域聯(lián)合認(rèn)知抗干擾算法。以D-DDQN算法為基礎(chǔ)架構(gòu)，根據(jù)獎勵動態(tài)更新貪婪策略，提高了算法的收斂性，解決值過估計(jì)問題。

2) 在此基礎(chǔ)上，將信道選擇和傳輸持續(xù)時(shí)間聯(lián)合調(diào)度，以通信效用值為優(yōu)化目標(biāo)，通過切換信道防止惡意干擾，選擇最佳傳輸時(shí)間最大化系統(tǒng)利用率。

3) 通過仿真證明所提算法整體抗干擾性能較好，在抗干擾的同時(shí)避免了頻繁切換信道造成的能量損失，較好地滿足實(shí)際需求。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡