国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的無人機(jī)通信抗干擾算法

2022-11-01 11:43:48張惠婷劉敏提丁元明
兵器裝備工程學(xué)報(bào) 2022年10期
關(guān)鍵詞:時(shí)隙頻域信道

張惠婷,張 然,2,劉敏提,丁元明

(1.遼寧省通信網(wǎng)絡(luò)與信息處理重點(diǎn)實(shí)驗(yàn)室, 遼寧 大連 116622; 2.大連大學(xué)信息工程學(xué)院, 遼寧 大連 116622; 3.西安電子科技大學(xué)雷達(dá)信號處理國家實(shí)驗(yàn)室, 西安 710071)

1 引言

無人機(jī)作戰(zhàn)是未來戰(zhàn)場上至關(guān)重要的一部分,但是在通信環(huán)境面臨智能性干擾的情況下,要確保信息安全可靠的進(jìn)行傳輸就成為一項(xiàng)挑戰(zhàn),因此無人機(jī)通信系統(tǒng)抗干擾研究至關(guān)重要。

為了有效對抗智能干擾,提高無人機(jī)系統(tǒng)通信質(zhì)量,目前研究熱點(diǎn)方向?yàn)闊o人機(jī)認(rèn)知抗干擾。認(rèn)知抗干擾目前主要通過智能決策算法對抗智能干擾,智能決策大致有兩類:一類基于功率域抗干擾角度,智能體的發(fā)射功率可以根據(jù)干擾方發(fā)射功率進(jìn)行調(diào)整來應(yīng)對攻擊。文獻(xiàn)[4-6]在干擾功率不大的情況下,基于博弈理論,根據(jù)博弈雙方的競爭關(guān)系,建立認(rèn)知抗干擾網(wǎng)絡(luò)模型,求出博弈均衡,獲得用戶最佳發(fā)射功率。另一類是基于頻域抗干擾的角度,利用強(qiáng)化學(xué)習(xí)選擇安全信道,規(guī)避干擾信道。文獻(xiàn)[8]將信道選擇問題建模為多臂賭博機(jī)模型(MAB),選擇最小的臂對應(yīng)的信道進(jìn)行通信,但是不滿足信道非獨(dú)立的實(shí)際情況,文件[9]在MAB理論的基礎(chǔ)上提出碰撞規(guī)避上屆置信算法(UCB)的信道選擇改進(jìn),在電臺頻譜接入問題中有效降低了碰撞概率和悔恨值,但是前期訓(xùn)練碰撞需要耗時(shí)。文獻(xiàn)[10]基于協(xié)作Q學(xué)習(xí)(Q learning,QL)進(jìn)行信道選擇,雖然提高了數(shù)據(jù)傳輸安全容量,但算法收斂速度較慢。文獻(xiàn)[11]利用深度Q網(wǎng)絡(luò)(deep Q network,DQN)進(jìn)行安全信道選擇,累計(jì)獎勵值高于QL算法,但是DQN由于Q值估計(jì)過高導(dǎo)致收斂速度減慢、估值失真。文獻(xiàn)[12]在集中式訓(xùn)練環(huán)境下通過競爭性深度Q網(wǎng)絡(luò)算法和優(yōu)先經(jīng)驗(yàn)回放技術(shù)以提高信道選擇算法的效率,但信道數(shù)量較多時(shí)碰撞效率提升較大。在信道數(shù)量較大的情況下,文獻(xiàn)[13-14]基于演員-評論員(actor-critic,AC)算法選擇安全信道,但該算法的Actor與Critic網(wǎng)絡(luò)實(shí)時(shí)更新數(shù)據(jù),導(dǎo)致2個(gè)網(wǎng)絡(luò)依賴性較強(qiáng),算法穩(wěn)定性較低。

針對智能性干擾攻擊靈活性較差的問題,多域聯(lián)合抗干擾方式被提出。文獻(xiàn)[16]考慮功率域和頻域,首先基于Stackelberg博弈從功率域判斷受干擾情況,再分別利用頻域進(jìn)行MAB算法進(jìn)行信道選擇,文獻(xiàn)[17]同樣將受干擾分為是輕度、中度以及嚴(yán)重程度,中度干擾從功率域博弈論角度出發(fā),輕度干擾從優(yōu)化AC算法的頻域角度進(jìn)行信道選擇避免干擾。但是以上算法從頻域及功率域角度考慮,在干擾嚴(yán)重情況下,功率域抗干擾效果不佳,占用大量的頻譜資源,并且用戶傳輸時(shí)長固定,無法滿足無人機(jī)高動態(tài)運(yùn)行下對傳輸時(shí)間靈活性的要求。

基于以上抗干擾不同角度的分析,本文中將頻域和時(shí)域結(jié)合,提出一種基于動態(tài)深度雙Q學(xué)習(xí)(dynamic-deep double Q learning,D-DDQN)的無人機(jī)時(shí)頻域聯(lián)合認(rèn)知抗干擾(time-frequency domain joint cognitive anti-jamming,TFDJ-AJ)算法。該方法首先利用能量檢測法得到當(dāng)前回合的干擾判別信息,然后優(yōu)化DDQN的貪婪策略,將實(shí)際傳輸獎勵反饋給貪婪因子,進(jìn)行動態(tài)DDQN決策,最后把信道選擇和傳輸持續(xù)時(shí)間決策問題轉(zhuǎn)換為序貫決策問題,通過智能決策進(jìn)行最佳傳輸,實(shí)現(xiàn)時(shí)頻域聯(lián)合抗干擾,有效提高無人機(jī)系統(tǒng)通信安全容量。

2 無人機(jī)通信模型

2.1 系統(tǒng)模型

無人機(jī)通信抗干擾模型如圖1所示??紤]由一個(gè)無人機(jī)、一個(gè)接收機(jī)和一個(gè)干擾機(jī)組成的通信系統(tǒng)。無人機(jī)向接收機(jī)發(fā)送數(shù)據(jù),干擾機(jī)釋放干擾信號,進(jìn)行無人機(jī)通信破壞。系統(tǒng)模型中共有(>1)個(gè)信道,定義={1,2,…,}為信道集,在通信過程中,用戶傳輸持續(xù)時(shí)間是可變的。

圖1 通信抗干擾模型示意圖Fig.1 Communication model

2.2 干擾及檢測模型

無人機(jī)通信系統(tǒng)的干擾端用表示,干擾端通過不定期調(diào)整干擾方式來干擾和破壞用戶通信網(wǎng)絡(luò)。代表干擾頻率范圍,代表無人機(jī)傳輸頻率范圍。為了簡化分析,設(shè)置=,并用代表用戶傳輸帶寬,則可以計(jì)算出無人機(jī)信道集的數(shù)量,如式(1)所示。

(1)

基于能量檢測法建立一個(gè)干擾檢測模型,如式(2)所示。每個(gè)信道對應(yīng)頻率設(shè)置一個(gè)帶通濾波器,對不同頻率信號進(jìn)行濾波,得到檢測模型H,計(jì)算每個(gè)頻率上的信號功率。

(2)

其中:[]表示當(dāng)前信號;[]表示通信信號;[]表示干擾信號。

通過寬帶頻譜感知中的能量檢測法來檢測干擾信息,()代表每個(gè)頻率信號能量,代表門限值,判別干擾信號能量,如式(3)所示。若()高于則認(rèn)為當(dāng)前存在干擾,屬于H,否則屬于H或H,然后將每個(gè)頻率是否存在干擾信號的判別信息輸入至D-DDQN智能決策模型。

(3)

2.3 信道模型

檢測到信道中的干擾后,就可以在信道內(nèi)避開干擾進(jìn)行通信。在通信過程中,接收端根據(jù)能量檢測感知干擾信道信息對安全信道和傳輸持續(xù)時(shí)間進(jìn)行決策,然后將上一步完成的決策信息以確認(rèn)字符(acknowledge character,ACK)的形式送回發(fā)射端,表示確認(rèn)接收到正確決策成功通信。最后,無人機(jī)發(fā)射端根據(jù)新的傳輸策略在下一個(gè)時(shí)隙進(jìn)行通信。

將接收端信噪比定義如式(4)所示。

(4)

(5)

(6)

用戶更換安全通道的開銷為:

(7)

式中:表示信道切換系數(shù);()表示用戶在時(shí)刻采取的動作。無人機(jī)優(yōu)化目標(biāo)是最大化累計(jì)效用值來選擇抗干擾策略如下式所示:

(8)

式中,代表折扣因子,且∈(0,1)。

假設(shè)傳輸信道=5,傳輸時(shí)間長度等級=4,狀態(tài)和動作時(shí)頻傳輸如圖2所示。橫軸代表頻率,豎軸代表時(shí)隙。

圖2 干擾機(jī)與用戶時(shí)頻傳輸示意圖Fig.2 Schematic diagram of time-frequency transmission between jammer and user

在第-1個(gè)時(shí)隙信道狀態(tài)為[01100]。因?yàn)樾诺?足夠安全,所以從-2個(gè)時(shí)隙進(jìn)入-1個(gè)時(shí)隙時(shí)可從信道5跳轉(zhuǎn)到信道1,可以持續(xù)傳輸較長時(shí)間,由于信道1在時(shí)隙依然沒有干擾,那么傳輸可以在2個(gè)時(shí)隙都保持成功,此時(shí)獎勵最大;如果-2跳轉(zhuǎn)到-1時(shí)選擇信道4,那么持續(xù)傳輸時(shí)間等級依然保持最大,但在傳輸之后若不立即進(jìn)行信道跳轉(zhuǎn)就會受到干擾,即使下個(gè)時(shí)隙進(jìn)行信道跳轉(zhuǎn)也會消耗轉(zhuǎn)換信道的能量。

2.4 傳輸時(shí)隙模型

現(xiàn)有的通信傳輸時(shí)隙模型全部都是固定傳輸時(shí)長,但在無人機(jī)通信過程中,若傳輸時(shí)間過長則信號會被干擾,若傳輸時(shí)間太短則系統(tǒng)吞吐量性能較差。針對此問題,本文中建立用戶數(shù)傳輸時(shí)長可改變的時(shí)隙模型。

用戶有個(gè)傳輸持續(xù)時(shí)間可供選擇且傳輸時(shí)間集為={,,…,}。每個(gè)時(shí)隙可以根據(jù)信道狀態(tài)選擇傳輸?shù)燃墸瑐鬏敃r(shí)隙結(jié)構(gòu)如圖3所示。

圖3 數(shù)據(jù)傳輸時(shí)隙結(jié)構(gòu)示意圖Fig.3 Schematic diagram of data transmission process

代表干擾時(shí)長,代表無人機(jī)的傳輸時(shí)長,代表ACK傳輸?shù)臅r(shí)間長度,表示進(jìn)行能量檢測的時(shí)間長度。在通信開始時(shí)隙中,用戶根據(jù)獲取的原始頻譜信息隨機(jī)選擇傳輸信道和傳輸時(shí)長,接收端開始數(shù)據(jù)接收,接收完成后計(jì)算該操作的獎勵值。在下一個(gè)時(shí)間,用戶接收端進(jìn)行能量檢測,得到干擾信道信息。最后,用戶根據(jù)該信息進(jìn)行D-DDQN學(xué)習(xí),確定下一個(gè)時(shí)隙要選擇的傳輸信道和傳輸時(shí)長,并更新參數(shù)。在更新結(jié)束之后,接收端通過在時(shí)間內(nèi)發(fā)送ACK信號將判決信息反饋給無人機(jī)發(fā)射端。

3 多域聯(lián)合認(rèn)知抗干擾算法

3.1 基于ε動態(tài)更新D-DDQN優(yōu)化算法

3.1.1 強(qiáng)化學(xué)習(xí)框架

無人機(jī)抗干擾過程中,無法得知下一步狀態(tài)具體有哪幾步,狀態(tài)轉(zhuǎn)移概率未知,因此通常采用無監(jiān)督學(xué)習(xí)的QL算法求解,但狀態(tài)空間和動作空間較大時(shí),搜索值的時(shí)間增加,收斂速度降低,很難對所有動作進(jìn)行探索。DQN算法引入神經(jīng)網(wǎng)絡(luò)代替QL中的Q值表格,解決了狀態(tài)、動作空間不足的問題。式(9)表示值函數(shù)優(yōu)化目標(biāo):

(9)

式(9)每次都要選擇預(yù)測值最大的下一步動作,導(dǎo)致值估計(jì)過高。因此式(10)采用DDQN算法,更改DQN的網(wǎng)絡(luò)參數(shù)設(shè)置,改善標(biāo)簽過估計(jì)。

(10)

3.1.2 動態(tài)-greedy更新的D-DDQN算法

傳統(tǒng)DDQN一般將-greedy策略作為策略進(jìn)行訓(xùn)練更新,如式(11)所示。在該策略下,無人機(jī)隨機(jī)選擇動作的概率表示為,選擇值最大所對應(yīng)動作的概率表示為1-。

(11)

然而,取值固定就表示算法隨機(jī)性在所有回合中都相等。但是在實(shí)際過程中,起始狀態(tài)所需的隨機(jī)性和收斂狀態(tài)是不一樣的,固定取值的情況下,算法只能收斂到局部最優(yōu),并且不能維持穩(wěn)定的收斂狀態(tài)。

算法基于DDQN提出動態(tài)策略,根據(jù)獎勵值與迭代次數(shù)動態(tài)調(diào)整值,得到D-DDQN算法,如式(12)所示。動態(tài)調(diào)整過程為:選擇最大值所對應(yīng)的動作時(shí),增加選擇對應(yīng)動作的概率值;選擇其他動作時(shí),減少選擇對應(yīng)動作的概率值。首先初始化為1,在算法的每次迭代后,都相應(yīng)動態(tài)調(diào)整1次,直到減少到0。若前一回合受到干擾,那么≤0,減少值,降低策略的隨機(jī)性,加快算法的收斂速度;若前一回合安全傳輸,那么≥0,則值不變,原有的隨機(jī)性繼續(xù)保持。改進(jìn)后的策略更新過程如式(13)所示。其中表示在0~1內(nèi)隨機(jī)生成數(shù)。

(12)

(13)

圖4 智能決策框圖Fig.4 Intelligent decision framework

定義誤差函數(shù)(),如式(14)所示。采用梯度下降法對估值神經(jīng)網(wǎng)絡(luò)進(jìn)行更新。

(14)

3.2 基于D-DDQN的TFDJ-AJ算法

本文中將時(shí)頻域選擇同D-DDQN算法結(jié)合,將算法所需基本元素定義如下:

1) 狀態(tài)空間

所有通道的當(dāng)前狀態(tài)定義為,為1表示信道在當(dāng)前時(shí)刻與干擾信號產(chǎn)生沖突,為0表示沒有與干擾信號產(chǎn)生沖突,信道共有個(gè),則狀態(tài)集大小則為2。

2) 動作空間

將發(fā)射端在第個(gè)時(shí)隙的狀態(tài)下完成的動作選擇表示為=(,),其中是第個(gè)時(shí)隙的傳輸信道,是第個(gè)時(shí)隙的傳輸持續(xù)時(shí)間等級且滿足={1,2,…,},因此,動作空間大小定義為×。

表示無人機(jī)選擇信道的所有策略,根據(jù)當(dāng)前狀態(tài)和即時(shí)獎勵進(jìn)行動作選擇。信道索引如下式所示:

={,,,…,},()∈

(15)

3) 狀態(tài)轉(zhuǎn)移概率

由于強(qiáng)化學(xué)習(xí)中相鄰狀態(tài)之間存在相關(guān)性,將用戶在狀態(tài)條件下,執(zhí)行動作轉(zhuǎn)移到新狀態(tài)+1的轉(zhuǎn)移概率定義為:

={(+1|,)},+1,∈×

(16)

4) 獎勵函數(shù)

即時(shí)獎勵函數(shù)=(,,)代表第個(gè)時(shí)隙的狀態(tài)中執(zhí)行動作的獎勵,用式(8)來表示。

(17)

如式(18)和式(19)所示,通過梯度下降法更新,同時(shí)每經(jīng)過輪就同步回合目標(biāo)神經(jīng)網(wǎng)絡(luò)與估值神經(jīng)網(wǎng)絡(luò),由于不用實(shí)時(shí)更新目標(biāo)價(jià)值,因此可以減少選取目標(biāo)價(jià)值的相關(guān)性。

(18)

(19)

綜上所述,提出的基于D-DDQN時(shí)頻域聯(lián)合的認(rèn)知抗干擾算法(TFDJ-AJ)實(shí)現(xiàn)過程如下:

輸入:干擾判別樣式信息(),經(jīng)驗(yàn)池

輸出:最優(yōu)策略估計(jì),效用值函數(shù)

步驟1 建立估值神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò),經(jīng)驗(yàn)池,設(shè)置總回合數(shù);

步驟3 隨機(jī)選擇通信頻率和傳輸時(shí)長;

步驟4≤時(shí),重復(fù)執(zhí)行步驟5;

步驟5 獲得信道狀態(tài)集合

步驟6 按照式(13)計(jì)算更新值;

步驟7 根據(jù)D-DDQN算法選擇下一回合通信頻率和通信時(shí)長+1;

步驟8 根據(jù)所得的獎勵(,+1),決策下一回合的信道狀態(tài)集合+1

步驟9 將=(,+1,(,+1,),+1)存入經(jīng)驗(yàn)池中;

步驟10 從中隨機(jī)選取經(jīng)驗(yàn)樣本個(gè),代入到式(19)更新;

步驟12>時(shí),程序結(jié)束。

算法流程如圖5所示。

((+(-1)+))

(20)

圖5 基于D-DDQN的TFDJ-AJ算法流程框圖Fig.5 Flow chart of TFDJ-AJ algorithm based on D-DDQN

4 實(shí)驗(yàn)仿真與分析

為驗(yàn)證所提算法有效性,對系統(tǒng)獲得效用值、通信安全容量、決策成功率、狀態(tài)均方誤差指標(biāo)進(jìn)行仿真,其中,系統(tǒng)獲得效用值以及通信安全容量分別由式(8)和式(5)計(jì)算所得。仿真環(huán)境采用Pytorch 1.2.0深度學(xué)習(xí)框架與Matlab 2018a仿真平臺。模型參數(shù)設(shè)置如表1所示。

表1 模型參數(shù)Table 1 Model parameter settings

經(jīng)驗(yàn)池容量大小=10 000,小批量經(jīng)驗(yàn)樣本=32。設(shè)定傳輸帶寬為5 MHz,則信道個(gè)數(shù)=16。設(shè)定干擾模式有4種,一是掃頻干擾,每個(gè)傳輸時(shí)隙掃頻帶寬為500 kHz;二是梳狀譜干擾,每個(gè)傳輸時(shí)隙選擇8個(gè)干擾譜,每個(gè)干擾譜帶寬為1 MHz;三是左右掃頻干擾,每個(gè)頻帶上的干擾帶寬為250 kHz;四是智能型干擾,為以上3種干擾每隔20個(gè)傳輸時(shí)隙隨機(jī)切換一種。

圖6表示不同傳輸時(shí)間下智能決策獲得的效用值。由圖6可知,效用值根據(jù)不同的時(shí)間設(shè)定變化較大,因?yàn)槌掷m(xù)傳輸時(shí)間較長會增加系統(tǒng)受干擾的可能,持續(xù)傳輸時(shí)間較短會加劇傳輸能量的消耗,實(shí)際應(yīng)用中干擾機(jī)隨機(jī)變化干擾策略,很難確定一個(gè)最佳持續(xù)傳輸時(shí)間。同樣在D-DDQN算法架構(gòu)下,持續(xù)傳輸時(shí)間的不同,算法到達(dá)效用值限值的收斂速度是大致相同的,但TFDJ-AJ算法由于自適應(yīng)的選擇持續(xù)傳輸時(shí)長,避免了頻繁切換信道造成的能量損失,效用值表現(xiàn)最佳。

圖6 不同時(shí)間傳輸策略下效用值曲線Fig.6 Comparison of effective values under different time transmission strategies

圖7表示在時(shí)頻聯(lián)合基礎(chǔ)下4種決策算法的通信安全容量。由圖7可知,提出的TFDJ-AJ算法要優(yōu)于DQN-AJ與AC-AJ以及QL-AJ算法。TFDJ-AJ算法采用DDQN的架構(gòu),目標(biāo)值神經(jīng)網(wǎng)絡(luò)和估計(jì)值神經(jīng)網(wǎng)絡(luò)分別更新,與DQN-AJ算法和未使用網(wǎng)絡(luò)的QL-AJ算法相比,其算法收斂速度有明顯的提升,通信安全容量提高;同AC-AJ算法相比,雖然AC-AJ算法可以同時(shí)實(shí)現(xiàn)值函數(shù)的估計(jì)和動作的選擇,但是對于Actor和Critic網(wǎng)絡(luò)之間的依賴性太強(qiáng),收斂速度盡管有所提升,但網(wǎng)絡(luò)穩(wěn)定性較差。TFDJ-AJ算法利用動態(tài)策略將原本的貪婪策略進(jìn)行改進(jìn),增強(qiáng)了全局尋優(yōu)的能力,得到的數(shù)據(jù)可靠性更高,通信安全容量較AC-AJ算法提高了15%左右。

(21)

式中,||為信道系統(tǒng)狀態(tài)的個(gè)數(shù)。

圖7 不同算法的通信安全容量曲線Fig.7 Comparison of communication security capacity of different algorithms

圖8 狀態(tài)價(jià)值均方誤差曲線Fig.8 State value mean square error curve

為了驗(yàn)證所提算法抗干擾后的通信傳輸性能,定義決策成功率,如式(22)所示。

(22)

式中,為成功傳輸?shù)目倳r(shí)長。

圖9表示4種決策算法下的決策成功率。由圖9可知,在前2 000回合左右,D-DDQN算法同AC算法相比,平均決策成功率相差不大,這是因?yàn)锳C-AJ算法不需要經(jīng)驗(yàn)池回放數(shù)據(jù),更快決定抗干擾策略,但是由于狀態(tài)不穩(wěn)定,所以波動較大,決策成功率相對較低。而基于D-DDQN的TFDJ-AJ算法在2 500回合之后逐漸收斂至95%以上,這說明D-DDQN算法能夠一定程度避免局部最優(yōu),達(dá)到較好的抗干擾性能。

圖9 基于不同智能決策算法的決策成功率曲線Fig.9 Comparison of decision success rate based on different intelligent decision algorithms

圖10表示基于不同貪婪策略更新的決策算法在前 10 000回合下決策成功率。由圖10可知,在不同的貪婪因子設(shè)定的情況下,在前2 000回合左右,基于D-DDQN的TFDJ-AJ算法低于利用固定值進(jìn)行策略更新的決策成功率,這是因?yàn)樗惴▌討B(tài)調(diào)整值,前期具有較強(qiáng)的隨機(jī)性,成功率相對較低,但是收斂速度加快。在固定值的決策下,隨著值逐漸增大,收斂后的平均決策成功率逐漸降低,而在3 000回合之后,利用動態(tài)策略改進(jìn)的D-DDQN算法性能提升至95%以上,這再次證明了D-DDQN策略較好的性能。

圖10 基于不同ε策略的決策成功率曲線Fig.10 Based on different ε comparison of decision success rate of strategies

為了驗(yàn)證算法的泛化性,評估算法在更復(fù)雜場景下的性能,仿真改變表1中的通信場景,設(shè)定無人機(jī)信號傳輸帶寬為60 MHz,信道個(gè)數(shù)=60。無人機(jī)傳輸功率為-10 dBm,干擾機(jī)功率為-5 dBm。

圖11表示在更加復(fù)雜的通信場景下4種決策算法的決策成功率。輸入神經(jīng)元數(shù)量根據(jù)信道變化大大增加,網(wǎng)絡(luò)重新訓(xùn)練所需要的時(shí)間增加,因此決策算法在第3 000回合左右達(dá)到收斂狀態(tài),基于D-DDQN的TFDJ-AJ算法在 3 500回合之后逐漸收斂至92%以上。綜合2個(gè)通信場景的決策成功率收斂性能對比,發(fā)現(xiàn)通信場景越復(fù)雜,本文中所提算法相較于AC-AJ算法優(yōu)勢越明顯。因?yàn)閺?fù)雜信道模型下,只要將D-DDQN網(wǎng)絡(luò)的神經(jīng)元參數(shù)進(jìn)行調(diào)整,就能夠解決當(dāng)前的決策問題,雖然計(jì)算復(fù)雜度增加,但是算法仍然收斂較為快速準(zhǔn)確,說明該模型運(yùn)用到單個(gè)無人機(jī)通信一般場景依然有效。

圖11 改變通信場景后決策成功率曲線Fig.11 Comparison of decision success rate after changing the communication scenario

5 結(jié)論

1) 針對軍用無人機(jī)面臨高動態(tài)干擾時(shí)需要同時(shí)滿足靈活控制時(shí)間傳輸長短和處理大規(guī)模狀態(tài)空間的問題,提出時(shí)頻域聯(lián)合認(rèn)知抗干擾算法。以D-DDQN算法為基礎(chǔ)架構(gòu),根據(jù)獎勵動態(tài)更新貪婪策略,提高了算法的收斂性,解決值過估計(jì)問題。

2) 在此基礎(chǔ)上,將信道選擇和傳輸持續(xù)時(shí)間聯(lián)合調(diào)度,以通信效用值為優(yōu)化目標(biāo),通過切換信道防止惡意干擾,選擇最佳傳輸時(shí)間最大化系統(tǒng)利用率。

3) 通過仿真證明所提算法整體抗干擾性能較好,在抗干擾的同時(shí)避免了頻繁切換信道造成的能量損失,較好地滿足實(shí)際需求。

猜你喜歡
時(shí)隙頻域信道
復(fù)用段單節(jié)點(diǎn)失效造成業(yè)務(wù)時(shí)隙錯連處理
頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計(jì)
一種高速通信系統(tǒng)動態(tài)時(shí)隙分配設(shè)計(jì)
一種壓縮感知電力線信道估計(jì)機(jī)制
時(shí)隙寬度約束下網(wǎng)絡(luò)零售配送時(shí)隙定價(jià)研究
基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
基于改進(jìn)Radon-Wigner變換的目標(biāo)和拖曳式誘餌頻域分離
一種基于頻域的QPSK窄帶干擾抑制算法
一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
基于頻域伸縮的改進(jìn)DFT算法
電測與儀表(2015年3期)2015-04-09 11:37:24
伊吾县| 华安县| 永寿县| 习水县| 安达市| 贡山| 大荔县| 禹城市| 无为县| 红桥区| 保靖县| 伊通| 鹿泉市| 龙里县| 改则县| 贵德县| 株洲市| 格尔木市| 东山县| 荥阳市| 仙游县| 山阴县| 隆化县| 河东区| 新疆| 彭水| 白水县| 阳信县| 集贤县| 玛多县| 赣州市| 清苑县| 龙陵县| 揭西县| 凌海市| 合山市| 琼结县| 新乐市| 应用必备| 池州市| 邳州市|