国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

干擾攻擊下基于MAPPO的電視頻譜資源分配研究

2024-04-28 12:28劉明軒
電視技術(shù) 2024年3期
關(guān)鍵詞:發(fā)射功率時隙吞吐量

趙 越,楊 亮,劉明軒

(福州大學(xué) 電氣工程與自動化學(xué)院,福建 福州 350108)

0 引言

隨著通信技術(shù)的發(fā)展,電視數(shù)量指數(shù)逐漸增長,有限的電視頻譜資源難以滿足現(xiàn)階段的頻譜需求。認(rèn)知無線電(Cognitive Radio,CR)技術(shù)可以解決設(shè)備增長和頻譜利用率低之間的矛盾[1]。此外,許多無線網(wǎng)絡(luò)設(shè)備電池容量小,無法滿足設(shè)備長時間通信,傳統(tǒng)的電池方案不能很好地解決此類問題。射頻能量采集(Energy Harvesting,EH)技術(shù)可以從周圍的射頻信號中獲取電磁能量,并將其轉(zhuǎn)換成電能存儲到電池中,延長電池壽命[2]。因此,基于能量采集的認(rèn)知無線(Energy Harvesting-Cognitive Radio,EH-CR)網(wǎng)絡(luò)在現(xiàn)階段無線通信具有很大的優(yōu)勢和潛力。

但是,EH-CR網(wǎng)絡(luò)因其具有開放性,容易受到干擾攻擊。連續(xù)的干擾信號會使信噪比惡化,導(dǎo)致網(wǎng)絡(luò)通信中斷,因此網(wǎng)絡(luò)資源分配成為一個關(guān)鍵問題。WANG等[3]通過將抗干擾策略建模為馬爾可夫博弈,設(shè)計了可以避免干擾信號的最佳通信策略,但由于節(jié)點(diǎn)的發(fā)射功率保持固定,在資源有限的EH-CR網(wǎng)絡(luò)中實(shí)現(xiàn)該策略比較困難。CHANG等[4]研究了分布式網(wǎng)絡(luò)的動態(tài)頻譜接入策略,利用遞歸神經(jīng)網(wǎng)絡(luò)和儲層計算來實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL),使次用戶(Secondary Users,SUs)根據(jù)當(dāng)前和過去的信道感知結(jié)果,獨(dú)立做出接入信道的決策,但沒有考慮受到干擾攻擊的情況。本文研究了干擾攻擊下EH-CR網(wǎng)絡(luò)中SUs的聯(lián)合信道和功率分配策略,旨在最大化SUs的平均吞吐量,同時避免了SUs發(fā)射功率保持恒定的缺陷。

1 系統(tǒng)模型

建立一個EH-CR網(wǎng)絡(luò)通信模型,如圖1所示。模型中包含N個主用戶(Primary Users,PUs)和1個主用戶基站(Primary user Base Station,PBS);M對SUs包含發(fā)射機(jī)、接收機(jī)以及R個惡意用戶(Malicious Users,MUs),MUs通過一定的攻擊策略干擾SUs的通信??紤]該網(wǎng)絡(luò)共有N個無線信道,PUs具有信道優(yōu)先使用權(quán),但只允許在相應(yīng)的信道上進(jìn)行傳輸,PUs信道狀態(tài)轉(zhuǎn)換遵循兩維馬爾可夫鏈。SUs發(fā)射機(jī)采用混合方式接入空閑頻譜,定義SUi為第i個SUs,如果SUi感知到信道n空閑,則以Interwave方式接入,否則以Underlay方式接入。本文假設(shè)SUs可以完美感知,用Ii,n∈{0(空閑),1(占用)}表示SUi在t時隙感知到的信道n的狀態(tài),Ii,n=0表示PU不存在,信道空閑,Ii,n=1表示PU存在,信道繁忙。則時隙t時SUs的頻譜感知集合S(t)={S1(t),S2(t),…,SM(t)},其中Si(t)=[Ii,1,Ii,2,…,Ii,N]。

圖1 干擾攻擊下EH-CR網(wǎng)絡(luò)模型

1.1 信道模型

SUj表示第j個SUs,PUn表示第n個PUs,MUr表示第r個MUs,用dii表示SUi發(fā)射機(jī)和接收機(jī)之間的距離,dji表示SUj發(fā)射機(jī)對SUi接收機(jī)的干擾距離,dni和dri分別表示PUn和MUr對SUi接收機(jī)的干擾距離,其中i∈{1,2,…,M},j∈{1,2,…,M}且j≠i,n∈{1,2,…,N},r∈{1,2,…,R}。本文采用WINNER II信道模型計算傳輸過程中的路徑損耗[5],同時采用Rician模型推導(dǎo)出信道模型,描述為g=|h|2,因此可以得到gii、gji、gni和gki,它們分別代表SUi、SUj發(fā)射機(jī)、PUn、MUr與SUi接收機(jī)之間的信道增益,則SUs在時隙t的信道增益集合表示為G(t)={G1(t),G2(t),…,GM(t)},其中Gi(t)=[gii,gji,gni,gri]。

1.2 能量模型

每對SUs均具備EH功能,但不能同時在采集和傳輸狀態(tài)工作,當(dāng)前采集到的能量存儲到電池中并在后續(xù)的時隙使用。在時隙開始階段,SUi獨(dú)立感知N個信道,由于頻譜資源的限制,每個時隙只能選擇一個信道接入且每個信道只允許接入一個SUs,當(dāng)有多個SUs接入時會造成通訊失敗。用fi(t)和Pi(t)分別表示SUi發(fā)射機(jī)在時隙t選擇接入的信道及其功率,設(shè)SUi最大接入功率為Pmax,則fi(t)∈(0,N],Pi(t)∈[0,Pmax]。用Hi(t)作為SUi的工作狀態(tài)指示器,Hi(t)∈{1,0},1表示頻譜接入,0表示能量采集。感知結(jié)束后,SUi根據(jù)觀測信息調(diào)節(jié)接入動作和發(fā)射功率,若Pi(t)>0,表示SUi采取接入動作,此時Hi(t)=1;若Pi(t)=0,表示SUi采取能量采集動作,此時Hi(t)=0。

SUs的時隙結(jié)構(gòu)圖如圖2所示。圖2中SUs的單個時隙長度為T,Ts為總時隙數(shù),τ為頻譜感知時間,T-τ是數(shù)據(jù)傳輸或能量采集所消耗的時間,SUi感知時間τ和消耗的能量eτ是固定的,不存在其他消耗。在工作時,SUs可以從PUs和MUs以及其他SUs處獲取射頻能量。設(shè)PUs的發(fā)射功率為Pp,則t時隙SUi采集到的射頻能量Ei(t)表示為

圖2 SUs的時隙結(jié)構(gòu)圖

式中:η是能量轉(zhuǎn)換效率,Pi(t)是SUj的發(fā)射功率,N(t)是PUs占用信道數(shù)量,Pr(t)是MUr的干擾功率。

在電池更新階段,只有感知和傳輸階段消耗能量。設(shè)SUs電池的最大容量為Bmax,Bi(t)表示SUi的電池狀態(tài),Bi(t)∈[0,Bmax],則SUs的電池狀態(tài)集合B(t)={B1(t),B2(t),…,BM(t)}?;诖?,可以得到SUi的電池狀態(tài)更新表達(dá)式,即為

1.3 攻擊模型

MUr在時隙開始選擇一個攻擊信道,表示為lr(t),Pr(t)為其干擾功率,Pr(t)∈[0,P jmax],其中P jmax表示最大干擾功率。同時,用Jr(t)=∈{0,1}表示干擾狀態(tài),當(dāng)Jr(t)=0,表示MUr干擾失敗,信道上無SUs活動;當(dāng)Jr(t)=1,表示MUr干擾成功。

本文考慮了2種干擾模式:一是隨機(jī)干擾,即MUr在時隙開始時隨機(jī)選擇一個信道進(jìn)行干擾;二是反應(yīng)掃描干擾。反應(yīng)掃描干擾在文獻(xiàn)[6]中被提出,干擾機(jī)在時隙開始時選擇空閑信道進(jìn)行干擾,并觀察該信道是否存在SUs活動,若存在則持續(xù)干擾直至?xí)r隙結(jié)束[6]。如果沒有檢測到SUs的活動,若當(dāng)前掃描周期結(jié)束則會開始新的掃描周期,否則會繼續(xù)干擾下一個信道直至掃描周期結(jié)束。

1.4 問題陳述

基于以上模型分析,將SUi接收機(jī)在時隙t接收到的信號與干擾加噪聲比(Signal to Interference plus Noise Ratio,SINR)χi(t)的表達(dá)式為

式中:Pi(t)是SUi的發(fā)射功率,n是噪聲功率。

在時隙t處,SUs網(wǎng)絡(luò)瞬時總吞吐量r(t)可以用采樣公式表示,數(shù)學(xué)表達(dá)式為

式中:W是信道帶寬。

本文的目的是實(shí)現(xiàn)干擾攻擊下的SUs的最大平均吞吐量。優(yōu)化問題可以表示為

式中:第一個條件表示接收機(jī)接收到的信號的SINR必須大于最低SINR要求,第二個條件表示電池剩余能量必須不得小于傳輸消耗的能量,第三個條件表示當(dāng)PUs占用信道時,SUs的發(fā)射功率必須小于閾值Pthreshold,以防止對PUs造成干擾,第四個條件表示SUs之間不能選擇同一信道進(jìn)行傳輸,以避免沖突,第五個條件表示SUs的信道和功率值不能超過限定范圍。

2 干擾攻擊下基于多智能體的資源分配

考慮到優(yōu)化問題之間的耦合關(guān)系,本文設(shè)計了一種高效、簡單的基于多智能體近端策略優(yōu)化(Multi-Agent Proximal Policy Optimization,MAPPO)的資源分配方法。每個SU都是一個獨(dú)立的Agent,共同目標(biāo)是使干擾攻擊下SUs的平均吞吐量最大化。這種多Agent任務(wù)被稱作部分可觀測馬爾科夫決策(Partially Observable Markov Decision Process,POMDP),由{S,A,O,R,P}五元組構(gòu)成。其中,S表示環(huán)境中的全局狀態(tài)空間,A={at1,at2,…,atM}表示Agents動作集合,表示Agents觀測集合,R={Rt1,Rt2,…,RtM}表示Agents獎勵集合,P表示狀態(tài)轉(zhuǎn)移概率函數(shù)。多Agent任務(wù)中基本元素的詳細(xì)解釋如下。

第一,Agents。每個SU都是一個Agent,Agents僅根據(jù)觀測信息獨(dú)立做出動作決策,與環(huán)境進(jìn)行交互。

第二,狀態(tài)空間S。S由Agents的頻譜感知集合S(t)、信道增益集合G(t)以及電池狀態(tài)集合B(t)組成,表達(dá)式為

第三,局部觀測空間oti。oti表示SUi在t時隙的觀測空間,由譜感知集合Si(t)、信道增益集合Gi(t)以及自身電池水平Bi(t)組成,表達(dá)式為

第四,動作空間ati。Agent根據(jù)觀測做出信道選擇fi(t)和功率分配動作Pi(t),為了符合實(shí)際環(huán)境和方便,將發(fā)射功率平均離散為ζ個等級,即Pi(t)∈[0,Pi,1(t),Pi,2(t),…,Pi,ζ-1(t)],其中Pi,ζ-1(t)=Pmax,則動作空間ati的表達(dá)式為

第五,獎勵Rti。Rti是衡量Agents在給定狀態(tài)下采取的動作策略的影響??紤]到式(5)的優(yōu)化問題,對獎勵Rti做出如下設(shè)定:當(dāng)SUi傳輸成功,Rti=ri(t),即Rti為SUi獲得的吞吐量;當(dāng)SUi遭受攻擊時選擇工作在能量采集模式,則Rti=C,C為固定常數(shù);當(dāng)SUi干擾PUs或與其他SUs發(fā)生沖突時,Rti=-C;其他情況下,SUi獎勵皆為0。

3 基于MAPPO的資源分配設(shè)計

MAPPO算法采用Actor-Critic架構(gòu),并引入新的裁剪替代函數(shù),避免對目標(biāo)值進(jìn)行過度修改,新的裁剪替代損失函數(shù)LtCLIP(θ)為[7]

式中:θ為Actor網(wǎng)絡(luò)的參數(shù),rt(θ)為新策略與舊策略的比值;為泛化優(yōu)勢估計(General Advantage Estimation,GAE),clip(·)是裁剪函數(shù),引入該函數(shù)的目的是限制rt(θ),ε為截斷因子,ε∈[0,1]。

泛化優(yōu)勢估計用于估計在狀態(tài)s下采取動作a相對于平均動作的優(yōu)勢,其數(shù)學(xué)表達(dá)式為

式中:δt為t時刻時間差分誤差,γ為折扣因子,λ為學(xué)習(xí)率,δt+1為t+1時刻時間差分誤差,δTs-1為Ts-1時刻時間差分誤差。

t時刻時間差分誤差的數(shù)學(xué)表達(dá)式為

式中:rt為獎勵,V?(st+1)是t+1時刻Critic網(wǎng)絡(luò)的價值函數(shù),V?(st)是t時刻Critic網(wǎng)絡(luò)的價值函數(shù),表達(dá)式為

Critic網(wǎng)絡(luò)的參數(shù)用?表示,Critic網(wǎng)絡(luò)通過梯度下降方式和損失函數(shù)更新,損失函數(shù)LtVF(?)的表達(dá)式為

式中,y(t)是目標(biāo)值函數(shù),表示為y(t)=rt+γV?(st+1)。

在MAPPO算法中,損失函數(shù)將策略代理項和值函數(shù)誤差項相結(jié)合,并使用熵加成來增加探索力度,因此總的目標(biāo)函數(shù)LtCLIP+VF+S(θ)可以描述為

式中,c1和c2均為系數(shù),S[πθ](st)為狀態(tài)st下策略πθ的熵。

MAPPO框架包含M個Agents,每個Agent執(zhí)行近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法,通過可以觀測到全局信息的Critic網(wǎng)絡(luò)來指導(dǎo)Actor網(wǎng)絡(luò)訓(xùn)練。Actor網(wǎng)絡(luò)的輸入為每個SU的局部觀測,輸出的是一個與動作空間中每個動作相對應(yīng)的概率列表,這些概率構(gòu)成了一個分布,因此可以對動作進(jìn)行采樣。Critic網(wǎng)絡(luò)可以評估Actor網(wǎng)絡(luò)采取的行動是否符合預(yù)期反饋,在訓(xùn)練完成后得到最優(yōu)策略,在執(zhí)行階段各Agents之間無須進(jìn)行內(nèi)部信息交換,也不需要進(jìn)行隨機(jī)探索,根據(jù)自己的局部觀測即可采取最優(yōu)動作,具體算法流程如下。

初始化:初始化EH-CR網(wǎng)絡(luò)中所有參數(shù),初始化MAPPO參數(shù),設(shè)置學(xué)習(xí)率lr,初始化經(jīng)驗(yàn)池D

4 仿真結(jié)果與分析

本節(jié)驗(yàn)證所提方法的有效性。考慮到EH-CR網(wǎng)絡(luò)存在10個PUs、10個正交信道、4對SUs以及3個MUs,PUs的狀態(tài)轉(zhuǎn)換概率為0.6,PUs、SUs、MUs的位置隨機(jī)分布在200 m×200 m的區(qū)域內(nèi),SUs的接收機(jī)和發(fā)射機(jī)的距離為40~60 m。本文將SUs發(fā)射機(jī)功率平均離散化為8個等級,Pmax=24 mW,除特殊說明外,其余模擬參數(shù)設(shè)置如表2所示。

表2 模擬參數(shù)設(shè)置

為驗(yàn)證提出的方法在資源分配方面的有效性,將本文方法與文獻(xiàn)[4]中的MADQN-RC方法進(jìn)行對比。在文獻(xiàn)[4]中,CHANG等將儲層計算引入深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)算法,用RC網(wǎng)絡(luò)代替Q網(wǎng)絡(luò),解決梯度消失和爆炸問題。其中,RC網(wǎng)絡(luò)的神經(jīng)元數(shù)目為256,學(xué)習(xí)率為0.000 1,激活函數(shù)為ReLU(·),使用Adam優(yōu)化器迭代訓(xùn)練更新網(wǎng)絡(luò)權(quán)重,迭代次數(shù)為3 000次。

本文所提MAPPO方法使用Adam優(yōu)化器迭代訓(xùn)練更新網(wǎng)絡(luò)權(quán)重,Actor和Critic網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.000 1和0.000 5,截斷因子ε=0.2,折扣因子γ=0.9。具體仿真結(jié)果如下。

圖3為兩種方法在隨機(jī)干擾和反應(yīng)掃描干擾這兩種不同干擾攻擊情況下的表現(xiàn)情況,時隙數(shù)量Ts=100,Bmax=1 J。在不同情況下,兩種方法的平均吞吐量雖然因受到動態(tài)環(huán)境特征和策略探索的影響而出現(xiàn)波動,但都隨著迭代次數(shù)的增加而趨于穩(wěn)定,證明了兩種方法的收斂性,本文方法在迭代了1 000次左右進(jìn)入收斂狀態(tài),比文獻(xiàn)[4]方法快了2.4倍。這是因?yàn)楸疚姆椒ú捎媒瞬呗詢?yōu)化,使得更新步幅更加平穩(wěn),有助于網(wǎng)絡(luò)加速收斂。相比之下,文獻(xiàn)[4]方法是基于Q值的更新方法,需要通過Q值的估計來更新策略,會導(dǎo)致訓(xùn)練不穩(wěn)定和慢收斂。

圖3 不同干擾攻擊下兩種方法的平均吞吐量

由圖3可以看出,無論哪種干擾情況,本文方法比文獻(xiàn)[4]方法具有更高的平均吞吐量。在隨機(jī)干擾下,本文方法的平均吞吐量比文獻(xiàn)[4]方法提高了62.15%;在反應(yīng)掃描干擾下,盡管本文方法的平均吞吐量下降了26.19%,但仍比文獻(xiàn)[4]方法提高了52.66%。

通過與傳統(tǒng)接入模式比較來評估混合頻譜接入模式的性能,結(jié)果如圖4所示。在不存在攻擊且算法、時隙和電池容量等相同的情況下,本文采用的模式能夠獲得最高的吞吐量,比底層模式提高了14.95%,比交織模式提高了34.54%。這是因?yàn)樵诨旌项l譜接入模式下,當(dāng)PUs存在時,SUs可以以限定功率接入信道,否則就以高功率接入信道,以此實(shí)現(xiàn)最大的頻譜利用率,使SUs網(wǎng)絡(luò)的平均吐量最大。

圖4 不同信道接入模式對比(Ts=100、Bmax=1 J)

通過計算平均吞吐量與平均獎勵的差值來分析本文提出方法的性能,如圖5所示。通過圖5可以看出,在算法收斂前差值為正,表明此時處在迭代學(xué)習(xí)階段,為了對動作進(jìn)行充分探索,獲取更大的獎勵,SUs會通過發(fā)生碰撞和干擾PUs的動作而遭受懲罰。在充分探索后,無攻擊模式下算法收斂至0,表明獲得的獎勵即為吞吐量,即SUs彼此可以完美避開且不對PUs產(chǎn)生干擾。若SUs在攻擊信道選擇能量采集,會獲得固定獎勵常數(shù),此項是刺激算法能夠更好學(xué)習(xí)未知的干擾模式,因此在隨機(jī)和反應(yīng)掃描攻擊模型下會出現(xiàn)差值為負(fù)的現(xiàn)象。這表明MAPPO算法可以學(xué)習(xí)到未知干擾模型,在攻擊信道選擇能量采集,避免遭受干擾攻擊。同時,又因?yàn)榉磻?yīng)掃描比隨機(jī)攻擊的攻擊性更強(qiáng),所以反應(yīng)掃描攻擊的差值小于隨機(jī)攻擊。

圖5 平均吞吐量與獎勵差值(Ts=100、Bmax=1 J)

5 結(jié)語

本文提出了一種干擾攻擊下聯(lián)合信道和功率分配以實(shí)現(xiàn)EH-CR網(wǎng)絡(luò)中SUs用戶平均吞吐量最大化的方法。利用馬爾科夫決策過程(Markov decision process,MDP)和DRL工具將這個NPhard問題轉(zhuǎn)化為多智能體深度強(qiáng)化學(xué)習(xí)問題,提出了一種基于MAPPO的聯(lián)合信道和功率的資源分配方法,并在仿真中使用平均吞吐量和迭代過程來評估所提方法的性能。模擬仿真結(jié)果表明,所提方法在隨機(jī)和反應(yīng)掃描干擾情況下,可將SUs的平均吞吐量分別提高62.15%和52.66%。

猜你喜歡
發(fā)射功率時隙吞吐量
復(fù)用段單節(jié)點(diǎn)失效造成業(yè)務(wù)時隙錯連處理
放大轉(zhuǎn)發(fā)中繼器降低發(fā)射功率的選擇策略研究
淺談AC在WLAN系統(tǒng)中的應(yīng)用
2017年3月長三角地區(qū)主要港口吞吐量
2016年10月長三角地區(qū)主要港口吞吐量
2016年11月長三角地區(qū)主要港口吞吐量
基于功率分配最優(yōu)中繼選擇的研究
一種高速通信系統(tǒng)動態(tài)時隙分配設(shè)計
時隙寬度約束下網(wǎng)絡(luò)零售配送時隙定價研究
基于TDMA的無沖突動態(tài)時隙分配算法