趙 越,楊 亮,劉明軒
(福州大學(xué) 電氣工程與自動化學(xué)院,福建 福州 350108)
隨著通信技術(shù)的發(fā)展,電視數(shù)量指數(shù)逐漸增長,有限的電視頻譜資源難以滿足現(xiàn)階段的頻譜需求。認(rèn)知無線電(Cognitive Radio,CR)技術(shù)可以解決設(shè)備增長和頻譜利用率低之間的矛盾[1]。此外,許多無線網(wǎng)絡(luò)設(shè)備電池容量小,無法滿足設(shè)備長時間通信,傳統(tǒng)的電池方案不能很好地解決此類問題。射頻能量采集(Energy Harvesting,EH)技術(shù)可以從周圍的射頻信號中獲取電磁能量,并將其轉(zhuǎn)換成電能存儲到電池中,延長電池壽命[2]。因此,基于能量采集的認(rèn)知無線(Energy Harvesting-Cognitive Radio,EH-CR)網(wǎng)絡(luò)在現(xiàn)階段無線通信具有很大的優(yōu)勢和潛力。
但是,EH-CR網(wǎng)絡(luò)因其具有開放性,容易受到干擾攻擊。連續(xù)的干擾信號會使信噪比惡化,導(dǎo)致網(wǎng)絡(luò)通信中斷,因此網(wǎng)絡(luò)資源分配成為一個關(guān)鍵問題。WANG等[3]通過將抗干擾策略建模為馬爾可夫博弈,設(shè)計了可以避免干擾信號的最佳通信策略,但由于節(jié)點(diǎn)的發(fā)射功率保持固定,在資源有限的EH-CR網(wǎng)絡(luò)中實(shí)現(xiàn)該策略比較困難。CHANG等[4]研究了分布式網(wǎng)絡(luò)的動態(tài)頻譜接入策略,利用遞歸神經(jīng)網(wǎng)絡(luò)和儲層計算來實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL),使次用戶(Secondary Users,SUs)根據(jù)當(dāng)前和過去的信道感知結(jié)果,獨(dú)立做出接入信道的決策,但沒有考慮受到干擾攻擊的情況。本文研究了干擾攻擊下EH-CR網(wǎng)絡(luò)中SUs的聯(lián)合信道和功率分配策略,旨在最大化SUs的平均吞吐量,同時避免了SUs發(fā)射功率保持恒定的缺陷。
建立一個EH-CR網(wǎng)絡(luò)通信模型,如圖1所示。模型中包含N個主用戶(Primary Users,PUs)和1個主用戶基站(Primary user Base Station,PBS);M對SUs包含發(fā)射機(jī)、接收機(jī)以及R個惡意用戶(Malicious Users,MUs),MUs通過一定的攻擊策略干擾SUs的通信??紤]該網(wǎng)絡(luò)共有N個無線信道,PUs具有信道優(yōu)先使用權(quán),但只允許在相應(yīng)的信道上進(jìn)行傳輸,PUs信道狀態(tài)轉(zhuǎn)換遵循兩維馬爾可夫鏈。SUs發(fā)射機(jī)采用混合方式接入空閑頻譜,定義SUi為第i個SUs,如果SUi感知到信道n空閑,則以Interwave方式接入,否則以Underlay方式接入。本文假設(shè)SUs可以完美感知,用Ii,n∈{0(空閑),1(占用)}表示SUi在t時隙感知到的信道n的狀態(tài),Ii,n=0表示PU不存在,信道空閑,Ii,n=1表示PU存在,信道繁忙。則時隙t時SUs的頻譜感知集合S(t)={S1(t),S2(t),…,SM(t)},其中Si(t)=[Ii,1,Ii,2,…,Ii,N]。
圖1 干擾攻擊下EH-CR網(wǎng)絡(luò)模型
SUj表示第j個SUs,PUn表示第n個PUs,MUr表示第r個MUs,用dii表示SUi發(fā)射機(jī)和接收機(jī)之間的距離,dji表示SUj發(fā)射機(jī)對SUi接收機(jī)的干擾距離,dni和dri分別表示PUn和MUr對SUi接收機(jī)的干擾距離,其中i∈{1,2,…,M},j∈{1,2,…,M}且j≠i,n∈{1,2,…,N},r∈{1,2,…,R}。本文采用WINNER II信道模型計算傳輸過程中的路徑損耗[5],同時采用Rician模型推導(dǎo)出信道模型,描述為g=|h|2,因此可以得到gii、gji、gni和gki,它們分別代表SUi、SUj發(fā)射機(jī)、PUn、MUr與SUi接收機(jī)之間的信道增益,則SUs在時隙t的信道增益集合表示為G(t)={G1(t),G2(t),…,GM(t)},其中Gi(t)=[gii,gji,gni,gri]。
每對SUs均具備EH功能,但不能同時在采集和傳輸狀態(tài)工作,當(dāng)前采集到的能量存儲到電池中并在后續(xù)的時隙使用。在時隙開始階段,SUi獨(dú)立感知N個信道,由于頻譜資源的限制,每個時隙只能選擇一個信道接入且每個信道只允許接入一個SUs,當(dāng)有多個SUs接入時會造成通訊失敗。用fi(t)和Pi(t)分別表示SUi發(fā)射機(jī)在時隙t選擇接入的信道及其功率,設(shè)SUi最大接入功率為Pmax,則fi(t)∈(0,N],Pi(t)∈[0,Pmax]。用Hi(t)作為SUi的工作狀態(tài)指示器,Hi(t)∈{1,0},1表示頻譜接入,0表示能量采集。感知結(jié)束后,SUi根據(jù)觀測信息調(diào)節(jié)接入動作和發(fā)射功率,若Pi(t)>0,表示SUi采取接入動作,此時Hi(t)=1;若Pi(t)=0,表示SUi采取能量采集動作,此時Hi(t)=0。
SUs的時隙結(jié)構(gòu)圖如圖2所示。圖2中SUs的單個時隙長度為T,Ts為總時隙數(shù),τ為頻譜感知時間,T-τ是數(shù)據(jù)傳輸或能量采集所消耗的時間,SUi感知時間τ和消耗的能量eτ是固定的,不存在其他消耗。在工作時,SUs可以從PUs和MUs以及其他SUs處獲取射頻能量。設(shè)PUs的發(fā)射功率為Pp,則t時隙SUi采集到的射頻能量Ei(t)表示為
圖2 SUs的時隙結(jié)構(gòu)圖
式中:η是能量轉(zhuǎn)換效率,Pi(t)是SUj的發(fā)射功率,N(t)是PUs占用信道數(shù)量,Pr(t)是MUr的干擾功率。
在電池更新階段,只有感知和傳輸階段消耗能量。設(shè)SUs電池的最大容量為Bmax,Bi(t)表示SUi的電池狀態(tài),Bi(t)∈[0,Bmax],則SUs的電池狀態(tài)集合B(t)={B1(t),B2(t),…,BM(t)}?;诖?,可以得到SUi的電池狀態(tài)更新表達(dá)式,即為
MUr在時隙開始選擇一個攻擊信道,表示為lr(t),Pr(t)為其干擾功率,Pr(t)∈[0,P jmax],其中P jmax表示最大干擾功率。同時,用Jr(t)=∈{0,1}表示干擾狀態(tài),當(dāng)Jr(t)=0,表示MUr干擾失敗,信道上無SUs活動;當(dāng)Jr(t)=1,表示MUr干擾成功。
本文考慮了2種干擾模式:一是隨機(jī)干擾,即MUr在時隙開始時隨機(jī)選擇一個信道進(jìn)行干擾;二是反應(yīng)掃描干擾。反應(yīng)掃描干擾在文獻(xiàn)[6]中被提出,干擾機(jī)在時隙開始時選擇空閑信道進(jìn)行干擾,并觀察該信道是否存在SUs活動,若存在則持續(xù)干擾直至?xí)r隙結(jié)束[6]。如果沒有檢測到SUs的活動,若當(dāng)前掃描周期結(jié)束則會開始新的掃描周期,否則會繼續(xù)干擾下一個信道直至掃描周期結(jié)束。
基于以上模型分析,將SUi接收機(jī)在時隙t接收到的信號與干擾加噪聲比(Signal to Interference plus Noise Ratio,SINR)χi(t)的表達(dá)式為
式中:Pi(t)是SUi的發(fā)射功率,n是噪聲功率。
在時隙t處,SUs網(wǎng)絡(luò)瞬時總吞吐量r(t)可以用采樣公式表示,數(shù)學(xué)表達(dá)式為
式中:W是信道帶寬。
本文的目的是實(shí)現(xiàn)干擾攻擊下的SUs的最大平均吞吐量。優(yōu)化問題可以表示為
式中:第一個條件表示接收機(jī)接收到的信號的SINR必須大于最低SINR要求,第二個條件表示電池剩余能量必須不得小于傳輸消耗的能量,第三個條件表示當(dāng)PUs占用信道時,SUs的發(fā)射功率必須小于閾值Pthreshold,以防止對PUs造成干擾,第四個條件表示SUs之間不能選擇同一信道進(jìn)行傳輸,以避免沖突,第五個條件表示SUs的信道和功率值不能超過限定范圍。
考慮到優(yōu)化問題之間的耦合關(guān)系,本文設(shè)計了一種高效、簡單的基于多智能體近端策略優(yōu)化(Multi-Agent Proximal Policy Optimization,MAPPO)的資源分配方法。每個SU都是一個獨(dú)立的Agent,共同目標(biāo)是使干擾攻擊下SUs的平均吞吐量最大化。這種多Agent任務(wù)被稱作部分可觀測馬爾科夫決策(Partially Observable Markov Decision Process,POMDP),由{S,A,O,R,P}五元組構(gòu)成。其中,S表示環(huán)境中的全局狀態(tài)空間,A={at1,at2,…,atM}表示Agents動作集合,表示Agents觀測集合,R={Rt1,Rt2,…,RtM}表示Agents獎勵集合,P表示狀態(tài)轉(zhuǎn)移概率函數(shù)。多Agent任務(wù)中基本元素的詳細(xì)解釋如下。
第一,Agents。每個SU都是一個Agent,Agents僅根據(jù)觀測信息獨(dú)立做出動作決策,與環(huán)境進(jìn)行交互。
第二,狀態(tài)空間S。S由Agents的頻譜感知集合S(t)、信道增益集合G(t)以及電池狀態(tài)集合B(t)組成,表達(dá)式為
第三,局部觀測空間oti。oti表示SUi在t時隙的觀測空間,由譜感知集合Si(t)、信道增益集合Gi(t)以及自身電池水平Bi(t)組成,表達(dá)式為
第四,動作空間ati。Agent根據(jù)觀測做出信道選擇fi(t)和功率分配動作Pi(t),為了符合實(shí)際環(huán)境和方便,將發(fā)射功率平均離散為ζ個等級,即Pi(t)∈[0,Pi,1(t),Pi,2(t),…,Pi,ζ-1(t)],其中Pi,ζ-1(t)=Pmax,則動作空間ati的表達(dá)式為
第五,獎勵Rti。Rti是衡量Agents在給定狀態(tài)下采取的動作策略的影響??紤]到式(5)的優(yōu)化問題,對獎勵Rti做出如下設(shè)定:當(dāng)SUi傳輸成功,Rti=ri(t),即Rti為SUi獲得的吞吐量;當(dāng)SUi遭受攻擊時選擇工作在能量采集模式,則Rti=C,C為固定常數(shù);當(dāng)SUi干擾PUs或與其他SUs發(fā)生沖突時,Rti=-C;其他情況下,SUi獎勵皆為0。
MAPPO算法采用Actor-Critic架構(gòu),并引入新的裁剪替代函數(shù),避免對目標(biāo)值進(jìn)行過度修改,新的裁剪替代損失函數(shù)LtCLIP(θ)為[7]
式中:θ為Actor網(wǎng)絡(luò)的參數(shù),rt(θ)為新策略與舊策略的比值;為泛化優(yōu)勢估計(General Advantage Estimation,GAE),clip(·)是裁剪函數(shù),引入該函數(shù)的目的是限制rt(θ),ε為截斷因子,ε∈[0,1]。
泛化優(yōu)勢估計用于估計在狀態(tài)s下采取動作a相對于平均動作的優(yōu)勢,其數(shù)學(xué)表達(dá)式為
式中:δt為t時刻時間差分誤差,γ為折扣因子,λ為學(xué)習(xí)率,δt+1為t+1時刻時間差分誤差,δTs-1為Ts-1時刻時間差分誤差。
t時刻時間差分誤差的數(shù)學(xué)表達(dá)式為
式中:rt為獎勵,V?(st+1)是t+1時刻Critic網(wǎng)絡(luò)的價值函數(shù),V?(st)是t時刻Critic網(wǎng)絡(luò)的價值函數(shù),表達(dá)式為
Critic網(wǎng)絡(luò)的參數(shù)用?表示,Critic網(wǎng)絡(luò)通過梯度下降方式和損失函數(shù)更新,損失函數(shù)LtVF(?)的表達(dá)式為
式中,y(t)是目標(biāo)值函數(shù),表示為y(t)=rt+γV?(st+1)。
在MAPPO算法中,損失函數(shù)將策略代理項和值函數(shù)誤差項相結(jié)合,并使用熵加成來增加探索力度,因此總的目標(biāo)函數(shù)LtCLIP+VF+S(θ)可以描述為
式中,c1和c2均為系數(shù),S[πθ](st)為狀態(tài)st下策略πθ的熵。
MAPPO框架包含M個Agents,每個Agent執(zhí)行近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法,通過可以觀測到全局信息的Critic網(wǎng)絡(luò)來指導(dǎo)Actor網(wǎng)絡(luò)訓(xùn)練。Actor網(wǎng)絡(luò)的輸入為每個SU的局部觀測,輸出的是一個與動作空間中每個動作相對應(yīng)的概率列表,這些概率構(gòu)成了一個分布,因此可以對動作進(jìn)行采樣。Critic網(wǎng)絡(luò)可以評估Actor網(wǎng)絡(luò)采取的行動是否符合預(yù)期反饋,在訓(xùn)練完成后得到最優(yōu)策略,在執(zhí)行階段各Agents之間無須進(jìn)行內(nèi)部信息交換,也不需要進(jìn)行隨機(jī)探索,根據(jù)自己的局部觀測即可采取最優(yōu)動作,具體算法流程如下。
初始化:初始化EH-CR網(wǎng)絡(luò)中所有參數(shù),初始化MAPPO參數(shù),設(shè)置學(xué)習(xí)率lr,初始化經(jīng)驗(yàn)池D
本節(jié)驗(yàn)證所提方法的有效性。考慮到EH-CR網(wǎng)絡(luò)存在10個PUs、10個正交信道、4對SUs以及3個MUs,PUs的狀態(tài)轉(zhuǎn)換概率為0.6,PUs、SUs、MUs的位置隨機(jī)分布在200 m×200 m的區(qū)域內(nèi),SUs的接收機(jī)和發(fā)射機(jī)的距離為40~60 m。本文將SUs發(fā)射機(jī)功率平均離散化為8個等級,Pmax=24 mW,除特殊說明外,其余模擬參數(shù)設(shè)置如表2所示。
表2 模擬參數(shù)設(shè)置
為驗(yàn)證提出的方法在資源分配方面的有效性,將本文方法與文獻(xiàn)[4]中的MADQN-RC方法進(jìn)行對比。在文獻(xiàn)[4]中,CHANG等將儲層計算引入深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)算法,用RC網(wǎng)絡(luò)代替Q網(wǎng)絡(luò),解決梯度消失和爆炸問題。其中,RC網(wǎng)絡(luò)的神經(jīng)元數(shù)目為256,學(xué)習(xí)率為0.000 1,激活函數(shù)為ReLU(·),使用Adam優(yōu)化器迭代訓(xùn)練更新網(wǎng)絡(luò)權(quán)重,迭代次數(shù)為3 000次。
本文所提MAPPO方法使用Adam優(yōu)化器迭代訓(xùn)練更新網(wǎng)絡(luò)權(quán)重,Actor和Critic網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.000 1和0.000 5,截斷因子ε=0.2,折扣因子γ=0.9。具體仿真結(jié)果如下。
圖3為兩種方法在隨機(jī)干擾和反應(yīng)掃描干擾這兩種不同干擾攻擊情況下的表現(xiàn)情況,時隙數(shù)量Ts=100,Bmax=1 J。在不同情況下,兩種方法的平均吞吐量雖然因受到動態(tài)環(huán)境特征和策略探索的影響而出現(xiàn)波動,但都隨著迭代次數(shù)的增加而趨于穩(wěn)定,證明了兩種方法的收斂性,本文方法在迭代了1 000次左右進(jìn)入收斂狀態(tài),比文獻(xiàn)[4]方法快了2.4倍。這是因?yàn)楸疚姆椒ú捎媒瞬呗詢?yōu)化,使得更新步幅更加平穩(wěn),有助于網(wǎng)絡(luò)加速收斂。相比之下,文獻(xiàn)[4]方法是基于Q值的更新方法,需要通過Q值的估計來更新策略,會導(dǎo)致訓(xùn)練不穩(wěn)定和慢收斂。
圖3 不同干擾攻擊下兩種方法的平均吞吐量
由圖3可以看出,無論哪種干擾情況,本文方法比文獻(xiàn)[4]方法具有更高的平均吞吐量。在隨機(jī)干擾下,本文方法的平均吞吐量比文獻(xiàn)[4]方法提高了62.15%;在反應(yīng)掃描干擾下,盡管本文方法的平均吞吐量下降了26.19%,但仍比文獻(xiàn)[4]方法提高了52.66%。
通過與傳統(tǒng)接入模式比較來評估混合頻譜接入模式的性能,結(jié)果如圖4所示。在不存在攻擊且算法、時隙和電池容量等相同的情況下,本文采用的模式能夠獲得最高的吞吐量,比底層模式提高了14.95%,比交織模式提高了34.54%。這是因?yàn)樵诨旌项l譜接入模式下,當(dāng)PUs存在時,SUs可以以限定功率接入信道,否則就以高功率接入信道,以此實(shí)現(xiàn)最大的頻譜利用率,使SUs網(wǎng)絡(luò)的平均吐量最大。
圖4 不同信道接入模式對比(Ts=100、Bmax=1 J)
通過計算平均吞吐量與平均獎勵的差值來分析本文提出方法的性能,如圖5所示。通過圖5可以看出,在算法收斂前差值為正,表明此時處在迭代學(xué)習(xí)階段,為了對動作進(jìn)行充分探索,獲取更大的獎勵,SUs會通過發(fā)生碰撞和干擾PUs的動作而遭受懲罰。在充分探索后,無攻擊模式下算法收斂至0,表明獲得的獎勵即為吞吐量,即SUs彼此可以完美避開且不對PUs產(chǎn)生干擾。若SUs在攻擊信道選擇能量采集,會獲得固定獎勵常數(shù),此項是刺激算法能夠更好學(xué)習(xí)未知的干擾模式,因此在隨機(jī)和反應(yīng)掃描攻擊模型下會出現(xiàn)差值為負(fù)的現(xiàn)象。這表明MAPPO算法可以學(xué)習(xí)到未知干擾模型,在攻擊信道選擇能量采集,避免遭受干擾攻擊。同時,又因?yàn)榉磻?yīng)掃描比隨機(jī)攻擊的攻擊性更強(qiáng),所以反應(yīng)掃描攻擊的差值小于隨機(jī)攻擊。
圖5 平均吞吐量與獎勵差值(Ts=100、Bmax=1 J)
本文提出了一種干擾攻擊下聯(lián)合信道和功率分配以實(shí)現(xiàn)EH-CR網(wǎng)絡(luò)中SUs用戶平均吞吐量最大化的方法。利用馬爾科夫決策過程(Markov decision process,MDP)和DRL工具將這個NPhard問題轉(zhuǎn)化為多智能體深度強(qiáng)化學(xué)習(xí)問題,提出了一種基于MAPPO的聯(lián)合信道和功率的資源分配方法,并在仿真中使用平均吞吐量和迭代過程來評估所提方法的性能。模擬仿真結(jié)果表明,所提方法在隨機(jī)和反應(yīng)掃描干擾情況下,可將SUs的平均吞吐量分別提高62.15%和52.66%。