国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于競爭雙深度Q網(wǎng)絡(luò)的動態(tài)頻譜接入*

2022-12-30 06:20燕,惠
電訊技術(shù) 2022年12期
關(guān)鍵詞:空閑競爭性頻譜

梁 燕,惠 瑩

(1.重慶郵電大學 通信與信息工程學院,重慶 400065;2.信號與信息處理重慶市重點實驗室,重慶 400065)

0 引 言

動態(tài)頻譜接入[1](Dynamic Spectrum Access,DSA)在同一頻段內(nèi)為不同制式的技術(shù)動態(tài)、靈活地分配頻譜資源,使次要用戶(Secondary User,SU)可以搜索和使用主要用戶(Primary User,PU)未使用的空閑信道[2]。DSA可以提高無線網(wǎng)絡(luò)的頻譜利用率,有助于滿足對更多頻譜的需求。

關(guān)于DSA問題已有大量研究:文獻[3-4]將問題描述為多臂老虎機(Multi-armed Bandit,MAB)模型,通過對信道的觀察,選擇有最佳回報的信道;而文獻[5-8]將頻譜接入問題描述為頻譜拍賣和租賃過程,提出拍賣模型的多信道分配策略,通過分配空閑頻譜,使信道得到充分利用。上述方案需要提前知道信道狀態(tài)信息,實際中,如果沒有中央控制器,通常很難獲得信道狀態(tài)信息。即使在有中央控制器的情況下,交換這些信道狀態(tài)信息也可能給底層網(wǎng)絡(luò)帶來沉重的控制開銷,使其難以在實踐中應(yīng)用。

深度強化學習(Deep Reinforcement Learning,DRL)作為一種在未知環(huán)境下學習的方法,可以使DSA設(shè)備實時獲得信道狀態(tài)信息和有用的預(yù)測信息。將深度學習與Q學習(Q-Learning)相結(jié)合,使用狀態(tài)作為輸入、估計Q值作為輸出,通過在線學習找到信道訪問策略。文獻[9]提出了一種基于Q學習的多用戶接入多信道的動態(tài)頻譜訪問策略,使SU通過Q函數(shù)獲取和更新環(huán)境信息,并利用用戶協(xié)作學習機制來克服局部最優(yōu)問題。文獻[10]針對Q學習不能解決的大狀態(tài)空間和狀態(tài)的部分可觀測問題,采用深度強化學習的方法使信道吞吐量達到最大。文獻[11]提出了一種分布式強化學習算法及分布式的信道訪問策略,保證對碰撞概率的高精度控制。文獻[12-13]分別使用深度Q學習和雙深度Q學習解決了用戶接入多信道的問題。文獻[14]討論了多用戶接入問題。除此之外,文獻[15-16]中還提到了頻譜接入前對頻譜進行感知時存在感知誤差的問題。

綜合分析上述文獻中所提出的多用戶多信道DSA模型,文獻[10-11]關(guān)注了SU接入時的碰撞,文獻[15-16]解決了頻譜感知錯誤問題,但是缺乏對兩個問題聯(lián)立解決的考慮。另一方面,對于處理DSA模型的方法,文獻[9]和文獻[11]中使用的Q網(wǎng)絡(luò)(Q-Network)存在頻繁查找Q表格會消耗大量時間和空間的問題,文獻[10-12]使用的深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)存在對Q值的過估計使接入策略不能達到最優(yōu)的問題,而文獻[13]使用的雙深度Q網(wǎng)絡(luò)[17](Double DQN,DDQN)是解決過估計的良好方法。

因此,本文針對多個SU接入多個信道的場景,建立一個同時考慮感知錯誤與避免碰撞的DSA模型。對于這個模型,提出雙深度Q網(wǎng)絡(luò)和競爭Q網(wǎng)絡(luò)[18](Dueling DQN) 結(jié)合的競爭性DDQN網(wǎng)絡(luò)(Dueling DDQN)學習框架。通過動態(tài)感知、接入和反饋的學習過程,解決碰撞避免和存在感知錯誤的DSA問題。DDQN將動作的選擇和評估分別用不同值函數(shù)實現(xiàn),解決了值函數(shù)的過估計問題,而競爭性DQN解決了神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化問題。兩種方法結(jié)合得到的競爭性DDQN可以有效解決過估計和網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化的問題。

1 系統(tǒng)模型及問題描述

建立一個DSA模型,由C={1,2,…,i,…,C}個PU和N={1,2,…,j,…,N}個SU組成。假設(shè)一共有和PU數(shù)相同的C個無線信道C={1,2,…,i,…,C},使得每個PU在一個唯一對應(yīng)的信道上進行傳輸以避免PU之間的干擾。其中i,j分別表示第i個PU(第i個信道)和第j個SU。用戶使用隨機訪問協(xié)議在信道上傳輸數(shù)據(jù)。假定每個信道有空閑或繁忙兩種可能的狀態(tài),每個PU也有空閑或占用信道兩種狀態(tài)。PU狀態(tài)與信道狀態(tài)一一對應(yīng)且狀態(tài)轉(zhuǎn)換模式相同。每個PU的狀態(tài)可以在空閑和占用之間轉(zhuǎn)換,轉(zhuǎn)換過程遵循馬爾科夫轉(zhuǎn)移概率。動態(tài)頻譜接入過程的系統(tǒng)模型如圖1所示。為了成功傳輸數(shù)據(jù),所有SU旨在盡可能頻繁地選擇空閑信道。由于信道切換模式和其他SU的選擇未知,因此每個SU每次只能嘗試感知和訪問不同的信道,并根據(jù)自己的觀測盡可能確定信道模式。通過這種方式,SU可以了解所選信道處于空閑還是占用狀態(tài),進而做出接入動作。SU接入后得到回報,回報將反映接入動作的好壞。上述過程重復(fù)執(zhí)行,SU作為競爭性DDQN智能體,根據(jù)歷史學習經(jīng)驗,SU會在需要選擇信道的下一時間段內(nèi)預(yù)測信道狀態(tài),并增加選擇空閑信道的可能性。

圖1 動態(tài)頻譜接入過程

由于每個SU只能學習所選信道的狀態(tài)轉(zhuǎn)換模式,即SU是對環(huán)境的部分觀察,因此從C個信道中選擇處于空閑狀態(tài)的信道是部分可觀測馬爾科夫決策 過 程[19](Partially Observable Markov Decision Processes,POMDP)。也就是說,為了解決動態(tài)頻譜接入問題,必須確定一種訪問策略,該策略取決于每次感知之后SU得到的信道信息(即信道觀測)、用戶行為和回報。因此,在本節(jié)中將定義DSA模型用到的狀態(tài)、觀測、行為和回報,通過深度神經(jīng)網(wǎng)絡(luò)對這些數(shù)據(jù)的處理,找到最優(yōu)的訪問策略(即智能體根據(jù)信道狀態(tài)執(zhí)行動作后得到的累積回報的大小)。

1.1 信道狀態(tài)

假設(shè)每個信道有兩種可能的狀態(tài):空閑(用“1”表示)和繁忙(用“0”表示)。信道可能被PU占用,“空閑”表示信道被PU占用,SU無法訪問該信道;“繁忙”表示PU未占用信道,SU可以訪問該信道。信道狀態(tài)的變化遵循馬爾科夫轉(zhuǎn)移概率,因此將每個信道的狀態(tài)描述為如圖2所示的兩狀態(tài)馬爾科夫鏈。

圖2 兩狀態(tài)馬爾科夫鏈

第i個信道的兩狀態(tài)馬爾科夫轉(zhuǎn)移概率表示為

其中,pxy={下一狀態(tài)是x|當前狀態(tài)是y},x,y∈{0,1}。

將第i個信道的狀態(tài)表示為

那么所有信道的狀態(tài)集合表示為

1.2 信道觀測

為了成功傳輸數(shù)據(jù),SU必須從對信道狀態(tài)的觀察中推斷出信道轉(zhuǎn)換模式。但是,由于頻譜檢測器并不完美,感知信道狀態(tài)的結(jié)果可能存在誤差。定義第i個信道上第j個SU的感知錯誤概率為Pji,所以感知正確的概率為

式中:oi(t)表示用戶對每個信道的觀測,定義為

由于SU不知道是否會發(fā)生感知錯誤,可以認為觀測是對信道狀態(tài)(1-Pji)的正確反應(yīng),因此在本文中,主要使用觀測結(jié)果作為歷史信道狀態(tài)數(shù)據(jù)。將SU在t時進行感知的得到的可能存在感知誤差的結(jié)果表示為

1.3 用戶動作

執(zhí)行完頻譜感知后,每個SU根據(jù)感知結(jié)果決定保持空閑狀態(tài)還是接入信道,有以下幾種情況:

情況1:SU所選信道是空閑狀態(tài),并且沒有其他SU選擇該信道,說明SU之間沒有碰撞,可以接入信道,這是DSA最想要達到的狀態(tài)。

情況2:SU所選信道被PU占用,此時,由于SU感知到的信道是繁忙狀態(tài),因此SU不接入信道。

情況3:多個SU選擇同一信道,可能發(fā)生SU之間的碰撞,此時讓多個SU都不接入信道,以此來避免可能發(fā)生的碰撞情況。

用aj(t)=i表示在t時用戶j選擇接入信道i發(fā)送數(shù)據(jù)(對應(yīng)情況1),aj(t)=0表示不能接入信道發(fā)送數(shù)據(jù)(對應(yīng)情況2和情況3),從而將每個SU的動作表示為

1.4 回報

執(zhí)行動作后,將根據(jù)動作情況獲得回報。如果SU選擇的信道是空閑狀態(tài),則傳輸成功,分配正獎勵。如果SU選擇的信道被占用或者SU之間發(fā)生碰撞,則傳輸失敗,獎勵為零。因此,將接入信道得到的回報表示為

得到回報的反饋后,每個信道的狀態(tài)將根據(jù)馬爾科夫鏈改變。在下一時隙SU將感知新的信道狀態(tài)進行頻譜接入。

1.5 策略

DSA的目標是提高頻譜利用率,而利用率與選擇空閑信道的頻率相關(guān),因此將DSA的目標轉(zhuǎn)變?yōu)樽畲蟪潭鹊卦黾舆x擇空閑信道的頻率。定義Mi(t)為在時間T內(nèi)選擇空閑信道的總次數(shù):

因此,在時間T內(nèi)每次選擇空閑信道對總次數(shù)的貢獻為1/Mi(t),所以將回報函數(shù)定義為

有限時間T內(nèi)平均累積回報定義為

綜上所述,DSA的最終目標轉(zhuǎn)化為最大化式(11)中的回報。找到最優(yōu)策略π*:O→A就能在任何狀態(tài)下最大化回報。在POMDP中可以通過計算最佳Q值函數(shù)來找出π*:

將POMDP問題與深度強化學習結(jié)合后,找到π*的一種常見方法是Q學習,但是Q學習很難處理動作空間很大的DSA問題。幸運的是,DRL通過將強化學習與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法可以解決此問題。

2 競爭性DDQN框架

標準的Q學習和DQN中的最大運算符使用相同的Q值來選擇和評估動作,它們傾向于選擇過高的值,使性能有偏差。在此基礎(chǔ)上,加入競爭Q網(wǎng)絡(luò),通過優(yōu)化神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)保證算法的穩(wěn)定性,使智能體學到更加真實的值。將兩者結(jié)合得到的競爭性DDQN網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 競爭性DDQN網(wǎng)絡(luò)結(jié)構(gòu)

將DSA和競爭性DDQN結(jié)合進行頻譜接入的具體過程如下:

1 初始化 經(jīng)驗回放池D,存儲經(jīng)驗樣本的最大值為M

2 初始化 當前Q網(wǎng)絡(luò)和目標Q網(wǎng)絡(luò)的所有參數(shù)

3 重復(fù) 經(jīng)驗軌跡,從1到M:

4 初始化信道狀態(tài)和信道觀測

5 重復(fù) 經(jīng)驗軌跡中的時間步,從t=1到T:

6 以概率ε選擇隨機動作aj

7 執(zhí)行動作aj,獲得獎勵rj

8 設(shè)oj+1=oj,并計算下一時間步的輸入

9 存儲經(jīng)驗樣本(oj,aj,rj,oj+1)到經(jīng)驗池D中

10 從經(jīng)驗池D中隨機采樣小批量的存儲樣本(oj,aj,rj,oj+1)

11計算當前目標Q值aj;θ);θ-))

12 使用梯度下降算法更新?lián)p失函數(shù)中的網(wǎng)絡(luò)模型參數(shù)(yj-Q(oj,aj,θ))2

13 每隔一定時間步重置Q'=Q

14 結(jié)束重復(fù)

15 結(jié)束重復(fù)

3 仿真與分析

3.1 參數(shù)設(shè)置

在一個無線網(wǎng)絡(luò)中,包含多個SU和PU。由于大多數(shù)許可頻帶的利用率低,即信道處于空閑狀態(tài)的概率大,因此p11的可能值應(yīng)該高,而p00的可能值應(yīng)該低。所以分別從[0.7,1]和[0,0.3]上的均勻分布中隨機選擇每個信道的狀態(tài)轉(zhuǎn)移概率p11和p00,然后計算出相應(yīng)的p10=1-p11和p01=1-p00。系統(tǒng)模型的詳細參數(shù)如表1所示。

表1 系統(tǒng)模型詳細參數(shù)

參考文獻[10]產(chǎn)生信道狀態(tài)數(shù)據(jù)的方法,首先隨機初始化信道狀態(tài)數(shù)據(jù)為0或1,根據(jù)狀態(tài)轉(zhuǎn)移概率p11和p00計算信道下一時隙的狀態(tài)并更新。信道在不同時隙的部分狀態(tài)變化如圖4所示,該像素圖可視化多個信道的狀態(tài)變化情況,白色表示信道在相應(yīng)時間上是空閑的,黑色表示信道被占用。

圖4 信道狀態(tài)變化情況

經(jīng)驗回放[20](Experience Replay)可以存儲先前的觀測數(shù)據(jù),并打破數(shù)據(jù)樣本間的相關(guān)性,使訓(xùn)練穩(wěn)定收斂。因此,將經(jīng)驗回放技術(shù)應(yīng)用于競爭性DDQN,并在TensorFlow[21]中實現(xiàn)。競爭性DDQN的最終參數(shù)確定為:一個全連接的神經(jīng)網(wǎng)絡(luò),其中兩個隱藏層包含200個神經(jīng)元。每個神經(jīng)元的激活函數(shù)采用線性整流函數(shù)(Rectified Linear Unit,ReLU),它的計算公式為f(x)=max(x,0)。競爭性 DDQN的輸入為32個時隙上的動作和觀測結(jié)果的組合,輸出為選擇信道的決策。應(yīng)用貪婪策略(ε-greedy)將隨機動作探索概率設(shè)置為0.1。當更新競爭性 DDQN的權(quán)重時,從經(jīng)驗回放池中隨機選擇32個樣本的小批量來計算損失函數(shù),并使用Adma算法[22]更新權(quán)重。有關(guān)超參數(shù)的詳細信息見表2。

表2 超參數(shù)詳細信息

3.2 與深度強化學習方案對比

本小節(jié)主要對比了競爭性DDQN和兩種深度強化學習方案,即文獻[10]中使用的DQN方法和文獻[13]中提到的對Q值計算的改進方法DDQN。

圖5給出了DQN和競爭性DDQN的Q值大小比較,驗證Q值的過估計問題。由于DDQN和競爭性DDQN用到的Q值計算方式相同,所以圖5未對比 DDQN的Q值。圖5所示競爭性DDQN的Q值始終比DQN的Q值小,這是因為DQN中使用max函數(shù)雖然可以快速讓Q值向最優(yōu)目標靠近,但是每次都選擇最大的Q值容易導(dǎo)致過估計問題。而競爭性DDQN通過將目標Q值動作的選擇和計算解耦,解決了該問題。這里需要注意的是,Q值就是評估動作的價值,即在某個狀態(tài)下執(zhí)行某個動作時得到的平均獎勵。根據(jù)ε-貪婪算法選擇動作,以小概率選擇一個隨機動作,以大概率選擇獎勵最高的動作。因此,圖中大部分Q值是較大的,而Q值突然變小是因為隨機選擇的動作得到的獎勵值較小。

圖5 Q值對比

圖6給出了幾種方案損失值對比情況。DQN、DDQN和競爭性DDQN在迭代到第20次時損失均達到穩(wěn)定,其中DQN的損失值最大,DDQN次之,競爭性DDQN損失值最小,說明競爭性DDQN相比于DDQN和DQN預(yù)測模型更好。

圖6 不同網(wǎng)絡(luò)的損失對比

圖7以隨機接入策略為參考基線,對比了解決DSA問題時不同接入策略的回報值。其中隨機接入策略指沒有學習過程,SU在每個時隙開始隨機選擇信道,所有信道的訪問概率均相同。如圖所示,平均累積回報分別為0.81(隨機接入)、0.88(DQN)、0.89(DDQN)和0.92(競爭性DDQN)。隨機接入策略只是對信道的隨機選擇,并沒有關(guān)于信道狀態(tài)的預(yù)測,因此獲得的回報最差。相比于DQN和DDQN,競爭性DDQN具有較好的損失預(yù)測模型,其回報最好且最穩(wěn)定。

圖7 平均累積回報

對上述三種方法從時間和空間兩個維度進行復(fù)雜度的計算:本文提到的三種深度強化學習方法由于它們的計算流程基本相同,只是對Q值的處理方式不同,因此三者的時間復(fù)雜度相同,均為O(MT);空間復(fù)雜度也相同,均為O(D)。

3.3 與傳統(tǒng)方案對比

本文在解決動態(tài)頻譜接入時,將問題描述為智能體學習信道狀態(tài)變化的深度強化學習過程。本小節(jié)主要對比了所提競爭性DDQN和兩種其他非深度強化學習方案。

多臂老虎機[3](MAB):目標是最小化遺忘函數(shù)。根據(jù)公式的推導(dǎo)可知,最小化遺忘函數(shù)等同于最大化期望回報。進而,計算每個用戶的累積回報值,與本文所用深度強化學習得到的期望回報作對比。

競爭雙拍賣[8]:目標是最大化頻譜利用率,計算選擇空閑信道的次數(shù)作為信道利用率,與本文提到的選擇空閑信道的次數(shù)進行對比。

為了保證對比的公平性,上述兩種方法的環(huán)境參數(shù)和本文的系統(tǒng)模型參數(shù)一致,并保證有2個SU和16個PU。上述兩種方法主要結(jié)合數(shù)學推導(dǎo)和仿真結(jié)果得到一個衡量標準,由于衡量參數(shù)不同,因此,這里將對比結(jié)果以表3的數(shù)據(jù)呈現(xiàn)。可以看到,競爭性DDQN在累積回報或信道利用率上都比MAB和競爭雙拍賣方法的結(jié)果好。對于MAB和競爭性DDQN,兩種方法時間復(fù)雜度相同,但是競爭性DDQN的累積回報更高;而競爭雙拍賣方法時間復(fù)雜度雖然低,但是它需要信道環(huán)境的先驗知識,而且信道利用率也沒有競爭性DDQN高,所以綜合對比得到競爭性DDQN是MAB和競爭雙拍賣中最優(yōu)方法的結(jié)論。

表3 兩種方案對比結(jié)果

4 結(jié)束語

對于動態(tài)頻譜接入問題,本文建立了較真實的復(fù)雜信道場景。在多PU與多SU情況下,考慮頻譜感知誤差和多個SU接入時的碰撞情況,所提的基于競爭雙深度Q學習的動態(tài)頻譜接入算法(競爭性DDQN)幫助每個SU根據(jù)頻譜感知結(jié)果以及學習結(jié)果做出較優(yōu)的頻譜訪問決策。實驗結(jié)果表明,基于深度強化學習方法比傳統(tǒng)方案更適合該復(fù)雜場景。與隨機接入算法相比,競爭性DDQN學習方法可以提供更高的回報;與DQN和DDQN相比,競爭性DDQN回報更高更穩(wěn)定,且沒有過估計問題。

對于未來的研究,將考慮擴展現(xiàn)有的深度強化學習網(wǎng)絡(luò)綜合解決頻譜感知和接入問題,通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)減小感知錯誤概率,進一步提高接入回報值。另外,算法的實用效果還需要在公共數(shù)據(jù)集上進行進一步的驗證。

猜你喜歡
空閑競爭性頻譜
競爭性裝備采購招標文件分析研究與對策
一種用于深空探測的Chirp變換頻譜分析儀設(shè)計與實現(xiàn)
“鳥”字謎
西灣村采風
彪悍的“寵”生,不需要解釋
FCC啟動 首次高頻段5G頻譜拍賣
動態(tài)頻譜共享簡述
中泰雙邊貿(mào)易互補性與競爭性分析及政策建議
WLAN和LTE交通規(guī)則
認知無線電中一種新的頻譜接入方法