楊凡,楊成,黃杰,張仕龍,喻濤,左迅,楊川
(重慶理工大學(xué)電氣與電子工程學(xué)院,重慶 400054)
6G 密集網(wǎng)絡(luò)(DN,dense network)是一個面向智慧醫(yī)療、全息通信、智慧城市群、應(yīng)急通信搶險、智能工廠以及數(shù)字孿生等全場景的網(wǎng)絡(luò),可實現(xiàn)通信和人工智能(AI,artificial intelligence)的雙向互促[1]。隨著智能終端(IT,intelligent terminal)的空前普及和網(wǎng)絡(luò)規(guī)模的快速擴展,5G DN 無法完全滿足不斷上升的技術(shù)標準,如自主、超大規(guī)模、高度動態(tài)和完全智能的服務(wù)。未來智能化和智能物聯(lián)網(wǎng)網(wǎng)絡(luò)的快速增長可能超過5G DN 的能力。與5G DN 相比,6G DN將支持10 倍高的網(wǎng)絡(luò)容量和十分之一的時延,同時服務(wù)10倍多的終端設(shè)備數(shù)量以及提高服務(wù)質(zhì)量(QoS,quality of service)[2-3]。6G DN 將主要由AI 驅(qū)動,AI 技術(shù)可實現(xiàn)從“物聯(lián)”到“智聯(lián)”的躍遷,徹底改變無線網(wǎng)絡(luò)[4]。對于6G DN 而言,優(yōu)化資源分配是保證網(wǎng)絡(luò)性能的基本機制。通過基于AI 的智能資源分配和復(fù)用,可以緩解海量連接對資源的巨大需求,從而顯著提高資源復(fù)用率[5]。另一方面,大數(shù)據(jù)促進了AI 在資源管理中的應(yīng)用,AI 可通過挖掘數(shù)據(jù)來學(xué)習(xí)各種模式(如用戶流量模式和移動模式)或復(fù)雜的相互關(guān)系。6G DN 的主要優(yōu)點是鏈路強度的提高和廣泛的頻譜復(fù)用。但IT 節(jié)點的密集分布導(dǎo)致小區(qū)間交疊干擾加劇,網(wǎng)絡(luò)容量下降,同時交疊干擾造成了網(wǎng)絡(luò)吞吐量與IT 節(jié)點數(shù)量不成線性關(guān)系[6],使6G DN 的資源利用效率和服務(wù)質(zhì)量急劇降低。因此,在密集網(wǎng)絡(luò)下如何進行資源分配使密集網(wǎng)絡(luò)的小區(qū)間無交疊干擾是提升6G DN 性能亟待解決的問題[2]。
目前,優(yōu)化方法已經(jīng)用于解決密集性無線網(wǎng)絡(luò)的資源分配問題[7-13]。例如,考慮密集且復(fù)雜的網(wǎng)絡(luò)中端到端(D2D)用戶共享相同資源產(chǎn)生的同頻干擾,文獻[7]基于外部性匹配理論提出一種干擾感知資源分配算法,通過最小化同頻干擾來最大化網(wǎng)絡(luò)吞吐量??紤]D2D 通信會引入額外干擾破壞蜂窩網(wǎng)絡(luò)連續(xù)干擾消除的解碼條件,文獻[8]研究聯(lián)合D2D 模式選擇和資源分配的組合優(yōu)化(CO,combinatorial optimization)問題,提出一種聯(lián)合資源分配和模式選擇方法。針對密集部署IT 帶來的嚴重小區(qū)干擾,文獻[9]基于回歸方法對干擾建模,提出一種面向干擾的資源分配框架。但是,在6G DN 資源分配過程中還需考慮功率控制對干擾的影響。為保證用戶的QoS,文獻[10]研究多目標的資源分配優(yōu)化問題,考慮每個用戶的傳輸功率和QoS 約束,提出一種面向功率控制的資源分配算法。文獻[11]研究聯(lián)合資源分配和功率分配的優(yōu)化問題,考慮D2D 間和小區(qū)間干擾的統(tǒng)計信息,提出基于多項式時間算法的資源分配策略。文獻[12]研究支持非正交多址的聯(lián)合資源分配問題,考慮功率控制、最小速率和連續(xù)干擾消除的約束,采用 KKT(Karush-Kuhn-Tucker)條件和對偶理論提出一種用于資源分配的梯度迭代算法。此外,考慮到6G DN中存在的交疊區(qū)域會造成信道間較嚴重的功率干擾,文獻[13]研究密集網(wǎng)絡(luò)的能源效率問題,提出一種基于能量感應(yīng)架構(gòu)的干擾感知資源分配方法。此外,為適應(yīng)6G DN 中多用戶、多小區(qū)、多頻段的無線通信場景,資源分配過程中還需考慮用戶需求差異和區(qū)分干擾類型[14-15]。針對異構(gòu)網(wǎng)絡(luò)的同層干擾和用戶需求的多樣性,文獻[14]研究聯(lián)合次頻帶和資源塊分配優(yōu)化問題,考慮用戶QoS 要求和功率限制,提出一種基于干擾管理的聯(lián)合資源分配。文獻[15]研究聯(lián)合資源分配和用戶選擇問題,考慮干擾拓撲的復(fù)雜性和資源的有限性等約束,提出一種分布式自優(yōu)化資源分配方法。然而,使小區(qū)間無交疊干擾的資源分配是非凸且NP-hard 的CO 問題,難以求解[16]。此外,上述方法難以適應(yīng)大規(guī)模數(shù)據(jù)的實時計算,無法充分挖掘隱藏在海量數(shù)據(jù)中有價值的信息,不能識別網(wǎng)絡(luò)中的通信資源復(fù)用情況,這將造成網(wǎng)絡(luò)吞吐量和用戶QoS 下降。因此,基于優(yōu)化方法的資源分配策略難以滿足6G DN 在不同業(yè)務(wù)對資源的需求,對有限的網(wǎng)絡(luò)資源利用不夠充分。
深度強化學(xué)習(xí)(DRL,deep reinforcement learning)作為數(shù)據(jù)、算法和算力復(fù)合驅(qū)動的機器學(xué)習(xí)技術(shù)已廣泛應(yīng)用于醫(yī)療、金融和交通等領(lǐng)域[17]。DRL 通過挖掘數(shù)據(jù)來學(xué)習(xí)復(fù)雜的相互關(guān)系,依靠豐富的計算能力實現(xiàn)實時在線決策,可彌補以犧牲存儲空間來提高系統(tǒng)性能的缺點,解決沒有初步離線計算結(jié)果情況下無法及時處理任務(wù)的問題。此外,DRL 可有效應(yīng)對非凸和NP-hard 挑戰(zhàn),解決優(yōu)化方法難以求解的CO 問題[18]。然而,利用DRL 實現(xiàn)小區(qū)間無交疊干擾,提高網(wǎng)絡(luò)吞吐量和資源復(fù)用率的資源分配方法較少且研究更多關(guān)注的是非密集網(wǎng)絡(luò)或低密集網(wǎng)絡(luò)的資源分配[19-20]??紤]到6G DN中資源分配本質(zhì)問題為CO 問題,DRL 能有效解決在滿足網(wǎng)絡(luò)吞吐量、資源復(fù)用率以及無交疊干擾約束下的資源分配問題,本文提出一種基于DRL 的資源分配方法,利用深度Q 網(wǎng)絡(luò)(DQN,deep Q-network)模型和競爭網(wǎng)絡(luò)結(jié)構(gòu)對6G DN 進行通信鏈路的資源分配以及實現(xiàn)小區(qū)間無交疊干擾,以提高網(wǎng)絡(luò)吞吐量和資源復(fù)用率。本文主要貢獻如下。
1) 針對密集交疊干擾下的6G DN 場景,構(gòu)建6G DN 覆蓋模型,提出以最小化密集交疊干擾為優(yōu)化目標的CO 問題,為分析密集網(wǎng)絡(luò)場景下網(wǎng)絡(luò)拓撲對交疊干擾的影響提供數(shù)學(xué)依據(jù)和評估指標。
2) 提出基于點線圖染色的交疊干擾模型和實現(xiàn)無交疊干擾的資源分配策略。首先根據(jù)歐氏距離和無交疊干擾準則,建立6G DN 的交疊干擾模型,為計算資源分配導(dǎo)致的交疊干擾提供理論依據(jù)。然后,根據(jù)交疊干擾模型設(shè)計了避免交疊干擾的資源分配策略,解決6G DN 中交疊干擾問題。
3) 為實現(xiàn)6G DN 中網(wǎng)絡(luò)無交疊干擾的資源分配,構(gòu)建基于DQN 的資源分配模型,提出基于Dueling DQN 的資源分配算法,采用競爭網(wǎng)絡(luò)結(jié)構(gòu)感知交疊干擾特征,通過馬爾可夫決策過程(MDP,Markov decision process)優(yōu)化網(wǎng)絡(luò)資源分配的過程,實現(xiàn)無交疊干擾的密集組網(wǎng),為求解非凸和NP-hard 的資源分配問題提供一種新的求解方法。
最后本文對所提方法進行仿真實驗和實際通信測試。結(jié)果表明,基于Dueling DQN 的資源分配算法可根據(jù)6G DN 的網(wǎng)絡(luò)拓撲得到資源分配方案,避免交疊干擾,有效地提高網(wǎng)絡(luò)吞吐量和資源復(fù)用率。
本文考慮如圖1 所示的復(fù)雜通信場景中的6G DN 模型,該6G DN 由N個IT 組成,IT 之間形成M條通信鏈路。其中IT 的覆蓋范圍約為250 m[21],主要用于較短距離間的通信。為進一步提高整個網(wǎng)絡(luò)覆蓋區(qū)域內(nèi)的網(wǎng)絡(luò)吞吐量,在6G DN 中采用密集部署IT 的方式。當大量IT 密集部署在6G DN 中時,6G DN 將產(chǎn)生密集交疊干擾和資源復(fù)用沖突,從而使6G DN 的資源分配能力下降。
圖1 復(fù)雜通信場景中的6G DN 模型示意
6G DN 的網(wǎng)絡(luò)覆蓋模型通過IT 間的歐氏距離建立。本文通過無向圖模型將資源分配問題轉(zhuǎn)化為圖的邊染色問題,利用點線圖染色理論建立交疊干擾模型。
1) IT 通信覆蓋與通信鏈路形成
圖1 中,6G DN 通信節(jié)點主要是IT,并且IT間可以通過D2D 進行通信。圖2 是圖1 中IT1、IT2和IT3形成的自組網(wǎng),任意一個IT 都在其余IT 的無線覆蓋范圍之內(nèi)。IT1、IT2和IT3間都存在數(shù)據(jù)傳輸?shù)耐ㄐ沛溌?。IT 間的通信鏈路形成可表示為
圖2 IT 通信覆蓋與通信鏈路形成
其中,d1,2表示IT1和IT2之間的歐氏距離;x1和x2分別表示IT1和IT2的通信半徑。實際情況中IT 間存在差異,因此x1≠x2。
2) 6G DN 覆蓋模型
圖3 是圖1 根據(jù)IT 覆蓋范圍得到的6G DN 覆蓋范圍模型,其中任意2 個IT 可以通信。6G DN通信覆蓋范圍CG是所有IT 通信覆蓋范圍的疊加,可表示為
圖3 6G DN 覆蓋范圍模型
其中,Ci表示ITi的通信覆蓋范圍,T表示所有IT的集合。
3) 6G DN 的網(wǎng)絡(luò)拓撲
圖4 是圖3 根據(jù)式(1)得到的6G DN 的網(wǎng)絡(luò)拓撲。其中,網(wǎng)絡(luò)拓撲中的節(jié)點表示具有通信能力的IT,拓撲中的線表示節(jié)點間的通信鏈路。6G DN 點線圖模型可表示為
圖4 6G DN 的網(wǎng)絡(luò)拓撲
其中,V={1,2,…,N}表示6G DN 中的IT 集合,E={1,2,…,M}表示6G DN 中的通信鏈路集合。
本節(jié)根據(jù)點線圖邊染色與6G DN 的網(wǎng)絡(luò)拓撲對應(yīng),對6G DN 中的每一條通信鏈路分配通信資源。若圖4 中相同節(jié)點的通信鏈路具有不同的通信資源,則6G DN 資源分配可表示為
其中,ψ(e,e′) 表示通信鏈路e和通信鏈路e′的關(guān)系,且ψ(e,e′) 只有2 個取值,ψ(e,e′)=1表示通信鏈路e和通信鏈路e′具有相同的通信資源,否則ψ(e,e′)=0;le∩le′=?表示通信鏈路e和通信鏈路e′在圖4 中不存在公共的通信節(jié)點。
本節(jié)提出一種使網(wǎng)絡(luò)無交疊干擾的資源分配策略,建立6G DN 的交疊干擾模型,降低在密集網(wǎng)絡(luò)交疊干擾下的資源分配難度,實現(xiàn)無交疊干擾資源分配。在建立無向圖網(wǎng)絡(luò)模型后,利用關(guān)聯(lián)矩陣設(shè)計資源分配策略。
其中,行向量le中的元素表示通信鏈路e與對應(yīng)IT的關(guān)系,元素為1 則表示IT 利用該通信鏈路e進行通信。由于通信鏈路e能且僅能被2 個IT 使用,可表示為
根據(jù)圖5 得到對應(yīng)的關(guān)聯(lián)矩陣HG為
圖5 6G DN 的無向圖模型
當6G DN 對通信鏈路進行資源分配時,6G DN需要考慮密集網(wǎng)絡(luò)帶來的密集交疊干擾問題。交疊干擾由單個IT 使用單個通信資源和多個IT 進行通信導(dǎo)致。因此,單個IT 受到的交疊干擾可表示為
其中,M表示6G DN 通信鏈路的總數(shù)。式(10)表示通過對每個節(jié)點求和再進行平均可得到整個6G DN 的交疊干擾程度。
通信鏈路資源分配情況如圖6 所示。根據(jù)式(9)可知,IT6受到的交疊干擾計算過程可表示為
圖6 通信鏈路資源分配情況
在所有IT 組成6G DN 的過程中,根據(jù)式(10)可求得6G DN 資源分配導(dǎo)致的交疊干擾程度。因此,δG=0表示6G DN 資源分配無沖突。資源無沖突分配策略是從起始狀態(tài)到最終狀態(tài)的過程中,保證6G DN 無交疊干擾的資源分配方法。6G DN 狀態(tài)st+1的資源分配只與狀態(tài)st的資源分配結(jié)果有關(guān),即6G DN 的通信鏈路資源分配具有馬爾可夫性質(zhì)。本文提出使用有限長馬爾可夫鏈解決無向圖染色問題,建立任意時間t滿足δG=0條件的狀態(tài)轉(zhuǎn)移矩陣P。6G DN 從初始狀態(tài)s0到最終狀態(tài)s*的狀態(tài)轉(zhuǎn)移矩陣P可表示為
然而,6G DN 無法直接從通信環(huán)境中獲得狀態(tài)轉(zhuǎn)移矩陣P。因此,6G DN 需要依次對通信鏈路進行資源分配,從而使狀態(tài)st改變?yōu)闋顟B(tài)st+1。6G DN的資源分配動作可表示為
其中,s表示6G DN 的狀態(tài),包含網(wǎng)絡(luò)拓撲情況和通信鏈路的資源分配情況;a表示通信鏈路分配通信資源;資源分配策略π表示在狀態(tài)s做出資源分配動作a的概率,具體可表示為
根據(jù)式(14)和式(15),6G DN 在狀態(tài)s下進行資源分配后,轉(zhuǎn)移到狀態(tài)s′的概率可表示為
當6G DN 執(zhí)行資源分配動作a使δG=0時,狀態(tài)s轉(zhuǎn)移到狀態(tài)s′ 的概率為p(s′|s,ai)=1。如果δG≠ 0,則表示狀態(tài)s無法轉(zhuǎn)移到狀 態(tài)s′,即p(s′|s,ai)=0。因此,根據(jù)系統(tǒng)狀態(tài)轉(zhuǎn)移矩陣P得到系統(tǒng)求解最優(yōu)資源分配問題,即得到最優(yōu)資源分配策略π*。其中,資源分配策略π會產(chǎn)生具體的資源分配方案τ,并且根據(jù)不同網(wǎng)絡(luò)狀態(tài)產(chǎn)生的分配方案τ也不同。資源分配策略π產(chǎn)生資源分配方案τ的概率可表示為
其中,ρ0(S0)表示6G DN 起始網(wǎng)絡(luò)狀態(tài)分布。式(17)可有效地表示每個分配方案τ與策略π之間的關(guān)系??紤]動態(tài)情況,網(wǎng)絡(luò)拓撲或者結(jié)構(gòu)發(fā)生變化將會直接影響馬爾可夫鏈的狀態(tài)值。因此,在6G DN的動態(tài)情況下,6G DN 的資源分配過程可表示為
為求解6G DN 無干擾資源分配策略問題,本文提出基于Dueling DQN 的資源無沖突分配DRL 算法,構(gòu)建6G DN 交疊干擾下的資源分配MDP 模型,結(jié)合競爭網(wǎng)絡(luò)模型求解最優(yōu)資源分配策略π*。在6G DN 中,MDP 通常由動作A、狀態(tài)S、即時獎勵R和動作價值函數(shù)Q(s,a)組成,接下來對其進行詳細的介紹。
本文算法引入DQN 方法來確定6G DN 場景下資源無沖突分配的決策序列,并進行網(wǎng)絡(luò)拓撲信息和資源分配情況提取,利用即時獎勵函數(shù)Rt設(shè)計交疊干擾判斷機制,通過即時獎勵函數(shù)Rt判斷6G DN交疊干擾的狀態(tài)和資源分配對交疊干擾的影響,提高無線通信網(wǎng)絡(luò)系統(tǒng)應(yīng)對密集交疊干擾場景的資源分配能力。
1) 狀態(tài):6G DN 所有可能的通信鏈路資源分配狀態(tài)的集合,即狀態(tài)集。因此,6G DN 狀態(tài)可以表示為
其中,Kt表示通信鏈路的資源分配狀態(tài)。
2) 動作:6G DN 觀察當前狀態(tài)做出相應(yīng)通信鏈路資源分配的集合,即動作集。動作集的大小為通信鏈路的數(shù)量M與最大通信資源數(shù)量Ms的乘積。因此,6G DN 資源分配動作集可以表示為
3) 獎勵:6G DN 在狀態(tài)S執(zhí)行動作A獲得的對應(yīng)回報。每個獎勵R和每個狀態(tài)-動作對對應(yīng),因此,6G DN 獎勵可表示為
其中,ηt表示6G DN 已經(jīng)使用的通信資源數(shù)量。
4) 動作價值函數(shù):6G DN 狀態(tài)S和動作A的價值估計,即動作價值函數(shù)是基于狀態(tài)S和動作A的期望回報。由于6G DN 是根據(jù)資源分配策略π進行通信鏈路資源分配的,動作價值函數(shù)Qπ(s,a)可以表示為
由于每個狀態(tài)都需要窮舉出所有可能的方案,本文提出利用貝爾曼方程來化簡,具體推導(dǎo)過程如式(24)所示。
動作價值函數(shù)可以表示為
貝爾曼方程利用時間差法中的Q-Learning算法進行求解。Q-Learning 值的迭代可以表示為
其中,α表示學(xué)習(xí)率。當系統(tǒng)的狀態(tài)和動作數(shù)量龐大且連續(xù)時,利用Q-Learning 解決時很難實現(xiàn)資源分配策略的收斂。因此,DQN 用一個神經(jīng)網(wǎng)絡(luò)Q(s,a;θ)代替動作價值函數(shù)。DQN 的神經(jīng)網(wǎng)絡(luò)參數(shù)θ采用梯度下降方法,可以表示為
其中,?θ(·) 表示對權(quán)值θ進行梯度運算。此外,在利用神經(jīng)網(wǎng)絡(luò)逼近動作價值函數(shù)時,目標值與估計值使用相同權(quán)值θ的神經(jīng)網(wǎng)絡(luò),容易導(dǎo)致訓(xùn)練網(wǎng)絡(luò)不穩(wěn)定和估值過高。因此,使用一個權(quán)值的目標網(wǎng)絡(luò)專門用于產(chǎn)生目標值。權(quán)值θ的神經(jīng)網(wǎng)絡(luò)專門用于評估策略更新參數(shù)。具有雙重權(quán)值的神經(jīng)網(wǎng)絡(luò)更新可以表示為
本文所提的基于Dueling DQN的資源分配算法采用競爭網(wǎng)絡(luò)模型結(jié)合MDP來解決交疊干擾問題。競爭網(wǎng)絡(luò)可以有效提取6G DN 密集交疊干擾的特征。算法的時間復(fù)雜度只與競爭網(wǎng)絡(luò)模型的規(guī)模有關(guān),受實際的無線通信環(huán)境影響較小。其次,利用MDP 來解決資源分配問題,將原本的CO 問題轉(zhuǎn)成序列決策問題求解,大大降低直接求解優(yōu)化問題的難度。
為防止DQN 估值過高,利用競爭網(wǎng)絡(luò)進一步提高算法網(wǎng)絡(luò)學(xué)習(xí)的魯棒性。競爭網(wǎng)絡(luò)將動作價值函數(shù)Q(s,a)分成狀態(tài)價值函數(shù)V(s)和優(yōu)勢函數(shù)Α(s,a)。Α(s,a)表示在狀態(tài)s下選取資源分配動作a的合理性。競爭網(wǎng)絡(luò)的動作價值函數(shù)可表示為
其中,NA=MMs表示所有資源分配動作的數(shù)量。
本文提出基于Dueling DQN的資源分配算法來解決6G DN 無交疊干擾分配問題。算法結(jié)構(gòu)如圖7所示,算法包含6G DN 環(huán)境、ε-greedy 策略、深度Q 網(wǎng)絡(luò)、目標Q 網(wǎng)絡(luò)、損失函數(shù)、經(jīng)驗池和抽樣小批量樣本。其中,6G DN 環(huán)境提供環(huán)境狀態(tài)S和根據(jù)動作更新通信鏈路的狀態(tài);ε-greedy 策略為深度Q 網(wǎng)絡(luò)提供“探索-利用”的能力;深度Q 網(wǎng)絡(luò)評估動作的價值;目標Q 網(wǎng)絡(luò)則選擇當前價值最大的動作;經(jīng)驗池和抽樣小批量樣本則增加樣本之間的隨機性;損失函數(shù)根據(jù)式(28)對深度Q 網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進行更新。
圖7 基于Dueling DQN 的資源分配算法結(jié)構(gòu)
基于Dueling DQN 的資源分配算法如算法1所示。
算法1基于Dueling DQN 的資源分配算法
輸入網(wǎng)絡(luò)拓撲G(V,E),獎勵折扣因子γ,經(jīng)驗回放大小ND,目標網(wǎng)絡(luò)更新頻率L,學(xué)習(xí)率α,樣本批采樣大小Γ,訓(xùn)練次數(shù)Ntrain,每次訓(xùn)練執(zhí)行時間長度T
輸出神經(jīng)網(wǎng)絡(luò)權(quán)值θ,w1,w2
實驗采用的硬件平臺為個人計算機,CPU 為Intel(R) Xeon(R) Gold 6242R CPU @ 3.10 GHz,GPU 為NVIDIA RTX 3080Ti,內(nèi)存為64 GB。隨著通信鏈路數(shù)量增加,網(wǎng)絡(luò)復(fù)雜度和密集程度增加。
根據(jù)表1 參數(shù)進行仿真實驗,分別得到本文算法與其他3 種算法網(wǎng)絡(luò)吞吐量和資源復(fù)用率性能的對比實驗數(shù)據(jù)。其中,對比算法1 為無競爭網(wǎng)絡(luò)的深度Q 網(wǎng)絡(luò)算法,對比算法2 為基于隨機匹配的資源分配算法,對比算法3 為基于貪婪匹配的資源分配算法。
表1 仿真參數(shù)設(shè)置
本文算法和對比算法1 的時間復(fù)雜度主要由神經(jīng)網(wǎng)絡(luò)的權(quán)值迭代決定,時間復(fù)雜度分別為O(G1L1)和O(G2L2)。其中,G表示神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù);L表示每層神經(jīng)元的數(shù)量。對比算法2 的時間復(fù)雜度由通信鏈路數(shù)量和通信資源決定,但每次分配資源優(yōu)先考慮資源無沖突,因此時間復(fù)雜度為O(MMs)。對比算法3 的時間復(fù)雜度由通信鏈路數(shù)量和通信資源決定,但每次分配資源優(yōu)先考慮復(fù)用資源,時間復(fù)雜度為O(Mlog(Ms))。
本文算法和對比算法1 在神經(jīng)網(wǎng)絡(luò)的隱藏層數(shù)和每層神經(jīng)元的數(shù)量相近時,兩者時間復(fù)雜度近似。但本文算法采用競爭網(wǎng)絡(luò)架構(gòu),將動作價值函數(shù)分成狀態(tài)價值函數(shù)和優(yōu)勢函數(shù),當通信鏈路或通信資源的數(shù)量改變時,只改變對應(yīng)的神經(jīng)網(wǎng)絡(luò)權(quán)值即可。而無競爭網(wǎng)絡(luò)的對比算法1 則需要進行整體改變。因此隨著6G DN 的網(wǎng)絡(luò)規(guī)模的增加,本文算法的實際時間復(fù)雜度會低于對比算法1。對比算法2 和對比算法3 直接受到通信鏈路和通信資源的數(shù)量影響,兩者的時間復(fù)雜度隨著6G DN 的網(wǎng)絡(luò)規(guī)模的增加而線性增加。
綜上所述,相對于傳統(tǒng)資源分配算法,深度強化學(xué)習(xí)算法在時間復(fù)雜度方面有著穩(wěn)定的優(yōu)勢。由于神經(jīng)網(wǎng)絡(luò)可以更好地適應(yīng)6G DN 的網(wǎng)絡(luò)規(guī)模的動態(tài)變化,時間復(fù)雜度只與神經(jīng)網(wǎng)絡(luò)模型的大小有關(guān),受實際的無線通信環(huán)境影響較小。因此使用基于Dueling DQN 的資源分配算法可以更好地解決6G DN 下的密集交疊干擾問題。
為驗證本文所提出的基于Dueling DQN的資源分配算法在通信鏈路數(shù)量較大的情況下所產(chǎn)生的優(yōu)化效果,本文主要從每次方案中的累積回報U進行實驗驗證。累積回報U可表示為
如圖8 所示,基于Dueling DQN 的資源分配算法的累積回報隨著迭代次數(shù)的增加而變化。其中,本文算法相比無競爭網(wǎng)絡(luò)結(jié)構(gòu)的算法探索資源分配策略的速度更快,累積回報曲線上升的趨勢更加迅速。圖8 中有競爭網(wǎng)絡(luò)結(jié)構(gòu)的算法得到的累積回報值高,表明有競爭網(wǎng)絡(luò)結(jié)構(gòu)可有效處理交疊干擾和優(yōu)化資源分配,即網(wǎng)絡(luò)吞吐量和資源復(fù)用率更高。
圖8 競爭網(wǎng)絡(luò)效果
1) 網(wǎng)絡(luò)吞吐量。該性能指標可評價資源分配算法分配完所有通信鏈路資源后6G DN 的網(wǎng)絡(luò)吞吐量[22],表示為
2) 資源復(fù)用率。該性能指標可評價資源分配算法使6G DN 所有通信鏈路交疊無干擾后6G DN 的通信資源復(fù)用率[23],表示為
其中,η*為最終使用的通信資源數(shù)量。
圖9 為本文算法和3 種對比算法在不同通信鏈路數(shù)量下的最大網(wǎng)絡(luò)吞吐量。隨著通信鏈路數(shù)量的增加,通信系統(tǒng)中的IT 交疊區(qū)變多,4 種算法得到的最大網(wǎng)絡(luò)吞吐量整體都呈現(xiàn)上升趨勢。對比算法1、對比算法2 和對比算法3 得到的最大網(wǎng)絡(luò)吞吐量明顯低于本文算法。當通信鏈路數(shù)量為20、35、40 時,有競爭網(wǎng)絡(luò)結(jié)構(gòu)的本文算法相對于對比算法1 提高20%及以上的網(wǎng)絡(luò)性能。這表明本文算法可有效提高網(wǎng)絡(luò)吞吐量和處理干擾能力的上限。
圖10 為本文算法和3 種對比算法在不同通信鏈路數(shù)量下的最小網(wǎng)絡(luò)吞吐量。隨著通信鏈路數(shù)量的增加,本文算法和3 種對比算法得到的網(wǎng)絡(luò)吞吐量呈現(xiàn)上升趨勢。本文算法和對比算法1 相對于對比算法2、對比算法3 有效提高了最小網(wǎng)絡(luò)吞吐量。其中,有競爭網(wǎng)絡(luò)結(jié)構(gòu)的本文算法相對于對比算法1 提高5%及以上的網(wǎng)絡(luò)吞吐量。這表明競爭網(wǎng)絡(luò)結(jié)構(gòu)可有效地提高系統(tǒng)處理交疊干擾能力的下限。
圖10 6G DN 最小網(wǎng)絡(luò)吞吐量
圖11 為本文算法和3 種對比算法在不同通信鏈路數(shù)量的平均網(wǎng)絡(luò)吞吐量。隨著通信鏈路數(shù)量的增加,本文算法得到的網(wǎng)絡(luò)吞吐量呈現(xiàn)穩(wěn)定上升趨勢。本文算法得到的平均網(wǎng)絡(luò)吞吐量明顯高于對比算法2 和對比算法3,且相對于對比算法1 提高6%及以上的網(wǎng)絡(luò)吞吐量。
圖11 6G DN 平均網(wǎng)絡(luò)吞吐量
針對網(wǎng)絡(luò)吞吐量,本文所提基于Dueling DQN 的資源分配算法利用DRL 的在線決策能力,降低計算所需的內(nèi)存消耗(將網(wǎng)絡(luò)狀態(tài)作為競爭網(wǎng)絡(luò)的輸入得到資源分配策略的輸出),其中,競爭網(wǎng)絡(luò)提取小區(qū)間無交疊干擾狀態(tài),通過資源分配實現(xiàn)小區(qū)間無交疊干擾,從而大幅度提高網(wǎng)絡(luò)吞吐量,保證網(wǎng)絡(luò)的穩(wěn)定性。
圖12 為本文算法和3 種對比算法在不同通信鏈路數(shù)量下的最大資源復(fù)用率。隨著通信鏈路的增加,本文所提的基于Dueling DQN 的資源分配算法得到的整體資源復(fù)用率明顯高于其他算法。其中,本文算法比對比算法1 提高19%的最大資源復(fù)用率;相較于對比算法2 和對比算法3 分別提高25%和26%的最大資源復(fù)用率。這表明本文采用MDP 解決資源分配問題,可有效增加整個系統(tǒng)資源分配能力的上限。圖12~圖14 中,不同橫線表示不同算法在5 次不同通信鏈路數(shù)量的資源復(fù)用率均值。
圖12 最大資源復(fù)用率
圖13 為本文算法和3 種對比算法在不同通信鏈路數(shù)量的最小資源復(fù)用率。隨著通信鏈路的增加,本文算法和對比算法1 得到的最小資源復(fù)用率明顯高于對比算法2、對比算法3。其中,本文算法比對比算法1 提高6%的最小資源利用;相較于對比算法2和對比算法3 分別提高37%和31%的最小資源復(fù)用率。這表明本文算法可提高資源分配能力的下限。
圖13 最小資源復(fù)用率
圖14 為本文算法和3 種對比算法在不同通信鏈路數(shù)量的平均資源復(fù)用率。隨著通信鏈路數(shù)量的增加,4 種算法得到的平均資源復(fù)用率處于平穩(wěn)波動狀態(tài)。其中,本文所提的基于Dueling DQN 的資源分配算法比對比算法1 提高7%的平均資源復(fù)用率;相較于對比算法2 和對比算法3 分別提高27%和26%的平均資源復(fù)用率。這表明本文算法可有效提高系統(tǒng)資源分配能力。
圖14 平均資源復(fù)用率
針對資源復(fù)用率,本文所提基于Dueling DQN的資源分配算法利用MDP 能夠?qū)崟r掌握網(wǎng)絡(luò)的運作狀態(tài)(為每一時刻的狀態(tài)提供一個對應(yīng)資源分配動作),找到一種滿足實時性和資源效率要求的資源分配策略,增強資源分配能力,提高通信資源復(fù)用率。
實際測試采用戴爾(DELL)X86 服務(wù)器、美國國家儀器公司(NI,national instruments)通用軟件無線電外設(shè)N310 硬件平臺和歐洲電信學(xué)院的開源空口(OAI,open air interface)。根據(jù)6G DN相關(guān)文章中的仿真場景,搭建密集網(wǎng)絡(luò)[24-25],并按照所提算法中的參數(shù)來配置實際密集網(wǎng)絡(luò)系統(tǒng)的參數(shù),如表2 所示。
表2 密集網(wǎng)絡(luò)系統(tǒng)的參數(shù)
如圖15 所示,隨著通信鏈路數(shù)量的增加,網(wǎng)絡(luò)吞吐量整體都呈上升趨勢,其中,本文算法仿真得到的網(wǎng)絡(luò)吞吐量始終大于實際通信環(huán)境的測試結(jié)果?;鶞仕惴ǖ膶嶋H測試結(jié)果明顯低于本文算法的實際測試結(jié)果。當通信鏈路數(shù)量為45 時,本文算法比基準算法最大提高37%的網(wǎng)絡(luò)吞吐量;當通信鏈路數(shù)量為30 時,本文算法比基準算法最小提高17%的網(wǎng)絡(luò)吞吐量。通過部署基于Dueling DQN的資源分配算法可以降低交疊干擾,提高網(wǎng)絡(luò)吞吐量。實際測試結(jié)果驗證了本文算法的有效性。
圖15 實際測試結(jié)果
為通過資源分配實現(xiàn)小區(qū)間無交疊干擾,提高6G DN 的網(wǎng)絡(luò)性能,本文討論了6G DN 中的資源分配問題,但資源受限和節(jié)點密集分布導(dǎo)致難以通過傳統(tǒng)的優(yōu)化方法解決資源的有效分配問題。針對此問題,本文提出了基于Dueling DQN 的資源分配算法。該算法利用在線決策的能力彌補以犧牲存儲空間來提高網(wǎng)絡(luò)吞吐量的資源分配技術(shù)缺點,比優(yōu)化方法有更少的內(nèi)存消耗。仿真實驗結(jié)果表明,所提算法可以有效提高網(wǎng)絡(luò)吞吐量和資源復(fù)用率,并且隨著網(wǎng)絡(luò)規(guī)模和密集程度的增加對方法的實時性和內(nèi)存消耗的影響較小,資源復(fù)用率處于穩(wěn)定狀態(tài)。在實際測試中,本文算法比基準算法最大提高了33%的網(wǎng)絡(luò)吞吐量和37%的資源復(fù)用率,有效提升了網(wǎng)絡(luò)性能。