胡浪濤,畢松姣,劉全金,吳建嵐,楊 瑞
(安慶師范大學(xué)電子工程與智能制造學(xué)院 安徽 安慶 246133)
近年來,隨著移動(dòng)用戶數(shù)量的爆炸式增長,多小區(qū)間的功率分配問題引起了廣泛關(guān)注。此外,小區(qū)內(nèi)和小區(qū)間的干擾管理對于提高蜂窩網(wǎng)絡(luò)系統(tǒng)的能量效率也很重要。為了解決移動(dòng)用戶密度大的問題,非正交多址接入技術(shù)成為當(dāng)前通信系統(tǒng)的研究熱點(diǎn)之一[1-5]。
非正交多址接入(non-orthogonal multiple access,NOMA)技術(shù)的基本思想是在發(fā)送端采用非正交方式發(fā)送信號,在接收端采用串行干擾刪除技術(shù),從而實(shí)現(xiàn)信號的正確解調(diào)。已有很多文獻(xiàn)研究了NOMA 系統(tǒng)的功率分配問題。文獻(xiàn)[1]提出一種單輸入單輸出情況下的優(yōu)化問題,隨后將單輸入單輸出解決方案擴(kuò)展為多輸入多輸出場景,在滿足每個(gè)用戶的最小速率要求的服務(wù)質(zhì)量和總功率約束條件下使總?cè)萘孔畲蠡?。文獻(xiàn)[2]將深度強(qiáng)化學(xué)習(xí)(deep reinforce learning, DRL)應(yīng)用于無授權(quán)NOMA系統(tǒng)的決策中,旨在減輕沖突并提高未知網(wǎng)絡(luò)環(huán)境中的系統(tǒng)吞吐量。文獻(xiàn)[3]研究了包含任意用戶的單個(gè)NOMA 簇,目標(biāo)是在滿足每個(gè)用戶所需的最小數(shù)據(jù)速率下最大化能量效率。文獻(xiàn)[4]研究了集群中多用戶多輸入多輸出NOMA 系統(tǒng)中最大化能量效率的功率分配方案。
很多功率優(yōu)化函數(shù)是非凸的,且優(yōu)化問題是非確定性多項(xiàng)式(non-deterministic polynomial, NP)難題,機(jī)器學(xué)習(xí)技術(shù)被引入用于解決功率優(yōu)化問題。機(jī)器學(xué)習(xí)包括監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等。監(jiān)督學(xué)習(xí)需要訓(xùn)練樣本帶有類別標(biāo)簽,通過訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)逼近已給出的標(biāo)簽,文獻(xiàn)[6-7]給出了關(guān)于監(jiān)督學(xué)習(xí)的實(shí)現(xiàn)方案。無監(jiān)督學(xué)習(xí)的訓(xùn)練樣本沒有標(biāo)簽,文獻(xiàn)[8-9]相繼提出了多種無監(jiān)督學(xué)習(xí)研究方案。強(qiáng)化學(xué)習(xí)討論一個(gè)智能體如何在未知環(huán)境里面最大化能獲得的獎(jiǎng)勵(lì)。因?yàn)楸O(jiān)督學(xué)習(xí)需要提前給出類別標(biāo)簽,非監(jiān)督學(xué)習(xí)在學(xué)習(xí)過程中無反饋,強(qiáng)化學(xué)習(xí)在近年來成為無線通信中功率分配的熱門技術(shù)[10-14]。文獻(xiàn)[10]將Actor-critic 算法應(yīng)用于NOMA 系統(tǒng)中不同認(rèn)知無線電之間的功率分配,其目的是滿足認(rèn)知無線電最小數(shù)據(jù)速率要求的同時(shí),最大化系統(tǒng)能量效率。文獻(xiàn)[11]研究使用深度Q 網(wǎng)絡(luò)(deep Q networks, DQN)算法,旨在最大化整個(gè)網(wǎng)絡(luò)的能量效率。文獻(xiàn)[12]考慮動(dòng)態(tài)無線網(wǎng)絡(luò)中發(fā)射功率和信道的聯(lián)合決策優(yōu)化問題,通過構(gòu)造DQN 解決狀態(tài)空間過大的復(fù)雜決策問題,提高系統(tǒng)能量效率。文獻(xiàn)[13]提出基于Actor-Critic算法研究混合能源異構(gòu)網(wǎng)絡(luò)中用戶調(diào)度和資源分配的最優(yōu)策略,目的是最大化系統(tǒng)的能量效率。
本文針對單輸入單輸出的下行多小區(qū)NOMA系統(tǒng),研究了一種DRL 的功率分配算法(energy efficient power allocation-DQN,EEPA-DQN),將DQN 作為動(dòng)作?狀態(tài)值函數(shù),目的是優(yōu)化信道功率分配,使系統(tǒng)能量效率最大化。將基站到用戶的單個(gè)信道視為一個(gè)智能體,使用經(jīng)驗(yàn)回放池將數(shù)據(jù)進(jìn)行集中訓(xùn)練,分步執(zhí)行時(shí)使用該智能體學(xué)習(xí)到的策略。仿真結(jié)果表明,EEPA-DQN 算法與加權(quán)最小均 方 誤 差 (weight minimum mean square error,WMMSE)[15]、分 式 規(guī) 劃(fractional programming,FP)[16]、最大功率(maximal power, MP)[17]和隨機(jī)功率 (random power, RP)[18]等算法相比,得到的能量效率更高,收斂速度更快。
基站向不同用戶發(fā)送消息,每個(gè)基站發(fā)送給用戶的疊加信號表示為:
圖1 蜂窩網(wǎng)絡(luò)模型
強(qiáng)化學(xué)習(xí)算法討論一個(gè)智能體如何在一個(gè)復(fù)雜不確定的環(huán)境里獲得最大化的獎(jiǎng)勵(lì)。本文采用深度強(qiáng)化學(xué)習(xí)DQN 算法,基于離散時(shí)間馬爾可夫決策過程(Markov decision process, MDP),在有限的動(dòng)作和狀態(tài)空間中最大化獲得的獎(jiǎng)勵(lì)。在時(shí)隙t,從環(huán)境中獲取狀態(tài)st∈S, 智能體選擇動(dòng)作at∈A,并與環(huán)境交互,獲得獎(jiǎng)勵(lì)rt∈R并轉(zhuǎn)換到下一個(gè)狀態(tài)st+1,其中 ,A是動(dòng)作集合,S是狀態(tài)集合,P是當(dāng)前狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)的狀態(tài)轉(zhuǎn)移概率,R是獎(jiǎng)勵(lì)集合。強(qiáng)化學(xué)習(xí)框圖如圖2 所示。
圖2 強(qiáng)化學(xué)習(xí)模型
由于狀態(tài)可以是連續(xù)的,DQN 將Q-learning與神經(jīng)網(wǎng)絡(luò)相結(jié)合,用于解決無限狀態(tài)空間的問題,即用神經(jīng)網(wǎng)絡(luò)代替q-table,并在q-table 的基礎(chǔ)上提出兩個(gè)創(chuàng)新點(diǎn)[14]。
1) 經(jīng)驗(yàn)回放。由于Q-learning 算法得到的樣本前后是相關(guān)的,為了打破數(shù)據(jù)之間的關(guān)聯(lián)性,在網(wǎng)絡(luò)訓(xùn)練過程中使用經(jīng)驗(yàn)回放機(jī)制。從以往的狀態(tài)轉(zhuǎn)移中隨機(jī)采樣 (st,at,rt,st+1)進(jìn)行訓(xùn)練。經(jīng)驗(yàn)回放可以減少智能體所需的學(xué)習(xí)經(jīng)驗(yàn),解決樣本關(guān)聯(lián)性和效率利用的問題。
圖3 DQN 訓(xùn)練流程
本文使用免模型兩步訓(xùn)練框架,由于數(shù)據(jù)驅(qū)動(dòng)算法對數(shù)據(jù)量要求較高,為了減少在線訓(xùn)練的壓力,使用DRL 算法對DQN 進(jìn)行離線訓(xùn)練;再將訓(xùn)練過的DQN 在真實(shí)場景中進(jìn)行動(dòng)態(tài)微調(diào)?;镜接脩舻南滦墟溌沸诺揽梢暈橐粋€(gè)智能體,環(huán)境是下行多小區(qū)NOMA 系統(tǒng),智能體和環(huán)境進(jìn)行交互,智能體選擇一個(gè)動(dòng)作at,得到一個(gè)獎(jiǎng)勵(lì)rt,進(jìn)入下一個(gè)狀態(tài)st+1。下行多小區(qū)NOMA系統(tǒng)研究的是一個(gè)多智能體問題,訓(xùn)練數(shù)據(jù)及參數(shù)較單智能體更為復(fù)雜。故引入經(jīng)驗(yàn)回放技術(shù),經(jīng)驗(yàn)回放池中包括狀態(tài)st、動(dòng)作at、獎(jiǎng)勵(lì)rt和下一個(gè)狀態(tài)st+1等數(shù)據(jù),利用經(jīng)驗(yàn)回放池?cái)?shù)據(jù)對DQN 網(wǎng)絡(luò)進(jìn)行集中訓(xùn)練,分步執(zhí)行時(shí)使用該智能體學(xué)習(xí)到的策略。
本文將DQN 的思想引入NOMA 系統(tǒng)的功率分配中,即EEPA-DQN 算法,旨在最大化系統(tǒng)的能量效率。EEPA-DQN 的3 個(gè)重要組成元素為狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì),具體如下。
狀態(tài):狀態(tài)的選取很重要,為了降低輸入維度,在時(shí)隙t開始時(shí),智能體根據(jù)來自接收機(jī)處干擾源的當(dāng)前接收功率對干擾源按從大到小進(jìn)行排序。保留前Z個(gè)對用戶k下一個(gè)動(dòng)作有較強(qiáng)干擾的信息源,Z以外的基站到用戶的下行鏈路及干擾信號的信道增益均視為零。最佳發(fā)射功率pt和當(dāng)前的信道增益gt相關(guān),但這種設(shè)計(jì)使得DQN 的性能變差。因此,本文基于文獻(xiàn)[21],通過3 個(gè)主要特征
獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)決定強(qiáng)化學(xué)習(xí)算法的收斂速度和程度,智能體目的是最大化的系統(tǒng)的累計(jì)收益,若想要讓智能體較快的達(dá)到目標(biāo),提供獎(jiǎng)勵(lì)函數(shù)應(yīng)使智能體在最大化收益的同時(shí)可實(shí)現(xiàn)系統(tǒng)能量效率最大化。故本文中將系統(tǒng)能量效率用作獎(jiǎng)勵(lì)函數(shù)。
本文研究下行多小區(qū)NOMA 系統(tǒng),模擬一個(gè)小區(qū)數(shù)C=16 的蜂窩網(wǎng)絡(luò),在每一個(gè)小區(qū)內(nèi)配備一個(gè)中心基站,每個(gè)基站可同時(shí)為K=2 個(gè)用戶服務(wù)。假設(shè)某一小區(qū)的兩層之內(nèi)的小區(qū)設(shè)置為干擾用戶,即干擾層數(shù)I=2;用戶被隨機(jī)分配在d∈[rmin,rmax]內(nèi) ,rmin=0.01 km和rmax=1 km分別為小區(qū)內(nèi)基站到用戶最短距離和最長距離。信道模擬小尺度衰落,小尺度衰落服從獨(dú)立的瑞利分布,使用Jakes 模型,路徑損耗以β=120.9+37.6lgd+10lgz進(jìn)行模擬,d是基站與用戶之間的距離,距離越大路徑損耗值越大,z為對數(shù)正態(tài)隨機(jī)變量,標(biāo)準(zhǔn)差為8 dB[20]。
為確保智能體能快速做出決策,網(wǎng)絡(luò)結(jié)構(gòu)不宜過于復(fù)雜,EEPA-DQN 算法為一個(gè)輸入層、兩個(gè)隱藏層和一個(gè)輸出層的結(jié)構(gòu)較簡單的神經(jīng)網(wǎng)絡(luò)。隱藏層采用ReLU 激活函數(shù),輸出層的激活函數(shù)是線性的。將前12 個(gè)小區(qū)視為干擾源,功率電平數(shù)|A| = 10。為了減少在線計(jì)算的壓力,采用離線訓(xùn)練。在前100 次迭代訓(xùn)練中,只能隨機(jī)選擇動(dòng)作,在探索階段使用自適應(yīng)貪婪策略[22]。訓(xùn)練得到的EEPA-DQN 具有較強(qiáng)的泛化能力,每次迭代包含1 000 個(gè)時(shí)隙,每10 個(gè)時(shí)隙從經(jīng)驗(yàn)回放記憶中隨機(jī)抽取一批樣本訓(xùn)練EEPA-DQN,使用Adam[23]算法作為優(yōu)化器,NOMA 無線通信系統(tǒng)參數(shù)設(shè)置見表1。
表1 NOMA 無線通信系統(tǒng)參數(shù)設(shè)置
在對EEPA-DQN 算法進(jìn)行實(shí)驗(yàn)仿真的同時(shí),將本文提出的EEPA-DQN 算法與FP、WMMSE、MP和RP 算法進(jìn)行實(shí)驗(yàn)比較。FP、WMMSE 這兩個(gè)算法是非常經(jīng)典的考慮多小區(qū)間干擾的功率分配算法,均為迭代的算法,都需要全局實(shí)時(shí)的跨小區(qū)信道狀態(tài)信息(channel state information, CSI),對于基站來說它的開銷龐大[24]。深度神經(jīng)網(wǎng)絡(luò)具有一定的學(xué)習(xí)本領(lǐng),在進(jìn)行網(wǎng)絡(luò)的特征提取時(shí)具有一定的智能和泛化性能。另一個(gè)優(yōu)點(diǎn)是DQN 的算法復(fù)雜度較低。表2 列出了不同算法的單次CPU 運(yùn)行時(shí)間。從表2中可以看出基于強(qiáng)化學(xué)習(xí)的功率分配算法復(fù)雜度較低。EEPA-DQN 算法分別比FP、WMMSE、MP 和RP 算法快13.0 倍、14.1 倍、15.1倍和13.0 倍左右,硬件配置為:Intel(R) Xeon(R)CPU E3-1230 v5;軟件為:python 3.7,TensorFlow 1.15.0。仿真的下行多小區(qū)NOMA 系統(tǒng)小區(qū)數(shù)目為16。
表2 單次執(zhí)行時(shí)間
不過,EEPA-DQN 算法計(jì)算復(fù)雜度與神經(jīng)網(wǎng)絡(luò)的層數(shù)呈線性關(guān)系,且隨著維數(shù)的增加,計(jì)算變得復(fù)雜。圖4 展示了EEPA-DQN 算法得到的平均能效比FP、WMMSE、MP 和RP 分配算法有顯著提高。因此,EEPA-DQN 算法可有效地最大化系統(tǒng)的能量效率。
圖4 5 種功率分配算法平均能量效率
NOMA 是非正交多址技術(shù),OMA 代表傳統(tǒng)的正交多址。當(dāng)多個(gè)用戶的信號在相同的信道資源上傳輸時(shí),NOMA 可以實(shí)現(xiàn)更高的頻譜效率[25]、更大的系統(tǒng)容量和低傳輸延遲[26]。從圖5 中可以看出,隨著迭代次數(shù)的增加,兩種多址方案的系統(tǒng)平均能量效率都增加了。NOMA 的功率分配與接收端處SIC 過程相關(guān),將較高的功率分配給路徑損耗較大的用戶,提高了用戶的速率,使NOMA 系統(tǒng)比OMA 系統(tǒng)可實(shí)現(xiàn)更大的系統(tǒng)平均能量效率,且算法更為穩(wěn)定。
圖5 NOMA 與 OMA 平均能量效率
折扣因子是可選擇的一個(gè)經(jīng)驗(yàn)值,對于大多數(shù)應(yīng)用而言,增加γ 更有利于DQN。本文算法取γ=0,0.2,0.4,0.6,0.8, 仿真結(jié)果表明,γ =0時(shí)能效值明顯高于其他值,但考慮到信號傳輸過程中存在路徑損耗,智能體與未來回報(bào)之間的相關(guān)性相對較少,γ 應(yīng)選取較小的值。圖6 仿真了不同γ 值時(shí),EEPA-DQN 訓(xùn)練過程中的下行多小區(qū)NOMA 系統(tǒng)平均能量效率,隨著訓(xùn)練次數(shù)的增加,平均能量效率逐漸增加,且在γ =0時(shí)達(dá)到最高能效。圖7 仿真了不同γ 值在不同小區(qū)數(shù)時(shí),EEPA-DQN 訓(xùn)練過程中的平均能效。仿真實(shí)驗(yàn)考慮了小區(qū)數(shù)C=9, 16,36, 64 的情況,通過圖7 可知,這4 種情況下小區(qū)數(shù)為9 時(shí)所能達(dá)到的能效最高,目標(biāo)小區(qū)周圍的干擾小區(qū)數(shù)目越多,外圍到目標(biāo)小區(qū)距離越大,干擾會(huì)越來越小,所以最外圍的干擾小區(qū)的干擾功率就非常小。最后仿真了不同小區(qū)數(shù)目的NOMA 系統(tǒng)的能效。由式(4)、式(5)可知,隨著小區(qū)數(shù)的增加,如小區(qū)數(shù)為36、64 時(shí),小區(qū)間的干擾隨之增強(qiáng),所達(dá)到的能效隨著小區(qū)數(shù)量的增加而下降,γ=0 時(shí)仍能保持較高的能效,從而驗(yàn)證了本文算法在γ=0 時(shí)有一定的泛化性能。
圖6 不同γ 值時(shí)系統(tǒng)平均能量效率
圖7 不同γ 值不同小區(qū)數(shù)時(shí)平均能量效率
通過實(shí)驗(yàn)評估不同學(xué)習(xí)率對EEPA-DQN 算法的影響。圖8 展示不同學(xué)習(xí)率下的平均能量效率與訓(xùn)練回合的關(guān)系,學(xué)習(xí)率Ir=0.01, 0.001, 0.000 1 這3 種情況,平均能效均有上升趨勢。當(dāng)學(xué)習(xí)率設(shè)置為0.000 1 時(shí),算法相對于其他兩個(gè)取值更為穩(wěn)定,且平均能效可達(dá)到最高;當(dāng)學(xué)習(xí)率為0.01時(shí),可觀察到算法穩(wěn)定性較差。通過以上分析,EEPA-DQN 算法的學(xué)習(xí)率設(shè)置為0.000 1。
圖8 不同學(xué)習(xí)率值時(shí)平均能量效率
本文研究了一種基于強(qiáng)化學(xué)習(xí)的下行多小區(qū)NOMA 系統(tǒng)的功率分配問題,旨在最大化系統(tǒng)的能效。由于功率優(yōu)化問題具有非凸性,本文選用免模型驅(qū)動(dòng)的DQL 算法,將DQL 與神經(jīng)網(wǎng)絡(luò)相結(jié)合以解決狀態(tài)連續(xù)的問題。仿真結(jié)果表明,本文算法將含有兩個(gè)隱藏層的EEPA-DQN 逼近動(dòng)作?值函數(shù),同時(shí),本文算法擴(kuò)展到大規(guī)模場景也有較好的性能,但算法的穩(wěn)定性還有待提高。