融合深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的5G無(wú)線(xiàn)資源管理*

2021-08-03 08:33陳慧敏

移動(dòng)通信 2021年4期

陳慧敏

（廣東郵電職業(yè)技術(shù)學(xué)院，廣東廣州 510630）

0 引言

5G時(shí)代的到來(lái)，超密集組網(wǎng)技術(shù)不僅解決小基站密集部署應(yīng)對(duì)熱點(diǎn)區(qū)域流量負(fù)載分流問(wèn)題，還解決宏基站的弱覆蓋問(wèn)題。由于熱點(diǎn)區(qū)域上下行業(yè)務(wù)具有很強(qiáng)突發(fā)性，傳統(tǒng)資源配置方法容易產(chǎn)生網(wǎng)絡(luò)擁塞問(wèn)題，不滿(mǎn)足現(xiàn)有網(wǎng)絡(luò)無(wú)線(xiàn)資源分配需求。因此，面向5G超密集組網(wǎng)的無(wú)線(xiàn)資源管理技術(shù)備受學(xué)者青睞，如：Huang等人[1]通過(guò)動(dòng)態(tài)調(diào)整小基站的發(fā)射功率實(shí)現(xiàn)小區(qū)級(jí)無(wú)線(xiàn)網(wǎng)絡(luò)資源動(dòng)態(tài)管理；Zhang等人[2]引入遺傳算法實(shí)現(xiàn)小區(qū)負(fù)載均衡和能耗雙目標(biāo)優(yōu)化；Tian等人[3]采用遺傳算法實(shí)現(xiàn)動(dòng)態(tài)業(yè)務(wù)子信道和功率分配；劉海燕[4]通過(guò)提高邊緣用戶(hù)優(yōu)先級(jí)來(lái)實(shí)現(xiàn)無(wú)線(xiàn)資源調(diào)度；張?jiān)卢揫5]提出了一種基于多優(yōu)先級(jí)信道接入特性的QoE接入控制機(jī)制來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)效能優(yōu)化；楊寧[6]采用深度學(xué)習(xí)方法來(lái)管理多智能體頻譜接入和制定功率分配策略，實(shí)現(xiàn)分布式聯(lián)合用戶(hù)關(guān)聯(lián)、信道接入和時(shí)間幀策略選擇。

綜上所述，無(wú)線(xiàn)資源管理策略的研究成果可以歸納為兩方面：（1）最大資源利用率準(zhǔn)則無(wú)線(xiàn)資源管理策略，以系統(tǒng)最大吞吐量、頻譜資源為目標(biāo)將資源分配給用戶(hù)；（2）公平準(zhǔn)則無(wú)線(xiàn)資源管理策略，兼顧用戶(hù)獲得資源機(jī)會(huì)的概率和系統(tǒng)性能。在參考學(xué)者研究基礎(chǔ)上，本文探討面向5G超密集組網(wǎng)的無(wú)線(xiàn)資源管理技術(shù)，在保證用戶(hù)QoS的情況下，以系統(tǒng)吞吐量最大化為目標(biāo)，結(jié)合信道狀態(tài)信息采用強(qiáng)化學(xué)習(xí)選擇合適信道資源，降低信道資源開(kāi)銷(xiāo)，有效利用無(wú)線(xiàn)網(wǎng)絡(luò)頻譜資源。

1 5G超密集組網(wǎng)部署場(chǎng)景及無(wú)線(xiàn)資源管理思路

小小區(qū)（稱(chēng)為小基站）是小型低功率節(jié)點(diǎn)統(tǒng)稱(chēng)，發(fā)射功率一般在30 dBm左右，其覆蓋范圍在100～1 000 m之間，部署靈活、網(wǎng)絡(luò)效率高，特別適用于解決宏基站弱覆蓋的場(chǎng)景，也適用于密集區(qū)域熱點(diǎn)分流的場(chǎng)景。小基站密集化部署作為5G超密集組網(wǎng)的重要部署方式，不僅能夠彌補(bǔ)宏基站弱覆蓋場(chǎng)景的覆蓋空洞缺陷，還能分流熱點(diǎn)區(qū)域的數(shù)據(jù)流量，提升整個(gè)網(wǎng)絡(luò)容量，提高用戶(hù)傳輸速率。小基站在3GPP標(biāo)準(zhǔn)化R12中有4種典型的5G超密集組網(wǎng)部署場(chǎng)景，分別是：小基站與宏基站同頻部署、小基站（室外）與宏基站異頻部署、小基站（室內(nèi)）與宏基站異頻部署以及小基站單獨(dú)部署。

超密集組網(wǎng)部署方式給無(wú)線(xiàn)資源的管理帶來(lái)了新的挑戰(zhàn)：不同回程鏈路的選擇會(huì)影響網(wǎng)絡(luò)速率和時(shí)延性能，如何根據(jù)用戶(hù)業(yè)務(wù)使用需求選擇可靠的回程鏈路，提升網(wǎng)絡(luò)性能；如何在有效利用小基站資源實(shí)現(xiàn)宏基站業(yè)務(wù)的卸載的情況下降低小基站之間的頻繁切換，提升用戶(hù)服務(wù)體驗(yàn)；如何實(shí)現(xiàn)宏站和小基站的有效協(xié)同，實(shí)現(xiàn)無(wú)線(xiàn)網(wǎng)絡(luò)的負(fù)載均衡，合理分流網(wǎng)絡(luò)流量，并保障用戶(hù)的服務(wù)體驗(yàn)；如何根據(jù)用戶(hù)業(yè)務(wù)使用的潮汐效應(yīng)，對(duì)小基站進(jìn)行動(dòng)態(tài)的開(kāi)啟和關(guān)閉，降低小基站的運(yùn)營(yíng)和維護(hù)成本；如何在結(jié)合業(yè)務(wù)上下行的使用情況降低宏基站和小基站同頻部署干擾。

本文面向5G超密集組網(wǎng)重點(diǎn)研究以用戶(hù)為中心的無(wú)線(xiàn)資源管理技術(shù)，重點(diǎn)關(guān)注信道狀態(tài)動(dòng)態(tài)變化情況下如何實(shí)現(xiàn)可用信道的有效選擇，確保滿(mǎn)足用戶(hù)QoS情況下實(shí)現(xiàn)系統(tǒng)吞吐量最大化。

2 基于深度學(xué)習(xí)的網(wǎng)絡(luò)信道狀態(tài)感知算法

5G超密集組網(wǎng)架構(gòu)會(huì)利用大規(guī)模MIMO技術(shù)實(shí)現(xiàn)空間復(fù)用增益、分集增益以及波束成形的能力，通過(guò)在發(fā)射端配置多根天線(xiàn)實(shí)現(xiàn)多收和多發(fā)，能鞏固在不增加頻譜資源的前提下成倍提升信道容量[7]。而實(shí)現(xiàn)空間復(fù)用增益、分級(jí)增益是建立在基站能夠準(zhǔn)確、實(shí)時(shí)掌握上行鏈路和下行鏈路信道狀態(tài)信息基礎(chǔ)上，一般來(lái)說(shuō)，上行鏈路可以通過(guò)手機(jī)端發(fā)送訓(xùn)練導(dǎo)頻來(lái)獲得，基站基于手機(jī)發(fā)送的訓(xùn)練導(dǎo)頻信息來(lái)估計(jì)終端側(cè)的信道狀態(tài)；下行鏈路首先是基站以恒定的功率發(fā)送一個(gè)下行導(dǎo)頻給終端側(cè)，終端側(cè)根據(jù)基站下發(fā)的導(dǎo)頻信息估計(jì)下行鏈路的信道相關(guān)矩陣，終端側(cè)基于信道矩陣的空頻域向量來(lái)進(jìn)行基站下行鏈路信道狀態(tài)的估計(jì)，并將信道狀態(tài)估計(jì)信息通過(guò)反饋鏈路上報(bào)到基站，基站根據(jù)終端的評(píng)估結(jié)果來(lái)實(shí)現(xiàn)傳輸信道資源分配。

由于上述信道狀態(tài)估計(jì)的假設(shè)是終端側(cè)獲取信道狀態(tài)數(shù)據(jù)與基站傳輸數(shù)據(jù)的時(shí)間間隔很小，因此，基于上述假設(shè)信道相關(guān)調(diào)度和鏈路自適應(yīng)在低移動(dòng)性的場(chǎng)景下可以獲得很好的效果，一旦終端側(cè)發(fā)生高速移動(dòng)，那么從終端側(cè)獲得的信道狀態(tài)已經(jīng)過(guò)時(shí)，基于先驗(yàn)信道結(jié)構(gòu)特征的信號(hào)狀態(tài)估計(jì)值將會(huì)失效，其次，終端側(cè)通過(guò)反饋鏈路將CSI矩陣中的相關(guān)參數(shù)反饋給基站，在實(shí)際中將會(huì)消耗大量資源，增加信道的開(kāi)銷(xiāo)。因此，相關(guān)的研究[8-10]更傾向于提取信道狀態(tài)時(shí)空相關(guān)性特征的思路來(lái)反映時(shí)變信道狀態(tài)。

圖1 基于深度學(xué)習(xí)的網(wǎng)絡(luò)信道特征提取算法圖

3 基于強(qiáng)化學(xué)習(xí)的信道接入策略選擇算法

3.1 無(wú)線(xiàn)資源選擇問(wèn)題建模

強(qiáng)化學(xué)習(xí)模型是由Agent、environment、action三部分組成，Agent是一個(gè)自主感知信道狀態(tài)和學(xué)習(xí)信道環(huán)境能力的系統(tǒng)，在本文中我們定義Agent為用戶(hù)終端側(cè)，environment是指終端側(cè)能夠感受到基站的信道狀態(tài)以及同一小區(qū)其他用戶(hù)信道反饋參數(shù)；action信道接入的策略；reward是成功接入某個(gè)信道并且滿(mǎn)足業(yè)務(wù)所需要的最小QoE所獲得的獎(jiǎng)勵(lì)；state表示系統(tǒng)當(dāng)前時(shí)刻T的信道狀態(tài)?；趶?qiáng)化學(xué)習(xí)的信道接入策略選擇示例圖如圖2所示。

圖2 基于強(qiáng)化學(xué)習(xí)的信道接入策略選擇示例圖

強(qiáng)化學(xué)習(xí)的算法主要包括兩種：策略空間搜索和值函數(shù)估計(jì)，策略空間搜索適用于環(huán)境變化比較小的情況；值函數(shù)估計(jì)的核心是環(huán)境狀態(tài)的估計(jì)。由于本文的信道狀態(tài)是一個(gè)動(dòng)態(tài)的變量，因此本文采用值函數(shù)估計(jì)的方法來(lái)解決用戶(hù)終端接入信道的問(wèn)題。

考慮到終端側(cè)在接入信道時(shí)，定義信道狀態(tài)為1（即“信道空閑”），而當(dāng)信道被其他終端占用，定義信道狀態(tài)為1（即“信道忙”），那么在信道狀態(tài)估計(jì)的情況下，t時(shí)刻終端側(cè)的瞬間吞吐量（或者稱(chēng)為瞬間回報(bào)率）為：

那么基于強(qiáng)化學(xué)習(xí)的方法終端側(cè)對(duì)信道進(jìn)行有限探索之后，截至到t時(shí)刻某個(gè)小區(qū)內(nèi)海量終端側(cè)選擇某一個(gè)信道i的次數(shù)為Ni(t)后，系統(tǒng)得到的平均吞吐量為：

那么，在特定時(shí)間周期T內(nèi)，基于業(yè)務(wù)QoS約束下吞吐量最大化目標(biāo)為：

式(4)的第一部分是在特定時(shí)間周期T內(nèi)手機(jī)信道選擇各個(gè)信道后，系統(tǒng)得到的平均吞吐量；第二部分是指選擇信道i后的業(yè)務(wù)I的平均時(shí)延要小于業(yè)務(wù)I設(shè)定的時(shí)延閾值；第三部分是指選擇信道i后的業(yè)務(wù)I的平均帶寬要大于業(yè)務(wù)I設(shè)定的帶寬閾值；第四部分是指選擇信道i后的業(yè)務(wù)I的平均速率要大于業(yè)務(wù)I設(shè)定的速度閾值。

系統(tǒng)基于當(dāng)前信道狀態(tài)估計(jì)和系統(tǒng)得到的瞬間回報(bào)基礎(chǔ)上，結(jié)合（式(4)）選擇“合適”的信道讓終端側(cè)接入無(wú)線(xiàn)環(huán)境。

3.2 基Q學(xué)習(xí)無(wú)線(xiàn)資源管理方法

本文采用將每一個(gè)終端視為一個(gè)agent，通過(guò)采集信道狀態(tài)信息以及相鄰基站信道狀態(tài)，然后選擇一種最大化系統(tǒng)吞吐量來(lái)實(shí)現(xiàn)信道接入。為了實(shí)現(xiàn)全局最優(yōu)，本文定義一個(gè)統(tǒng)一管理的資源分配策略表，一旦某一個(gè)終端實(shí)現(xiàn)無(wú)線(xiàn)資源接入，該策略表通過(guò)集中控制器進(jìn)行更新，從而每個(gè)終端將會(huì)感知到基站的資源分配情況?；赒學(xué)習(xí)無(wú)線(xiàn)資源管理方法為：

Agent：每個(gè)基站作為一個(gè)agent；

Action：在t時(shí)刻下系統(tǒng)的策略集a[t]；

Reward：系統(tǒng)獎(jiǎng)勵(lì)為系統(tǒng)的最大吞吐量之和，也就是滿(mǎn)足當(dāng)前用戶(hù)QoE約束下agentk選擇空閑信道i的平均吞吐量r[t]。

基于上述定義，Q函數(shù)學(xué)習(xí)的更新過(guò)程如下：

β表示上一時(shí)刻策略選擇對(duì)下一時(shí)刻策略選擇的影響系數(shù)。每一個(gè)agent在信道進(jìn)行探索，決定繼續(xù)探索還是直接接入該信道。首次的信道分配是隨機(jī)選擇的，QoEm的實(shí)時(shí)測(cè)量是用于后續(xù)無(wú)線(xiàn)終端接入中資源分配的標(biāo)準(zhǔn)。在無(wú)線(xiàn)終端接入擴(kuò)張過(guò)程中，系統(tǒng)選擇Q值最大的方案進(jìn)行信道資源的分配，然后結(jié)合學(xué)習(xí)概率不斷迭代，尋找全局最優(yōu)方案。系統(tǒng)在完成最優(yōu)策略后，Q表根據(jù)當(dāng)前的狀態(tài)以及策略的選擇進(jìn)行Q值更新；然后每一個(gè)Agent將開(kāi)始觀(guān)察觀(guān)察下一個(gè)狀態(tài)，進(jìn)入下一次無(wú)線(xiàn)資源接入策略的選擇，如此不斷迭代。

4 實(shí)驗(yàn)分析

本文在一個(gè)空曠小區(qū)搭建實(shí)驗(yàn)環(huán)境，設(shè)置基站數(shù)量為3，天線(xiàn)數(shù)量為32，子載波數(shù)量為256，信道狀態(tài)矩陣維度為32×256維。假設(shè)終端接入請(qǐng)求服從泊松分布，終端接入數(shù)量為0～5 000個(gè)，具體仿真參數(shù)如表1所示。為了驗(yàn)證5G超密集組網(wǎng)接入擁塞問(wèn)題，本文在仿真過(guò)程中沒(méi)有考慮信道衰落和損耗，而將擁塞的原因歸結(jié)為由于信道資源分配不合理導(dǎo)致的接入沖突或者碰撞。為了對(duì)信道狀態(tài)進(jìn)行有效估計(jì)，本文使用30個(gè)批次數(shù)據(jù)進(jìn)行多次訓(xùn)練，其中包括5 000個(gè)正常信號(hào)樣本和3 000個(gè)噪音樣本，最后采用1 000個(gè)測(cè)試樣本對(duì)信道狀態(tài)感知算法進(jìn)行測(cè)試。下面將隨機(jī)高斯測(cè)量矩陣與本文算法在NRSE（歸一化根平均誤差）進(jìn)行對(duì)比，以此來(lái)對(duì)比采用更少的測(cè)量值情況下信道狀態(tài)矩陣的恢復(fù)精度。

表1 仿真參數(shù)

高斯測(cè)量矩陣是假設(shè)信道數(shù)據(jù)結(jié)構(gòu)特征滿(mǎn)足高斯分布，而本文算法的測(cè)量矩陣是基于空頻域特征和時(shí)延域特征進(jìn)行學(xué)習(xí)后，引入注意力機(jī)制對(duì)空頻域特征和時(shí)延域特征進(jìn)行融合后得到的信道數(shù)據(jù)結(jié)構(gòu)特征。從圖3可知，本文的算法能夠采用更少的測(cè)量實(shí)現(xiàn)相同水平的恢復(fù)精度，在實(shí)際中相當(dāng)于需要更少的資源開(kāi)銷(xiāo)就能實(shí)現(xiàn)信道狀態(tài)的估計(jì)。

圖3 不同測(cè)量矩陣的NRSE性能對(duì)比圖

基站側(cè)獲取已經(jīng)成功接入的請(qǐng)求數(shù)量以及接入前導(dǎo)的資源情況，但無(wú)法獲取其覆蓋范圍下即將接入的請(qǐng)求數(shù)量，為了求解接入成功率，我們通常采用隨機(jī)前導(dǎo)序列的使用情況來(lái)確定當(dāng)前基站請(qǐng)求的規(guī)模。因此，接入成功率=成功接入的請(qǐng)求數(shù)量/前導(dǎo)序列請(qǐng)求數(shù)量。

當(dāng)終端側(cè)發(fā)出無(wú)線(xiàn)接入請(qǐng)求時(shí)，每個(gè)基站/小基站設(shè)置信道資源，信道資源數(shù)量決定了接入終端設(shè)備的數(shù)量。海量的終端請(qǐng)求在短時(shí)間內(nèi)發(fā)出，但是信道資源分配是有限的，為了簡(jiǎn)化計(jì)算，本文設(shè)置基站分配信道的大小等同于信道的數(shù)量。因此，系統(tǒng)平均吞吐量是在一段時(shí)間內(nèi)網(wǎng)絡(luò)成功傳輸?shù)男诺罃?shù)量平均值。

在獲取信道狀態(tài)特征的基礎(chǔ)上，本文采用強(qiáng)化學(xué)習(xí)的方法實(shí)現(xiàn)信道選擇，將傳統(tǒng)的隨機(jī)信道接入算法與本文提出的算法在接入成功率和系統(tǒng)平均吞吐量?jī)煞矫孢M(jìn)行比較。

從圖4可知，終端接入成功率隨著接入數(shù)量的增加呈現(xiàn)下降的趨勢(shì)，這是因?yàn)榭臻e信道的數(shù)量是有限的，當(dāng)?shù)却尤氲慕K端越多時(shí)，隨機(jī)分配算法很可能將用戶(hù)終端分配到同一個(gè)信道上，最終導(dǎo)致接入失敗。而本文算法會(huì)結(jié)合基站的信道狀態(tài)以及同一小區(qū)其他用戶(hù)反饋參數(shù)合理分配信道資源，除此之外，本文的信道分配是基于業(yè)務(wù)QoS約束下進(jìn)行分配的，因此在一定程度上降低了數(shù)據(jù)傳輸?shù)氖÷省?/p>

圖4 不同算法接入成功率的對(duì)比圖

從圖5可知，本文提出算法比現(xiàn)有隨機(jī)接入信道算法擁有更高的平均吞吐量，這是因?yàn)楸疚乃惴ㄊ腔跇I(yè)務(wù)QoS約束下以吞吐量最大化為目標(biāo)對(duì)可用信道進(jìn)行選擇，而隨機(jī)接入僅僅考慮信道的可用性，沒(méi)有結(jié)合業(yè)務(wù)本身的需求以及系統(tǒng)吞吐量等條件的約束，因此在同等條件下，隨機(jī)接入信道算法需要更高的頻譜資源才能實(shí)現(xiàn)系統(tǒng)平均吞吐量的快速提升。

圖5 不同算法平均吞吐量的對(duì)比圖

5 結(jié)束語(yǔ)

本文提出一種面向5G超密集組網(wǎng)的無(wú)線(xiàn)資源管理策略，通過(guò)深度學(xué)習(xí)的方法獲取信道狀態(tài)信息，該方法無(wú)需要獲取先驗(yàn)的信道數(shù)據(jù)特征，引入注意力機(jī)制對(duì)空頻域特征和時(shí)延域特征進(jìn)行有效融合，能夠采用更少的測(cè)量值實(shí)現(xiàn)相同水平的恢復(fù)精度，大大降低了信道的資源開(kāi)銷(xiāo)。除此之外，采用強(qiáng)化學(xué)習(xí)的方法選擇可用信道，基于現(xiàn)

道狀態(tài)估計(jì)和在有限探索的基礎(chǔ)上，在業(yè)務(wù)QoS約束下以系統(tǒng)吞吐量最大化為目標(biāo)實(shí)現(xiàn)可用信道的選擇，會(huì)在很大程度上提升了終端側(cè)的接入成功率和系統(tǒng)平均吞吐量。實(shí)驗(yàn)表明，本文無(wú)線(xiàn)資源管理策略不僅能夠節(jié)省信道資源開(kāi)銷(xiāo)，還能提升頻譜利用的效率，提升用戶(hù)滿(mǎn)意度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡