基于強化學習的無線網(wǎng)絡智能接入控制技術(shù)

2018-09-21 11:11嚴牧孫耀馮鋼

中興通訊技術(shù) 2018年2期

嚴牧孫耀馮鋼

摘要：介紹了無線網(wǎng)絡中的強化學習算法，認為由于強化學習算法與環(huán)境交互并動態(tài)決策的特點，其對復雜網(wǎng)絡環(huán)境有著較強的適應能力；然后針對無線網(wǎng)絡中的強化學習方法的應用場景做了概述，并給出了兩個基于強化學習的無線接入技術(shù)案例：毫米波技術(shù)的切換技術(shù)和Multi-RAT接入技術(shù)。可以看到：智能的無線接入技術(shù)由于具備充分挖掘和擴展無線網(wǎng)絡資源的潛力，能夠顯著提高無線網(wǎng)絡用戶的體驗。

關(guān)鍵詞：未來無線網(wǎng)絡；切換；接入控制；強化學習

Abstract： In this paper， the application of reinforcement learning in wireless network is briefly introduced. Due to the characteristics of interacting with environment and dynamic decision making， reinforcement leaning algorithm has strong adaptability to complex network environment. Then the application scenarios of reinforcement learning method in wireless network are summarized， and two cases of wireless access technology based on reinforcement learning are given： handoff policy of mmWave HetNets and multi-rat access control. Intelligent access control of wireless network is powerful in exploiting wireless network resources， which can improve the quality of experiences of mobile users.

Key words： future wireless network； handoff； access control； reinforcement learning

當今社會已經(jīng)邁入信息經(jīng)濟時代，信息技術(shù)已成為推動經(jīng)濟結(jié)構(gòu)向多樣化消費和低能耗高效發(fā)展的重要驅(qū)動力。據(jù)思科公司預測，到2019年全球移動數(shù)據(jù)總流量將增長至每月24.3 EB，接近2000年全球互聯(lián)網(wǎng)總流量的200倍[1]。另據(jù)全球移動通信系統(tǒng)（GSM）協(xié)會分析[2]，到2020年全球支撐物聯(lián)網(wǎng)的機器對機器通信（M2M）連接數(shù)將達到9.8億，接近2000 年全球M2M 連接數(shù)的14倍。無線通信網(wǎng)絡在面臨無線資源趨于枯竭的同時，正在經(jīng)歷著前所未有的高增速無線服務需求與低效率無線服務供給之間的矛盾。

未來無線通信將利用復雜異構(gòu)網(wǎng)絡來支持多樣化應用場景，包括連續(xù)廣域覆蓋、熱點高容量、高可靠低時延以及低功耗巨連接等。由于用戶終端性能和業(yè)務需求的不同，用戶體驗質(zhì)量（QoE）在不同通信場景也存在極大的差異性。出于成本和兼容性的考慮，未來無線網(wǎng)絡將長期處于多網(wǎng)共存的狀況，包括2G、3G、4G、5G、Wi-Fi 等，由于不同網(wǎng)絡利用不同的無線接入技術(shù)，因而形成了接入技術(shù)的差異性。同時，為了進一步提升網(wǎng)絡的容量，需要在傳統(tǒng)接入站點的基礎(chǔ)上引入Micro、Pico、終端直通（D2D）、移動自組織（Adhoc）及小蜂窩等接入站點，因而形成了對網(wǎng)絡的重疊異構(gòu)覆蓋。網(wǎng)絡的高密度部署和多網(wǎng)絡共存使得復雜異構(gòu)網(wǎng)絡下的無線干擾環(huán)境變得更加復雜，并對無線接入網(wǎng)的資源調(diào)度和控制管理提出了更高的要求。

傳統(tǒng)的無線接入技術(shù)在“網(wǎng)絡-頻譜”的靜態(tài)匹配關(guān)系下對網(wǎng)絡進行規(guī)劃設計和資源配置。設備的接入往往基于某一參數(shù)（如信號強弱、區(qū)域位置）選擇單一接入網(wǎng)絡和固定接入站點。由于復雜異構(gòu)網(wǎng)絡中海量用戶行為的隨機性，不同網(wǎng)絡的業(yè)務需求呈現(xiàn)出極大的時空動態(tài)變化特性。靜態(tài)的“網(wǎng)絡-頻譜”匹配使得網(wǎng)絡容量無法滿足變化的網(wǎng)絡業(yè)務需求，大大地限制了無線網(wǎng)絡的接入能力，并導致用戶接入體驗差等問題。

為根本性地提高無線網(wǎng)絡接入能力，必須打破傳統(tǒng)的無線資源管理和服務接入控制的僵化機制，研究智能的無線接入理論與技術(shù)，充分挖掘和擴展無線網(wǎng)絡資源的利用潛力，顯著提高無線網(wǎng)絡用戶的體驗。在無線網(wǎng)絡中，由于用戶行為以及網(wǎng)絡的動態(tài)性和復雜性，使得接入控制和資源分配是非常具備挑戰(zhàn)性的[3]。人工智能（AI）技術(shù)，比如機器學習，賦予計算機分析環(huán)境并解決問題的能力，并提供了一種有效的方法來處理動態(tài)性高、復雜度明顯的問題[4]。

1 強化學習在無線網(wǎng)絡中的應用

強化學習是一種在非確定環(huán)境下做決策的強勁的工具[5]。Google Deepmind最近所研發(fā)的AlphaGo以及AlphaGo Zero所使用的強化學習在圍棋這類動態(tài)性明顯、環(huán)境信息復雜的博弈游戲中表現(xiàn)良好[6]，并且取得較好的成績。在異構(gòu)網(wǎng)絡接入控制的過程當中，由于網(wǎng)絡的動態(tài)性導致了決策過程也必然是動態(tài)性的，我們需要主體和環(huán)境進行頻繁交互、感知，從而智能化地協(xié)調(diào)用戶和基站的決策行為。因此，強化學習由于其所具備的特點被我們利用到異構(gòu)網(wǎng)絡的決策過程中也是順其自然的。

1.1 強化學習的分類

（1）根據(jù)強化算法是否依賴模型可以分為基于模型的強化學習算法和無模型的強化學習算法。這兩類算法的共同點是通過與環(huán)境交互獲得數(shù)據(jù)，不同點是利用數(shù)據(jù)的方式不同。基于模型的強化學習算法利用與環(huán)境交互得到的數(shù)據(jù)學習系統(tǒng)或者環(huán)境模型，再基于模型進行決策。無模型的強化學習算法則是直接利用與環(huán)境交互獲得的數(shù)據(jù)改善自身的行為。兩類方法各有優(yōu)缺點：一般來講基于模型的效率比無模型要高，因為智能體可以利用環(huán)境信息；但是有些無法建立模型的任務只能利用無模型強化學習算法，因此無模型強化學習算法更具備通用性。

（2）根據(jù)策略的更新和學習方法，強化學習算法可分為基于值函數(shù)的強化學習算法、基于直接策略搜索的強化學習算法以及Actor-Critic（AC）的方法。所謂基于值函數(shù)的強化學習方法是指學習值函數(shù)，最終的策略根據(jù)值函數(shù)貪婪得到。也就是說，任意狀態(tài)下，值函數(shù)最大的動作為當前最優(yōu)策略?；谥苯硬呗运阉鞯膹娀瘜W習算法，一般是將策略參數(shù)化，學習實現(xiàn)目標的最優(yōu)參數(shù)?；贏C的方法則是聯(lián)合使用值函數(shù)和直接策略搜索。

（3）根據(jù)環(huán)境返回的回報函數(shù)是否已知，強化學習算法可以分為正向強化學習和逆向強化學習。在強化學習中，回報函數(shù)是人為指定的，回報函數(shù)指定的強化學習算法稱為正向強化學習。很多時候，回報無法人為指定，如無人機的特效表演，這時可以通過機器學習的方法由函數(shù)自己學出來回報。

1.2 強化學習在無線網(wǎng)絡中的應用

考慮到無線網(wǎng)絡的特殊應用場景，在基于圖1的分類下，我們進一步按照無線網(wǎng)絡的特點對強化學習進行分類，如圖2所示。首先由于受限于網(wǎng)絡中有限的頻譜資源，用戶總是以競爭的關(guān)系接入到網(wǎng)絡中，那么資源調(diào)度、小區(qū)切換等考慮用戶QoE的問題往往可以建模成一個多主體馬爾科夫決策過程（MDP）；然后考慮到網(wǎng)絡狀態(tài)空間變化基于時間的連續(xù)性或離散性，可將網(wǎng)絡決策過程建模為連續(xù)時間或者離散時間MDP，連續(xù)時間MDP需要決策做到快速反應，盡量做到在線學習；再者，基于網(wǎng)絡動作空間的連續(xù)性或離散性，有分別基于策略迭代和值迭代的強化學習方法；最后考慮到傳統(tǒng)的強化學習方法利用到網(wǎng)絡環(huán)境中的一些不足，我們可以和深度學習結(jié)合起來做一個改進。

根據(jù)做決策的時序先后，我們可以把網(wǎng)絡中接入用戶的決策分為基于多主體的序貫博弈過程或同時博弈過程，如圖3所示。具體來說，由于普通的強化學習本身就是基于MDP建模，并且解決的是序貫博弈的問題。為了解決同時博弈的問題，我們可以采用Nash Q-learning算法[7]。在Nash Q-learning的算法中，所有的決策主體在同一個決策時間從一個隨機的決策開始去嘗試學習它們的最優(yōu)Q-value。為了達到這樣的目的，每一個主體都通過其他主體的Q-value來更新自己的決策，直到達到納什均衡點。例如：在文獻[8]中，作者在認知無線mesh網(wǎng)絡中考慮在盡可能保證主用戶的服務質(zhì)量（QoS）條件下，為同時接入的次級用戶分配功率資源和頻譜資源。考慮到次級用戶之間的競爭關(guān)系（博弈關(guān)系），采用了基于多主體的Nash Q-learning算法，并得到較好的結(jié)果。在決策空間集較小，并且主體數(shù)量較少的情況下，Nash Q-learning是一種很好的用于解決多主體同時博弈的算法。

在無線網(wǎng)絡中，經(jīng)常存在動作（決策）空間過大的現(xiàn)象，例如：在時頻資源塊分配問題中或者在長期演進（LTE）中非連續(xù)接收（DRX）cycle長度的設置問題中。如果我們把頻譜資源或者cycle的長度范圍劃分為較小的決策單元，那么就會使得策略空間異常大，會消耗大量的計算資源。如果我們能通過策略迭代用更平滑的手段去搜索最優(yōu)策略，會顯著增加學習效率，更加貼合無線網(wǎng)絡中需求快速決策的特點。

基于狀態(tài)空間在時間上的連續(xù)性或離散性，我們可以把MDP建模成連續(xù)時間上的MDP或離散時間上的MDP。連續(xù)時間MDP是基于時間序列連續(xù)的馬爾科夫過程，其依然具備馬爾科夫性。連續(xù)時間MDP和離散時間MDP區(qū)別在于時間指標參數(shù)從離散的[T={0，1，2...}]改為連續(xù)的實數(shù)[T={t|t>=0}]。當我們考慮小時間尺度上的網(wǎng)絡問題，由于用戶流的不間斷涌入，信道質(zhì)量的無規(guī)律變化等都會造成網(wǎng)絡狀態(tài)的頻繁波動。因此快速決策就變得尤為重要。這里基于連續(xù)空間較好的算法是AC算法。AC較好地平衡了值迭代和策略迭代這兩種方法。例如：文獻[9]中，作者考慮把基于流量變化下的基站開關(guān)操作建模為一個連續(xù)狀態(tài)的MDP?？紤]到用戶的接入流量是一個連續(xù)變化的過程，那么整個網(wǎng)絡的狀態(tài)也相應具有很強的動態(tài)性和連續(xù)性。所使用的AC算法在該工作中不僅加快了學習速率，TD-error還具備預測的功能性。

無線網(wǎng)絡中，強化學習還可以和深度學習結(jié)合起來使用，兩者各有優(yōu)缺點。強化學習本身由于狀態(tài)空間過大會導致學習時間較長（維度詛咒），在復雜的無線網(wǎng)絡環(huán)境中，由于網(wǎng)絡狀態(tài)復雜，單純的強化學習由于算法收斂過慢并不是十分貼合。基于神經(jīng)網(wǎng)絡的深度學習方法，可以利用歷史數(shù)據(jù)對下一時刻的用戶行為或者網(wǎng)絡狀態(tài)進行預測。但是，盡管深度學習能夠提供較為精準的趨勢分析和模式識別，也很難推導出與數(shù)據(jù)完全匹配的分布函數(shù)，在無線網(wǎng)絡中帶來決策上的明顯失誤，使得數(shù)據(jù)失去其應用價值。此外，為了及時保存和處理蜂窩網(wǎng)絡數(shù)據(jù)，基站作為中心控制器需要存儲大量的蜂窩網(wǎng)絡數(shù)據(jù)，需要消耗大量的存儲和計算資源。因此，我們可以將深度學習利用起來為小時間尺度上的網(wǎng)絡決策提供先驗信息，從而加速強化學習算法的收斂速度。

2 智能化接入控制案例分析

我們考慮兩種智能化的接入控制技術(shù)作為案例研究：（1）針對毫米波異構(gòu)蜂窩網(wǎng)我們提出了一種基于機器學習的智能切換策略，在保證用戶服務質(zhì)量的前提下，減少不必要的切換次數(shù)。針對單個用戶，在強化學習方法中采用基于置信區(qū)間上界（UCB）算法的基站選擇策略，可以降低某個用戶的切換次數(shù)。（2）我們考慮將不同的QoS需求的用戶接入到蜂窩網(wǎng)和Wi-Fi共存的異構(gòu)網(wǎng)絡中。為了在復雜和動態(tài)環(huán)境中最大化系統(tǒng)吞吐量并且同時滿足用戶QoS需求，我們利用基于多主體強化學習的智能多無線電接入技術(shù)，通過動態(tài)感知網(wǎng)絡環(huán)境，來為每個用戶分配相應的信道資源。

2.1 基于毫米波技術(shù)的智能切換技術(shù)

（1）強化學習的獎勵函數(shù)設計

由于處在同一服務類型的用戶切換準則相近，在經(jīng)過一段時間的學習之后，回報函數(shù)期望的估計值具有較高的準確性。

（3）基站選擇策略

由于強化學習中的定理——探索和利用，我們不能夠總是選擇當前回報函數(shù)期望值最大的基站進行切換。通常，我們用Regret來衡量強化學習中的一個策略的優(yōu)劣程度。Regret是指所采取的策略與最優(yōu)策略之間的差距。在我們的這個問題中，UE n在策略π下在執(zhí)行了W次切換后的Regret可以表示為：

我們考察了毫米波異構(gòu)網(wǎng)中智能（SMART）切換策略下的性能，并與下面兩種傳統(tǒng)策略進行了對比：基于速率的切換策略（RBH）是每次用戶發(fā)生切換時總是選擇當前可以提供最大傳輸速率的基站進行切換；基于干擾加噪聲比（SINR）的切換策略（SBH）是用戶總是選擇可以提供最大信號SINR的基站進行切換。圖4代表了這3種切換策略下的系統(tǒng)總的切換次數(shù)/系統(tǒng)吞吐量與毫米波小基站（mm-FBS）所占比例λ之間的關(guān)系。通過圖4可以看出：我們可以通過較小的系統(tǒng)吞吐量的損失而帶來較明顯的切換次數(shù)的降低。

2.2 Multi-RAT智能接入技術(shù)

為了在復雜和動態(tài)環(huán)境中最大化系統(tǒng)吞吐量并且同時滿足用戶QoS需求，我們利用基于多主體強化學習方法的智能多無線電接入（SARA）技術(shù)，通過動態(tài)感知網(wǎng)絡環(huán)境，來為每個用戶分配相應的信道資源。

（1）場景描述

我們研究的場景是蜂窩網(wǎng)小基站（SBS）和Wi-Fi熱點共存的場景。LTE下行執(zhí)行正交頻分多址的傳輸方式（OFDMA），其頻譜資源包含很多的時頻資源塊（RB），又叫做子信道。在傳輸?shù)倪^程中，非連續(xù)波段的頻譜可以利用傳輸數(shù)據(jù)流。為了保護正在進行的會話流，我們假設新到的業(yè)務流必須在沒有多余頻譜資源的情況下進行等待?；咀鳛橹行目刂破魇悄軌颢@取全局的網(wǎng)絡信息，包括用戶的QoS需求和網(wǎng)絡環(huán)境信息。由于網(wǎng)絡的動態(tài)性和跨無線電技術(shù)（RAT）的資源調(diào)度復雜特性，多無線電技術(shù)的聚合需要更加智能化的技術(shù)支撐。

（2）基于多主體強化學習的Multi-RAT接入機制

多無線電接入過程是一個多主體的隨機過程[9]。在多主體的環(huán)境中，我們可以觀測到其他所有主體所做的決策已經(jīng)反饋的回報值?；谠摱嘀黧w的隨機過程，和圖5提出的兩層決策框架，無線電/信道選擇過程（RSP）和資源分配過程（RAP）中分別存在著同時博弈和序貫博弈的過程。我們采取Nash Q-learning算法[9]以及蒙特卡洛樹搜索（MCTS）方法[10]來解決這兩個博弈的相關(guān)問題。

我們把接入過程建模成一個基于半馬爾科夫（SMDP）的強化學習模型。具體來說，在我們的工作中有兩個決策階段，如圖5所示：第1階段為RSP，該階段的目的在于盡可能地去避免碰撞和亂序情況的發(fā)生，從而壓縮決策空間。當我們的算法收斂后，我們就開始第2階段——RAP，在該階段中，基于有限的網(wǎng)絡資源和多樣的用戶喜好，我們考慮去使用有限的信道資源為用戶提供合適的服務，并且使得系統(tǒng)平均吞吐量最大化。在這一階段中，我們假設在蒙特卡洛樹搜索中，每一個節(jié)點s包含了[{r（s，a），N（s，a），Q（s，a）}]的信息，其中[r（s，a）]是即時的獎賞值用來衡量該資源分配決策的好壞，[N（s，a）]是節(jié)點的被訪問次數(shù)，[Q（s，a）]是該節(jié)點的Q-value。在決策的搜索過程中，用到了上界信心樹搜索（UCT）[11]方法。每個節(jié)點所需要滿足的是單個用戶流的QoS需求，根節(jié)點所需要滿足的是整個系統(tǒng)的吞吐量的最大化。

我們使用了下面的一些調(diào)度技術(shù)作為比較：多載體的比例公平調(diào)度算法（PFSMTS）[12]；LTE作為輔助傳輸?shù)乃惴ǎ↙AA）：在該算法中，Wi-Fi作為流量優(yōu)先卸載的頻段，LTE作為輔助頻段；在線學習（OLA）：對SARA中的用戶進行流式處理。

從仿真圖我們得到的結(jié)論分別是：如圖6a）所示，SARA所需的收斂學習次數(shù)隨著用戶數(shù)量的增加而增加，復雜度也隨之上升?？紤]到小時間尺度調(diào)度特性，我們可以設置在短時間內(nèi)進行資源調(diào)度，這樣相應進入用戶數(shù)量也較少，算法收斂較快，網(wǎng)絡性能容易被滿足。如圖6b）所示，SARA的系統(tǒng)吞吐量性能明顯要高于其他的調(diào)度算法（當用戶數(shù)量大于3的時候），這意味著SARA這樣的智能化的LTE-WiFi聚合方式可以在動態(tài)的環(huán)境中明顯地提高系統(tǒng)資源的利用率。

3結(jié)束語

本文中，我們簡要介紹了強化學習，并研究了強化學習在無線網(wǎng)絡中的一些應用。我們給出了兩個針對復雜異構(gòu)無線網(wǎng)絡、動態(tài)網(wǎng)絡環(huán)境下的智能接入技術(shù)。從仿真結(jié)果來看：和傳統(tǒng)的接入控制算法相比，我們提出的智能化接入技術(shù)可在增加很小代價的情況下提升較大的網(wǎng)絡性能。

參考文獻

[1] Cisco. Visual Networking Index： Global Mobile Data Traffic Forecast Update 2014-2019[R]， 2015

[2] GSM Association. The Mobile Economy Report[R]，2015

[3] CAO B， HE F， LI Y， et al. Software Defined Virtual Wireless Network： Framework and Challenges[J]. IEEE Network， 2015：29（4）： 6-12， 2015.DOI： 10.1109/MNET.2015.7166185

[4] SIMON P.Too Big to Ignore： The Business Case for Big Data[M].British： John Wiley & Sons， 2013

[5] LITTMAN M L. Reinforcement Learning Improves Behavior from Evaluative Feedback[J] Nature， 2015，521（7553）：445-451

[6] SILVER D， HUANG A， MADDISON C J， et al. Mastering the Game of Go with Deep Neural Networks and Tree Search[J].Nature， 2016， 529（1）：484-489

[7] HU J， WELLMAN M P. Nash Q-Learning for General-Sum Stochastic Games [J]. Journal of Machine Learning Research， 2003， 4（6）：1039-1069

[8] CHEN X F， ZHAO Z F， ZHANG H G. Stochastic Power Adaptation with Multi-agent Reinforcement Learning for Cognitive Wireless Mesh Networks[J]. IEEE Transactions on Mobile Computing， 2013， 12（11）：2155-2166.DOI： 10.1109/TMC.2012.178

[9] LI R， ZHAO Z， CHEN X， PALICOT J， et al. TACT： A Transfer Actor-Critic Learning Framework for Energy Saving in Cellular Radio Access Networks [J]. IEEE Transactions on Wireless Communications，2014，13（4）：2000-2011.DOI： 10.1109/TWC.2014.022014.130840

[10] SILVER D， HUANG A， MADDISON C J A， et al. Masteringthe Game of Go with Deep Neural Networks and Tree Search[J]. Nature， 2016， 529（1）：484-489

[11] ROSIN C D. Multi-Armed Bandits with Episode Context[J]. Annals of Mathematics and Artificial Intelligence， 2011， 61（3）：203-230

[12] KIM H， KIM K， HAN Y， et al. A Proportional Fair Scheduling For multi-carrier Transmission Systems[C]//Vehicular Technology Conference. USA，2004，（1）：409-413

中興通訊技術(shù)2018年2期

中興通訊技術(shù)的其它文章: 大數(shù)據(jù)智能化無線網(wǎng)絡技術(shù); 大數(shù)據(jù)驅(qū)動的“人工智能”無線網(wǎng)絡; 大數(shù)據(jù)驅(qū)動的無線網(wǎng)絡資源管理及控制; 移動邊緣計算中數(shù)據(jù)緩存和計算遷移的智能優(yōu)化技術(shù); TD—LTE網(wǎng)絡中大氣波導干擾的分析與預測; 基于數(shù)據(jù)驅(qū)動深度學習方法的無線信道均衡

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于強化學習的無線網(wǎng)絡智能接入控制技術(shù)