張亞林,高 暉,粟 欣,劉 蓓
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.北京郵電大學(xué) 信息與通信工程學(xué)院,北京 100876;3.清華大學(xué) 北京信息科學(xué)與技術(shù)國家研究中心,北京 100000)
隨著第五代移動通信向下一代移動通信發(fā)展,網(wǎng)絡(luò)新興業(yè)務(wù)不斷產(chǎn)生,網(wǎng)絡(luò)設(shè)備不斷激增,業(yè)務(wù)對網(wǎng)絡(luò)時延[1]的要求也越來越高,因此,移動邊緣計算[2](mobile edge-computation,MEC)成為一種新的網(wǎng)絡(luò)賦能要素,能夠極大提升通信系統(tǒng)的計算能力,實現(xiàn)對6G網(wǎng)絡(luò)資源的高效利用。無線設(shè)備能夠?qū)⑤^大計算任務(wù)卸載到端側(cè)服務(wù)器,利用服務(wù)器的計算優(yōu)勢進(jìn)行快速計算,從而減少系統(tǒng)執(zhí)行時延。
新一代網(wǎng)絡(luò)將是萬物互聯(lián)的網(wǎng)絡(luò),6G網(wǎng)絡(luò)中的工業(yè)自動化、觸覺互聯(lián)網(wǎng)、智能物聯(lián)網(wǎng)等通信場景下,無線設(shè)備不僅起到通信作用,還需要對網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行計算,在深度神經(jīng)網(wǎng)絡(luò)最新突破的推動下,機(jī)器學(xué)習(xí)算法被認(rèn)為是實時資源管控實現(xiàn)技術(shù)很有前途的方法。
在上述趨勢下,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)方法有助于構(gòu)建6G網(wǎng)絡(luò)典型場景下的資源管理決策框架而備受關(guān)注[3-4]。傳統(tǒng)的無線通信場景利用復(fù)雜的數(shù)學(xué)建模,通過解決優(yōu)化問題的方式進(jìn)行資源管理,但是,在新一代無線通信場景下的問題通常是多目標(biāo)優(yōu)化問題[5]和非凸問題,傳統(tǒng)的建模及求解方法存在很多局限,不能保證用戶的實時資源分配需求。為了解決這些問題,動態(tài)規(guī)劃[6]和分支定界[7]的方法被提出來,然而,這些算法具有極高的計算復(fù)雜度,特別是在大型6G網(wǎng)絡(luò)中表現(xiàn)更加明顯。相比于傳統(tǒng)資源管理方法,機(jī)器學(xué)習(xí)決策算法可以借助自身的學(xué)習(xí)特性實現(xiàn)決策系統(tǒng)的自學(xué)習(xí)、自優(yōu)化,并且可以滿足用戶對時延的更高層次需求,因此,學(xué)術(shù)界利用機(jī)器學(xué)習(xí)算法技術(shù)[8]代替?zhèn)鹘y(tǒng)的建模方式成為一種趨勢。
利用DRL技術(shù)能夠在訓(xùn)練完成后更好地減少資源決策系統(tǒng)的端到端時延[8-9],文獻(xiàn)[10]利用深度強(qiáng)化學(xué)習(xí)技術(shù)進(jìn)行頻譜和計算資源調(diào)度,但是深度強(qiáng)化學(xué)習(xí)算法應(yīng)用在通信系統(tǒng)中需要較長時間進(jìn)行訓(xùn)練,收斂速度較慢。為了解決深度強(qiáng)化學(xué)習(xí)算法收斂時間過長的問題,學(xué)者提出用知識輔助[11]強(qiáng)化學(xué)習(xí),從而縮短收斂時間。例如,利用QoS知識初始化強(qiáng)化學(xué)習(xí)的參數(shù)[12],將系統(tǒng)所有用戶長期的獎勵劃分為多個用戶長期的獎勵進(jìn)行評估;利用專家知識對DRL的獎勵進(jìn)行構(gòu)建[13],定義特殊函數(shù)對獎勵產(chǎn)生瞬時獎勵反饋,對用戶狀態(tài)進(jìn)行重要性抽樣等。這些方式一定程度上能夠加速DRL的訓(xùn)練速度,但是,DRL決策算法在6G典型網(wǎng)絡(luò)場景下仍然存在資源分配收斂速度過慢的問題。在利用知識輔助強(qiáng)化學(xué)習(xí)方面學(xué)者已經(jīng)做了有關(guān)研究,研究表明,知識嵌入強(qiáng)化學(xué)習(xí)能夠有效地縮短訓(xùn)練時間,更快地達(dá)到系統(tǒng)收斂狀態(tài)。與此同時,無線通信系統(tǒng)運作的過程就是一個知識累積的過程,經(jīng)過無線通信系統(tǒng)長時間的發(fā)展,系統(tǒng)本身已經(jīng)構(gòu)建出一套完整的知識體系,有效地提取出這些無線通信的知識[14-17],并且合理地再利用到與機(jī)器學(xué)習(xí)結(jié)合的智能無線通信系統(tǒng),將會為資源決策從訓(xùn)練到收斂的時間實現(xiàn)階段性的提升。
知識和DRL算法的融合有望解決新型網(wǎng)絡(luò)中的頻譜資源、計算資源、緩存資源的實時分配難題。目前,學(xué)者已經(jīng)對無線通信網(wǎng)絡(luò)中多域資源分配展開研究,文獻(xiàn)[18]主要利用DRL對頻譜資源進(jìn)行建模以及二進(jìn)制計算卸載[19]的方式實現(xiàn)近似最優(yōu)的計算速率,文獻(xiàn)[8]主要考慮利用DRL實現(xiàn)工業(yè)互聯(lián)網(wǎng)的多維資源管理建模,從而實現(xiàn)最大的推理精度。但是,在6G網(wǎng)絡(luò)典型場景下仍然存在局限性,新型場景下是感知、計算、通信的融合,知識與機(jī)器學(xué)習(xí)結(jié)合的資源決策方式將會保證在新型網(wǎng)絡(luò)智能的基礎(chǔ)上實現(xiàn)各方面服務(wù)質(zhì)量(quality of service,QoS)的提升,針對新型網(wǎng)絡(luò)場景仍然需要對資源決策作進(jìn)一步研究。
本文考慮在信道時變的云-邊-端架構(gòu)下的6G網(wǎng)絡(luò)分配頻譜與服務(wù)器計算資源,網(wǎng)絡(luò)中存在一個基站和多個無線設(shè)備,其中服務(wù)器部署在基站側(cè),用于接收來自無線設(shè)備的計算任務(wù)。無線設(shè)備能夠?qū)⑤^大計算任務(wù)卸載到服務(wù)器端,我們的主要目的是在時變的無線通信系統(tǒng)中聯(lián)合優(yōu)化卸載決策、服務(wù)器與無線設(shè)備之間的傳輸時間、服務(wù)器的計算資源。利用DRL的方式解決多目標(biāo)優(yōu)化問題,嵌入無線通信知識減少收斂時間,保證QOS的時延需求。
相比于存在的DRL和無線通信知識結(jié)合的方法,本文的主要貢獻(xiàn)如下。
1)針對6G新型網(wǎng)絡(luò)下的資源決策,提出了多評論家深度強(qiáng)化學(xué)習(xí)(multi-criticist deep reinforcement learning,MCDRL)框架。相比于傳統(tǒng)的深度強(qiáng)化學(xué)習(xí)框架,增加了多評論家機(jī)制,能夠保證用戶對資源分配的實時需求,提升用戶的QoS時延。
2)在MCDRL框架內(nèi),提出了無線通信知識嵌入多評論家深度強(qiáng)化學(xué)習(xí)(knowledge-embedded multi-critic deep reinforcement learning,KE-MCDRL)算法。系統(tǒng)映射知識與DRL的融合有效地解決了多目標(biāo)優(yōu)化問題,實現(xiàn)原地優(yōu)化,相比于傳統(tǒng)的無知識的無線通信系統(tǒng)有效縮短收斂時間。
3)在MCDRL框架內(nèi),提出了網(wǎng)絡(luò)評估以及數(shù)據(jù)反饋方法,對網(wǎng)絡(luò)資源狀態(tài)進(jìn)行評估,及時調(diào)整網(wǎng)絡(luò)資源結(jié)構(gòu),優(yōu)化用戶資源分配決策行為,提高資源利用率。為了使得收斂更加迅速,訓(xùn)練數(shù)據(jù)更加優(yōu)質(zhì),訓(xùn)練數(shù)據(jù)根據(jù)反饋結(jié)果對數(shù)據(jù)原型進(jìn)行調(diào)整。
圖1 云邊端計算網(wǎng)絡(luò)Fig.1 Cloud-edge computing network
為了防止6G無線設(shè)備獲得能量與無線通信之間的干擾,每個無線設(shè)備采用時分復(fù)用電路。系統(tǒng)時間被劃分為若干相同長度T的連續(xù)時間幀,其設(shè)置小于信道相干時間,例如,在靜態(tài)物聯(lián)網(wǎng)中T以幾秒為尺度[20]。時間幀T內(nèi)無線設(shè)備獲得計算任務(wù)請求,將分配其卸載時間τi∈[0,1],τi為第i個無線設(shè)備所占用的卸載時間。無線設(shè)備卸載到基站的通信速率與信道增益有關(guān),hi表示在時間框架內(nèi)基站到無線設(shè)備之間的信道增益,其中信道的上行鏈路和下行鏈路是相互作用的,無線設(shè)備能夠?qū)⒂嬎闳蝿?wù)卸載到基站服務(wù)器端進(jìn)行計算。第i個無線設(shè)備擁有的能量為Ei=μPihiT,其中,μ為能量獲取效率,μ∈(0,1),P為第i個無線設(shè)備的功率。
由于每個無線設(shè)備處理的計算任務(wù)的重要性是不一樣的,為了縮短收斂時間,保證無線設(shè)備的QoS時延需求,為每個無線設(shè)備初始化權(quán)重,其權(quán)重集合表示W(wǎng)={w1,w2,…,wi,…,wN|i∈N}。評估方面對重要的計算任務(wù)進(jìn)行適當(dāng)放大,加速神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),在一定程度上保證重要計算任務(wù)的QoS時延需求。
由于大數(shù)據(jù)量的增加,網(wǎng)絡(luò)資源狀態(tài)可能不滿足用戶的資源狀態(tài)請求,從而需要對網(wǎng)絡(luò)的資源狀態(tài)進(jìn)行評估,避免無效的計算任務(wù)卸載。利用效用需求指數(shù)對當(dāng)前網(wǎng)絡(luò)的資源狀態(tài)進(jìn)行評估。
(1)
(2)
由本地的計算速率可以得到本地可實現(xiàn)的最小計算時延。
(3)
(4)
(4)式中:B為信道所占用的帶寬;N0為接收的高斯白噪聲的功率。由計算速率可以得到卸載到邊緣服務(wù)器最小的執(zhí)行時延為
(5)
(6)
滿足約束條件
(7)
傳統(tǒng)的求解方法主要對目標(biāo)函數(shù)進(jìn)行二階Taylor近似,然后采用Newton method求解卡羅需-庫恩-塔克條件(Karush-Kuhn-Tucker,KKT)最優(yōu)條件。KKT條件是非線性規(guī)劃最佳解的必要條件。對于最復(fù)雜的帶不等式約束問題,則引入對數(shù)障礙函數(shù),轉(zhuǎn)化為帶等式約束的凸優(yōu)化問題,從而利用梯度下降或者Newton method進(jìn)行求解[8]。傳統(tǒng)的求解方法,復(fù)雜度極高,在計算資源有限的網(wǎng)絡(luò)中難以實現(xiàn)原地優(yōu)化,不適宜應(yīng)用于實時決策的網(wǎng)絡(luò)中。
本文將多目標(biāo)優(yōu)化問題轉(zhuǎn)化為馬爾可夫決策(MDP)過程進(jìn)行求解,將信道無線設(shè)備的信道增益作為DRL的輸入,很明顯,R*(h)是一個多目標(biāo)優(yōu)化問題,很難實現(xiàn)原地優(yōu)化,這里采用深度神經(jīng)網(wǎng)絡(luò)解決這個問題,這里的數(shù)據(jù)是經(jīng)過專家知識構(gòu)建好的系統(tǒng)狀態(tài)和卸載決策之間的映射。因此,如果a給定,多目標(biāo)優(yōu)化問題就會轉(zhuǎn)換成頻譜資源和計算資源權(quán)衡的問題,極大地減少了計算復(fù)雜度。
圖2 算法結(jié)構(gòu)框圖Fig.2 Block diagram of the algorithm
(8)
經(jīng)過獎勵函數(shù)R的評估。
(9)
(10)
無線通信系統(tǒng)長期采取適合用戶的資源決策行為,因此,構(gòu)建出系統(tǒng)狀態(tài)與決策行為映射關(guān)系知識體系,很多情況下并沒有被AI賦能的6G網(wǎng)絡(luò)利用(例如、信道狀態(tài)與卸載決策之間的權(quán)重關(guān)系),仍然還有很多無線知識需要進(jìn)行挖掘。另外,AI智能算法本身具有一定的特點,存在一定的缺陷(例如,收斂時間很長、決策時延不能滿足用戶QoS實時需求)。知識作為通信系統(tǒng)長期運作以及專家對知識普遍認(rèn)知的規(guī)則結(jié)合體,有利于解決AI算法收斂速度慢,將知識與AI算法結(jié)合能夠有效地解決當(dāng)前AI算法存在的缺陷問題。本論文將無線通信系統(tǒng)中有利的知識抽象出來,形成有效的知識體系,分析深度強(qiáng)化學(xué)習(xí)自身特點,針對資源決策問題下適配深度強(qiáng)化學(xué)習(xí)算法規(guī)則。通過不同形式的知識與深度強(qiáng)化學(xué)習(xí)結(jié)合的方式解決缺陷問題,突出學(xué)習(xí)以及收斂性能。知識主要劃分為2類:①AI方面。例如agent學(xué)習(xí)哪種數(shù)據(jù)的效率更高、模型與應(yīng)用場景之間的匹配關(guān)系、獎勵與策略的構(gòu)建方式;②無線通信方面。例如系統(tǒng)數(shù)據(jù)之間的映射關(guān)系、無線設(shè)備所接受計算任務(wù)的重要性。這里的無線通信專家知識主要包括無線通信系統(tǒng)所積累的數(shù)據(jù)映射關(guān)系、用戶QoS時延需求。KE-MCDRL可以有效地減少收斂時間,能夠達(dá)到與現(xiàn)有決策方法接近最優(yōu)的QOS時延需求。
圖3 卸載行為示意圖Fig.3 Diagram of offload action
圖3a中,在DNN的輸出端可以得到一個卸載決策行為向量(a=[a1,a2,…,aN]),但是系統(tǒng)初期得到的單個卸載決策行為在當(dāng)前網(wǎng)絡(luò)狀態(tài)下性能往往不是最優(yōu)的,因此借助量化函數(shù)[19]將DNN的輸出量化為K個量化行為(a1,a2,…,ak),圖3b中,再利用critic的獎勵函數(shù)(公式(9))對卸載行為做QoS評估,從而選出最優(yōu)的決策行為存放在replay buffer中。由于Replay buffer的空間有限,策略按獎勵函數(shù)的取值大小進(jìn)行排列,遵從先進(jìn)先出的規(guī)則,每產(chǎn)生一個最優(yōu)的決策行為就要將性能表現(xiàn)最差的策略剔除。DNN能夠從replay buffer中進(jìn)行抽樣從而進(jìn)行學(xué)習(xí),從而使得學(xué)習(xí)到的都是最優(yōu)的決策行為,在一定程度上保證了用戶的QoS時延需求,相比于傳統(tǒng)決策方法大大縮減了收斂時間。
本文將知識嵌入深度強(qiáng)化學(xué)習(xí)算法中的DNN考慮1個輸入層、2個隱藏層和1個輸出層進(jìn)行學(xué)習(xí),其中,隱藏層分別有150和100個神經(jīng)元,將整個算法放在python tensorflow1.2框架下進(jìn)行學(xué)習(xí)。
本文希望通過調(diào)節(jié)參數(shù)使得當(dāng)前的算法取得最佳效果,因此,分別對batch size、學(xué)習(xí)率、memory的大小以及訓(xùn)練間隔進(jìn)行設(shè)置。每一種參數(shù)設(shè)置5種不同的情況進(jìn)行對比。通過對比可以得出學(xué)習(xí)率為0.01,訓(xùn)練間隔設(shè)置為16,batch size 設(shè)置為128,replay buffer的大小設(shè)置為1 024為最佳狀態(tài)設(shè)置。數(shù)據(jù)集采用系統(tǒng)狀態(tài)與卸載行為映射知識數(shù)據(jù),對傳統(tǒng)數(shù)據(jù)集進(jìn)行信息提取得到,共10 000條數(shù)據(jù)。數(shù)據(jù)集按照比例8∶2劃分,其中,80%為訓(xùn)練集,20%為測試集。在以上環(huán)境下,進(jìn)行KE-MCDRL算法的訓(xùn)練從而得到的無線設(shè)備的平均執(zhí)行時延,如圖4所示。從圖4可以看到,無線設(shè)備在5~10時,每個無線設(shè)備的平均時延為10~20 ms,這樣處理時延在網(wǎng)絡(luò)中處于一個實時決策的狀態(tài)。
圖4 不同無線設(shè)備數(shù)下的平均執(zhí)行時延Fig.4 Average execution latency of different wireless devices
在仿真過程中對memory sizes、batch sizes、learning rate、訓(xùn)練間隔進(jìn)行調(diào)參,如圖5所示。本算法取到最好的memory sizes=1 024,如果設(shè)置過小,容易引起收斂性能較大的波動,設(shè)置過大則需要更多的數(shù)據(jù)收斂到最優(yōu)性能。在訓(xùn)練過程中隨機(jī)在replay buffer中進(jìn)行抽樣,因此,batch sizes要小于memory sizes,這里取到效果最佳的train batch sizes=128,設(shè)置較小的batch sizes對于replay buffer的作用沒有明顯作用;設(shè)置較大的batch sizes則意味著用很多老數(shù)據(jù)進(jìn)行訓(xùn)練,降低收斂性能,并且要消耗更多的時間。Learning rate如果設(shè)置過大容易發(fā)生梯度爆炸,模型難以收斂,較小的learning rate損失函數(shù)的變化情況過慢,容易過擬合,本算法采取最佳的learning rate為0.01。訓(xùn)練間隔越小收斂越快,但是對于訓(xùn)練來說,太頻繁地更新是不必要的,這里選擇相對當(dāng)前場景下的最佳訓(xùn)練間隔為16。
圖5 調(diào)參變化曲線Fig.5 Parameter change curve
圖6給出了不同算法的訓(xùn)練損失變化的曲線,考慮了深度強(qiáng)化學(xué)習(xí)本身隨機(jī)選擇行為的情況,即藍(lán)色曲線Actor-Critic算法,在文獻(xiàn)[19]中提出的知識輔助強(qiáng)化學(xué)習(xí)的情況,即綠色曲線K-DDPG算法,以及本文所提出的無線知識嵌入多評論家深度強(qiáng)化學(xué)習(xí)算法,即紅色曲線KE-MCDRL算法。從圖6中可以明顯看出,KE-MCDRL曲線的訓(xùn)練損失明顯低于其他2個曲線,并且在時間幀為2 000左右時能夠到最佳水平;K-DDPG在時間幀為7 000~8 000才能看出抵達(dá)最佳水平,但是其損失減少情況并不是很明顯;Actor-Critic算法在損失上一直處于0.5上下波動,并沒有很好地減少損失。可見,提出的KE-MCORL算法在損失上獲得最小值,相比于其他2種算法能夠達(dá)到更高的系統(tǒng)準(zhǔn)確性,達(dá)到近似最優(yōu)的系統(tǒng)性能。
圖6 不同算法的訓(xùn)練損失變化曲線Fig.6 Training loss curves for different algorithms
圖7給出了不同算法的歸一化目標(biāo)QoS時延曲線,為了觀察更加明顯,將得到的目標(biāo)QoS時延做歸一化處理。從圖7可以明顯看出,所提出的KE-MCDRL算法在系統(tǒng)初期的波動變化很大,在600時間幀左右時能夠達(dá)到穩(wěn)定狀態(tài),即滿足無線設(shè)備的QoS時延。K-DDPG算法在系統(tǒng)初期處于一個穩(wěn)定上升的階段500時間幀左右時達(dá)到相對的穩(wěn)定狀態(tài)。而對于Actor-Critic算法隨機(jī)選擇行為進(jìn)行訓(xùn)練時,在系統(tǒng)初期能夠獲得較大的優(yōu)勢,但是一直處于上下波動狀態(tài),不能很好地收斂到無線設(shè)備滿意的狀態(tài)。相比于其他2種算法,提出的KE-MCDRL算法收斂性能與K-DDPG算法的差距不大,所提出算法在犧牲系統(tǒng)初期的收斂性能獲得了更好的訓(xùn)練準(zhǔn)確度。因此,所提出的算法無論在訓(xùn)練損失還是收斂性能上都表現(xiàn)出近乎最優(yōu)的性能。系統(tǒng)的主要參數(shù)如表1所示。
表1 系統(tǒng)的主要參數(shù)
圖7 不同算法的歸一化目標(biāo)QoS時延Fig.7 Normalized target QoS latency for different algorithms
本文從提高網(wǎng)絡(luò)資源利用率,減少無線設(shè)備的執(zhí)行時延角度出發(fā),研究了云-邊-端6G無線通信場景下用戶執(zhí)行時延最小化的頻譜資源和計算資源分配問題。考慮主要用無線網(wǎng)絡(luò)節(jié)點計算資源、信道的頻譜資源以及無線設(shè)備的能量作為約束,構(gòu)建了信道增益、計算資源、頻譜資源、卸載行為的多目標(biāo)優(yōu)化問題,利用深度強(qiáng)化學(xué)習(xí)技術(shù)實現(xiàn)原地優(yōu)化。實現(xiàn)對頻譜資源和計算資源的權(quán)衡,降低了計算的復(fù)雜度、機(jī)器學(xué)習(xí)模型的收斂時間以及系統(tǒng)的總執(zhí)行時延。仿真結(jié)果表明,本文提出的方法有較好的收斂性能,以及能夠達(dá)到近似最優(yōu)的系統(tǒng)執(zhí)行時延,因此能夠在6G網(wǎng)絡(luò)下實現(xiàn)實時資源決策。