国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向B5G 多業(yè)務(wù)場(chǎng)景基于D3QN 的雙時(shí)間尺度網(wǎng)絡(luò)切片算法

2023-01-08 14:31:42陳賡齊書(shū)虎沈斐曾慶田
通信學(xué)報(bào) 2022年11期
關(guān)鍵詞:時(shí)間尺度切片基站

陳賡,齊書(shū)虎,沈斐,曾慶田

(1.山東科技大學(xué)電子信息工程學(xué)院,山東 青島 266590;2.中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所,上海 200050)

0 引言

B5G 的關(guān)鍵技術(shù)產(chǎn)生了3 種典型的應(yīng)用場(chǎng)景:增強(qiáng)型移動(dòng)寬帶(eMBB,enhanced mobile broadband)、超可靠低時(shí)延通信(URLLC,ultra-reliable and low-latency communication)和大連接物聯(lián)網(wǎng)(mMTC&eMTC,massive machine-type communication&enhanced machine-type communication)[1]。eMBB 面向高數(shù)據(jù)速率的應(yīng)用,如高清視頻或虛擬現(xiàn)實(shí);URLLC 支持具有超高可靠性和極低時(shí)延的服務(wù),如自動(dòng)駕駛或遠(yuǎn)程手術(shù);mMTC&eMTC 涵蓋需要連接各種設(shè)備的服務(wù),并簡(jiǎn)化操作流程以提供較長(zhǎng)的電池壽命,如物聯(lián)網(wǎng)用例[2]。在同一網(wǎng)絡(luò)上服務(wù)不同的業(yè)務(wù)類型會(huì)使資源分配的復(fù)雜性大大增加,因此必須進(jìn)行資源管理以確保得到較高的系統(tǒng)頻譜效率(SE,spectral efficiency)以及不同切片用戶服務(wù)質(zhì)量(QoS,quality of service)。為了支持這3 種典型的應(yīng)用場(chǎng)景,研究者引入了無(wú)線電接入網(wǎng)(RAN,radio access network)切片作為新一代蜂窩網(wǎng)絡(luò)的關(guān)鍵支持技術(shù)[3]。網(wǎng)絡(luò)切片提供了構(gòu)建多個(gè)獨(dú)立邏輯網(wǎng)絡(luò)的能力,每個(gè)網(wǎng)絡(luò)切片都適應(yīng)特定服務(wù)的需求。因此,每個(gè)RAN 切片都可以定制并專用于支持具有獨(dú)特特征和要求的特定服務(wù)[4],利用軟件定義網(wǎng)絡(luò)(SDN,software defined network)提供的網(wǎng)絡(luò)可編程性,動(dòng)態(tài)地管理RAN切片資源[5]。

近年來(lái),基于深度強(qiáng)化學(xué)習(xí)(DRL,deep reinforcement learning)算法的網(wǎng)絡(luò)切片越來(lái)越受到關(guān)注。DRL 算法常被應(yīng)用于解決資源分配等動(dòng)態(tài)決策問(wèn)題,相比傳統(tǒng)優(yōu)化算法具有更好的環(huán)境感知能力。文獻(xiàn)[6]在單基站多切片的RAN 場(chǎng)景中研究了最大系統(tǒng)SE 和服務(wù)水平協(xié)議滿意度問(wèn)題,主要提出了生成對(duì)抗網(wǎng)絡(luò)驅(qū)動(dòng)的深度分布式 Q 網(wǎng)絡(luò)(GAN-DDQN,generative adversarial network powered deep distributional Q network)以及Dueling GAN-DDQN 算法來(lái)為每種切片分配合適的資源塊(RB,resource block)并且分別驗(yàn)證了不同帶寬分辨率對(duì)切片性能的影響。文獻(xiàn)[7]在RAN 多切片場(chǎng)景中研究了用戶移動(dòng)性對(duì)需求感知的影響,提出了把長(zhǎng)短期記憶(LSTM,long short term memory)網(wǎng)絡(luò)融入優(yōu)勢(shì)演員-評(píng)論家(A2C,actor-critic)算法中,使用LSTM網(wǎng)絡(luò)從過(guò)去的狀態(tài)中捕獲服務(wù)請(qǐng)求的變化規(guī)律并在Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)中的損失函數(shù)添加了熵正則化。文獻(xiàn)[8]在多小區(qū)場(chǎng)景下提出了2 種時(shí)間尺度的RAN 切片機(jī)制來(lái)優(yōu)化URLLC 和eMBB服務(wù)的性能。在大時(shí)間尺度內(nèi),SDN 控制器采用探索和利用指數(shù)權(quán)重算法根據(jù)每種業(yè)務(wù)的需求為基站分配頻譜資源;在小時(shí)間尺度內(nèi),每個(gè)基站利用多智能體強(qiáng)化學(xué)習(xí)(MADRL,multi-agent deep reinforcement learning)算法將其可用的資源調(diào)度到終端用戶。文獻(xiàn)[9]在多基站的場(chǎng)景下針對(duì)虛擬化RAN 提出了一種粗資源分配方案和基于深度Q 網(wǎng)絡(luò)(DQN,deep Q network)的動(dòng)態(tài)資源切片細(xì)化方案??紤]了資源預(yù)留問(wèn)題可以滿足切片中用戶突然增加的情況,在用戶滿意度和資源利用率之間取得了平衡。文獻(xiàn)[10]在多基站多切片的密集蜂窩網(wǎng)絡(luò)場(chǎng)景中研究了基站之間的協(xié)作以及資源分配問(wèn)題,為應(yīng)對(duì)頻繁的基站切換并滿足不同業(yè)務(wù)之間的波動(dòng),提出了一種基于圖注意力的MADRL 算法。圖注意力用來(lái)加強(qiáng)代理之間的時(shí)空合作,通過(guò)圖注意力與DRL 算法結(jié)合突出了基于圖注意力的優(yōu)越性。文獻(xiàn)[11]考慮到切片數(shù)量變化的問(wèn)題,使用了一種分布式優(yōu)先經(jīng)驗(yàn)重放方法,在一個(gè)切片作為一個(gè)代理的基礎(chǔ)上管理資源,通過(guò)測(cè)試多種場(chǎng)景驗(yàn)證了既能滿足切片需求也不會(huì)過(guò)度地分配資源。文獻(xiàn)[12]考慮了無(wú)線資源以及計(jì)算資源的動(dòng)態(tài)分配,以實(shí)現(xiàn)最佳的用戶體驗(yàn)和最高的資源利用率,提出了一種具有兩層范式的動(dòng)態(tài)資源分配方案,在本地層采用懲罰函數(shù)輔助的線性規(guī)劃來(lái)將切片中的無(wú)線資源分配給用戶,在邊緣層使用DRL 算法將計(jì)算資源動(dòng)態(tài)分配給邊緣網(wǎng)絡(luò)。文獻(xiàn)[13]在車(chē)聯(lián)網(wǎng)的場(chǎng)景中研究了天地一體化車(chē)載網(wǎng)絡(luò)的資源切片和調(diào)度問(wèn)題,以支持時(shí)延敏感服務(wù)和時(shí)延容忍服務(wù),提出了一種基于雙層強(qiáng)化學(xué)習(xí)求解方法?;趥鹘y(tǒng)優(yōu)化算法的網(wǎng)絡(luò)切片也得到了廣泛研究。文獻(xiàn)[14]針對(duì)B5G 多基站場(chǎng)景提出了一種兩級(jí)軟切片方案,同時(shí)考慮了可靠性以及時(shí)延要求,在網(wǎng)絡(luò)層面首先確定eMBB 和URLLC 所需要的資源,在基站層面的資源調(diào)度問(wèn)題主要是實(shí)現(xiàn)URLLC 服務(wù)之間的實(shí)時(shí)資源共享,采用啟發(fā)式算法來(lái)獲得接近最優(yōu)的資源分配策略。文獻(xiàn)[15]在多基站的場(chǎng)景下主要研究了切片的隔離,在滿足切片內(nèi)單個(gè)用戶吞吐量的同時(shí)最大化切片吞吐量,通過(guò)采用李雅普諾夫優(yōu)化算法解決。文獻(xiàn)[16]考慮了多基站RAN 場(chǎng)景,首先基礎(chǔ)設(shè)施提供商(InP,infrastructure provider)將資源分配給移動(dòng)虛擬網(wǎng)絡(luò)運(yùn)營(yíng)商(MVNO,mobile virtual network operator),然后MVNO 使用分配的資源為其終端用戶提供服務(wù)。由于MVNO 的利潤(rùn)和滿足用戶QoS需求方面存在矛盾,提出了三層Stackelberg 博弈來(lái)聯(lián)合解決InP 的頻率和功率分配問(wèn)題。文獻(xiàn)[17]提出了一個(gè)統(tǒng)一的RAN 切片框架,最大限度地提高資源利用率的同時(shí)保證用戶QoS。上述研究工作很少考慮用戶移動(dòng)的場(chǎng)景,多基站多切片用戶移動(dòng)的場(chǎng)景可能會(huì)加劇資源需求的波動(dòng),并使切片間資源管理更具挑戰(zhàn)性。因此,在利用DRL 算法解決多基站多切片的用戶移動(dòng)場(chǎng)景中如何合理地實(shí)現(xiàn)切片間資源分配;如何最大化系統(tǒng)SE;如何保證不同切片用戶QoS 需求等方面仍然存在一定的挑戰(zhàn)。

針對(duì)以上挑戰(zhàn),本文主要的研究工作如下。

1) 建立了多基站多切片的下行鏈路傳輸場(chǎng)景,以系統(tǒng)SE 和不同切片用戶QoS 指數(shù)的加權(quán)和為優(yōu)化目標(biāo),建立了一個(gè)優(yōu)化問(wèn)題。該問(wèn)題是一個(gè)非凸、非線性NP-hard 問(wèn)題。

2) 提出了一種雙時(shí)間尺度的DRL 求解方法。首先將研究問(wèn)題分為大時(shí)間尺度的資源切片和小時(shí)間尺度的資源調(diào)度問(wèn)題。這2 種時(shí)間尺度是緊密耦合的。大時(shí)間尺度的資源切片對(duì)每個(gè)切片的資源調(diào)度造成資源約束,資源調(diào)度的性能可以為切片決策提供反饋。

3) 在大時(shí)間尺度內(nèi),由于無(wú)線網(wǎng)絡(luò)環(huán)境的時(shí)變性和用戶請(qǐng)求動(dòng)態(tài)性,DRL 智能體能夠根據(jù)當(dāng)前的環(huán)境狀態(tài)選擇合適的切片策略,實(shí)現(xiàn)實(shí)時(shí)地調(diào)整切片資源比例。在小時(shí)間尺度內(nèi),基站根據(jù)動(dòng)態(tài)網(wǎng)絡(luò)狀況和服務(wù)需求通過(guò)輪詢調(diào)度算法將頻譜資源調(diào)度到終端用戶。

4) 仿真結(jié)果表明,綜合考慮保證切片用戶QoS 需求、SE 和系統(tǒng)效用等評(píng)估指標(biāo),相比于其他4 種基準(zhǔn)算法,所提算法具有優(yōu)異的性能。

本文的創(chuàng)新性在于提出基于競(jìng)爭(zhēng)雙深度Q 網(wǎng)絡(luò)(D3QN,dueling double deep Q network)的雙時(shí)間尺度網(wǎng)絡(luò)切片算法解決多基站多切片用戶移動(dòng)場(chǎng)景下的切片間以及切片內(nèi)的資源分配問(wèn)題。大時(shí)間尺度內(nèi)采用D3QN 算法解決多基站多切片用戶移動(dòng)場(chǎng)景下的切片間資源分配問(wèn)題;小時(shí)間尺度內(nèi)在同一切片采用輪詢調(diào)度算法,把同一切片內(nèi)所有用戶的優(yōu)先級(jí)都視為相等,所有用戶可以被周期性地調(diào)度資源,能夠保證同一切片內(nèi)每個(gè)用戶被調(diào)度的概率相同。相比于現(xiàn)有的小時(shí)間尺度的分配算法,本文算法在調(diào)度過(guò)程中考慮了用戶之前被調(diào)度的情況,能夠保證資源在切片內(nèi)分配得更加公平。所提算法在系統(tǒng)效用和系統(tǒng)SE 方面有一定程度的提升,更重要的是該算法在穩(wěn)定性和收斂性方面有了較大程度的提升。

1 系統(tǒng)模型和問(wèn)題建模

1.1 系統(tǒng)模型

本文考慮支持SDN 控制器的RAN 多基站多切片正交頻分多址下行鏈路傳輸場(chǎng)景,由一組有限的基站組成,其集合表示為 M={1,2,…,m,…,M},如圖1 所示。這些基站都是由SDN 控制器直接管理的。切片表示為n∈N={ne,nu,nv},其中e、u 和v分別代表eMBB、URLLC 和VoLTE。N=表示切片的總數(shù)。所有基站共享聚合帶寬W,每個(gè)RB的帶寬為B,分配給基站BSm的 RB 表示為Km={1m,2m,…,km,…,Km}。umn和Umn分別表示基站BSm下切片n的用戶和用戶集合。(m,n)表示基站BSm下切片n的服務(wù),Am,n表示分配給服務(wù)(m,n)的RB 數(shù)量。具有多個(gè)復(fù)雜移動(dòng)模式的用戶隨機(jī)分布在該區(qū)域中。每個(gè)用戶u只能與一個(gè)基站相關(guān)聯(lián)并屬于一個(gè)切片。在大時(shí)間尺度內(nèi),SDN控制器先收集整個(gè)系統(tǒng)內(nèi)切片請(qǐng)求發(fā)送數(shù)據(jù)包數(shù)量,然后對(duì)共享聚合帶寬W進(jìn)行切片并且根據(jù)基站不同切片的負(fù)載狀態(tài)分配切好的資源。在小時(shí)間尺度內(nèi),基站根據(jù)動(dòng)態(tài)網(wǎng)絡(luò)狀況和服務(wù)需求將資源調(diào)度給終端用戶。

圖1 基于SDN 控制器的RAN 架構(gòu)

1.2 移動(dòng)模型

URLLC 服務(wù)通常存在于流動(dòng)性較高的場(chǎng)景(如自動(dòng)駕駛),然而eMBB 服務(wù)廣泛存在于中低流動(dòng)性場(chǎng)景(如行人移動(dòng)),VoLTE 服務(wù)大部分存在于靜止的環(huán)境當(dāng)中。由于損耗不同,具有相同QoS 需求的用戶所需的RB 也可能不同。因此,應(yīng)該將用戶移動(dòng)性特征考慮在內(nèi)。假設(shè)eMBB、URLLC 和VoLTE 用戶的移動(dòng)速度分別服從均勻分布[1,5] m/s、[6,10] m/s 和[0,1] m/s。

1.3 通信模型

QoS 考慮在速率和時(shí)延都滿足的情況下成功傳輸數(shù)據(jù)包與傳輸總數(shù)據(jù)包個(gè)數(shù)的比值,表示為

1.4 問(wèn)題建模

在RAN 中RB 分配的主要問(wèn)題是如何為終端用戶實(shí)現(xiàn)最優(yōu)分配,以滿足在不同服務(wù)下用戶數(shù)據(jù)速率和時(shí)延方面的QoS 要求[8]。系統(tǒng)效用定義為系統(tǒng)SE 和不同切片用戶QoS 的加權(quán)和,并以系統(tǒng)效用作為優(yōu)化目標(biāo)。因此,RB 分配問(wèn)題可以表示為

其中,α和βn=[βe,βu,βv]分別表示系統(tǒng)SE 和不同切片用戶QoS 的重要性系數(shù)。式(8)的優(yōu)化目標(biāo)是找到RB 的分配策略使整個(gè)系統(tǒng)SE 和切片用戶QoS 指數(shù)的加權(quán)和最大。約束條件 C1判斷RBkm∈Km是否分配給用戶umn∈Umn,約束條件 C2限制每個(gè)RB 一次只能分配給一個(gè)終端用戶,約束條件C3保證所分配的資源總和不超過(guò)系統(tǒng)的總帶寬,約束條件 C4判斷速率和時(shí)延是否滿足切片的服務(wù)指標(biāo)要求。

一般來(lái)說(shuō),求解該目標(biāo)函數(shù)J非常具有挑戰(zhàn)性。這主要是由于優(yōu)化變量的二進(jìn)制性質(zhì)和定義的用戶服務(wù)質(zhì)量QoSmn與優(yōu)化變量有直接關(guān)系,該目標(biāo)函數(shù)J是非線性問(wèn)題。因此該RB分配問(wèn)題是一個(gè)0-1 非線性規(guī)劃問(wèn)題,與背包問(wèn)題類似也是典型的NP-hard 問(wèn)題。由于傳統(tǒng)算法求解背包問(wèn)題時(shí)間復(fù)雜度較高,因此本文提出了一種D3QN 算法解決RB 的分配任務(wù)。

證明目標(biāo)函數(shù)J是NP-hard 問(wèn)題詳見(jiàn)附錄1。

2 基于D3QN 的雙時(shí)間尺度網(wǎng)絡(luò)切片算法

2.1 雙時(shí)間尺度分配機(jī)制

考慮到動(dòng)態(tài)服務(wù)請(qǐng)求到達(dá)率的影響,在大時(shí)間尺度內(nèi)基于D3QN 算法確定頻譜資源切片比例,在小時(shí)間尺度內(nèi)基于動(dòng)態(tài)的網(wǎng)絡(luò)條件和業(yè)務(wù)需求采用輪詢調(diào)度的方式將可用RB 分配給用戶。雙時(shí)間尺度網(wǎng)絡(luò)切片模型如圖2 所示,其中T0表示大時(shí)間尺度內(nèi)共有T0個(gè)小時(shí)隙,b表示第b個(gè)小時(shí)隙。

圖2 雙時(shí)間尺度網(wǎng)絡(luò)切片模型

大時(shí)間尺度的資源切片。在切片窗口aT開(kāi)始時(shí),SDN 控制器首先做出資源切片決策φn∈ [0,1],?n∈N,即確定分配給切片n頻譜資源的切片比例,再根據(jù)每個(gè)基站切片的用戶數(shù)量分配切好的RB。在整個(gè)切片窗口內(nèi),切片決策保持不變。由于服務(wù)請(qǐng)求模式的變化以及用戶移動(dòng)性的影響,服務(wù)需求和可用頻譜資源隨時(shí)間變化,因此在每個(gè)切片窗口結(jié)束時(shí),SDN 控制器根據(jù)基站的反饋評(píng)估系統(tǒng)性能的差異,并在下一個(gè)切片窗口(a+1)T調(diào)整資源切片決策。值得注意的是,不同切片窗口中的資源切片決策是獨(dú)立的。

小時(shí)間尺度的資源調(diào)度?;诖髸r(shí)間尺度的資源切片決策,在每個(gè)時(shí)隙開(kāi)始時(shí)進(jìn)行資源調(diào)度。根據(jù)網(wǎng)絡(luò)拓?fù)?、用戶移?dòng)性和業(yè)務(wù)需求的變化為各個(gè)終端用戶分配頻譜資源。

2.2 馬爾可夫決策過(guò)程

對(duì)于目標(biāo)函數(shù)J的網(wǎng)絡(luò)切片資源分配模型,可將其轉(zhuǎn)化為一個(gè)無(wú)模型的馬爾可夫決策過(guò)程(MDP,Markov decision process)。該MDP 的狀態(tài)空間與動(dòng)作空間均具有較高的維度,可用一個(gè)四元組(S,A,P,R)表示,其中,S 表示智能體所有可能狀態(tài)組成的狀態(tài)空間,A 表示智能體所有可能采取的動(dòng)作集合,P 表示轉(zhuǎn)移概率,R 表示獎(jiǎng)勵(lì)函數(shù)[18]。

狀態(tài)空間S。S 表示整個(gè)系統(tǒng)的狀態(tài)。SDN 控制器充當(dāng)智能體,將大時(shí)間尺度內(nèi)所劃分的RB 分配給基站。切片窗口aT內(nèi)每個(gè)切片請(qǐng)求發(fā)送的數(shù)據(jù)包數(shù)量作為狀態(tài)。如果在切片窗口內(nèi)沒(méi)有該切片請(qǐng)求,則該切片的狀態(tài)設(shè)置為0。為了方便狀態(tài)的處理,對(duì)其進(jìn)行了標(biāo)準(zhǔn)化。packetn表示切片n在切片窗口內(nèi)請(qǐng)求傳輸?shù)臄?shù)據(jù)包總和,meann、stdn分別表示切片n傳輸數(shù)據(jù)包請(qǐng)求到達(dá)間隔分布的平均值、標(biāo)準(zhǔn)差。因此,在切片窗口aT的狀態(tài)SaT簡(jiǎn)記為S= {se,su,sv}。

動(dòng)作空間A。A 表示所執(zhí)行動(dòng)作的集合。SDN控制器每獲取一個(gè)狀態(tài),便會(huì)根據(jù)貪心策略選取并執(zhí)行該動(dòng)作。對(duì)于該網(wǎng)絡(luò)切片資源分配問(wèn)題,將頻譜資源RB 分配方案作為動(dòng)作。在大時(shí)間尺度內(nèi),動(dòng)作A共包含3 個(gè)元素,記為A={Ae,Au,Av},其中,φn∈ [0,1],?n∈N 表示該大時(shí)間尺度內(nèi)分配給切片n的切片比例。SDN 控制器確定切片比例φn之后,根據(jù)不同基站下切片所連接的用戶數(shù)分配切好的資源,在小時(shí)間尺度基站在同一切片內(nèi)采用輪詢調(diào)度的方式分配給用戶。由于在把帶寬劃分為RB的過(guò)程中可能會(huì)出現(xiàn)不能整除的情況,因此在劃分RB 時(shí)進(jìn)行向下取整。使用ALLn表示SDN 控制器分配給切片n的RB 數(shù)量,分配給服務(wù)(m,n) 的RB數(shù)量Am,n可以表示為

轉(zhuǎn)移概率P。由于該MDP 中的狀態(tài)為每個(gè)切片請(qǐng)求的數(shù)據(jù)包數(shù)目,每個(gè)切片請(qǐng)求的數(shù)據(jù)包數(shù)目隨機(jī)變化,用戶平均QoS 同無(wú)線環(huán)境中的噪聲密切相關(guān),因此無(wú)法直接量化其轉(zhuǎn)移概率,所以該模型為無(wú)模型MDP。

獎(jiǎng)勵(lì)函數(shù)R。R 表示智能體與環(huán)境交互后所得到的獎(jiǎng)勵(lì)回報(bào)。通常來(lái)說(shuō),這個(gè)獎(jiǎng)勵(lì)回報(bào)能直接反映選取動(dòng)作的好壞[19]。系統(tǒng)SE 和用戶QoS 都是評(píng)估指標(biāo),需要綜合考慮。因此本文引入了分層即時(shí)獎(jiǎng)勵(lì)機(jī)制。為了盡可能滿足不同切片用戶QoS 需求,eMBB、VoLTE 切片用戶QoS 閾值都設(shè)置為0.98,URLLC 切片用戶QoS閾值為0.95。由于eMBB、VoLTE 切片指標(biāo)要求比較容易實(shí)現(xiàn),因此在設(shè)置獎(jiǎng)勵(lì)函數(shù)時(shí)這2種切片用戶QoS必須同時(shí)大于或等于0.98,否則給予一個(gè)大的負(fù)獎(jiǎng)勵(lì)[7]。在訓(xùn)練過(guò)程中注意到,系統(tǒng)SE 的最大值取值范圍為340~350 bit/(s·Hz),最小值取值范圍為190~200 bit/(s·Hz),因此本文對(duì)系統(tǒng)SE 最大值和最小值取折中,系統(tǒng)SE 的指標(biāo)要求為280 bit/(s·Hz)。為了盡可能使獎(jiǎng)勵(lì)函數(shù)值在以0 為中心的一定范圍內(nèi)波動(dòng)并表現(xiàn)出分配策略的差異,具體獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)步驟如下。

該獎(jiǎng)勵(lì)函數(shù)共由3 個(gè)階段組成,由于優(yōu)化目標(biāo)是在滿足不同切片用戶QoS 的同時(shí)最大化系統(tǒng)SE,因此把判斷以及是否滿足切片的服務(wù)指標(biāo)要求放在前2 個(gè)階段,第三階段判斷系統(tǒng)SE 是否滿足指標(biāo)要求。第一階段判斷以及是否滿足切片服務(wù)指標(biāo)要求,若不滿足則給予一個(gè)大的負(fù)獎(jiǎng)勵(lì)R1,即

第三階段判斷系統(tǒng)SE是否滿足系統(tǒng)SE的指標(biāo)要求,獎(jiǎng)勵(lì)函數(shù)R3可以表示為

2.3 基于D3QN 雙時(shí)間尺度網(wǎng)絡(luò)切片算法

D3QN 算法結(jié)合了Double DQN 和Dueling DQN算法的思想,進(jìn)一步提升了算法的性能。D3QN 算法的其他方面與DQN 一致,算法框架如圖3 所示。

圖3 D3QN 算法框架

Dueling DQN 將Q 網(wǎng)絡(luò)分成2 個(gè)部分。第一部分僅與狀態(tài)S有關(guān),表示狀態(tài)的好壞程度,這部分為價(jià)值函數(shù),記作fvalue(S;w,ξ)。第二部分同時(shí)與狀態(tài)S和動(dòng)作A有關(guān),表示該狀態(tài)下某個(gè)動(dòng)作相對(duì)于其他動(dòng)作的好壞程度,即采取該動(dòng)作的優(yōu)勢(shì),這部分為優(yōu)勢(shì)函數(shù),記作fadv(S,A;w,ζ)。fvalue(S;w,ξ)和fadv(S,A;w,ζ)之和表示在該狀態(tài)下確定的某個(gè)動(dòng)作的值,即

其中,w、ξ、ζ分別是網(wǎng)絡(luò)公共部分、價(jià)值函數(shù)、優(yōu)勢(shì)函數(shù)的網(wǎng)絡(luò)參數(shù)。不同的動(dòng)作有不同的偏差,價(jià)值函數(shù)是一個(gè)標(biāo)量,直接將fvalue(S;w,ξ)和fadv(S,A;w,ζ)相加會(huì)導(dǎo)致學(xué)習(xí)效果不佳。為了改進(jìn)這種方法,通常使用優(yōu)勢(shì)函數(shù)的平均值進(jìn)行計(jì)算,即

由于DQN 在計(jì)算目標(biāo)Q值時(shí),每次都選擇下一狀態(tài)中最大Q值,這會(huì)使Q值出現(xiàn)高估計(jì)的問(wèn)題。為了解決這一問(wèn)題,Double DQN 不再在目標(biāo)Q 網(wǎng)絡(luò)里面找各個(gè)動(dòng)作中的最大Q值,而是在當(dāng)前Q 網(wǎng)絡(luò)中先找出最大Q值對(duì)應(yīng)的動(dòng)作[20],即

然后利用Amax在目標(biāo)Q 網(wǎng)絡(luò)中計(jì)算目標(biāo)Q值,即

其中,yDouble表示目標(biāo)Q 網(wǎng)絡(luò)中計(jì)算的Q值,R表示獎(jiǎng)勵(lì)回報(bào),γ表示折扣因子。

結(jié)合式(17)、式(18),計(jì)算目標(biāo)Q 網(wǎng)絡(luò)中的Q值為

損失函數(shù)定義為

其中,E[·]表示期望運(yùn)算。在選取動(dòng)作時(shí)采用ε-貪心策略。ε-貪心策略是指每次嘗試時(shí)以ε的概率進(jìn)行探索,以1-ε的概率選擇Q值最大的動(dòng)作進(jìn)行利用[21]。

大時(shí)間尺度基于D3QN的網(wǎng)絡(luò)切片算法如算法1所示。

算法1大時(shí)間尺度基于D3QN的網(wǎng)絡(luò)切片算法

輸入系統(tǒng)環(huán)境參數(shù)、切片參數(shù)和D3QN 算法參數(shù)

輸出系統(tǒng)SE、切片用戶QoS 和系統(tǒng)效用

根據(jù)算法1 中步驟6)的分配結(jié)果,小時(shí)間尺度內(nèi)利用輪詢調(diào)度執(zhí)行步驟7)。小時(shí)間尺度輪詢調(diào)度算法如算法2 所示。

算法2小時(shí)間尺度輪詢調(diào)度算法

3 仿真實(shí)驗(yàn)

3.1 仿真場(chǎng)景與仿真參數(shù)設(shè)置

本文考慮一個(gè)大小為240 m×240 m的蜂窩網(wǎng)絡(luò)環(huán)境,包括由SDN 控制器直接管理的4 個(gè)半徑為40 m 的基站以及1 200 個(gè)移動(dòng)用戶[7]。為了驗(yàn)證本文所提出的基于D3QN 的雙時(shí)間尺度網(wǎng)絡(luò)切片算法,仿真實(shí)現(xiàn)使用Python 平臺(tái)和Pytorch 工具執(zhí)行。總帶寬設(shè)置為40 MHz,帶寬分配分辨率為0.5 MHz,每個(gè)RB 的帶寬為180 kHz。仿真了B5G 的3 種典型服務(wù),即用于語(yǔ)音通信的VoLTE、超高清視頻傳輸?shù)膃MBB 和工業(yè)級(jí)應(yīng)用的URLLC。根據(jù)文獻(xiàn)[22-23]設(shè)置仿真參數(shù),如表1 所示。

表1 仿真參數(shù)設(shè)置

D3QN 算法由兩層全連接隱藏層組成,每層含有200 個(gè)神經(jīng)元。采用ReLU 作為激活函數(shù),Adam優(yōu)化器以0.001 的學(xué)習(xí)率更新網(wǎng)絡(luò)參數(shù)。每50 回合更新目標(biāo)Q 網(wǎng)絡(luò)參數(shù),訓(xùn)練探索率ε一直保持0.2。為了使代理更偏向于未來(lái)的獎(jiǎng)勵(lì),折扣因子γ設(shè)為0.99。最小批量大小m和經(jīng)驗(yàn)回放單元大小分別為512 和100 000。

3.2 仿真結(jié)果分析

為了更好地評(píng)估提出的基于D3QN的雙時(shí)間尺度網(wǎng)絡(luò)切片算法在系統(tǒng)SE 和用戶QoS 加權(quán)和優(yōu)化問(wèn)題上的性能,將本文所提出的基于D3QN 的雙時(shí)間尺度網(wǎng)絡(luò)切片算法與其他4 種基準(zhǔn)算法進(jìn)行了比較,即Double DQN 算法、Dueling DQN 算法[24]、DQN 算法[9]和LSTM-A2C 算法[7]。

1) 系統(tǒng)效用的對(duì)比

圖4 說(shuō)明了系統(tǒng)效用隨訓(xùn)練迭代次數(shù)的變化。SE 的重要性系數(shù)α設(shè)置為0.01,QoS 的系數(shù)βn設(shè)置為[1,1,1],總共迭代訓(xùn)練5 000 次??梢杂^察到D3QN 算法在大約1 300 次收斂,系統(tǒng)效用穩(wěn)定在6.47 左右。Double DQN 在當(dāng)前訓(xùn)練次數(shù)下波動(dòng)幅度較大,最終未達(dá)到收斂。Dueling DQN 算法在收斂速度方面占有明顯的優(yōu)勢(shì),系統(tǒng)效用最終收斂在6.3 左右,整體系統(tǒng)效用略差。DQN 算法只有個(gè)別取值能夠達(dá)到同D3QN 的效果且最終沒(méi)有達(dá)到收斂的狀態(tài)。LSTM-A2C 算法最終能夠達(dá)到收斂狀態(tài),但整體系統(tǒng)效用穩(wěn)定在4.8 左右。由于采用集中控制的方式可能導(dǎo)致動(dòng)作數(shù)量過(guò)多,LSTM-A2C算法容易陷入局部最優(yōu),不適用于動(dòng)作較多的場(chǎng)景,因此性能較差。整個(gè)分配過(guò)程說(shuō)明基于D3QN的網(wǎng)絡(luò)切片算法能夠在有限的訓(xùn)練次數(shù)下找到較合適的分配策略,更適用于解決在多基站多切片用戶移動(dòng)場(chǎng)景下的優(yōu)化系統(tǒng)SE 和用戶QoS 問(wèn)題。所提出的基于D3QN 網(wǎng)絡(luò)切片算法與基于Double DQN、Dueling DQN、DQN 和LSTM-A2C 算法相比,系統(tǒng)效用分別提升了3.22%、3.81%、7.48%和21.14%。

圖4 系統(tǒng)效用隨訓(xùn)練迭代次數(shù)的變化

2) 系統(tǒng)SE 的對(duì)比

圖5 給出了系統(tǒng)SE 隨訓(xùn)練迭代次數(shù)的變化。從圖5 可以看出存在個(gè)別高于收斂值的異常點(diǎn),這是因?yàn)樵谠摖顟B(tài)下沒(méi)有找到合適的分配策略,在分配過(guò)程中為某個(gè)切片分配過(guò)多的RB,導(dǎo)致分配給其他切片的RB 數(shù)量過(guò)少,此時(shí)分配RB 數(shù)量過(guò)少的切片用戶QoS 很大程度上不能滿足服務(wù)指標(biāo)要求,所以此次的獎(jiǎng)勵(lì)回報(bào)很小,接下來(lái)的訓(xùn)練過(guò)程中在該狀態(tài)下會(huì)避免采取該動(dòng)作。因此,本文算法系統(tǒng)SE 穩(wěn)定在350 bit/(s·Hz)左右。相比于Dueling DQN 算法的340 bit/(s·Hz)以及LSTM-A2C 算法的190 bit/(s·Hz)有了一定程度的提升。

圖5 系統(tǒng)SE 隨訓(xùn)練迭代次數(shù)的變化

圖6~圖8 分別給出了VoLTE、eMBB 和URLLC切片用戶QoS 隨訓(xùn)練迭代次數(shù)的變化。從圖6 可以看出,VoLTE 切片用戶QoS 穩(wěn)定在1.00 可滿足VoLTE 切片服務(wù)要求。從圖7 中可以看出eMBB 切片用戶QoS 都保持得較穩(wěn)定,D3QN、Double DQN、Dueling DQN 和DQN 算法基本能夠穩(wěn)定在0.99 甚至能夠達(dá)到1.00,LSTM-A2C 算法可以達(dá)到0.98。

圖6 VoLTE 切片用戶QoS 隨訓(xùn)練迭代次數(shù)的變化

圖7 eMBB 切片用戶QoS 隨訓(xùn)練迭代次數(shù)的變化

圖8 URLLC 切片用戶QoS 隨訓(xùn)練迭代次數(shù)的變化

由于URLLC 切片的服務(wù)要求最高,各算法的差異很容易表現(xiàn)出來(lái)。D3QN、Double DQN 和Dueling DQN 算法能夠穩(wěn)定在 0.95 左右,LSTM-A2C 算法穩(wěn)定在0.91 左右。

3) 單時(shí)間尺度和雙時(shí)間尺度性能的對(duì)比

圖9 為在相同環(huán)境下單時(shí)間尺度和雙時(shí)間尺度的系統(tǒng)效用比較。從圖9 可以看出,單時(shí)間尺度的基于Double DQN、DQN 算法穩(wěn)定性略差,而基于Dueling DQN、LSTM-A2C 算法收斂后的穩(wěn)定性較強(qiáng),大致穩(wěn)定在6.3 左右。

圖9 單時(shí)間尺度和雙時(shí)間尺度的系統(tǒng)效用比較

由于LSTM-A2C 算法實(shí)現(xiàn)了A2C 和LSTM 的融合,因此該算法具有長(zhǎng)時(shí)記憶功能,具有較好的穩(wěn)定性。單時(shí)間尺度性能較差原因在于該區(qū)域中的用戶在整個(gè)系統(tǒng)中隨機(jī)移動(dòng),導(dǎo)致一些基站過(guò)載而RB 遠(yuǎn)遠(yuǎn)不足,而另一些基站的RB 則會(huì)有剩余。相比于單時(shí)間尺度基于D3QN、Double DQN、Dueling DQN、DQN 和LSTM-A2C 網(wǎng)絡(luò)切片算法,所提出算法在系統(tǒng)效用方面分別提升了1.33%、1.01%、1.62%、3.59%和4.00%。

圖10 為系統(tǒng)SE 在不同時(shí)間尺度上隨訓(xùn)練迭代次數(shù)的變化。在系統(tǒng)SE 方面,雙時(shí)間尺度分配算法明顯高于單時(shí)間尺度分配算法。在單時(shí)間尺度下基于LSTM-A2C 算法在穩(wěn)定性方面優(yōu)于其他算法,但系統(tǒng)SE 只能約為325 bit/(s·Hz)。所提算法相比于單時(shí)間尺度D3QN、Double DQN、Dueling DQN、DQN 和LSTM-A2C 算法在系統(tǒng)SE 方面分別提升了4.03%、3.57%、4.47%、6.91%和6.26%。

圖10 系統(tǒng)SE 在不同時(shí)間尺度上隨訓(xùn)練迭代次數(shù)的變化

圖11~圖13 顯示了3 種切片在雙時(shí)間尺度和單時(shí)間尺度下用戶QoS 比較。從圖11 可以看出,雙時(shí)間尺度分配算法和單時(shí)間尺度分配算法的VoLTE 切片用戶QoS 都穩(wěn)定在1.0 附近,能夠滿足該切片的服務(wù)指標(biāo)要求。圖12 為不同時(shí)間尺度下eMBB 切片用戶QoS 比較。從圖12 可知,在單時(shí)間尺度下D3QN 算法與LSTM-A2C 算法的性能較好,用戶QoS 基本能夠穩(wěn)定在0.99 甚至能夠達(dá)到1.0?;贒ouble DQN 和DQN 的算法能夠滿足服務(wù)指標(biāo)要求但是穩(wěn)定性略差。由于VoLTE 切片對(duì)數(shù)據(jù)速率和時(shí)延的要求較低,服務(wù)需求很容易滿足。從圖12 可以看出,eMBB 切片用戶QoS 采用雙時(shí)間尺度分配算法穩(wěn)定性較強(qiáng)。圖13 為不同時(shí)間尺度下URLLC 切片用戶QoS 比較。從圖13 可知,相比于單時(shí)間尺度Dueling DQN 和LSTM-A2C 算法,所提算法的收斂值略低,但可以穩(wěn)定在0.95 左右,能夠滿足服務(wù)指標(biāo)要求。目的是能夠在滿足URLLC 切片用戶QoS 前提下,盡可能地分配給eMBB 切片更多RB,以提高系統(tǒng)SE。

圖11 單時(shí)間尺度和雙時(shí)間尺度下VoLTE 切片用戶QoS 比較

圖12 單時(shí)間尺度和雙時(shí)間尺度下eMBB 切片用戶QoS 比較

圖13 單時(shí)間尺度和雙時(shí)間尺度下URLLC 切片用戶QoS 比較

綜上所述,本文所提算法能夠更好地進(jìn)行資源分配,在滿足用戶QoS 需求、系統(tǒng)SE 和系統(tǒng)效用方面具有較好的性能,證明了所提算法的有效性。

4 結(jié)束語(yǔ)

本文面向B5G 多業(yè)務(wù)場(chǎng)景中的網(wǎng)絡(luò)切片資源分配進(jìn)行了研究。將系統(tǒng)SE 和不同切片用戶QoS指數(shù)的加權(quán)和作為優(yōu)化目標(biāo),提出了一種基于D3QN 的雙時(shí)間尺度網(wǎng)絡(luò)切片算法。該算法在大時(shí)間尺度內(nèi)通過(guò)基于D3QN的強(qiáng)化學(xué)習(xí)算法確定資源切片比例,再根據(jù)每個(gè)基站的負(fù)載狀況分配切好的資源,在小時(shí)間尺度同一切片內(nèi)采用輪詢調(diào)度算法解決RB 分配給終端用戶問(wèn)題。將基于D3QN 的雙時(shí)間尺度網(wǎng)絡(luò)切片算法與基于 Double DQN、Dueling DQN、DQN 和LSTM-A2C 算法進(jìn)行了對(duì)比。仿真結(jié)果表明,所提出的基于D3QN 雙時(shí)間尺度網(wǎng)絡(luò)切片算法在滿足用戶QoS 需求、系統(tǒng)SE 以及系統(tǒng)效用等方面具有更好的性能表現(xiàn)。與基準(zhǔn)算法相比具有一定的優(yōu)勢(shì),更適合網(wǎng)絡(luò)切片的智能分配,為網(wǎng)絡(luò)切片資源管理提供了一種具有前景的解決方案。

附錄1 目標(biāo)函數(shù)J 是NP-hard 問(wèn)題的證明

背包的定義。假設(shè)有一個(gè)背包,其容量是capacity,給定一組Z件物品,每件物品都有它的價(jià)值pz和重量wz。每個(gè)物品可以放入或不放入背包(相應(yīng)的取值為1 或0)。該問(wèn)題的目標(biāo)是找到一個(gè)物品子集Z′?Z使總價(jià)值最大,并且所選物品的總重量小于或等于背包容量,即≤ capacity。

考慮該問(wèn)題中一個(gè)簡(jiǎn)化問(wèn)題,在場(chǎng)景中只有一種切片n(n是一個(gè)定值)情形,目標(biāo)函數(shù)變?yōu)?/p>

其中,式(22)的目的是找到集合 Km,m∈M 實(shí)現(xiàn)對(duì)切片n終端用戶集Un的RB 分配策略,在滿足用戶QoS 的同時(shí)最大化系統(tǒng)SE。約束條件 C1判斷RBkm∈Km是否分配給用戶umn∈Umn,約束條件 C2限制每個(gè)RB 每次僅分配給一個(gè)終端用戶,約束條件 C3表示預(yù)分配給所有基站的資源之和不超過(guò)總帶寬,約束條件 C4判斷是否滿足切片速率和時(shí)延要求。

將0-1 背包問(wèn)題映射到該目標(biāo)函數(shù)Jm,物品數(shù)Z對(duì)應(yīng)于RB 數(shù)量,價(jià)值pz是該切片實(shí)現(xiàn)的SE 和QoS 之和,物品的重量wz對(duì)應(yīng)于分配給每個(gè)基站RB 的數(shù)量,總?cè)萘康南拗茷榉峙浣o基站RB 的數(shù)量之和不能超過(guò)總帶寬,即

由于該目標(biāo)函數(shù)Jm顯然是能夠在多項(xiàng)式時(shí)間內(nèi)完成的,并且0-1 背包問(wèn)題是NP-hard 問(wèn)題,因此該問(wèn)題的簡(jiǎn)化問(wèn)題Jm是一個(gè)NP-hard 問(wèn)題。由此可以得出結(jié)論,目標(biāo)函數(shù)J是NP-hard 問(wèn)題。

證畢。

猜你喜歡
時(shí)間尺度切片基站
時(shí)間尺度上非完整系統(tǒng)的Noether準(zhǔn)對(duì)稱性與守恒量
時(shí)間尺度上Lagrange 系統(tǒng)的Hojman 守恒量1)
交直流混合微電網(wǎng)多時(shí)間尺度協(xié)同控制
能源工程(2021年1期)2021-04-13 02:06:12
可惡的“偽基站”
大連市暴雨多時(shí)間尺度研究分析
基于SDN與NFV的網(wǎng)絡(luò)切片架構(gòu)
基于GSM基站ID的高速公路路徑識(shí)別系統(tǒng)
腎穿刺組織冷凍切片技術(shù)的改進(jìn)方法
小基站助力“提速降費(fèi)”
冰凍切片、快速石蠟切片在中樞神經(jīng)系統(tǒng)腫瘤診斷中的應(yīng)用價(jià)值比較
眉山市| 宜兰市| 稷山县| 金坛市| 临安市| 贺兰县| 隆回县| 丹江口市| 文安县| 绵阳市| 科技| 绍兴县| 南郑县| 盘锦市| 崇仁县| 华蓥市| 门头沟区| 安国市| 五河县| 桦川县| 苍南县| 东山县| 社旗县| 石狮市| 扎兰屯市| 静海县| 防城港市| 确山县| 手游| 铜川市| 平和县| 南投市| 大连市| 德令哈市| 枝江市| 尚义县| 乐山市| 三江| 抚州市| 沙坪坝区| 盐池县|