国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向軟件定義多模態(tài)車聯(lián)網(wǎng)的雙時間尺度RAN 切片資源分配

2022-04-29 05:15:28亓偉敬宋清洋郭磊
通信學報 2022年4期
關(guān)鍵詞:時間尺度資源分配傳輸速率

亓偉敬,宋清洋,郭磊

(重慶郵電大學通信與信息工程學院智能通信與網(wǎng)絡(luò)安全研究院,重慶 400065)

0 引言

5G 低時延特點為車聯(lián)網(wǎng)發(fā)展提供了先決條件,車聯(lián)網(wǎng)從車載信息服務(wù)階段逐漸邁向基于智能網(wǎng)聯(lián)的駕駛輔助階段和自動駕駛階段。近年來,具有不同的用戶體驗質(zhì)量(QoE,quality of experience)、服務(wù)質(zhì)量(QoS,quality of service)等級需求的新型車載應(yīng)用不斷涌現(xiàn),對車聯(lián)網(wǎng)功能、系統(tǒng)性能、安全性等也提出了不同的要求[1]。多媒體、在線會議和增強現(xiàn)實/虛擬現(xiàn)實等信息娛樂服務(wù)通常占用大網(wǎng)絡(luò)帶寬,以保證較高的網(wǎng)絡(luò)吞吐量。相反,支撐智能駕駛的安全信息服務(wù)通常需要通過協(xié)作感知消息(CAM,cooperative awareness message)、分散環(huán)境通知消息(DENM,decentralized environment notification message)等承載駕駛環(huán)境狀態(tài),由于環(huán)境狀態(tài)信息的高動態(tài)性,在這些情況下應(yīng)保證低時延且高可靠性的網(wǎng)絡(luò)連接。為每項業(yè)務(wù)提供專用網(wǎng)絡(luò)可以滿足其相應(yīng)的需求,但絕大多數(shù)服務(wù)提供商無法承擔專用網(wǎng)絡(luò)建設(shè)和維護成本。軟件定義網(wǎng)絡(luò)(SDN,software defined network)技術(shù)將網(wǎng)絡(luò)設(shè)備的控制面與數(shù)據(jù)面分離,從而擺脫硬件對網(wǎng)絡(luò)架構(gòu)的限制,對網(wǎng)絡(luò)流量進行靈活控制。SDN 是構(gòu)建全維可定義開放網(wǎng)絡(luò)架構(gòu)、實現(xiàn)多模態(tài)網(wǎng)絡(luò)的基礎(chǔ)[2]。文獻[3]明確提出城市交通是全維可定義多模態(tài)智慧網(wǎng)絡(luò)的一個典型垂直應(yīng)用,近年來,針對軟件定義多模態(tài)車聯(lián)網(wǎng)的研究也在不斷開展[4-5]。網(wǎng)絡(luò)切片可以通過網(wǎng)絡(luò)功能虛擬化(NFV,network function virtualization)將網(wǎng)絡(luò)資源虛擬化并聚合為資源池,并由支持SDN 的切片管理控制器集中管理,實現(xiàn)更細粒度的資源編排,在通用物理基礎(chǔ)設(shè)施上按需定制虛擬網(wǎng)絡(luò),實現(xiàn)軟件定義的多模態(tài)網(wǎng)絡(luò),為不同類型的車聯(lián)網(wǎng)業(yè)務(wù)提供差異化QoS 保障。例如,增強型移動寬帶(eMBB,enhanced mobile broadband)切片可以承載信息娛樂等大帶寬業(yè)務(wù),超可靠低時延通信(URLLC,ultra-reliable and low-latency communication)切片可以承載實時路況監(jiān)測、實時路況更新、導航準確度提升、安全自動駕駛等低時延、高可靠業(yè)務(wù)[6]。在車聯(lián)網(wǎng)這樣的高動態(tài)網(wǎng)絡(luò)中,網(wǎng)絡(luò)切片在無線接入網(wǎng)(RAN,radio access network)側(cè)的功能實現(xiàn)簡稱為RAN 切片,其可以顯著提高網(wǎng)絡(luò)的靈活性和資源的利用效率,從而提高網(wǎng)絡(luò)在連接性、端到端時延、數(shù)據(jù)傳輸速率等方面的性能。

在實際的RAN 切片實現(xiàn)和部署中,其資源分配根據(jù)對資源使用的動態(tài)性和彈性程度,可劃分為以下三大類:靜態(tài)預(yù)留、半靜態(tài)預(yù)留、動態(tài)共享[7]。其中,動態(tài)共享方式基于用戶QoS 在每個時隙靈活為切片分配資源,相應(yīng)資源就會通過網(wǎng)絡(luò)下層信令的方式進行動態(tài)調(diào)整,實現(xiàn)資源快速回收或增配。RAN 切片資源動態(tài)共享方式具有較高的資源利用率,因此被廣泛采用。然而,車聯(lián)網(wǎng)拓撲和數(shù)據(jù)流量的高動態(tài)性對RAN 切片資源分配提出了巨大挑戰(zhàn)。如何有效利用網(wǎng)絡(luò)的動態(tài)異構(gòu)資源以滿足不同服務(wù)的多維QoS 需求成為發(fā)揮RAN 切片潛在優(yōu)勢的關(guān)鍵。因此,從用戶QoS和網(wǎng)絡(luò)資源利用的角度來看,開發(fā)高效的RAN切片資源分配方案勢在必行。

近年來,針對車聯(lián)網(wǎng)環(huán)境中的RAN 切片資源分配已有很多成果,主要解決車聯(lián)網(wǎng)中用戶的QoS 需求保證問題。文獻[8]中較早提出了支持各種車載服務(wù)的RAN 切片概念。文獻[9]針對車聯(lián)網(wǎng)場景提出了一種動態(tài)RAN 切片框架,通過均衡網(wǎng)絡(luò)負載和分配網(wǎng)絡(luò)資源,實現(xiàn)在任務(wù)卸載最大時延和排隊穩(wěn)定性約束下的系統(tǒng)通信、計算成本最小化。文獻[10]描述了一個針對RAN 切片的資源分配和計算卸載聯(lián)合優(yōu)化問題,以實現(xiàn)通信、計算資源利用率最大化為目標??紤]到2 個優(yōu)化問題之間的耦合作用,文獻[10]提出分層優(yōu)化框架,基于協(xié)作多智能體DDQN(double deep Q-learning network)框架來學習卸載策略,基于凸優(yōu)化實現(xiàn)RAN 切片資源分配。文獻[11]基于深度強化學習提出了適用于智能車聯(lián)網(wǎng)和智慧城市系統(tǒng)的切片方案,智能體可以通過與環(huán)境的密切交互來自適應(yīng)地學習最佳網(wǎng)絡(luò)切片策略。針對車聯(lián)網(wǎng)中的關(guān)鍵任務(wù)和非關(guān)鍵任務(wù)需求,文獻[12]通過端到端切片對整體帶寬資源進行隔離,研究表明,基于人工智能(AI,artificial intelligence)的切片管理系統(tǒng)可以智能調(diào)配RAN 切片資源,解決業(yè)務(wù)需求高動態(tài)對服務(wù)質(zhì)量帶來的影響。文獻[13]提出了基于交叉熵的蒙特卡羅樹搜索-快速動作價值估計算法來設(shè)計智能切片資源分配方案,此方案不需要任何動態(tài)數(shù)據(jù)流相關(guān)的先驗知識。為權(quán)衡車聯(lián)網(wǎng)中視頻流傳輸質(zhì)量與資源消耗代價,文獻[14]提出了一種新穎的RAN 切片資源分配和視頻質(zhì)量選擇聯(lián)合優(yōu)化算法。文獻[15]設(shè)計了一種基于深度確定性策略梯度的動態(tài)RAN 切片方案,其獎勵由車到車(V2V,vehicle-to-vehicle)用戶的效用總和與QoS 度量組成。綜上所述,現(xiàn)有工作大多側(cè)重于RAN 切片分配通信和計算資源,很少考慮將緩存策略視為切片資源分配的一個因素,由于無線資源分配和緩存放置之間的密切關(guān)系,將緩存策略和資源分配聯(lián)合考慮至關(guān)重要。但是由于緩存內(nèi)容更新產(chǎn)生的高傳輸代價導致緩存決策不可能頻繁執(zhí)行,這與無線資源分配需要在每個時隙內(nèi)快速決策的特點不同,因此需要考慮兩類決策時間尺度的差異。此外,車聯(lián)網(wǎng)運行在高動態(tài)環(huán)境中,車載服務(wù)請求在時空域隨機到達,未來網(wǎng)絡(luò)狀態(tài)難以預(yù)測,這使長期穩(wěn)定的系統(tǒng)性能尤為重要。本文工作旨在對現(xiàn)有研究的上述缺陷進行一定程度的彌補。

本文考慮軟件定義車聯(lián)網(wǎng)中同時存在eMBB和URLLC 兩類RAN 切片,提出一種雙時間尺度的RAN 切片資源分配算法,本文主要貢獻如下。

1) 建立了軟件定義車聯(lián)網(wǎng)中URLLC 和eMBB的RAN 切片緩存、頻譜、功率資源分配優(yōu)化問題。最大化長期累積時間下的URLLC 切片用戶的平均時延,并滿足eMBB 切片用戶最小速率約束、V2V鏈路可靠性約束、節(jié)點最大功率約束、資源塊(RB,resource block)約束等。該問題是一個非凸、非線性、多變量耦合的NP-hard 問題,很難直接獲得解析解。

2) 提出了一種雙時間尺度求解算法。將原NP-hard 問題轉(zhuǎn)換為2 個子問題:大時間尺度內(nèi)用戶關(guān)聯(lián)和緩存放置子問題、小時間尺度內(nèi)RB 分配和復用子問題。針對第一個子問題,基于拉格朗日對偶原理將其分解,并基于匈牙利算法、線性整數(shù)規(guī)劃方法獲得最優(yōu)解;針對第二個子問題,基于DDQN 算法求解。

3) 開展了廣泛的仿真驗證。仿真結(jié)果表明,所提資源分配算法在保證不同切片用戶QoS 需求和提高頻譜利用率方面優(yōu)于傳統(tǒng)算法,驗證了本文算法的有效性。

1 系統(tǒng)模型

1.1 場景描述

本文考慮一個基站(BS,base station)覆蓋的道路區(qū)域,其中部署了若干個路邊單元(RSU,road side unit),RSU 功率較低,覆蓋范圍有限。在此區(qū)域內(nèi)的車輛用戶根據(jù)業(yè)務(wù)需求連接到BS 或RSU,組成如圖1 所示的基于網(wǎng)絡(luò)切片的車聯(lián)網(wǎng)。其包含三類鏈路:BS 到車輛(B2V,BS-to-vehicle)下行鏈路、RSU 到車輛(R2V,RSU-to-vehicle)下行鏈路以及V2V 鏈路。

圖1 基于網(wǎng)絡(luò)切片的車聯(lián)網(wǎng)架構(gòu)

設(shè)該車聯(lián)網(wǎng)架構(gòu)中具有N個RSU,其集合表示為N={1,2,…,N},K個具有eMBB 切片需求的車輛用戶B2V-eUE 通過高容量的B2V 鏈路傳輸數(shù)據(jù),U個具有URLLC 切片需求的車輛用戶R2V-uUE 通過低時延的R2V 鏈路傳輸數(shù)據(jù),M對具有URLLC切片需求的車輛用戶V2V-uUE 通過V2V 鏈路交換數(shù)據(jù)。K={1,2,…,K}、U={K+1,K+2,…,K+U}、M={1,2,…,M}分別表示B2V-eUE、R2V-uUE 和V2V-uUE 三類用戶的集合。需要注意的是,對于V2V-uUE 成對計入,即集合M中的第m個元素表示第m個V2V-uUE 用戶對。B2V-eUE 和R2V-uUE 下行用戶集合表示為Q=K∪U={1,2,…,Q},Q=K+U。假設(shè)內(nèi)容服務(wù)器中共有F個用戶感興趣的內(nèi)容文件,其集合表示為F={1,2,…,F},第f個文件的大小為Cf。如果某個R2V-uUE 用戶請求的文件緩存在某個RSU 中,則直接從該RSU 獲取其請求的文件,否則需要向BS 請求該文件。在時分雙工(TDD,time division duplexing)-正交頻分復用(OFDM,orthogonal frequency-division multiplexing)技術(shù)支持下的5G 網(wǎng)絡(luò)通信系統(tǒng)中,在頻域中以12個子載波為一組進行調(diào)度,子載波組稱為新空口(NR,new radio)RB。RB 帶寬取決于子載波間隔。假設(shè)系統(tǒng)只能將一個RB 分配給集合Q中的一個下行用戶B2V-eUE 或者R2V-uUE,S={1,2,…,S}表示系統(tǒng)中的RB 集合。為了提高頻譜利用效率,V2V-uUE 用戶對復用了正交分配給B2V-eUE 或者R2V-uUE 的下行頻譜。

1.2 系統(tǒng)模型

1.2.1 通信模型

考慮信道衰落,當占用第s個RB 時,BS 到第k個B2V-eUE 的信道增益為

其中,hk,s是快速衰落分量,αk,s是路徑損耗和陰影衰落分量。

類似地,占用第s個RB 時,第n個RSU 到第u個R2V-uUE 的信道增益為gn,u,s。對于第m個V2V-uUE 用戶對,當其復用第q個下行用戶(B2V-eUE 或者R2V-uUE)占用的RB 時,其信道增益為gm,q,且其對第q個用戶帶來的干擾為g~m,q,第q個B2V-eUE 對第m個V2V-uUE 帶來的干擾為。假設(shè)基站作為該系統(tǒng)的決策控制器可以實時獲得所有鏈路的信道狀態(tài)信息。

定義ρm,q∈{0,1}為一個二進制變量,表示第m個V2V-uUE 對是(ρm,q=1)否(ρm,q=0)復用第q個用戶的頻譜。因此頻譜復用配對策略矩陣可以表示為

第k個B2V-eUE 占用第s個RB 時接收的瞬時信噪比(SINR,signal noise ratio)為

第k個B2V-eUE 占用第s個RB 時可達到的傳輸數(shù)據(jù)速率由香農(nóng)方程計算,即

定義δq,s∈{0,1}為二進制變量,表示是(δq,s=1)否(δq,s=0)將第s個RB 分配給第q個用戶。因此,頻譜分配策略集合可表示為

第k個B2V-eUE 可達到的傳輸數(shù)據(jù)速率為

第u個R2V-uUE 與第n個RSU 連接所接收到的瞬時下行SINR 為

第u個R2V-uUE 與第n個RSU 連接可達到的傳輸數(shù)據(jù)速率為

定義αn,u∈{0,1}為一個二進制變量,表示第u個R2V-uUE 是(αn,u=1)否(αn,u=0)與第n個RSU建立連接。因此,R2V-uUE 與RSU 的關(guān)聯(lián)策略矩陣為

第u個R2V-uUE 可達到的傳輸數(shù)據(jù)速率為

當?shù)趍個V2V-uUE 對共享第q個下行用戶的RB 時,第m個V2V-uUE 的SINR 為

第m個V2V-uUE 對共享第q個下行用戶的RB可達到的傳輸數(shù)據(jù)速率為

第m個V2V-uUE 的傳輸數(shù)據(jù)速率為

1.2.2 緩存模型

定義βf,n∈{0,1}為一個二進制變量,表示第f個文件是(βf,n=1)否(βf,n=0)緩存在第n個RSU中。因此,緩存放置策略矩陣為

同時,第u個R2V-uUE 用戶的文件請求偏好用請求概率Pu,f來表示,且滿足。如果關(guān)聯(lián)第n個RSU 的第u個R2V-uUE 請求的第f個文件緩存在此RSU中,則第u個R2V-uUE直接從該RSU獲取其請求的文件,其無線傳輸時延部分為

其中,Cf是第f個文件的大小。

如果文件未緩存在用戶關(guān)聯(lián)的RSU 中,則通過光纖鏈路從云服務(wù)器中獲取文件。除了無線傳輸時延,還需要考慮增加的光纖傳輸時延。為簡化起見,假設(shè)光纖傳輸時延為固定值LF,那么總時延為。

因此,關(guān)聯(lián)第n個RSU 的第u個R2V-uUE 請求的第f個文件的時延為

2 問題描述

2.1 切片QoS 需求

利用eMBB切片承載的車載應(yīng)用需要高數(shù)據(jù)傳輸速率,因此B2V 鏈路的數(shù)據(jù)傳輸速率需要滿足閾值,BS 到第k個B2V-eUE 的數(shù)據(jù)傳輸速率滿足

對于R2V-uUE 來說,其向RSU 或者云服務(wù)器請求的文件利用URLLC 切片承載,從系統(tǒng)最優(yōu)的角度來考慮,需要保證所有R2V-uUE 的平均時延最小化,R2V-uUE 平均時延為

對于V2V-uUE 來說,假設(shè)車輛之間交換短消息,一旦建立可靠鏈路,其傳輸時延可以保證。但是在車輛高速運動的過程中,需要保證V2V 鏈路的可靠性,即V2V 鏈路中斷概率小于閾值,第m個V2V-uUE 的中斷概率滿足

2.2 聯(lián)合優(yōu)化問題描述

為了優(yōu)化兩類切片中用戶不同的性能指標,一種常見的方法是將多個指標組合成一個統(tǒng)一的優(yōu)化目標,例如定義系統(tǒng)數(shù)據(jù)傳輸速率與能耗比率為能量效率[16],定義系統(tǒng)數(shù)據(jù)傳輸速率與通信信道帶寬比率為頻譜效率[17]。但是,目前速率與時延的比率尚未定義,沒有實際意義。因此,本文優(yōu)化R2V-uUE 的URLLC切片的時延性能,同時保證B2V-mUE 的eMBB 切片傳輸速率需求和V2V-uUE 的URLLC 切片鏈路可靠性需求。本文提出了一個聯(lián)合頻譜資源分配及復用、緩存內(nèi)容放置及R2V-uUE 用戶關(guān)聯(lián)的優(yōu)化問題,以最小化在URLLC切片中R2V-uUE的長期累積平均時延,同時OFDMA 載波正交性、載波允許復用數(shù)量、用戶接入容量、用戶最大發(fā)射功率、緩存容量以及不同用戶QoS 需求(即B2V-mUE 的數(shù)據(jù)傳輸速率和V2V-uUE 的鏈路可靠性)被視為約束。令ρ={ρm,q:為頻譜復用關(guān)聯(lián)矩陣、RB 分配矩陣、R2V-uUE 與RSU關(guān)聯(lián)矩陣、RSU 中文件緩存狀態(tài)矩陣和V2V-uUE 發(fā)射功率矩陣。該問題可以表示為

其中,優(yōu)化目標是最小化URLLC 切片中R2V-uUE的平均時延。約束式(21a)限制 eMBB 切片中B2V-eUE 的數(shù)據(jù)傳輸速率不低于閾值;約束式(21b)限制URLLC 切片中V2V-uUE 的鏈路中斷概率不大于閾值;約束式(21c)限制RSU 中緩存的所有文件大小不超過其緩存空間;約束式(21d)限制每個V2V-uUE 必須且只能復用一個 B2V-eUE 或者R2V-uUE 的RB;約束式(21e)限制一個B2V-eUE 或者R2V-uUE 的RB 最多提供給一個V2V-uUE 復用;約束式(21f)限制必須且只能給每個B2V-eUE 和R2V-uUE 分配一個RB;約束式(21g)限制每個RB 最多分配給一個B2V-eUE 或者R2V-uUE;約束式(21h)限制每個R2V-uUE 必須且只能關(guān)聯(lián)一個RSU;約束式(21i)限制每個RSU 最多接入的R2V-uUE 數(shù)量;約束式(21j)限制V2V-uUE 的最大功率不超過閾值PV;約束式(21k)~式(21n)為二進制變量約束。

優(yōu)化問題P1 是一個混合整數(shù)非線性組合優(yōu)化問題,是典型的NP-hard 問題。由于該網(wǎng)絡(luò)中有大量的內(nèi)容文件、車輛和RB,因此P1 無法在多項式時間內(nèi)解決。獲得最優(yōu)解的直接方法是將問題分解為多個子問題并進行窮舉搜索。然而,在這樣一個高度動態(tài)的車載網(wǎng)絡(luò)中,應(yīng)該實時做出優(yōu)化決策。

3 雙時間尺度資源分配算法

為了解決P1 的計算復雜性,本節(jié)提出了一種有效的雙時間尺度資源分配算法來優(yōu)化網(wǎng)絡(luò)切片的子載波分配、用戶關(guān)聯(lián)和緩存放置。假設(shè)網(wǎng)絡(luò)系統(tǒng)在一個時間窗口上工作,該時間窗口被劃分為由t∈T={1,2,…,T}表示的離散時隙。假設(shè)基站作為該系統(tǒng)的決策控制器,其在每個時間窗開始進行用戶關(guān)聯(lián)和緩存放置決策,在每個時隙開始時為發(fā)送數(shù)據(jù)傳輸請求的車輛用戶分配(包括復用匹配)RB 和功率。

3.1 大時間尺度內(nèi)用戶關(guān)聯(lián)和緩存放置決策

基于給定的RB 分配和復用策略,P1 目標函數(shù)中的傳輸速率Rn,u變?yōu)橐阎?,記作,P1 簡化為只包含用戶關(guān)聯(lián)和緩存放置策略的優(yōu)化問題P2,即

由于存在αn,u與βf,n這2 個變量相乘項,P2 為整數(shù)非線性規(guī)劃問題,利用McCormick 包絡(luò)將該問題松弛。定義χf,n,u=α n,uβf,n并引入上述目標函數(shù),可將P2 轉(zhuǎn)化為P3。

為了簡化P3 的約束,本文利用拉格朗日松弛乘子法轉(zhuǎn)換該問題。定義拉格朗日乘子φf,n,u,γf,n,u,ηf,n,u≥ 0,拉格朗日函數(shù)表示為

因此,P3 可以轉(zhuǎn)化為P4。

分解后,聯(lián)合優(yōu)化問題變成了單獨的優(yōu)化問題。子問題P4_1 是一個典型的賦值問題,可以用匈牙利算法解決。子問題P4_2 和P4_3 都是線性整數(shù)優(yōu)化問題,可以用線性整數(shù)規(guī)劃方法求解。

3.2 小時間尺度內(nèi)RB 分配和功率控制決策

在大時間尺度內(nèi)進行用戶關(guān)聯(lián)和緩存放置決策后,優(yōu)化問題P1 可以簡化為RB 分配和功率控制問題,在每個小時間尺度-時隙內(nèi)求解。優(yōu)化問題為

不考慮上述優(yōu)化問題目標函數(shù)中的固定值,P5等價于

本文提出了一種基于多智能體DDQN 的RB 分配和功率控制算法,并對算法在訓練階段和推理階段的執(zhí)行流程和工作方式分別進行了介紹。該算法能夠?qū)W習用戶所處的狀態(tài),做出最佳的決策,使一個時間窗內(nèi)所有R2V-uUE 的累積傳輸速率和最高,同時保證B2V-eUE 和V2V-uUE 的QoS 需求。由于時間相關(guān)特性,決策被建模為馬爾可夫決策過程。

3.2.1 馬爾可夫決策過程

在馬爾可夫決策過程中,在每個時隙t,智能體通過識別當前狀態(tài)來感知環(huán)境,然后選擇一個動作并在環(huán)境中執(zhí)行。隨后環(huán)境回應(yīng)智能體的動作at,反饋回獎勵,同時以概率過渡到下一個狀態(tài)。

1) 狀態(tài)空間

因此,第t個時隙網(wǎng)絡(luò)狀態(tài)集合可表示為

2) 動作空間

車聯(lián)網(wǎng)切片資源調(diào)度歸結(jié)為頻譜RB 選擇和傳輸功率控制。系統(tǒng)中頻譜被分為S個不相交的RB,每個RB 都由一個B2V 或者R2V 鏈路占據(jù),同時每個V2V 鏈路采用一定的發(fā)射功率復用B2V 或者R2V 鏈路的RB。定義網(wǎng)絡(luò)中每個用戶為一個智能體,每個B2V-eUE 和R2V-uUE 在每個時隙采取的動作為RB 選擇,其動作空間維度為S。

V2V-uUE 在每個時隙采取的動作為RB 復用配對及發(fā)射功率選擇。為了簡化動作空間,本文將功率控制選項限制為4 個級別,即[23,10,5,-100]dBm。需要注意的是,-100 dBm 意味著發(fā)射功率為0。因此,動作空間的維度為4×S,每個動作對應(yīng)于RB分配選擇和功率選擇組合。

3) 獎勵

智能體通過未來一段時間內(nèi)獎勵的期望值來表示對當前狀態(tài)下執(zhí)行該動作的滿意程度??紤]到P5的優(yōu)化目標為最大化R2V-uUE的平均傳輸速率,定義獎勵rt=r(,at)為用戶在狀態(tài)下采取行動at時所獲得的R2V-uUE 的平均傳輸速率,這有利于實現(xiàn)優(yōu)化目標。本文使那些導致更高能源效率的行動獲得更高的相應(yīng)獎勵。此外,還需要考慮約束條件式(21a)和式(21b)。為了保證用戶的公平性,對不能滿足B2V-eUE 最低通信速率和B2V-uUE 最低鏈路可靠性要求的動作進行懲罰。因此,設(shè)定獎勵函數(shù)包含兩部分,一是對R2V-uUE 平均傳輸速率的貢獻,二是當傳輸速率和鏈路可靠性不能滿足用戶需求時的懲罰。用戶在第t個時隙獲得的獎勵為

其中,w1為貢獻對應(yīng)的權(quán)重,w2和w3為2 個懲罰對應(yīng)的權(quán)重;ξ(·) 為一個函數(shù),且當·為真時,ξ(·) =1。

3.2.2 基于DDQN 的RB 分配和功率控制

根據(jù)上述定義,便可基于多智能體DDQN 實現(xiàn)車輛用戶分配RB 和功率的決策。在多智能體DDQN算法中,智能體將每一步的狀態(tài)、功率分配決策、網(wǎng)絡(luò)能量效率獎勵和下一狀態(tài)作為經(jīng)驗存儲到經(jīng)驗重放器。在每次的迭代訓練中,神經(jīng)網(wǎng)絡(luò)從經(jīng)驗重放器中隨機選擇一部分樣本來訓練。多智能體DDQN 使用損失函數(shù)評估其性能,并采用反向傳播算法實現(xiàn)目標Q 網(wǎng)絡(luò)和原Q 網(wǎng)絡(luò)權(quán)值的更新。

多智能體DDQN 算法通過值函數(shù)來評價當前資源分配策略的好壞,其中,值函數(shù)表示智能體在某個狀態(tài)下執(zhí)行某個分配決策獲得的長期回報。在策略π下,智能體的動作值函數(shù)為

其中,θ為DDQN 網(wǎng)絡(luò)參數(shù),E[]為期望運算。

首先,在當前Q 網(wǎng)絡(luò)中找到最大Q值對應(yīng)的動作,表示為amax,如式(34)所示。

然后,利用amax計算目標Q 網(wǎng)絡(luò)的Q值,如式(35)所示。

其中,yt是目標網(wǎng)絡(luò)的Q值。

將式(34)代入式(35),結(jié)果如式(36)所示。

DDQN 的損失函數(shù)為

DDQN 采用隨機梯度下降法訓練θ,最終得到最優(yōu)的θ,以逼近動作價值函數(shù)。其中,參數(shù)θ的更新式為

其中,η是學習率。

綜上所述,本文所提的雙時間尺度智能資源分配算法流程如算法1 所示。

算法1雙時間尺度智能資源分配算法

4 仿真與結(jié)果分析

4.1 仿真場景

本文設(shè)計了雙時間尺度RAN 切片資源智能分配算法,該算法融合匈牙利算法、線性整數(shù)規(guī)劃方法和DDQN 算法,在滿足eMBB 切片用戶最小傳輸速率需求和V2V 鏈路可靠性的前提下,最小化URLLC 切片用戶的平均傳輸速率。本節(jié)使用Python語言基于開源深度學習平臺TensorFlow 對本文算法進行仿真和性能驗證。

默認情況下,本文考慮一個包含一個基站、5 個B2V-eUE、5個RSU、12個R2V-uUE和2個V2V-uUE的車聯(lián)網(wǎng)系統(tǒng),系統(tǒng)中可分配的RB 數(shù)量為20,每個RB 的帶寬為15 kHz。為了驗證算法性能,本文調(diào)節(jié)網(wǎng)絡(luò)規(guī)模、網(wǎng)絡(luò)中各節(jié)點和RB 數(shù)量。實驗中共傳輸10 個文件,每個文件的大小為 1 kbit。每個RSU 可以緩存3 個文件。前傳時延為0.5 s。智能體DDQN 由3 個完全連接的隱藏層組成,分別包含500、250、120 個神經(jīng)元。采用ReLU 為激活函數(shù),RMSProp 優(yōu)化器以0.01 的學習率更新網(wǎng)絡(luò)參數(shù)。訓練探索率從0.4 下降到0.001,然后保持不變。具體參數(shù)設(shè)置如表1 所示。

表1 仿真參數(shù)設(shè)置

為驗證本文所提的雙時間尺度資源分配算法的性能,將其與以下3 種算法進行對比。

1) 隨機算法,在滿足約束的情況下隨機進行緩存、頻譜和功率資源分配。

2) 貪婪算法,當前狀態(tài)下最好或最優(yōu)(即最有利)的選擇。

3) 基于Q-Learning 的雙時間尺度算法,即在大時間尺度內(nèi)與本文所提算法相同,采用基于匈牙利算法、線性整數(shù)規(guī)劃方法求解;在小時間尺度內(nèi)則基于Q-Learning 算法進行頻譜和功率資源的分配。

4.2 仿真結(jié)果與分析

損失函數(shù)值隨訓練迭代次數(shù)的變化如圖2 所示,展現(xiàn)了本文所提的小時間尺度下基于DDQN通信資源分配算法的收斂過程。從圖2 中可以看出,隨著訓練迭代次數(shù)的增加,損失函數(shù)值不斷減小,當訓練迭代次數(shù)達到400 時,損失函數(shù)值已經(jīng)收斂到0.5 左右;當訓練迭代次數(shù)達到2 000 時,損失函數(shù)值已經(jīng)達到0.17?;诖?,在接下來評估算法性能時,本文將DDQN 模型訓練了2 000 次,以保障其收斂性。

圖2 損失函數(shù)值隨訓練迭代次數(shù)的變化

圖3為4種不同的切片資源分配算法下R2V-uUE平均時延隨R2V-uUE 數(shù)量的變化曲線。從圖3 可以看出,4 種分配算法的R2V-uUE 平均時延都隨R2V-uUE 數(shù)量的增加而增加。其中,隨機算法曲線具有更大的波動性,網(wǎng)絡(luò)性能不穩(wěn)定。貪婪算法和基于Q-Learning 的雙時間尺度算法在網(wǎng)絡(luò)規(guī)模較?。淳W(wǎng)絡(luò)中R2V-uUE 數(shù)量較少)時與本文所提算法表現(xiàn)相當。但是,隨著網(wǎng)絡(luò)中R2V-uUE 數(shù)量的增加,本文所提算法的平均時延低于其他3 種算法。基于DDQN的算法解決了Q-Learning 中的維數(shù)災(zāi)難問題并克服了DQN 中Q 值過估計的缺點,可以通過學習得到適用于環(huán)境的資源分配策略,實現(xiàn)最小化R2V-uUE 平均時延的目標。

圖3 R2V-uUE 平均時延隨R2V-uUE 數(shù)量的變化

圖 4 為 4 種不同的切片資源分配算法下R2V-uUE 平均時延隨V2V-uUE 對數(shù)的變化曲線。從圖4 可以看出,4 種分配算法的R2V-uUE 平均時延都隨V2V-uUE 對數(shù)的增加而增加。這是由于過多的V2V-uUE 用戶對復用R2V-uUE 的頻譜對其R2V 鏈路的傳輸速率產(chǎn)生了影響。但是本文所提算法最大限度地克服了這種影響。

圖4 R2V-uUE 平均時延隨V2V-uUE 對數(shù)的變化

不同RSU 緩存容量下R2V-uUE 平均時延隨系統(tǒng)文件數(shù)量的變化如圖5 所示。從圖5 可以看出,平均時延會隨著RSU 緩存容量的增加而減少。但當文件總數(shù)遠大于容量時,下降趨勢不明顯。由于RSU 具有緩存能力,R2V-uUE 可以直接從關(guān)聯(lián)的RSU 獲取緩存文件,而沒有前傳時延。

圖5 R2V-uUE 平均時延隨系統(tǒng)文件數(shù)量的變化

本文所提算法下用戶滿意度隨RB 數(shù)量的變化如圖6 所示。從圖6 可以看出,系統(tǒng)采用相同RB 數(shù)量的前提下,允許頻譜共享具有更高的用戶滿意度,從而容納更多用戶,提高了頻譜資源利用率。

5 結(jié)束語

針對軟件定義多模態(tài)車聯(lián)網(wǎng),本文設(shè)計了雙時間尺度RAN 切片資源緩存、頻譜、功率智能分配算法。該算法在大時間尺度內(nèi)基于匈牙利算法、線性整數(shù)規(guī)劃方法解決用戶關(guān)聯(lián)和緩存放置決策子問題,在小時間尺度內(nèi)基于DDQN 算法解決RB 分配和功率控制子問題。在滿足eMBB 切片用戶最小傳輸速率需求和V2V 鏈路可靠性的前提下,算法通過不斷學習車輛用戶信道狀態(tài)變化,最終最小化URLLC 切片用戶的平均傳輸速率。仿真結(jié)果表明,本文所提算法在保證不同切片用戶QoS 需求和提高頻譜利用率方面優(yōu)于傳統(tǒng)算法。

猜你喜歡
時間尺度資源分配傳輸速率
時間尺度上非完整系統(tǒng)的Noether準對稱性與守恒量
時間尺度上Lagrange 系統(tǒng)的Hojman 守恒量1)
力學學報(2021年10期)2021-12-02 02:32:04
交直流混合微電網(wǎng)多時間尺度協(xié)同控制
能源工程(2021年1期)2021-04-13 02:06:12
新研究揭示新冠疫情對資源分配的影響 精讀
英語文摘(2020年10期)2020-11-26 08:12:20
一種基于價格競爭的D2D通信資源分配算法
跨山通信中頻段選擇與傳輸速率的分析
黑龍江電力(2017年1期)2017-05-17 04:25:16
大連市暴雨多時間尺度研究分析
數(shù)據(jù)傳輸速率
CHIP新電腦(2016年9期)2016-09-21 10:31:09
新一代全球衛(wèi)星通信網(wǎng)絡(luò)將百倍提升傳輸速率
新一代全球衛(wèi)星通信網(wǎng)絡(luò)將百倍提升傳輸速率
清远市| 朝阳市| 焦作市| 涪陵区| 汉川市| 北京市| 天等县| 穆棱市| 富蕴县| 樟树市| 健康| 舞钢市| 大理市| 香河县| 双牌县| 兴国县| 邵武市| 德兴市| 安福县| 开封市| 平阴县| 曲沃县| 交城县| 襄垣县| 大同县| 文化| 漳浦县| 策勒县| 巢湖市| 那曲县| 辉县市| 哈密市| 丹巴县| 汉沽区| 神农架林区| 张家港市| 若尔盖县| 孟村| 庆安县| 乐清市| 泊头市|