国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的無線資源分配算法

2023-10-27 00:50:27張珍鳳李芳
現(xiàn)代信息科技 2023年17期
關(guān)鍵詞:資源分配

張珍鳳 李芳

摘? 要:為了在有限的無線資源條件下提供更高的信息傳輸速率,第五代移動(dòng)通信(5G)引入多種高效的頻譜復(fù)用技術(shù),如終端直通技術(shù)(Device-to-Device, D2D)和非正交多址技術(shù)(Non-orthogonal Multiple Access Technology, NOMA)等。針對(duì)D2D網(wǎng)絡(luò),提出一種無監(jiān)督的基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)的信道和功率分配算法,解決了D2D用戶信息傳輸速率最大化的問題。文章將該問題分解為信道分配和功率分配兩個(gè)子問題,并分別用深度強(qiáng)化學(xué)習(xí)算法獲得較優(yōu)的信道和功率分配策略。實(shí)驗(yàn)仿真結(jié)果表明,基于DRL的資源分配算法相比傳統(tǒng)的優(yōu)化算法,具有較低的時(shí)間復(fù)雜度以及更好的實(shí)驗(yàn)性能,更加適用于動(dòng)態(tài)無線網(wǎng)絡(luò)中的資源管理。

關(guān)鍵詞:D2D網(wǎng)絡(luò);資源分配;深度強(qiáng)化學(xué)習(xí)

中圖分類號(hào):TN929.5;TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2023)17-0008-07

Wireless Resource Allocation Algorithm Based on Deep Reinforcement Learning

ZHANG Zhenfeng, LI Fang

(Shanxi Institute of Energy, Taiyuan? 030600, China)

Abstract: In order to provide higher information transmission rates under limited wireless resource conditions, a variety of efficient spectrum reuse technologies are introduced in the 5th Generation Mobile Communication (5G), such as Device-to-Device (D2D) and Non-orthogonal Multiple Access Technology (NOMA), etc. An unsupervised channel and power distribution algorithm based on Deep Reinforcement Learning (DRL) is proposed for D2D networks, which can solve the problem of maximizing the information transmission rate of D2D users. In this paper, the problem is divided into two sub-problems, channel allocation and power, and the better channel allocation strategy and power allocation strategy are obtained by deep reinforcement learning algorithm. Experimental simulation results show that the resource allocation algorithm based on DRL has lower time complexity and better experimental performance than the traditional optimization algorithm, and is more suitable for resource management in dynamic wireless networks.

Keywords: D2D network; resource allocation; deep reinforcement learning

0? 引? 言

在無線通信網(wǎng)絡(luò)中,資源管理問題普遍存在。在不確定的、隨機(jī)的和大規(guī)模的機(jī)器設(shè)備互聯(lián)的情況下,使用已有的啟發(fā)式算法或技術(shù)對(duì)資源進(jìn)行管理時(shí),計(jì)算復(fù)雜度會(huì)呈指數(shù)級(jí)增長,管理難度相應(yīng)增加[1]。因此,在優(yōu)化理論上亟須開發(fā)一些更加高效的算法來獲得最優(yōu)或次優(yōu)的解決方案。新型的人工智能算法不斷涌現(xiàn)出來,如強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等。其中強(qiáng)化學(xué)習(xí)算法已通過數(shù)學(xué)理論進(jìn)行了推導(dǎo)和驗(yàn)證,但是在實(shí)際應(yīng)用中,強(qiáng)化學(xué)習(xí)中智能體需對(duì)整個(gè)狀態(tài)空間反復(fù)探索才能做出最佳策略,其收斂速度較慢。而深度學(xué)習(xí)技術(shù)作為機(jī)器學(xué)習(xí)中的一個(gè)子領(lǐng)域,它可以設(shè)計(jì)靈活和可擴(kuò)展的算法,優(yōu)化較大數(shù)據(jù)集上的復(fù)雜性能。于是,學(xué)者們把深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合,提出了一種新的算法——深度強(qiáng)化學(xué)習(xí)。該方法可以在未知的環(huán)境中進(jìn)行學(xué)習(xí),與監(jiān)督學(xué)習(xí)不同的是該算法提前沒有可學(xué)習(xí)的樣本,需要根據(jù)自己的經(jīng)驗(yàn)和不斷探索去學(xué)習(xí)。

最近,無監(jiān)督的基于深度強(qiáng)化學(xué)習(xí)(DRL)在許多領(lǐng)域得到了應(yīng)用。文獻(xiàn)[2]是直接使用初始化狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入來學(xué)習(xí)復(fù)雜任務(wù)的策略。在文獻(xiàn)[3-8]中,基于模型的強(qiáng)化學(xué)習(xí)則是在監(jiān)督學(xué)習(xí)的幫助下學(xué)習(xí)系統(tǒng)的模型,并在該模型下優(yōu)化策略。文獻(xiàn)[6]提出將基于模型的深度學(xué)習(xí)引入到無模型的深度強(qiáng)化學(xué)習(xí)中,在保持無模型的學(xué)習(xí)優(yōu)勢下,極大地提高學(xué)習(xí)的速度。這種無模型的深度強(qiáng)化學(xué)習(xí)中,典型的方法有深度Q學(xué)習(xí),其中的深度神經(jīng)網(wǎng)絡(luò)用于逼近一些復(fù)雜的函數(shù),以此特性來解決很多復(fù)雜的資源分配問題,而且深度Q學(xué)習(xí)也可以滿足大規(guī)模計(jì)算的要求。在這種深度強(qiáng)化學(xué)習(xí)算法中,既有傳統(tǒng)強(qiáng)化學(xué)習(xí)的無模型優(yōu)化功能,又可以利用深度神經(jīng)網(wǎng)絡(luò)用于近似解決大型問題的策略或價(jià)值函數(shù),克服傳統(tǒng)的表格強(qiáng)化學(xué)習(xí)方法的固有可伸縮性。這種新算法在一些決策領(lǐng)域已經(jīng)取得了很大的進(jìn)展,這也為解決無線資源管理的問題提供了一種全新的思路和方向。因此,本文利用深度強(qiáng)化學(xué)習(xí)的這些特點(diǎn)和優(yōu)勢,提出了一種基于深度強(qiáng)化學(xué)習(xí)的資源分配算法。

1? 系統(tǒng)模型和問題形成

圖1是一個(gè)分布式的D2D(Device-to-Device)網(wǎng)絡(luò),假設(shè)該網(wǎng)絡(luò)中有M對(duì)D2D通信用戶,每對(duì)D2D用戶包含一個(gè)發(fā)射端和一個(gè)接收端。為了發(fā)送數(shù)據(jù),每對(duì)D2D用戶將從K個(gè)正交信道中選擇一個(gè)信道,每個(gè)信道的帶寬為B0?;诮K端直通技術(shù)中的頻譜復(fù)用技術(shù),一個(gè)信道可以被一個(gè)以上的用戶占用,但是當(dāng)兩個(gè)以上的用戶同時(shí)使用同一信道時(shí)會(huì)發(fā)生干擾。下文將對(duì)用戶數(shù)多于信道(M≥K)時(shí),為用戶分配信道和功率問題進(jìn)行研究。

目標(biāo)函數(shù)式(10)表示該問題的目標(biāo)是最大化整體效用,這取決于每個(gè)用戶的可達(dá)到用戶信息速率,即(R1, R2, …, RM)和 。此外,約束式(11)和(12)分別指定每個(gè)用戶的可用信道和功率。

上述問題是一個(gè)整數(shù)規(guī)劃問題,且很難解決。另外,由于在該D2D網(wǎng)絡(luò)中沒有中心控制單元來控制用戶,因此需要設(shè)計(jì)一種合理的算法以獲得P的最優(yōu)解。

2? 基于深度強(qiáng)化學(xué)習(xí)的資源分配算法

由于D2D通信網(wǎng)絡(luò)環(huán)境實(shí)時(shí)變化,智能資源分配算法會(huì)針對(duì)不同的環(huán)境狀態(tài)來做出最有利的決策。本小節(jié)提出了一種基于深度強(qiáng)化學(xué)習(xí)框架的資源分配算法,以最大程度的用戶效用函數(shù)并以自適應(yīng)方式平衡資源分配。在此算法中,通過用戶之間的位置計(jì)算每個(gè)用戶對(duì)之間的距離,然后利用自由空間路徑損耗公式計(jì)算大尺度的衰落,再結(jié)合小尺度的衰落特性將它們進(jìn)行疊加,得到D2D用戶之間的信道增益。在確定每個(gè)用戶之間的信道信息后,本文利用下面提出的DRL算法為每個(gè)用戶分配合適的信道和功率資源,圖2是基于DRL的資源分配算法架構(gòu)。

算法1是基于DRL的信道分配算法,算法2是基于DRL的功率分配算法,兩者有3個(gè)共同的關(guān)鍵元素,即狀態(tài)st、動(dòng)作at和獎(jiǎng)勵(lì)ut。在算法1和算法2中,狀態(tài)st表示信道狀態(tài)信息,即在不同的D2D網(wǎng)絡(luò)環(huán)境下M個(gè)用戶的信道增益信息,用矩陣? 表示。在算法1中,動(dòng)作at表示信道分配策略,即最終M個(gè)用戶對(duì)K個(gè)信道的占用情況,用信道分配矩陣CM×K表示;而在算法2中動(dòng)作at表示功率控制信息,即M個(gè)用戶最終的功率分配情況,用矩陣PM表示;獎(jiǎng)勵(lì)ut表示在信道策略和功率分配好后,D2D網(wǎng)絡(luò)中所有用戶的效用。

在基于DRL的信道分配的算法1中,首先,在t時(shí)假定用戶不再變化的網(wǎng)絡(luò)環(huán)境(用戶之間的位置關(guān)系)作為一個(gè)當(dāng)前的通信場景,并且為此時(shí)的通信用戶設(shè)備分配相應(yīng)的信道和功率資源。根據(jù)用戶間的通信狀態(tài)以及所處的位置,得到信道增益矩陣 。然后,通過對(duì)策略深度神經(jīng)網(wǎng)絡(luò)π參數(shù)w進(jìn)行隨機(jī)初始化,把信道增益矩陣轉(zhuǎn)化為一維矢量作為策略網(wǎng)絡(luò)的輸入,經(jīng)過激活函數(shù)為sigmoid的輸出層得到長度為M×K的一組cm, k ∈ (0,1)之間的隨機(jī)輸出值。然后,輸出層一維數(shù)據(jù)轉(zhuǎn)化為M×K的信道矩陣C。按照策略1中信道分配策略得到轉(zhuǎn)化為二進(jìn)制的信道分配解CM×K。然后,把狀態(tài)(信道增益)和此時(shí)的動(dòng)作(信道分配)代入效用函數(shù)得到獎(jiǎng)勵(lì)(效用)ut。在每個(gè)情景中,隔一定時(shí)間選擇一次最大效用函數(shù)對(duì)應(yīng)的信道分配策略,并把它作為標(biāo)簽去訓(xùn)練評(píng)價(jià)網(wǎng)絡(luò),得到參數(shù)w-。通過不斷迭代,直到由評(píng)價(jià)網(wǎng)絡(luò)得到的信道分配策略計(jì)算的效用函數(shù)值不再發(fā)生變化時(shí)停止迭代。此時(shí)用評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值w-去更新策略網(wǎng)絡(luò)的權(quán)值w。在這個(gè)過程中,w每步更新一次,w-每平穩(wěn)C步更新一次。把效用函數(shù)不再增加時(shí)的信道分配方案作為當(dāng)前通信場景下的最終的信道分配策略。

3? 基于分布式的效用傳輸控制算法

為了克服集中式求解算法需要已知全局信息時(shí)才能做出最優(yōu)決策的通信問題,本小節(jié)提出一種分布式的基于效用傳輸控制算法,以解決第2節(jié)中所示的P的解決方案。在本節(jié)的最后,將該算法與所提的基于深度強(qiáng)化學(xué)習(xí)算法性能進(jìn)行分析和比較。

在基于分布式的效用傳輸控制算法(Utility Transform Control, UTC)[9]設(shè)計(jì)時(shí),首先為每個(gè)D2D用戶定義兩個(gè)元素,分別是狀態(tài)描述和動(dòng)態(tài)的學(xué)習(xí)模型。其狀態(tài)描述是每個(gè)用戶可用的局部信息,學(xué)習(xí)模型指用戶做出決策的過程。用數(shù)學(xué)符號(hào)表示如下:

1)狀態(tài)描述用一個(gè)元組Lm(t)表示,它具體由三個(gè)元素表示Lm(t) = {sm(t),Um(t),am(t)},t表示決策時(shí)間t ∈ {1, 2, …},sm(t)表示t時(shí)刻用戶m的傳輸控制策略,Um(t)表示t時(shí)刻用戶m的效用函數(shù)值,am(t) ∈ {0,1}表示t時(shí)刻用戶m的滿意度。二進(jìn)制變量am(t) = 1時(shí)表示滿意,am(t) = 0時(shí)表示不滿意,a(m)的取值取決于效用函數(shù)Um(t)的大小。

2)動(dòng)態(tài)的學(xué)習(xí)模型:它表示用戶m的決策執(zhí)行過程,即對(duì)狀態(tài)描述中的元組Lm(t)中的三個(gè)元素sm(t)、Um(t)和am(t)在t時(shí)刻的更新。

圖3是基于分布式的UTC算法學(xué)習(xí)過程,其中狀態(tài)描述Lm(t)、控制策略概率分布Pm(t)和控制策略計(jì)數(shù)Vm相互之間的更新就構(gòu)成了一個(gè)學(xué)習(xí)過程。在開始時(shí)刻,各用戶隨機(jī)的選擇控制策略sm(0),然后根據(jù)用戶反饋的信息計(jì)算各自的效用函數(shù)值Um(0),效用函數(shù)值的大小決定了基站的滿意度am(0);之后,根據(jù)am(0)的取值,各用戶將更新策略的概率分布Pm(t);在下一輪的更新中,各用戶將根據(jù)Pm(1)來選擇相應(yīng)的控制策略sm(1)。以上過程重復(fù)執(zhí)行,直至滿足終止迭代條件為止。這樣就構(gòu)成了一個(gè)閉環(huán)的學(xué)習(xí)過程,在循環(huán)的過程中不斷更新Vm,經(jīng)過多輪的循環(huán)得到最終的控制策略 。

對(duì)于上述基于分布式的效用傳輸控制策略,它在多次迭代更新后,D2D網(wǎng)絡(luò)中用戶的和效用將不會(huì)隨用戶策略的變化有所提高。用數(shù)學(xué)公式表示為在策略空間? 中,有一個(gè)最優(yōu)的策略? 作為一個(gè)解,有:

其中, 表示除? 之外的策略集。雖然無法保證基于分布式的傳輸控制策略算法中最優(yōu)解的存在。但盡量使每一個(gè)用戶m在可選擇的策略中使效用值達(dá)到最大,公式表示如下:

此外,值得注意的是基于分布式的UTC算法是簡單且完全分布式的。特別地,當(dāng)每個(gè)用戶更新其狀態(tài)描述時(shí),它不需要其他用戶的任何先驗(yàn)信息,從而避免了較大的通信開銷。

4? 算法仿真結(jié)果

本次仿真實(shí)驗(yàn)中,在半徑為R的小區(qū)內(nèi)以隨機(jī)撒點(diǎn)的方式產(chǎn)生M對(duì)D2D用戶。本仿真采用自由空間路徑損耗以及獨(dú)立同分布的對(duì)數(shù)正態(tài)陰影衰落信道模型,該模型已經(jīng)根據(jù)信道測試經(jīng)驗(yàn)進(jìn)行了確認(rèn),可以準(zhǔn)確地模擬一些室外和室內(nèi)無線電傳播環(huán)境中接收功率的變化。此外,在基于分布式的效用傳輸控制算法仿真中,設(shè)置T = 500,隨機(jī)產(chǎn)生100組場景。為了評(píng)估所提出算法的性能,統(tǒng)計(jì)平均這100組場景下得到的D2D性能。在深度強(qiáng)化學(xué)習(xí)資源分配算法中,設(shè)置T = 500,先隨機(jī)產(chǎn)生100組場景,并在每一組下隨機(jī)產(chǎn)生100組策略網(wǎng)絡(luò)權(quán)值,即N = 500;評(píng)價(jià)網(wǎng)絡(luò)更新步長C設(shè)為5?;贒RL信道分配的策略和評(píng)價(jià)網(wǎng)絡(luò)輸出單元使用sigmoid(·)函數(shù),基于功率分配的策略和評(píng)價(jià)網(wǎng)絡(luò)輸出單元使用? 函數(shù),這個(gè)函數(shù)用來滿足用戶m的功率約束條件,其他仿真參數(shù)如表1所示。

為了簡化符號(hào),在第3小節(jié)中提出的基于深度強(qiáng)化學(xué)習(xí)信道和功率分配算法表示為CDRL-PDRL,在第4小節(jié)中提出的基于分布式的效用傳輸控制算法中,當(dāng)功率固定時(shí),信道可選擇的效用傳輸控制算法表示為CUTC;當(dāng)功率和信道都可選擇時(shí),效用傳輸控制算法表示為CUTC-PUTC。此外,將CDRL和CUTC與基準(zhǔn)算法(即CRAND)進(jìn)行比較,將CDRL-PDRL與CUTC-PUTC進(jìn)行比較,其具體解釋如下。

1)CDRL:在此算法中,信道分配通過無監(jiān)督的DRL算法得到。用戶的傳輸功率設(shè)為功率預(yù)算的最大值。通過與CUTC和CRAND進(jìn)行比較,旨在說明所基于DRL的信道分配算法的性能增益。

2)CUTC:在該算法中,信道分配策略是通過基于分布式的UTC算法獲得。但是,用戶的傳輸功率并未優(yōu)化,而是設(shè)置功率預(yù)算的最大值。通過與CDRL和CRAND進(jìn)行比較,旨在顯示所提基于UTC信道分配算法的性能增益。

3)CRAND:在此算法中,以最大傳輸功率在用戶之間隨機(jī)給用戶分配信道,把它作為參考基準(zhǔn),以評(píng)估所提出的優(yōu)化信道分配和功率控制策略算法性能的重要性。

4)CDRL-PDRL:在該算法中,利用DRL的信道分配算法得到信道分配策略,在此基礎(chǔ)上,繼續(xù)使用基于DRL的功率控制算法為用戶進(jìn)行功率分配。通過與CUTC-PUTC算法比較,旨在表明基于深度強(qiáng)化學(xué)習(xí)分配算法的性能。

5)CUTC-PUTC:在該算法中,功率和信道均可選擇,策略集是可選功率數(shù)和信道數(shù)的乘積。然后通過基于分布式的UTC算法為每個(gè)用戶選擇合適的策略。通過與CDRL-PDRL算法比較,旨在表明所提基于DRL分配算法的性能。

圖4顯示了D2D用戶的和效用與小區(qū)半徑的關(guān)系。從前面的效用函數(shù)定義中得知,當(dāng)用戶數(shù)是20時(shí),D2D網(wǎng)絡(luò)中用戶的和效用理論最優(yōu)值為20。從圖中可以看出隨小區(qū)半徑增加三種算法的D2D網(wǎng)絡(luò)中用戶的和效用變化呈上升趨勢且逐漸趨近于最優(yōu)解,這說明隨著小區(qū)半徑的增加,D2D用戶之間的干擾變小,從而D2D網(wǎng)絡(luò)用戶的滿意度逐漸增加。從該圖中也發(fā)現(xiàn),CDRL算法的性能優(yōu)于其他兩種算法,這驗(yàn)證了基于深度強(qiáng)化學(xué)習(xí)的信道分配算法具有較好的性能。

本次仿真中,基于深度強(qiáng)化學(xué)習(xí)算法中,DNN隱藏層單元數(shù)設(shè)置為20?;诜植际降男в脗鬏斂刂扑惴ㄖ?,當(dāng)?shù)螖?shù)達(dá)到500時(shí)從策略集中選擇策略。表2給出了不同小區(qū)半徑下四種算法,基于深度強(qiáng)化學(xué)習(xí)算法(CDRL)、基于分布式的效用傳輸控制算法(CUTC)分配信道、隨機(jī)信道分配算法(CRAND)和凸近似算法(Ccvx)的平均計(jì)算時(shí)間,并結(jié)合圖4中性能分析表明,深度強(qiáng)化學(xué)習(xí)信道分配算法可以用于設(shè)計(jì)有效的低復(fù)雜度的資源分配算法。

圖5顯示了D2D用戶的和效用與小區(qū)半徑的關(guān)系。在這個(gè)仿真中,用戶數(shù)設(shè)為20。在基于分布式的效用傳輸控制算法中,功率集為P = [0.5,0.8,1.0,1.2,1.5],信道數(shù)K設(shè)為5,可供選擇的策略有25個(gè)。每個(gè)用戶基于效用傳輸控制算法選擇策略進(jìn)行信息傳輸。先基于DRL的信道分配算法得到信道策略,在此基礎(chǔ)上,采用基于DRL的功率控制算法得到傳輸功率,在PDRL算法中策略網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)的輸出神經(jīng)元函數(shù)設(shè)為P = min(max(0.5,x),1.5)。從圖中可以看出隨小區(qū)半徑增加CDRL-PDRL和CUTC-PUTC算法的D2D網(wǎng)絡(luò)中用戶的和效用變化呈上升趨勢,且CDRL-PDRL算法性能明顯優(yōu)于CUTC-PUTC算法。這驗(yàn)證了基于深度強(qiáng)化學(xué)習(xí)的功率分配算法具有較好的性能。

圖6顯示了在小區(qū)半徑為R = 1 000 m時(shí),隨著D2D網(wǎng)絡(luò)中用戶數(shù)增加D2D用戶和速率的變化情況。該圖表明所有算法的總數(shù)據(jù)速率都隨著用戶數(shù)的增加而增加。此外,從圖中可以發(fā)現(xiàn)CDRL、CUTC和CRAND三種算法在中D2D用戶的和速率方面性能相差較小。但CDRL和CUTC算法要好于CRAND算法,這驗(yàn)證了基于DRL的信道分配算法和基于分布式的效用傳輸控制算法均具有較好的性能。

圖7顯示在小區(qū)半徑為R = 1 000 m時(shí),隨著D2D網(wǎng)絡(luò)中用戶數(shù)的增加D2D用戶的和效用變化情況。該圖表明所有算法的和效用隨著D2D網(wǎng)絡(luò)中用戶數(shù)的增加而增加。但是,通過比較發(fā)現(xiàn)CDRL,CUTC和CRAND三種算法的和效用隨著用戶數(shù)的增加幅度逐漸減小,比如在用戶數(shù)為5、10、15時(shí),D2D用戶的和效用接近于最優(yōu)值5、10、15。但在用戶數(shù)為40、45、50時(shí),D2D用戶的和效用與最優(yōu)值40、45、50相差較大,很難達(dá)到最優(yōu)值。這說明在D2D用戶數(shù)目逐漸增加的情況下,相互之間的干擾也在加劇,D2D用戶的滿意度逐漸降低。所以在D2D用戶數(shù)目逐漸增加的情況下,D2D用戶的滿意度逐漸呈降低的趨勢。CDRL相較于CUTC和CRAND算法與最優(yōu)值最接近,這也說明所提的基于DRL算法良好的性能。

5? 結(jié)? 論

最近,隨著深度強(qiáng)化學(xué)習(xí)在決策領(lǐng)域的快速發(fā)展和應(yīng)用,為無線通信和網(wǎng)絡(luò)中的高維問題開辟了可擴(kuò)展優(yōu)化的新途徑。本文主要是對(duì)無線D2D網(wǎng)絡(luò)中的信道和功率資源分配算法進(jìn)行研究,仿真結(jié)果表明基于深度強(qiáng)化學(xué)習(xí)的信道和功率資源分配算法的性能優(yōu)于基于分布式的效用傳輸控制算法性能和基于隨機(jī)信道分配算法的性能,且與傳統(tǒng)凸近似算法相比花費(fèi)時(shí)間較短。所以,基于深度強(qiáng)化學(xué)習(xí)的分配算法是一種低復(fù)雜度的算法,為分布式無線網(wǎng)絡(luò)環(huán)境中的無線資源分配提供了新的解決方法。而且深度強(qiáng)化學(xué)習(xí)保留了傳統(tǒng)強(qiáng)化學(xué)習(xí)的無模型優(yōu)化功能,適用于動(dòng)態(tài)可在線無線資源管理。深度神經(jīng)網(wǎng)絡(luò)強(qiáng)大的函數(shù)逼近和表示學(xué)習(xí)特性使強(qiáng)化學(xué)習(xí)具有強(qiáng)大而高效的學(xué)習(xí)能力?;贒RL的資源分配算法具有較低的時(shí)間復(fù)雜度以及更好的實(shí)驗(yàn)性能,更加適用于動(dòng)態(tài)無線網(wǎng)絡(luò)中的資源管理。在未來的5G和更高版本中,深度強(qiáng)化學(xué)習(xí)將具有重要的研究價(jià)值和更加廣闊的應(yīng)用前景。

參考文獻(xiàn):

[1] 鄭創(chuàng)明.超密集網(wǎng)絡(luò)無線資源管理關(guān)鍵技術(shù)研究 [D].西安:西安電子科技大學(xué),2020.

[2] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Human-level control through deep reinforcement learning [J].Nature,2015,518(7540):529-533.

[3] 陳慧敏.融合深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的5G無線資源管理 [J].移動(dòng)通信,2021,45(4):135-139+148.

[4] 喻澤晨.基于強(qiáng)化學(xué)習(xí)的多用戶功率智能分配 [D].成都:電子科技大學(xué),2021.

[5] 管銘鋒.基于強(qiáng)化學(xué)習(xí)的無線資源管理算法研究 [D].南京:南京郵電大學(xué),2020.

[6] LILLICRAP T P,HUNT J J,PRITZEL A,et al. Continuous control with deep reinforcement learning [J/OL].arXiv:1509.02971 [cs.LG].[2023-03-01].https://arxiv.org/abs/1509.02971.

[7] GU S X,LILLICRAP T,SUTSKEVER I,et al. Continuous Deep Q-Learning with Model-based Acceleration[J/OL].arXiv:1603.00748 [cs.LG].[2023-03-01].https://arxiv.org/abs/1603.00748v1.

[8] LEVINE S,F(xiàn)INN C,DARRELL T,et al. End-to-End Training of Deep Visuomotor Policies. Journal of Machine Learning Research [J/OL].arXiv:1504.00702 [cs.LG].[2023-03-01].https://arxiv.org/abs/1504.00702v1.

[9] SHENG M,XU C,WANG X J,et al. Utility-Based Resource Allocation for Multi-Channel Decentralized Networks [J].IEEE Transactions on Communications,2014,62(10):3610-3620.

作者簡介:張珍鳳(1995—),女,漢族,山西朔州人,助教,碩士研究生,主要研究方向:無線資源管理、機(jī)器學(xué)習(xí)、無線信道測量與建模;李芳(1981—),女,漢族,山西應(yīng)縣人,副教授,碩士研究生,主要研究方向:數(shù)據(jù)挖掘。

猜你喜歡
資源分配
云計(jì)算虛擬資源差分進(jìn)化分配方法仿真
新研究揭示新冠疫情對(duì)資源分配的影響 精讀
英語文摘(2020年10期)2020-11-26 08:12:20
一種基于價(jià)格競爭的D2D通信資源分配算法
QoS驅(qū)動(dòng)的電力通信網(wǎng)效用最大化資源分配機(jī)制①
基于動(dòng)態(tài)規(guī)劃理論的特種設(shè)備檢驗(yàn)資源分配研究
云環(huán)境下公平性優(yōu)化的資源分配方法
高校移動(dòng)圖書館服務(wù)評(píng)價(jià)體系研究
云計(jì)算資源分配算法
論建設(shè)開放式居住小區(qū)對(duì)促進(jìn)城市資源合理分配的作用
基于改進(jìn)遺傳算法的云仿真資源分配算法
交口县| 饶平县| 武穴市| 拉萨市| 昂仁县| 重庆市| 祁阳县| 平阳县| 南丹县| 临城县| 施甸县| 洛浦县| 建湖县| 衡阳市| 宜阳县| 双峰县| 樟树市| 公安县| 洛川县| 哈密市| 稻城县| 沂源县| 翁牛特旗| 磐安县| 柯坪县| 湾仔区| 田阳县| 阿鲁科尔沁旗| 日照市| 库伦旗| 渝北区| 萝北县| 新疆| 九寨沟县| 昌宁县| 望都县| 夏津县| 吉水县| 沭阳县| 临泉县| 尚义县|