国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

移動(dòng)邊緣網(wǎng)絡(luò)中基于強(qiáng)化學(xué)習(xí)的部分卸載分析

2023-12-25 00:54:32王景弘胡建強(qiáng)
關(guān)鍵詞:計(jì)算能力時(shí)延服務(wù)器

王景弘, 陳 昱, 胡建強(qiáng)

(廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024)

隨著移動(dòng)邊緣網(wǎng)絡(luò)的普及,自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition, ASR)、自然語(yǔ)言處理(natural language processing, NLP)和計(jì)算機(jī)視覺(computer vision, CV)[1-3]等應(yīng)用都需要計(jì)算資源來(lái)保證體驗(yàn)質(zhì)量(quality of experience, QoE)和服務(wù)質(zhì)量(quality of service, QoS).由于智能移動(dòng)設(shè)備的計(jì)算能力和電池電量有限,從用戶到服務(wù)器的計(jì)算卸載成為移動(dòng)邊緣計(jì)算(mobile edge computing, MEC)優(yōu)化資源利用率、能耗和網(wǎng)絡(luò)延遲的重要支撐技術(shù)[4].

移動(dòng)邊緣計(jì)算MEC 環(huán)境中,由于用戶設(shè)備存在各異的通信條件和計(jì)算要求,在滿足最小時(shí)延要求下協(xié)調(diào)多個(gè)用戶間的計(jì)算卸載較為困難.在移動(dòng)邊緣計(jì)算環(huán)境中,任務(wù)卸載通常被設(shè)置為二進(jìn)制計(jì)算卸載[5],即計(jì)算任務(wù)只能在用戶設(shè)備(user equipment, UE)上本地計(jì)算,或完全卸載給MEC 服務(wù)器計(jì)算,任務(wù)卸載過(guò)于簡(jiǎn)單化而且決策的準(zhǔn)確性不高.特別是,不同的用戶設(shè)備通常處于移動(dòng)狀態(tài),各用戶之間的通信情況會(huì)時(shí)刻變化.采用強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)[6]在移動(dòng)邊緣計(jì)算卸載有許多應(yīng)用,但狀態(tài)空間和動(dòng)作空間的需求增強(qiáng)使得求取Q值困難[7].

假定在供能充足、不需過(guò)度考慮能耗條件的移動(dòng)邊緣網(wǎng)絡(luò)環(huán)境下,優(yōu)化卸載決策的延遲,從而降低總的服務(wù)延遲,提高用戶的體驗(yàn)質(zhì)量.為此,提出了一種基于強(qiáng)化學(xué)習(xí)的部分任務(wù)卸載方法,即采用Q-learning算法手動(dòng)設(shè)置卸載率用于離散卸載決策,并使用深度確定性策略梯度算法DDPG-PO進(jìn)行連續(xù)卸載決策,解決Q表的維數(shù)較大而導(dǎo)致搜索困難的問題.最后,采用實(shí)驗(yàn)驗(yàn)證上述方法的有效性.

1 相關(guān)工作

近年來(lái)有很多人工智能算法應(yīng)用到移動(dòng)邊緣計(jì)算卸載領(lǐng)域.文獻(xiàn)[8]提出了一種基于深度RL 的在線卸載(DROO)框架,DROO在網(wǎng)絡(luò)上的輸出使用S形激活函數(shù)來(lái)限制輸出.當(dāng)輸出結(jié)果大于0.5時(shí),任務(wù)將被完全卸載到MEC 服務(wù)器.否則,任務(wù)將在UE 上本地計(jì)算.文獻(xiàn)[9]使用Q學(xué)習(xí)和深度Q網(wǎng)絡(luò)(DQN)算法來(lái)尋找計(jì)算卸載策略.Q學(xué)習(xí)和DQN 算法比較了本地計(jì)算方案和計(jì)算卸載方案的長(zhǎng)期回報(bào)大小,選擇了與更大的長(zhǎng)期回報(bào)相對(duì)應(yīng)的計(jì)算卸載策略.文獻(xiàn)[10]研究了霧計(jì)算中的遷移機(jī)制,并對(duì)容器遷移和虛擬機(jī)遷移兩種方案進(jìn)行了比較,得出了容器遷移比虛擬機(jī)遷移方案更輕量級(jí)的結(jié)論.其在計(jì)算卸載策略中使用了深度Q學(xué)習(xí)方法,以減少計(jì)算任務(wù)的延遲和能耗,以及容器遷移的成本.文獻(xiàn)[11]研究了物聯(lián)網(wǎng)場(chǎng)景中的計(jì)算卸載策略,并使用DQN 學(xué)習(xí)計(jì)算卸載策略.其中動(dòng)作空間是離散物聯(lián)網(wǎng)設(shè)備的傳輸功率,如果傳輸功率為零,則表示本地計(jì)算.然而,離散傳輸功率存在動(dòng)作空間過(guò)大的問題.文獻(xiàn)[12]研究了物聯(lián)網(wǎng)場(chǎng)景下邊緣計(jì)算的帶寬資源分配問題,并使用DQN 學(xué)習(xí)帶寬資源分配策略,以優(yōu)化物聯(lián)網(wǎng)設(shè)備的服務(wù)延遲和能耗.但由于離散域中的帶寬資源分配不均,也存在帶寬資源利用率不足的問題.

根據(jù)上述研究,啟發(fā)式算法和RL算法是解決計(jì)算卸載時(shí)延優(yōu)化問題的常用方法.但啟發(fā)式算法很容易陷入局部最優(yōu)解,算法的性能與具體問題和設(shè)計(jì)者的經(jīng)驗(yàn)密切相關(guān).深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和RL 的優(yōu)勢(shì),從高維原始數(shù)據(jù)學(xué)習(xí)控制策略,擴(kuò)充系統(tǒng)的狀態(tài)空間和可能發(fā)生的動(dòng)作空間,并獲得長(zhǎng)期的回報(bào),加強(qiáng)決策的準(zhǔn)確性和時(shí)效性.

2 系統(tǒng)模型與問題建模

從網(wǎng)絡(luò)模型、計(jì)算任務(wù)模型、本地計(jì)算模型和部分卸載邊緣計(jì)算模型等方面介紹系統(tǒng)模型,并提出了問題框架.表1列出了主要符號(hào).

表1 主要符號(hào)Tab.1 Main symbols

2.1 網(wǎng)絡(luò)模型

MEC系統(tǒng)含有n個(gè)UE 和1 個(gè)與基站部署在一起的服務(wù)器,UE 的集合表示為N= {1,2,…,n}. UE 可以把任務(wù)卸載給邊緣服務(wù)器,利用服務(wù)器的高算力來(lái)減少計(jì)算延遲. 根據(jù)參考文獻(xiàn)[9]的描述, 假設(shè)每個(gè)UE的任務(wù)優(yōu)先級(jí)是相同的,每個(gè)UE可以獲得相同的傳輸帶寬資源,UEn的傳輸速率為

其中:W是無(wú)線信道的帶寬;K是正在計(jì)算卸載的UE 的數(shù)量;pn是UEn的上傳數(shù)據(jù)的傳輸功率;hn是UEn和基站之間的無(wú)線信道增益;G0是高斯白噪聲的方差[9].

2.2 計(jì)算任務(wù)模型

定義Taskn?(Dn,Cn,tn)作為UEn需要執(zhí)行的任務(wù).該任務(wù)可以在本地計(jì)算,也可以通過(guò)計(jì)算卸載在MEC 服務(wù)器上計(jì)算[13].Dn表示完成此任務(wù)所需的數(shù)據(jù)量,包括需要處理的相關(guān)數(shù)據(jù).Cn表示完成任務(wù)Taskn所需的CPU 周期的數(shù)量.通常Dn和Cn的大小是正相關(guān)的,并且Cn的大小不會(huì)由于計(jì)算卸載而改變.tn是任務(wù)Taskn的最大可容忍延遲,表示完成任務(wù)Taskn所需的時(shí)間不應(yīng)大于tn.

定義λn∈[0,1]作為UEn的卸載策略,UEn將λn的部分卸載到服務(wù)器計(jì)算,而(1-λn)的部分是由UE本地計(jì)算的.UE集合N的整體卸載策略A表示為A=[λ1,λ2,…,λn].當(dāng)λi=0時(shí),表明Taski由UE本地計(jì)算;當(dāng)λi=1 時(shí),表明Taski被UE 完全卸載給服務(wù)器計(jì)算;當(dāng)0 <λi<1 時(shí),表明Taski的λi部分卸載給服務(wù)器計(jì)算,(1-λi)部分由UE計(jì)算.

2.3 本地計(jì)算模型

當(dāng)UE 在本地執(zhí)行任務(wù)時(shí),任務(wù)完成過(guò)程完全使用本地計(jì)算資源與MEC 服務(wù)器無(wú)關(guān).定義dln來(lái)表示任務(wù)Taskn的本地計(jì)算中的延遲.dln的計(jì)算方法為

其中:fln表示UEn的計(jì)算能力(UEn每秒的CPU周期數(shù)).

2.4 部分卸載邊緣計(jì)算模型

當(dāng)UE 請(qǐng)求計(jì)算卸載時(shí),任務(wù)Taskn的λn部分被卸載到MEC 服務(wù)器,(1-λn)部分則是本地計(jì)算的.Taskn的λn部分的總延遲包括數(shù)據(jù)上傳延遲、MEC計(jì)算延遲和數(shù)據(jù)下載延遲;(1-λn)部分的延遲類似于上一小節(jié)中介紹的本地計(jì)算延遲.

其中:fn是MEC服務(wù)器分配給Taskn的計(jì)算資源.定義COM 為MEC服務(wù)器的計(jì)算能力(MEC服務(wù)器每秒的CPU 周期數(shù)).MEC 服務(wù)器分配給所有卸載任務(wù)的計(jì)算資源不應(yīng)超過(guò)總計(jì)算資源,這表明應(yīng)滿足條件

其中:Bn是MEC 服務(wù)器返回的執(zhí)行結(jié)果的數(shù)據(jù)大?。籨ownn是UEn從MEC 服務(wù)器下載執(zhí)行結(jié)果的下載速率.根據(jù)文獻(xiàn)[14],上傳數(shù)據(jù)Dn的大小遠(yuǎn)大于返回?cái)?shù)據(jù)的大小Bn,下載速率遠(yuǎn)大于上傳速率,因此可以忽略數(shù)據(jù)下載延遲的影響.

由于Taskn的(1-λn)部分是UE計(jì)算的,所以它的計(jì)算延遲類似于上一節(jié)中的本地延遲.定義來(lái)表示Taskn的(1-λn)部分的計(jì)算延遲,計(jì)算方法為

基于上述公式(3)~(6),定義don為執(zhí)行部分卸載策略時(shí)任務(wù)Taskn的總時(shí)延.由于各個(gè)Taskn之間并行執(zhí)行,UEn進(jìn)行部分卸載時(shí)的總時(shí)延應(yīng)該是部分卸載時(shí)延和本地計(jì)算時(shí)延中更大的那一個(gè).don的計(jì)算方法為

2.5 問題定義

公式(7)中,當(dāng)λn=0 時(shí)可以得到don==dln;當(dāng)λn=1 時(shí)可以得到=0.因此可以使用公式(7)來(lái)綜合考慮本地計(jì)算、部分卸載和完全卸載三種策略的時(shí)間延遲.以最小化整個(gè)MEC 系統(tǒng)中所有UE 的任務(wù)執(zhí)行時(shí)間作為優(yōu)化目標(biāo),結(jié)合上述網(wǎng)絡(luò)模型、計(jì)算任務(wù)模型、局部計(jì)算模型和邊緣計(jì)算模型,優(yōu)化目標(biāo)和約束條件定義為

在優(yōu)化問題(8)中,如果λn的值只能是0或1,搜索最優(yōu)解的時(shí)間復(fù)雜度將隨著UE數(shù)量的增加而呈指數(shù)級(jí)增加.文獻(xiàn)[9]證明這類問題是一個(gè)NP-hard 問題.為了解決這個(gè)NP-hard 問題,引入了一種基于DRL的部分卸載方案,把λn的值從離散域變?yōu)檫B續(xù)域,有效地減少了MEC 系統(tǒng)的總時(shí)延.約束(9)表示每個(gè)Taskn既可以本地計(jì)算,也可以完全卸載到MEC 服務(wù)器,還可以進(jìn)行任意比例卸載;約束(10)表示各個(gè)任務(wù)被服務(wù)器分配到的算力之和不能超過(guò)服務(wù)器總算力;約束(11)表示對(duì)于被卸載的任務(wù)都必須被分配到算力資源;約束(12)表示每個(gè)任務(wù)的完成時(shí)間don不應(yīng)超過(guò)最大可容忍時(shí)延tn,否則會(huì)影響用戶的體驗(yàn)質(zhì)量.

3 基于Q-learning和DDPG的卸載算法

多用戶多任務(wù)MEC 系統(tǒng)中結(jié)合邊緣服務(wù)器資源分配、部分任務(wù)卸載和緩存決策的問題進(jìn)行建模,目標(biāo)是最小化整個(gè)MEC 系統(tǒng)中所有UE 的任務(wù)執(zhí)行時(shí)間.為求解這個(gè)混合整數(shù)非線性規(guī)劃問題,引入Qlearning算法并提出基于DDPG的優(yōu)化算法DDPG-PO,盡可能地優(yōu)化QoS并減小系統(tǒng)總時(shí)延.

3.1 深度強(qiáng)化學(xué)習(xí)框架

1)狀態(tài)空間.為了將DRL 解決方案應(yīng)用于系統(tǒng)模型和問題框架,需要定義狀態(tài)空間、行動(dòng)空間和獎(jiǎng)勵(lì)函數(shù).理論上需要觀察整個(gè)MEC系統(tǒng)來(lái)確定狀態(tài)空間,包括用戶數(shù)量、任務(wù)情況、計(jì)算資源的使用情況等.但事實(shí)上,完成這件事會(huì)造成額外的系統(tǒng)開銷.隨著MEC 服務(wù)器中UE 數(shù)量的增加,額外的系統(tǒng)開銷將更大.考慮到優(yōu)化目標(biāo)是MEC 系統(tǒng)的總時(shí)延,所以將狀態(tài)定義為,作為整個(gè)MEC 系統(tǒng)的時(shí)延.

2)動(dòng)作空間.為了描述每個(gè)UE的計(jì)算卸載策略,將動(dòng)作空間定義為MEC系統(tǒng)中所有UE的動(dòng)作空間之和.對(duì)于每個(gè)UEn,定義它的動(dòng)作空間為A=[λ1,λ2,…,λn]滿足λi∈[0,1],這意味著卸載方案不必局限于傳統(tǒng)的二元卸載,進(jìn)而擴(kuò)展了傳統(tǒng)DRL 的動(dòng)作空間,并在更大程度上帶來(lái)了優(yōu)化MEC 系統(tǒng)總延遲的可能性.

3) 獎(jiǎng)勵(lì)函數(shù).定義R(S,A)為獎(jiǎng)勵(lì)函數(shù),表示代理在狀態(tài)S下執(zhí)行計(jì)算卸載策略A時(shí)獲得的獎(jiǎng)勵(lì).為了評(píng)估卸載策略的優(yōu)缺點(diǎn),獎(jiǎng)勵(lì)函數(shù)應(yīng)該與所有UE 的總時(shí)延成反比.因此定義獎(jiǎng)勵(lì)函數(shù)為R(S,A) =,這表明卸載策略越好,系統(tǒng)時(shí)延越低,回報(bào)也就越大.

3.2 算法設(shè)計(jì)

1)Q-Learning 算法:Q-Learning 算法是一種傳統(tǒng)且廣泛使用的RL 算法,它包含與狀態(tài)和動(dòng)作對(duì)相對(duì)應(yīng)的Q函數(shù).Q函數(shù)表示在狀態(tài)S和動(dòng)作A下可獲得的長(zhǎng)期獎(jiǎng)勵(lì)的估計(jì),用來(lái)選擇具有最長(zhǎng)獎(jiǎng)勵(lì)的最佳策略.Q函數(shù)的計(jì)算方法為

其中:s′是在狀態(tài)s下采取行動(dòng)a時(shí)達(dá)到的狀態(tài);α 是學(xué)習(xí)率;γ 是未來(lái)獎(jiǎng)勵(lì)的折現(xiàn)系數(shù),0 ≤γ≤1,用來(lái)表示未來(lái)獎(jiǎng)勵(lì)的重要性.

根據(jù)以上對(duì)Q-learning算法的描述,還需要對(duì)狀態(tài)空間和動(dòng)作空間進(jìn)行微調(diào)后才能應(yīng)用該算法.對(duì)于狀態(tài)空間,將狀態(tài)四舍五入為一個(gè)整數(shù);對(duì)于動(dòng)作空間,則預(yù)定義了X+1個(gè)離散部分的計(jì)算卸載比率.定義UEn的卸載策略為,其中X的大小可以調(diào)整,X越大卸載策略越好,但與之對(duì)應(yīng)的是更高的復(fù)雜度.每個(gè)UE 都有各自的動(dòng)作空間,所以需要在Q函數(shù)中添加一個(gè)用戶維度,用Q(S,N,X+1)表示.改進(jìn)后的Q函數(shù)為

在公式(14)中,Q(s,i,λi)表示當(dāng)MEC 系統(tǒng)處于狀態(tài)s時(shí),第i個(gè)UEi采用計(jì)算卸載策略λi時(shí)可以獲得的長(zhǎng)期獎(jiǎng)勵(lì)的估計(jì).由于Q-table要求其索引為非負(fù)整數(shù),因此在Q函數(shù)中的λi需要乘以X.公式(14)中的s'表示MEC系統(tǒng)中的所有UE采用卸載策略A之后的狀態(tài),其中A包含此時(shí)第i個(gè)UE的計(jì)算卸載策略.簡(jiǎn)而言之,MEC系統(tǒng)中所有UE都具有相同的狀態(tài)s'.算法1展示了改進(jìn)后的Q-learning算法.

算法1 預(yù)定義離散卸載率的Q學(xué)習(xí)算法1:初始化Q函數(shù) Q(S,N,X+1);2:for occasion=1 do 3: 用隨機(jī)計(jì)算卸載策略初始化狀態(tài)s;4: repeat 5: 基于貪心策略從 Q-table 中選擇執(zhí)行動(dòng)作 A=[λ1,λ2,…,λn];6: 執(zhí)行動(dòng)作 A;7: 得到獎(jiǎng)勵(lì) r 和下一個(gè)狀態(tài) s';8: for i=1,N do 9: 用公式(14)更新 Q(s,i,λi X);10: end for 11: s ←s′12: until 達(dá)到期望狀態(tài) sterminal 13: end for

2)DDPG-PO 算法.在上一節(jié)中使用Q-Learning 算法通過(guò)手動(dòng)設(shè)置X+1 部分的卸載率來(lái)實(shí)現(xiàn)部分卸載,但因?yàn)槭褂玫氖荙-table來(lái)儲(chǔ)存所有Q值,隨著UE數(shù)量的和預(yù)定義卸載率的增加,找全整個(gè)Q-table的難度也越來(lái)越大.所以引入DDPG-PO算法來(lái)解決這個(gè)問題.DDPG-PO算法包括actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)兩部分.actor網(wǎng)絡(luò)負(fù)責(zé)根據(jù)觀察到的狀態(tài)信息生成策略,而critic網(wǎng)絡(luò)負(fù)責(zé)收集獎(jiǎng)勵(lì)值以評(píng)估和糾正策略.

DDPG-PO 算法將動(dòng)作空間擴(kuò)展到一個(gè)連續(xù)域,并使用一個(gè)特殊的重放緩沖器,該容器存儲(chǔ)一定數(shù)量的記錄,而不是傳統(tǒng)RL算法中的Q-table.每個(gè)記錄由[st,at,rt,st+1]組成,并使用該記錄中的一個(gè)小批元組更新參數(shù).

DDPG-PO 算法包含四個(gè)DNN.它們分別是actor 網(wǎng)絡(luò)μ(s|λμ),其網(wǎng)絡(luò)參數(shù)用λμ表示;critic 網(wǎng)絡(luò)Q(s,a|λQ),其網(wǎng)絡(luò)參數(shù)用λQ表示;目標(biāo)actor 網(wǎng)絡(luò)μ'(s|λμ'),其網(wǎng)絡(luò)參數(shù)用λμ'表示;以及目標(biāo)critic 網(wǎng)絡(luò)Q'(s,a|λQ'),其網(wǎng)絡(luò)參數(shù)由λQ'表示.actor網(wǎng)絡(luò)負(fù)責(zé)根據(jù)狀態(tài)選擇要進(jìn)行計(jì)算卸載的動(dòng)作.目標(biāo)critic網(wǎng)絡(luò)和目標(biāo)actor網(wǎng)絡(luò)使用重放緩沖器來(lái)評(píng)估目標(biāo)Q值,而critic網(wǎng)絡(luò)負(fù)責(zé)計(jì)算Q值.目標(biāo)Q值的計(jì)算方法為

對(duì)于critic網(wǎng)絡(luò)的參數(shù)更新,使用梯度下降法來(lái)最小化目標(biāo)Q值和critic網(wǎng)絡(luò)輸出之間的差異.損失函數(shù)是一個(gè)平方損失函數(shù),其計(jì)算方法為

其中:N是批次號(hào)大小.使用Adam優(yōu)化器[15]來(lái)最小化損失函數(shù).actor網(wǎng)絡(luò)使用梯度上升法更新策略,策略梯度為

對(duì)于目標(biāo)網(wǎng)絡(luò)參數(shù)更新,DDPG-PO 算法使用actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)對(duì)目標(biāo)網(wǎng)絡(luò)執(zhí)行軟目標(biāo)更新.軟目標(biāo)更新的方式為

其中:TOU 是目標(biāo)網(wǎng)絡(luò)的軟更新因子.參數(shù)TOU 滿足0 <TOU <1.TOU 越小,表明目標(biāo)網(wǎng)絡(luò)參數(shù)更新越慢.算法2展示了MEC系統(tǒng)的DDPG-PO算法的過(guò)程.

算法2 DDPG-PO (partial-offloading) 算法1: 將actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)分別隨機(jī)初始化為λμ和λQ;2: 設(shè)置λμ′←λμ;3: 設(shè)置λQ′←λQ;4: 初始化重放緩沖器R;5: for occasion=1 do 6: 隨機(jī)初始化動(dòng)作A以獲得相對(duì)應(yīng)的狀態(tài)s1;7: for t=1, T do 8: 根據(jù)actor網(wǎng)絡(luò)和附加噪聲,選擇相應(yīng)的計(jì)算卸載策略 At=μ(st|λμ) +Nt, 其中 Nt 是正態(tài)分布的噪聲擾動(dòng);9: 執(zhí)行計(jì)算卸載策略At,得到獎(jiǎng)勵(lì)rt和下一個(gè)狀態(tài)st+1;10: 將記錄(st,at,rt,st+1)存儲(chǔ)在重放緩沖區(qū)R中;11: 從重放緩沖區(qū)R中隨機(jī)抽取記錄;12: 用公式(15)計(jì)算目標(biāo)Q值;13: 通過(guò)最小化損失函數(shù)公式(16)來(lái)更新critic網(wǎng)絡(luò)的參數(shù);14: 使用基于公式(17)的采樣的策略梯度來(lái)更新actor策略;15: 基于公式(18)和(19)對(duì)目標(biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行軟更新;16: end for 17: end for

在DDPG-PO 算法的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中,把a(bǔ)ctor 網(wǎng)絡(luò)的輸入層的維度設(shè)為1,用于MEC 系統(tǒng)的狀態(tài)輸入;把a(bǔ)ctor網(wǎng)絡(luò)的輸出層的維度設(shè)為N,表示所有UE的卸載策略.因?yàn)閍ctor網(wǎng)絡(luò)需要根據(jù)卸載策略進(jìn)行動(dòng)作,所以引入Sigmoid激活函數(shù)來(lái)縮放其輸出.Sigmoid激活函數(shù)為

critic 網(wǎng)絡(luò)的輸入層由兩個(gè)部分組成,一個(gè)是系統(tǒng)狀態(tài)S,另一個(gè)是每個(gè)UE 的卸載策略向量;輸出層的維度設(shè)為1,表示Q 值的預(yù)測(cè).另外使用全連接層分別組成actor 網(wǎng)絡(luò)和critic 網(wǎng)絡(luò)的隱藏層.目標(biāo)actor網(wǎng)絡(luò)的結(jié)構(gòu)與actor 網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)相同,目標(biāo)critic 網(wǎng)絡(luò)也與critic 網(wǎng)絡(luò)結(jié)構(gòu)相同.圖1 展示了基于DDPG-PO的卸載架構(gòu).

圖1 基于DDPG-PO的卸載架構(gòu)Fig.1 Offloading architecture based on DDPG-PO

4 實(shí)驗(yàn)評(píng)估

為了驗(yàn)證所提出卸載策略的優(yōu)勢(shì),將其與文獻(xiàn)[8]中的本地UE 計(jì)算(local computing)方案、完全卸載(full offloading)方案和DQN卸載策略進(jìn)行了比較.

在實(shí)驗(yàn)設(shè)置中,用戶數(shù)量可變并且均勻分布在距離服務(wù)器200 m的范圍內(nèi).UE和MEC服務(wù)器之間的信道增益與距離成反比.無(wú)線信道增益設(shè)置為hn=dis-ns,其中s=3,disn是UEn和基站之間的距離.無(wú)線信道的帶寬設(shè)置為W=10 MHz,背景噪聲G0=-174 dBm/Hz,UE 上傳功率pn=500 mW[16].MEC 服務(wù)器的計(jì)算能力設(shè)置為COM=5 GHz/s,并根據(jù)λnCn的大小均勻分布給每個(gè)任務(wù).每個(gè)UE 的計(jì)算能力被設(shè)置為=1 GHz/s.UE 上的任務(wù)量Dn均勻分布為(300 Kbits,500 Kbits),Cn均勻分布為(900 兆周期,1 100 兆周期)[9].最大可容忍延遲設(shè)置為tn=dnl,表明如果計(jì)算卸載不能有效減少任務(wù)時(shí)延,則不需要把任務(wù)卸載給MEC 服務(wù)器,否則會(huì)帶來(lái)額外負(fù)擔(dān).預(yù)定義的離散部分計(jì)算卸載率X=3,學(xué)習(xí)率α=0.1,折現(xiàn)系數(shù)γ=0.8.DDPG-PO算法中的相關(guān)參數(shù)如表2所示.

表2 DDPG-PO算法中的參數(shù)設(shè)置Tab.2 Parameter settings in DDPG-PO algorithm

圖2展示了UE數(shù)量對(duì)系統(tǒng)總時(shí)延的影響.橫坐標(biāo)表示UE的數(shù)量,縱坐標(biāo)表示所有UE的任務(wù)完成時(shí)間之和.MEC 服務(wù)器的計(jì)算能力為COM=5 GHz/s.在通常情況下,所有方案的總延遲都隨著UE 數(shù)量的增加而增加.可以發(fā)現(xiàn)用戶數(shù)量超過(guò)5時(shí),完全卸載方案的總時(shí)延是最高的.這是因?yàn)榇朔桨钢兴腥蝿?wù)都被卸載給MEC服務(wù)器,且由于計(jì)算能力有限,無(wú)法滿足所有UE的計(jì)算需求.此時(shí)只有提高服務(wù)器的算力才能降低整體的時(shí)延.由實(shí)驗(yàn)結(jié)果可知這兩種算法與其他策略相比更好地減少了時(shí)延.

圖2 不同UE數(shù)量下的總時(shí)延Fig.2 Total delay under different UE numbers

圖3展示了MEC服務(wù)器的計(jì)算能力對(duì)系統(tǒng)總時(shí)延的影響.橫坐標(biāo)是MEC服務(wù)器的計(jì)算能力,縱坐標(biāo)是所有UE的任務(wù)完成時(shí)間之和.UE的數(shù)量為N=5.由于本地計(jì)算不需要服務(wù)器參與,因此其結(jié)果是在圖上是一條直線.通常隨著MEC服務(wù)器計(jì)算能力的提高,系統(tǒng)總時(shí)延會(huì)減少,提高M(jìn)EC服務(wù)器的計(jì)算能力有助于提高系統(tǒng)性能.隨著邊緣服務(wù)器計(jì)算能力提高,DQN接近完全卸載.Q-learning算法和DDPG-PO算法的時(shí)延總是低于DQN,這是因?yàn)镼-learning算法和DDPG-PO算法包含本地資源,但它們之間的差距逐漸減小.當(dāng)COM ≥7 GHz/s時(shí),系統(tǒng)的總延遲緩慢下降,這是因?yàn)榇藭r(shí)限制系統(tǒng)總延遲的主要因素是傳輸時(shí)延.

圖3 MEC服務(wù)器的計(jì)算能力對(duì)系統(tǒng)總時(shí)延的影響Fig.3 The impact of MEC server's computing power on the total delay

當(dāng)卸載策略A是二進(jìn)制,即采用本地計(jì)算或者完全卸載時(shí),在UE 數(shù)量少的情況下,可以通過(guò)列舉在可接受的搜索時(shí)間內(nèi)所有UE 的決策情況來(lái)找到最佳的卸載策略A′,從而獲得二進(jìn)制計(jì)算卸載的最小時(shí)延.歸一化時(shí)延定義為

其中:D*(A)表示采用計(jì)算卸載策略A的時(shí)延.

為了驗(yàn)證所提出算法的優(yōu)勢(shì),對(duì)比對(duì)象采用了文獻(xiàn)[8]中提出的DROO策略.圖4展示了不同UE數(shù)量下三種算法的歸一化時(shí)延,橫坐標(biāo)是UE 的數(shù)量,縱坐標(biāo)是歸一化時(shí)延,MEC 服務(wù)器的計(jì)算能力設(shè)置為COM=5 GHz/s.對(duì)比了DROO算法之后可以發(fā)現(xiàn),這是一種只支持本地計(jì)算或者完全卸載的二元卸載算法.DROO 算法的歸一化時(shí)延均為1,這說(shuō)明它可以得出在本地計(jì)算或者完全卸載中的最佳卸載策略.但本文提出的部分卸載策略的歸一化時(shí)延均低于1,這說(shuō)明部分卸載策略的時(shí)延要低于本地計(jì)算或者完全卸載.平均下來(lái),Q-learning算法和DDPG-PO算法分別比DROO算法的時(shí)延低了21%和28%.由此也可以看出部分卸載相對(duì)于二元卸載而言,可以更好地減少系統(tǒng)總時(shí)延,提升用戶體驗(yàn)質(zhì)量.

圖4 Q-learning算法和DDPG-PO算法的歸一化時(shí)延Fig.4 Normalized delay of Q-learning algorithm and DDPG-PO algorithm

圖5展示了不同CPU周期對(duì)系統(tǒng)總時(shí)延的影響.橫坐標(biāo)是完成Taskn所需的CPU周期數(shù),縱坐標(biāo)是所有UE的任務(wù)完成時(shí)間之和.UE的數(shù)量為N=5,MEC服務(wù)器的計(jì)算能力為COM=5 GHz/s.橫坐標(biāo)的增加表明任務(wù)需要更多的計(jì)算資源.通常隨著每個(gè)任務(wù)所需CPU 周期的增加,所有卸載方案的總時(shí)延都會(huì)增加.從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),完全卸載的時(shí)延最高,本地計(jì)算次之,DQN 算法的時(shí)延相比它們而言低了很多,而這兩種算法的時(shí)延最低,表現(xiàn)優(yōu)于其他幾種卸載策略.實(shí)驗(yàn)結(jié)果也從另一方面印證了所提出的卸載方案可以適應(yīng)高計(jì)算量任務(wù).

圖5 不同CPU周期下的總時(shí)延Fig.5 Total delay under different CPU cycles

圖6展示了兩種算法的收斂性.橫坐標(biāo)是主循環(huán)的迭代次數(shù),縱坐標(biāo)為偶發(fā)性獎(jiǎng)勵(lì),表示MEC系統(tǒng)在一個(gè)偶發(fā)情況中獲得的總獎(jiǎng)勵(lì).UE 的數(shù)量N=5,MEC 服務(wù)器的計(jì)算能力為COM=5 GHz/s.由獎(jiǎng)勵(lì)函數(shù),偶發(fā)性獎(jiǎng)勵(lì)越大,系統(tǒng)總時(shí)延越低.根據(jù)實(shí)驗(yàn)結(jié)果可知,兩種卸載策略隨著迭代次數(shù)的增加,MEC 系統(tǒng)所獲得的偶發(fā)性獎(jiǎng)勵(lì)也隨之增加,這證明了所提出的兩種策略在減少時(shí)延方面是有效的.在算法收斂速度方面,基于Q-learning 的離散計(jì)算卸載策略比基于DDPG-PO 算法的連續(xù)計(jì)算卸載策略收斂更快.在迭代了60次之后,Q-learning算法已經(jīng)達(dá)到穩(wěn)定狀態(tài).其收斂速度與X的值有關(guān),通常X值越大收斂越慢.相比于Q-learning算法,DDPG-PO算法收斂得更慢但具有更強(qiáng)的降低總時(shí)延的能力.

圖6 Q-learning算法和DDPG-PO算法的收斂性Fig.6 Convergence of Q-learning algorithm and DDPG-PO algorithm

5 結(jié)語(yǔ)

研究物聯(lián)網(wǎng)中多用戶MEC 系統(tǒng)的部分計(jì)算任務(wù)卸載問題,優(yōu)化的目標(biāo)是盡最大可能減少M(fèi)EC 系統(tǒng)的總時(shí)延.建立了一個(gè)適用于部分計(jì)算卸載的深度RL 模型,并提出了Q-learning 算法和DDPG-PO 算法的結(jié)合作為部分計(jì)算卸載策略,將二進(jìn)制計(jì)算卸載方案擴(kuò)展到連續(xù)動(dòng)作域.仿真結(jié)果表明,與傳統(tǒng)的本地計(jì)算和邊緣計(jì)算相比,Q-learning算法和DDPG-PO算法可以有效地降低MEC系統(tǒng)的總時(shí)延.與最佳二進(jìn)制計(jì)算卸載策略相比,Q-learning算法和DDPG-PO算法還將系統(tǒng)時(shí)延分別降低了21%和28%.

猜你喜歡
計(jì)算能力時(shí)延服務(wù)器
淺談如何提高小學(xué)生的計(jì)算能力
小學(xué)生計(jì)算能力的提高策略
甘肅教育(2021年10期)2021-11-02 06:14:02
小學(xué)生計(jì)算能力的培養(yǎng)
甘肅教育(2020年21期)2020-04-13 08:08:42
通信控制服務(wù)器(CCS)維護(hù)終端的設(shè)計(jì)與實(shí)現(xiàn)
基于GCC-nearest時(shí)延估計(jì)的室內(nèi)聲源定位
電子制作(2019年23期)2019-02-23 13:21:12
基于改進(jìn)二次相關(guān)算法的TDOA時(shí)延估計(jì)
淺談小學(xué)生計(jì)算能力的培養(yǎng)
得形忘意的服務(wù)器標(biāo)準(zhǔn)
FRFT在水聲信道時(shí)延頻移聯(lián)合估計(jì)中的應(yīng)用
計(jì)算機(jī)網(wǎng)絡(luò)安全服務(wù)器入侵與防御
沂源县| 金溪县| 天水市| 木兰县| 西盟| 洛宁县| 三河市| 保亭| 集贤县| 石首市| 承德市| 渝中区| 阿拉善右旗| 西城区| 庆元县| 全州县| 萨迦县| 阿鲁科尔沁旗| 南昌市| 南召县| 溆浦县| 云霄县| 唐山市| 宜川县| 江达县| 南乐县| 葵青区| 陇川县| 青岛市| 工布江达县| 孝昌县| 霸州市| 百色市| 昌江| 邛崃市| 阿荣旗| 荥阳市| 柳州市| 弥勒县| 兴安县| 阳东县|