移動(dòng)邊緣網(wǎng)絡(luò)中基于強(qiáng)化學(xué)習(xí)的部分卸載分析

2023-12-25 00:54:32王景弘胡建強(qiáng)

閩南師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年4期

王景弘, 陳昱, 胡建強(qiáng)

（廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建廈門 361024）

隨著移動(dòng)邊緣網(wǎng)絡(luò)的普及，自動(dòng)語(yǔ)音識(shí)別（automatic speech recognition, ASR）、自然語(yǔ)言處理（natural language processing, NLP）和計(jì)算機(jī)視覺（computer vision, CV）[1-3]等應(yīng)用都需要計(jì)算資源來(lái)保證體驗(yàn)質(zhì)量（quality of experience, QoE）和服務(wù)質(zhì)量（quality of service, QoS）.由于智能移動(dòng)設(shè)備的計(jì)算能力和電池電量有限，從用戶到服務(wù)器的計(jì)算卸載成為移動(dòng)邊緣計(jì)算（mobile edge computing, MEC）優(yōu)化資源利用率、能耗和網(wǎng)絡(luò)延遲的重要支撐技術(shù)[4].

移動(dòng)邊緣計(jì)算MEC 環(huán)境中，由于用戶設(shè)備存在各異的通信條件和計(jì)算要求，在滿足最小時(shí)延要求下協(xié)調(diào)多個(gè)用戶間的計(jì)算卸載較為困難.在移動(dòng)邊緣計(jì)算環(huán)境中，任務(wù)卸載通常被設(shè)置為二進(jìn)制計(jì)算卸載[5]，即計(jì)算任務(wù)只能在用戶設(shè)備（user equipment, UE）上本地計(jì)算，或完全卸載給MEC 服務(wù)器計(jì)算，任務(wù)卸載過(guò)于簡(jiǎn)單化而且決策的準(zhǔn)確性不高.特別是，不同的用戶設(shè)備通常處于移動(dòng)狀態(tài)，各用戶之間的通信情況會(huì)時(shí)刻變化.采用強(qiáng)化學(xué)習(xí)（reinforcement learning, RL）[6]在移動(dòng)邊緣計(jì)算卸載有許多應(yīng)用，但狀態(tài)空間和動(dòng)作空間的需求增強(qiáng)使得求取Q值困難[7].

假定在供能充足、不需過(guò)度考慮能耗條件的移動(dòng)邊緣網(wǎng)絡(luò)環(huán)境下，優(yōu)化卸載決策的延遲，從而降低總的服務(wù)延遲，提高用戶的體驗(yàn)質(zhì)量.為此，提出了一種基于強(qiáng)化學(xué)習(xí)的部分任務(wù)卸載方法，即采用Q-learning算法手動(dòng)設(shè)置卸載率用于離散卸載決策，并使用深度確定性策略梯度算法DDPG-PO進(jìn)行連續(xù)卸載決策，解決Q表的維數(shù)較大而導(dǎo)致搜索困難的問題.最后，采用實(shí)驗(yàn)驗(yàn)證上述方法的有效性.

1 相關(guān)工作

近年來(lái)有很多人工智能算法應(yīng)用到移動(dòng)邊緣計(jì)算卸載領(lǐng)域.文獻(xiàn)[8]提出了一種基于深度RL 的在線卸載（DROO）框架，DROO在網(wǎng)絡(luò)上的輸出使用S形激活函數(shù)來(lái)限制輸出.當(dāng)輸出結(jié)果大于0.5時(shí)，任務(wù)將被完全卸載到MEC 服務(wù)器.否則，任務(wù)將在UE 上本地計(jì)算.文獻(xiàn)[9]使用Q學(xué)習(xí)和深度Q網(wǎng)絡(luò)（DQN）算法來(lái)尋找計(jì)算卸載策略.Q學(xué)習(xí)和DQN 算法比較了本地計(jì)算方案和計(jì)算卸載方案的長(zhǎng)期回報(bào)大小，選擇了與更大的長(zhǎng)期回報(bào)相對(duì)應(yīng)的計(jì)算卸載策略.文獻(xiàn)[10]研究了霧計(jì)算中的遷移機(jī)制，并對(duì)容器遷移和虛擬機(jī)遷移兩種方案進(jìn)行了比較，得出了容器遷移比虛擬機(jī)遷移方案更輕量級(jí)的結(jié)論.其在計(jì)算卸載策略中使用了深度Q學(xué)習(xí)方法，以減少計(jì)算任務(wù)的延遲和能耗，以及容器遷移的成本.文獻(xiàn)[11]研究了物聯(lián)網(wǎng)場(chǎng)景中的計(jì)算卸載策略，并使用DQN 學(xué)習(xí)計(jì)算卸載策略.其中動(dòng)作空間是離散物聯(lián)網(wǎng)設(shè)備的傳輸功率，如果傳輸功率為零，則表示本地計(jì)算.然而，離散傳輸功率存在動(dòng)作空間過(guò)大的問題.文獻(xiàn)[12]研究了物聯(lián)網(wǎng)場(chǎng)景下邊緣計(jì)算的帶寬資源分配問題，并使用DQN 學(xué)習(xí)帶寬資源分配策略，以優(yōu)化物聯(lián)網(wǎng)設(shè)備的服務(wù)延遲和能耗.但由于離散域中的帶寬資源分配不均，也存在帶寬資源利用率不足的問題.

根據(jù)上述研究，啟發(fā)式算法和RL算法是解決計(jì)算卸載時(shí)延優(yōu)化問題的常用方法.但啟發(fā)式算法很容易陷入局部最優(yōu)解，算法的性能與具體問題和設(shè)計(jì)者的經(jīng)驗(yàn)密切相關(guān).深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和RL 的優(yōu)勢(shì)，從高維原始數(shù)據(jù)學(xué)習(xí)控制策略，擴(kuò)充系統(tǒng)的狀態(tài)空間和可能發(fā)生的動(dòng)作空間，并獲得長(zhǎng)期的回報(bào)，加強(qiáng)決策的準(zhǔn)確性和時(shí)效性.

2 系統(tǒng)模型與問題建模

從網(wǎng)絡(luò)模型、計(jì)算任務(wù)模型、本地計(jì)算模型和部分卸載邊緣計(jì)算模型等方面介紹系統(tǒng)模型，并提出了問題框架.表1列出了主要符號(hào).

表1 主要符號(hào)Tab.1 Main symbols

2.1 網(wǎng)絡(luò)模型

MEC系統(tǒng)含有n個(gè)UE 和1 個(gè)與基站部署在一起的服務(wù)器，UE 的集合表示為N= {1，2，…，n}. UE 可以把任務(wù)卸載給邊緣服務(wù)器，利用服務(wù)器的高算力來(lái)減少計(jì)算延遲. 根據(jù)參考文獻(xiàn)[9]的描述, 假設(shè)每個(gè)UE的任務(wù)優(yōu)先級(jí)是相同的，每個(gè)UE可以獲得相同的傳輸帶寬資源，UEn的傳輸速率為

其中：W是無(wú)線信道的帶寬；K是正在計(jì)算卸載的UE 的數(shù)量；pn是UEn的上傳數(shù)據(jù)的傳輸功率；hn是UEn和基站之間的無(wú)線信道增益；G0是高斯白噪聲的方差[9].

2.2 計(jì)算任務(wù)模型

定義Taskn?(Dn，Cn，tn)作為UEn需要執(zhí)行的任務(wù).該任務(wù)可以在本地計(jì)算，也可以通過(guò)計(jì)算卸載在MEC 服務(wù)器上計(jì)算[13].Dn表示完成此任務(wù)所需的數(shù)據(jù)量，包括需要處理的相關(guān)數(shù)據(jù).Cn表示完成任務(wù)Taskn所需的CPU 周期的數(shù)量.通常Dn和Cn的大小是正相關(guān)的，并且Cn的大小不會(huì)由于計(jì)算卸載而改變.tn是任務(wù)Taskn的最大可容忍延遲，表示完成任務(wù)Taskn所需的時(shí)間不應(yīng)大于tn.

定義λn∈[0，1]作為UEn的卸載策略，UEn將λn的部分卸載到服務(wù)器計(jì)算，而(1-λn)的部分是由UE本地計(jì)算的.UE集合N的整體卸載策略A表示為A=[λ1，λ2，…，λn].當(dāng)λi=0時(shí)，表明Taski由UE本地計(jì)算；當(dāng)λi=1 時(shí)，表明Taski被UE 完全卸載給服務(wù)器計(jì)算；當(dāng)0 ＜λi＜1 時(shí)，表明Taski的λi部分卸載給服務(wù)器計(jì)算，(1-λi)部分由UE計(jì)算.

2.3 本地計(jì)算模型

當(dāng)UE 在本地執(zhí)行任務(wù)時(shí)，任務(wù)完成過(guò)程完全使用本地計(jì)算資源與MEC 服務(wù)器無(wú)關(guān).定義dln來(lái)表示任務(wù)Taskn的本地計(jì)算中的延遲.dln的計(jì)算方法為

其中：fln表示UEn的計(jì)算能力（UEn每秒的CPU周期數(shù)）.

2.4 部分卸載邊緣計(jì)算模型

當(dāng)UE 請(qǐng)求計(jì)算卸載時(shí)，任務(wù)Taskn的λn部分被卸載到MEC 服務(wù)器，(1-λn)部分則是本地計(jì)算的.Taskn的λn部分的總延遲包括數(shù)據(jù)上傳延遲、MEC計(jì)算延遲和數(shù)據(jù)下載延遲；(1-λn)部分的延遲類似于上一小節(jié)中介紹的本地計(jì)算延遲.

其中：fn是MEC服務(wù)器分配給Taskn的計(jì)算資源.定義COM 為MEC服務(wù)器的計(jì)算能力（MEC服務(wù)器每秒的CPU 周期數(shù)）.MEC 服務(wù)器分配給所有卸載任務(wù)的計(jì)算資源不應(yīng)超過(guò)總計(jì)算資源，這表明應(yīng)滿足條件

其中：Bn是MEC 服務(wù)器返回的執(zhí)行結(jié)果的數(shù)據(jù)大?。籨ownn是UEn從MEC 服務(wù)器下載執(zhí)行結(jié)果的下載速率.根據(jù)文獻(xiàn)[14]，上傳數(shù)據(jù)Dn的大小遠(yuǎn)大于返回?cái)?shù)據(jù)的大小Bn，下載速率遠(yuǎn)大于上傳速率，因此可以忽略數(shù)據(jù)下載延遲的影響.

由于Taskn的(1-λn)部分是UE計(jì)算的，所以它的計(jì)算延遲類似于上一節(jié)中的本地延遲.定義來(lái)表示Taskn的(1-λn)部分的計(jì)算延遲，計(jì)算方法為

基于上述公式（3）～（6），定義don為執(zhí)行部分卸載策略時(shí)任務(wù)Taskn的總時(shí)延.由于各個(gè)Taskn之間并行執(zhí)行，UEn進(jìn)行部分卸載時(shí)的總時(shí)延應(yīng)該是部分卸載時(shí)延和本地計(jì)算時(shí)延中更大的那一個(gè).don的計(jì)算方法為

2.5 問題定義

公式（7）中，當(dāng)λn=0 時(shí)可以得到don==dln；當(dāng)λn=1 時(shí)可以得到=0.因此可以使用公式（7）來(lái)綜合考慮本地計(jì)算、部分卸載和完全卸載三種策略的時(shí)間延遲.以最小化整個(gè)MEC 系統(tǒng)中所有UE 的任務(wù)執(zhí)行時(shí)間作為優(yōu)化目標(biāo)，結(jié)合上述網(wǎng)絡(luò)模型、計(jì)算任務(wù)模型、局部計(jì)算模型和邊緣計(jì)算模型，優(yōu)化目標(biāo)和約束條件定義為

在優(yōu)化問題（8）中，如果λn的值只能是0或1，搜索最優(yōu)解的時(shí)間復(fù)雜度將隨著UE數(shù)量的增加而呈指數(shù)級(jí)增加.文獻(xiàn)[9]證明這類問題是一個(gè)NP-hard 問題.為了解決這個(gè)NP-hard 問題，引入了一種基于DRL的部分卸載方案，把λn的值從離散域變?yōu)檫B續(xù)域，有效地減少了MEC 系統(tǒng)的總時(shí)延.約束（9）表示每個(gè)Taskn既可以本地計(jì)算，也可以完全卸載到MEC 服務(wù)器，還可以進(jìn)行任意比例卸載；約束（10）表示各個(gè)任務(wù)被服務(wù)器分配到的算力之和不能超過(guò)服務(wù)器總算力；約束（11）表示對(duì)于被卸載的任務(wù)都必須被分配到算力資源；約束（12）表示每個(gè)任務(wù)的完成時(shí)間don不應(yīng)超過(guò)最大可容忍時(shí)延tn，否則會(huì)影響用戶的體驗(yàn)質(zhì)量.

3 基于Q-learning和DDPG的卸載算法

多用戶多任務(wù)MEC 系統(tǒng)中結(jié)合邊緣服務(wù)器資源分配、部分任務(wù)卸載和緩存決策的問題進(jìn)行建模,目標(biāo)是最小化整個(gè)MEC 系統(tǒng)中所有UE 的任務(wù)執(zhí)行時(shí)間.為求解這個(gè)混合整數(shù)非線性規(guī)劃問題，引入Qlearning算法并提出基于DDPG的優(yōu)化算法DDPG-PO,盡可能地優(yōu)化QoS并減小系統(tǒng)總時(shí)延.

3.1 深度強(qiáng)化學(xué)習(xí)框架

1）狀態(tài)空間.為了將DRL 解決方案應(yīng)用于系統(tǒng)模型和問題框架，需要定義狀態(tài)空間、行動(dòng)空間和獎(jiǎng)勵(lì)函數(shù).理論上需要觀察整個(gè)MEC系統(tǒng)來(lái)確定狀態(tài)空間，包括用戶數(shù)量、任務(wù)情況、計(jì)算資源的使用情況等.但事實(shí)上，完成這件事會(huì)造成額外的系統(tǒng)開銷.隨著MEC 服務(wù)器中UE 數(shù)量的增加，額外的系統(tǒng)開銷將更大.考慮到優(yōu)化目標(biāo)是MEC 系統(tǒng)的總時(shí)延，所以將狀態(tài)定義為，作為整個(gè)MEC 系統(tǒng)的時(shí)延.

2）動(dòng)作空間.為了描述每個(gè)UE的計(jì)算卸載策略，將動(dòng)作空間定義為MEC系統(tǒng)中所有UE的動(dòng)作空間之和.對(duì)于每個(gè)UEn，定義它的動(dòng)作空間為A=[λ1，λ2，…，λn]滿足λi∈[0，1]，這意味著卸載方案不必局限于傳統(tǒng)的二元卸載，進(jìn)而擴(kuò)展了傳統(tǒng)DRL 的動(dòng)作空間，并在更大程度上帶來(lái)了優(yōu)化MEC 系統(tǒng)總延遲的可能性.

3）獎(jiǎng)勵(lì)函數(shù).定義R(S，A)為獎(jiǎng)勵(lì)函數(shù)，表示代理在狀態(tài)S下執(zhí)行計(jì)算卸載策略A時(shí)獲得的獎(jiǎng)勵(lì).為了評(píng)估卸載策略的優(yōu)缺點(diǎn)，獎(jiǎng)勵(lì)函數(shù)應(yīng)該與所有UE 的總時(shí)延成反比.因此定義獎(jiǎng)勵(lì)函數(shù)為R(S，A) =，這表明卸載策略越好，系統(tǒng)時(shí)延越低，回報(bào)也就越大.

3.2 算法設(shè)計(jì)

1）Q-Learning 算法：Q-Learning 算法是一種傳統(tǒng)且廣泛使用的RL 算法，它包含與狀態(tài)和動(dòng)作對(duì)相對(duì)應(yīng)的Q函數(shù).Q函數(shù)表示在狀態(tài)S和動(dòng)作A下可獲得的長(zhǎng)期獎(jiǎng)勵(lì)的估計(jì)，用來(lái)選擇具有最長(zhǎng)獎(jiǎng)勵(lì)的最佳策略.Q函數(shù)的計(jì)算方法為

其中：s′是在狀態(tài)s下采取行動(dòng)a時(shí)達(dá)到的狀態(tài)；α 是學(xué)習(xí)率；γ 是未來(lái)獎(jiǎng)勵(lì)的折現(xiàn)系數(shù)，0 ≤γ≤1，用來(lái)表示未來(lái)獎(jiǎng)勵(lì)的重要性.

根據(jù)以上對(duì)Q-learning算法的描述，還需要對(duì)狀態(tài)空間和動(dòng)作空間進(jìn)行微調(diào)后才能應(yīng)用該算法.對(duì)于狀態(tài)空間，將狀態(tài)四舍五入為一個(gè)整數(shù)；對(duì)于動(dòng)作空間，則預(yù)定義了X+1個(gè)離散部分的計(jì)算卸載比率.定義UEn的卸載策略為，其中X的大小可以調(diào)整，X越大卸載策略越好，但與之對(duì)應(yīng)的是更高的復(fù)雜度.每個(gè)UE 都有各自的動(dòng)作空間，所以需要在Q函數(shù)中添加一個(gè)用戶維度，用Q(S，N，X+1)表示.改進(jìn)后的Q函數(shù)為

在公式（14）中，Q(s，i，λi)表示當(dāng)MEC 系統(tǒng)處于狀態(tài)s時(shí)，第i個(gè)UEi采用計(jì)算卸載策略λi時(shí)可以獲得的長(zhǎng)期獎(jiǎng)勵(lì)的估計(jì).由于Q-table要求其索引為非負(fù)整數(shù)，因此在Q函數(shù)中的λi需要乘以X.公式（14）中的s'表示MEC系統(tǒng)中的所有UE采用卸載策略A之后的狀態(tài)，其中A包含此時(shí)第i個(gè)UE的計(jì)算卸載策略.簡(jiǎn)而言之，MEC系統(tǒng)中所有UE都具有相同的狀態(tài)s'.算法1展示了改進(jìn)后的Q-learning算法.

算法1 預(yù)定義離散卸載率的Q學(xué)習(xí)算法1:初始化Q函數(shù) Q(S，N，X+1);2:for occasion=1 do 3: 用隨機(jī)計(jì)算卸載策略初始化狀態(tài)s;4: repeat 5: 基于貪心策略從 Q-table 中選擇執(zhí)行動(dòng)作 A=[λ1，λ2，…，λn];6: 執(zhí)行動(dòng)作 A;7: 得到獎(jiǎng)勵(lì) r 和下一個(gè)狀態(tài) s';8: for i=1,N do 9: 用公式(14)更新 Q(s，i，λi X);10: end for 11: s ←s′12: until 達(dá)到期望狀態(tài) sterminal 13: end for

2）DDPG-PO 算法.在上一節(jié)中使用Q-Learning 算法通過(guò)手動(dòng)設(shè)置X+1 部分的卸載率來(lái)實(shí)現(xiàn)部分卸載，但因?yàn)槭褂玫氖荙-table來(lái)儲(chǔ)存所有Q值，隨著UE數(shù)量的和預(yù)定義卸載率的增加，找全整個(gè)Q-table的難度也越來(lái)越大.所以引入DDPG-PO算法來(lái)解決這個(gè)問題.DDPG-PO算法包括actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)兩部分.actor網(wǎng)絡(luò)負(fù)責(zé)根據(jù)觀察到的狀態(tài)信息生成策略，而critic網(wǎng)絡(luò)負(fù)責(zé)收集獎(jiǎng)勵(lì)值以評(píng)估和糾正策略.

DDPG-PO 算法將動(dòng)作空間擴(kuò)展到一個(gè)連續(xù)域，并使用一個(gè)特殊的重放緩沖器，該容器存儲(chǔ)一定數(shù)量的記錄，而不是傳統(tǒng)RL算法中的Q-table.每個(gè)記錄由[st，at，rt，st+1]組成，并使用該記錄中的一個(gè)小批元組更新參數(shù).

DDPG-PO 算法包含四個(gè)DNN.它們分別是actor 網(wǎng)絡(luò)μ(s|λμ)，其網(wǎng)絡(luò)參數(shù)用λμ表示；critic 網(wǎng)絡(luò)Q(s，a|λQ)，其網(wǎng)絡(luò)參數(shù)用λQ表示；目標(biāo)actor 網(wǎng)絡(luò)μ'(s|λμ')，其網(wǎng)絡(luò)參數(shù)用λμ'表示；以及目標(biāo)critic 網(wǎng)絡(luò)Q'(s，a|λQ')，其網(wǎng)絡(luò)參數(shù)由λQ'表示.actor網(wǎng)絡(luò)負(fù)責(zé)根據(jù)狀態(tài)選擇要進(jìn)行計(jì)算卸載的動(dòng)作.目標(biāo)critic網(wǎng)絡(luò)和目標(biāo)actor網(wǎng)絡(luò)使用重放緩沖器來(lái)評(píng)估目標(biāo)Q值，而critic網(wǎng)絡(luò)負(fù)責(zé)計(jì)算Q值.目標(biāo)Q值的計(jì)算方法為

對(duì)于critic網(wǎng)絡(luò)的參數(shù)更新，使用梯度下降法來(lái)最小化目標(biāo)Q值和critic網(wǎng)絡(luò)輸出之間的差異.損失函數(shù)是一個(gè)平方損失函數(shù)，其計(jì)算方法為

其中：N是批次號(hào)大小.使用Adam優(yōu)化器[15]來(lái)最小化損失函數(shù).actor網(wǎng)絡(luò)使用梯度上升法更新策略，策略梯度為

對(duì)于目標(biāo)網(wǎng)絡(luò)參數(shù)更新，DDPG-PO 算法使用actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)對(duì)目標(biāo)網(wǎng)絡(luò)執(zhí)行軟目標(biāo)更新.軟目標(biāo)更新的方式為

其中：TOU 是目標(biāo)網(wǎng)絡(luò)的軟更新因子.參數(shù)TOU 滿足0 ＜TOU ＜1.TOU 越小，表明目標(biāo)網(wǎng)絡(luò)參數(shù)更新越慢.算法2展示了MEC系統(tǒng)的DDPG-PO算法的過(guò)程.

算法2 DDPG-PO (partial-offloading) 算法1: 將actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)的參數(shù)分別隨機(jī)初始化為λμ和λQ;2: 設(shè)置λμ′←λμ;3: 設(shè)置λQ′←λQ;4: 初始化重放緩沖器R;5: for occasion=1 do 6: 隨機(jī)初始化動(dòng)作A以獲得相對(duì)應(yīng)的狀態(tài)s1;7: for t=1, T do 8: 根據(jù)actor網(wǎng)絡(luò)和附加噪聲,選擇相應(yīng)的計(jì)算卸載策略 At=μ(st|λμ) +Nt, 其中 Nt 是正態(tài)分布的噪聲擾動(dòng);9: 執(zhí)行計(jì)算卸載策略At,得到獎(jiǎng)勵(lì)rt和下一個(gè)狀態(tài)st+1;10: 將記錄(st，at，rt，st+1)存儲(chǔ)在重放緩沖區(qū)R中;11: 從重放緩沖區(qū)R中隨機(jī)抽取記錄;12: 用公式(15)計(jì)算目標(biāo)Q值;13: 通過(guò)最小化損失函數(shù)公式(16)來(lái)更新critic網(wǎng)絡(luò)的參數(shù);14: 使用基于公式(17)的采樣的策略梯度來(lái)更新actor策略;15: 基于公式(18)和(19)對(duì)目標(biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行軟更新;16: end for 17: end for

在DDPG-PO 算法的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中，把a(bǔ)ctor 網(wǎng)絡(luò)的輸入層的維度設(shè)為1，用于MEC 系統(tǒng)的狀態(tài)輸入；把a(bǔ)ctor網(wǎng)絡(luò)的輸出層的維度設(shè)為N，表示所有UE的卸載策略.因?yàn)閍ctor網(wǎng)絡(luò)需要根據(jù)卸載策略進(jìn)行動(dòng)作，所以引入Sigmoid激活函數(shù)來(lái)縮放其輸出.Sigmoid激活函數(shù)為

critic 網(wǎng)絡(luò)的輸入層由兩個(gè)部分組成，一個(gè)是系統(tǒng)狀態(tài)S，另一個(gè)是每個(gè)UE 的卸載策略向量；輸出層的維度設(shè)為1，表示Q 值的預(yù)測(cè).另外使用全連接層分別組成actor 網(wǎng)絡(luò)和critic 網(wǎng)絡(luò)的隱藏層.目標(biāo)actor網(wǎng)絡(luò)的結(jié)構(gòu)與actor 網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)相同，目標(biāo)critic 網(wǎng)絡(luò)也與critic 網(wǎng)絡(luò)結(jié)構(gòu)相同.圖1 展示了基于DDPG-PO的卸載架構(gòu).

圖1 基于DDPG-PO的卸載架構(gòu)Fig.1 Offloading architecture based on DDPG-PO

4 實(shí)驗(yàn)評(píng)估

為了驗(yàn)證所提出卸載策略的優(yōu)勢(shì)，將其與文獻(xiàn)[8]中的本地UE 計(jì)算（local computing）方案、完全卸載（full offloading）方案和DQN卸載策略進(jìn)行了比較.

在實(shí)驗(yàn)設(shè)置中，用戶數(shù)量可變并且均勻分布在距離服務(wù)器200 m的范圍內(nèi).UE和MEC服務(wù)器之間的信道增益與距離成反比.無(wú)線信道增益設(shè)置為hn=dis-ns，其中s=3，disn是UEn和基站之間的距離.無(wú)線信道的帶寬設(shè)置為W=10 MHz，背景噪聲G0=-174 dBm/Hz，UE 上傳功率pn=500 mW[16].MEC 服務(wù)器的計(jì)算能力設(shè)置為COM=5 GHz/s，并根據(jù)λnCn的大小均勻分布給每個(gè)任務(wù).每個(gè)UE 的計(jì)算能力被設(shè)置為=1 GHz/s.UE 上的任務(wù)量Dn均勻分布為（300 Kbits，500 Kbits），Cn均勻分布為（900 兆周期，1 100 兆周期）[9].最大可容忍延遲設(shè)置為tn=dnl，表明如果計(jì)算卸載不能有效減少任務(wù)時(shí)延，則不需要把任務(wù)卸載給MEC 服務(wù)器，否則會(huì)帶來(lái)額外負(fù)擔(dān).預(yù)定義的離散部分計(jì)算卸載率X=3，學(xué)習(xí)率α=0.1，折現(xiàn)系數(shù)γ=0.8.DDPG-PO算法中的相關(guān)參數(shù)如表2所示.

表2 DDPG-PO算法中的參數(shù)設(shè)置Tab.2 Parameter settings in DDPG-PO algorithm

圖2展示了UE數(shù)量對(duì)系統(tǒng)總時(shí)延的影響.橫坐標(biāo)表示UE的數(shù)量，縱坐標(biāo)表示所有UE的任務(wù)完成時(shí)間之和.MEC 服務(wù)器的計(jì)算能力為COM=5 GHz/s.在通常情況下，所有方案的總延遲都隨著UE 數(shù)量的增加而增加.可以發(fā)現(xiàn)用戶數(shù)量超過(guò)5時(shí)，完全卸載方案的總時(shí)延是最高的.這是因?yàn)榇朔桨钢兴腥蝿?wù)都被卸載給MEC服務(wù)器，且由于計(jì)算能力有限，無(wú)法滿足所有UE的計(jì)算需求.此時(shí)只有提高服務(wù)器的算力才能降低整體的時(shí)延.由實(shí)驗(yàn)結(jié)果可知這兩種算法與其他策略相比更好地減少了時(shí)延.

圖2 不同UE數(shù)量下的總時(shí)延Fig.2 Total delay under different UE numbers

圖3展示了MEC服務(wù)器的計(jì)算能力對(duì)系統(tǒng)總時(shí)延的影響.橫坐標(biāo)是MEC服務(wù)器的計(jì)算能力，縱坐標(biāo)是所有UE的任務(wù)完成時(shí)間之和.UE的數(shù)量為N=5.由于本地計(jì)算不需要服務(wù)器參與，因此其結(jié)果是在圖上是一條直線.通常隨著MEC服務(wù)器計(jì)算能力的提高，系統(tǒng)總時(shí)延會(huì)減少，提高M(jìn)EC服務(wù)器的計(jì)算能力有助于提高系統(tǒng)性能.隨著邊緣服務(wù)器計(jì)算能力提高，DQN接近完全卸載.Q-learning算法和DDPG-PO算法的時(shí)延總是低于DQN，這是因?yàn)镼-learning算法和DDPG-PO算法包含本地資源，但它們之間的差距逐漸減小.當(dāng)COM ≥7 GHz/s時(shí)，系統(tǒng)的總延遲緩慢下降，這是因?yàn)榇藭r(shí)限制系統(tǒng)總延遲的主要因素是傳輸時(shí)延.

圖3 MEC服務(wù)器的計(jì)算能力對(duì)系統(tǒng)總時(shí)延的影響Fig.3 The impact of MEC server's computing power on the total delay

當(dāng)卸載策略A是二進(jìn)制，即采用本地計(jì)算或者完全卸載時(shí)，在UE 數(shù)量少的情況下，可以通過(guò)列舉在可接受的搜索時(shí)間內(nèi)所有UE 的決策情況來(lái)找到最佳的卸載策略A′，從而獲得二進(jìn)制計(jì)算卸載的最小時(shí)延.歸一化時(shí)延定義為

其中：D*(A)表示采用計(jì)算卸載策略A的時(shí)延.

為了驗(yàn)證所提出算法的優(yōu)勢(shì)，對(duì)比對(duì)象采用了文獻(xiàn)[8]中提出的DROO策略.圖4展示了不同UE數(shù)量下三種算法的歸一化時(shí)延，橫坐標(biāo)是UE 的數(shù)量，縱坐標(biāo)是歸一化時(shí)延，MEC 服務(wù)器的計(jì)算能力設(shè)置為COM=5 GHz/s.對(duì)比了DROO算法之后可以發(fā)現(xiàn)，這是一種只支持本地計(jì)算或者完全卸載的二元卸載算法.DROO 算法的歸一化時(shí)延均為1，這說(shuō)明它可以得出在本地計(jì)算或者完全卸載中的最佳卸載策略.但本文提出的部分卸載策略的歸一化時(shí)延均低于1，這說(shuō)明部分卸載策略的時(shí)延要低于本地計(jì)算或者完全卸載.平均下來(lái)，Q-learning算法和DDPG-PO算法分別比DROO算法的時(shí)延低了21%和28%.由此也可以看出部分卸載相對(duì)于二元卸載而言，可以更好地減少系統(tǒng)總時(shí)延，提升用戶體驗(yàn)質(zhì)量.

圖4 Q-learning算法和DDPG-PO算法的歸一化時(shí)延Fig.4 Normalized delay of Q-learning algorithm and DDPG-PO algorithm

圖5展示了不同CPU周期對(duì)系統(tǒng)總時(shí)延的影響.橫坐標(biāo)是完成Taskn所需的CPU周期數(shù)，縱坐標(biāo)是所有UE的任務(wù)完成時(shí)間之和.UE的數(shù)量為N=5，MEC服務(wù)器的計(jì)算能力為COM=5 GHz/s.橫坐標(biāo)的增加表明任務(wù)需要更多的計(jì)算資源.通常隨著每個(gè)任務(wù)所需CPU 周期的增加，所有卸載方案的總時(shí)延都會(huì)增加.從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，完全卸載的時(shí)延最高，本地計(jì)算次之，DQN 算法的時(shí)延相比它們而言低了很多，而這兩種算法的時(shí)延最低，表現(xiàn)優(yōu)于其他幾種卸載策略.實(shí)驗(yàn)結(jié)果也從另一方面印證了所提出的卸載方案可以適應(yīng)高計(jì)算量任務(wù).

圖5 不同CPU周期下的總時(shí)延Fig.5 Total delay under different CPU cycles

圖6展示了兩種算法的收斂性.橫坐標(biāo)是主循環(huán)的迭代次數(shù)，縱坐標(biāo)為偶發(fā)性獎(jiǎng)勵(lì)，表示MEC系統(tǒng)在一個(gè)偶發(fā)情況中獲得的總獎(jiǎng)勵(lì).UE 的數(shù)量N=5，MEC 服務(wù)器的計(jì)算能力為COM=5 GHz/s.由獎(jiǎng)勵(lì)函數(shù)，偶發(fā)性獎(jiǎng)勵(lì)越大，系統(tǒng)總時(shí)延越低.根據(jù)實(shí)驗(yàn)結(jié)果可知，兩種卸載策略隨著迭代次數(shù)的增加，MEC 系統(tǒng)所獲得的偶發(fā)性獎(jiǎng)勵(lì)也隨之增加，這證明了所提出的兩種策略在減少時(shí)延方面是有效的.在算法收斂速度方面，基于Q-learning 的離散計(jì)算卸載策略比基于DDPG-PO 算法的連續(xù)計(jì)算卸載策略收斂更快.在迭代了60次之后，Q-learning算法已經(jīng)達(dá)到穩(wěn)定狀態(tài).其收斂速度與X的值有關(guān)，通常X值越大收斂越慢.相比于Q-learning算法，DDPG-PO算法收斂得更慢但具有更強(qiáng)的降低總時(shí)延的能力.

圖6 Q-learning算法和DDPG-PO算法的收斂性Fig.6 Convergence of Q-learning algorithm and DDPG-PO algorithm

5 結(jié)語(yǔ)

研究物聯(lián)網(wǎng)中多用戶MEC 系統(tǒng)的部分計(jì)算任務(wù)卸載問題，優(yōu)化的目標(biāo)是盡最大可能減少M(fèi)EC 系統(tǒng)的總時(shí)延.建立了一個(gè)適用于部分計(jì)算卸載的深度RL 模型，并提出了Q-learning 算法和DDPG-PO 算法的結(jié)合作為部分計(jì)算卸載策略，將二進(jìn)制計(jì)算卸載方案擴(kuò)展到連續(xù)動(dòng)作域.仿真結(jié)果表明，與傳統(tǒng)的本地計(jì)算和邊緣計(jì)算相比，Q-learning算法和DDPG-PO算法可以有效地降低MEC系統(tǒng)的總時(shí)延.與最佳二進(jìn)制計(jì)算卸載策略相比，Q-learning算法和DDPG-PO算法還將系統(tǒng)時(shí)延分別降低了21%和28%.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡