葛海波,弓海文,宋 興,李 順,孫 奧
(西安郵電大學(xué) 電子工程學(xué)院,陜西 西安 710121)
隨著智能手機、平板電腦等移動設(shè)備的數(shù)量急劇增加,諸如圖像識別、增強現(xiàn)實、虛擬現(xiàn)實等任務(wù)密集型、時延敏感型的應(yīng)用程序大量增長[1]。這些移動應(yīng)用常常需要大量的計算資源,而受限于計算能力與電池容量的移動設(shè)備越來越無法支持這些應(yīng)用[2]。為了克服這一問題,移動云計算(Mobile Cloud Computing,MCC)作為一種新的分布式計算模型被提出[3],MCC允許終端從云計算中心借用計算和存儲資源,滿足資源需求型應(yīng)用程序的需要[4]。盡管MCC可以節(jié)約本地的計算資源,但是,從移動設(shè)備到基站或云服務(wù)器的長距離傳輸可能會導(dǎo)致嚴(yán)重的時間延遲和額外的傳輸能耗[5-6]。
針對MCC存在的問題,歐洲電信標(biāo)準(zhǔn)化協(xié)會(European Telecommunications Standards Institute,ETSI)提出了移動邊緣計算(Mobile Edge Computing,MEC)技術(shù)[7]。由于MEC卸載策略具有非確定性多項式難題(Nondeterministic Polynominal-Hard,NP-Hard),大多數(shù)卸載策略都采用啟發(fā)式算法[8]。例如,文獻[9]提出了一種單用戶的MEC系統(tǒng)優(yōu)化框架,該框架采用一種基于線性規(guī)劃松弛和半確定松弛方法的卸載決策算法,降低了執(zhí)行延遲和能耗。文獻[10]設(shè)計了一種基于遺傳算法的任務(wù)卸載策略,減小了系統(tǒng)的總開銷。文獻[11]將MEC模型中的任務(wù)卸載問題描述為非線性問題,并提出了一種卸載算法來減少任務(wù)延遲并提高用戶設(shè)備(User Equipment,UE)的電池壽命。文獻[12]提出了一種基于能量消耗和等待時間的任務(wù)分擔(dān)算法,其能耗和等待時間加權(quán)總和較低。文獻[13]提出了一種基于改進遺傳算法的邊緣卸載策略,將每個卸載策略作為一條染色體,每條染色體上的基因?qū)?yīng)一個計算任務(wù),以降低系統(tǒng)總開銷。但是,隨著MEC應(yīng)用程序和網(wǎng)絡(luò)架構(gòu)的日益復(fù)雜,導(dǎo)致啟發(fā)式算法生成決策的時間過長,特別是在多用戶的MEC環(huán)境下如何減少計算卸載的系統(tǒng)總時延和系統(tǒng)總成本,還需進一步研究。
為了減少生成決策的時間、降低系統(tǒng)總成本,研究人員開始通過深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的方法來解決MEC卸載決策問題。DRL結(jié)合了強化學(xué)習(xí)與深度學(xué)習(xí)理論,更適用于處理復(fù)雜系統(tǒng)中的決策問題[14]。例如,文獻[15]提出了一種基于深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-Learning Network,DQN)的自主算法,以最小化分布式邊緣網(wǎng)絡(luò)中的網(wǎng)絡(luò)延遲和功耗。文獻[16]使用DQN方法處理新穎的網(wǎng)絡(luò)知識,產(chǎn)生了近似的最優(yōu)調(diào)度容忍機制,減輕了對反饋的嚴(yán)格要求。文獻[17]提出了一種基于DQN的設(shè)備級和邊緣級任務(wù)卸載聯(lián)合優(yōu)化方法,獲得了接近最優(yōu)的任務(wù)延遲性能。文獻[18]提出了一種基于強化學(xué)習(xí)計算的車聯(lián)網(wǎng)邊緣計算架構(gòu)的任務(wù)卸載策略,并采用雙深度Q學(xué)習(xí)網(wǎng)絡(luò)(Double Deep Q-Learning Network,DDQN)方法處理任務(wù)卸載問題,以克服用戶移動引起的網(wǎng)絡(luò)狀態(tài)實時變化,提高了該策略的收斂性。文獻[19]提出了一種利用DDQN方法在給定當(dāng)前環(huán)境狀態(tài)的情況下輸出卸載決策。文獻[20]分別利用DQN算法和深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法研究了任務(wù)的最佳卸載比例、局部計算功率和傳輸功率,以最小化執(zhí)行延遲和UE能耗。但是,目前利用DRL對MEC中卸載問題的研究仍存在兩個方面的不足:一方面,MEC服務(wù)器的計算資源有限,同時卸載太多任務(wù)會導(dǎo)致排隊延遲;另一方面,經(jīng)典DRL方法在訓(xùn)練過程中存在訓(xùn)練速度慢、收斂不穩(wěn)定等問題,影響了卸載計算的效率。
為了更好地利用MEC系統(tǒng)資源,降低系統(tǒng)成本,提高系統(tǒng)的效率,擬設(shè)計一種適用于MEC環(huán)境的二進制計算卸載策略。在有效減小UE和各計算節(jié)點的能耗與時延的基礎(chǔ)上,決定任務(wù)是否應(yīng)該卸載至邊緣服務(wù)器執(zhí)行,以提高MEC系統(tǒng)的效率。在任務(wù)卸載執(zhí)行的時延中引入排隊時延的計算,以最小化能耗與時延加權(quán)和作為計算卸載的目標(biāo),利用優(yōu)先經(jīng)驗重放對DRL算法進行改進,對比改進前后不同用戶設(shè)備數(shù)量和任務(wù)數(shù)據(jù)大小的系統(tǒng)成本以及改進前后系統(tǒng)的平均時延,以提高其在解決實際問題時的效率及穩(wěn)定性。
考慮到移動邊緣計算中具有多服務(wù)節(jié)點和多用戶的系統(tǒng)模型,建立一個多邊緣服務(wù)器和多用戶的MEC系統(tǒng)通信模型。該模型由一個包含多個邊緣服務(wù)器的基站(Base Station,BS)和m個UE組成[20],UE與BS間通過無線網(wǎng)絡(luò)通信,MEC系統(tǒng)示意圖如圖1所示。
圖1 MEC系統(tǒng)示意圖
MEC系統(tǒng)中包含UE1,UE2,…,UEm等m個用戶。設(shè)時間為一組相等間隔的時隙t(t=1,2,…,z),任務(wù)產(chǎn)生的時間間隔服從泊松分布[21]。UE生成的任務(wù)i(i=1,2,…,I)可以建模為一個具有4個元素的元組{Di,bi,Ci,Ti,max},其中,Di表示任務(wù)i數(shù)據(jù)的大小,bi表示計算任務(wù)i每一位數(shù)據(jù)的CPU周期,Ci=Di·bi為任務(wù)i的總CPU周期,Ti,max表示用戶可接受的最大容忍時延。
定義任務(wù)i的二進制計算卸載決策變量為ψi∈{0,1}。當(dāng)ψi=0時,表示任務(wù)i在本地執(zhí)行;ψi=1時,表示任務(wù)i卸載至邊緣服務(wù)器執(zhí)行。
移動UE具有一定的計算能力。假設(shè)移動UE一次只能執(zhí)行一個任務(wù)。假設(shè)第k個(k=1,2,…,m)用戶設(shè)備UEk的容量為Uk,C,任務(wù)開始前每個時隙設(shè)備k的剩余能量為Ek,re,執(zhí)行任務(wù)i的能量消耗為Ei,k。若滿足Di≤Uk,C和Ei,k≤Ek,re,則任務(wù)在本地執(zhí)行。
本地計算模型的執(zhí)行時間僅包括計算時間,不包含傳輸時間。在本地執(zhí)行任務(wù)i的時間成本[19]為
(1)
式中,fk表示UEk的CPU頻率,即UEk的每秒CPU周期,反映了其計算能力。
在UEk上執(zhí)行任務(wù)i的能量消耗[19]為
Ei,k=κ·fk·Ci
(2)
式中,κ表示芯片中的有效開關(guān)電容,其大小取決于器件的芯片架構(gòu)。
用戶移動設(shè)備的計算資源有限,執(zhí)行某些資源密集型應(yīng)用時會產(chǎn)生較高的時延與能耗。當(dāng)本地資源不足時,將任務(wù)卸載到MEC服務(wù)器上處理。
由于任務(wù)計算完成后傳回UE的數(shù)據(jù)量通常遠小于其原始數(shù)據(jù),因此傳回的時間可忽略不計。傳輸時間僅為從UE向MEC服務(wù)器上傳任務(wù)數(shù)據(jù)的時間成本,根據(jù)香農(nóng)公式,UEk與BS的通信速率[22]為
(3)
式中:W表示UEk和BS之間的通信帶寬;pk是UEk的發(fā)射功率;N0是BS的噪聲功率譜密度;gk,B表示UEk和BS之間的信道增益[22],其計算表達式為
(4)
式中:dk,B表示UEk與BS之間的距離;σ為路徑損耗指數(shù)。
發(fā)送任務(wù)i的數(shù)據(jù)產(chǎn)生的延遲[22]為
(5)
在MEC服務(wù)器上執(zhí)行任務(wù)i的延遲[22]為
(6)
式中,fs,k表示服務(wù)器s分配給UEk的計算資源。
任務(wù)i卸載至MEC服務(wù)器進行處理的能耗為上傳能耗和計算能耗的總和。其中任務(wù)i上傳能耗Ei,tr與MEC服務(wù)器執(zhí)行任務(wù)i的能耗[22]Ei,mec分別定義為
Ei,tr=pk·Ti,tr
(7)
Ei,mec=Di·es
(8)
式中,es表示服務(wù)器s在BS上計算的每個數(shù)據(jù)位的能耗。
DRL對于復(fù)雜系統(tǒng)的感知決策問題有較強的解決能力[23],但是,在MEC場景內(nèi)實際應(yīng)用時往往由于很難學(xué)習(xí)到有用的經(jīng)驗,導(dǎo)致無法得到合理卸載策略。為此引入了一種基于優(yōu)先經(jīng)驗重放(Prioritized Experience Replay,PER)改進的DDQN算法(Prioritized Experience Replay Double Deep Q-Learning Network,PERDDQN)來求解最優(yōu)的卸載模式。
任務(wù)卸載執(zhí)行時,移動設(shè)備用戶會對有限計算資源的競爭而產(chǎn)生排隊延遲。設(shè)MEC服務(wù)器中可用的計算資源Vmec,則任務(wù)i等待執(zhí)行產(chǎn)生的排隊時延為
(9)
聯(lián)合式(5)、式(6)和式(9),UEk將任務(wù)i卸載到BS上的服務(wù)器s處理所產(chǎn)生的時間成本為
Ti,off=Ti,tr+Ti,que+Ti,mec
(10)
根據(jù)式(7)和式(8)可得,任務(wù)i卸載執(zhí)行的能耗為
Ei,off=Ei,tr+Ei,mec
(11)
MEC系統(tǒng)中存在多個用戶,每個用戶都遵循二進制卸載決策完成計算任務(wù)。根據(jù)式(1)與式(10),MEC系統(tǒng)執(zhí)行全部任務(wù)的總時延為
(12)
當(dāng)ψi=0時,Ti=Ti,k;當(dāng)ψi=1時,Ti=Ti,off。
同理,執(zhí)行所有任務(wù)的總能耗為
(13)
當(dāng)ψi=0時,Ei=Ei,k;當(dāng)ψi=1時,Ei=Ei,off。
為了同時考慮能量消耗和延遲,總計算成本根據(jù)能量消耗和任務(wù)延遲線性加權(quán)進行量化。聯(lián)合式(12)和式(13),系統(tǒng)總成本可以表示為
(14)
式中,ω∈(0,1)表示為UE的執(zhí)行延遲加權(quán)參數(shù),可以根據(jù)用戶的需求進行調(diào)整,例如,執(zhí)行時延敏感型應(yīng)用程序時可適當(dāng)增大ω的值??紤]到時延敏感型應(yīng)用程序,ω取0.8[24-25]。
多計算節(jié)點多用戶卸載問題的目標(biāo)是在滿足用戶最大容忍時延的條件下,最小化系統(tǒng)總成本,該問題是具有耦合約束的多目標(biāo)優(yōu)化編程。目標(biāo)函數(shù)建模為
(15)
式中:fk,max表示UEk的最大計算功率;pk,max表示UEk的最大發(fā)射功率;Fs,max表示服務(wù)器s的最大計算頻率;C1表示選擇任務(wù)在本地執(zhí)行或卸載至邊緣服務(wù)器執(zhí)行;C2表示執(zhí)行任務(wù)的能耗不能超過UE當(dāng)前剩余能量,若能量不足則任務(wù)需卸載執(zhí)行;C3表示設(shè)備計算頻率最大限制;C4表示傳輸功率最大限制;C5表示服務(wù)器分配的計算資源不能超過其最大計算資源;C6表示任務(wù)需要在可容忍時延內(nèi)完成。
強化學(xué)習(xí)的過程中,將計算卸載問題重新表述為馬爾科夫決策過程(Markov Decision Process,MDP)模型。典型的MDP模型由具有5個元素的元組{S,A,P,R,γ}組成。其中,S代表狀態(tài)空間,A為有限動作空間,P為狀態(tài)轉(zhuǎn)移概率,R代表獎勵函數(shù),γ∈[0,1]是未來獎勵的折扣因子。MDP模型元組中每個元素對應(yīng)的含義如下。
1)狀態(tài)空間。狀態(tài)空間中的每個狀態(tài)都包含一些從環(huán)境中觀察到的信息。將模型中時隙t的狀態(tài)s(t)表示為s(t)={fk,Ek,re,Uk,C,W,Di}。
2)動作空間。為了確定任務(wù)是否應(yīng)卸載到計算節(jié)點上執(zhí)行,動作空間與卸載決策應(yīng)呈對應(yīng)關(guān)系。動作空間的定義為
A={a(1),a(2),…,a(z)}
(16)
在時隙t(t=1,2,…,z),a(t)=0表示任務(wù)在本地執(zhí)行,a(t)=1表示任務(wù)卸載至邊緣服務(wù)器執(zhí)行。
3)獎勵函數(shù)。在執(zhí)行動作a(t)后,將獲得獎勵r(s(t),a(t)),UE選擇要執(zhí)行的動作a(t+1)。獎勵函數(shù)通常與目標(biāo)函數(shù)相關(guān),為了高效判斷任務(wù)是否需要卸載執(zhí)行,將目標(biāo)函數(shù)定義為實現(xiàn)最小化任務(wù)執(zhí)行時間與能耗的加權(quán)和。強化的目標(biāo)是獲得最大獎勵,為此定義獎勵值R與系統(tǒng)總成本C的大小負相關(guān),即
R=-C(t)
(17)
4)轉(zhuǎn)移概率。給定用戶采取的操作a(t),轉(zhuǎn)移概率P{s(t+1)|s(t),a(t)}表示環(huán)境狀態(tài)在下一個時隙中從s(t)轉(zhuǎn)換為s(t+1)的概率。
5)折扣因子。折扣因子γ為未來獎勵權(quán)重。當(dāng)γ趨于0時,表示主要考慮當(dāng)前獲得的獎勵;γ趨于1則表示將更關(guān)注后續(xù)步驟中的累積獎勵。γ的值決定了更傾向于短期回報或長期回報。
PERDDQN算法利用PER在訓(xùn)練過程中對樣本進行優(yōu)先級采樣,用于加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度。PER打破均勻采樣,賦予學(xué)習(xí)效率高的狀態(tài)更大的采樣權(quán)重[26]。PER采用時間差分(Temporal-Difference,TD)誤差來表示每個轉(zhuǎn)移過渡的重要性。
TD誤差為目標(biāo)Q網(wǎng)絡(luò)計算的目標(biāo)Q值和當(dāng)前Q網(wǎng)絡(luò)計算的Q值之差。TD誤差越大代表預(yù)測精度還有很大的上升空間,那么該樣本就越需要被學(xué)習(xí),優(yōu)先級就越高,樣本j優(yōu)先級可以表示為
δj=yj,PER-Q(SJ(T),AJ,θ)
(18)
其中:yj,PER為目標(biāo)的Q值;Q(sj(t),aj,θ)為當(dāng)前網(wǎng)絡(luò)的Q值。
為了避免初始的高TD誤差轉(zhuǎn)移被經(jīng)常重放,帶有低TD誤差的轉(zhuǎn)移在第一次訪問時不會被重放,引入了隨機采樣方法。該方法結(jié)合純貪婪優(yōu)先化和均勻隨機采樣,既保證被采樣的概率是單一的,也能使低優(yōu)先級樣本采樣概率非零。定義樣本j的采樣概率為
(19)
式中:n表示樣本數(shù)量;α確定使用多少優(yōu)先級,當(dāng)α=0時為均勻采樣。
由于優(yōu)先級大小會影響被采樣的概率,導(dǎo)致PERDDQN算法的經(jīng)驗重放池與其他采用Q學(xué)習(xí)的DRL算法不同。使用SumTree結(jié)構(gòu)[26]作為帶有優(yōu)先級的經(jīng)驗重放池,用于樣本的儲存。SumTree結(jié)構(gòu)示意圖如圖2所示。圖中,圈外數(shù)字為節(jié)點序號,圈內(nèi)數(shù)字為節(jié)點值,例如0號節(jié)點的節(jié)點值為29。圖中陰影部分為葉子節(jié)點,所有的經(jīng)驗重放樣本只保存在葉子節(jié)點上,一個節(jié)點對應(yīng)一個樣本。0號到2號節(jié)點不保存樣本數(shù)據(jù),只保存自己子節(jié)點的優(yōu)先級值之和。葉子結(jié)點下面是樣本對應(yīng)的數(shù)值區(qū)間,葉子結(jié)點數(shù)值越大(優(yōu)先級越高)其區(qū)間長度就越大。例如,從區(qū)間0~29中均勻抽樣一個數(shù)據(jù),5號節(jié)點的區(qū)間為14~26,優(yōu)先級為12,比其他節(jié)點更容易被采樣。
圖2 SumTree結(jié)構(gòu)示意圖
從SumTree中采得樣本后,使用均方差損失函數(shù)通過神經(jīng)網(wǎng)絡(luò)的梯度反向傳播來更新Q網(wǎng)絡(luò)的參數(shù),并計算當(dāng)前目標(biāo)Q值。PERDDQN算法的損失函數(shù)L(θ)與當(dāng)前目標(biāo)Q值yj,PER的計算表達式分別為
PER以一種不受控的形式改變了分布,因此引入了誤差,改變了預(yù)測會收斂到的解決方案??梢允褂弥匾圆蓸訖?quán)重來修正該誤差[26]。
網(wǎng)絡(luò)參數(shù)更新完畢后根據(jù)狀態(tài)s′判斷整個算法是否結(jié)束,若結(jié)束則輸出最優(yōu)的卸載決策。根據(jù)以上改進的DRL算法,結(jié)合MDP模型的MEC計算卸載策略的偽代碼如下所示。
為驗證提出的DRL算法在MEC環(huán)境中的有效性,使用TensorFlow-GPU 1.13.1在Python3.7.4中實現(xiàn)了PERDDQN算法。驗證算法的收斂性,并與本地執(zhí)行(All Local Executing,ALE)、完全卸載(All Offload Executing,AOE)、隨機卸載(Random Offloading Executing,ROE)、DDQN[19]和DDPG[20]等算法進行比較,驗證在多用戶MEC系統(tǒng)中的算法的總成本,反映算法的優(yōu)劣。
仿真實驗?zāi)M的集群包括2個邊緣服務(wù)器,5~30個移動用戶設(shè)備。其中,移動用戶設(shè)備隨機分布在距基站150 m范圍內(nèi),每個邊緣服務(wù)器的計算能力設(shè)置為1 GHz~5 GHz。任務(wù)數(shù)據(jù)的隨機大小為100 kb~500 kb。任務(wù)的最大可容忍時延在5 ms~30 ms隨機選擇。
對于深度強化學(xué)習(xí)算法,深度神經(jīng)網(wǎng)絡(luò)的輸入包括狀態(tài)值s(t)和動作值a(t)。在實驗神經(jīng)網(wǎng)絡(luò)的構(gòu)建中,將s(t)作為輸入,輸出層是每個a(t)對應(yīng)的Q值。經(jīng)驗重放池容量為1 000,訓(xùn)練時采用貪婪法選擇動作,貪婪策略概率為0.1,批學(xué)習(xí)大小為32,學(xué)習(xí)率為0.01,折扣因子γ=0.9。
PERDDQN算法、DDPG算法以及DDQN算法的收斂性能如圖3所示。可以看出,3種算法的總獎勵都隨著迭代次數(shù)的增加而增加,直至達到一個相對穩(wěn)定的值。當(dāng)?shù)螖?shù)為分別為50、75和100時,PERDDQN算法、DDPG算法和DDQN算法的獎勵值不再增加并趨于穩(wěn)定值,分別在-20、-25、-30左右。可見,PERDDQN算法是收斂的,且收斂速度比DDPG和DDQN快、獎勵值也大于其他兩種比較算法,這使得該算法能夠更好地應(yīng)對動態(tài)的MEC環(huán)境。
圖3 3種算法的收斂性
不同數(shù)量UE以及不同任務(wù)數(shù)據(jù)量大小的成本不同。6種算法的總成本如圖4所示。可以看出,6種算法的總成本隨著UE數(shù)量和任務(wù)數(shù)據(jù)大小的增加。這是因為,UE數(shù)量和任務(wù)數(shù)據(jù)越大,執(zhí)行時間和傳輸時間就越長,處理具有較大數(shù)據(jù)量的任務(wù)所消耗的能量也更多。當(dāng)UE數(shù)量為20時,應(yīng)用PERDDQN算法的系統(tǒng)總成本為2.49,其余算法的系統(tǒng)總成本均超過3.00;當(dāng)任務(wù)數(shù)據(jù)大小為500 kb時,應(yīng)用PERDDQN算法的系統(tǒng)總成本為2.42,其余算法的系統(tǒng)總成本均超過2.80。由此可見,在UE數(shù)量和任務(wù)大小相同的情況下,PERDDQN算法的系統(tǒng)總成本始終是最小的,分別比未改進的DDQN算法減少了17.6%和23.0%。這是因為,與DDQN和DDPG算法相比,PERDDQN算法收斂速度更快,可以更快地獲得最優(yōu)策略,從而系統(tǒng)總成本較低,而ALE和AOE算法不能充分利用整個系統(tǒng)的計算資源,因此,具有較高的成本。
圖4 6種算法的總成本
圖5顯示了使用不同的優(yōu)化算法時,平均時延隨MEC服務(wù)器計算能力的增加而變化的情況。由于ALE算法不涉及MEC服務(wù)器,因此不做討論。除了ALE之外,其他方法的平均時延均隨著MEC服務(wù)器計算能力的提升而逐漸降低,這是由于MEC服務(wù)器的計算能力逐漸滿足所有UE卸載任務(wù)的計算需求。當(dāng)MEC服務(wù)器計算能力為1 GHz時,PERDDQN算法、DDPG算法、DDQN算法的平均時延分別為14.01 ms、15.10 ms、16.90 ms;當(dāng)MEC服務(wù)器計算能力增加為5 GHz時,PERDDQN算法、DDPG算法、DDQN算法的平均時延分別為8.21 ms、9.28 ms、9.71 ms。由此可見,與其他兩種DRL算法相比,PERDDQN算法的任務(wù)卸載解決方案的平均時延較低。因為該算法頻繁重放具有價值的樣本數(shù)據(jù),對于復(fù)雜的環(huán)境具有更好的適應(yīng)性,在解決復(fù)雜的組合優(yōu)化問題時的效果較好。
圖5 不同MEC計算能力的平均時延
針對多移動用戶設(shè)備和多服務(wù)器的MEC環(huán)境,在滿足用戶最大容忍時延的前提下考慮了時延與能耗,提出了一種以最小化系統(tǒng)總成本為目標(biāo)的任務(wù)卸載優(yōu)化策略。將目標(biāo)函數(shù)建模為MDP模型,提出基于PER改進的PERDDQN卸載決策算法。該算法利用PER對DRL算法進行改進,并對歷史經(jīng)驗賦予優(yōu)先級,優(yōu)先采樣高優(yōu)先級的經(jīng)驗,以提高學(xué)習(xí)效率,快速、準(zhǔn)確地做出合理的卸載決策。仿真結(jié)果表明,PERDDQN卸載決策算法的系統(tǒng)總成本較低、系統(tǒng)的平均時延較小。
研究基于單基站多用戶的MEC模型,僅將任務(wù)作為一個整體卸載,實際中的MEC系統(tǒng)通常包含多個基站,高復(fù)雜度的計算任務(wù)也可進一步劃分為更小的子任務(wù)進行卸載。因此,下一步工作將基于DRL對包含多個基站、多個移動設(shè)備MEC系統(tǒng)的細粒度任務(wù)卸載問題進行研究。