王鑒威,李學(xué)華,陳碩
(北京信息科技大學(xué) 現(xiàn)代測控技術(shù)教育部重點實驗室,北京 100101)
隨著物聯(lián)網(wǎng)技術(shù)不斷發(fā)展以及第五代移動通信技術(shù)大規(guī)模商用,越來越多的計算密集型應(yīng)用對時延具有較強的敏感度,對設(shè)備的計算能力提出了較高的要求。移動邊緣計算(mobile edge computing,MEC)通過在移動網(wǎng)絡(luò)邊緣部署計算和存儲資源,可以有效地給予用戶超低延時和高帶寬的網(wǎng)絡(luò)服務(wù)解決方案[1]。
然而,現(xiàn)有MEC服務(wù)器部署往往依賴地面通信基礎(chǔ)服務(wù)設(shè)施。在偏遠區(qū)域或緊急情況下,難以滿足移動用戶的通信需求。無人機(unmanned aerial vehicle,UAV)因其靈活度高、移動性強和部署成本低等特點[2],可以在空中建立移動通信基站為地面移動設(shè)備提供通信服務(wù),依靠視距(light of sight,LoS)傳輸信道[3]以及靈活部署位置獲取最佳信道條件等優(yōu)勢,構(gòu)筑空-地一體的通信網(wǎng)絡(luò)。
雖然無人機能夠通過自身移動性,靈活規(guī)劃無人機軌跡進行MEC服務(wù),但是無人機輔助移動邊緣計算仍存在諸多挑戰(zhàn)。一方面,傳統(tǒng)計算卸載方案,將計算任務(wù)全部卸載到邊緣服務(wù)器上執(zhí)行,舍棄了地面設(shè)備端的計算資源,沒有充分利用場景內(nèi)的算力;另一方面,傳統(tǒng)研究采用單個無人機對地面用戶進行移動邊緣計算服務(wù),相比于多個無人機對地面用戶服務(wù)的效率較低。如今,多無人機軌跡規(guī)劃算法已有大量的研究。如文獻[4],為最小化平均相應(yīng)時間,采用粒子群優(yōu)化算法與遺傳算法算子相結(jié)合的方式來優(yōu)化無人機部署。文獻[5]在資源分配凸優(yōu)化和組合無人機分組優(yōu)化方案的耦合步驟中,通過調(diào)控優(yōu)化無人機發(fā)射功率、計算資源分配,在最大化資源利用率的同時最大限度減少無人機傳輸能量和計算能量消耗。
然而,上述方法難以真正應(yīng)用于實際場景[6]。一方面,用戶位置、無人機-用戶信道狀況等用戶側(cè)信息常常無法獲得或提前預(yù)測;另一方面,實際通信環(huán)境通常較復(fù)雜,無法準確建模。因此,在無法提前掌握環(huán)境信息的場景下進行無人機軌跡規(guī)劃是亟需解決的關(guān)鍵技術(shù)。
近年來,多智能體強化學(xué)習(xí)(multi-agent reinforcement learning,MARL)已成為熱門研究課題。多智能體強化學(xué)習(xí)可以基于分布式架構(gòu)的無人機通信網(wǎng)絡(luò),提供一種有效的智能資源管理解決方案,特別是在一些無人機只能獲取局部本地信息的真實場景下。如文獻[7],當環(huán)境動態(tài)和部分可觀察時,基于多智能體強化學(xué)習(xí)設(shè)計多無人機在多重約束下學(xué)習(xí)最優(yōu)軌跡規(guī)劃策略。文獻[8]采用多智能體強化學(xué)習(xí)框架,每個智能體根據(jù)局部觀察學(xué)習(xí),所有智能體獨立地執(zhí)行決策算法。分布式架構(gòu)有效地降低了計算的復(fù)雜性。然而,在經(jīng)典的分布式學(xué)習(xí)方法中,大多數(shù)智能體的決策都是局部的。這些代理之間相互獨立、缺乏信息共享,難以實現(xiàn)全局最優(yōu)結(jié)果。此外,即使有些方案在智能體間進行了信息交互,但此類方法沒有考慮用戶數(shù)據(jù)的隱私性,會對用戶通信數(shù)據(jù)的安全構(gòu)成威脅。
聯(lián)邦學(xué)習(xí)(federated learning,FL)作為一種分布式機器學(xué)習(xí)算法,將訓(xùn)練數(shù)據(jù)保存在本地設(shè)備,通過匯總本地模型更新到云服務(wù)器,學(xué)習(xí)得到全局模型,可同時實現(xiàn)隱私保護和信息共享。Wang等[9]在多無人機網(wǎng)絡(luò)采用聯(lián)邦學(xué)習(xí)框架,無需將原始敏感數(shù)據(jù)傳至服務(wù)器,在保護用戶設(shè)備隱私的同時節(jié)省無人機有限的計算和通信資源。余雪勇等[10]面對感知數(shù)據(jù)隱私安全問題,采用聯(lián)邦學(xué)習(xí)與強化學(xué)習(xí)的激勵機制相結(jié)合的方式促進高質(zhì)量模型共享,提高了無人機的實用性并保障了隱私保護。從上述文獻能夠看出,聯(lián)邦學(xué)習(xí)既能夠?qū)崿F(xiàn)用戶間的信息共享,又很好地彌補了傳統(tǒng)分布式架構(gòu)在隱私安全方面的缺陷。
因此,本文提出了一種移動邊緣計算場景下基于聯(lián)邦深度強化學(xué)習(xí)的多無人機軌跡規(guī)劃算法,有效地解決了無人機輔助移動邊緣計算場景中地面用戶設(shè)備時延敏感、無人機卸載服務(wù)不均衡的情況。本算法結(jié)合了聯(lián)邦學(xué)習(xí)與雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法,既實現(xiàn)了在環(huán)境信息無法預(yù)知的情況下進行路徑規(guī)劃,又確保了信息共享以實現(xiàn)全局最優(yōu),同時保護了無人機的數(shù)據(jù)隱私。
將無人機的飛行時間劃分為T個時隙,每個時隙長度為τ。無人機以固定安全高度H在目標區(qū)域上空飛行,第m(m=1,2,…,M)架無人機的飛行坐標為[Xm(t),Ym(t),H],其中Xm(t)、Ym(t)分別為無人機m在第t(t=1,2,…,T)時隙的橫、縱坐標。令dm,t和θm,t分別為無人機在t時隙的飛行距離和水平方向角度,且滿足dmax為無人機單位時隙內(nèi)最大飛行距離。因此第m架無人機在第t時隙的橫縱坐標分別為
圖1 無人機輔助移動邊緣計算系統(tǒng)模型Fig.1 UAV aided mobile edge computing system model
(1)
為保證無人機在飛行過程中的安全,限定邊界,防止無人機飛出任務(wù)區(qū)域,即0≤Xm(t)≤Xmax和0≤Ym(t)≤Ymax,其中Xmax和Ymax為該區(qū)域的長度和寬度。多無人機協(xié)同工作時,為避免無人機之間出現(xiàn)碰撞造成損失,需得到無人機m與無人機m′之間的距離,表示如下:
(2)
設(shè)置無人機m與無人機m′之間的最小距離為Rm,并滿足:
Rm,m′,t≥Rm
(3)
對于空對地信道,當無人機在一定高度上時,地面用戶n與無人機m之間的傳播條件可以近似為由視距鏈路[12]主導(dǎo)的自由空間路徑損耗模型[13]。因此,無人機m和地面用戶設(shè)備n之間的信道功率增益可以被量化為
(4)
式中:h0為參考距離d0=1 m時無線信道內(nèi)的信道增益大小;dn,m,t為第n個地面用戶與第m架無人機之間的距離。利用歐幾里得坐標系表示為
(5)
因此,第n個地面用戶與第m架無人機之間的數(shù)據(jù)傳輸速率[14]可以進一步表示為
(6)
式中:B為信道的帶寬,本文設(shè)定所有無人機通過頻分多址(frequency division multiple access,FDMA)的方式為所有地面用戶提供同等帶寬分配的服務(wù);Pn為用戶設(shè)備n的傳輸功率;σ2為信道中的背景噪聲功率。
同時考慮到傳輸距離損耗和不同信道之間的干擾,設(shè)定無人機可為地面用戶提供計算卸載的最大傳輸距離,即覆蓋范圍為Rmax,并滿足如下覆蓋范圍約束:
dn,m,t≤Rmax
(7)
本文假定,每個地面用戶均可選擇本地計算或部分卸載至無人機進行輔助計算。同時,無人機可為覆蓋范圍內(nèi)的任意地面用戶提供比例卸載服務(wù)。卸載比例αn,m,t∈[0,1],αn,m,t=0表示完全卸載至無人機m進行計算,αn,m,t=1表示由地面用戶進行計算。為簡化數(shù)據(jù)分割難度,同一時隙內(nèi)單個地面用戶設(shè)備規(guī)定只能與一架無人機關(guān)聯(lián)進行計算卸載。
在任意時隙t,各地面用戶設(shè)備均會產(chǎn)生一個待處理的計算密集型任務(wù)Sn,t,并假設(shè)終端設(shè)備產(chǎn)生的任務(wù)數(shù)據(jù)均可逐位獨立并可按任意比例進行劃分,定義為
Sn,t={Dn,t,Fn,t}
(8)
式中:Dn,t為待處理的數(shù)據(jù)量;Fn,t為執(zhí)行此任務(wù)所需的CPU周期總數(shù)。
1.3.1 地面用戶本地計算
(9)
式中:fn,t為用戶設(shè)備處理器的CPU計算頻率。
1.3.2 地面用戶設(shè)備卸載到無人機
(10)
在無人機端任務(wù)的執(zhí)行時間可以表示為
(11)
式中:fm,t為無人機服務(wù)器的CPU計算頻率。
由于無人機端計算處理結(jié)束后產(chǎn)生的數(shù)據(jù)結(jié)果通常較小,因此忽略數(shù)據(jù)回傳時延。
1.3.3 對于單個地面用戶設(shè)備的總時延
雖然終端設(shè)備可以同時將任務(wù)卸載到無人機,但各終端設(shè)備卸載的任務(wù)在無人機上為串行執(zhí)行,故需要排隊處理,采用先進先出(first input first output,FIFO)方式對終端設(shè)備卸載到無人機的數(shù)據(jù)進行處理。無人機計算卸載時延由傳輸時延、等待和計算時延構(gòu)成。
因為采取了部分卸載的方式,充分利用了無人機端和地面用戶設(shè)備端的計算資源。因此,對于單個地面用戶,在計算總時延時需要并行考慮這兩端的時延。對每一個地面用戶設(shè)備所產(chǎn)生的待計算任務(wù)工作時延Tn,t為
(12)
最后,為了保障所有地面用戶設(shè)備的計算能夠在規(guī)定時間內(nèi)完成,還規(guī)定了每個時隙內(nèi)的最大任務(wù)時間Tmax,并滿足:
Tn,t (13) (14) 為了同時兼顧地面用戶任務(wù)處理時延以及無人機服務(wù)地面用戶的公平性,本文提出了多無人機輔助移動邊緣計算系統(tǒng)中的聯(lián)合優(yōu)化問題,通過聯(lián)合優(yōu)化無人機的軌跡和計算卸載決策,使服務(wù)公平性和任務(wù)計算時延的加權(quán)和最大化。用β代表權(quán)重系數(shù),最終優(yōu)化問題可以描述如下: (15) 在本節(jié)中,提出一種融合聯(lián)邦學(xué)習(xí)和雙延遲深度確定性策略梯度(FL-TD3)的算法,解決移動邊緣計算中多無人機軌跡規(guī)劃問題。由于在環(huán)境中沒有可以獲取全局信息的中央控制器,每架無人機只能根據(jù)自身傳感器獲取環(huán)境中的相關(guān)信息,而無法得知其他無人機的相關(guān)信息。各無人機分別與環(huán)境交互,依據(jù)自身觀察到的局部信息獲取動作獎勵值,得到相應(yīng)策略。這種訓(xùn)練方式使無人機獲取信息不夠全面,根據(jù)這些局部信息學(xué)習(xí)得到的策略容易陷入局部最優(yōu)。因此,為了保證不陷入局部最優(yōu)解,需要對無人機進行一定的協(xié)作來實現(xiàn)信息共享,從而達到全局最優(yōu)。 為保證訓(xùn)練效果,本文用聯(lián)邦深度強化學(xué)習(xí)的方式對無人機輔助移動邊緣計算進行訓(xùn)練,如圖2所示。 圖2 基于聯(lián)邦深度強化學(xué)習(xí)算法框架Fig.2 Framework of federated deep reinforcement learning algorithm 首先,無人機根據(jù)自身情況與環(huán)境進行交互,訓(xùn)練得到局部最優(yōu)策略;然后,為保證多無人機決策不陷入局部最優(yōu)解,定期將無人機訓(xùn)練所得局部模型傳輸至云服務(wù)器進行聯(lián)邦學(xué)習(xí)中心聚合,之后再將聚合所得模型下發(fā)回各無人機。與集中式架構(gòu)的中央控制器決策方案相比,云服務(wù)器不進行全局模型訓(xùn)練,僅通過更新模型參數(shù)的方式實現(xiàn)無人機之間的信息共享。無人機重復(fù)上述學(xué)習(xí)方式,直至收斂完成訓(xùn)練。這樣,無人機就可以直接根據(jù)環(huán)境信息生成相應(yīng)的部署和資源分配決策,無需將大量數(shù)據(jù)傳輸至云服務(wù)器在云端集中訓(xùn)練,極大縮減數(shù)據(jù)傳輸量以及訓(xùn)練復(fù)雜度。 在此算法中,每架無人機作為一個智能體,每個智能體可以進行獨立學(xué)習(xí),根據(jù)當前環(huán)境狀態(tài)確定下一步的動作。無人機的軌跡位置狀態(tài)和計算卸載服務(wù)狀態(tài)都具有馬爾可夫性質(zhì),即下一個時刻的狀態(tài)只與當前狀態(tài)有關(guān),與之前的狀態(tài)均無關(guān)。因此,這樣的優(yōu)化問題可以被建立為離散時間馬爾可夫決策過程(Markov decision process,MDP)。在數(shù)學(xué)上,將MDP重新定義為三元組(sm,am,rm)。其中,sm和am分別代表無人機m的狀態(tài)空間和動作空間,rm代表無人機m在當前狀態(tài)sm做出動作am的獎勵函數(shù)。 因此可以定義每個智能體在t時隙的狀態(tài)、動作、獎勵函數(shù)如下: 2)動作am(t)。定義在t時隙無人機m的飛行位移和卸載比例am(t)={dm,t,θm,t,αn,m,t} 。 3)獎勵函數(shù)rm(t)。定義獎勵函數(shù)為 (16) 式中:pr為無人機m飛出限定范圍的懲罰;pm為無人機m與其他無人機相撞的懲罰。 綜上所述,每架無人機都可以根據(jù)當前的環(huán)境狀態(tài)信息做出相應(yīng)的執(zhí)行策略。根據(jù)多架無人機的聯(lián)合動作將環(huán)境更新到下一狀態(tài),同時每架無人機得到相應(yīng)的獎勵。每架無人機通過試錯的方法不斷地與環(huán)境交互,最終學(xué)習(xí)到一個最優(yōu)的策略π(s),使其能夠做出最優(yōu)決策,得到長期獎勵最大化,可以將長期獎勵定義為 (17) 式中:r(·)為獎勵函數(shù);γ為獎勵的折扣因子,γ∈(0,1)。 深度強化學(xué)習(xí)因其加強了神經(jīng)網(wǎng)絡(luò)的層級,可用于處理無人機更加復(fù)雜的的控制問題。使用深度神經(jīng)網(wǎng)絡(luò)的輸出近似擬合未來獎勵的期望值Q(s,a),Q(s,a)是在狀態(tài)s中執(zhí)行動作a,以取得獎勵的預(yù)期收益。連續(xù)性動作控制算法包括深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法和TD3算法,通過最小化損失函數(shù)更新神經(jīng)網(wǎng)絡(luò)的參數(shù)θ獲得更準確的Q值,提升智能體的性能。 TD3作為一種連續(xù)動作控制算法,在智能控制領(lǐng)域擁有良好的效果。與同為連續(xù)動作空間控制算法的DDPG相比,這一經(jīng)典算法解決了高估誤差問題。TD3使用3種技術(shù)對這個問題進行優(yōu)化。 首先,TD3算法采用兩套Critic網(wǎng)絡(luò)及Critic Target網(wǎng)絡(luò),對于每次更新,選取較小的Q值。 其次,采用延遲更新策略,當模型的價值函數(shù)產(chǎn)生較大變化時,才會更新其策略;否則,不會更新。這樣可降低價值估計的差異,產(chǎn)生更好的策略,在更新時可以獲得更穩(wěn)定的性能。 最后,采用目標策略正則化減少方差增加,因為在更新Critic網(wǎng)絡(luò)時,確定性策略的學(xué)習(xí)目標容易受到函數(shù)近似值誤差的影響,導(dǎo)致目標的方差增加。此外,TD3的動作輸出會受到噪聲影響,我們通過平均訓(xùn)練批次中的噪聲平滑估計值。所添加的噪聲服從正態(tài)分布,并且對采樣的噪聲進行適當裁剪,使動作更接近原始動作。 從以上所述可以看到,在每架無人機上分別部署了基于TD3的無人機輔助移動邊緣計算軌跡規(guī)劃算法。每架無人機分別根據(jù)自身所處環(huán)境學(xué)得局部最優(yōu)策略。然而,本文的場景設(shè)置為多無人機協(xié)作共同服務(wù)地面用戶,如果單架無人機只追求自身的獎勵最大化,會影響其他無人機的訓(xùn)練結(jié)果。而在此項任務(wù)當中無人機相互之間處于合作關(guān)系而非獨立或者競爭的關(guān)系,那么應(yīng)當設(shè)計出一種能夠在全局的角度下最優(yōu)結(jié)果,而非單架無人機局部最優(yōu)。因此,本文引入聯(lián)邦學(xué)習(xí)框架,從而達到多無人機協(xié)同過程中的全局最優(yōu)。 采用聯(lián)邦平均(federated averaging,FedAvg)的方式對深度強化學(xué)習(xí)模型進行平均聚合,按式(18)更新: (18) 式中:θglobal為全局網(wǎng)絡(luò)模型參數(shù);θm為無人機上部署的局部模型參數(shù)。 在聯(lián)邦深度強化學(xué)習(xí)框架下,模型訓(xùn)練僅在各無人機端利用私有數(shù)據(jù)進行訓(xùn)練,而中心服務(wù)器只進行模型聚合。與傳統(tǒng)的集中式學(xué)習(xí)相比,本方案并沒有將所有數(shù)據(jù)傳至中心服務(wù)器進行集中式訓(xùn)練,既降低了訓(xùn)練復(fù)雜度又保護了數(shù)據(jù)隱私。 在本文提出的移動邊緣計算中基于聯(lián)邦深度強化學(xué)習(xí)的無人機輔助軌跡規(guī)劃方案中,無人機是聯(lián)邦學(xué)習(xí)框架中客戶端學(xué)習(xí)與訓(xùn)練的主體,基站配屬的服務(wù)器是聯(lián)邦學(xué)習(xí)框架中的云端。每架無人機都被建模為一個智能體,可以進行獨立的探索和學(xué)習(xí)。算法將聯(lián)邦學(xué)習(xí)和深度強化學(xué)習(xí)相結(jié)合,組成多智能體協(xié)作通信網(wǎng)絡(luò)。具體過程如算法1所示。 該算法分為3個部分。首先,初始化整個多無人機通信環(huán)境和每架無人機的網(wǎng)絡(luò)參數(shù)。之后,每架無人機通過與環(huán)境交互獲得狀態(tài)信息。無人機根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果執(zhí)行動作,獲得相應(yīng)的獎勵和下一個狀態(tài)。重復(fù)無人機與環(huán)境交互達到一定次數(shù)后,將學(xué)習(xí)所得網(wǎng)絡(luò)模型參數(shù)傳輸至FL云服務(wù)器。最后,FL云服務(wù)器在特定周期得到各無人機上傳的網(wǎng)絡(luò)模型參數(shù)。云服務(wù)器聚合各局部模型參數(shù)并生成新的全局模型參數(shù),再下發(fā)回各無人機繼續(xù)訓(xùn)練。重復(fù)上述訓(xùn)練過程,直到達到迭代次數(shù)為止。 算法1:移動邊緣計算中基于聯(lián)邦深度強化學(xué)習(xí)的多無人機軌跡規(guī)劃算法1.建立環(huán)境和算法參數(shù);2.for all UAV m,m∈Mdo3. 初始化回放緩存 m。4. 初始化Critic網(wǎng)絡(luò)Qmθ1、Qmθ2和Actor網(wǎng)絡(luò)πm?,以及隨機參數(shù)θm1、θm2、?m。5.初始化Critic Target網(wǎng)絡(luò)Qm,Targetθ1、Qm,Targetθ2和Ac-tor Target網(wǎng)絡(luò)θm,Targetπ?,以及模型參數(shù):θm,Target1θm1、θm,Target2θm2、?m,Target1?m。6.end for7.forp=1 to emaxdo8. 初始化環(huán)境以及全局狀態(tài)S(t);9. fort=1 to Tdo10. for all UAV m,m∈M do11. 從FL中心服務(wù)器獲取全局權(quán)重θglobal;12. 獲取狀態(tài)sm(t)同時依據(jù)模型策略選 取動作; 13. end for14. 根據(jù)所有無人機的聯(lián)合動作A(t)更新最新 的全局狀態(tài)S(t+1);15. for all UAV m,m∈Mdo16. 獲取新的狀態(tài)值sm(t)以及相應(yīng)的獎勵 rm(t);17. 存儲(sm(t),am(t),rm(t),sm(t+1))到 回放緩存 m中;18. 從回放緩存 m中隨機采樣過渡的小批 量樣本(sj,aji,rji,s′j);19. 通過目標值ym計算最小化損失函數(shù),更 新Critic網(wǎng)絡(luò)的權(quán)重θm1、θm2: θmi←argminθmiN-1∑(ym-Qmθi(s,a))2 ?i∈1,220. Ift mod 3 then21. 更新Actor網(wǎng)絡(luò)的權(quán)重 ?m: Δ?mJ(?m)=N-1∑ΔaQmθmi(s,a)a=πm?(s)Δ?mπ?m(s)22. 更新Actor Target網(wǎng)絡(luò)和Critic Target 網(wǎng)絡(luò)的權(quán)重: θm,Targeti←τθmi+(1-τ)θm,Target ?i∈1,2 ?m,Target←τ?m+(1-τ)?m,Target?i∈1,223. End if24. 發(fā)送模型權(quán)重θm1、θm2、?m到聯(lián)邦學(xué)習(xí)中心 服務(wù)器;25. end for26. 聯(lián)邦學(xué)習(xí)云服務(wù)器對所有無人機的權(quán)重進 行平均,以更新全局權(quán)重θglobal;27. end for28.end for 本節(jié)通過實驗仿真說明移動邊緣計算中基于聯(lián)邦深度強化學(xué)習(xí)的多無人機軌跡規(guī)劃算法的性能。首先,描述系統(tǒng)模型參數(shù)設(shè)置。其次,分析仿真結(jié)果以及性能,并與其他算法進行性能比較。 設(shè)定150 m×150 m的任務(wù)區(qū)域,部署3架無人機以及20個地面用戶隨機分布在任務(wù)區(qū)域內(nèi),如果無人機飛出限定區(qū)域?qū)⒈粡娭品祷亍榱撕喕療o人機飛行環(huán)境,設(shè)置無人機飛行高度為15 m。3架無人機的起始位置分別為[20,20]、[20,120]、[120,120] m。在此區(qū)域內(nèi)部署隨機分布的20個地面用戶,每個地面用戶在各時隙開始時均會產(chǎn)生一個數(shù)據(jù)大小為D以及每比特需要CPU輪數(shù)為F的待處理計算密集型任務(wù)Sn,t。具體相關(guān)參數(shù)見表1。 表1 系統(tǒng)模型與優(yōu)化模型參數(shù)Table 1 System model and optimization model parameters 為分析本文算法性能,與其他3種算法進行對比: 1)分布式雙延遲深度確定性策略梯度(distributed twin delayed deep deterministic policy gradient,DIS-TD3)[15]多無人機輔助移動邊緣計算算法:部署多架無人機,采用分布式架構(gòu),TD3算法獨立部署在各無人機上僅依靠自身局部信息訓(xùn)練學(xué)習(xí),最終做出決策。 2)雙延遲深度確定性策略梯度單無人機輔助移動邊緣計算(single UAV twin delayed deep deterministic policy gradient,SINGLE-TD3)[16]算法:僅使用單個無人機,利用雙延遲深度確定性策略梯度算法對無人機進行軌跡規(guī)劃。 3)在地面用戶設(shè)備本地執(zhí)行所有計算任務(wù),簡稱為LOCAL-ONLY:無人機不參與計算任務(wù),僅依靠地面用戶自身對產(chǎn)生的計算任務(wù)進行處理。 首先,描述多無人機輔助移動邊緣計算的軌跡,如圖3。在150 m×150 m的規(guī)定范圍內(nèi)部署了3架無人機以及20個地面用戶隨機分布在任務(wù)區(qū)域內(nèi),圓點代表地面用戶的位置,菱形、三角形、十字形分別為3架無人機的軌跡。 圖3 各地面用戶位置分布及無人機軌跡Fig.3 Location distribution of ground users and drone trajectories 從圖3可以看出,因計算卸載覆蓋范圍有限,無人機必須移動位置以保證服務(wù)更多地面用戶,從而提高服務(wù)地面用戶公平性。同時為減小卸載到無人機計算任務(wù)的傳輸時延,無人機盡可能貼近地面用戶以減小傳輸距離。所有無人機都在一定區(qū)域內(nèi)飛行,無人機1聚集在左下,貼近地面用戶聚集處。無人機3從右上逐漸遷移至右下,以服務(wù)更多用戶。 圖4為FL-TD3的收斂性能。本文共部署了3架無人機協(xié)同對地面用戶設(shè)備進行計算卸載服務(wù)。收斂性能描述了訓(xùn)練過程中3架無人機的總獎勵值變化。剛開始總獎勵持續(xù)增加,到1 000次左右逐漸趨于平緩,經(jīng)過約2 800次訓(xùn)練后趨于收斂。 圖4 FL-TD3算法收斂情況Fig.4 Convergence of FL-TD3 algorithm 圖5為系統(tǒng)中服務(wù)公平性和時延累計隨時隙變化的仿真結(jié)果。在整個多無人機輔助計算卸載過程中,共設(shè)置了10個時隙為地面用戶提供服務(wù)。其中,為了對比優(yōu)化問題中權(quán)重系數(shù)β對性能的影響,在本文提出的FL-TD3上設(shè)立權(quán)重系數(shù)為β=0.3的對比算法,即圖中的FL-TD3-0.3算法,對比權(quán)重系數(shù)對公平性和時延性能的影響。在圖5(a)中,所有算法的公平性均隨著時隙的增長而升高。這是因為隨著時隙的增長無人機不斷增加對地面用戶的計算卸載數(shù)量,從而使服務(wù)公平性不斷增高。圖5(b)為時延的累計,它隨著時隙的增長不斷升高。首先,FL-TD3-0.3相比FL-TD3的公平性較差而時延較好,這是因為當權(quán)重系數(shù)β變小時,算法將更重視對時延的優(yōu)化而減輕對公平性的注重。因此FL-TD3-0.3的時延優(yōu)于其他所有算法。還可以看出,因為FL-TD3-0.3權(quán)重系數(shù)β較小,隨著時隙的增長,FL-TD3-0.3的公平性相比于另兩個多無人機算法的差距越來越大。其次,本文提出的FL-TD3算法優(yōu)于DIS-TD3算法,這是因為本研究將聯(lián)邦學(xué)習(xí)融入了多智能體深度強化學(xué)習(xí)框架中,聯(lián)邦學(xué)習(xí)的加入讓無人機之間能夠信息共享,因此性能更優(yōu)。最后,分析無人機數(shù)量對服務(wù)性能的影響,單無人機與多無人機相對比,僅依靠單個無人機對地面用戶進行計算卸載任務(wù)服務(wù),能夠看出其性能低于多無人機算法。LOCAL-ONLY算法不能充分利用整個系統(tǒng)的計算資源,性能在所有算法中最差。 圖5 公平性和時延累計隨時隙變化Fig.5 Fairness and delay accumulation vary with time slots 圖6展示了在無人機不同覆蓋范圍Rmax下,各算法的服務(wù)公平性和時延對比。其中地面用戶數(shù)量恒定為20個。同樣,本文為了對比優(yōu)化問題中權(quán)重系數(shù)β對性能的影響,設(shè)置了對比算法FL-TD3-0.3。 圖6 公平性與總時延隨無人機覆蓋范圍變化Fig.6 Fairness and total latency vary with drone coverage 由圖6可以看出,當無人機的覆蓋范圍增大時,所有算法的性能隨之更優(yōu)。具體來說,公平性均隨覆蓋范圍的增大而變好;FL-TD3算法、FL-TD3-0.3、DIS-TD3的時延均隨覆蓋范圍的增大而減短。這是因為隨著無人機覆蓋范圍的增大,無人機能夠在單個時隙內(nèi)覆蓋更多地面用戶,從而豐富了無人機部署位置的多樣性,最終提高了無人機服務(wù)地面用戶的整體性能。相比本文提出的算法FL-TD3,隨著覆蓋范圍變化,FL-TD3-0.3始終保持著公平性較差而時延較好的趨勢,這是因為其權(quán)重系數(shù)β較小,使公平性的權(quán)重降低而時延的權(quán)重更高。本文提出的FL-TD3算法因其融入了聯(lián)邦學(xué)習(xí)框架,使無人機之間能夠?qū)崿F(xiàn)信息共享。隨著覆蓋范圍的增大,FL-TD3性能始終優(yōu)于DIS-TD3算法。SINGLE-TD3算法覆蓋范圍在15~25 m區(qū)間時,可以看到時延能夠隨覆蓋范圍增大而降低。然而在30~45 m之間,時延幾乎不變,只有微弱的降低,這是因為單個無人機無法在一個時隙內(nèi)卸載過多地面用戶,這會造成計算任務(wù)大量排隊,使計算時延超過本地計算時間,無人機不再拓展更多計算卸載任務(wù),所以在此區(qū)間內(nèi)時延變化不大。對比其他算法,SINGLE-TD3的公平性、時延性能雖然能夠隨著覆蓋范圍的增大而變優(yōu),但是由于其無人機數(shù)量局限性,其性能差于所有多無人機算法。LOCAL-ONLY算法不能充分利用整個系統(tǒng)的計算資源,性能在所有算法中最差。 本文研究了多無人機輔助移動邊緣計算的軌跡規(guī)劃問題。針對計算密集型應(yīng)用對時延具有較強的敏感性,采取將地面用戶部分任務(wù)卸載到無人機上進行輔助計算。本文采用了一種聯(lián)合優(yōu)化策略,將無人機軌跡和任務(wù)卸載比例作為優(yōu)化目標,旨在最大化任務(wù)時延和服務(wù)公平性的加權(quán)和,以確保在服務(wù)地面用戶的過程中,最小化時延的同時兼顧無人機服務(wù)地面公平性。為實現(xiàn)多無人機能夠協(xié)同對地面用戶進行計算卸載服務(wù),本文將聯(lián)邦學(xué)習(xí)融入多智能體深度強化學(xué)習(xí)算法中,達到信息交互的目的。通過聯(lián)邦學(xué)習(xí)非隱私數(shù)據(jù)共享的機制,既實現(xiàn)了多無人機間的信息共享使學(xué)習(xí)效果達到全局最優(yōu),又保障了數(shù)據(jù)隱私。仿真結(jié)果表明,與無信息交互的多智能體深度強化學(xué)習(xí)相比,本文提出的算法在無人機服務(wù)公平性和時延上具有更好的性能。1.4 問題描述
2 算法設(shè)計
3 仿真結(jié)果和分析
3.1 仿真設(shè)計環(huán)境參數(shù)和算法超參數(shù)設(shè)置
3.2 仿真性能分析
4 結(jié)束語