蘇 健 錢 震 李 斌
(南京信息工程大學(xué)計(jì)算機(jī)與軟件學(xué)院 南京 210044)
(南京信息工程大學(xué)江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心 南京 210044)
隨著人工智能的快速發(fā)展,伴隨著各種新興的計(jì)算密集型應(yīng)用,如圖像處理、虛擬現(xiàn)實(shí)等,對(duì)移動(dòng)設(shè)備的計(jì)算和處理需求正在空前增長,但由于移動(dòng)設(shè)備自身的局限性,如無線通信狀態(tài)不佳、計(jì)算資源不足等,用戶的服務(wù)質(zhì)量得不到保證。為了提高用戶的滿意度,需要增強(qiáng)其通信和計(jì)算能力。因此,智能超表面(Reconfigurable Intelligent Surface, RIS)[1,2]和移動(dòng)邊緣計(jì)算(Mobile Edge Computing, MEC)[3–5]作為兩種新范式應(yīng)運(yùn)而生。
RIS具有低成本、易部署、可重構(gòu)無線傳播環(huán)境、無源波束成形等優(yōu)點(diǎn),引起了人們的高度關(guān)注[6–10]。MEC技術(shù)允許移動(dòng)用戶通過無線鏈路將任務(wù)卸載到基站(Base Station, BS)的MEC服務(wù)器,將資源有限的用戶從繁重的計(jì)算中解放出來。因此,將RIS應(yīng)用到MEC系統(tǒng)中不僅可以增強(qiáng)用戶通信能力,而且還是一種經(jīng)濟(jì)高效且環(huán)保的方式。目前,關(guān)于RIS輔助MEC的研究已取得許多有價(jià)值的研究成果[11,12]。譬如,為了解決任務(wù)卸載速率低的問題,文獻(xiàn)[13]將RIS引入MEC系統(tǒng)中,通過聯(lián)合優(yōu)化任務(wù)卸載量,MEC服務(wù)器的計(jì)算資源以及RIS相移實(shí)現(xiàn)系統(tǒng)總時(shí)延最小化。為了探索RIS對(duì)MEC系統(tǒng)計(jì)算性能的影響,文獻(xiàn)[14]在能耗和時(shí)延的約束下,研究了用戶最大卸載量的問題。為了最大化系統(tǒng)能效,文獻(xiàn)[15]通過聯(lián)合優(yōu)化發(fā)射功率,本地計(jì)算頻率以及有源和無源波束成形,使得能量效率最大化。為了對(duì)比多址技術(shù)對(duì)RIS輔助MEC的影響,文獻(xiàn)[16]分別對(duì)比了非正交多址和時(shí)分多址協(xié)議之間的性能,文中數(shù)值實(shí)驗(yàn)表明非正交多址協(xié)議可以提升系統(tǒng)的性能。在邊緣智能網(wǎng)絡(luò)中,文獻(xiàn)[17]通過聯(lián)合優(yōu)化用戶的發(fā)射功率、基站的接收波束形成向量和RIS的相移矩陣,將所有參與用戶的最大學(xué)習(xí)誤差降至最低。對(duì)于RIS輔助的MEC系統(tǒng),公式化的問題是非凸且多優(yōu)化變量緊密耦合的。因此,解決耦合的多變量問題是必要的。迭代算法能夠提供接近最優(yōu)的解決方案,但計(jì)算復(fù)雜度較高,這會(huì)阻礙它在實(shí)際網(wǎng)絡(luò)中的使用。
近年來,數(shù)字孿生(Digital Twin, DT)技術(shù)引起了國內(nèi)外學(xué)術(shù)界和工業(yè)界廣泛關(guān)注,它是物理實(shí)體的數(shù)字副本,將真實(shí)的物理實(shí)體和環(huán)境實(shí)時(shí)地映射到虛擬空間。在虛擬空間中運(yùn)用智能學(xué)習(xí)算法和DT提供的實(shí)時(shí)數(shù)據(jù)可以幫助物理實(shí)體做出更準(zhǔn)確、更及時(shí)的卸載決策,降低用戶決策的資源消耗[18]。為此,DT為求解無線網(wǎng)絡(luò)中高復(fù)雜度問題提供了一種新思路。鑒于DT的優(yōu)勢(shì),已有相關(guān)工作將DT和MEC相結(jié)合,構(gòu)建了數(shù)字孿生邊緣網(wǎng)絡(luò)(Digital Twin Edge Network, DTEN)。為了研究DT在多任務(wù)MEC系統(tǒng)中的作用,文獻(xiàn)[19]提出了一種基于MEC在線卸載方案,并利用李雅普諾夫優(yōu)化求解其能效最大化問題。為了研究DT在聯(lián)邦學(xué)習(xí)中的作用,文獻(xiàn)[20]將DT引入?yún)^(qū)塊鏈輔助的聯(lián)邦學(xué)習(xí)系統(tǒng)中,并提出了一種低復(fù)雜度的訓(xùn)練方案。為了探究DT針對(duì)用戶移動(dòng)性系統(tǒng)的認(rèn)知,文獻(xiàn)[21]將DT系統(tǒng)引入移動(dòng)性系統(tǒng)中,有效地降低了用戶的卸載時(shí)延。為了任務(wù)能夠智能卸載到MEC服務(wù)器上,文獻(xiàn)[22]將DT引入進(jìn)多小區(qū)網(wǎng)絡(luò)中,進(jìn)而優(yōu)化了系統(tǒng)的性能。
上述研究展示出DT和RIS分別在提升MEC網(wǎng)絡(luò)性能的優(yōu)勢(shì),然而在DT結(jié)合MEC研究中物理實(shí)體的無線通信大多僅考慮視距鏈路,現(xiàn)實(shí)中物理實(shí)體的通信鏈路通常為非視距鏈路,同時(shí)DT需要物理實(shí)體實(shí)時(shí)地更新感知數(shù)據(jù),因此對(duì)無線信道質(zhì)量要求較高。本文提出一種RIS賦能的DTEN,通過RIS改善無線信道環(huán)境,DT實(shí)時(shí)地監(jiān)控網(wǎng)絡(luò)狀態(tài)信息,以集中的視角為用戶提供卸載決策,如何有效地求解RIS輔助DTEN中用戶卸載決策是一個(gè)新的挑戰(zhàn)。
本文的主要工作如下:(1)將RIS引入到DTEN中,從能耗和時(shí)延的角度聯(lián)合優(yōu)化RIS相移、波束成形矢量、計(jì)算資源分配和用戶傳輸功率,構(gòu)建一個(gè)非凸、多變量、耦合的能耗最小化問題。(2) 為了求解該非凸優(yōu)化問題,首先將用戶卸載過程建模為馬爾可夫決策過程(Markov Decision Process,MDP),并探索DT輔助智能任務(wù)卸載的方式,采用深度雙Q網(wǎng)絡(luò)(Double Deep Q Network, DDQN)算法求解卸載決策,并使用網(wǎng)絡(luò)中物理設(shè)備的映射數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。然后將交替優(yōu)化算法求解RIS相移、波束成形矢量、傳輸功率和計(jì)算資源分配的部分嵌入到強(qiáng)化學(xué)習(xí)訓(xùn)練中,提出一種能耗最小化的資源分配算法。
如圖1所示,本文考慮兩層DTEN模型,分別為物理實(shí)體層和數(shù)字孿生層。其中,K個(gè)用戶設(shè)備、Q個(gè)資源設(shè)備(Resource Device, RD)、1面具有N個(gè)反射單元的RIS和1個(gè)裝有M根天線并搭載MEC服務(wù)器的基站共同構(gòu)成了物理實(shí)體層,所有物理實(shí)體的數(shù)字孿生和無線通信環(huán)境共同構(gòu)成了數(shù)字孿生層。物理實(shí)體層中的設(shè)備單元都通過實(shí)時(shí)通道將當(dāng)前運(yùn)行狀態(tài)發(fā)送到DT, DT系統(tǒng)根據(jù)物理實(shí)體層的數(shù)據(jù)構(gòu)建了真實(shí)世界的虛擬模型,在該模型中能夠?qū)τ脩粜遁d策略進(jìn)行模擬,并直觀地評(píng)估系統(tǒng)總能耗。假設(shè)用戶和基站之間直連鏈路為非視距信道其余鏈路均為視距信道,因此部署RIS以增強(qiáng)用戶和基站之間的網(wǎng)絡(luò)的性能。此外,基站和資源設(shè)備的位置固定,用戶的位置隨時(shí)間變化,用戶和資源設(shè)備只考慮裝配單根天線。為了便于表達(dá)和分析,定義用戶、資源設(shè)備和RIS反射單元的集合分別 為?k ∈K?{1,2,...,K},?q ∈Q?{1,2,...,Q}和?n ∈N?{1,2,...,N}。
圖1 智能超表面輔助DTEN模型圖
本文目標(biāo)是在時(shí)延、功率、計(jì)算資源和能量的限制條件下,通過聯(lián)合優(yōu)化用戶卸載決策、智能超表面相移、基站端接收波束成矢量、用戶傳輸功率和計(jì)算資源分配以最小化任務(wù)周期T內(nèi)用戶和資源設(shè)備處理任務(wù)的總能耗,因此該優(yōu)化問題可以表述為
為了有效求解上述優(yōu)化問題,將問題式(5)分解為3個(gè)子問題。首先,使用DDQN算法輸出用戶的卸載決策;然后,在DRL訓(xùn)練環(huán)境中,使用交替迭代的方法,在給定用戶決策、傳輸功率和計(jì)算頻率下優(yōu)化RIS相移和波束成矢量;最后,在給定用戶決策、RIS相移和波束成矢量下優(yōu)化傳輸功率和計(jì)算頻率。為方便討論,本文首先闡述了基于D D Q N 的卸載決策算法流程,然后提出了在DRL環(huán)境中交替迭代的整體算法。
在給定RIS相移、波束成形矢量、傳輸功率和計(jì)算頻率時(shí),問題式(5)可以描述為
由于問題式(6)是一個(gè)整數(shù)優(yōu)化問題,難以求解用戶最優(yōu)卸載策略。本節(jié)提出基于DDQN算法的用戶卸載策略優(yōu)化方案。首先介紹了強(qiáng)化學(xué)習(xí)中MDP的基本要素,然后給出了基于DDQN算法優(yōu)化用戶決策的算法流程。
3.1.1 MDP基本要素定義
3.1.2 基于DDQN的能耗最小化算法
基于DDQN卸載決策算法與DRL訓(xùn)練框架如圖2所示。數(shù)字孿生層主要由智能體、回放經(jīng)驗(yàn)數(shù)組、主網(wǎng)絡(luò)、目標(biāo)網(wǎng)絡(luò)和損失函數(shù)五大模塊構(gòu)成,物理實(shí)體層由用戶和卸載方式模塊組成。在t時(shí)刻,用戶將任務(wù)信息和坐標(biāo)數(shù)據(jù)發(fā)送給DT, DT根據(jù)用戶的數(shù)據(jù)和對(duì)實(shí)體環(huán)境監(jiān)控的信息使用DDQN算法訓(xùn)練用戶的卸載策略,訓(xùn)練完成后智能體將卸載策略發(fā)送給用戶,用戶根據(jù)卸載策略來判斷任務(wù)的執(zhí)行方式。
圖2 基于DDQN的DRL訓(xùn)練框架圖
在給定卸載決策、RIS最優(yōu)相移和最佳波束成形矢量時(shí),優(yōu)化傳輸功率和計(jì)算頻率的子問題可以描述為
表1 基于DDQN能耗最小化算法(算法1)
表2 DDQN訓(xùn)練參數(shù)
圖3驗(yàn)證了DDQN算法的收斂性。從中觀察到,隨著訓(xùn)練次數(shù)的增加,智能體對(duì)用戶的任務(wù)卸載決策逐漸變好,曲線振蕩有明顯的下降趨勢(shì),最終獎(jiǎng)勵(lì)值穩(wěn)定在–75左右,說明此時(shí)智能體已經(jīng)能為用戶提供比較好的卸載決策。為驗(yàn)證學(xué)習(xí)率對(duì)算法收斂性的影響,本文還比較了不同學(xué)習(xí)率下的曲線收斂情況。由圖可知,當(dāng)學(xué)習(xí)率為0.001時(shí),在經(jīng)過75 k步后趨近于收斂;當(dāng)學(xué)習(xí)率為0.005時(shí),在經(jīng)過10 k步后趨近于收斂。兩者曲線收斂后獎(jiǎng)勵(lì)相差不大且穩(wěn)定,這說明學(xué)習(xí)率對(duì)算法收斂速度有影響,但對(duì)性能影響不大。
圖3 DDQN算法收斂性圖
圖4描述了不同方案的收斂性能。由圖可知,隨著迭代次數(shù)的增加,4種方案下獎(jiǎng)勵(lì)值逐漸趨于穩(wěn)定。算法1在經(jīng)過10 k步后趨近于收斂,而基于DQN方法的算法1在經(jīng)過12 k步后趨近于收斂,DDQN算法收斂速度快于DQN算法,這與3.1.1節(jié)中分析吻合,進(jìn)一步證明了所提算法能夠有效緩解DQN算法的高估問題。無RIS方案收斂后獎(jiǎng)勵(lì)值最低。這是因?yàn)橛脩艉突局g距離較遠(yuǎn),無線信道質(zhì)量較差,導(dǎo)致用戶和基站之間無線傳輸速率較慢。當(dāng)卸載至基站時(shí),任務(wù)處理超時(shí),智能體受懲罰,所以無RIS方案穩(wěn)定后的獎(jiǎng)勵(lì)值低于其他3種方案。RIS相移隨機(jī)方案在經(jīng)過17 k步后趨近于收斂,收斂后的獎(jiǎng)勵(lì)值略低于算法1但高于無RIS方案。這是因?yàn)殡S機(jī)相移方案下用戶到基站的無線速率始終低于算法1,導(dǎo)致此方案下用戶卸載任務(wù)的開銷增大,獎(jiǎng)勵(lì)值偏低。仿真結(jié)果充分說明了將RIS引入到DTEN中有較好的性能提升。
圖4 不同方案性能對(duì)比圖
圖5描述了RIS反射單元數(shù)目與用戶數(shù)量對(duì)系統(tǒng)能耗的影響。設(shè)置用戶任務(wù)量為500 kbit,單位比特?cái)?shù)據(jù)所需計(jì)算周期為200 cycles。由圖可知,在用戶數(shù)目固定時(shí),隨著RIS反射單元數(shù)目的增加,信道增益逐漸增大,無線信道質(zhì)量明顯提升,用戶總能耗逐漸下降。當(dāng)RIS反射單元數(shù)目和任務(wù)卸載周期T不變時(shí),隨著用戶數(shù)量的增大,每位用戶分得的時(shí)隙變小,因此用戶需在時(shí)隙內(nèi)以較大的功率進(jìn)行傳輸任務(wù),用戶的總能耗增加。此外,當(dāng)RIS反射單元個(gè)數(shù)為36時(shí),用戶總能耗始終保持最低。
圖5 用戶數(shù)量與用戶總能耗間的關(guān)系
為進(jìn)一步探究DT對(duì)系統(tǒng)的提升作用,圖6描述了不同方案下DT對(duì)系統(tǒng)能耗的影響。設(shè)置用戶數(shù)K為6。所提算法1和采用貪心算法方案分別在DT和無DT下進(jìn)行了對(duì)比。從中觀察到,隨著任務(wù)量的增加,系統(tǒng)能耗也逐漸增加,無DT方案和DT方案系統(tǒng)能耗差距越來越明顯。當(dāng)任務(wù)量為280 kbit時(shí),算法1的DT方案比無DT方案能耗降低約18.9%。這是由于DT根據(jù)用戶傳過來的信息輔助其進(jìn)行決策,用戶只需要執(zhí)行DT發(fā)送過來的指令,節(jié)省了用戶尋找最佳卸載方式的能耗。當(dāng)使用貪心算法進(jìn)行用戶決策時(shí),DT和無DT的情況下能耗均比算法1降低1.2%左右。這是因?yàn)槭褂秘澬乃惴色@得最優(yōu)解,但是使用貪心算法求解用戶卸載決策的時(shí)間復(fù)雜度較高,用戶數(shù)量較大時(shí)可能會(huì)影響用戶體驗(yàn)。算法1雖然不能達(dá)到最優(yōu)解,但隨著DT中模型不斷的訓(xùn)練,DT能夠在較短的時(shí)間內(nèi)為用戶提供一個(gè)比較好的卸載決策,節(jié)省用戶尋找最佳卸載點(diǎn)的能耗。仿真結(jié)果進(jìn)一步驗(yàn)證了DT可以對(duì)系統(tǒng)帶來較好的性能。
圖6 不同方案下系統(tǒng)能耗與任務(wù)量關(guān)系圖
本文研究了RIS輔助DTEN中計(jì)算任務(wù)卸載方案。以用戶和資源設(shè)備的總能耗最小化為目標(biāo),通過聯(lián)合優(yōu)化用戶卸載策略、RIS相移、波束成形矢量、傳輸功率和計(jì)算資源分配,實(shí)現(xiàn)用戶任務(wù)的智能卸載,并提出了一種基于DDQN和交替迭代的任務(wù)卸載算法。仿真結(jié)果表明,在強(qiáng)化學(xué)習(xí)中嵌入優(yōu)化方法能夠快速得到優(yōu)化解。在未來工作中,考慮多用戶任務(wù)卸載過程中信道時(shí)變的DTEN方案。