劉金石,Manzoor Ahmed,林 青
(青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東青島 266071)
隨著車聯(lián)網(wǎng)(Internet of Vehicles,IoV)和智能車輛的發(fā)展,車輛正在從出行工具向智能終端轉(zhuǎn)變[1-2]。然而,對用戶體驗(yàn)質(zhì)量[3](Quality of Experience,QoE)不斷提高的要求以及車聯(lián)網(wǎng)中各種智能應(yīng)用的爆發(fā)式增長[4],對遠(yuǎn)程信息處理應(yīng)用的實(shí)現(xiàn)提出了挑戰(zhàn),尤其是復(fù)雜決策和實(shí)時資源管理等計(jì)算密集型應(yīng)用。
車輛自組織網(wǎng)絡(luò)[5-6](Vehicular Ad-hoc Network,VANET)是為車輛之間提供網(wǎng)絡(luò)連接和實(shí)時信息共享而提出的。此外,VANET 還集成了傳感器和路邊單元(Roadside Unit,RSU)用于與道路上的車輛通信,以提高交通安全[7]。近年來,為了將VANET 與云計(jì)算技術(shù)相結(jié)合,研究人員提出了車輛云[8](Vehicular Cloudlet,VC)系統(tǒng)。VC 系統(tǒng)的計(jì)算和通信能力為道路上的用戶提供了實(shí)用性和便利性,因此相關(guān)研究近年來備受關(guān)注。VC 由一個未充分利用的車輛資源共享池組成,其中包括計(jì)算、存儲、傳感和通信設(shè)備[9]。一組車輛可以通過分享自己的計(jì)算資源,并根據(jù)車聯(lián)網(wǎng)形成云計(jì)算網(wǎng)絡(luò)來實(shí)現(xiàn)資源共享,這與傳統(tǒng)的云計(jì)算非常相似,不同之處在于計(jì)算資源是由車輛提供的。車輛通過創(chuàng)建自組網(wǎng)絡(luò),避免傳輸數(shù)據(jù)到遠(yuǎn)程的計(jì)算中心,節(jié)省網(wǎng)絡(luò)帶寬,同時可以顯著降低應(yīng)用延遲[10-11],另外為智能駕駛、道路規(guī)劃的決策等基于智能交通的應(yīng)用程序提供支持,使車輛更加智能化。
由于車輛的地理分布特性,VC 系統(tǒng)具有高度的動態(tài)性與資源波動性,傳統(tǒng)的資源優(yōu)化方法[12]已經(jīng)不能滿足其資源動態(tài)管理與分配的要求。近年來,由于人工智能技術(shù)的快速發(fā)展,研究人員開始嘗試使用強(qiáng)化學(xué)習(xí)理論來實(shí)現(xiàn)車輛計(jì)算資源的動態(tài)管理。文獻(xiàn)[13]提出使用任務(wù)復(fù)制的方法來解決車輛任務(wù)請求未完成而車輛離開VC 覆蓋范圍的情況,并給出一種平衡任務(wù)分配(Balanced Task Assignment,BETA)策略,證明了該策略是最優(yōu)策略,但是該方案只考慮了相同的任務(wù)大小。文獻(xiàn)[14]考慮VC系統(tǒng)中的任務(wù)遷移問題,即對于具有拓?fù)漤樞虻娜蝿?wù)可以在未完成之前遷移到其他車輛上,以最小化整體響應(yīng)時間。文獻(xiàn)[15]使用公共交通車輛來提供計(jì)算服務(wù),并且使用了M/M/C 優(yōu)先隊(duì)列模型,最后基于半馬爾可夫決策過程提出一個感知應(yīng)用程序卸載策略來獲取最優(yōu)的資源分配方案,并最大化長期獎勵。文獻(xiàn)[16]考慮了異構(gòu)車輛與RSU 計(jì)算資源分配的場景,并且對于不同類型的任務(wù)請求遵循不同的泊松分布,但由于使用的是傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,因此不能很好地處理復(fù)雜環(huán)境狀態(tài)情形。
將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)技術(shù)[17],不需要明確狀態(tài)轉(zhuǎn)移概率,只基于當(dāng)前的情況,根據(jù)系統(tǒng)狀態(tài)的樣本和客觀獎勵的經(jīng)驗(yàn)策略來做出決策。DRL 模型有效地改善了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在高維輸入狀態(tài)空間或大動作集的環(huán)境下性能差的問題。文獻(xiàn)[18]提出一種三層卸載框架使得總體能耗最小,并且考慮了運(yùn)動車輛和??吭谕\噲龅撵o態(tài)車輛,由于具有較高的計(jì)算復(fù)雜度,因此將資源分配問題分解為流量重定向和卸載決策兩部分,對于流量重定向問題使用Edmonds-Karp 算法,而卸載決策部分使用雙Q 網(wǎng)絡(luò)[19](Double Deep Q-Network,DDQN)。文獻(xiàn)[20]提出一個知識驅(qū)動車聯(lián)網(wǎng)服務(wù)卸載框架,基于A3C(Asynchronous Advantage Actor-Critic)算法可以同時在多個不同的邊緣節(jié)點(diǎn)訓(xùn)練,然后將學(xué)到的知識傳遞到VC 控制器,使得決策能更好地適應(yīng)環(huán)境變化。文獻(xiàn)[21]提出一種通過啟發(fā)式算法將有限的計(jì)算資源分配給車輛應(yīng)用的模型,由于環(huán)境中的高維信息和連續(xù)行為空間,通過遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)來提取基于時間和位置的資源可用性模式,使用近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法對計(jì)算資源進(jìn)行分配,模擬實(shí)驗(yàn)結(jié)果表明,相比于傳統(tǒng)的方案可以取得更高的服務(wù)滿意度。
本文在二次資源分配(Secondary Resource Allocation,SRA)機(jī)制[22]的基礎(chǔ)上,提出一種基于雙時間尺度的二次資源分配機(jī)制。該機(jī)制考慮了異質(zhì)化車輛與不同類型的任務(wù)請求,其不同于單智能體算法,而是運(yùn)用多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning,MARL)算 法QMix[23]對 計(jì)算資源進(jìn)行分配從而獲得更好的服務(wù)滿意度。
本文的VC 系統(tǒng)模型如圖1 所示,系統(tǒng)主要由車輛和路邊的RSU 設(shè)備組成。VC 系統(tǒng)的控制中心部署在RSU 上,通過車輛-基礎(chǔ)設(shè)施[24](Vehicle-to-Infrastructure,V2I)通信方式實(shí)現(xiàn)無線連接。本文的VC 系統(tǒng)考慮了異質(zhì)車輛,定義K種車輛類型,不同類型的車輛可以提供不同大小的計(jì)算資源。為了更好地量化VC 中的資源大小,本文使用資源單元(Resource Units,RUs)來表示整個VC 中最小的資源單位,所有資源池中的資源被中心的VC 控制系統(tǒng)進(jìn)行分配。
圖1 VC 系統(tǒng)模型Fig.1 VC system model
對于進(jìn)入與離開VC 的車輛遵循泊松分布,當(dāng)車輛進(jìn)入VC 覆蓋范圍后,由于車輛自身的計(jì)算資源有限,當(dāng)車輛有計(jì)算任務(wù)時就會向VC 發(fā)送任務(wù)請求。VC 接收到任務(wù)請求后,根據(jù)任務(wù)信息與當(dāng)前資源池中的資源數(shù)量來決定是否接收請求,并分配相應(yīng)數(shù)量的RU。如果VC 根據(jù)當(dāng)前系統(tǒng)的請求服務(wù)狀態(tài)拒絕接收請求,此時會把該服務(wù)發(fā)送到附近的邊緣服務(wù)器執(zhí)行,在這種情況下系統(tǒng)會受到懲罰。
為了更加貼合實(shí)際情況,對于不同的任務(wù)請求具有不同的描述特征。比如對于自動導(dǎo)航任務(wù)需要嚴(yán)格的時間限制,而對AR、VR 車載娛樂等計(jì)算密集型任務(wù)則不需要嚴(yán)格的時間限制。本文將任務(wù)信息定義如下:
車輛v的j類型任務(wù)請求的傳輸時間和信道傳輸速率相關(guān)。其中信道傳輸速率可以表示為:
其中:d和c分別為車輛距離RSU 的距離和路徑損耗指數(shù);為車輛與RSU 之間的傳輸功率;ht為t時刻車輛與RSU 之間的信道衰減系數(shù);σ2為傳輸?shù)母咚乖肼暪β?;W為可用的頻譜帶寬。此時,對于屬于車輛v任務(wù)類型為j的請求i的傳輸時間為:
當(dāng)VC 系統(tǒng)內(nèi)的車輛產(chǎn)生任務(wù)請求時,VC 為其分配RU 資源進(jìn)行服務(wù),雖然同時要服務(wù)多個任務(wù)請求,但是可以把整個VC 看作是一個基于M/M/1 的隊(duì)列模型。隊(duì)列中的任務(wù)等待流為λ,即隊(duì)列的到達(dá)率。本文假設(shè)對于每一個RU 資源的服務(wù)率為μu,那么此時整個系統(tǒng)的服務(wù)率為:
其中:αk表示k類型車輛可以提供的RU 數(shù)量,α為系數(shù);Nk表示在VC 覆蓋范圍內(nèi)車輛類型為k的車輛數(shù)量,且滿足λ<μ關(guān)系。根據(jù)隊(duì)列理論,對于隊(duì)列中一個任務(wù)i的等待時間為:
對于任務(wù)i的執(zhí)行時間可以表示為:
其中:表示對于任務(wù)i分配的RU 數(shù)量。
由于VC 環(huán)境的動態(tài)性,車輛進(jìn)入或者離開都會對VC 中可用的資源產(chǎn)生影響,進(jìn)而影響到分配決策,因此以往簡單的卸載方式很難動態(tài)地滿足任務(wù)的計(jì)算需求。本文中使用基于雙時間尺度模型的SRA 機(jī)制。
在本文的模型中,存在大時間尺度和小時間尺度兩種資源分配動作。當(dāng)VC 接收到范圍內(nèi)車輛的任務(wù)請求時,需要決定接收請求或者把請求發(fā)送到附近邊緣服務(wù)器上執(zhí)行,這個過程本文定義為大時間尺度動作。大時間尺度動作的間隔比較長,期間可以根據(jù)環(huán)境的變化對已經(jīng)分配RU 的任務(wù)請求進(jìn)行資源二次調(diào)整,這個調(diào)整動作過程定義為小時間尺度動作。比如,若某一任務(wù)請求分配的資源很充足,則可以適當(dāng)縮減其RU 數(shù)量,另一方面,對于某一請求分配的RU 資源不能在時間限制之前完成,且此時資源池中還有剩余的資源,那么就可以通過增加其RU 數(shù)量來減小任務(wù)完成時間。總地來說,在大時間尺度上決定任務(wù)請求是否接收,在小時間尺度上不斷地調(diào)整已分配的RU 數(shù)量以跟蹤環(huán)境細(xì)微的變化,這樣通過SRA 機(jī)制,模型可以很好地適應(yīng)高速動態(tài)的VC 環(huán)境。
在給定的時隙h內(nèi),對于在VC 覆蓋范圍內(nèi)的車輛v生成的j類型請求i,使用=1 來表示VC 接收該請求,使用=1 表示VC 將該請求發(fā)送到附近的邊緣服務(wù)器,在其他情況下和都為0。本文系統(tǒng)的優(yōu)化目標(biāo)是在H的時間段內(nèi),調(diào)整對VC 范圍內(nèi)車輛的任務(wù)請求的資源分配數(shù)量,在任務(wù)延遲要求的限制下最大化提高系統(tǒng)效用,從而提高用戶的服務(wù)質(zhì)量。
因此,可以歸納出如下優(yōu)化問題:
其中:β為VC 選擇將任務(wù)發(fā)送到附近邊緣服務(wù)器時受到的懲罰;H為每一幕的時隙數(shù);Nj表示當(dāng)前時隙j類型的請求數(shù);為完成任務(wù)i需要的時間,可以表示為,對于前兩條限制表示對于一個請求VC 只能選擇一種處理方式;L表示一次可以分配的最大RU 數(shù)量。
與單智能體強(qiáng)化學(xué)習(xí)不同,MARL 中由于狀態(tài)空間變大,聯(lián)合動作空間隨著智能體數(shù)量呈指數(shù)增長,因而很難擬合出一個合適的函數(shù)來表示真實(shí)的聯(lián)合動作值函數(shù)。在這樣一個隨機(jī)博弈[25]環(huán)境中,智能體需要在有限的計(jì)算資源下協(xié)作,實(shí)現(xiàn)整體的收益最大化。本文使用元組G=(S,U,P,R,O,γ)來描述部分可觀測馬爾可夫決策模型(POMDP),在時隙t有st∈S表示全局的環(huán)境信息,智能體的數(shù)量為A,則對于每一個智能體a∈A都需要選擇一個動作ua∈U去組成一個聯(lián)合動作u,通過把聯(lián)合動作u作用于環(huán)境,根據(jù)狀態(tài)轉(zhuǎn)移概率P(st+1|st,ut)進(jìn)入下一個狀態(tài)。同時,所有的智能體都會收到一個獎勵r(st,ut)。在實(shí)際觀測過程中,智能體只能獲取自身的狀態(tài)信息,不同的智能體具有不同的觀測信息用O(s,a)來表示。使用RNN 對于不完全觀測可以取得較好的效果,因此使用τa表示智能體a的動作觀測歷史,基于這個動作觀測歷史來構(gòu)建策略函數(shù)πa(ua|τa),由此可以得到聯(lián)合動作值函數(shù):
其中:γ表示折扣因子。
2.1.1 狀態(tài)與觀測空間
對于VC 環(huán)境中全局狀態(tài)st需要考慮車輛、隊(duì)列等所有信息,可以表示為:
其中:vm表示VC 范圍內(nèi)車輛的信息,包括車輛類型、位置、速度以及生成的任務(wù)請求;qf表示隊(duì)列中等待的請求信息;pa表示正在執(zhí)行中的任務(wù)請求信息,每一個智能體a處理一個任務(wù)請求;e表示當(dāng)前時隙的事件,包括請求到來ear與請求離開ed。對與當(dāng)前時隙的任務(wù)請求,需要獲取的部分觀測信息Oa,有:
其中:ka表示請求a所屬車輛的類型,不同類型的車輛可以提供不同數(shù)量的計(jì)算資源;va和ga分別表示當(dāng)前時隙車輛的速度與位置坐標(biāo)。
2.1.2 動作空間
由于系統(tǒng)模型使用基于雙時間尺度的SRA 機(jī)制,因此存在兩種動作。對于大時間尺度,在時隙t的聯(lián)合動作為ul={a1,a2,…,an|a∈{0,1,…,l}},其中,an表示對第n個請求分配的RU資源數(shù)量,最大值為l,當(dāng)an=0 時表示VC 拒絕接收請求并把請求發(fā)送到附近的邊緣服務(wù)器上執(zhí)行。對于小時間尺度,在時隙t的聯(lián)合動作為:
其中:-s與s表示對某一請求減少或增加s數(shù)量的RU;當(dāng)an=0 時表示對該請求不做任何操作。
2.1.3 獎勵函數(shù)
本文系統(tǒng)的優(yōu)化目標(biāo)是最大化系統(tǒng)整體效用,強(qiáng)化學(xué)習(xí)的目標(biāo)就是最大化獲得的累計(jì)獎勵,所以定義獎勵函數(shù)值為在每一個時隙獲得的效用值。若要獲得更大的效應(yīng)值,那么就要最小化每一個接收的任務(wù)執(zhí)行時間ttot。對于每一個任務(wù)請求的效用,本文定義Δt=(tmax-ttot)為請求完成總時間與其最大時間限制的差值,則獎勵函數(shù)如下:
其中:β表示對VC 拒絕請求的懲罰;η表示一個RU可以獲得的效用值;ρ是一個參數(shù),滿足0 <ρ<1。最優(yōu)的資源分配策略π*就是使得整體獎勵最大的策略,可以表示為:
DQN 是在Q-Learning 算法的基礎(chǔ)上引入神經(jīng)網(wǎng)絡(luò)來代替Q 表格,使得可以處理連續(xù)狀態(tài)的環(huán)境,其損失函數(shù)為:
本文將QMix 算法與SRA 機(jī)制相結(jié)合,提出一種新的計(jì)算資源分配算法SRA-QMix,使用集中式訓(xùn)練分布式執(zhí)行(Centralised Training with Decentralised,CTDE)機(jī)制。每個智能體表示要處理的請求,所有智能體的部分觀測之和就是全局狀態(tài),即通過全局狀態(tài)st信息訓(xùn)練Q網(wǎng)絡(luò)得到全局的值函數(shù)Qtot(τ,u)。在分散執(zhí)行階段,根據(jù)每個任務(wù)請求信息以及其所屬車輛的局部觀測狀態(tài)oi來估計(jì)動作價值,每個智能體都采取貪婪策略來選擇動作。全局Q值計(jì)算過程如圖2所示。
圖2 SRA-QMix 算法全局Q 值計(jì)算過程Fig.2 The process of the global Q value calculation in SRA-QMix algorithm
全局值函數(shù)Qtot(τ,u) 與單個智能體值函數(shù)Qa(τn,un)單調(diào)性相同,那么對全局值函數(shù)取argmax操作與對單個智能體的值函數(shù)取argmax 操作能夠得到相同的結(jié)果:
為了保證值函數(shù)的單調(diào)性使得式(14)等式成立,算法存在以下約束:
不同于值分解網(wǎng)絡(luò)(Value-Decomposition Networks,VDN)算法中對所有智能體的值函數(shù)簡單相加,如圖2所示,QMix 使用混合網(wǎng)絡(luò)通過非線性方式對單智能體局部值函數(shù)進(jìn)行整合:
其中:M表示Mixing 網(wǎng)絡(luò),是一種前饋神經(jīng)網(wǎng)絡(luò)。為了滿足式(15)的要求,混合網(wǎng)絡(luò)的參數(shù)由單獨(dú)的超參數(shù)網(wǎng)絡(luò)生成,其采用一種超網(wǎng)絡(luò)結(jié)構(gòu),輸入不僅有各個智能體的局部值函數(shù),還包括全局狀態(tài)信息st,輸出為混合網(wǎng)絡(luò)的權(quán)值與偏移量。這樣,通過對Qtot(τ,u)進(jìn)行分解,對其進(jìn)行argmax 操作的計(jì)算量就不再是隨著聯(lián)合動作空間呈指數(shù)增長,而是隨著智能體數(shù)量呈線性增長,極大地提高了算法的效率。每一個智能體的結(jié)構(gòu)都為DRQN 網(wǎng)絡(luò),輸入為單個任務(wù)觀測的軌跡信息,經(jīng)過GRU 循環(huán)網(wǎng)絡(luò),即具有學(xué)習(xí)長時間序列的能力。在程序中對于所有的智能體可以使用one-hot 編碼方式共用同一套網(wǎng)絡(luò)。
SRA-QMix 是基于DQN 算法得到,兩者基本流程相似,都用到了經(jīng)驗(yàn)池用來存放經(jīng)驗(yàn)信息,同時存在相應(yīng)的目標(biāo)網(wǎng)絡(luò),其最終的損失函數(shù)可以表示為:
其中:b表示從經(jīng)驗(yàn)池中采樣的樣本數(shù)量。
SRA-QMix 算法描述如下:
算法1SRA-QMix 算法
輸入DRQN 和Mix 神經(jīng)網(wǎng)絡(luò)參數(shù),全局狀態(tài)st以及所有任務(wù)的部分觀測
輸出可以獲得最優(yōu)效用值的動作向量
1.初始化環(huán)境參數(shù),車輛到達(dá)流λ,車輛類型以及環(huán)境參數(shù)β、η 和ρ;
2.初始化DRQN 網(wǎng)絡(luò)、Mix 網(wǎng)絡(luò)和相應(yīng)的目標(biāo)網(wǎng)絡(luò)參數(shù),以及算法的超參數(shù);
3.初始化兩種時間尺度對應(yīng)的經(jīng)驗(yàn)池Buffer;
4.對于每個epoch 做以下操作:
5.重置環(huán)境信息得到初始st,根據(jù)當(dāng)前step 為每一個agent 根據(jù)DRQN 網(wǎng)絡(luò)的輸出選擇動作;
6.獲取下一時刻狀態(tài)st+1與獎勵;
7.重復(fù)步驟5 和步驟6,直到當(dāng)前環(huán)境結(jié)束,將搜集到的大時間尺度和小時間尺度經(jīng)驗(yàn)序列存入經(jīng)驗(yàn)池;
8.從相應(yīng)經(jīng)驗(yàn)池中選取batch_size 大小的數(shù)據(jù)分別對大時間和小時間策略進(jìn)行訓(xùn)練;
10.利用Mix 網(wǎng)絡(luò)與式(18)計(jì)算Qtot與
11.利用式(17)計(jì)算損失;
12.更新網(wǎng)絡(luò)參數(shù);
13.一定次數(shù)后更新目標(biāo)網(wǎng)絡(luò)參數(shù);
14.結(jié)束當(dāng)前訓(xùn)練,進(jìn)入下一個epoch;
15.結(jié)束算法。
仿真軟件使用SUMO,硬件使用Intel Xeon W-2133,32 GB 內(nèi)存,基于Ubuntu18.04,仿真程序使用Python3.6+Pytorch1.8 編寫。仿真場景考慮了一個十字路口的區(qū)域,部署一臺RSU 與作為VC 的控制中心,車輛進(jìn)入VC 環(huán)境后,假設(shè)都會分享計(jì)算資源,同時每輛車輛都有一定的概率產(chǎn)生任務(wù)請求。算法采用退化?-greedy 策略,部分仿真參數(shù)如表1 所示。
表1 部分仿真參數(shù)設(shè)置Table 1 Setting of part the simulation parameter
為驗(yàn)證本文計(jì)算資源分配算法SRA-QMix 的性能及其雙時間尺度的有效性,本文將以下3 種算法作為基準(zhǔn)進(jìn)行對照:
1)QMix。沒有使用二次資源分配策略的方案。
2)MADDPG。確定性策略梯度算法DDPG 的多智能體改進(jìn)版。
3)SRA-MADDPG。在MADDPG 算法的基礎(chǔ)上增加二次資源分配機(jī)制。
圖3 所示為不同算法下的總效用值隨車輛到達(dá)率λ變化情況,λ越大表示同一時刻進(jìn)入VC 覆蓋范圍的車輛就越多,相應(yīng)地,同一時隙需要處理的請求數(shù)也會增加。當(dāng)λ為0.3 時,4 種算法效用值都比較低,這是由于此時任務(wù)數(shù)量比較少。隨著車輛到達(dá)率的增加,4 種算法的總效用值也隨之增加。可以看出,SRA-QMix算法可以獲得更高的效用值,相比SRA-MADDPG 算法,系統(tǒng)效用平均提高了70%。這是因?yàn)樵撍惴梢愿玫靥幚矶鄠€任務(wù)之間的合作競爭關(guān)系,得到整體最大獎勵。另外,相比于不使用SRA 機(jī)制的算法,SRA 機(jī)制可以獲得更高的系統(tǒng)效用值。
圖3 系統(tǒng)總效用隨車輛到達(dá)率的變化情況Fig.3 The total utility of the system varies with the vehicle arrival rate
圖4 所示為不同算法下任務(wù)的完成率與車輛到達(dá)率λ之間的關(guān)系??梢钥闯鲭S著車輛到達(dá)率的增加,對于任務(wù)請求的完成率在下降。在λ=0.3 時刻,SRA-QMix 算法的任務(wù)完成率可以接近90%,但是隨著到達(dá)率的增加,4 種算法對任務(wù)的完成率都隨之下降。這是因?yàn)殡S著到達(dá)率的增加,每一時刻系統(tǒng)需要處理的請求數(shù)量也會增加,對于在有限的RU 計(jì)算資源情況下,算法的分配策略就不再精準(zhǔn),任務(wù)在最大時間限制之前完成的概率就減小。在不同到達(dá)率下提出算法相比于SRA-MADDPG 算法的任務(wù)完成率平均高6%。另外,相比于未使用SRA 機(jī)制的算法相比,上述兩種算法任務(wù)完成率分別提高了13%和15%。可以看出應(yīng)用了SRA 機(jī)制可以顯著提高算法性能,這是由于通過小時間動作的不斷微調(diào),提高了資源利用率。
圖4 任務(wù)完成率與車輛到達(dá)率的關(guān)系Fig.4 Relationship between task finish rate and vehicle arrival rate
從圖3 和圖4 可以看出:MADDPG 算法的表現(xiàn)是弱于QMix 算法的,這是因?yàn)镸ADDPG 算法是在深度確定性策略梯度DDPG 算法基礎(chǔ)上改進(jìn)得來的,對于Critic 部分能夠獲取到全局狀態(tài)用來指導(dǎo)單個Actor 的訓(xùn)練,在測試時Actor 根據(jù)局部觀測來采取行動,遵循集中式訓(xùn)練分布式執(zhí)行過程。但是由于缺乏QMix 對于各個智能體的Q值融合機(jī)制,沒有整體的獎勵函數(shù),對于在資源受限情況下的智能體協(xié)同表現(xiàn)要弱于QMix 算法。
圖5 所示為任務(wù)完成率與參數(shù)α之間的關(guān)系。其中α表示車輛類型與可提供的RU 數(shù)量之間的關(guān)系,α越大,同樣的車輛就可以提供更多的計(jì)算資源,那么整體的RU 數(shù)量就會增加。本文設(shè)置當(dāng)前每個時刻可以處理的請求數(shù)量為10。在開始時,由于RU數(shù)量很少,此時4 種算法的完成率都比較低,主要是因?yàn)橘Y源池中沒有足夠多的RU 資源。隨著α的增加,同樣的車輛可以貢獻(xiàn)更多數(shù)量的RU,4 種算法的任務(wù)完成率也隨之增加,因?yàn)楦嗟馁Y源可以使得請求更快地被完成。可以看出SRA-QMix 算法具有最好的表現(xiàn)。
圖5 任務(wù)完成率與參數(shù)α 的關(guān)系Fig.5 Relationship between task finish rate and parameter of α
圖6 所示為小時間尺度在不同更新間隔下總效用與任務(wù)完成率的情況。此處展示的是車輛到達(dá)率在λ=1、α=1.5 情況下的表現(xiàn),小時間尺度更新間隔越小,更新越頻繁。當(dāng)更新間隔為1 時隙時,表示在環(huán)境的每一步都會通過小時間尺度更新對分配的RU數(shù)量進(jìn)行調(diào)整??梢钥闯觯陂g隔為1 時隙時,兩種算法都有最高的效用值和任務(wù)完成率。隨著更新間隔時間的增加,系統(tǒng)總效用和任務(wù)的完成率都隨之下降,說明通過高頻率的小時間尺度更新可以適應(yīng)高度動態(tài)的VC 環(huán)境,幫助算法學(xué)習(xí)到更好的資源分配策略。
圖6 系統(tǒng)總效用和任務(wù)完成率隨小時間尺度更新間隔的變化Fig.6 The total utility and task finish rate of the system varies with the small time scale update interval
對于VC 環(huán)境的任務(wù)卸載與計(jì)算資源分配問題,本文提出一種考慮異質(zhì)性任務(wù)和車輛的多智能體卸載算法SRA-QMix,并根據(jù)VC 環(huán)境中計(jì)算資源波動對任務(wù)卸載的影響,提出二次資源分配機(jī)制,即在大時間尺度上決定是否接收任務(wù)請求,在小時間尺度上對已經(jīng)分配的計(jì)算資源進(jìn)行動態(tài)調(diào)整。對于多智能體環(huán)境下狀態(tài)與動作空間的維度詛咒問題,結(jié)合QMix 算法對各個局部Q值進(jìn)行非線性融合,降低算法復(fù)雜度。針對VC環(huán)境中計(jì)算資源的分配問題,通過預(yù)測VC 范圍外的車流量,在大時間尺度上提前做出應(yīng)對策略,從而輔助大時間尺度上的資源分配決策過程,提高算法的動態(tài)資源分配能力。實(shí)驗(yàn)結(jié)果表明,與深度確定性策略優(yōu)化算法對比,本文提出的決策算法具有更高的效用值與任務(wù)完成率,并證明了二次資源分配機(jī)制對解決車輛云環(huán)境中任務(wù)卸載與資源分配問題的有效性,且高頻次的小時間動作對車輛云卸載環(huán)境有更好的適應(yīng)性。近年來深度強(qiáng)化學(xué)習(xí)技術(shù)受到人們越來越多的關(guān)注,如何使用深度強(qiáng)化學(xué)習(xí)技術(shù)對車輛狀態(tài)和獎勵函數(shù)設(shè)定等車聯(lián)網(wǎng)任務(wù)卸載策略進(jìn)行通用建模,并使其更加簡單易用,將是下一步的研究方向。