基于QMix 的車輛云計(jì)算資源動態(tài)分配方法

2023-01-09 14:29:18劉金石ManzoorAhmed

計(jì)算機(jī)工程 2022年11期

劉金石，Manzoor Ahmed，林青

（青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院，山東青島 266071）

0 概述

隨著車聯(lián)網(wǎng)（Internet of Vehicles，IoV）和智能車輛的發(fā)展，車輛正在從出行工具向智能終端轉(zhuǎn)變［1-2］。然而，對用戶體驗(yàn)質(zhì)量［3］（Quality of Experience，QoE）不斷提高的要求以及車聯(lián)網(wǎng)中各種智能應(yīng)用的爆發(fā)式增長［4］，對遠(yuǎn)程信息處理應(yīng)用的實(shí)現(xiàn)提出了挑戰(zhàn)，尤其是復(fù)雜決策和實(shí)時資源管理等計(jì)算密集型應(yīng)用。

車輛自組織網(wǎng)絡(luò)［5-6］（Vehicular Ad-hoc Network，VANET）是為車輛之間提供網(wǎng)絡(luò)連接和實(shí)時信息共享而提出的。此外，VANET 還集成了傳感器和路邊單元（Roadside Unit，RSU）用于與道路上的車輛通信，以提高交通安全［7］。近年來，為了將VANET 與云計(jì)算技術(shù)相結(jié)合，研究人員提出了車輛云［8］（Vehicular Cloudlet，VC）系統(tǒng)。VC 系統(tǒng)的計(jì)算和通信能力為道路上的用戶提供了實(shí)用性和便利性，因此相關(guān)研究近年來備受關(guān)注。VC 由一個未充分利用的車輛資源共享池組成，其中包括計(jì)算、存儲、傳感和通信設(shè)備［9］。一組車輛可以通過分享自己的計(jì)算資源，并根據(jù)車聯(lián)網(wǎng)形成云計(jì)算網(wǎng)絡(luò)來實(shí)現(xiàn)資源共享，這與傳統(tǒng)的云計(jì)算非常相似，不同之處在于計(jì)算資源是由車輛提供的。車輛通過創(chuàng)建自組網(wǎng)絡(luò)，避免傳輸數(shù)據(jù)到遠(yuǎn)程的計(jì)算中心，節(jié)省網(wǎng)絡(luò)帶寬，同時可以顯著降低應(yīng)用延遲［10-11］，另外為智能駕駛、道路規(guī)劃的決策等基于智能交通的應(yīng)用程序提供支持，使車輛更加智能化。

由于車輛的地理分布特性，VC 系統(tǒng)具有高度的動態(tài)性與資源波動性，傳統(tǒng)的資源優(yōu)化方法［12］已經(jīng)不能滿足其資源動態(tài)管理與分配的要求。近年來，由于人工智能技術(shù)的快速發(fā)展，研究人員開始嘗試使用強(qiáng)化學(xué)習(xí)理論來實(shí)現(xiàn)車輛計(jì)算資源的動態(tài)管理。文獻(xiàn)［13］提出使用任務(wù)復(fù)制的方法來解決車輛任務(wù)請求未完成而車輛離開VC 覆蓋范圍的情況，并給出一種平衡任務(wù)分配（Balanced Task Assignment，BETA）策略，證明了該策略是最優(yōu)策略，但是該方案只考慮了相同的任務(wù)大小。文獻(xiàn)［14］考慮VC系統(tǒng)中的任務(wù)遷移問題，即對于具有拓?fù)漤樞虻娜蝿?wù)可以在未完成之前遷移到其他車輛上，以最小化整體響應(yīng)時間。文獻(xiàn)［15］使用公共交通車輛來提供計(jì)算服務(wù)，并且使用了M/M/C 優(yōu)先隊(duì)列模型，最后基于半馬爾可夫決策過程提出一個感知應(yīng)用程序卸載策略來獲取最優(yōu)的資源分配方案，并最大化長期獎勵。文獻(xiàn)［16］考慮了異構(gòu)車輛與RSU 計(jì)算資源分配的場景，并且對于不同類型的任務(wù)請求遵循不同的泊松分布，但由于使用的是傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法，因此不能很好地處理復(fù)雜環(huán)境狀態(tài)情形。

將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合的深度強(qiáng)化學(xué)習(xí)（Deep Reinforcement Learning，DRL）技術(shù)［17］，不需要明確狀態(tài)轉(zhuǎn)移概率，只基于當(dāng)前的情況，根據(jù)系統(tǒng)狀態(tài)的樣本和客觀獎勵的經(jīng)驗(yàn)策略來做出決策。DRL 模型有效地改善了傳統(tǒng)強(qiáng)化學(xué)習(xí)算法在高維輸入狀態(tài)空間或大動作集的環(huán)境下性能差的問題。文獻(xiàn)［18］提出一種三層卸載框架使得總體能耗最小，并且考慮了運(yùn)動車輛和?？吭谕＼噲龅撵o態(tài)車輛，由于具有較高的計(jì)算復(fù)雜度，因此將資源分配問題分解為流量重定向和卸載決策兩部分，對于流量重定向問題使用Edmonds-Karp 算法，而卸載決策部分使用雙Q 網(wǎng)絡(luò)［19］（Double Deep Q-Network，DDQN）。文獻(xiàn)［20］提出一個知識驅(qū)動車聯(lián)網(wǎng)服務(wù)卸載框架，基于A3C（Asynchronous Advantage Actor-Critic）算法可以同時在多個不同的邊緣節(jié)點(diǎn)訓(xùn)練，然后將學(xué)到的知識傳遞到VC 控制器，使得決策能更好地適應(yīng)環(huán)境變化。文獻(xiàn)［21］提出一種通過啟發(fā)式算法將有限的計(jì)算資源分配給車輛應(yīng)用的模型，由于環(huán)境中的高維信息和連續(xù)行為空間，通過遞歸神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）來提取基于時間和位置的資源可用性模式，使用近端策略優(yōu)化（Proximal Policy Optimization，PPO）算法對計(jì)算資源進(jìn)行分配，模擬實(shí)驗(yàn)結(jié)果表明，相比于傳統(tǒng)的方案可以取得更高的服務(wù)滿意度。

本文在二次資源分配（Secondary Resource Allocation，SRA）機(jī)制［22］的基礎(chǔ)上，提出一種基于雙時間尺度的二次資源分配機(jī)制。該機(jī)制考慮了異質(zhì)化車輛與不同類型的任務(wù)請求，其不同于單智能體算法，而是運(yùn)用多智能體強(qiáng)化學(xué)習(xí)（Multi-Agent Reinforcement Learning，MARL）算法QMix［23］對計(jì)算資源進(jìn)行分配從而獲得更好的服務(wù)滿意度。

1 系統(tǒng)模型

本文的VC 系統(tǒng)模型如圖1 所示，系統(tǒng)主要由車輛和路邊的RSU 設(shè)備組成。VC 系統(tǒng)的控制中心部署在RSU 上，通過車輛-基礎(chǔ)設(shè)施［24］（Vehicle-to-Infrastructure，V2I）通信方式實(shí)現(xiàn)無線連接。本文的VC 系統(tǒng)考慮了異質(zhì)車輛，定義K種車輛類型，不同類型的車輛可以提供不同大小的計(jì)算資源。為了更好地量化VC 中的資源大小，本文使用資源單元（Resource Units，RUs）來表示整個VC 中最小的資源單位，所有資源池中的資源被中心的VC 控制系統(tǒng)進(jìn)行分配。

圖1 VC 系統(tǒng)模型Fig.1 VC system model

對于進(jìn)入與離開VC 的車輛遵循泊松分布，當(dāng)車輛進(jìn)入VC 覆蓋范圍后，由于車輛自身的計(jì)算資源有限，當(dāng)車輛有計(jì)算任務(wù)時就會向VC 發(fā)送任務(wù)請求。VC 接收到任務(wù)請求后，根據(jù)任務(wù)信息與當(dāng)前資源池中的資源數(shù)量來決定是否接收請求，并分配相應(yīng)數(shù)量的RU。如果VC 根據(jù)當(dāng)前系統(tǒng)的請求服務(wù)狀態(tài)拒絕接收請求，此時會把該服務(wù)發(fā)送到附近的邊緣服務(wù)器執(zhí)行，在這種情況下系統(tǒng)會受到懲罰。

為了更加貼合實(shí)際情況，對于不同的任務(wù)請求具有不同的描述特征。比如對于自動導(dǎo)航任務(wù)需要嚴(yán)格的時間限制，而對AR、VR 車載娛樂等計(jì)算密集型任務(wù)則不需要嚴(yán)格的時間限制。本文將任務(wù)信息定義如下：

1.1 通信模型

車輛v的j類型任務(wù)請求的傳輸時間和信道傳輸速率相關(guān)。其中信道傳輸速率可以表示為：

其中：d和c分別為車輛距離RSU 的距離和路徑損耗指數(shù)；為車輛與RSU 之間的傳輸功率；ht為t時刻車輛與RSU 之間的信道衰減系數(shù)；σ2為傳輸?shù)母咚乖肼暪β?；W為可用的頻譜帶寬。此時，對于屬于車輛v任務(wù)類型為j的請求i的傳輸時間為：

1.2 隊(duì)列模型

當(dāng)VC 系統(tǒng)內(nèi)的車輛產(chǎn)生任務(wù)請求時，VC 為其分配RU 資源進(jìn)行服務(wù)，雖然同時要服務(wù)多個任務(wù)請求，但是可以把整個VC 看作是一個基于M/M/1 的隊(duì)列模型。隊(duì)列中的任務(wù)等待流為λ，即隊(duì)列的到達(dá)率。本文假設(shè)對于每一個RU 資源的服務(wù)率為μu，那么此時整個系統(tǒng)的服務(wù)率為：

其中：αk表示k類型車輛可以提供的RU 數(shù)量，α為系數(shù)；Nk表示在VC 覆蓋范圍內(nèi)車輛類型為k的車輛數(shù)量，且滿足λ＜μ關(guān)系。根據(jù)隊(duì)列理論，對于隊(duì)列中一個任務(wù)i的等待時間為：

對于任務(wù)i的執(zhí)行時間可以表示為：

其中：表示對于任務(wù)i分配的RU 數(shù)量。

1.3 二次資源分配機(jī)制

由于VC 環(huán)境的動態(tài)性，車輛進(jìn)入或者離開都會對VC 中可用的資源產(chǎn)生影響，進(jìn)而影響到分配決策，因此以往簡單的卸載方式很難動態(tài)地滿足任務(wù)的計(jì)算需求。本文中使用基于雙時間尺度模型的SRA 機(jī)制。

在本文的模型中，存在大時間尺度和小時間尺度兩種資源分配動作。當(dāng)VC 接收到范圍內(nèi)車輛的任務(wù)請求時，需要決定接收請求或者把請求發(fā)送到附近邊緣服務(wù)器上執(zhí)行，這個過程本文定義為大時間尺度動作。大時間尺度動作的間隔比較長，期間可以根據(jù)環(huán)境的變化對已經(jīng)分配RU 的任務(wù)請求進(jìn)行資源二次調(diào)整，這個調(diào)整動作過程定義為小時間尺度動作。比如，若某一任務(wù)請求分配的資源很充足，則可以適當(dāng)縮減其RU 數(shù)量，另一方面，對于某一請求分配的RU 資源不能在時間限制之前完成，且此時資源池中還有剩余的資源，那么就可以通過增加其RU 數(shù)量來減小任務(wù)完成時間。總地來說，在大時間尺度上決定任務(wù)請求是否接收，在小時間尺度上不斷地調(diào)整已分配的RU 數(shù)量以跟蹤環(huán)境細(xì)微的變化，這樣通過SRA 機(jī)制，模型可以很好地適應(yīng)高速動態(tài)的VC 環(huán)境。

1.4 問題歸納

在給定的時隙h內(nèi)，對于在VC 覆蓋范圍內(nèi)的車輛v生成的j類型請求i，使用=1 來表示VC 接收該請求，使用=1 表示VC 將該請求發(fā)送到附近的邊緣服務(wù)器，在其他情況下和都為0。本文系統(tǒng)的優(yōu)化目標(biāo)是在H的時間段內(nèi)，調(diào)整對VC 范圍內(nèi)車輛的任務(wù)請求的資源分配數(shù)量，在任務(wù)延遲要求的限制下最大化提高系統(tǒng)效用，從而提高用戶的服務(wù)質(zhì)量。

因此，可以歸納出如下優(yōu)化問題：

其中：β為VC 選擇將任務(wù)發(fā)送到附近邊緣服務(wù)器時受到的懲罰；H為每一幕的時隙數(shù)；Nj表示當(dāng)前時隙j類型的請求數(shù)；為完成任務(wù)i需要的時間，可以表示為，對于前兩條限制表示對于一個請求VC 只能選擇一種處理方式；L表示一次可以分配的最大RU 數(shù)量。

2 車輛云計(jì)算資源分配系統(tǒng)

2.1 決策模型

與單智能體強(qiáng)化學(xué)習(xí)不同，MARL 中由于狀態(tài)空間變大，聯(lián)合動作空間隨著智能體數(shù)量呈指數(shù)增長，因而很難擬合出一個合適的函數(shù)來表示真實(shí)的聯(lián)合動作值函數(shù)。在這樣一個隨機(jī)博弈［25］環(huán)境中，智能體需要在有限的計(jì)算資源下協(xié)作，實(shí)現(xiàn)整體的收益最大化。本文使用元組G=(S，U，P，R，O，γ)來描述部分可觀測馬爾可夫決策模型（POMDP），在時隙t有st∈S表示全局的環(huán)境信息，智能體的數(shù)量為A，則對于每一個智能體a∈A都需要選擇一個動作ua∈U去組成一個聯(lián)合動作u，通過把聯(lián)合動作u作用于環(huán)境，根據(jù)狀態(tài)轉(zhuǎn)移概率P(st+1|st，ut)進(jìn)入下一個狀態(tài)。同時，所有的智能體都會收到一個獎勵r(st，ut)。在實(shí)際觀測過程中，智能體只能獲取自身的狀態(tài)信息，不同的智能體具有不同的觀測信息用O(s，a)來表示。使用RNN 對于不完全觀測可以取得較好的效果，因此使用τa表示智能體a的動作觀測歷史，基于這個動作觀測歷史來構(gòu)建策略函數(shù)πa(ua|τa)，由此可以得到聯(lián)合動作值函數(shù)：

其中：γ表示折扣因子。

2.1.1 狀態(tài)與觀測空間

對于VC 環(huán)境中全局狀態(tài)st需要考慮車輛、隊(duì)列等所有信息，可以表示為：

其中：vm表示VC 范圍內(nèi)車輛的信息，包括車輛類型、位置、速度以及生成的任務(wù)請求；qf表示隊(duì)列中等待的請求信息；pa表示正在執(zhí)行中的任務(wù)請求信息，每一個智能體a處理一個任務(wù)請求；e表示當(dāng)前時隙的事件，包括請求到來ear與請求離開ed。對與當(dāng)前時隙的任務(wù)請求，需要獲取的部分觀測信息Oa，有：

其中：ka表示請求a所屬車輛的類型，不同類型的車輛可以提供不同數(shù)量的計(jì)算資源；va和ga分別表示當(dāng)前時隙車輛的速度與位置坐標(biāo)。

2.1.2 動作空間

由于系統(tǒng)模型使用基于雙時間尺度的SRA 機(jī)制，因此存在兩種動作。對于大時間尺度，在時隙t的聯(lián)合動作為ul={a1，a2，…，an|a∈{0，1，…，l}}，其中，an表示對第n個請求分配的RU資源數(shù)量，最大值為l，當(dāng)an=0 時表示VC 拒絕接收請求并把請求發(fā)送到附近的邊緣服務(wù)器上執(zhí)行。對于小時間尺度，在時隙t的聯(lián)合動作為：

其中：-s與s表示對某一請求減少或增加s數(shù)量的RU；當(dāng)an=0 時表示對該請求不做任何操作。

2.1.3 獎勵函數(shù)

本文系統(tǒng)的優(yōu)化目標(biāo)是最大化系統(tǒng)整體效用，強(qiáng)化學(xué)習(xí)的目標(biāo)就是最大化獲得的累計(jì)獎勵，所以定義獎勵函數(shù)值為在每一個時隙獲得的效用值。若要獲得更大的效應(yīng)值，那么就要最小化每一個接收的任務(wù)執(zhí)行時間ttot。對于每一個任務(wù)請求的效用，本文定義Δt=(tmax-ttot)為請求完成總時間與其最大時間限制的差值，則獎勵函數(shù)如下：

其中：β表示對VC 拒絕請求的懲罰；η表示一個RU可以獲得的效用值；ρ是一個參數(shù)，滿足0 ＜ρ＜1。最優(yōu)的資源分配策略π*就是使得整體獎勵最大的策略，可以表示為：

2.2 DQN 與SRA-QMix

DQN 是在Q-Learning 算法的基礎(chǔ)上引入神經(jīng)網(wǎng)絡(luò)來代替Q 表格，使得可以處理連續(xù)狀態(tài)的環(huán)境，其損失函數(shù)為：

本文將QMix 算法與SRA 機(jī)制相結(jié)合，提出一種新的計(jì)算資源分配算法SRA-QMix，使用集中式訓(xùn)練分布式執(zhí)行（Centralised Training with Decentralised，CTDE）機(jī)制。每個智能體表示要處理的請求，所有智能體的部分觀測之和就是全局狀態(tài)，即通過全局狀態(tài)st信息訓(xùn)練Q網(wǎng)絡(luò)得到全局的值函數(shù)Qtot(τ，u)。在分散執(zhí)行階段，根據(jù)每個任務(wù)請求信息以及其所屬車輛的局部觀測狀態(tài)oi來估計(jì)動作價值，每個智能體都采取貪婪策略來選擇動作。全局Q值計(jì)算過程如圖2所示。

圖2 SRA-QMix 算法全局Q 值計(jì)算過程Fig.2 The process of the global Q value calculation in SRA-QMix algorithm

全局值函數(shù)Qtot(τ，u) 與單個智能體值函數(shù)Qa(τn，un)單調(diào)性相同，那么對全局值函數(shù)取argmax操作與對單個智能體的值函數(shù)取argmax 操作能夠得到相同的結(jié)果：

為了保證值函數(shù)的單調(diào)性使得式（14）等式成立，算法存在以下約束：

不同于值分解網(wǎng)絡(luò)（Value-Decomposition Networks，VDN）算法中對所有智能體的值函數(shù)簡單相加，如圖2所示，QMix 使用混合網(wǎng)絡(luò)通過非線性方式對單智能體局部值函數(shù)進(jìn)行整合：

其中：M表示Mixing 網(wǎng)絡(luò)，是一種前饋神經(jīng)網(wǎng)絡(luò)。為了滿足式（15）的要求，混合網(wǎng)絡(luò)的參數(shù)由單獨(dú)的超參數(shù)網(wǎng)絡(luò)生成，其采用一種超網(wǎng)絡(luò)結(jié)構(gòu)，輸入不僅有各個智能體的局部值函數(shù)，還包括全局狀態(tài)信息st，輸出為混合網(wǎng)絡(luò)的權(quán)值與偏移量。這樣，通過對Qtot(τ，u)進(jìn)行分解，對其進(jìn)行argmax 操作的計(jì)算量就不再是隨著聯(lián)合動作空間呈指數(shù)增長，而是隨著智能體數(shù)量呈線性增長，極大地提高了算法的效率。每一個智能體的結(jié)構(gòu)都為DRQN 網(wǎng)絡(luò)，輸入為單個任務(wù)觀測的軌跡信息，經(jīng)過GRU 循環(huán)網(wǎng)絡(luò)，即具有學(xué)習(xí)長時間序列的能力。在程序中對于所有的智能體可以使用one-hot 編碼方式共用同一套網(wǎng)絡(luò)。

SRA-QMix 是基于DQN 算法得到，兩者基本流程相似，都用到了經(jīng)驗(yàn)池用來存放經(jīng)驗(yàn)信息，同時存在相應(yīng)的目標(biāo)網(wǎng)絡(luò)，其最終的損失函數(shù)可以表示為：

其中：b表示從經(jīng)驗(yàn)池中采樣的樣本數(shù)量。

SRA-QMix 算法描述如下：

算法1SRA-QMix 算法

輸入DRQN 和Mix 神經(jīng)網(wǎng)絡(luò)參數(shù)，全局狀態(tài)st以及所有任務(wù)的部分觀測

輸出可以獲得最優(yōu)效用值的動作向量

1.初始化環(huán)境參數(shù)，車輛到達(dá)流λ，車輛類型以及環(huán)境參數(shù)β、η 和ρ；

2.初始化DRQN 網(wǎng)絡(luò)、Mix 網(wǎng)絡(luò)和相應(yīng)的目標(biāo)網(wǎng)絡(luò)參數(shù)，以及算法的超參數(shù)；

3.初始化兩種時間尺度對應(yīng)的經(jīng)驗(yàn)池Buffer；

4.對于每個epoch 做以下操作：

5.重置環(huán)境信息得到初始st，根據(jù)當(dāng)前step 為每一個agent 根據(jù)DRQN 網(wǎng)絡(luò)的輸出選擇動作；

6.獲取下一時刻狀態(tài)st+1與獎勵；

7.重復(fù)步驟5 和步驟6，直到當(dāng)前環(huán)境結(jié)束，將搜集到的大時間尺度和小時間尺度經(jīng)驗(yàn)序列存入經(jīng)驗(yàn)池；

8.從相應(yīng)經(jīng)驗(yàn)池中選取batch_size 大小的數(shù)據(jù)分別對大時間和小時間策略進(jìn)行訓(xùn)練；

10.利用Mix 網(wǎng)絡(luò)與式（18）計(jì)算Qtot與

11.利用式（17）計(jì)算損失；

12.更新網(wǎng)絡(luò)參數(shù)；

13.一定次數(shù)后更新目標(biāo)網(wǎng)絡(luò)參數(shù)；

14.結(jié)束當(dāng)前訓(xùn)練，進(jìn)入下一個epoch；

15.結(jié)束算法。

3 仿真結(jié)果與分析

3.1 仿真環(huán)境與參數(shù)

仿真軟件使用SUMO，硬件使用Intel Xeon W-2133，32 GB 內(nèi)存，基于Ubuntu18.04，仿真程序使用Python3.6+Pytorch1.8 編寫。仿真場景考慮了一個十字路口的區(qū)域，部署一臺RSU 與作為VC 的控制中心，車輛進(jìn)入VC 環(huán)境后，假設(shè)都會分享計(jì)算資源，同時每輛車輛都有一定的概率產(chǎn)生任務(wù)請求。算法采用退化?-greedy 策略，部分仿真參數(shù)如表1 所示。

表1 部分仿真參數(shù)設(shè)置Table 1 Setting of part the simulation parameter

3.2 結(jié)果分析

為驗(yàn)證本文計(jì)算資源分配算法SRA-QMix 的性能及其雙時間尺度的有效性，本文將以下3 種算法作為基準(zhǔn)進(jìn)行對照：

1）QMix。沒有使用二次資源分配策略的方案。

2）MADDPG。確定性策略梯度算法DDPG 的多智能體改進(jìn)版。

3）SRA-MADDPG。在MADDPG 算法的基礎(chǔ)上增加二次資源分配機(jī)制。

圖3 所示為不同算法下的總效用值隨車輛到達(dá)率λ變化情況，λ越大表示同一時刻進(jìn)入VC 覆蓋范圍的車輛就越多，相應(yīng)地，同一時隙需要處理的請求數(shù)也會增加。當(dāng)λ為0.3 時，4 種算法效用值都比較低，這是由于此時任務(wù)數(shù)量比較少。隨著車輛到達(dá)率的增加，4 種算法的總效用值也隨之增加。可以看出，SRA-QMix算法可以獲得更高的效用值，相比SRA-MADDPG 算法，系統(tǒng)效用平均提高了70%。這是因?yàn)樵撍惴梢愿玫靥幚矶鄠€任務(wù)之間的合作競爭關(guān)系，得到整體最大獎勵。另外，相比于不使用SRA 機(jī)制的算法，SRA 機(jī)制可以獲得更高的系統(tǒng)效用值。

圖3 系統(tǒng)總效用隨車輛到達(dá)率的變化情況Fig.3 The total utility of the system varies with the vehicle arrival rate

圖4 所示為不同算法下任務(wù)的完成率與車輛到達(dá)率λ之間的關(guān)系?？梢钥闯鲭S著車輛到達(dá)率的增加，對于任務(wù)請求的完成率在下降。在λ=0.3 時刻，SRA-QMix 算法的任務(wù)完成率可以接近90%，但是隨著到達(dá)率的增加，4 種算法對任務(wù)的完成率都隨之下降。這是因?yàn)殡S著到達(dá)率的增加，每一時刻系統(tǒng)需要處理的請求數(shù)量也會增加，對于在有限的RU 計(jì)算資源情況下，算法的分配策略就不再精準(zhǔn)，任務(wù)在最大時間限制之前完成的概率就減小。在不同到達(dá)率下提出算法相比于SRA-MADDPG 算法的任務(wù)完成率平均高6%。另外，相比于未使用SRA 機(jī)制的算法相比，上述兩種算法任務(wù)完成率分別提高了13%和15%。可以看出應(yīng)用了SRA 機(jī)制可以顯著提高算法性能，這是由于通過小時間動作的不斷微調(diào)，提高了資源利用率。

圖4 任務(wù)完成率與車輛到達(dá)率的關(guān)系Fig.4 Relationship between task finish rate and vehicle arrival rate

從圖3 和圖4 可以看出：MADDPG 算法的表現(xiàn)是弱于QMix 算法的，這是因?yàn)镸ADDPG 算法是在深度確定性策略梯度DDPG 算法基礎(chǔ)上改進(jìn)得來的，對于Critic 部分能夠獲取到全局狀態(tài)用來指導(dǎo)單個Actor 的訓(xùn)練，在測試時Actor 根據(jù)局部觀測來采取行動，遵循集中式訓(xùn)練分布式執(zhí)行過程。但是由于缺乏QMix 對于各個智能體的Q值融合機(jī)制，沒有整體的獎勵函數(shù)，對于在資源受限情況下的智能體協(xié)同表現(xiàn)要弱于QMix 算法。

圖5 所示為任務(wù)完成率與參數(shù)α之間的關(guān)系。其中α表示車輛類型與可提供的RU 數(shù)量之間的關(guān)系，α越大，同樣的車輛就可以提供更多的計(jì)算資源，那么整體的RU 數(shù)量就會增加。本文設(shè)置當(dāng)前每個時刻可以處理的請求數(shù)量為10。在開始時，由于RU數(shù)量很少，此時4 種算法的完成率都比較低，主要是因?yàn)橘Y源池中沒有足夠多的RU 資源。隨著α的增加，同樣的車輛可以貢獻(xiàn)更多數(shù)量的RU，4 種算法的任務(wù)完成率也隨之增加，因?yàn)楦嗟馁Y源可以使得請求更快地被完成。可以看出SRA-QMix 算法具有最好的表現(xiàn)。

圖5 任務(wù)完成率與參數(shù)α 的關(guān)系Fig.5 Relationship between task finish rate and parameter of α

圖6 所示為小時間尺度在不同更新間隔下總效用與任務(wù)完成率的情況。此處展示的是車輛到達(dá)率在λ=1、α=1.5 情況下的表現(xiàn)，小時間尺度更新間隔越小，更新越頻繁。當(dāng)更新間隔為1 時隙時，表示在環(huán)境的每一步都會通過小時間尺度更新對分配的RU數(shù)量進(jìn)行調(diào)整?？梢钥闯觯陂g隔為1 時隙時，兩種算法都有最高的效用值和任務(wù)完成率。隨著更新間隔時間的增加，系統(tǒng)總效用和任務(wù)的完成率都隨之下降，說明通過高頻率的小時間尺度更新可以適應(yīng)高度動態(tài)的VC 環(huán)境，幫助算法學(xué)習(xí)到更好的資源分配策略。

圖6 系統(tǒng)總效用和任務(wù)完成率隨小時間尺度更新間隔的變化Fig.6 The total utility and task finish rate of the system varies with the small time scale update interval

4 結(jié)束語

對于VC 環(huán)境的任務(wù)卸載與計(jì)算資源分配問題，本文提出一種考慮異質(zhì)性任務(wù)和車輛的多智能體卸載算法SRA-QMix，并根據(jù)VC 環(huán)境中計(jì)算資源波動對任務(wù)卸載的影響，提出二次資源分配機(jī)制，即在大時間尺度上決定是否接收任務(wù)請求，在小時間尺度上對已經(jīng)分配的計(jì)算資源進(jìn)行動態(tài)調(diào)整。對于多智能體環(huán)境下狀態(tài)與動作空間的維度詛咒問題，結(jié)合QMix 算法對各個局部Q值進(jìn)行非線性融合，降低算法復(fù)雜度。針對VC環(huán)境中計(jì)算資源的分配問題，通過預(yù)測VC 范圍外的車流量，在大時間尺度上提前做出應(yīng)對策略，從而輔助大時間尺度上的資源分配決策過程，提高算法的動態(tài)資源分配能力。實(shí)驗(yàn)結(jié)果表明，與深度確定性策略優(yōu)化算法對比，本文提出的決策算法具有更高的效用值與任務(wù)完成率，并證明了二次資源分配機(jī)制對解決車輛云環(huán)境中任務(wù)卸載與資源分配問題的有效性，且高頻次的小時間動作對車輛云卸載環(huán)境有更好的適應(yīng)性。近年來深度強(qiáng)化學(xué)習(xí)技術(shù)受到人們越來越多的關(guān)注，如何使用深度強(qiáng)化學(xué)習(xí)技術(shù)對車輛狀態(tài)和獎勵函數(shù)設(shè)定等車聯(lián)網(wǎng)任務(wù)卸載策略進(jìn)行通用建模，并使其更加簡單易用，將是下一步的研究方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡