国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多智能體強(qiáng)化學(xué)習(xí)的大規(guī)模災(zāi)后用戶分布式覆蓋優(yōu)化

2022-09-03 10:29:48許文俊吳思雷王鳳玉林蘭李國軍張治
通信學(xué)報 2022年8期
關(guān)鍵詞:頻譜基站分布式

許文俊,吳思雷,王鳳玉,林蘭,李國軍,張治

(1.北京郵電大學(xué)人工智能學(xué)院,北京 100876;2.重慶郵電大學(xué)超視距可信信息傳輸研究所,重慶 400065;3.北京郵電大學(xué)信息與通信工程學(xué)院,北京 100876)

0 引言

在發(fā)生重大自然災(zāi)害后,地面的基礎(chǔ)通信設(shè)施通常會遭到毀壞而產(chǎn)生通信中斷,重要的通信信息被阻絕,危及受災(zāi)用戶的生命安全,加劇災(zāi)后救援的難度。無人機(jī)因為具有快速部署、靈活調(diào)控等優(yōu)點,能夠通過裝備應(yīng)急基站提供有效的空地視線線路(LoS,line of sight)覆蓋受災(zāi)區(qū)域,在應(yīng)急通信領(lǐng)域具有廣泛的應(yīng)用前景[1]。隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)的高速發(fā)展,大量數(shù)字化機(jī)器設(shè)備被應(yīng)用于搶險救災(zāi)、智能醫(yī)療等應(yīng)急服務(wù),大量傳感器和輔助裝置被部署以對災(zāi)區(qū)狀況進(jìn)行持續(xù)監(jiān)控[1]。因此,服務(wù)于6G 的應(yīng)急通信網(wǎng)絡(luò)將面臨更大規(guī)模、更高密度、更快速度的覆蓋需求[2],并且需要應(yīng)對大規(guī)模用戶接入帶來的高動態(tài)性和未知業(yè)務(wù)類型[3]。為了應(yīng)對6G 背景帶來的挑戰(zhàn),“節(jié)點極智、網(wǎng)絡(luò)極簡”的智簡應(yīng)急通信網(wǎng)絡(luò)[4-5]應(yīng)運而生。通過采取以通信計算融合[6]為代表的智能技術(shù),網(wǎng)絡(luò)中的節(jié)點將成為具備智能的“智慧內(nèi)生”新型節(jié)點,而網(wǎng)絡(luò)本身的協(xié)議結(jié)構(gòu)將趨向于“原生簡約”,基于內(nèi)生智慧驅(qū)動打造通信鏈路與網(wǎng)絡(luò)組織的隨需動態(tài)重塑能力。智簡應(yīng)急通信網(wǎng)絡(luò)將具備針對用戶狀態(tài)動態(tài)改變、實時調(diào)整網(wǎng)絡(luò)部署,并根據(jù)用戶業(yè)務(wù)差異按需調(diào)配網(wǎng)絡(luò)資源的能力。

傳統(tǒng)非智能化的應(yīng)急通信網(wǎng)絡(luò)常采用非凸優(yōu)化方法提升覆蓋性能,其中覆蓋性能由無人機(jī)基站相對地面用戶的實時位置主導(dǎo),需要解決關(guān)于無人機(jī)基站飛行軌跡的非凸優(yōu)化問題。Kang等[7]對多無人機(jī)基站多用戶的通信場景進(jìn)行建模,利用迭代吉布斯采樣和塊坐標(biāo)下降方法對多無人機(jī)基站的飛行軌跡進(jìn)行聯(lián)合優(yōu)化,高效率地提升了網(wǎng)絡(luò)的最大?最小速率。Yin 等[8]在大規(guī)模地面用戶場景,利用連續(xù)凸逼近方法聯(lián)合優(yōu)化了地面分簇和多無人機(jī)基站的懸停位置,提升了網(wǎng)絡(luò)的頻譜效率。Zhang 等[9]針對應(yīng)急通信場景的通信特征與需求,對多無人機(jī)基站的功率分配和軌跡優(yōu)化問題聯(lián)合建模,最大化應(yīng)急通信網(wǎng)絡(luò)的容量。然而,上述傳統(tǒng)非智能化的覆蓋優(yōu)化方法需要全部精準(zhǔn)的網(wǎng)絡(luò)環(huán)境狀態(tài)輔助(如用戶位置、數(shù)據(jù)大小、信道狀態(tài)等)作為待優(yōu)化非凸問題中的固定參數(shù),在求解過程中保持不變。因此,上述方法只適用于完全靜態(tài)的網(wǎng)絡(luò)場景,已知未來時刻的全部網(wǎng)絡(luò)狀態(tài)信息和所有用戶的業(yè)務(wù)需求,難以應(yīng)對大規(guī)模災(zāi)后用戶的動態(tài)性與業(yè)務(wù)差異性。

智能化的深度強(qiáng)化學(xué)習(xí)方法被視為應(yīng)對網(wǎng)絡(luò)動態(tài)性的關(guān)鍵技術(shù),配置深度強(qiáng)化學(xué)習(xí)智能體的無人機(jī)基站能夠基于實時網(wǎng)絡(luò)狀態(tài)時序調(diào)控飛行軌跡,以最大化網(wǎng)絡(luò)長期的性能收益。為了得到最優(yōu)的覆蓋優(yōu)化策略,深度強(qiáng)化學(xué)習(xí)智能體需要迭代進(jìn)行用于擬合動態(tài)網(wǎng)絡(luò)環(huán)境的“訓(xùn)練階段”和用于實時調(diào)控?zé)o人機(jī)基站飛行軌跡的“執(zhí)行階段”。不同“訓(xùn)練階段”和“執(zhí)行階段”的實現(xiàn)方式,衍生出了多種基于深度強(qiáng)化學(xué)習(xí)的覆蓋優(yōu)化方法。文獻(xiàn)[10]采用深度強(qiáng)化學(xué)習(xí)近端策略優(yōu)化(PPO,proximal policy optimization)算法,提升了單無人機(jī)基站的通信速率并減小了飛行能耗。Liu等[11]利用深度確定性策略梯度(DDPG,deep deterministic policy gradient)算法,在不考慮干擾的情況下對多無人機(jī)基站的部署進(jìn)行了優(yōu)化。然而,多無人機(jī)基站間存在干擾時,單智能體強(qiáng)化學(xué)習(xí)的學(xué)習(xí)環(huán)境非平穩(wěn)導(dǎo)致算法難以收斂。為了解決上述問題,Challita 等[12]將博弈論融入回聲狀態(tài)網(wǎng)絡(luò)(ESN,echo state network),聯(lián)合優(yōu)化了多無人機(jī)基站的飛行軌跡。不同于文獻(xiàn)[12]中基于值函數(shù)的強(qiáng)化學(xué)習(xí)方法,文獻(xiàn)[13-14]采用了多智能體深度確定性策略梯度(MADDPG,multi-agent deep deterministic policy gradient)算法,基于策略梯度對動作空間進(jìn)行泛化,能夠連續(xù)輸出動作精準(zhǔn)調(diào)控?zé)o人機(jī)飛行軌跡,避免了維度爆炸的問題[15]。然而,隨著應(yīng)急通信網(wǎng)絡(luò)的規(guī)模增大,以“集中式訓(xùn)練?分布式執(zhí)行”為框架的MADDPG算法的輸入維度成倍增加,學(xué)習(xí)難度呈爆炸式增長,穩(wěn)定性較差[16],并且嚴(yán)重受固定架構(gòu)下集中式訓(xùn)練中心處的災(zāi)情影響,難以處理大規(guī)模災(zāi)后用戶的覆蓋優(yōu)化問題。

為了解決上述問題,本文提出了一種分布式智簡的大規(guī)模災(zāi)后用戶覆蓋優(yōu)化架構(gòu),網(wǎng)絡(luò)特征層從用戶需求本原出發(fā)擬合大規(guī)模災(zāi)后用戶的業(yè)務(wù)差異性,按需重塑用戶分簇組網(wǎng)結(jié)構(gòu),軌跡調(diào)控層利用多智能體強(qiáng)化學(xué)習(xí)技術(shù)賦予每個應(yīng)急無人機(jī)基站智能化、分布式?jīng)Q策自身飛行軌跡的能力,提升應(yīng)急通信網(wǎng)絡(luò)的總體覆蓋性能。本文的主要研究工作如下。

1)基于多智能體強(qiáng)化學(xué)習(xí)技術(shù),設(shè)計分布式智簡的大規(guī)模災(zāi)后用戶覆蓋優(yōu)化架構(gòu)。具體地,特征提取層通過自身獲取的局部網(wǎng)絡(luò)環(huán)境信息對地面用戶執(zhí)行分布式分簇組網(wǎng),以特征化的簇中心用戶信息作為狀態(tài)輸入多智能體強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),使軌跡調(diào)控層能夠以小規(guī)模維度的狀態(tài)調(diào)控?zé)o人機(jī)基站的實時軌跡。

2)提出考慮用戶業(yè)務(wù)差異性的分布式k-sums分簇算法,特征化大規(guī)模災(zāi)后用戶狀態(tài)。首先利用貝葉斯推理在線學(xué)習(xí)用戶的業(yè)務(wù)差異性,獲取用戶的傳輸優(yōu)先系數(shù)。進(jìn)一步,無人機(jī)基站結(jié)合局部可獲取用戶的優(yōu)先系數(shù)和負(fù)載信息執(zhí)行分布式分簇,篩選獲取簇中心用戶。相比傳統(tǒng)分簇算法,分布式k-sums 分簇算法在平均負(fù)載效率和簇間均衡性方面均有性能提升。

3)提出多智能體最大熵強(qiáng)化學(xué)習(xí)(MASAC,multi-agent soft actor critic)算法,用于多無人機(jī)基站分布式調(diào)控自身飛行軌跡。MASAC 以“分布式訓(xùn)練?分布式執(zhí)行”的框架,融合最大熵理論和集成學(xué)習(xí)、課程學(xué)習(xí)技術(shù),改進(jìn)了現(xiàn)有多智能體深度強(qiáng)化學(xué)習(xí)方法不穩(wěn)定、受災(zāi)情影響嚴(yán)重的問題,顯著降低了應(yīng)急通信網(wǎng)絡(luò)的通信中斷頻率,提升了網(wǎng)絡(luò)的頻譜利用效率。

1 系統(tǒng)模型與架構(gòu)設(shè)計

如圖1 所示,受災(zāi)區(qū)域內(nèi)存在大規(guī)模具有動態(tài)性和業(yè)務(wù)差異性的地面用戶,應(yīng)急通信網(wǎng)絡(luò)通過部署多架無人機(jī)基站接收地面用戶的通信信息。假設(shè)受災(zāi)區(qū)域共有N個用戶,部署了M架無人機(jī)基站,用戶被分為M個用戶簇分別由各無人機(jī)基站恢復(fù)通信服務(wù)。其中,每個用戶簇有一個簇中心用戶與無人機(jī)基站直接相連,簇內(nèi)其他用戶的信息則會通過簇中心用戶轉(zhuǎn)發(fā)。用戶集合與無人機(jī)基站集合分別用N 和M 表示。描述本文系統(tǒng)環(huán)境和覆蓋優(yōu)化算法的參數(shù)如表1 所示。

圖1 應(yīng)急通信網(wǎng)絡(luò)系統(tǒng)模型

表1 系統(tǒng)和算法參數(shù)

在大規(guī)模應(yīng)急通信網(wǎng)絡(luò)中,用戶的信息匯聚傳輸采用簇中心用戶做信息轉(zhuǎn)發(fā)的優(yōu)勢,在于處理能力、能量損耗和干擾強(qiáng)度3 個方面。其一,無人機(jī)基站的處理能力有限,通過用戶分簇能夠減少與無人機(jī)基站直接相連用戶的數(shù)目,并有效降低神經(jīng)網(wǎng)絡(luò)的維度,避免網(wǎng)絡(luò)陷于癱瘓;其二,通過減少無人機(jī)基站直接接入的用戶數(shù)目,減少無人機(jī)基站的通信能耗和計算能耗,增加無人機(jī)基站的持續(xù)運行時間;其三,通過用戶分簇減少空地通信鏈路的數(shù)目,能夠降低空地通信簇間干擾,提升網(wǎng)絡(luò)整體的通信能力。

本節(jié)后續(xù)將分別對本文涉及的用戶模型、地面?zhèn)鬏斈P?、空地傳輸模型和覆蓋優(yōu)化架構(gòu)設(shè)計進(jìn)行詳細(xì)描述。

1.1 用戶模型

在真實復(fù)雜的應(yīng)急通信網(wǎng)絡(luò)環(huán)境中,大規(guī)模災(zāi)后用戶呈現(xiàn)出明顯的動態(tài)性與業(yè)務(wù)差異性。動態(tài)性體現(xiàn)在自身位置實時變化,激活狀態(tài)具有時間隨機(jī)性。如果用戶在給定時刻處于激活狀態(tài),則有新傳輸任務(wù)。用戶i的激活狀態(tài)在t∈[0,T]時間內(nèi)服從Beta 分布

其中,κ1和κ2是Beta 分布的參數(shù)。值得注意的是,用戶的激活狀態(tài)僅與是否有新的傳輸任務(wù)有關(guān),處于非激活狀態(tài)的用戶仍可以傳輸上一時刻未被傳輸?shù)氖S鄶?shù)據(jù),并可能被選為簇中心用戶。用戶被選為簇中心用戶后需要負(fù)責(zé)轉(zhuǎn)發(fā)簇內(nèi)所有用戶的信息和更高的發(fā)送功率,由于本文重點關(guān)注覆蓋優(yōu)化以恢復(fù)大規(guī)模用戶通信,因此不對用戶的能量均衡進(jìn)行探討。

用戶的業(yè)務(wù)差異性體現(xiàn)在不同的通信業(yè)務(wù)服務(wù)對速率、時延、安全性等需求各異,本文主要考慮由于業(yè)務(wù)類型、任務(wù)需求不同引起的信息差異性,用戶所需傳輸?shù)臄?shù)據(jù)大小存在明顯差異。假設(shè)用戶i在激活時刻t的新傳輸任務(wù)數(shù)據(jù)大小di(t)服從高斯分布[17]

其中,μi和σi是描述用戶i業(yè)務(wù)類型傳輸任務(wù)大小的均值和標(biāo)準(zhǔn)差常數(shù),不同時刻的di(t)由于傳輸任務(wù)的語義變化而產(chǎn)生波動。

1.2 地面?zhèn)鬏斈P?/h3>

地面大規(guī)模受災(zāi)用戶被劃分為M個簇,簇數(shù)與無人機(jī)基站的數(shù)目相同,每個用戶首先將數(shù)據(jù)傳輸至簇中心用戶,通過簇中心用戶轉(zhuǎn)發(fā)將數(shù)據(jù)傳輸至無人機(jī)基站。用戶i與簇中心用戶ui間的通信采用sub-6 GHz 頻段的地對地通信鏈接,其中非視距(NLoS,non line of sight)在該無線鏈路中占主導(dǎo)地位,路徑損耗可以依據(jù)瑞利衰落信道模型表示為[18]

其中,P1代表用戶的發(fā)送功率,代表用戶i與簇中心用戶ui之間的信道增益,N0代表噪聲功率。信道增益受路徑損耗影響,滿足

用戶i在時刻t傳輸數(shù)據(jù)的頻譜效率可以表示為

用戶i在時刻t的總傳輸任務(wù)大小用符號Di(t)表示,包含時刻(t?1)的剩余傳輸任務(wù)大小和時刻t的新傳輸任務(wù)大小di(t)。規(guī)定在初始時刻無剩余傳輸任務(wù),即Di(?1)=0,則有

其中,B表示地面資源塊的帶寬大小;ni(t)表示用戶的負(fù)載資源塊數(shù)目,由總傳輸任務(wù)大小和頻譜效率決定

其中,Nc是資源塊負(fù)載閾值,以防用戶由于低頻譜效率而占用過多的頻譜資源塊。定義評價指標(biāo)平均負(fù)載效率為

平均負(fù)載效率η可以有效地評價不同用戶動態(tài)性和信息差異性情況下的地面分簇結(jié)果。

1.3 空地傳輸模型

應(yīng)急無人機(jī)基站與簇中心用戶間的通信采用sub-6 GHz 頻段的空對地通信鏈接,其中LoS 在該無線鏈路中占主導(dǎo)地位。無人機(jī)基站j與簇中心用戶uj間的平均路徑損耗可以表示為

其中,P2代表簇中心用戶的發(fā)送功率,代表無人機(jī)基站j與簇中心用戶uj之間信道增益。信道增益受路徑損耗影響,滿足

無人機(jī)移動帶來的多普勒效應(yīng)可以用現(xiàn)有技術(shù)完美補(bǔ)償,如鎖相環(huán)技術(shù)。無人機(jī)基站j的頻譜效率可以表示為

應(yīng)急通信網(wǎng)絡(luò)的平均頻譜效率可以表示為

本文以式(15)的平均頻譜效率為優(yōu)化目標(biāo),在考慮無人機(jī)基站的最大飛行速度限制、飛行安全性限制和通信中斷限制條件下,對優(yōu)化問題建模

其中,Poutage(t)和分別表示時刻t網(wǎng)絡(luò)的通信中斷概率和最大通信中斷概率限制。優(yōu)化問題中應(yīng)急通信網(wǎng)絡(luò)的平均頻譜效率由各無人機(jī)基站和簇中心用戶之間的信噪比決定,因為空地通信主要為直射路徑,所以信噪比的大小由兩者之間的距離主導(dǎo);另一方面,通信中斷限制條件C3也與地面用戶分簇和簇中心用戶的選擇密切相關(guān)。因此,大規(guī)模多無人機(jī)應(yīng)急通信網(wǎng)絡(luò)中的軌跡調(diào)控問題依賴于地面用戶分簇的結(jié)果,隨著簇中心用戶選擇的動態(tài)變化而調(diào)整飛行軌跡。

1.4 覆蓋優(yōu)化架構(gòu)

以上述用戶模型和通信模型為基礎(chǔ),應(yīng)急通信網(wǎng)絡(luò)的平均頻譜效率R(t)與無人機(jī)基站的位置pj、簇中心用戶的位置pu、地面分簇結(jié)果密切相關(guān)。基于此,本文設(shè)計了一種分布式智簡的大規(guī)模災(zāi)后用戶覆蓋優(yōu)化架構(gòu),由網(wǎng)絡(luò)特征層和軌跡調(diào)控層兩層結(jié)構(gòu)組成,如圖2 所示。相比于傳統(tǒng)的端到端的覆蓋優(yōu)化結(jié)構(gòu),本文設(shè)計的分層級聯(lián)的覆蓋優(yōu)化結(jié)構(gòu)優(yōu)勢在于:①通過降低無人機(jī)基站端的強(qiáng)化學(xué)習(xí)狀態(tài)輸入維度,降低深度神經(jīng)網(wǎng)絡(luò)的規(guī)模,減小問題訓(xùn)練的復(fù)雜度;②通過分層的設(shè)計,空中通信優(yōu)化和地面通信優(yōu)化兩部分各司其職,在實際工程應(yīng)用時方便針對性地調(diào)整性能與參數(shù),是深度強(qiáng)化學(xué)習(xí)算法在各產(chǎn)業(yè)中落地的常用手段。

圖2 面向大規(guī)模災(zāi)后用戶的分布式智簡覆蓋優(yōu)化架構(gòu)

具體而言,每個無人機(jī)基站配置一個分布式計算終端服務(wù)于上述分層的優(yōu)化架構(gòu)。在網(wǎng)絡(luò)特征層中,無人機(jī)基站利用局部獲取的網(wǎng)絡(luò)狀態(tài)信息擬合大規(guī)模災(zāi)后用戶的業(yè)務(wù)差異性,并依此獨立地對局部用戶進(jìn)行分簇組網(wǎng),篩選簇中心用戶特征作為多智能體強(qiáng)化學(xué)習(xí)的輸入狀態(tài)。在軌跡調(diào)控層中,以少量無人機(jī)基站間的通信開銷作為輔助,利用多智能體強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)對時序動態(tài)的狀態(tài)輸入,無人機(jī)基站能夠以“分布式訓(xùn)練?分布式執(zhí)行”的框架自主優(yōu)化飛行軌跡,以減少通信中斷的頻率,并最大化網(wǎng)絡(luò)的頻譜效率。需要指出的是,每個時間幀內(nèi)除了用戶信息經(jīng)簇中心用戶中繼的信息匯聚傳輸過程,還需要簇中心用戶特征作為強(qiáng)化學(xué)習(xí)輸入,以輔助通信開銷的形式傳輸至無人機(jī)基站。

2 網(wǎng)絡(luò)特征層?地面用戶分簇

在網(wǎng)絡(luò)特征層中,地面用戶分簇和簇中心用戶選擇需要應(yīng)對大規(guī)模用戶的業(yè)務(wù)差異性,本節(jié)提出一種基于貝葉斯推理的用戶差異性學(xué)習(xí)算法。由于無人機(jī)基站難以獲取全部大規(guī)模用戶的信息,因此本節(jié)進(jìn)一步提出了考慮用戶差異性的分布式k-sums 分簇算法,得到平均負(fù)載效率更高、簇間數(shù)目更均衡的分簇結(jié)果。

2.1 用戶差異性學(xué)習(xí)

貝葉斯推理是一種統(tǒng)計機(jī)器學(xué)習(xí)方法,基于貝葉斯公式建立觀測量與估計量之間的聯(lián)系[19]。在用戶差異性學(xué)習(xí)過程中,無人機(jī)基站能夠獲取用戶的最近t0幀激活時刻的新任務(wù)大小作為觀測量,對用戶優(yōu)先參數(shù)λi進(jìn)行估計。本文以流量需求大小評價用戶業(yè)務(wù)類型的優(yōu)先級,其中,優(yōu)先參數(shù)λi表示用戶i由信息差異性引起的平均流量需求大小在[1,λmax]之間的數(shù)值表征,旨在為優(yōu)先級更高的用戶分配更高質(zhì)量的頻譜資源。λi服從高斯分布,均值和方差分別為。假設(shè)無人機(jī)基站j可觀測的局部用戶數(shù)目為Nj,用集合Nj表示,定義向量,其中,d*是觀測向量,是估計向量,是參數(shù)向量。

圖3 貝葉斯推理流程

其中,C(d*|λ)∈(?∞,0]。估計向量λ對觀測向量d*的似然函數(shù)可以通過對損失函數(shù)進(jìn)行歸一化得到

基于貝葉斯推理的用戶差異性學(xué)習(xí)算法如算法1 所示。

通過算法1 可以得到每一個用戶的優(yōu)先參數(shù)λ的分布,分簇時按需為存在差異性的用戶提供通信服務(wù),通過優(yōu)先提升λ更高用戶的頻譜效率,能夠有效減小網(wǎng)絡(luò)頻譜資源塊負(fù)載。

2.2 地面用戶分簇

相比于傳統(tǒng)的k-means 算法和譜聚類算法,k-sums 算法[20]具有更低的算法復(fù)雜度(O(NM)),在分簇與簇中心用戶快速變化時能夠高效地執(zhí)行分簇。同時,k-sums 算法可以有效降低簇內(nèi)距離并提升簇間用戶數(shù)目的均衡性。簇內(nèi)距離和簇間均衡性是評價k-sums 算法性能的重要評價標(biāo)準(zhǔn),其中簇內(nèi)距離與應(yīng)急通信網(wǎng)絡(luò)用戶間的平均頻譜效率性能密切相關(guān),而簇間均衡性與不同無人機(jī)基站服務(wù)之間的通信負(fù)載均衡性能密切相關(guān)。綜上所述,k-sums 算法能夠高效地應(yīng)對大規(guī)模災(zāi)后用戶的動態(tài)性和差異性導(dǎo)致的分簇與簇中心用戶快速變化。聚類算法的通用矩陣表達(dá)式為

其中,矩陣Y表示分簇標(biāo)識矩陣,維度為 RN×M,當(dāng)用戶i處于無人機(jī)基站j的服務(wù)簇內(nèi)時元素yi,j=1,反之yi,j=0;矩陣G表示分簇核矩陣,對于不同的分簇算法,矩陣G的定義不同,k-sums算法采用節(jié)點間的鄰近不相似性度量,用戶i1和用戶i2的相似性越小,元素越大,且僅保留Nj個最小的元素,其他元素用最大不相似性常數(shù)替代;運算符Tr(?)是矩陣的求跡操作。k-sums 算法為了保證分簇結(jié)果的均衡性,對問題式(22)增加限制條件YΤY=,其中,I是單位矩陣,是任意常數(shù)。問題式(22)可以轉(zhuǎn)化為

然而,面向大規(guī)模災(zāi)后用戶,單個無人機(jī)基站難以獲取全局用戶的信息,因此無法計算全局用戶間的不相似性度量。若仍采用集中式的分簇方法,會產(chǎn)生大量用戶信息的通信開銷,因此本文提出分布式的k-sums 分簇算法,使無人機(jī)基站僅利用局部觀測信息對大規(guī)模災(zāi)后用戶進(jìn)行分布式分簇。

分布式的k-sums 算法的分簇核矩陣G采用可觀測用戶的鄰近不相似性度量表示,無人機(jī)基站j的分簇核矩陣維度為。而用戶之間的不相似度量則用當(dāng)前時刻用戶i1傳輸至用戶i2所需負(fù)載資源塊數(shù)目與用戶優(yōu)先參數(shù)的乘積表征,即

如此設(shè)計,旨在同時考慮用戶傳輸信息流量需求大小的瞬時特征和長期特征,為存在信息差異性的用戶按需分配負(fù)載資源塊,為業(yè)務(wù)需求更高的用戶提供更優(yōu)質(zhì)的資源塊,在負(fù)載有限的情況下有效降低高優(yōu)先級用戶通信無法被覆蓋的概率。值得注意的是,本文分簇核矩陣的設(shè)計主要考慮了用戶流量需求差異表現(xiàn)的信息差異性;如果需要考慮其他通信需求差異引起的業(yè)務(wù)差異性,則需要針對性地改變分簇核矩陣元素的物理意義與之對應(yīng)。

在此次實驗中,所有的數(shù)據(jù)均放置在SPSS20.0統(tǒng)計學(xué)軟件中進(jìn)行分析,計量資料和計數(shù)資料分別采用t和X2檢驗,當(dāng)p<0.05,則為統(tǒng)計學(xué)意義。

對于每個無人機(jī)基站,分布式的k-sums 分簇算法僅需得到自身服務(wù)的用戶簇,因此定義局部分簇標(biāo)識矩陣,其中yi,0表示用戶i是否處于無人機(jī)基站服務(wù)的用戶簇Nj內(nèi)。為保證分簇結(jié)果用戶的均衡性,滿足問題式(23)的條件,對于矩陣Yp的元素,有

使局部分簇標(biāo)識矩陣能夠滿足全局分簇標(biāo)識矩陣的限制條件YΤY=。此外,無人機(jī)基站的可觀測用戶數(shù)目Nj需要大于無人機(jī)基站服務(wù)用戶的平均值,即Nj>。類似于k-sums 算法的行迭代方法[20],依次優(yōu)化每一個用戶的局部分簇標(biāo)識行向量yi=[yi,0,yi,1],對于每一個行向量,問題式(23)可以轉(zhuǎn)化為

通過算法2 的計算結(jié)果Yp,篩選使yi,0=1的用戶作為無人機(jī)基站j服務(wù)的用戶,并選擇不相似性度量最小的用戶作為簇中心用戶,即

基于簇中心用戶的特征信息,無人機(jī)基站可以實時調(diào)整飛行軌跡以優(yōu)化對地面用戶的覆蓋,本文將在第3 節(jié)進(jìn)行深入探討。

2.3 復(fù)雜度分析

標(biāo)準(zhǔn)的k-means 算法需要迭代進(jìn)行,分配用戶到距離最近的簇中心用戶、重新計算每個用戶簇的分簇中心用戶,因此需要計算每個用戶到所有分簇中心用戶的距離,復(fù)雜度為O(NM)。然而標(biāo)準(zhǔn)的k-means 算法適用范圍較窄,只能處理線性可分的數(shù)據(jù),并且聚類結(jié)果受初始化影響較大。改進(jìn)的k-means 算法為了處理非線性可分的數(shù)據(jù)類型,首先將輸入數(shù)據(jù)非線性地映射至高維空間,然后執(zhí)行k-means 算法,計算復(fù)雜度為O(N2)。譜聚類分簇算法使用了用戶的近鄰圖來進(jìn)行分析,可以處理非線性可分?jǐn)?shù)據(jù),有著更加出色的聚類性能,但是由于先構(gòu)建鄰近圖再進(jìn)行譜分解的操作,計算復(fù)雜度較高,達(dá)到了O(N2M)。k-sums算法的分簇核矩陣采用了鄰近不相似性度量,gi中大部分取值為相同常數(shù),利用行迭代優(yōu)化方法計算式(27)的復(fù)雜度約為O(M),算法總體的計算復(fù)雜度為O(NM)。相比于k-sums 算法,本文提出的分布式k-sums 算法采用了可觀測用戶的鄰近不相似性度量表征分簇核矩陣的元素,矩陣維度由 RN×N降為,局部分簇標(biāo)識矩陣的維度也由RN×M降為,分布式k-sums 算法的計算復(fù)雜度為O(2Nj)。

另一方面,為了在線學(xué)習(xí)用戶的業(yè)務(wù)差異性,貝葉斯推理算法需要執(zhí)行t0步計算損失函數(shù)C(d*(t)|λ(t))和似然函數(shù)P(d*(t)|λ(t))的操作,其中損失函數(shù)的計算復(fù)雜度與可觀測的局部用戶數(shù)目Nj有關(guān),因此基于貝葉斯推理的用戶差異性學(xué)習(xí)算法總體的計算復(fù)雜度為O(t0Nj)。綜上所述,網(wǎng)絡(luò)特征層,即考慮用戶差異性的地面用戶分簇的整體復(fù)雜度為O(t0Nj)。

3 軌跡調(diào)控層?無人機(jī)基站調(diào)控

傳統(tǒng)的無人機(jī)基站軌跡優(yōu)化方法無法處理大規(guī)模用戶的動態(tài)性和長時間維度,而基于單智能體強(qiáng)化學(xué)習(xí)的調(diào)控方法難以應(yīng)對多架無人機(jī)基站導(dǎo)致的非平穩(wěn)學(xué)習(xí)環(huán)境?;诙嘀悄荏w強(qiáng)化學(xué)習(xí)的優(yōu)化方法可以基于當(dāng)前時刻的網(wǎng)絡(luò)環(huán)境狀態(tài)智能決策飛行軌跡,有效解決上述問題。本文提出了一種多智能體最大熵強(qiáng)化學(xué)習(xí)MASAC 算法,比現(xiàn)有的多智能體強(qiáng)化學(xué)習(xí)MADDPG 算法具有更好的收斂性和穩(wěn)定性。

3.1 基于多智能體強(qiáng)化學(xué)習(xí)的無人機(jī)基站分布式調(diào)控設(shè)計

針對大規(guī)模災(zāi)后用戶的覆蓋優(yōu)化問題,1.4 節(jié)設(shè)計了分布式智簡的覆蓋優(yōu)化架構(gòu),其中網(wǎng)絡(luò)特征層負(fù)責(zé)對大規(guī)模地面用戶進(jìn)行分簇,篩選簇中心用戶的特征信息,作為多智能體強(qiáng)化學(xué)習(xí)狀態(tài)輸入軌跡調(diào)控層。軌跡調(diào)控層采用多智能體深度強(qiáng)化學(xué)習(xí)的方法,用馬爾可夫決策過程對軌跡調(diào)控問題進(jìn)行重新建模,將全局優(yōu)化問題轉(zhuǎn)化為在每一個時刻的強(qiáng)化學(xué)習(xí)優(yōu)化目標(biāo),基于獎勵函數(shù)、價值函數(shù)的設(shè)計能夠時序差分漸進(jìn)地調(diào)控?zé)o人機(jī)基站的飛行軌跡,實現(xiàn)網(wǎng)絡(luò)頻譜效率最大化。因此,基于多智能體強(qiáng)化學(xué)習(xí)的無人機(jī)基站分布式調(diào)控設(shè)計具體如下。

狀態(tài)。每個無人機(jī)基站提取部分可觀測信息作為輸入狀態(tài),可以特征化為:1)無人機(jī)基站自身的坐標(biāo);2)與地面分簇中心用戶的二維相對位置;3)接收分簇中心用戶信息的信噪比大??;4)與Mj個鄰近無人機(jī)的三維相對位置。

動作??紤]無人機(jī)基站在三維空間內(nèi)可以自由移動,無人機(jī)基站的輸出動作可以特征化為x軸、y軸、z軸3 個方向上的移動速度。

獎勵。獎勵函數(shù)由飛行安全懲罰值、通信中斷懲罰值、頻譜效率獎勵3 個部分構(gòu)成,即

通信。多智能體強(qiáng)化學(xué)習(xí)MASAC 算法需要擬合鄰近動作?狀態(tài)價值函數(shù),獎勵在計算過程中也需要鄰近無人機(jī)基站的通信信噪比與頻譜利用效率,因此需要與Mj個鄰近無人機(jī)基站交互部分信息,包括:1)無人機(jī)基站自身的坐標(biāo);2)無人機(jī)基站的輸出動作;3)與地面分簇中心用戶的二維相對位置;4)接收分簇中心用戶信息的信噪比大??;5)當(dāng)前時刻無人機(jī)基站的頻譜效率。

本節(jié)后續(xù)將基于上述多智能體強(qiáng)化學(xué)習(xí)軌跡調(diào)控設(shè)計介紹本文提出的多智能體最大熵強(qiáng)化學(xué)習(xí)MASAC 算法,以及融合集成學(xué)習(xí)、課程學(xué)習(xí)技術(shù)提升算法的訓(xùn)練穩(wěn)定性和收斂速度。

3.2 多智能體最大熵強(qiáng)化學(xué)習(xí)MASAC 算法

面對動態(tài)未知的應(yīng)急通信網(wǎng)絡(luò)環(huán)境,強(qiáng)化學(xué)習(xí)利用馬爾可夫決策過程進(jìn)行建模,從環(huán)境中獲取觀測值作為狀態(tài)st,依據(jù)動作選擇策略π(at|st)輸出動作at調(diào)控?zé)o人機(jī)基站的飛行軌跡,執(zhí)行動作獲取環(huán)境交互、通信網(wǎng)絡(luò)覆蓋性能等反饋計算獎勵函數(shù)rt,環(huán)境狀態(tài)經(jīng)過狀態(tài)轉(zhuǎn)移分布pπ(st+1|st,at)轉(zhuǎn)換到下一時刻狀態(tài)st+1。強(qiáng)化學(xué)習(xí)智能體的動作選擇策略與狀態(tài)?動作價值函數(shù)Q(st,at)密切相關(guān),表征在狀態(tài)st下無人機(jī)基站選取動作at收獲的長期折扣累積獎勵的期望值,即考慮了長期的應(yīng)急通信網(wǎng)絡(luò)覆蓋性能。

其中,V(st)是狀態(tài)價值函數(shù),用于表征無人機(jī)基站從處于狀態(tài)st開始能夠收益的長期應(yīng)急通信網(wǎng)絡(luò)覆蓋性能獎勵的期望值;γ是折扣因子,當(dāng)0≤γ<1時,能夠保證強(qiáng)化學(xué)習(xí)策略迭代的收斂性。狀態(tài)價值函數(shù)為

其中,αlogπ(at|st)是熵正則化項。熵正則化項以最大熵強(qiáng)化學(xué)習(xí)算法[16]為理論基礎(chǔ),配合動作選擇策略的優(yōu)化過程,算法策略輸出具有多模特性,可有效應(yīng)對動態(tài)復(fù)雜的學(xué)習(xí)環(huán)境,提升算法收斂的穩(wěn)定性。熵正則化項中的α為溫度因子,可以通過自調(diào)節(jié)調(diào)整熵正則化項的影響權(quán)重。

當(dāng)網(wǎng)絡(luò)中存在多個智能體時,智能體i僅可以獲取局部觀測值,且環(huán)境狀態(tài)轉(zhuǎn)移受多個智能體的動作輸出同時影響,環(huán)境狀態(tài)轉(zhuǎn)移分布變化為,對于智能體i學(xué)習(xí)環(huán)境處于非平穩(wěn)狀態(tài),單智能體強(qiáng)化學(xué)習(xí)算法難以收斂。多智能體強(qiáng)化學(xué)習(xí)MADDPG 算法通過獲取其他智能體的觀測值和輸出動作,擬合全局的狀態(tài)?價值函數(shù),使智能體i的學(xué)習(xí)環(huán)境平穩(wěn),其中 ?i表示智能體i以外的其他智能體。本文以最大熵強(qiáng)化學(xué)習(xí)SAC 算法[21]與多智能體強(qiáng)化學(xué)習(xí)MADDPG 算法[15]為基礎(chǔ),為SAC 算法擬合鄰近的狀態(tài)價值函數(shù),在保證算法收斂性的同時減小通信開銷,使算法可以分布式部署。

如圖4 所示,每個MASAC 智能體由6 個神經(jīng)網(wǎng)絡(luò)與1 個經(jīng)驗回放池構(gòu)成。Actor 網(wǎng)絡(luò)表征動作選擇策略是神經(jīng)網(wǎng)絡(luò)參數(shù),輸入局部觀測狀態(tài),輸出在觀測狀態(tài)下動作輸出分布的均值與標(biāo)準(zhǔn)差以表示動作選擇策略。Double Q 網(wǎng)絡(luò)由2 個神經(jīng)網(wǎng)絡(luò)(Critic1網(wǎng)絡(luò)和Critic2 網(wǎng)絡(luò))組成,分別擬合鄰近狀態(tài)?價值函數(shù),神經(jīng)網(wǎng)絡(luò)參數(shù)分別為。擬合2 個狀態(tài)?價值函數(shù),可以解決單個Critic 網(wǎng)絡(luò)對狀態(tài)?價值函數(shù)的過高估計[22]。Target 網(wǎng)絡(luò)由3 個神經(jīng)網(wǎng)絡(luò)(Target Actor 網(wǎng)絡(luò)、Target Critic1 網(wǎng)絡(luò)和Target Critic2 網(wǎng)絡(luò))構(gòu)成,神經(jīng)網(wǎng)絡(luò)參數(shù)分別為。上述3 個Target 網(wǎng)絡(luò)分別是Actor 網(wǎng)絡(luò)、Critic1 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的副本網(wǎng)絡(luò),但參數(shù)更新速率更緩慢,能夠提升訓(xùn)練過程的穩(wěn)定性,加快算法的收斂速度。經(jīng)驗回放池用于記錄智能體的樣本 <>,其中,鄰近智能體的信息通過相互間的通信獲取。訓(xùn)練時智能體從經(jīng)驗回放池中采樣,隨機(jī)獲取樣本集D 用于計算優(yōu)化目標(biāo)的梯度。

圖4 多智能體強(qiáng)化學(xué)習(xí)MASAC 智能體結(jié)構(gòu)

動作選擇策略以最大化狀態(tài)?動作價值函數(shù)為目標(biāo),因此Actor 網(wǎng)絡(luò)的優(yōu)化目標(biāo)可表示為

由于Actor 網(wǎng)絡(luò)的輸出是分布函數(shù)而非具體的動作值,在計算優(yōu)化目標(biāo)梯度的過程中需要對輸出動作數(shù)值化表示,因此采用了重參數(shù)技巧輸出估計動作

綜合上述優(yōu)化目標(biāo),網(wǎng)絡(luò)參數(shù)更新為

其中,η為神經(jīng)網(wǎng)絡(luò)更新步長。智能體通過迭代探索與訓(xùn)練過程,從環(huán)境中獲取新樣本存儲于經(jīng)驗回放池、從經(jīng)驗回放池中隨機(jī)獲取批量樣本根據(jù)式(35)~式(37)訓(xùn)練,使智能體學(xué)習(xí)到最優(yōu)的動作輸出策略。

3.3 集成學(xué)習(xí)與課程學(xué)習(xí)

多智能體強(qiáng)化學(xué)習(xí)算法能夠有效地解決多智能體學(xué)習(xí)環(huán)境的非平穩(wěn)問題,MASAC 算法能夠使算法適應(yīng)復(fù)雜動態(tài)的環(huán)境。然而,多智能體和最大熵強(qiáng)化學(xué)習(xí)算法都加劇了神經(jīng)網(wǎng)絡(luò)的復(fù)雜程度,因此,本文應(yīng)用集成學(xué)習(xí)[23]和課程學(xué)習(xí)[24]技術(shù)提升算法收斂過程的速度和穩(wěn)定性。

1)基于集成學(xué)習(xí)的穩(wěn)定收斂技術(shù)

本文融入了集成學(xué)習(xí)技術(shù),自舉訓(xùn)練多組神經(jīng)網(wǎng)絡(luò),通過決策過程獲取反饋,擇劣剪枝、擇優(yōu)繼承,避免了災(zāi)難性遺忘的影響,增加了算法收斂過程的穩(wěn)定性。

圖5 詳細(xì)描述了基于集成學(xué)習(xí)的穩(wěn)定收斂技術(shù)的實現(xiàn)架構(gòu),每個無人機(jī)基站裝載的智能體會同時訓(xùn)練W組神經(jīng)網(wǎng)絡(luò),形成集成學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)集W。在“分布式訓(xùn)練”階段,分別從經(jīng)驗回放池中取出W組獨立的樣本集 D1,D2,…,DW,并訓(xùn)練W 中的所有神經(jīng)網(wǎng)絡(luò)。在“分布式執(zhí)行”階段,智能體從W 中隨機(jī)采樣獲得一組神經(jīng)網(wǎng)絡(luò)w決策無人機(jī)基站的動作,獲取獎勵rm,并更新神經(jīng)網(wǎng)絡(luò)w的累積獎勵

圖5 基于集成學(xué)習(xí)的穩(wěn)定收斂技術(shù)的實現(xiàn)架構(gòu)

其中,τw是神經(jīng)網(wǎng)絡(luò)的累積獎勵的更新步長。

如果神經(jīng)網(wǎng)絡(luò)w的累積獎勵遠(yuǎn)小于神經(jīng)網(wǎng)絡(luò)集的最大累計獎勵,則對神經(jīng)網(wǎng)絡(luò)w采取剪枝操作,并復(fù)制W 中剩余網(wǎng)絡(luò)中累積獎勵值最大的神經(jīng)網(wǎng)絡(luò)作為新的神經(jīng)網(wǎng)絡(luò)w。

通過上述集成學(xué)習(xí)的設(shè)計,MASAC 智能體在訓(xùn)練過程中能夠剪枝發(fā)生了導(dǎo)致巨額性能損失的災(zāi)難性遺忘的神經(jīng)網(wǎng)絡(luò),并且擇優(yōu)選擇神經(jīng)網(wǎng)絡(luò)繼承,加速算法的收斂過程。

2)基于課程學(xué)習(xí)的加速收斂技術(shù)

課程學(xué)習(xí)按照物理意義將學(xué)習(xí)任務(wù)從易到難劃分為多個子任務(wù),并由簡入繁地設(shè)計每個子任務(wù)的獎勵函數(shù),降低學(xué)習(xí)難度,提升算法收斂速度。

運用課程學(xué)習(xí)的思想,如圖6 所示,將3.1 節(jié)中的獎勵函數(shù)由簡及繁劃分為以下3 個子任務(wù):1)無人機(jī)基站保持飛行在一個固定的區(qū)域內(nèi);2)無人機(jī)基站通過調(diào)整飛行軌跡減小通信服務(wù)中斷發(fā)生,當(dāng)無人機(jī)基站接收分簇中心用戶信息的信噪比小于閾值時發(fā)生通信中斷;3)無人機(jī)基站通過進(jìn)一步優(yōu)化飛行軌跡最大化網(wǎng)絡(luò)的頻譜效率。因此,3 個子任務(wù)的獎勵函數(shù)可以分別設(shè)計為

圖6 基于課程學(xué)習(xí)的加速收斂技術(shù)任務(wù)劃分

值得注意的是,學(xué)習(xí)更難課程的內(nèi)容可能會導(dǎo)致神經(jīng)網(wǎng)絡(luò)忘記簡單課程的學(xué)習(xí)結(jié)果,從而引起災(zāi)難性遺忘。在更難課程的獎勵設(shè)計中,需要包含簡單課程的獎勵,如式(41)和式(42)所示,并配合集成學(xué)習(xí)剪枝發(fā)生災(zāi)難性遺忘的子網(wǎng)絡(luò),消除災(zāi)難性遺忘的影響。

結(jié)合了集成學(xué)習(xí)、課程學(xué)習(xí)技術(shù)的基于MASAC 的多無人機(jī)軌跡分布式調(diào)控算法如算法3所示。該算法能夠有效降低網(wǎng)絡(luò)的通信中斷頻率,最終實現(xiàn)網(wǎng)絡(luò)頻譜效率的提升。

3.4 復(fù)雜度分析

在“分布式執(zhí)行”階段,每個無人機(jī)基站需要獲取自身的局部狀態(tài)信息,并與鄰近無人機(jī)基站共享,該過程與鄰近無人機(jī)基站的數(shù)目Mj呈正相關(guān),因此,這一階段算法的復(fù)雜度為O(Mj)。

在“分布式訓(xùn)練”階段,每個無人機(jī)基站需要更新集成學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)集W 中的全部W個神經(jīng)網(wǎng)絡(luò),每個神經(jīng)網(wǎng)絡(luò)的更新需要計算梯度的次數(shù)與從經(jīng)驗回放池中取出的批量樣本數(shù)目成正比。假設(shè)樣本數(shù)目為ND,那么,這一階段算法的復(fù)雜度為O(WND)。由于鄰近無人機(jī)基站的數(shù)目Mj遠(yuǎn)小于批量樣本的數(shù)目ND,因此算法3 的總體復(fù)雜度為O(WND)。

3.5 面向大規(guī)模災(zāi)后用戶的分布式覆蓋優(yōu)化流程

本文提出的分布式智簡的覆蓋優(yōu)化架構(gòu)可劃分為網(wǎng)絡(luò)特征層和軌跡調(diào)控層,其中網(wǎng)絡(luò)特征層作為多智能體強(qiáng)化學(xué)習(xí)的特征提取階段,由基于貝葉斯推理的用戶差異性學(xué)習(xí)算法(算法1)和考慮用戶差異性的分布式k-sums 算法(算法2)共同實現(xiàn),軌跡調(diào)控層作為多智能體強(qiáng)化學(xué)習(xí)的策略實現(xiàn)階段,由基于MASAC 的多無人機(jī)軌跡分布式調(diào)控算法(算法3)實現(xiàn)。面向大規(guī)模災(zāi)后用戶的分布式覆蓋優(yōu)化的總體流程如圖7 所示。

圖7 面向大規(guī)模災(zāi)后用戶的分布式覆蓋優(yōu)化的總體流程

4 仿真分析

本節(jié)通過仿真實驗評估所提出的基于多智能體強(qiáng)化學(xué)習(xí)的大規(guī)模災(zāi)后用戶的空中覆蓋架構(gòu)與相應(yīng)算法的有效性。仿真中應(yīng)急通信網(wǎng)絡(luò)系統(tǒng)和算法參數(shù)設(shè)置如表2 所示。假設(shè)受災(zāi)地區(qū)在1 km×1 km的范圍內(nèi)存在500 個地面用戶,無人機(jī)基站的飛行高度變化范圍是100~1 000 m。MASAC 算法中Actor網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)均采用三層全連接層作為隱層,隱層神經(jīng)元數(shù)目分別為512、256、128。本文在Python3.7平臺上對所提的基于多智能體強(qiáng)化學(xué)習(xí)的大規(guī)模災(zāi)后用戶分布式覆蓋優(yōu)化方案進(jìn)行了性能驗證,利用Numpy 工具包實現(xiàn)了貝葉斯推理和分布式k-sums 算法,利用TensorFlow 工具包實現(xiàn)了多智能體強(qiáng)化學(xué)習(xí)MASAC 算法,計算機(jī)環(huán)境為Windows 10、Intel 7th CPU、GTX 1060。

表2 應(yīng)急通信網(wǎng)絡(luò)系統(tǒng)和算法參數(shù)設(shè)置

首先驗證底層優(yōu)化考慮用戶差異性的分布式k-sums 分簇算法的有效性,在不同最大優(yōu)先參數(shù)λmax下進(jìn)行仿真實驗,并與k-sums 算法和k-means 算法進(jìn)行對比。圖8 給出了不同分簇算法對簇間用戶數(shù)目方差的影響。從圖8 中可以看出,所提分布式k-sums 算法保持了k-sums 算法的分簇均衡性,當(dāng)不考慮用戶的信息差異性,即λmax=1 時,分布式k-sums 算法的簇間用戶數(shù)量的方差大小與k-sums 算法基本相同,遠(yuǎn)小于k-means 算法;當(dāng)最大優(yōu)先參數(shù)λmax增大時,所提算法由于更關(guān)心優(yōu)先參數(shù)更大用戶的性能,因此會犧牲一定分簇均衡性,簇間用戶數(shù)量的方差會有所增大。

圖8 不同分簇算法對簇間用戶數(shù)目方差的影響

圖9 給出了不同分簇算法對簇內(nèi)用戶平均負(fù)載效率的影響。從圖9 中可以看出,隨著分簇數(shù)目的提升,平均簇內(nèi)距離會減小,因此所有分簇算法的平均負(fù)載效率均顯著提升。當(dāng)不考慮用戶的信息差異性,即λmax=1 時,所提分布式k-sums 算法與k-sums 算法的平均分簇效率相近,整體均好于k-means 算法。隨著最大優(yōu)先系數(shù)λmax的增加,通過貝葉斯推理可以學(xué)習(xí)到用戶間的信息差異性,在計算不相似性度量時對優(yōu)先系數(shù)更高的用戶賦予更大的權(quán)重,從而使平均負(fù)載效率提升。綜合上述仿真結(jié)果,本文通過增加最大優(yōu)先系數(shù)λmax,能夠提升流量需求更高用戶的通信效率,實現(xiàn)簇內(nèi)平均負(fù)載效率的提升,這驗證了所提算法能夠有效適應(yīng)不同優(yōu)先級的業(yè)務(wù)。

圖9 不同分簇算法對簇內(nèi)用戶平均負(fù)載效率的影響

進(jìn)一步,對本文提出的基于多智能體強(qiáng)化學(xué)習(xí)的上層空中覆蓋優(yōu)化算法的有效性進(jìn)行仿真驗證。圖10給出了MASAC 算法平均累積獎勵的收斂性能,在相同的仿真環(huán)境下,展示了集成學(xué)習(xí)和課程學(xué)習(xí)對MASAC 收斂速率和穩(wěn)定性的影響。平均累積獎勵是衡量強(qiáng)化學(xué)習(xí)算法收斂的重要指標(biāo)[25],其表示在一個訓(xùn)練輪次內(nèi)所有時隙得到獎勵函數(shù)大小的平均值,具體的物理意義由獎勵函數(shù)的設(shè)計決定,本文的平均累積獎勵表示一個訓(xùn)練輪次內(nèi)的平均頻譜效率與平均通信中斷懲罰、安全性懲罰之和。從圖10 中可以看出,集成學(xué)習(xí)和課程學(xué)習(xí)均可以提升算法的收斂速率。然而,集成學(xué)習(xí)對復(fù)雜任務(wù)直接學(xué)習(xí),僅能收斂到性能一般的局部最優(yōu)策略;課程學(xué)習(xí)在學(xué)習(xí)到任務(wù)1 和任務(wù)2 后會發(fā)生災(zāi)難性遺忘,收斂性能難以進(jìn)一步提升。同時,結(jié)合集成學(xué)習(xí)和課程學(xué)習(xí)的MASAC 算法能夠以更快的收斂速度收斂到更優(yōu)的策略,同時消除了災(zāi)難性遺忘的影響。

圖10 MASAC 算法平均累積獎勵的收斂性能

圖11~圖14 給出了不同強(qiáng)化學(xué)習(xí)算法對無人機(jī)基站軌跡調(diào)控學(xué)習(xí)過程的影響,主要是將所提MASAC 算法與MADDPG 算法[13]和DDPG 算法[11]進(jìn)行對比。圖11 展示了不同強(qiáng)化學(xué)習(xí)算法平均累積獎勵的收斂性能,圖12~圖14 分別展示了課程學(xué)習(xí)任務(wù)1~任務(wù)3 的關(guān)鍵指標(biāo)的變化,即無人機(jī)基站飛出指定區(qū)域頻率、通信中斷頻率、平均頻譜效率。

圖11 不同強(qiáng)化學(xué)習(xí)算法平均累積獎勵的收斂性能

圖12 不同強(qiáng)化學(xué)習(xí)算法對任務(wù)1?飛出指定區(qū)域頻率的學(xué)習(xí)效果

圖13 不同強(qiáng)化學(xué)習(xí)算法對任務(wù)2?通信中斷概率的學(xué)習(xí)效果

圖14 不同強(qiáng)化學(xué)習(xí)算法對任務(wù)3?平均頻譜效率的學(xué)習(xí)效果

從圖12~圖14 中可以看出,單智能體強(qiáng)化學(xué)習(xí)DDPG 算法能夠很快完成任務(wù)1 的學(xué)習(xí)以飛行在限定的1 km×1 km 區(qū)域內(nèi),而難以進(jìn)一步完成任務(wù)2 和任務(wù)3 的學(xué)習(xí)。這是由于每個無人機(jī)基站飛行區(qū)域的策略學(xué)習(xí)不會影響其他無人機(jī)基站的飛行區(qū)域,學(xué)習(xí)環(huán)境平穩(wěn);而在任務(wù)2 和任務(wù)3 中,無人機(jī)基站飛行策略的改變會干擾其他無人機(jī)基站的通信,學(xué)習(xí)環(huán)境非平穩(wěn)。對比多智能體強(qiáng)化學(xué)習(xí)MASAC 算法和MADDPG 算法,2 種算法均可以完成對任務(wù)1 和任務(wù)2 的學(xué)習(xí),而MADDPG 算法由于采用確定性策略算法,收斂性能和穩(wěn)定性較差,對任務(wù)3 頻譜效率的學(xué)習(xí)效果不如MASAC 算法。此外,仿真中對獲取全局狀態(tài)的集中式MASAC 算法和獲取鄰近狀態(tài)的分布式MASAC 算法進(jìn)行對比??梢钥闯觯植际組ASAC 算法能夠收斂到和全局優(yōu)化相同的效果,同時因為僅需要獲取鄰近無人機(jī)基站的狀態(tài),通信開銷大幅減少。

圖15 給出了無人機(jī)基站數(shù)量對平均頻譜效率的影響。從圖15 中可以看出,隨著無人機(jī)基站數(shù)量的增加,學(xué)習(xí)環(huán)境的非平穩(wěn)性和復(fù)雜程度增加,DDPG 和MADDPG 算法的頻譜效率隨著無人機(jī)基站數(shù)量的增加而降低。而本文提出的MASAC 算法在無人機(jī)基站數(shù)量較小時可以通過聯(lián)合調(diào)控?zé)o人機(jī)基站的飛行軌跡,得到更高的頻譜效率,但是隨著無人機(jī)基站數(shù)量的進(jìn)一步增加,每個無人機(jī)基站會受到更多其他無人機(jī)基站的干擾,頻譜效率下降。此外,對比集中式MASAC 算法和分布式MASAC 算法,分布式優(yōu)化能夠得到與全局優(yōu)化相同的效果,甚至?xí)跓o人機(jī)數(shù)目較多時因為狀態(tài)輸入維度更低、神經(jīng)網(wǎng)絡(luò)規(guī)模更小而得到性能增益。

圖15 無人機(jī)基站數(shù)量對平均頻譜效率的影響

5 結(jié)束語

本文針對大規(guī)模災(zāi)后用戶應(yīng)急通信恢復(fù)提出了分布式智簡的空中覆蓋優(yōu)化架構(gòu)。網(wǎng)絡(luò)特征層執(zhí)行用戶分簇,并設(shè)計了考慮用戶差異性的分布式k-sums 分簇算法。軌跡調(diào)控層優(yōu)化無人機(jī)基站飛行軌跡,并設(shè)計了基于多智能體強(qiáng)化學(xué)習(xí)MASAC 的分布式軌跡調(diào)控算法,融合集成學(xué)習(xí)和課程學(xué)習(xí)技術(shù)提升了收斂速度和效果。由仿真結(jié)果可知,所設(shè)計的網(wǎng)絡(luò)特征層算法能夠應(yīng)對用戶的動態(tài)性和差異性,得到平均負(fù)載效率更高的分簇結(jié)果;本文所設(shè)計的軌跡優(yōu)化層算法能夠應(yīng)對多無人機(jī)基站學(xué)習(xí)環(huán)境的非平穩(wěn)性,利用鄰近觀測狀態(tài)分布式優(yōu)化各無人機(jī)基站的飛行軌跡,減小通信中斷頻率,提升頻譜效率,實現(xiàn)應(yīng)急網(wǎng)絡(luò)覆蓋性能優(yōu)化。

本文的研究工作為恢復(fù)大規(guī)模災(zāi)后用戶的通信覆蓋提供了分布式智簡的解決思路,但仍然存在一些局限性,未來的研究工作可以從以下2 個方向入手:1)所提算法受多超參數(shù)的影響,如鄰近無人機(jī)基站的數(shù)量、無人機(jī)基站可觀測的用戶數(shù)量、無人機(jī)之間的相關(guān)性系數(shù),這些超參數(shù)的取值基于規(guī)則給定,通過引入深度學(xué)習(xí)中的注意力機(jī)制等方法,上述超參數(shù)可以被進(jìn)一步研究;2)本文的研究重點聚焦于用戶覆蓋優(yōu)化以快速恢復(fù)災(zāi)區(qū)通信,沒有考慮實際應(yīng)用中可能存在的其他問題,包括功率分配、能耗均衡等,未來可以在本文基礎(chǔ)上進(jìn)一步研究多優(yōu)化目標(biāo)相互耦合的綜合性問題。

猜你喜歡
頻譜基站分布式
一種用于深空探測的Chirp變換頻譜分析儀設(shè)計與實現(xiàn)
一種基于稀疏度估計的自適應(yīng)壓縮頻譜感知算法
分布式光伏熱錢洶涌
能源(2017年10期)2017-12-20 05:54:07
分布式光伏:爆發(fā)還是徘徊
能源(2017年5期)2017-07-06 09:25:54
可惡的“偽基站”
基于GSM基站ID的高速公路路徑識別系統(tǒng)
認(rèn)知無線電頻譜感知技術(shù)綜述
基于DDS的分布式三維協(xié)同仿真研究
小基站助力“提速降費”
移動通信(2015年17期)2015-08-24 08:13:10
基站輻射之爭亟待科學(xué)家發(fā)聲
甘孜| 淮北市| 大悟县| 连州市| 民县| 津南区| 东阿县| 建水县| 双城市| 公安县| 武汉市| 珠海市| 射洪县| 肥西县| 乌鲁木齐县| 泸定县| 霍山县| 天峨县| 贺兰县| 灵武市| 镇康县| 大英县| 法库县| 闻喜县| 昂仁县| 安阳市| 澳门| 谢通门县| 永和县| 昌平区| 汕尾市| 博野县| 常山县| 平昌县| 沁源县| 金山区| 万载县| 铜陵市| 晋州市| 贵港市| 樟树市|