国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

災(zāi)害場景下基于MADRL的信息收集無人機部署與節(jié)點能效優(yōu)化

2024-08-17 00:00李夢麗王霄米德昌孟磊
計算機應(yīng)用研究 2024年7期

摘 要:災(zāi)害場景下,對災(zāi)區(qū)內(nèi)第一手重要信息的及時、可靠收集是災(zāi)害預(yù)警研究、災(zāi)區(qū)救援工作開展的關(guān)鍵。無人機是與災(zāi)區(qū)內(nèi)部建立應(yīng)急通信網(wǎng)絡(luò)的高效輔助工具。通過對現(xiàn)有研究中應(yīng)急場景下無人機的部署方法進行調(diào)查,指出了無人機部署時對節(jié)點能效考慮不充分的問題。由于地面?zhèn)鞲衅鞴?jié)點位于災(zāi)區(qū)內(nèi)部,環(huán)境惡劣且極為被動,所以結(jié)合災(zāi)害場景,首次以提高地面節(jié)點能效為優(yōu)化目標(biāo),基于深度強化學(xué)習(xí)方法,在DDQN網(wǎng)絡(luò)模型基礎(chǔ)上,通過自定義經(jīng)驗回放優(yōu)先級、合理設(shè)計獎勵函數(shù)和采用完全去中心化訓(xùn)練方式,解決該特定場景下用于信息收集無人機的自適應(yīng)部署問題。仿真結(jié)果表明,所提算法的節(jié)點能源效率比DDQN基準(zhǔn)算法提高21%,訓(xùn)練速度相比DDPG、A3C算法分別提升42%和34%。

關(guān)鍵詞:應(yīng)急服務(wù); 節(jié)點能效優(yōu)化; 深度強化學(xué)習(xí); 無人機部署

中圖分類號:TP399 文獻標(biāo)志碼:A 文章編號:1001-3695(2024)07-027-2118-08

doi:10.19734/j.issn.1001-3695.2023.11.0537

MADRL-based UAV deployment and node efficiency optimization forinformation collection in disaster scenarios

Abstract:In the disaster scene, the timely and reliable collection of first-hand and important information in the disaster area is the key to the early disaster warning research and rescue work. Unmanned aerial vehicle(UAV) is an efficient auxiliary tool for establishing emergency communication network within disaster zones. Through the investigation of the deployment methods of UAV in emergency scenarios in the existing research, this paper reported the problem that node energy efficiency was not considered in UAV deployment. Since the ground sensor nodes were located inside the disaster area in a hostile and extremely passive environment, the combination of disaster scenarios. Taking improving the energy efficiency of ground nodes as the optimization goal for the first time, based on the deep reinforcement learning method and on the basis of DDQN network model, the adaptive deployment problem of UAV for information collection in disaster scenarios was solved by defining experience playback priority, reasonably designing reward function and adopting complete decentralized training method. Simulation results show that the energy efficiency of the nodes under the proposed algorithm is 21% higher than that of the DDQN benchmark algorithm, and the training speed is 42% and 34% higher than that of the DDPG and A3C algorithms respectively.

Key words:emergency service; node energy efficiency optimization; deep reinforcement learning; UAV deployment

0 引言

隨著信息科技的飛速發(fā)展,信息對人類生產(chǎn)生活的影響越來越大,人們對信息傳輸?shù)囊笠搽S之增高,可靠性、有效性是對信息質(zhì)量最基本的要求。然而,頻繁發(fā)生的自然災(zāi)害,不僅嚴(yán)重威脅著人們的生命財產(chǎn)安全和生產(chǎn)生活秩序,還會使地面通信設(shè)備設(shè)施受損甚至癱瘓,嚴(yán)重影響了受災(zāi)區(qū)域內(nèi)部與外界的信息交換,妨礙了災(zāi)后救援工作的開展,限制了災(zāi)害數(shù)據(jù)收集工作及其后續(xù)研究。

災(zāi)害發(fā)生后,對災(zāi)區(qū)內(nèi)第一手重要信息的及時、可靠收集,有助于作出快速反應(yīng)和決策[1],利于救援、重建和預(yù)警研究工作的開展。近年來,多種應(yīng)急通信方案涌現(xiàn),有學(xué)者提出將衛(wèi)星用于構(gòu)建災(zāi)后應(yīng)急通信[2],或使用無須基站的D2D網(wǎng)絡(luò)[3],但是這些網(wǎng)絡(luò)都存在一定的弊端,如衛(wèi)星通信資源不足且成本較高,普通用戶很難獲得資源[4];D2D網(wǎng)絡(luò)的網(wǎng)絡(luò)拓?fù)渎酚梢?guī)劃煩瑣復(fù)雜,具有較大的時延[5],且很大程度上受其電量等眾多因素約束。

穩(wěn)定、可靠、具有靈活性的應(yīng)急通信系統(tǒng)是解決上述問題的關(guān)鍵。無人機(unmanned aerial vehicle,UAV)所具備的體積小巧、機動靈活且成本較為低廉等特點[6]幾乎可以完美應(yīng)對應(yīng)急通信系統(tǒng)的實際需求,這使它可以深入災(zāi)區(qū)內(nèi)部與災(zāi)區(qū)內(nèi)的設(shè)備或用戶建立網(wǎng)絡(luò)鏈接,可用于收集災(zāi)害數(shù)據(jù),亦可用來為用戶提供網(wǎng)絡(luò)服務(wù),為災(zāi)后救援、災(zāi)害預(yù)警研究等相關(guān)工作提供了極大便利。

目前,有大量學(xué)者對無人機輔助地面無線網(wǎng)絡(luò)通信中無人機的部署進行了研究。Zhao等人[7]提出了一種統(tǒng)一的無人機輔助應(yīng)急網(wǎng)絡(luò)框架,分別研究了有殘存基站場景的無人機基站的軌跡和資源調(diào)度優(yōu)化問題、無殘存基站場景的無人機收發(fā)器設(shè)計和多跳D2D網(wǎng)絡(luò)的建立問題,以及遠(yuǎn)距離傳輸場景中無人機中繼的數(shù)量和懸停位置優(yōu)化問題,但僅研究了固定翼無人機作為臨時基站的情形。Liu等人[8]將無人機用于輔助異構(gòu)物聯(lián)網(wǎng)的應(yīng)急通信,采用無人機-用戶鏈路與D2D鏈路頻譜共享方案,提出的基于無串行干擾消除非正交多址接入的多目標(biāo)資源配置方案,設(shè)計了一種迭代算法尋找無人機的最佳懸停位置,在用戶傳輸耗時、用戶接入率方面表現(xiàn)良好,該方法雖然提高了頻譜利用率,但是引入了大量干擾,一定程度上忽視了剩余電量的能源效率對于災(zāi)后節(jié)點生存的重要性。Barick等人[9]采用了非正交多址接入(non-orthgonal multiple access,NOMA)方式,先后通過最小化扇區(qū)無人機與IoT設(shè)備總和距離,使用拉格朗日對偶方法,對扇區(qū)無人機的位置和IoT設(shè)備的功率控制進行了聯(lián)合優(yōu)化,提高了系統(tǒng)上行鏈路的容量,但只對災(zāi)區(qū)內(nèi)臨時地面基站覆蓋區(qū)域外的節(jié)點進行了簡單的均等扇形劃分,這種形狀并不利于無人機對其覆蓋。Lin等人[10]通過收集地面節(jié)點的信息建立其虛擬遮擋,對無人機的位置和地面節(jié)點傳輸功率進行優(yōu)化,針對災(zāi)后無人機輔助通信中,如何在保證數(shù)據(jù)高效傳輸和服務(wù)質(zhì)量的前提下,對地面節(jié)點覆蓋最大化的問題,提出了一種適用于應(yīng)急網(wǎng)絡(luò)的自適應(yīng)無人機部署方案,但也只對地面節(jié)點進行了簡單粗糙的劃分,不利于無人機動態(tài)調(diào)整對節(jié)點覆蓋。

隨著人工智能技術(shù)的飛速發(fā)展,有學(xué)者嘗試將深度強化學(xué)習(xí)(deep reinforcement learning,DRL)用于無人機的自適應(yīng)部署領(lǐng)域[11~18]。文獻[15]將無人機飛行動作離散化的方法存在一定的動作冗余,造成了動作空間維度不必要的增加。文獻[16,17]基于DDPG方法提出了一種叫做DRL-EC3的無人機控制方法,同時考慮了無人機基站的通信覆蓋范圍、公平性、能源消耗和連接性。文獻[18]以最大化無人機能效優(yōu)化目標(biāo),以用戶覆蓋為約束,使用去中心化的多智能體DDQN方法訓(xùn)練無人機具備自適應(yīng)部署能力。

但是上述方法存在一定不足:

a)對于災(zāi)害場景下無人機輔助通信這一特殊具體場景考慮不足:一方面體現(xiàn)在采用傳統(tǒng)數(shù)學(xué)方法的無人機部署較為被動,對災(zāi)后環(huán)境缺乏自適應(yīng)性,而基于傳統(tǒng)機器學(xué)習(xí)算法的無人機部署方法需要大量的訓(xùn)練樣本及人工標(biāo)注;另一方面對部署區(qū)域的粗糙劃分不利于無人機對用戶充分覆蓋,在各種各樣復(fù)雜多變的災(zāi)害場景下,上述部署方法均欠智能化。

b)在優(yōu)化目標(biāo)設(shè)定方面,大部分文章考慮的優(yōu)化無人機的能源效率,忽略了災(zāi)害場景下地面無線傳感器網(wǎng)絡(luò)的脆弱性和能耗敏感性。

結(jié)合災(zāi)害場景緊急、環(huán)境惡劣等特點,考慮到無人機受災(zāi)害影響相對較小,屬于“施救方”,進出災(zāi)區(qū)較為靈活,具有補充電量的條件和優(yōu)勢。相比之下,災(zāi)區(qū)內(nèi)節(jié)點處于環(huán)境惡劣之中,尤其是提前部署在災(zāi)區(qū)內(nèi)的物聯(lián)網(wǎng)監(jiān)測系統(tǒng),移動靈活性極低,幾乎為零。但是由于上述監(jiān)測系統(tǒng)集成了大量傳感器并且深入災(zāi)區(qū)內(nèi)部,相對于無人機掛載成像設(shè)備而言,其所能提供的多維度、多特征、深層次的災(zāi)害數(shù)據(jù)價值不可忽視,所以認(rèn)為該場景下,相對于現(xiàn)有大量研究中探討如何提升無人機的能源效率,研究如何提升災(zāi)區(qū)內(nèi)節(jié)點的能源效率以提高災(zāi)區(qū)內(nèi)監(jiān)測網(wǎng)絡(luò)的使用壽命,更具實際工程意義。

由于多旋翼無人機相對于固定翼無人機具有更高的靈活性且成本較低,更適合民用場景,所以選擇對多旋翼無人機在災(zāi)區(qū)上空的部署問題進行研究。針對上述問題,本文提出一種基于多智能體深度強化學(xué)習(xí)以優(yōu)化節(jié)點能效為主要目標(biāo)的無人機自適應(yīng)部署方案,主要貢獻如下:

a)針對災(zāi)害場景特殊的工程需要,無人機部署過程中,首次提出以提高地面無線傳感器網(wǎng)絡(luò)的能源效率為主要目標(biāo),充分考慮地面無線傳感器監(jiān)測網(wǎng)絡(luò)壽命,重點突出優(yōu)化目標(biāo),以此指導(dǎo)無人機部署過程。

b)緊密結(jié)合災(zāi)害應(yīng)用場景的緊急性、突發(fā)性、多變性特點,將待解決問題建模為馬爾可夫過程,選擇基于深度強化學(xué)習(xí)中較為簡單DRL方法進行改進,改進和加入多重計算技巧,提出使用完全去中心化的多智能體優(yōu)先經(jīng)驗回放雙重深度Q網(wǎng)絡(luò)(fully decentralized multi-agent customized prioritized experience replay double deep Q network, MAFD-CPER-DDQN)方法用于無人機部署,所提算法使平均節(jié)點整體節(jié)點能源效率、學(xué)習(xí)過程收斂速度比DDQN算法分別提高了21%和17%,在長期收益僅低于DDPG算法9%的情況下,智能體學(xué)習(xí)過程的收斂速度比DDPG算法提升42%,比異步優(yōu)勢演員-評論家(asynchronous advantage actor-critic,A3C)方法提升34%,兼顧災(zāi)害應(yīng)急場景下高時效、高質(zhì)量的無人機自適應(yīng)部署要求。

1 系統(tǒng)建模與問題描述

1.1 系統(tǒng)模型

本文基于以下假設(shè):

a)假設(shè)用于災(zāi)區(qū)監(jiān)測的無線傳感網(wǎng)絡(luò)節(jié)點部署滿足所需的冗余性、錯誤容忍性、健壯性,在受災(zāi)嚴(yán)重區(qū)域總有捕獲到重要環(huán)境信息的節(jié)點存留,網(wǎng)絡(luò)的抽樣速率、消息發(fā)送周期等重要參數(shù)設(shè)計合理,節(jié)點密度部署合理[19];

b)假設(shè)存活節(jié)點在無人機靠近時,總可以被低功率喚醒,即節(jié)點可被無人機檢測到;

c)假設(shè)無人機和節(jié)點均存儲有一個相同的特殊比特流,用于誤碼率測試;

d)假設(shè)該模型中無人機構(gòu)成的子系統(tǒng)是可擴展、自適應(yīng)的,根據(jù)災(zāi)區(qū)任務(wù)量添加或移除無人機時,不會影響其他無人機的性能;

e)假設(shè)基站無人機下降過程中,天線方向不改變,忽略地平面反射的信號對原信號的干擾或增強;

f)假設(shè)災(zāi)區(qū)基站受損前,其所覆蓋范圍內(nèi)的傳感器節(jié)點通過該基站接入骨干網(wǎng)絡(luò),災(zāi)后該區(qū)域內(nèi)無其他基站可正常運行。

示第i個節(jié)點是否已經(jīng)與無人機接通并正在上傳數(shù)據(jù),為簡化模型,節(jié)點與無人機之間采用時分多址接入(time different multiple access,TDMA)方式,即任意時刻t一架無人機最多只能與其覆蓋下的一個節(jié)點接通并進行數(shù)據(jù)收集,則有

進一步地,災(zāi)區(qū)上空的基站無人機將收集到的數(shù)據(jù)通過其他中繼設(shè)備傳輸至最終目的地進行下一步處理研究工作。

1.2 信道模型

信道模型為一般化模型,認(rèn)為無人機ui與其覆蓋下第j個地面?zhèn)鞲衅鞴?jié)點之間的無線信道分別依概率PLoSj,i和PNLoSj,i存在視距(line-of-sight,LoS)鏈路傳輸和非視距(non line-of-sight,NLoS)鏈路傳輸, ηLoS和ηNLoS分別是地面節(jié)點與無人機之間LoS和NLoS鏈路的平均路徑損耗,則地面節(jié)點與無人機傳輸鏈路的平均傳輸路徑損耗公式如下:

βi,j=ηLoSPLoSj,i+ηNLoSPNLoSj,i(2)

其中:LoS鏈路傳輸?shù)男盘査ヂ渲饕亲杂煽臻g路徑損耗Lj,i,由式(3)(4)給出。

其中:fc為載波頻率,單位為Hz;c代表光速,取3.0×108 m/s;Dj,i表示第i簇簇心上方無人機與該簇內(nèi)第j個節(jié)點間的歐幾里德距離,路徑損耗指數(shù)α≥2。本文取α=2,故式(3)寫作:

建立視距鏈路和非視距鏈路的概率由式(6)~(8)給出。

其中:dj,i表示第i簇節(jié)點對應(yīng)的無人機與該簇內(nèi)第j個節(jié)點間的水平距離;a、b是由環(huán)境決定的經(jīng)驗參數(shù),Al-Hourani等人[20]通過數(shù)據(jù)擬合方法得到在不同城市環(huán)境下的參數(shù)a和b的具體數(shù)值。不同情景下,視距鏈路概率與地面節(jié)點到無人機仰角θj,i=hu,i/dj,i的對應(yīng)關(guān)系如圖2所示。觀察可知,視距概率PLoSj,i是關(guān)于仰角θj,i的非凸非凹函數(shù)[21],仰角相同時,郊區(qū)因其建筑物密度、高度低,而具有更高的視距概率。因此,在不同的災(zāi)害場景下可以根據(jù)具體應(yīng)用場景結(jié)合感知技術(shù)人為或機器自主地選擇不同的參數(shù)值帶入信道模型。

為簡化計算,考慮無人機與節(jié)點之間LoS傳輸占主導(dǎo)地位,則無人機ui與其覆蓋地節(jié)點之間的信道增益gj,i可以表示為

其中:ζ0表示單位參考距離下的信道增益,令P(i)j表示被無人機ui覆蓋的第j個節(jié)點的發(fā)射功率,那么無人機與節(jié)點之間的上行鏈路數(shù)據(jù)速率vj,i可以表示為

其中:σ2是高斯噪聲的方差;SNR表示節(jié)點到無人機上行鏈路的信噪比;Pj,i是第j個節(jié)點向為其服務(wù)的無人機ui發(fā)送數(shù)據(jù)的功率。

1.3 問題描述

無人機的電量遠(yuǎn)高于所有節(jié)點剩余電量的最大值,且可以自如飛行至災(zāi)區(qū)外充電站充電或更換電池,所以在考慮功耗優(yōu)化時,認(rèn)為無人機的電量足夠使其完成任務(wù),重點考慮在保證較高傳輸速率下如何盡可能降低節(jié)點發(fā)射功率,延長節(jié)點壽命,以保證每個節(jié)點所持有數(shù)據(jù)的完整發(fā)送,提升網(wǎng)絡(luò)上行鏈路中節(jié)點的能源效率。

在QoS約束下,提出保證無人機對節(jié)點覆蓋率的同時,通過調(diào)整無人機部署位置和節(jié)點發(fā)射功率來優(yōu)化節(jié)點向無人機傳輸災(zāi)害信息時的能源效率,將其表示為最大化每架無人機覆蓋下節(jié)點使用單位發(fā)射能量所能發(fā)射的最大數(shù)據(jù)量,用Ej,i表示無人機ui覆蓋下第j個地面?zhèn)鞲衅鞴?jié)點向ui傳輸數(shù)據(jù)消耗的能量,Wj,i表示同一場景下節(jié)點向ui傳輸?shù)臄?shù)據(jù)總量,則優(yōu)化問題可以表達(dá)為P1:

其中:式(12)可以看做節(jié)點消耗單位能量所發(fā)送的平均數(shù)據(jù)量,可以作為節(jié)點能源效率的一種度量方式;約束式(12a)(12b)分別為QoS中對傳輸速率、信噪比的要求;式(12c)是對無人機高度的約束;式(12d)是對節(jié)點發(fā)射功率的約束,保證其不高于最大額定功率Pmax;式(12e)是對任意時刻無人機接入節(jié)點數(shù)量的約束;式(12f)保證無人機不飛出需要收集災(zāi)害信息的受災(zāi)圓域。

將無人機ui與其覆蓋下第j個地面?zhèn)鞲衅鞴?jié)點的數(shù)據(jù)傳輸時間記作tj,i,式(12)分子分母同時除以tj,i,優(yōu)化問題P1可以轉(zhuǎn)換為P2:

本文目標(biāo)是通過優(yōu)化無人機的3D懸停位置來均衡無人機對節(jié)點的覆蓋率、節(jié)點發(fā)送數(shù)據(jù)的能源效率,由于無人機群之間存在協(xié)作關(guān)系,故將無人機群與地面節(jié)點所組成的系統(tǒng)作為操作和優(yōu)化對象,避免單獨地優(yōu)化個體可能出現(xiàn)極端自私行為。那么在任意時刻t,在保證對節(jié)點覆蓋率的前提下,最大化地面無線傳感器網(wǎng)絡(luò)系統(tǒng)整體的能源效率以延長網(wǎng)絡(luò)在惡劣環(huán)境下的壽命更加科學(xué)合理,于是將P2轉(zhuǎn)換成P3。

問題式(14)是非凸的,具有多個局部最優(yōu)解,使用傳統(tǒng)的數(shù)學(xué)方法求解難度極高。而災(zāi)害場景下,環(huán)境復(fù)雜多變,任一時刻地面網(wǎng)絡(luò)節(jié)點的分布、電量、能效受環(huán)境變化的影響極大,因此可以將上述重要變量的狀態(tài)轉(zhuǎn)換過程建模為馬爾可夫隨機過程(Markov random processes,MRPs),這種情況下,往往希望用于災(zāi)害信息收集的無人機有自主學(xué)習(xí)能力,能根據(jù)不同的環(huán)境狀態(tài)主動調(diào)整部署策略,進行自適應(yīng)部署及性能優(yōu)化。深度強化學(xué)習(xí)具備強大的環(huán)境感知和決策能力,能夠在與環(huán)境不斷的交互過程中學(xué)習(xí)并不斷優(yōu)化智能體的動作策略,適用于所研究的復(fù)雜多變?yōu)暮鼍跋聼o人機部署問題。結(jié)合場景需求,本文在傳統(tǒng)的DRL算法中改進和加入計算技巧,首次將深度強化學(xué)習(xí)算法用于災(zāi)害場景下無人機進行信息收集任務(wù)時的節(jié)點能效優(yōu)化問題。

2 基于MAFD-CPER-DDQN的傳感器網(wǎng)絡(luò)節(jié)點能效優(yōu)化

深度強化學(xué)習(xí)以MDPs為數(shù)學(xué)理論基礎(chǔ),將深度學(xué)習(xí)(deep learning,DL)的環(huán)境感知能力與強化學(xué)習(xí)(reinforcement learning,RL)的決策處理能力相結(jié)合,用于解決智能體的貫序決策問題[22]。在面對復(fù)雜的狀態(tài)空間和時變問題時,具備從原始高維數(shù)據(jù)中學(xué)習(xí)的強大能力,表現(xiàn)出良好的性能,在自動駕駛、通感一體、邊緣計算、自然語言處理等高復(fù)雜度無人系統(tǒng)中得到了廣泛的應(yīng)用。

2.1 DRL算法族選擇與場景契合度分析

在無人機自適應(yīng)部署領(lǐng)域,以各種不同性能指標(biāo)為優(yōu)化目標(biāo)的災(zāi)害場景下無人機部署問題可以建模為一系列馬爾可夫決策過程,借由無人機智能體與環(huán)境進行交互,以環(huán)境狀態(tài)空間作為輸入,智能體提取狀態(tài)特征映射輸出策略或動作,對此策略或動作進行獎勵或懲罰來指導(dǎo)或修正其作出決策,重復(fù)上述步驟,以最大化累積獎勵為目標(biāo),訓(xùn)練智能體使其能根據(jù)不同環(huán)境特點作出對應(yīng)的合理行為組合邏輯,即從觀察到動作的映射,形成一個完整的決策。一個回合(episode)訓(xùn)練中,智能體觀測到的所有的狀態(tài)、動作、獎勵,稱為軌跡(trajectoty),具體如圖3所示。

無外界干預(yù)狀態(tài)下,無人機部署時的飛行動作是連續(xù)的無限集合。DRL中的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法[23,24]可用于處理連續(xù)動作空間,但是其訓(xùn)練時的復(fù)雜度以及對計算資源的要求較高,訓(xùn)練收斂速度緩慢,不能較好地滿足災(zāi)害場景下無人機快速決策、部署的應(yīng)用場景需要。所以,考慮將智能體的動作空間離散化,驗證使用處理離散動作空間的DDQN算法能否更簡單、高效地解決該問題。

在眾多處理離散化動作空間的DRL算法中,深度 Q 網(wǎng)絡(luò)(deep Q network,DQN)是一種網(wǎng)絡(luò)結(jié)構(gòu)較為簡單且可擴展性較強的算法,其通過使用以貝爾曼方程為數(shù)學(xué)基礎(chǔ)的時序差分(temporal difference,TD)方法來解決值函數(shù)估計問題,性能明顯優(yōu)于直接使用蒙特卡羅方法。但DQN的價值函數(shù)Q(s,a;w)是使用式(15)得出的動作估計下一時刻的動作價值,同時TD算法式(16)用到了自舉方法,即用t+1時刻的估計值估計t時刻的值,而自舉產(chǎn)生了正反饋,導(dǎo)致傳統(tǒng)的DQN算法存在高估問題,產(chǎn)生機理如圖4所示。同時由于DQN的高估是非均勻的,所以會導(dǎo)致智能體基于錯誤的價值估計作出錯誤的決策。

針對上述兩大問題,本文使用已有的雙重DQN(double DQN,DDQN)網(wǎng)絡(luò)結(jié)構(gòu),以減輕自舉產(chǎn)生的高估問題和提高算法的穩(wěn)定性。

a)DDQN是在原有DQN網(wǎng)絡(luò)Q(s,a;w)的基礎(chǔ)上增加一個與之結(jié)構(gòu)相同的網(wǎng)絡(luò)Q(s,a;w-),后者稱為目標(biāo)網(wǎng)絡(luò),兩者結(jié)構(gòu)相同,網(wǎng)絡(luò)參數(shù)不同,即w-≠w。一方面,在DDQN算法中,使用主網(wǎng)絡(luò)選擇動作控制智能體和收集經(jīng)驗,使用目標(biāo)網(wǎng)絡(luò)計算TD目標(biāo)值,在DDQN中,目標(biāo)網(wǎng)絡(luò)的參數(shù)并不是與主網(wǎng)絡(luò)同步更新,而是以一定頻率進行更新,目標(biāo)網(wǎng)絡(luò)的參數(shù)w-更新頻率往往低于主網(wǎng)絡(luò)參數(shù)w,因此可以一定程度上減緩DQN算法的高估程度,在災(zāi)害場景下,減輕高估問題可以讓無人機作出正確的決策。另一方面,使用兩個網(wǎng)絡(luò)來估計Q值,DDQN更易收斂,相對于傳統(tǒng)的DQN算法更為穩(wěn)定。在災(zāi)害場景下,無人機需要在復(fù)雜和危險的環(huán)境中操作,訓(xùn)練穩(wěn)定性的提高能夠確保智能體更好地適應(yīng)各種情況,以更加平穩(wěn)地傳遞經(jīng)驗,提高無人智能系統(tǒng)自主決策部署的自適應(yīng)性。

b)由于災(zāi)區(qū)的環(huán)境趨于復(fù)雜,相較于DDPG方法, DDQN不需要面對DDPG中探索-利用(exploration-exploitation)的復(fù)雜連續(xù)空間,訓(xùn)練需要的數(shù)據(jù)數(shù)量相對較少,具有更高的樣本效率,使用同等數(shù)量的學(xué)習(xí)樣本DDQN方法更易于收斂,更容易在有限時間內(nèi)給出合理、穩(wěn)定的決策。因此,在對無人機的響應(yīng)速度有較高要求的災(zāi)害場景下,使用DDQN算法更具有實際工程意義。

c)考慮到災(zāi)害發(fā)生的偶然性,用于訓(xùn)練無人機的樣本數(shù)量相對受限,但對無人機部署高效性要求較高,對訓(xùn)練樣本的高效利用就顯得尤為重要。傳統(tǒng)的經(jīng)驗回放方法將經(jīng)驗樣本以相等的概率從緩沖區(qū)中進行隨機采樣,無法區(qū)分哪些經(jīng)驗對于學(xué)習(xí)更為重要。然而,在實際環(huán)境中,有些經(jīng)驗可能對學(xué)習(xí)有更大的貢獻,值得更頻繁地被采樣。將優(yōu)先經(jīng)驗回放(prio-ritized experience replay,PER)技術(shù)加入傳統(tǒng)的DDQN算法中,并根據(jù)工程進行科學(xué)的合理的自定義對其改進,稱為自定義經(jīng)驗回放優(yōu)先級(customized prioritized experience replay,CPER)。在經(jīng)驗回放緩沖區(qū)中,每個經(jīng)驗樣本被賦予一個優(yōu)先級,每次按照經(jīng)驗樣本優(yōu)先級由高到低進行非均勻采樣。在選取經(jīng)驗樣本時,根據(jù)其優(yōu)先級進行重要性采樣,優(yōu)先選擇優(yōu)先級高的樣本被采樣的概率更大,這樣可以增加那些對學(xué)習(xí)性能有較大貢獻的樣本出現(xiàn)在訓(xùn)練過程中的次數(shù)。通過加入CPER技術(shù),智能體能夠更集中地學(xué)習(xí)那些具有較高優(yōu)先級的經(jīng)驗樣本,自定義的思想能增加算法的場景適度,提升算法對重要經(jīng)驗的學(xué)習(xí)效果,以提高算法的樣本利用效率,達(dá)到提高算法的學(xué)習(xí)速度和性能的目的。文中結(jié)合實際應(yīng)用場景,綜合考量自定義優(yōu)先級評價指標(biāo)給經(jīng)驗池中的樣本標(biāo)定優(yōu)先級。

d)多智能體系統(tǒng)中通常存在競爭和合作的關(guān)系。每個智能體可能試圖最大化自身的利益,而不考慮整個系統(tǒng)的利益,這種競爭與合作的平衡關(guān)系會導(dǎo)致自私行為的出現(xiàn),如單架無人機為了提高個別節(jié)點的能效從而無限接近節(jié)點犧牲覆蓋率的自私行為。雖然A3C方法是解決分布式問題常用的方法,但是異步策略的加入會消耗無人機大量的計算資源和通信資源,在不同的應(yīng)用場景中,算法穩(wěn)定性和收斂速度不能得到保證。為了平衡智能體之間的競爭與合作關(guān)系,文中使用完全去中心化的多智能體深度學(xué)習(xí)(fully decentralized multi-agent deep reinforcement learning,MAFD-DRL)方法避免引入過多計算和通信復(fù)雜度,將合作機制從集中式的訓(xùn)練方式中分離出來并轉(zhuǎn)移至分布式訓(xùn)練的獎勵函數(shù)中,通過設(shè)計合適的獎勵函數(shù)引入獎勵信號,考慮整體系統(tǒng)的性能,鼓勵智能體之間的合作。這樣,當(dāng)智能體采取能夠促進整個系統(tǒng)性能的行為時,可以獲得更多的獎勵。這種獎勵機制可以促使智能體更多地考慮整體利益,而不僅僅是個體利益,同時避免引入更高的復(fù)雜度和計算代價。

2.2 DRL算法要素與設(shè)計

所選深度強化學(xué)習(xí)算法涉及的關(guān)鍵要素及其定義如下。

a)智能體(agent)。深度強化學(xué)習(xí)算法中的學(xué)習(xí)者,通過與環(huán)境互動進行學(xué)習(xí)的實體。智能體的目標(biāo)是通過觀察環(huán)境的狀態(tài),采取適當(dāng)?shù)膭幼鱽碜畲蠡湓诃h(huán)境中獲得的獎勵。智能體在強化學(xué)習(xí)中通過學(xué)習(xí)經(jīng)驗改進自身策略,使其能夠在特定任務(wù)中獲得更高的獎勵。該場景下,無人機是MADRL中的智能體,作為動作的發(fā)出者,通過與環(huán)境交互作出自身部署決策。

b)環(huán)境(environment)。環(huán)境是智能體與之交互的外部系統(tǒng)。智能體通過對環(huán)境觀察并進行特征分析,采取行動,環(huán)境根據(jù)智能體執(zhí)行的動作提供獎勵或懲罰。該場景下將無人機位置、節(jié)點位置、節(jié)點電量構(gòu)成的直接影響無人機智能體部署策略的外部系統(tǒng)視為環(huán)境。

c)狀態(tài)(state)s。智能體從環(huán)境接收的數(shù)據(jù)。在該場景下指某一時刻無人機獲取的所觀測對象的數(shù)據(jù),包括當(dāng)前節(jié)點位置、剩余電量、傳輸能效以及無人機自身位置等具體數(shù)據(jù)。

d)狀態(tài)空間(state space)Euclid Math OneSAp。狀態(tài)空間是指在任意時間點,環(huán)境可能處于的所有可能狀態(tài)的集合。由于無人機的3D位置決定了其與地面節(jié)點之間的距離Dj,i,由式(9)~(11)可知,在給定信噪比閾值SNRTH的情況下,Dj,i影響著節(jié)點的發(fā)射功率,所以無人機基站的3D位置是狀態(tài)空間的關(guān)鍵組成部分。在每個時隙開始時,無人機會根據(jù)地面無線傳感器節(jié)點的位置pu,i、剩余電量Er、當(dāng)前節(jié)點能效EEj,i調(diào)整自身位置,因此無線傳感器節(jié)點的位置和剩余電量也是狀態(tài)空間的一部分,該系統(tǒng)的狀態(tài)空間可以表示為:Euclid Math OneSAp={pu,i,Er,EEj,i}。

e)動作(action)a。智能體根據(jù)其對環(huán)境狀態(tài)的觀察所作出的決策或行動。該場景下指無人機具體飛行動作。

f)動作空間(action space)Euclid Math OneAAp。動作空間是指代智能體可以執(zhí)行的所有可能動作的集合。考慮到連續(xù)的動作空間會導(dǎo)致訓(xùn)練收斂慢的問題,不滿足應(yīng)急場景需要,故將動作空間離散化用于智能體的訓(xùn)練,將三維直角坐標(biāo)系中無人機的動作延

g)獎勵函數(shù)(reward function)。在一個強化學(xué)習(xí)任務(wù)中,智能體在時間步t執(zhí)行動作后,會得到一個即時獎勵Rt。對應(yīng)2.1節(jié)中第四點,合理設(shè)計獎勵函數(shù)可以提高智能體處理合作-競爭關(guān)系的能力,此處結(jié)合具體應(yīng)用場景,設(shè)計如下:

式(17)多項式中的第一項是針對單架無人機自身信息收集效率節(jié)點能源效率方面的獎勵,與問題描述中的優(yōu)化目標(biāo)息息相關(guān);第二項是針對全部無人機合作覆蓋節(jié)點方面數(shù)量的獎勵,可以加強無人機之間的合作,避免單架無人機為了提高第一項分?jǐn)?shù)無限接近節(jié)點犧牲覆蓋率等這類自私行為。

h)折扣回報(disconnected return)。是指在強化學(xué)習(xí)任務(wù)中,智能體在未來時間獲得的獎勵的總和,記作Gt,計算方式如下:

其中:γ是折扣因子,表示未來獎勵對當(dāng)前時刻回報的影響。

i)自定義經(jīng)驗回放優(yōu)先級函數(shù)。對應(yīng)2.1節(jié)中第三點,將經(jīng)驗回放優(yōu)先級合理設(shè)計,提高經(jīng)驗利用效率。時間差分誤差(temporal difference error,TDE)δt可以表示網(wǎng)絡(luò)對動作價值評估的準(zhǔn)確水平,δt越大,說明網(wǎng)絡(luò)對該環(huán)境狀態(tài)的學(xué)習(xí)越不充分,需要加強該部分學(xué)習(xí),所以TDE可以用來衡量其優(yōu)先級,TDE越大,優(yōu)先級越高。其次,某一狀態(tài)下作出的動作獲得的獎勵rt越低說明網(wǎng)絡(luò)的決策越差,需要加強網(wǎng)絡(luò)在該環(huán)境下作出優(yōu)異動作的能力,所以,即時獎勵越低,優(yōu)先級越高。綜上,經(jīng)驗回放優(yōu)先級函數(shù)設(shè)計如下:

其中:φ與1-φ表示δt與rt在經(jīng)驗優(yōu)先級中所占的權(quán)重;是rt負(fù)相關(guān)性調(diào)節(jié)指數(shù)。

2.3 基于MAFD-CPER-DDQN的節(jié)點能效優(yōu)化方法算法

將DRL算法用于解決本文應(yīng)用場景下的優(yōu)化問題,通過合理拆分動作空間、設(shè)計獎勵函數(shù)、自定義經(jīng)驗回放優(yōu)先級函數(shù),同時采用完全去中心化的多智能體強化學(xué)習(xí)方法,提出MAFD-CPER-DDQN無人機部署算法,詳見算法1,網(wǎng)絡(luò)結(jié)構(gòu)見圖5。

算法1 無人機自主部署算法

上述算法中,1行之前的內(nèi)容是對算法中輸入、輸出、超參數(shù)的聲明;1行表示初始化算法參數(shù);2~21行表示智能體重復(fù)學(xué)習(xí)I個回合;3行表示在每個回合開始都要對外部環(huán)境狀態(tài)進行初始化;4~20行表示智能體每個回合執(zhí)行T步;在每一步中,5行是當(dāng)前步執(zhí)行迭代的條件,6~19行是每一步迭代要執(zhí)行的內(nèi)容;6行表示對當(dāng)前環(huán)境狀態(tài)的觀察值;7行表示智能體使用ε-greedy策略根據(jù)6行中的狀態(tài)和以往經(jīng)驗執(zhí)行決策出的動作;8行表示此輪迭代是否達(dá)到最終狀態(tài)的標(biāo)志位;9~18行是根據(jù)8行中標(biāo)志位判斷是否已達(dá)到最終狀態(tài);9~16行代表如果未達(dá)到最終狀態(tài);10、11行表示進行觀察值、獎勵值的更新;12行表示使用TD target方法計算TD目標(biāo)值;13行表示計算loss值;14行表示使用梯度下降法算法更新主網(wǎng)絡(luò)參數(shù);15行表示將六元組數(shù)據(jù)(st,at,rt,st+1,signal,priority)存入經(jīng)驗回放緩沖區(qū);16行表示按照設(shè)定的頻率和規(guī)則更新目標(biāo)網(wǎng)絡(luò)參數(shù);17、18行表示如果當(dāng)前達(dá)到的狀態(tài)是最終狀態(tài),此輪迭代獲得的獎勵就是TD目標(biāo)值。

3 仿真結(jié)果與分析

本章使用Python 3.10.6軟件平臺的TensorFlow 2.11.0框架,驗證將所提MAFD-CPER-DDQN方法用于災(zāi)害場景下信息收集無人機部署及節(jié)點能效優(yōu)化工作中的可行有效性、相比傳統(tǒng)DDQN和DDPG兩種基線算法的性能指標(biāo)提升值、差異化應(yīng)用場景下算法表現(xiàn),仿真過程忽略了來自附近UAV小區(qū)的干擾。模擬參數(shù)如表1所示。

3.1 收斂性分析

對于災(zāi)害應(yīng)急場景下所使用的MAFD-CPER-DDQN算法進行基本的可行性驗證,運用此算法將智能訓(xùn)練1 000回合,從圖6可以看出平均損失值在第600回合附近開始收斂,這說明獎勵函數(shù)定義合理,將MAFD-CPER-DDQN算法應(yīng)用于以優(yōu)化節(jié)點能效為目標(biāo)的災(zāi)害場景無人機自適應(yīng)部署工作中是可行的。

3.2 性能指標(biāo)對比分析

將MAFD-CPER-DDQN算法與以下DDQN、DDPG、A3C算法三種方法進行了對比實驗。在控制輸入相同的情況下,讓智能體進行1 000回合訓(xùn)練,實驗結(jié)果如圖7所示。

從圖7可以看出,所提MAFD-CPER-DDQN相比于DDQN、DDPG、A3C算法具有更快的收斂速度。a)DDPG方法處理的是連續(xù)動作空間,這使無人機對下一時刻采取動作的決策高維化、復(fù)雜化,選擇的增加意味著需要更加優(yōu)異的策略才能作出有利的動作,也意味著需要更加廣泛的探索、更緩慢的收斂速度和更長的訓(xùn)練時間,而所提方法將無人機的動作空間離散化,有利于加快算法收斂速度;b)相比于傳統(tǒng)的DDQN算法,所提算法加入了優(yōu)先級經(jīng)驗回放技術(shù),增加優(yōu)先級較高經(jīng)驗的選擇概率,在避免經(jīng)驗相關(guān)性的同時,能更加高效地利用訓(xùn)練經(jīng)驗數(shù)據(jù);c)由于A3C算法中智能體的訓(xùn)練是異步的,訓(xùn)練過程具有更多的隨機性,不同的智能體可能經(jīng)歷不同的軌跡并在不同的時間更新網(wǎng)絡(luò),增加了訓(xùn)練過程的不穩(wěn)定性和隨機性,所以需要更多的訓(xùn)練步驟才能獲得穩(wěn)定可靠的策略,而相對于A3C網(wǎng)絡(luò),所提算法使用完全去中心化的分布式訓(xùn)練-分布式執(zhí)行的策略,使其不僅可以用于分布式計算,而且將智能體之間的競爭-合作關(guān)系完全量化并定義到獎勵函數(shù)中,避免了引入額外的同步復(fù)雜性、智能體間通信帶來的時間和計算開銷,因此智能體的訓(xùn)練過程能更加快速地收斂。

所提MAFD-CPER-DDQN相比于DDQN和DDPG算法具有更強的穩(wěn)定性,整個訓(xùn)練過相對平穩(wěn),這是因為優(yōu)先經(jīng)驗回放技術(shù)的加入讓智能體有更高的概率去選擇損失函數(shù)值較大的經(jīng)驗進行學(xué)習(xí),增加在決策質(zhì)量不高場景下的訓(xùn)練次數(shù),因此智能體獲得的累積獎勵隨決策質(zhì)量的提升而穩(wěn)步提升。相比之下,傳統(tǒng)的DDPG和DDQN算法沒有加入經(jīng)驗回放技術(shù),每次的訓(xùn)練數(shù)據(jù)都會在更新參數(shù)之后丟棄,且DDPG算法對龐大連續(xù)動作空間的探索更加劇了其非平穩(wěn)特性。

所提MAFD-CPER-DDQN算法相比于DDQN能獲得更高的回報,這是由于經(jīng)驗回放技術(shù)放大了雙DQN網(wǎng)絡(luò)的優(yōu)勢,使DDQN算法主網(wǎng)絡(luò)的學(xué)習(xí)范圍從當(dāng)前一條訓(xùn)練數(shù)據(jù)變成了一批次訓(xùn)練經(jīng)驗數(shù)據(jù),對訓(xùn)練歷史數(shù)據(jù)進行了更為高效的利用,更有利于跳出局部最優(yōu)去作出更好的決策控制無人機的部署。與DDPG算法相比,能獲得的最終回報偏低,這是由于動作空間的離散化降低了無人機位移的精度,使無人機很難精確探索到使長期累積獎勵最大的3D位置。

所提MAFD-CPER-DDQN相比于DDPG、A3C算法能夠節(jié)省更多的計算時間,相比于DDQN能使智能體獲得更高的獎勵。上述兩種指標(biāo)之間存在沖突,由于應(yīng)用場景的特殊性,既不能一味追求獎勵最大化忽略災(zāi)害場景下時間的重要性,也不能過度追求快速性忽略了無人機部署質(zhì)量對地面節(jié)點能效的影響。選擇、改進和使用傳統(tǒng)的DDQN算法是對動作空間離散化和連續(xù)化下深度強化學(xué)習(xí)性能的折中,達(dá)到統(tǒng)籌兼顧訓(xùn)練效率和訓(xùn)練質(zhì)量的目的。從圖7可以看出,使用所提MAFD-CPER-DDQN算法應(yīng)用于以提高節(jié)點能效為優(yōu)化目標(biāo)的災(zāi)害場景下無人機部署工作,整體節(jié)點能源效率、學(xué)習(xí)過程收斂速度比DDQN算法分別提高了21%和17%;所提算法在回報僅低于DDPG算法9%的情況下,智能體訓(xùn)練收斂速度比DDPG算法提升42%;所提算法的收斂速度比A3C方法提升34%:兼顧了災(zāi)害應(yīng)急場景下高時效、高質(zhì)量的無人機部署要求。

3.3 差異化應(yīng)用場景對比分析

分別對比以評估不同數(shù)量的無人機部署對地面節(jié)點能源效率總和的影響。仿真模擬了不同數(shù)量(4、10、16架)的無人機為半徑1 000 m的圓形區(qū)域內(nèi)的靜態(tài)無線傳感器網(wǎng)絡(luò)節(jié)點提供服務(wù)時的部署算法收斂曲線,仿真結(jié)果如圖8所示。

從圖8可以看出,當(dāng)無人機數(shù)量較少時,智能體的學(xué)習(xí)回報曲線收斂速度較慢,地面系統(tǒng)所能達(dá)到的最大能效也較低;反之,無人機數(shù)量越多,學(xué)習(xí)回報曲線收斂速度越快,所能達(dá)到的最大回報也較高。這是因為智能體數(shù)量較少時,單架無人機到最佳部署點需要的平均位移較大,貫序決策中包含的的單步?jīng)Q策數(shù)量較多,因此收斂速度較慢,當(dāng)無人機數(shù)量增加時,每架無人機接入的節(jié)點數(shù)量變少,單架無人機到最佳部署點需要的平均位移變小,在平均速度不變的情況下,無人機需要作出的決策數(shù)量變少,收斂速度加快。此外,無人機較少時,所能達(dá)到的最大回報較低,這是因為無人機的數(shù)量和覆蓋面積限制了其對節(jié)點覆蓋率與節(jié)點能效的兼顧能力,由于在獎勵函數(shù)中賦予節(jié)點能效項的權(quán)重較大,較少的無人機在提高節(jié)點能效的情況下就犧牲了對一部分節(jié)點的覆蓋率。但是隨著無人機數(shù)量的增加,其對節(jié)點覆蓋率與節(jié)點能效的兼顧能力得到提高,因此,所能達(dá)到的最大回報有所升高。但是當(dāng)無人機數(shù)量繼續(xù)增加時,回報不再增值明顯放慢,這意味著當(dāng)前災(zāi)區(qū)范圍內(nèi),無人機數(shù)量已達(dá)到飽和,增加無人機數(shù)量對回報的提升已經(jīng)幾乎不起作用,反而會造成無人機資源的浪費。

以4架無人機的部署為例,其部署過程中的飛行軌跡如圖9所示。圖9可以看出,根據(jù)地面節(jié)點的地理分布及其具體情況,無人機的高度以及覆蓋范圍各不相同,符合自適應(yīng)部署的要求。無人機之間的覆蓋區(qū)域存在重疊,部署高度更低的無人機認(rèn)為應(yīng)為該區(qū)域內(nèi)的節(jié)點提供更加高能效、高可靠性的服務(wù),但是這難免增加了UAV小區(qū)間的干擾。同時,可以看出對于少部分邊緣節(jié)點的覆蓋并不完善,此時無人機的數(shù)量尚未達(dá)到飽和,仍可通過增加無人機數(shù)量提高回報。

3.4 優(yōu)化效果對比

將所提MAFD-CPER-DDQN算法用于以提高節(jié)點能效為優(yōu)化目標(biāo)的無人機自適應(yīng)部署工作中,算法使用前后,分別生成地面節(jié)點剩余電量-能效圖,以更為直觀的方式展示該場景下使用所提算法的效果及意義,具體如圖10所示。圖10中:節(jié)點全部處于同一水平面,xOy面描述其水平面上的二維坐標(biāo),z軸正方向表示節(jié)點當(dāng)前剩余電量,3D坐標(biāo)位置處的圓點的顏色表示節(jié)點當(dāng)前時刻的能源效率,顏色由紅至綠表示節(jié)點能效由低到高,為方便觀察,將節(jié)點能效也與圓點大小對應(yīng)起來,由小到大亦可表示節(jié)點能效由低到高。

從圖10可以看出,起初節(jié)點的能源效率是依據(jù)無人機的隨機初始化雜亂分布的,使用所提算法讓無人機進行學(xué)習(xí)后,較高的能效被分配在剩余電量較低的節(jié)點處,而剩余電量較高的節(jié)點處能效大都較低。這也意味著,無人機在更靠近剩余電量低的區(qū)域部署密度越大、飛行高度越低。

4 結(jié)束語

所提算法用于以提升地面節(jié)點能源效率為優(yōu)化目標(biāo)的災(zāi)害場景無人機輔助信息收集工作中,填補了災(zāi)害場景下無人機部署領(lǐng)域以優(yōu)化節(jié)點能效優(yōu)化為導(dǎo)向的空白。在所提特定場景下,整體節(jié)點能源效率、學(xué)習(xí)過程收斂速度比DDQN算法分別提高了21%和17%,在長期收益僅低于DDPG算法9%的情況下,智能體學(xué)習(xí)過程的收斂速度比DDPG算法提升42%,比A3C方法提升34%,兼顧了災(zāi)害應(yīng)急場景下高時效、高質(zhì)量的無人機自適應(yīng)部署要求。

在未來的研究工作中:a)將會綜合考慮異構(gòu)物聯(lián)網(wǎng)節(jié)點的移動性和無人機在收集災(zāi)害信息過程中的小范圍可移動性;b)將考慮不同災(zāi)害場景對智能體響應(yīng)時長、智能體部署精度等不同方面的需求,在訓(xùn)練之前加入算法可選模塊,使應(yīng)急系統(tǒng)更加智能地按需部署;c)考慮將無人機載具與基于深度強化學(xué)習(xí)算法的邊緣計算[25,26]、可重構(gòu)智能超表面[27~29]結(jié)合起來,為災(zāi)害場景下的計算、通信等應(yīng)急服務(wù)提供更多解決方案。

參考文獻:

[1]Kargel J, Leonard G, Dan S, et al. Geomorphic and geologic controls of geohazards induced by Nepal’s 2015 Gorkha earthquake[J]. Science, 2016, 351(6269):8353.

[2]Jia Min, Gu Xuemai, Guo Qing, et al. Broadband hybrid satellite-terrestrial communication systems based on cognitive radio toward 5G[J]. IEEE Wireless Communications, 2016,23(6): 96-106.

[3]Nishiyama H, Ito M, Kato N. Relay-by-smartphone: realizing multihop device-to-device communications[J]. IEEE Communications Magazine, 2014, 52(4): 56-65.

[4]Taleb T, Hadjadj-Aoul Y, Ahmed T. Challenges, opportunities, and solutions for converged satellite and terrestrial networks[J]. IEEE Wireless Communications, 2011,18(1): 46-52.

[5]Tan D D, Long D N, Duong T Q, et al. Joint optimisation of real-time deployment and resource allocation for UAV-aided disaster emergency communications[J]. IEEE Journal on Selected Areas in Communications, 2021,36(11): 3411-3424.

[6]Zeng Yong, Zhang Rui, Lim T J, et al. Wireless communications with unmanned aerial vehicles: opportunities and challenges[J]. IEEE Communications Magazine, 2016,54(5): 36-42.

[7]Zhao Nan, Lu Weidang, Sheng Min, et al. UAV-assisted emergency networks in disasters[J]. IEEE Wireless Communications, 2019,26(1): 45-51.

[8]Liu Miao, Yang Jie, Gui Guan. DSF-NOMA: UAV-assisted emergency communication technology in a heterogeneous Internet of Things[J]. IEEE Internet of Things Journal, 2019,6(3): 5508-5519.

[9]Barick S, Singhal C. Multi-UAV assisted IoT NOMA uplink communication system for disaster scenario[J]. IEEE Access, 2022,10: 34058-34068.

[10]Lin Na, Liu Yuheng, Zhao Liang, et al. An adaptive UAV deployment scheme for emergency networking[J]. IEEE Trans on Wireless Communications, 2022, 21(4): 2383-2398.

[11]李斌, 彭思聰, 費澤松. 基于邊緣計算的無人機通感融合網(wǎng)絡(luò)波束成形與資源優(yōu)化[J]. 通信學(xué)報, 2023,44(9): 228-237. (Li Bin, Peng Sicong, Fei Zesong. Multi-agent reinforcement learning-based task offloading for multi-UAV edge computing[J]. Journal on Communications, 2023, 44(9): 228-237.)

[12]李斌. 基于多智能體強化學(xué)習(xí)的多無人機邊緣計算任務(wù)卸載[J]. 無線電工程, 2023,53(12): 2731-2740. (Li Bin. Multi-agent reinforcement learning-based task offloading for multi-UAV edge computing[J]. Radio Engineering, 2023, 53(12): 2731-2740.)

[13]Wu Guanhan, Jia Weimin, Zhao Jianwei. Dynamic deployment of multi-UAV base stations with deep reinforcement learning[J]. Electronics Letters, 2021, 57(15): 600-602.

[14]Ma Xiaoyong, Hu Shuting, Zhou Danyang, et al. Adaptive deployment of UAV-aided networks based on hybrid deep reinforcement learning[C]//Proc of the 92nd Vehicular Technology Conference. Piscataway, NJ: IEEE Press, 2020: 1-6.

[15]周毅, 馬曉勇, 郜富曉, 等. 基于深度強化學(xué)習(xí)的無人機自主部署及能效優(yōu)化策略[J]. 物聯(lián)網(wǎng)學(xué)報, 2019,3(2): 47-55. (Zhou Yi, Ma Xiaoyong, Gao Fuxiao, et al. Autonomous deployment and energy efficiency optimization strategy of UAV based on deep reinforcement learning[J]. Chinese Journal on Internet of Things, 2019,3(2): 47-55.)

[16]Liu C H, Chen Zheyu, Tang Jian, et al. Energy-efficient UAV control for effective and fair communication coverage: a deep reinforcement learning approach[J]. IEEE Journal on Selected Areas in Communications, 2018, 36(9): 2059-2070.

[17]Liu C H,Ma Xiaoxin,Gao Xudong,et al. Distributed energy-efficient multi-UAV navigation for long-term communication coverage by deep reinforcement learning[J]. IEEE Trans on Mobile Computing, 2020,19(6): 1274-1285.

[18]Omoniwa B, Galkin B, Dusparic I. Optimizing energy efficiency in UAV-assisted networks using deep reinforcement learning[J]. IEEE Wireless Communications Letters, 2022,11(8): 1590-1594.

[19]王海濤. 基于無線自組網(wǎng)的應(yīng)急通信技術(shù)[M]. 北京: 電子工業(yè)出版社, 2015: 76. (Wang Haitao. Emergency communication technology based on wireless Ad hoc network[M]. Beijing: Publishing House of Electronics Industry, 2015: 76.)

[20]Al-Hourani A, Kandeepan S, Lardner S. Optimal LAP altitude for maximum coverage[J]. IEEE Wireless Communications Letters, 2014,3(6): 569-572.

[21]王雷. 無人機中繼通信鏈路性能分析與資源分配技術(shù)研究[D]. 北京: 北京郵電大學(xué), 2022. (Wang Lei. Research on link perfor-mance analysis and resource allocation technology of UAV relaying communications[D]. Beijing: Beijing University of Posts and Telecommunications, 2022.)

[22]高揚, 葉振斌. 白話強化學(xué)習(xí)與PyTorch[M]. 北京: 電子工業(yè)出版社, 2019: 7. (Gao Yang, Ye Zhenbin. Reinforcement learning PyTorch[M]. Beijing: Publishing House of Electronics Industry, 2019: 7.)

[23]Silver D, Lever G, Heess N, et al. Deterministic policy gradient algorithms[C]//Proc of the 31st International Conference on Machine Learning. [S.l.]: JMLR.org, 2014: 387-395.

[24]Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[EB/OL]. (2015-09-09) [2023-09-05]. https://arxiv.org/abs1509.02971.

[25]米德昌, 王霄, 李夢麗, 等. 災(zāi)害應(yīng)急場景下基于多智能體深度強化學(xué)習(xí)的任務(wù)卸載策略[J]. 計算機應(yīng)用研究, 2023,40(12): 3766-3771,3777. (Mi Dechang, Wang Xiao, Li Mengli, et al. Multi-intelligence deep reinforcement learning-based task offloading strategy for disaster emergency scenarios[J]. Application Research of Computers, 2023,40(12): 3766-3771,3777.)

[26]李斌, 劉文帥, 謝萬城, 等. 智能反射面賦能無人機邊緣網(wǎng)絡(luò)計算卸載方案[J]. 通信學(xué)報, 2022,43(10): 223-233. (Li Bin, Liu Wenshuai, Xie Wancheng, et al. Partial computation offloading for double-RIS assisted multi-user mobile edge computing networks[J]. Journal on Communications, 2022,43(10): 223-233.)

[27]Liu Xiao, Liu Yuanwei, Chen Yue. Machine learning empowered trajectory and passive beamforming design in UAV-RIS wireless networks[J]. IEEE Journal on Selected Areas in Communications, 2020,39(7): 2042-2055.

[28]Zhong Ruikang, Mu Xidong, Liu Yuanwei, et al. STAR-RISs assisted NOMA networks: a distributed learning approach[J]. IEEE Journal of Selected Topics in Signal Processing, 2023,17(1): 264-278.

[29]Nguyen T H, Park H, Park L. Recent studies on deep reinforcement learning in RIS-UAV communication networks [C]//Proc of International Conference on Artificial Intelligence in Information and Communication. Piscataway, NJ: IEEE Press, 2023: 378-381.