張廣馳 嚴(yán)雨琳 崔 苗* 陳 偉 張 景
①(廣東工業(yè)大學(xué)信息工程學(xué)院 廣州 510006)
②(廣東省環(huán)境地質(zhì)勘查院 廣州 510080)
③(中國(guó)電子科學(xué)研究院 北京 100043)
在過去的十年中,由于無人機(jī)(Unmanned Aerial Vehicle, UAV)移動(dòng)性高、成本低等特點(diǎn),無人機(jī)在無線通信領(lǐng)域引起了廣泛的關(guān)注[1]。無人機(jī)在即將到來的5G通信時(shí)代也會(huì)發(fā)揮重要的作用,主要可以分為兩類。第1類,無人機(jī)可以作為空中移動(dòng)的通信平臺(tái)輔助地面基站的通信。無人機(jī)基站可以為超密集網(wǎng)絡(luò)的地面基站提供補(bǔ)充覆蓋,也可以利用空地信道增益大的優(yōu)勢(shì)為毫米波通信提供高增益的無線連接。在應(yīng)對(duì)自然災(zāi)害緊急救援情況時(shí),無人機(jī)基站可以臨時(shí)代替被損壞的地面基站提供應(yīng)急通信。在基礎(chǔ)設(shè)施覆蓋不足的地區(qū),無人機(jī)基站可以作為中繼為地面用戶提供無線通信服務(wù)。在熱點(diǎn)區(qū)域或者需要處理臨時(shí)事件期間,無人機(jī)基站能夠?yàn)榫W(wǎng)絡(luò)流量擁塞的地面基站提供有效的業(yè)務(wù)分流。第2類,無人機(jī)作為空中的用戶,接入到地面的蜂窩通信網(wǎng)絡(luò)。未來5G蜂窩網(wǎng)絡(luò)能夠?yàn)闊o人機(jī)提供更加可靠、更加安全和超低時(shí)延的連接從而實(shí)現(xiàn)其更多功能[2-6]。文獻(xiàn)[3]研究了無人機(jī)通信網(wǎng)絡(luò)中物理層安全性的問題;文獻(xiàn)[4]研究了多無人機(jī)基站通信網(wǎng)絡(luò)中的軌跡優(yōu)化和功率分配問題;文獻(xiàn)[5]研究了無人機(jī)中繼系統(tǒng)中通過軌跡優(yōu)化和功率分配來最大化吞吐量的問題。
本文主要研究的是上述第1類應(yīng)用場(chǎng)景,即無人機(jī)作為空中基站為地面用戶提供無線通信服務(wù)。相比于傳統(tǒng)的地面基站,無人機(jī)基站的飛行高度比較高,能夠與用戶建立更加可靠的通信鏈路[4],能夠適應(yīng)突發(fā)情況下的通信場(chǎng)景,例如救援、搜索、熱點(diǎn)區(qū)域覆蓋等。目前大多數(shù)的研究是通過優(yōu)化無人機(jī)的位置部署、無人機(jī)的飛行軌跡或者資源分配來達(dá)到更佳的通信質(zhì)量。例如文獻(xiàn)[7]研究了最小化無人機(jī)基站的數(shù)量以及部署無人機(jī)的位置來覆蓋給定數(shù)量的地面用戶;文獻(xiàn)[8]研究了無人機(jī)輔助的無線傳感網(wǎng)中的數(shù)據(jù)采集;文獻(xiàn)[9]研究了多跳無人機(jī)中繼通信系統(tǒng)的軌跡優(yōu)化以及功率分配。上述文獻(xiàn)中采用的算法都屬于離線優(yōu)化算法,建立在對(duì)通信環(huán)境的完美假設(shè)的基礎(chǔ)上,在無人機(jī)起飛之前規(guī)劃好無人機(jī)的軌跡。然而在實(shí)際中,通信環(huán)境是不斷變化的,無法提前預(yù)測(cè),通信環(huán)境的完美假設(shè)無法實(shí)現(xiàn)[10],因此無法解決地面用戶隨機(jī)的通信請(qǐng)求問題。與離線優(yōu)化算法不同,在線優(yōu)化算法不需要在無人機(jī)起飛前提前設(shè)計(jì)好無人機(jī)的飛行路線,而是能夠在飛行過程中根據(jù)通信環(huán)境的變化動(dòng)態(tài)、連續(xù)地規(guī)劃無人機(jī)的飛行路線。文獻(xiàn)[11]提出了一種近似動(dòng)態(tài)規(guī)劃的無人機(jī)機(jī)動(dòng)決策方法;文獻(xiàn)[12]提出一種基于動(dòng)態(tài)規(guī)劃的在線優(yōu)化算法,而動(dòng)態(tài)規(guī)劃需要一個(gè)環(huán)境模型,且計(jì)算復(fù)雜度較高。
為了讓無人機(jī)基站具有動(dòng)態(tài)、實(shí)時(shí)規(guī)劃飛行路線的能力,從而實(shí)現(xiàn)飛行路線能夠?qū)崟r(shí)適應(yīng)地面用戶隨機(jī)的通信請(qǐng)求,并且考慮到無人機(jī)基站與地面用戶進(jìn)行時(shí)效性較強(qiáng)的決策信息通信時(shí),減小通信時(shí)延尤為重要。本文將從平均通信時(shí)延最小化的角度出發(fā),提出基于強(qiáng)化學(xué)習(xí)的飛行路線在線優(yōu)化設(shè)計(jì)算法。在線優(yōu)化算法能夠在飛行過程中根據(jù)通信環(huán)境的變化動(dòng)態(tài)地規(guī)劃無人機(jī)的飛行路線,不需要完備的通信環(huán)境參數(shù)且計(jì)算復(fù)雜度比動(dòng)態(tài)規(guī)劃的低。強(qiáng)化學(xué)習(xí)方法包含蒙特卡羅和Q-Learning兩類算法,用于解決馬爾可夫決策問題[13]。實(shí)踐證明,強(qiáng)化學(xué)習(xí)算法具有解決無人機(jī)無線網(wǎng)絡(luò)在線優(yōu)化問題的能力,例如文獻(xiàn)[14]研究了多無人機(jī)輔助蜂窩網(wǎng)絡(luò)中的用戶體驗(yàn)質(zhì)量(Quality of Experience,QoE);文獻(xiàn)[15]研究了多無人機(jī)輔助蜂窩網(wǎng)絡(luò)中所有用戶的通信速率和最大化的問題。
本文研究一個(gè)無人機(jī)空中基站為兩個(gè)地面用戶提供無線通信服務(wù),其中地面用戶的通信請(qǐng)求是隨機(jī)的,以平均通信時(shí)延最小化為目的來設(shè)計(jì)無人機(jī)的在線飛行路線。首先,把飛行路線設(shè)計(jì)問題轉(zhuǎn)化成一個(gè)馬爾可夫決策過程,根據(jù)地面用戶的通信請(qǐng)求情況和無人機(jī)的位置把無人機(jī)的狀態(tài)分為通信狀態(tài)和等待狀態(tài),然后定義不同狀態(tài)下的動(dòng)作集,將無人機(jī)完成單次任務(wù)的通信時(shí)延設(shè)置為回報(bào),采用強(qiáng)化學(xué)習(xí)的蒙特卡羅算法以及Q-Learning算法實(shí)現(xiàn)在線優(yōu)化無人機(jī)飛行路線。最后,通過計(jì)算機(jī)仿真驗(yàn)證本文提出的算法的有效性。
如圖1所示,本文考慮一個(gè)無人機(jī)基站通信系統(tǒng),其中包括有一個(gè)無人機(jī)和兩個(gè)地面用戶1)本文主要研究無人機(jī)基站的飛行路線在線優(yōu)化,主要考察飛行路線對(duì)通信性能的影響,沒有考慮無人機(jī)基站的能耗問題。另外,本文考慮的系統(tǒng)模型同樣適用于多個(gè)無人機(jī)基站分別在不同頻段上與地面用戶通信的場(chǎng)景,并且后文提到的優(yōu)化算法可以直接擴(kuò)展到多個(gè)地面用戶處在一條直線上的場(chǎng)景。。無人機(jī)作為一個(gè)空中通信基站,為兩個(gè)地面用戶提供無線通信服務(wù)。假定兩個(gè)地面用戶的通信請(qǐng)求是隨機(jī)的,它們獨(dú)立同分布,服從均值為λ/2的泊松過程(λ/2次請(qǐng)求/秒),每次通信請(qǐng)求的傳輸信息量為L(zhǎng)bit,地面用戶1位置坐標(biāo)為(?a,0,0)和地面用戶2的位置坐標(biāo)(a,0,0)。假設(shè)無人機(jī)的飛行高度固定為H,最大飛行速度為Vmax,無人機(jī)在兩個(gè)地面用戶所連接的線段間移動(dòng)。定義無人機(jī)單次完成傳輸任務(wù)的時(shí)間為T,稱為單次通信時(shí)延,在時(shí)刻t無人機(jī)的位置坐標(biāo)為q(t)=(x(t),y(t),H),x(t)∈[?a,a],y(t)=0。因?yàn)榈孛嬗脩舻奈恢枚荚赬軸上,無人機(jī)為了獲得更好的通信鏈路需要盡可能靠近地面用戶,所以無人機(jī)的飛行路線也在X軸。
圖1 無人機(jī)基站通信系統(tǒng)
無人機(jī)收到地面用戶r ∈{1,2}的通信請(qǐng)求之后,進(jìn)入通信狀態(tài),此時(shí)無人機(jī)為地面用戶提供無線通信服務(wù),其他地面用戶的通信請(qǐng)求會(huì)被忽略。在完成數(shù)據(jù)傳輸之后,無人機(jī)進(jìn)入等待狀態(tài),開始等待下一次通信請(qǐng)求,這個(gè)過程一直重復(fù)。
由于無人機(jī)的飛行高度比較高,與地面用戶的鏈路與視距信道相似,所以本文假設(shè)無人機(jī)與地面用戶之間的通信鏈路為視距信道[16],無人機(jī)的發(fā)射功率固定為P,在t時(shí)刻,無人機(jī)與地面用戶之間的瞬時(shí)通信速率為
其中,q′(t)表示無人機(jī)的速度V。式(2a)是保證在第m次通信任務(wù)中,Tm時(shí)間內(nèi)能夠傳輸Lbit的信息;式(2b)表示無人機(jī)的飛行速度的約束,無人機(jī)的速度可取0或者Vmax;式(2c)是對(duì)無人機(jī)的位置約束。很明顯(P1)是一個(gè)非凸的問題,同時(shí)為了讓無人機(jī)基站具有動(dòng)態(tài)、實(shí)時(shí)規(guī)劃飛行路線的能力,從而適應(yīng)不可預(yù)測(cè)、隨機(jī)的地面用戶通信請(qǐng)求,所以本文提出無人機(jī)飛行路線在線優(yōu)化設(shè)計(jì)算法。所提算法基于強(qiáng)化學(xué)習(xí)的思想。
將(P1)問題中無人機(jī)的軌跡離散化重新表述成一個(gè)馬爾可夫決策過程。(P1)對(duì)應(yīng)的馬爾可夫決策過程如下:
很明顯lp1,p2=lp2,p1,lp1,p2=l?p1,?p2。
接下來證明單次通信時(shí)延最小的飛行路線的存在,假設(shè)無人機(jī)與地面用戶1通信,對(duì)于任意一條軌跡q(·)∈A1(qi →qj),時(shí)延為Δt,可以找到另外一條軌跡q^(·)∈A1(qi →qj),時(shí)延同為Δt,滿足|q(t)?x1|≥|q^(t)?x1|,?t ∈[0,Δt],無人機(jī)在q^(·)軌跡下總是比在q(·)軌跡下更靠近地面用戶1。因此在相同通信時(shí)延的情況下,無人機(jī)在q^(·)軌跡下總是比在q(·)軌跡下能夠傳輸更大的信息量。換句話說,當(dāng)無人機(jī)的通信狀態(tài)的起始位置和結(jié)束位置相同時(shí),q^(·)更靠近地面用戶1,獲得更好的通信鏈路,從而減小通信時(shí)延。同理,無人機(jī)與地面用戶2通信的情況相同。
蒙特卡羅算法通過平均樣本的回報(bào)來解決強(qiáng)化學(xué)習(xí)問題。為了保證能夠具有良好定義的回報(bào),本文采用用于分幕式任務(wù)的蒙特卡羅算法。智能體與環(huán)境的交互分成一系列子序列,將子序列稱為幕,每幕從某個(gè)標(biāo)準(zhǔn)起始狀態(tài)開始,并且無論選取怎樣的動(dòng)作整個(gè)幕一定會(huì)終止,下一幕的開始狀態(tài)與上一幕的結(jié)束方式完全無關(guān),具有這種分幕特性重復(fù)任務(wù)稱為分幕式任務(wù)。價(jià)值估計(jì)和策略改進(jìn)在整個(gè)幕結(jié)束之后進(jìn)行,因此蒙特卡羅算法是逐幕做出改進(jìn)的。蒙特卡羅算法是從任意的策略π0開始交替進(jìn)行完整的策略評(píng)估和策略改進(jìn),最終得到最優(yōu)的策略和動(dòng)作價(jià)值函數(shù)。策略評(píng)估的目標(biāo)是估計(jì)動(dòng)作價(jià)值函數(shù)Qπ(s,a),即在策略π下從狀態(tài)s采取動(dòng)作a的期望回報(bào)。策略改進(jìn)是在當(dāng)前的動(dòng)作價(jià)值函數(shù)上貪婪地選擇動(dòng)作。由于已經(jīng)存在動(dòng)作價(jià)值函數(shù),所以在貪婪的時(shí)候完全不需要使用任何的模型信息。對(duì)于任意的一個(gè)動(dòng)作價(jià)值函數(shù),對(duì)于任意的貪婪策略為:對(duì)于任意一個(gè)狀態(tài)s ∈S,必定選擇對(duì)應(yīng)動(dòng)作價(jià)值函數(shù)最大的動(dòng)作,π(s)=arg maxaQ(s,a)[13]。在每一幕結(jié)束后,使用觀測(cè)到的回報(bào)進(jìn)行策略評(píng)估,然后在該幕序列訪問到的每一個(gè)狀態(tài)上進(jìn)行策略的改進(jìn)。本文采用的是基于試探性出發(fā)的蒙特卡羅算法,具體算法如下:
步驟1 初始化最大訓(xùn)練幕數(shù)Nepi,每幕中最大步數(shù)Nstep,對(duì)于所有s ∈Scomm,任意初始化;對(duì)于所有s ∈Scomm,a ∈A?r(qi)任意初始化動(dòng)作值函數(shù)Q(s,a)∈R;
步驟2 隨機(jī)選擇s0=(i,r),根據(jù)π生成一幕序列:s0,a0,R1,s1.a1,...,sNstep?1.aNstep?1,RNstep;
步驟3G=0;計(jì)數(shù)變量W=0;Nepi=Nepi?1;
步驟4 對(duì)幕中的每一步循環(huán),n=Nstep?1,Nstep?2,...,0:
文獻(xiàn)報(bào)道顯示絕大多數(shù)神經(jīng)系統(tǒng)的癥狀和體征是一過性的,于數(shù)周或數(shù)月可完全恢復(fù)[8]。但脂肪栓塞綜合征治療成功的關(guān)鍵在于早期診斷、綜合對(duì)癥支持治療。尚無特異性溶脂治療方法,主要是對(duì)肺、腦等器官的保護(hù)。目前通過(1)骨折部位的早期固定及固定方式的改變[2];(2)預(yù)防性使用激素來減少脂肪栓塞綜合征的發(fā)生。甲潑尼龍是目前最常使用的激素,劑量范圍為 6~90 mg/kg[1,9]。
當(dāng)二元組sn,an在s0.a0,s1.a1,...,sNstep?1.aNstep?1中出現(xiàn)過,退出幕中循環(huán)。
步驟5 重復(fù)步驟2-步驟4,直到Nepi=0。
與前面提到的蒙特卡羅算法一樣,時(shí)序差分算法也可以直接從環(huán)境互動(dòng)的經(jīng)驗(yàn)中學(xué)習(xí)策略。時(shí)序差分算法與蒙特卡羅方法不同,不用等到交互的最終結(jié)果,而是在已得到的其他的狀態(tài)估計(jì)值來更新當(dāng)前狀態(tài)的價(jià)值函數(shù),其價(jià)值估計(jì)和策略改進(jìn)是逐步的。與蒙特卡羅算法相比,時(shí)序差分算法的優(yōu)勢(shì)在于它運(yùn)用了一種在線的、完全遞增的方法來實(shí)現(xiàn)。蒙特卡羅算法必須等到一幕的結(jié)束才能知道確切的回報(bào)值,而時(shí)序差分算法只要等到下一時(shí)刻即可[13]。因?yàn)楸疚南到y(tǒng)模型中的地面用戶的通信請(qǐng)求是逐個(gè)發(fā)送的,然后由無人機(jī)逐個(gè)完成的,所以采用時(shí)序差分算法更加適合。本文采用的Q-Learning是一種典型的強(qiáng)化學(xué)習(xí)時(shí)序差分算法,動(dòng)作價(jià)值函數(shù)定義為Q(sn,an)=Q(sn,an)+α[rn+1+γmaxaQ(sn+1,a)?Q(sn,an)],其中α ∈(0,1]為步長(zhǎng),權(quán)衡上一次學(xué)習(xí)的結(jié)果和這一次學(xué)習(xí)的結(jié)果;γ ∈[0,1]為折扣率,是考慮未來回報(bào)對(duì)現(xiàn)在影響的因子,γ的值越大,說明未來回報(bào)對(duì)現(xiàn)在影響越大;具體如下:
步驟1 初始化探索參數(shù)ε,最大訓(xùn)練幕數(shù)Nepi,每幕中最大步數(shù)Nstep,動(dòng)作價(jià)值函數(shù)Q(s,a)=0,?s ∈Scomm,?a ∈A?r(qi);
步驟2 隨機(jī)給定初始狀態(tài)s0=(i,r);
步驟3Nepi=Nepi?1;
步驟4 對(duì)幕中的每一步循環(huán),n=1,2,...,Nstep:
更新動(dòng)作價(jià)值函數(shù),Q(sn,an)=Q(sn,an)+α[rn+1+γmaxaQ(sn+1,a)?Q(sn,an)];
步驟5 重復(fù)步驟2-步驟4,直到Nepi=0。
本節(jié)利用計(jì)算機(jī)仿真對(duì)上述所提的飛行路線在線優(yōu)化算法進(jìn)行驗(yàn)證,并對(duì)比兩種基準(zhǔn)方案“固定位置”和“貪婪算法”?!肮潭ㄎ恢谩睘闊o人機(jī)懸停在兩個(gè)地面用戶的連線的中點(diǎn),“貪婪算法”的描述為在無人機(jī)每次進(jìn)入通信狀態(tài)(i,r)時(shí),選擇最小單次通信時(shí)延的飛行路線,即通信狀態(tài)的結(jié)束位置qj。
仿真中采用的系統(tǒng)參數(shù)為:地面用戶1和地面用戶2相距800 m,其中地面用戶1的位置坐標(biāo)為(?400 m,0,0),地面用戶2的位置坐標(biāo)(400 m,0,0);兩個(gè)地面用戶的通信請(qǐng)求到達(dá)率λ=1 次/秒,傳輸?shù)男畔⒘縇=2 Mbit,無人機(jī)的飛行高度H=100 m,最大飛行速度Vmax=20 m/s,信道帶寬B=1 MHz,參考距離1 m時(shí)的信噪比γdB=40 dB。將無人機(jī)的可飛行區(qū)域分為2N+1=101個(gè)位置狀態(tài),其他參數(shù):Nepi=120,Nstep=10000,ε=0.1,α=1,γ=0.2。
圖2 等待狀態(tài)時(shí)采取不同動(dòng)作策略的平均通信時(shí)延
在以下的仿真中,無人機(jī)的等待狀態(tài)都采取等待狀態(tài)動(dòng)作策略2。
圖3展示了不同算法下的無人機(jī)平均通信時(shí)延,可以看出相比于“固定位置”,其他3種算法下的平均通信時(shí)延都比較小,其中基于Q-Learning的在線優(yōu)化設(shè)計(jì)算法的平均通信時(shí)延最小。這是因?yàn)椤柏澙匪惴ā敝豢紤]當(dāng)前的回報(bào),沒考慮長(zhǎng)期回報(bào);而蒙特卡羅算法把學(xué)習(xí)推遲到整幕結(jié)束之后,必須等到每一幕的結(jié)束,才能知道確切的回報(bào)值,而Q-Learning算法在每個(gè)動(dòng)作結(jié)束就能夠知道回報(bào)值從而進(jìn)行學(xué)習(xí),本文中的問題是一個(gè)持續(xù)性任務(wù),不適合分幕式任務(wù)的蒙特卡羅算法,更加適合用Q-Learning算法來解決。
圖3 不同算法下的無人機(jī)平均通信時(shí)延
圖4展示在不同的傳輸信息量下,采用不同算法得到的平均通信時(shí)延??梢钥闯龌赒-Learning的在線優(yōu)化設(shè)計(jì)算法的平均通信時(shí)延始終優(yōu)于基于蒙特卡羅算法和“貪婪算法”的在線優(yōu)化設(shè)計(jì)算法。傳輸信息量越大,基于Q-Learning的在線優(yōu)化設(shè)計(jì)算法的時(shí)延性能越好。
圖4 不同傳輸信息量以及不同算法下的無人機(jī)平均通信時(shí)延
圖5展示了基于Q-Learning的在線優(yōu)化設(shè)計(jì)算法和基于蒙特卡羅算法的在線優(yōu)化設(shè)計(jì)算法下的平均通信時(shí)延隨著訓(xùn)練幕數(shù)增大而逐漸收斂,可以看出基于Q-Learning的在線優(yōu)化設(shè)計(jì)算法要比基于蒙特卡羅算法收斂得更快且穩(wěn)定。
圖5 不同算法的收斂程度
圖6和圖7分別展示了基于Q-Learning算法和基于蒙特卡羅算法的在線優(yōu)化設(shè)計(jì)算法下無人機(jī)連續(xù)的10個(gè)狀態(tài)下的飛行路線,其中無人機(jī)的起點(diǎn)是隨機(jī)的,無人機(jī)的狀態(tài)是根據(jù)地面用戶的通信請(qǐng)求變化的,兩個(gè)地面用戶通信請(qǐng)求分別服從均值為1/2的泊松過程。圖6和圖7中的無人機(jī)狀態(tài):0表示無人機(jī)處于等待狀態(tài),1表示接收到地面用戶1的通信請(qǐng)求,2表示接收到地面用戶2的通信請(qǐng)求;時(shí)長(zhǎng)表示無人機(jī)處于當(dāng)前狀態(tài)采取的動(dòng)作所耗費(fèi)的時(shí)間。可以對(duì)比看出基于Q-Learning的在線優(yōu)化設(shè)計(jì)算法的無人機(jī)飛行路線更加集中于兩個(gè)地面用戶的中點(diǎn),說明基于Q-Learning的在線優(yōu)化設(shè)計(jì)算法更加能適應(yīng)隨機(jī)的地面用戶請(qǐng)求,從而得到更小的平均通信時(shí)延。
圖6 基于Q-Learning的在線優(yōu)化設(shè)計(jì)算法下無人機(jī)飛行路線
圖7 基于蒙特卡羅的在線優(yōu)化設(shè)計(jì)算法下無人機(jī)飛行路線
本文針對(duì)無人機(jī)基站通信系統(tǒng),提出了兩種基于強(qiáng)化學(xué)習(xí)的無人機(jī)飛行路線在線優(yōu)化設(shè)計(jì)算法。分別采用了強(qiáng)化學(xué)習(xí)的蒙特卡羅算法和Q-Learning算法來最小化無人機(jī)的平均通信時(shí)延。仿真結(jié)果顯示了與無人機(jī)在固定位置相比,提出的算法具有較好的性能。基于Q-Learning的在線優(yōu)化設(shè)計(jì)算法比基于蒙特卡羅的在線優(yōu)化設(shè)計(jì)算法的訓(xùn)練結(jié)果更快收斂且穩(wěn)定,能夠更好地適應(yīng)隨機(jī)的地面用戶請(qǐng)求從而達(dá)到更小的平均通信時(shí)延。