国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向智能通信的深度強(qiáng)化學(xué)習(xí)方法

2020-04-06 08:47譚俊杰梁應(yīng)敞
關(guān)鍵詞:信道基站文獻(xiàn)

譚俊杰,梁應(yīng)敞

(電子科技大學(xué)通信抗干擾技術(shù)國家級(jí)重點(diǎn)實(shí)驗(yàn)室 成都 611731)

隨著智能手機(jī)等智能終端的普及以及各類應(yīng)用的出現(xiàn),人們對(duì)無線通信的速率、時(shí)延等方面都提出了更高的要求。為了滿足更高的通信需求,越來越多的新技術(shù)被應(yīng)用于無線通信網(wǎng)絡(luò)中,如更高階的編碼調(diào)制方案(modulation and coding scheme)、部署緩存(cache)甚至基于無人機(jī)(unmanned aerial vehicle, UAV)的空中基站等。并進(jìn)一步提出了將各類異構(gòu)的無線網(wǎng)絡(luò)進(jìn)行有機(jī)整合,再按需分配提升網(wǎng)絡(luò)整體彈性[1]。這些技術(shù)提升了無線網(wǎng)絡(luò)的承載極限,但也增加了管理維度。與此同時(shí),步入萬物互聯(lián)的時(shí)代,終端數(shù)量呈現(xiàn)出爆炸式的增長,導(dǎo)致無線網(wǎng)絡(luò)規(guī)模日益龐大。網(wǎng)絡(luò)規(guī)模及管理維度的雙重?cái)U(kuò)增導(dǎo)致復(fù)雜度激增,使得傳統(tǒng)的基于凸優(yōu)化或啟發(fā)式的無線網(wǎng)絡(luò)管理方法失效。

另一方面,近年來人工智能快速發(fā)展,其摒棄了傳統(tǒng)的人工數(shù)學(xué)建模后求解的方法,轉(zhuǎn)而利用數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法直接對(duì)數(shù)據(jù)進(jìn)行分析和處理。其中,深度學(xué)習(xí)(deep learning, DL)[2]和深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)[3]是最重要的兩類機(jī)器學(xué)習(xí)方法。DL 利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)挖掘數(shù)據(jù)中的關(guān)聯(lián)關(guān)系,最終實(shí)現(xiàn)對(duì)未知數(shù)據(jù)的預(yù)測。因此,DL 被廣泛應(yīng)用于計(jì)算機(jī)視覺及自然語言處理等領(lǐng)域。與DL 不同,DRL 屬于機(jī)器學(xué)習(xí)的另一分支,其目的是在復(fù)雜的動(dòng)態(tài)環(huán)境中進(jìn)行最優(yōu)決策。為了實(shí)現(xiàn)這一目標(biāo),DRL 首先記錄下環(huán)境與控制信息,然后利用DNN 對(duì)歷史經(jīng)驗(yàn)進(jìn)行分析并學(xué)習(xí)環(huán)境變化規(guī)律,最終根據(jù)學(xué)習(xí)到的規(guī)律得到最優(yōu)策略。因此,DRL 在自動(dòng)化控制領(lǐng)域得到廣泛應(yīng)用。2016 年,Google 打造出基于DRL 的AlphaGo[4]擊敗了韓國九段棋手李世乭,向世人證明了DRL 的強(qiáng)大實(shí)力。

由于信道時(shí)變等原因,無線通信網(wǎng)絡(luò)的管理是在動(dòng)態(tài)變化的無線環(huán)境中對(duì)網(wǎng)絡(luò)的眾多參數(shù)進(jìn)行優(yōu)化,實(shí)際上就是一個(gè)在動(dòng)態(tài)環(huán)境中的最優(yōu)決策問題,與DRL 的設(shè)計(jì)目標(biāo)相契合。因此,DRL 是智能無線通信的重要賦能者。DRL 強(qiáng)大的學(xué)習(xí)與決策能力可以對(duì)無線通信網(wǎng)絡(luò)進(jìn)行智能管理,使其在復(fù)雜的通信環(huán)境中都能夠精準(zhǔn)地匹配用戶需求,最終提升網(wǎng)絡(luò)的實(shí)際承載能力和用戶通信體驗(yàn)。

本文對(duì)DRL 及其涉及的基礎(chǔ)知識(shí)進(jìn)行介紹,并從無線通信網(wǎng)絡(luò)的資源管理、接入控制以及維護(hù)3 方面剖析DRL 如何實(shí)現(xiàn)智能通信,最后對(duì)目前尚未解決的開放問題進(jìn)行討論,為進(jìn)一步研究提供思路。

1 基礎(chǔ)知識(shí)回顧

在正式介紹DRL 之前,首先對(duì)它所涉及的基礎(chǔ)知識(shí)進(jìn)行回顧。DRL 是一種求解馬爾科夫決策過程(Markov decision process, MDP)問題的智能方法,而其技術(shù)來源于強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)和DL。因此,本章分別介紹MDP、RL 和DL。

1.1 馬爾科夫決策過程

MDP 是一種對(duì)智能體與動(dòng)態(tài)環(huán)境交互過程進(jìn)行數(shù)學(xué)建模的方法[5]。其中,智能體是決策者,又稱為代理。環(huán)境則是除智能體外與之關(guān)聯(lián)和互動(dòng)的其他事物。一般地,智能體需要通過做出各種決策并采取行動(dòng)以實(shí)現(xiàn)自身目標(biāo),但是在采取行動(dòng)的過程中會(huì)對(duì)環(huán)境產(chǎn)生影響,且不同環(huán)境狀態(tài)下智能體得到的結(jié)果可能不同。MDP 的提出正是為了分析智能體和環(huán)境的復(fù)雜交互過程。

MDP 由一系列關(guān)鍵要素構(gòu)成,包括狀態(tài)、動(dòng)作、轉(zhuǎn)移概率、獎(jiǎng)賞和策略。

狀態(tài):狀態(tài)是對(duì)智能體對(duì)所處環(huán)境的描述。環(huán)境的變化可以由狀態(tài)的變化來表示。狀態(tài)一般表示為s 。所有可能的狀態(tài)則構(gòu)成了狀態(tài)空間S。

動(dòng)作:智能體所做出的決策或所采取的行動(dòng)稱之為動(dòng)作。動(dòng)作一般表示為a。智能體可以采取的所有動(dòng)作構(gòu)成了動(dòng)作空間A。

轉(zhuǎn)移概率:智能體采取的動(dòng)作可能導(dǎo)致環(huán)境發(fā)生變化,進(jìn)而使智能體所觀察到的環(huán)境狀態(tài)發(fā)生改變。狀態(tài)間的轉(zhuǎn)移所服從的概率即為轉(zhuǎn)移概率。若智能體在狀態(tài)為 s 時(shí)采取動(dòng)作 a使 得狀態(tài)變?yōu)?s′,轉(zhuǎn)移概率可以表示為 Pa(s,s′)。

獎(jiǎng)賞:智能體采取的每一個(gè)動(dòng)作都會(huì)使它接近或遠(yuǎn)離所設(shè)定的目標(biāo)。為了衡量所采取動(dòng)作的效果,智能體可從環(huán)境中觀察得到獎(jiǎng)賞值。特別的,智能體在狀態(tài)為 s 時(shí)采取動(dòng)作 a使 得狀態(tài)變?yōu)?s′獲得的獎(jiǎng)賞值記為 ra( s,s′)。

策略:智能體的決策規(guī)則稱為策略,記為π。其中, π(a |s)表 示當(dāng)狀態(tài)為 s 時(shí)選取動(dòng)作a 的概率。

MDP 的目標(biāo)為通過優(yōu)化智能體的策略π 來最大化時(shí)間跨度 T內(nèi)的期望累積獎(jiǎng)賞

式中,γ是折扣因子,其取值范圍是 [0,1]。 γ控制未來獎(jiǎng)賞對(duì)智能體在做當(dāng)前決策時(shí)的重要性。極端情況下, γ= 0表示智能體僅最大化當(dāng)前時(shí)刻的獎(jiǎng)賞,而 γ=1則表示智能體的目標(biāo)是最大化未來所有時(shí)刻得到的獎(jiǎng)賞。此外,若 T為有限值,則表示該MDP為有限時(shí)間跨度MDP,即該MDP 會(huì)因達(dá)到終止態(tài)停止運(yùn)行或運(yùn)行到某一時(shí)刻后停止運(yùn)行。相應(yīng)的,T=∞表示該MDP 為無限時(shí)間跨度MDP。MDP 的運(yùn)行過程如圖1 所示。

當(dāng)MDP 中除策略外的其他要素均已知時(shí),可以通過動(dòng)態(tài)規(guī)劃(dynamic programming, DP)來求解MDP 以獲得最大化R 的 最優(yōu)策略 π?。典型的方法有策略迭代和值迭代。

1.1.1 策略迭代

對(duì)于給定策略 π,由貝爾曼方程(Bellman’s Equation)[5]可得:

利用式(1)對(duì)所有狀態(tài) s ∈S不斷迭代,收斂得到的 Vπ( s)表 示智能體在策略 π下 ,從狀態(tài) s出發(fā)可得到的期望累積獎(jiǎng)賞。對(duì) Vπ(s),s ∈S迭代的過程稱為策略評(píng)估。

在對(duì)策略 π進(jìn)行策略評(píng)估后,可以根據(jù)得到的Vπ(s)對(duì)策略進(jìn)行改進(jìn)?;谪澙返姆椒?,可以得到改進(jìn)后的策略 π′:

文獻(xiàn)[5]證明通過不斷重復(fù)地進(jìn)行策略評(píng)估和策略迭代,最終得到的策略會(huì)收斂到最大化 R的最優(yōu)策略 π?,該方法稱為策略迭代。

1.1.2 值迭代

在策略迭代中,策略評(píng)估需要利用式(1)重復(fù)迭代直至收斂,而每一次策略改進(jìn)都需要先進(jìn)行策略評(píng)估。因此,策略迭代的計(jì)算復(fù)雜度較高。為了解決這一問題,值迭代將策略改進(jìn)融合進(jìn)策略評(píng)估中,將式(1)改寫為:

利用式(3)對(duì)所有狀態(tài) s ∈S迭代直至收斂后,最優(yōu)策略 π?可以通過下式得到

以上介紹的兩種基于DP 的方法都能有效地求解MDP 并獲得最優(yōu)策略。然而,它們都需要知道轉(zhuǎn)移概率。對(duì)于無線通信系統(tǒng),其系統(tǒng)狀態(tài)變化受信道變化、用戶行為等眾多隨機(jī)因素共同影響。這些隨機(jī)變量的概率分布難以準(zhǔn)確獲得。因此,將無線通信網(wǎng)絡(luò)中的問題建模成MDP,其轉(zhuǎn)移概率通常難以獲得。為了解決轉(zhuǎn)移概率缺失的問題,強(qiáng)化學(xué)習(xí)應(yīng)運(yùn)而生。

1.2 強(qiáng)化學(xué)習(xí)

與需要提前知道轉(zhuǎn)移概率的DP 不同,RL 是通過試錯(cuò)(trial-and-error)來學(xué)習(xí)環(huán)境中存在的規(guī)律,進(jìn)而求解MDP[5]。因此,RL 可在不需要知道轉(zhuǎn)移概率的情況下求解MDP。目前廣泛采用的RL方法可以分為基于值的方法和基于策略的方法。

1.2.1 基于值的方法

式(1)可分解為:

其中,

Qπ(s,a)表 示智能體在策略 π下 ,在狀態(tài) s采取動(dòng)作 a可得到的期望累積獎(jiǎng)賞,稱為狀態(tài)-動(dòng)作對(duì)?s,a?的 Q 值。當(dāng)策略 π為最優(yōu)策略時(shí),對(duì)于任意的狀態(tài) s ∈S 和 a ∈ A, 相應(yīng)的Q 值 Q?(s,a)是在所有策略下獲得的最大Q 值。相反,若已知最大Q 值Q?(s,a), 那么可以根據(jù)下式得到最優(yōu)策略π?

根據(jù)這一性質(zhì),Q 學(xué)習(xí)利用智能體實(shí)際得到的Q 值樣本與預(yù)測Q 值之間的差值(又稱時(shí)間差分temporal difference)來迭代地更新Q 值,最終逼近 Q?(s,a)并 得到最優(yōu)策略 π?。具體的迭代公式為

式中,α是控制Q 值更新速度的學(xué)習(xí)速率。Q 學(xué)習(xí)的算法偽代碼如下。

算法1 Q 學(xué)習(xí)算法

輸入:S,A,α,γ

建立表格儲(chǔ) 存 Q( s,a),?s ∈S,a ∈A,并將 所有Q 值初始化為0

for t=1 : T

觀察環(huán)境得到狀態(tài)s ,根據(jù) ε貪婪規(guī)則選擇動(dòng)作a

采取動(dòng)作a,并觀察得到新狀態(tài) s′和 獎(jiǎng)賞ra(s,s′)

根據(jù)式(8)更新Q(s,a),?s ∈S,a ∈A

令s=s′

end for

算法1 中的 ε貪婪規(guī)則是指,智能體以ε 的概率選取隨機(jī)動(dòng)作,并以1 ?ε的概率選取Q 值最大的動(dòng)作,即 arg maxaQ(s,a)。前者令智能體探索未知的動(dòng)作,從而學(xué)習(xí)到潛在的更好的策略,而后者則令智能體充分利用已知的知識(shí)來做出最優(yōu)決策。通過改變 ε的大小可以調(diào)整兩方面的作用,使得智能體在學(xué)習(xí)速度和決策的最優(yōu)性中取得平衡。

以上介紹的Q 學(xué)習(xí)是一種典型的基于值的RL方法。實(shí)際上,基于值的RL 方法還有SARSA、雙Q 學(xué)習(xí)等,這些方法都是通過對(duì)Q 值進(jìn)行估計(jì)并利用Q 值得到最優(yōu)策略。然而,因?yàn)榛谥档姆椒ㄐ枰獮樗袪顟B(tài)-動(dòng)作對(duì)建立表格儲(chǔ)存其Q 值,所以當(dāng)MDP 的動(dòng)作或狀態(tài)空間很大(或?yàn)檫B續(xù)空間)會(huì)產(chǎn)生維度爆炸的問題。為了解決這一問題,人們提出了基于策略的RL 方法。

1.2.2 基于策略的方法

在基于策略的RL 方法中,動(dòng)作的選取不再需要對(duì)Q 值進(jìn)行評(píng)估。取而代之的是直接對(duì)策略進(jìn)行優(yōu)化。為了實(shí)現(xiàn)這一目標(biāo),首先需要將策略參數(shù)化,即用一個(gè)由參數(shù) θ確定的函數(shù)來表示策略π。那么,在狀態(tài) s 采取動(dòng)作a 的 概率可以寫為 π(a |s,θ)。如果策略的性能可以由一個(gè)標(biāo)量 J(θ)來量度,那么為了性能最大化,θ應(yīng)該以關(guān)于 J(θ)梯度上升的方向更新,即

下面介紹策略梯度法中的一種典型算法——蒙特卡洛策略梯度法,又稱為REINFORCE 算法。若定義 J(θ)為 由 θ確 定策略 π下 從某一狀態(tài) s0出發(fā)所得到的期望累積獎(jiǎng)賞,即 Vπθ(s0),文獻(xiàn)[5]可以證明關(guān)于θ 的 梯度 ?J (θ)為

算法2 REINFORCE 算法

初始化θ

for episode=1 : imax

for t=1 : T

觀察狀態(tài) st,根據(jù)選 取動(dòng)作at,并觀察得到新狀態(tài) st+1和 獎(jiǎng)賞rat(st,st+1)

end for

for t=1 : T

end for

end for

在算法2 中,策略是以回合(episode)為單位進(jìn)行更新的。在一個(gè)回合中,智能體需要用同一策略產(chǎn)生共 T個(gè)時(shí)刻的一組動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)。然后利用這些信息對(duì) θ和策略進(jìn)行更新。這導(dǎo)致策略梯度法有兩個(gè)缺點(diǎn):1)策略梯度法只適用于有限時(shí)間跨度的回合制MDP,然而在實(shí)際無線通信網(wǎng)絡(luò)中,系統(tǒng)的運(yùn)行可能是無限時(shí)間跨度的;2)策略的更新以回合制為單位,使得策略更新速度慢、不同回合下得到的決策方差較大,即穩(wěn)定性較差。以上兩點(diǎn)使策略梯度法不便于在線部署。

綜上,雖然基于策略的方法解決了基于值的方法的維度爆炸問題,但同時(shí)也帶來了新的問題。因此,人們嘗試通過將DL 與RL 結(jié)合來解決這些問題。

1.3 深度學(xué)習(xí)

DL 是一種利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)來表征數(shù)據(jù)的關(guān)系,并最終實(shí)現(xiàn)擬合或分類功能的算法。因此,DNN 是DL 的關(guān)鍵。

圖2 為DNN 的一個(gè)典型結(jié)構(gòu)。如圖所示,DNN的基本組成單元是相互連接的神經(jīng)元。DNN 中的神經(jīng)元排列具有層次結(jié)構(gòu),通常包含一個(gè)輸入層、一個(gè)輸出層和數(shù)個(gè)隱層。神經(jīng)元間的連接強(qiáng)弱關(guān)系由權(quán)值決定,權(quán)值由圖2 中神經(jīng)元間連線表示。圖3 示出了神經(jīng)元間的信息傳遞過程。其中,每個(gè)神經(jīng)元將與之連接的上一層神經(jīng)元的輸出值乘以相應(yīng)的權(quán)值并求和,再通過一個(gè)激活函數(shù)將信息傳遞到下一層連接的神經(jīng)元。激活函數(shù)一般有“sigmoid”[6]“ReLU”[7]“tanh”等。根據(jù)DNN的信息傳遞規(guī)則,輸入數(shù)據(jù)被各層神經(jīng)元逐層加工最終得到輸出結(jié)果,這個(gè)過程稱為正向傳播。通過對(duì)比神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測值和真實(shí)訓(xùn)練數(shù)據(jù),DNN 可以調(diào)整神經(jīng)網(wǎng)絡(luò)間的權(quán)值以提高預(yù)測的準(zhǔn)確度,這個(gè)過程稱為誤差反向傳播。訓(xùn)練后的DNN 可以表征數(shù)據(jù)間的關(guān)系,進(jìn)而能對(duì)未知輸入數(shù)據(jù)做出準(zhǔn)確的預(yù)測。

然而,并不是所有的DNN 都能有效地挖掘數(shù)據(jù)間中存在的關(guān)聯(lián)關(guān)系并對(duì)未知輸入做出準(zhǔn)確預(yù)測。實(shí)際上,神經(jīng)元的連接方式,即DNN 的結(jié)構(gòu),是影響DNN 性能的關(guān)鍵因素。神經(jīng)元的連接方式通常有全連接、卷積連接、池化連接和循環(huán)連接等。相應(yīng)的,以上幾種連接方式構(gòu)成了DNN 中的全連接層(fully-connected layer)、卷積層(convolutional layer)[8]、池化層(pooling layer)[8]和循環(huán)層(recurrent layer)[9]。在實(shí)際應(yīng)用中,DNN 的結(jié)構(gòu)是由數(shù)據(jù)自身的特征來決定的。下面將對(duì)這幾種構(gòu)成DNN 的常見層結(jié)構(gòu)進(jìn)行介紹。

全連接層:全連接是DNN 中神經(jīng)元最簡單的連接方式。如圖4 所示,全連接層中的神經(jīng)元與相鄰層的所有神經(jīng)元均相連。因?yàn)槿B接層的本質(zhì)是特征空間的線性變換,所以它對(duì)數(shù)據(jù)的特征沒有特別的要求。

卷積層:全連接層因所有神經(jīng)元的相連而導(dǎo)致權(quán)值過于冗余。因此,全連接層在處理某些局部特征相似的數(shù)據(jù)(如圖5)時(shí)訓(xùn)練速度和準(zhǔn)確率較差。卷積層的提出就是為了處理局部特征相似的數(shù)據(jù)。卷積層由神經(jīng)元排列構(gòu)成多個(gè)卷積核。其中,卷積核中每個(gè)神經(jīng)元與上一層神經(jīng)元相連時(shí)共享權(quán)值。通過權(quán)值共享,卷積層可以從輸入信息中匹配與卷積核特征相同的部分,實(shí)現(xiàn)局部特征提取。

池化層:池化層一般與卷積層一起出現(xiàn)于處理圖像數(shù)據(jù)的DNN。在進(jìn)行某些任務(wù)時(shí),如圖5 分類等,圖5 中特征出現(xiàn)的具體位置不影響結(jié)果。因此,池化層被用于對(duì)卷積層輸出結(jié)果的合并,標(biāo)記出數(shù)據(jù)中存在的哪類特征更明顯。

循環(huán)層:當(dāng)數(shù)據(jù)在時(shí)域有序列相關(guān)性時(shí),循環(huán)層可以捕捉和利用這種相關(guān)性。如圖6 所示,輸入到循環(huán)層的信息當(dāng)處理完后會(huì)重新輸入到網(wǎng)絡(luò)中,以使得歷史信息和當(dāng)前信息一起被處理。在實(shí)際應(yīng)用中,循環(huán)層的其他變體也得到廣泛應(yīng)用,如長短時(shí)記憶(long short-term memory, LSTM)層[10]等。

2 深度強(qiáng)化學(xué)習(xí)概述

DRL 的基本思想就是將DL 中的DNN 與RL相結(jié)合,以解決RL 中存在的維度爆炸、學(xué)習(xí)速度慢等問題。同樣的,DRL 也可以通過基于值的方法和基于策略的方法來實(shí)現(xiàn)。

2.1 基于值的DRL 方法

基于值的RL 方法存在的主要問題是需要建立表格來儲(chǔ)存Q 值,而當(dāng)動(dòng)作或狀態(tài)空間很大時(shí)會(huì)產(chǎn)生維度爆炸的問題。這導(dǎo)致它們無法應(yīng)用或收斂速度極慢。

為了解決這一問題,人們提出用DNN 來擬合存儲(chǔ)Q 值的表格。因此,這類DNN 被稱為深度Q 網(wǎng) 絡(luò)(deep Q-network, DQN)。若 θ表 示DNN 的參 數(shù),則 Q( s,a;θ)表 示 狀 態(tài)-動(dòng) 作 對(duì) ?s, a?的Q 值。當(dāng)DQN 的參數(shù) θ為最優(yōu)參數(shù) θ?時(shí),相應(yīng)的是Q 值是最大的Q 值,并且最優(yōu)策略 π?可以由下式確定

式中,

參數(shù)θ 的更新應(yīng)最小化損失函數(shù),即:

梯度下降法可用于式(14)中對(duì)參數(shù) θ的更新。

然而,利用式(12)~式(14)訓(xùn)練DQN 存在兩個(gè)問題。首先,智能體得到的每個(gè)經(jīng)驗(yàn)僅能用于更新一次參數(shù)θ,這導(dǎo)致數(shù)據(jù)的利用率低下。其次,利用正在訓(xùn)練的DQN 來計(jì)算目標(biāo)值,即式(13),會(huì)導(dǎo)致目標(biāo)值隨著每一次 θ的更新而改變。而事實(shí)上,目標(biāo)值是對(duì)真實(shí)Q 值的估計(jì)值,不應(yīng)該與 θ高度相關(guān)?;谝陨纤枷?,文獻(xiàn)[11]提出經(jīng)驗(yàn)回放和擬靜態(tài)目標(biāo)網(wǎng)絡(luò)(quasi-static target network)來提高DQN 的訓(xùn)練速度、準(zhǔn)確度和穩(wěn)定性。

在經(jīng)驗(yàn)回放中,智能體將所有經(jīng)驗(yàn)放入一個(gè)大小為 M 的經(jīng)驗(yàn)池 M 中,然后在每次更新參數(shù) θ時(shí)從M抽 取 B 個(gè)經(jīng)驗(yàn)組成經(jīng)驗(yàn)集合 B來做批量梯度下降。經(jīng)驗(yàn)池 M是一個(gè)先入先出(first input first output,FIFO)的隊(duì)列,若放入的經(jīng)驗(yàn)大于 M,則將最先放入的經(jīng)驗(yàn)丟棄。在擬靜態(tài)目標(biāo)網(wǎng)絡(luò)中,智能體建立兩個(gè)DQN,一個(gè)用于訓(xùn)練(稱為訓(xùn)練DQN),另一個(gè)用于計(jì)算目標(biāo)值(稱為目標(biāo)DQN)。目標(biāo)DQN 和訓(xùn)練DQN 每隔時(shí)間間隔 K同步一次。結(jié)合這兩個(gè)技術(shù),θ的更新公式可以寫為:

式中,

結(jié)合集合經(jīng)驗(yàn)回放和擬靜態(tài)目標(biāo)網(wǎng)絡(luò)的完整算法流程如算法3 所示,稱為深度Q 學(xué)習(xí)(deep Qlearning)算法。該算法是目前公認(rèn)基于DQN 的標(biāo)準(zhǔn)DRL 算法,其最初由DeepMind 團(tuán)隊(duì)在2015 年提出并證明了其在Atari 游戲上可以達(dá)到或超過人類操作的水平[11]。由于Atari 游戲提供的信息游戲屏幕顯示的圖像數(shù)據(jù),為了處理圖像數(shù)據(jù),DeepMind團(tuán)隊(duì)在應(yīng)用深度Q 學(xué)習(xí)算法時(shí)特別設(shè)計(jì)了一個(gè)包含卷積層、池化層和全連接層的DNN 作為DQN。因此,DQN 的結(jié)構(gòu)應(yīng)當(dāng)與需要處理的數(shù)據(jù)相匹配。算法3 深度Q 學(xué)習(xí)算法

輸入: γ,B,M,K

初始化訓(xùn)練DQN 參數(shù) θ和目標(biāo)DQN 參數(shù) θ′,令 θ′=θ ;建立一個(gè)大小為 M的先入先出隊(duì)列作為經(jīng)驗(yàn)池M

for t=1 : T

觀察環(huán)境得到狀態(tài)s ,根據(jù)ε 貪 婪規(guī)則選擇動(dòng)作a

采取動(dòng)作a,并觀察得到新狀態(tài) s′和 獎(jiǎng)賞ra(s,s′)

將得到的經(jīng)驗(yàn)s ,a, ra( s,s′)和 s′組 合成經(jīng)驗(yàn)et,并將 et放入經(jīng)驗(yàn)池M

從經(jīng)驗(yàn)池中選取 B個(gè)經(jīng)驗(yàn)形成經(jīng)驗(yàn)集合 Bt,根據(jù)式(15)和式(16)更新θ

若 t m od K==0, 則令θ′=θ

end for

除算法3 所示的深度Q 學(xué)習(xí)算法外,目前也有一些針對(duì)該算法的改進(jìn),以獲得性能提升。下面簡要介紹兩種得到廣泛應(yīng)用的改進(jìn)算法,包括雙深度Q 學(xué)習(xí)(double deep Q-learning)算法[12]和競爭深度Q 學(xué)習(xí)(dueling deep Q-learning)算法[13]。

雙深度Q 學(xué)習(xí):在深度Q 學(xué)習(xí)中,目標(biāo)值的估計(jì)是取估計(jì)的Q 值的最大值,而動(dòng)作的選取也是取令Q 值最大的動(dòng)作。因此,這會(huì)導(dǎo)致Q 值的估計(jì)過于樂觀,并且該誤差會(huì)隨著時(shí)間推移往后傳遞。為了解決這一問題,文獻(xiàn)[12]提出采用兩個(gè)DQN 輪流且獨(dú)立地負(fù)責(zé)動(dòng)作選取和Q 值估計(jì)。相應(yīng)的DRL 算法稱為雙深度Q 學(xué)習(xí)算法。

競爭深度Q 學(xué)習(xí):上面所述兩種深度Q 學(xué)習(xí)方法都是對(duì)Q 值進(jìn)行估計(jì),也就是對(duì)動(dòng)作-狀態(tài)對(duì)進(jìn)行評(píng)估。因此,當(dāng)動(dòng)作數(shù)比較多時(shí),用于估計(jì)Q 值的所需的樣本數(shù)較多,導(dǎo)致訓(xùn)練時(shí)間長、決策準(zhǔn)確度低等問題。事實(shí)上,在某些狀態(tài)下,無論動(dòng)作如何選取,導(dǎo)致的結(jié)果可能是相近的,無需對(duì)各個(gè)動(dòng)作都進(jìn)行準(zhǔn)確的估計(jì)。如當(dāng)無線信道較差時(shí),無論發(fā)送端選取多大功率,接收端的信干噪比(signal to interference plus noise ratio, SINR)都達(dá)不到最低閾值。針對(duì)這種情況,文獻(xiàn)[13]提出競爭深度Q 學(xué)習(xí)。其基本思想是采用兩個(gè)DQN 分別對(duì)狀態(tài)的價(jià)值和在給定狀態(tài)下各個(gè)動(dòng)作的價(jià)值優(yōu)勢(shì)進(jìn)行評(píng)估。該文獻(xiàn)結(jié)果顯示,在動(dòng)作空間較大的復(fù)雜問題中,競爭深度Q 學(xué)習(xí)顯示出明顯的性能優(yōu)勢(shì)。

以上基于值的DRL 方法通過將DNN 用于擬合Q 值來解決維度爆炸問題,且允許狀態(tài)空間為無限大。然而,這些方法在動(dòng)作選取時(shí)需要在整個(gè)動(dòng)作空間下遍歷對(duì)應(yīng)的Q 值,導(dǎo)致它們只適用于有限大小的動(dòng)作空間,即離散動(dòng)作空間。針對(duì)連續(xù)動(dòng)作空間的MDP,需要基于行動(dòng)評(píng)論家的DRL 方法來求解。

2.2 基于行動(dòng)評(píng)論家的DRL 方法

雖然基于策略的RL 方法通過將策略參數(shù)化來實(shí)現(xiàn)連續(xù)動(dòng)作的選取,但是也帶來了數(shù)據(jù)利用率低、決策穩(wěn)定性差等問題。與此同時(shí),基于值的方法可以利用每一步得到的經(jīng)驗(yàn)對(duì)策略進(jìn)行逐步更新,且其依據(jù)Q 值進(jìn)行高穩(wěn)定性的決策。于是,人們提出了深度確定性策略梯度(deep deterministic policy gradient, DDPG)來將二者結(jié)合[14]。其基本思想是采用兩個(gè)DNN 分別作為動(dòng)作家(actor)和評(píng)論家(critic)。評(píng)論家相當(dāng)于基于值的方法中的Q 值評(píng)估,即擬合和估計(jì)Q 值,而動(dòng)作家相當(dāng)于基于策略方法中的策略參數(shù)化,用于找出Q 值與最優(yōu)動(dòng)作之間的映射關(guān)系。換言之,在DDPG 中,動(dòng)作選取不再是選擇當(dāng)前狀態(tài)下Q 值最大的動(dòng)作,而是讓動(dòng)作家參考評(píng)論家評(píng)估的Q 值來直接選取。

這一類包含動(dòng)作家和評(píng)論家的DRL 方法統(tǒng)稱為基于動(dòng)作評(píng)論家(actor-critic, AC)的DRL 方法。這類方法的其他代表算法有異步優(yōu)勢(shì)動(dòng)作評(píng)價(jià)(asynchronous advantage actor-critic, A3C)[15]、信賴域策略優(yōu)化(trust region policy optimization, TRPO)[16]、近端策略優(yōu)化(proximal policy optimization, PPO)[17]等。

3 智能資源管理

可靠高速的無線通信網(wǎng)絡(luò)依賴于各類資源的動(dòng)態(tài)協(xié)調(diào)與配置。當(dāng)前,為了滿足不同的通信需求,人們大量部署了蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)絡(luò)、個(gè)人短距離通信網(wǎng)絡(luò)等。這些網(wǎng)絡(luò)采用了不同的無線電接入技術(shù)(radio access technology, RAT),其結(jié)構(gòu)各異且擁有互不共享的獨(dú)占資源,導(dǎo)致資源整體利用率低。此外,這些異構(gòu)網(wǎng)絡(luò)提供的服務(wù)單一,難以響應(yīng)用戶多樣化的通信需求。為了高效地滿足未來多元化的通信需求,異構(gòu)網(wǎng)絡(luò)間的資源需要高度整合并根據(jù)用戶需求精準(zhǔn)匹配。

然而,無線環(huán)境動(dòng)態(tài)變化,信道或用戶需求隨時(shí)間隨機(jī)變化。此外,相關(guān)的資源分配問題一般都是復(fù)雜的非凸問題。這些問題都為無線網(wǎng)絡(luò)中的資源管理增加了難度。鑒于DRL 是解決動(dòng)態(tài)環(huán)境中決策問題的有效方法,人們嘗試將其用于管理無線通信中的各類資源,包括頻譜資源、功率資源以及網(wǎng)絡(luò)資源等。

3.1 頻譜資源管理

頻譜資源是無線通信中最寶貴的稀缺資源。為了在有限的頻譜上滿足人們對(duì)高速率通信的需求,無線網(wǎng)絡(luò)需要更彈性的頻譜資源管理。根據(jù)頻譜采用時(shí)分復(fù)用或頻分復(fù)用的方式,頻譜資源的管理也可分為時(shí)域或頻域上的管理。

對(duì)于異構(gòu)網(wǎng)絡(luò)采用時(shí)分的方式共享同一頻譜,如何為不同網(wǎng)絡(luò)進(jìn)行合理的時(shí)間分配是頻譜資源管理的關(guān)鍵問題。理想情況下,各網(wǎng)絡(luò)應(yīng)當(dāng)依據(jù)其網(wǎng)絡(luò)的用戶流量需求對(duì)頻譜進(jìn)行彈性接入,也就是說,用戶需求較大的網(wǎng)絡(luò)可以占用更長時(shí)間的頻譜進(jìn)行傳輸。然而,異構(gòu)網(wǎng)絡(luò)間有一定的獨(dú)立性,難以迅速交互信令信息來相互協(xié)調(diào)。針對(duì)這一問題,文獻(xiàn)[18]研究了長期演進(jìn)(long term evolution, LTE)蜂窩系統(tǒng)與無線局域網(wǎng)(WiFi)在缺少信令交互情況下的頻譜共享問題。其中,LTE 系統(tǒng)通過調(diào)整虛擬幀中LTE 的傳輸時(shí)間和WiFi 的傳輸時(shí)間來調(diào)節(jié)兩個(gè)網(wǎng)絡(luò)的頻譜資源。LTE 系統(tǒng)的目標(biāo)是在滿足WiFi 網(wǎng)絡(luò)流量需求的情況下最大化LTE 傳輸時(shí)間,以最大頻譜的利用率。傳統(tǒng)的方法需要LTE系統(tǒng)從WiFi 網(wǎng)絡(luò)中獲取其具體的流量信息后做出相應(yīng)的優(yōu)化。為了避免異構(gòu)網(wǎng)絡(luò)間難以實(shí)現(xiàn)的直接信息交互,文獻(xiàn)[18]發(fā)現(xiàn)頻譜信息中實(shí)際上蘊(yùn)含了關(guān)于WiFi 網(wǎng)絡(luò)的流量需求等信息,因而提出利用DRL 來根據(jù)頻譜信息直接對(duì)傳輸時(shí)間進(jìn)行優(yōu)化。該文獻(xiàn)創(chuàng)造性的利用頻譜信息中一個(gè)幀的最長空閑時(shí)間來作為WiFi 網(wǎng)絡(luò)是否得到充分保護(hù)的指標(biāo)。當(dāng)該指標(biāo)低于閾值時(shí),說明WiFi 網(wǎng)絡(luò)的流量需求沒有獲得充分滿足,相應(yīng)的DRL 獎(jiǎng)賞值設(shè)為0,否則獎(jiǎng)賞值為LTE 系統(tǒng)的吞吐量。DRL 的動(dòng)作就是LTE 的傳輸時(shí)間,其動(dòng)作空間是將虛擬幀長離散化后的向量。DRL 的狀態(tài)則設(shè)計(jì)為LTE 系統(tǒng)能觀察頻譜獲得的頻譜信息,包括一個(gè)幀中的最長空閑時(shí)間、總空閑時(shí)間、總繁忙時(shí)間、歷史動(dòng)作和歷史獎(jiǎng)賞。最后該文獻(xiàn)提出了一個(gè)基于DQN 的DRL 算法來求解該問題。由于狀態(tài)中的信息不包含圖像或序列信息,其設(shè)計(jì)的DQN 采用了一個(gè)包含三層全連接層作為隱層的DNN。除文獻(xiàn)[18]外,文獻(xiàn)[19-21]也提出了基于DRL 的頻譜時(shí)分接入方案。

除時(shí)分復(fù)用外,頻分復(fù)用是另一種復(fù)用方式。在這種方式下,頻譜被劃分成多個(gè)正交信道,進(jìn)而通過為網(wǎng)絡(luò)或用戶分配信道來實(shí)現(xiàn)頻譜資源管理。文獻(xiàn)[22]研究了多用戶的信道分配問題。在多信道多用戶場景下,多個(gè)用戶同時(shí)使用一個(gè)信道進(jìn)行傳輸會(huì)導(dǎo)致數(shù)據(jù)包的碰撞,進(jìn)而發(fā)送失敗。因此,需要合理地為各個(gè)用戶匹配所使用的信道,以提高成功傳輸?shù)母怕?。該文獻(xiàn)提出利用DRL 使用戶分布式地協(xié)調(diào)信道接入策略。每個(gè)用戶將其在過去多個(gè)時(shí)刻的包發(fā)送歷史(即包成功發(fā)送與否)作為DRL 的狀態(tài)。動(dòng)作空間即選擇發(fā)送的信道或不發(fā)送。若當(dāng)前時(shí)刻的包成功發(fā)送,則獎(jiǎng)賞設(shè)置為1,否則為0。由于狀態(tài)中包含多個(gè)時(shí)刻的信息,作者在設(shè)計(jì)DQN 時(shí)采用了LSTM 層來捕捉數(shù)據(jù)中的時(shí)間相關(guān)性。此外,為了提高學(xué)習(xí)性能,文獻(xiàn)[22]將競爭深度Q 學(xué)習(xí)和雙深度Q 學(xué)習(xí)結(jié)合,采用了競爭-雙深度Q 學(xué)習(xí)。仿真結(jié)果表明,在沒有信令交互情況下,用戶總能獨(dú)立地學(xué)習(xí)到一組互相避讓的信道選擇方式,提高了信道利用率和用戶成功發(fā)送概率。

此外,用戶也可以通過智能的信道選擇來規(guī)避比規(guī)避干擾。再復(fù)雜的通信環(huán)境中,用戶可能會(huì)受到惡意(如干擾器)或非惡意(如電磁泄漏)的干擾,降低了用戶的通信速率和使用體驗(yàn)。文獻(xiàn)[23]提出了一種基于DRL 的智能干擾規(guī)避方案。其利用頻譜瀑布圖中包含的干擾圖案來預(yù)測干擾情況,進(jìn)而預(yù)測并選擇未受干擾的信道進(jìn)行傳輸。作者將用戶觀測頻譜得到的瀑布圖作為狀態(tài),并設(shè)計(jì)動(dòng)作空間為所有可用的信道。若用戶當(dāng)前時(shí)刻接收到的SINR 大于閾值,則認(rèn)為用戶在該時(shí)刻成功發(fā)送,則設(shè)回報(bào)值為常數(shù) C1,否則為0。同時(shí),由于切換信道會(huì)帶來額外的開銷。因此,若用戶相鄰時(shí)刻更換了信道,則設(shè)開銷值為常數(shù) C2,否則為0。最終,DRL 的獎(jiǎng)賞設(shè)計(jì)為用戶得到的回報(bào)值與開銷值相減。由于DRL 的狀態(tài)是圖像信息,文獻(xiàn)[23]采用了遞歸卷積層(recursive convolutional layer)來設(shè)計(jì)DQN。其中,遞歸卷積層是作者針對(duì)頻譜瀑布圖中的遞歸特性對(duì)卷積層進(jìn)行的改進(jìn),目的是降低計(jì)算復(fù)雜度和提高算法的運(yùn)算速度。

3.2 功率資源管理

上一小節(jié)所介紹的頻譜資源管理考慮對(duì)頻譜正交使用,即用戶或網(wǎng)絡(luò)在同一時(shí)頻點(diǎn)上不重疊。雖然正交使用頻譜可以避免相互干擾,但頻譜效率難以進(jìn)一步提升。為最大化網(wǎng)絡(luò)容量,應(yīng)當(dāng)考慮頻譜的非正交接入,這就帶來了干擾問題。通過功率資源分配可以進(jìn)行精確的干擾管理,以獲得空間復(fù)用增益。例如,當(dāng)某些用戶對(duì)其他用戶的干擾信道較弱時(shí),它們可以以較大功率進(jìn)行傳輸,從而在相互干擾較小時(shí)獲得較高的傳輸速率。

文獻(xiàn)[24]考慮了一個(gè)認(rèn)知無線電(cognitive radio,CR)中的功率控制問題。其中,次用戶(secondary user)通過占用主用戶(primary user)的頻譜來進(jìn)行通信,提高頻譜利用率。然而,主用戶是該頻譜的合法使用者,其通信質(zhì)量不應(yīng)受次用戶的損害。為了使主次用戶的服務(wù)質(zhì)量(quality-of-service,QoS)都得到滿足,作者提出了一個(gè)基于DRL 的功率控制方案。在此方案中,次用戶部署多個(gè)傳感器在主用戶周圍,以感知主用戶附近的接收功率。由于傳感器得到的接收功率包含了信道、主次用戶的發(fā)送功率等信息,通過讓DRL 分析傳感器的數(shù)據(jù)可以學(xué)習(xí)到信道的變化與主用戶的發(fā)送策略,進(jìn)而調(diào)整次用戶的發(fā)送功率來讓主次用戶的QoS 都得到滿足。DRL 的狀態(tài)設(shè)計(jì)為所有傳感器獲得的接收功率。此外,DRL 的動(dòng)作空間由將最大發(fā)送功率離散化后的所有可選功率構(gòu)成。當(dāng)次用戶選擇功率進(jìn)行發(fā)送后,若主次用戶的QoS 都得到滿足,則DRL 的獎(jiǎng)賞設(shè)置為1,否則為0。最后,深度Q 學(xué)習(xí)算法被用于實(shí)現(xiàn)DRL,其中,一個(gè)包含三層全連接層的DNN 被用作DQN。

文獻(xiàn)[24]針對(duì)的是單用戶的功率控制問題,無法應(yīng)用于多用戶的場景。為此,文獻(xiàn)[25]考慮蜂窩網(wǎng)絡(luò)的多用戶功率資源分配問題,其目標(biāo)是最大化整個(gè)網(wǎng)絡(luò)的加權(quán)總速率(weighted sum-rate,WSR)。由于用戶互相干擾,WSR 最大化的問題是NP-hard 問題,難以用優(yōu)化方法求得全局最優(yōu)解。除此之外,用戶間的信道狀態(tài)時(shí)變且信道信息數(shù)據(jù)龐大,無法實(shí)時(shí)上傳到一個(gè)中央處理單元進(jìn)行運(yùn)算。該文獻(xiàn)利用DRL 解決了這兩個(gè)問題。首先,每個(gè)用戶的獎(jiǎng)賞值被設(shè)計(jì)為該用戶自身速率與對(duì)其他用戶造成的速率損失的差值,這樣就將WSR 最大化問題分解成了可以讓各個(gè)用戶分布式求解的子問題。然后,各用戶的DRL 狀態(tài)包含了自身的信道狀態(tài)、接收功率和對(duì)其他用戶造成的干擾等信息。通過對(duì)這些數(shù)據(jù)分析,DRL 讓各用戶預(yù)測其未來的信道狀態(tài)以及其他用戶的發(fā)送功率,從而選擇一個(gè)合適的功率來最大化自身的獎(jiǎng)賞值。作者提出的DRL 算法是一個(gè)離線學(xué)習(xí)和在線部署的雙層架構(gòu)。在離線訓(xùn)練時(shí),一個(gè)中央訓(xùn)練器與各個(gè)用戶建立高速的回傳鏈路。通過該鏈路,各個(gè)用戶及時(shí)將自己的狀態(tài)以及獎(jiǎng)賞值向訓(xùn)練器傳輸并獲得一個(gè)動(dòng)作值。當(dāng)訓(xùn)練完成后,每個(gè)用戶可以獨(dú)自利用訓(xùn)練好的DQN 根據(jù)輸入的狀態(tài)得到最優(yōu)的動(dòng)作,不再需要回傳鏈路交互信息。仿真結(jié)果顯示,該基于DRL 的方案的性能甚至可以超越傳統(tǒng)基于優(yōu)化的近似最優(yōu)算法。

文獻(xiàn)[26]將文獻(xiàn)[25]拓展到了多用戶設(shè)備到設(shè)備(device-to-device,D2D)通信場景。文獻(xiàn)[26]在設(shè)計(jì)DRL 的狀態(tài)、動(dòng)作以及獎(jiǎng)賞時(shí)考慮了多信道的情況,解決了信道與功率資源的聯(lián)合分配問題。此外,文獻(xiàn)[26]也將文獻(xiàn)[25]所提的離線學(xué)習(xí)與在線部署的雙層架構(gòu)改進(jìn)為在線學(xué)習(xí)及訓(xùn)練架構(gòu),避免了離線學(xué)習(xí)中回傳信息產(chǎn)生的額外開銷。

3.3 網(wǎng)絡(luò)資源管理

虛擬現(xiàn)實(shí)(virtual reality, VR)、3D 全息通信等業(yè)務(wù)的出現(xiàn)使得無線通信網(wǎng)絡(luò)不再只是服務(wù)于點(diǎn)與點(diǎn)之間的信息交互,而是各類多樣化業(yè)務(wù)的承載方。因此,除了頻譜、功率等物理層的資源外,無線網(wǎng)絡(luò)還包含為網(wǎng)絡(luò)層或應(yīng)用層服務(wù)的資源,如緩存資源和邊緣計(jì)算資源等。因此,未來的無線通信網(wǎng)絡(luò)必然包含多維度的網(wǎng)絡(luò)資源,導(dǎo)致資源管理更為復(fù)雜并使傳統(tǒng)方法失效。下面以緩存資源和邊緣計(jì)算資源為例,介紹如何利用DRL 對(duì)網(wǎng)絡(luò)資源進(jìn)行高效管理。

為了降低用戶獲取數(shù)據(jù)的時(shí)延,無線網(wǎng)絡(luò)可以在靠近用戶終端的接入側(cè)部署緩存單元來預(yù)加載熱門資源。由于緩存的大小是有限的,對(duì)哪些數(shù)據(jù)進(jìn)行預(yù)加載是管理緩存資源的關(guān)鍵問題。文獻(xiàn)[27]提出利用DRL 對(duì)用戶的數(shù)據(jù)請(qǐng)求進(jìn)行分析,并根據(jù)用戶請(qǐng)求規(guī)律更換緩存中的文件。在該文獻(xiàn)中,作者將DRL 的狀態(tài)設(shè)計(jì)為各文件被用戶請(qǐng)求的次數(shù),動(dòng)作則是下一時(shí)刻應(yīng)當(dāng)被緩存的文件。若緩存的文件沒有命中用戶請(qǐng)求,網(wǎng)絡(luò)需要為用戶從云端獲取文件并產(chǎn)生開銷,此時(shí)懲罰值為獲取該文件的開銷,否則懲罰值為0。值得注意的是,這里并沒有用到獎(jiǎng)賞值,而是懲罰值。因此,DRL 的目標(biāo)是最小化期望累積懲罰。為了實(shí)現(xiàn)這一目標(biāo),作者將深度Q 算法進(jìn)行了修改,將算法3 中所有對(duì)Q 值的最大化和反最大化運(yùn)算都更換為對(duì)Q 值的最小化及反最小化運(yùn)算。其采用的DQN 是包含三個(gè)隱層為全連接層的DNN。仿真表明,該文獻(xiàn)所提的DRL 緩存策略比目前常用的最近最不常用(least frequently used, LFU)策略、FIFO 策略,以及最近最少使用(least recently used, LRU)策略均能獲得更低的開銷。

當(dāng)用戶需求更為多樣化時(shí),終端設(shè)備卻在往小體積、低功耗的方向發(fā)展,如可穿戴設(shè)備等。顯然,具有高計(jì)算復(fù)雜度的業(yè)務(wù),如需要實(shí)時(shí)計(jì)算大量3D 畫面的VR 等,難以由終端設(shè)備獨(dú)立完成。因此,移動(dòng)邊緣計(jì)算(mobile edge computing, MEC)被提出用于解決這一矛盾。在MEC 中,具有強(qiáng)大運(yùn)算能力的節(jié)點(diǎn)被部署于網(wǎng)絡(luò)接入側(cè),便于對(duì)來自于移動(dòng)設(shè)備的計(jì)算請(qǐng)求快速應(yīng)答。對(duì)于一個(gè)給定的計(jì)算任務(wù),若讓終端設(shè)備請(qǐng)求MEC 單元遠(yuǎn)程執(zhí)行,它將需要向MEC 上傳任務(wù)數(shù)據(jù),帶來通信時(shí)延,且需要向MEC 提供者交納服務(wù)費(fèi)用。相反,終端設(shè)備本地執(zhí)行計(jì)算任務(wù)則會(huì)損耗本地電能,以及較高的本地計(jì)算時(shí)延(本地運(yùn)算能力通常較MEC弱)。因此,為了以最低的時(shí)延和最小的開銷完成計(jì)算任務(wù),需要合理地分配網(wǎng)絡(luò)中的計(jì)算資源。

文獻(xiàn)[28]考慮了物聯(lián)網(wǎng)(Internet of things, IoT)中的計(jì)算資源分配問題。其中,IoT 設(shè)備每個(gè)時(shí)刻采集到的電能和產(chǎn)生的計(jì)算任務(wù)都是服從一定規(guī)律的隨機(jī)變量。為了滿足IoT 設(shè)備的計(jì)算需求,MEC單元被部署在網(wǎng)絡(luò)邊緣。IoT 設(shè)備需要決定任務(wù)在本地或在MEC 單元執(zhí)行。若決定在本地執(zhí)行,IoT設(shè)備還需要決定分配用于計(jì)算的功率。若設(shè)備分配的計(jì)算功率越大,則任務(wù)執(zhí)行速度越快,完成計(jì)算任務(wù)的時(shí)延越低,但同時(shí)電能損耗也更大。若決定將任務(wù)放在MEC 執(zhí)行,則IoT 設(shè)備需要承受通信時(shí)延(由信道決定)和MEC 設(shè)備運(yùn)算的計(jì)算時(shí)延。計(jì)算任務(wù)只有在規(guī)定時(shí)間內(nèi)完成時(shí)才算成功完成。為了最大化計(jì)算任務(wù)的成功完成率,該文獻(xiàn)提出了基于DRL 的計(jì)算資源分配方案。在該方案中,IoT 設(shè)備利用DRL 決定各個(gè)計(jì)算任務(wù)在本地執(zhí)行的功率,而功率為0 則表示在MEC 執(zhí)行。DRL 的狀態(tài)為當(dāng)前時(shí)刻能量到達(dá)的數(shù)量,計(jì)算任務(wù)隊(duì)列的長度,以及信道狀態(tài)。最后,DRL 的獎(jiǎng)賞值由一個(gè)效用函數(shù)決定,其考慮了計(jì)算時(shí)延、成功/失敗任務(wù)數(shù)以及MEC 服務(wù)費(fèi)用等因素。基于這3 個(gè)DRL 中的基本元素,作者利用聯(lián)邦-深度Q 學(xué)習(xí)算法對(duì)這個(gè)問題進(jìn)行了求解。該算法是在深度Q 學(xué)習(xí)的基礎(chǔ)上加入了聯(lián)邦學(xué)習(xí)(federated learning)[29],通過讓多個(gè)DRL 智能體同時(shí)學(xué)習(xí)來加快學(xué)習(xí)速度。

此外,文獻(xiàn)[30-33]也成功地將DRL 用于緩存資源和計(jì)算資源的聯(lián)合優(yōu)化問題中,說明DRL在管理網(wǎng)絡(luò)資源上擁有強(qiáng)大的應(yīng)用前景。

4 智能接入控制

步入萬物互聯(lián)時(shí)代,無線通信設(shè)備的數(shù)量呈現(xiàn)出指數(shù)增長的趨勢(shì)。與此同時(shí),采用不同RAT 的異構(gòu)網(wǎng)絡(luò)大量存在,它們均由數(shù)目眾多的基站組成。特別是對(duì)于采用毫米波的網(wǎng)絡(luò),由于毫米波基站覆蓋范圍比較小,運(yùn)營商需要部署大量小蜂窩基站(small-cell base station, SBS)來保證無線信號(hào)的覆蓋率。這使得用戶接入控制變得復(fù)雜,難以獲得最優(yōu)的用戶與網(wǎng)絡(luò)或基站的匹配方式。事實(shí)上,因信道變化等原因,用戶需要不斷切換接入的網(wǎng)絡(luò)或基站來保持最佳的匹配。因此,接入控制又稱為切換控制(handover control)。根據(jù)用戶是在采用不同RAT的異構(gòu)網(wǎng)絡(luò)間切換或同一網(wǎng)絡(luò)下的不同基站間切換,切換控制可以分為垂直切換(vertical handover)和水平切換(horizontal handover)[34]。

當(dāng)采用不同RAT 的異構(gòu)網(wǎng)絡(luò)相對(duì)獨(dú)立時(shí),它們的資源無法共享。此時(shí),若各網(wǎng)絡(luò)中的用戶需求差異比較大時(shí),它們也無法協(xié)調(diào)資源來主動(dòng)地滿足各用戶的需求。為此,垂直切換將用戶重新分配在不同的網(wǎng)絡(luò)上,從而更合理地利用各網(wǎng)絡(luò)的資源。文獻(xiàn)[35]將DRL 用于移動(dòng)通信終端在LTE 網(wǎng)絡(luò)和WiFi 網(wǎng)絡(luò)的智能垂直切換上。其中,LTE 網(wǎng)絡(luò)和WiFi 網(wǎng)絡(luò)的服務(wù)費(fèi)用不同,且終端在不同網(wǎng)絡(luò)下傳輸消耗的能量也不同。因此,該文獻(xiàn)考慮垂直切換的目標(biāo)是讓終端在滿足傳輸時(shí)延要求的情況下最小化傳輸費(fèi)用和能量開銷。為了實(shí)現(xiàn)這一目標(biāo),DRL 的狀態(tài)被設(shè)計(jì)為當(dāng)前時(shí)刻終端的位置和剩余發(fā)送的文件大小,而DRL 的動(dòng)作則是選擇下一時(shí)刻傳輸數(shù)據(jù)使用的網(wǎng)絡(luò)。值得注意的是,與文獻(xiàn)[27]類似,這里沒有設(shè)計(jì)獎(jiǎng)賞值,取而代之的是懲罰值。懲罰值包含了傳輸費(fèi)用,能量開銷,以及未能在規(guī)定時(shí)間內(nèi)完成傳輸產(chǎn)生的懲罰項(xiàng)。為了讓DRL 最小化懲罰值,該文獻(xiàn)同樣對(duì)深度Q 學(xué)習(xí)算法進(jìn)行了與文獻(xiàn)[27]類似的修改。仿真結(jié)果表明,和基于DP 的算法相比,基于DRL 的接入方案可以有效地降低傳輸費(fèi)用和能量開銷。

除垂直切換外,目前也有文獻(xiàn)利用DRL 實(shí)現(xiàn)基站間的智能水平切換。文獻(xiàn)[36]考慮一個(gè)由眾多SBS 組成的超密集網(wǎng)絡(luò)(ultra dense network, UDN)。傳統(tǒng)的基站切換算法是讓終端設(shè)備比較連接基站的參考信號(hào)接收功率(reference signal received power,RSRP)與其他基站的RSRP,若其他基站最強(qiáng)的RSRP 比當(dāng)前基站的RSRP 大于某一閾值,則進(jìn)行切換。這種切換方法雖然保證了用戶接收信號(hào)的強(qiáng)度,但是不可避免地造成各基站負(fù)載不均,降低了擁塞基站的用戶體驗(yàn)。某個(gè)基站的負(fù)載定義為該基站連接用戶的所有請(qǐng)求資源塊和該基站可用資源塊之比。該文獻(xiàn)提出在原有切換規(guī)則的閾值上再加入一個(gè)偏置值,然后通過調(diào)整各基站切換到其他基站的偏置值來實(shí)現(xiàn)負(fù)載均衡。為了實(shí)現(xiàn)這一目標(biāo),作者利用DRL 來對(duì)偏置值進(jìn)行優(yōu)化。DRL 的狀態(tài)包含了所有基站的負(fù)載信息以及它們的邊緣用戶占所有用戶的比值,而DRL 的動(dòng)作則是從各基站切換到其他基站的偏置值。DRL 的獎(jiǎng)賞設(shè)置為所有基站的最大負(fù)載的倒數(shù)??梢?,該獎(jiǎng)賞值在所有基站達(dá)到相同負(fù)載時(shí)取得最大值,因此DRL 的目標(biāo)是令所有基站的負(fù)載相同。由于DRL 的動(dòng)作包含連續(xù)值,該文獻(xiàn)采用了A3C 算法來實(shí)現(xiàn)DRL。此外,因?yàn)镈RL 的動(dòng)作是一個(gè)向量,所以作者還將A3C 中的動(dòng)作家設(shè)計(jì)為一個(gè)含有多個(gè)輸出層的DNN來輸出向量值。

文獻(xiàn)[37]進(jìn)一步嘗試將接入控制與資源分配相結(jié)合,考慮了多層基站蜂窩網(wǎng)絡(luò)中的用戶接入與信道分配聯(lián)合優(yōu)化問題。當(dāng)前蜂窩網(wǎng)絡(luò)中的基站有宏蜂窩基站(macro base station, MBS)、SBS 和微蜂窩基站(pico base station, PBS)3 種。它們具有不同的發(fā)射功率,導(dǎo)致其覆蓋范圍也不同。因此,終端設(shè)備在同一個(gè)時(shí)刻可能同時(shí)接收到多個(gè)基站的信號(hào)。此時(shí),合理地分配用戶及信道可以獲得最大的空間復(fù)用增益,進(jìn)而最大化網(wǎng)絡(luò)整體速率。然而,該問題是一個(gè)高度非凸的整數(shù)優(yōu)化問題,難以優(yōu)化求解。為此,該文獻(xiàn)首先將該問題建模成多個(gè)智能體(即多智體)的博弈問題。其中,多智體的目標(biāo)函數(shù)為自身速率和發(fā)送功率開銷、切換基站開銷的差值。即,各終端設(shè)備的目標(biāo)是在最大化自身速率的同時(shí),最小化發(fā)送功率和切換基站次數(shù)。基于此目標(biāo)函數(shù),作者證明了該多智體博弈存在納什均衡點(diǎn)(Nash equilibrium, NE),并提出利用DRL 對(duì)基站和信道進(jìn)行智能選擇來求解該NE。和文獻(xiàn)[22]類似,該文獻(xiàn)也采用競爭-雙深度Q 學(xué)習(xí)算法來實(shí)現(xiàn)DRL,并通過仿真結(jié)果證明該算法可以獲得比深度Q 學(xué)習(xí)算法、雙深度Q 學(xué)習(xí)算法更高的網(wǎng)絡(luò)總速率。

5 智能網(wǎng)絡(luò)維護(hù)

前兩章分別對(duì)無線通信網(wǎng)絡(luò)中的智能資源管理和智能接入控制相關(guān)文獻(xiàn)進(jìn)行了介紹。它們利用DRL 替代原本基于優(yōu)化或啟發(fā)式的傳統(tǒng)算法,以保證無線網(wǎng)絡(luò)在大規(guī)模及復(fù)雜環(huán)境下依然能高效地運(yùn)行。然而,更為復(fù)雜的網(wǎng)絡(luò)不僅為網(wǎng)絡(luò)高效運(yùn)行帶來困難,同時(shí)也極大地增加了網(wǎng)絡(luò)維護(hù)的難度。特別是當(dāng)前網(wǎng)絡(luò)維護(hù)仍大量依賴人工參與,其高成本和不及時(shí)的響應(yīng)速度難以滿足未來無線通信的需求。因此,實(shí)現(xiàn)智能通信同樣需要為網(wǎng)絡(luò)維護(hù)賦予智能。下面將以網(wǎng)絡(luò)故障修復(fù)、基站管理以及基站部署規(guī)劃等三方面為例,說明DRL 如何應(yīng)用于無線通信網(wǎng)絡(luò)的智能維護(hù)。

隨著網(wǎng)絡(luò)規(guī)模增加,網(wǎng)絡(luò)發(fā)生故障的概率也隨之增加。傳統(tǒng)的網(wǎng)絡(luò)排錯(cuò)和修復(fù)方法需要專家的參與,修復(fù)效率比較低。文獻(xiàn)[38]嘗試將DRL 應(yīng)用于網(wǎng)絡(luò)故障自我修復(fù)。在一個(gè)隨機(jī)出現(xiàn)故障的網(wǎng)絡(luò)中,DRL 的目標(biāo)是在給定的時(shí)間內(nèi)通過選擇正確的排錯(cuò)操作來清除故障。DRL 的狀態(tài)設(shè)計(jì)為網(wǎng)絡(luò)中故障數(shù)的指示值,分別表示其增加、減少或不變。DRL 的動(dòng)作空間包含所有可以排除故障的操作。在選擇動(dòng)作后,DRL 會(huì)得到一個(gè)由排除故障耗費(fèi)時(shí)間決定的獎(jiǎng)賞值。該文獻(xiàn)采用了深度Q 學(xué)習(xí)算法來實(shí)現(xiàn)DRL,并通過仿真說明基于DRL 的網(wǎng)絡(luò)故障自修復(fù)方法可以有效提升網(wǎng)絡(luò)可用性。

對(duì)于擁有大量基站的網(wǎng)絡(luò)來說,用戶流量的空時(shí)分布不均使得其中部分基站可能在某些時(shí)候處于空閑的狀態(tài)。然而,維持空閑基站的運(yùn)作同樣需要耗費(fèi)電能并產(chǎn)生成本。因此,為了提高網(wǎng)絡(luò)能量效率和降低成本,無線網(wǎng)絡(luò)需要依據(jù)用戶流量需求動(dòng)態(tài)地開啟和關(guān)閉基站。鑒于流量需求是動(dòng)態(tài)隨機(jī)的,文獻(xiàn)[39]提出利用DL 對(duì)各基站的流量進(jìn)行分析和預(yù)測,然后利用DRL 根據(jù)預(yù)測的流量對(duì)基站的開關(guān)進(jìn)行控制。其中,DRL 的狀態(tài)除了包含流量的預(yù)測值外,還包含上一時(shí)刻對(duì)于基站開關(guān)的歷史決策信息。DRL 的動(dòng)作則是控制所有基站的開關(guān)組合??梢?,動(dòng)作空間將隨基站數(shù)量指數(shù)增長。當(dāng)基站數(shù)量比較大時(shí),動(dòng)作空間將會(huì)非常龐大。因此,該文獻(xiàn)采用可以輸出連續(xù)動(dòng)作的DDPG 算法來實(shí)現(xiàn)DRL。其中,DDPG 輸出的連續(xù)動(dòng)作被離散化后映射為特定的基站開關(guān)組合。此外,該文獻(xiàn)提出了一個(gè)懲罰函數(shù),包含了用戶體驗(yàn)損失、能量開銷以及開關(guān)切換開銷。最后,通過使用DDPG算法最小化該懲罰函數(shù),可以在保證用戶體驗(yàn)時(shí)最小化能量損耗及開關(guān)切換次數(shù)。除文獻(xiàn)[39]外,文獻(xiàn)[40]也提出了一個(gè)基于DRL 的基站智能休眠策略,以降低網(wǎng)絡(luò)能耗。

對(duì)于某些人口稀疏的地區(qū),部署大量基站來保證無線網(wǎng)絡(luò)的覆蓋率是難以實(shí)現(xiàn)的。同時(shí),在固定的基站部署方式下,用戶流量的空時(shí)分布不均也會(huì)導(dǎo)致熱點(diǎn)區(qū)域網(wǎng)絡(luò)堵塞的問題。因此,人們提出利用UAV 作為空中基站來服務(wù)地面通信終端。然而,UAV 的覆蓋范圍有限,且用戶與空中基站的信道會(huì)隨著UAV 的移動(dòng)而改變。這都為UAV 空中基站的部署帶來了難度。文獻(xiàn)[41]提出利用DRL進(jìn)行空中基站的部署規(guī)劃。其中,DRL 的狀態(tài)包含了UAV 和所有用戶的當(dāng)前坐標(biāo),而DRL 的動(dòng)作空間則是UAV 可以移動(dòng)的方向,包括x、y、z 軸上的正方向及負(fù)方向,以及保持原有位置。當(dāng)UAV 移動(dòng)到一個(gè)新的位置時(shí),DRL 的獎(jiǎng)賞值為空中基站與地面終端設(shè)備傳輸數(shù)據(jù)的總速率。最后,深度Q 學(xué)習(xí)算法被用于規(guī)劃UAV 的飛行軌跡,從而得到最優(yōu)的空中基站部署規(guī)劃。

6 討論:開放問題

雖然目前初步的研究表明DRL 具有賦能智能通信及滿足未來無線通信需求的潛能,但是其在理論和應(yīng)用上尚有一些開放問題需要解決,如分布式DRL 的非平穩(wěn)性、非完美數(shù)據(jù)的影響以及安全與隱私問題。

6.1 分布式DRL 的非平穩(wěn)性

DRL 本質(zhì)上一種求解MDP 的方法,而MDP描述的是單個(gè)智能體與環(huán)境的交互過程。其中,環(huán)境狀態(tài)的改變是由智能體采取的動(dòng)作以及環(huán)境固有的轉(zhuǎn)移概率決定的。也就是說,若給定環(huán)境狀態(tài)和智能體采取的動(dòng)作,新的環(huán)境狀態(tài)出現(xiàn)的概率隨之固定?;谶@一特性,DRL 通過分析歷史數(shù)據(jù)來尋找并利用環(huán)境的變化規(guī)律,從而得到最優(yōu)決策。

然而,對(duì)于未來大規(guī)模的無線網(wǎng)絡(luò),使用單個(gè)智能體收集網(wǎng)絡(luò)中的所有信息并對(duì)所有參數(shù)同時(shí)做出決策將會(huì)導(dǎo)致信息收集困難、響應(yīng)時(shí)延高等問題。因此,分布式的方案,即采用多個(gè)智能體對(duì)網(wǎng)絡(luò)參數(shù)同時(shí)優(yōu)化,是解決以上問題的有效途徑。顯然,當(dāng)存在多個(gè)智能體時(shí),環(huán)境狀態(tài)的改變將同時(shí)被多智體各自采取的動(dòng)作所影響。在此時(shí),對(duì)于某個(gè)智能體而言,其自身所在環(huán)境的狀態(tài)轉(zhuǎn)移概率將不再是確定的。這就是分布式DRL 中的非平穩(wěn)性。由于目前的DRL 算法在設(shè)計(jì)時(shí)并沒有考慮多智體產(chǎn)生的非平穩(wěn)性,因此直接將它們應(yīng)用于分布式DRL 可能會(huì)導(dǎo)致算法不收斂或結(jié)果不穩(wěn)定等問題。目前采用分布式DRL 方案的研究,如文獻(xiàn)[37]嘗試通過共享多智體的狀態(tài)或基于博弈論的思想設(shè)計(jì)獎(jiǎng)賞值等方法解決非平穩(wěn)性的問題。雖然這些方法在求解特定問題上可以得到較好的結(jié)果,目前仍缺乏解決分布式DRL 非平穩(wěn)性的普適性理論。

6.2 非完美數(shù)據(jù)的影響

DRL 的學(xué)習(xí)需要智能體從外界獲得足夠的信息,包括觀察環(huán)境得到狀態(tài)以及獎(jiǎng)賞值。在無線通信中,由于噪聲的存在,智能體對(duì)環(huán)境的觀察會(huì)受噪聲污染。除此之外,若智能體所需的信息需要由其他設(shè)備通過回傳鏈路反饋,其獲取的信息也有可能受信道變化等隨機(jī)因素影響而缺失。這類受污染或缺失的數(shù)據(jù)被稱為非完美數(shù)據(jù)。目前的研究通常認(rèn)為智能體所需信息都可完美獲得。然而,鑒于無線通信環(huán)境的特殊性,研究非完美數(shù)據(jù)對(duì)DRL 學(xué)習(xí)過程和學(xué)習(xí)結(jié)果的影響具有重要意義。

6.3 安全與隱私問題

作為一種數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,DRL 在對(duì)無線網(wǎng)絡(luò)進(jìn)行優(yōu)化的過程中需要對(duì)大量的數(shù)據(jù)進(jìn)行分析。例如,在智能資源管理的過程中,DRL 智能體需要在獲取各個(gè)網(wǎng)絡(luò)、基站甚至終端設(shè)備的信息后進(jìn)行決策。此外,分布式的DRL 方案也需要通過多智體之間的信息共享來緩解非平穩(wěn)性。然而,在實(shí)際應(yīng)用中,信息共享會(huì)帶來安全與隱私的問題。例如,網(wǎng)絡(luò)或基站的擁有者之間可能存在競爭關(guān)系,出于商業(yè)安全和保護(hù)用戶隱私的考慮,它們難以進(jìn)行直接的數(shù)據(jù)共享。同樣的,屬于不同的用戶設(shè)備也存在數(shù)據(jù)共享的壁壘。

值得注意的是,在當(dāng)前人工智能快速發(fā)展的時(shí)代,數(shù)據(jù)的安全和隱私問題正在受到越來越多關(guān)注。例如,歐盟和中國分別在2018 年和2019 年分別出臺(tái)了《通用數(shù)據(jù)保護(hù)條例》[42]和《人工智能北京共識(shí)》來規(guī)范人工智能在發(fā)展過程中產(chǎn)生的安全與隱私問題。為此,人們提出了多方安全計(jì)算(multi-party computation)[43]、差分 隱私(differential privacy)[44]和聯(lián)邦學(xué)習(xí)等方法,來解決機(jī)器學(xué)習(xí)中的數(shù)據(jù)安全與隱私問題。對(duì)于無線通信而言,如何依據(jù)無線通信的特征將它們與DRL 有機(jī)結(jié)合是構(gòu)建未來安全的智能無線通信網(wǎng)絡(luò)的關(guān)鍵。

7 結(jié) 束 語

本文對(duì)深度強(qiáng)化學(xué)習(xí)進(jìn)行了介紹,并從資源管理、接入控制以及網(wǎng)絡(luò)維護(hù)三個(gè)方面對(duì)目前利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)智能通信的研究進(jìn)展進(jìn)行了總結(jié)和剖析。目前的研究結(jié)果表明深度強(qiáng)化學(xué)習(xí)是實(shí)現(xiàn)智能通信的有效方法。最后,本文對(duì)目前尚未解決的開放問題進(jìn)行了討論,為未來的研究提供有益的思路。

本文研究工作還得到高等學(xué)校學(xué)科創(chuàng)新引智計(jì)劃(B20064)的資助,在此表示感謝。

猜你喜歡
信道基站文獻(xiàn)
基于NETMAX的基站網(wǎng)絡(luò)優(yōu)化
Hostile takeovers in China and Japan
信號(hào)/數(shù)據(jù)處理數(shù)字信道接收機(jī)中同時(shí)雙信道選擇與處理方法
典型辦公區(qū)域Wi-Fi性能的優(yōu)化
5G基站輻射對(duì)人體有害?
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
5G基站輻射對(duì)人體有害?
基于信道跟蹤的LFM信號(hào)檢測方法研究
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
可惡的“偽基站”
深水埗区| 沛县| 彩票| 花莲县| 台东县| 都江堰市| 新丰县| 荥阳市| 隆尧县| 宣汉县| 盘锦市| 都江堰市| 龙南县| 林芝县| 连城县| 梓潼县| 临沧市| 太白县| 阿荣旗| 克山县| 建昌县| 永和县| 肇源县| 巴彦淖尔市| 夏河县| 井研县| 松潘县| 平舆县| 湖口县| 五家渠市| 普格县| 虹口区| 岳普湖县| 寻乌县| 鄂温| 塔河县| 丹棱县| 墨脱县| 甘泉县| 平昌县| 天门市|