肖 錚
(四川工商職業(yè)技術學院 信息工程系,成都611830)
5G 網絡系統(tǒng)中,采用了終端直通(Device-to-Device,D2D)技術直接通信,D2D 技術是目前最具前景的5G 技術。所謂D2D 通信技術,就是指兩個對等用戶進行直接通信,而不需要利用基站轉發(fā)的一種新型通信方式。[1]在由D2D 用戶組成的網絡中,每一個用戶都能發(fā)送并且接收通信信號,同時還具有路由功能。如果D2D 用戶之間的距離很近,而兩者距離基站很遠,那么選用直接通信的方式更好。上述情況只是一個簡單的特例,有時因為網絡狀態(tài)等因素,反而選擇理論上不可取的方式對解決實際問題更加有利。因此,需要尋求一種通用的、能適應大部分情況的方法,同時需要對實際問題進行建模,確定一種通用的模式選擇規(guī)則。本文將D2D 模式選擇與馬爾可夫決策過程(Markov decision process,MDP)[2]相結合,提出了一個解決模式選擇問題的新思路:基于馬爾可夫決策過程的算法研究。
如果D2D 用戶采用的是復用蜂窩資源的通信方式,網絡內部就會產生新的干擾,每一個接收用戶都會收到來自復用同一頻帶資源的其他用戶的干擾信號,基站也會受到影響。采用平坦瑞利衰落信道模型,接收端信號幅度滿足瑞利分布。瑞利分布是一個平穩(wěn)的窄帶高斯過程,它的均值是0,方差是σ2。[3]在該信道模型中,假設接收機會受到一個加性高斯白噪聲(AWGN)的影響。AWGN 是無線信道中最基本的噪聲干擾模式,其幅度服從高斯分布(零均值,方差為N0)。在該模型下,可以得到信噪比SINR。[4]
SINR代表的是設備信號和噪聲的比值,SINR越大,代表信號的質量越好。公式(1)中的Preceiver是接收設備接收到的功率,I是接收設備受到的干擾,N0 是接收設備受到的噪聲,Pt是設備發(fā)送功率。一般情況下,蜂窩用戶和D2D 用戶的發(fā)送功率并不一致,前者的發(fā)送功率相對更高一些。實際情況下,為了最大化網絡吞吐量,還需要進行功率分配,使發(fā)送功率按一定的規(guī)則進行設置,由于此部分內容不屬于本研究的范疇,所以這里不再贅述。為了使計算更加方便,默認在任何情況下,用戶的發(fā)送功率一致為PDUE,不做發(fā)送功率大小的區(qū)分;dij代表信號發(fā)送設備i到信號接收設備j的距離;Hij指的是信道系數(shù);α 是路徑損耗系數(shù),代表信號在空間里傳播時將會產生的損耗,它由兩方面的因素決定,一是信道本身的傳播性質,二是發(fā)送功率的輻射效應。根據標準路徑損耗傳播模型,一般情況下,α>2。
如果期望最終能獲得最大化的網絡總體信道容量Csystem,需要進一步計算整個系統(tǒng)的總體信道容量。在該模型下,網絡結構中包含了一個蜂窩用戶和兩對D2D 用戶,所以Csystem是三個用戶信道容量相加后的結果,如公式(2)所示。
公式(3)是信道容量的通用計算公式,BW指的是系統(tǒng)資源帶寬,SINR指的是公式(1)中計算出來的相應信噪比。
MDP 可以從五個要素著手來分析:決策時刻和周期,狀態(tài),行動集合,轉移概率,報酬。每一次做決策的時間點集合用T來表示,而對應的系統(tǒng)狀態(tài)集合用S來表示,行動的集合采用字符A來表示。在某一個時間點,假設存在一個狀態(tài)i∈S,那么,在這個狀態(tài)的可用行動集A(i)中挑選出一個行動a 并執(zhí)行之后,可以得到一個報酬r(i,a),同時,下一個時刻的系統(tǒng)狀態(tài)將根據轉移概率分布函數(shù)p(*|i,a)決定。然后,在下一時刻又需要進行另一次行動的選擇。最后,將所有時間點的行動組合起來,就可以獲得一個決策序列,即所做選擇的集合。每一次行動選擇除了可以帶來一份及時報酬之外,還會對將來產生影響,產生額外的報酬,如圖1 所示。
圖1 決策過程圖
采用基于動態(tài)規(guī)劃的期望報酬值向后遞歸的迭代算法來計算D2D 模式選擇問題下的馬爾可夫決策模型最優(yōu)值問題。[5]算法中,ft*代表的是時刻t的最優(yōu)策略,而π 就是策略序列集合。在N時刻,由于前N個周期0,1,…,N-1 的歷史情況已被確定,所以此時決策者沒有其他的決策可選,是固定的值。集合一般被定義為最優(yōu)行動集合。這種向后遞歸算法體現(xiàn)了一種最優(yōu)化原理的思想。最優(yōu)策略的性質是:不管從哪一個初始狀態(tài)開始出發(fā),以及無論采取了怎樣的初始行動,對下一個決策時刻來說,剩下的決策規(guī)則組成的策略就是最佳策略。[6]該算法步驟如下:
步驟一:令t=N且對一切it∈S,
步驟二:若t=0,則就是最佳的MDP 策略,同時就是最優(yōu)的值函數(shù),那么算法停止。否則,令t-1?t后,再進行步驟三。
步驟三:對一切it∈S,計算
記集合
步驟四返回到步驟二。
由于行動集合A*是有限集合,該馬氏策略的最優(yōu)解一定存在,并且可以由上述算法得到最終的每一個決策時刻下的行動選擇,將之組合起來就是要求的模式選擇的策略序列,即策略Policy。通過查找Policy 矩陣,可以準確地知道某一決策時刻(時隙),在系統(tǒng)處于某種狀態(tài)時,兩個D2D對應該做出的模式選擇。同時,當前模式也可以得到一個期望報酬最優(yōu)值V。算法的流程如圖2所示。
結合網絡結構模型,設置的參數(shù)見表1。表1中的距離參數(shù)是初始情況下的取值,具體情況可能會發(fā)生一些改變。為了簡化模型,將信道系數(shù)Hij取值為1。同時,需要注意的是功率以及噪聲的單位并不統(tǒng)一,在實際計算過程中應當進行單位的轉換。
圖2 向后遞歸算法流程圖
表1 仿真參數(shù)表
利用有限階段向后遞歸迭代算法將之聯(lián)系起來,組合成一個完整的MDP 問題,在Matlab 平臺上進行建模仿真,并適當?shù)馗淖円恍﹨?shù),觀察網絡吞吐量的變化情況。具體實驗結果如圖3-圖5所示。
圖3 階數(shù)N 對V 的影響變化趨勢圖
在圖3 中,R1=300m,r1=10m,r2=10m。由于在任一狀態(tài)下,它的最優(yōu)值變化趨勢是保持一致的,且一般情況下,信道狀態(tài)良好的可能性會更高一點,同時也更希望了解信道狀態(tài)良好時的情況。所以為了簡化圖像,選取其中的兩個狀態(tài)(1111 和1110)作為代表。
圖4 D2D 對之間距離對V 的影響變化趨勢圖
圖4 中,R1=300m,同步改變兩對D2D 對之間的距離r1 和r2(運動方向均與x 軸的夾角為0 度,且運動方向保持不變)。通過觀察可以發(fā)現(xiàn),從變化趨勢上來說,隨著D2D 對距離的增大,在期望報酬的具體數(shù)值上,當兩個D2D 對之間的距離同步變化時,最終的期望報酬值變化會更劇烈,變化范圍也更大。由此可以類推,當系統(tǒng)中出現(xiàn)多個D2D 對,并且同時處于運動狀態(tài)時,系統(tǒng)的信道容量有可能出現(xiàn)極端情況,這也是在將來的研究中需要考慮的問題。
在圖5 中,R1=300m,r2=10m,改變第一對D2D 對之間的距離r1,同時取階數(shù)N=100,時隙數(shù)為500。通過仿真可以看到距離的增大必定會導致信道容量的減小,這是由于接收到的信號變弱導致的。同時,可以清晰地看到基于MDP 和基于信道容量這兩種方法的結果,在最大化網絡吞吐量這一性能上存在一定的優(yōu)劣,基于MDP 的模式選擇顯然能獲得更大的系統(tǒng)信道容量。經過計算得知,基于MDP 的方法比基于信道容量的方法平均高出6Mbps 左右信道容量,而差距最大的地方(距離大約為51m)基于MDP 的方法幾乎高出了7.1Mbps 的信道容量,數(shù)值非??捎^。
圖5 基于不同模式選擇方法的系統(tǒng)總吞吐量比較
在基于信道容量等方法的基礎上,將網絡的信道狀態(tài)納入了考慮范圍,利用MDP 來分析模式選擇問題,并觀察了距離等因素對吞吐量的影響,目的是尋求到能獲取最大信道容量的一種模式選擇方法。實驗結果表明,馬爾可夫決策過程算法在實現(xiàn)最大化網絡總吞吐量這一目標上,可以達到更好的效果。
利用動態(tài)規(guī)劃思想中的迭代算法來解決網絡吞吐量問題,在計算復雜度下,得出一個與時間有關的決策序列。經過最后的多個時隙下的仿真比較證實,在最優(yōu)化網絡吞吐量方面,本研究的基于MDP 的模式選擇方法確實具有一定的優(yōu)勢。在接下來的工作中,希望能夠找到更為合理的方法,進一步提高算法的決策效果。