柳旭東,趙 夙,朱曉榮
(南京郵電大學(xué) 江蘇省無線通信重點實驗室,南京 210003)
移動通信網(wǎng)絡(luò)在滿足多樣性需求的同時,也要提供高質(zhì)量的服務(wù)支持[1]。因此,穩(wěn)定的廣域覆蓋成為網(wǎng)絡(luò)發(fā)展中首要的技術(shù)保障[2]。
對于覆蓋問題,現(xiàn)階段的研究方法主要為使用最優(yōu)化方法求解基站參數(shù)的最佳調(diào)整值,從而提高覆蓋率。文獻[3]采用了黃金分割搜索;文獻[4]采用了梯度下降法;文獻[5]采用了粒子群算法;文獻[6]采用了模擬退火算法。
上述方法依賴于對優(yōu)化場景的大量假設(shè),在實際網(wǎng)絡(luò)運行的過程中,無線信號傳播環(huán)境的改變會影響對優(yōu)化場景建立假設(shè)的準確性與靈活性,對網(wǎng)絡(luò)環(huán)境的應(yīng)變有較大的局限性。若使用現(xiàn)網(wǎng)數(shù)據(jù)構(gòu)建網(wǎng)絡(luò)場景模型,在通用性與基站部署環(huán)境的靈敏度上均有較好的表現(xiàn)。此外,隨著網(wǎng)絡(luò)規(guī)模的擴大,能夠積累運維經(jīng)驗并自主形成優(yōu)化策略的人工智能方法,能夠進一步提高網(wǎng)絡(luò)運維效率[7]。
針對上述兩個方面,本文使用將數(shù)據(jù)挖掘與強化學(xué)習(xí)相結(jié)合的思路,使用通過現(xiàn)網(wǎng)數(shù)據(jù)訓(xùn)練的預(yù)測模型作為強化學(xué)習(xí)環(huán)境,使用Q學(xué)習(xí)作為優(yōu)化算法的主體,并在動作選擇階段,通過引入優(yōu)先級調(diào)整智能體選擇動作的策略,得到具有自適應(yīng)優(yōu)先級的Q學(xué)習(xí)。算法仿真表明,使用改進的Q學(xué)習(xí)算法可以將覆蓋率提升20%,并有效提高了收斂速度。
針對移動通信網(wǎng)絡(luò)覆蓋場景,本文提出的覆蓋優(yōu)化系統(tǒng)模型如圖1所示。
圖1 覆蓋優(yōu)化系統(tǒng)模型Figure 1 Block diagram of coverage optimization system
首先,將從現(xiàn)網(wǎng)中采集到的路測數(shù)據(jù)在無線網(wǎng)絡(luò)數(shù)據(jù)庫中進行處理,包括數(shù)據(jù)去重、數(shù)據(jù)平衡化以及特征選擇等操作。將處理后的數(shù)據(jù)根據(jù)網(wǎng)絡(luò)覆蓋標準,按照弱覆蓋、重疊覆蓋和正常覆蓋3種情況添加標簽。隨后將已標記數(shù)據(jù)作為訓(xùn)練樣本,進行覆蓋預(yù)測建模,通過構(gòu)建小區(qū)天線參數(shù)與其接入用戶覆蓋狀況的映射關(guān)系,實現(xiàn)能夠根據(jù)每個小區(qū)的不同參數(shù)調(diào)整,輸出該小區(qū)內(nèi)每個接入終端的覆蓋標簽,從而達到模擬真實網(wǎng)絡(luò)環(huán)境的效果。本文使用的網(wǎng)絡(luò)覆蓋預(yù)測模型是隨機森林 (Random Forest,RF) 算法[8]。RF算法包含多棵決策樹,每棵樹都作為一個分類器,在進行分類時,RF算法會將決策樹中得到投票最多的標簽作為整體的輸出[9]。為保證模型的準確性,本文在第3節(jié)中使用現(xiàn)網(wǎng)數(shù)據(jù)對訓(xùn)練好的模型進行驗證,并列出了覆蓋場景中RF算法與其他常用算法的性能對比。
隨后,本文提出了一種基于Q學(xué)習(xí)的自適應(yīng)網(wǎng)絡(luò)覆蓋優(yōu)化算法。Q學(xué)習(xí)屬于強化學(xué)習(xí)的一種,通過學(xué)習(xí)求解出狀態(tài)—動作與預(yù)計收益的映射表來實現(xiàn)優(yōu)化的目的。如圖1中覆蓋優(yōu)化模塊所示,在每輪迭代開始時,智能體觀測環(huán)境的狀態(tài),即計算網(wǎng)絡(luò)中的瞬時覆蓋率,并根據(jù)覆蓋率維護一個優(yōu)先級列表,覆蓋率越低的小區(qū)會被設(shè)定越高的優(yōu)化級。隨后選擇需要調(diào)整的小區(qū),以及該小區(qū)的天線電子下傾角和天線發(fā)射功率的調(diào)整值,并將其輸出到環(huán)境中;隨后環(huán)境輸出小區(qū)內(nèi)所有終端的覆蓋情況,通過統(tǒng)計計算得出小區(qū)以及全局的覆蓋率,反饋給智能體一個獎勵,智能體通過最大化獎勵不斷與模型交互,求解出在不同網(wǎng)絡(luò)狀況下的最優(yōu)參數(shù)配置方案。
網(wǎng)絡(luò)中的覆蓋問題主要分為弱覆蓋與重疊覆蓋。弱覆蓋也叫作覆蓋不足,定義為服務(wù)小區(qū)不能為接入的終端提供有效覆蓋,通常表現(xiàn)為無主導(dǎo)小區(qū)、覆蓋間隙以及覆蓋盲區(qū)等。重疊覆蓋定義為網(wǎng)內(nèi)小區(qū)為移動臺提供了過多的有效覆蓋,通常表現(xiàn)為無主導(dǎo)小區(qū)和主導(dǎo)小區(qū)信噪比低等情況。在移動通信網(wǎng)絡(luò)中,衡量覆蓋程度最關(guān)鍵的參數(shù)是參考信號接收功率(Reference Signal Receiving Power,RSRP)。
弱覆蓋點的判定標準是,若終端從其服務(wù)小區(qū)接收到的RSRP小于閾值K,則認為該終端處于弱覆蓋。無線網(wǎng)絡(luò)優(yōu)化中規(guī)定弱覆蓋判定閾值為-107 dBm。若假設(shè)用戶設(shè)備位置為x,弱覆蓋評價函數(shù)可表示為
式中:RSRP(x)為在x位置的參考信號接收功率大??;Pointweak為每個采樣點的覆蓋標簽;W為終端采樣點與弱覆蓋閾值的偏差值。若W>0,則處于x位置的終端RSRP低于閾值,將其判定為弱覆蓋樣本點,并標記Pointweak=1;若W≤0,則將其判定為正常樣本點,并標記Pointweak=0,表示該終端所處位置不存在弱覆蓋問題。
在長期演進(Long Term Evolution,LTE)網(wǎng)絡(luò)中對重疊覆蓋的判定標準如下:
(1) 移動臺RSRP>-105 dBm表示移動臺可以正常接收有效信號;
(2) 移動臺接收到來自鄰區(qū)的RSRP與主服務(wù)小區(qū)同頻率,若有當前小區(qū)頻率earfcncell和相鄰小區(qū)i的頻率earfncelli,則表示為earfcncell=earfncelli,且信號強度差值小于6 dB,若有采樣點收到來自主服務(wù)小區(qū)的參考信號接收功率RSRPcell和來自相鄰小區(qū)i的參考信號接收功率RSRPcelli,則有|RSRPcell-RSRPcelli|<6 dB,表示移動臺收到過多的有效信號;
(3) 滿足條件(2)的鄰區(qū)數(shù)量≥3個。
由此,重疊覆蓋的評價函數(shù)可表示為
式中:RSRP0為從主服務(wù)小區(qū)接收到的RSRP;RSRPi為來自第i個鄰區(qū)的RSRP[10];E為主服務(wù)小區(qū)的RSRP與相鄰小區(qū)的RSRP的差值;celli為在目標區(qū)域內(nèi)的基站;neighbors為當前主服務(wù)小區(qū)的相鄰小區(qū)集合;Pointover為1表示該樣本所處位置存在重疊覆蓋問題,Pointover為0表示該樣本所處位置不存在重疊覆蓋問題。
無線網(wǎng)絡(luò)覆蓋問題產(chǎn)生的原因可概括如下:
(1) 不合理的基站選址。
(2) 網(wǎng)絡(luò)規(guī)劃的結(jié)果與實際的覆蓋效果產(chǎn)生偏差。在網(wǎng)絡(luò)規(guī)劃和部署之初,工作人員會根據(jù)基站部署地周邊的傳播環(huán)境和地理信息,結(jié)合指定的覆蓋要求做相關(guān)的鏈路預(yù)算,并根據(jù)計算出的預(yù)留量來設(shè)定基站工程參數(shù),如天線下傾角和發(fā)射功率等。隨著基站周圍的環(huán)境發(fā)生變化,如產(chǎn)生新的建筑造成遮擋,或產(chǎn)生新的覆蓋需求等原因,最初的基站工程參數(shù)配置已不是最優(yōu)配置。
(3) 基站的硬件設(shè)施故障。
解決弱覆蓋的思路是,在弱覆蓋地區(qū)找到一個合適的信號,并使之加強,加強信號主要通過調(diào)整天線的方位角和下傾角等工程參數(shù)以及修改功率等方式實現(xiàn)。另外在弱場引入遠端射頻單元(Remote Radio Unit,RRU)拉遠也可以解決問題。重疊覆蓋的解決思路也很明確,就是減小重疊覆蓋小區(qū)的覆蓋范圍,使之對其他小區(qū)的影響減到最小。對下傾角和功率等參數(shù)的調(diào)整能夠有效地減輕重疊覆蓋問題[11]。
遠程調(diào)整基站參數(shù)優(yōu)化成本低,可操作性高,是實際工作中重點研究的優(yōu)化對象和優(yōu)化手段。此外,為了保證優(yōu)化過程中不對網(wǎng)絡(luò)造成負面影響,要求保證基站的正常運作,在改變天線掛高和機械下傾角時,需要關(guān)閉整個系統(tǒng),實際工作中很少調(diào)整這些參數(shù)。本文使用調(diào)整天線的電子下傾角和天線發(fā)射功率作為優(yōu)化手段提升覆蓋率。
本文采用RF算法構(gòu)建小區(qū)天線參數(shù)與小區(qū)內(nèi)采樣點覆蓋情況的映射關(guān)系,可以根據(jù)小區(qū)調(diào)整后的工程參數(shù)設(shè)置,預(yù)測出小區(qū)內(nèi)接入終端覆蓋情況的變化。RF算法屬于多分類器系統(tǒng),是集成學(xué)習(xí)算法之一,該算法通過構(gòu)建并結(jié)合多個監(jiān)督學(xué)習(xí)模型實現(xiàn)學(xué)習(xí)任務(wù)。
RF算法是基于集成學(xué)習(xí)框架下的決策樹模型的,其算法流程如下:
(1) 對于數(shù)據(jù)集合大小為N的訓(xùn)練集合,隨機有放回地從中抽取N條數(shù)據(jù)樣本作為決策樹的訓(xùn)練集合,重復(fù)K次,產(chǎn)生K組訓(xùn)練集合;
(2) 從總量為L的特征向量中隨機選擇l個特征;
(3) 利用已選取的l個特征訓(xùn)練決策樹;
(4) 使用加權(quán)投票法產(chǎn)生最終預(yù)測結(jié)果H(x):
式中:wi為決策樹的預(yù)測權(quán)重;hi(x)為每個決策樹的預(yù)測結(jié)果。
因為RF算法在訓(xùn)練過程中引入了隨機樣本與隨機特征,使得訓(xùn)練后的模型不容易陷入過擬合。此外由于多棵決策樹的組合,使得RF算法在處理非線性數(shù)據(jù)時也能得到較好的效果,這些特性使得RF算法在網(wǎng)絡(luò)覆蓋預(yù)測的應(yīng)用場景中能夠有出色的表現(xiàn)。
將單個小區(qū)的網(wǎng)絡(luò)覆蓋率表示為該小區(qū)內(nèi)正常接入的終端采樣點與總終端采樣點的比值,若用Point表示小區(qū)內(nèi)的采樣點,則有:
式中:ratiowhole為全局覆蓋率;ratiocelli為第i個小區(qū)的覆蓋率;M為小區(qū)總數(shù)。覆蓋優(yōu)化的目標為弱覆蓋率和重疊覆蓋率最小,即最大化全局覆蓋率。具體地,每次迭代產(chǎn)生小區(qū)的天線參數(shù)調(diào)整值,將其輸入到覆蓋預(yù)測模型中,對小區(qū)內(nèi)所有采樣點更新覆蓋標簽,進而計算出小區(qū)覆蓋率。需要強調(diào)的是,式(7)中計算全局覆蓋率的方式為所有小區(qū)的覆蓋率加權(quán)和,為消除每個小區(qū)終端數(shù)量的差異帶來的全局覆蓋率計算偏差,在進行仿真前保證每個小區(qū)中采樣點數(shù)量近似。
強化學(xué)習(xí)是一類特定的機器學(xué)習(xí)問題,一個強化學(xué)習(xí)系統(tǒng)由環(huán)境與智能體兩部分組成,智能體通過觀察環(huán)境,做出行動,隨后獲取來自環(huán)境的獎勵,因此強化學(xué)習(xí)是一個通過與環(huán)境的交互來學(xué)習(xí)如何最大化獎勵的優(yōu)化過程,本文使用Q學(xué)習(xí)作為覆蓋優(yōu)化算法。
若定義回報Gt為強化學(xué)習(xí)的獎勵和,則有:
式中:t為一個確定性的變量,表示回合數(shù);T為回合的總步數(shù),是一個隨機變量;γ為折扣系數(shù);R為獎勵信號。基于回報的定義,可以得到Q學(xué)習(xí)中對于價值函數(shù)qπ的表示:
式中:St為當前狀態(tài);At為當前動作;s為屬于狀態(tài)空間S內(nèi)的狀態(tài);a為屬于動作空間A中的動作;π為策略;E為期望。將π定義為從狀態(tài)到動作的轉(zhuǎn)移概率,表示為
式中:P為動作為a且狀態(tài)為s的轉(zhuǎn)移概率。
強化學(xué)習(xí)訓(xùn)練智能體的目的在于,在迭代的過程中,通過最大化回報來求解出最優(yōu)策略。對于不同的策略π和π',若有任意s∈S,都有qπ(s,a) 式中,q*(s,a)為最優(yōu)(動作)價值函數(shù)。 若有不止一個動作使得q*(s,a)最大,則隨機選取一個動作執(zhí)行即可[12]。q*(s,a)可表示為 式中,maxπ為在策略π下的最大動作狀態(tài)函數(shù)值。 強化學(xué)習(xí)框圖如圖2所示,在每次迭代過程中,Q學(xué)習(xí)智能體將本次迭代所調(diào)整的小區(qū)編號、天線電子下傾角與天線發(fā)射功率作為動作輸入到覆蓋預(yù)測模型中,該模型會遍歷小區(qū)中所有的采樣點,輸出與該小區(qū)對應(yīng)的每個采樣點的覆蓋標簽,從而計算出小區(qū)的覆蓋率,以提高覆蓋率為依據(jù),環(huán)境在每一輪迭代中向智能體反饋獎勵信號,智能體根據(jù)獎勵信號更新價值函數(shù)。Q學(xué)習(xí)算法的輸出是一張Q值表格,表示在每一個網(wǎng)絡(luò)覆蓋狀態(tài)s下,選取優(yōu)化動作a所能帶來的回報,回報越高,表示選擇該動作對于覆蓋率的提升有越好的效果。 圖2 強化學(xué)習(xí)框圖Figure 2 Reinforcement learning block diagram 針對網(wǎng)絡(luò)覆蓋優(yōu)化場景的Q學(xué)習(xí)問題,映射分為狀態(tài)空間、動作空間、獎勵函數(shù)、Q值更新以及改進的自適應(yīng)優(yōu)先級動作搜索算法5個方面,下面依次進行說明。 2.2.1 狀態(tài)空間 將Q學(xué)習(xí)算法應(yīng)用在網(wǎng)絡(luò)覆蓋優(yōu)化場景中時,需要對狀態(tài)空間進行一定的設(shè)置和約束。Q學(xué)習(xí)的狀態(tài)反映了當前的無線網(wǎng)絡(luò)性能狀態(tài),在本文的覆蓋優(yōu)化場景中,智能體每次選擇區(qū)域中多個小區(qū)中的一個小區(qū)作為優(yōu)化目標,調(diào)整其天線參數(shù)配置。將調(diào)整后的網(wǎng)絡(luò)覆蓋率和本輪迭代被調(diào)整的小區(qū)作為Q學(xué)習(xí)的狀態(tài),因此,本文描述的覆蓋優(yōu)化問題所對應(yīng)的狀態(tài)空間State可表示為 式中:Currenteci為當前調(diào)整的小區(qū)編號;Coverageeci為該小區(qū)對應(yīng)的局部覆蓋率;Coveragetotal為整個待優(yōu)化區(qū)域的全局覆蓋率。 2.2.2 動作空間 本文中涉及的覆蓋優(yōu)化問題是小區(qū)天線電子下傾角和天線發(fā)射功率的多維優(yōu)化問題,因此將本文的動作集合Action設(shè)置為 式中:actioneci為選擇調(diào)整參數(shù)的小區(qū)編號;actiondown_tilt和actionpower分別為天線電子下傾角和天線發(fā)射功率的調(diào)整,可表示為{increase,keep,decrease},分別為增加、保持當前不變和減少3個動作,在仿真部分會針對不同的調(diào)整步長做比較分析。 2.2.3 獎勵函數(shù) (1)治療:對照組--抗感染治療,青霉素靜點200-2000萬U/d;祛痰治療,口服氯化銨0.3-0.6g/次;病情較嚴重者以利尿為主實施微循環(huán)改善輔助治療,可使用藥物為硝酸甘油(10-200ug/min)。觀察組--在對照組治療方法基礎(chǔ)上,用冠心寧改善患者血液循環(huán),若患者出現(xiàn)水腫伴心力衰竭,靜推20-40mg/次。臨床治療需對兩組患者進行密切觀察與記錄,根據(jù)患者病情加減藥物。 Q學(xué)習(xí)作為強化學(xué)習(xí)的經(jīng)典模型,學(xué)習(xí)的最終目標是構(gòu)建一個q(s,a)值表格,這個表格反映了在每個狀態(tài)下選擇不同動作的收益,值越大表示該動作所帶來的收益越高,收益由獎勵信號通過式(8)和式(9)得出。 獎勵信號為環(huán)境系統(tǒng)對于智能體上一步操作的評價。小區(qū)天線參數(shù)調(diào)整的目標是提高基站覆蓋率,即將處于重疊覆蓋或弱覆蓋的接入終端數(shù)量降到最低,因此Q學(xué)習(xí)中的獎勵信號參考全局覆蓋率變化這一個量綱,由式(6)和式(7)得出。若有coveragecur表示當前覆蓋率,coveragepast表示上一時刻覆蓋率,n表示獎勵的取值,則對獎勵函數(shù)Reward的計算可表示為 當全局覆蓋率提升時,表示當前小區(qū)的參數(shù)調(diào)整為積極有效的調(diào)整,此時應(yīng)反饋給智能體一個正值獎勵;若全局覆蓋率下降,則表示當前調(diào)整為消極錯誤的調(diào)整,應(yīng)反饋給智能體一個負值獎勵;此外,當全局覆蓋率在一次迭代后維持不變時,也應(yīng)該反饋給智能體一個較小的負值獎勵,表示當前的調(diào)整為無效調(diào)整,這樣的設(shè)置可以縮短優(yōu)化算法的收斂時長。 2.2.4Q值更新 在起始階段,Q表中的每一個值會被隨機賦值,當智能體每采取一個動作并執(zhí)行后,就會產(chǎn)生一個相應(yīng)的回報,智能體以此回報更新Q表內(nèi)的數(shù)值。Q表中的值可以根據(jù)價值函數(shù)來進行更新,價值函數(shù)的更新可表示為 式中:Qt(s,a)為狀態(tài)—動作對在t時刻的值函數(shù);αt∈[0,1]為學(xué)習(xí)因子,用于控制學(xué)習(xí)速度,其值越大收斂速度越快,但是可能導(dǎo)致無法獲得最優(yōu)解;若有rt表示Q學(xué)習(xí)中當前瞬時的回報值,則(rt+γmaxa'(Qt(s',a')))為主要的更新內(nèi)容。 2.2.5 改進的自適應(yīng)優(yōu)先級動作搜索算法 策略更新算法可能會以一個并不好的策略作為起始,在迭代過程中僅僅經(jīng)過一些較差的狀態(tài),導(dǎo)致更好狀態(tài)的價值函數(shù)沒有得到更新,伴隨著回合更新次數(shù)的增加,最優(yōu)策略卻沒有找到。為解決此問題,可使用貪心策略進行動作選擇,用于在迭代過程中覆蓋所有的狀態(tài)動作對。貪心策略可表示為 針對覆蓋優(yōu)化場景,本文將自適應(yīng)小區(qū)優(yōu)化優(yōu)先級的概念融入上述貪心策略。對于一個由多個小區(qū)組成的區(qū)域,全局覆蓋率可以由各個小區(qū)覆蓋率的加權(quán)累和求出,如1.5節(jié)式(7)所示。對于式(17)所示的傳統(tǒng)貪心策略,選擇動作時,有a∈A(s),表示從所有的小區(qū)編號、天線電子下傾角調(diào)整值和發(fā)射功率調(diào)整值的所有組合中選取一個動作,因此可以縮小動作空間A(s)的范圍為A'(s)。具體地,在計算每個小區(qū)的覆蓋率之后,智能體可以優(yōu)先選擇覆蓋率較低的小區(qū)進行調(diào)整,根據(jù)小區(qū)覆蓋率列表,將動作空間縮小為A'(s)=[ECImin,Tilt,Power],式中,Tilt為基站天線的電子下傾角;Power為天線的發(fā)射功率;ECImin為覆蓋率最低的小區(qū),即對于每一個時刻,智能體優(yōu)先選擇覆蓋率最低的小區(qū),在確定了優(yōu)化目標小區(qū)后,使用貪心策略和Q值表,從參數(shù)組合中選擇執(zhí)行的動作。使用自適應(yīng)優(yōu)先級的動作算法會加速算法收斂,優(yōu)化曲線更加平滑,提高優(yōu)化效果和效率。 綜上所述,改進的自適應(yīng)優(yōu)先級動作搜索算法的實現(xiàn)過程如下: 輸入:環(huán)境、策略π。 輸出:動作價值函數(shù)q(s,a)。 1.初始化:q(s,a)←任意值,s∈S,a∈A。若有終止狀態(tài)send,則令q(send,a)←0,a∈A。 2.對每個回合執(zhí)行以下操作: 2.1.初始化狀態(tài)動作對:選擇狀態(tài)s。 2.2.如回合未結(jié)束,執(zhí)行以下操作: 2.2.1.以celli為單位,計算覆蓋率并將其存入數(shù)組Dict[i],并用i表示對應(yīng)的索引位置; 2.2.2.選擇覆蓋率最小的ECImin; 2.2.3.在狀態(tài)s下,按照改進的貪心策略決定動作a; 2.2.4.執(zhí)行動作a,觀測得到獎勵R和新狀態(tài)s'; 2.2.5.計算回報的估計值U: U←R+γmaxa∈A(S')q(S',a) ; 更新q(s,a)以減小[U-q(S,A)]2。 為驗證算法的可行性,本文使用來自江蘇省南京市2020年7月某7天內(nèi)的蜂窩網(wǎng)絡(luò)數(shù)據(jù),在北緯 31.770~31.784 °,東經(jīng)118.820~118.862 °,約4.23 km2區(qū)域內(nèi)采樣。 本文使用的數(shù)據(jù)字段及其說明如表1和表2所示。 表1 基站側(cè)數(shù)據(jù) 表2 采樣點數(shù)據(jù) 表1基站側(cè)的相關(guān)字段中,E-CGI由4部分組成:移動國家碼、移動網(wǎng)絡(luò)碼、位置區(qū)號碼和小區(qū)標識碼。在采樣點側(cè)屬性中,ECI為小區(qū)編號,提取基站側(cè)屬性E-CGI中的位置區(qū)號碼和小區(qū)標識碼字段,通過ECI將終端采樣點數(shù)據(jù)與對其進行服務(wù)的小區(qū)數(shù)據(jù)進行關(guān)聯(lián)拼接,作為一條完整的樣本數(shù)據(jù),即拼接后的數(shù)據(jù)中既包含終端采樣點的數(shù)據(jù),也包含該終端接入小區(qū)的工程參數(shù)配置數(shù)據(jù),該樣本數(shù)據(jù)用于訓(xùn)練覆蓋預(yù)測模型。 本文使用數(shù)據(jù)來自于城市配送服務(wù)工作者配備的路測設(shè)備,因此采集到的數(shù)據(jù)中會夾雜重復(fù)數(shù)據(jù),此外,還存在部分字段值缺失的數(shù)據(jù)。在數(shù)據(jù)處理時,首先應(yīng)該對冗余和無效數(shù)據(jù)進行清除,隨后對數(shù)據(jù)添加覆蓋標簽,以用于訓(xùn)練覆蓋預(yù)測模型。文本按照式(2)和式(4),將正常采樣點標記為0,將處于弱覆蓋的采樣點標記為1,處于重疊覆蓋的采樣點標記為2。最終得到6 880條數(shù)據(jù),標簽為0的采樣點數(shù)據(jù)量為5 941條,占比86.3%;標簽為1的數(shù)據(jù)量為447條,占比6.5%;標簽為2的數(shù)據(jù)量為939條,占比13.6%。這是一個典型的不平衡數(shù)據(jù)集。使用類別標簽失衡的數(shù)據(jù)集進行訓(xùn)練,會導(dǎo)致模型失效。合成少數(shù)類過采樣(Synthetic Minority Over-sampling Techique,SMOTE)算法一直是解決不平衡數(shù)據(jù)集的一個有效方法[13],本文通過SMOTE欠采樣與過采樣結(jié)合的方法,首先對大樣本數(shù)據(jù)進行欠采樣,隨后對重疊覆蓋以及弱覆蓋采樣點進行過采樣。平衡化前后的采樣點分布如圖3所示,由圖可知,在保證合理分布的情況下,增加了弱覆蓋和重疊覆蓋這些小樣本數(shù)據(jù)的數(shù)量。 圖3 樣本分布Figure 3 Distribution of Samples 本文使用基于強化學(xué)習(xí)的覆蓋優(yōu)化方法,是在覆蓋預(yù)測模型的基礎(chǔ)上進行迭代優(yōu)化,因此覆蓋預(yù)測模型的準確度是一個十分重要的性能指標。 本文選擇的參與模型訓(xùn)練的特征包括:基站位置信息(經(jīng)度和緯度)、接入終端位置信息(經(jīng)度和緯度)、基站和基站與接入終端的距離信息、天線方位角、天線電子下傾角、天線機械下傾角和基站站高。 為了驗證預(yù)測模型的準確性,將帶標簽的現(xiàn)網(wǎng)數(shù)據(jù)集合按比例切分為訓(xùn)練集合與測試集合,使用訓(xùn)練集合訓(xùn)練模型;隨后使用測試集合來驗證模型的預(yù)測性能。測試數(shù)據(jù)集與訓(xùn)練數(shù)據(jù)集擁有相同的結(jié)構(gòu),但對于模型來說屬于陌生數(shù)據(jù)。將使用預(yù)測模型得到的標簽與測試數(shù)據(jù)集中真實的標簽計算,得到預(yù)測模型的準確率。 RF算法與其他標準分類算法的性能比較如表3所示。其中原始數(shù)據(jù)表示直接使用未經(jīng)過數(shù)據(jù)清洗的數(shù)據(jù),特征工程表示使用經(jīng)過平衡化并對特征進行歸一化處理后的樣本數(shù)據(jù)。 表3 預(yù)測模型準確率對比 對比結(jié)果表明,RF算法對于新的輸入數(shù)據(jù)具有很好的預(yù)測效果,且RF算法相較于其他預(yù)測算法,具有更好的預(yù)測性能。 圖4所示為覆蓋優(yōu)化過程的迭代對比圖,使用基于改進的Q學(xué)習(xí)算法,并將天線下傾角調(diào)整步長設(shè)置為1 °,天線發(fā)射功率調(diào)整步長設(shè)置為10 dBm時,將強化學(xué)習(xí)獎勵值n取值為10,傳統(tǒng)的Q學(xué)習(xí)在每一輪迭代中,隨機選取一個小區(qū)進行優(yōu)化,改進算法在優(yōu)化過程中,優(yōu)化動作被限定在覆蓋率最低的小區(qū)所對應(yīng)的動作空間中,因此在覆蓋率提升方面呈現(xiàn)出穩(wěn)定的逐步上升趨勢,有更穩(wěn)定的表現(xiàn)。在減少大量波動的情況下,迭代至1 400次時趨于收斂,相較于傳統(tǒng)算法,收斂速度也得到了提升。優(yōu)化后總覆蓋率提升接近20%。 圖4 覆蓋優(yōu)化迭代對比Figure 4 Iterative comparison of coverage optimization 圖5所示為對于天線下傾角和天線發(fā)射功率不同調(diào)整步長的迭代曲線對比。分別將天線下傾角和天線發(fā)射功率的調(diào)整步長設(shè)置為1 °和5 dBm、1 °和7 dBm、1 °和10 dBm、2 °和5 dBm以及2 °和10 dBm。由圖可見,當天線下傾角調(diào)整步長設(shè)置為1 °,天線發(fā)射功率調(diào)整步長調(diào)整為5 dBm時,算法擁有最快的收斂速度;當天線下傾角調(diào)整步長為2 °,天線發(fā)射功率調(diào)整步長設(shè)置為10 dBm時,收斂最慢,因此可知,仿真使用數(shù)據(jù)的覆蓋率對于天線發(fā)射功率較為敏感,使用小步長動作空間的收斂速度明顯優(yōu)于使用大步長的。 圖5 覆蓋優(yōu)化參數(shù)對比Figure 5 Comparison of coverage optimization parameters 需要指出的是,覆蓋問題可能由多個因素造成,針對天線下傾角和發(fā)射功率的覆蓋優(yōu)化并不能解決所有的覆蓋問題,在工程中,如果始終未能達到理想的覆蓋效果,應(yīng)該考慮多種因素和對應(yīng)的解決方案。 針對移動通信網(wǎng)絡(luò)覆蓋場景,本文提出了基于Q學(xué)習(xí)的自適應(yīng)網(wǎng)絡(luò)覆蓋優(yōu)化算法,使用RF模型模擬網(wǎng)絡(luò)環(huán)境,并以此作為Q學(xué)習(xí)的環(huán)境,使用基于優(yōu)先級的動作決策算法進行覆蓋優(yōu)化,減少了對于環(huán)境假設(shè)以及數(shù)學(xué)建模的依賴。通過改進的Q學(xué)習(xí)算法,優(yōu)化區(qū)域覆蓋率提升達到20%,有效降低了重疊覆蓋率與弱覆蓋率,同時相較于傳統(tǒng)的Q學(xué)習(xí)算法,將收斂速度提升至1 500次內(nèi),此外縮小天線參數(shù)調(diào)整的步長,可以將收斂速度進一步提升。相較于啟發(fā)式天線參數(shù)優(yōu)化算法,本文提出的算法具有經(jīng)驗積累和自主優(yōu)化的優(yōu)勢,訓(xùn)練后的模型能夠識別覆蓋問題,并快速做出優(yōu)化決策;與針對仿真場景提出的天線參數(shù)優(yōu)化方法相比,本算法從實際的網(wǎng)絡(luò)場景出發(fā),使用現(xiàn)網(wǎng)數(shù)據(jù)訓(xùn)練模型,具有一定的工程實踐基礎(chǔ)以及運維工作指導(dǎo)意義。 根據(jù)本文研究內(nèi)容,下一步需要將優(yōu)化問題擴展為小區(qū)容量與覆蓋聯(lián)合優(yōu)化模型,在保證覆蓋率的同時合理地分配網(wǎng)絡(luò)資源[14]。2.2 Q學(xué)習(xí)問題映射
3 仿真結(jié)果與分析
3.1 數(shù)據(jù)說明
3.2 數(shù)據(jù)處理
3.3 模型驗證
3.4 優(yōu)化結(jié)果分析
4 結(jié)束語