倪飛祥
(1.上海微系統(tǒng)與信息技術(shù)研究所 上海201210;2.中國科學(xué)院大學(xué) 北京100049)
基于改進(jìn)小波-Elman神經(jīng)網(wǎng)絡(luò)算法的蜂窩網(wǎng)流量預(yù)測(cè)
倪飛祥1,2
(1.上海微系統(tǒng)與信息技術(shù)研究所 上海201210;2.中國科學(xué)院大學(xué) 北京100049)
對(duì)于在現(xiàn)代蜂窩網(wǎng)資源管理中,動(dòng)態(tài)信道資源和能源效率控制技術(shù)的提升,很大程度依賴于早期精準(zhǔn)的監(jiān)測(cè)和對(duì)蜂窩基站流量的預(yù)測(cè)。分析基站流量數(shù)據(jù),主要通過有效提取基站間隱含的時(shí)空信息進(jìn)行流量預(yù)測(cè)。在本文中,我們通過對(duì)華北某大城市的實(shí)測(cè)數(shù)據(jù),進(jìn)行了基于時(shí)空關(guān)聯(lián)性的分析,采用k-NN算法,獲取蜂窩網(wǎng)基站間的時(shí)間相關(guān)性,選擇合適的移動(dòng)窗口大小,并結(jié)合了小波-Elman神經(jīng)網(wǎng)絡(luò)(ENN)算法來實(shí)現(xiàn)流量預(yù)測(cè)。最后,通過量化蜂窩網(wǎng)流量預(yù)測(cè)的準(zhǔn)確度,并與先前存在的其他方法進(jìn)行對(duì)比,得出了本文提出的方法有優(yōu)越性。
流量預(yù)測(cè);k-NN算法;Elman神經(jīng)網(wǎng)絡(luò);小波變換分析
隨著移動(dòng)用戶的快速增長(zhǎng),隨之產(chǎn)生的數(shù)據(jù)流量也爆炸式地增長(zhǎng),據(jù)思科近期發(fā)布的關(guān)于全球移動(dòng)數(shù)據(jù)流量預(yù)測(cè)的白皮書中,預(yù)計(jì)到2019年,全球移動(dòng)數(shù)據(jù)流量的月度數(shù)值將會(huì)超過24.3 EB/月[1]。盡管目前移動(dòng)數(shù)據(jù)流量只占了全球IP流量的一小部分,但其同期增長(zhǎng)速度是全球IP無線流量的3倍。屆時(shí)由智能手機(jī)所產(chǎn)生的移動(dòng)數(shù)據(jù)總流量將占移動(dòng)數(shù)據(jù)總流量的75%。爆炸式的數(shù)據(jù)流量增長(zhǎng)方式給移動(dòng)運(yùn)營商對(duì)基站資源的有效分配,能源有效利用率的提高提出了巨大的挑戰(zhàn)。因此,分析蜂窩網(wǎng)流量數(shù)據(jù),并能有效預(yù)測(cè)未來流量數(shù)據(jù)對(duì)有限資源的優(yōu)化及節(jié)能方面,顯得尤為重要。
通過對(duì)流量數(shù)據(jù)的分析預(yù)測(cè),主要為了幫助移動(dòng)運(yùn)營商預(yù)知未來幾小時(shí)的擁堵情況,以及建立一個(gè)應(yīng)用于提高網(wǎng)絡(luò)容量的資源分配模型。此外,超過80%的能源被消耗在基站上[2]。因此,通過有效預(yù)測(cè)流量數(shù)據(jù),關(guān)閉某些不需要的基站,對(duì)移動(dòng)運(yùn)營商來說,也是非常有利的。
在實(shí)測(cè)基站流量數(shù)據(jù)中,從每個(gè)基站搜集到的數(shù)據(jù)為離散的時(shí)間序列。對(duì)于時(shí)序數(shù)據(jù)的預(yù)測(cè),目前存在很多中方法,如ARIMA(Auto-RegressiveIntegrated Moving Average)模型[3],MMPP(Markov Modulated Poisson Process)模型[4],以及線性預(yù)測(cè)模型[5]等。但由于用戶的隨機(jī)不規(guī)則行為活動(dòng),使得無線網(wǎng)絡(luò)是非線性的以及基站的流量數(shù)據(jù)是非平穩(wěn)的。因此,基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法已經(jīng)廣泛應(yīng)用于時(shí)序數(shù)據(jù)的分析和預(yù)測(cè)。其中,因Elman網(wǎng)絡(luò)是一個(gè)具有局部記憶單元和局部反饋連接的前向神經(jīng)網(wǎng)絡(luò),因此,對(duì)于預(yù)測(cè)問題,對(duì)比傳統(tǒng)預(yù)測(cè)方法以及 BP(Back Propagation)神經(jīng)網(wǎng)絡(luò),它的性能更好[6]。結(jié)合小波變換分解對(duì)數(shù)據(jù)的預(yù)處理,能提取更穩(wěn)定,更平滑以及更能量集中的信息,以此能有效提高數(shù)據(jù)的分析和預(yù)測(cè)性能[7]。在我們的論文中,主要在文獻(xiàn)[7]的基礎(chǔ)上,改進(jìn)了基站流量數(shù)據(jù)的預(yù)處理過程,使用稀疏壓縮感知的方法對(duì)缺失數(shù)據(jù)做了更高效的修補(bǔ)[8],用k-NN算法對(duì)訓(xùn)練樣本大小做了更科學(xué)的調(diào)整。
1.1 蜂窩網(wǎng)流量數(shù)據(jù)的特性
蜂窩網(wǎng)絡(luò)的流量數(shù)據(jù)是一種與用戶行為密切相關(guān)的數(shù)據(jù),這也導(dǎo)致了采集到的流量數(shù)據(jù)的一些固有特征,以及具有明顯的用戶相關(guān)性。在時(shí)間維度上,首先,用戶的行為一般都有明顯的白天-黑夜模式的差異,白天時(shí)段的網(wǎng)絡(luò)流量高,黑夜時(shí)段的網(wǎng)絡(luò)流量低;其次,每個(gè)蜂窩網(wǎng)用戶對(duì)于時(shí)間的管理和規(guī)劃概念基本相同,比如,工作日由于大部分用戶都處于工作狀態(tài),使用移動(dòng)設(shè)備的時(shí)間較長(zhǎng),而周末大部分用戶則處于休息狀態(tài),使用各種通信手段的概率明顯降低。
在實(shí)際蜂窩網(wǎng)流量數(shù)據(jù)中,通常存在很大一部分?jǐn)?shù)據(jù)的丟失,而很多基于歷史流量數(shù)據(jù)的分析預(yù)測(cè),都不允許有數(shù)據(jù)缺失或者丟失數(shù)據(jù)影響較大,因此對(duì)于流量數(shù)據(jù)的預(yù)處理對(duì)于最終預(yù)測(cè)性能的影響是至關(guān)重要的。
1.2 小波變換原理
離散小波變換(Discrete wavelet transform)在數(shù)字信號(hào)處理、石油勘探、地震預(yù)報(bào)、醫(yī)學(xué)斷層診斷、編碼理論、量子物理及概率論等領(lǐng)域中都得到了廣泛的應(yīng)用[9]。函數(shù)ψ∈L2(R)被稱為基本小波。
給定一個(gè)基波,通過對(duì)基本小波的尺度和平移,可得到:
如果函數(shù)f∈L2(R),則可用上述表示為
通過小波變換工具,將時(shí)序數(shù)據(jù)f用近似和細(xì)節(jié)系數(shù)cj,k表示。即可將f通過小波變換投影到不同的尺度[10-12],在一定的預(yù)測(cè)要求下,尺度選得太大并不能顯著提高預(yù)測(cè)性能,反而會(huì)降低計(jì)算效率。具體分解方式如圖1所示,首先將f分解成一個(gè)低頻分量a1和一個(gè)高頻分量d1,即分解為f=a1+d1。其次為了進(jìn)一步分析f的細(xì)節(jié)特性,低頻分量a1又可分解成a2和d2。因此,通過N級(jí)小波變換,可將f分解為f=d1+d2+d3+…+dN+aN。
在本文中,采用三級(jí)小波變換分解,以及用近似對(duì)稱、光滑的緊支撐雙正交小波Daubechies函數(shù)作為母小波。圖1是一周內(nèi)某基站流量數(shù)據(jù)及其小波分解系數(shù)。將原始信號(hào)分解成3個(gè)高頻信號(hào)與一個(gè)低頻信號(hào)。
圖1 三級(jí)小波變換分解
1.3 Elman神經(jīng)網(wǎng)絡(luò)
Elman神經(jīng)網(wǎng)絡(luò)是一種典型的局部回歸網(wǎng)絡(luò)(Global feed for ward local recurrent)[13]。它的主要結(jié)構(gòu)是前饋連接,包括輸入層、隱含層、輸出層,其連接權(quán)可以進(jìn)行學(xué)習(xí)修正;反饋連接由一組“結(jié)構(gòu)”單元構(gòu)成,用來記憶前一時(shí)刻的輸出值,其連接權(quán)值是固定的。圖2為基本的Elman神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖。
圖2 Elman神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
在本文中,由于蜂窩網(wǎng)流量本身的非線性特性,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)無法準(zhǔn)確預(yù)測(cè)其流量。而Elman神經(jīng)網(wǎng)絡(luò)是在傳統(tǒng)網(wǎng)絡(luò)基本結(jié)構(gòu)的基礎(chǔ)上,通過存儲(chǔ)內(nèi)部狀態(tài)使其具備映射的動(dòng)態(tài)特征功能,從而使系統(tǒng)具有適應(yīng)時(shí)變特性的能力。
2.1 改進(jìn)的相似基站算法
1)基站相似度
傳統(tǒng)蜂窩網(wǎng)流量預(yù)測(cè)在對(duì)該網(wǎng)絡(luò)的歷史數(shù)據(jù)分析預(yù)測(cè)時(shí),往往忽略了基站與基站之間的空間相關(guān)性,而流量的變化往往與用戶行為事件的發(fā)生有關(guān),比如基站a周邊為某商業(yè)區(qū),往往跟同為商業(yè)區(qū)的基站b變化趨勢(shì)相似。因此,在對(duì)基站a的歷史數(shù)據(jù)進(jìn)行訓(xùn)練時(shí),若把基站b的數(shù)據(jù)變化規(guī)律也學(xué)習(xí)進(jìn)來,對(duì)最終的預(yù)測(cè)結(jié)果將有明顯的提升。
在本文中,通過遍歷計(jì)算與其他基站數(shù)據(jù)的相似度,從而找出相似度最佳的基站。比較兩個(gè)序列的相似性常用算法有歐式距離與皮爾遜距離,兩者間距離越小越相似。由于皮爾遜距離更能捕捉到兩序列的變化趨勢(shì),因此本文采用的皮爾遜相關(guān)系數(shù)。計(jì)算公式如下所示:
其中,X,Y分別代表兩個(gè)不同基站的數(shù)據(jù),N為其長(zhǎng)度。
2)加權(quán)相似
在實(shí)際生活中,存在各種突發(fā)事件的情況,而只找一個(gè)皮爾遜距離最小的基站往往無法反應(yīng)出這種情形[14-15]。因此,在此基礎(chǔ)上,我們又對(duì)其做了改進(jìn)。
通過k-NN算法,找出與基站X最近似的k個(gè)基站,假設(shè)該k個(gè)基站分別為Y1,Y2,Y3,…Yk,相對(duì)應(yīng)的k個(gè)相關(guān)系數(shù)分別為,將ρX,Yi通過ρX,Yi/∑ρX,Yi歸一化后, 最終得到與基站X的加權(quán)相似基站Y為:
通過加權(quán)相似求得Y,對(duì)比沒有加權(quán)的,構(gòu)造出的樣本對(duì)目標(biāo)基站的預(yù)測(cè)更有針對(duì)性,也更加符合其變化趨勢(shì)。
2.2 蜂窩流量預(yù)測(cè)方法
文中采用k-NN算法尋找最佳相似基站,并通過三級(jí)小波分解將信號(hào)f分解成4部分,通過移動(dòng)窗口的方式構(gòu)建訓(xùn)練樣本與測(cè)試樣本,最后將樣本輸入到Elman神經(jīng)網(wǎng)絡(luò)。其主要結(jié)構(gòu)如圖3所示。其中α3,d1,d2和d3為圖1中由小波變換分解產(chǎn)生的序列,和為通過Elman小波變換輸出的預(yù)測(cè)結(jié)果,并將其合成最終的時(shí)序數(shù)據(jù)。
圖3 小波-Elman神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型
3.1 仿真數(shù)據(jù)
文中以華北某大城市實(shí)際用戶產(chǎn)生的移動(dòng)基站流量數(shù)據(jù)做仿真,其中包含動(dòng)態(tài)數(shù)據(jù)與靜態(tài)數(shù)據(jù),動(dòng)態(tài)數(shù)據(jù)有基站等效流量話務(wù)量以及通話話務(wù)量,靜態(tài)數(shù)據(jù)有每個(gè)基站的位置信息,天線高度以及網(wǎng)絡(luò)類型等。選取時(shí)間為2012年6月1日至6月7日,采樣間隔為1小時(shí)。在實(shí)際中,根據(jù)用戶的作息規(guī)律,用戶數(shù)據(jù)主要產(chǎn)生于早上6:00至晚上22:00,因此,在文中只對(duì)該時(shí)段內(nèi)進(jìn)行預(yù)測(cè)。
3.2 評(píng)價(jià)標(biāo)準(zhǔn)
為了定量評(píng)判最佳的預(yù)測(cè)方法,本文采用均方誤差、標(biāo)準(zhǔn)平均絕對(duì)誤差和平均百分比誤差進(jìn)行評(píng)價(jià)和比較。設(shè)X(i,j)為流量實(shí)測(cè)值,X?(i,j)為流量預(yù)測(cè)值,n為測(cè)試點(diǎn)個(gè)數(shù),則誤差定義為:
均方誤差
標(biāo)準(zhǔn)平均絕對(duì)誤差
平均百分比誤差
3.3 預(yù)測(cè)結(jié)果和誤差分析
文中采用Matlab神經(jīng)網(wǎng)絡(luò)包進(jìn)行仿真。為了使本文的方法達(dá)到最佳性能,對(duì)于Elman網(wǎng)絡(luò)的參數(shù)進(jìn)行了調(diào)優(yōu),最終參數(shù)如表1所示。
表1 Elman神經(jīng)網(wǎng)絡(luò)參數(shù)
基于改進(jìn)小波-Elman神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)的的蜂窩網(wǎng)流量相對(duì)誤差如圖4所示,將實(shí)測(cè)值和預(yù)測(cè)值相比較得到的逐點(diǎn)相對(duì)誤差,詳見表2。
圖4 某基站預(yù)測(cè)流量的相對(duì)誤差
從圖4中,可以看出總體相對(duì)正負(fù)誤差均在1.5%以下,處于可接受范圍,其中早高峰與晚高峰時(shí)刻尤為準(zhǔn)確,這也正符合實(shí)際需求。
為了與傳統(tǒng)其他方法進(jìn)行比較,采用同一批數(shù)據(jù),分別用前向反饋神經(jīng)網(wǎng)絡(luò)(FNN)、帶小波變換的前向反饋神經(jīng)網(wǎng)絡(luò)(FW)、Elman神經(jīng)網(wǎng)絡(luò)(ENN)以及線性預(yù)測(cè)做仿真。同時(shí),為了體現(xiàn)出使用k-NN擴(kuò)充樣本的優(yōu)越性,本文也對(duì)其做了比較。比較結(jié)果分別用均方誤差(MSE)、標(biāo)準(zhǔn)平均絕對(duì)誤差(NMAE)以及平均百分比誤差(MAPE)評(píng)判。比較結(jié)果如表3所示。
表2 不同時(shí)刻對(duì)應(yīng)的相對(duì)誤差值
表3 不同方法的仿真結(jié)果比較
文中采用的預(yù)測(cè)模型在其它眾多的基站中選取了最佳相似的作為預(yù)測(cè)對(duì)象的樣本擴(kuò)充,同時(shí)采用小波變換與Elman神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測(cè)模型,使NMAE結(jié)果降至1.5%。
為了解決傳統(tǒng)模型在蜂窩網(wǎng)流量預(yù)測(cè)中預(yù)測(cè)精度不夠理想的問題,文中采用小波變換與Elman神經(jīng)網(wǎng)絡(luò)相結(jié)合的預(yù)測(cè)模型,并結(jié)合實(shí)際數(shù)據(jù)產(chǎn)生規(guī)律,提出了通過k-NN算法尋找最佳相似基站。仿真結(jié)果表明,文中使用的方法相比傳統(tǒng)預(yù)測(cè)模型有更強(qiáng)的優(yōu)勢(shì),具有較高的精準(zhǔn)度,是一種有效的蜂窩網(wǎng)流量的預(yù)測(cè)方法。
[1]Index C V N.Global mobile data traffic forecastupdate,2010-2015[J].White Paper,F(xiàn)ebruary,2011.
[2] Fettweis G, Zimmermann E. ICT energy consumption-trends and challenges[C]//Proceedings of the 11th International Symposium on Wireless Personal Multimedia Communications,2008,2(4):6.
[3]Shu Y,Yu M,Liu J,et al.Wireless traffic modeling and prediction using seasonal ARIMA models[C]//Communications,2003.ICC'03.IEEE International Conference on.IEEE,2003(3):1675-1679.
[4]Sang A,Li S.A predictability analysis of network traffic[J].Computer networks,2002,39(4):329-345.
[5]Makhoul J.Linear prediction:A tutorial review[J]. Proceedings of the IEEE,1975,63(4):561-580.
[6]劉寧,陳昱颋,虞慧群,等.基于 Elman神經(jīng)網(wǎng)絡(luò)的交通流量預(yù)測(cè)方法 [J].華東理工大學(xué)學(xué)報(bào):自然科學(xué)版,2011,37(2):204-209.
[7]Zang Y,Ni F,Feng Z,et al.Wavelet transform processing for cellular traffic prediction in machine learning networks[C]//Signal and Information Processing(ChinaSIP),2015 IEEE China Summit and International Conference on.IEEE,2015:458-462.
[8]Zhang Y,Roughan M,Willinger W,et al.Spatiotemporal compressive sensing and internet traffic matrices[C]//ACM SIGCOMM Computer Communication Review.ACM,2009,39(4):267-278.
[9]虞湘賓,董濤.一種離散小波變換的快速分解和重構(gòu)算法[J].東南大學(xué)學(xué)報(bào):自然科學(xué)版,2002,32(4):564-568.
[10]Percival D B,Walden A T.Wavelet methods for time series analysis [M].Cambridge university press,2006.
[11]Nguyen H T,Nabney I T.Combining the wavelet transform and forecasting models to predict gas forward prices[C]//Machine Learning and Applications,2008.ICMLA'08.Seventh International Conference on.IEEE,2008:311-317.
[12]Railean I,Stolojescu C,Moga S,et al.Wimax traffic forecasting based on neural networks in wavelet domain[C]//Research Challenges in Information Science(RCIS),2010 Fourth Interna-tional Conference on.IEEE,2010:443-452.
[13]Elman J L.Finding structure in time[J].Cognitive science,1990,14(2):179-211.
[14]羅辛,歐陽元新,熊璋,等.通過相似度支持度優(yōu)化基于K近鄰的協(xié)同過濾算法 [J].計(jì)算機(jī)學(xué)報(bào), 2010,33(8):1437-1445.
[15]蘇鵬,李玉忱,劉慧.一種新的加權(quán)k-最臨近分類方法[J].計(jì)算機(jī)工程與應(yīng)用,2004,39(35):183-185.
Cellular wireless traffic prediction based on improved wavelet-Elman neural network
NI Fei-xiang1,2
(1.Shanghai Institute of Microsystem and Information Technology,Shanghai 201210,China;2.University of Chinese Academy of Sciences,Beijing 100049,China)
In the wireless network system,theresource dynamic control and energy efficiency improvement allclosely depend on the early and precise prediction result of basestation traffic.The characteristic of network traffic volume overspace and time play an important role in traffic prediction.Inthis paper,we make the preprocessing based on both temporaland spatial view for the cellular traffic data generated by alarge population city of China.For each base station,combinethe most similar another one through using k-Nearest Neighbor,determine the most appropriatesliding window size,integrate the Elman Neural Network(ENN)and wavelet transform to achieve the traffic volume prediction.We present numerical results to illustrate the accuracy of wirelesstraffic volume prediction,and we test the performance of ourmethod to demonstrate improvement over some existing methods.
traffic volume analysis;k-NN;Elman neural network;wavelet transformanalysis
TN911.6
:A
:1674-6236(2017)03-0171-05
2016-02-25稿件編號(hào):201602139
倪飛祥(1991—),男,浙江杭州人,碩士研究生。研究方向:通信中的大數(shù)據(jù)處理。