許繪香, 曹 敏, 馬瑩瑩
(鄭州工程技術(shù)學院 信息工程學院, 鄭州 450044)
由于計算機網(wǎng)絡(luò)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)通信業(yè)務(wù)越來越多,為了滿足網(wǎng)絡(luò)用戶對不同業(yè)務(wù)的通信需求,需要對當前網(wǎng)絡(luò)通信流量進行有效管理[1].網(wǎng)絡(luò)流量預(yù)測模型的構(gòu)建是實現(xiàn)網(wǎng)絡(luò)管理和流量控制的基礎(chǔ)工作,高精度的預(yù)測模型不僅能夠準確地提供未來時段的流量數(shù)據(jù),同時也可應(yīng)用于擁塞控制、僵尸檢測等多個方面[2].高精度預(yù)測模型具有精確描述網(wǎng)絡(luò)流量變化特性的能力,例如非線性、周期性和長相關(guān)性等.當前的流量預(yù)測模型僅能對線性網(wǎng)絡(luò)流量進行預(yù)測,無法準確描述網(wǎng)絡(luò)流量變化特性,應(yīng)用范圍有限,已不適用于大規(guī)模網(wǎng)絡(luò)流量的預(yù)測和分析[3].組合模型能夠擬合多個單一預(yù)測模型的優(yōu)點,更精確地描述網(wǎng)絡(luò)流量特征,已成為該領(lǐng)域的研究熱點,受到了廣泛關(guān)注[4-5].
國內(nèi)學者在網(wǎng)絡(luò)流量預(yù)測方面已取得較好成果[6].殷榮網(wǎng)[7]采用最小二乘支持向量機(LSSVM)算法構(gòu)建了網(wǎng)絡(luò)流量預(yù)測模型,利用模糊均值聚類算法對網(wǎng)絡(luò)流量聚類進行劃分,并去除其中孤立樣本點,將聚類結(jié)果構(gòu)建成訓練集,將其輸入至LSSVM中進行學習并構(gòu)建網(wǎng)絡(luò)流量預(yù)測模型,利用人工蜂群算法優(yōu)化LSSVM模型.大規(guī)模網(wǎng)絡(luò)流量具有非線性和突發(fā)性特點,采用該模型難以精確地描述非線性網(wǎng)絡(luò)流量變化趨勢,預(yù)測精度較低.
為了解決上述模型存在的問題,提高網(wǎng)絡(luò)流量的預(yù)測精度,提出基于大數(shù)據(jù)分析的非線性網(wǎng)絡(luò)流量組合預(yù)測模型.根據(jù)實驗結(jié)果可知,運用所提模型對網(wǎng)絡(luò)流量進行預(yù)測時預(yù)測精度較高,能夠滿足大規(guī)模網(wǎng)絡(luò)環(huán)境流量預(yù)測精度的要求,有效解決了傳統(tǒng)方法存在的問題.
網(wǎng)絡(luò)流量是指網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)量,由于其數(shù)據(jù)量規(guī)模較大,存在易擁塞、易受攻擊等問題,會導致網(wǎng)絡(luò)異?,F(xiàn)象的發(fā)生.網(wǎng)絡(luò)異常,即網(wǎng)絡(luò)服務(wù)器帶寬不滿足網(wǎng)絡(luò)用戶使用流量需求時導致的帶寬擁塞和病毒入侵等,使得真實的網(wǎng)絡(luò)流量具有混沌特性[8-9].本文在Matlab環(huán)境下搭建實驗平臺,利用NS2仿真軟件獲取網(wǎng)絡(luò)流量模擬數(shù)據(jù),圖1為采集到的網(wǎng)絡(luò)流量時間序列.
圖1 網(wǎng)絡(luò)流量原始時間序列Fig.1 Original time series of network flow
通過對該時間序列進行觀測和分析,可以發(fā)現(xiàn)網(wǎng)絡(luò)流量數(shù)據(jù)具有如下特性:1)突發(fā)性.受到相同局域網(wǎng)內(nèi)網(wǎng)絡(luò)帶寬的影響,實際采集的網(wǎng)絡(luò)流量數(shù)據(jù)具有突發(fā)特性.2)周期性.實際采集的網(wǎng)絡(luò)流量數(shù)據(jù)在采集周期內(nèi)呈現(xiàn)出階段性變化.3)長相關(guān)性.圖1所示的網(wǎng)絡(luò)流量數(shù)據(jù)具有相同的統(tǒng)計特性.4)非線性.網(wǎng)絡(luò)流量的變化與用戶數(shù)量、用戶使用高峰期、網(wǎng)絡(luò)路由協(xié)議等相關(guān),造成網(wǎng)絡(luò)流量的非線性.
綜上可知,網(wǎng)絡(luò)流量數(shù)據(jù)具有突變性、非線性等特點.對非線性網(wǎng)絡(luò)流量進行高精度預(yù)測,需要對網(wǎng)絡(luò)流量數(shù)據(jù)進行分解,從原始非線性網(wǎng)絡(luò)流量時間序列中提取其變化規(guī)律.
對采集的大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)進行小波分解,獲得多尺度分量,采用混沌理論對分解的多個尺度分量進行重構(gòu),獲得網(wǎng)絡(luò)流量子序列,具體過程如下:實際采集的網(wǎng)絡(luò)流量數(shù)據(jù)具有混沌特性,從原始非線性網(wǎng)絡(luò)流量數(shù)據(jù)提取其變化規(guī)律,重構(gòu)出等效的分布空間[10].對于實際采集的網(wǎng)絡(luò)流量數(shù)據(jù)xi(i=1,2,…,n),可通過分析其變化規(guī)律重構(gòu)出一個多維分布空間yi=(xi,xi+θ,…,xi+(m-1)θ),θ為時間維度,網(wǎng)絡(luò)中的流量數(shù)據(jù)普遍存在噪聲.
對采集的網(wǎng)絡(luò)流量數(shù)據(jù)進行小波分解,即
(1)
利用混沌理論對式(1)分解出的不同分量進行相空間重構(gòu),重構(gòu)出的非線性網(wǎng)絡(luò)流量子序列為
(2)
式中,g為相空間維度.
非線性網(wǎng)絡(luò)流量時間序列經(jīng)過快速小波分解,將網(wǎng)絡(luò)信號的高低頻部分有效分離,可從中挖掘出網(wǎng)絡(luò)流量數(shù)據(jù)周期性變化趨勢,消除其中突變部分,剩余的高頻部分能夠精確地描述網(wǎng)絡(luò)流量數(shù)據(jù)的變化特征.采用混沌理論對分解的多個尺度分量進行重構(gòu),降低了大規(guī)模非線性網(wǎng)絡(luò)流量數(shù)據(jù)的預(yù)測誤差及計算復雜度.
采用改進鳥群算法優(yōu)化核極限學習機模型參數(shù),利用優(yōu)化后的核極限學習機模型分別對重構(gòu)后的網(wǎng)絡(luò)流量子序列進行預(yù)測,將各個子序列的預(yù)測值進行組合,獲得最終的網(wǎng)絡(luò)流量預(yù)測結(jié)果.
采用改進鳥群算法通過種群個體之間的信息共享機制以及搜索策略最終獲得最優(yōu)解,具體尋優(yōu)步驟如下:
1) 覓食行為.鳥類成群覓食時比個體覓食收集到的信息更多,并且覓食效率更高.根據(jù)這個原則將網(wǎng)絡(luò)單元模擬為種群個體,整體網(wǎng)絡(luò)體系模擬為種群.通過混沌映射初始化種群個體τ在D維搜索空間內(nèi)的初始位置,每個個體依據(jù)歷史搜索經(jīng)驗以及種群經(jīng)驗覓食.在種群個體位置更新階段,引入隨機慣性權(quán)重避免陷入局部最優(yōu),同時根據(jù)隨機慣性權(quán)重值對種群中個體的認知因子C,C∈(Cmin,Cmax),以及加速因子S,S∈(Smin,Smax)進行動態(tài)調(diào)整,即
(3)
ω=ωmin+(ωmax-ωmin)rand(0,1)+
σrand(0,1)
(4)
(5)
(6)
2) 警惕行為.種群中的每只鳥在搜索過程中,都會試圖靠近種群中心位置飛行.警惕性強的個體相比警惕性低的個體更容易向種群個體中心飛行,彼此之間相互競爭,根據(jù)此原則可得
(7)
式中:A1為搜索空間影響因子,A1∈(0,1);A2為搜索空間干擾影響因子;meanj為群體第j維平均位置;pk,j為種群中搜索空間第j維的平均位置.
3) 個體飛行行為.鳥群會有規(guī)律地飛向某個地點,在飛行過程中,個體會在生產(chǎn)者與索取者之間進行切換,警惕性較低的個體尋找食物屬于生產(chǎn)者,警惕性較高的個體獲取食物屬于索取者,生產(chǎn)者以及索取者能夠脫離種群,根據(jù)此原則可得
(8)
基于改進的鳥群算法網(wǎng)絡(luò)流量子序列預(yù)測模型可得
Lrand(0,1)
(9)
式中:L為索取者通過生產(chǎn)者尋找食物的因子;f為正則化參數(shù).
基于改進的鳥群算法構(gòu)建的網(wǎng)絡(luò)流量子序列模型可以最小化輸出權(quán)值和訓練誤差,即
(10)
式中:LE為核極限學習機模型輸出權(quán)值;β為隱含層輸出權(quán)值向量,β∈[0,2];h(xτ)為隱含層輸出結(jié)果;ξτ為訓練輸出誤差.依據(jù)模型最優(yōu)化條件可求解獲得
(11)
式中:H為隱含層輸出矩陣;T為目標值矩陣.依據(jù)Mercer’s條件對重構(gòu)后的網(wǎng)絡(luò)流量子序列進行預(yù)測,其子序列流量預(yù)測矩陣為
ΩE=βh(xτ)h(xj)=K(xτ,xj)
(12)
式中,K(xτ,xj)為子序列流量數(shù)據(jù)預(yù)測函數(shù).利用改進的鳥群算法整合各個子序列的預(yù)測值,并對正則化參數(shù)進行優(yōu)化,提升預(yù)測精度,最終的網(wǎng)絡(luò)流量預(yù)測模型為
(13)
為了測試基于大數(shù)據(jù)分析的非線性網(wǎng)絡(luò)流量組合預(yù)測模型的性能,仿真實驗在Intel四核2.8 GHz CPU,4 GB內(nèi)存,操作系統(tǒng)為Windows7硬件配置電腦下進行,利用VC++軟件實現(xiàn)仿真實驗.仿真實驗來自NS2軟件提供的實際網(wǎng)絡(luò)流量數(shù)據(jù),共2 000個數(shù)據(jù)點,如圖2所示.將實際采集的網(wǎng)絡(luò)流量數(shù)據(jù)劃分為兩組,第一組含有1 500個流量數(shù)據(jù),將其作為訓練數(shù)據(jù)集;第二組含有500個流量數(shù)據(jù),將其作為測試數(shù)據(jù)集.
分析圖2a可知,訓練數(shù)據(jù)集中的網(wǎng)絡(luò)流量數(shù)據(jù)具有非線性的特點,數(shù)值變化幅度較大,并且變化幅度較大的流量數(shù)據(jù)會掩蓋變化幅度較小的流量數(shù)據(jù);圖2b測試訓練集中的網(wǎng)絡(luò)流量數(shù)據(jù)雖少,但是也呈現(xiàn)出非線性的變化特點.為了從采集的網(wǎng)絡(luò)流量數(shù)據(jù)樣本中獲取其變化規(guī)律,對圖2中的流量進行歸一化處理,即
圖2 實驗數(shù)據(jù)變化情況Fig.2 Change of experimental data
(14)
式中:xmax和xmin分別為歸一化處理后的流量數(shù)據(jù)最大值和最小值;x為原始網(wǎng)絡(luò)流量數(shù)據(jù)值.
為了使仿真實驗的驗證結(jié)果更具有說服力,選取文獻[7]模型、文獻[8]模型作為對比模型,將均方根誤差(RMSE)、平均相對百分比誤差(MAPE)作為評價指標對不同預(yù)測模型的性能進行評價,其表達式分別為
(15)
(16)
網(wǎng)絡(luò)流量受到用戶所屬局域網(wǎng)網(wǎng)絡(luò)帶寬、瀏覽行為、業(yè)務(wù)種類以及上網(wǎng)時段等因素的影響,具有混沌性、非線性、突變性.針對這些特性,在構(gòu)建網(wǎng)絡(luò)流量組合預(yù)測模型前,利用混沌理論計算仿真對象的延遲時間以及嵌入維度,得到的最優(yōu)延遲時間t以及嵌入維度m結(jié)果如圖3所示.
分析圖3可知,最優(yōu)延遲時間為t=5,最優(yōu)嵌入維度為m=4.選定t=5、m=4對網(wǎng)絡(luò)流量數(shù)據(jù)進行重構(gòu),獲得網(wǎng)絡(luò)流量樣本數(shù)據(jù),并將其劃分為訓練集和測試集.
圖3 延遲時間和嵌入維度的計算Fig.3 Calculation of delay time and embedded dimensions
將非線性網(wǎng)絡(luò)流量訓練集輸入到核極限學習機模型中進行學習,采用改進鳥群算法優(yōu)化核極限學習機模型,并構(gòu)建組合預(yù)測模型,預(yù)測結(jié)果以及預(yù)測誤差的變化如圖4所示.
圖4 所提模型單步預(yù)測結(jié)果Fig.4 One-step prediction results of as-proposed model
分析圖4可知,采用本文模型所得單步預(yù)測的流量值與實際網(wǎng)絡(luò)流量值較為接近,可高精度地描述網(wǎng)絡(luò)流量數(shù)據(jù)非線性變化特點,預(yù)測精度較高.結(jié)果表明,通過對采集的網(wǎng)絡(luò)流量數(shù)據(jù)進行小波分解,將分解后的網(wǎng)絡(luò)流量子序列進行相空間重構(gòu),并將重構(gòu)結(jié)果輸入至核極限學習機中,利用改進鳥群算法對核極限學習機模型進行優(yōu)化,構(gòu)建的組合預(yù)測模型是有效的.
所提模型與文獻[7]模型、文獻[8]模型所得的多步預(yù)測誤差結(jié)果如表1所示.
表1 不同模型單步預(yù)測精度對比Tab.1 Comparison of single-step prediction accuracy obtained by different models
分析表1結(jié)果可知,與文獻[7]模型以及文獻[8]模型相比,本文模型預(yù)測誤差最小,有效提高了預(yù)測精度,更適用于具有復雜特性的網(wǎng)絡(luò)流量預(yù)測.
對于具有非線性突變特性的網(wǎng)絡(luò)流量數(shù)據(jù),對其進行高精度預(yù)測需要提前一定的時間,多步預(yù)測網(wǎng)絡(luò)流量數(shù)據(jù)具有實際意義.采用本文模型對網(wǎng)絡(luò)流量數(shù)據(jù)進行多步預(yù)測,獲得的預(yù)測結(jié)果與預(yù)測誤差變化曲線如圖5所示.
圖5 本文模型多步流量預(yù)測結(jié)果Fig.5 Prediction results of multi-step flow obtained by as-proposed model
分析圖5可知,在先獲知前幾步流量數(shù)據(jù)變化趨勢的前提下,本文模型預(yù)測結(jié)果與實際網(wǎng)絡(luò)流量變化趨勢幾乎完全吻合,兩者之間差值較小,且變化較為平穩(wěn),能夠?qū)㈩A(yù)測誤差控制在8%以下,滿足大規(guī)模網(wǎng)絡(luò)環(huán)境流量預(yù)測精度的要求.
本文模型、文獻[7]模型以及文獻[8]模型的多步預(yù)測誤差結(jié)果如表2所示.
表2 不同模型多步預(yù)測誤差結(jié)果對比Tab.2 Comparison of multi-step prediction error results obtained by different models
通過對表2結(jié)果進行分析可獲得以下結(jié)論:隨著網(wǎng)絡(luò)流量預(yù)測步數(shù)的不斷增加,本文模型以及對比模型的預(yù)測誤差逐漸增加,其中文獻[7]模型預(yù)測誤差增加的幅度較大,直到第八步預(yù)測時,該模型預(yù)測誤差達到了11.25%,難以精確地描述網(wǎng)絡(luò)流量數(shù)據(jù)階段性變化趨勢,且預(yù)測誤差較大,所得結(jié)果沒有實際應(yīng)用價值.相對于文獻[7]模型,文獻[8]模型的預(yù)測精度較高,降低了網(wǎng)絡(luò)流量預(yù)測誤差,但該模型存在計算復雜度高、訓練時間長等問題,難以滿足大規(guī)模網(wǎng)絡(luò)流量數(shù)據(jù)的在線預(yù)測要求.
網(wǎng)絡(luò)流量受到帶寬擁塞和病毒入侵等多種因素的影響,具有非線性、周期性、長相關(guān)性等變化特征,傳統(tǒng)的預(yù)測模型預(yù)測精度較低,針對此問題,提出一種組合預(yù)測模型.通過對預(yù)測結(jié)果進行分析得到以下結(jié)論:
1) 相對于文獻[7]、文獻[8]模型,本文模型預(yù)測結(jié)果的評價指標均更優(yōu),說明所提方法克服了當前預(yù)測模型存在的精度低的問題,更適用于大規(guī)模網(wǎng)絡(luò)流量預(yù)測.
2) 相對于文獻[7]、文獻[8]模型,本文模型預(yù)測精度有所提高,這表明采用快速小波分析算法對網(wǎng)絡(luò)流量進行多尺度分解,可以準確挖掘出網(wǎng)絡(luò)流量數(shù)據(jù)階段性變化特征,通過網(wǎng)絡(luò)流量子序列表示網(wǎng)絡(luò)流量的多層次變化特性.
3) 從圖4~5中給出的網(wǎng)絡(luò)流量預(yù)測結(jié)果來看,所提模型獲得的網(wǎng)絡(luò)流量預(yù)測值與實際值幾乎完全吻合,變化趨勢基本相同,說明所提模型預(yù)測精度較高.