王少帥 宋禮鵬
(中北大學(xué)大數(shù)據(jù)學(xué)院 太原 030051)
(1019844335@qq.com)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,社交網(wǎng)站逐漸發(fā)展成為人們主要交流工具之一.蠕蟲(chóng)病毒作為一種通過(guò)網(wǎng)絡(luò)傳播的計(jì)算機(jī)病毒,可借助社交網(wǎng)站使得其在短時(shí)間內(nèi)快速蔓延,給互聯(lián)網(wǎng)帶來(lái)嚴(yán)重威脅.通過(guò)對(duì)目標(biāo)局域網(wǎng)內(nèi)社交網(wǎng)站訪問(wèn)量分析建模,預(yù)測(cè)未來(lái)各個(gè)時(shí)段的社交網(wǎng)站訪問(wèn)量,并結(jié)合其他信息在不同時(shí)段加以不同的干預(yù)手段,從而有效地預(yù)防或者抑制蠕蟲(chóng)病毒的傳播.
網(wǎng)絡(luò)流量預(yù)測(cè)作為一個(gè)經(jīng)典的時(shí)間序列預(yù)測(cè)問(wèn)題,一直為國(guó)內(nèi)外研究者所研究.按照建模方法可將其劃分為以ARMA(auto-regressive and moving average model)[1]、ARIMA(autoregressive integrated moving average model)[2-3]、指數(shù)平滑法[4]等為代表的線性時(shí)間序列模型和以GBDT(gradient boosting decision tree)、神經(jīng)網(wǎng)絡(luò)、SVM(support vector machine)[5-8]等為代表的非線性建模方法兩大類.網(wǎng)絡(luò)流量變化的混沌特性,決定了網(wǎng)絡(luò)流量時(shí)間序列的非線性,這導(dǎo)致了線性時(shí)間序列模型預(yù)測(cè)往往難以達(dá)到預(yù)期的預(yù)測(cè)效果.而傳統(tǒng)的非線性網(wǎng)絡(luò)流量預(yù)測(cè)模型又存在預(yù)測(cè)結(jié)果不穩(wěn)定,易發(fā)生“過(guò)擬合”的現(xiàn)象.針對(duì)這個(gè)問(wèn)題,李振剛[9]首次將高斯過(guò)程回歸模型引入網(wǎng)絡(luò)流量預(yù)測(cè),提高了網(wǎng)絡(luò)流量預(yù)測(cè)精度.
本文針對(duì)局域網(wǎng)中網(wǎng)絡(luò)流量的社交網(wǎng)站訪問(wèn)量進(jìn)行分析與預(yù)測(cè).局域網(wǎng)中社交網(wǎng)站訪問(wèn)量相對(duì)于總體網(wǎng)絡(luò)流量而言,其序列變化的不確定性更大,因而比傳統(tǒng)網(wǎng)絡(luò)流量更加難以預(yù)測(cè).Sudheer等人[10]將離散小波變換(DWT)應(yīng)用于電網(wǎng)的短期負(fù)荷預(yù)測(cè)中,將短期負(fù)荷時(shí)間序列分解成穩(wěn)定部分(周期分量)與不確定性部分(殘余分量),并分別使用針對(duì)性模型進(jìn)行預(yù)測(cè).本文將該方法引入局域網(wǎng)社交網(wǎng)站訪問(wèn)量的預(yù)測(cè)中,并針對(duì)周期分量使用高斯過(guò)程回歸模型(GPR)[11-13]進(jìn)行預(yù)測(cè),同時(shí)對(duì)殘余分量使用加權(quán)近鄰模型(WNN)[14]進(jìn)行預(yù)測(cè),提出一種基于DWT的高斯過(guò)程回歸與WNN組合預(yù)測(cè)模型.
為驗(yàn)證模型預(yù)測(cè)效果,本文采用均方根誤差RMSE(root mean square error)作為評(píng)價(jià)指標(biāo),并與其他模型進(jìn)行對(duì)比.
高斯過(guò)程回歸是基于貝葉斯網(wǎng)絡(luò)的一種機(jī)器學(xué)習(xí)算法,它既具有貝葉斯網(wǎng)絡(luò)的推理能力,同時(shí)還具備SVM處理小樣本、非線性、高維度的問(wèn)題的自適應(yīng)能力.它直接從函數(shù)空間角度出發(fā),定義一個(gè)高斯過(guò)程來(lái)描述函數(shù)分布,并在函數(shù)空間進(jìn)行貝葉斯推理.
由于觀測(cè)通常是帶噪聲的,因而可假設(shè)模型為
其中函數(shù)f(X)被假設(shè)給予一個(gè)高斯過(guò)程先驗(yàn),即
其中K為協(xié)方差函數(shù).
對(duì)于新測(cè)試輸入x*,根據(jù)高斯過(guò)程的性質(zhì)及測(cè)試數(shù)據(jù)與訓(xùn)練數(shù)據(jù)來(lái)源于同一分布的特點(diǎn),可以得到觀測(cè)值y(訓(xùn)練樣本輸入)和預(yù)測(cè)值y*(測(cè)試樣本輸出)的聯(lián)合先驗(yàn)分布
由式(3),結(jié)合貝葉斯估計(jì)原理和聯(lián)合正態(tài)分布的條件概率性質(zhì),可得預(yù)測(cè)值y*(測(cè)試樣本輸出)的后驗(yàn)分布:
即可求得預(yù)測(cè)值y*的分布函數(shù).與cov(y*)的表達(dá)式如下:
加權(quán)近鄰模型(WNN)是基于K-最近鄰算法的改進(jìn)[14].其主要思想是將時(shí)間序列按其周期分段后,可得到矩陣
其中,L n為最近周期.進(jìn)一步利用計(jì)算得到L n與其他周期的距離,并按降序排序得到距離的集合q={q1,q2,…,qk},其中q1表示最遠(yuǎn)距離,qk表示最近距離.
最終預(yù)測(cè)未來(lái)L n+1的預(yù)測(cè)公式為
局域網(wǎng)內(nèi)社交網(wǎng)站訪問(wèn)量變化的不確定性,給其預(yù)測(cè)帶來(lái)了極大的困難.針對(duì)這個(gè)問(wèn)題,本文嘗試使用離散小波變換(DWT)將時(shí)間序列分解成周期分量(低頻部分)與殘余分量(高頻部分),并分別使用多時(shí)間粒度特征的高斯過(guò)程回歸模型(GPR)和加權(quán)近鄰模型(WNN)進(jìn)行針對(duì)性預(yù)測(cè).即使用離散小波變換(DWT)將時(shí)間序列的穩(wěn)定部分和不確定性部分分解出來(lái),并進(jìn)行針對(duì)性預(yù)測(cè),進(jìn)而減小由于時(shí)間序列不確定性對(duì)預(yù)測(cè)帶來(lái)的影響,提高了預(yù)測(cè)精度.具體過(guò)程如圖1所示:
圖1 組合預(yù)測(cè)模型流程圖
由圖1可知,模型預(yù)測(cè)步驟可分為3步,下面將分別描述.
時(shí)間序列從結(jié)構(gòu)上看,可拆分成2部分:一部分是周期分量,該分量包含原始序列的總體變化規(guī)律;另一部分是殘余分量,該分量體現(xiàn)了原始序列的細(xì)節(jié)性變化規(guī)律.
本文嘗試使用DWT對(duì)時(shí)間序列進(jìn)行拆分,采用的小波為daubechies的8個(gè)系數(shù)的最小不對(duì)稱小波.DWT可設(shè)置分解的層數(shù)level來(lái)決定對(duì)時(shí)間序列數(shù)據(jù)分解程度.若層數(shù)level設(shè)置過(guò)低,會(huì)導(dǎo)致DWT不能完全將時(shí)間序列中的不確定性部分分解出來(lái);若層數(shù)level設(shè)置過(guò)高,則會(huì)導(dǎo)致DWT將時(shí)間序列中的一部分周期分量誤認(rèn)為是不確定性的,進(jìn)而歸為殘余分量.本文通過(guò)設(shè)置level=3,得到網(wǎng)絡(luò)流量時(shí)間序列的低頻部分,根據(jù)低頻部分進(jìn)行重構(gòu),得到周期分量Xa,該分量序列反映原序列的大致趨勢(shì)和走向.進(jìn)一步,通過(guò)原始序列X減去周期分量Xa得到殘余分量Xd,即Xd=X-Xa,殘余分量序列包含原始序列細(xì)節(jié)性變化.
針對(duì)反映原始序列總體變化規(guī)律的周期分量Xa,考慮到傳統(tǒng)網(wǎng)絡(luò)流量預(yù)測(cè)模型,往往只考慮單個(gè)時(shí)間粒度的信息對(duì)未來(lái)預(yù)測(cè)結(jié)果的影響,并未充分利用多個(gè)時(shí)間粒度的信息進(jìn)行預(yù)測(cè).本文從多時(shí)間粒度的角度出發(fā),通過(guò)選取不同的時(shí)間步長(zhǎng)統(tǒng)計(jì)出不同的網(wǎng)絡(luò)流量時(shí)間序列,并取前N天的網(wǎng)絡(luò)流量時(shí)間序列充當(dāng)特征,構(gòu)成多時(shí)間粒度特征,同時(shí)結(jié)合高斯過(guò)程回歸模型,對(duì)其進(jìn)行預(yù)測(cè).
針對(duì)反映原始序列細(xì)節(jié)性變化規(guī)律的殘余分量,可認(rèn)為原始時(shí)間序列的不確定性部分均被分解到該分量?jī)?nèi),從而采用更加簡(jiǎn)單的WNN進(jìn)行預(yù)測(cè).
使用多時(shí)間粒度特征的高斯過(guò)程回歸模型對(duì)周期分量Xa進(jìn)行預(yù)測(cè),得到預(yù)測(cè)結(jié)果Ya,代表未來(lái)時(shí)間序列的總體變化規(guī)律.使用WNN對(duì)殘余分量Xd進(jìn)行預(yù)測(cè),得到預(yù)測(cè)結(jié)果Yd,代表未來(lái)時(shí)間序列的細(xì)節(jié)波動(dòng).將2個(gè)結(jié)果相加,得最終預(yù)測(cè)結(jié)果,即Y=Ya+Yb.
為驗(yàn)證本模型的預(yù)測(cè)效果,我們收集并統(tǒng)計(jì)得出中北大學(xué)局域網(wǎng)內(nèi)包括QQ空間、QQ郵箱、豆瓣網(wǎng)、人人網(wǎng)、騰訊微博、新浪微博6個(gè)社交網(wǎng)站的訪問(wèn)量充當(dāng)仿真數(shù)據(jù).由于各大社交網(wǎng)站1天24 h內(nèi)除8:00—22:00(包括8:00和22:00)有較高的訪問(wèn)量之外,其他時(shí)間訪問(wèn)量均接近0.因此我們以未來(lái)1天的8:00—22:00(包括8:00和22:00)的訪問(wèn)量為預(yù)測(cè)目標(biāo),使用本模型進(jìn)行預(yù)測(cè),并與指數(shù)平滑法、支持向量機(jī)(SVM)的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,如圖2所示:
圖2 社交網(wǎng)站訪問(wèn)量預(yù)測(cè)對(duì)比圖
由圖2可直觀觀察到,本模型的預(yù)測(cè)結(jié)果更接近真實(shí)值.為進(jìn)一步驗(yàn)證模型預(yù)測(cè)效果,本文采用均方根誤差RMSE作為評(píng)價(jià)指標(biāo),計(jì)算公式如式(9)所示:
其中,n為數(shù)據(jù)集的數(shù)目,Xt為真實(shí)值,X^t為預(yù)測(cè)值.通過(guò)式(9)計(jì)算,得到各大社交網(wǎng)站預(yù)測(cè)的均方根誤差RMSE如表1所示.其中,總均方根誤差是首先將QQ空間、QQ郵箱、豆瓣網(wǎng)、人人網(wǎng)、騰訊微博以及新浪微博的預(yù)測(cè)結(jié)果合并,再通過(guò)式(9)計(jì)算而得.
表1 均方根誤差RMSE對(duì)比表
由表1可知,本模型在QQ空間、QQ郵箱、豆瓣網(wǎng)、人人網(wǎng)、騰訊微博和新浪微博的數(shù)據(jù)集上,其均方根誤差RMSE均低于其他2個(gè)模型,其總均方根誤差更是遠(yuǎn)低于其他2個(gè)模型.
社交網(wǎng)站訪問(wèn)量時(shí)間序列的混沌性,決定了社交網(wǎng)站訪問(wèn)量變化的不確定性,導(dǎo)致其訪問(wèn)量預(yù)測(cè)成為一個(gè)難題.本文從時(shí)間序列可分解的角度出發(fā),利用離散小波變換(DWT),將該時(shí)間序列分解成反映序列總體變化規(guī)律的周期分量與體現(xiàn)了序列細(xì)節(jié)性變化規(guī)律的殘余分量2部分.針對(duì)周期分量,本文構(gòu)造出多時(shí)間粒度特征并結(jié)合高斯過(guò)程回歸模型(GPR)進(jìn)行預(yù)測(cè);針對(duì)殘余分量,本文使用更為簡(jiǎn)單的近鄰加權(quán)模型(WNN)進(jìn)行預(yù)測(cè),然后將結(jié)果合并得到最終預(yù)測(cè)結(jié)果.為驗(yàn)證模型優(yōu)劣,我們將收集得到的中北大學(xué)局域網(wǎng)內(nèi)QQ空間、QQ郵箱、豆瓣網(wǎng)、人人網(wǎng)、騰訊微博和新浪微博這6個(gè)數(shù)據(jù)集分別進(jìn)行仿真實(shí)驗(yàn),并使用均方根誤差RMSE作為評(píng)價(jià)指標(biāo),將本模型、支持向量機(jī)(SVM)和指數(shù)平滑這3個(gè)模型進(jìn)行對(duì)比,結(jié)果表明,本模型預(yù)測(cè)結(jié)果最優(yōu).
本文對(duì)網(wǎng)絡(luò)流量中的局域網(wǎng)內(nèi)社交網(wǎng)站訪問(wèn)量進(jìn)行分析與預(yù)測(cè),并基于離散小波變換(DWT)將時(shí)間序列進(jìn)行分解,同時(shí)結(jié)合高斯過(guò)程回歸模型(GPR)和近鄰加權(quán)模型(WNN)進(jìn)行組合預(yù)測(cè),預(yù)測(cè)精度相對(duì)其他模型有了進(jìn)一步提升,對(duì)局域網(wǎng)內(nèi)網(wǎng)絡(luò)安全的分析與預(yù)防具有重要參考價(jià)值.
[1]何書(shū)元.應(yīng)用時(shí)間序列分析[M].北京:北京大學(xué)出版社,2003:87-89
[2]Box G E P,Jenkins G M,Reinsel G C.Time Series Analysis Forecasting and Control[M].3rd ed.New York:Prentice-Hall,2007:25-271
[3]Schoukens J,Pintelon R.Identigication of Linear Systems:A Practical Guideline to Accurate Modeling[M].Oxford:Pergamon,1991:68-70
[4]Szmit M,Szmit A.Use of holt-winters method in the analysis of network traffic:Case study[J].Communications in Computer&Information Science,2011,160:224-231
[5]Liao Q,Yao J,Yuan S.SVM approach for predicting LogP[J].Plant Foods for Human Nutrition,2006,10(3):301-309
[6]Kachoosangi F T.How reliable are ANN,ANFIS,and SVM techniques for predicting longitudinal dispersion coefficient in natural rivers[J].Journal of Hydraulic Engineering,2016,142(1):1-8
[7]Hossain M M,Miah M S.Evaluation of different SVM kernels for predicting customer churn[C]//Proc of Int Conf on Computer&Information Technology.Piscataway,NJ:IEEE,2016:1-4
[8]Che N,Murphree D H,Upadhyaya S,et al.Multitask LS-SVM for predicting bleeding and re-operation due to bleeding[C]//Proc of IEEE Int Conf on Healthcare Informatics.Piscataway,NJ:IEEE,2017:56-65
[9]李振剛.基于高斯過(guò)程回歸的網(wǎng)絡(luò)流量預(yù)測(cè)模型[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1251-1254
[10]Sudheer G,Suseelatha A.Short term load forecasting using wavelet transform combined with Holt-Winters and weighted nearest neighbor models[J].International Journal of Electrical Power&Energy Systems,2015,64(64):340-346
[11]Seeger M.Gaussian processes for machine learning[J].International Journal of Neural Systems,2004,14(2):69-106
[12]何志昆,劉光斌,趙曦晶,等.高斯過(guò)程回歸方法綜述[J].控制與決策,2013,28(8):1121-1129
[13]He Zhikun,Liu Guangbin,Zhao Xijing,et al.Temperature model for FOG zero-bias using Gaussian process regression[G]//AISC 180:Intelligence Computation and Evolutionary Computation.Berlin:Springer,2013:37-45
[14]Lora A T,Santos J M R,Exposito A G,et al.Electricity market price forecasting based on weighted nearest neighbors techniques[J].IEEE Trans on Power Systems,2007,22(3):1294-1301