王雪松
?
改進(jìn)支持向量機(jī)的網(wǎng)絡(luò)流量預(yù)測①
王雪松
(佛山職業(yè)技術(shù)學(xué)院電子信息系, 佛山 528137)
支持向量機(jī)具有良好的非線性建模能力, 其參數(shù)對網(wǎng)絡(luò)流量預(yù)測結(jié)果有直接影響, 為了解決支持向量機(jī)的參數(shù)確定的難問題, 根據(jù)雜草算法的優(yōu)勢, 提出了改進(jìn)支持向量機(jī)的網(wǎng)絡(luò)流量預(yù)測模型. 首先收集大量網(wǎng)絡(luò)數(shù)量原始數(shù)據(jù), 將支持向量機(jī)參數(shù)作為雜草種子, 然后模擬雜草的生存、繁殖過程搜索最優(yōu)參數(shù)尋優(yōu), 建立網(wǎng)絡(luò)流量預(yù)測模型, 最后采用具體網(wǎng)絡(luò)流量數(shù)據(jù)測試模型的可行性. 結(jié)果表明, 該模型不僅得到了高精度的網(wǎng)絡(luò)流量預(yù)測結(jié)果, 而且可以應(yīng)用網(wǎng)絡(luò)流量管理中.
網(wǎng)絡(luò)流量; 雜草算法; 混沌理論; 支持向量機(jī)
隨著Internet的數(shù)據(jù)不斷增加, 網(wǎng)絡(luò)管理面臨巨大的挑戰(zhàn), 為了防止出現(xiàn)網(wǎng)絡(luò)擁堵現(xiàn)象, 網(wǎng)絡(luò)流量預(yù)測引起了人們的高度關(guān)注. 流量預(yù)測從歷史數(shù)據(jù)中發(fā)現(xiàn)將來網(wǎng)絡(luò)狀態(tài)的變化趨勢, 為企業(yè)和管理人員提供有意義的參考信息, 已經(jīng)成為網(wǎng)絡(luò)管理領(lǐng)域中的研究重點[1,2].
當(dāng)前網(wǎng)絡(luò)流量預(yù)測模型分為兩類: 傳統(tǒng)模型和現(xiàn)代, 傳統(tǒng)模型主要有: 多元線性回歸算法、時間序列分析法等[3,4], 根據(jù)歷史數(shù)據(jù)確定網(wǎng)絡(luò)流量預(yù)測模型的參數(shù), 建模速度快、硬件要求低, 然而它們均基于網(wǎng)絡(luò)流量是一種固定變化趨勢, 如周期性、單調(diào)遞增等, 不能描述網(wǎng)絡(luò)流量隨機(jī)變化特點, 預(yù)測精度低[5]. 現(xiàn)代模型采用現(xiàn)代統(tǒng)計學(xué)對網(wǎng)絡(luò)流量進(jìn)行建模與分析, 主要有: 神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(support vector machine, SVM)等, 可以反映網(wǎng)絡(luò)流量變化的隨機(jī)性、時變性, 網(wǎng)絡(luò)流量預(yù)測結(jié)果更加靠, 獲得了較高的預(yù)測精度[6-8]. SVM具體要求歷史樣本少, 泛化能力優(yōu)等優(yōu)勢, 成為網(wǎng)絡(luò)流量當(dāng)前主要的建模工具, 然而網(wǎng)絡(luò)流量預(yù)測精度與核函數(shù)及相關(guān)參數(shù)密切相關(guān), 因此SVM參數(shù)確定是網(wǎng)絡(luò)流量建模和預(yù)測首先要解決的問題[9]. 為了解決SVM參數(shù)確定問題, 業(yè)內(nèi)學(xué)者們采用進(jìn)化算法、粒子群算法等實現(xiàn)[10], 它們得到了較好的SVM參數(shù), 但它們同樣存在不足, 如進(jìn)化算法的收斂速度慢, 遺傳算法參數(shù)確定沒有理論指導(dǎo), 憑經(jīng)驗隨機(jī)確定, 通用性差, 難以找到最優(yōu)的SVM參數(shù), 影響網(wǎng)絡(luò)流量的預(yù)測結(jié)果.
為了獲得更優(yōu)的網(wǎng)絡(luò)流量預(yù)測結(jié)果, 針對SVM參數(shù)優(yōu)化難題, 提出了改進(jìn)支持向量機(jī)的網(wǎng)絡(luò)流量預(yù)測模型(IWO-SVM), 采用雜草優(yōu)化算法(invasive weed optimization algorithm, IWO)搜索最優(yōu)的SVM參數(shù), 采用網(wǎng)絡(luò)流量預(yù)測實驗測試可行性和可靠性.
1.1 支持向量機(jī)(SVM)
設(shè)訓(xùn)練樣本集為: {(x,y)},=1,2,…,, 根據(jù)函數(shù)將其映射到高維特征空間實現(xiàn)回歸, 即:
式中,為權(quán)值向量;為偏置向量[11].
將式(1)轉(zhuǎn)換為最小化問題, SVM回歸的目標(biāo)函數(shù)為:
式中,為懲罰參數(shù);e為回歸誤差.
采用拉格朗日算子(i)進(jìn)行變換, 得到相應(yīng)對偶問題為:
式中,為核寬度.
對SVM的工件原理進(jìn)行分析可知, 預(yù)測結(jié)果與參數(shù)和相關(guān), 為了克服當(dāng)前算法存在的不足, 利用雜草算法搜索能力強(qiáng)、速度快的優(yōu)點, 解決參數(shù)和選擇問題, 建立更加科學(xué)的網(wǎng)絡(luò)流量預(yù)測模型.
1.2 雜草優(yōu)化算法(IWO)
受到雜草生長和繁殖過程啟發(fā), 有學(xué)者提出了雜草優(yōu)化算法[12], 具體過程如下:
1) 每一個雜草(i)在領(lǐng)域內(nèi)繁殖一些種子, 種子數(shù)量i計算公式為
式中,(x)為雜草i的適應(yīng)度值;min和max分別為雜草最小和大種子數(shù);min和max為種群的最小和最大的適應(yīng)度值.
2) 種子服從(0,)分布, 其中標(biāo)準(zhǔn)偏差的計算公式為:
式中,initial和final為的初值和終值;max和為最大進(jìn)化代數(shù)和當(dāng)前進(jìn)化代數(shù);為調(diào)和參數(shù).
3) 當(dāng)種群的種子數(shù)超過最大數(shù)量, 對雜草和種子進(jìn)行排序, 選擇前個適應(yīng)度值最大的個體產(chǎn)生新的種群, 丟棄其它個體.
由于參數(shù)和的優(yōu)化目標(biāo)是提高流量預(yù)測的精度最高, 因此和優(yōu)化數(shù)學(xué)模型可以描述為:
基于IWO-SVM的網(wǎng)絡(luò)流量預(yù)測步驟為:
1) 收集某一段時間的網(wǎng)絡(luò)流量歷史數(shù)據(jù), 為了防止數(shù)據(jù)值間的差異過大進(jìn)行預(yù)處理, 具體為:
2) 網(wǎng)絡(luò)流量受到人為因素、上網(wǎng)時間等影響, 具有一定的混沌性能, 因此需要對原始網(wǎng)絡(luò)流量時間序列進(jìn)行相空間重構(gòu)[13], 產(chǎn)生支持向量機(jī)的訓(xùn)練和驗證樣本.
3) 初始化雜草種群, 并初始化其它參數(shù)的值, 個體與一組(,)相對應(yīng).
4) 支持向量機(jī)根據(jù)每一組(,)對訓(xùn)練樣本集進(jìn)行建模, 計算網(wǎng)絡(luò)流量的預(yù)測精度, 得到相應(yīng)的適應(yīng)度值.
5) 判斷是否達(dá)到結(jié)束條件, 若達(dá)到就輸出最優(yōu)個體, 否則執(zhí)行步驟(6).
6) 產(chǎn)生新的種子, 并與其它種子和雜草組合, 選擇max個優(yōu)秀個體組成新的種群, 返回步驟(4).
7) 最優(yōu)個體對應(yīng)的和為支持向量機(jī)的最優(yōu)參數(shù), 根據(jù)對訓(xùn)練樣本進(jìn)行學(xué)習(xí)建立網(wǎng)絡(luò)流量預(yù)測模型.
3.1 源數(shù)據(jù)
選擇一臺網(wǎng)絡(luò)服務(wù)器出口的每小時網(wǎng)絡(luò)流量進(jìn)行仿真實驗, 得到1000個樣本, 具體如圖1所示. 選擇前800個數(shù)據(jù)點作為訓(xùn)練樣本集構(gòu)建網(wǎng)絡(luò)流量預(yù)測模型, 其它數(shù)據(jù)點作為驗證集分析模型的性能, 在VC++ 6.0平臺實現(xiàn)仿真實驗.
圖1 網(wǎng)絡(luò)流量數(shù)據(jù)
3.2 訓(xùn)練樣本和驗證樣本的重構(gòu)
通常情況下, 網(wǎng)絡(luò)流量有弱混沌特性, 設(shè)延遲時間=1, 采用假近鄰算法估計最優(yōu)嵌入維數(shù)(), 結(jié)果如圖2所示, 從圖2可以清楚看出最優(yōu)=5, 根據(jù)=1,=5對原始網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行相空間重構(gòu), 得到重構(gòu)后的訓(xùn)練樣本和驗證樣本, 將其變?yōu)橛幸?guī)律的數(shù)據(jù), 便于支持向量機(jī)進(jìn)行建模.
圖2 估計最優(yōu)m
3.3 IWO估計最優(yōu)(,)SVM參數(shù)
采用IWO算法搜索支持向量機(jī)的參數(shù)和的最優(yōu)值, 1步和3步預(yù)測的最優(yōu)和如表1所示.
表1 C和σ的最佳值
3.4 結(jié)果與討論
3.4.1本文模型的預(yù)測結(jié)果
IWO-SVM的網(wǎng)絡(luò)流量單步預(yù)測結(jié)果如圖3所示, 單步預(yù)測值與實際值變化趨勢相似, 二者間的誤差小, 可以反映網(wǎng)絡(luò)流量數(shù)據(jù)的時變性, 預(yù)測結(jié)果可信.
(a) 預(yù)測結(jié)果
(b) 預(yù)測偏差
圖3 IWO-SVM的網(wǎng)絡(luò)流量1步預(yù)測結(jié)果
1步預(yù)測只能提前一個時刻對網(wǎng)絡(luò)流量變化趨勢進(jìn)行描述, 不能滿足網(wǎng)絡(luò)管理的要求, 因此實現(xiàn)了提前3步的網(wǎng)絡(luò)流量預(yù)測實驗, 結(jié)果如圖4所示, 3步預(yù)測精度明顯要小于1步預(yù)測精度, 預(yù)測偏差也增大, 然而IWO-SVM還是能夠描述網(wǎng)絡(luò)流量整體變化趨勢, 預(yù)測結(jié)果可以為網(wǎng)絡(luò)管理者提供有用的信息.
(a) 預(yù)測結(jié)果
(b) 預(yù)測偏差
圖4 IWO-SVM的網(wǎng)絡(luò)流量3步預(yù)測結(jié)果
3.4.2與經(jīng)典模型的性能對比
選擇當(dāng)前經(jīng)典網(wǎng)絡(luò)流量預(yù)測模型進(jìn)行對照實驗, 它們?yōu)? ARIMA、BP神經(jīng)網(wǎng)絡(luò), 采用均方根誤差()和相對平均誤差()作為性能評價指標(biāo), 結(jié)果見表2. IWO-SVM的和均要小于經(jīng)典模型的和, 網(wǎng)絡(luò)流量預(yù)測精度更高, 說明IWO-SVM是一種精度高、結(jié)果可靠的網(wǎng)絡(luò)流量預(yù)測模型.
表2 網(wǎng)絡(luò)流是的MPAE和RMSE對比
針對網(wǎng)絡(luò)流量的SVM參數(shù)優(yōu)化問題, 提出了基于IWO-SVM的網(wǎng)絡(luò)流量預(yù)測模型, 采用雜草算法搜索SVM參數(shù), 解決當(dāng)前參數(shù)選擇的盲目性, 實驗結(jié)果表明, IWO-SVM的網(wǎng)絡(luò)流量預(yù)測精度高, 預(yù)測結(jié)果好于經(jīng)典模型, 具有廣泛的應(yīng)用前景.
1 史振華,劉外喜,楊家燁.SDN 架構(gòu)下基于 ICMP 流量的網(wǎng)絡(luò)異常檢測方法.計算機(jī)系統(tǒng)應(yīng)用,2016,25(4):135–142.
2 鄔平,吳斌.采用回歸方法優(yōu)化網(wǎng)絡(luò)流量管理模型處理性能. 計算機(jī)工程與應(yīng)用,2012,48(4):104–106.
3 姜明,吳春明,張曼,胡大民.網(wǎng)絡(luò)流量預(yù)測中的時間序列模型比較研究.電子學(xué)報,2009,37(11):2353–2358.
4 陳曉大,劉靜嫻.改進(jìn)的基于小波變換和FARIMA模型的網(wǎng)絡(luò)流量預(yù)測算法.通信學(xué)報,2011,32(4):153–157.
5 麻書欽,范海峰.基于小波變換和時間序列的網(wǎng)絡(luò)流量預(yù)測模型.河南理工大學(xué)學(xué)報:自然科學(xué)版,2013,32(2):188–192.
6 曲樺,馬文濤,趙季紅,等.基于最大相關(guān)熵準(zhǔn)則的網(wǎng)絡(luò)流量預(yù)測.高新技術(shù)通訊,2013,23(1):134–145.
7 王雪松,梁昔明.基于BPSO–RBF神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)流量預(yù)測. 計算機(jī)應(yīng)用與軟件,2014,31(9):102–105.
8 肖漢杰,桑秀麗.相關(guān)向量機(jī)超參數(shù)優(yōu)化的小時間尺度網(wǎng)絡(luò)流量非線性預(yù)測方法.計算機(jī)應(yīng)用研究,2016,33(6): 1882–1885.
9 于明,艾月喬.基于人工蜂群算法的支持向量機(jī)參數(shù)優(yōu)化及應(yīng)用.光電子激光,2012,23(2):374–398.
10 邵信光,楊慧中,陳剛.基于粒子群優(yōu)化算法的支持向量機(jī)參數(shù)選擇及其應(yīng)用.控制理論與應(yīng)用,2006,23(5):740–748.
11 劉忠寶.新型支持向量機(jī)在風(fēng)速預(yù)測模型中的應(yīng)用研究. 電子科技大學(xué)學(xué)報,2014,43(5):754–758.
12 Mallahzadeh AR, Oraizi H, Davoodi RZ. Application of the invasive weed optimization technique for antenna configurations. Progress in Electromagnetic Research, 2008, 20(79): 137–150.
13 黃發(fā)明,殷坤龍,張桂榮,等.基于相空間重構(gòu)和小波分析-粒子群向量機(jī)的滑坡地下水位預(yù)測.地球科學(xué)-中國地質(zhì)大學(xué)學(xué)報,2015,40(7):1254–1265.
Network Traffic Predicting Model Based on Improved Support Vector Machine
WANG Xue-Song
(Department of Electronic Information, Foshan Polytechnic College, Foshan 528137, China)
Aiming at parameters optimization problem of support vector machine in network traffic predicting, a network traffic predicting model is proposed based on improved support vector machine. Parameters of support vector machine are considered as a weed, the optimal parameters are found by invasive weed optimization algorithm, and network traffic data is used to test the performance. The experimental results show that the proposed model obtains high predicting accuracy and fastens the model speed, and it can meet the requirements of network traffic predicting.
network traffic; invasive weed optimization algorithm; chaotic theory; support vector machine
廣東省教育廳項目(2010TJK446)
2016-06-09;
2016-08-08
[10.15888/j.cnki.csa.005668]