鄂曉晨 劉立士
摘 ?要:網(wǎng)絡流量預測對于設計新一代網(wǎng)絡協(xié)議、實現(xiàn)網(wǎng)絡規(guī)劃和流量管理以及提升網(wǎng)絡的高質量服務具有重大意義。該文研究了網(wǎng)絡流量的自相似特性,并在此基礎上采用FARIMA時間序列模型進行流量預測。首先對網(wǎng)絡流量進行平穩(wěn)化預處理,其次估算Hurst系數(shù)來確定差分次數(shù),最后通過AIC準則確定該型階數(shù)并進行預測。比較結果表明,雖然FARIMA模型相對于傳統(tǒng)的ARMA模型建模和計算復雜度較高,但是可以對非平穩(wěn)數(shù)據(jù)預測且受流量突發(fā)性影響較小,預測精準度較高。
關鍵詞:自相似性 ?流量預測 ?ARMA模型 ?FARIMA模型
中圖分類號:TP393 ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:1672-3791(2021)04(c)-0062-04
Research on Time Series Model of Self Similar Traffic
E Xiaochen ? LIU Lishi*
(Shenyang Ligong University, Shenyang, Liaoning Province, 110159 ?China)
Abstract: Network traffic prediction is of great significance for the design of new generation network protocol, the realization of network planning and traffic management,and the improvement of network quality service. In this paper, the self similarity of network traffic is studied, and on this basis, FARIMA time series model is used for traffic prediction. Firstly, the network traffic is smoothed. Secondly, the Hurst coefficient is estimated to determine the difference times. Finally, the AIC criterion is used to determine the order of this type and predict it. The comparison results show that although FARIMA model has higher modeling and computational complexity than traditional ARMA model, it can predict non-stationary data with less impact of traffic burst and higher prediction accuracy.
Key Words: Self-similarity; Traffic prediction; ARMA model; FARIMA model
隨著網(wǎng)絡業(yè)務量的增長和互聯(lián)網(wǎng)環(huán)境的日益復雜,網(wǎng)絡擁塞現(xiàn)象也在不斷發(fā)生。網(wǎng)絡擁塞可能會導致網(wǎng)絡的性能降低、網(wǎng)絡中間節(jié)點丟棄大量的數(shù)據(jù)包等問題。網(wǎng)絡流量是網(wǎng)絡規(guī)劃的重要指標,反映了網(wǎng)絡的運行狀態(tài),為了保證信息傳輸?shù)挠行院途珳市?,必須采用適宜的手段對網(wǎng)絡流量進行監(jiān)控。通過研究發(fā)現(xiàn),網(wǎng)絡流量也呈現(xiàn)出自相似性[1]以及可預測性,因此可以通過選擇合適的預測模型實現(xiàn)對自相似網(wǎng)絡流量的預測,并根據(jù)預測得到的數(shù)據(jù)流量提前進行網(wǎng)絡規(guī)劃和流量管理,如果將預測結果引入到其他網(wǎng)絡管理機制,將會極大地提高網(wǎng)絡性能和服務質量。
1 ?自相似流量特性與預測模型
在實際測量研究中發(fā)現(xiàn),現(xiàn)實中的網(wǎng)絡流量普遍具有自相似性(或長相關性)。網(wǎng)絡流量的自相似性實際上就是局部特征和整體相似。長相關特性的問題可以同時存在于多個網(wǎng)絡時間點的范圍內,并且對于整個網(wǎng)絡的時延、丟包率以及網(wǎng)絡吞吐量都有很大程度的影響。為了更好地滿足網(wǎng)絡流量的長相關特征(Long range dependence,LRD),于是通過增加計算Hurst系數(shù)和差分過程,得到基于分形自回歸差分滑動平均模型(Fractional Auto-regressive Integrated Moving Average,F(xiàn)ARIMA)[2]。雖然提高了復雜度和運算量,但也極大地提高了精準度。該文采用基于FARIMA時序模型的自相似流量預測方法,通過改進使其能夠準確預測網(wǎng)絡流量趨勢。
2 ?FARIMA時序模型原理和預測
2.1 原理
FARIMA(p,d,q)即分形自回歸差分滑動平均過程,該模型可以能夠同時描述自相似網(wǎng)絡流量的短相關結構和長相關特性,但在實際應用過程中會受到一定的限制。FARIMA可以用式(1)來表示,其中d是分數(shù)差分階數(shù),p是自回歸項數(shù),且是p階自回歸(AR)多項式,q是滑動平均項數(shù),且是q階滑動平均(MA)多項式。其中d,。
(1)
設定為差分算子,分數(shù)差分算子為?d,可用式(2)表示。
(2)
FARIMA模型是基于ARMA預測,并進行相關參數(shù)的判定,唯一的區(qū)別就是FARIMA模型存在分數(shù)差分過程。因此,分形自回歸差分滑動平均過程在滿足p,q不同時為零的前提下,可以看作是一個基于ARMA(p,q)預測上增加了d階分數(shù)差分FARIMA(0,d,0)的過程。
2.2 預測過程
(1)對原始數(shù)據(jù)進行預處理,因為實際情況下的時間序列不一定完全是平穩(wěn)的,如果序列非平穩(wěn),則需要進行相應的平穩(wěn)化處理,并通過ADF和KPSS單位根檢驗[3]來判斷平穩(wěn)性。該文采用ON/OFF源模型模擬產(chǎn)生自相似流量,數(shù)據(jù)具有隨機性,因此選擇添加一個周期性函數(shù)來平滑其隨機性。
(2)計算Hurst系數(shù),并進行d階分數(shù)差分。通過R/S分析法求得Hurst系數(shù)[4],即計算不同時刻的極差R(n)和標準差S(n),并求出R(n)和S(n)的比值。R/S與Hurst的關系如式(3)所示。
loglog(3)
在對數(shù)坐標下進行擬合并用最小二乘法來近似估算曲線斜率,即為近似估算的Hurst系數(shù)值,且d=h-0.5,即可求出FARIMA模型分數(shù)差分系數(shù)。
(3)基于ARMA模型的項數(shù)定階,可通過ACF和PACF來確定p,q項數(shù),但會存在系數(shù)過大計算復雜的問題,所以該文采用AIC(赤池信息準則)和BIC(貝葉斯信息準則)自動懲罰判決獲得p、q項數(shù)。其中參數(shù)k為模型設定參量的數(shù)量,參數(shù)n為樣本總體數(shù)量,參數(shù)L為極大似然函數(shù)。
AIC(4)
BIC(5)
在測試模型過程中,針對可能出現(xiàn)的過擬合問題,兩種信息準則都增加與參量相關的懲罰判決項,并有效防止因樣本總體數(shù)量過大和模型高精度判決而導致的模型過于復雜的問題。
(4)判斷殘差檢驗是否為一段白噪聲信號,確保有用的信號都已經(jīng)提取到ARMA模型中,也可以通過Durbin-Watson針對時間序列數(shù)據(jù)檢驗回歸分析中統(tǒng)計量殘差的一階自相關性,該統(tǒng)計量值越接近2越好,一般在(1,3)之間說明沒問題。
(5)通過ARMA模型對差分濾波后的數(shù)據(jù)進行預測,并對預測結果進行差分還原處理得到預處理后的流量序列,并去掉預處理時添加的周期函數(shù)來獲得通過基于FARIMA模型實際預測流量。通過和原始流量對比分析,對FARIMA模型預測效果進行評估[5-7]。
3 ?仿真結果與分析
該文基于ON/OFF源模型模擬產(chǎn)生自相似流量,并使用Matlab軟件進行仿真,參數(shù)設置如下:信源到達過程服從泊松分布(λ=0.5),信源時間間隔服從指數(shù)分布(μ=2),持續(xù)時間服從帕累托分布gprnd(0.01,1.5,1),傳輸速率R=30(packet/s)。仿真結果:圖2、圖3為傳統(tǒng)ARMA模型預測效果對比圖,圖4、圖5為FARIMA模型預測效果對比圖。
圖2、圖3中隨機抽取了6個點作為數(shù)據(jù)對比依據(jù),在時間軸坐標為10 s、46 s、87 s、92 s、142 s、152 s時,產(chǎn)生的自相似流量數(shù)據(jù)包個數(shù)為240、180、240、180、180、270,經(jīng)過ARMA預測過得數(shù)據(jù)包個數(shù)約為246、185、246、185、185、275,相對誤差百分比為2.5%、3.3%、2.5%、3.3%、3.3%、2.5%。
圖4、圖5中隨機抽取了6個點作為數(shù)據(jù)對比依據(jù),在時間軸坐標為128 s、410 s、722 s、1 091 s、1 174 s、1 608 s時,產(chǎn)生的自相似流量數(shù)據(jù)包個數(shù)為600、240、300、420、300、450,而經(jīng)過FARIMA預測過得數(shù)據(jù)包個數(shù)約為603、243、303、423、303、453,其相對誤差百分比為0.5%、1.25%、1%、0.71%、1%、0.67%。
選擇使用MAE、MAPE、RMSE、NMSE這4種誤差指標對預測效果評估。傳統(tǒng)ARMA模型和FARIMA模型預測結果誤差率見表1。
通過上述指標來量化誤差,ARMA模型和FARIMA模型的MAE分別為3.275和1.417,均小于預設值4,且MAPE和NMSE都遠小于1,接近于0,誤差較小,因此ARMA和FARIMA均可以實現(xiàn)對網(wǎng)絡流量的預測,并通過誤差分析FARIMA預測模型各項數(shù)據(jù)均優(yōu)于傳統(tǒng)的ARMA模型,因此有相對更高的精確度。
4 ?結語
該文基于ON/OFF模型產(chǎn)生自相似網(wǎng)絡流量,并選擇FARIMA時序模型對網(wǎng)絡流量進行預測,通過多次改進驗證以及多項量化指標論證,雖然FARIMA模型建模以及分數(shù)差分計算過程較為復雜,但能反映流量的長相關特性,并相對于傳統(tǒng)的ARMA模型預測具有相對更高的精準度。下一步的研究重點是針對FARIMA模型更準確計算Hurst系數(shù)值,以及優(yōu)化分數(shù)差分過程來消除流量的長相關性,更為準確地預測網(wǎng)絡流量趨勢。
參考文獻
[1] 王曉婷,王憶文,李平.一種自相似網(wǎng)絡流量生成器的設計與實現(xiàn)[J].微電子學與計算機,2016,33(8):54-58.
[2] 史明虎.基于FARIMA模型的自相似業(yè)務流量預測[D].西安電子科技大學,2013.
[3] 翟靜,曹俊.基于時間序列ARIMA與BP神經(jīng)網(wǎng)絡的組合預測模型[J].統(tǒng)計與決策,2016(4):29-32.
[4] 付鈺,劉立士,胡俊超,等.一種基于Matlab仿真模擬估計Hurst參數(shù)的方法[J].科技資訊,2017,15(23):241-242.
[5] 邱艷,張洪.一種有效的網(wǎng)絡流量預測算法[j].成都大學學報:自然科學版,2016,35(2):150-152.
[6] 孫強,周洋,張治鵬.基于FARIMA的鐵路數(shù)據(jù)網(wǎng)流量趨勢預測[J].鐵道學報,2019,41(2):84-88.
[7] 耿傳鑫.基于自相似流量預測的AOS擁塞控制技術研究[D].沈陽理工大學,2019.
①作者簡介:鄂曉晨(1997—),男,碩士,研究方向為現(xiàn)代通信技術與系統(tǒng)。
通信作者:劉立士(1973—),男,碩士,副教授,研究方向為無線通信,E-mail:liulishi2005@sina.com。