李維宇 沈溶溶
摘 要 云計算下網(wǎng)絡異常流量的管理,需要從初次分類統(tǒng)計中來進行合理選擇分組方法?;贐IRCH算法的網(wǎng)絡異常流量分組管理,能夠在網(wǎng)絡數(shù)據(jù)驟增等異常變化中,實現(xiàn)初次聚類,并就網(wǎng)絡流量進行分組融合,減少異常流量帶來的網(wǎng)絡阻斷風險。
關鍵詞 云計算 BIRCH算法 流量分組 方法研究
隨著海量運算資源和網(wǎng)絡平臺的發(fā)展,對于云計算環(huán)境下的用戶訪問量的驟增帶來的網(wǎng)絡異常流量問題,一直是當前流量工程研究的重要課題。2015年11月11日以網(wǎng)絡購物為主的訪問并發(fā)峰值達到數(shù)千萬,對于如此巨大的訪問流量,如何從大數(shù)據(jù)流量管理中進行有效分組就顯得尤為重要。當前,在大流量數(shù)據(jù)管理上,多采用MPLS分組方法,如基于不同業(yè)務類型和基于不同數(shù)據(jù)包類型來進行分組等。但對于云計算環(huán)境下,隨著用戶群的幾何級增長,對于各類數(shù)據(jù)包、業(yè)務類型的劃分已經(jīng)難以分界,在提升異常流量分組效率上,迫切需要從云計算中重新進行算法優(yōu)化,以實現(xiàn)精細化管理目標。
一、當前常用的網(wǎng)絡流量分組方法
針對網(wǎng)絡流量分組方法的研究,王勁松等人從基于異常流量的字節(jié)特征入手,提出對多個特征匹配的不同分組交集獲取來實現(xiàn)分組,該方法需要從異常流量數(shù)據(jù)中進行獲取特征字節(jié),并建立特征字節(jié)庫,從而來進行流量分組優(yōu)化;裴楊等人從基于SVM網(wǎng)絡流量分類方法上,來優(yōu)化分組的準確率,但因SVM算法過于復雜,并不適應海量數(shù)據(jù)處理;孫韓林等人提出C4.5決策樹方法,從海量數(shù)據(jù)流量分析中利用決策樹方法進行問題優(yōu)化,但對于不同類型的數(shù)據(jù)流量分析上,無法直接對其他類型的流量進行有效分組。針對云數(shù)據(jù)下的數(shù)據(jù)挖掘與聚類分析算法,利用BIRCH快速聚類算法,來優(yōu)化網(wǎng)絡異常條件下的數(shù)據(jù)分組效率,特別是在氣象數(shù)據(jù)分析中獲得較高應用。對于網(wǎng)絡環(huán)境下的用戶數(shù)據(jù)的分組,也可以通過模擬聚類的方法進行優(yōu)化,為此,本文將從BIRCH算法改進中提出動態(tài)的分組方法。
二、BIRCH算法的分組原理
對于網(wǎng)絡流量數(shù)據(jù)的分組,BIRCH算法首先通過對網(wǎng)絡數(shù)據(jù)的提取,從用戶信息及流量類型上進行聚類分組,在結合數(shù)據(jù)信息進行分組融合,獲得分組效果。對于流量數(shù)據(jù)的特征提取,主要將流量數(shù)據(jù)轉換為聚類分析所需分組向量,并利用BIRCH算法進行網(wǎng)絡流量特征的用戶聚類;分組融合是對不同時刻的分組進行聚類,并對聚類結果進行處理,有平衡網(wǎng)絡流量。
(1)對網(wǎng)絡數(shù)據(jù)流量特征的提取。
對于海量數(shù)據(jù)進行聚類分組前,需要從網(wǎng)絡數(shù)據(jù)的特征進行選取,特別是數(shù)據(jù)相似性特征,常用的方法有馬爾可夫算法、小波分析方法等,這些方法能夠從網(wǎng)絡流量數(shù)據(jù)自相似度上進行分析,不足的是選取方法較為復雜,對數(shù)據(jù)計算耗時、耗性能。Silveira等人通過對異常數(shù)據(jù)流量問題的選取方法進行改進,從區(qū)分異常流量特征上,從低緯度上進行選取即可;另外對于原始數(shù)據(jù)的差分序列方差分析,能夠較好的反映數(shù)據(jù)波動問題。為此,本文將選取網(wǎng)絡流量當前采樣值和兩次差分值來進行網(wǎng)絡聚類特征分析。也就是說,對于異常網(wǎng)絡流量特征可以表示為:(,),對于表示為流量值,對于表示數(shù)據(jù)流量采集的時刻。
(2)聚類分組方法。
根據(jù)BIRCH算法,在對海量數(shù)據(jù)進行聚類分組分析中,BIRCH是基于距離的層次聚類算法,通過引入聚類特征和聚類特征樹概念,利用三元組聚類特征來進行標識,對于式中的N表示為某一節(jié)點中的數(shù)據(jù)對象個數(shù);對于LS表示為N個對象對應的特征向量的線性和;對于S表示為N個對象特征向量的平方和。利用CF聚類特征分析方法,能夠對N個用戶的特征樹中進行表示,即{,(,),(,)2},其中對于聚類特征樹中的分支因子B,以及閥值T的設置,是實現(xiàn)對特征樹的平衡目標。當分支因子被限定為非葉節(jié)點中最大孩子數(shù)目時,閥值是對葉子節(jié)點中簇的最大半徑進行限制。BIRCH算法首先是對整個數(shù)據(jù)信息進行掃描,并從聚類特征樹的初始化中,對每一個對象與之最近的葉子節(jié)點進行關聯(lián);如果這個簇的半徑大于閥值T,則該葉子節(jié)點將被分割;同時,對于特征樹的建立后,根據(jù)聚集特征頭,可以對原有數(shù)據(jù)進行再聚集分類,從而獲得聚類結果。
(3)分組融合計算。
從聚類算法來看,聚類分組后并非是最終的結果,也不能直接進行分組優(yōu)化,因為BIRCH算法所得到的分組是一種硬性分組,無法與各個用戶進行關聯(lián)。此時需要從多次聚類分組結果中進行差異化分析,并進行修正。由于異常網(wǎng)絡環(huán)境下數(shù)據(jù)流量較大,對于數(shù)據(jù)流量中特征相似度較大的用戶,在一定時間段內(nèi)被聚類到同一分組的可能性較大。因此,可以通過對不同分組用戶信息相似度計算,來對各個分組中數(shù)據(jù)進行分組融合。其融合的步驟如下:首先在進行分組之初,需要對所有用戶進行分組,并將分組與其他數(shù)據(jù)分組建立相應關聯(lián)。如將每一用戶指定給改組的生存時間計作,其初始值為。當聚類產(chǎn)生分組后,需要對當前分組與新分組進行交集計算,并從當前分組中獲得最大交集的新分組列為當前分組;再次對于不同用戶,根據(jù)用戶與前兩個分組的交集計算,來獲得生存時間,但不能超過;如果兩個用戶沒有交集,但屬于已有分組,則生存時間計作;當用戶生存時間為 = 1時,則清除該用戶,否則對用戶的生存時間賦初始值。最后,對于聚類融合后,對于未被合并的分組,則計作新的當前分組。利用該方法,對于某一用戶來說并不屬于某一個分組,但經(jīng)過多次聚類后,隨著生存時間的下降則被清除。由此可見,對于分組融合就是通過生存時間的計算來獲得。
三、結語
對于改進后的BIRCH算法,我們可以通過一個應用場景來進行仿真驗證。利用云計算數(shù)據(jù)中心的數(shù)據(jù),將1000個模擬用戶產(chǎn)生的業(yè)務數(shù)據(jù)流量進行計算,選取250個用戶進行異常流量分析,由此來進行網(wǎng)絡擁塞處理。通過實驗過程可知,對于異常用戶的區(qū)分上,BIRCH分組方法能夠實現(xiàn)對丟包問題、流量分組的多種處理,確保異常用戶的數(shù)據(jù)流量控制比例在70%以上,有效減少丟包問題。在實際運用中,該方法將分組細心和分組方法進行優(yōu)化,能夠體現(xiàn)精細化分組和流量平衡管理。
參考文獻:
[1]武魯,王連海,顧衛(wèi)東.基于云的計算機取證系統(tǒng)研究[J].計算機科學,2012(05).
[2]李世明.具備web數(shù)據(jù)整合功能的負載均衡系統(tǒng)設計與實現(xiàn)[D]. 北京郵電大學,2014.
(作者單位:河南省輕工業(yè)學校)