陳淼 譚順華 西南科技大學(xué)信息學(xué)院 621000
基于數(shù)據(jù)包的三層挖掘技術(shù)分析研究
陳淼 譚順華 西南科技大學(xué)信息學(xué)院 621000
本文基于VC和MySQL軟件開發(fā)平臺(tái),采用數(shù)據(jù)包的分層挖掘技術(shù)對(duì)網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行深度挖掘和統(tǒng)計(jì)分析。
數(shù)據(jù)包;分層挖掘;重復(fù)粒度
據(jù)CNNIC發(fā)布26次調(diào)查報(bào)告[1]顯示,截至2010年12月,我國(guó)網(wǎng)民已達(dá)3.84億。在如此龐大的一個(gè)網(wǎng)絡(luò)用戶群體中,資源訪問(wèn)是廣大網(wǎng)民的主要活動(dòng)之一。針對(duì)類似校園網(wǎng)的大型網(wǎng)絡(luò)拓?fù)洌魅脒@種拓?fù)浣Y(jié)構(gòu)的重復(fù)訪問(wèn)數(shù)據(jù)將成為本文關(guān)注的熱點(diǎn)。因其重復(fù)暫用網(wǎng)絡(luò)帶寬和消耗資源,提高了網(wǎng)絡(luò)資源訪問(wèn)的成本,在海量重復(fù)數(shù)據(jù)傳輸?shù)睦鄯e過(guò)程中,這種浪費(fèi)是呈正相關(guān)的。本文以某大學(xué)校園網(wǎng)流量監(jiān)測(cè)平臺(tái)為基礎(chǔ),配合數(shù)據(jù)包三層挖掘技術(shù)提取分析了這種重復(fù)資源的消耗狀況。
原始數(shù)據(jù)包捕獲是進(jìn)行數(shù)據(jù)挖掘研究的基礎(chǔ),數(shù)據(jù)的可靠性決定了我們挖掘分析的準(zhǔn)確度。在本次研究中我們利用winpcap提供的用戶接口捕獲校園網(wǎng)絡(luò)拓?fù)渲泄蚕砭W(wǎng)絡(luò)上主機(jī)的收/發(fā)數(shù)據(jù)包。經(jīng)過(guò)測(cè)試,我們結(jié)合winpcap接口開發(fā)的數(shù)據(jù)包捕獲軟件捕包效率可以達(dá)到99.63%以上,見(jiàn)下表1[2],可以忽略漏掉的少量數(shù)據(jù)包對(duì)實(shí)驗(yàn)結(jié)果的影響。
表1 數(shù)據(jù)包獲取實(shí)驗(yàn)數(shù)據(jù)
數(shù)據(jù)挖掘是建立在統(tǒng)計(jì)學(xué)抽樣、人工智能和模式識(shí)別等思想的基礎(chǔ)模型上,發(fā)掘出我們感興趣的數(shù)據(jù)特征。如圖1。在分層挖掘過(guò)程中,首先針對(duì)原始數(shù)據(jù)包進(jìn)行第一層數(shù)據(jù)挖掘。在Web資源訪問(wèn)過(guò)程中都需要主機(jī)首先向資源服務(wù)器發(fā)送資源請(qǐng)求信息,然后資源服務(wù)器才會(huì)根據(jù)請(qǐng)求消息響應(yīng)傳送資源。根據(jù)GET請(qǐng)求特征,將原始數(shù)據(jù)包中的資源請(qǐng)求信息和資源響應(yīng)數(shù)據(jù)提取分離出來(lái)分別存入數(shù)據(jù)庫(kù)。在第二層挖掘中根據(jù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)信息,關(guān)聯(lián)第一層挖掘記錄的兩張表,進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,從中提取出重復(fù)訪問(wèn)資源信息,驗(yàn)證資源重復(fù)訪問(wèn)對(duì)網(wǎng)絡(luò)帶寬重復(fù)使用造成的資源浪費(fèi)。在第三層挖掘中,根據(jù)第二層挖掘信息,提取出用戶訪問(wèn)熱點(diǎn)頁(yè)面,建立一個(gè)頁(yè)面資源訪問(wèn)比例模型。
圖1 三層數(shù)據(jù)挖掘模型
針對(duì)已經(jīng)捕獲的80端口原始數(shù)據(jù),我們根據(jù)數(shù)據(jù)包分析方法[2]提取出其中的源和目的IP與端口信息。這個(gè)基本特征將構(gòu)成數(shù)據(jù)包分析的四元向量<S_IP,S_Port,D_IP,D_Port>,通過(guò)這個(gè)四元向量,我們可以從中重組出通信會(huì)話數(shù)據(jù)。在GET消息提取中,我們同樣根據(jù)關(guān)鍵字段信息,建立GET請(qǐng)求消息分析模型,提取出其中的URI、Referer、Host三個(gè)字段信息,構(gòu)成資源定位標(biāo)準(zhǔn)。在資源定位標(biāo)準(zhǔn)的三個(gè)字段信息提取過(guò)程中,URI、Referer、Host是三個(gè)固定的關(guān)鍵字,在數(shù)據(jù)包中他們都以ASCII碼編碼方式存在,通過(guò)他們的結(jié)束標(biāo)識(shí)符“ ”即可從原始數(shù)據(jù)包中按字節(jié)讀取出字段信息。
這種基于原始數(shù)據(jù)包的第一層挖掘技術(shù)避開了傳統(tǒng)數(shù)據(jù)挖掘基于固定結(jié)構(gòu)的文本信息挖掘更具優(yōu)勢(shì)。在原始數(shù)據(jù)包層進(jìn)行挖掘,把HTTP標(biāo)準(zhǔn)協(xié)議作為基礎(chǔ)模型,這種數(shù)據(jù)挖掘技術(shù)更加具有普適性和通用性,可以大大提高數(shù)據(jù)挖掘效率。經(jīng)過(guò)對(duì)數(shù)據(jù)源的第一層挖掘,我們從133G的80端口進(jìn)出數(shù)據(jù)中挖掘出360. 8萬(wàn)條資源請(qǐng)求消息,說(shuō)明用戶在上網(wǎng)活動(dòng)中資源請(qǐng)求是相當(dāng)頻繁的。
在第二層挖掘中,通過(guò)數(shù)據(jù)庫(kù)統(tǒng)計(jì)輔助處理,我們分析出360.8萬(wàn)條Web資源訪問(wèn)請(qǐng)求中存在的不同的獨(dú)立資源請(qǐng)求總計(jì)僅有193.5萬(wàn)次,資源請(qǐng)求重復(fù)率高達(dá)46.36%,接近總訪問(wèn)次數(shù)的一半。這種情況意味著針對(duì)類似校園網(wǎng)這種特殊網(wǎng)絡(luò)拓?fù)?,在資源訪問(wèn)過(guò)程中存在著相當(dāng)高比例的重復(fù)請(qǐng)求事件,接近一半的數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸屬于帶寬重復(fù)占用,這勢(shì)必造成一種巨大的資源浪費(fèi)。其中同一資源訪問(wèn)重復(fù)率最多的高達(dá)6.96萬(wàn)次,相對(duì)次之的也有6.94萬(wàn)次。
這種情況表明,校園網(wǎng)中集群用戶在網(wǎng)頁(yè)瀏覽和資源請(qǐng)求中會(huì)對(duì)同一Web頁(yè)面和該頁(yè)面關(guān)聯(lián)的資源進(jìn)行重復(fù)訪問(wèn)請(qǐng)求。這樣,進(jìn)入類似校園網(wǎng)拓?fù)涞馁Y源數(shù)據(jù)流中就會(huì)多次出現(xiàn)同一資源。通過(guò)上面數(shù)據(jù)和圖表的觀察分析,這種重復(fù)性地資源傳輸所占據(jù)的比例是很高的,這必然會(huì)在一定程度上限制高速互聯(lián)網(wǎng)的發(fā)展。
通過(guò)以上兩層數(shù)據(jù)挖掘,已經(jīng)完成重復(fù)資源請(qǐng)求模型分析。在頁(yè)面重復(fù)訪問(wèn)統(tǒng)計(jì)中,我們針對(duì)頁(yè)面重復(fù)訪問(wèn)累計(jì)排名,可以從中挖掘出當(dāng)前的熱點(diǎn)頁(yè)面,如圖2所示。通過(guò)資源熱度分析,可以幫助我們建立用戶興趣模型。不僅可以分析出當(dāng)前熱點(diǎn)話題,而且還可以了解用戶興趣愛(ài)好,這樣將有利于幫助我們進(jìn)行更高層的應(yīng)用挖掘。從媒體角度出發(fā),可以通過(guò)該興趣模型,將媒體的視角傾向于大眾的眼光。這樣,網(wǎng)絡(luò)的服務(wù)才能趨于完美,更關(guān)注網(wǎng)民的意愿。
圖2 熱點(diǎn)頁(yè)面分析
在本文的分層數(shù)據(jù)包挖掘分析中,首先根據(jù)原始數(shù)據(jù)包結(jié)構(gòu)特征,完成數(shù)據(jù)包的層次結(jié)構(gòu)挖掘,最終形成重復(fù)Web資源粒度挖掘決策樹。在今后的研究中,將進(jìn)一步優(yōu)化海量信息熱點(diǎn)挖掘算法,配合動(dòng)態(tài)資源訪問(wèn)策略解決校園網(wǎng)熱點(diǎn)信息重復(fù)資源訪問(wèn)傳輸?shù)膯?wèn)題。
[1]中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告. 2010年1月
[2]Miao Chen, Shun-hua Tan, Guo-hai Y,ang Yi-zhi Wang. Research on network business identification technology based on IP packets. IEEE ICACIA2010
[3]WANG Hui, SUN Zhi-gang, DAI Bin, HE Jun-feng, GONG Zheng-hu. Dynamic flow control mechanism in large-scale streaming media multicast systems.Journal on Communications 1000-436X(2010)10-0088-10
[4]Shunhua Tan, Miao Chen,Guohai Yang and Yizhi Wang;Research on Network Data Mining Techniques, 2011International Conference on Information and Industrial Electronics
10.3969/j.issn.1001-8972.2011.11.051