張揚(yáng)
摘要
近年來,網(wǎng)絡(luò)技術(shù)發(fā)展迅速,且為推動(dòng)我國科技創(chuàng)新的發(fā)展做出了較大的貢獻(xiàn),作為網(wǎng)絡(luò)技術(shù)發(fā)展的組成部分,基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析系統(tǒng)的研究,不僅關(guān)系著網(wǎng)絡(luò)日志分析系統(tǒng)自身的大數(shù)據(jù)技術(shù)發(fā)展,而且對(duì)于現(xiàn)代化網(wǎng)絡(luò)技術(shù)的發(fā)展也具有重要的影響?;诖?,本文展開了對(duì)大數(shù)據(jù)時(shí)代背景下,網(wǎng)絡(luò)日志分析系統(tǒng)的研究。
【關(guān)鍵詞】大數(shù)據(jù)技術(shù) 網(wǎng)絡(luò) 日志 分析系統(tǒng)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,我國進(jìn)入了大數(shù)據(jù)時(shí)代,且大數(shù)據(jù)技術(shù)的發(fā)展也呈現(xiàn)出了良好局勢(shì)。因此,本文首先闡述了網(wǎng)絡(luò)日志分析系統(tǒng)的功能,其次研究了大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析算法,最后說明了大數(shù)據(jù)技術(shù)網(wǎng)絡(luò)日志分析系統(tǒng)的實(shí)驗(yàn)效果。此次課題研究的主要目的是明確網(wǎng)絡(luò)日志分析系統(tǒng)功能,進(jìn)而提升網(wǎng)絡(luò)日志的分析水平,推動(dòng)大數(shù)據(jù)技術(shù)的發(fā)展。
1 網(wǎng)絡(luò)日志分析系統(tǒng)的功能
對(duì)于大數(shù)據(jù)的采集,網(wǎng)絡(luò)日志分析系統(tǒng)被廣泛使用,該系統(tǒng)具有四個(gè)“V”特征,即數(shù)據(jù)的Volume(體量)巨大、數(shù)據(jù)的Variety(類型)多、數(shù)據(jù)的Velocity(速度)快以及數(shù)據(jù)Value(價(jià)值)大。對(duì)于網(wǎng)絡(luò)日志的大數(shù)據(jù)特性來說,通過對(duì)日志數(shù)據(jù)存儲(chǔ)與流程分析相結(jié)合,此次課題提出了網(wǎng)絡(luò)日志分析系統(tǒng)的功能分層,主要包括五大類,第一類為日志源層,主要構(gòu)成包括企業(yè)內(nèi)網(wǎng)中的網(wǎng)絡(luò)設(shè)備以及計(jì)算機(jī)軟硬件,并產(chǎn)生大量的日志記錄。第二類為采集層,其日志的采集服務(wù)器主要由一個(gè)或多個(gè)構(gòu)成,主要負(fù)責(zé)接收與存儲(chǔ)日志記錄。第三類為存儲(chǔ)層,存儲(chǔ)層主要負(fù)責(zé)存儲(chǔ)原始日志及統(tǒng)計(jì)分析結(jié)果。第四類為業(yè)務(wù)層,主要構(gòu)成為由各種日志的分析程序,主要解決日志數(shù)據(jù)的統(tǒng)計(jì)以及分析問題。第五類為顯示層,顯示層是指對(duì)業(yè)務(wù)層的處理結(jié)果再處理。并顯示在界面上。
2 大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析算法
在大數(shù)據(jù)網(wǎng)絡(luò)服務(wù)器中,一般會(huì)受到DoS與DDoS的攻擊,導(dǎo)致服務(wù)器出現(xiàn)高負(fù)荷運(yùn)轉(zhuǎn)的現(xiàn)象,最終服務(wù)呈現(xiàn)出癱瘓狀態(tài)。在服務(wù)器訪問日志中,通過對(duì)不同的IP地址請(qǐng)求次數(shù)的統(tǒng)計(jì),進(jìn)而找到請(qǐng)求次數(shù)較多的IP地址,最終達(dá)到對(duì)攻擊源、防御攻擊檢測的目的。在服務(wù)器的訪問日志中,數(shù)據(jù)信息繁多,日志文件的數(shù)量會(huì)達(dá)到GB級(jí)別,相對(duì)于傳統(tǒng)的單機(jī)模式,對(duì)數(shù)據(jù)的統(tǒng)計(jì)算法的時(shí)效性很強(qiáng)。根據(jù)Map Reduce的計(jì)算特點(diǎn),這種由并行算法改為傳統(tǒng)單機(jī)的算法,是大時(shí)代網(wǎng)絡(luò)日志分析的創(chuàng)新算法。
在網(wǎng)路日志分析系統(tǒng)中,數(shù)據(jù)主要是以文件的形式存入HDFS中,利用Map函數(shù),分析每一行的日志數(shù)據(jù),從而對(duì)申請(qǐng)?jiān)L問的源IP進(jìn)行提取,輸出的Key與Value之間的比值為源IP/1。出入的Reduce是相同的源IP,通過對(duì)源IP地址的累加,輸出的Key與Value的比值是源IP/n,也就是說,同一個(gè)IP源對(duì)服務(wù)器請(qǐng)求的次數(shù)。
3 大數(shù)據(jù)技術(shù)網(wǎng)絡(luò)日志分析系統(tǒng)的實(shí)驗(yàn)效果
在網(wǎng)絡(luò)日志分析系統(tǒng)中,主要是由8臺(tái)普通的PC組成,主要包括一臺(tái)為Master、一臺(tái)Syslog以及六臺(tái)Slave。
實(shí)驗(yàn)題目一:加速比的實(shí)驗(yàn)分析,以及并行算法執(zhí)行性能以及效果的分析。首先,對(duì)加速比概念進(jìn)行定義,即T1與Tn的比值,其中,T1是指1個(gè)Slave算法的運(yùn)行時(shí)間,Tn是指由n個(gè)Slave組合算法的運(yùn)行時(shí)間。
其次,分別選取1個(gè)、2個(gè)、4個(gè)以及6個(gè)Slave進(jìn)行實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)結(jié)果所示,當(dāng)數(shù)據(jù)集顯示為固定時(shí),通過對(duì)計(jì)算節(jié)點(diǎn)的不斷增加,分析并行算法對(duì)不同實(shí)驗(yàn)性能的影響。
在Map Reduce框架中,其計(jì)算工作會(huì)被隨機(jī)分配為到個(gè)Slave上,從理論上來看,當(dāng)計(jì)算節(jié)點(diǎn)沒增加一個(gè)時(shí),運(yùn)其算速度會(huì)相比為增加之前提升1倍,然而,在實(shí)驗(yàn)中發(fā)現(xiàn),實(shí)際效果并非如此。其原因主要是各節(jié)點(diǎn)之間的額外開銷,即同步、信以及調(diào)度等額外開銷,隨著節(jié)點(diǎn)的增多,開銷也逐漸變大。盡管開銷變大,但整體上的加速比也是呈上升趨勢(shì)的。
實(shí)驗(yàn)題目二:等效度量的實(shí)驗(yàn)分析。最大加速比的計(jì)算結(jié)點(diǎn)數(shù)值為n,受額外開銷影響,實(shí)際的加速比Sn不會(huì)超過n,所以,利用等效度量指標(biāo),能夠有效地反映出加速比與n的關(guān)系。
實(shí)驗(yàn)分別啟動(dòng)了2個(gè)、4個(gè)以及6個(gè)Slave,根據(jù)不同程度的數(shù)據(jù)規(guī)模,對(duì)日志文件進(jìn)行并行預(yù)算。實(shí)驗(yàn)結(jié)果顯示,隨著不斷增大的數(shù)據(jù)規(guī)模,等效度量指標(biāo)也在逐漸提高;隨不斷增加的Slave個(gè)數(shù),等效度量指標(biāo)也逐漸呈現(xiàn)下降趨勢(shì)。當(dāng)數(shù)據(jù)規(guī)模與Slave個(gè)數(shù)一同增多時(shí),等效度量指標(biāo)為常數(shù)。2個(gè)Slave能夠?qū)崿F(xiàn)對(duì)3.8GB日志文件的處理,4個(gè)Slave能夠?qū)崿F(xiàn)對(duì)8GB日志文件的處理,6個(gè)Slave能夠?qū)崿F(xiàn)對(duì)20GB日志文件的處理。其等效度量的指標(biāo)E維持在0.75左右。也就是說,隨著系統(tǒng)處理數(shù)據(jù)的增多,通過增加計(jì)算節(jié)點(diǎn)能會(huì)對(duì)系統(tǒng)的性能造成一定的影響[3]。
4 結(jié)論
本文在對(duì)網(wǎng)絡(luò)日志分析系統(tǒng)功能的分析基礎(chǔ)上,展開了對(duì)大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析算法的研究,最后分析了大數(shù)據(jù)技術(shù)網(wǎng)絡(luò)日志分析系統(tǒng)的實(shí)驗(yàn)效果。分析結(jié)果表明,在網(wǎng)絡(luò)日志分析系統(tǒng)中,分析算法受計(jì)算節(jié)點(diǎn)、額外開銷、處理數(shù)據(jù)以及等效度量的影響,其中,計(jì)算節(jié)點(diǎn)的增多會(huì)影響額外開銷,呈正相關(guān),處理數(shù)據(jù)的多少也直接影響著等效度量,也呈正相關(guān)。
參考文獻(xiàn)
[1]鄧小盾.一種基于大數(shù)據(jù)的網(wǎng)絡(luò)日志分析模型構(gòu)建研究[J].電子設(shè)計(jì)工程,2017,25(23):97-100.
[2]郗超.校園無線網(wǎng)絡(luò)日志大數(shù)據(jù)分析平臺(tái)的研究與實(shí)現(xiàn)[D].內(nèi)蒙古農(nóng)業(yè)大學(xué),2017,52(03):197-198.
[3]任凱,鄧武,俞琰.基于大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)日志分析系統(tǒng)研究[J].現(xiàn)代電子技術(shù),2016,39(02):39-41+44.