国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大型分布式入侵檢測(cè)系統(tǒng)

2020-07-21 06:43:16楊瑞增陳天鷹李玉盼
關(guān)鍵詞:警報(bào)質(zhì)心內(nèi)存

楊瑞增 ,陳天鷹 ,李玉盼

(1.華北計(jì)算機(jī)系統(tǒng)工程研究所,北京 100083;2.中國(guó)鐵道科學(xué)研究院 研究生院,北京 100081;3.北京交通大學(xué),北京 100044)

0 引言

入侵檢測(cè)旨在使用已知的攻擊特征來識(shí)別未經(jīng)授權(quán)的訪問。入侵檢測(cè)的重點(diǎn)是發(fā)現(xiàn)多手段多層次的攻擊,這些攻擊可能會(huì)隨著時(shí)間的流逝借助復(fù)雜網(wǎng)絡(luò)中各個(gè)點(diǎn)而傳播[1]。特別是隨著數(shù)據(jù)集變得龐大,多手段多層次的攻擊檢測(cè)是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。

2011年7月在太平洋西北國(guó)家實(shí)驗(yàn)室曾經(jīng)發(fā)生過一次復(fù)雜的多手段網(wǎng)絡(luò)攻擊事件。盡管實(shí)驗(yàn)室的IT安全邊界得到了很好的保護(hù),但這些攻擊卻是在非常協(xié)調(diào)和長(zhǎng)期的過程中完成的。首先是對(duì)組織的攻擊,其次是對(duì)共享關(guān)鍵資源的合作伙伴的攻擊。在攻擊的第一部分中,入侵者利用了面向公眾的Web服務(wù)器中的漏洞[2]。此外,黑客還秘密地從受攻擊的工作站中搜索了網(wǎng)絡(luò),這些工作站已作為長(zhǎng)期協(xié)調(diào)攻擊的一部分而被預(yù)先鎖定。攻擊的第二部分始于魚叉式網(wǎng)絡(luò)釣魚,第二組黑客對(duì)組織的主要業(yè)務(wù)合作伙伴發(fā)起了網(wǎng)絡(luò)釣魚攻擊,并與之共享網(wǎng)絡(luò)資源。黑客能夠獲得特權(quán)賬戶并破壞由組織及其合作伙伴共享的根域控制器。當(dāng)入侵者試圖重新創(chuàng)建和分配特權(quán)時(shí),警報(bào)最終被觸發(fā),以警告組織的網(wǎng)絡(luò)安全團(tuán)隊(duì)[3]。

如上述示例所示,在這樣長(zhǎng)時(shí)間的多源攻擊情形下,僅查看數(shù)據(jù)的一個(gè)維度是不夠的。其缺點(diǎn)在深度威脅檢測(cè)中暴露也很明顯。于是分布式入侵檢測(cè)系統(tǒng)的概念被引入,該系統(tǒng)提供了用于檢測(cè)針對(duì)組織及其合作伙伴的分布式網(wǎng)絡(luò)資源的協(xié)同攻擊的基礎(chǔ)結(jié)構(gòu)。鑒于多種攻擊源的復(fù)雜性以及針對(duì)這種多手段多層次的攻擊生成的大量數(shù)據(jù),本文提出了一種大型分布式IDS(BDIDS)形式的多級(jí)挖掘框架。在大多數(shù)組織中收集的重要數(shù)據(jù)之一是IDS日志數(shù)據(jù),例如Snort日志。本文使用IDS日志來篩選可能看上去良性的警報(bào),但良性警報(bào)也可能會(huì)與其他警報(bào)一起指示嚴(yán)重警報(bào)[4]。

在本文建議的分布式環(huán)境中,每個(gè)子網(wǎng)都包含一個(gè)DIDS代理,該代理執(zhí)行本地入侵檢測(cè)并生成IDS日志數(shù)據(jù)。來自每個(gè)DIDS代理的日志數(shù)據(jù)被發(fā)送到控制中心,并在其中進(jìn)行匯總分析。當(dāng)檢測(cè)到針對(duì)已知威脅的攻擊時(shí),每個(gè)基于簽名的代理都會(huì)生成與警報(bào)關(guān)聯(lián)的優(yōu)先級(jí),并針對(duì)其他“異常”行為生成高、中和低優(yōu)先級(jí)警報(bào)。對(duì)于高優(yōu)先級(jí)警報(bào),可以清楚地被標(biāo)記,但是中低優(yōu)先級(jí)警報(bào)數(shù)據(jù)非常大,使得管理員難以執(zhí)行手動(dòng)分析[5]。在具有高流量的大型網(wǎng)絡(luò)中,此數(shù)據(jù)可能更大。系統(tǒng)管理員通過查詢查看警報(bào)數(shù)據(jù),以檢測(cè)網(wǎng)絡(luò)中的可疑行為。但是,在這樣的審查中,作為協(xié)同攻擊的一部分的多個(gè)警報(bào)將被遺漏。

本文認(rèn)為這是一類不平衡的學(xué)習(xí)問題。本文使用集成分類技術(shù)自動(dòng)對(duì)大量匯總的警報(bào)數(shù)據(jù)進(jìn)行分類,并向系統(tǒng)管理員警告潛在的協(xié)同攻擊。本文認(rèn)為每個(gè)代理都提供一個(gè)訓(xùn)練集,該訓(xùn)練集是在通過聚類算法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理之后生成的。使用拆分比率(Split Ratio,SR)從每個(gè)聚類中選擇訓(xùn)練元組,以使訓(xùn)練集由相對(duì)于聚類質(zhì)心的近、遠(yuǎn)或離群的元組組成。這種有針對(duì)性的選擇在樣本多樣性較高的情況下(如入侵檢測(cè)為少數(shù))產(chǎn)生了高度準(zhǔn)確的結(jié)果。在這項(xiàng)研究中,本文使用先進(jìn)的大數(shù)據(jù)處理工具探索機(jī)器學(xué)習(xí)技術(shù)的優(yōu)勢(shì)。

本文使用HAMR處理分布式IDS傳感器內(nèi)部和傳感器之間的海量數(shù)據(jù)集,這是由HAMRTech(HAMR Analytic Technologies)開發(fā)的下一代內(nèi)存MapReduce引擎,無(wú)縫支持批處理和流分析。在執(zhí)行機(jī)器學(xué)習(xí)算法時(shí),HAMR支持MapReduce編程模型,并通過Hadoop產(chǎn)生高速度數(shù)據(jù)處理[6]。

1 本文方法簡(jiǎn)介

本節(jié)簡(jiǎn)要概述了本文提出的用于挖掘多個(gè)IDS警報(bào)的方法,這些警報(bào)是從多個(gè)子網(wǎng)提交的,以預(yù)測(cè)多手段多層次的攻擊,如圖1所示。本架構(gòu)包括通過HAMR進(jìn)行的大數(shù)據(jù)分析處理以及將駐留在HAMR上的分析引擎。

圖1 BDIDS控制中心分析

2 分析引擎

2.1 集群和標(biāo)記IDS警報(bào)

預(yù)處理后,對(duì)IDS日志數(shù)據(jù)進(jìn)行聚類。數(shù)據(jù)采用已解析IDS警報(bào)的形式,其中每個(gè)警報(bào)都是優(yōu)先級(jí)為高、中或低的數(shù)據(jù)點(diǎn)。如圖1所示,該數(shù)據(jù)是從多個(gè)IDS來源收集的。本文架構(gòu)的前提是,與來自不同IDS的其他一些警報(bào)一起查看時(shí),低優(yōu)先級(jí)警報(bào)可能表示協(xié)同攻擊。由于本文方法可以查看來自多個(gè)IDS的所有警報(bào),因此有機(jī)會(huì)研究警報(bào)之間的相似性,然后判斷警報(bào)是真正的低優(yōu)先級(jí)還是潛在的高優(yōu)先級(jí)。最終目標(biāo)是在多個(gè)IDS之間折疊并重新分類相關(guān)警報(bào),這些警報(bào)可能表明存在網(wǎng)絡(luò)攻擊。

所有警報(bào)都收集在控制子網(wǎng)中,并對(duì)其進(jìn)行聚類。應(yīng)當(dāng)注意,傳統(tǒng)的聚類可以對(duì)數(shù)字屬性和分類屬性分別執(zhí)行[7]。根據(jù)該思想,如果低優(yōu)先級(jí)警報(bào)“l(fā)”與多個(gè)高優(yōu)先級(jí)警報(bào)“h”屬于同一群集 Ch,則IDS很有可能將警報(bào)“l(fā)”標(biāo)記為錯(cuò)誤。這可以通過以下方式進(jìn)一步驗(yàn)證:(1)“l(fā)”與高優(yōu)先級(jí)群集 Ch的群集質(zhì)心的距離很小,這表明“l(fā)”確實(shí)靠近質(zhì)心,因此與Ch中的其他“h”警報(bào)高度相似。(2)群集 Ch的總體平方誤差(Sum of Squared Error,SSE)將指示群集的質(zhì)量,高SSE表示數(shù)據(jù)點(diǎn)在質(zhì)心周圍廣泛散布,而低SSE表示數(shù)據(jù)點(diǎn)在質(zhì)心周圍緊密編織。較低的SSE將更有效地證明本文聲稱“l(fā)”確實(shí)貼錯(cuò)了標(biāo)簽。另外,可以執(zhí)行關(guān)聯(lián)以識(shí)別具有高關(guān)聯(lián)度的數(shù)據(jù)點(diǎn),以增加檢測(cè)錯(cuò)誤分類的警報(bào)的可能性,尤其是在低優(yōu)先級(jí)警報(bào)與高優(yōu)先級(jí)警報(bào)一致地關(guān)聯(lián)的情況下。

如果這些多次驗(yàn)證或多數(shù)驗(yàn)證都肯定錯(cuò)誤地標(biāo)記了“l(fā)”,那么本文將為該警報(bào)提供一個(gè)新標(biāo)簽“p”,表示該警報(bào)肯定表示攻擊。其他未通過此測(cè)試的警報(bào)被標(biāo)記為“n”,表示它們是負(fù)數(shù)據(jù)點(diǎn)。本文將這些新標(biāo)簽用作分類集合,以便根據(jù)本文從多個(gè)IDS衍生的元知識(shí),將任何新傳入的警報(bào)預(yù)測(cè)為“p”或“n”。

2.2 訓(xùn)練集生成

為了創(chuàng)建訓(xùn)練集,本文將使用數(shù)據(jù)集中點(diǎn)分布的知識(shí)。為此,本文使用聚類并提取接近質(zhì)心的點(diǎn)、遠(yuǎn)離質(zhì)心的點(diǎn)和似乎離群的點(diǎn)[8]。這將使本文能夠很好地表示與聚類質(zhì)心和異常值非常相似的數(shù)據(jù)點(diǎn)(警報(bào))。與其他數(shù)據(jù)點(diǎn)相比,高度相似的數(shù)據(jù)點(diǎn)模擬群集的平均行為,而離群點(diǎn)則具有極端行為。

2.3 整體學(xué)習(xí)

本文提出的集合分類器通過創(chuàng)建實(shí)例的選擇性子集來最大化多樣性,這些實(shí)例子集彼此相似但與其他子集中的實(shí)例不同。每個(gè)子集都是從實(shí)例創(chuàng)建的,這些實(shí)例已經(jīng)足夠相似,可以通過k均值聚類放入相同的集群中。研究表明,總體的多樣性對(duì)類不平衡表現(xiàn)有積極影響。因此,本文旨在通過集合中的多個(gè)不重疊的訓(xùn)練集來實(shí)現(xiàn)高度多樣性。

本文創(chuàng)建兩個(gè)名為Near和Far的訓(xùn)練集。這些是根據(jù)拆分率定義的,拆分率顯示了應(yīng)進(jìn)入“近”或“遠(yuǎn)”訓(xùn)練集的每個(gè)群集中示例的百分比。例如,拆分比率(SR)值為40%,表明最接近群集中心的示例中有40%進(jìn)入了近距離訓(xùn)練集中,其余60%進(jìn)入了遠(yuǎn)距離訓(xùn)練集中。接下來,使用每個(gè)訓(xùn)練集訓(xùn)練一個(gè)弱分類器。然后,每個(gè)受過訓(xùn)練的分類器用于對(duì)相同的不重疊測(cè)試集進(jìn)行分類。分別針對(duì)每個(gè)分類器計(jì)算總體績(jī)效指標(biāo)。最后,使用投票系統(tǒng)將分類器的預(yù)測(cè)結(jié)合起來。根據(jù)每個(gè)分類器的整體表現(xiàn)對(duì)它們進(jìn)行加權(quán),然后輸出預(yù)測(cè)的分類器標(biāo)簽。

3 大數(shù)據(jù)處理

模型開發(fā)和分類器都需要大數(shù)據(jù)解決方案,但是出于不同的原因。在模型開發(fā)階段,靜態(tài)數(shù)據(jù)集將包含在幾年內(nèi)從許多IDS代理收集的IDS警報(bào)數(shù)據(jù)中,并且可能在10 TB范圍內(nèi)。數(shù)據(jù)量與執(zhí)行模型訓(xùn)練所需的復(fù)雜算法相結(jié)合,就需要分布式的內(nèi)存解決方案,以便模型開發(fā)在合理的時(shí)間內(nèi)完成。但是在實(shí)時(shí)系統(tǒng)中,分布式IDS代理將向中央分析服務(wù)器發(fā)送警報(bào)。實(shí)時(shí)系統(tǒng)中收集處理警報(bào)數(shù)據(jù)的速度還需要分布式內(nèi)存解決方案,以使系統(tǒng)跟上峰值負(fù)載。

本文使用HAMR來處理分布式IDS傳感器之內(nèi)和之間的海量數(shù)據(jù)集。HAMR是由HAMR Analytic Technologies(HAMRTech)開發(fā)的下一代內(nèi)存MapReduce引擎,無(wú)縫支持批處理和流分析[9]。HAMR在執(zhí)行機(jī)器學(xué)習(xí)算法時(shí)支持熟悉的MapReduce編程模型。機(jī)器學(xué)習(xí)的兩個(gè)階段(模型訓(xùn)練和實(shí)時(shí)分類)與HAMR的組件庫(kù)無(wú)縫集成。在HAMR基準(zhǔn)測(cè)試報(bào)告的初步分析中,HAMR在各種分析算法中產(chǎn)生了多個(gè)加速順序。表1顯示了在各種分析中對(duì)類似大數(shù)據(jù)產(chǎn)品的加速。HAMR展示了使用樸素的貝葉斯訓(xùn)練算法可以高倍提高Hadoop和Mahout的速度,這表明它是當(dāng)前工作的有效可擴(kuò)展解決方案。此外,HAMR證明其延遲是流行的實(shí)時(shí)流引擎Apache Storm的2.6倍。表1進(jìn)一步顯示,HAMR的性能比Spark提高了7倍,并且能夠處理內(nèi)存中10倍以上的數(shù)據(jù)。

本文建議在批處理模式下使用HAMR來生成具有多個(gè)訓(xùn)練數(shù)據(jù)集的模型集合。該集合與HAMR實(shí)時(shí)引擎一起將被集成到BDIDS中,以對(duì)匯總的警報(bào)數(shù)據(jù)進(jìn)行分類,從而向系統(tǒng)管理員提供匯總警報(bào),以高精度地警告潛在的針對(duì)網(wǎng)絡(luò)資源的協(xié)同攻擊。

4 Hadoop與HAMR性能比較試驗(yàn)

本次實(shí)驗(yàn)采用4臺(tái)計(jì)算機(jī)搭建的集群,其中1個(gè)主節(jié)點(diǎn)3個(gè)從節(jié)點(diǎn)。試驗(yàn)數(shù)據(jù)由HiBench Benchmark Suite 4.06版本生成。運(yùn)行在HAMR上的PageRank算法代碼包括在HAMR0.4.1版本中。

Hadoop上運(yùn)行PageRank基本思想是使用一個(gè)MapReduce過程作為PageRank的一個(gè)迭代。每次迭代中,Map輸入值為單位網(wǎng)頁(yè),輸出值為當(dāng)前PageRank值。每次迭代過程分為兩個(gè)階段。階段一,每個(gè)網(wǎng)頁(yè)將當(dāng)前PR值與連接數(shù)的比值分配給每個(gè)指向其他網(wǎng)頁(yè)的鏈接,該過程由映射函數(shù)實(shí)現(xiàn);階段二,每個(gè)網(wǎng)頁(yè)統(tǒng)計(jì)指向自己鏈接攜帶的PR值,該聚合過程由Reduce函數(shù)實(shí)現(xiàn)。

表1 HAMR對(duì)各類算法加速概述

HAMR上運(yùn)行PageRank基本思想:在初始化階段,從HDFS上讀取輸入文件;然后創(chuàng)建圖表Key-ValueStore,再初始化RanksKeyValueStore;接下來執(zhí)行迭代算法。迭代中,每個(gè)頁(yè)面的PR值為所有指向其鏈接的PR值之和。一旦所有頁(yè)面被遍歷,迭代更新保存PR值得KeyValueStore。為了保持HAMR的穩(wěn)定,固定迭代次數(shù)。

實(shí)驗(yàn)輸入數(shù)據(jù)集為200萬(wàn)~300萬(wàn)網(wǎng)頁(yè),輸入數(shù)據(jù)從1 GB~20 GB大小不等。每個(gè)數(shù)據(jù)集執(zhí)行5次迭代。

運(yùn)行時(shí)間比較見圖2。隨著輸入數(shù)據(jù)增大,HAMR優(yōu)勢(shì)更加明顯。當(dāng)輸入數(shù)據(jù)集較小時(shí),HAMR的內(nèi)存使用率保持穩(wěn)定;隨著數(shù)據(jù)集增大,HAMR內(nèi)存使用率明顯增高,總體而言內(nèi)存使用率高于Hadoop。HAMR在每個(gè)節(jié)點(diǎn)中具有比Hadoop高的吞吐量。當(dāng)輸入數(shù)據(jù)集變大時(shí),HAMR展示出比Hadoop更好的自適應(yīng)特性,見圖3。

圖2 運(yùn)行時(shí)間比較

圖3 包通過量

5 結(jié)論

本文提出了一種大型分布式入侵檢測(cè)系統(tǒng),在此架構(gòu)中,利用了大數(shù)據(jù)處理引擎HAMR,并提出了一種新穎的集成方法來識(shí)別多手段多層次的攻擊。本文計(jì)劃在公共數(shù)據(jù)集上進(jìn)行廣泛的實(shí)驗(yàn),并就提速和結(jié)果質(zhì)量,針對(duì)現(xiàn)有的大數(shù)據(jù)解決方案提供基準(zhǔn)。

猜你喜歡
警報(bào)質(zhì)心內(nèi)存
重型半掛汽車質(zhì)量與質(zhì)心位置估計(jì)
基于北斗三號(hào)的人防警報(bào)控制系統(tǒng)及應(yīng)用
基于GNSS測(cè)量的天宮二號(hào)質(zhì)心確定
假期終結(jié)者
“春夏秋冬”的內(nèi)存
是誰(shuí)的責(zé)任?
拉響夏日警報(bào)定格無(wú)痕跡美肌
Coco薇(2017年8期)2017-08-03 20:40:58
一種海洋測(cè)高衛(wèi)星質(zhì)心在軌估計(jì)算法
航天器工程(2014年5期)2014-03-11 16:35:53
基于內(nèi)存的地理信息訪問技術(shù)
均質(zhì)半圓盤質(zhì)心計(jì)算的微元選取及討論
物理與工程(2010年1期)2010-03-25 10:01:48
大冶市| 六枝特区| 平顶山市| 西峡县| 乐都县| 福建省| 奉化市| 吐鲁番市| 北流市| 通道| 双柏县| 尚志市| 利辛县| 石城县| 垦利县| 汤阴县| 新昌县| 定远县| 灵璧县| 万载县| 育儿| 聂荣县| 万州区| 泌阳县| 连江县| 武安市| 平塘县| 洪泽县| 綦江县| 临猗县| 祁阳县| 北票市| 鹤壁市| 建水县| 化德县| 泰宁县| 五指山市| 万盛区| 祁门县| 临夏县| 自贡市|