基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法研究

2021-08-23 06:03羅森林

信息安全研究 2021年9期

李橙羅森林

(北京理工大學(xué)信息系統(tǒng)及安全對(duì)抗實(shí)驗(yàn)中心北京 100081)(lc_bitsec@foxmail.com)

惡意軟件的數(shù)量隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展在逐年增多，計(jì)算機(jī)也面臨越來(lái)越多的病毒、木馬和其他惡意軟件攻擊的威脅.賽門鐵克2019年發(fā)布的互聯(lián)網(wǎng)安全威脅報(bào)告中指出，賽門鐵克全球情報(bào)網(wǎng)絡(luò)日均攔截的威脅數(shù)量高達(dá)1.42億個(gè).因?yàn)槭找娓?、成本低等原因，針?duì)主機(jī)的挖礦劫持和勒索軟件仍是網(wǎng)絡(luò)犯罪分子首選的攻擊手段[1].基于主機(jī)的入侵檢測(cè)系統(tǒng)(host-based intrusion detection system, HIDS)用于檢測(cè)入侵行為并發(fā)出警報(bào)，可以阻止惡意軟件的惡意行為[2]，從而保護(hù)主機(jī)的安全.

系統(tǒng)調(diào)用序列是由系統(tǒng)調(diào)用組成的包含順序關(guān)系的序列，系統(tǒng)調(diào)用是操作系統(tǒng)實(shí)現(xiàn)并提供給應(yīng)用程序調(diào)用的一系列內(nèi)核函數(shù)，應(yīng)用程序的行為目標(biāo)幾乎都是通過(guò)系統(tǒng)調(diào)用實(shí)現(xiàn)[3].系統(tǒng)調(diào)用表示應(yīng)用程序的底層行為，是現(xiàn)階段用于入侵檢測(cè)的最佳數(shù)據(jù)粒度[4]，并且系統(tǒng)調(diào)用可以實(shí)時(shí)的獲取，從而完整地監(jiān)視整個(gè)系統(tǒng)的行為.誤報(bào)率是HIDS的重要衡量指標(biāo)之一[5]，較高的誤報(bào)率會(huì)影響HIDS的檢測(cè)性能，甚至使得HIDS失效[6].Murtaza等人[7]指出引起誤報(bào)的其中一個(gè)原因是基于n-gram的入侵檢測(cè)方法對(duì)原始系統(tǒng)調(diào)用序列進(jìn)行特征提取是一種精確匹配方式，導(dǎo)致構(gòu)建的模型泛化能力較弱，據(jù)此本文提出基于內(nèi)核模塊的系統(tǒng)調(diào)用抽象方法.該方法建立系統(tǒng)調(diào)用和系統(tǒng)內(nèi)核模塊的映射關(guān)系，根據(jù)該映射關(guān)系將系統(tǒng)調(diào)用序列轉(zhuǎn)換為用內(nèi)核模塊表示的抽象系統(tǒng)調(diào)用序列，以提升模型的泛化性能，從而降低誤報(bào)率.

基于內(nèi)核模塊的系統(tǒng)調(diào)用抽象方法將Linux操作系統(tǒng)中約300個(gè)系統(tǒng)調(diào)用抽象為8個(gè)內(nèi)核模塊表示，但同一內(nèi)核模塊的部分系統(tǒng)調(diào)用存在較大行為差異，且不同內(nèi)核模塊也含有行為相似的系統(tǒng)調(diào)用.例如系統(tǒng)調(diào)用子序列“open，llseek，read”和“chdir，lstat，chmod”使用相同的內(nèi)核模塊抽象表示，即“Kernel，Kernel，Kernel”，但2個(gè)序列表達(dá)的行為語(yǔ)義不同，前者每個(gè)系統(tǒng)調(diào)用的行為分別是打開文件、設(shè)置讀取位置、讀取內(nèi)容，序列表達(dá)讀取文件內(nèi)容的行為語(yǔ)義；后者每個(gè)系統(tǒng)調(diào)用的行為分別是切換目錄、獲取文件狀態(tài)信息、修改文件的權(quán)限，序列表達(dá)修改文件權(quán)限的行為語(yǔ)義，使用相同內(nèi)核模塊抽象表示不同行為的系統(tǒng)調(diào)用會(huì)導(dǎo)致系統(tǒng)調(diào)用序列的行為語(yǔ)義難以充分表達(dá)，影響入侵檢測(cè)性能.

通過(guò)分析Linux操作系統(tǒng)中的系統(tǒng)調(diào)用，發(fā)現(xiàn)某些系統(tǒng)調(diào)用的行為非常相似，例如“getuid”和“geteuid”都表示獲取用戶ID，“stat”“fstat”“l(fā)astat”“fstatat”都表示獲取文件的狀態(tài)信息.不同內(nèi)核模塊的系統(tǒng)調(diào)用也存在相似的行為，例如分別屬于“Kernel”和“File System”內(nèi)核模塊的系統(tǒng)調(diào)用“fchown32”和“setfsuid”都表示對(duì)文件權(quán)限的設(shè)置.針對(duì)上述問(wèn)題和分析，本文提出一種基于系統(tǒng)調(diào)用行為相似性聚類的系統(tǒng)調(diào)用抽象入侵檢測(cè)方法.

1 相關(guān)工作

受生物體的自然免疫系統(tǒng)啟發(fā)，F(xiàn)orrest等人[8]首次提出將系統(tǒng)調(diào)用序列用于入侵檢測(cè)，提出序列延時(shí)嵌入(sequence time delay embedding, STIDE)方法.STIDE通過(guò)在正常系統(tǒng)調(diào)用序列上滑動(dòng)一個(gè)長(zhǎng)度為n的窗口(即n-gram)來(lái)建立一個(gè)正常序列的數(shù)據(jù)庫(kù).然后從未知行為的序列中提取長(zhǎng)度為n的序列，并將其與數(shù)據(jù)庫(kù)進(jìn)行比較，如提取的序列不在數(shù)據(jù)庫(kù)中，則將其所在的序列視為異常序列.

Creech等人[4]提出一種新的基于語(yǔ)義的入侵檢測(cè)方法來(lái)降低誤報(bào)率，使用不同長(zhǎng)度的系統(tǒng)調(diào)用組成單詞，基于語(yǔ)義的短語(yǔ)字典又由單詞組成，使用極限學(xué)習(xí)機(jī)進(jìn)行異常檢測(cè)，該方法在ADFA-LD[9]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)，結(jié)果顯示當(dāng)檢測(cè)率為100%時(shí)，誤報(bào)率為20%，但模型訓(xùn)練需要數(shù)周的時(shí)間.

Aghaei等人[10]通過(guò)提取正常和惡意系統(tǒng)調(diào)用序列上所有的n-gram(1

Zhao等人[11]提出了一種具有連續(xù)重疊子序列交叉熵的混合n-gram(H-gram)特征提取方法，該方法實(shí)現(xiàn)了對(duì)API調(diào)用或指令序列的語(yǔ)義分割，提取的API序列的特征維度非常大，于是使用基于聯(lián)合熵的特征選擇方法進(jìn)行降維.實(shí)驗(yàn)結(jié)果顯示使用混合n-gram的特征提取方法比使用固定長(zhǎng)度的n-gram的特征提取方法能夠得到更高的準(zhǔn)確度和更低的誤報(bào)率.

Murtaza等人[7,12]將系統(tǒng)調(diào)用按照其所屬的內(nèi)核模塊分為8類(Architecture，F(xiàn)ile System，Inter Process Communications，Kernel，Memory Management，Networking，Security，Unknown)，并將系統(tǒng)調(diào)用序列使用這8類內(nèi)核模塊進(jìn)行抽象表示，然后將抽象的系統(tǒng)調(diào)用序列作為STIDE和馬爾可夫模型的輸入，結(jié)果表明該方法可以降低誤報(bào)率并減少入侵檢測(cè)的執(zhí)行時(shí)間.

誤報(bào)率是入侵檢測(cè)系統(tǒng)重要的衡量指標(biāo)之一，許多方法被提出用于降低誤報(bào)率，基于內(nèi)核模塊抽象的主機(jī)入侵檢測(cè)方法通過(guò)內(nèi)核模塊對(duì)系統(tǒng)調(diào)用行為進(jìn)行抽象表示，但在同一內(nèi)核模塊的部分系統(tǒng)調(diào)用存在較大行為差異，且不同內(nèi)核模塊也含有行為相似的系統(tǒng)調(diào)用，造成行為抽象映射的混淆，影響檢測(cè)效果.針對(duì)該問(wèn)題，本文提出基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法.

2 基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法

2.1 原理框架

基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法如圖1所示.系統(tǒng)調(diào)用序列作為系統(tǒng)調(diào)用抽象步驟的輸入，通過(guò)基于系統(tǒng)調(diào)用行為相似性聚類的系統(tǒng)調(diào)用抽象方法轉(zhuǎn)換為系統(tǒng)調(diào)用抽象序列，然后使用系統(tǒng)調(diào)用抽象序列進(jìn)行模型的構(gòu)建與分類.

圖1 主機(jī)入侵檢測(cè)方法原理框架圖

系統(tǒng)調(diào)用序列抽象步驟中，首先使用Word2Vec對(duì)原始系統(tǒng)調(diào)用序列進(jìn)行詞嵌入得到詞向量，再使用k-means聚類算法對(duì)系統(tǒng)調(diào)用詞向量進(jìn)行聚類，得到系統(tǒng)調(diào)用抽象映射字典，最后使用抽象映射字典將系統(tǒng)調(diào)用序列轉(zhuǎn)換為系統(tǒng)調(diào)用抽象序列.

2.2 系統(tǒng)調(diào)用序列抽象

2.2.1 Word2Vec相似性特征提取

Word2Vec是從大量文本語(yǔ)料中以無(wú)監(jiān)督的方式學(xué)習(xí)語(yǔ)義知識(shí)的一種淺層神經(jīng)網(wǎng)絡(luò)模型，它被大量地用在自然語(yǔ)言處理中，通過(guò)學(xué)習(xí)文本來(lái)用詞向量的方式表征詞的語(yǔ)義信息，即通過(guò)一個(gè)嵌入空間使得上下文相似的單詞在該空間內(nèi)余弦距離很近.

使用Word2Vec對(duì)系統(tǒng)調(diào)用進(jìn)行詞嵌入，構(gòu)建連續(xù)稠密詞向量實(shí)現(xiàn)多維度系統(tǒng)調(diào)用行為語(yǔ)義相似性信息提取.將系統(tǒng)調(diào)用視為一個(gè)單詞，根據(jù)其所要實(shí)現(xiàn)的功能來(lái)描述這個(gè)詞的行為語(yǔ)義，不同的系統(tǒng)調(diào)用在不同維度上可能具有行為語(yǔ)義相似性.例如在某一維度上系統(tǒng)調(diào)用“chmod”“fchmod”“fchmodat”的功能都是更改文件的權(quán)限，在另一維度上系統(tǒng)調(diào)用“read”“write”“open”的功能都是對(duì)文件的操作.通過(guò)Word2Vec模型訓(xùn)練輸出的連續(xù)稠密詞向量可以在多個(gè)維度上表達(dá)這種行為語(yǔ)義相似性，具有相似行為語(yǔ)義的系統(tǒng)調(diào)用的詞向量在空間上的余弦距離相近.

2.2.2k-means聚類

采用k-means算法對(duì)系統(tǒng)調(diào)用進(jìn)行聚類.k-means是一種基于距離的無(wú)監(jiān)督學(xué)習(xí)聚類算法，以歐氏距離作為相似性指標(biāo)，將輸入的樣本按照指定的聚類簇?cái)?shù)k，分為k個(gè)簇.算法具體描述如下：

步驟1.隨機(jī)選取k個(gè)樣本作為初始的聚類中心a=(a1,a2,…,ak)；

步驟2.針對(duì)數(shù)據(jù)集中每個(gè)樣本xi，通過(guò)式(1)計(jì)算它到k個(gè)聚類中心的距離，并將其分到距離最小的聚類中心所對(duì)應(yīng)的簇中，其中Ci為樣本xi被分到的簇，aj為第j個(gè)聚類中心:

(1)

步驟3.對(duì)每一個(gè)簇，通過(guò)式(2)重新計(jì)算其聚類中心aj，其中Ci為第i個(gè)簇.

(2)

然后重復(fù)步驟2和步驟3，直到達(dá)到終止條件(最大迭代次數(shù)、誤差平方和局部最小、聚類中心不變或變化很小等).

(3)

由于k-means算法無(wú)法在計(jì)算中確定需要聚類的簇的數(shù)量，需要指定聚類的簇?cái)?shù)，即聚類k值，在本文中使用輪廓系數(shù)法來(lái)確定最佳的聚類k值.輪廓系數(shù)法是聚類效果好壞的一種評(píng)價(jià)方式，該方法結(jié)合內(nèi)聚度和分離度2種因素，當(dāng)輪廓系數(shù)越大表示分類效果越好.

2.2.3 抽象映射

使用k-means算法對(duì)歸一化后的系統(tǒng)調(diào)用詞向量進(jìn)行聚類，可以得到系統(tǒng)調(diào)用Si與其分類后所屬簇Cj(j=0,1,…,k-1)的映射關(guān)系，如式(4)，該映射關(guān)系構(gòu)成的空間稱為系統(tǒng)調(diào)用抽象映射字典.

f(Si)=Cj.

(4)

對(duì)于系統(tǒng)調(diào)用序列T={S1,S2,…,Si}(i等于系統(tǒng)調(diào)用序列T的最大長(zhǎng)度)，通過(guò)式(4)將其轉(zhuǎn)換為抽象的系統(tǒng)調(diào)用序列AT={f(S1),f(S2),…,f(Si)}.

2.3 模型構(gòu)建與分類

將抽象后的系統(tǒng)調(diào)用序列分為訓(xùn)練集和測(cè)試集，將訓(xùn)練集用于入侵檢測(cè)模型的訓(xùn)練，測(cè)試集用于測(cè)試模型的分類性能.使用入侵檢測(cè)模型BonG(bag ofn-grams)[13]進(jìn)行模型構(gòu)建.該方法提取窗口大小為6的n-gram短序列，然后將得到的所有n-gram按照tf-idf值進(jìn)行排序，取tf-idf值排名前70%的n-gram作為系統(tǒng)調(diào)用序列的特征集.對(duì)于每個(gè)系統(tǒng)調(diào)用序列i，用xi={n1,n2,…,nm}表示n-gram的集合，其中m為系統(tǒng)調(diào)用序列進(jìn)行處理后得到的n-gram的總數(shù)，每個(gè)n-gram用特征向量nj=(s1s2s3s4s5s6)表示，其中1≤j≤m.

BonG在隨機(jī)森林算法上取得了最佳結(jié)果，因此實(shí)驗(yàn)使用隨機(jī)森林對(duì)模型進(jìn)行訓(xùn)練和分類，隨機(jī)森林是一種集成學(xué)習(xí)分類器，它通過(guò)集成學(xué)習(xí)的思想將多棵決策樹進(jìn)行集成，相較于單分類器其性能更好.隨機(jī)森林結(jié)合“bagging”和隨機(jī)抽樣的思想，使用bootstrap樣本(從訓(xùn)練集隨機(jī)抽樣產(chǎn)生的訓(xùn)練子集)構(gòu)建連續(xù)且獨(dú)立的決策樹，對(duì)于一個(gè)輸入樣本，N棵決策樹會(huì)有N個(gè)分類結(jié)果，隨機(jī)森林集成所有的分類投票結(jié)果，將投票次數(shù)最多的類別指定為最終的輸出.與單分類器相比，隨機(jī)森林會(huì)有更好的分類結(jié)果.

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)?zāi)康?/h3>
為了驗(yàn)證基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法(system call abstract intrusion detection method based on system call behavior similarity clustering, BSC)能夠提升檢測(cè)效果，本文研究了不同聚類簇?cái)?shù)k對(duì)入侵檢測(cè)效果和入侵檢測(cè)時(shí)間的影響，并與基于內(nèi)核模塊的系統(tǒng)調(diào)用抽象的方法(kernel module based system call abstraction method, KMBA)[7]和BonG[13]進(jìn)行對(duì)比.

3.2 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)環(huán)境

使用ADFA-LD[9], ADFA-WD[14]能代表當(dāng)前攻擊方法的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，2個(gè)數(shù)據(jù)集均由訓(xùn)練集(training data master, TDM)、驗(yàn)證集(validation data master, VDM)和攻擊集(attack data master)組成，TDM和VDM由良性樣本構(gòu)成，ADM由惡意樣本構(gòu)成.ADFA-LD和ADFA-WD數(shù)據(jù)集的樣本數(shù)量如表1所示：

表1 ADFA-LD和ADFA-WD數(shù)據(jù)集的樣本數(shù)量

實(shí)驗(yàn)環(huán)境如表2所示：

表2 實(shí)驗(yàn)環(huán)境

3.3 評(píng)價(jià)方法

采用精度(Precision)、召回率(Recall)、誤報(bào)率(FPR)、F值(F-Measure)和受試者工作特征(receiver operating characteristic, ROC)曲線的下面積AUC(area under roc curve)的值作為檢測(cè)效果的評(píng)價(jià)指標(biāo)，采用模型測(cè)試所用的時(shí)間作為時(shí)間效率的評(píng)價(jià)指標(biāo).

惡意的系統(tǒng)調(diào)用序列被標(biāo)記為正樣本，良性的系統(tǒng)調(diào)用序列被標(biāo)記為負(fù)樣本.TP表示正樣本被正確分類為正樣本的數(shù)量；FP表示負(fù)樣本被錯(cuò)誤分類為正樣本的數(shù)量；TN表示負(fù)樣本被正確分類為負(fù)樣本的數(shù)量；FN表示正樣本被錯(cuò)誤分類為負(fù)樣本的數(shù)量.

Precision的定義如式(5)，它表示預(yù)測(cè)為正樣本的數(shù)量中實(shí)際為正樣本的比例:

(5)

Recall的定義如式(6)，它表示預(yù)測(cè)為正樣本的數(shù)量與正樣本總數(shù)的比值:

(6)

FPR的定義如式(7)，它表示分類器將負(fù)樣本錯(cuò)誤預(yù)測(cè)為正樣本的比例:

(7)

F-Measure的定義如式(8)，它是一種同時(shí)考慮Precision和Recall用于綜合評(píng)價(jià)模型的指標(biāo).

(8)

ROC曲線通過(guò)改變決策閾值得到，ROC曲線的縱坐標(biāo)為TPR，橫坐標(biāo)為FPR，當(dāng)TPR達(dá)到100%(所有的惡意樣本都被檢測(cè)到)時(shí)，F(xiàn)PR的值越小越好，即良性樣本被誤判為惡意樣本的數(shù)量越少越好.ROC曲線的下面積AUC是一種獨(dú)立于決策閾值，用于評(píng)價(jià)模型性能的全局度量指標(biāo).該值越大越好，AUC=1代表理想模型，該模型可以實(shí)現(xiàn)100%的檢測(cè)率和0%的誤報(bào)率.AUC=0.5表示隨機(jī)模型，AUC<0.5表示模型比隨機(jī)模型更差，檢測(cè)率低且誤報(bào)率高.

3.4 實(shí)驗(yàn)過(guò)程

將數(shù)據(jù)集對(duì)應(yīng)的所有詞向量經(jīng)過(guò)歸一化處理后作為k-means算法的輸入進(jìn)行聚類，使用輪廓系數(shù)法評(píng)價(jià)不同聚類簇?cái)?shù)的聚類效果.圖2表示ADFA-LD和ADFA-WD數(shù)據(jù)集不同聚類簇?cái)?shù)對(duì)應(yīng)的輪廓系數(shù)，橫坐標(biāo)表示聚類簇?cái)?shù)k，縱坐標(biāo)表示輪廓系數(shù)，輪廓系數(shù)越大表示對(duì)應(yīng)聚類簇?cái)?shù)k的聚類效果越好.ADFA-LD數(shù)據(jù)集中共使用175個(gè)系統(tǒng)調(diào)用，當(dāng)k=65時(shí)輪廓系數(shù)最大，ADFA-WD數(shù)據(jù)集共使用1 308個(gè)系統(tǒng)調(diào)用，當(dāng)k=713時(shí)輪廓系數(shù)最大，故選取k=65和k=713分別作為ADFA-LD和ADFA-WD數(shù)據(jù)集由輪廓系數(shù)法確定的最佳聚類簇?cái)?shù).此外我們還選取k=100，k=20，k=8，k=4對(duì)ADFA-LD數(shù)據(jù)集的系統(tǒng)調(diào)用進(jìn)行聚類，選取k=1 000，k=100，k=20，k=9，k=6對(duì)ADFA-WD數(shù)據(jù)集的系統(tǒng)調(diào)用進(jìn)行聚類.

圖2 ADFA-LD和ADFA-WD數(shù)據(jù)集不同聚類簇?cái)?shù)k對(duì)應(yīng)的輪廓系數(shù)

對(duì)比方法中，基于內(nèi)核模塊的系統(tǒng)調(diào)用序列抽象方法[12]僅提出針對(duì)Linux操作系統(tǒng)進(jìn)行抽象的方法，而ADFA-WD是基于Windows操作系統(tǒng)的數(shù)據(jù)集.為了將基于內(nèi)核模塊的系統(tǒng)調(diào)用序列抽象方法用于ADFA-WD數(shù)據(jù)集，我們根據(jù)基于內(nèi)核模塊的系統(tǒng)調(diào)用序列抽象方法的思想，將ADFA-WD數(shù)據(jù)集中的系統(tǒng)調(diào)用抽象表示為其所在的動(dòng)態(tài)鏈接庫(kù)(dynamic link Library, DLL)，Linux操作系統(tǒng)中的內(nèi)核模塊與Windows操作系統(tǒng)中的動(dòng)態(tài)鏈接庫(kù)有相似的意義.實(shí)驗(yàn)中將ADFA-LD數(shù)據(jù)集和ADFA-WD數(shù)據(jù)集的TDM和VDM合并為正常樣本(負(fù)樣本)集，ADM為惡意樣本(正樣本)集，分別將正常樣本集和惡意樣本集按照7∶3的比例分為訓(xùn)練集和測(cè)試集，分別用于模型的訓(xùn)練和測(cè)試.

3.5 實(shí)驗(yàn)結(jié)果

表3列出不同入侵檢測(cè)方法在ADFA-LD數(shù)據(jù)集上取得的檢測(cè)效果評(píng)價(jià)指標(biāo)，結(jié)果顯示BSC(k=65)在所有評(píng)價(jià)指標(biāo)上取得最佳結(jié)果，召回率為98.6%，誤報(bào)率為10.2%，相比KMBA+BonG，召回率提高2.2%，誤報(bào)率降低12.5%；相比于BonG，召回率提高3.4%，誤報(bào)率降低13.4%.BSC(k=8)和KMBA以不同的式將Linux系統(tǒng)調(diào)用分為8類，BSC(k=8)和KMBA+BonG的召回率幾乎相同，但BSC(k=8)的誤報(bào)率更低，相比KMBA+BonG降低了10.1%.

表3 不同入侵檢測(cè)方法在ADFA-LD數(shù)據(jù)集取得的檢測(cè)效果評(píng)價(jià)指標(biāo)

在選取的不同聚類簇?cái)?shù)k中，BSC(k=65)在所有檢測(cè)效果評(píng)價(jià)指標(biāo)上取得最佳結(jié)果，其他聚類k值(k=100，k=20，k=8，k=4)的BSC評(píng)價(jià)指標(biāo)較BSC(k=65)稍有下降，其中BSC(k=4)相比BSC(k=65)召回率降低了2.1%，誤報(bào)率上升了2.6%，檢測(cè)效果評(píng)價(jià)指標(biāo)下降較小；相比KMBA+BonG召回率幾乎相同，但誤報(bào)率降低了8.8%；相比BonG召回率提高了1.3%，誤報(bào)率降低了9.7%.

表4列出不同入侵檢測(cè)方法在ADFA-WD數(shù)據(jù)集取得的檢測(cè)效果評(píng)價(jià)指標(biāo)，結(jié)果顯示BSC(k=713)在所有評(píng)價(jià)指標(biāo)上取得最佳結(jié)果，召回率為98.0%，誤報(bào)率為5.5%，相比KMBA+BonG，召回率提高2.2%，誤報(bào)率降低32.0%；相比于BonG，召回率提高1.1%，誤報(bào)率降低15.5%.

在選取的不同聚類簇?cái)?shù)k中，BSC(k=713)在所有檢測(cè)效果評(píng)價(jià)指標(biāo)上取得最佳結(jié)果，其他聚類簇?cái)?shù)k(k=1000，k=100，k=20，k=9，k=6)的BSC評(píng)價(jià)指標(biāo)較BSC(k=713)稍有下降，其中BSC(k=9)相比BSC(k=713)召回率降低了1.7%，誤報(bào)率上升了4.6%，檢測(cè)效果評(píng)價(jià)指標(biāo)下降較小；與以不同方式將Windows系統(tǒng)調(diào)用分為9類的KMBA+BonG相比，召回率幾乎相同但誤報(bào)率降低了27.4%；相比BonG建模方法召回率幾乎相同但誤報(bào)率降低了11.2%.

表5顯示不同入侵檢測(cè)方法在ADFA-LD數(shù)據(jù)集上的檢測(cè)時(shí)間.BonG的檢測(cè)時(shí)間為14.63 s，KMBA+BonG的檢測(cè)時(shí)間為0.58 s. BSC的檢測(cè)時(shí)間隨著聚類簇?cái)?shù)k的減小而減少，其中檢測(cè)效果最佳的BSC(k=65)檢測(cè)時(shí)間為12.59 s，BSC(k=100)檢測(cè)時(shí)間最長(zhǎng)，為13.71 s，BSC(k=4)檢測(cè)時(shí)間最短，為0.60 s.

表5 不同入侵檢測(cè)方法在ADFA-LD數(shù)據(jù)集上的檢測(cè)時(shí)間

表6顯示不同入侵檢測(cè)方法在ADFA-WD數(shù)據(jù)集上的檢測(cè)時(shí)間.BonG的檢測(cè)時(shí)間為5.49 s，KMBA+BonG的檢測(cè)時(shí)間為0.45 s. BSC的檢測(cè)時(shí)間隨著聚類簇?cái)?shù)k的減小而減少，其中檢測(cè)效果最佳的BSC(k=713)檢測(cè)時(shí)間為5.35 s，BSC(k=100)檢測(cè)時(shí)間最長(zhǎng)，為5.45 s，BSC(k=6)檢測(cè)時(shí)間最短，為0.58 s.

表6 不同入侵檢測(cè)方法在ADFA-WD數(shù)據(jù)集上的檢測(cè)時(shí)間

4 討論

通過(guò)對(duì)實(shí)驗(yàn)結(jié)果分析發(fā)現(xiàn)，在ADFA-LD數(shù)據(jù)集和ADFA-WD數(shù)據(jù)集的實(shí)驗(yàn)中，BSC(k等于輪廓系數(shù)法確定的最佳聚類簇?cái)?shù))的所有檢測(cè)效果評(píng)價(jià)指標(biāo)均為最佳，與KMBA+BonG相比，在將系統(tǒng)調(diào)用聚類為相同簇?cái)?shù)進(jìn)行抽象表示時(shí)，BSC檢測(cè)效果更好，說(shuō)明BSC能夠有效降低行為抽象表征的混淆，提升檢測(cè)效果.

在不同聚類簇?cái)?shù)k的BSC中，使用輪廓系數(shù)法確定的最佳聚類簇?cái)?shù)的BSC在ADFA-LD和ADFA-WD這2個(gè)數(shù)據(jù)集上檢測(cè)效果最佳，其他聚類簇?cái)?shù)的BSC檢測(cè)效果評(píng)價(jià)指標(biāo)較BSC(k等于輪廓系數(shù)法確定的最佳聚類簇?cái)?shù))稍有下降，當(dāng)k<輪廓系數(shù)法確定的最佳聚類簇?cái)?shù)時(shí)，BSC各項(xiàng)檢測(cè)效果評(píng)價(jià)指標(biāo)隨著k的減小而小幅度下降，但相比BonG和KMBA+BonG在誤報(bào)率評(píng)價(jià)指標(biāo)上仍有不小的改善.在ADFA-LD數(shù)據(jù)集的實(shí)驗(yàn)中，BSC(k=4)與BonG相比，檢測(cè)時(shí)間取得了95.9%的增益(檢測(cè)時(shí)間分別為0.60 s和14.63 s).在對(duì)ADFA-WD數(shù)據(jù)集的實(shí)驗(yàn)中，BSC(k=9)與BonG建模方法相比，檢測(cè)時(shí)間取得了82.1%的增益(檢測(cè)時(shí)間分別為0.98 s和5.49 s).在檢測(cè)效果各項(xiàng)指標(biāo)下降幅度較小的情況下，使用較小聚類簇?cái)?shù)的BSC能夠大幅減少入侵檢測(cè)時(shí)間，提高檢測(cè)時(shí)間效率.

綜上所述，BSC能夠有效降低行為抽象表征的混淆，提升檢測(cè)效果.在檢測(cè)效果各項(xiàng)指標(biāo)下降幅度較小的情況下，使用較小聚類簇?cái)?shù)的BSC能夠大幅減少入侵檢測(cè)時(shí)間，提高檢測(cè)時(shí)間效率.

5 結(jié) 論

基于內(nèi)核模塊抽象的主機(jī)入侵檢測(cè)方法將Linux操作系統(tǒng)中約300個(gè)系統(tǒng)調(diào)用抽象為8個(gè)內(nèi)核模塊表示，旨在提升模型的泛化性能，減少誤報(bào)率，但在同一內(nèi)核模塊的部分系統(tǒng)調(diào)用存在較大行為差異，且不同內(nèi)核模塊也含有行為相似的系統(tǒng)調(diào)用，造成行為抽象映射的混淆，影響檢測(cè)效果.針對(duì)該問(wèn)題，本文提出基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法.首先利用Word2Vec構(gòu)建連續(xù)稠密詞向量實(shí)現(xiàn)多維度系統(tǒng)調(diào)用行為語(yǔ)義相似性信息提取，再使用聚類算法對(duì)系統(tǒng)調(diào)用進(jìn)行抽象表征，從而將系統(tǒng)調(diào)用序列轉(zhuǎn)換為系統(tǒng)調(diào)用抽象序列，最后使用BonG[11]方法構(gòu)建入侵檢測(cè)模型.基于ADFA-LD和ADFA-WD數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法分別取得了召回率98.6%、誤報(bào)率10.2%和召回率98.0%、誤報(bào)率5.5%的最佳結(jié)果.基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法有效降低行為抽象表征的混淆，提升檢測(cè)效果.在檢測(cè)效果各項(xiàng)指標(biāo)下降幅度較小的情況下，使用較小聚類簇?cái)?shù)的BSC在2個(gè)數(shù)據(jù)集上分別實(shí)現(xiàn)了95.9%和82.1%的檢測(cè)時(shí)間增益，大幅提高了檢測(cè)時(shí)間效率.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡