李 橙 羅森林
(北京理工大學(xué)信息系統(tǒng)及安全對(duì)抗實(shí)驗(yàn)中心 北京 100081)(lc_bitsec@foxmail.com)
惡意軟件的數(shù)量隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展在逐年增多,計(jì)算機(jī)也面臨越來(lái)越多的病毒、木馬和其他惡意軟件攻擊的威脅.賽門鐵克2019年發(fā)布的互聯(lián)網(wǎng)安全威脅報(bào)告中指出,賽門鐵克全球情報(bào)網(wǎng)絡(luò)日均攔截的威脅數(shù)量高達(dá)1.42億個(gè).因?yàn)槭找娓?、成本低等原因,針?duì)主機(jī)的挖礦劫持和勒索軟件仍是網(wǎng)絡(luò)犯罪分子首選的攻擊手段[1].基于主機(jī)的入侵檢測(cè)系統(tǒng)(host-based intrusion detection system, HIDS)用于檢測(cè)入侵行為并發(fā)出警報(bào),可以阻止惡意軟件的惡意行為[2],從而保護(hù)主機(jī)的安全.
系統(tǒng)調(diào)用序列是由系統(tǒng)調(diào)用組成的包含順序關(guān)系的序列,系統(tǒng)調(diào)用是操作系統(tǒng)實(shí)現(xiàn)并提供給應(yīng)用程序調(diào)用的一系列內(nèi)核函數(shù),應(yīng)用程序的行為目標(biāo)幾乎都是通過(guò)系統(tǒng)調(diào)用實(shí)現(xiàn)[3].系統(tǒng)調(diào)用表示應(yīng)用程序的底層行為,是現(xiàn)階段用于入侵檢測(cè)的最佳數(shù)據(jù)粒度[4],并且系統(tǒng)調(diào)用可以實(shí)時(shí)的獲取,從而完整地監(jiān)視整個(gè)系統(tǒng)的行為.誤報(bào)率是HIDS的重要衡量指標(biāo)之一[5],較高的誤報(bào)率會(huì)影響HIDS的檢測(cè)性能,甚至使得HIDS失效[6].Murtaza等人[7]指出引起誤報(bào)的其中一個(gè)原因是基于n-gram的入侵檢測(cè)方法對(duì)原始系統(tǒng)調(diào)用序列進(jìn)行特征提取是一種精確匹配方式,導(dǎo)致構(gòu)建的模型泛化能力較弱,據(jù)此本文提出基于內(nèi)核模塊的系統(tǒng)調(diào)用抽象方法.該方法建立系統(tǒng)調(diào)用和系統(tǒng)內(nèi)核模塊的映射關(guān)系,根據(jù)該映射關(guān)系將系統(tǒng)調(diào)用序列轉(zhuǎn)換為用內(nèi)核模塊表示的抽象系統(tǒng)調(diào)用序列,以提升模型的泛化性能,從而降低誤報(bào)率.
基于內(nèi)核模塊的系統(tǒng)調(diào)用抽象方法將Linux操作系統(tǒng)中約300個(gè)系統(tǒng)調(diào)用抽象為8個(gè)內(nèi)核模塊表示,但同一內(nèi)核模塊的部分系統(tǒng)調(diào)用存在較大行為差異,且不同內(nèi)核模塊也含有行為相似的系統(tǒng)調(diào)用.例如系統(tǒng)調(diào)用子序列“open,llseek,read”和“chdir,lstat,chmod”使用相同的內(nèi)核模塊抽象表示,即“Kernel,Kernel,Kernel”,但2個(gè)序列表達(dá)的行為語(yǔ)義不同,前者每個(gè)系統(tǒng)調(diào)用的行為分別是打開文件、設(shè)置讀取位置、讀取內(nèi)容,序列表達(dá)讀取文件內(nèi)容的行為語(yǔ)義;后者每個(gè)系統(tǒng)調(diào)用的行為分別是切換目錄、獲取文件狀態(tài)信息、修改文件的權(quán)限,序列表達(dá)修改文件權(quán)限的行為語(yǔ)義,使用相同內(nèi)核模塊抽象表示不同行為的系統(tǒng)調(diào)用會(huì)導(dǎo)致系統(tǒng)調(diào)用序列的行為語(yǔ)義難以充分表達(dá),影響入侵檢測(cè)性能.
通過(guò)分析Linux操作系統(tǒng)中的系統(tǒng)調(diào)用,發(fā)現(xiàn)某些系統(tǒng)調(diào)用的行為非常相似,例如“getuid”和“geteuid”都表示獲取用戶ID,“stat”“fstat”“l(fā)astat”“fstatat”都表示獲取文件的狀態(tài)信息.不同內(nèi)核模塊的系統(tǒng)調(diào)用也存在相似的行為,例如分別屬于“Kernel”和“File System”內(nèi)核模塊的系統(tǒng)調(diào)用“fchown32”和“setfsuid”都表示對(duì)文件權(quán)限的設(shè)置.針對(duì)上述問(wèn)題和分析,本文提出一種基于系統(tǒng)調(diào)用行為相似性聚類的系統(tǒng)調(diào)用抽象入侵檢測(cè)方法.
受生物體的自然免疫系統(tǒng)啟發(fā),F(xiàn)orrest等人[8]首次提出將系統(tǒng)調(diào)用序列用于入侵檢測(cè),提出序列延時(shí)嵌入(sequence time delay embedding, STIDE)方法.STIDE通過(guò)在正常系統(tǒng)調(diào)用序列上滑動(dòng)一個(gè)長(zhǎng)度為n的窗口(即n-gram)來(lái)建立一個(gè)正常序列的數(shù)據(jù)庫(kù).然后從未知行為的序列中提取長(zhǎng)度為n的序列,并將其與數(shù)據(jù)庫(kù)進(jìn)行比較,如提取的序列不在數(shù)據(jù)庫(kù)中,則將其所在的序列視為異常序列.
Creech等人[4]提出一種新的基于語(yǔ)義的入侵檢測(cè)方法來(lái)降低誤報(bào)率,使用不同長(zhǎng)度的系統(tǒng)調(diào)用組成單詞,基于語(yǔ)義的短語(yǔ)字典又由單詞組成,使用極限學(xué)習(xí)機(jī)進(jìn)行異常檢測(cè),該方法在ADFA-LD[9]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果顯示當(dāng)檢測(cè)率為100%時(shí),誤報(bào)率為20%,但模型訓(xùn)練需要數(shù)周的時(shí)間.
Aghaei等人[10]通過(guò)提取正常和惡意系統(tǒng)調(diào)用序列上所有的n-gram(1 Zhao等人[11]提出了一種具有連續(xù)重疊子序列交叉熵的混合n-gram(H-gram)特征提取方法,該方法實(shí)現(xiàn)了對(duì)API調(diào)用或指令序列的語(yǔ)義分割,提取的API序列的特征維度非常大,于是使用基于聯(lián)合熵的特征選擇方法進(jìn)行降維.實(shí)驗(yàn)結(jié)果顯示使用混合n-gram的特征提取方法比使用固定長(zhǎng)度的n-gram的特征提取方法能夠得到更高的準(zhǔn)確度和更低的誤報(bào)率. Murtaza等人[7,12]將系統(tǒng)調(diào)用按照其所屬的內(nèi)核模塊分為8類(Architecture,F(xiàn)ile System,Inter Process Communications,Kernel,Memory Management,Networking,Security,Unknown),并將系統(tǒng)調(diào)用序列使用這8類內(nèi)核模塊進(jìn)行抽象表示,然后將抽象的系統(tǒng)調(diào)用序列作為STIDE和馬爾可夫模型的輸入,結(jié)果表明該方法可以降低誤報(bào)率并減少入侵檢測(cè)的執(zhí)行時(shí)間. 誤報(bào)率是入侵檢測(cè)系統(tǒng)重要的衡量指標(biāo)之一,許多方法被提出用于降低誤報(bào)率,基于內(nèi)核模塊抽象的主機(jī)入侵檢測(cè)方法通過(guò)內(nèi)核模塊對(duì)系統(tǒng)調(diào)用行為進(jìn)行抽象表示,但在同一內(nèi)核模塊的部分系統(tǒng)調(diào)用存在較大行為差異,且不同內(nèi)核模塊也含有行為相似的系統(tǒng)調(diào)用,造成行為抽象映射的混淆,影響檢測(cè)效果.針對(duì)該問(wèn)題,本文提出基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法. 基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法如圖1所示.系統(tǒng)調(diào)用序列作為系統(tǒng)調(diào)用抽象步驟的輸入,通過(guò)基于系統(tǒng)調(diào)用行為相似性聚類的系統(tǒng)調(diào)用抽象方法轉(zhuǎn)換為系統(tǒng)調(diào)用抽象序列,然后使用系統(tǒng)調(diào)用抽象序列進(jìn)行模型的構(gòu)建與分類. 圖1 主機(jī)入侵檢測(cè)方法原理框架圖 系統(tǒng)調(diào)用序列抽象步驟中,首先使用Word2Vec對(duì)原始系統(tǒng)調(diào)用序列進(jìn)行詞嵌入得到詞向量,再使用k-means聚類算法對(duì)系統(tǒng)調(diào)用詞向量進(jìn)行聚類,得到系統(tǒng)調(diào)用抽象映射字典,最后使用抽象映射字典將系統(tǒng)調(diào)用序列轉(zhuǎn)換為系統(tǒng)調(diào)用抽象序列. 2.2.1 Word2Vec相似性特征提取 Word2Vec是從大量文本語(yǔ)料中以無(wú)監(jiān)督的方式學(xué)習(xí)語(yǔ)義知識(shí)的一種淺層神經(jīng)網(wǎng)絡(luò)模型,它被大量地用在自然語(yǔ)言處理中,通過(guò)學(xué)習(xí)文本來(lái)用詞向量的方式表征詞的語(yǔ)義信息,即通過(guò)一個(gè)嵌入空間使得上下文相似的單詞在該空間內(nèi)余弦距離很近. 使用Word2Vec對(duì)系統(tǒng)調(diào)用進(jìn)行詞嵌入,構(gòu)建連續(xù)稠密詞向量實(shí)現(xiàn)多維度系統(tǒng)調(diào)用行為語(yǔ)義相似性信息提取.將系統(tǒng)調(diào)用視為一個(gè)單詞,根據(jù)其所要實(shí)現(xiàn)的功能來(lái)描述這個(gè)詞的行為語(yǔ)義,不同的系統(tǒng)調(diào)用在不同維度上可能具有行為語(yǔ)義相似性.例如在某一維度上系統(tǒng)調(diào)用“chmod”“fchmod”“fchmodat”的功能都是更改文件的權(quán)限,在另一維度上系統(tǒng)調(diào)用“read”“write”“open”的功能都是對(duì)文件的操作.通過(guò)Word2Vec模型訓(xùn)練輸出的連續(xù)稠密詞向量可以在多個(gè)維度上表達(dá)這種行為語(yǔ)義相似性,具有相似行為語(yǔ)義的系統(tǒng)調(diào)用的詞向量在空間上的余弦距離相近. 2.2.2k-means聚類 采用k-means算法對(duì)系統(tǒng)調(diào)用進(jìn)行聚類.k-means是一種基于距離的無(wú)監(jiān)督學(xué)習(xí)聚類算法,以歐氏距離作為相似性指標(biāo),將輸入的樣本按照指定的聚類簇?cái)?shù)k,分為k個(gè)簇.算法具體描述如下: 步驟1.隨機(jī)選取k個(gè)樣本作為初始的聚類中心a=(a1,a2,…,ak); 步驟2.針對(duì)數(shù)據(jù)集中每個(gè)樣本xi,通過(guò)式(1)計(jì)算它到k個(gè)聚類中心的距離,并將其分到距離最小的聚類中心所對(duì)應(yīng)的簇中,其中Ci為樣本xi被分到的簇,aj為第j個(gè)聚類中心: Ci (1) 步驟3.對(duì)每一個(gè)簇,通過(guò)式(2)重新計(jì)算其聚類中心aj,其中Ci為第i個(gè)簇. (2) 然后重復(fù)步驟2和步驟3,直到達(dá)到終止條件(最大迭代次數(shù)、誤差平方和局部最小、聚類中心不變或變化很小等). (3) 由于k-means算法無(wú)法在計(jì)算中確定需要聚類的簇的數(shù)量,需要指定聚類的簇?cái)?shù),即聚類k值,在本文中使用輪廓系數(shù)法來(lái)確定最佳的聚類k值.輪廓系數(shù)法是聚類效果好壞的一種評(píng)價(jià)方式,該方法結(jié)合內(nèi)聚度和分離度2種因素,當(dāng)輪廓系數(shù)越大表示分類效果越好. 2.2.3 抽象映射 使用k-means算法對(duì)歸一化后的系統(tǒng)調(diào)用詞向量進(jìn)行聚類,可以得到系統(tǒng)調(diào)用Si與其分類后所屬簇Cj(j=0,1,…,k-1)的映射關(guān)系,如式(4),該映射關(guān)系構(gòu)成的空間稱為系統(tǒng)調(diào)用抽象映射字典. f(Si)=Cj. (4) 對(duì)于系統(tǒng)調(diào)用序列T={S1,S2,…,Si}(i等于系統(tǒng)調(diào)用序列T的最大長(zhǎng)度),通過(guò)式(4)將其轉(zhuǎn)換為抽象的系統(tǒng)調(diào)用序列AT={f(S1),f(S2),…,f(Si)}. 將抽象后的系統(tǒng)調(diào)用序列分為訓(xùn)練集和測(cè)試集,將訓(xùn)練集用于入侵檢測(cè)模型的訓(xùn)練,測(cè)試集用于測(cè)試模型的分類性能.使用入侵檢測(cè)模型BonG(bag ofn-grams)[13]進(jìn)行模型構(gòu)建.該方法提取窗口大小為6的n-gram短序列,然后將得到的所有n-gram按照tf-idf值進(jìn)行排序,取tf-idf值排名前70%的n-gram作為系統(tǒng)調(diào)用序列的特征集.對(duì)于每個(gè)系統(tǒng)調(diào)用序列i,用xi={n1,n2,…,nm}表示n-gram的集合,其中m為系統(tǒng)調(diào)用序列進(jìn)行處理后得到的n-gram的總數(shù),每個(gè)n-gram用特征向量nj=(s1s2s3s4s5s6)表示,其中1≤j≤m. BonG在隨機(jī)森林算法上取得了最佳結(jié)果,因此實(shí)驗(yàn)使用隨機(jī)森林對(duì)模型進(jìn)行訓(xùn)練和分類,隨機(jī)森林是一種集成學(xué)習(xí)分類器,它通過(guò)集成學(xué)習(xí)的思想將多棵決策樹進(jìn)行集成,相較于單分類器其性能更好.隨機(jī)森林結(jié)合“bagging”和隨機(jī)抽樣的思想,使用bootstrap樣本(從訓(xùn)練集隨機(jī)抽樣產(chǎn)生的訓(xùn)練子集)構(gòu)建連續(xù)且獨(dú)立的決策樹,對(duì)于一個(gè)輸入樣本,N棵決策樹會(huì)有N個(gè)分類結(jié)果,隨機(jī)森林集成所有的分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終的輸出.與單分類器相比,隨機(jī)森林會(huì)有更好的分類結(jié)果. 為了驗(yàn)證基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法(system call abstract intrusion detection method based on system call behavior similarity clustering, BSC)能夠提升檢測(cè)效果,本文研究了不同聚類簇?cái)?shù)k對(duì)入侵檢測(cè)效果和入侵檢測(cè)時(shí)間的影響,并與基于內(nèi)核模塊的系統(tǒng)調(diào)用抽象的方法(kernel module based system call abstraction method, KMBA)[7]和BonG[13]進(jìn)行對(duì)比. 使用ADFA-LD[9], ADFA-WD[14]能代表當(dāng)前攻擊方法的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),2個(gè)數(shù)據(jù)集均由訓(xùn)練集(training data master, TDM)、驗(yàn)證集(validation data master, VDM)和攻擊集(attack data master)組成,TDM和VDM由良性樣本構(gòu)成,ADM由惡意樣本構(gòu)成.ADFA-LD和ADFA-WD數(shù)據(jù)集的樣本數(shù)量如表1所示: 表1 ADFA-LD和ADFA-WD數(shù)據(jù)集的樣本數(shù)量 實(shí)驗(yàn)環(huán)境如表2所示: 表2 實(shí)驗(yàn)環(huán)境 采用精度(Precision)、召回率(Recall)、誤報(bào)率(FPR)、F值(F-Measure)和受試者工作特征(receiver operating characteristic, ROC)曲線的下面積AUC(area under roc curve)的值作為檢測(cè)效果的評(píng)價(jià)指標(biāo),采用模型測(cè)試所用的時(shí)間作為時(shí)間效率的評(píng)價(jià)指標(biāo). 惡意的系統(tǒng)調(diào)用序列被標(biāo)記為正樣本,良性的系統(tǒng)調(diào)用序列被標(biāo)記為負(fù)樣本.TP表示正樣本被正確分類為正樣本的數(shù)量;FP表示負(fù)樣本被錯(cuò)誤分類為正樣本的數(shù)量;TN表示負(fù)樣本被正確分類為負(fù)樣本的數(shù)量;FN表示正樣本被錯(cuò)誤分類為負(fù)樣本的數(shù)量. Precision的定義如式(5),它表示預(yù)測(cè)為正樣本的數(shù)量中實(shí)際為正樣本的比例: (5) Recall的定義如式(6),它表示預(yù)測(cè)為正樣本的數(shù)量與正樣本總數(shù)的比值: (6) FPR的定義如式(7),它表示分類器將負(fù)樣本錯(cuò)誤預(yù)測(cè)為正樣本的比例: (7) F-Measure的定義如式(8),它是一種同時(shí)考慮Precision和Recall用于綜合評(píng)價(jià)模型的指標(biāo). (8) ROC曲線通過(guò)改變決策閾值得到,ROC曲線的縱坐標(biāo)為TPR,橫坐標(biāo)為FPR,當(dāng)TPR達(dá)到100%(所有的惡意樣本都被檢測(cè)到)時(shí),F(xiàn)PR的值越小越好,即良性樣本被誤判為惡意樣本的數(shù)量越少越好.ROC曲線的下面積AUC是一種獨(dú)立于決策閾值,用于評(píng)價(jià)模型性能的全局度量指標(biāo).該值越大越好,AUC=1代表理想模型,該模型可以實(shí)現(xiàn)100%的檢測(cè)率和0%的誤報(bào)率.AUC=0.5表示隨機(jī)模型,AUC<0.5表示模型比隨機(jī)模型更差,檢測(cè)率低且誤報(bào)率高. 將數(shù)據(jù)集對(duì)應(yīng)的所有詞向量經(jīng)過(guò)歸一化處理后作為k-means算法的輸入進(jìn)行聚類,使用輪廓系數(shù)法評(píng)價(jià)不同聚類簇?cái)?shù)的聚類效果.圖2表示ADFA-LD和ADFA-WD數(shù)據(jù)集不同聚類簇?cái)?shù)對(duì)應(yīng)的輪廓系數(shù),橫坐標(biāo)表示聚類簇?cái)?shù)k,縱坐標(biāo)表示輪廓系數(shù),輪廓系數(shù)越大表示對(duì)應(yīng)聚類簇?cái)?shù)k的聚類效果越好.ADFA-LD數(shù)據(jù)集中共使用175個(gè)系統(tǒng)調(diào)用,當(dāng)k=65時(shí)輪廓系數(shù)最大,ADFA-WD數(shù)據(jù)集共使用1 308個(gè)系統(tǒng)調(diào)用,當(dāng)k=713時(shí)輪廓系數(shù)最大,故選取k=65和k=713分別作為ADFA-LD和ADFA-WD數(shù)據(jù)集由輪廓系數(shù)法確定的最佳聚類簇?cái)?shù).此外我們還選取k=100,k=20,k=8,k=4對(duì)ADFA-LD數(shù)據(jù)集的系統(tǒng)調(diào)用進(jìn)行聚類,選取k=1 000,k=100,k=20,k=9,k=6對(duì)ADFA-WD數(shù)據(jù)集的系統(tǒng)調(diào)用進(jìn)行聚類. 圖2 ADFA-LD和ADFA-WD數(shù)據(jù)集不同聚 類簇?cái)?shù)k對(duì)應(yīng)的輪廓系數(shù) 對(duì)比方法中,基于內(nèi)核模塊的系統(tǒng)調(diào)用序列抽象方法[12]僅提出針對(duì)Linux操作系統(tǒng)進(jìn)行抽象的方法,而ADFA-WD是基于Windows操作系統(tǒng)的數(shù)據(jù)集.為了將基于內(nèi)核模塊的系統(tǒng)調(diào)用序列抽象方法用于ADFA-WD數(shù)據(jù)集,我們根據(jù)基于內(nèi)核模塊的系統(tǒng)調(diào)用序列抽象方法的思想,將ADFA-WD數(shù)據(jù)集中的系統(tǒng)調(diào)用抽象表示為其所在的動(dòng)態(tài)鏈接庫(kù)(dynamic link Library, DLL),Linux操作系統(tǒng)中的內(nèi)核模塊與Windows操作系統(tǒng)中的動(dòng)態(tài)鏈接庫(kù)有相似的意義.實(shí)驗(yàn)中將ADFA-LD數(shù)據(jù)集和ADFA-WD數(shù)據(jù)集的TDM和VDM合并為正常樣本(負(fù)樣本)集,ADM為惡意樣本(正樣本)集,分別將正常樣本集和惡意樣本集按照7∶3的比例分為訓(xùn)練集和測(cè)試集,分別用于模型的訓(xùn)練和測(cè)試. 表3列出不同入侵檢測(cè)方法在ADFA-LD數(shù)據(jù)集上取得的檢測(cè)效果評(píng)價(jià)指標(biāo),結(jié)果顯示BSC(k=65)在所有評(píng)價(jià)指標(biāo)上取得最佳結(jié)果,召回率為98.6%,誤報(bào)率為10.2%,相比KMBA+BonG,召回率提高2.2%,誤報(bào)率降低12.5%;相比于BonG,召回率提高3.4%,誤報(bào)率降低13.4%.BSC(k=8)和KMBA以不同的式將Linux系統(tǒng)調(diào)用分為8類,BSC(k=8)和KMBA+BonG的召回率幾乎相同,但BSC(k=8)的誤報(bào)率更低,相比KMBA+BonG降低了10.1%. 表3 不同入侵檢測(cè)方法在ADFA-LD數(shù)據(jù)集取得的檢測(cè)效果評(píng)價(jià)指標(biāo) 在選取的不同聚類簇?cái)?shù)k中,BSC(k=65)在所有檢測(cè)效果評(píng)價(jià)指標(biāo)上取得最佳結(jié)果,其他聚類k值(k=100,k=20,k=8,k=4)的BSC評(píng)價(jià)指標(biāo)較BSC(k=65)稍有下降,其中BSC(k=4)相比BSC(k=65)召回率降低了2.1%,誤報(bào)率上升了2.6%,檢測(cè)效果評(píng)價(jià)指標(biāo)下降較小;相比KMBA+BonG召回率幾乎相同,但誤報(bào)率降低了8.8%;相比BonG召回率提高了1.3%,誤報(bào)率降低了9.7%. 表4列出不同入侵檢測(cè)方法在ADFA-WD數(shù)據(jù)集取得的檢測(cè)效果評(píng)價(jià)指標(biāo),結(jié)果顯示BSC(k=713)在所有評(píng)價(jià)指標(biāo)上取得最佳結(jié)果,召回率為98.0%,誤報(bào)率為5.5%,相比KMBA+BonG,召回率提高2.2%,誤報(bào)率降低32.0%;相比于BonG,召回率提高1.1%,誤報(bào)率降低15.5%. 在選取的不同聚類簇?cái)?shù)k中,BSC(k=713)在所有檢測(cè)效果評(píng)價(jià)指標(biāo)上取得最佳結(jié)果,其他聚類簇?cái)?shù)k(k=1000,k=100,k=20,k=9,k=6)的BSC評(píng)價(jià)指標(biāo)較BSC(k=713)稍有下降,其中BSC(k=9)相比BSC(k=713)召回率降低了1.7%,誤報(bào)率上升了4.6%,檢測(cè)效果評(píng)價(jià)指標(biāo)下降較小;與以不同方式將Windows系統(tǒng)調(diào)用分為9類的KMBA+BonG相比,召回率幾乎相同但誤報(bào)率降低了27.4%;相比BonG建模方法召回率幾乎相同但誤報(bào)率降低了11.2%. 表5顯示不同入侵檢測(cè)方法在ADFA-LD數(shù)據(jù)集上的檢測(cè)時(shí)間.BonG的檢測(cè)時(shí)間為14.63 s,KMBA+BonG的檢測(cè)時(shí)間為0.58 s. BSC的檢測(cè)時(shí)間隨著聚類簇?cái)?shù)k的減小而減少,其中檢測(cè)效果最佳的BSC(k=65)檢測(cè)時(shí)間為12.59 s,BSC(k=100)檢測(cè)時(shí)間最長(zhǎng),為13.71 s,BSC(k=4)檢測(cè)時(shí)間最短,為0.60 s. 表5 不同入侵檢測(cè)方法在ADFA-LD數(shù)據(jù)集上的檢測(cè)時(shí)間 表6顯示不同入侵檢測(cè)方法在ADFA-WD數(shù)據(jù)集上的檢測(cè)時(shí)間.BonG的檢測(cè)時(shí)間為5.49 s,KMBA+BonG的檢測(cè)時(shí)間為0.45 s. BSC的檢測(cè)時(shí)間隨著聚類簇?cái)?shù)k的減小而減少,其中檢測(cè)效果最佳的BSC(k=713)檢測(cè)時(shí)間為5.35 s,BSC(k=100)檢測(cè)時(shí)間最長(zhǎng),為5.45 s,BSC(k=6)檢測(cè)時(shí)間最短,為0.58 s. 表6 不同入侵檢測(cè)方法在ADFA-WD數(shù)據(jù)集上的檢測(cè)時(shí)間 通過(guò)對(duì)實(shí)驗(yàn)結(jié)果分析發(fā)現(xiàn),在ADFA-LD數(shù)據(jù)集和ADFA-WD數(shù)據(jù)集的實(shí)驗(yàn)中,BSC(k等于輪廓系數(shù)法確定的最佳聚類簇?cái)?shù))的所有檢測(cè)效果評(píng)價(jià)指標(biāo)均為最佳,與KMBA+BonG相比,在將系統(tǒng)調(diào)用聚類為相同簇?cái)?shù)進(jìn)行抽象表示時(shí),BSC檢測(cè)效果更好,說(shuō)明BSC能夠有效降低行為抽象表征的混淆,提升檢測(cè)效果. 在不同聚類簇?cái)?shù)k的BSC中,使用輪廓系數(shù)法確定的最佳聚類簇?cái)?shù)的BSC在ADFA-LD和ADFA-WD這2個(gè)數(shù)據(jù)集上檢測(cè)效果最佳,其他聚類簇?cái)?shù)的BSC檢測(cè)效果評(píng)價(jià)指標(biāo)較BSC(k等于輪廓系數(shù)法確定的最佳聚類簇?cái)?shù))稍有下降,當(dāng)k<輪廓系數(shù)法確定的最佳聚類簇?cái)?shù)時(shí),BSC各項(xiàng)檢測(cè)效果評(píng)價(jià)指標(biāo)隨著k的減小而小幅度下降,但相比BonG和KMBA+BonG在誤報(bào)率評(píng)價(jià)指標(biāo)上仍有不小的改善.在ADFA-LD數(shù)據(jù)集的實(shí)驗(yàn)中,BSC(k=4)與BonG相比,檢測(cè)時(shí)間取得了95.9%的增益(檢測(cè)時(shí)間分別為0.60 s和14.63 s).在對(duì)ADFA-WD數(shù)據(jù)集的實(shí)驗(yàn)中,BSC(k=9)與BonG建模方法相比,檢測(cè)時(shí)間取得了82.1%的增益(檢測(cè)時(shí)間分別為0.98 s和5.49 s).在檢測(cè)效果各項(xiàng)指標(biāo)下降幅度較小的情況下,使用較小聚類簇?cái)?shù)的BSC能夠大幅減少入侵檢測(cè)時(shí)間,提高檢測(cè)時(shí)間效率. 綜上所述,BSC能夠有效降低行為抽象表征的混淆,提升檢測(cè)效果.在檢測(cè)效果各項(xiàng)指標(biāo)下降幅度較小的情況下,使用較小聚類簇?cái)?shù)的BSC能夠大幅減少入侵檢測(cè)時(shí)間,提高檢測(cè)時(shí)間效率. 基于內(nèi)核模塊抽象的主機(jī)入侵檢測(cè)方法將Linux操作系統(tǒng)中約300個(gè)系統(tǒng)調(diào)用抽象為8個(gè)內(nèi)核模塊表示,旨在提升模型的泛化性能,減少誤報(bào)率,但在同一內(nèi)核模塊的部分系統(tǒng)調(diào)用存在較大行為差異,且不同內(nèi)核模塊也含有行為相似的系統(tǒng)調(diào)用,造成行為抽象映射的混淆,影響檢測(cè)效果.針對(duì)該問(wèn)題,本文提出基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法.首先利用Word2Vec構(gòu)建連續(xù)稠密詞向量實(shí)現(xiàn)多維度系統(tǒng)調(diào)用行為語(yǔ)義相似性信息提取,再使用聚類算法對(duì)系統(tǒng)調(diào)用進(jìn)行抽象表征,從而將系統(tǒng)調(diào)用序列轉(zhuǎn)換為系統(tǒng)調(diào)用抽象序列,最后使用BonG[11]方法構(gòu)建入侵檢測(cè)模型.基于ADFA-LD和ADFA-WD數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法分別取得了召回率98.6%、誤報(bào)率10.2%和召回率98.0%、誤報(bào)率5.5%的最佳結(jié)果.基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法有效降低行為抽象表征的混淆,提升檢測(cè)效果.在檢測(cè)效果各項(xiàng)指標(biāo)下降幅度較小的情況下,使用較小聚類簇?cái)?shù)的BSC在2個(gè)數(shù)據(jù)集上分別實(shí)現(xiàn)了95.9%和82.1%的檢測(cè)時(shí)間增益,大幅提高了檢測(cè)時(shí)間效率.2 基于系統(tǒng)調(diào)用行為相似性聚類的主機(jī)入侵檢測(cè)方法
2.1 原理框架
2.2 系統(tǒng)調(diào)用序列抽象
2.3 模型構(gòu)建與分類
3 實(shí)驗(yàn)分析
3.1 實(shí)驗(yàn)?zāi)康?/h3>
3.2 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)環(huán)境
3.3 評(píng)價(jià)方法
3.4 實(shí)驗(yàn)過(guò)程
3.5 實(shí)驗(yàn)結(jié)果
4 討 論
5 結(jié) 論