国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于變長指令序列與粗糙集屬性約簡的惡意代碼檢測(cè)技術(shù)

2013-08-22 01:35馮本慧
科技視界 2013年23期
關(guān)鍵詞:約簡粗糙集指令

馮本慧

(湖南工學(xué)院,湖南 衡陽 421002)

0 引言

隨著計(jì)算機(jī)的普及和Internet的發(fā)展,各種類型的惡意代碼,如木馬、蠕蟲、病毒、僵尸程序等出現(xiàn)和傳播的速度與周期也越來越快,根據(jù)國家互聯(lián)網(wǎng)應(yīng)急中心的7月底安全周報(bào)顯示[1],國內(nèi)感染惡意代碼的主機(jī)數(shù)量達(dá)到了64.9萬,被篡改的網(wǎng)站達(dá)到了5875,惡意代碼的防范形式非常的嚴(yán)峻。

傳統(tǒng)的惡意代碼檢測(cè)技術(shù)主要有基于特征碼的檢測(cè)方法與啟發(fā)式的檢測(cè)方法,基于特征碼的檢測(cè)方法過于依賴特征庫,無法檢測(cè)出未知惡意代碼;啟發(fā)的檢測(cè)方法又過于依賴專家的經(jīng)驗(yàn),檢測(cè)效率低且容易誤報(bào),因此亟需一種新的惡意代碼檢測(cè)技術(shù),解決傳統(tǒng)檢測(cè)技術(shù)的缺陷,基于數(shù)據(jù)挖掘的檢測(cè)技術(shù)屬于其中之一,該技術(shù)相對(duì)傳統(tǒng)的檢測(cè)技術(shù)而言,具有快速、智能化的特點(diǎn),無須依賴專家經(jīng)驗(yàn)并且對(duì)未知惡意代碼具有很好的檢測(cè)能力。本文在研究當(dāng)前基于數(shù)據(jù)挖掘的惡意代碼檢測(cè)技術(shù)基礎(chǔ)之上,提出了一種基于變長指令序列與粗糙集屬性約簡的惡意代碼檢測(cè)技術(shù)。

1 相關(guān)工作

首次將數(shù)據(jù)挖掘技術(shù)應(yīng)用到惡意代碼檢測(cè)中的學(xué)者當(dāng)屬Schultz[2],他利用從PE文件中獲得的字符串序列、字節(jié)序列、導(dǎo)入表中API調(diào)用函數(shù)作為特征,利用PIPPER、樸素貝葉斯、多重樸素貝葉斯算法進(jìn)行分類學(xué)習(xí),在實(shí)驗(yàn)數(shù)據(jù)集上取得了很高的檢測(cè)精度,遠(yuǎn)高于當(dāng)時(shí)的商業(yè)防病毒軟件。沿著Schultz的開拓性工作,基于數(shù)據(jù)挖掘的惡意代碼檢測(cè)技術(shù)成為惡意代碼檢測(cè)領(lǐng)域研究的熱點(diǎn),研究的重點(diǎn)主要集中在兩個(gè)方面:(1)特征的表示與選擇;(2)分類算法的選擇。其中常用的惡意代碼特征包括:文件結(jié)構(gòu)特征、字節(jié)特征、指令特征等,分類算法主要采用貝葉斯、決策樹、支持向量機(jī)等算法。本文主要關(guān)注于惡意代碼的指令特征,由于惡意代碼與正常文件其行為模式的不同,則其匯編指令也會(huì)存在區(qū)別,Bilar[3]通過研究證實(shí)了這一點(diǎn),他發(fā)現(xiàn)惡意代碼與正常文件之間的某些指令的統(tǒng)計(jì)特征存在很大的區(qū)別,因此指令特征可以作為區(qū)分惡意代碼與正常文件的特征之一?;诖怂枷耄瑖獾腟antos[4]利用指令序列作為特征進(jìn)行檢測(cè),由于采用了n-gram滑動(dòng)窗口技術(shù),最終獲得的特征維數(shù)非常高,于是他利用互信息進(jìn)行降維,最后利用K鄰近、決策樹、支持向量機(jī)算法進(jìn)行分類檢測(cè),實(shí)驗(yàn)取得的很高的檢測(cè)精度。國內(nèi)的張健飛[5]等也是利用指令特征進(jìn)行檢測(cè),與Santos不同的是,他采用的是變長的指令序列作為特征,并且采用了一種分家族的逐層精華的特征選擇方法,他最后通過實(shí)驗(yàn)指出,該方法具有很好的檢測(cè)迷惑代碼的能力。

2 檢測(cè)技術(shù)的創(chuàng)新點(diǎn)與具體步驟

通過以上的研究,本文發(fā)現(xiàn),Santos的檢測(cè)方式,由于獲取的是所有指令所構(gòu)成的指令序列,因此特征的規(guī)模非常大,不便于后續(xù)的學(xué)習(xí),同時(shí)采用了定長的方式,又可能出現(xiàn)分割特征的問題,而張健飛的檢測(cè)方式,雖然考慮到了指令特征的規(guī)模與特征分割的問題,采用了變長指令序列并使用層次化的特征選擇方式,但其特征選擇方式過于復(fù)雜,因此本文提出了一種基于變長指令序列與粗糙集屬性約簡的惡意代碼檢測(cè)技術(shù),其主要的創(chuàng)新點(diǎn)如下:

(1)采用變長的常用指令序列作為特征。變長的方式可以避免分割特征的問題,同時(shí)只考慮常用的匯編指令即所構(gòu)成的指令序列,可以有效的降低最終獲得的特征規(guī)模。

(2)采用粗糙集理論進(jìn)行特征約簡。由于粗糙集理論具有在不改變分類能力的前提下有效刪除冗余特征的優(yōu)勢(shì),因此將獲得特征再利用粗糙集理論進(jìn)行特征約簡,排除冗余特征的干擾,從而大大加快后續(xù)學(xué)習(xí)算法的分類時(shí)間。

本文提出的檢測(cè)技術(shù)的步驟主要分為兩個(gè)階段。第一個(gè)階段:訓(xùn)練階段;第二個(gè)階段,檢測(cè)階段。訓(xùn)練階段主要完成特征的獲取與約簡并且完成分類器的訓(xùn)練。檢測(cè)階段,主要利用已獲得的分類器對(duì)測(cè)試樣本進(jìn)行分類并評(píng)估最終的分類結(jié)果。

3 實(shí)驗(yàn)設(shè)置及結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

本文的正常文件從干凈的XP系統(tǒng)的系統(tǒng)目錄獲得,共計(jì)308個(gè)樣本,惡意代碼文件來自網(wǎng)絡(luò)收集的86個(gè)PE型的惡意代碼,然后將獲得的樣本分為2等份,一份做訓(xùn)練集,一份做測(cè)試集。實(shí)驗(yàn)平臺(tái)為一臺(tái)安裝XP系統(tǒng)的機(jī)器,CPU為AMD Athlon 64 X2,內(nèi)存為3G。實(shí)驗(yàn)工具包括反匯編工具IDA Pro,數(shù)據(jù)挖掘平臺(tái)Weka。指令序列主要關(guān)注常用的 13 個(gè)指令即 mov、push、call、pop、cmp、jz、lea、test、jmp、add、jnz、retn、xor所構(gòu)成的序列,其長度基于 Moskovitch[6]的研究本文限定為2~3,粗糙集屬性約簡算法采用啟發(fā)式的約簡算法,具體算法可參考文獻(xiàn)[7],由于本文獲得樣本規(guī)模不大,分類算法采用在小樣本上表現(xiàn)很好的支持向量機(jī)算法。

3.2 結(jié)果分析

基于本文的特征提取與處理方法,在訓(xùn)練集上獲得的初始特征維數(shù)只有1150維,約簡后的特征維數(shù)僅8維,其原因在于,由于只考慮了常用的指令所構(gòu)成的指令序列,而忽略了其它的指令,降低了特征的規(guī)模,因此獲得的初始特征維數(shù)并不是很高,然后再次利用粗糙集理論進(jìn)行特征約簡后,刪除了其中大量的冗余特征,特征降維幅度非常明顯,僅僅剩余8維,維數(shù)非常低,這樣會(huì)大大降低后續(xù)學(xué)習(xí)算法的分類時(shí)間。

所有的訓(xùn)練集的樣本經(jīng)過特征處理之后,然后利用支持向量機(jī)算法訓(xùn)練分類器,最后在測(cè)試集上進(jìn)行分類測(cè)試,其分類精度與漏報(bào)率如表1所示,

表1 不同指令序列的檢測(cè)精度與漏報(bào)率

從表1可以看出,本文采用的變長指令序列的方式相對(duì)定長的方式而言其分類精度更高而且漏報(bào)率更低,因此在實(shí)際應(yīng)用中更具有應(yīng)用價(jià)值。

4 結(jié)論

本文在研究現(xiàn)有的基于數(shù)據(jù)挖掘的惡意代碼檢測(cè)技術(shù)基礎(chǔ)之上,提出了一種基于變長指令序列與粗糙集屬性約簡的惡意代碼檢測(cè)技術(shù),該技術(shù)只考慮常用的指令特征構(gòu)成的序列并利用粗糙集理論進(jìn)行屬性約簡,因此最終獲得的序列特征的規(guī)模維數(shù)非常低,僅僅只有8維,同時(shí)本文采用了變長的指令序列模式,降低了分割特征的風(fēng)險(xiǎn),相對(duì)定長的指令序列特征而言,其分類精度更高,漏報(bào)率也相對(duì)更低。

[1]國家互聯(lián)網(wǎng)應(yīng)急響應(yīng)中心.國家互聯(lián)網(wǎng)應(yīng)急中心的7月底安全周報(bào)[EB/OL].[2012-7-22].http://www.cert.org.cn/publish/main/upload/File/20130731CNCERT30.pdf.

[2]Schultz M G,Eskin E,Zadoc E.Data Mining Methods for Detection of New Malicious Executables[C]//Proceedings of the IEEE Symposium On Security And Privacy.Oakland:IEEE,2001,38-49.

[3]Bilar D.Opcodes as predictor for malware[J].International Journal of Electronic Security and Digital Forensics,2007,1(2):156-168.

[4]Santos I,Brezo F,Nieves J,et al.Idea:Opcode-sequence-based malware detection[M]//Engineering Secure Software and Systems.Springer Berlin Heidelberg,2010:35-43.

[5]張健飛,陳黎飛,郭躬德.檢測(cè)迷惑惡意代碼的層次化特征選擇方法[J].計(jì)算機(jī)應(yīng)用,2012,32(10):2761-2767.

[6]Moskovitch R,Feher C,Tzachar N,et al.Unknown Malcode Detection Using Opcode Representation[M].Intelligence and Security Informatics.Springer Berlin Heidelberg,2008:204-215.

[7]葛浩,李龍澍,楊傳健.改進(jìn)的快速屬性約簡算法[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(2):308-312.

猜你喜歡
約簡粗糙集指令
基于二進(jìn)制鏈表的粗糙集屬性約簡
ARINC661顯控指令快速驗(yàn)證方法
LED照明產(chǎn)品歐盟ErP指令要求解讀
實(shí)值多變量維數(shù)約簡:綜述
基于模糊貼近度的屬性約簡
多粒化粗糙集性質(zhì)的幾個(gè)充分條件
雙論域粗糙集在故障診斷中的應(yīng)用
兩個(gè)域上的覆蓋變精度粗糙集模型
坐標(biāo)系旋轉(zhuǎn)指令數(shù)控編程應(yīng)用
一種改進(jìn)的分布約簡與最大分布約簡求法
县级市| 兴城市| 内江市| 盈江县| 简阳市| 姜堰市| 礼泉县| 九台市| 胶州市| 吴旗县| 清苑县| 东乡县| 贵阳市| 高陵县| 加查县| 九龙县| 平塘县| 清新县| 延川县| 醴陵市| 东海县| 徐水县| 洪雅县| 诏安县| 临清市| 河北区| 若尔盖县| 镇远县| 朝阳市| 三穗县| 滨海县| 娄底市| 葵青区| 太和县| 萨迦县| 二连浩特市| 河津市| 涿州市| 彭阳县| 类乌齐县| 青神县|