国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于復(fù)合特征的惡意PDF檢測(cè)方法

2020-03-04 02:48李國(guó)黃永健王靜徐俊潔王鵬
現(xiàn)代電子技術(shù) 2020年2期

李國(guó) 黃永健 王靜 徐俊潔 王鵬

摘 ?要: 為了提高特征有效性和擴(kuò)大檢測(cè)范圍,提出在提取PDF文件的惡意結(jié)構(gòu)特征的基礎(chǔ)上再提取JavaScript的惡意特征;為了減少檢測(cè)時(shí)間,提出在特征提取前,增加基于信息熵差異的預(yù)檢測(cè)過(guò)程。先利用惡意PDF和良性PDF的信息熵差異篩選出可疑PDF文件和良性PDF文件;然后在檢測(cè)過(guò)程中,提取可疑PDF文件的結(jié)構(gòu)和JavaScript特征;再利用C5.0決策樹(shù)算法進(jìn)行分類(lèi);最后,通過(guò)實(shí)驗(yàn)檢測(cè),驗(yàn)證了提出的方法對(duì)惡意PDF文件檢測(cè)有效。實(shí)驗(yàn)結(jié)果表明,與PJScan,PDFMS等模型做對(duì)比,該方法檢測(cè)率比PJScan高27.79%,時(shí)間消耗低390 s,誤檢率比PDFMS低0.7%,時(shí)間消耗低473 s,綜合性能更優(yōu)。

關(guān)鍵詞: 惡意PDF文檔; 文檔檢測(cè); 文件篩選; 文件特征提取; 信息熵預(yù)檢; 實(shí)驗(yàn)驗(yàn)證

中圖分類(lèi)號(hào): TN911.23?34; TP393 ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)02?0045?04

Method of malicious PDF detection based on composite features

LI Guo1, HUANG Yongjian1, WANG Jing1, XU Junjie1, WANG Peng2

Abstract: A method that the JavaScript malicious features are extracted on the basis of extracting the malicious structural features of PDF files is proposed, so as to improve the feature validity and expand the scope of detection. A scheme that the pre?detecting process based on the information entropy difference is added before the feature extraction is proposed to shorten the detection time. The information entropy difference between malicious PDF and benign PDF is utilized to screen out the suspicious PDF files and benign PDF files in pre?detection process. The structures and JavaScript features of the suspicious PDF files are extracted during the detection process, and the C5.0 decision tree algorithm is adopted to classify them. The experimental results verify that the proposed method is effective for detecting malicious PDF files; in comparison with the PJScan, PDFMS and other detection models, the proposed method′s detection rate is 27.79% higher and the time consumption is 390 s lower than the PJScan, and the proposed method′s error detection rate is 0.7% lower and the time consumption is 473 s lower than PDFMS; its comprehensive performance is more superior.

Keywords: malicious PDF file; file detection; file screening; file feature extraction; information entropy predetection; experimental verification

0 ?引 ?言

近年來(lái),對(duì)商業(yè)組織和政府機(jī)構(gòu)的高級(jí)持續(xù)性威脅 (APT)攻擊時(shí)有發(fā)生,而惡意PDF文件是APT攻擊的重要載體[1]。目前大部分殺毒軟件采用基于啟發(fā)式或字符串匹配的方法進(jìn)行查殺,但這些方法無(wú)法有效處理多態(tài)攻擊的問(wèn)題[2]。在解決該問(wèn)題時(shí),最近的研究主要集中在以下三個(gè)方面:

1) 先提取PDF文件中的JavaScript特征,再經(jīng)過(guò)機(jī)器學(xué)習(xí)進(jìn)行分類(lèi)。這類(lèi)方法可應(yīng)對(duì)基于惡意JavaScript的攻擊,但易受到代碼混淆的影響。如2011年,Laskov開(kāi)發(fā)的經(jīng)典工具PJScan存在檢測(cè)率低,無(wú)法分析混淆代碼的問(wèn)題[3]。2014年,Doina Cosovan等人提出的基于隱馬爾可夫模型和線(xiàn)性分類(lèi)器檢測(cè)惡意PDF文件的方法,存在誤報(bào)率高的問(wèn)題[4]。2017年,徐建平提出的改進(jìn)N?gram的檢測(cè)模型只針對(duì)三種代碼混淆技術(shù)進(jìn)行反混淆[5]。

2) 利用 PDF文件的結(jié)構(gòu)信息來(lái)檢測(cè)惡意 PDF文件,其特點(diǎn)是不分析其攜帶的攻擊代碼,能夠檢測(cè)到非JavaScript攻擊,并且不會(huì)受代碼混淆的影響,但是如何增強(qiáng)模型的健壯性是其所面臨的大挑戰(zhàn)。如2012年,Maiorka等人設(shè)計(jì)的經(jīng)典工具PDFMS存在一些結(jié)構(gòu)性弱點(diǎn)[6]。2015年,Davide Maiorca等人從PDF文件的結(jié)構(gòu)和內(nèi)容中提取信息的方法存在對(duì)樣本數(shù)據(jù)的質(zhì)量要求較高的問(wèn)題[7]。

由于大多數(shù)的惡意PDF文件的大小比良性PDF文件小,而且惡意PDF文件的間接對(duì)象數(shù)量比良性PDF文件少,因此,除了上述所提的標(biāo)識(shí)JavaScript,Actions,Triggers和Form Action關(guān)鍵字的7種動(dòng)態(tài)結(jié)構(gòu)特征以外,所提取的結(jié)構(gòu)特征集還包括兩種結(jié)構(gòu)的一般特征:文件的大小和間接對(duì)象的數(shù)量。

2.2.2 ?JavaScript代碼分析

在這個(gè)階段,分析PDF文件結(jié)構(gòu)部分的JavaScript代碼和文件中嵌入的JavaScript代碼,并提取JavaScript代碼中經(jīng)常出現(xiàn)的惡意特征?;谝郧暗难芯?,本文方法所提取的JavaScript特征共有9種,分別是:

1) 用于混淆代碼的字段(5種):substring,document.Write,document.create Element,fromCharCode和stringcount。其中,惡意攻擊者可以利用fromChar 將Unicode值轉(zhuǎn)換為字符,利用stringcount分解字符串。

2) 用于動(dòng)態(tài)解釋惡意Javascript的字段(4種):Eval,setTime Out,eval_length和max_string。其中,惡意攻擊者可以使setTime Out代替eval,在超時(shí)后運(yùn)行隨機(jī)的JavaScript代碼。

2.3 ?分 ?類(lèi)

為了對(duì)PDF文件進(jìn)行分類(lèi),可以使用任何學(xué)習(xí)算法創(chuàng)建的分類(lèi)器。本文選取C5.0決策樹(shù)作為分類(lèi)算法,PDF文件樣本集合S={S1,S2,…,Sn}(n為樣本總數(shù)),共分為兩類(lèi)C={C1,C2}(C1代表良性PDF文件;C2代表惡意PDF文件)。每個(gè)PDF文件將由一個(gè)向量表示,該向量由結(jié)構(gòu)的一般特征、結(jié)構(gòu)的動(dòng)態(tài)特征和JavaScript特征組成,即:

Si={T1,T2,T3,T4,T5,T6,T7,T8,T9,T10,T11,T12,T13,T14,

T15,T16,T17,T18 }, ?i=1,2,…,n

其中:

1) 結(jié)構(gòu)的一般特征:T1表示文件Si的大小,以字節(jié)為單位;T2表示文件Si的間接對(duì)象的數(shù)量。

2) 結(jié)構(gòu)的動(dòng)態(tài)特征:T3~T9分別表示文件Si中以“/JS”為標(biāo)識(shí)的JavaScript關(guān)鍵字的數(shù)量、以“/JavaScript”為標(biāo)識(shí)的JavaScript關(guān)鍵字的數(shù)量、以“/Go To”為標(biāo)識(shí)的Action關(guān)鍵字的數(shù)量、以“/Go To R”為標(biāo)識(shí)的Action關(guān)鍵字的數(shù)量、以“ /Go To Z”為標(biāo)識(shí)的Action關(guān)鍵字的數(shù)量、以“/open action”為標(biāo)識(shí)Triggers關(guān)鍵字的數(shù)量、以“/Submit Form”為標(biāo)識(shí)的Form Action關(guān)鍵字的數(shù)量。

3) JavaScript特征:T10~T16分別表示文件Si中substring,fromChar Code,stringcount,document.Write,document. create Element,Eval,setTime Out出現(xiàn)的次數(shù);T17表示文件Si中傳給eval的最長(zhǎng)字符串長(zhǎng)度eval_length;T18表示文件Si中最長(zhǎng)字符串的長(zhǎng)度max_string。

定義p(Ci,S)表示樣本屬于類(lèi)別Ci(i=1,2)的概率,則樣本集合S的信息熵Info(S)計(jì)算公式為:

[Info(S)=-i=12(p(Ci,S) )·log2(p(Ci,S))] (3)

[p (Ci,S)]的計(jì)算公式如下:

[p(Ci,S)=fre(Ci,S)n] (4)

式中:n為樣本總數(shù);[fre(Ci,S)]是樣本集合中,類(lèi)別是Ci的樣本個(gè)數(shù)。

樣本的特征屬性為T(mén),每個(gè)屬性變量有N類(lèi),屬性T的條件熵Info(T)的計(jì)算公式為:

[Info(T)=-i=1N((Ti|T|)·Info(Ti))] (5)

引入特征屬性變量T后的信息增益Gain(T)的計(jì)算公式為:

[Gain(T)=Info(S)-Info(T)] (6)

C5.0算法利用信息增益率Gainration(A)來(lái)生成節(jié)點(diǎn),其中A為假設(shè)情況,Gainration(A)的計(jì)算公式為:

[Gainration(A)=Gain(A)Info(A)] (7)

式中,Gain(A)表示A情況下所生成的節(jié)點(diǎn)產(chǎn)生的信息增益,子節(jié)點(diǎn)越多,Info(A)越大。

3 ?實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)所采用的數(shù)據(jù)集是由從Contagiodump[11]中收集的11 207個(gè)惡意文件和從工作實(shí)驗(yàn)室中收集的9 745個(gè)良性文件組成,樣本信息包括樣本最大值MaxS,樣本最小值MinS,樣本平均值A(chǔ)vgS,如表1所示。

通過(guò)實(shí)驗(yàn),樣本的信息熵計(jì)算結(jié)果如表2所示,包括樣信息熵最大值MaxI,信息熵最小值MinI,信息熵平均值A(chǔ)vgS。

根據(jù)表1和表2可以看出,惡意PDF文件的大小和信息熵明顯比良性PDF文件小。

正式檢測(cè)通過(guò)10折交叉驗(yàn)證重復(fù)10次,當(dāng)α值取7.74時(shí),準(zhǔn)確率達(dá)到99.73%,誤檢率達(dá)到1.8%,時(shí)間消耗降至1 857 s。與文獻(xiàn)[3,5]提出的基于JavaScript特征的檢測(cè)方法、文獻(xiàn)[6,7]提出的基于結(jié)構(gòu)特征的檢測(cè)方法和文獻(xiàn)[8?9]提出的直接對(duì)整個(gè)PDF 文件進(jìn)行分析的檢測(cè)方法相比,結(jié)果如表3所示。

對(duì)于每種方法,都顯示了檢測(cè)率(TPR)、誤檢率(FPR)和時(shí)間開(kāi)銷(xiāo)T。從三類(lèi)檢測(cè)方案的七種方法的檢測(cè)率、誤檢率和時(shí)間消耗的對(duì)比結(jié)果中可以看出:本文提出的方法檢測(cè)率高于其他文獻(xiàn)提出的方法,與誤檢率最低且檢測(cè)率第二高的文獻(xiàn)[5]相比,其檢測(cè)時(shí)間為2 862 s,比本文提出的方法多1 005 s;與檢測(cè)時(shí)間最少的文獻(xiàn)[9]提出的方法相比,其檢測(cè)率為93.67%,誤檢率為3.7%,比本文提出的方法的檢測(cè)率低6.06%,誤檢率高1.9%;與文獻(xiàn)[3]提出的PJScan和文獻(xiàn)[6]提出的PDFMS相比,本文提出的方法檢測(cè)率比PJScan高27.79%,時(shí)間消耗低390 s,誤檢率比PDFMS低0.7%,時(shí)間消耗低473 s,因此,本文提出的方法綜合性能更好。

4 ?結(jié) ?語(yǔ)

針對(duì)惡意PDF文件檢測(cè)率低和檢測(cè)時(shí)間長(zhǎng)的問(wèn)題,本文提出基于信息熵下結(jié)合結(jié)構(gòu)特征和JavaScript特征進(jìn)行惡意判別的方法。經(jīng)過(guò)基于熵的預(yù)檢測(cè)過(guò)程,確定可疑PDF,然后提取可疑PDF文件的惡意結(jié)構(gòu)特征和JavaScript特征,最后利用C5.0決策樹(shù)算法進(jìn)行分類(lèi)。通過(guò)實(shí)驗(yàn)結(jié)果表明,本文提出的方法在檢測(cè)率和檢測(cè)時(shí)間性能上更優(yōu)。但是在預(yù)檢測(cè)過(guò)程中,α值是通過(guò)實(shí)驗(yàn)確定的,而非經(jīng)驗(yàn)值確定,因此在今后的研究中,應(yīng)該實(shí)現(xiàn)閾值動(dòng)態(tài)設(shè)置和范圍調(diào)整算法以減少檢測(cè)的時(shí)間。

參考文獻(xiàn)

[1] 文偉平,王永劍,孟正.PDF文件漏洞檢測(cè)[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,57(1):33?38.

[2] 林楊東,杜學(xué)繪,孫奕.惡意PDF文檔檢測(cè)技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2018,35(8):1?7.

[3] LASKOV P. Static detection of malicious JavaScript?bearing PDF documents [C]// Twenty?Seventh Computer Security Applications Conference, ACSAC 2011.Orlando: DBLP, 2011: 373?382.

[4] COSOVAN D, BENCHEA R, GAVRILUT D. A practical guide for detecting the java script?based malware using hidden Markov models and linear classifiers [C]// International Symposium on Symbolic and Numeric Algorithms for Scientific Computing. Timisoara: IEEE, 2015: 236?243.

[5] 徐建平.基于改進(jìn)的N?gram惡意PDF文檔靜態(tài)檢測(cè)技術(shù)研究[D].南昌:東華理工大學(xué),2017.

[6] MAIORCA D, GIACINTO G, CORONA I. A pattern recognition system for malicious PDF files detection [C]// International Conference on Machine Learning and Data Mining in Pattern Recognition. [S.1.]: Springer, 2012: 510?524.

[7] MAIORCA D, ARIU D, CORONA I, et al. A structural and content?based approach for a precise and robust detection of malicious PDF files [C]// 2015 International Conference on Information Systems Security and Privacy. Angers: IEEE, 2015: 27?36.

[8] SHAFIQ M Z, KHAYAM S A, FAROOQ M. Embedded malware detection using Markov n?grams [C]// Proceedings of 5th International Conference on Detection of Intrusions and Malware, and Vulnerability Assessment. Paris: Springer, 2008: 88?107.

[9] 任卓君,陳光.熵可視化方法在惡意代碼分類(lèi)中的應(yīng)用[J].計(jì)算機(jī)工程,2017,43(9):167?171.

[10] 李玲曉.基于靜態(tài)分析技術(shù)的惡意PDF文檔檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].北京:北京郵電大學(xué),2016.

[11] Anon. Mila: Contagio malware dump [EB/OL]. [2017?12?21]. http://contagiodump.blogspot.in/2010/08/Malicious?documents?archive?for.html.

作者簡(jiǎn)介:李 ?國(guó)(1961—),男,河南新鄉(xiāng)人,碩士,教授,碩士生導(dǎo)師,研究方向?yàn)槊窈街悄苄畔⑻幚砼c航空物聯(lián)網(wǎng)、網(wǎng)絡(luò)安全。

黃永健(1993—),女,河北秦皇島人,碩士研究生,主要研究方向?yàn)闄C(jī)載信息系統(tǒng)、網(wǎng)絡(luò)安全。

王 ?靜(1980—),女,山西太谷縣人,博士,講師,主要研究方向?yàn)槊窈叫畔⑾到y(tǒng)、網(wǎng)絡(luò)安全。

象山县| 玉树县| 孙吴县| 本溪市| 西乡县| 祥云县| 赣榆县| 营山县| 克什克腾旗| 房产| 新昌县| 礼泉县| 报价| 玉树县| 军事| 山阳县| 克山县| 内乡县| 琼海市| 贡觉县| 大宁县| 刚察县| 于田县| 河池市| 拜泉县| 弥渡县| 桐城市| 清涧县| 龙泉市| 改则县| 聊城市| 和顺县| 崇仁县| 洛南县| 同心县| 贵定县| 昌江| 辽中县| 镶黄旗| 闻喜县| 乌兰察布市|