基于文本分類技術(shù)的惡意代碼檢測(cè)工具

2018-10-30 05:53張東紅

電子產(chǎn)品世界 2018年9期

張東紅

摘要：惡意代碼對(duì)人們的工作和生活帶來(lái)了嚴(yán)重的威脅，對(duì)惡意代碼進(jìn)行檢測(cè)也變得越來(lái)越重要。一種有效的惡意代碼檢測(cè)方式是借鑒機(jī)器學(xué)習(xí)技術(shù)，訓(xùn)練檢測(cè)模型并使用其檢測(cè)新樣本中是否含有惡意代碼。為達(dá)到此目的，使用操作碼特征的檢測(cè)方法近年來(lái)深受歡迎。用于高效、可配置地反匯編多種平臺(tái)多種格式類型的可執(zhí)行樣本，避免基于遞歸下降反匯編算法的lDA Pro遇到的各種問(wèn)題；本文還重新設(shè)計(jì)和實(shí)現(xiàn)了“飛鼠”惡意代碼檢測(cè)系統(tǒng)，自動(dòng)化地采集、標(biāo)記、處理樣本，提高反匯編成功率。

關(guān)鍵詞：惡意代碼檢測(cè)；操作碼；反匯編；1DA Pro；線性掃描

DOI：

10.3969/j.issn.1005-5517.2018.8.018

1“飛鼠”惡意代碼檢測(cè)系統(tǒng)

針對(duì)此問(wèn)題，論文根據(jù)線性掃描反匯編算法實(shí)現(xiàn)了低精度的反匯編工具D-Iight，用于高效、可配置地反匯編多種平臺(tái)多種格式類型的可執(zhí)行樣本，避免基于遞歸下降反匯編算法的IDA Pro遇到的各種問(wèn)題；論文還重新設(shè)計(jì)和實(shí)現(xiàn)了“飛鼠”惡意代碼檢測(cè)系統(tǒng)，自動(dòng)化地采集、標(biāo)記、處理樣本，在兼容IDA Pro的基礎(chǔ)上，同時(shí)支持線性掃描反匯編工具D-Iight，并能夠根據(jù)配置選擇相應(yīng)算法實(shí)現(xiàn)惡意代碼檢測(cè)。論文通過(guò)實(shí)驗(yàn)分析指出，使用線性掃描反匯編算法提取操作碼特征，能夠在允許一定程度的反匯編代碼不準(zhǔn)確的情況下，提高反匯編成功率，增加可利用的樣本數(shù)目；訓(xùn)練數(shù)據(jù)集樣本量的大幅增加可以彌補(bǔ)樣本反匯編質(zhì)量小幅度降低的損失，最終超越，或保持，基于IDA Pro的檢測(cè)模型的檢測(cè)效果。實(shí)驗(yàn)中還發(fā)現(xiàn)，使用多項(xiàng)式核函數(shù)的支持向量機(jī)分類算法在實(shí)踐中有著更好的性能和應(yīng)用價(jià)值。如圖1和圖2所示。

2 互聯(lián)網(wǎng)與病毒發(fā)展現(xiàn)狀

隨著計(jì)算機(jī)技術(shù)的高速發(fā)展和計(jì)算機(jī)網(wǎng)絡(luò)的不斷普及，計(jì)算機(jī)和互聯(lián)網(wǎng)已經(jīng)深入到人們?nèi)粘Ｉ詈凸ぷ鞯姆椒矫婷妗８鶕?jù)中國(guó)互聯(lián)網(wǎng)信息中心在2018年1月發(fā)布的《第41次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》，截至2017年12月，我國(guó)網(wǎng)民規(guī)模達(dá)7.72億，全年共計(jì)新增網(wǎng)民4074萬(wàn)人，互聯(lián)網(wǎng)普及率達(dá)55.8%，相比較于2016年底提升了2.6%。同時(shí)我國(guó)在線政務(wù)服務(wù)用戶規(guī)模達(dá)到4.85億，占總體網(wǎng)民的62.9%，通過(guò)支付寶或微信城市服務(wù)平臺(tái)獲得政務(wù)服務(wù)的使用率為44.0%。

日益便捷的網(wǎng)絡(luò)互聯(lián)環(huán)境和成熟的計(jì)算機(jī)技術(shù)，也為網(wǎng)絡(luò)攻擊的產(chǎn)生與傳播提供了極大的便利條件，每年新增的軟件數(shù)量呈現(xiàn)出持續(xù)性增長(zhǎng)的趨勢(shì)。在賽門鐵克（Symantec）公司2010年發(fā)布的安全報(bào)告中指出，賽門鐵克公司相比于2008年捕獲到169323個(gè)新型軟件，2009年共捕獲到了2895802個(gè)新型軟件。根據(jù)中國(guó)互聯(lián)網(wǎng)應(yīng)急響應(yīng)中心（CNCERT/CC）在2017年5月發(fā)布的《2016年中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報(bào)告》，CNCERT/CC通過(guò)自主捕獲以及與廠商交換獲得的移動(dòng)互聯(lián)網(wǎng)惡意程序數(shù)量約205萬(wàn)個(gè)。

3 “飛鼠”的設(shè)計(jì)

基于特征碼的靜態(tài)惡意代碼檢測(cè)流程可以分為三部分，首先需要獲取惡意代碼，然后對(duì)現(xiàn)有已知的惡意代碼進(jìn)行特征分析，提取相應(yīng)的特征碼；然后匯總整理，將提取的特征碼存入特征庫(kù)；最后，在對(duì)未知的可執(zhí)行樣本進(jìn)行檢測(cè)時(shí)，根據(jù)特征庫(kù)中的特征碼逐項(xiàng)進(jìn)行匹配。如果待檢測(cè)樣本中包含特征庫(kù)中的特征信息，則認(rèn)為該樣本是惡意代碼，反之，則認(rèn)為是非惡意代碼。如圖3。

4 “飛鼠”系統(tǒng)特征訓(xùn)練檢測(cè)模型

在獲取到包含惡意代碼樣本和非惡意代碼樣本的原始實(shí)驗(yàn)數(shù)據(jù)集，并進(jìn)行預(yù)處理和數(shù)據(jù)集劃分之后，對(duì)訓(xùn)練集數(shù)據(jù)首先使用線性掃描反匯編工具進(jìn)行反匯編處理。然后從反匯編代碼中提取操作碼特征。在完成操作碼特征提取之后，會(huì)首先根據(jù)訓(xùn)練集中操作碼特征的數(shù)據(jù)特征選擇一定的操作碼特征對(duì)樣本進(jìn)行向量化表示。最后將描述樣本的特征向量輸入分類模型中進(jìn)行訓(xùn)練，得到用于惡意代碼檢測(cè)的惡意代碼檢測(cè)模型。測(cè)試階段，使用相同的線性掃描反匯編方法對(duì)未知樣本進(jìn)行反匯編提取其操作碼特征。根據(jù)訓(xùn)練階段選擇出來(lái)的操作碼特征子集對(duì)未知樣本進(jìn)行向量化描述。最后將該描述向量輸入到訓(xùn)練階段得到的惡意代碼檢測(cè)模型進(jìn)行檢測(cè)，得到最終的惡意代碼檢測(cè)結(jié)果，惡意代碼或者非惡意代碼。

在惡意代碼檢測(cè)工作中，可以定義混淆矩陣（confusion matrix）來(lái)記錄相應(yīng)的檢測(cè)結(jié)果數(shù)據(jù)。如表1所示，TP表示將惡意代碼檢測(cè)成為惡意代碼的樣本數(shù)，F(xiàn)P表示非惡意代碼檢測(cè)成為惡意代碼的樣本數(shù)，F(xiàn)N表示惡意代碼檢測(cè)成為非惡意代碼的樣本數(shù)，TN表示非惡意代碼檢測(cè)成為非惡意代碼的樣本數(shù)。

5 結(jié)論

論文提出的解決方案，主要思想是通過(guò)訓(xùn)練樣本數(shù)量的大幅增長(zhǎng)來(lái)彌補(bǔ)操作碼特征略微不準(zhǔn)確的問(wèn)題，所以在該解決方案中通過(guò)D-Iight反匯編工具獲取大量稍微有些不準(zhǔn)確的反匯編代碼提取操作碼特征來(lái)訓(xùn)練惡意代碼檢測(cè)模型。在對(duì)反匯編代碼的質(zhì)量和數(shù)量對(duì)惡意代碼檢測(cè)性能影響的實(shí)驗(yàn)研究中，通過(guò)使用D-Iight反匯編提取操作碼特征訓(xùn)練得到的惡意代碼檢測(cè)模型與使用IDA Pro反匯編提取操作碼特征訓(xùn)練得到的惡意代碼檢測(cè)模型進(jìn)行對(duì)比分析，發(fā)現(xiàn)使用D-Iight反匯編提取操作碼特征訓(xùn)練得到的惡意代碼檢測(cè)模型的檢測(cè)性能更好一些，驗(yàn)證了本文提出的使用線性掃描反匯編算法提取操作碼特征訓(xùn)練惡意代碼檢測(cè)模型的解決方案是有效和可行的。此外，在對(duì)比分析實(shí)驗(yàn)中，本文還發(fā)現(xiàn)使用多項(xiàng)式核函數(shù)支持向量機(jī)分類算法的惡意代碼檢測(cè)模型在實(shí)踐中檢測(cè)性能表現(xiàn)最好。

參考文獻(xiàn)：

[1]中國(guó)互聯(lián)網(wǎng)信息中心第41次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[J]中國(guó)經(jīng)濟(jì)報(bào)告，2017（4）

[2] Natarai L.Karthikevan S.Jacob G.et aI.Malware imaaes： visualizationand automatic classiflcation[C]//Proceedings of the 8th international symposium on visualizationfor cyber security. ACM， 2011： 4.Fossi M， Egan G， Haley K， et al. Symantec global internetsecurity threat report[J]. Volume l， 2010

[3] Fossi M，Egan G，Haley K，et aI.Symantec global internet security threat report [J]. VolumeXVI， 2011.

[4]國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心2016年中國(guó)互聯(lián)網(wǎng)網(wǎng)絡(luò)安全報(bào)告[M/OL].北京：人民郵電出版社.（2017）.http：//www.cert.o rg.cn/pu blis h/main/u pload/File/2016_cncert_rep -ort.pdf

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于文本分類技術(shù)的惡意代碼檢測(cè)工具