摘要:信息化技術(shù)是當(dāng)前社會發(fā)展的標(biāo)志產(chǎn)物,也是推動(dòng)信息化社會建設(shè)的標(biāo)桿。而在信息化發(fā)展過程中,信息安全是影響其發(fā)展的瓶頸之一,如計(jì)算機(jī)病毒的侵入、釣魚網(wǎng)站的設(shè)立、木馬盜號等。對用戶個(gè)人隱私、企業(yè)業(yè)務(wù)信息安全、國家信息安全等造成嚴(yán)重影響。由于在信息技術(shù)發(fā)展的進(jìn)程中,離不開軟件的使用,而軟件目前更加注重人工編寫,這種業(yè)態(tài)是缺陷代碼、惡意代碼產(chǎn)生的根本原因,因此有效的檢測及防范惡意代碼生成成為當(dāng)前信息安全檢測技術(shù)發(fā)展方向之一。本文結(jié)合傳統(tǒng)檢測技術(shù),重點(diǎn)對檢測技術(shù)的速度及效率等問題進(jìn)行分析,實(shí)現(xiàn)快速、智能化檢測,研究中基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼檢測技術(shù)理論,為解決相關(guān)技術(shù)的實(shí)際應(yīng)用提供一定理論參考。
關(guān)鍵詞:數(shù)據(jù)挖掘;機(jī)器學(xué)習(xí);惡意代碼;檢測技術(shù)
引言
現(xiàn)代社會快速發(fā)展進(jìn)程中,信息技術(shù)發(fā)展迅速,伴隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,信息技術(shù)已經(jīng)深深的融入到人們的日常生活中,同時(shí)信息技術(shù)的發(fā)展,也提升了人們?nèi)粘9ぷ?、休閑和娛樂的氛圍,為互聯(lián)網(wǎng)技術(shù)的快速發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ)。但是,計(jì)算機(jī)技術(shù)與互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,也為惡意代碼的滋生提供了良好的傳播空間和環(huán)境,惡意代碼數(shù)量的增加,使其傳播速度逐步的加快。依據(jù)互聯(lián)網(wǎng)應(yīng)急管理中心發(fā)布的《2018年中國互聯(lián)網(wǎng)安全報(bào)告》顯示,2018年全年惡意程序傳播事件達(dá)46,578,698次,其中惡意程序下載鏈接778,388個(gè)。惡意代碼的傳播數(shù)量逐步增加,不僅會導(dǎo)致系統(tǒng)中的相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)受到一定的影響,同時(shí)惡意代碼可能泄露數(shù)據(jù),甚至?xí)p壞硬件結(jié)構(gòu),導(dǎo)致企業(yè)和個(gè)人的正常生產(chǎn)生活受到影響,甚至帶來較大的經(jīng)濟(jì)損失。因此,要充分結(jié)合惡意代碼的檢測與處理技術(shù),智能化檢測惡意代碼,降低惡意代碼帶來的危害,防止造成信息技術(shù)的干擾。惡意代碼檢查技術(shù)已成為當(dāng)前信息安全技術(shù)研究和發(fā)展的重要熱點(diǎn)話題。
1惡意代碼相關(guān)分析與檢測技術(shù)理論
1.1惡意代碼的定義與分類
1.1.1木馬
木馬是安全威脅的最多的惡意代碼類型之一。從名字上看,它是一種非法入侵計(jì)算機(jī),并獲得遠(yuǎn)程控制權(quán)限的一種惡意代碼,其往往偽裝成正常的程序,誘導(dǎo)用戶進(jìn)行下載,一旦用戶下載了裝有木馬的程序,木馬就會在計(jì)算機(jī)上運(yùn)行,收集信息、接受黑客指令等。
1.1.2孺蟲
孺蟲是一種不斷的自我修復(fù)、復(fù)制病毒,它能利用電子郵件等網(wǎng)絡(luò)手段實(shí)現(xiàn)惡意代碼的傳播。蠕蟲類型很多,有的惡意消耗資源、有的收集信息等。
1.2.3病毒
當(dāng)前,大部分人都習(xí)慣性的將惡意代碼統(tǒng)稱為病毒,其實(shí)嚴(yán)格意義上,病毒只是惡意代碼的一個(gè)類型,病毒從名稱來看,只是來源于對應(yīng)的科幻小說,并通過一段時(shí)間的修復(fù)和修改技術(shù),增加自身的副本,并將相應(yīng)的程序感染到對應(yīng)的程序代碼中。
1.2惡意代碼的檢測技術(shù)
1.2.1基于特征碼的檢測技術(shù)
基于特征碼的檢測技術(shù)主要利用惡意代碼的靜態(tài)分析,獲取惡意代碼的特征信息,并結(jié)合十六進(jìn)制的字節(jié)序列,按照字符串序列結(jié)構(gòu),對該特征體系下的惡意代碼進(jìn)行有效的檢測。檢測流程如下圖1所示。
1.2.2基于啟發(fā)式的檢測技術(shù)
基于啟發(fā)式的檢測技術(shù)主要是通過對惡意代碼的分析,從而獲取惡意代碼中所通用的操作序列或者結(jié)構(gòu)形式,并依據(jù)一般性操作的存在形式(如修改某個(gè)文件的結(jié)構(gòu)、刪除相關(guān)系統(tǒng)性文件等),對每一個(gè)的行為操作序列或者結(jié)構(gòu)的模式按照危險(xiǎn)性程序的排序,實(shí)現(xiàn)不同危險(xiǎn)程序的加權(quán)值,在檢測實(shí)施的過程中,將對應(yīng)操作行為中相關(guān)序列及結(jié)構(gòu)模式的加權(quán)值進(jìn)行總和分析,如果超過了某個(gè)特定的閾值,則可判定其為惡意代碼。
1.2.3基于檢驗(yàn)和的檢測技術(shù)
檢驗(yàn)和是一種信息保護(hù)技術(shù),如Hash值、循環(huán)冗余碼等。只要文件發(fā)生標(biāo)動(dòng),校驗(yàn)和就會改變。通過定期性的文件檢查,對文件的完整性檢測分析,來發(fā)現(xiàn)異常改變的文件。
2基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的檢測技術(shù)
惡意代碼在信息技術(shù)應(yīng)用的過程中,呈現(xiàn)出數(shù)量不斷增多,出現(xiàn)的周期逐步縮短的特征,加上一定迷惑性技術(shù)的應(yīng)用,導(dǎo)致檢測的難度越來越大,因此如何有效的獲取智能化的惡意代碼檢測技術(shù),是當(dāng)前惡意代碼檢測領(lǐng)域中發(fā)展的重點(diǎn)內(nèi)容。在數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用中,都可通過樣本的特征進(jìn)行分析,通過自動(dòng)學(xué)習(xí)病毒融合規(guī)律性的發(fā)展模式,將學(xué)習(xí)到的基礎(chǔ)性模式運(yùn)用到病毒分類檢測與分析,實(shí)現(xiàn)監(jiān)測的自動(dòng)化與智能化。其檢測原理如圖2所示。
2.1樣本的選擇與劃分
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼的檢測技術(shù)中,主要包含有訓(xùn)練與測試兩個(gè)步驟,因此在獲取數(shù)據(jù)集合的過程中,應(yīng)對數(shù)據(jù)進(jìn)行有效的劃分,主要可劃分為訓(xùn)練集和數(shù)據(jù)集。主要的劃分方式有:
一種是k重交叉驗(yàn)證的方式,k重交叉驗(yàn)證即將實(shí)驗(yàn)數(shù)據(jù)集劃分為k等份,其中k-1份作為訓(xùn)練集,剩下的1份作為測試集,然后從訓(xùn)練集中再取出1分作為測試集,將前面的1份測試集再加入訓(xùn)練集之中,如此重復(fù)k次。
另外一種,利用固定性質(zhì)的比例模式,將即將數(shù)據(jù)集按照一定的比例,如3:1的方式進(jìn)行有效劃分,主要可區(qū)分為訓(xùn)練集與測試集,并通過兩種模式的劃分,對其應(yīng)用過程中的劃分方式進(jìn)行分析。其中,采用k重交叉驗(yàn)證的方式能夠獲取均值,并采用k重取均值的方式,實(shí)現(xiàn)分類精度的進(jìn)一步提高。
2.2特征表示與提取
在挖掘與學(xué)習(xí)算法的應(yīng)用中,應(yīng)基于惡意代碼的基本特征,融合特征的表現(xiàn)形式等,對特征的提取方法進(jìn)行精度和使用性能的對比分析,融合學(xué)習(xí)算法的有效應(yīng)用,提升算法應(yīng)用的精度的實(shí)現(xiàn)。
在常用性的特征表示方案中,主要包含文件的結(jié)構(gòu)特征、序列特征及統(tǒng)計(jì)特征的合理應(yīng)用,不過特征性的表達(dá)方式并沒有絕對的好壞之分,不同的特征反映出的只是惡意代碼不同層面的信息,其側(cè)重點(diǎn)是不同的。
2.3特征降維與約簡
相關(guān)研究表明,冗余與不相關(guān)的特征的存在對學(xué)習(xí)算法的性能影響非常巨大,最終會導(dǎo)致分類器的使用性能降低,分類的準(zhǔn)確性也會降低,可實(shí)現(xiàn)的泛化功能逐步的下降等,因此對于以高維矢量為基礎(chǔ)的惡意代碼在其特征應(yīng)用上尤為明顯,因此在分類學(xué)習(xí)的過程中,應(yīng)充分的結(jié)合高維惡意代碼的特征,實(shí)現(xiàn)降維數(shù)據(jù)信息的合理化構(gòu)建。降維的過程中排除與類別無關(guān)的特征負(fù)面影響,并選擇性的利用分類對比的方法,將最優(yōu)的特征子集進(jìn)行選擇,并通過進(jìn)一步的提高分類的利用效果,提高分類器的泛化使用功能等,以減少學(xué)習(xí)算法過程中的學(xué)習(xí)時(shí)間。
3基于多維特征與選擇性集成學(xué)習(xí)的惡意代碼檢測技術(shù)
3.1檢測基本框架
本文所提出的檢測算法相關(guān)的框架體系,如圖3中,檢測過程中主要可分為兩個(gè)重要的階段,分別為訓(xùn)練階段和測試階段,訓(xùn)練階段通過測試集訓(xùn)練模型,測試階段驗(yàn)證模型。監(jiān)測過程包含樣本的靜態(tài)反匯編、特征的提取與選擇,集成分類器構(gòu)建等3個(gè)基本流程。其中靜態(tài)反匯編主要完成判斷惡意代碼是否加殼并依據(jù)殼的類型選擇相應(yīng)的脫殼程序正確脫殼。在特征提取的過程中,將基本的字節(jié)序列、指令序列和基于語義的靜態(tài)API調(diào)用的序列特征進(jìn)行合理的提取,供后續(xù)算法使用。對于不同維度的特征化分析過程,主要應(yīng)包含特征約簡,促進(jìn)集成分類器的合理構(gòu)建,并結(jié)合集成過程,實(shí)現(xiàn)測試階段中的主要樣本信息的測試的完善。
3.2實(shí)驗(yàn)樣本的選擇與劃分
實(shí)驗(yàn)樣本的選擇要點(diǎn)要依據(jù)操作系統(tǒng)平臺、語言類型、特征進(jìn)行選擇。
實(shí)驗(yàn)樣本的劃分。傳統(tǒng)模式下的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘的檢測方法中,主要以實(shí)驗(yàn)數(shù)據(jù)的應(yīng)用為主,在實(shí)驗(yàn)數(shù)據(jù)的劃分過程中,應(yīng)對實(shí)驗(yàn)數(shù)據(jù)的平衡性進(jìn)行管理,達(dá)到最終的檢驗(yàn)檢測效果,因此如何有效設(shè)定測試集中區(qū)域中的惡意代碼與正常代碼的類別比例的合理的應(yīng)用,使得分類的過程能夠以最佳的接近實(shí)際分布的相關(guān)情況進(jìn)行合理分析。
3.3多維特征的提取
結(jié)合當(dāng)前特征性的描述能力,根據(jù)指定的多特征的方式,融合新的特征對信息補(bǔ)充,以更加全面的刻畫惡意性的代碼特征,提升惡意代碼的檢驗(yàn)檢測能力,一般推薦利用惡意代碼的多特征檢構(gòu)建科學(xué)合理監(jiān)測技術(shù)。為了綜合考慮效率與成本之間的關(guān)系,在特征性的提取過程中,主要采取使用靜態(tài)的特征指標(biāo)方案,采用多種工具結(jié)合,更加全面的描述惡意代碼特征,充分的發(fā)揮靜態(tài)特征的優(yōu)勢,本文以惡意代碼的多個(gè)靜態(tài)層次為基礎(chǔ),實(shí)現(xiàn)多維特征的有效描述,并結(jié)合文件的結(jié)構(gòu)層次,字節(jié)的層次性等,將語義層、序列的基本特征進(jìn)行合理化的構(gòu)建。
由于當(dāng)前很多的惡意代碼都選擇使用了加殼技術(shù),進(jìn)而導(dǎo)致自我保護(hù)的力度不斷的加大,使得程序中的相關(guān)運(yùn)行機(jī)制不斷發(fā)生變化,應(yīng)精確實(shí)施反匯編,在反匯編的結(jié)果基礎(chǔ)上,應(yīng)根據(jù)基礎(chǔ)性的各個(gè)靜態(tài)層次的特征提取方式,按照一定的靜態(tài)特征,無須運(yùn)行惡意代碼,通過相對的動(dòng)態(tài)信息獲取調(diào)用的序列結(jié)構(gòu)等,系統(tǒng)性的開銷相對較小,但是其安全性相對較高。
3.4文件結(jié)構(gòu)層特征
文件結(jié)構(gòu)層的特征,更關(guān)注于靜態(tài)結(jié)構(gòu)信息,將惡意代碼的重新定位、文件搜索功能等進(jìn)行有效的防范,并對反病毒的軟件進(jìn)行查殺,通常能夠達(dá)到修改文件結(jié)構(gòu)的目的。
3.5高維特征的降維與約簡
降維的方案有多種,如信息的增補(bǔ)、互動(dòng)信息的應(yīng)用及文檔的翻轉(zhuǎn)頻率等,其中應(yīng)用最多的為信息增益,應(yīng)按照降維的思路,計(jì)算各個(gè)特征環(huán)境及信息增益值下的降序排列,然后按照信息的增益值,實(shí)現(xiàn)某一閾值特征下的特征值的有效應(yīng)用。在特征提取的過程中,應(yīng)對文件的結(jié)構(gòu)特征進(jìn)行分析,利用滑動(dòng)窗口獲取有效的字節(jié)層、指令層和語義層,然后運(yùn)用降維方案進(jìn)行合理的降維。
3.6選擇性集成學(xué)習(xí)與決策融合
第一步,基于不同的特征訓(xùn)練模式,按照多個(gè)不同類型的分類器,選擇合理的分類器裝置,實(shí)現(xiàn)多個(gè)分類精度高、差異性大的分類器裝置的合理化應(yīng)用及選擇,并通過選擇最優(yōu)的分類器裝置,合理的利用分類器組合實(shí)現(xiàn)最優(yōu)配置。
第二步,對于第一步的不同特征下的選擇性的集成分類結(jié)果,應(yīng)對采用的加權(quán)多數(shù)投票的方式進(jìn)行融合,達(dá)到實(shí)現(xiàn)最終的分類信息的有效應(yīng)用的目標(biāo)。針對選擇性的集成信息,每一個(gè)特征下的少數(shù)最優(yōu)的分類器裝置進(jìn)行組合,從而減低分類器的存儲空間等,提高分類器的分類速度,保障多特征模式下的分類結(jié)果、分類體系及投票方式的決策性融合分析。提高分類器的精度與泛化能力。
4結(jié)論及展望
基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼的檢測技術(shù)應(yīng)用是當(dāng)前信息技術(shù)惡意代碼檢測領(lǐng)域中的研究熱點(diǎn),因此在本文的研究中,主要基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí),按照一種或者多維的特征體系,選擇性的集成惡意代碼檢測技術(shù),利用多維特征、從多個(gè)層次中實(shí)現(xiàn)惡意代碼的特征集描述能力的全面應(yīng)用,以保障集成學(xué)習(xí)過程中的每個(gè)特征性分類器的優(yōu)勢互補(bǔ)。最終實(shí)現(xiàn)檢測精度與單個(gè)分類器檢測方式特征下的選擇性的集成學(xué)習(xí)的惡意代碼檢測技術(shù)的充分應(yīng)用,并對機(jī)器學(xué)習(xí)過程中惡意代碼的檢測技術(shù)的優(yōu)勢進(jìn)行價(jià)值分析。
參考文獻(xiàn)
[1]廖國輝,劉嘉勇.基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼檢測方法[J].信息安全研究,2016,2(01):74-79.
[2]施宇.基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的木馬檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].電子科技大學(xué),2014.
[3]馮本慧.基于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)的惡意代碼檢測技術(shù)研究[D].中南大學(xué),2013.
[4]張福勇.面向惡意代碼檢測的人工免疫算法研究[D].華南理工大學(xué),2012.
[5]孔德光.結(jié)合語義的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在代碼安全中應(yīng)用研究[D].中國科學(xué)技術(shù)大學(xué),2010.
[6]張小康. 基于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的惡意代碼檢測技術(shù)研究[D].中國科學(xué)技術(shù)大學(xué),2009.
作者簡介:付大亮(1981.03-),男,遼寧沈陽人,碩士在讀,國家軟考系統(tǒng)分析師,主要研究方向:概率論與數(shù)理統(tǒng)計(jì)。