張 燕
(寧夏工商職業(yè)技術(shù)學(xué)院,寧夏銀川750021)
?
數(shù)據(jù)挖掘技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用探究
張燕
(寧夏工商職業(yè)技術(shù)學(xué)院,寧夏銀川750021)
[摘要]隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)信息與數(shù)據(jù)安全變得越來(lái)越重要,這關(guān)系各個(gè)領(lǐng)域的網(wǎng)絡(luò)隱私安全。數(shù)據(jù)挖掘技術(shù)是一種旨在提高互聯(lián)網(wǎng)信息安全的技術(shù),它可以有效地提高互聯(lián)網(wǎng)的信息安全和病毒防御。本文對(duì)計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)(Net Data Mining)NDM進(jìn)行描述和探索,探究計(jì)算機(jī)網(wǎng)絡(luò)病毒防御中數(shù)據(jù)挖掘技術(shù)的一些關(guān)聯(lián)工具和結(jié)構(gòu),重點(diǎn)對(duì)數(shù)據(jù)挖掘算法進(jìn)行描述,如決策樹(shù)、關(guān)聯(lián)規(guī)則等,這些有助于加強(qiáng)病毒的防御,最后通過(guò)模型來(lái)解決計(jì)算機(jī)網(wǎng)絡(luò)病毒防御中的問(wèn)題。
[關(guān)鍵詞]數(shù)據(jù)挖掘技術(shù);計(jì)算機(jī);網(wǎng)絡(luò)病毒;防御系統(tǒng);應(yīng)用研究
隨著互聯(lián)網(wǎng)牽涉面越來(lái)越集中,涉及到金融、財(cái)產(chǎn)和人際的內(nèi)容愈來(lái)愈多,數(shù)據(jù)挖掘技術(shù)在計(jì)算機(jī)網(wǎng)絡(luò)病毒防御系統(tǒng)的構(gòu)建應(yīng)用中愈來(lái)愈重要。數(shù)據(jù)挖據(jù)技術(shù)基于大數(shù)據(jù)模塊模式更多地應(yīng)用于計(jì)算機(jī)網(wǎng)絡(luò)的詐騙防護(hù)、危機(jī)評(píng)估等,可以有效地檢測(cè)病毒的活動(dòng)與入侵。
數(shù)據(jù)挖掘技術(shù)反映了當(dāng)前分析工具的進(jìn)步,可以預(yù)測(cè)、檢測(cè)病毒的入侵形式和數(shù)量,以及目的行為。在個(gè)人隱私空間和社會(huì)公共空間的隱私保護(hù)中,數(shù)據(jù)挖掘技術(shù)扮演著“守護(hù)者”的角色,如銀行數(shù)據(jù)防病毒入侵系統(tǒng)、保險(xiǎn)數(shù)據(jù)系統(tǒng)、醫(yī)院數(shù)據(jù)系統(tǒng)以及零售商數(shù)據(jù)系統(tǒng)等。
數(shù)據(jù)挖掘技術(shù)涉及到算法、規(guī)則等實(shí)際技術(shù)問(wèn)題,筆者根據(jù)計(jì)算機(jī)網(wǎng)絡(luò)病毒防御的需要,重點(diǎn)研究了常見(jiàn)的工具和算法。
1.數(shù)據(jù)挖據(jù)技術(shù)
數(shù)據(jù)挖掘技術(shù)是指從大型的、噪雜的、擁擠的數(shù)據(jù)空間中提取不被人們所知的數(shù)據(jù),這些數(shù)據(jù)都是有用的潛在信息。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)多從同類(lèi)屬性著手,自然有其局限性。隨著互聯(lián)網(wǎng)的應(yīng)用推廣和網(wǎng)絡(luò)大數(shù)據(jù)分析技術(shù)的進(jìn)步,把傳統(tǒng)數(shù)據(jù)挖掘和互聯(lián)網(wǎng)結(jié)合產(chǎn)生的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)成為今日的“明星”。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)可以有效地發(fā)現(xiàn)和提取潛在的、有用的信息,以及隱藏在網(wǎng)絡(luò)檔案和互聯(lián)網(wǎng)活動(dòng)行為中的信息。
筆者本文所研究的數(shù)據(jù)挖掘技術(shù),就是基于網(wǎng)絡(luò)的互聯(lián)網(wǎng)數(shù)據(jù)挖掘,其技術(shù)的基本形式如圖1所示。
圖1 互聯(lián)網(wǎng)數(shù)據(jù)挖掘技術(shù)工作內(nèi)容
2.安全擬合
隨著得知R,可以計(jì)算出v。本算法面臨的凸顯問(wèn)題是串通問(wèn)題。Sites(l- 1)and(l+1)通過(guò)比較輸入值和輸出值來(lái)得出vi。本方法可以應(yīng)付大部分網(wǎng)絡(luò)需要,每個(gè)站可以分解,每個(gè)分解值的擬合可以單獨(dú)計(jì)算,這種路徑可以使得每次分解質(zhì)擬合不會(huì)出現(xiàn)兩次,可以有效地進(jìn)行精準(zhǔn)預(yù)測(cè)計(jì)算。
3.安全設(shè)置集合
安全設(shè)置集合是數(shù)據(jù)挖掘的有效方法之一,可以在每次進(jìn)程中給出規(guī)則以及頻繁的內(nèi)容欄目設(shè)置,這樣通過(guò)交換加密技術(shù)來(lái)進(jìn)行有效的執(zhí)行防御。一個(gè)加密算法交換進(jìn)行時(shí),加密鑰匙可以是K1,K2,……Kn∈K,最后的加密數(shù)據(jù)M被應(yīng)用于所有的鑰匙。每個(gè)站點(diǎn)的加密設(shè)置與增加是基于一個(gè)整體設(shè)置情形下的,這樣每個(gè)站點(diǎn)的加密欄目和內(nèi)容將可以有效地進(jìn)行鑰匙控制。自從加密技術(shù)被應(yīng)用于網(wǎng)絡(luò)站點(diǎn)的交換進(jìn)程中,對(duì)應(yīng)的將會(huì)對(duì)相同欄目進(jìn)行加密,并對(duì)整體設(shè)置進(jìn)行檢測(cè),最后網(wǎng)絡(luò)站點(diǎn)的防御檢測(cè)將會(huì)使得每個(gè)欄目?jī)?nèi)容都進(jìn)行加密處理。另外,為了更好避免病毒的攻擊,交換規(guī)則將會(huì)持續(xù)進(jìn)行。
4.交叉設(shè)置的安全標(biāo)準(zhǔn)
在網(wǎng)絡(luò)安全設(shè)置中,要兼顧相同的數(shù)據(jù)集,重要的問(wèn)題是計(jì)算出交叉設(shè)置的量。相同的安全集合技術(shù)使用交換加密算法來(lái)進(jìn)行,所有的k數(shù)據(jù)活動(dòng)都要依據(jù)加密交換來(lái)進(jìn)行,并且要確保加密鑰匙的每次唯一性,每次數(shù)據(jù)收集和調(diào)換都需要在固定欄目范圍內(nèi)使用鑰匙口令來(lái)進(jìn)行,通過(guò)接收加密鑰匙口令,每次數(shù)據(jù)的進(jìn)行和更迭才可以確定安全。交叉設(shè)置的鑰匙口令,確保了不同設(shè)置下的相同安全標(biāo)準(zhǔn),因?yàn)樗鼈兌家谝粋€(gè)安全集的范圍內(nèi)進(jìn)行。
5.數(shù)量積
6.不經(jīng)意傳輸
不經(jīng)意傳輸協(xié)議是一種保護(hù)雙方隱私的協(xié)議,它有兩個(gè)參與方,一個(gè)是信息持有者,一個(gè)是信息接收者。信息持有者的一對(duì)值為(x0,x1),信息接收者輸入一個(gè)比σ∈(0,1)。協(xié)議就是接收者獲悉Xσ,然而信息持有者卻沒(méi)有。這樣,協(xié)議達(dá)到不經(jīng)意的傳輸。
7.茫然多項(xiàng)估值
茫然多項(xiàng)估值是另一個(gè)有效的協(xié)議,在相鄰集合中,持有者的輸入是一個(gè)多項(xiàng)式Q,基于一個(gè)K標(biāo)準(zhǔn)下,接收者的輸入是一個(gè)元素z∈f。協(xié)議中,接收者獲得Q(z),持有者沒(méi)有。
1.計(jì)算機(jī)網(wǎng)絡(luò)病毒防御系統(tǒng)介紹
計(jì)算機(jī)網(wǎng)絡(luò)病毒防御系統(tǒng)的概念,最早在Anderson (1980)的一個(gè)技術(shù)報(bào)告中被提出,他認(rèn)為計(jì)算機(jī)審查機(jī)制應(yīng)當(dāng)可以靈活變化,且可以提供給計(jì)算機(jī)對(duì)內(nèi)部危險(xiǎn)和威脅一個(gè)安全的防御技術(shù)。他進(jìn)一步提出統(tǒng)計(jì)學(xué)方法應(yīng)該應(yīng)用于分析用戶的行為和監(jiān)測(cè)違法接入資源系統(tǒng)的偽裝者。
1987年,Dorothy提出計(jì)算機(jī)網(wǎng)絡(luò)病毒入侵檢測(cè)系統(tǒng)的模型:IDES(入侵檢測(cè)專(zhuān)業(yè)系統(tǒng)),這是入侵檢測(cè)系統(tǒng)領(lǐng)域中一個(gè)非常重要的里程碑。隨后,不同形式的入侵檢測(cè)系統(tǒng)被人們提出,如:Discovery、Haystack、MIDAS、NADIR、NSM、Wisdom和Sence、DIDS等。
計(jì)算機(jī)網(wǎng)絡(luò)病毒入侵檢測(cè)系統(tǒng)是監(jiān)測(cè)和控制發(fā)生在計(jì)算機(jī)系統(tǒng)或網(wǎng)絡(luò)系統(tǒng)中所有可能的情況,分析與安全問(wèn)題有關(guān)的信號(hào),在發(fā)生安全問(wèn)題時(shí)發(fā)送警告,并且通知相關(guān)體系采取措施以降低危險(xiǎn)系數(shù)。這個(gè)框架由三部分組成,如圖2所示。
圖2 計(jì)算機(jī)網(wǎng)絡(luò)病毒入侵檢測(cè)防御系統(tǒng)
(1)信息采集/數(shù)據(jù)采集:采集的數(shù)據(jù)源在位置上可以分為主機(jī)、網(wǎng)絡(luò)、應(yīng)用。
(2)分析引擎:能夠分析是否出現(xiàn)了入侵現(xiàn)象。
(3)回應(yīng):在分析后采取行動(dòng),記錄分析結(jié)果,發(fā)送實(shí)時(shí)警告,或調(diào)整入侵檢測(cè)系統(tǒng)等等。
2.決策樹(shù)挖掘
決策樹(shù)是一種樹(shù)形狀的圖(如圖3所示),與表的結(jié)構(gòu)相似;任何一個(gè)內(nèi)部節(jié)點(diǎn)是一個(gè)性質(zhì)測(cè)試,每一個(gè)樹(shù)枝代表檢測(cè)結(jié)果,最后葉子上的節(jié)點(diǎn)代表不同形式的狀態(tài)分配。在分類(lèi)樹(shù)中最基本以及最常用的運(yùn)算法則是ID3和C4.5。這是兩種建立樹(shù)的方法,從下到上樹(shù)的結(jié)構(gòu)和從下到上修剪,ID3和C4.5都屬于從下到上樹(shù)的結(jié)構(gòu);它們的運(yùn)算法則表述如下:x1+ x2= x。
圖3 決策樹(shù)圖形
3.關(guān)聯(lián)規(guī)則挖掘
筆者主要探索網(wǎng)絡(luò)關(guān)聯(lián)中病毒防御,在一系列網(wǎng)絡(luò)站點(diǎn)中,關(guān)聯(lián)規(guī)則基于一個(gè)水平的數(shù)據(jù)設(shè)置,設(shè)置I={i1,i2,……in}為欄目,則T={T1,T2,……Tn}為處理值設(shè)置,則每個(gè)Ti?I。一個(gè)處理值Ti得出欄目set X?I,只要當(dāng)時(shí)X?Ti。關(guān)聯(lián)規(guī)則作用形式為X?Y(X∩Y=0)帶著支持和信心,假設(shè)在T中處理值c%為X∪Y和c%。其中c%包含X和Y。公式算法如下:
依據(jù)上式,關(guān)聯(lián)規(guī)則挖掘主要是依據(jù)規(guī)則的支持來(lái)獲取數(shù)據(jù)的統(tǒng)計(jì)和預(yù)測(cè)。
4.EM群集
通過(guò)上式可以有效地計(jì)算群集之間的值,并且在基于網(wǎng)絡(luò)大數(shù)據(jù)的范圍內(nèi)進(jìn)行預(yù)測(cè)和發(fā)表。
5.頻域挖掘
本技術(shù)使用基于水平的數(shù)值來(lái)進(jìn)行加密,描述公式如下:
6.樸素貝斯葉(Na?ve Bayes classifiers)
在數(shù)據(jù)挖掘技術(shù)的方法中,貝斯葉是一種有效的算法,它可以很好地從任務(wù)的分類(lèi)中進(jìn)行區(qū)劃,比較成功地應(yīng)用于醫(yī)學(xué)領(lǐng)域和零售商領(lǐng)域的數(shù)據(jù)挖掘和檢測(cè)保護(hù)。
這個(gè)方法可以有效地應(yīng)用于數(shù)據(jù)挖掘的防御病毒中。
7.模型建立
隨著計(jì)算機(jī)網(wǎng)絡(luò)的發(fā)展,以及互聯(lián)網(wǎng)金融、電子商務(wù)等領(lǐng)域大數(shù)據(jù)平臺(tái)的建設(shè)和推廣,越來(lái)越多的平臺(tái)使用數(shù)據(jù)挖掘技術(shù)來(lái)進(jìn)行網(wǎng)絡(luò)的檢測(cè)、防御和保護(hù)以及主動(dòng)對(duì)病毒進(jìn)行攻擊。從2013年到2015年電商淘寶網(wǎng)和京東商城,以及支付寶、京東白條等互聯(lián)網(wǎng)金融,都先后應(yīng)用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)的檢測(cè)模塊建設(shè)和大數(shù)據(jù)檢驗(yàn)防護(hù),以及算法的應(yīng)用。
參考文獻(xiàn):
[1]Jiawei Han,Micheline Kamber.Data Mining:Concepts and Techniques[M].New York∶Morgan Kaufmann Publishers,2001∶7.
[2]陳小輝.基于數(shù)據(jù)挖掘的入侵檢測(cè)技術(shù)研究[D].中國(guó)優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫(kù),2010.
[3]陳偉,彭文靈,楊敏.基于數(shù)據(jù)挖掘的入侵檢測(cè)系統(tǒng)中挖掘效率的研究[J]贛南師范學(xué)院學(xué)報(bào),2003(6).
[中圖分類(lèi)號(hào)]TP308
[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1673- 0046(2016)4- 0174- 03
太原城市職業(yè)技術(shù)學(xué)院學(xué)報(bào)2016年4期