朱林杰,趙廣鵬,康亮河
(1.河南理工大學(xué)信息化建設(shè)與管理中心,河南 焦作 454000;2.甘肅農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,甘肅 蘭州 730070)
隨著計算機(jī)通信技術(shù)的高速發(fā)展,信息儼然成為當(dāng)今社會的重要資源之一,尤其是在大數(shù)據(jù)、物聯(lián)網(wǎng)技術(shù)快速發(fā)展導(dǎo)致大量數(shù)據(jù)激增的情況下,人們越來越認(rèn)識到信息保護(hù)的重要性。目前生物識別技術(shù)迅速發(fā)展,信息所受到的攻擊情況越來越復(fù)雜,但是相關(guān)領(lǐng)域技術(shù)研究方法仍較少,需處理的問題和提取的信息中帶有冗余信息需要對其進(jìn)行更精確的處理等。高維數(shù)據(jù)對于入侵攻擊檢測是一個挑戰(zhàn),如何從高維數(shù)據(jù)中找到有用的信息,一直是研究者們關(guān)注的熱點(diǎn)問題。特征選擇是機(jī)器學(xué)習(xí)預(yù)處理的一個重要過程,主要用來找到最優(yōu)的特征子集來增強(qiáng)系統(tǒng)的性能,其在統(tǒng)計、大數(shù)據(jù)分析、生物技術(shù)方面已經(jīng)得到成功的應(yīng)用。在改善系統(tǒng)的精確性方面出現(xiàn)了許多特征選擇方法,這些方法各有其優(yōu)缺點(diǎn),找到一種有效的特征選擇方法是比較重要的。特征選擇有Wraps和Filters兩種方法,本研究中所提到的相互信息特征選擇方法屬于過濾方法的一種。該方法通過找到一個最優(yōu)的特征子集來預(yù)測入侵?jǐn)?shù)據(jù)的異常情況,數(shù)據(jù)基于4個文件,文件記錄入侵?jǐn)?shù)據(jù)的所有信息,包含訓(xùn)練集和測試集。在提出方法的過程中,簡化了原有的模型,減少變量使用MI(Mutual Information)標(biāo)準(zhǔn)建立的模型,數(shù)據(jù)和標(biāo)簽都采用Pandas讀取,再將其變成數(shù)組形式,鋪平成一維的向量,并選擇k個最優(yōu)的特征,通過擬合找到所有關(guān)聯(lián)的特征,然后根據(jù)值的大小進(jìn)行排序,排序后調(diào)用變換來過濾選擇的特征,把過濾后的特征傳到分類模型中。在該方法中,每一步需刪除無關(guān)的特征,保留剩下的特征,當(dāng)達(dá)到最小子集特征時,停止迭代。最后,通過比較其他研究,討論研究的結(jié)果和一些挑戰(zhàn)。
近年來,許多學(xué)者致力于互信息的研究并取得了好的成果,收集的數(shù)據(jù)有不同的潛在特征,通過特征選擇來找到特征之間存在的差異性。研究者提出的方法有較好的改進(jìn)效果,有利于改進(jìn)特征選擇的穩(wěn)定性,然而,比較早的研究大部分未能提到數(shù)據(jù)之間的差異性。但是后來逐漸研究的成果豐富起來,如Ioannis M.Stephanakis等提出基于互信息算法優(yōu)化的特征選擇,該方法用相互的信息熵處理維數(shù)問題,通過采用并行處理方式,加速預(yù)處理的速度;Rahul Kottath等提出相互信息特征選擇在計算機(jī)視覺方面的影響變化,分析了刪除冗余特征對其方法的影響,實(shí)驗(yàn)結(jié)果提高了效率和精度;Phillip M.La-Casse等廣泛評論了特征子集的約簡方法在制造業(yè)智能化過程中做出的貢獻(xiàn)。相互信息通常用MI表示,相互信息聚類算法常被用于搜索引擎中解析自然語言,發(fā)現(xiàn)語義聚類,同時使得搜索方法得到進(jìn)一步的提升。相互信息決定2個不同標(biāo)簽數(shù)據(jù)集的相似程度,有利于類別之間的信息判別。Josu等[1]在多變量時間序列數(shù)據(jù),提出基于特征子集選擇的相互信息分類,通過測量相關(guān)的子集,使用K近鄰的非參數(shù)相互信息估計,實(shí)驗(yàn)結(jié)果表明,增加了分類的精確性。Hyunki和Kim[2]考慮到特征和標(biāo)簽的依賴性,初始化種群,有了較好的應(yīng)用。Selvakumar 和Munees waran[3]提出特征選擇在入侵檢測中的應(yīng)用,改進(jìn)了精確性。Saúl和José[4]提出了譜特征選擇和信息理論約簡分析。Francisco等[5]對于特征選擇方法進(jìn)行了研究。Jorge等[6]研究歐幾里得范數(shù)最大化,與幾何平均最大化,使用此方法選擇了屬性特征。Laura等[7]對于特征選擇進(jìn)一步做了研究和應(yīng)用。Kahan和Sriparna[8]提出多目標(biāo)的優(yōu)化,無論是從算法還是從其他方法,特征選擇有了一定的改進(jìn)。在伴數(shù)據(jù)挖掘領(lǐng)域,不論是特征是必不#少的,而且分類在數(shù)據(jù)處理也是一項(xiàng)更大的挑戰(zhàn)[9-11]。
相互信息是一種重要的過濾方法。為了減少特征帶有冗余信息,在所有的方法中,相互信息的特征選擇有其顯著的優(yōu)點(diǎn),利用相互信息選擇特征,能夠方便地產(chǎn)生子集,便于相關(guān)變量的劃分。特征子集選擇是預(yù)處理的一個重要過程,主要功能是消除不相關(guān)變量和減少雜亂數(shù)據(jù)的處理次數(shù),保持相關(guān)特征的變化。目前針對這方面的研究出現(xiàn)了很多方法,基于相互信息的特征選擇能打破傳統(tǒng)關(guān)聯(lián)特征選擇方法的限制,本研究延伸了相互信息的思想,將與距離的方法改進(jìn)互信息的特征選擇,首先預(yù)處理數(shù)據(jù),通過距離計算,然后引入特征選擇方法,再計算相互信息的值,最后采用KNN判別。為了保持類別與屬性之間的平衡,我們需得到它們之間的關(guān)聯(lián),將向量X=(x1,x2,…,xn)定義為屬性,將向量Y=(y1,y2,…,yn)定義為類。采用相互信息特征選擇方法計算(xi,yj)之間的相互信息,并找到相互信息比較小的子集,子集能夠加快模型的速度,如果2個隨機(jī)變量相互信息為0,表明它們之間沒有關(guān)聯(lián)。相互信息用來測量特征的好壞,通常用F={f1,f2,…fi…fn}特征集合,看哪個子集相互信息最小,經(jīng)過特征子集比較,得到最大的信息量的子集。本研究應(yīng)用特征選擇減少特征的維數(shù)以此來降低數(shù)據(jù)之間的關(guān)聯(lián),降低維數(shù),計算互信息的值,fi代表特征子集。使用相互信息有一個決定變量獨(dú)立性的理論方法,其有效地分析了變量之間的關(guān)系并使得獲得的結(jié)果更清晰。將得到的特征子集排序,如果2個特征向量沒有什么關(guān)聯(lián),那么他們互信息最小[12-16]。建立的模型如圖1所示。
圖1 提出的方法模型
給定數(shù)據(jù)集X=(x1,x2,…,xn),標(biāo)簽Y=(y1,y2,…,yn)。
步驟1 輸入數(shù)據(jù)矩陣D,標(biāo)簽Y,K值參數(shù)。
步驟2 對數(shù)據(jù)進(jìn)行預(yù)處理,選取子集(s1,s2,…sn)。
步驟3 用距離方法計算特征之間的互信息,特征F={f1,f2,…fi…fn}如果fi>fj,保留較小的特征。
F={f1,f2,…fi…fn+1}
步驟4 驗(yàn)證子集的有效性。
步驟5 選擇一個相關(guān)的特征fi,每次把比較小的賦值給{C}計算Z中相互信息賦給{C},Z逐漸減少。
步驟6 重復(fù)步驟2、3,4、5對于計算后的子集進(jìn)行排序r1>r2>,…ri,…,>rn。
步驟7 選擇最小的特征子集C={c1,c2,…,cn}。
步驟8 用F′表示最特征子集F′={f1,f2,…fi…fn}。
步驟9 輸出已選擇的特征子集F′。
步驟10 采用KNN算法分類,顯示分類結(jié)果。
在數(shù)據(jù)處理的過程中,不同的分布對應(yīng)不同的互信息,互信息特征選擇帶來的信息值變化不同,互信息選擇是一種簡單計算特征方法。
為了驗(yàn)證互信息距離算法結(jié)合的有效性,分類性能被檢測使用以下方式,這里K值取3。
實(shí)驗(yàn)平臺Python3.7,Intel(R)core(TM),I5-9400F,2.90 GHz,8G內(nèi)存,Windows10操作系統(tǒng)。
數(shù)據(jù)集來自網(wǎng)絡(luò)安全攻擊數(shù)據(jù)集,其中KDDtrain包含42個屬性,125 973條數(shù)據(jù),分為正常數(shù)據(jù)和異常數(shù)據(jù);KDDtest包含42個屬性,22 544條鏈接記錄,分為正常http連接記錄和異常http連接記錄,采用檢測精度、f-scores度量、召回率、誤報率(圖2-圖5)。
圖2 檢測精度
類1表示正常的類別,類2表示異常的類別。
在選擇了特征后,通過比較了2種不同的方法來改善入侵檢測的精確性,通過應(yīng)用標(biāo)準(zhǔn)數(shù)據(jù)集在提出的方法上進(jìn)行比較,結(jié)果如圖2顯示,同隨機(jī)梯度優(yōu)化和貝葉斯方法相比,本研究提出的方法在類1中精度分別提高了0.069與0.124;在類2中分別提高了0.048與0.061。檢測精度取得了比較好的結(jié)果,2類分別是0.998與0.996,高于隨機(jī)梯度優(yōu)化方法0.069與0.048,同時優(yōu)于貝葉斯分類估計0.874與0.935,誤報率與召回率明顯改善,在類1與類2,誤報率從貝葉斯方法的0.157與0.051降到了0.003。隨機(jī)梯度優(yōu)化誤報率也相對較小。實(shí)驗(yàn)充分證明,提出的互信息特征選擇方法優(yōu)于其他經(jīng)典方法。如圖2所示,入侵檢測的效果明顯得到改善。提出的特征選擇方法優(yōu)于貝葉斯與隨機(jī)梯度分類方法。
如圖3所示,f-scores也明顯改善。提出的方法相較于其他2種方法在入侵檢測方面具有顯著優(yōu)勢,雖然某些個別值會出現(xiàn)不太穩(wěn)定的情況,但應(yīng)當(dāng)注意到,提出的基于相互信息的特征選擇方法對于入侵檢測有積極的影響。此外,這種方法同隨機(jī)梯度優(yōu)化和貝葉斯方法相比能夠有效地處理高維數(shù)據(jù)集。
圖3 f-scores
如圖4、圖5所示,實(shí)驗(yàn)中出現(xiàn)的誤報率比較小。另外,在經(jīng)過相互信息特征選擇后,獲得了最大的特征打分。在實(shí)驗(yàn)中,部分算法能容易地達(dá)到所需要的標(biāo)準(zhǔn),通過距離改變,確定K值能夠選擇更優(yōu)的標(biāo)準(zhǔn)。從圖中#以看出利用3種方法所得的打分情況對比明顯,相對于其他2種傳統(tǒng)算法,本研究所提方法分析檢測精度有所提高,召回率得到改進(jìn),誤報率分別降低了0.04與0.086。
圖4 召回率
圖5 誤報率
為了選擇更有效的特征,添加了排序算法,在經(jīng)過子集選擇過后,經(jīng)過了排序打分與篩選,根據(jù)不同的排序,產(chǎn)生一個結(jié)果,與另外一個排序結(jié)果互相比較,把每一個特征合適值加入到集合的中,這樣依次循環(huán),產(chǎn)生最優(yōu)的子集集合,使用這個集合去進(jìn)行實(shí)驗(yàn)驗(yàn)證。從上圖中#以看出與互信息結(jié)合選擇特征的能力有較大提高。
在高速發(fā)展的信息時代,互信息特征選擇作為一種有效的處理信息方式,在入侵檢測實(shí)驗(yàn)中已經(jīng)被證明,選擇的特征直接影響到攻擊檢測的各種性能。在廣泛分析了對于入侵檢測近年來的研究后,了解到入侵檢測需要更高的檢測精度,以便于檢測更多的異常特征信息。在考慮特征的相互依賴的影響下,提出了基于變化距離估計的相互信息用于入侵檢測的方法,為了避免類不平衡,冗余數(shù)據(jù)稀疏等其他因素的影響,本研究首先分析了各種因素的特點(diǎn),刪除冗余特征的不利影響,討論了數(shù)據(jù)點(diǎn)在二維層面上的分布;然后,結(jié)合距離變化來確定距離的值從而對相互信息進(jìn)行打分;最后,使用這個值優(yōu)化KNN算法,并利用KNN進(jìn)行分類。在實(shí)驗(yàn)中,將本研究所提出的方法與其他2種傳統(tǒng)的方法在入侵檢測數(shù)據(jù)上面進(jìn)行比較,得出結(jié)論:通過互信息的特征選擇方法選擇特征子集,對于入侵檢測數(shù)據(jù)特征選擇比較有效,能夠有效減少重復(fù)數(shù)據(jù)和冗余數(shù)據(jù),獲得更好的過濾效果。在將來,此方法仍需深入研究,使之應(yīng)用在更多的領(lǐng)域。