国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征選擇的工業(yè)互聯(lián)網(wǎng)入侵檢測分類方法

2022-05-09 05:03任家東張亞飛李尚洋
計算機研究與發(fā)展 2022年5期
關鍵詞:特征選擇準確率分類

任家東 張亞飛 張 炳 李尚洋

(燕山大學信息科學與工程學院 河北秦皇島 066004) (河北省軟件工程重點實驗室(燕山大學) 河北秦皇島 066004)

互聯(lián)網(wǎng)行業(yè)的發(fā)展使得“工業(yè)互聯(lián)網(wǎng)”這個名詞也開始走進了大眾的生活,給電子裝備、鋼鐵、采礦、電力等工業(yè)制造業(yè)帶來了便捷.所謂的工業(yè)互聯(lián)網(wǎng)就是把工業(yè)制造與互聯(lián)網(wǎng)融合起來,將工業(yè)系統(tǒng)中的設備、車間、工廠、員工與客戶等利用互聯(lián)網(wǎng)這個平臺作為樞紐連接起來的網(wǎng)絡,從而推動工業(yè)的智能化,實現(xiàn)行業(yè)間的互通、資源間的共享.

然而,由于各種移動終端、工廠車間的接入,使得工業(yè)互聯(lián)網(wǎng)群體日益強大,安全問題愈加突出.研究發(fā)現(xiàn),2020年上半年,通過國家工業(yè)互聯(lián)網(wǎng)的安全態(tài)勢感知平臺,檢測到了各種惡意攻擊1 356.3萬次,其中流量異常、非法外聯(lián)、僵尸網(wǎng)絡占惡意攻擊總數(shù)的80%以上[1].隨著工業(yè)互聯(lián)網(wǎng)的發(fā)展與應用,其遭受的惡意攻擊與日俱增,給工業(yè)互聯(lián)網(wǎng)帶來各種安全隱患,更嚴重的可能會導致工廠車間的癱瘓,生態(tài)系統(tǒng)失衡[2].

針對工業(yè)互聯(lián)網(wǎng)的安全現(xiàn)狀,網(wǎng)絡入侵檢測系統(tǒng)(intrusion detection system, IDS)可以有效識別網(wǎng)絡中的攻擊行為,實時監(jiān)測網(wǎng)絡狀況,一旦發(fā)現(xiàn)入侵就會立即、主動地做出響應.入侵檢測系統(tǒng)的關鍵在于對攻擊行為的識別,傳統(tǒng)的入侵檢測系統(tǒng)從最初的利用審計信息來追蹤用戶的可疑行為,到提出了第一個實時的入侵檢測專家系統(tǒng)模型[3],再到利用狀態(tài)轉換分析來進行完善,對攻擊的識別始終是網(wǎng)絡安全領域的熱點問題.然而,隨著工業(yè)互聯(lián)網(wǎng)環(huán)境的日益復雜,傳統(tǒng)入侵檢測系統(tǒng)的問題便突顯了出來,如較多地占用網(wǎng)絡資源、網(wǎng)絡流量分析能力不足、對各種攻擊的監(jiān)測能力較差[4]、誤報率較高等.

隨著機器學習和深度學習模型的普及,大量學者開始將機器學習和深度學習模型運用到工業(yè)互聯(lián)網(wǎng)的入侵檢測系統(tǒng)中[5-10],有效緩解了傳統(tǒng)入侵檢測系統(tǒng)的瓶頸問題.在傳統(tǒng)入侵檢測系統(tǒng)中引入機器學習和深度學習,就可以把入侵檢測問題簡化為識別與分類問題來處理,智能化地實現(xiàn)網(wǎng)絡安全維護.研究表明,機器學習和深度學習模型能夠有效識別正常與異常行為.但是,針對異常攻擊中的具體攻擊類別如DOS,Generic,Exploits等,研究成果較少.

為了實現(xiàn)具體攻擊類別的識別,幫助入侵檢測系統(tǒng)快速、準確地做出響應,還需要對工業(yè)互聯(lián)網(wǎng)網(wǎng)絡流量數(shù)據(jù)進行特征選擇,以此減小冗余特征對分類效果的影響.常見的特征選擇方法有相關系數(shù)法、卡方檢驗、信息增益[11]、遞歸特征消除[12]等,通過這些方法,能夠減少特征的數(shù)量和降低數(shù)據(jù)維度.其中,相關系數(shù)法最為簡單高效,通過計算皮爾遜相關系數(shù),能夠快速準確地判斷特征之間的相關性,避免不相關特征未被篩選或相關特征過度篩選的情況,提高模型精度.

為了去除無關特征并更好地提高分類性能,本文提出了一種基于皮爾遜特征選擇的入侵檢測分類方法,主要貢獻包含3個方面:

1) 對原始數(shù)據(jù)集進行分析,利用獨熱編碼、歸一化等進行預處理,利用皮爾遜相關系數(shù)進行特征選擇,提高模型識別的準確率.

2) 從機器學習和深度學習2個角度,通過8種模型對入侵檢測攻擊進行分類評估和比較分析,確定了性能最佳的二分類和多分類模型.

3) 在公共數(shù)據(jù)集和工業(yè)互聯(lián)網(wǎng)真實流量數(shù)據(jù)集上,驗證了本文評估方法對入侵檢測二分類和多分類的有效性.

1 相關工作

工業(yè)互聯(lián)網(wǎng)網(wǎng)絡流量數(shù)據(jù)復雜多變,特征冗余度高,使得其產生的安全問題難以被發(fā)現(xiàn).目前,用于驗證入侵檢測方法的經(jīng)典數(shù)據(jù)集主要有KDD99,NSL-KDD99等,但是這些傳統(tǒng)的數(shù)據(jù)集數(shù)據(jù)陳舊、更新緩慢,只能識別Normal,DOS,R2L,U2L和Probe這5種攻擊類型,對于現(xiàn)在網(wǎng)絡中出現(xiàn)的其他攻擊無法實現(xiàn)精準識別.Kilincer等人[13]詳細介紹了網(wǎng)絡入侵檢測系統(tǒng)中常用的6種數(shù)據(jù)集,并對其進行對比分析,表明了UNSW-NB15數(shù)據(jù)集更適用于現(xiàn)在的各種研究.Almomani等人[14]基于UNSW-NB15數(shù)據(jù)集,利用機器學習中的邏輯回歸、貝葉斯、決策樹、隨機森林等分類器進行了二分類的實驗,實驗結果顯示隨機森林的分類效果最好,準確率為87%.Zhang等人[15]基于UNSW-NB15和MSU數(shù)據(jù)集,采用MRMR算法和支持向量機方法對特征進行選擇,實驗結果表明有的特征之間具有強耦合性,而有的特征冗余.Kumar等人[16-17]基于UNSW-NB15數(shù)據(jù)集提出了一種新型統(tǒng)一的入侵檢測算法,通過計算信息增益進行特征選擇,其結果僅識別了4~5種攻擊類型,成功識別的種類較少.Agarwal等人[18]利用樸素貝葉斯、支持向量機、K近鄰3種機器學習模型進行了分類,其中支持向量機的準確率最高,達到97.77%.

上述大多研究中,沒有充分利用各種機器學習和深度學習模型分別進行二分類和多分類實驗.其中涉及特征選擇的研究,雖然有效識別出了網(wǎng)絡流量中的異常行為,但是識別出的具體攻擊類型最多為5種.本文通過計算皮爾遜相關系數(shù),選擇合適的特征,分別結合機器學習和深度學習模型進行二分類和多分類實驗,對工業(yè)互聯(lián)網(wǎng)入侵檢測情況進行詳細的分析.

2 基于特征選擇的入侵檢測分類方法設計

本節(jié)首先給出了基于特征選擇的入侵檢測分類方法的整體框架;其次,對特征選擇和分類模型分別進行具體闡述.

2.1 研究框架

本文的結構框架分為工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)預處理、特征選擇、訓練并驗證模型、評估分析、特征分析5個部分,如圖1所示.

1) 數(shù)據(jù)預處理.從不同維度分析UNSW-NB15數(shù)據(jù)集的數(shù)據(jù)特征,對數(shù)據(jù)進行統(tǒng)一的清理與歸一化,并根據(jù)特征屬性的類型,將其轉化成模型可識別的數(shù)據(jù).

2) 特征選擇.對原始數(shù)據(jù)集進行預處理后,計算特征的皮爾遜相關系數(shù),判斷每種特征相關程度強弱,通過實驗選擇最優(yōu)閾值,實現(xiàn)特征選擇.

3) 訓練并驗證模型.利用支持向量機、邏輯回歸、K近鄰、決策樹、隨機森林等傳統(tǒng)機器學習模型和多層感知機、卷積神經(jīng)網(wǎng)絡、時空網(wǎng)絡等深度學習模型進行訓練和驗證.

4) 評估分析.對工業(yè)互聯(lián)網(wǎng)網(wǎng)絡流量分別進行二分類和多分類研究,二分類指的是能夠識別正常行為與攻擊行為,多分類能夠識別出具體的攻擊類型,根據(jù)準確率等評價參數(shù),確定哪種模型二分類效果最佳,哪種模型多分類效果最佳.

5) 特征分析.根據(jù)分類結果,分析不同特征和特征相關性對分類結果的影響.

Fig. 1 Schematic diagram of the research structure圖1 研究結構框架示意圖

2.2 預處理

工業(yè)互聯(lián)網(wǎng)需要收集來自各種工業(yè)場景的數(shù)據(jù)并形成數(shù)據(jù)集,但收集的過程會由于設備、網(wǎng)絡、人工等導致一些數(shù)據(jù)出現(xiàn)錯誤或偏差,也會因為一些數(shù)據(jù)的屬性特點,無法對這些數(shù)據(jù)做進一步分析處理.因此,在得到原始數(shù)據(jù)之后,首先要對其進行預處理,以此來降低后續(xù)實驗的難度,提升實驗效果.工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)的特征屬性主要分為連續(xù)型和離散型,本文針對離散型特征,利用獨熱編碼實現(xiàn)特征的映射;針對連續(xù)型特征,利用歸一化將連續(xù)型特征數(shù)據(jù)縮放至[0,1]區(qū)間.

2.2.1 獨熱編碼

獨熱編碼的定義為:用N位狀態(tài)寄存器來實現(xiàn)對N種狀態(tài)的編碼[19],充分保證了每種狀態(tài)都能夠保存在寄存器中,不會發(fā)生特征丟失現(xiàn)象,并且只有一位的編碼有效.

工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)中的離散型特征定義為Di,其取值為Di={Di1,Di2,…,Din},n表示該離散型特征取值數(shù)量.經(jīng)過獨熱編碼后,用有n位的二進制編碼分別代表每種取值,Di取值變?yōu)閧1000…, 0100…, 0010…, …, …0001},其中當?shù)趈位為1時,代表了Di中的某項取值Dij.

利用獨熱編碼進行特征映射,能夠有效處理分類器難以處理的特征問題,從而提高模型的運行效率.但是獨熱編碼并不適用于特征類別較多的屬性,當類別較多時,會導致特征向量空間較大,進而形成高維的稀疏矩陣,使運算效率大大降低.

2.2.2 數(shù)據(jù)歸一化

歸一化的定義是把所有的數(shù)據(jù)映射到區(qū)間[0,1]上,從而加快模型收斂的速度,提高分類結果的精度.歸一化的方法有很多,其中最常用的就是Min-Max標準化,也稱離差標準化.工業(yè)互聯(lián)網(wǎng)流量中的連續(xù)型特征記為X,特征的最小值和最大值分別為Min和Max,通過式(1)將數(shù)據(jù)進行歸一化處理,設X′是歸一化后的結果,則:

(1)

2.3 特征選擇

入侵檢測數(shù)據(jù)中大多包含一些冗余無關的數(shù)據(jù)特征,需要進行特征的提取,挑選出滿足實驗要求的特征.常見的特征選擇方法有過濾法、包裝法和嵌入法.過濾法是通過對每種屬性相關性的評價,設置閾值來進行特征的篩選;包裝法在過濾法的基礎上,實現(xiàn)了多種特征之間交互關系的檢測,并結合機器學習算法來對子集進行評估;嵌入法結合了過濾法和包裝法的優(yōu)點,實現(xiàn)了特征選擇和算法訓練的并行操作.

在特征選擇過程中,根據(jù)網(wǎng)絡流量的特征,需要用評價函數(shù)來衡量特征子集的性能,常見的評價函數(shù)有距離度量、信息度量和依賴性度量等.距離度量通過計算樣本之間的距離來實現(xiàn)對樣本的分類,距離越小,越可能屬于同一種類別;信息度量通過計算信息增益、信息熵等,將特征信息量化,計算所得值越大,越說明了分類器的性能較優(yōu);依賴性度量用來評價特征之間或類別與特征之間的相關性,與類別相關性大的特征被認為是好的特征.前2種評價方式無法判斷特征對分類結果的影響,也忽略了網(wǎng)絡流量特征之間的關聯(lián)性對分類結果的影響情況,鑒于網(wǎng)絡流量特征數(shù)據(jù)的復雜性和異構性,前2種評價方式較少用于評估生成特征子集的好壞.依賴性度量的評價方法能夠很好地實現(xiàn)網(wǎng)絡流量特征對類別影響的評估.依賴性度量中的皮爾遜相關系數(shù)具有易于理解、簡潔高效且計算復雜度較低等優(yōu)點,因此,本文選擇皮爾遜相關系數(shù)來衡量類別與特征之間的相關程度,計算方法為

(2)

皮爾遜相關系數(shù)的取值范圍為-1~1,其絕對值越大,說明2個變量間的相關程度越強,一般通過表1來判斷相關程度的強弱.

Table 1 Strength of Correlation Table

2.4 分類模型

工業(yè)互聯(lián)網(wǎng)入侵檢測系統(tǒng)利用機器學習和深度學習中的各種模型對流量數(shù)據(jù)進行二分類和多分類,識別出攻擊類型并正確分類.

在機器學習模型中,邏輯回歸經(jīng)常被用于解決二分類問題,也可用來解決多分類問題,通過Logistics函數(shù)來歸一化預測值;支持向量機通過超平面來對數(shù)據(jù)進行分類,在訓練數(shù)據(jù)的同時學習攻擊模型進而實現(xiàn)分類,主要適用于線性分類且特征量大的數(shù)據(jù)集[18];K近鄰是分類模型中最簡單的分類器之一,通過判斷與未知樣本最近的K個樣本的類別,將其分類為K個樣本點中大多數(shù)樣本所屬類別;在決策樹中,通過樣本的特征值進行分類,樹的節(jié)點代表數(shù)據(jù)集的特征,分支表示劃分的決策規(guī)則[20];隨機森林是基于多個決策樹來構建的,以此可以有效預防過擬合問題,通過對每一棵樹進行預測,最終獲得最優(yōu)解,大多用于多分類問題,具體構建過程如圖2所示.

1) 對樣本進行隨機有放回的采樣(Bagging采樣),訓練決策樹.

2) 在包含M個特征的樣本中,選取m個特征(m?M),根據(jù)Gini Impurity選擇作為分裂節(jié)點的特征,計算方法為

Fig. 2 Modeling process of random forest model圖2 隨機森林模型建模過程示意圖

(3)

其中C表示分類的數(shù)量,某一條數(shù)據(jù)是第i類的概率為p(i).

3) 對每個節(jié)點重復步驟2),直到不能分裂為止,生成決策樹.

4) 重復步驟1)~3),建立大量的決策樹,生成隨機森林,并根據(jù)“少數(shù)服從多數(shù)原則”,做出決策.

深度學習模型中,多層感知機在單層神經(jīng)網(wǎng)絡的輸入層和輸出層之間引入了隱藏層,并利用非線性激活函數(shù)relu(x)=max(x,0)進行標簽劃分,實現(xiàn)模型分類;卷積神經(jīng)網(wǎng)絡是用卷積運算代替矩陣乘法運算的神經(jīng)網(wǎng)絡[21],卷積層和池化層的加入能夠有效利用工業(yè)互聯(lián)網(wǎng)網(wǎng)絡流量特征進行異常檢測.時空網(wǎng)絡將CNN處理后的一維數(shù)據(jù),作為LSTM的輸入,對經(jīng)過處理后的流量數(shù)據(jù)特征進行正常和異常行為的分類.

2.5 評價指標

準確率(accuracy)、精確率(precision)、召回率(recall)和F1分數(shù)(F1-score)用來對機器學習和深度學習模型進行評價.

1) 準確率(accuracy).可以直接用來衡量模型的好壞,其結果指的是對整體樣本的預測準確度,accuracy的值越大,說明模型越好,計算為

(4)

其中,TP指攻擊類型被正確分類的數(shù)量,TN指正常行為被正常分類的數(shù)量,F(xiàn)P指正常行為被分類為攻擊行為的數(shù)量,F(xiàn)N指未將此攻擊類型正確分類的數(shù)量.

2) 精確率(precision).針對預測結果,在樣本不均衡的情況下提出的,由式(5)可看出,其含義為在所有的被預測為正的樣本里,實際結果為正樣本的概率,計算為

(5)

3) 召回率(recall).針對實際原樣本的,在實際結果為正的樣本,被預測也為正的概率,計算為

(6)

4)F1分數(shù)(F1-score).在希望精確率和召回率都很高,但又不能同時滿足時,就需要尋找二者的一個平衡點,平衡點定義為F1-score,同時考慮到精準率和召回率,使得二者結果能夠達到最優(yōu),計算為

(7)

5) 加權準確率(ωaccuracy).在多分類的情況中,要綜合考慮每種行為類型的準確率,因此利用加權準確率來評價模型的整體分類效果,計算為

(8)

其中,i為某種行為類型,共有k種行為類型,accuracyi為某種行為類型的準確率,ni為某種行為類型的數(shù)量,n為k種行為類型數(shù)量之和.

3 實驗與結果

3.1 實驗環(huán)境

本文所有的實驗均在Windows 10 PC,Intel?CoreTMi5-10210U CPU @ 1.60 GHz,16.00 GB RAM環(huán)境中實現(xiàn).采用Python中的Sklearn庫等實現(xiàn)算法.

3.2 數(shù)據(jù)集

本文選取了UNSW-NB15數(shù)據(jù)集進行實驗,數(shù)據(jù)集基于IXIA PerfectStorm創(chuàng)建,并最終以CSV文件的形式生成.數(shù)據(jù)集中包含49種特征,根據(jù)這些特征的數(shù)據(jù)類型,將其劃分成5種:Object,Integer,F(xiàn)loat,Timestamp,Binary,如表2所示.經(jīng)過對這些特征的分析,最終可以識別Analysis,Backdoor,DoS,Exploits,F(xiàn)uzzers,Generic,Shellcode,Reconnaissance,Worms,Normal共10種行為類別,其中Normal屬于正常行為,其余為異常攻擊行為.

Table 2 Feature Classification

3.3 預處理

3.3.1 數(shù)據(jù)清理

對工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)集“service”列的值進行轉化.該列代表使用的通信服務類型,常見的通信服務包括HTTP,F(xiàn)TP,SMTP,SSH,DNS,F(xiàn)TP-data,IRC協(xié)議,但數(shù)據(jù)集中有的結果是“-”,代表了不常用的協(xié)議,模型無法識別,導致結果產生錯誤.因此,將“-”用“None”來代替,便于模型的識別,同時也不會對結果造成較大的影響.

數(shù)據(jù)集中某些屬性列的取值錯誤將對分類結果產生影響,需對其進行篩選.“ct_flw_http_mthd”列和“is_ftp_login”列的結果屬于Binary列,其結果非0即1.以“is_ftp_login”列為例,該屬性的含義是:FTP會話是否被用戶和密碼訪問,如果是,結果為0,反之即為1.根據(jù)表3中處理前的特征值可知,該屬性共有4個取值0,1,4,2,違背了“非0即1”的原則,說明2和4屬于錯誤值,將包含錯誤值的數(shù)據(jù)應

Table 3 Comparison of “is_ftp_login” Attribute Data Processing Before and After

用于分類中,會對結果產生較大影響,因此,要對這些數(shù)據(jù)進行處理.正常處理方法是進行替代,將該列所有取值為2或4的數(shù)據(jù),都用1進行替代,如表3中處理后的特征值所示.

3.3.2 特征映射

UNSW-NB15數(shù)據(jù)集中,屬于“Object”類型的特征都是string字符串,模型無法識別.因此,利用獨熱編碼(one-hot encoding)實現(xiàn)特征映射.如“proto”列代表了傳輸協(xié)議,其取值包含TCP,UDP這2種,則映射的編碼為01和10,“state”列的取值有5種,分別是CON,F(xiàn)IN,INT,REQ和RST,則映射的特征編碼分別為10000,01000,00100,00010,00001.

3.4 特征選擇

特征的選擇,直接影響了分類的結果,因此,特征選擇是入侵檢測的關鍵.通過計算每種屬性的皮爾遜相關系數(shù),可以達到選擇特征的目的,但是往往去掉或留下哪些特征難以確定.本文根據(jù)特征相關程度強弱對應表,直接摒棄了無相關程度和相關程度極弱的特征,之后在弱相關強度閾值0.2~0.4范圍內,進行分類實驗.

經(jīng)過實驗分析,表4列出了在隨機森林模型下不同皮爾遜系數(shù)對應的二分類實驗結果,經(jīng)對比可以看出,皮爾遜系數(shù)的值為0.3時,實驗效果最佳.因此,二分類實驗下,以皮爾遜系數(shù)等于0.3作為閾值,進行特征選擇.

Table 4 Binary-Classification Experimental Results of Different Pearson Coefficients in Random Forest Model

在多分類實驗中,仍以隨機森林模型為例,尋找閾值,實驗結果如表5所示.

從表5中可以看出,當皮爾遜系數(shù)為0.20時,可以識別7種類型的攻擊;當皮爾遜系數(shù)為0.30時,識別5種;當皮爾遜系數(shù)為0.35和0.40時,僅能識別4種,且隨著皮爾遜系數(shù)的變大,多分類的實驗效果反而越差,因此,本文選取0.20作為多分類實驗的閾值,進行特征選擇.

Table 5 Multi-Classification Accuracy Results of Different Pearson Coefficients in Random Forest Model

3.5 二分類

從不同的機器學習和深度學習模型入手,對工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)中的正常和異常行為進行檢測和分類.

3.5.1 機器學習模型

表6列出了在相同的實驗環(huán)境下,支持向量機、邏輯回歸、K近鄰、決策樹、隨機森林5種機器學習模型的實驗結果.為了防止過擬合現(xiàn)象,保證結果的可靠性,本文實驗使用5倍交叉驗證的方法,實驗結果的準確率為5次交叉驗證的平均值.

Table 6 Binary-Classification Results of Machine Learning Model

從表6中可以看出隨機森林模型的準確率為99.20%,比其他模型的準確率都高,決策樹的準確率次之,相對而言另外3種模型的分類效果略差.精確率代表了分類結果“找得對”,召回率代表了分類結果“找得全”,二者值越高,說明分類效果越好.

綜合各種評價指標可以看出,基于機器學習模型的二分類實驗中,隨機森林模型的分類效果最優(yōu).

3.5.2 深度學習模型

在深度學習模型中,本文分別使用了多層感知機、卷積神經(jīng)網(wǎng)絡和時空網(wǎng)絡3種模型進行二分類實驗,實驗結果如表7所示.多層感知機模型的準確率為99.06%,識別效果最佳.多層感知機模型,包含了一個隱藏層和100個神經(jīng)元,激活函數(shù)為relu,默認使用“adam”來對權重進行優(yōu)化,鑒于本文數(shù)據(jù)集的數(shù)據(jù)量較大,使用“adam”優(yōu)化效果更好;beta_1一階矩向量的指數(shù)衰減速率為90%,二階矩向量的衰減速率為99.9%,這樣能夠保證數(shù)據(jù)傳輸?shù)馁|量,不會對結果有較大的影響;學習率learn_rate代表了每一次參數(shù)更新幅度的大小,若設置的值過大會導致結果不收斂,若過小會導致收斂過于緩慢,本文的學習率設置為了恒定值,即learn_rate_init=0.001,此時的訓練結果是最優(yōu)的.

Table 7 Binary-Classification Results of Deep Learning Model

3.6 多分類

本節(jié)繼續(xù)從機器學習和深度學習模型的角度,進行多分類實驗,檢測具體攻擊的類別.

3.6.1 機器學習模型

表8總結了機器學習中每種模型識別10種攻擊類別的準確率.結果顯示,不同的機器學習模型對某種攻擊類別的識別效果不同,比如對于“Analysis”攻擊來說,決策樹和隨機森林的識別率達到了45%和53%,K近鄰模型對該攻擊的識別率為5%,而另外2種模型未識別出此類攻擊;每種模型對“Generic”和“Normal”這2種類別的識別效果都最好,說明了當前的分類模型對這2種類型的識別效果較好.

Table 8 Multi-Classification Accuracy Results of Machine Learning Model

決策樹和隨機森林模型的加權準確率分別為97.09%,97.10%,二者對10種類別的分類結果接近,但是決策樹能夠識別出9種類別,隨機森林只識別出8種,沒能識別出“Backdoor”攻擊;K近鄰模型同樣識別出9種類別,但其加權準確率相對較低.綜合分類效果分析,識別出的種類較多的模型,分類效果最優(yōu);分類效果相同時,加權準確率高者,實驗效果最佳.因此,多分類實驗中,決策樹的模型的分類效果最佳.

3.6.2 深度學習模型

表9總結了深度學習模型進行多分類的結果,多層感知機能夠識別6種類別,另外2種模型能夠識別5種,3種模型對“Generic”和“Normal”這2種類別的識別效果也是最好的.

Table 9 Multi-Classification Accuracy Results of Deep Learning Model

從綜合機器學習和深度學習的模型來看,在多分類的實驗中,機器學習模型的識別效果優(yōu)于深度學習模型,能夠識別更多種類別.

3.7 特征相關性分析

工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)集UNSW-NB15中一共包含49種特征,在不同的分類模型下,特征本身及其之間的依賴關系對分類預測的結果都會產生不同的影響.

本文基于邏輯回歸模型的二分類實驗結果,來探究特征對分類結果的影響.經(jīng)過預處理和特征選擇后,數(shù)據(jù)集中剩余21種特征,通過得到的部分依賴圖,并計算隨特征值改變而改變的預測結果的方差,得到了特征對預測結果的影響程度排序,如表10所示.表10對每種特征的方差進行了排序,方差越小,特征對預測結果的影響越?。环讲钤酱?,特征對預測結果的影響越大.本文以“ct_srv_src”(10-4級)為界限得到,“ct_src_ltm” ,“sttl”,“ct_srv_dst”,“ct_dst_ltm”,“ct_srv_src”等特征方差較小,說明對分類預測的結果不會產生較大的影響;“swin”,“dwin”和“ct_state_ttl”,“ct_dst_sport_ltm”等特征屬性對分類結果有一定的影響.

相同屬性在不同的分類模型中對預測結果的影響也不一樣.以“sttl”和“swin”為例,如圖3所示,展示了2個特征分別在邏輯回歸和隨機森林模型下對預測結果的影響.從圖3可以看出,不同的模型中,屬性的相關程度對實驗結果的影響較大.在邏輯回歸模型中,預測結果較好的情況占預測總數(shù)的1/3,預測準確率為89%;在隨機森林模型中,預測準確率最高為85%,且邏輯回歸模型預測結果的劃分層次較多,結果逐漸變化,而隨機森林模型預測結果的變化較少,大多處于76%的預測結果范圍內.

Fig. 3 Comparison of the effects of “sttl” and “swin” features on different models圖3 “sttl”和“swin”特征對不同模型的影響效果對比圖

綜上所述,每種特征對實驗結果的影響程度不同,且在不同的分類模型中,相同的特征也會對結果產生不同的影響.

3.8 實驗驗證

為了驗證本文所提方法的實驗結果的準確性與高效性,我們將本文所用方法與其他研究做了對比,如表11所示.與其他研究相比,本文提出的方法達到了99.20%的準確率,且精確率和召回率都達到了99%,表明本文提出的方法相較于其他方法能夠更好地實現(xiàn)對網(wǎng)絡異常流量的檢測.此外,在工業(yè)互聯(lián)網(wǎng)網(wǎng)絡流量數(shù)據(jù)集中,我們選擇了CSE-CIC-IDS2018數(shù)據(jù)集進行驗證.

CSE-CIC-IDS2018數(shù)據(jù)集中包含83種統(tǒng)計特征,但其中包含很多無關或者相關性很小的冗余特征[28].本文以隨機森林模型為例,選取部分數(shù)據(jù)集分別進行二分類和多分類的實驗驗證,實驗結果如表12和表13所示.為了防止出現(xiàn)過擬合現(xiàn)象,進行了交叉驗證.

Table 11 Comparison of Detection Performance of Different Studies

Table 12 Binary-Classification Results in CSE-CIC-IDS2018 Dataset

Table 13 Multi-Classification Accuracy Results in CSE-CIC-IDS2018 Dataset

實驗結果表明,本文提出的基于特征選擇的入侵檢測分類算法在CSE-CIC-IDS2018工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)集中有較好的分類效果,驗證了本文所提方法的有效性和可遷移性.

4 討 論

在工業(yè)互聯(lián)網(wǎng)中,不同的應用場景下會產生不同的網(wǎng)絡流量數(shù)據(jù),流量數(shù)據(jù)特征的選擇直接影響工業(yè)互聯(lián)網(wǎng)入侵檢測分類的結果.本文通過計算皮爾遜相關系數(shù),選擇出了與分類結果顯著相關的特征,達到了提高模型精度的效果.但是該方法未考慮特征之間的相互作用對分類效果的影響,主要度量特征之間的線性關系,未來的工作將對特征間非線性關系的度量效果進行分析研究[29],針對不同的攻擊類別,判斷哪些特征對此類攻擊的影響程度較大.此外,將入侵檢測系統(tǒng)智能化,使其自動識別環(huán)境變化并做出響應;優(yōu)化網(wǎng)絡流量攻擊的多分類算法,提高每種攻擊的識別率;運用可視化技術,更直觀、生動、立體地體現(xiàn)檢測結果.

5 結 論

本文提出了基于特征選擇的工業(yè)互聯(lián)網(wǎng)入侵檢測分類方法.首先,通過數(shù)據(jù)預處理,篩選異?;蝈e誤數(shù)據(jù);在此基礎上,計算特征的皮爾遜相關系數(shù),判斷特征的相關程度強弱,通過實驗找到合適的閾值,并根據(jù)閾值進行特征選擇;然后使用5種機器學習模型——支持向量機、邏輯回歸、K近鄰、決策樹和隨機森林,3種深度學習模型——多層感知機、卷積神經(jīng)網(wǎng)絡和時空網(wǎng)絡,進行二分類和多分類的實驗.在二分類實驗中,隨機森林的準確率為99.20%,二分類效果最好;在多分類實驗中,決策樹的加權準確率為97.09%,多分類效果最好.最后,分析了工業(yè)互聯(lián)網(wǎng)流量數(shù)據(jù)集中特征對分類結果的影響,并在真實工業(yè)互聯(lián)網(wǎng)的實踐中,驗證了本文所提方法的有效性.

作者貢獻聲明:任家東負責論文研究思路和方案設計工作;張亞飛負責實驗設計和論文撰寫工作;張炳負責論文思路設計和實驗指導以及論文修訂工作;李尚洋負責論文實驗分析和語言文字把關工作.

猜你喜歡
特征選擇準確率分類
乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
多層螺旋CT技術診斷急性闌尾炎的效果及準確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準確率比照觀察
按需分類
教你一招:數(shù)的分類
說說分類那些事
基于智能優(yōu)化算法選擇特征的網(wǎng)絡入侵檢測
故障診斷中的數(shù)據(jù)建模與特征選擇
reliefF算法在數(shù)據(jù)發(fā)布隱私保護中的應用研究
横山县| 锡林郭勒盟| 米泉市| 印江| 西华县| 呼图壁县| 安陆市| 陇川县| 磐石市| 寿宁县| 五莲县| 信阳市| 新津县| 楚雄市| 大理市| 九龙坡区| 永寿县| 西充县| 宁都县| 建湖县| 徐水县| 桓仁| 余庆县| 灵宝市| 成安县| 象州县| 遂昌县| 达日县| 石台县| 南木林县| 汝城县| 翼城县| 咸丰县| 独山县| 肥乡县| 融水| 汤原县| 牡丹江市| 黑龙江省| 静乐县| 嘉义市|