国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多視角層次聚類下的無線網(wǎng)絡(luò)入侵檢測(cè)算法

2022-12-19 03:00:12董新玉趙旭升高新寶
計(jì)算機(jī)與生活 2022年12期
關(guān)鍵詞:基準(zhǔn)點(diǎn)余弦無線網(wǎng)絡(luò)

董新玉,解 濱,3+,趙旭升,高新寶

1.河北師范大學(xué) 計(jì)算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,石家莊 050024

2.河北師范大學(xué) 河北省網(wǎng)絡(luò)與信息安全重點(diǎn)實(shí)驗(yàn)室,石家莊 050024

3.河北師范大學(xué) 供應(yīng)鏈大數(shù)據(jù)分析與數(shù)據(jù)安全河北省工程研究中心,石家莊 050024

無線局域網(wǎng)技術(shù)和移動(dòng)通信設(shè)備的迅猛發(fā)展使得WiFi 網(wǎng)絡(luò)環(huán)境逐漸普及并融入人們的生活,這同時(shí)也使得WiFi成為網(wǎng)絡(luò)攻擊的目標(biāo)?!安渚W(wǎng)”“無線釣魚”等無線網(wǎng)絡(luò)犯罪事件時(shí)有發(fā)生,引發(fā)了個(gè)人數(shù)據(jù)被泄露、篡改等信息安全隱患,甚至導(dǎo)致大的經(jīng)濟(jì)損失[1]。網(wǎng)絡(luò)攻擊行為的不斷演化和升級(jí)使得無線網(wǎng)絡(luò)環(huán)境下的網(wǎng)絡(luò)安全問題愈發(fā)嚴(yán)峻,成為信息安全的新困局。

網(wǎng)絡(luò)入侵檢測(cè)是目前應(yīng)用最廣泛也最有效的網(wǎng)絡(luò)安全主動(dòng)防御方法,入侵檢測(cè)技術(shù)作為一種重要的動(dòng)態(tài)安全技術(shù),很好地彌補(bǔ)了靜態(tài)安全技術(shù)的不足。入侵檢測(cè)技術(shù)主要分為兩類:誤用入侵檢測(cè)和異常入侵檢測(cè)[2]。誤用入侵檢測(cè)是指通過建立已知入侵行為特征數(shù)據(jù)庫(kù),利用該數(shù)據(jù)庫(kù)對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)流量進(jìn)行實(shí)時(shí)監(jiān)控,以模式匹配的方式判斷網(wǎng)絡(luò)行為及其變種行為是否異常,當(dāng)數(shù)據(jù)流量特征與特征數(shù)據(jù)庫(kù)中的任何一條規(guī)則有交集,即可判定為入侵行為。誤用入侵檢測(cè)技術(shù)依賴于已知入侵行為特征庫(kù),對(duì)于已知攻擊類型的入侵行為能夠快速準(zhǔn)確地檢測(cè)到并作出類別判斷,但是該技術(shù)無法檢測(cè)到未知攻擊類型的網(wǎng)絡(luò)入侵行為。異常入侵檢測(cè)技術(shù)恰好能解決這一問題,其通過建立正常行為特征數(shù)據(jù)庫(kù)來實(shí)現(xiàn)入侵檢測(cè)目的,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)行為特征不符合正常行為特征數(shù)據(jù)庫(kù)規(guī)則時(shí),即判定該行為為網(wǎng)絡(luò)入侵行為。該技術(shù)可以檢測(cè)到未知攻擊類型的入侵行為,但是檢測(cè)過程中誤檢率和漏檢率較高。隨著網(wǎng)絡(luò)入侵行為的不斷多樣化和復(fù)雜化,基于異常檢測(cè)技術(shù)的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)更能適應(yīng)多變的網(wǎng)絡(luò)環(huán)境,使之成為當(dāng)下較為流行的入侵檢測(cè)機(jī)制。

基于有監(jiān)督異常檢測(cè)的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng),在實(shí)際應(yīng)用過程中需要通過對(duì)大量正常行為數(shù)據(jù)進(jìn)行標(biāo)記,建立正常行為特征庫(kù)。但是,在現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境中想要獲取純凈準(zhǔn)確的正常行為數(shù)據(jù)集是很困難的,并且代價(jià)很大。為解決這個(gè)問題,人們提出了無監(jiān)督異常檢測(cè)方法[3],該方法不依賴于已標(biāo)記的數(shù)據(jù),不需要人工或者其他方法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行標(biāo)記和分類,大大提高了檢測(cè)系統(tǒng)的實(shí)用性?;跓o監(jiān)督異常檢測(cè)的網(wǎng)絡(luò)入侵檢測(cè)算法遵循以下兩個(gè)假設(shè):(1)網(wǎng)絡(luò)數(shù)據(jù)集中正常行為數(shù)據(jù)量遠(yuǎn)遠(yuǎn)多于入侵行為數(shù)據(jù)量;(2)網(wǎng)絡(luò)數(shù)據(jù)集中正常行為數(shù)據(jù)特征與入侵行為數(shù)據(jù)特征之間存在較大差異。

隨著無監(jiān)督異常檢測(cè)得到研究者關(guān)注,一系列卓有成效的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)中的方法被應(yīng)用于無監(jiān)督異常檢測(cè)。如Jiang和Song等人[4]提出了一種新的無監(jiān)督聚類檢測(cè)方法(clustering-based method for unsupervised intrusion detection,CBUID),該方法在標(biāo)記簇時(shí)考慮了簇的偏離程度(deviation degree),并且在聚類時(shí)使用了INN(improved nearest neighbor)算法,該算法有效地提高了聚類的質(zhì)量。劉衛(wèi)國(guó)等人[5]提出了一種全部屬性聚類和特征屬性聚類相結(jié)合的無監(jiān)督異常檢測(cè)模型,該模型將數(shù)據(jù)集劃分為不同的服務(wù)集,然后對(duì)每個(gè)服務(wù)集數(shù)據(jù)包進(jìn)行全部屬性聚類和部分相關(guān)屬性聚類,取其中訓(xùn)練性能較優(yōu)的方法建立對(duì)該服務(wù)的檢測(cè)模型。周亞建等人[6]提出了一種基于改進(jìn)的CURE(clustering using representative)聚類算法的無監(jiān)督異常檢測(cè)方法。在保證原有CURE聚類算法性能不變的條件下,通過對(duì)其進(jìn)行合理的改進(jìn)獲得更加理想的簇,也為建立正常行為模型提供了更加純凈的正常行為數(shù)據(jù)。為減少由于異常值與正常值之間相互干擾而產(chǎn)生的漏報(bào)和誤報(bào),吳金娥等人[7]提出用反向K近鄰算法對(duì)異常群數(shù)據(jù)進(jìn)行反向過濾,將統(tǒng)計(jì)距離作為不同群數(shù)據(jù)間的相似性度量,算法有較高的異常檢測(cè)率和良好的穩(wěn)定性。

目前,這些無監(jiān)督異常檢測(cè)方法所使用的聚類或K 近鄰算法在網(wǎng)絡(luò)實(shí)時(shí)狀況變更的情況下不能靈活控制聚類簇個(gè)數(shù)以適應(yīng)多變復(fù)雜的無線網(wǎng)絡(luò)環(huán)境[8]。并且,大多數(shù)算法采用歐式距離作為數(shù)據(jù)對(duì)象之間的相似性度量,而對(duì)于高維數(shù)據(jù),使用余弦距離來刻畫要比歐式距離更合適[9]。李飛江等人[10]提出的全粒度聚類算法采用余弦距離來刻畫數(shù)據(jù)對(duì)象間的相似性,得到了較歐式距離更為合理準(zhǔn)確的聚類結(jié)果。但是,該算法以將歐式空間網(wǎng)格化方式選取基準(zhǔn)點(diǎn),一方面影響余弦距離測(cè)量的內(nèi)部基準(zhǔn)點(diǎn)偏多,另一方面在笛卡爾坐標(biāo)系下網(wǎng)格化選取的基準(zhǔn)點(diǎn)數(shù)量較為龐大,復(fù)雜度較高。

本文提出一種以多視角方式選擇基準(zhǔn)點(diǎn)、結(jié)合層次聚類構(gòu)造無監(jiān)督無線網(wǎng)絡(luò)入侵檢測(cè)算法,在聚類過程中可通過調(diào)節(jié)層次聚類距離閾值來動(dòng)態(tài)控制聚類簇個(gè)數(shù),更能適應(yīng)當(dāng)下多變復(fù)雜的無線網(wǎng)絡(luò)環(huán)境。同時(shí),該算法引入多視角余弦距離作為層次聚類的距離度量方式,在衡量任意兩個(gè)數(shù)據(jù)對(duì)象之間相似性時(shí)綜合考慮各個(gè)視角下該數(shù)據(jù)對(duì)象間的相似性,使得數(shù)據(jù)對(duì)象之間的相似性度量更加合理和準(zhǔn)確,從而提高入侵檢測(cè)算法的檢測(cè)率,降低誤檢率。對(duì)于離群數(shù)據(jù)點(diǎn)和任意簇下的數(shù)據(jù)對(duì)象,這種相似性度量方式要明顯優(yōu)于基于傳統(tǒng)歐式距離的相似度量。本文實(shí)驗(yàn)選用公開無線網(wǎng)絡(luò)數(shù)據(jù)集AWID,采用主成分分析法(principal component analysis,PCA)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行降維處理,在一定程度上減小了數(shù)據(jù)特征規(guī)模,提高了算法的性能。實(shí)驗(yàn)結(jié)果表明,本文提出的基于多視角層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法較傳統(tǒng)無線網(wǎng)絡(luò)入侵檢測(cè)算法在檢測(cè)率、誤檢率和發(fā)現(xiàn)未知攻擊類型等性能上均有顯著提升。

1 基于多視角層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)

1.1 無線網(wǎng)絡(luò)入侵檢測(cè)過程概述

無線網(wǎng)絡(luò)入侵檢測(cè)過程[11]主要包括以下幾個(gè)模塊:(1)WiFi網(wǎng)絡(luò)數(shù)據(jù)獲??;(2)數(shù)據(jù)預(yù)處理;(3)分類器學(xué)習(xí);(4)構(gòu)建分類器;(5)無線網(wǎng)絡(luò)數(shù)據(jù)檢測(cè);(6)響應(yīng)機(jī)制。其中,模塊(1)~(4)屬于入侵檢測(cè)學(xué)習(xí)階段,模塊(5)、模塊(6)屬于檢測(cè)階段。現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境中一般通過無線網(wǎng)絡(luò)監(jiān)聽設(shè)備來獲取WiFi無線網(wǎng)絡(luò)數(shù)據(jù),獲取后的無線網(wǎng)絡(luò)數(shù)據(jù)經(jīng)過預(yù)處理進(jìn)入到分類器學(xué)習(xí)模塊,通過訓(xùn)練大量無線網(wǎng)絡(luò)數(shù)據(jù)構(gòu)建能夠判斷網(wǎng)絡(luò)數(shù)據(jù)行為的分類器。無線網(wǎng)絡(luò)實(shí)時(shí)流量經(jīng)檢測(cè)模塊的分析判斷確定其行為類別,并適時(shí)啟動(dòng)入侵檢測(cè)響應(yīng)機(jī)制。檢測(cè)過程如圖1所示。

圖1 無線網(wǎng)絡(luò)入侵檢測(cè)過程示意圖Fig.1 Schematic diagram of wireless network intrusion detection process

傳統(tǒng)的K-means聚類算法、KNN(K-nearest neighbor)分類算法等是構(gòu)建分類器經(jīng)典的算法。該類算法根據(jù)網(wǎng)絡(luò)數(shù)據(jù)行為的差異對(duì)數(shù)據(jù)集進(jìn)行分類學(xué)習(xí),提取網(wǎng)絡(luò)數(shù)據(jù)行為特征,構(gòu)建數(shù)據(jù)分類器。數(shù)據(jù)分類器對(duì)任意實(shí)時(shí)網(wǎng)絡(luò)數(shù)據(jù)流量進(jìn)行特征提取和行為判斷,從而實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)環(huán)境的實(shí)時(shí)監(jiān)測(cè)功能。通常情況下,不同的檢測(cè)系統(tǒng)會(huì)根據(jù)網(wǎng)絡(luò)環(huán)境和網(wǎng)絡(luò)狀態(tài)的不同而設(shè)定合適的數(shù)據(jù)行為判定閾值。入侵檢測(cè)過程中,檢測(cè)系統(tǒng)會(huì)結(jié)合分類器分類情況和閾值的設(shè)定來輸出數(shù)據(jù)行為的最終判定結(jié)果。隨著無線網(wǎng)絡(luò)入侵行為的不斷多樣化和復(fù)雜化,固定分類數(shù)量的K-means和KNN算法已經(jīng)不能滿足入侵檢測(cè)系統(tǒng)的需要,在未知的無線網(wǎng)絡(luò)環(huán)境下,入侵檢測(cè)系統(tǒng)并不能提前獲得網(wǎng)絡(luò)數(shù)據(jù)行為的準(zhǔn)確類別數(shù),這一現(xiàn)象使得基于固定分類數(shù)量的K-means及KNN算法的數(shù)據(jù)分類器學(xué)習(xí)能力和分類性能大大降低。為降低固定分類個(gè)數(shù)K對(duì)分類器性能的影響,本文使用層次聚類算法構(gòu)建分類器。層次聚類算法相較Kmeans及KNN算法在構(gòu)建分類器過程中通過設(shè)置層次聚類距離閾值來靈活控制分類個(gè)數(shù),使得分類結(jié)果更能符合當(dāng)下無線網(wǎng)絡(luò)環(huán)境實(shí)況。

1.2 層次聚類算法

層次聚類的主要思想[12]是在不同層次對(duì)數(shù)據(jù)集進(jìn)行劃分,分為“自底向上”的聚合策略和“自頂向下”的分拆策略兩種形式?!白缘紫蛏稀钡牟呗?,開始時(shí)把每一個(gè)原始數(shù)據(jù)看作一個(gè)單一的聚類簇,然后不斷聚合小的聚類簇成為大的聚類簇?!白皂斚蛳隆钡牟呗蚤_始把所有數(shù)據(jù)看作一個(gè)聚類簇,通過不斷分割大的聚類簇直到每一個(gè)單一的數(shù)據(jù)都被劃分。結(jié)合無線網(wǎng)絡(luò)數(shù)據(jù)集AWID 的數(shù)據(jù)特征,本文選用“自底向上”的層次聚類聚合策略,聚類終止條件是符合預(yù)設(shè)的距離閾值α或者達(dá)到預(yù)設(shè)的聚類簇個(gè)數(shù)k。層次聚類的關(guān)鍵是如何選擇聚類簇之間的距離和如何確定聚類閾值α。聚類過程中,每個(gè)聚類簇是一個(gè)數(shù)據(jù)樣本集合,計(jì)算聚類簇之間的距離時(shí)只需計(jì)算集合間的某種距離即可。如給定聚類簇Ci與Cj,可通過下面的式子來計(jì)算距離:

聚類簇之間的最小距離:

聚類簇之間的最大距離:

聚類簇之間的平均距離:

其中,|·|為集合的基數(shù)。

平均距離作為聚類簇之間的距離度量方式,綜合衡量了聚類簇中所有數(shù)據(jù)對(duì)象對(duì)聚類簇之間距離的影響,更加適合對(duì)無線網(wǎng)絡(luò)數(shù)據(jù)集的分類,增加聚類算法的魯棒性。

圖2為自底向上層次聚類示意圖,橫坐標(biāo)代表網(wǎng)絡(luò)數(shù)據(jù)集中的數(shù)據(jù)對(duì)象,編號(hào)為p1~p6,縱坐標(biāo)為聚類簇之間的距離,聚類過程如圖3所示。在層次聚類算法中,可根據(jù)提前設(shè)定好的距離閾值或者聚類簇個(gè)數(shù)終止聚類過程,得到相應(yīng)的聚類結(jié)果。例如,設(shè)定距離閾值為0.118時(shí)(如圖2虛線所示)可以得到如下所示的聚類結(jié)果:

圖2 層次聚類示意圖Fig.2 Hierarchical clustering diagram

圖3 層次聚類過程圖Fig.3 Hierarchical clustering process diagram

1.3 多視角相似性度量

層次聚類算法的最終目的是把給定的數(shù)據(jù)集進(jìn)行分類,使得相似度高的數(shù)據(jù)對(duì)象在同一類中,差異較大的數(shù)據(jù)對(duì)象分布在距離較遠(yuǎn)的類中。歐式距離是聚類算法中常用的樣本之間距離的度量方式,如式(4)所示,傳統(tǒng)的K-means 聚類方法就是通過極小化每個(gè)樣本到類中心的距離和來達(dá)到聚類的目的,表示為式(5),表1給出了本文需要用到的符號(hào)表達(dá)。

表1 層次聚類符號(hào)表達(dá)Table 1 Hierarchical clustering symbol expression

在樣本之間相似度量方法中,歐式距離側(cè)重于度量樣本之間屬性值的數(shù)值上的差異,余弦距離側(cè)重于維度間取值方向的一致性,主要度量維度之間的差異,不注重?cái)?shù)值上的差異。對(duì)于維度較高的無線網(wǎng)絡(luò)數(shù)據(jù)來說,這兩種傳統(tǒng)的度量方式都存在局限性。本文將改進(jìn)的余弦距離度量方式引入到無線網(wǎng)絡(luò)數(shù)據(jù)的層次聚類算法中,在多視角下衡量無線網(wǎng)絡(luò)數(shù)據(jù)對(duì)象之間的相似性,得到兩個(gè)數(shù)據(jù)對(duì)象之間更加合理、真實(shí)的相似度,從而使得聚類結(jié)果更加理想。

基于余弦的距離可表示為:

其中,cos(xi,xj)為數(shù)據(jù)xi和xj間的夾角余弦,用來衡量數(shù)據(jù)對(duì)象之間的相似度[10]。

從式(6)可以看出,余弦距離可以看作以原點(diǎn)作為視角來觀測(cè)兩個(gè)對(duì)象的夾角,因此,余弦距離也可以表示為:

式(7)的這種計(jì)算方法只把0 作為基準(zhǔn)點(diǎn),兩個(gè)對(duì)象之間的夾角也只是從原點(diǎn)來看的夾角,如圖4(a)所示。但是對(duì)于同原點(diǎn)接近于一條直線的兩個(gè)數(shù)據(jù)對(duì)象來說,以原點(diǎn)為唯一基準(zhǔn)點(diǎn)的余弦距離度量就失去了效果,如圖4(b)所示。因此,采用多個(gè)視角進(jìn)行余弦距離度量將有效解決這一問題。

圖4 以原點(diǎn)為視角觀測(cè)數(shù)據(jù)間距離Fig.4 Measuring distance between data objects from origin view

引入非原點(diǎn)的第三個(gè)點(diǎn)dh作為基準(zhǔn)點(diǎn),數(shù)據(jù)xi和xj間的距離表示為:

在度量?jī)蓚€(gè)數(shù)據(jù)對(duì)象之間相似度的時(shí)候,從基準(zhǔn)點(diǎn)集合Sh中的每個(gè)點(diǎn)觀察兩個(gè)數(shù)據(jù)對(duì)象之間的夾角,也就是向量xi-dh和xj-dh之間的夾角。數(shù)據(jù)xi和xj間的距離可由多個(gè)基準(zhǔn)點(diǎn)觀察的余弦距離的平均值表示:

其中,|Sh|為基準(zhǔn)點(diǎn)集Sh的基數(shù)。

文獻(xiàn)[10]提出在全粒度下按照預(yù)設(shè)的取點(diǎn)步長(zhǎng)在各個(gè)維度上依次選取基準(zhǔn)點(diǎn)的方法,得到了較為理想的聚類結(jié)果。但是,該算法的基準(zhǔn)點(diǎn)是通過空間網(wǎng)格點(diǎn)的方式選取的,使得基準(zhǔn)點(diǎn)數(shù)據(jù)量龐大,導(dǎo)致算法的時(shí)間復(fù)雜度較高,同時(shí)也增加了很多降低余弦距離判斷準(zhǔn)確性的干擾基準(zhǔn)點(diǎn)。為解決這一問題,本文采取多視角方法選取基準(zhǔn)點(diǎn),有效減小基準(zhǔn)點(diǎn)集規(guī)模的同時(shí),提高了聚類的準(zhǔn)確度。多視角選取基準(zhǔn)點(diǎn)的思想如下:

設(shè)A為n維空間中單位超立方體的外接超球面上的點(diǎn),O為球心,當(dāng)點(diǎn)A在單位超球面上按照球坐標(biāo)等角度步長(zhǎng)選取時(shí),則在笛卡爾坐標(biāo)系OX1X2…Xn中,點(diǎn)A的笛卡爾坐標(biāo)(X1,X2,…,Xn)計(jì)算如下:

圖5 三維空間任意基準(zhǔn)點(diǎn)示意圖Fig.5 Schematic diagram of arbitrary datum point in three-dimensional space

其中,n為空間維度,三維空間中n取值為3。由此可得,點(diǎn)A在空間直角坐標(biāo)系中的坐標(biāo)為(X,Y,Z)。

例如,三維空間中,選定N=3 時(shí),多視角方法得到的基準(zhǔn)點(diǎn)坐標(biāo)如表2所示,圖6為示意圖。

表2 六個(gè)基準(zhǔn)點(diǎn)坐標(biāo)Table 2 Coordinates of 6 datum points

圖6 三維空間基準(zhǔn)點(diǎn)集示意圖Fig.6 Schematic diagram of three-dimensional space datum point set

在n維空間中,文獻(xiàn)[10]的全粒度方法選取基準(zhǔn)點(diǎn)的基準(zhǔn)點(diǎn)集規(guī)模為(N-1)n,本文的多視角方法選取基準(zhǔn)點(diǎn)的基準(zhǔn)點(diǎn)集規(guī)模為N(N-1)n-2。當(dāng)數(shù)據(jù)集維度增高時(shí),基準(zhǔn)點(diǎn)集規(guī)模會(huì)越來越大,對(duì)算法性能的影響也會(huì)隨之變大,因此在高維數(shù)據(jù)集上減小基準(zhǔn)點(diǎn)集的規(guī)模對(duì)于算法性能的提高至關(guān)重要。當(dāng)N=3時(shí),在不同維度下兩種方法選取基準(zhǔn)點(diǎn)個(gè)數(shù)對(duì)比結(jié)果如表3所示。

表3 全粒度和多視角方法基準(zhǔn)點(diǎn)集規(guī)模比較Table 3 Comparison of datum set size between full granularity and multi-perspective methods

基準(zhǔn)點(diǎn)集合Sh包含各個(gè)角度的數(shù)據(jù)對(duì)象,因此多視角下余弦距離能夠更合理地衡量?jī)蓚€(gè)高維數(shù)據(jù)對(duì)象之間的相似度。本文將多視角余弦距離作為層次聚類的距離度量方式,應(yīng)用到無線網(wǎng)絡(luò)入侵檢測(cè)算法中,得到了更加準(zhǔn)確的檢測(cè)結(jié)果。但是,相較傳統(tǒng)歐式距離采用余弦距離度量方式計(jì)算高維數(shù)據(jù)對(duì)象之間距離,聚類算法的時(shí)間復(fù)雜度也明顯提高,保證了較高檢測(cè)率、較低誤檢率的同時(shí)在一定程度上影響了入侵檢測(cè)算法的檢測(cè)效率。因此,本文在預(yù)處理無線網(wǎng)絡(luò)數(shù)據(jù)集時(shí)采用主成分分析法對(duì)數(shù)據(jù)集進(jìn)行降維處理,減小聚類算法時(shí)間復(fù)雜度對(duì)入侵檢測(cè)算法檢測(cè)效率的影響。

1.4 主成分分析法對(duì)無線網(wǎng)絡(luò)數(shù)據(jù)降維

在無線網(wǎng)絡(luò)數(shù)據(jù)分析問題的研究中,每一條網(wǎng)絡(luò)數(shù)據(jù)往往會(huì)涉及數(shù)十個(gè)甚至上百個(gè)屬性變量。屬性變量太多不但會(huì)增加檢測(cè)算法的時(shí)間復(fù)雜度,同時(shí)也會(huì)給合理分析檢測(cè)結(jié)果帶來困難[13]。一般來說,雖然網(wǎng)絡(luò)數(shù)據(jù)的每個(gè)屬性變量都提供了一定的信息,但其重要程度也就是貢獻(xiàn)度有所不同。而且,在多數(shù)情況下,網(wǎng)絡(luò)數(shù)據(jù)的各個(gè)屬性變量之間會(huì)存在一定的相關(guān)性,從而使得這些屬性變量所提供的信息在一定程度上有所重疊,并影響檢測(cè)結(jié)果的準(zhǔn)確度。因此,本文采取主成分分析法對(duì)這些屬性變量加以處理,用為數(shù)較少的變量代替原有的屬性變量,從而實(shí)現(xiàn)對(duì)無線網(wǎng)絡(luò)數(shù)據(jù)的降維。降維過程如下:

在無線網(wǎng)絡(luò)數(shù)據(jù)集AWID(154個(gè)屬性)[14]中提取對(duì)于聚類結(jié)果有影響的77維屬性進(jìn)行主成分分析法降維處理,得到的主成分方差貢獻(xiàn)率、主成分累計(jì)方差貢獻(xiàn)率如表4 所示。在用主成分分析法對(duì)無線網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行降維時(shí),可通過調(diào)整主成分累計(jì)方差貢獻(xiàn)率閾值R,選定合適數(shù)量的主成分。主成分?jǐn)?shù)量的選擇直接影響對(duì)原有網(wǎng)絡(luò)數(shù)據(jù)的刻畫能力。選擇為數(shù)較少的主成分代替原有數(shù)據(jù)可能會(huì)出現(xiàn)聚類結(jié)果不佳、入侵檢測(cè)算法檢測(cè)性能大大下降的問題。選擇為數(shù)較多的主成分代替原有數(shù)據(jù)又無法實(shí)現(xiàn)降維的目的。因此,如何選擇合適數(shù)量的主成分來代替原有網(wǎng)絡(luò)數(shù)據(jù)需要根據(jù)具體算法和算法功能來決定,以達(dá)到在保證算法較高性能的基礎(chǔ)上最大限度實(shí)現(xiàn)數(shù)據(jù)降維的目的。經(jīng)多次實(shí)驗(yàn),本文選取降維后的前16 個(gè)屬性進(jìn)行入侵檢測(cè)實(shí)驗(yàn),得到了最為理想的檢測(cè)結(jié)果。當(dāng)再增加屬性進(jìn)行實(shí)驗(yàn)時(shí),時(shí)間復(fù)雜度逐步上升,但是入侵檢測(cè)結(jié)果并無明顯改變,y因此本文選用前16個(gè)屬性。

表4 主成分分析法降維數(shù)據(jù)結(jié)果Table 4 Dimension reduction data results of principal component analysis 單位:%

2 多視角層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法

輸入:包含n個(gè)數(shù)據(jù)對(duì)象的樣本集X={x1,x2,…,xn},多視角步長(zhǎng)N,層次聚類閾值a,權(quán)值向量l=(l1,l2,…,lp)T。

輸出:聚類結(jié)果集C。

(1)通過權(quán)值向量l=(l1,l2,…,lp)T 降維數(shù)據(jù)集X={x1,x2,…,xn}中的所有數(shù)據(jù)對(duì)象。

(2)將數(shù)據(jù)集X={x1,x2,…,xn}中每一個(gè)數(shù)據(jù)對(duì)象看作一個(gè)初始聚類簇,即構(gòu)建初始聚類簇U={U1,U2,…,Un},其中U1={x1},U2={x2},…,Un={xn}。

(3)遍歷所有初始聚類簇中的數(shù)據(jù)對(duì)象xi,計(jì)算dist(xi,xj)(xi∈Ui,xj∈Uj,i≠j) 。當(dāng)?Mindist(xi,xj)(xi∈Ui,xj∈Uj,i≠j)<a時(shí),更新聚類簇集為U={U1,U2,…,Un-1},其中,U1={x1},U2={x2},Ui={xi,xj},…,Un-1={xn}。否則,算法結(jié)束,重新輸入合理的層次聚類距離閾值a。

(4)由多視角步長(zhǎng)N確定基準(zhǔn)點(diǎn)集Sh={d1,d2,…,dh}。

(5)遍歷聚類簇U={U1,U2,…,Un-1}中所有簇,當(dāng)?Mind(Ui,Uj) <a時(shí),合并簇Ui、Uj。更新聚類簇U={U1,U2,…,Un-2},其中,

否則,輸出聚類結(jié)果集U。

(6)重復(fù)執(zhí)行步驟(5),輸出最終聚類結(jié)果集U。

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)環(huán)境為Windows 10操作系統(tǒng)、Intel i5 CPU、8 GB 內(nèi)存,實(shí)驗(yàn)數(shù)據(jù)為無線網(wǎng)絡(luò)數(shù)據(jù)集AWID,在python3.7進(jìn)行了如下對(duì)比實(shí)驗(yàn):

(1)基于傳統(tǒng)K-means 聚類、KNN 分類、密度聚類(density-based spatial clustering of applications with noise,DBSCAN)的入侵檢測(cè)算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法對(duì)比實(shí)驗(yàn)。

(2)基于傳統(tǒng)歐式距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法對(duì)比實(shí)驗(yàn)。

(3)基于全粒度余弦距離層次聚類和多視角余弦距離層次聚類的網(wǎng)絡(luò)入侵檢測(cè)算法對(duì)比實(shí)驗(yàn)。

(4)采用基于傳統(tǒng)K-means 聚類、KNN 分類、密度聚類DBSCAN的入侵檢測(cè)算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法進(jìn)行檢測(cè)未知攻擊類型的對(duì)比實(shí)驗(yàn)。

3.1 實(shí)驗(yàn)數(shù)據(jù)集

AWID 數(shù)據(jù)集來源于Kolias,是數(shù)據(jù)量最大也是最全面的真實(shí)WiFi網(wǎng)絡(luò)環(huán)境下采集的網(wǎng)絡(luò)攻擊數(shù)據(jù)集。按照攻擊類型級(jí)別,數(shù)據(jù)集被劃分為兩種數(shù)據(jù)子集:4種大攻擊類型的CLS數(shù)據(jù)集和16種子攻擊類型的ATK數(shù)據(jù)集。后者的16種子攻擊類型包含在前者的4種大攻擊類型當(dāng)中,如ATK數(shù)據(jù)集中的Caffe-Latte、Hirte、Honeypot 和EvilTwin 攻擊類型屬于CLS數(shù)據(jù)集中的偽裝攻擊類型。同時(shí)AWID 數(shù)據(jù)集包含完整數(shù)據(jù)集和精簡(jiǎn)數(shù)據(jù)集兩個(gè)版本。本文使用精簡(jiǎn)版本的CLS 數(shù)據(jù)集,數(shù)據(jù)集中數(shù)據(jù)類型分布情況如表5所示,數(shù)據(jù)集中的一條normal數(shù)據(jù)記錄為:

表5 數(shù)據(jù)分布情況Table 5 Data distribution

數(shù)據(jù)集預(yù)處理的過程包括數(shù)據(jù)完整化、數(shù)據(jù)合理化、字符型數(shù)據(jù)數(shù)值化、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)屬性降維。

(1)數(shù)據(jù)裁剪

AWID數(shù)據(jù)集中,少數(shù)網(wǎng)絡(luò)數(shù)據(jù)的部分屬性處于缺失狀態(tài),為了保證算法結(jié)果的有效性,將屬性缺失率達(dá)到80%及以上的屬性予以刪除,其余處于缺失狀態(tài)的屬性位均以0進(jìn)行填充。

(2)數(shù)據(jù)選擇

本文無線網(wǎng)絡(luò)數(shù)據(jù)集中正常行為記錄數(shù)量遠(yuǎn)大于攻擊行為記錄數(shù)量,現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境中正常行為記錄和攻擊行為記錄比例確是如此。但是在構(gòu)建分類器也就是聚類過程中,不同數(shù)據(jù)類型數(shù)據(jù)量的比例失衡會(huì)直接導(dǎo)致聚類簇大小差異過大,影響了入侵檢測(cè)模型的效果。為此,本文選取1∶1的正常行為記錄和攻擊行為記錄作為訓(xùn)練數(shù)據(jù)集構(gòu)建分類器。為了充分驗(yàn)證文中算法對(duì)不同攻擊類型數(shù)據(jù)行為的檢測(cè)性能,本文同樣選取1∶1的正常行為記錄和攻擊行為記錄作為測(cè)試數(shù)據(jù)集,盡可能包含較多攻擊類型的攻擊行為并且保證同一攻擊類型數(shù)據(jù)行為的數(shù)據(jù)量也較多。

(3)字符型數(shù)據(jù)數(shù)值化

將無線網(wǎng)絡(luò)數(shù)據(jù)集AWID 中的十六進(jìn)制屬性值轉(zhuǎn)化為十進(jìn)制屬性值,將數(shù)據(jù)集中MAC地址屬性轉(zhuǎn)化為其在整個(gè)數(shù)據(jù)集中出現(xiàn)的次數(shù),將字符形式的數(shù)據(jù)屬性值采用one-hot 編碼[15]方式進(jìn)行數(shù)值化處理,經(jīng)由編碼方式處理后的字符型屬性變量能夠更合理地保留原有屬性對(duì)聚類結(jié)果的影響度。

(4)數(shù)據(jù)屬性降維

AWID 數(shù)據(jù)集中的無線網(wǎng)絡(luò)數(shù)據(jù)具有154 個(gè)屬性值,本文實(shí)驗(yàn)前先將測(cè)試數(shù)據(jù)集中所有數(shù)據(jù)取值均相同的屬性刪除,并運(yùn)用主成分分析法提取出貢獻(xiàn)率較大的屬性,實(shí)現(xiàn)對(duì)無線網(wǎng)絡(luò)數(shù)據(jù)的降維處理,一定程度上降低層次聚類算法的時(shí)間復(fù)雜度。

(5)數(shù)據(jù)標(biāo)準(zhǔn)化

數(shù)據(jù)集中不同屬性的值域不同,為了降低這種差別給檢測(cè)模型帶來的影響,需要對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行z-score 標(biāo)準(zhǔn)化[16],使其符合正態(tài)分布。經(jīng)驗(yàn)證,在分類和聚類算法中,若需要使用距離來度量相似性并使用PCA 技術(shù)進(jìn)行降維時(shí),z-score 標(biāo)準(zhǔn)化要優(yōu)于Min-max normalization。

式中,yi表示xi標(biāo)準(zhǔn)化之后的數(shù)據(jù),xi表示第i個(gè)特征值,μ表示該特征的數(shù)據(jù)均值,σ表示該特征的數(shù)據(jù)標(biāo)準(zhǔn)差。

3.2 實(shí)驗(yàn)結(jié)果與分析

本文采用檢測(cè)率ACC、誤檢率FAR、召回率Recall、F1 作為本文無線網(wǎng)絡(luò)入侵檢測(cè)算法的性能評(píng)價(jià)指標(biāo)。具體如下:

(1)檢測(cè)率ACC,被正確判定類別的網(wǎng)絡(luò)數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)總和的比值。檢測(cè)率越高,入侵檢測(cè)算法的性能越好。

(2)誤檢率FAR,被錯(cuò)誤判定為攻擊行為的正常行為數(shù)據(jù)量和正常行為數(shù)據(jù)總和的比值。在入侵檢測(cè)算法中,誤檢率越低,算法的檢測(cè)性能越好。

(3)召回率Recall,被正確識(shí)別為網(wǎng)絡(luò)攻擊行為的數(shù)據(jù)量和攻擊行為總量的比值。召回率越高,代表入侵檢測(cè)算法檢測(cè)攻擊行為的能力越強(qiáng)。

(4)F1,綜合考慮算法各項(xiàng)性能的指標(biāo)。F1 的值越大,代表入侵檢測(cè)算法的整體性能越好。

其中,TN(true negative)表示把正常網(wǎng)絡(luò)數(shù)據(jù)行為正確識(shí)別為normal 的網(wǎng)絡(luò)數(shù)據(jù)行為數(shù)量;TP(true positive)表示把網(wǎng)絡(luò)攻擊行為正確判別為相應(yīng)攻擊類型的網(wǎng)絡(luò)數(shù)據(jù)數(shù)量;FN(false negative)表示把網(wǎng)絡(luò)攻擊行為錯(cuò)誤識(shí)別為正常網(wǎng)絡(luò)數(shù)據(jù)行為的數(shù)據(jù)數(shù)量;FP(false positive)表示把正常數(shù)據(jù)行為錯(cuò)誤判別為某種攻擊行為的網(wǎng)絡(luò)數(shù)據(jù)數(shù)量。

表6和表7所示的H1~H10 和D1~D10 為本文實(shí)驗(yàn)所使用的數(shù)據(jù)集,均為CLS 數(shù)據(jù)集的抽樣數(shù)據(jù)集。為避免入侵檢測(cè)算法在單一實(shí)驗(yàn)數(shù)據(jù)集上測(cè)試帶來的實(shí)驗(yàn)結(jié)果偶然性,本文在CLS 數(shù)據(jù)集中隨機(jī)抽取帶有不同攻擊行為類的大小不一的實(shí)驗(yàn)數(shù)據(jù)集H1~H10、D1~D10 進(jìn)行實(shí)驗(yàn)。其中,數(shù)據(jù)集D1~D10的攻擊行為數(shù)據(jù)中均包含相應(yīng)類別數(shù)的若干條未知攻擊行為數(shù)據(jù)(由已知攻擊行為偽裝而成),用于入侵檢測(cè)算法檢測(cè)未知攻擊行為性能的對(duì)比實(shí)驗(yàn)。

表6 實(shí)驗(yàn)1、實(shí)驗(yàn)2和實(shí)驗(yàn)3的測(cè)試數(shù)據(jù)集Table 6 Test dataset of experiment 1,2 and 3

表7 實(shí)驗(yàn)4的測(cè)試數(shù)據(jù)集Table 7 Test dataset of experiment 4

3.2.1 對(duì)比實(shí)驗(yàn)1

采用基于傳統(tǒng)K-means 聚類、KNN 分類、密度聚類DBSCAN的入侵檢測(cè)算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn)。分別選用H1、H2、H3、H4、H5、H6、H7、H8、H9、H10 測(cè)試數(shù)據(jù)集進(jìn)行10次對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖7~圖10所示。

圖8 實(shí)驗(yàn)1 FAR 對(duì)比Fig.8 Comparison of FAR in experiment 1

圖9 實(shí)驗(yàn)1 Recall 對(duì)比Fig.9 Comparison of Recall in experiment 1

圖10 實(shí)驗(yàn)1 F1 對(duì)比Fig.10 Comparison of F1 in experiment 1

3.2.2 對(duì)比實(shí)驗(yàn)2

采用基于傳統(tǒng)歐式距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn)。分別選用H1、H2、H3、H4、H5、H6、H7、H8、H9、H10 測(cè)試數(shù)據(jù)集進(jìn)行10 次對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖11~圖14所示。

圖11 實(shí)驗(yàn)2 ACC 對(duì)比Fig.11 Comparison of ACC in experiment 2

圖12 實(shí)驗(yàn)2 FAR 對(duì)比Fig.12 Comparison of FAR in experiment 2

圖13 實(shí)驗(yàn)2 Recall 對(duì)比Fig.13 Comparison of Recall in experiment 2

圖14 實(shí)驗(yàn)2 F1 對(duì)比Fig.14 Comparison of F1 in experiment 2

3.2.3 對(duì)比實(shí)驗(yàn)3

基于全粒度余弦距離層次聚類和基于多視角余弦距離層次聚類的網(wǎng)絡(luò)入侵檢測(cè)算法進(jìn)行對(duì)比實(shí)驗(yàn)。分別選用H1、H2、H3、H4、H5、H6、H7、H8、H9、H10 測(cè)試數(shù)據(jù)集進(jìn)行10次對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖15~圖18所示。

圖15 實(shí)驗(yàn)3 ACC 對(duì)比Fig.15 Comparison of ACC in experiment 3

圖16 實(shí)驗(yàn)3 FAR 對(duì)比Fig.16 Comparison of FAR in experiment 3

圖17 實(shí)驗(yàn)3 Recall 對(duì)比Fig.17 Comparison of Recall in experiment 3

圖18 實(shí)驗(yàn)3 F1 對(duì)比Fig.18 Comparison of F1 in experiment 3

3.2.4 對(duì)比實(shí)驗(yàn)4

采用基于傳統(tǒng)K-means 聚類、KNN 分類、密度聚類DBSCAN的入侵檢測(cè)算法和基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法進(jìn)行檢測(cè)未知攻擊類型的對(duì)比實(shí)驗(yàn)。分別選用D1、D2、D3、D4、D5、D6、D7、D8、D9、D10 測(cè)試數(shù)據(jù)集進(jìn)行10 次對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖19所示。

圖19 實(shí)驗(yàn)4未知攻擊類型檢測(cè)率Fig.19 Detection rate of unknown attack type in experiment 4

通過上述四種對(duì)比實(shí)驗(yàn),結(jié)果表明,相較基于傳統(tǒng)K-means 聚類、KNN 分類以及密度聚類DBSCAN的入侵檢測(cè)算法,本文提出的基于多視角層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法在入侵檢測(cè)算法四項(xiàng)性能指標(biāo)ACC、FAR、Recall、F1 上均有明顯改善,并且在發(fā)現(xiàn)未知攻擊類型方面也有了很大提升。相較基于傳統(tǒng)歐式距離層次聚類的入侵檢測(cè)算法,基于多視角余弦距離層次聚類的無線網(wǎng)絡(luò)入侵檢測(cè)算法具有更高的ACC、Recall和F1 以及較低的FAR。通過主成分分析法降維后的無線網(wǎng)絡(luò)攻擊數(shù)據(jù)集AWID 能夠很好地代表原有屬性的特征,在實(shí)現(xiàn)了數(shù)據(jù)集降維、降低算法時(shí)間復(fù)雜度、提高算法檢測(cè)效率的同時(shí)保證了較高的ACC、Recall、F1 以及較低的FAR。

4 結(jié)束語

為提升基于聚類的無監(jiān)督無線網(wǎng)絡(luò)入侵檢測(cè)算法性能,本文構(gòu)建了在多視角層次聚類下的無線網(wǎng)絡(luò)入侵檢測(cè)算法,該算法引入多視角余弦距離作為層次聚類過程中數(shù)據(jù)對(duì)象間相似性度量方式,使得無線網(wǎng)絡(luò)數(shù)據(jù)的聚類結(jié)果更加合理,在一定程度上提高了入侵檢測(cè)算法的檢測(cè)率,降低了誤檢率。提出的多視角選取基準(zhǔn)點(diǎn)的方法雖較全粒度選取基準(zhǔn)點(diǎn)方法在基準(zhǔn)點(diǎn)集規(guī)模上有了明顯改善,不過隨著數(shù)據(jù)維度的增高,基準(zhǔn)點(diǎn)集規(guī)模依然會(huì)很大,影響入侵檢測(cè)算法的整體性能。下一步工作,將尋找更加合理有效的基準(zhǔn)點(diǎn)選取方式和實(shí)驗(yàn)數(shù)據(jù)降維方式,進(jìn)一步降低聚類算法的時(shí)間復(fù)雜度和提高入侵檢測(cè)算法的整體性能。

猜你喜歡
基準(zhǔn)點(diǎn)余弦無線網(wǎng)絡(luò)
建筑日照設(shè)計(jì)中基準(zhǔn)點(diǎn)相關(guān)問題的探討
華中建筑(2022年4期)2022-04-14 07:50:52
地鐵隧道自由設(shè)站變形監(jiān)測(cè)基準(zhǔn)網(wǎng)穩(wěn)定性檢驗(yàn)
濾波器對(duì)無線網(wǎng)絡(luò)中干擾問題的作用探討
兩個(gè)含余弦函數(shù)的三角母不等式及其推論
無線網(wǎng)絡(luò)的中間人攻擊研究
分?jǐn)?shù)階余弦變換的卷積定理
圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
TD-LTE無線網(wǎng)絡(luò)高層建筑覆蓋技術(shù)研究與應(yīng)用
離散余弦小波包變換及語音信號(hào)壓縮感知
數(shù)說無線網(wǎng)絡(luò):覆蓋廣 流量大 均衡差
通信世界(2012年36期)2012-07-16 08:51:46
仪陇县| 宝山区| 黑河市| 礼泉县| 杂多县| 湖北省| 法库县| 东方市| 旺苍县| 马鞍山市| 怀远县| 黄浦区| 灵石县| 石嘴山市| 安宁市| 舞阳县| 阿克陶县| 苏尼特右旗| 临漳县| 土默特左旗| 谷城县| 嘉兴市| 郎溪县| 远安县| 开封市| 宁明县| 新化县| 吉安市| 绥滨县| 嵊泗县| 二手房| 海晏县| 奎屯市| 沙湾县| 开鲁县| 攀枝花市| 辽阳市| 犍为县| 聂荣县| 运城市| 阳高县|