麻書(shū)欽
(廣東技術(shù)師范學(xué)院,廣東 廣州 510665)
隨著信息技術(shù)和網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)非法入侵也隨之大幅增長(zhǎng),對(duì)網(wǎng)絡(luò)安全性提出了強(qiáng)大挑戰(zhàn),因此維護(hù)網(wǎng)絡(luò)安全顯得尤為重要。對(duì)網(wǎng)絡(luò)入侵聚類(lèi)的研究[1],有助于應(yīng)對(duì)網(wǎng)絡(luò)入侵,在此基礎(chǔ)上提出合適的防控措施。根據(jù)Kohonen網(wǎng)絡(luò)的自動(dòng)聚類(lèi)的優(yōu)點(diǎn),本文提出一種基于Kohonen網(wǎng)絡(luò)的網(wǎng)絡(luò)入侵聚類(lèi)研究的方法。首先闡述基本理論、原理和算法步驟,然后利用Matlab軟件平臺(tái)對(duì)提出的網(wǎng)絡(luò)入侵算法進(jìn)行測(cè)試研究,并同其他方法進(jìn)行對(duì)比,從而驗(yàn)證出Kohonen神經(jīng)網(wǎng)絡(luò)算法進(jìn)行網(wǎng)絡(luò)入侵聚類(lèi)的優(yōu)越性和準(zhǔn)確性。
Kohonen網(wǎng)絡(luò)是一種自組織無(wú)監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),可以識(shí)別環(huán)境特征,同時(shí)實(shí)現(xiàn)自動(dòng)聚類(lèi)。該網(wǎng)絡(luò)由芬蘭學(xué)者Kohonen提出[2-3],調(diào)整網(wǎng)絡(luò)權(quán)值主要通過(guò)自組織特征映射完成,從而實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)收斂。
Kohonen網(wǎng)絡(luò)由兩層前饋神經(jīng)網(wǎng)絡(luò)組成,包括輸入層和輸出層。輸入層和輸出層之間通過(guò)神經(jīng)元進(jìn)行雙向連接,將輸入在輸出層映射成二維離散圖像。Kohonen網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1。
輸入層:用以表現(xiàn)網(wǎng)絡(luò)的輸入變數(shù),即訓(xùn)練范例的輸入向量,或稱特征向量,其處理單元數(shù)目依問(wèn)題而定,每一個(gè)處理單元代表著輸入向量的每一個(gè)元素,亦即該輸入資料所擁有的特征。
圖1 Kohonen神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
輸出層:用以表現(xiàn)網(wǎng)絡(luò)的輸出變數(shù)及訓(xùn)練范例的聚類(lèi),其處理單元數(shù)目依問(wèn)題而定。其結(jié)構(gòu)本身有“網(wǎng)絡(luò)拓?fù)洹币约啊班徑鼌^(qū)域”的概念。
網(wǎng)絡(luò)連結(jié):每個(gè)輸出層處理單元與輸入層處理單元相連結(jié)的權(quán)數(shù)所構(gòu)成的向量,表示一個(gè)輸入特征值向量對(duì)應(yīng)訓(xùn)練范例聚類(lèi)的標(biāo)量。當(dāng)Kohonen網(wǎng)絡(luò)學(xué)習(xí)完畢后,靠近輸出處理單元的神經(jīng)元具有相似的連結(jié)權(quán)數(shù)。
Kohonen網(wǎng)絡(luò)的基本原理是計(jì)算輸入的特征量映射至輸出層每一處理單元的歐幾里得距離(euclidean distance),而具有最小距離值的處理單元就是優(yōu)勝單元并且將會(huì)調(diào)整它的連接權(quán)值,使其能夠更接近原始的輸入向量,而且此處理單元的鄰近區(qū)域也會(huì)調(diào)整本身的連接權(quán)值,使自己與輸入向量間的歐幾里得距離能夠減少,其算法步驟[4]如下:
輸入:訓(xùn)練樣本和測(cè)試樣本;
輸出:訓(xùn)練后的權(quán)系數(shù)矩陣和測(cè)試樣本所屬的類(lèi)及歸屬程度;
(1)粗調(diào)整學(xué)習(xí)階段
1)網(wǎng)絡(luò)權(quán)值初始化wij,新向量的輸入
式中:Xi(t)——t時(shí)刻樣本的第i維分量(i=1,2,…,m),總的學(xué)習(xí)次數(shù)為T(mén)=T1+T2。
2)樣本矢量與權(quán)值之間距離的計(jì)算
3)求最小距離,找出最匹配輸入樣本矢量的競(jìng)爭(zhēng)層節(jié)點(diǎn)c,即:
4)調(diào)整權(quán)系數(shù),粗調(diào)整階段
其中:m——競(jìng)爭(zhēng)層神經(jīng)元的個(gè)數(shù)。
按照步驟2)計(jì)算鄰域函數(shù)值,權(quán)值可根據(jù)式(4)進(jìn)行調(diào)整:
5)學(xué)習(xí)率和鄰域?qū)挾劝凑詹襟E1)和步驟3)進(jìn)行遞減。
6)返回步驟3),所有學(xué)習(xí)樣本調(diào)整一遍。
7)t=t+1;直至 t>T1。
(2)精細(xì)調(diào)整學(xué)習(xí)階段
8)精細(xì)調(diào)整 T2=500 階段,η0=0.04,σ0=1,并重復(fù)步驟2)~6),只是鄰域?qū)挾群蛯W(xué)習(xí)率按照式(5)遞減:
9)將另一組樣本矢量作為網(wǎng)絡(luò)輸入,返回第3)步,直到樣本輸入結(jié)束。
10)t=t+1;當(dāng) t>T2時(shí),學(xué)習(xí)階段結(jié)束。
11)所有輸出神經(jīng)元的連接權(quán)系數(shù)的存儲(chǔ)和輸出。
(3)應(yīng)用階段
12)輸入樣本和連接輸出神經(jīng)元的權(quán)系數(shù)向量的歸一化,以保證輸入樣本和輸出神經(jīng)元的歐氏距離在[0,2]之間,如式(6)所示:
13)讀取一個(gè)新的網(wǎng)絡(luò)輸入樣本。
14)根據(jù)已計(jì)算出來(lái)的歐氏距離dj和上文定義的隸屬函數(shù),計(jì)算輸入樣本到各輸出神經(jīng)元的隸屬度為
15)輸出分類(lèi):設(shè)定閾值,根據(jù)高斯函數(shù)自身性質(zhì),本文將閥值設(shè)為0.6,即:當(dāng)μ(Cj(X))>0.6輸出神經(jīng)元即為該輸入樣本所屬的類(lèi),輸出該類(lèi)及輸入樣本在該類(lèi)中的隸屬度。
16)重復(fù)13)步,直到?jīng)]有新的輸入樣本。
根據(jù)算法步驟可知其算法流程圖如圖2所示。
網(wǎng)絡(luò)入侵是指通過(guò)非法手段試圖破壞計(jì)算機(jī)和網(wǎng)絡(luò)系統(tǒng)資源完整性、機(jī)密性和可用性的行為。對(duì)網(wǎng)絡(luò)入侵進(jìn)行聚類(lèi)分析研究,有助于發(fā)現(xiàn)網(wǎng)絡(luò)入侵的種類(lèi),在此基礎(chǔ)上為制定防網(wǎng)絡(luò)入侵的措施和方案,提供決策依據(jù)。
根據(jù)網(wǎng)絡(luò)入侵的特點(diǎn),Kohonen神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)入侵攻擊聚類(lèi)算法流程如圖3所示。
圖2 Kohonen網(wǎng)絡(luò)算法的程序框圖
圖3 算法流程圖
根據(jù)某具體的項(xiàng)目,現(xiàn)有5000組網(wǎng)絡(luò)入侵?jǐn)?shù)據(jù),數(shù)據(jù)中有5類(lèi)入侵方式,分別為I類(lèi)、II類(lèi)、III類(lèi)、IV類(lèi)、V類(lèi)。用訓(xùn)練好的Kohonen神經(jīng)網(wǎng)絡(luò)測(cè)試樣本數(shù)據(jù),測(cè)試數(shù)據(jù)有500組,運(yùn)用Matlab進(jìn)行相應(yīng)的仿真,仿真結(jié)果如圖4~圖7所示。
圖4中的神經(jīng)元編號(hào)方式是從左到右,從下到上,神經(jīng)元編號(hào)不斷增加,左下角的神經(jīng)元為1號(hào),右上角神經(jīng)元為16號(hào),中間的數(shù)字代表神經(jīng)元的獲勝次數(shù)。圖5表示網(wǎng)絡(luò)權(quán)值的分布。
圖6表示鄰近神經(jīng)元的距離分布圖,相鄰神經(jīng)元間填充的顏色表示兩個(gè)鄰近神經(jīng)元的距離遠(yuǎn)近,顏色越深,越接近黑色,代表距離越遠(yuǎn),反之越近。
從圖7可以看出,絕大多數(shù)測(cè)試結(jié)果同預(yù)期結(jié)果一致,預(yù)測(cè)結(jié)果的分類(lèi)準(zhǔn)確率達(dá)到98.1%,效果很好。
為了進(jìn)一步驗(yàn)證Kohonen神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)入侵聚類(lèi)方法的優(yōu)越性和準(zhǔn)確性,將其同PNN神經(jīng)網(wǎng)絡(luò)算法進(jìn)行對(duì)比,主要從訓(xùn)練準(zhǔn)確率、測(cè)試準(zhǔn)確率和運(yùn)行時(shí)間3個(gè)方面[5-7]進(jìn)行驗(yàn)證,仿真結(jié)果如圖8~圖10所示。
圖4 獲勝神經(jīng)元統(tǒng)計(jì)圖
圖5 網(wǎng)絡(luò)權(quán)值分布
圖6 鄰近神經(jīng)元距離分布圖
從圖8可以看出,Kohonen神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率有96.6667%,而PNN神經(jīng)網(wǎng)絡(luò)[8-9]的準(zhǔn)確率只達(dá)到93.3333%。從圖9可以看出,Kohonen神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率普遍高于PNN神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。從圖10可以看出,Kohonen神經(jīng)網(wǎng)絡(luò)的運(yùn)行時(shí)間也優(yōu)于PNN神經(jīng)網(wǎng)絡(luò)。
圖7 預(yù)測(cè)結(jié)果
圖8 訓(xùn)練準(zhǔn)確率對(duì)比圖
圖9 測(cè)試準(zhǔn)確率對(duì)比圖
圖10 運(yùn)行時(shí)間對(duì)比圖
根據(jù)Kohonen神經(jīng)網(wǎng)絡(luò)能自動(dòng)實(shí)現(xiàn)聚類(lèi)的優(yōu)點(diǎn),本文提出一種基于Kohonen網(wǎng)絡(luò)的網(wǎng)絡(luò)入侵聚類(lèi)研究的方法。運(yùn)用Matlab軟件,進(jìn)行Kohonen神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)入侵聚類(lèi)仿真,并同PNN神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比,主要研究結(jié)果如下:(1)根據(jù)仿真結(jié)果,Kohonen神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)入侵聚類(lèi)結(jié)果的準(zhǔn)確率達(dá)到98.1%,效果很好。(2)將其同PNN神經(jīng)網(wǎng)絡(luò)算法進(jìn)行對(duì)比,主要從訓(xùn)練準(zhǔn)確率、測(cè)試準(zhǔn)確率和運(yùn)行時(shí)間3個(gè)方面進(jìn)行驗(yàn)證。Kohonen神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到96.666 7%,而PNN神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率只達(dá)到93.333 3%;Kohonen神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率普遍高于PNN神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率;Kohonen神經(jīng)網(wǎng)絡(luò)的運(yùn)行時(shí)間也優(yōu)于PNN神經(jīng)網(wǎng)絡(luò)。
[1]樊玫.基于Kohonen神經(jīng)網(wǎng)絡(luò)的用戶訪問(wèn)模型挖掘模式的研究[D].南昌:南昌大學(xué),2007.
[2]劉純平.基于Kohonen神經(jīng)網(wǎng)絡(luò)聚類(lèi)方法在遙感分類(lèi)中的比較[J].計(jì)算機(jī)仿真,2006,26(7):1744-1746.
[3]范作民,白杰,閻國(guó)華.Kohonen神經(jīng)網(wǎng)絡(luò)在發(fā)動(dòng)機(jī)故障診斷中的應(yīng)用[J].航空動(dòng)力學(xué)報(bào),2000,15(1):89-92.
[4]莫禮平.基于Kohonen神經(jīng)網(wǎng)絡(luò)的故障診斷方法[J].成都大學(xué)學(xué)報(bào),2007,(1):47-51.
[5]Agrawal R,Srikant R.Mining sequential pattems[C]∥International Conference on Data Engineefing.Taipei,Taiwan:ICDE,1995:3-14.
[6]Francesco B,F(xiàn)osca G,Giuseppe M,et al.Data Mining for intelligent web caching[C]∥International Conference on Information Technology:Coding and Computing,2001.
[7]吳柯,方強(qiáng),張俊玲,等.基于改進(jìn)Kohonen神經(jīng)網(wǎng)絡(luò)的遙感影像分類(lèi)[J].測(cè)繪信息與工程,2007,32(2):47-49.
[8]李宗福,鄧瓊波,李桓.Kohonen SOFM神經(jīng)網(wǎng)絡(luò)及其演化研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2004,25(10):1729-1730.
[9]曲義飛.基于Web使用挖掘的用戶消費(fèi)模式發(fā)現(xiàn)研究[D].大連:大連理工大學(xué),2006.