黃宏本
摘 要: 在Web網(wǎng)絡(luò)中承載著不同的協(xié)議和網(wǎng)絡(luò)信道,由此產(chǎn)生危險信息,給網(wǎng)絡(luò)信息空間帶來安全威脅,通過對危險Web信息的準(zhǔn)確挖掘,可凈化網(wǎng)絡(luò)空間,確保網(wǎng)絡(luò)安全。傳統(tǒng)方法采用模糊關(guān)聯(lián)規(guī)則算法進行危險Web信息分類挖掘,在干擾背景下,模糊聚類過容易受到干擾,導(dǎo)致很難建立有效的關(guān)聯(lián)規(guī)則,挖掘效率較低。提出一種基于改進關(guān)聯(lián)規(guī)則的危險Web信息挖掘技術(shù)。在建立關(guān)聯(lián)規(guī)則前,引入Takens 定理進行危險Web信息數(shù)據(jù)的相空間重構(gòu),構(gòu)建Web網(wǎng)絡(luò)的危險信息挖掘的信道模型,并對危險Web信息的信息流多源進程進行分類設(shè)計。設(shè)計自適應(yīng)IIR級聯(lián)濾波算法進行數(shù)據(jù)干擾濾波,運用以上方法對規(guī)則關(guān)聯(lián)過程進行改進,實現(xiàn)危險Web信息的準(zhǔn)確挖掘。仿真實驗進行了性能驗證,結(jié)果表明,采用該算法進行危險Web數(shù)據(jù)挖掘,去干擾性能較好,精度較高。
關(guān)鍵詞: Web; 數(shù)據(jù)挖掘; 網(wǎng)絡(luò)安全; Web 信息
中圖分類號: TN911?34; TP391 文獻標(biāo)識碼: A 文章編號: 1004?373X(2016)06?0014?04
Research on risk web information mining technology based on improved association rules
HUANG Hongben
(School of Information and Electronic Engineering, Wuzhou University, Wuzhou 543002, China)
Abstract: The security of cyber information space is threatened by the hazard information that caused by different protocols and network channels in Web network, and the cyber space is purified to ensure the network security by mining the hazard Web information accurately. The algorithm of the fuzzy association rules are used in the traditional method to excavate and classified the dangerous Web information. The fuzzy clustering is easy to be disturbed in the influence background and has low efficiency, so it is hard to establish effective association rules. Because of this, the risk Web information mining technology based on the improved association rules is proposed. Before establishing the association rules, Takens theorem is introduced to reconstruct the phase space of the hazard Web information data to establish the channel model for the hazard information mining in Web network and make classification design for the multisource progress of the risk Web information flow. An adaptive IIR cascade filtering algorithm is designed to filter the data influence, improve the progress of the association rules, and realize the accurate mining of the risk Web information. The simulation results for the performance verification show that this algorithm has advantages of good filtering interference performance and high accuracy.
Keywords: web; data mining; network security; Web information
0 引 言
Web網(wǎng)絡(luò)是一種由不同制造商生產(chǎn)的計算機、網(wǎng)絡(luò)設(shè)備和系統(tǒng)組成的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),在云計算環(huán)境的多通道平臺下,Web網(wǎng)絡(luò)是一個巨大的動態(tài)復(fù)雜網(wǎng)絡(luò)。Web信息數(shù)據(jù)庫采用多路復(fù)用的多通道輸入輸出信道進行數(shù)據(jù)存儲和傳輸,然而由于云計算環(huán)境下多路復(fù)用器輸入輸出功能的網(wǎng)絡(luò)具有開放性,容易受到病毒感染產(chǎn)生危險數(shù)據(jù)。Web網(wǎng)絡(luò)在整個互聯(lián)網(wǎng)體系中體現(xiàn)為一個異構(gòu)網(wǎng)元,承載著不同的協(xié)議和網(wǎng)絡(luò)信道,并通過云儲存實現(xiàn)資源調(diào)度,隨著病毒感染和入侵,危險Web信息在網(wǎng)絡(luò)數(shù)據(jù)庫中泛濫,給網(wǎng)絡(luò)信息空間帶來安全威脅,需要對危險Web信息進行實時準(zhǔn)確挖掘,隨著信息技術(shù)的不斷發(fā)展和Web網(wǎng)絡(luò)數(shù)據(jù)庫的不斷更新和應(yīng)用,研究危險Web信息挖掘算法在網(wǎng)絡(luò)安全和數(shù)據(jù)挖掘等領(lǐng)域具有重要的應(yīng)用價值[1]。
在Web網(wǎng)絡(luò)中的危險信息自相關(guān)特性較弱,挖掘難度較高,傳統(tǒng)的挖掘方法主要有基于頻譜挖掘算法和時頻特征挖掘方法等。這類方法主要都是基于線性特征提取的角度進行挖掘的[2?3]。文獻[4]提出一種基于博弈論的Web網(wǎng)絡(luò)信道分配方法實現(xiàn)危險Web信息的挖掘,通過遞階控制調(diào)整HHT頻譜的信道分配,提高挖掘性能,但是該算法采用自相關(guān)特征調(diào)度方法進行挖掘的過程中,會產(chǎn)生頻譜偏移和失真,降低了準(zhǔn)確性。文獻[5]提出一種基于數(shù)據(jù)分類和分形特征提取的危險Web信息挖掘和檢測算法,對危險信息的流量進行準(zhǔn)確估計和預(yù)測,實現(xiàn)數(shù)據(jù)過濾和挖掘的目的,但該算法的實時性和收斂性不高。分析傳統(tǒng)方法可見,傳統(tǒng)方法采用線性特征分析方法,提高了虛警概率,然而危險Web信息通常表現(xiàn)為一種非線性特征,比如關(guān)聯(lián)規(guī)則特征就是一種典型的非線性特征,采用非線性時間序列分析方法實現(xiàn)危險Web信息挖掘具有重要的研究價值和應(yīng)用前景[6?10]。對此,為了克服傳統(tǒng)方法的弊端,本文提出一種基于改進關(guān)聯(lián)規(guī)則的危險Web信息挖掘技術(shù)。首先構(gòu)建了Web網(wǎng)絡(luò)的危險信息挖掘的信道模型,并設(shè)計信息流多源進程分類,進行數(shù)據(jù)干擾濾波,最后采用改進的關(guān)聯(lián)規(guī)則特征提取算法,實現(xiàn)危險Web信息的準(zhǔn)確挖掘,仿真實驗進行了性能驗證,展示了本文算法在實現(xiàn)危險Web信息挖掘,提高危險信息數(shù)據(jù)檢測性能方面的優(yōu)越性能,得出了有效性結(jié)論。
1 Web網(wǎng)絡(luò)的危險信息挖掘的信道模型及時
間序列信號分析
1.1 構(gòu)建Web網(wǎng)絡(luò)的危險信息挖掘的信道模型
為了實現(xiàn)對危險Web信息的準(zhǔn)確挖掘,建立準(zhǔn)確的關(guān)聯(lián)規(guī)則,需要首先分析Web網(wǎng)絡(luò)的危險信息挖掘的信道模型。Web網(wǎng)絡(luò)信息庫匯聚了大量文本、圖片、視頻等信息數(shù)據(jù),這些數(shù)據(jù)會讓關(guān)聯(lián)規(guī)則淡化;因此需要構(gòu)建客戶機與服務(wù)器間的數(shù)據(jù)傳輸通信信道模型。Web網(wǎng)絡(luò)客戶機與服務(wù)器間的數(shù)據(jù)傳輸通信信道中承載著不同的協(xié)議和網(wǎng)絡(luò)信道,傳輸協(xié)議主要有FDMA,CDMA,TDMA等。在Web網(wǎng)絡(luò)中,由于外部入侵的影響,會產(chǎn)生較多危險信息,給網(wǎng)絡(luò)信息空間帶來安全威脅和存儲開銷。需要建立信道模型,以保障后期規(guī)則關(guān)聯(lián)的準(zhǔn)確性,建模方法如下:
假設(shè):Web網(wǎng)絡(luò)信息庫數(shù)據(jù)集[X=x1,x2,…,xn],[n]是Web數(shù)據(jù)集X的數(shù)目,[X]中的每個危險的Web數(shù)據(jù)特征都是一個[p]維矢量,Web數(shù)據(jù)庫數(shù)據(jù)信息流[xnNn=1]含有[c]個類別,第[i]個類危險信息的數(shù)據(jù)聚類中心為[vi=vi1,vi2,…,vip]。在聚類中心,Web信息形成一個較大的數(shù)據(jù)存儲通道,根據(jù)上述分析,構(gòu)建Web網(wǎng)絡(luò)的危險信息挖掘的信道模型。
首先,確定Web網(wǎng)絡(luò)客戶機與其服務(wù)器間的數(shù)據(jù)傳輸信息特征初始值分別是[zn]和[ωn]??蔀閃eb通信過程中的客戶機檢測的Web信息時間序列[rn]的計算提供先決條件,[rn]如下所示:
[rn=h(zn)+ωnX] (1)
假設(shè)Web網(wǎng)絡(luò)信息數(shù)據(jù)傳輸通信信道為連續(xù)系統(tǒng),危險數(shù)據(jù)的頻域目標(biāo)函數(shù)表示為:
[xn=x(rn+nΔt)=h[z(rn+nΔt)]+ωn] (2)
式中:[h(·)]為Web數(shù)據(jù)挖掘模型的滑動時間窗口函數(shù);[ωn]為測量誤差。
其次,在危險數(shù)據(jù)的頻域模型基礎(chǔ)上,引入Takens定理對Web網(wǎng)絡(luò)的危險信息數(shù)據(jù)進行相空間重構(gòu),得到危險信息挖掘的信道模型。通過引入Takens 定理,設(shè)置危險信息數(shù)據(jù)相空間[M]為[d]維的緊流形,危險數(shù)據(jù)的密度先驗信息為[F]表示一特征矢量場,具有時間平移性,[h]表示在滑動時間窗口上的一個相空間重構(gòu)函數(shù),對于[Φ]:[M→R2d+1],則對Web網(wǎng)絡(luò)信息庫危險數(shù)據(jù)的空間重構(gòu)得到網(wǎng)絡(luò)的危險信息挖掘的信道模型為:
[Φ(z)=xn(h(z),h(φ1(z)),…,h(φ2d(z)))T] (3)
式中:[h(z)]分簇系統(tǒng)函數(shù);[φ]為[h(z)]中[z][(∈(M))]時的檢測值;[Φ(M)]表示嵌入狀態(tài)矢量。通過相空間重構(gòu)結(jié)構(gòu),得到了網(wǎng)絡(luò)的危險信息挖掘的信道模型,為進行危險Web信息的挖掘提供了特征輸入模型。
1.2 危險Web信息挖掘的特征分類提取
通過第1.1節(jié)得到信道模型提取所需時間序列,在進行分類,為之后的相關(guān)特征提取提供依據(jù)。在進行分類的過程中,需要對Web網(wǎng)絡(luò)信息庫的危險數(shù)據(jù)的先驗信息進行滑動時間窗口重排,得到危險數(shù)據(jù)的嵌入空間時頻特征為:
[z(t)=s(t)+js(t)?h(t)Φ(z)=s(t)+j-∞+∞s(u)t-udu=s(t)+jH[s(t)]] (4)
式中:[s(t)]為一組數(shù)據(jù)信息流;[u]為連續(xù)鄰居集交換窗口寬度;[a(t)]為Web信息的數(shù)據(jù)特征;[z(t)]為瞬時特征,在上述構(gòu)建的相空間中的信息流進行分類,則危險Web信息的多源信息流分類器的設(shè)計如圖1所示。
危險Web信息流的多源分類器分類步驟如下:
(1) 對危險Web信息時間序列進行Fourier變換,得到危險信息原始數(shù)據(jù)[r(k)];
(2) 測量危險Web信息的高斯過程隨機特征,進行隨機化處理,得到危險Web信息替代數(shù)據(jù)[r′(k)];
(3) 采用非線性檢驗方法檢驗危險Web信息的非線性成分,生成的替代數(shù)據(jù),在重構(gòu)的[m]維狀態(tài)空間中求解危險Web信息的矢量狀態(tài)映射,對信息數(shù)據(jù)的時間序列生產(chǎn)替代數(shù)據(jù)[r′(k)],在經(jīng)過Fourier逆變換完成對危險Web信息流的特征的分類,其表達式如下:
[r′(n)=r(k)r′(k)?tn] (5)
式中:[tn]為逆變換所需時間。
由此實現(xiàn)危險Web信息的多源信息流的分類,從而形成[m]維狀態(tài)空間,矢量空間為:
[yn=(yn,yn-τ,…,yn-(m-1)τ)] (6)
式中:[m]為嵌入維數(shù);[τ]狀態(tài)空間重構(gòu)的時間延遲,由此產(chǎn)生的危險Web信息作為一種標(biāo)量時間序列,在重構(gòu)的[d]維狀態(tài)空間中危險Web信息的矢量狀態(tài)為:
[yn+1=F(yn)] (7)
由式(7)可以看出,Web網(wǎng)絡(luò)危險信息在矢量狀態(tài)空間中[yn→yn+1]的演化反映了危險Web信息的非線性差分維數(shù),可對時間序列進行平穩(wěn)化處理,提取的相關(guān)特征更準(zhǔn)確,而對隨機時間序列可以通過統(tǒng)計方法研究。則Web網(wǎng)絡(luò)危險信息的相關(guān)特征提取公式如下所示:
[Cor3=z(t)yn-xyn+1-xyn-D-xr′(n)yn-x3] (8)
式中:[yn]表示危險Web信息的非線性時間序列;[d]表示危險信息傳輸延遲,[D=2d],通過非線性時間序列分類方法與自相關(guān)函數(shù)法求取危險Web信息矢量空間重構(gòu)的關(guān)聯(lián)規(guī)則,進行提取的Web網(wǎng)絡(luò)危險信息特征精度更高。
2 干擾信息濾波處理及實現(xiàn)基于關(guān)聯(lián)規(guī)則特征
提取的信息挖掘算法改進
2.1 干擾信息過濾處理獲取濾波器輸出函數(shù)和信息梯度
在構(gòu)建Web網(wǎng)絡(luò)的危險信息挖掘的信道模型、時間序列信號分類及相關(guān)特征提取時,發(fā)現(xiàn)在進行危險Web數(shù)據(jù)挖掘過程中受到大量信道噪聲的干擾,需要進行干擾信息過濾處理,提高信息挖掘的精度。本文采用一種自適應(yīng)級聯(lián)陷波算法進行干擾信息過濾處理,設(shè)計基于IIR的自適應(yīng)級聯(lián)過濾器進行Web干擾信息過濾設(shè)計,其Web網(wǎng)絡(luò)危險信息的干擾信息過濾處理結(jié)構(gòu)框圖如圖2所示。
在Web網(wǎng)絡(luò)中的危險信息受到多個干擾信息特征的影響,傳統(tǒng)的模糊關(guān)聯(lián)規(guī)則算法進行危險信息挖掘時,不能有效去除多個已知存在干擾信息特征的危險信息,采用二階格型IIR結(jié)構(gòu),通過下式進行迭代過濾處理:
[θ1(k+1)=θ1(k)Cor3-μRe[y(k)φ*(k)]] (9)
式中:[μ]是危險Web信息受到的干擾信息出現(xiàn)的頻率;[θ1(k)]是控制收斂速度和精度的參數(shù);[φ*(k)]為時間寬度;則對參數(shù)θ1(k+1)進行自適應(yīng)加權(quán),得到IIR濾波器傳輸函數(shù)為:
[HB(z)=(1+sinθ2)θ1(k+1)cosθ2· cosθ1(k+1)cos(θ2)z-11+sinθ1(k+1)(1+sinθ2)z-1+sin(θ2)z-2G(z)] (10)
式中:
[G(z)=1-sinθ22?1-z-21+sinθ1(k)(1+sinθ2)z-1+sin(θ2)z-2] (11)
式中:[G(z)]表示單級IIR濾波器的傳遞函數(shù);[k]為級聯(lián)數(shù);[z]為時間變量。用多個固定IIP過濾器級聯(lián)抑制干擾成份,然后得到去除多個已知干擾信息特征的輸出函數(shù)和信息梯度值,過濾器輸出函數(shù)[y(k)]和信息梯度[φ(k)]分別可以表示為:
[y(k)=s1(k)G(z)+HB(z)n1(k);φ(k)=s2(k)G(z)+HB(z)n2(k)] (12)
[s1(k)=AAHej(Ωk+θH);s2(k)=AAHBej(Ωk+θHB)] (13)
式中:[s1(k)]為危險信息的初始狀態(tài)信息;[s2(k)]為危險信息第二階狀態(tài)信息;[n1(k)]和[n2(k)]為危險信息的干擾成分向量,[A]為幅值矩陣,[AHB]為求矩陣。
2.2 改進關(guān)聯(lián)規(guī)則特征提取及挖掘的實現(xiàn)
通過上述中獲取的過濾器輸出函數(shù)和信息梯度對挖掘危險Web信息的關(guān)聯(lián)規(guī)則進行改進。首先求出危險Web信息的自相關(guān)函數(shù),其基本思想是考察危險數(shù)據(jù)信息的時間序列特征關(guān)聯(lián)化分類[x]和[xn+τ]與平均觀測量之間的自相關(guān)性,對離散化危險Web信息[x(t)]進行處理,求得自相關(guān)函數(shù)[C(τ)],其定義為:
[C(τ)=limT→∞1T-T2T2x(t)x(t+τ)dτ] (14)
式中:[τ]是危險Web信息的矢量空間的時間延遲窗口;[-T2TT2x(t)x(t+τ)]表征[t]和[t+τ]時刻危險Web信息變化關(guān)聯(lián)或相似程度。
其次,在求得危險Web信息自相關(guān)函數(shù)的基礎(chǔ)上,結(jié)合獲取的濾波器輸出函數(shù)和信息梯度實現(xiàn)關(guān)聯(lián)規(guī)則特征提取及危險Web信息挖掘的改進,則其改進關(guān)聯(lián)規(guī)則危險Web信息挖掘公式如下所示:
[I(τ)=-ijpij(τ)φ(k)lnC(τ)y(k)pipj] (15)
式中:[pi],[pj]表示關(guān)聯(lián)規(guī)則特征空間中的任意一點;[pij(τ)]表示在危險Web信息高維矢量空間中的最近鄰點;[j]為固定危險信息關(guān)聯(lián)特征的采樣時間間隔。由上述計算可知,提取的危險信息特征值大小之間存在一定的關(guān)聯(lián),根據(jù)這組關(guān)聯(lián)性進行危險信息特征挖掘,挖掘精度較高。
3 仿真實驗與結(jié)果分析
為了驗證本文算法在實現(xiàn)危險Web信息挖掘中的性能,需要進行仿真實驗。實驗仿真環(huán)境為:Intel Core3?530 1 GB內(nèi)存,操作系統(tǒng)為Windows 7,仿真軟件為Matlab 7。危險信息在同一網(wǎng)段中傳輸,其中20%的危險Web信息通過網(wǎng)絡(luò)主干進入三層交換機,Web信息傳輸通道的鏈路容量為10 Mb/s,信息傳輸延時5 ms。危險Web信息數(shù)據(jù)采集中,采樣時間間隔為30 s,每小時為一段數(shù)據(jù)形成一組時間序列信號波形,以此為研究樣本,根據(jù)上述算法和參數(shù)設(shè)計,進行危險Web信息挖掘仿真,得到原始的Web信息和采用本文設(shè)計的自適應(yīng)級聯(lián)濾波輸出的Web信息結(jié)果如圖3所示。
由圖3可知,原始采集的危險Web信息數(shù)據(jù)受到較大的噪聲信息干擾,難以有效實現(xiàn)危險信息挖掘,采用本文算法對危險信息進行特征提取和干擾信息濾波處理,去除多個已知干擾頻率成分,提高的信息數(shù)據(jù)的純度,以此為基礎(chǔ),進行關(guān)聯(lián)規(guī)則特征提取,得到結(jié)果如圖4所示。由圖4可知,采用改進的關(guān)聯(lián)規(guī)則特征提取算法,可有效實現(xiàn)危險Web信息的準(zhǔn)確挖掘,特征提取準(zhǔn)確,提高了數(shù)據(jù)挖掘的精度。為了對比不同算法性能,采用本文算法和傳統(tǒng)算法,在不同信噪比SNR下采用200 000次蒙特卡洛實驗,得到危險Web 信息挖掘的ROC圖對比結(jié)果如圖5所示。由圖5可知,采用本文算法,有效提高了數(shù)據(jù)挖掘精度,展示了優(yōu)越性。
4 結(jié) 語
本文提出了一種基于改進關(guān)聯(lián)規(guī)則的危險Web信息挖掘技術(shù)。首先構(gòu)建了Web網(wǎng)絡(luò)的危險信息挖掘的信道模型,并引入Takens 定理進行危險Web信息的信息流多源進程分類設(shè)計,設(shè)計自適應(yīng)IIR級聯(lián)濾波算法進行數(shù)據(jù)干擾濾波,最后采用改進的關(guān)聯(lián)規(guī)則特征提取算法,實現(xiàn)危險Web信息的準(zhǔn)確挖掘。仿真結(jié)果表明,采用本文算法實現(xiàn)危險Web信息的挖掘,抗干擾性能較好,挖掘精度較高。
參考文獻
[1] ZHU Q Y, YANG X F, YANG L X, et al. Optimal control of computer virus under a delayed model [J]. Applied mathematics and computation, 2012, 218(23): 11613?11619.
[2] MIORANDI D, SICARI S, PELLEGRINI F D, et al. Internet of things: vision, applications and research challenges [J]. Ad hoc networks, 2012, 10(7): 1497?1516.
[3] CHEN L, BRIAN K, AND JAMIE E. Theoretical characterization of nonlinear clipping effects in IM/DD optical OFDM systems [J]. IEEE transactions on communications, 2012, 60(8): 2304?2312.
[4] ZHOU Y, LI J X, WANG D L. Target tracking in wireless sensor networks using adaptive measurement quantization [J]. Science China information sciences, 2012, 55(4): 827?838.
[5] XU J, LI J X, XU S. Data fusion for target tracking in wireless sensor networks using quantized innovations and Kalman filtering [J]. Science China information sciences, 2012, 55(3): 530?544.
[6] 李超順,周建中,方仍存,等.基于混沌優(yōu)化的模糊聚類分析方法[J].系統(tǒng)仿真學(xué)報,2009,21(10):2977?2980.
[7] 汪中才,黎永碧.基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)研究[J].科技通報,2012,28(8):150?152.
[8] 王進,陽小龍,隆克平.基于大偏差統(tǒng)計模型的 Http?Flood DDoS檢測機制及性能分析[J].軟件學(xué)報,2012,23(5):1272?1280.
[9] 鄭海雁,王遠方.標(biāo)簽集約束近似頻繁模式的并行挖掘[J].計算機工程與應(yīng)用,2015,51(9):135?141.
[10] 張永錚,肖軍,云曉春,等.DDoS 攻擊檢測和控制[J].軟件學(xué)報,2012,23(8):2258?2072.