翁佩純+張遠(yuǎn)海+馬慧
摘 要: 離散數(shù)據(jù)在Web網(wǎng)絡(luò)中分布較廣,是造成數(shù)據(jù)挖掘有用信息容量低的主要原因?;艚鹚闺x散數(shù)據(jù)挖掘方法自提出以來獲得了很高的成就,但仍存在挖掘數(shù)據(jù)分類性能不高的缺點(diǎn),在此,使用BP神經(jīng)網(wǎng)絡(luò)對其進(jìn)行改進(jìn)。霍金斯離散數(shù)據(jù)挖掘方法分離散數(shù)據(jù)掃描和離散信息挖掘兩個(gè)步驟進(jìn)行,所提改進(jìn)方法通過優(yōu)化原方法中離散數(shù)據(jù)的排序規(guī)律,挖掘最優(yōu)BP神經(jīng)網(wǎng)絡(luò)連接節(jié)點(diǎn)權(quán)值集群,改進(jìn)離散數(shù)據(jù)集群的正確分區(qū)能力,降低離散信息挖掘過程的時(shí)空復(fù)雜度,提高原方法的分類精度和分類效率。實(shí)驗(yàn)結(jié)果表明,所提改進(jìn)方法在Web網(wǎng)絡(luò)離散數(shù)據(jù)中能獲取高度可靠的挖掘結(jié)果。
關(guān)鍵詞: Web網(wǎng)絡(luò); 霍金斯離群數(shù)據(jù)挖掘; 改進(jìn)的離散信息挖掘; BP神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào): TN711?34; TP301.6 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)18?0029?03
Research and improvement of outlier data mining technology in Web network
WENG Peichun1, ZHANG Yuanhai2, MA Hui1
(1. Zhongshan Institute, University of Electronic Science and Technology of China, Zhongshan 528400, China;
2. Zhongshan Torch Polytechnic, Zhongshan 528403, China)
Abstract: Discrete data has a wide distribution in the Web network, and is the main reason causing the low capacity of useful information. Since Hawkins discrete data mining method was put forward, it has been obtain a high achievement, but it still exists a fault that its data classification performance is not high. Therefore, the BP neural network is adopted to improve it. Hawkins discrete data mining method is divided into two steps: discrete data mining and discrete information mining. The improved method can optimize the discrete data sorting law of the original method, mine the optimal weight of BP neural network connecting node, improve the correct partition ability of discrete data cluster, reduce the time and space complexity in the process of discrete information mining, and improve the classification accuracy and classification efficiency of the original method. The experimental results show that the improved method can obtain highly reliable mining results in discrete data of Web network.
Keywords: Web network; Hawkins outlier data mining; improved outlier data mining; BP neural network
0 引 言
在Web網(wǎng)絡(luò)與人工智能的發(fā)展進(jìn)程中,產(chǎn)生了“數(shù)據(jù)挖掘”這種專門針對數(shù)據(jù)進(jìn)行深層原理解析的研究技術(shù)。隨著網(wǎng)絡(luò)科技的不斷進(jìn)步,Web網(wǎng)絡(luò)作為廣大網(wǎng)民收集知識(shí)的主要媒介,往往卻只能索引到不足30%數(shù)據(jù)容量的有用信息,在大部分網(wǎng)頁中顯示的均為無用動(dòng)態(tài)信息,而且數(shù)據(jù)結(jié)構(gòu)混亂、復(fù)雜,可借鑒性不高。離散數(shù)據(jù)在Web網(wǎng)絡(luò)中分布較廣,是造成數(shù)據(jù)挖掘有用信息容量低的主要原因。由于離散數(shù)據(jù)結(jié)構(gòu)的相對孤立性和整體分散性,研究者霍金斯曾在1980年提出“離散數(shù)據(jù)與普通數(shù)據(jù)產(chǎn)生機(jī)理不相同”的理念,并展開Web網(wǎng)絡(luò)中離群數(shù)據(jù)挖掘方法的研究工作,在這一挖掘方法上進(jìn)行改進(jìn),對網(wǎng)絡(luò)科技的發(fā)展具有很大的增益效果。
1 Web網(wǎng)絡(luò)中的離群數(shù)據(jù)挖掘方法研究
Web網(wǎng)絡(luò)中離散數(shù)據(jù)的定義是:“不符合既定數(shù)據(jù)規(guī)律的少數(shù)、異常性數(shù)據(jù)” [1],在計(jì)算誤差、設(shè)備運(yùn)轉(zhuǎn)失誤或者傳輸偏差等網(wǎng)絡(luò)行為中均可能產(chǎn)生離散數(shù)據(jù)?;艚鹚乖谘芯恐邪l(fā)現(xiàn),幾乎每個(gè)離散數(shù)據(jù)都對應(yīng)著Web網(wǎng)絡(luò)的異常行為或規(guī)則,是網(wǎng)絡(luò)防入侵、數(shù)據(jù)防異常的重要媒介。
圖1是霍金斯離散數(shù)據(jù)挖掘方法的處理原理,在一個(gè)完整的離散數(shù)據(jù)挖掘流程內(nèi),網(wǎng)格細(xì)化法[2]是數(shù)據(jù)挖掘的重要處理方法。
圖1 霍金斯離散數(shù)據(jù)挖掘方法原理圖
在霍金斯離散數(shù)據(jù)挖掘方法的離散數(shù)據(jù)掃描過程中,需要對每個(gè)局部細(xì)化區(qū)間分別構(gòu)建哈希查詢表,聚類數(shù)據(jù)獲取精度高,為高水準(zhǔn)數(shù)據(jù)挖掘提供了可能。但是,離散信息挖掘的密度檢測過程沒能很好地將離散數(shù)據(jù)控制在一個(gè)Web節(jié)點(diǎn)最大負(fù)荷內(nèi),存儲(chǔ)挖掘信息時(shí)經(jīng)常不能將同一聚類區(qū)間的離散信息放在一起,后續(xù)還需要進(jìn)行比較復(fù)雜的分類處理[3]??梢?,霍金斯離散數(shù)據(jù)挖掘方法的缺點(diǎn)主要是時(shí)空復(fù)雜度大,式(1)是時(shí)空復(fù)雜度[O]的計(jì)算公式:
[O=O(N)+O(n2)] (1)
式中:[O(N)]是離散數(shù)據(jù)掃描的時(shí)空復(fù)雜度,與離散數(shù)據(jù)總量[N]有關(guān);[O(n2)]是離散信息挖掘的時(shí)空復(fù)雜度;[n]是掃描結(jié)果數(shù)據(jù)總量。一般而言[n]遠(yuǎn)小于[N],由于Web網(wǎng)絡(luò)中離散數(shù)據(jù)維度很高,故用[n2]進(jìn)行維度校正[4?5]。在接下來的改進(jìn)處理中,將對霍金斯離散數(shù)據(jù)挖掘方法中的[O(n2)]進(jìn)行降低,主要是提高挖掘結(jié)果的分類精度和分類效率。
2 霍金斯離散數(shù)據(jù)挖掘改進(jìn)方法
2.1 改進(jìn)原理
基于神經(jīng)網(wǎng)絡(luò)的霍金斯離散數(shù)據(jù)挖掘改進(jìn)方法的核心是BP神經(jīng)網(wǎng)絡(luò),所使用的改進(jìn)原理是挖掘最優(yōu)的關(guān)聯(lián)網(wǎng)絡(luò)連接點(diǎn)權(quán)值集群,得到挖掘結(jié)果后直接將其存儲(chǔ)在原聚類區(qū)間。BP神經(jīng)網(wǎng)絡(luò)先任意設(shè)置權(quán)值集群內(nèi)的數(shù)據(jù)點(diǎn),數(shù)據(jù)大小區(qū)間[6]為(-1,1),權(quán)值控制方法通過修正權(quán)值梯度訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)離散數(shù)據(jù)聚類結(jié)構(gòu),并且梯度修正也可以減少分類誤差的產(chǎn)生。
設(shè)Web網(wǎng)絡(luò)離散數(shù)據(jù)維度為[m],BP神經(jīng)網(wǎng)絡(luò)隱含層關(guān)聯(lián)節(jié)點(diǎn)有[k]個(gè),聚類區(qū)間用[C]表示,關(guān)聯(lián)節(jié)點(diǎn)上的聚類區(qū)間表示為[C1,C2,…,Ck]。用初始權(quán)值劃分聚類區(qū)間,對聚類區(qū)間中的離散數(shù)據(jù)進(jìn)行訓(xùn)練,使得BP神經(jīng)網(wǎng)絡(luò)輸入層和輸出層中的離散數(shù)據(jù)與挖掘結(jié)果具有一一對應(yīng)關(guān)系。BP神經(jīng)網(wǎng)絡(luò)隱含層上的節(jié)點(diǎn)處于休眠狀態(tài)[7],需要對其進(jìn)行激活,激活方式是把輸入層連接權(quán)值串聯(lián)成一個(gè)非線性驅(qū)動(dòng)函數(shù),計(jì)算結(jié)果用來激活休眠節(jié)點(diǎn)。將輸入層第[i]個(gè)節(jié)點(diǎn)與隱含層第[k]個(gè)節(jié)點(diǎn)的連接權(quán)值表示為[wki],[1≤i≤k],設(shè)離散集群數(shù)據(jù)在輸入層中的輸入值為[Xi],則非線性驅(qū)動(dòng)函數(shù)可表示為:
[ak=fi=1mwkiXi-tk] (2)
式中:[tk]表示隱含層第[k]個(gè)節(jié)點(diǎn)的偏置延時(shí),能夠?qū)崿F(xiàn)大量離散數(shù)據(jù)在小范圍上的信息映射;函數(shù)[f[·]]是曲面切面函數(shù),設(shè)函數(shù)參量為[x],則[f[]]表示式為:
[f[x]=ex-e-xex+e-x] (3)
當(dāng)隱含層所有節(jié)點(diǎn)都擺脫休眠狀態(tài)后,BP神經(jīng)網(wǎng)絡(luò)輸出層第[p]個(gè)節(jié)點(diǎn)將輸出:
[Sp=nσp=1akvkp] (4)
式中:[σ[]]是輸出層節(jié)點(diǎn)的休眠破壞函數(shù),取值為[1ex+e-x];[vkp]是第[p]個(gè)輸出層與第[k]個(gè)隱含層之間連接節(jié)點(diǎn)的權(quán)值。為了令Web網(wǎng)絡(luò)挖掘信息能夠被正確地分區(qū)域并存儲(chǔ)起來,BP神經(jīng)網(wǎng)絡(luò)三個(gè)層次之間的權(quán)值應(yīng)符合式(5)給出的條件:
[maxwki-vkp≤η] (5)
式中,[η]為閾值。當(dāng)[Xi]位于首聚類區(qū)間[C1],[η=0.5];當(dāng)[Xi]位于尾聚類區(qū)間[Ck],[η=1];其他情況下,[η=0]。
在此基礎(chǔ)上,通過BP神經(jīng)網(wǎng)絡(luò)為霍金斯離散數(shù)據(jù)挖掘方法搜尋一個(gè)最優(yōu)關(guān)聯(lián)網(wǎng)絡(luò)連接點(diǎn)權(quán)值集群。權(quán)值集群搜尋誤差應(yīng)先置于最小值,從而降低挖掘結(jié)果分類誤差。式(6)是權(quán)值集群搜尋誤差[E]的定義式,為了獲取其最小值,設(shè)置式(7)所示的誤差補(bǔ)償函數(shù),對不同聚類區(qū)間之間的交接點(diǎn)進(jìn)行模糊化處理。使用[E]的最小值設(shè)置權(quán)值集群,可獲取較高的Web網(wǎng)絡(luò)離群數(shù)據(jù)挖掘精度。隨后開始進(jìn)行Web網(wǎng)絡(luò)集群數(shù)據(jù)挖掘結(jié)果的分類,如式(8)所示。
[E=-i=1mp=1k{(tklogSp+tk-1)[log(1-Sp)]}] (6)
[P=ε1i=1kp=1kβ(wki)21+β(wki)2+ε2i=1kp=1kβ(vkp)21+β(vkp)2+ ε2i=1kp=1k(wki)2+i=1kp=1k(vkp)2] (7)
[Ck=xi,k-xp,k×n-Sp] (8)
式中:[ε1],[ε2]分別表示正、負(fù)權(quán)值的衰減變量;[β]為初始權(quán)值;[xi,k],[xp,k]分別表示輸入層與隱含層、隱含層與輸出層之間的離散數(shù)據(jù)聚類關(guān)聯(lián)度。
2.2 改進(jìn)方法基本要求
從第2.1節(jié)的函數(shù)推導(dǎo)中可以看出,基于BP神經(jīng)網(wǎng)絡(luò)的霍金斯離散數(shù)據(jù)挖掘改進(jìn)方法能夠優(yōu)化原方法中離散數(shù)據(jù)的排序規(guī)律,使得數(shù)據(jù)挖掘精度可輕而易舉地滿足用戶需求。圖2對所提方法的改進(jìn)流程進(jìn)行了總結(jié)。因?yàn)锽P神經(jīng)網(wǎng)絡(luò)在使用之前需要訓(xùn)練數(shù)據(jù)樣本,這會(huì)消耗一定的時(shí)間,所以直接在輸入層輸入任意一次的霍金斯離散數(shù)據(jù)挖掘結(jié)果進(jìn)行訓(xùn)練,但挖掘結(jié)果維度必須滿足以下要求:高維度數(shù)據(jù)必須易于降維;離散數(shù)據(jù)屬性可隨意進(jìn)行剔除和歸一化操作。
根據(jù)用戶對挖掘效率的要求,將挖掘結(jié)果降維并進(jìn)行無用屬性剔除和全局歸一化,輸入BP神經(jīng)網(wǎng)絡(luò),經(jīng)輸出層輸出離散數(shù)據(jù)聚類關(guān)聯(lián)度,作為訓(xùn)練樣本使用。按照關(guān)聯(lián)度順序激活隱含層和輸出層的休眠節(jié)點(diǎn),使輸入層中的離散數(shù)據(jù)能夠流通,從而獲取最優(yōu)關(guān)聯(lián)網(wǎng)絡(luò)連接點(diǎn)權(quán)值集群,提高挖掘結(jié)果的分類精度和分類效率,使霍金斯離散數(shù)據(jù)挖掘方法的時(shí)空復(fù)雜度得以降低。
3 實(shí)驗(yàn)分析
本次實(shí)驗(yàn)使用Web網(wǎng)絡(luò)中的真實(shí)離散數(shù)據(jù),所選類型是籃球比賽中與得分有關(guān)的離散數(shù)據(jù),由于不同球員身體素質(zhì)和得分技巧不同,每個(gè)球員均可看成不同離散度的離散數(shù)據(jù)集群,其數(shù)據(jù)屬性關(guān)聯(lián)度和權(quán)值集群也各不相同。使用本文所提基于BP神經(jīng)網(wǎng)絡(luò)的霍金斯離散數(shù)據(jù)挖掘改進(jìn)方法對5名球員在Web網(wǎng)絡(luò)中離散數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,分配球員上場時(shí)間。通過計(jì)算機(jī)建立云計(jì)算虛擬環(huán)境,分析這個(gè)分配方案在籃球比賽中的可靠性,如表1所示。
表1中,成功得分率等于球員投籃成功率減去違規(guī)率的,得分增益是指本文改進(jìn)方法比賽得分相對于原籃球比賽得分的增加值。由表1可知,本文方法所提分配方案共能夠得到27分的得分增益,這對籃球比賽來說是一個(gè)較大的比分差距,表明本文方法能獲取高度可靠的挖掘結(jié)果。
4 結(jié) 論
本文提出一種借助BP神經(jīng)網(wǎng)絡(luò)對霍金斯離散數(shù)據(jù)挖掘方法進(jìn)行改進(jìn)的方法。通過學(xué)習(xí)Web網(wǎng)絡(luò)中的離散數(shù)據(jù)行為,搜尋到BP神經(jīng)網(wǎng)絡(luò)最優(yōu)關(guān)聯(lián)網(wǎng)絡(luò)連接點(diǎn)權(quán)值集群,使用這個(gè)集群管理離群數(shù)據(jù)挖掘結(jié)果的存儲(chǔ)區(qū)間,對霍金斯離散數(shù)據(jù)挖掘方法的分類性能進(jìn)行提高。最后,實(shí)驗(yàn)使用Web網(wǎng)絡(luò)中的真實(shí)離散數(shù)據(jù)分析出本文所提改進(jìn)方法是高度可靠的。
注:本文通訊作者為張遠(yuǎn)海。
參考文獻(xiàn)
[1] 黃宏本.基于改進(jìn)關(guān)聯(lián)規(guī)則的危險(xiǎn)Web信息挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2016,39(6):14?17.
[2] 李平.網(wǎng)絡(luò)安全防范與Web數(shù)據(jù)挖掘技術(shù)的整合研究[J].信息安全與技術(shù),2016,7(8):63?65.
[3] 施佺,錢源,孫玲.基于教育數(shù)據(jù)挖掘的網(wǎng)絡(luò)學(xué)習(xí)過程監(jiān)管研究[J].現(xiàn)代教育技術(shù),2016,26(6):87?93.
[4] 鐘旭東,黃章進(jìn),顧乃杰,等.Web文本分類中的標(biāo)簽權(quán)重自動(dòng)優(yōu)化研究[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(5):890?894.
[5] 田秀娟.網(wǎng)絡(luò)環(huán)境中不完整數(shù)據(jù)挖掘方法研究與仿真[J].計(jì)算機(jī)仿真,2016,33(10):454?457.
[6] 李建林,籍天明,孔令達(dá),等.光伏發(fā)電數(shù)據(jù)挖掘中的跨度選取[J].電工技術(shù)學(xué)報(bào),2015,30(14):450?456.
[7] 張繼榮,王向陽.基于X ML數(shù)據(jù)挖掘的Apriori算法的研究與改進(jìn)[J].計(jì)算機(jī)測量與控制,2016,24(6):178?180.endprint