秦東霞 姚遙
0引言
Web日志挖掘?qū)τ赪eb站點內(nèi)部結(jié)構(gòu)優(yōu)化和頁面內(nèi)容的重新整合有重要的價值和意義。傳統(tǒng)的Web數(shù)據(jù)挖掘方法如關(guān)聯(lián)規(guī)則和聚類等先將挖掘出的結(jié)構(gòu)進(jìn)行分析,匯總后應(yīng)用到具體網(wǎng)站中。這些應(yīng)用主要包括對Web文檔進(jìn)行分類、Web頁面的預(yù)取和聚類、優(yōu)化查詢功能及對客戶信息進(jìn)行分類匯總等?,F(xiàn)有的基于關(guān)聯(lián)艦則的Web日志挖掘算法都是基于所有頻繁項的,這些算法存在兩方面的問題:一個是往往產(chǎn)生大量的候選規(guī)則,另一個則是產(chǎn)生大量支持度和置信度相同的冗余規(guī)則。本文提出了一聽十新的無冗余Web日志挖掘算法,該算法引入了頻繁閉項集和最小關(guān)聯(lián)規(guī)則的概念,在保證信息不丟失的同時實現(xiàn)無冗余挖掘,而且挖掘過程中候選規(guī)則也相對少得多。