陳寶國(guó),宋 旸
(淮南師范學(xué)院 計(jì)算機(jī)學(xué)院,安徽 淮南 232000)
近些年來(lái),隨著搜索引擎、電子商務(wù)、社交媒體等互聯(lián)網(wǎng)應(yīng)用的飛速發(fā)展,使得Web信息系統(tǒng)已經(jīng)成為目前規(guī)模最大的系統(tǒng)[1].在互聯(lián)網(wǎng)中任一Web服務(wù)器上所進(jìn)行的活動(dòng)都會(huì)存儲(chǔ)至日志文件中.隨著現(xiàn)代信息技術(shù)的進(jìn)一步發(fā)展,互聯(lián)網(wǎng)中的信息已經(jīng)呈現(xiàn)爆炸式增長(zhǎng),Web日志的分布也愈加廣泛[2].對(duì)于互聯(lián)網(wǎng)來(lái)說(shuō),特別是一些大型社交媒體網(wǎng)站與大型電子商務(wù)網(wǎng)站,分析分布式Web日志不僅可以明確網(wǎng)站運(yùn)營(yíng)情況,還可以挖掘用戶的行為習(xí)慣,為營(yíng)銷計(jì)劃的制定奠定基礎(chǔ),進(jìn)而給用戶推薦符合用戶行為習(xí)慣的產(chǎn)品以及個(gè)性化服務(wù)等.為達(dá)到以上目標(biāo),需要進(jìn)行分布式Web日志挖掘,因此相關(guān)的分布式Web日志挖掘和檢索方法研究受到人們極大的關(guān)注[3].當(dāng)前,對(duì)分布式Web日志挖掘方法主要有模糊C均值信息聚類方法和PSO進(jìn)化方法等,但采用當(dāng)前方法進(jìn)行分布式Web日志挖掘的自適性不好,時(shí)間開(kāi)銷較大.為解決該問(wèn)題,本文提出基于模糊聚類的分布式Web日志挖掘方法.最后進(jìn)行仿真測(cè)試分析,展示了本文方法在提高分布式Web日志挖掘能力方面的優(yōu)越性能.
為了實(shí)現(xiàn)基于關(guān)聯(lián)規(guī)則和模糊聚類的分布式Web日志挖掘,采用模糊特征檢測(cè)方法進(jìn)行分布式Web日志的語(yǔ)義特征分析,結(jié)合用戶的偏好信息[4],建立分布式Web日志的關(guān)聯(lián)規(guī)則分布集,表示為:
(1)
結(jié)合自適應(yīng)加權(quán)方法構(gòu)建分布式Web日志檢測(cè)模型,以提升分布式Web日志中的用戶類型評(píng)價(jià)能力[5],得到分布式Web日志用戶屬性表中的關(guān)聯(lián)規(guī)則項(xiàng)定義為:
(2)
采用模糊信息聚類分析方法進(jìn)行分布式Web日志關(guān)聯(lián)規(guī)則特征聚類處理,提取分布式Web日志性的多重關(guān)聯(lián)特征量[6],通過(guò)挖掘分布式Web日志的語(yǔ)義關(guān)聯(lián)特征量,結(jié)合用戶屬性表分析方法,進(jìn)行分布式Web日志的統(tǒng)計(jì)分析.其中,用戶屬性表分布定義為:
(3)
其中:wiN為第i個(gè)點(diǎn)采集的分布式Web日志信息權(quán)值,構(gòu)建分布式Web日志的統(tǒng)計(jì)分析模型,得到用戶相似度特征量,結(jié)合權(quán)向量學(xué)習(xí)方法,獲取分布式Web日志挖掘的權(quán)系數(shù)(w1,j,w2,j,…,wt,j),其中t表示為分布式Web日志的關(guān)聯(lián)規(guī)則系數(shù),wtj為分布式Web日志挖掘的模糊加權(quán)系數(shù)[7],根據(jù)用戶對(duì)項(xiàng)目的評(píng)分結(jié)果,得到分布式Web日志挖掘的相似度信息為:
(4)
其中:maxlFreqi,j為分布式Web日志的權(quán)重,假設(shè)ki為用戶類別評(píng)分屬性集,計(jì)算公式為:
(5)
式中
wi,j=tfi,j×Idfi
(6)
其中:fi,j為分布式Web日志挖掘的模糊規(guī)則特征量.
根據(jù)每個(gè)用戶間評(píng)分向量的差異性,提取分布式Web日志的統(tǒng)計(jì)特征量,以此為基礎(chǔ)進(jìn)行分布式Web日志的模糊聚類[8],得到聚類特征項(xiàng)為:
(7)
添加了用戶類別評(píng)分后,得到模糊聚類迭代式表示為:
(8)
其中:
(9)
(10)
(11)
式中,NB為分布式Web日志挖掘的嵌入維數(shù),NS為分布式Web日志信息檢測(cè)的強(qiáng)度.采用語(yǔ)義信息增強(qiáng)方法,進(jìn)行分布式Web日志關(guān)聯(lián)規(guī)則特征聚類,結(jié)果表示為[9]:
(12)
以上述構(gòu)建的分布式Web日志的關(guān)聯(lián)規(guī)則分布集為基礎(chǔ),采用模糊信息聚類分析方法進(jìn)行分布式Web日志關(guān)聯(lián)規(guī)則特征聚類處理,結(jié)合重疊性迭代檢測(cè)方法進(jìn)行分布式Web日志挖掘過(guò)程中的自適應(yīng)尋優(yōu),得到分布式Web日志信息的尺度信息為:
(13)
其中:
|X(f)|2=TC2Nsinc2(πfTC)|Xcode(f)|2
(14)
(15)
式中:TC為分布式Web日志信息的分布帶寬;f為分布式Web日志關(guān)聯(lián)信息的采樣頻率;|Xcode(f)|為目標(biāo)用戶u對(duì)其未評(píng)分用戶的適應(yīng)度權(quán)重[10],計(jì)算Web日志中其他用戶的相似度:
(16)
(17)
采用模糊聚類分析方法,進(jìn)行分布式Web日志挖掘,得到隸屬度函數(shù)為:
(18)
(19)
結(jié)合粗糙集評(píng)估方法,得到分布式Web日志信息的關(guān)聯(lián)規(guī)則集分布矩陣滿足:
(20)
根據(jù)上述分析,進(jìn)行分布式Web日志的特征優(yōu)化提取,根據(jù)特征提取結(jié)果,進(jìn)行Web日志挖掘和聚類分析.
(21)
通過(guò)計(jì)算鄰接點(diǎn)的適應(yīng)度函數(shù),對(duì)相似度高的分布式Web日志關(guān)聯(lián)規(guī)則進(jìn)行合并處理,根據(jù)模糊信息聚類結(jié)果實(shí)現(xiàn)分布式Web日志挖掘優(yōu)化.實(shí)現(xiàn)流程如圖1所示.
圖1 分布式Web日志挖掘的實(shí)現(xiàn)流程
為了驗(yàn)證本文方法在實(shí)現(xiàn)分布式Web日志挖掘中的應(yīng)用性能,采用Matlab進(jìn)行仿真測(cè)試分析.分布式Web日志信息采樣的節(jié)點(diǎn)數(shù)為200,每個(gè)聚類簇的平均值為0.46,采用 100 KB的數(shù)據(jù)集作為測(cè)試集,進(jìn)行分布式Web日志挖掘,得到分布式Web日志樣本數(shù)據(jù)如圖2所示.
圖2 分布式Web日志樣本數(shù)據(jù)
以圖2所示的數(shù)據(jù)為研究對(duì)象,構(gòu)建分布式Web日志的關(guān)聯(lián)規(guī)則分布集,采用模糊信息聚類分析方法進(jìn)行分布式Web日志關(guān)聯(lián)規(guī)則特征聚類處理,實(shí)現(xiàn)分布式Web日志挖掘,得到挖掘結(jié)果如圖3所示.分析圖3得知,本文方法進(jìn)行分布式Web日志挖掘的模糊聚類性較好.
圖3 分布式Web日志挖掘輸出
測(cè)試不同方法進(jìn)行分布式Web日志挖掘的精度,得到結(jié)果見(jiàn)表1,分析得知,本文方法分布式Web日志挖掘的精度較高.
表1 挖掘精度對(duì)比
為提升分布式Web日志挖掘精度,本文提出基于模糊聚類的分布式Web日志挖掘方法.構(gòu)建分布式Web日志的關(guān)聯(lián)規(guī)則分布集,采用模糊信息聚類分析方法進(jìn)行分布式Web日志關(guān)聯(lián)規(guī)則特征聚類處理,提取分布式Web日志性的多重關(guān)聯(lián)特征量,結(jié)合重疊性迭代檢測(cè)方法進(jìn)行分布式Web日志挖掘過(guò)程中的自適應(yīng)尋優(yōu),結(jié)合模糊關(guān)聯(lián)規(guī)則調(diào)度方法進(jìn)行分布式Web日志挖掘的負(fù)載均衡調(diào)度,通過(guò)計(jì)算鄰接點(diǎn)的適應(yīng)度函數(shù),對(duì)相似度高的分布式Web日志關(guān)聯(lián)規(guī)則進(jìn)行合并處理,根據(jù)模糊信息聚類結(jié)果實(shí)現(xiàn)分布式Web日志挖掘優(yōu)化.仿真實(shí)驗(yàn)結(jié)果表明,本文方法進(jìn)行分布式Web日志挖掘的精度較高,聚類性較好.