国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類的Web日志挖掘

2016-04-25 11:42:43令狐紅英
中國(guó)科技博覽 2016年1期
關(guān)鍵詞:means算法

[摘 要]本文采用K-均值聚類算法對(duì)Web日志進(jìn)行挖掘,并將Web日志挖掘的知識(shí)用于網(wǎng)頁(yè)推薦。在網(wǎng)頁(yè)推薦環(huán)節(jié),我們采用了打分函數(shù),這個(gè)函數(shù)充分考慮了各種因素對(duì)用戶訪問(wèn)的影響。

[關(guān)鍵詞]K- means算法 Web日志挖掘 網(wǎng)頁(yè)推薦 打分函數(shù)

中圖分類號(hào):TM121.1.3 文獻(xiàn)標(biāo)識(shí)碼:B 文章編號(hào):1009-914X(2016)01-0067-02

1.引 言

隨著全球經(jīng)濟(jì)一體化的發(fā)展,市場(chǎng)營(yíng)銷策略已愈來(lái)愈強(qiáng)調(diào)面向市場(chǎng)的方式,企業(yè)想要在競(jìng)爭(zhēng)中取得優(yōu)勢(shì)地位,重要的是按照不同用戶群體的特定需要,提供全面的服務(wù),精確滿足各個(gè)消費(fèi)群體的不同需求。Web聚類挖掘正是因?yàn)槟軌驅(qū)崿F(xiàn)這一目標(biāo)而成為當(dāng)前發(fā)展電子商務(wù)的一個(gè)重要課題。

2.Web日志上的聚類挖掘

2.1Web日志聚類的分類

Web日志上的聚類有兩種:用戶聚類和頁(yè)面聚類。用戶聚類是對(duì)用戶的會(huì)話進(jìn)行分析。通過(guò)聚類分析的方法,將訪問(wèn)模式相同的用戶聚在一起,將訪問(wèn)模式不同的用戶區(qū)分開。頁(yè)面聚類是對(duì)被用戶訪問(wèn)的頁(yè)面情況進(jìn)行分析,根據(jù)用戶訪問(wèn)內(nèi)容,發(fā)現(xiàn)被相同用戶訪問(wèn)的頁(yè)面,并將其歸為一組。

2.2會(huì)話以及會(huì)話矩陣的表示

這里采用向量的方式來(lái)表示會(huì)話,為了表示一個(gè)會(huì)話向量需要對(duì)網(wǎng)站中的所有網(wǎng)頁(yè)進(jìn)行編碼,從而將網(wǎng)頁(yè)用對(duì)應(yīng)的編碼來(lái)代替。設(shè)會(huì)話向量V=(U1,U2,U3……Un),其中Ui的值是對(duì)編號(hào)為i的網(wǎng)頁(yè)進(jìn)行訪問(wèn)的次數(shù),如果編號(hào)為i的網(wǎng)頁(yè)沒(méi)有被瀏覽,Ui=0。有了會(huì)話向量,就可以將日志中所有的會(huì)話用向量的方式表示出來(lái),然后就可以得到會(huì)話矩陣。

2.3會(huì)話的相似度量方法

2.3.1會(huì)話間的相似度

這里用夾角余弦法來(lái)定義兩個(gè)會(huì)話i,j之間的相似度S(i,j),設(shè)會(huì)話i的會(huì)話Vi=(mi1,mi2, mi3……min),會(huì)話j的會(huì)話向量為Vj=(mj1,mj2, mj3……mjn),那么

設(shè)相似矩陣為R=(rij)s*s,rij用來(lái)代替會(huì)話i和j的相似度:

2.3.2相似度矩陣

相似度矩陣:對(duì)于矩陣R,,其中rij=S(i,j),即會(huì)話i和j的相似度。矩陣R為會(huì)話集合的相似度矩陣。

3.Web日志上的聚類分析算法

3.1K-均值聚類算法

我們選擇聚類算法中的K-均值聚類算法(k-means algorithm)來(lái)進(jìn)行Web上的用戶聚類和網(wǎng)頁(yè)聚類,K-均值聚類算法是無(wú)監(jiān)督分類中的一種基本方法,其也稱為C-均值算法,其基本思想是:通過(guò)迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。該算法必須在開始輸入一個(gè)K值,作為該算法在數(shù)據(jù)集上分割并計(jì)算后輸出聚類的數(shù)量。

算法的開始是隨機(jī)的從聚類對(duì)象集合中取K個(gè)對(duì)象,最為最初的聚類中心,然后算法開始循環(huán)迭代,對(duì)每一個(gè)輸入的對(duì)象向量計(jì)算它與K個(gè)聚類中心的距離,找到距離對(duì)象最近的聚類,并將其歸為該聚類。重新計(jì)算聚類的中心,然后依次迭代,知道聚類的成員不再變化,或者用來(lái)衡量聚類質(zhì)量的目標(biāo)函數(shù)不存在明顯的變化,即變化小于一個(gè)可以認(rèn)可的值。

4. Web日志聚類結(jié)果的應(yīng)用

Web日志聚類結(jié)果最直接的用途就是網(wǎng)頁(yè)推薦。網(wǎng)頁(yè)推薦的過(guò)程,首先要提取用戶的訪問(wèn)模式,然后對(duì)網(wǎng)站中的各個(gè)網(wǎng)頁(yè)進(jìn)行打分,按照得分的高低來(lái)排序,最后將得分較高的若干網(wǎng)頁(yè)推薦出去。網(wǎng)頁(yè)推薦最重要的一個(gè)環(huán)節(jié)就是對(duì)打分函數(shù)的設(shè)計(jì),即依據(jù)什么樣的函數(shù)來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行打分。在定義打分函數(shù)之前我們先定義以下幾個(gè)概念:

會(huì)話片段向量:對(duì)于一個(gè)當(dāng)前還結(jié)束的會(huì)話,構(gòu)造一個(gè)向量ui=(u1,u2, u3……un),其中n是經(jīng)過(guò)了預(yù)處理后網(wǎng)頁(yè)的總數(shù)目,ui的值是該會(huì)話對(duì)編號(hào)為i的網(wǎng)頁(yè)的訪問(wèn)次數(shù),我們稱向量u為一個(gè)會(huì)話片段向量。

網(wǎng)頁(yè)訪問(wèn)向量:p=(p1,p2, p3……pn), 其中n是經(jīng)過(guò)了預(yù)處理后會(huì)話的總數(shù)目。pi是編號(hào)為i的會(huì)話對(duì)網(wǎng)頁(yè)p的訪問(wèn)次數(shù)。

聚類支持度函數(shù):S_cluster(u,p)=Projp(maxc(u,ci)),其中ci是對(duì)會(huì)話的聚類分析后聚類中編號(hào)為i的聚類簇的中心。maxc(u,ci)函數(shù)的值是同會(huì)話片段向量u相似度最大的中心向量。

聚類支持函數(shù)是從用戶聚類的角度來(lái)考慮預(yù)期的推薦網(wǎng)頁(yè),即用當(dāng)前的會(huì)話片段向量距離最近的聚類中心的屬性來(lái)考慮對(duì)網(wǎng)頁(yè)p的支持程度。

點(diǎn)擊率:

其中Ci是經(jīng)過(guò)預(yù)處理后,用戶對(duì)編號(hào)為i的網(wǎng)頁(yè)的總訪問(wèn)次數(shù)。Cp是經(jīng)過(guò)預(yù)處理后,用戶對(duì)網(wǎng)頁(yè)p的總訪問(wèn)次數(shù)。點(diǎn)擊率函數(shù)參照了網(wǎng)頁(yè)p原來(lái)被訪問(wèn)的數(shù)據(jù),從概率的角度來(lái)考慮網(wǎng)頁(yè)p被再次訪問(wèn)的可能性。

打分函數(shù): f(p,pl,u)=S_cluster(u,p)×S_click(p)×sim(p,pl)

其中pl是會(huì)話u最近訪問(wèn)的頁(yè)面。p是當(dāng)前需要打分的頁(yè)面。sim(p,pl)是網(wǎng)頁(yè)p和網(wǎng)頁(yè)pl的相似度。

有了打分函數(shù),就可以對(duì)一個(gè)具體的用戶推薦網(wǎng)頁(yè)。對(duì)于一個(gè)當(dāng)前需要推薦網(wǎng)頁(yè)的用戶,首先提取他的訪問(wèn)會(huì)話片段向量u。然后,從數(shù)據(jù)庫(kù)中得到會(huì)話聚類分析的結(jié)果,計(jì)算出距離當(dāng)前用戶最近那一個(gè)聚類簇C,計(jì)算C的聚類中心,根據(jù)日志中的時(shí)間屬性,找到會(huì)話中的最后訪問(wèn)網(wǎng)頁(yè)pl。假定網(wǎng)頁(yè)pl所屬的網(wǎng)頁(yè)聚類為K,對(duì)于推薦網(wǎng)頁(yè)集合中每一個(gè)網(wǎng)頁(yè)根據(jù)打分函數(shù)的定義,計(jì)算它的得分,最后按照得分的高低對(duì)所有打分后的網(wǎng)頁(yè)進(jìn)行排序,將排序在前面的網(wǎng)頁(yè)推薦給用戶U。

5.總結(jié)

本文采用K-均值聚類算法對(duì)Web日志中的用戶和頁(yè)面進(jìn)行聚類,并將聚類結(jié)果用戶網(wǎng)頁(yè)推薦。在網(wǎng)頁(yè)推薦過(guò)程我們運(yùn)用打分函數(shù)對(duì)網(wǎng)頁(yè)進(jìn)行排序,把分?jǐn)?shù)的較高的網(wǎng)頁(yè)推薦給網(wǎng)頁(yè),這樣更能滿足用戶的需要。

參考文獻(xiàn)

[1] 陳安,陳寧,周龍?bào)J.數(shù)據(jù)挖掘技術(shù)及應(yīng)用.北京:科學(xué)出版社.2006.3

[2] 康曉東.基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)挖掘技術(shù).北京:機(jī)械工業(yè)出版社.2004

[3] 王春霞.基于Web日志的挖掘研究[D].鄭州大學(xué).2003

[4] 范明.聚類算法在Web挖掘中的應(yīng)用[D].西北工業(yè)大學(xué).2007

[5] 付國(guó)瑜. 基于Web日志的數(shù)據(jù)挖掘研究[D].重慶大學(xué).2007

作者簡(jiǎn)介:

令狐紅英(1982—— ),女,貴州師范學(xué)院教師,講師,主要研究方向?yàn)閿?shù)據(jù)庫(kù)技術(shù)與軟件工程。

猜你喜歡
means算法
機(jī)器學(xué)習(xí)中K—means聚類算法的分析和應(yīng)用
應(yīng)用K—means聚類算法劃分曲面及實(shí)驗(yàn)驗(yàn)證
K—Means算法及其在卷煙零售門店庫(kù)存聚類分析中的應(yīng)用
SIFT算法在木材紋理分類上的應(yīng)用
基于K—Means聚類算法入侵檢測(cè)系統(tǒng)研究
基于聚類算法的DNS攻擊檢測(cè)
基于譜聚類的網(wǎng)絡(luò)入侵檢測(cè)算法研究
基于Weka的Apriori算法在原油產(chǎn)量預(yù)測(cè)中的應(yīng)用
基于HSI顏色空間的小麥粉精度自動(dòng)識(shí)別研究
基于百度地圖的改進(jìn)的K—means算法研究
軟件(2016年1期)2016-03-08 18:48:49
萨嘎县| 义马市| 武山县| 萝北县| 邢台市| 卢氏县| 昌黎县| 南召县| 临洮县| 遂昌县| 灵川县| 志丹县| 勃利县| 和硕县| 安西县| 同江市| 磐石市| 二连浩特市| 荔波县| 南郑县| 高陵县| 平乐县| 海安县| 扶余县| 南木林县| 平昌县| 太湖县| 乌苏市| 鹤峰县| 陈巴尔虎旗| 屏边| 东安县| 临猗县| 舞钢市| 西吉县| 林口县| 普兰店市| 崇明县| 河北省| 南投市| 津市市|