基于聚類挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用

2014-07-13 11:46:08李斌

電腦知識(shí)與技術(shù) 2014年5期

李斌

摘要：數(shù)據(jù)挖掘技術(shù)是一種新的信息處理技術(shù)。其目的是從海量數(shù)據(jù)中抽取潛在的，有價(jià)值的數(shù)據(jù)規(guī)律或數(shù)據(jù)模型。通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)電子商務(wù)網(wǎng)站數(shù)據(jù)的分析處理，結(jié)合客戶關(guān)系管理策略，建立反映客戶個(gè)性特征的客戶特征模型，建立動(dòng)態(tài)適應(yīng)性的服務(wù)機(jī)制，有效地為不同類型的客戶進(jìn)行個(gè)性化服務(wù)。該文主要將聚類技術(shù)應(yīng)用到電子商務(wù)網(wǎng)站，通過(guò)建立商品數(shù)據(jù)庫(kù)，利用頻繁項(xiàng)集的方法得到客戶聚類向量，計(jì)算出客戶的相異度矩陣，用聚類技術(shù)實(shí)現(xiàn)客戶的分類。

關(guān)鍵詞：數(shù)據(jù)挖掘；客戶特征；聚類技術(shù)

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2014）05-1147-03

1 聚類分析算法的簡(jiǎn)述

聚類分析（Cluster Analysis）是數(shù)理統(tǒng)計(jì)中專門研究“物以類聚”的一種方法，它具有以下三個(gè)要點(diǎn)：選定某種距離度量作為樣本間的相似性度量；確定某個(gè)評(píng)價(jià)聚類結(jié)果的準(zhǔn)則函數(shù)；給定某個(gè)初始分類，然后用迭代算法找出使準(zhǔn)則函數(shù)取極值的最好聚類結(jié)果。關(guān)于數(shù)據(jù)挖掘中的聚類算法有很多種[32]，其中最經(jīng)典的就是屬于劃分方法的K-means（K-平均值）的算法。

2 聚類分析算法的數(shù)據(jù)類型

聚類算法通常都采用以下兩種數(shù)據(jù)結(jié)構(gòu)

1）數(shù)據(jù)矩陣：這種數(shù)據(jù)結(jié)構(gòu)是關(guān)系表的形式，用p個(gè)變量（屬性）來(lái)表現(xiàn)n個(gè)對(duì)象，可以看成n×p（n個(gè)對(duì)象×p個(gè)變量）的矩陣

[x11…x1f…x1p? … ? ….?xi1…xif….xip? … ? …?xn1…xnf….xnp]

2）相異度矩陣：或稱對(duì)象-對(duì)象結(jié)構(gòu)，存儲(chǔ)n個(gè)對(duì)象兩兩之間的近似性，表現(xiàn)形式是一個(gè)n×p的矩陣。

[0d（2，1） 0d（3，1） d（3，2） 0 ? ? ?d（n，1） d（n，2） …. … 0]

在這里，d（i，j）是對(duì)象i和j之間相異性的量化表示，當(dāng)對(duì)象i和j越相似，其值越接近0，兩個(gè)對(duì)象越不同，其值越大。在經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化處理后，對(duì)象間的相異度是基于對(duì)象間的距離來(lái)計(jì)算的。最常用的距離度量方法是歐幾里得距離，它的定義如下：

[d（i，j）=xi1-xj12+xi2-xj22+…+xip-xjp2]

這里的i=（xi1，xi2 ，…，xip）和j=（xj1，xj2 ，…，xjp）是兩個(gè)p維的數(shù)據(jù)對(duì)象。

3 K-means算法的工作原理

K-means 算法[33，34]由J.B.MacQueen在1967年提出，常采用誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù)。K-means算法的主要過(guò)程：首先隨機(jī)從數(shù)據(jù)集中選取 K 個(gè)對(duì)象作為初始聚類中心，然后計(jì)算剩下的各個(gè)其它樣本對(duì)象到聚類中心的相似度（距離），分別將它們分配給離它最近的那個(gè)聚類中心所在的類。計(jì)算新形成的每一個(gè)聚類的數(shù)據(jù)對(duì)象的平均值來(lái)得到新的聚類中心，不斷重復(fù)這個(gè)過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)J收斂為止（如果相鄰兩次的聚類中心沒(méi)有任何變化，說(shuō)明樣本調(diào)整結(jié)束，聚類準(zhǔn)則函數(shù)Jc 已經(jīng)收斂，算法結(jié)束）。

K-means 的算法過(guò)程：

輸入：聚類個(gè)數(shù) k 和包含 n 個(gè)對(duì)象的樣本集。

輸出：滿足方差最小標(biāo)準(zhǔn)的 k 個(gè)聚類。

方法：

1）從 n 個(gè)數(shù)據(jù)對(duì)象中任意選擇 k 個(gè)對(duì)象作為初始聚類中心；

2）循環(huán)下述流程（3）到（4），直到每個(gè)聚類不再發(fā)生變化為止；

3）根據(jù)每個(gè)聚類中所有對(duì)象的均值（中心對(duì)象），計(jì)算樣本集中每個(gè)對(duì)象與這些中心對(duì)象的距離，并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分將每個(gè)對(duì)象重新賦給最相似的簇；

4）重新計(jì)算每個(gè)（有變化）聚類的均值。

4 聚類挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用

利用聚類方法可以對(duì)客戶在各商品特征上的重視度情況進(jìn)行分析，并將商品特征重視度類似的客戶分到相同的類別中去，進(jìn)而從中找出客戶之間未知的現(xiàn)象及關(guān)系，智能地在各種商品特征中找出最適合客戶所需的商品，減少客戶自己尋找商品特征上所花的時(shí)間及盲目性，避免客戶迷航。

現(xiàn)通過(guò)一個(gè)例子來(lái)說(shuō)明如何在電子商務(wù)平臺(tái)中使用聚類技術(shù)來(lái)實(shí)現(xiàn)客戶分類和商品特征的智能推薦。

假設(shè)在商品數(shù)據(jù)庫(kù)中有客戶甲的4次記錄，如表1。

表1 客戶甲商品的重視度記錄

[序號(hào)＼&商品的重視度＼&第1次＼&A，C，D，E，F(xiàn)＼&第2次＼&B，D，F(xiàn)，G＼&第3次＼&A，B，E＼&第4次＼&A，D，E，F(xiàn)＼&]

按照關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的方法找到客戶甲對(duì)商品重視度的頻繁項(xiàng)集以此作為客戶甲的進(jìn)行聚類分類的特征向量，過(guò)程如圖1，設(shè)最小支持度計(jì)數(shù)為3。

圖1 尋找客戶甲商品重視度特征項(xiàng)集

從以上過(guò)程發(fā)現(xiàn)客戶甲對(duì)于商品特征的重視度偏向于{A，E}{D，F(xiàn)}，據(jù)此可得客戶甲的聚類規(guī)則向量如表2（a），同理可得到客戶乙、丙、丁對(duì)于重視度的商品特征偏向和聚類規(guī)則向量分別如表2（b），表2（c）和表2（d）。

根據(jù)歐幾里得距離公式，可以計(jì)算出四個(gè)客戶的相異度矩陣，如圖2所示。

由此可知，甲和丁之間的歐幾里得距離最小，所以甲較類似于丁。如果定義將d<=2的分為一類，按上述方法反復(fù)進(jìn)行，直到達(dá)到聚類分類的要求，即可形成客戶分類圖如圖3所示。

將所有客戶按上述方法聚類后，當(dāng)某客戶進(jìn)入商品系統(tǒng)時(shí)，在該客戶同類別中隨機(jī)抽取一個(gè)客戶，與該客戶進(jìn)行對(duì)比，即可知將向該客戶推薦的商品特征。本例中，如果客戶甲已評(píng)價(jià)“特征A，特征C，特征D，特征F”，客戶丁評(píng)價(jià)了“特征C，特征D，特征G”，則可將“特征G”自動(dòng)推薦給客戶甲，將“特征A，特征F”推薦給客戶丁。

從以上所述可以看到，通過(guò)建立客戶商品特征偏好得到客戶聚類向量，再使用聚類方法便可將客戶進(jìn)行分類，進(jìn)而達(dá)到智能推薦商品的目的。在此可使用典型的K-means算法來(lái)實(shí)現(xiàn)。

參考文獻(xiàn)：

[1] Goebel M，Gruenwald L.A survey of data mining and knowledge discovery software tools[J].SIGKDD Explorations， l999： 20-33.

[2] Cooley R，Mobasher B，Srivastava J.Data preparation for mining world wide web browsing patterns[J].Knowledge and Information Systems，1999（1）： 5-32.

[3] Suhail Ansari， Ron Kohavietal. Integrating E-Commerce and Data Mining Architecture and Challenges[J].WEBKDD 2000， 2000： 37-39.

[4] Nordine Melab. Data Mining A key contribution to E-business[J].Information&Communications Technology Law，2001，10（3）： 309-318.

[5] 陶樹(shù)平，屠穎.關(guān)聯(lián)規(guī)則和分類規(guī)則挖掘算法的改進(jìn)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程，2003（15）： 104-105.

[6] 朱明.數(shù)據(jù)挖掘[M].1版.北京：中國(guó)科學(xué)技術(shù)大學(xué)出版社，2002： 5-17， 139-140， 154-157.

[7] La Jolla. Alternatives to the k-means algorithm that find better clustering[J].Proceeding of ACM SIGMOD， 1992：192-195.

[8] Zaki M J，Parthasarathy S， Li W.A localized algorithm for parallel association mining[C].9th Annual ACM Symposium on Parallel Algorithms and Architectures， Newport， Rhode Island， 1997：28-29.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于聚類挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用