李斌
摘要:數(shù)據(jù)挖掘技術(shù)是一種新的信息處理技術(shù)。其目的是從海量數(shù)據(jù)中抽取潛在的,有價(jià)值的數(shù)據(jù)規(guī)律或數(shù)據(jù)模型。通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)電子商務(wù)網(wǎng)站數(shù)據(jù)的分析處理,結(jié)合客戶關(guān)系管理策略,建立反映客戶個(gè)性特征的客戶特征模型,建立動(dòng)態(tài)適應(yīng)性的服務(wù)機(jī)制,有效地為不同類型的客戶進(jìn)行個(gè)性化服務(wù)。該文主要將聚類技術(shù)應(yīng)用到電子商務(wù)網(wǎng)站,通過(guò)建立商品數(shù)據(jù)庫(kù),利用頻繁項(xiàng)集的方法得到客戶聚類向量,計(jì)算出客戶的相異度矩陣,用聚類技術(shù)實(shí)現(xiàn)客戶的分類。
關(guān)鍵詞:數(shù)據(jù)挖掘;客戶特征;聚類技術(shù)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)05-1147-03
1 聚類分析算法的簡(jiǎn)述
聚類分析(Cluster Analysis)是數(shù)理統(tǒng)計(jì)中專門研究“物以類聚”的一種方法,它具有以下三個(gè)要點(diǎn):選定某種距離度量作為樣本間的相似性度量;確定某個(gè)評(píng)價(jià)聚類結(jié)果的準(zhǔn)則函數(shù);給定某個(gè)初始分類,然后用迭代算法找出使準(zhǔn)則函數(shù)取極值的最好聚類結(jié)果。關(guān)于數(shù)據(jù)挖掘中的聚類算法有很多種[32],其中最經(jīng)典的就是屬于劃分方法的K-means(K-平均值)的算法。
2 聚類分析算法的數(shù)據(jù)類型
聚類算法通常都采用以下兩種數(shù)據(jù)結(jié)構(gòu)
1)數(shù)據(jù)矩陣:這種數(shù)據(jù)結(jié)構(gòu)是關(guān)系表的形式,用p個(gè)變量(屬性)來(lái)表現(xiàn)n個(gè)對(duì)象,可以看成n×p(n個(gè)對(duì)象×p個(gè)變量)的矩陣
[x11…x1f…x1p? … ? ….?xi1…xif….xip? … ? …?xn1…xnf….xnp]
2) 相異度矩陣:或稱對(duì)象-對(duì)象結(jié)構(gòu),存儲(chǔ)n個(gè)對(duì)象兩兩之間的近似性,表現(xiàn)形式是一個(gè)n×p的矩陣。
[0d(2,1) 0d(3,1) d(3,2) 0 ? ? ?d(n,1) d(n,2) …. … 0]
在這里,d(i,j)是對(duì)象i和j之間相異性的量化表示,當(dāng)對(duì)象i和j越相似,其值越接近0,兩個(gè)對(duì)象越不同,其值越大。在經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化處理后,對(duì)象間的相異度是基于對(duì)象間的距離來(lái)計(jì)算的。最常用的距離度量方法是歐幾里得距離,它的定義如下:
[d(i,j)=xi1-xj12+xi2-xj22+…+xip-xjp2]
這里的i=(xi1,xi2 ,…,xip)和j=(xj1,xj2 ,…,xjp)是兩個(gè)p維的數(shù)據(jù)對(duì)象。
3 K-means算法的工作原理
K-means 算法[33,34]由J.B.MacQueen在1967年提出,常采用誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù)。K-means算法的主要過(guò)程:首先隨機(jī)從數(shù)據(jù)集中選取 K 個(gè)對(duì)象作為初始聚類中心,然后計(jì)算剩下的各個(gè)其它樣本對(duì)象到聚類中心的相似度(距離),分別將它們分配給離它最近的那個(gè)聚類中心所在的類。計(jì)算新形成的每一個(gè)聚類的數(shù)據(jù)對(duì)象的平均值來(lái)得到新的聚類中心,不斷重復(fù)這個(gè)過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)J收斂為止(如果相鄰兩次的聚類中心沒(méi)有任何變化,說(shuō)明樣本調(diào)整結(jié)束,聚類準(zhǔn)則函數(shù)Jc 已經(jīng)收斂,算法結(jié)束)。
K-means 的算法過(guò)程:
輸入:聚類個(gè)數(shù) k 和包含 n 個(gè)對(duì)象的樣本集。
輸出:滿足方差最小標(biāo)準(zhǔn)的 k 個(gè)聚類。
方法:
1)從 n 個(gè)數(shù)據(jù)對(duì)象中任意選擇 k 個(gè)對(duì)象作為初始聚類中心;
2) 循環(huán)下述流程(3)到(4),直到每個(gè)聚類不再發(fā)生變化為止;
3) 根據(jù)每個(gè)聚類中所有對(duì)象的均值(中心對(duì)象),計(jì)算樣本集中每個(gè)對(duì)象與這些中心對(duì)象的距離,并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分將每個(gè)對(duì)象重新賦給最相似的簇;
4)重新計(jì)算每個(gè)(有變化)聚類的均值。
4 聚類挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用
利用聚類方法可以對(duì)客戶在各商品特征上的重視度情況進(jìn)行分析,并將商品特征重視度類似的客戶分到相同的類別中去,進(jìn)而從中找出客戶之間未知的現(xiàn)象及關(guān)系,智能地在各種商品特征中找出最適合客戶所需的商品,減少客戶自己尋找商品特征上所花的時(shí)間及盲目性,避免客戶迷航。
現(xiàn)通過(guò)一個(gè)例子來(lái)說(shuō)明如何在電子商務(wù)平臺(tái)中使用聚類技術(shù)來(lái)實(shí)現(xiàn)客戶分類和商品特征的智能推薦。
假設(shè)在商品數(shù)據(jù)庫(kù)中有客戶甲的4次記錄,如表1。
表1 客戶甲商品的重視度記錄
[序 號(hào)\&商品的重視度\&第1次\&A,C,D,E,F(xiàn)\&第2次\&B,D,F(xiàn),G\&第3次\&A,B,E\&第4次\&A,D,E,F(xiàn)\&]
按照關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的方法找到客戶甲對(duì)商品重視度的頻繁項(xiàng)集以此作為客戶甲的進(jìn)行聚類分類的特征向量,過(guò)程如圖1,設(shè)最小支持度計(jì)數(shù)為3。
圖1 尋找客戶甲商品重視度特征項(xiàng)集
從以上過(guò)程發(fā)現(xiàn)客戶甲對(duì)于商品特征的重視度偏向于{A,E}{D,F(xiàn)},據(jù)此可得客戶甲的聚類規(guī)則向量如表2(a),同理可得到客戶乙、丙、丁對(duì)于重視度的商品特征偏向和聚類規(guī)則向量分別如表2(b),表2(c)和表2(d)。
根據(jù)歐幾里得距離公式,可以計(jì)算出四個(gè)客戶的相異度矩陣,如圖2所示。
由此可知,甲和丁之間的歐幾里得距離最小,所以甲較類似于丁。如果定義將d<=2的分為一類,按上述方法反復(fù)進(jìn)行,直到達(dá)到聚類分類的要求,即可形成客戶分類圖如圖3所示。
將所有客戶按上述方法聚類后,當(dāng)某客戶進(jìn)入商品系統(tǒng)時(shí),在該客戶同類別中隨機(jī)抽取一個(gè)客戶,與該客戶進(jìn)行對(duì)比,即可知將向該客戶推薦的商品特征。本例中,如果客戶甲已評(píng)價(jià)“特征A,特征C,特征D,特征F”,客戶丁評(píng)價(jià)了“特征C,特征D,特征G”,則可將“特征G”自動(dòng)推薦給客戶甲,將“特征A,特征F”推薦給客戶丁。
從以上所述可以看到,通過(guò)建立客戶商品特征偏好得到客戶聚類向量,再使用聚類方法便可將客戶進(jìn)行分類,進(jìn)而達(dá)到智能推薦商品的目的。在此可使用典型的K-means算法來(lái)實(shí)現(xiàn)。
參考文獻(xiàn):
[1] Goebel M,Gruenwald L.A survey of data mining and knowledge discovery software tools[J].SIGKDD Explorations, l999: 20-33.
[2] Cooley R,Mobasher B,Srivastava J.Data preparation for mining world wide web browsing patterns[J].Knowledge and Information Systems,1999(1): 5-32.
[3] Suhail Ansari, Ron Kohavietal. Integrating E-Commerce and Data Mining Architecture and Challenges[J].WEBKDD 2000, 2000: 37-39.
[4] Nordine Melab. Data Mining A key contribution to E-business[J].Information&Communications Technology Law,2001,10(3): 309-318.
[5] 陶樹(shù)平,屠穎.關(guān)聯(lián)規(guī)則和分類規(guī)則挖掘算法的改進(jìn)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2003(15): 104-105.
[6] 朱明.數(shù)據(jù)挖掘[M].1版.北京:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002: 5-17, 139-140, 154-157.
[7] La Jolla. Alternatives to the k-means algorithm that find better clustering[J].Proceeding of ACM SIGMOD, 1992:192-195.
[8] Zaki M J,Parthasarathy S, Li W.A localized algorithm for parallel association mining[C].9th Annual ACM Symposium on Parallel Algorithms and Architectures, Newport, Rhode Island, 1997:28-29.