国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類挖掘技術(shù)在電子商務(wù)網(wǎng)站中的應(yīng)用

2014-07-13 11:46:08李斌
電腦知識(shí)與技術(shù) 2014年5期
關(guān)鍵詞:數(shù)據(jù)挖掘

李斌

摘要:數(shù)據(jù)挖掘技術(shù)是一種新的信息處理技術(shù)。其目的是從海量數(shù)據(jù)中抽取潛在的,有價(jià)值的數(shù)據(jù)規(guī)律或數(shù)據(jù)模型。通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)電子商務(wù)網(wǎng)站數(shù)據(jù)的分析處理,結(jié)合客戶關(guān)系管理策略,建立反映客戶個(gè)性特征的客戶特征模型,建立動(dòng)態(tài)適應(yīng)性的服務(wù)機(jī)制,有效地為不同類型的客戶進(jìn)行個(gè)性化服務(wù)。該文主要將聚類技術(shù)應(yīng)用到電子商務(wù)網(wǎng)站,通過(guò)建立商品數(shù)據(jù)庫(kù),利用頻繁項(xiàng)集的方法得到客戶聚類向量,計(jì)算出客戶的相異度矩陣,用聚類技術(shù)實(shí)現(xiàn)客戶的分類。

關(guān)鍵詞:數(shù)據(jù)挖掘;客戶特征;聚類技術(shù)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)05-1147-03

1 聚類分析算法的簡(jiǎn)述

聚類分析(Cluster Analysis)是數(shù)理統(tǒng)計(jì)中專門研究“物以類聚”的一種方法,它具有以下三個(gè)要點(diǎn):選定某種距離度量作為樣本間的相似性度量;確定某個(gè)評(píng)價(jià)聚類結(jié)果的準(zhǔn)則函數(shù);給定某個(gè)初始分類,然后用迭代算法找出使準(zhǔn)則函數(shù)取極值的最好聚類結(jié)果。關(guān)于數(shù)據(jù)挖掘中的聚類算法有很多種[32],其中最經(jīng)典的就是屬于劃分方法的K-means(K-平均值)的算法。

2 聚類分析算法的數(shù)據(jù)類型

聚類算法通常都采用以下兩種數(shù)據(jù)結(jié)構(gòu)

1)數(shù)據(jù)矩陣:這種數(shù)據(jù)結(jié)構(gòu)是關(guān)系表的形式,用p個(gè)變量(屬性)來(lái)表現(xiàn)n個(gè)對(duì)象,可以看成n×p(n個(gè)對(duì)象×p個(gè)變量)的矩陣

[x11…x1f…x1p? … ? ….?xi1…xif….xip? … ? …?xn1…xnf….xnp]

2) 相異度矩陣:或稱對(duì)象-對(duì)象結(jié)構(gòu),存儲(chǔ)n個(gè)對(duì)象兩兩之間的近似性,表現(xiàn)形式是一個(gè)n×p的矩陣。

[0d(2,1) 0d(3,1) d(3,2) 0 ? ? ?d(n,1) d(n,2) …. … 0]

在這里,d(i,j)是對(duì)象i和j之間相異性的量化表示,當(dāng)對(duì)象i和j越相似,其值越接近0,兩個(gè)對(duì)象越不同,其值越大。在經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化處理后,對(duì)象間的相異度是基于對(duì)象間的距離來(lái)計(jì)算的。最常用的距離度量方法是歐幾里得距離,它的定義如下:

[d(i,j)=xi1-xj12+xi2-xj22+…+xip-xjp2]

這里的i=(xi1,xi2 ,…,xip)和j=(xj1,xj2 ,…,xjp)是兩個(gè)p維的數(shù)據(jù)對(duì)象。

3 K-means算法的工作原理

K-means 算法[33,34]由J.B.MacQueen在1967年提出,常采用誤差平方和準(zhǔn)則函數(shù)作為聚類準(zhǔn)則函數(shù)。K-means算法的主要過(guò)程:首先隨機(jī)從數(shù)據(jù)集中選取 K 個(gè)對(duì)象作為初始聚類中心,然后計(jì)算剩下的各個(gè)其它樣本對(duì)象到聚類中心的相似度(距離),分別將它們分配給離它最近的那個(gè)聚類中心所在的類。計(jì)算新形成的每一個(gè)聚類的數(shù)據(jù)對(duì)象的平均值來(lái)得到新的聚類中心,不斷重復(fù)這個(gè)過(guò)程直到標(biāo)準(zhǔn)測(cè)度函數(shù)J收斂為止(如果相鄰兩次的聚類中心沒(méi)有任何變化,說(shuō)明樣本調(diào)整結(jié)束,聚類準(zhǔn)則函數(shù)Jc 已經(jīng)收斂,算法結(jié)束)。

K-means 的算法過(guò)程:

輸入:聚類個(gè)數(shù) k 和包含 n 個(gè)對(duì)象的樣本集。

輸出:滿足方差最小標(biāo)準(zhǔn)的 k 個(gè)聚類。

方法:

1)從 n 個(gè)數(shù)據(jù)對(duì)象中任意選擇 k 個(gè)對(duì)象作為初始聚類中心;

2) 循環(huán)下述流程(3)到(4),直到每個(gè)聚類不再發(fā)生變化為止;

3) 根據(jù)每個(gè)聚類中所有對(duì)象的均值(中心對(duì)象),計(jì)算樣本集中每個(gè)對(duì)象與這些中心對(duì)象的距離,并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分將每個(gè)對(duì)象重新賦給最相似的簇;

4)重新計(jì)算每個(gè)(有變化)聚類的均值。

4 聚類挖掘在電子商務(wù)網(wǎng)站中的應(yīng)用

利用聚類方法可以對(duì)客戶在各商品特征上的重視度情況進(jìn)行分析,并將商品特征重視度類似的客戶分到相同的類別中去,進(jìn)而從中找出客戶之間未知的現(xiàn)象及關(guān)系,智能地在各種商品特征中找出最適合客戶所需的商品,減少客戶自己尋找商品特征上所花的時(shí)間及盲目性,避免客戶迷航。

現(xiàn)通過(guò)一個(gè)例子來(lái)說(shuō)明如何在電子商務(wù)平臺(tái)中使用聚類技術(shù)來(lái)實(shí)現(xiàn)客戶分類和商品特征的智能推薦。

假設(shè)在商品數(shù)據(jù)庫(kù)中有客戶甲的4次記錄,如表1。

表1 客戶甲商品的重視度記錄

[序 號(hào)\&商品的重視度\&第1次\&A,C,D,E,F(xiàn)\&第2次\&B,D,F(xiàn),G\&第3次\&A,B,E\&第4次\&A,D,E,F(xiàn)\&]

按照關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的方法找到客戶甲對(duì)商品重視度的頻繁項(xiàng)集以此作為客戶甲的進(jìn)行聚類分類的特征向量,過(guò)程如圖1,設(shè)最小支持度計(jì)數(shù)為3。

圖1 尋找客戶甲商品重視度特征項(xiàng)集

從以上過(guò)程發(fā)現(xiàn)客戶甲對(duì)于商品特征的重視度偏向于{A,E}{D,F(xiàn)},據(jù)此可得客戶甲的聚類規(guī)則向量如表2(a),同理可得到客戶乙、丙、丁對(duì)于重視度的商品特征偏向和聚類規(guī)則向量分別如表2(b),表2(c)和表2(d)。

根據(jù)歐幾里得距離公式,可以計(jì)算出四個(gè)客戶的相異度矩陣,如圖2所示。

由此可知,甲和丁之間的歐幾里得距離最小,所以甲較類似于丁。如果定義將d<=2的分為一類,按上述方法反復(fù)進(jìn)行,直到達(dá)到聚類分類的要求,即可形成客戶分類圖如圖3所示。

將所有客戶按上述方法聚類后,當(dāng)某客戶進(jìn)入商品系統(tǒng)時(shí),在該客戶同類別中隨機(jī)抽取一個(gè)客戶,與該客戶進(jìn)行對(duì)比,即可知將向該客戶推薦的商品特征。本例中,如果客戶甲已評(píng)價(jià)“特征A,特征C,特征D,特征F”,客戶丁評(píng)價(jià)了“特征C,特征D,特征G”,則可將“特征G”自動(dòng)推薦給客戶甲,將“特征A,特征F”推薦給客戶丁。

從以上所述可以看到,通過(guò)建立客戶商品特征偏好得到客戶聚類向量,再使用聚類方法便可將客戶進(jìn)行分類,進(jìn)而達(dá)到智能推薦商品的目的。在此可使用典型的K-means算法來(lái)實(shí)現(xiàn)。

參考文獻(xiàn):

[1] Goebel M,Gruenwald L.A survey of data mining and knowledge discovery software tools[J].SIGKDD Explorations, l999: 20-33.

[2] Cooley R,Mobasher B,Srivastava J.Data preparation for mining world wide web browsing patterns[J].Knowledge and Information Systems,1999(1): 5-32.

[3] Suhail Ansari, Ron Kohavietal. Integrating E-Commerce and Data Mining Architecture and Challenges[J].WEBKDD 2000, 2000: 37-39.

[4] Nordine Melab. Data Mining A key contribution to E-business[J].Information&Communications Technology Law,2001,10(3): 309-318.

[5] 陶樹(shù)平,屠穎.關(guān)聯(lián)規(guī)則和分類規(guī)則挖掘算法的改進(jìn)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,2003(15): 104-105.

[6] 朱明.數(shù)據(jù)挖掘[M].1版.北京:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002: 5-17, 139-140, 154-157.

[7] La Jolla. Alternatives to the k-means algorithm that find better clustering[J].Proceeding of ACM SIGMOD, 1992:192-195.

[8] Zaki M J,Parthasarathy S, Li W.A localized algorithm for parallel association mining[C].9th Annual ACM Symposium on Parallel Algorithms and Architectures, Newport, Rhode Island, 1997:28-29.

猜你喜歡
數(shù)據(jù)挖掘
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費(fèi)中的應(yīng)用淺析
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
河南科技(2014年19期)2014-02-27 14:15:26
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)LIS數(shù)據(jù)共享的開(kāi)發(fā)實(shí)踐
高級(jí)數(shù)據(jù)挖掘與應(yīng)用國(guó)際學(xué)術(shù)會(huì)議
昭平县| 堆龙德庆县| 江北区| 永寿县| 墨江| 桦川县| 阳城县| 阜平县| 大厂| 凭祥市| 伊金霍洛旗| 张家川| 梁河县| 陈巴尔虎旗| 犍为县| 务川| 交城县| 武汉市| 汉中市| 西盟| 伽师县| 宾川县| 保山市| 普宁市| 庆云县| 长兴县| 东丽区| 甘洛县| 奉贤区| 三江| 日喀则市| 遂川县| 武邑县| 雷州市| 宕昌县| 灵璧县| 平利县| 文安县| 邓州市| 晋江市| 洪洞县|