張勇杰,楊鵬飛,段 群,韓麗娜
(咸陽師范學(xué)院計(jì)算機(jī)學(xué)院,咸陽 712000)
?
基于關(guān)聯(lián)規(guī)則的商品智能推薦算法
張勇杰,楊鵬飛,段群,韓麗娜
(咸陽師范學(xué)院計(jì)算機(jī)學(xué)院,咸陽712000)
摘要:目前越來越多的消費(fèi)者通過電子商務(wù)平臺(tái)購買商品,但是網(wǎng)絡(luò)購物系統(tǒng)提供大量的商品信息,這使得顧客無法快速地找到自己所需的商品。利用關(guān)聯(lián)規(guī)則算法完成商品的智能推薦,通過對(duì)用戶的歷史購買記錄進(jìn)行分析,挖掘出客戶的購買興趣,向用戶推薦相應(yīng)的關(guān)聯(lián)購買商品。實(shí)驗(yàn)仿真結(jié)果表明,該文提出的算法是有效的、可行的,為用戶購買商品提供一定的輔助決策作用。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;商品推薦;數(shù)據(jù)挖掘
隨著互聯(lián)網(wǎng)和電子商務(wù)平臺(tái)的廣泛應(yīng)用,通過網(wǎng)絡(luò)購物已經(jīng)成為廣大消費(fèi)者購買商品的主要形式之一[1-2]。但是,網(wǎng)絡(luò)信息過量給用戶帶來了很多不便,用戶不得不面對(duì)不同購物網(wǎng)站產(chǎn)生的大量信息,花費(fèi)大量時(shí)間瀏覽或購買所需的商品?;谏鲜鰡栴},用戶急需購物網(wǎng)站或系統(tǒng)具有商品智能推薦服務(wù)[3-4]。因此,本文給出了一個(gè)基于關(guān)聯(lián)規(guī)則的商品智能推薦算法,算法通過對(duì)用戶瀏覽和購買的商品信息進(jìn)行分析,利用關(guān)聯(lián)規(guī)則中的Apriori算法挖掘商品之間的關(guān)聯(lián)關(guān)系,為用戶推薦喜歡的商品,達(dá)到輔助用戶決策的作用。
關(guān)聯(lián)規(guī)則概念[5]是由Agrawal、Imielinski和Swami等人提出的,是為了尋找大量商務(wù)數(shù)據(jù)庫中項(xiàng)集之間的有趣聯(lián)系,用來發(fā)現(xiàn)在同一事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,即找出事務(wù)中頻繁發(fā)生的項(xiàng)或?qū)傩缘乃凶蛹?,以及?xiàng)目之間的相互關(guān)聯(lián)性。它的原理可描述為:設(shè)項(xiàng)目集合I={i1,i2,…,im}由m個(gè)不同的項(xiàng)目組成,D是一個(gè)事務(wù)數(shù)據(jù)庫,D中的每個(gè)事務(wù)是I的一個(gè)子集。一個(gè)項(xiàng)目的集合稱為項(xiàng)集,包含k個(gè)項(xiàng)目的集合稱為k項(xiàng)集,項(xiàng)集X的支持度,記為s(X),表示包含該項(xiàng)集的交易數(shù)據(jù)的條數(shù),如果一個(gè)項(xiàng)集的支持度大于用戶指定的最小支持度(min_sup),則稱它是頻繁的,長(zhǎng)度為k的頻繁項(xiàng)集稱為頻繁k項(xiàng)集,一個(gè)頻繁項(xiàng)集也稱為頻繁模式。關(guān)聯(lián)規(guī)則是形如A=>B的蘊(yùn)涵式,其中A∈I, B∈I,并且A∩B=?,規(guī)則A=>B的支持度s(A=>B)定義為中包含A∪B的事務(wù)所占的百分比,表示項(xiàng)集A∪B在D中出現(xiàn)的概率。規(guī)則A=>B的置信度c(min_con)定義為D中包含項(xiàng)集A∪B的事務(wù)數(shù)和包含項(xiàng)集A的事務(wù)數(shù)的比值,表示當(dāng)項(xiàng)集A出現(xiàn)時(shí),項(xiàng)集B出現(xiàn)的概率。置信度大于用戶指定的最小置信度值的規(guī)則是可信的。
關(guān)聯(lián)規(guī)則挖掘的任務(wù)是找到事務(wù)數(shù)據(jù)庫D中支持度和置信度分別滿足用戶指定的最小支持度min_sup和最小置信度min_con的規(guī)則A=>B。關(guān)聯(lián)規(guī)則挖掘問題分為兩個(gè)子問題:(1)找出D中所有的頻繁項(xiàng)集;(2)從頻繁項(xiàng)集中產(chǎn)生關(guān)聯(lián)規(guī)則。
Apriori算法是基于關(guān)聯(lián)規(guī)則常用的方法,此方法在分析的同時(shí)需要產(chǎn)生候選項(xiàng)集。此算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過程分為兩步:第一步是通過迭代,檢索出需測(cè)試的源數(shù)據(jù)中所有頻繁項(xiàng)集,即支持度不低于用戶設(shè)置閾值的項(xiàng)集;第二步是利用第一步中檢索出的頻繁項(xiàng)集構(gòu)造出滿足用戶最小置信度的規(guī)則。
本文從測(cè)試商品購物系統(tǒng)中選取了部分顧客購買記錄,如表1所示,其中I1為香蕉,I2為梨,I3為嬰兒服飾,I4為拖把,I5為蘋果。設(shè)定最小支持度min_sup閾值為0.2,最小置信度min_con閾值為0.7。
表1 部分顧客購買記錄
利用Apriori算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的實(shí)現(xiàn)過程為:
(1)進(jìn)行第一次迭代,首先產(chǎn)生候選項(xiàng)集C1。然后計(jì)算每一個(gè)候選項(xiàng)集的出現(xiàn)次數(shù),計(jì)算支持度。最后選擇支持度>=0.2的項(xiàng)目,生成頻繁項(xiàng)集L1,共含5個(gè)項(xiàng),如表2所示。
表2 候選項(xiàng)集C1、頻繁項(xiàng)集L1
(2)進(jìn)行第二次迭代,使用L1×L1產(chǎn)生候選項(xiàng)集C2。然后計(jì)算每一個(gè)候選項(xiàng)集的出現(xiàn)次數(shù),計(jì)算支持度。最后選擇支持度>=0.2的項(xiàng)目,生成頻繁項(xiàng)集L2,共含8個(gè)項(xiàng),如表3所示。
表3 候選項(xiàng)集C2、頻繁項(xiàng)集L2
(3)進(jìn)行第三次迭代,使用L2×L2產(chǎn)生候選項(xiàng)集C3。然后計(jì)算每一個(gè)候選項(xiàng)集的出現(xiàn)次數(shù),計(jì)算支持度。最后選擇支持度>=0.2的項(xiàng)目,生成頻繁項(xiàng)集L3,共含2個(gè)項(xiàng),如表4所示。因?yàn)橐a(chǎn)生一個(gè)頻繁4的項(xiàng)集,需要至少有3個(gè)長(zhǎng)度為3的子集,而在L3中只有2個(gè)子集,無法產(chǎn)生L4,所有算法停止迭代。
表4 候選項(xiàng)集C3、頻繁項(xiàng)集L3
(4)從頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則。對(duì)L3中的任意一個(gè)頻繁項(xiàng)集,首先計(jì)算它的子集,然后計(jì)算規(guī)則的置信度,最后選擇置信度大于置信度閾值0.7的規(guī)則就是關(guān)聯(lián)規(guī)則,計(jì)算結(jié)果如表5所示。
表5 關(guān)聯(lián)規(guī)則結(jié)果表
其中,推薦結(jié)果顯示,香蕉、梨、蘋果三種水果之間的存在關(guān)聯(lián)規(guī)則,置信度為0.75,所有當(dāng)顧客在購買這三種水果之一時(shí),系統(tǒng)要幫用戶推薦其他另外兩種水果,尤其是當(dāng)顧客購買了香蕉和蘋果時(shí),一定要幫用戶推薦梨,因?yàn)橹眯哦葹?00%。
本文提出的基于關(guān)聯(lián)規(guī)則的商品智能推薦算法經(jīng)仿真實(shí)驗(yàn),推薦準(zhǔn)確率程度較高,不用建立復(fù)雜的用戶度量模型,可行性較高,為商家的管理決策提供數(shù)據(jù)支持,有利于提高服務(wù)水平和質(zhì)量,也為顧客購買商品提供了一定的依據(jù)。
參考文獻(xiàn):
[1]趙耀,薛貴榮. Web Service下的商品推薦系統(tǒng)的研究與實(shí)現(xiàn)[J].臨沂師范學(xué)院學(xué)報(bào),2003,25(6):131-134.
[2]李煊,汪曉研,莊鎮(zhèn)泉.基于關(guān)聯(lián)規(guī)則挖掘的個(gè)性化智能推薦服務(wù)[J].計(jì)算機(jī)工程與應(yīng)用,2002,11:200-204.
[3]謝厚亮,鄧衛(wèi)紅.基于Java的商品智能推薦系統(tǒng)設(shè)計(jì)[J].電腦編程技巧與維護(hù),2014,20:42-44.
[4]丁雪.基于關(guān)聯(lián)規(guī)則的圖書智能推薦系統(tǒng)研究[J].圖書情報(bào)論壇,2010,4:48-52.
[5]張興會(huì).數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京:清華大學(xué)出版社,2014,8:94-101.
楊鵬飛(1995-),男,陜西人,本科,研究方向?yàn)橄到y(tǒng)設(shè)計(jì)與開發(fā)
段群(1980-),女,陜西人,碩士研究生,講師,研究方向?yàn)閳D像處理
韓麗娜(1976-),女,陜西人,碩士研究生,講師,研究方向?yàn)閳D像處理
An Algorithm of Intelligent Recommendation Based on Association Rules
ZHANG Yong-jie,YANG Peng-fei,DUAN Qun,HAN Li-na
(College of Computer Science, Xianyang Normal University,Xianyang 712000)
Abstract:At present, more and more consumers buy goods through the electronic commerce platform, but the online shopping system provides a large of information, which makes the customer can not quickly find their desired goods. Proposes an algorithm of intelligent recommendation based on the association rule. That through the analysis of the user's historical purchase records, mining the customer's purchase interest, to the user to recommend appropriate related to buy goods. Experiments demonstrate that algorithm is applicable and effective, and it provides a certain assistant decision for the purchase of goods.
Keywords:Association Rules; Commodity Recommendation; Data Mining
收稿日期:2015-12-22修稿日期:2016-03-05
作者簡(jiǎn)介:張勇杰(1995-),男,河南人,本科,研究方向?yàn)橄到y(tǒng)設(shè)計(jì)與開發(fā)
文章編號(hào):1007-1423(2016)10-0025-03
DOI:10.3969/j.issn.1007-1423.2016.10.006
基金項(xiàng)目:咸陽師范學(xué)院大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(No.2015005)、陜西省大學(xué)生創(chuàng)新訓(xùn)練項(xiàng)目(No.2097)