国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于劃分的Apriori改進算法在電子商務(wù)中的應(yīng)用

2013-11-21 10:38
關(guān)鍵詞:項集數(shù)據(jù)挖掘關(guān)聯(lián)

宋 磊

(福建江夏學(xué)院,福建 福州350108)

0 前言

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,數(shù)據(jù)挖掘在電子商務(wù)中得到廣泛的應(yīng)用.運用分類、關(guān)聯(lián)等技術(shù),從數(shù)據(jù)庫中提取出有效數(shù)據(jù)的過程稱為數(shù)據(jù)挖掘[1].關(guān)聯(lián)規(guī)則是在復(fù)雜的數(shù)據(jù)庫中找出滿足給定條件的多個域之間的相互關(guān)系,它是數(shù)據(jù)挖掘的一個重要方面[2].電子商務(wù)系統(tǒng)中數(shù)據(jù)和信息關(guān)系是客戶與企業(yè)都不可或缺的資源,如何讓電子商務(wù)企業(yè)在這激烈的商業(yè)競爭中獲取和保持這種高流動性、高效率、高準(zhǔn)確度的這種資源成為各電子商務(wù)企業(yè)關(guān)注的焦點.目前電子商務(wù)系統(tǒng)中普遍存在著各種信息服務(wù)不能夠主動滿足客戶需求,是一種被動的信息獲取方式.而當(dāng)今電子商務(wù)發(fā)展要求用戶主動地、動態(tài)地改進服務(wù)模式,提供個性化需求的界面.因此本文有針對性地在關(guān)聯(lián)規(guī)則技術(shù)之Apriori算法研究的基礎(chǔ)上,針對算法本身的不足,提出了一種基于劃分的改進算法,并將此算法應(yīng)用于電子商務(wù)系統(tǒng).

1 關(guān)聯(lián)規(guī)則與Apriori算法簡介

1.1 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是用于挖掘數(shù)據(jù)庫中屬性或項目間的未知或隱藏的關(guān)系準(zhǔn)則.其中它的兩個重要屬性是支持度(support)和置信度(confidence).關(guān)聯(lián)規(guī)則用事物數(shù)據(jù)庫來定義,a,b分別為項目集,且a?C1,b?1,并且a∩b=?,a,b分別稱為關(guān)聯(lián)規(guī)則a=>b的前提和結(jié)論.一般情況下,可以把關(guān)聯(lián)規(guī)則劃分為兩個子問題:1)由頻繁項目集產(chǎn)生的強關(guān)聯(lián)規(guī)則,即找出頻繁項目集中置信度大于等于用戶所給的最小置信度的規(guī)則;2)找出所有的頻繁項目集,即所給的最小支持度的項目集小于所有支持度的規(guī)則.其中,第二個子問題是關(guān)聯(lián)規(guī)則挖掘算法的核心問題.

1.2 Apriori算法

Apriori算法是最具影響的一種原創(chuàng)性布爾關(guān)聯(lián)規(guī)則挖掘頻繁項集的算法,該算法核心是逐層搜索的迭代[3].Apriori算法的描述如下:假設(shè)數(shù)據(jù)庫D、最小支持度為min_sup、頻繁項集為L,首先產(chǎn)生頻繁項目集L;其次由頻繁k-1項集連接成的k項集,檢測L是否包含k項集的所有的k-1子集,D對每個候選k項集為min_sup的k項成為頻繁k項集,如此下去,直到找不到更高的頻繁項集為止.

2 基于劃分的Apriori改進算法

2.1 Apriori算法的主要問題

Apriori算法優(yōu)點是大大縮減了需檢查的候選規(guī)模,提高了算法效率[4].該算法的基本思想是利用一個循環(huán)順序搜索的方法來完成頻繁項集的挖掘關(guān)聯(lián)工作,也就是利用k項集來產(chǎn)生k+1項集.然而,Apriori算法還不完善,主要存在以下幾個問題:

1)候選項集太多.Apriori算法在運算過程中會生成大量的候選頻繁項集,導(dǎo)致算法在一定程度上適應(yīng)性很差.

2)重復(fù)掃描數(shù)據(jù)庫.每一次迭代的時候Apriori算法會掃描一次數(shù)據(jù)庫,頻繁項集如果最大長度為X,就需掃描X次數(shù)據(jù)庫,而這樣的多次重復(fù)掃描會降低整個的效率.

3)支持度唯一.通常,一些事務(wù)經(jīng)常性的發(fā)生,一些事務(wù)偶爾的發(fā)生,這樣對挖掘和關(guān)聯(lián)而言就有問題:如果最小支持度閾值比較高,挖掘是快了,但是整個關(guān)聯(lián)中無效的應(yīng)用得不到排除反而會大大降低了挖掘關(guān)聯(lián)的效率和規(guī)則的實用性.

4)Apriori算法擴展性瓶頸.由于Apriori算法是單維布爾關(guān)聯(lián)規(guī)則挖掘,然而在運用過程中經(jīng)常出現(xiàn)多維的、多數(shù)的和多層的關(guān)聯(lián)規(guī)則,所以該算法就需要進行改進或者重新設(shè)計.

2.2 基于劃分的Apriori改進算法

所謂劃分也就是分段,是指把來自事務(wù)數(shù)據(jù)庫中的所有項分成N份,然后對每個單獨部分生成頻繁項目集L.從數(shù)據(jù)庫中計算出候選頻繁項目的實際支持度,確定最后的頻繁項目集.該算法改進的宗旨首先是把數(shù)據(jù)庫分成N份,整個數(shù)據(jù)庫上的頻繁目集至少在數(shù)據(jù)庫的一個分段上是頻繁的;其次每個分段上的頻繁項目集集合的并集就是整個數(shù)據(jù)庫上潛在的頻繁項目集的集合.因此基于劃分的改進算法可以部分描述為:

通過以上改進算法的分析,在關(guān)聯(lián)規(guī)則挖掘方面大大提高了效率.1)候選項集減小了.通過算法改進,掃描數(shù)據(jù)庫計算每個候選項的支持計數(shù)之前,會先判斷Ck中Lk-1是否包含每一元素X的k-1項子集.實驗證明,大大減少了候選項集Ck規(guī)模.2)減少了掃描數(shù)據(jù)庫的的次數(shù).在候選項目集Ck確定頻繁項目集Lk時,T既不包含Ck中的任一元素,也必不包含Ck+1的任一元素.3)通過程序改進解除了瓶頸.所以良好的數(shù)據(jù)結(jié)構(gòu)、程序優(yōu)化等對算法的效率和可擴展性是具有很深影響的.

3 Apriori改進算法在電子商務(wù)中的應(yīng)用

3.1 電子商務(wù)推薦

在新的電子商務(wù)模式下,電子商務(wù)系統(tǒng)中信息越來越多的積累,信息量過大的問題也越來越嚴(yán)重,怎么能使用戶能快速、順利地選擇到自己所需的商品.電子商務(wù)推薦系統(tǒng)機制的引進很好地解決了上述問題.電子商務(wù)推薦系統(tǒng)能很好地向用戶推薦一些合適的商品,有效節(jié)約用戶購物的時間,使購物過程變得輕松便利,在用戶得到滿意的同時,網(wǎng)上企業(yè)也能贏得好評和豐厚的利潤.電子商務(wù)推薦與傳統(tǒng)商業(yè)不同,它是讓電子商務(wù)網(wǎng)站主動適應(yīng)每個客戶的特定需求,為每個客戶提供各異的個性化購物環(huán)境.一般情況下,推薦問題往往被認(rèn)為是用戶未見到的預(yù)測問題.如果我們要求向系統(tǒng)進行評價和預(yù)測,此系統(tǒng)就可以向客戶推薦獲得最為匹配的項目.隨著Apriori算法引入,電子商務(wù)推薦系統(tǒng)就能有針對性地為客戶進行推薦,使其能夠方便地購買相關(guān)商品[5].

3.2 Apriori改進算法應(yīng)用

改進優(yōu)化的Apriori劃分算法,首先對商品進行劃分,根據(jù)客戶需求讓客戶所需的產(chǎn)品先從數(shù)據(jù)庫中分離出來,優(yōu)先推薦此類商品到客戶.此改進算法有利地提升了電子商務(wù)網(wǎng)站的推薦效率.下面以某商務(wù)網(wǎng)站客戶信息數(shù)據(jù)樣本為例(如表1),將改進的Apriori劃分算法與傳統(tǒng)的Apriori算法進行比較.

實際商務(wù)過程中,顧客在購買了a產(chǎn)品系列后會一起選購其他相關(guān)聯(lián)的產(chǎn)品比如b產(chǎn)品系列.由此我們可以比較,傳統(tǒng)的Apriori算法推薦商品如表2.

引入Apriori劃分算法后,商務(wù)網(wǎng)站得到的推薦商品如表3.

表1 樣本數(shù)據(jù)庫

表2 傳統(tǒng)Apriori算法推薦的商品

表3 改進的Apriori算法推薦的商品

實驗數(shù)據(jù)表明,當(dāng)支持度閾值越小時,改進的劃分算法推薦商品的效率越高.電子商務(wù)網(wǎng)站數(shù)據(jù)信息非常多,而且品類和屬性相對比較復(fù)雜,通過數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的應(yīng)用及Apriori算法的改進,優(yōu)化確保了電子商務(wù)網(wǎng)站在推薦商品時的效率和準(zhǔn)確度.再加上其對路徑進行細(xì)化分類,把出現(xiàn)頻率較高的商品通過關(guān)聯(lián)技術(shù),關(guān)聯(lián)出最適合客戶的有效商品.所以引入基于劃分的Apriori改進算法會最大程度地為客戶優(yōu)先推薦商品,也將在電子商務(wù)應(yīng)用方面表現(xiàn)出最優(yōu)化.

4 結(jié)論

隨著電子商務(wù)的迅猛發(fā)展,個性化的推薦服務(wù)和數(shù)據(jù)挖掘技術(shù)的運用越來越突顯重要.怎么能有效地留住網(wǎng)上的用戶,從而有效地增強電子商務(wù)企業(yè)在市場上的競爭力,將是未來電商企業(yè)競爭的主要問題.本文在關(guān)聯(lián)規(guī)則挖掘算法的基礎(chǔ)上,針對電子商務(wù)系統(tǒng)的具體應(yīng)用,采用改進的基于劃分的Apriori算法挖掘出客戶需求的關(guān)聯(lián)規(guī)則,實現(xiàn)了客戶群體的個性化推薦,并應(yīng)用實際電子商務(wù)推薦的數(shù)據(jù)進行實驗,驗證了該方法具有對算法路徑進行細(xì)化分類,并可通過關(guān)聯(lián)技術(shù)為最合適客戶關(guān)聯(lián)出有效商品的優(yōu)點.這些內(nèi)容的討論對于數(shù)據(jù)挖掘方法的改進具有一定意義.

[1]Wu Yongbin,Zhang Yitang,Liu Shuangshuang.3Dvisualized geologic modeling technique based on petrel[J].Drilling & Production Technology,2007,30(5):65-67

[2]陳江平,傅中良,徐志紅.一種 Apriori的改進算法 [J].武漢大學(xué)學(xué)報(信息科學(xué)版),2003,28(1):94-99

[3]徐章艷,張師超,區(qū)玉明,等.挖掘關(guān)聯(lián)規(guī)則中的一種優(yōu)化的 Apriori算法[J].計算機工程,2003,29(19):83-84,87

[4]吳 林.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)的研究與實現(xiàn)數(shù)據(jù)分類的研究與實現(xiàn)[D].成都:電子科技大學(xué).2001

[5]張 諍,王惠文.一種高效的并行頻繁集挖掘算法[J].計算機工程,2008,34(11):55-57

猜你喜歡
項集數(shù)據(jù)挖掘關(guān)聯(lián)
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
“一帶一路”遞進,關(guān)聯(lián)民生更緊
基于矩陣相乘的Apriori改進算法
不確定數(shù)據(jù)的約束頻繁閉項集挖掘算法
奇趣搭配
一種自底向上的最大頻繁項集挖掘方法
智趣
高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議