王雪媛
(內江師范學院,四川內江 641100)
基于關聯(lián)規(guī)則是一種常見的電子商務推薦技術,是根據(jù)茶葉交易歷史數(shù)據(jù),挖掘出不同類型商品在銷售過程中的關聯(lián)性,形成關聯(lián)規(guī)則,并據(jù)此預測用戶對未購買過的產品的興趣,進而產生推薦結果。
關聯(lián)規(guī)則挖掘也稱購物籃分析,表達了數(shù)據(jù)項之間的依存性和關聯(lián)性[1]。設m個不同的項目集合為I={il,i2,…,im),每一個事務T是項集的子集,即T?I。關聯(lián)規(guī)則可以表示為一個蘊含式R:X→Y(X?I,Y?I,X∩Y=?)。關聯(lián)規(guī)則的支持度support是交易(事物)集中同時包含X、Y的交易數(shù)與所有交易數(shù)之比,其本質是反映X、Y同時出現(xiàn)的概率,最小支持度是要求項集必須滿足的最小支持閾值,是剪枝的重要依據(jù)。支持度大于或等于最小支持度的項集稱為頻繁項集,簡稱頻繁集,反之稱為非頻繁集。置信度表示規(guī)則值得信任的程度,confidence(X→Y)=support(X∪Y)/support(X)。最小置信度表示關聯(lián)規(guī)則的最低可靠性。
事務數(shù)據(jù)庫中存在著海量的關聯(lián)規(guī)則。但是,只有強關聯(lián)規(guī)則才對商家具有決策指導價值。所謂強關聯(lián)規(guī)則是指既滿足最小支持度又滿足最小置信度。
Apriori算法是一種挖掘關聯(lián)規(guī)則的頻繁項集算法,是關聯(lián)規(guī)則的經(jīng)典算法之一??煞纸鉃閮蓚€處理步驟:(1)根據(jù)最小支持度找出所有的頻繁項目集;(2)根據(jù)第一步找到的頻繁項集產生所期望的強關聯(lián)規(guī)則。
假定一個購買茶葉事務數(shù)據(jù)庫 S={S1,S2,S3,S4},設 δ=50%,則最小支持度MinSup=4*50%=2,其中假定最小置信度Minconf=70%。S1,S2,S3,S4分別購買了熙春茶(BOHEA Tea)、功夫茶 (HYSON Tea)、屯溪茶(TWANKAY Tea)、祁門茶 (K0EEMUN Tea)、茉莉花茶(Jasmine Tea)五種茶葉的情況是{1、0、1、1、0},{0、1、1、0、1},{1、1、1、0、1},{0、1、0、0、1},其中 1代表曾有購買行為,0表示沒有購買行為。
首先,產生茶葉購買候選集L1,得到各茶葉BOHEA Tea、HYSON Tea、TWANKAY Tea、K0EEMUN Tea、Jasmine Tea 的支持度分別為 2、3、3、1、3。所以,C1={(BOHEA Tea),(HYSON Tea),(TWANKAY Tea),(Jasmine Tea)},剪掉其中支持度小于 MinSup的項目集,從C1產生L2為{(BOHEA Tea、HYSON Tea:1);(BOHEA Tea 、TWANKAY Tea:2);(BOHEA Tea、Jasmine Tea:1);(HYSON Tea、TWANKAY Tea:2);(HYSON Tea、Jasmine Tea:3);(TWANKAY Tea、Jasmine Tea:2)},剪掉不符合要求的項目集,則 得 到 的 C2 為:{(BOHEA Tea、TWANKAY Tea:2);(HYSON Tea、TWANKAY Tea:2);(HYSON Tea、Jasmine Tea:3);(TWANKAY Tea、Jasmine Tea:2)}因為(BOHEA Tea、Jasmine Tea)為非頻繁子集。根據(jù)Apriori定律,如果一個集合不是頻繁項集,則它的所有超集都不是頻繁項集。所以從C2 產生的 L3 為 {HYSON Tea、TWANKAY Tea、Jasmine Tea:2},因為直接刪除了 BOHEA Tea、TWANKAY Tea、Jasmine Tea,則得到的 C3 為:{HYSON Tea、TWANKAY Tea、Jasmine Tea:2},而 L4= Φ,所以循環(huán)結束。
對于 HYSON Tea、TWANKAY Tea、Jasmine Tea,最小置信度 Minconf=70%,HYSON Tea、TWANKAY Tea、Jasmine Tea的支持度為 Confidence=2/2=100%;HYSON Tea、Jasmine Tea、TWANKAY Tea的置信度=2/3=66.7%;TWANKAY Tea、Jasmine Tea、HYSON Tea的置信度=2/2=100%;HYSON Tea、TWANKAY Tea、Jasmine Tea 的 置 信 度 =2/3=66.7% ;TWANKAY Tea、HYSON Tea、Jasmine Tea 的置信度=2/3=66.7%;Jasmine Tea、HYSON Tea、TWANKAY Tea的置信度=2/3==66.7%;最終,用戶可以得到如下推薦:①若消費者購買了HYSON Tea和TWANKAY Tea,則向其推薦Jasmine Tea;②若消費者購買了TWANKAY Tea和Jasmine Tea,則向其推薦HYSON Tea。
基于關聯(lián)規(guī)則的個性化推薦設計關鍵在于通過分析數(shù)掘庫中全部顧客的歷史交易數(shù)據(jù),使用挖掘關聯(lián)規(guī)則算法,試圖發(fā)現(xiàn)顧客群體購買習慣的內在共性,并據(jù)此,參照用戶歷史感興趣的茶葉,進行關聯(lián)規(guī)則匹配,進而向用戶推薦其還沒有購買但可能會有興趣的茶葉。
茶葉電子商務個性化推薦模型分為輸入、輸出、推薦和系統(tǒng)管理四個模塊。其中,輸入模塊主要是指整理茶葉歷史購物數(shù)據(jù),形成標準數(shù)據(jù)集。推薦模塊是指參照關聯(lián)規(guī)則,根據(jù)用戶需求,借助搜索引擎得到推薦列表。輸出模塊是向消費者展示最終的推薦結果。
4.2.1 數(shù)掘預處理。原始交易中數(shù)據(jù)包含大量的基本數(shù)據(jù),但這些數(shù)據(jù)必須經(jīng)過清洗、轉換、集成等預處理,只有具備了完整性好、冗余性小等特征的數(shù)據(jù)才具備挖掘價值。
4.2.2 產生強關聯(lián)規(guī)則。盡量在經(jīng)過預處理的事務集中挖掘關聯(lián)規(guī)則,并更新規(guī)則庫。
4.2.3 系統(tǒng)推薦。針對消費者的歷史購買行為,采用不同的推薦策略。對于發(fā)生過購買行為的消費者,找到其歷史交易記錄中的茶葉唯一標識號并從規(guī)則庫中匹配符合條件的規(guī)則,進而向其推薦與之興趣最相關的—種茶葉;對于未曾有購買行為的用戶,默認為推薦TOP-N最受歡迎的茶葉。
4.2.4 動態(tài)更新關聯(lián)規(guī)則庫。用戶的興趣愛好隨著時間的推移呈現(xiàn)出周期性變化的特征,因而,需要定期根據(jù)銷售數(shù)據(jù)和用戶興趣更新規(guī)則庫,最終實現(xiàn)動態(tài)地把客戶興趣變化反映到推薦結果中。
茶葉電子商務推薦系統(tǒng)角色分為系統(tǒng)管理員和普通用戶。其中,系統(tǒng)管理員負責更新用戶數(shù)據(jù)庫,負責對用戶開放用戶權限范圍內的系統(tǒng)功能。普通用戶可在登錄后查詢購買記錄,并對系統(tǒng)推薦的茶葉進行喜好反饋,喜歡表示推薦有效,不喜歡則再下一次推薦中不出現(xiàn)此種茶葉。反饋越多越及時,系統(tǒng)向用戶推薦的精準率就越高。
茶葉推薦系統(tǒng)一直是解決茶葉信息過載的有效方法之一,是茶葉商家向消費者進行個性化推薦,增強消費者粘度,提升商家效益的重要途徑。本文對實施電子商務推薦系統(tǒng)提升各商業(yè)系統(tǒng)核心競爭力具有一定的參考價值。