国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

用戶交易數據不足情況下的商品關聯規(guī)則擴展與應用

2019-03-01 03:14:00陳可嘉
關鍵詞:置信度分詞關聯

陳可嘉 趙 政

(福州大學經濟與管理學院, 福建福州 350108)

一、引言

隨著信息技術的不斷發(fā)展,信息數字化的程度不斷加深,各行各業(yè)每天都有海量的數據產生。而如何對這些數據進行有效的處理,挖掘其中蘊涵的商業(yè)價值,是目前一個亟待解決的問題。關聯規(guī)則挖掘是數據挖掘領域中最為常用的幾種研究方法之一[1],其能夠挖掘出不同商品之間的關聯關系,獲得消費者購買范式的一般性規(guī)則,因此被廣泛地應用于電商、金融、醫(yī)療、物流等領域。[2]但傳統(tǒng)的關聯規(guī)則挖掘算法,需要大量的用戶交易數據作為支撐。如最早由Agrawal和Srikant提出的基于頻繁項集的經典關聯規(guī)則挖掘Apriori算法,就需要用到大量的消費者歷史購物籃信息。[3]而后續(xù)學者對關聯規(guī)則挖掘的研究,又大多是以Apriori算法為基礎,集中在對頻繁項集挖掘的效率和性能上進行改進。[4][5][6]這些研究仍然需要以用戶交易數據為基礎,對用戶交易數據不足的商品,比如剛上架的新品,往往會由于達不到置信度和支持度的要求而無法及時生成相應的關聯規(guī)則。

現今隨著網購逐漸成為用戶的主流購物方式之一,電商平臺上每天都會有大量的新品上架。這些新上架的商品有成為爆款的潛力,但剛上架時卻沒有足夠的用戶交易數據可用來做關聯規(guī)則挖掘。因此,有學者嘗試在原有關聯規(guī)則的基礎上進行擴展。如李學明等注意到關聯規(guī)則中隱含著否定關系,提出了一種擴展型關聯規(guī)則模型,從而得到更多的規(guī)則知識。[7]而董俊等在領域本體的規(guī)則擴展上,通過KDD技術來進行規(guī)則的擴展,使擴展得到的規(guī)則能與基于歷史數據的關聯規(guī)則保持一致。[8]Liu提出了一種基于用戶引導的多關系關聯規(guī)則挖掘算法,引入ID傳播思想,來對傳統(tǒng)的關聯規(guī)則挖掘方法進行擴展。[9]Abbache等則在關聯規(guī)則的基礎上,進一步利用WordNet詞典進行規(guī)則查詢擴展,并通過實驗證明了該方法在MAP和召回率指標上具有更好的表現。[10]

但目前的關聯規(guī)則擴展方法又大多是以用戶交易數據為基礎,研究如何有效地從這些交易數據中挖掘出更多的信息來進行規(guī)則擴展。那么是否可以借助一些反映商品本身信息的數據來生成關聯規(guī)則?比如通過商品相似度的構建,來實現關聯規(guī)則的擴展?事實上在進行關聯規(guī)則挖掘時,除了考慮從用戶的交易數據中挖掘用戶對商品需求間的關系,商品自身的信息,如對商品的文字描述、商品圖片等也在一定程度上反映了商品間的相似性,而兩個足夠相似的商品則可認為是能夠相互替代的。

因此,本文從相似性的角度出發(fā),引入商品文本信息,以關聯規(guī)則推薦算法中經典的Apriori算法為基礎,通過構建商品間相似度矩陣來對關聯規(guī)則進行擴展,提出了一個基于商品相似度的關聯規(guī)則擴展方法,解決了傳統(tǒng)關聯規(guī)則算法無法對用戶交易數據不足的商品得出具體關聯規(guī)則的缺陷,并通過實驗驗證了該方法的有效性和實用性。

二、用戶交易數據不足情況下的商品關聯規(guī)則擴展

本文提出的用戶交易數據不足下的商品關聯規(guī)則擴展方法主要分為以下三個階段:第一階段為數據收集和預處理,第二階段為關聯規(guī)則挖掘,第三階段為計算商品相似度并生成新規(guī)則。整個方法流程如圖1所示。

圖1 用戶交易數據不足情況下的關聯規(guī)則擴展流程

(一)數據收集和預處理

1. 數據收集

用戶交易數據無法用爬蟲軟件從公開的網絡上直接獲取。因為用戶交易數據具有重大的商業(yè)價值,企業(yè)一般不會把這些數據完全公開在網絡上。但也有一些企業(yè)會把部分用戶交易數據在經過脫敏處理后進行公開,以供社會研究需要。而使用這些經過脫敏處理的真實用戶交易數據來進行研究則比用仿真模型構造交易數據更加可靠、貼近實際。

2. 數據預處理

用戶在網購時并非都會一次性結清所有的商品,常常分次結賬。同時注意到有些互補商品的購買往往是在使用一段時間之后進行的。因此,在數據預處理時需要對同一用戶在一段時間內的所有購買記錄進行匯總。此外,由于刷單現象的存在,為了盡可能降低其對推薦結果的影響,本文把短時間內購買大量商品的行為視為異常,予以剔除。

(二)關聯規(guī)則挖掘

1. 關聯規(guī)則挖掘相關定義

定義1規(guī)則項。規(guī)則項一般可表示為, x是條件集, y是類標簽。每個規(guī)則項代表一個規(guī)則“x=>y”。

定義2支持度。支持度指所有數據中同時包含x和y的事例的占比。

定義3置信度。置信度指所有數據中同時包含x和y的事例與只包含x的事例的比值。

定義4頻繁項。頻繁項指支持度大于最小支持度的規(guī)則項。

2. 規(guī)律規(guī)則挖掘算法

在進行關聯規(guī)則挖掘時,本文主要采用Apriori算法。該算法的核心思想是從低維向高維循環(huán)生成頻繁項集,并用支持度進行減枝去掉低價值的頻繁項,最后再把這些頻繁項集按置信度來生成關聯規(guī)則,其基本運算步驟如圖2所示。

圖2 Apriori算法基本運算步驟

(三)商品相似度的計算以及關聯規(guī)則的擴展

傳統(tǒng)的關聯規(guī)則挖掘算法往往借助于用戶的交易數據來尋找這種商品對,但若交易數據不足,比如剛上架不久的新品,就會由于置信度過低而無法生成關聯規(guī)則。針對這些暫時沒有豐富的用戶交易數據的商品,本文從相似性的角度切入,引入商品文本信息作為補充數據源。

購買了商品A的用戶,有很大概率會購買商品B。關聯規(guī)則挖掘就是找到這種A、B組合的商品對。那么對通過關聯規(guī)則算法挖掘到的規(guī)則“A=>B”,若有一個商品C與商品B足夠相似,甚至在功能上可以相互替代,那么對用戶來說,購買商品C和購買商品B給他帶來的價值、滿足其需求的程度基本一樣。這也就意味著,在已知規(guī)則“A=>B”的前提下,若商品C與商品B足夠相似,那么“A=>C”也可以被視作一條合理的“關聯規(guī)則”。即使這種關聯關系暫時沒有體現在用戶的交易數據里,但若向購買了商品A的用戶推薦商品C,購買了商品A的用戶會接著購買商品C的概率可能非常大。

因此,可以通過商品間的相似度來對關聯規(guī)則進行擴展,從而實現在交易數據不足情況下的商品推薦。而要通過相似度來對關聯規(guī)則進行擴展,一個需要解決的問題就是商品間相似度的計算。

1. 商品相似度的計算

在相似度的計算上,本文主要引入了商品文本信息,把商品按照描述其特征的文本信息表示成一個多維向量,并通過計算向量間的余弦相似度構造了一個商品的相似度矩陣。具體步驟如下。

首先把描述商品的數據按特征維度進行劃分。商品各維度以什么標準來賦權,這主要取決于獲得的描述商品的數據。本文引入的是商品文本信息,因此將其按文本分詞的形式來處理權重。這樣對于商品A,就可以用維度向量表示,如公式(1)所示。

A=(A1,A2,…,An)

(1)

其中:n表示分詞數量;Ai表示商品A在第i個分詞上的重要程度。

接著,需要確定商品各維度的重要程度,即Ai值。由于商品維度向量以文本分詞的形式呈現,因此將其以評價文本分詞的常用方法來處理權重。而評價分詞重要度的一個較為客觀的標準就是該分詞出現的頻率,即一個分詞出現的次數越多,則該分詞就越重要。因此,商品分詞重要度di可用公式(2)表示。

Ai=ln(1/fi)·Vi

(2)

其中:fi表示商品A同類目的所有商品中,含有第i個分詞的商品的占比;Vi表示第i個分詞在商品x中出現的頻率。

最后則是計算不同商品的相似度,并構建一個商品相似度矩陣。計算向量間相似度最常用的一個方法是余弦相似度,由于上述步驟已把商品描述成向量形式,因此可直接使用余弦相似度公式來計算商品間的相似度。本文把商品與其自身的相似度記為1,那么對于商品A和商品B,他們之間的相似度可用公式(3)表示。

(3)

其中:MA,B表示商品A與商品B之間的相似度。此外,由于MA,B=MB,A,故只需計算矩陣的上三角,就可求得任意兩商品間的相似度。

2. 關聯規(guī)則的擴展

為了實現對關聯規(guī)則進行擴展,本文假定兩個相似度足夠高的商品是可以互相替代的,且新規(guī)則的置信度可以認為是原規(guī)則的置信度與商品間相似度的乘積。

那么對已有的規(guī)則B,confidence=α>(即購買了商品A的用戶有α的可能性購買商品B),若另一商品C與商品B的相似度為β,且α和β的乘積達到了置信度的要求,那么就可以認為規(guī)則C,confidence=α·β>(即購買了商品A的用戶有α·β的可能性購買商品C)也是合理的。

在上述假設下,就可以用商品相似度矩陣M對原始關聯規(guī)則按置信度要求進行擴展。

三、 實例分析

(一)數據收集和預處理

淘寶網是中國目前最大的網購零售平臺,每天都有海量的用戶交易數據產生。阿里天池大數據競賽則向參賽者提供淘寶網上經過脫敏處理后的海量真實交易數據。這些數據具有較高的可靠性和真實性,適用于數據挖掘方面的研究。因此,本文主要采用阿里天池大數據競賽中的數據進行實證研究。

對阿里天池提供的數據,本文選取了其中169405條淘寶服裝類商品用戶交易數據和500350條服裝類商品數據進行研究。

1. 對同一用戶的交易記錄進行合并

以用來標識用戶的“user_id”字段為標準,把所有“user_id”相同的交易記錄進行合并,共把169405條交易記錄合并成13738條相關性交易記錄。

2. 對相關性交易記錄進行統(tǒng)計分析

發(fā)現其中有99.94%的交易記錄里所包含的商品個數在100以內。因此,單條交易記錄包含商品數超過100的交易可以視為極端情況,予以剔除。最終得到13738條相關性交易記錄。剔除極端交易后的交易記錄其每條包含商品數的均值10.79。

(二)關聯規(guī)則挖掘

在R-3.3.1版本的環(huán)境下用Apriori算法包對上述步驟得到的13738條相關性交易數據進行關聯規(guī)則分析。為把錯誤推薦的負面影響降到最小,本文采取保守策略,認為高置信度下的關聯推薦才是可靠的,因此選擇0.0005的支持度和0.6的置信度進行實驗,共挖掘出74條高質量的關聯規(guī)則,如圖3所示。代表商品的氣泡當置信度越高時距離越近,支持度越多則面積越大。從中可以直觀地感受商品間的關聯關系。

圖3 關聯規(guī)則分布

其中置信度最高的前20條關聯規(guī)則如表1所示。這些關聯規(guī)則提升度都非常高,具有很高的可靠性。此外,從中可以發(fā)現有一些關聯規(guī)則的規(guī)則左項和規(guī)則右項是互相顛倒的,如規(guī)則<3112554=>1865937>和<1865937=>3112554>,且其置信度均為1,這意味著3112554號商品和1865927號商品要么是捆綁銷售,要么是絕對的互補品,購買其中一個商品的用戶必定會買另一個商品。

表1 20條置信度最高的關聯規(guī)則

(三)商品相似度的計算以及關聯規(guī)則的擴展

在上述關聯規(guī)則挖掘基礎上,針對用戶交易數據不足的情況,考慮進一步引入商品文本信息,把商品按照文本特征表示成向量的形式,并可以通過計算向量間的余弦距離求得任意兩個商品間的相似度,從而構建一個商品相似度矩陣。

此外,為了使擴展得到的關聯規(guī)則具有較高的價值,本文把進行規(guī)則擴展的相似度要求從關聯規(guī)則挖掘時的0.6置信度提升到0.8。因此,若要在最低滿足0.8的相似度要求下對關聯規(guī)則進行擴展,則只需保留相似度在0.8之上的商品。再者,為了使擴展得到的規(guī)則不會過于膨脹,本文只選取與同一商品相似度top10的商品來進行關聯規(guī)則的擴展。

綜上,為了得到較高價值的規(guī)則,在計算相似度矩陣時,本文只保留對同一商品相似度在0.8之上(包括0.8)且位列top10的商品,其余均設置為0。圖4展示了編號前30的商品的相似度矩陣。其中,有些商品比較獨特,沒有與其相似度在0.8之上的同類商品,比如23、24號商品,這類商品替代品較少;有些商品則比較大眾,與其相似度在0.8之上的同類商品較多,比如16、17號商品,有著較多的替代品。

圖4 商品相似度矩陣

在不同置信度下,得到的關聯規(guī)則擴展情況如圖5所示。從中可以發(fā)現,用Apriori算法挖掘到的關聯規(guī)則數量和本文方法擴展得到的關聯規(guī)則數量都隨著置信度的提高而下降。在0.96置信度前,用本文方法擴展得到的新關聯規(guī)則數都比原關聯規(guī)則數量要多;但當置信度不斷向1逼近時,用本文方法擴展得到的新關聯規(guī)則數則下降得越快,而原關聯規(guī)則數則趨于穩(wěn)定。

圖5 擴展規(guī)則與原規(guī)則數量對比

在對擴展效率的評價上,用在Apriori算法下因用戶交易數據不足沒有生成關聯規(guī)則而在本文方法中生成了關聯規(guī)則的規(guī)則數占比(Vi)來衡量,可用公式(4)表示。

(4)

其中:Ni表示在置信度為i時,基于本文方法生成的新關聯規(guī)則的總數;Mi表示在置信度為i時,Apriori方法生成的原始關聯規(guī)則的總數。

計算結果如圖6所示。從中可以發(fā)現,本文方法的規(guī)則擴展效率在置信度為0.94之前整體呈現一個較為平緩的態(tài)勢。這意味著本文提出的規(guī)則擴展方法能在較高置信度下保持一個穩(wěn)定的擴展效率。而在0.94置信度后,隨著置信度不斷向1逼近,規(guī)則擴展的效率快速下降,在置信度達到0.98之后,擴展效率為0。即隨著置信度越靠近1,無論是規(guī)則擴展的數量還是效率都會快速下降直至為0。一個合理的解釋是與同一商品足夠相似的商品的數量會隨著相似度要求的提高而不斷減少??傮w來看,本文方法能在較高置信度下,借助商品相似度實現對用戶交易數據不足的商品生成關聯規(guī)則,具有較高的有效性和實用性。

圖6 規(guī)則擴展效率

四、結語

本文針對傳統(tǒng)關聯規(guī)則推薦算法在用戶交易數據不足情況下的推薦盲區(qū),從相似度的角度出發(fā),在用戶交易數據的基礎上,引入商品文本信息,并以關聯規(guī)則推薦算法中經典的Apriori算法為基礎,通過構建商品間相似度矩陣,提出了一個基于商品相似度的關聯規(guī)則擴展方法,并以淘寶平臺上的真實用戶數據進行實證研究,證實該規(guī)則擴展方法能在較高的置信度下,得到對用戶交易數據不足的商品的關聯規(guī)則,具有較高的有效性和一定的實用性。此外,能用來衡量商品間相似性的數據并非只有文本信息,圖片信息也是衡量商品相似性的一個重要數據源。如何在商品文本信息基礎上,再引入圖片信息來綜合計算商品相似度需要做進一步的研究。

注釋:

[1] Wu X., Kumar V., Quinlan J. R., et al.,“Top 10 algorithms in data mining”,Knowledge&InformationSystems, vol.14,no.1(2007),pp.1-37.

[2] 洪亮、李雪思、周莉娜:《領域跨越:數據挖掘的應用和發(fā)展趨勢》,《圖書情報知識》 2017年第4期。

[3] Agrawal R., Srikant R.,Fastalgorithmsforminingassociationrules,Proc of International Conference on Very Large Databases,1994,pp. 487-499.

[4] Czibula G., Marian Z., Czibula I. G.,“Detecting software design defects using relational association rule mining”,Knowledge&InformationSystems, vol.42,no.3(2015),pp.545-577.

[5] Liu Z., Hu L., Wu C., et al.,“A novel process-based association rule approach through maximal frequent itemsets for big data processing”,FutureGenerationComputerSystems, vol.81(2017),pp.414-424.

[6] Rachburee N., Arunrerk J., Punlumjeak W.,FailurePartMiningUsinganAssociationRulesMiningbyFP-GrowthandAprioriAlgorithms:CaseofATMMaintenanceinThailand,International Conference on IT Convergence and Security, 2017,pp.19-26.

[7]李學明、劉勇國、彭軍,等:《擴展型關聯規(guī)則和原關聯規(guī)則及其若干性質》,《計算機研究與發(fā)展》2002年第12期。

[8] 董俊、王鎖萍、熊范綸,等:《基于多維關聯規(guī)則的本體規(guī)則擴展方法》,《模式識別與人工智能》2009年第5期。

[9] Liu D.,“Research on the multi-relational association rule mining algorithm based on user guidance”,InternationalJournalofAdvancementsinComputingTechnology, vol.4,no.22(2012),pp.779-787.

[10] Abbache A., Meziane F., Belalem G., et al. ,“Arabic Query Expansion Using WordNet and Association Rules”,InternationalJournalofIntelligentInformationTechnologies,vol.12,no.3(2016),pp.51-64.

猜你喜歡
置信度分詞關聯
硼鋁復合材料硼含量置信度臨界安全分析研究
“一帶一路”遞進,關聯民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
結巴分詞在詞云中的應用
智富時代(2019年6期)2019-07-24 10:33:16
正負關聯規(guī)則兩級置信度閾值設置方法
計算機應用(2018年5期)2018-07-25 07:41:26
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
值得重視的分詞的特殊用法
置信度條件下軸承壽命的可靠度分析
軸承(2015年2期)2015-07-25 03:51:04
高考分詞作狀語考點歸納與疑難解析
多假設用于同一結論時綜合置信度計算的新方法?
電訊技術(2011年11期)2011-04-02 14:00:37
皋兰县| 上饶县| 尖扎县| 洪湖市| 通化县| 庐江县| 时尚| 平泉县| 神木县| 岱山县| 手游| 丽水市| 喀什市| 扬中市| 城口县| 闵行区| 雷山县| 武川县| 望都县| 临澧县| 汕头市| 安多县| 临夏县| 昌黎县| 平谷区| 杂多县| 凤城市| 微博| 昌吉市| 江达县| 永宁县| 洱源县| 郴州市| 文安县| 海阳市| 西乡县| 曲沃县| 偃师市| 泾源县| 措美县| 阿图什市|