基于改進(jìn)RFM模型的產(chǎn)品推薦算法

2016-12-20 02:22王召義

宿州學(xué)院學(xué)報(bào) 2016年11期

關(guān)鍵詞：皮爾遜權(quán)重顧客

王召義，汪琪

安徽商貿(mào)職業(yè)技術(shù)學(xué)院經(jīng)濟(jì)貿(mào)易系，安徽蕪湖，241002

基于改進(jìn)RFM模型的產(chǎn)品推薦算法

王召義，汪琪

安徽商貿(mào)職業(yè)技術(shù)學(xué)院經(jīng)濟(jì)貿(mào)易系，安徽蕪湖，241002

為了提高電子商務(wù)產(chǎn)品推薦服務(wù)的質(zhì)量，在傳統(tǒng)RFM模型的基礎(chǔ)上，先用顧客購買持續(xù)力、總利潤率代替RFM模型的R、M指標(biāo)，建立RFT模型；然后對(duì)RFT指標(biāo)賦以權(quán)重，計(jì)算用戶-RFT矩陣；最后引入兩個(gè)用戶對(duì)產(chǎn)品RFT值之和的權(quán)值，優(yōu)化了用戶相似度計(jì)算方法。實(shí)驗(yàn)結(jié)果表明，該方法在提高推薦滿意度和效率上優(yōu)于傳統(tǒng)的基于RFM的產(chǎn)品推薦法。

產(chǎn)品推薦；RFM；RFT；用戶相似度

電子商務(wù)的本質(zhì)是流量和轉(zhuǎn)化率，而轉(zhuǎn)化率越來越低、流量獲取成本越來越高，導(dǎo)致電子商務(wù)企業(yè)紛紛涉足電子商務(wù)推薦領(lǐng)域，以便進(jìn)一步滿足消費(fèi)者個(gè)性化需求，提升轉(zhuǎn)化率，降低流量獲取成本。與此同時(shí)，消費(fèi)者為了提高購物效率，減少購物成本，也在不斷尋找既能快速找到所需產(chǎn)品，又能滿足個(gè)性需求的推薦方法。RFM模型是一種衡量用戶價(jià)值與創(chuàng)利能力的重要工具，能較好地體現(xiàn)消費(fèi)者的購買行為和特征。其中，R(Recency，R)表示用戶在給定的時(shí)段內(nèi)多久前最后一次購買某商品，F(xiàn)(Frequency，F(xiàn))表示用戶在給定的時(shí)段內(nèi)總共購買某商品次數(shù)，M(Monetary，M)表示用戶在給定的時(shí)段內(nèi)共花費(fèi)多少金額購買某商品[1]。RFM模型的這一特點(diǎn)恰好可以彌補(bǔ)傳統(tǒng)協(xié)同過濾推薦存在的缺點(diǎn)——用戶評(píng)價(jià)太主觀、缺乏科學(xué)性。因此，本文以RFM綜合值為切入點(diǎn)研究基于改進(jìn)RFM模型的產(chǎn)品推薦算法。

1 改進(jìn)RFM模型

RFM模型是通過對(duì)顧客交易記錄進(jìn)行數(shù)據(jù)挖掘，以發(fā)掘顧客價(jià)值和潛在消費(fèi)能力的重要工具和手段。結(jié)合電子商務(wù)推薦服務(wù)發(fā)展現(xiàn)狀和RFM模型的缺點(diǎn)，擬對(duì)R、M指標(biāo)進(jìn)行改進(jìn)，以適應(yīng)電子商務(wù)推薦服務(wù)發(fā)展。

1.1 改進(jìn)R算法

計(jì)算R值的一般方法為：數(shù)據(jù)截止時(shí)間點(diǎn)-顧客最近消費(fèi)時(shí)間點(diǎn)。傳統(tǒng)計(jì)算方法雖然考慮了最近來店時(shí)間對(duì)顧客價(jià)值和潛在消費(fèi)能力的影響，但卻忽略了顧客的持續(xù)購買能力[2]。為了能夠正確反映顧客持續(xù)購買能力，引入最近購買時(shí)間差和最遠(yuǎn)購買時(shí)間差兩個(gè)指標(biāo)，并根據(jù)定義1對(duì)R進(jìn)行改進(jìn)。

定義1 設(shè)t為數(shù)據(jù)截止時(shí)間點(diǎn)，t1為顧客最近購買時(shí)間點(diǎn)，t2為顧客最遠(yuǎn)購買時(shí)間點(diǎn)，則顧客最近購買時(shí)間差為(t-t1)、顧客最遠(yuǎn)購買時(shí)間差為(t-t2)。由此可規(guī)定R值的新計(jì)算方法為：

(1)

當(dāng)t1=t2時(shí)，R=1，表明顧客在特定時(shí)段內(nèi)持續(xù)購買能力為“零”，很有可能是一名新顧客。R值越小，說明該顧客活躍度越高。

1.2 改進(jìn)M算法

企業(yè)追求的是利潤，不是純粹的高銷售額，且高銷售額并不一定能帶來高額利潤，因此在RFM模型中不應(yīng)該忽略利潤這一關(guān)鍵因素。在電子商務(wù)企業(yè)中，一般以利潤率來衡量產(chǎn)品的營利能力。因此，引入總利潤率指標(biāo)，并根據(jù)定義2對(duì)M進(jìn)行改進(jìn)。

定義2 設(shè)某產(chǎn)品的成本為c，銷售價(jià)格為p，某顧客購買該產(chǎn)品的次數(shù)為f，則總利潤率T可由下面公式求得：

(2)

可知，某物品的利潤率一般是不變的，隨著購買次數(shù)的增加，總利潤率值越來越大。

1.3 RFT模型

經(jīng)過改進(jìn)R和M指標(biāo)，定義改進(jìn)后的模型稱為RFT模型。其中R、F、T三個(gè)指標(biāo)的含義分別為：R(Recency，R)表示用戶在給定的時(shí)段內(nèi)持續(xù)購買能力，F(xiàn)(Frequency，F(xiàn))表示用戶在給定的時(shí)段內(nèi)總共購買某商品多少次，T(Total profit，T)表示用戶在給定的時(shí)段內(nèi)的總利潤率。

2 產(chǎn)品推薦算法

2.1 構(gòu)建用戶-RFT矩陣

產(chǎn)品推薦算法的核心是計(jì)算用戶-商品評(píng)價(jià)矩陣?，F(xiàn)通過對(duì)用戶交易記錄進(jìn)行數(shù)據(jù)挖掘，計(jì)算用戶-RFT矩陣，具體計(jì)算步驟如下。

第一步，挖掘R、F、T值。根據(jù)用戶交易記錄數(shù)據(jù)庫，制作至少包含用戶ID、最近購買時(shí)間點(diǎn)、最遠(yuǎn)購買時(shí)間點(diǎn)、商品成本、商品銷售價(jià)格、銷售金額等變量的銷售記錄統(tǒng)計(jì)表。F值可以使用有關(guān)數(shù)據(jù)挖掘工具直接統(tǒng)計(jì)得出，而R和T值可由定義1和定義2計(jì)算得出。

第二步，數(shù)據(jù)標(biāo)準(zhǔn)化。在進(jìn)行數(shù)據(jù)挖掘時(shí)，需要對(duì)各類數(shù)據(jù)進(jìn)行規(guī)范化處理，以保障數(shù)據(jù)量綱相同，此處采用極差正規(guī)比變換方法進(jìn)行數(shù)據(jù)規(guī)范化處理[3]。因R是成本性指標(biāo)，F(xiàn)和T是收益性指標(biāo)，所以規(guī)范化公式有所區(qū)別，具體如下：

(3)

其中，R、F、T是第一步得到的初始值，Rmin、Fmin、Tmin是初始值中的最小值，Rmax、Fmax、Tmax是初始值中的最大值，R′、F′、T′是預(yù)處理以后的值。

第三步，確定R′、F′、T′權(quán)重。采用層次分析法計(jì)算權(quán)重，R′、F′、T′對(duì)應(yīng)權(quán)重值分別為w1、w2、w3，且w1+w2+w3=1。

第四步，計(jì)算RFT綜合值。為了方便數(shù)據(jù)處理和數(shù)據(jù)減噪，對(duì)R′、F′、T′值進(jìn)行加權(quán)求和操作，得到的綜合值記為RFT，計(jì)算公式為：

RFT=w1R′+w2F′+w3T′

(4)

2.2 計(jì)算用戶相似度

相似度的計(jì)算其實(shí)就是計(jì)算兩個(gè)向量的距離，距離越近相似度越大。實(shí)驗(yàn)分析顯示，對(duì)于基于用戶的推薦系統(tǒng)來說，Pearson相關(guān)系數(shù)比其他方法更勝一籌。Pearson相關(guān)系數(shù)計(jì)算公式見下：

sim(Ci,Cj)

(5)

上述計(jì)算公式依賴于H，也就是說H越大相似度計(jì)算結(jié)果越準(zhǔn)確；H比較小時(shí)，相似度存在一定的偶然性。比如兩個(gè)用戶都只買過一個(gè)商品，且綜合值Z相同，根據(jù)公式，兩個(gè)用戶是完全相似的。因此，根據(jù)一個(gè)商品就判斷兩個(gè)用戶完全相似，顯然不合理。羅軍和朱文奇[4]改進(jìn)了Pearson相似度計(jì)算公式，如下：

sim′(Ci,Cj)

(6)

2.3 智能推薦

智能推薦是指電子商務(wù)推薦系統(tǒng)向目標(biāo)用戶推薦商品或服務(wù)，且能夠滿足目標(biāo)用戶個(gè)性化需求。

定義3 設(shè)目標(biāo)用戶為C，a是集合N中的元素，則目標(biāo)用戶C對(duì)商品j的綜合指標(biāo)的預(yù)測值PC,j可以通過集合N中各用戶的商品項(xiàng)綜合值得到，計(jì)算公式為[6]：

(7)

把計(jì)算出的PC,j值進(jìn)行降序操作，把前top-L位的商品推薦給目標(biāo)用戶C。

3 實(shí)驗(yàn)研究

3.1 數(shù)據(jù)來源

本文所用數(shù)據(jù)來源于A電子商務(wù)企業(yè)在2015年6-10月的45257條交易記錄，共分為退貨、贈(zèng)送、特價(jià)和正常四種銷售類型，共銷售35種商品。經(jīng)過數(shù)據(jù)處理，其中退貨記錄數(shù)為1070，贈(zèng)送記錄數(shù)為7989，特價(jià)記錄數(shù)為1736，正常記錄數(shù)為34462。因?yàn)橥素浐唾?zèng)送交易類型產(chǎn)生的交易額為負(fù)數(shù)或0消費(fèi)額，對(duì)數(shù)據(jù)分析無用，所以在數(shù)據(jù)處理時(shí)需要?jiǎng)h去退貨和贈(zèng)送類型的交易記錄。因此，有效的交易記錄數(shù)應(yīng)為36198，用戶數(shù)為8687，商品種類數(shù)為35。

為了保證實(shí)驗(yàn)的有效性，把數(shù)據(jù)源分為訓(xùn)練集和測試集，其中訓(xùn)練集為2015年6月至2015年8月的有效記錄26875條，約占75%；測試集為2015年9月和10月的有效記錄9323條，約占25%，即閥值r=0.75。

3.2 評(píng)價(jià)指標(biāo)

(8)

3.3 實(shí)驗(yàn)結(jié)果

在上面的實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)標(biāo)準(zhǔn)的前提下，開展三項(xiàng)實(shí)驗(yàn)研究。實(shí)驗(yàn)1比較皮爾遜-RFT與皮爾遜加權(quán)-RFT推薦質(zhì)量；實(shí)驗(yàn)2比較基于RFM的產(chǎn)品推薦算法與基于改進(jìn)RFM的產(chǎn)品推薦算法；實(shí)驗(yàn)3檢驗(yàn)RFT指標(biāo)權(quán)重對(duì)產(chǎn)品推薦算法的影響程度。

實(shí)驗(yàn)1 比較皮爾遜-RFT與皮爾遜加權(quán)-RFT推薦質(zhì)量。令top-L值分別為3,5,10,15,20,25,30等，觀察MAE值變化情況。如圖1所示。

由圖1可以看出，使用皮爾遜加權(quán)-RFT的MAE一直小于皮爾遜-RFT的MAE，即w加權(quán)方法能明顯提高產(chǎn)品推薦質(zhì)量。

圖1 皮爾遜-RFT與皮爾遜加權(quán)-RFT比較

實(shí)驗(yàn)2 不同算法比較實(shí)驗(yàn)。令top-L的值分別為3,5,10,15,20,25,30等，觀察MAE值變化情況。如圖2所示。

圖2 兩種算法的比較

由圖2可以看出，top-L值逐漸變大時(shí)，基于RFT的產(chǎn)品推薦算法的MAE值較好，尤其在top-L大于10后，優(yōu)勢更加明顯，證明本文算法可以提高產(chǎn)品推薦的滿意度和效率。

圖3 不同RFT指標(biāo)權(quán)重下算法對(duì)比

實(shí)驗(yàn)3：不同RFT指標(biāo)權(quán)重下算法對(duì)比實(shí)驗(yàn)。采用層次分析法確定RFT指標(biāo)權(quán)重值，需要組建專家組。在A企業(yè)支持下，選擇總經(jīng)理3人，業(yè)務(wù)經(jīng)理3人，店長6人，操作人員9人，客戶9人，共計(jì)30人組建專家團(tuán)隊(duì)。為了讓實(shí)驗(yàn)效果更加科學(xué)準(zhǔn)確，把專家組平均分為三組：A組、B組和C組，每組10人(總經(jīng)理1人、業(yè)務(wù)經(jīng)理1人、店長2人、操作人員3人、客戶3人)。

經(jīng)過計(jì)算，A組結(jié)果為Wf=0.255，Wp=0.509，Wr=0.236；B組結(jié)果為Wf=0.355，Wp=0.413，Wr=0.232；C組結(jié)果為Wf=0.405，Wp=0.375，Wr=0.220。圖3為不同RFT指標(biāo)權(quán)重下算法對(duì)比情況。

分析實(shí)驗(yàn)結(jié)果可知，C組MAE值最小，B組MAE值較大，A組MAE值最大，但是隨著top-L的增加，A、B兩組的MAE值越來越接近；從曲線軌跡來看，A、B、C三組的MAE值有趨于相同的趨勢，證明RFT各指標(biāo)權(quán)重的變化對(duì)推薦質(zhì)量有影響，且這種影響會(huì)逐漸減弱。因此，企業(yè)在開展推薦服務(wù)時(shí)，應(yīng)該采用合理的方法，確定合適的指標(biāo)權(quán)重值。

4 結(jié)束語

電子商務(wù)企業(yè)在提供推薦服務(wù)時(shí)，不僅要考慮用戶的消費(fèi)特點(diǎn)，也要考慮客戶價(jià)值在產(chǎn)品推薦中的體現(xiàn)。正如以上所述，用購買持續(xù)力、總利潤率代替R、M指標(biāo)，更符合企業(yè)目標(biāo)的要求，也讓推薦結(jié)果更加符合實(shí)際情況。以RFT模型來修正基于RFM的產(chǎn)品推薦算法，對(duì)電子商務(wù)企業(yè)開展推薦服務(wù)具有一定的借鑒作用。

[1]趙曉煜,黃小原,曹忠鵬.基于顧客交易數(shù)據(jù)的協(xié)同過濾推薦方法[J].東北大學(xué)學(xué)報(bào)：自然科學(xué)版,2009(12):1792-1795

[2]季曉芬,賈真.基于RFM行為模型的服裝企業(yè)VIP顧客數(shù)據(jù)挖掘[J].浙江理工大學(xué)學(xué)報(bào)：社會(huì)科學(xué)版，2015,34(2):131-135

[3]趙曉煜，丁延玲.基于顧客交易數(shù)據(jù)的電子商務(wù)推薦方法研究[J].現(xiàn)代管理科學(xué),2006(3):93-94

[4]羅軍,朱文奇.考慮物品相似權(quán)重的用戶相似度計(jì)算方法[J].計(jì)算工程與應(yīng)用，2015,51(8)：123-127

[5]朱文奇.推薦系統(tǒng)用戶相似度計(jì)算方法研究[D].重慶：重慶大學(xué)計(jì)算機(jī)學(xué)院,2014：11-14

[6]王召義,雷麗麗.基于改進(jìn)RFM模型的協(xié)同過濾推薦算法研究[J].安陽工學(xué)院學(xué)報(bào)，2015,14(2)：52-56

[7]Koren Y,Sill J,OrdRec:An ordinal model for predicting personalized item rating distributions[C]//Proc. 5th ACM Conference on Recommender Systems,New York：ACM Press,2011：117-124

[8]Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms[C]//Proceeding of the 10th International World Wide Web Conference. New York:ACM Press,2001:285-295

(責(zé)任編輯：汪材印)

2016-08-25

安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目“基于改進(jìn)RFM模型的電子商務(wù)協(xié)同過濾推薦算法研究”(KJ2016A253)；安徽商貿(mào)職業(yè)技術(shù)學(xué)院科研項(xiàng)目“基于支持向量回歸的汽車后市場數(shù)據(jù)預(yù)測模型構(gòu)建”(2016KYZ02)。

王召義(1983-)，安徽宿州人，碩士，講師，主要研究方向：數(shù)據(jù)挖掘。

10.3969/j.issn.1673-2006.2016.11.027

TP311.13

1673-2006(2016)11-0101-04

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于改進(jìn)RFM模型的產(chǎn)品推薦算法

1 改進(jìn)RFM模型

2 產(chǎn)品推薦算法

3 實(shí)驗(yàn)研究

4 結(jié)束語