王召義,汪 琪
安徽商貿(mào)職業(yè)技術(shù)學(xué)院經(jīng)濟(jì)貿(mào)易系,安徽蕪湖,241002
?
基于改進(jìn)RFM模型的產(chǎn)品推薦算法
王召義,汪 琪
安徽商貿(mào)職業(yè)技術(shù)學(xué)院經(jīng)濟(jì)貿(mào)易系,安徽蕪湖,241002
為了提高電子商務(wù)產(chǎn)品推薦服務(wù)的質(zhì)量,在傳統(tǒng)RFM模型的基礎(chǔ)上,先用顧客購買持續(xù)力、總利潤率代替RFM模型的R、M指標(biāo),建立RFT模型;然后對(duì)RFT指標(biāo)賦以權(quán)重,計(jì)算用戶-RFT矩陣;最后引入兩個(gè)用戶對(duì)產(chǎn)品RFT值之和的權(quán)值,優(yōu)化了用戶相似度計(jì)算方法。實(shí)驗(yàn)結(jié)果表明,該方法在提高推薦滿意度和效率上優(yōu)于傳統(tǒng)的基于RFM的產(chǎn)品推薦法。
產(chǎn)品推薦;RFM;RFT;用戶相似度
電子商務(wù)的本質(zhì)是流量和轉(zhuǎn)化率,而轉(zhuǎn)化率越來越低、流量獲取成本越來越高,導(dǎo)致電子商務(wù)企業(yè)紛紛涉足電子商務(wù)推薦領(lǐng)域,以便進(jìn)一步滿足消費(fèi)者個(gè)性化需求,提升轉(zhuǎn)化率,降低流量獲取成本。與此同時(shí),消費(fèi)者為了提高購物效率,減少購物成本,也在不斷尋找既能快速找到所需產(chǎn)品,又能滿足個(gè)性需求的推薦方法。RFM模型是一種衡量用戶價(jià)值與創(chuàng)利能力的重要工具,能較好地體現(xiàn)消費(fèi)者的購買行為和特征。其中,R(Recency,R)表示用戶在給定的時(shí)段內(nèi)多久前最后一次購買某商品,F(xiàn)(Frequency,F(xiàn))表示用戶在給定的時(shí)段內(nèi)總共購買某商品次數(shù),M(Monetary,M)表示用戶在給定的時(shí)段內(nèi)共花費(fèi)多少金額購買某商品[1]。RFM模型的這一特點(diǎn)恰好可以彌補(bǔ)傳統(tǒng)協(xié)同過濾推薦存在的缺點(diǎn)——用戶評(píng)價(jià)太主觀、缺乏科學(xué)性。因此,本文以RFM綜合值為切入點(diǎn)研究基于改進(jìn)RFM模型的產(chǎn)品推薦算法。
RFM模型是通過對(duì)顧客交易記錄進(jìn)行數(shù)據(jù)挖掘,以發(fā)掘顧客價(jià)值和潛在消費(fèi)能力的重要工具和手段。結(jié)合電子商務(wù)推薦服務(wù)發(fā)展現(xiàn)狀和RFM模型的缺點(diǎn),擬對(duì)R、M指標(biāo)進(jìn)行改進(jìn),以適應(yīng)電子商務(wù)推薦服務(wù)發(fā)展。
1.1 改進(jìn)R算法
計(jì)算R值的一般方法為:數(shù)據(jù)截止時(shí)間點(diǎn)-顧客最近消費(fèi)時(shí)間點(diǎn)。傳統(tǒng)計(jì)算方法雖然考慮了最近來店時(shí)間對(duì)顧客價(jià)值和潛在消費(fèi)能力的影響,但卻忽略了顧客的持續(xù)購買能力[2]。為了能夠正確反映顧客持續(xù)購買能力,引入最近購買時(shí)間差和最遠(yuǎn)購買時(shí)間差兩個(gè)指標(biāo),并根據(jù)定義1對(duì)R進(jìn)行改進(jìn)。
定義1 設(shè)t為數(shù)據(jù)截止時(shí)間點(diǎn),t1為顧客最近購買時(shí)間點(diǎn),t2為顧客最遠(yuǎn)購買時(shí)間點(diǎn),則顧客最近購買時(shí)間差為(t-t1)、顧客最遠(yuǎn)購買時(shí)間差為(t-t2)。由此可規(guī)定R值的新計(jì)算方法為:
(1)
當(dāng)t1=t2時(shí),R=1,表明顧客在特定時(shí)段內(nèi)持續(xù)購買能力為“零”,很有可能是一名新顧客。R值越小,說明該顧客活躍度越高。
1.2 改進(jìn)M算法
企業(yè)追求的是利潤,不是純粹的高銷售額,且高銷售額并不一定能帶來高額利潤,因此在RFM模型中不應(yīng)該忽略利潤這一關(guān)鍵因素。在電子商務(wù)企業(yè)中,一般以利潤率來衡量產(chǎn)品的營利能力。因此,引入總利潤率指標(biāo),并根據(jù)定義2對(duì)M進(jìn)行改進(jìn)。
定義2 設(shè)某產(chǎn)品的成本為c,銷售價(jià)格為p,某顧客購買該產(chǎn)品的次數(shù)為f,則總利潤率T可由下面公式求得:
(2)
可知,某物品的利潤率一般是不變的,隨著購買次數(shù)的增加,總利潤率值越來越大。
1.3 RFT模型
經(jīng)過改進(jìn)R和M指標(biāo),定義改進(jìn)后的模型稱為RFT模型。其中R、F、T三個(gè)指標(biāo)的含義分別為:R(Recency,R)表示用戶在給定的時(shí)段內(nèi)持續(xù)購買能力,F(xiàn)(Frequency,F(xiàn))表示用戶在給定的時(shí)段內(nèi)總共購買某商品多少次,T(Total profit,T)表示用戶在給定的時(shí)段內(nèi)的總利潤率。
2.1 構(gòu)建用戶-RFT矩陣
產(chǎn)品推薦算法的核心是計(jì)算用戶-商品評(píng)價(jià)矩陣?,F(xiàn)通過對(duì)用戶交易記錄進(jìn)行數(shù)據(jù)挖掘,計(jì)算用戶-RFT矩陣,具體計(jì)算步驟如下。
第一步,挖掘R、F、T值。根據(jù)用戶交易記錄數(shù)據(jù)庫,制作至少包含用戶ID、最近購買時(shí)間點(diǎn)、最遠(yuǎn)購買時(shí)間點(diǎn)、商品成本、商品銷售價(jià)格、銷售金額等變量的銷售記錄統(tǒng)計(jì)表。F值可以使用有關(guān)數(shù)據(jù)挖掘工具直接統(tǒng)計(jì)得出,而R和T值可由定義1和定義2計(jì)算得出。
第二步,數(shù)據(jù)標(biāo)準(zhǔn)化。在進(jìn)行數(shù)據(jù)挖掘時(shí),需要對(duì)各類數(shù)據(jù)進(jìn)行規(guī)范化處理,以保障數(shù)據(jù)量綱相同,此處采用極差正規(guī)比變換方法進(jìn)行數(shù)據(jù)規(guī)范化處理[3]。因R是成本性指標(biāo),F(xiàn)和T是收益性指標(biāo),所以規(guī)范化公式有所區(qū)別,具體如下:
(3)
其中,R、F、T是第一步得到的初始值,Rmin、Fmin、Tmin是初始值中的最小值,Rmax、Fmax、Tmax是初始值中的最大值,R′、F′、T′是預(yù)處理以后的值。
第三步,確定R′、F′、T′權(quán)重。采用層次分析法計(jì)算權(quán)重,R′、F′、T′對(duì)應(yīng)權(quán)重值分別為w1、w2、w3,且w1+w2+w3=1。
第四步,計(jì)算RFT綜合值。為了方便數(shù)據(jù)處理和數(shù)據(jù)減噪,對(duì)R′、F′、T′值進(jìn)行加權(quán)求和操作,得到的綜合值記為RFT,計(jì)算公式為:
RFT=w1R′+w2F′+w3T′
(4)
2.2 計(jì)算用戶相似度
相似度的計(jì)算其實(shí)就是計(jì)算兩個(gè)向量的距離,距離越近相似度越大。實(shí)驗(yàn)分析顯示,對(duì)于基于用戶的推薦系統(tǒng)來說,Pearson相關(guān)系數(shù)比其他方法更勝一籌。Pearson相關(guān)系數(shù)計(jì)算公式見下:
sim(Ci,Cj)
(5)
上述計(jì)算公式依賴于H,也就是說H越大相似度計(jì)算結(jié)果越準(zhǔn)確;H比較小時(shí),相似度存在一定的偶然性。比如兩個(gè)用戶都只買過一個(gè)商品,且綜合值Z相同,根據(jù)公式,兩個(gè)用戶是完全相似的。因此,根據(jù)一個(gè)商品就判斷兩個(gè)用戶完全相似,顯然不合理。羅軍和朱文奇[4]改進(jìn)了Pearson相似度計(jì)算公式,如下:
sim′(Ci,Cj)
(6)
2.3 智能推薦
智能推薦是指電子商務(wù)推薦系統(tǒng)向目標(biāo)用戶推薦商品或服務(wù),且能夠滿足目標(biāo)用戶個(gè)性化需求。
定義3 設(shè)目標(biāo)用戶為C,a是集合N中的元素,則目標(biāo)用戶C對(duì)商品j的綜合指標(biāo)的預(yù)測值PC,j可以通過集合N中各用戶的商品項(xiàng)綜合值得到,計(jì)算公式為[6]:
(7)
把計(jì)算出的PC,j值進(jìn)行降序操作,把前top-L位的商品推薦給目標(biāo)用戶C。
3.1 數(shù)據(jù)來源
本文所用數(shù)據(jù)來源于A電子商務(wù)企業(yè)在2015年6-10月的45257條交易記錄,共分為退貨、贈(zèng)送、特價(jià)和正常四種銷售類型,共銷售35種商品。經(jīng)過數(shù)據(jù)處理,其中退貨記錄數(shù)為1070,贈(zèng)送記錄數(shù)為7989,特價(jià)記錄數(shù)為1736,正常記錄數(shù)為34462。因?yàn)橥素浐唾?zèng)送交易類型產(chǎn)生的交易額為負(fù)數(shù)或0消費(fèi)額,對(duì)數(shù)據(jù)分析無用,所以在數(shù)據(jù)處理時(shí)需要?jiǎng)h去退貨和贈(zèng)送類型的交易記錄。因此,有效的交易記錄數(shù)應(yīng)為36198,用戶數(shù)為8687,商品種類數(shù)為35。
為了保證實(shí)驗(yàn)的有效性,把數(shù)據(jù)源分為訓(xùn)練集和測試集,其中訓(xùn)練集為2015年6月至2015年8月的有效記錄26875條,約占75%;測試集為2015年9月和10月的有效記錄9323條,約占25%,即閥值r=0.75。
3.2 評(píng)價(jià)指標(biāo)
(8)
3.3 實(shí)驗(yàn)結(jié)果
在上面的實(shí)驗(yàn)數(shù)據(jù)和評(píng)價(jià)標(biāo)準(zhǔn)的前提下,開展三項(xiàng)實(shí)驗(yàn)研究。實(shí)驗(yàn)1比較皮爾遜-RFT與皮爾遜加權(quán)-RFT推薦質(zhì)量;實(shí)驗(yàn)2比較基于RFM的產(chǎn)品推薦算法與基于改進(jìn)RFM的產(chǎn)品推薦算法;實(shí)驗(yàn)3檢驗(yàn)RFT指標(biāo)權(quán)重對(duì)產(chǎn)品推薦算法的影響程度。
實(shí)驗(yàn)1 比較皮爾遜-RFT與皮爾遜加權(quán)-RFT推薦質(zhì)量。令top-L值分別為3,5,10,15,20,25,30等,觀察MAE值變化情況。如圖1所示。
由圖1可以看出,使用皮爾遜加權(quán)-RFT的MAE一直小于皮爾遜-RFT的MAE,即w加權(quán)方法能明顯提高產(chǎn)品推薦質(zhì)量。
圖1 皮爾遜-RFT與皮爾遜加權(quán)-RFT比較
實(shí)驗(yàn)2 不同算法比較實(shí)驗(yàn)。令top-L的值分別為3,5,10,15,20,25,30等,觀察MAE值變化情況。如圖2所示。
圖2 兩種算法的比較
由圖2可以看出,top-L值逐漸變大時(shí),基于RFT的產(chǎn)品推薦算法的MAE值較好,尤其在top-L大于10后,優(yōu)勢更加明顯,證明本文算法可以提高產(chǎn)品推薦的滿意度和效率。
圖3 不同RFT指標(biāo)權(quán)重下算法對(duì)比
實(shí)驗(yàn)3:不同RFT指標(biāo)權(quán)重下算法對(duì)比實(shí)驗(yàn)。采用層次分析法確定RFT指標(biāo)權(quán)重值,需要組建專家組。在A企業(yè)支持下,選擇總經(jīng)理3人,業(yè)務(wù)經(jīng)理3人,店長6人,操作人員9人,客戶9人,共計(jì)30人組建專家團(tuán)隊(duì)。為了讓實(shí)驗(yàn)效果更加科學(xué)準(zhǔn)確,把專家組平均分為三組:A組、B組和C組,每組10人(總經(jīng)理1人、業(yè)務(wù)經(jīng)理1人、店長2人、操作人員3人、客戶3人)。
經(jīng)過計(jì)算,A組結(jié)果為Wf=0.255,Wp=0.509,Wr=0.236;B組結(jié)果為Wf=0.355,Wp=0.413,Wr=0.232;C組結(jié)果為Wf=0.405,Wp=0.375,Wr=0.220。圖3為不同RFT指標(biāo)權(quán)重下算法對(duì)比情況。
分析實(shí)驗(yàn)結(jié)果可知,C組MAE值最小,B組MAE值較大,A組MAE值最大,但是隨著top-L的增加,A、B兩組的MAE值越來越接近;從曲線軌跡來看,A、B、C三組的MAE值有趨于相同的趨勢,證明RFT各指標(biāo)權(quán)重的變化對(duì)推薦質(zhì)量有影響,且這種影響會(huì)逐漸減弱。因此,企業(yè)在開展推薦服務(wù)時(shí),應(yīng)該采用合理的方法,確定合適的指標(biāo)權(quán)重值。
電子商務(wù)企業(yè)在提供推薦服務(wù)時(shí),不僅要考慮用戶的消費(fèi)特點(diǎn),也要考慮客戶價(jià)值在產(chǎn)品推薦中的體現(xiàn)。正如以上所述,用購買持續(xù)力、總利潤率代替R、M指標(biāo),更符合企業(yè)目標(biāo)的要求,也讓推薦結(jié)果更加符合實(shí)際情況。以RFT模型來修正基于RFM的產(chǎn)品推薦算法,對(duì)電子商務(wù)企業(yè)開展推薦服務(wù)具有一定的借鑒作用。
[1]趙曉煜,黃小原,曹忠鵬.基于顧客交易數(shù)據(jù)的協(xié)同過濾推薦方法[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版,2009(12):1792-1795
[2]季曉芬,賈真.基于RFM行為模型的服裝企業(yè)VIP顧客數(shù)據(jù)挖掘[J].浙江理工大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2015,34(2):131-135
[3]趙曉煜,丁延玲.基于顧客交易數(shù)據(jù)的電子商務(wù)推薦方法研究[J].現(xiàn)代管理科學(xué),2006(3):93-94
[4]羅軍,朱文奇.考慮物品相似權(quán)重的用戶相似度計(jì)算方法[J].計(jì)算工程與應(yīng)用,2015,51(8):123-127
[5]朱文奇.推薦系統(tǒng)用戶相似度計(jì)算方法研究[D].重慶:重慶大學(xué)計(jì)算機(jī)學(xué)院,2014:11-14
[6]王召義,雷麗麗.基于改進(jìn)RFM模型的協(xié)同過濾推薦算法研究[J].安陽工學(xué)院學(xué)報(bào),2015,14(2):52-56
[7]Koren Y,Sill J,OrdRec:An ordinal model for predicting personalized item rating distributions[C]//Proc. 5th ACM Conference on Recommender Systems,New York:ACM Press,2011:117-124
[8]Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms[C]//Proceeding of the 10th International World Wide Web Conference. New York:ACM Press,2001:285-295
(責(zé)任編輯:汪材印)
2016-08-25
安徽省高校自然科學(xué)研究重點(diǎn)項(xiàng)目“基于改進(jìn)RFM模型的電子商務(wù)協(xié)同過濾推薦算法研究”(KJ2016A253);安徽商貿(mào)職業(yè)技術(shù)學(xué)院科研項(xiàng)目“基于支持向量回歸的汽車后市場數(shù)據(jù)預(yù)測模型構(gòu)建”(2016KYZ02)。
王召義(1983-),安徽宿州人,碩士,講師,主要研究方向:數(shù)據(jù)挖掘。
10.3969/j.issn.1673-2006.2016.11.027
TP311.13
A
1673-2006(2016)11-0101-04