国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種改進(jìn)的基于梯度提升回歸算法的O2O電子商務(wù)推薦模型

2016-05-30 09:10孫克雷鄧仙榮安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院安徽淮南232001
關(guān)鍵詞:個(gè)性化推薦位置服務(wù)

孫克雷, 鄧仙榮(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 安徽淮南 232001)

?

一種改進(jìn)的基于梯度提升回歸算法的O2O電子商務(wù)推薦模型

孫克雷, 鄧仙榮
(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院, 安徽淮南 232001)

摘要:位置屬性對(duì)于線下消費(fèi)的用戶具有重要影響。為了有效提高個(gè)性化推薦精度,在對(duì)O2O電子商務(wù)特點(diǎn)進(jìn)行用戶特征分析的基礎(chǔ)上,在推薦算法中引入當(dāng)前時(shí)間參數(shù)和位置參數(shù),提出了一種改進(jìn)的基于梯度提升回歸算法的O2O電子商務(wù)推薦模型。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的基于梯度提升回歸算法的O2O電子商務(wù)推薦模型在實(shí)時(shí)性和準(zhǔn)確性方面明顯優(yōu)于傳統(tǒng)的推薦算法。

關(guān)鍵詞:梯度提升回歸樹,位置服務(wù),個(gè)性化推薦,行為日志分析

0 引 言

互聯(lián)網(wǎng)的快速發(fā)展將人類帶進(jìn)了信息化時(shí)代,從根本上改變了個(gè)人生活和企業(yè)發(fā)展。對(duì)于個(gè)人而言,足不出戶就可以買到所需要的商品或服務(wù),讓消費(fèi)者享受到電子商務(wù)模式的便利;對(duì)于企業(yè)而言,互聯(lián)網(wǎng)在企業(yè)和消費(fèi)者之間建立了直接聯(lián)系,為企業(yè)帶來更大的商機(jī)。貝恩公司與阿里巴巴研究院聯(lián)合開展的2015年度中國電商報(bào)告顯示,2014年中國線上銷售額已經(jīng)達(dá)到2.9萬億,其中一線城市人均支出超過10萬元,由此可見,O2O電子商務(wù)改變了消費(fèi)者的消費(fèi)模式。推薦系統(tǒng)是利用數(shù)據(jù)挖掘等技術(shù),分析消費(fèi)者在電子商務(wù)網(wǎng)站的訪問行為,產(chǎn)生消費(fèi)者感興趣產(chǎn)品信息的推薦結(jié)果。

1 相關(guān)研究

O2O電子商務(wù)是基于大數(shù)據(jù)平臺(tái)架構(gòu)下的典型案例,關(guān)鍵問題是依據(jù)海量的商品數(shù)據(jù)和用戶數(shù)據(jù)建立一個(gè)有效的推薦模型,目前流行的推薦模型主要有以下三種:

1)基于協(xié)同過濾的推薦:分為基于物品的協(xié)同過濾和基于用戶的協(xié)同過濾[1,2]。協(xié)同過濾通過對(duì)用戶偏好信息進(jìn)行分析,根據(jù)偏好數(shù)據(jù)計(jì)算相似用戶和相似物品,然后基于相似物品或相似用戶進(jìn)行推薦[3]。協(xié)同過濾的主要優(yōu)點(diǎn)是集合了他人的經(jīng)驗(yàn),有利于推薦新信息,實(shí)現(xiàn)個(gè)性化推薦;缺點(diǎn)主要是稀疏性問題和冷啟動(dòng)問題。

2)基于關(guān)聯(lián)規(guī)則的推薦:關(guān)聯(lián)規(guī)則挖掘已經(jīng)是數(shù)據(jù)挖掘中的一個(gè)經(jīng)典的問題,主要是挖掘不同商品在銷售過程中的相關(guān)性,由此預(yù)判消費(fèi)者在購買了一些商品后的下一次購物行為,當(dāng)關(guān)聯(lián)規(guī)則得到驗(yàn)證后,就可以建立基于關(guān)聯(lián)規(guī)則的推薦模型,Agrawal等在1993年最早提出了Aprior的關(guān)聯(lián)規(guī)則推薦算法[4]。

3)基于模型的推薦:本質(zhì)上是應(yīng)用機(jī)器學(xué)習(xí)方法解決推薦問題,將已有用戶行為數(shù)據(jù)和商品屬性數(shù)據(jù)進(jìn)行預(yù)處理后,分析特征向量,獲取訓(xùn)練樣本[5],再找到一個(gè)可行的訓(xùn)練算法驗(yàn)證預(yù)測結(jié)果。其關(guān)鍵在于如何分析和約簡特征向量,將用戶實(shí)時(shí)偏好信息反饋給已建立模型,從而提高推薦準(zhǔn)確率。

本文采用基于模型的推薦,通過深入挖掘移動(dòng)O2O電子商務(wù)中的用戶行為日志,抽取出能辨別用戶對(duì)商品服務(wù)購買行為的基本特征,然后將其融入梯度提升回歸算法,建立用戶興趣偏好模型來預(yù)測用戶的購物行為。梯度提升回歸算法(Gradient Boost Decision Tree)是一種組合決策樹機(jī)器學(xué)習(xí)算法[6],通過組合多個(gè)弱決策樹形成一個(gè)強(qiáng)決策樹預(yù)測模型。梯度提升回歸算法具有評(píng)價(jià)特征重要性的能力,和SVM一起被認(rèn)為是泛化能力較強(qiáng)的算法。

2 移動(dòng)用戶基于位置的偏好特征分析

O2O是典型的基于位置服務(wù)的一種電子商務(wù)模式,提供的商品以本地服務(wù)類為主,如飲食,住宿,娛樂等,要求用戶線下實(shí)地體驗(yàn),其主要特點(diǎn)是位置信息對(duì)于用戶行為特征有重大影響[7]。上述位置信息是個(gè)廣義概念,同時(shí)包含了時(shí)間和地理位置兩個(gè)維度的數(shù)據(jù)。

1)在時(shí)間維度上,如果用戶剛剛消費(fèi)一個(gè)項(xiàng)目,那短期內(nèi)再次消費(fèi)的可能性很低,例如理發(fā)服務(wù)。設(shè)用戶消費(fèi)某一商品或服務(wù)項(xiàng)目的平均周期為T,消費(fèi)時(shí)間周期T對(duì)用戶的相關(guān)性函數(shù)定義為:

其中,λ是時(shí)間衰減參數(shù)。顯然,當(dāng)t=T時(shí),n(T)取得最大值。

2)在地理位置維度上,移動(dòng)位置不同對(duì)用戶消費(fèi)需求也有重大影響。在熱門消費(fèi)場景區(qū)域比如商場街區(qū)等,用戶會(huì)有一定的隨眾傾向,在一些偏遠(yuǎn)、冷門的場景,用戶平均消費(fèi)傾向又所降低。根據(jù)長尾理論,雖然場景活躍度高的地方集中了大多數(shù)的用戶需求,但是冷門的地方往往代表了用戶個(gè)性化需求[8]。因此,需綜合考慮場景活躍度和用戶活躍度以計(jì)算位置信息影響因子[9,10]。假定場景活躍度是N(s),用戶活躍度是N(u),假定位置信息影響因子定義W為:

實(shí)驗(yàn)時(shí),N(s)以場景所在地的品牌轉(zhuǎn)化率表示,N(u)以用戶在此場景所在地的品牌轉(zhuǎn)化率表示,其中0

3 梯度提升回歸算法(Gradient Boost Decision Tree)

3.1原理及方法

Gradient Boost Decision Tree(GBDT)是Fridedman在1999年提出的一種組合模型,它的基本思想是通過構(gòu)建M個(gè)弱分類器,經(jīng)過多次迭代最終組合而成一個(gè)強(qiáng)分類器。每一次迭代是為了改進(jìn)上一次結(jié)果,減少上一次模型的殘差。并且在殘差減少的梯度方向上建立新的組合模型[11]。為了描述模型的精確程度,引入損失函數(shù)。假定為訓(xùn)練樣本,代表參數(shù)集合,β是每個(gè)分類器的權(quán)值,α是分類器內(nèi)的參數(shù),則以P為參數(shù)的x函數(shù):

將式(2)寫成梯度下降的形式為式(3),表示Fm(x)是之前所得模型Fm-1(x)的損失函數(shù)下降最快的方向:

對(duì)每個(gè)候選都計(jì)算偏導(dǎo)數(shù)gm(xi):

最終得到一個(gè)N維梯度下降方向向量:

使用最小二乘法得αm:

進(jìn)而得到βm:

如此迭代M次最終得到參數(shù)集合P。

3.2改進(jìn)梯度提升回歸算法AGBDT:

梯度提升回歸算法是一種組合決策樹,通過對(duì)一系列的弱分類器累加,同時(shí)迭代逼近找出各分類器最佳權(quán)值,即損失函數(shù)在梯度下降方向時(shí)的參數(shù),得出預(yù)測結(jié)果。原則上,各個(gè)分類器的初始權(quán)值一般設(shè)置相等,但本文研究O2O實(shí)際場景中,當(dāng)前位置和時(shí)間對(duì)位置特征分類器有明顯影響。通過多次實(shí)驗(yàn)將初始權(quán)值優(yōu)化設(shè)置如下:

最終改進(jìn)公式為:

其中,W是位置信息影響因子,n(T)是用戶商品服務(wù)消費(fèi)時(shí)間周期相關(guān)性函數(shù)。

4 實(shí)驗(yàn)結(jié)果與分析

4.1實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)為阿里巴巴公司在真實(shí)O2O電子商務(wù)業(yè)務(wù)場景下,一個(gè)月的移動(dòng)端行為數(shù)據(jù)和下一天用于準(zhǔn)確度計(jì)算的移動(dòng)端行為數(shù)據(jù)。數(shù)據(jù)項(xiàng)包含了脫敏處理的用戶ID、用戶行為、行為觸發(fā)時(shí)間、用戶位置信息數(shù)據(jù)和商品ID、商品類別、商品位置信息。在真實(shí)的業(yè)務(wù)場景下,需要對(duì)所有商品的一個(gè)子集構(gòu)建個(gè)性化推薦模型。在完成任務(wù)的過程中,不僅需要利用用戶在這個(gè)商品子集上的行為數(shù)據(jù),還需要利用更豐富的用戶行為數(shù)據(jù)。定義符號(hào)如下:U——用戶集合;I——商品全集;P——商品子集,P∩_I;D——用戶對(duì)商品全集的行為數(shù)據(jù)集合。本文目標(biāo)是利用D來構(gòu)造U中用戶對(duì)P中商品的推薦模型。

1)數(shù)據(jù)說明:

數(shù)據(jù)包含兩個(gè)部分,如表1、2所示。第一部分是用戶在商品全集上的移動(dòng)端行為數(shù)據(jù)(D):

表1 用戶行為日志字段說明

表2 商品數(shù)據(jù)字段說明

訓(xùn)練數(shù)據(jù)包含了抽樣出來的一定量用戶在一個(gè)月時(shí)間(11.18~12.18)內(nèi)的移動(dòng)端行為數(shù)據(jù)(D),測試數(shù)據(jù)是這些用戶此后一天(12.19)對(duì)商品子集(P)的購買數(shù)據(jù)。實(shí)驗(yàn)將使用訓(xùn)練數(shù)據(jù)建立推薦模型,并輸出用戶在此后一天對(duì)商品子集購買行為的預(yù)測結(jié)果。

2)評(píng)估指標(biāo):

采用經(jīng)典的精確度(precision)、召回率(recall)和F1值作為評(píng)估指標(biāo)[8]。計(jì)算公式如下:

其中PredictionSet為算法預(yù)測的購買數(shù)據(jù)集合,ReferenceSet為真實(shí)的答案購買數(shù)據(jù)集合。我們以F1值作為最終的唯一評(píng)測標(biāo)準(zhǔn)。

4.2實(shí)驗(yàn)設(shè)計(jì)

4.2.1特征提取

原始數(shù)據(jù)包含字段:用戶ID、商品ID、商品類別ID、時(shí)間(精確到小時(shí))、地理位置、用戶行為。首先劃分特征類別,比如分為用戶—商品類特征,用戶—商品類別類特征,商品—商品類別特征,商品類特征,用戶類特征,商品類別類特征,交叉特征等幾個(gè)方面。劃分粒度分為月,周,天,小時(shí),初步數(shù)據(jù)統(tǒng)計(jì)之后會(huì)發(fā)現(xiàn)購買時(shí)間熱段和冷段,來適當(dāng)調(diào)整時(shí)間片長度。主要特征有:直接特征,按時(shí)間維度劃分點(diǎn)擊次數(shù),購買次數(shù),收藏次數(shù),加入購物車次數(shù);位置特征,劃分基于位置信息的各種用戶行為;轉(zhuǎn)化率特征,品牌被點(diǎn)擊,收藏,加入購物車到成功購買的轉(zhuǎn)化率;時(shí)間特征:最后一次購買,點(diǎn)擊,收藏,加入購物車的時(shí)間差,同類商品平均購買時(shí)間間隔,歷史至今點(diǎn)擊,購買的天數(shù)。為了獲取基于位置信息的用戶活躍度N(u)和場景活躍度N(s),需要提取用戶-位置-轉(zhuǎn)化率三維特征,位置-轉(zhuǎn)化率二維特征。

4.2.2實(shí)驗(yàn)結(jié)果與分析

本文在構(gòu)建完成的訓(xùn)練集中,正負(fù)樣本的比例采取大約為1:300,首先為了評(píng)估特征個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,固定迭代次數(shù)k=300,得到圖1特征個(gè)數(shù)m與F1之間的曲線關(guān)系。由圖1可知,當(dāng)m在[10, 20]上升趨勢明顯,m>30,F(xiàn)1分?jǐn)?shù)平緩增長,m=80時(shí),取得最大值。m>80后,曲線有下降趨勢。綜合考慮F1分?jǐn)?shù)和算法復(fù)雜度,m=80效果最好。

圖1 特征個(gè)數(shù)與F1分?jǐn)?shù)相關(guān)曲線

在取特征個(gè)數(shù)m=80,評(píng)估在算法GBDT和改進(jìn)算法AGBDT下,迭代次數(shù)和F1分?jǐn)?shù)的關(guān)系,訓(xùn)練結(jié)果如圖2所示,迭代次數(shù)相同的情況下,改進(jìn)算法AGBDT取得更高F1分?jǐn)?shù),說明合理預(yù)判決策樹權(quán)值有助于降低迭代次數(shù)。迭代次數(shù)k在[50, 100]時(shí),兩種算法的F1值趨勢明顯上升,k>100,增速放緩,k>400有明顯下降趨勢。綜合考慮,迭代次數(shù)選擇k=350。

圖2 迭代次數(shù)和F1分?jǐn)?shù)相關(guān)曲線

最終,在正負(fù)樣本比例取1:300,特征個(gè)數(shù)m=80,迭代次數(shù)k=350,取得實(shí)驗(yàn)結(jié)果如表3:

表3 實(shí)驗(yàn)最終結(jié)果

5 總結(jié)與展望

綜上所述,GBDT算法由多個(gè)弱分類器組成的強(qiáng)分類器具有較強(qiáng)的泛化能力,可以綜合考慮多個(gè)特征組合的不同情形,在本文中,為了在推薦模型中考慮當(dāng)前位置信息對(duì)用戶購物行為的影響,在相對(duì)應(yīng)的特征分類器上添加了相關(guān)位置信息相關(guān)因子,和時(shí)間消費(fèi)周期函數(shù)。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法取得了良好的準(zhǔn)確率和召回率。

本文在應(yīng)用GBDT算法實(shí)現(xiàn)基于用戶購物行為歷史數(shù)據(jù)預(yù)測下一步購物行為的基礎(chǔ)上,進(jìn)行了隨著位置改變引起的推薦內(nèi)容變化的算法改進(jìn)。不過由于條件限制,并未做線上實(shí)時(shí)推薦測試,因此關(guān)于算法推薦模型的實(shí)際運(yùn)行情況將成為下一個(gè)研究重點(diǎn)。

參考文獻(xiàn)

[1]許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究[J]. 軟件學(xué)報(bào),2009,20(2):350-262.

[2]Leungcw, Chansc, Chungf, et al. An empirical study of a cross-level association rule mining approach to cold-start recommendations[J]. Knowledge-Based Systems, 2008, 21(7): 515-529.

[3]馬宏偉,張光衛(wèi),李鵬.協(xié)同過濾推薦算法綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(7):1282-1288.

[4]Agrawal R, Imuekubsju R, Swami A. Mining association rules between sets of items in large databases[C].//.Proc. of ACM SIGMOD International Conference on Management of Data. New York: ACM Press,1993;207-216.

[5]閆友彪,陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述[J]. 計(jì)算機(jī)應(yīng)用研究,2004,(7):4-11.

[6]Friedman JH. Greedy function approximation:a gardient boosting machine[J]. Annal of Statistics, 2000, 29(5): 1189-1232.

[7]孟祥武,胡勛,王立才,等. 移動(dòng)推薦系統(tǒng)及其應(yīng)用[J]. 軟件學(xué)報(bào),2013,24(1):91-108.

[8]項(xiàng)亮.推薦系統(tǒng)實(shí)踐[M].北京:人民郵電出版社,2012.

[9]張新猛,蔣盛益,張倩生,等.基于用戶偏好加權(quán)的混合網(wǎng)絡(luò)推薦算法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2015(50):30-34.

[10]王興茂,張興明.基于貢獻(xiàn)因子的協(xié)同過濾推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2015, 32(12): 3351- 3354.

[11]Friedman JH. Stochastic gradient boosting[J]. Computatianal Statistics & Data Analysis, 2002,38(4): 367-378

基金支持:安徽省自然科學(xué)基金(1408085QE94)

A Recommendation Model for O2O E-commercebased on Improved Gradient Boosting Regression Trees

SUN Kelei,DENG Xianrong
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)

Abstract:Location attribute exerts important infuences on offine consuers. In order to improve the accuracy of personalized recommendation, basing on the analysis of the O2O e-commerce with user characteristics, this paper introduces the current time and location parameters to the basis of the recommendation algorithm, and it proposes O2O e-commerce recommendation model on improved gradient boosting regression tree The results show this model is apparently superior to the traditional recommendation algorithm both in real-time and accuracy.

Keywords:GBDT, LBS, Personalized recommendations, behavior log analysis

作者簡介:孫克雷(1980-),男,博士,副教授,主要研究方向?yàn)樾畔⑷诤稀?/p>

收稿日期:2015-12-08

DOI:10.11921/j.issn.2095-8382.20160217

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):2095-8382(2016)02-087-05

猜你喜歡
個(gè)性化推薦位置服務(wù)
星站差分與PPP技術(shù)在深遠(yuǎn)海調(diào)查中的位置服務(wù)精度分析
互聯(lián)互通 暢享未來 第12屆衛(wèi)星導(dǎo)航與位置服務(wù)運(yùn)營商大會(huì)在深圳舉行
第六屆中國衛(wèi)星導(dǎo)航與位置服務(wù)年會(huì)暨首屆衛(wèi)星應(yīng)用國際博覽會(huì)
基于遠(yuǎn)程教育的個(gè)性化知識(shí)服務(wù)研究
基于鏈?zhǔn)酱鎯?chǔ)結(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計(jì)與實(shí)現(xiàn)
智能車輛專利技術(shù)綜述
個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
基于協(xié)同過濾算法的個(gè)性化圖書推薦系統(tǒng)研究
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個(gè)性化推薦中的應(yīng)用
基于Android 的地圖位置服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
曲靖市| 略阳县| 闸北区| 怀安县| 阳高县| 香港| 林口县| 阿鲁科尔沁旗| 鄂托克前旗| 重庆市| 共和县| 新巴尔虎右旗| 新兴县| 吴川市| 茶陵县| 揭西县| 应城市| 宁陵县| 嘉峪关市| 东丽区| 澎湖县| 忻城县| 开鲁县| 措美县| 兖州市| 桦甸市| 吴堡县| 无棣县| 精河县| 宜宾县| 大宁县| 通山县| 林芝县| 奎屯市| 五河县| 金堂县| 嘉定区| 颍上县| 手机| 安国市| 甘南县|