一種改進(jìn)的基于梯度提升回歸算法的O2O電子商務(wù)推薦模型

2016-05-30 09:10孫克雷鄧仙榮安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院安徽淮南232001

安徽建筑大學(xué)學(xué)報(bào) 2016年2期

孫克雷，鄧仙榮（安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，安徽淮南 232001）

孫克雷，鄧仙榮
（安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，安徽淮南 232001）

摘要：位置屬性對(duì)于線下消費(fèi)的用戶具有重要影響。為了有效提高個(gè)性化推薦精度，在對(duì)O2O電子商務(wù)特點(diǎn)進(jìn)行用戶特征分析的基礎(chǔ)上，在推薦算法中引入當(dāng)前時(shí)間參數(shù)和位置參數(shù)，提出了一種改進(jìn)的基于梯度提升回歸算法的O2O電子商務(wù)推薦模型。實(shí)驗(yàn)結(jié)果表明，改進(jìn)的基于梯度提升回歸算法的O2O電子商務(wù)推薦模型在實(shí)時(shí)性和準(zhǔn)確性方面明顯優(yōu)于傳統(tǒng)的推薦算法。

關(guān)鍵詞：梯度提升回歸樹，位置服務(wù)，個(gè)性化推薦，行為日志分析

0　引　言

互聯(lián)網(wǎng)的快速發(fā)展將人類帶進(jìn)了信息化時(shí)代，從根本上改變了個(gè)人生活和企業(yè)發(fā)展。對(duì)于個(gè)人而言，足不出戶就可以買到所需要的商品或服務(wù)，讓消費(fèi)者享受到電子商務(wù)模式的便利；對(duì)于企業(yè)而言，互聯(lián)網(wǎng)在企業(yè)和消費(fèi)者之間建立了直接聯(lián)系，為企業(yè)帶來更大的商機(jī)。貝恩公司與阿里巴巴研究院聯(lián)合開展的2015年度中國電商報(bào)告顯示，2014年中國線上銷售額已經(jīng)達(dá)到2.9萬億，其中一線城市人均支出超過10萬元，由此可見，O2O電子商務(wù)改變了消費(fèi)者的消費(fèi)模式。推薦系統(tǒng)是利用數(shù)據(jù)挖掘等技術(shù)，分析消費(fèi)者在電子商務(wù)網(wǎng)站的訪問行為，產(chǎn)生消費(fèi)者感興趣產(chǎn)品信息的推薦結(jié)果。

1　相關(guān)研究

O2O電子商務(wù)是基于大數(shù)據(jù)平臺(tái)架構(gòu)下的典型案例，關(guān)鍵問題是依據(jù)海量的商品數(shù)據(jù)和用戶數(shù)據(jù)建立一個(gè)有效的推薦模型，目前流行的推薦模型主要有以下三種：

1）基于協(xié)同過濾的推薦：分為基于物品的協(xié)同過濾和基于用戶的協(xié)同過濾［1，2］。協(xié)同過濾通過對(duì)用戶偏好信息進(jìn)行分析，根據(jù)偏好數(shù)據(jù)計(jì)算相似用戶和相似物品，然后基于相似物品或相似用戶進(jìn)行推薦［3］。協(xié)同過濾的主要優(yōu)點(diǎn)是集合了他人的經(jīng)驗(yàn)，有利于推薦新信息，實(shí)現(xiàn)個(gè)性化推薦；缺點(diǎn)主要是稀疏性問題和冷啟動(dòng)問題。

2）基于關(guān)聯(lián)規(guī)則的推薦：關(guān)聯(lián)規(guī)則挖掘已經(jīng)是數(shù)據(jù)挖掘中的一個(gè)經(jīng)典的問題，主要是挖掘不同商品在銷售過程中的相關(guān)性，由此預(yù)判消費(fèi)者在購買了一些商品后的下一次購物行為，當(dāng)關(guān)聯(lián)規(guī)則得到驗(yàn)證后，就可以建立基于關(guān)聯(lián)規(guī)則的推薦模型，Agrawal等在1993年最早提出了Aprior的關(guān)聯(lián)規(guī)則推薦算法［4］。

3）基于模型的推薦：本質(zhì)上是應(yīng)用機(jī)器學(xué)習(xí)方法解決推薦問題，將已有用戶行為數(shù)據(jù)和商品屬性數(shù)據(jù)進(jìn)行預(yù)處理后，分析特征向量，獲取訓(xùn)練樣本［5］，再找到一個(gè)可行的訓(xùn)練算法驗(yàn)證預(yù)測結(jié)果。其關(guān)鍵在于如何分析和約簡特征向量，將用戶實(shí)時(shí)偏好信息反饋給已建立模型，從而提高推薦準(zhǔn)確率。

本文采用基于模型的推薦，通過深入挖掘移動(dòng)O2O電子商務(wù)中的用戶行為日志，抽取出能辨別用戶對(duì)商品服務(wù)購買行為的基本特征，然后將其融入梯度提升回歸算法，建立用戶興趣偏好模型來預(yù)測用戶的購物行為。梯度提升回歸算法（Gradient Boost Decision Tree）是一種組合決策樹機(jī)器學(xué)習(xí)算法［6］，通過組合多個(gè)弱決策樹形成一個(gè)強(qiáng)決策樹預(yù)測模型。梯度提升回歸算法具有評(píng)價(jià)特征重要性的能力，和SVM一起被認(rèn)為是泛化能力較強(qiáng)的算法。

2　移動(dòng)用戶基于位置的偏好特征分析

O2O是典型的基于位置服務(wù)的一種電子商務(wù)模式，提供的商品以本地服務(wù)類為主，如飲食，住宿，娛樂等，要求用戶線下實(shí)地體驗(yàn)，其主要特點(diǎn)是位置信息對(duì)于用戶行為特征有重大影響［7］。上述位置信息是個(gè)廣義概念，同時(shí)包含了時(shí)間和地理位置兩個(gè)維度的數(shù)據(jù)。

1）在時(shí)間維度上，如果用戶剛剛消費(fèi)一個(gè)項(xiàng)目，那短期內(nèi)再次消費(fèi)的可能性很低，例如理發(fā)服務(wù)。設(shè)用戶消費(fèi)某一商品或服務(wù)項(xiàng)目的平均周期為T，消費(fèi)時(shí)間周期T對(duì)用戶的相關(guān)性函數(shù)定義為：

其中，λ是時(shí)間衰減參數(shù)。顯然，當(dāng)t=T時(shí)，n（T）取得最大值。

2）在地理位置維度上，移動(dòng)位置不同對(duì)用戶消費(fèi)需求也有重大影響。在熱門消費(fèi)場景區(qū)域比如商場街區(qū)等，用戶會(huì)有一定的隨眾傾向，在一些偏遠(yuǎn)、冷門的場景，用戶平均消費(fèi)傾向又所降低。根據(jù)長尾理論，雖然場景活躍度高的地方集中了大多數(shù)的用戶需求，但是冷門的地方往往代表了用戶個(gè)性化需求［8］。因此，需綜合考慮場景活躍度和用戶活躍度以計(jì)算位置信息影響因子［9，10］。假定場景活躍度是N（s），用戶活躍度是N（u），假定位置信息影響因子定義W為：

實(shí)驗(yàn)時(shí)，N（s）以場景所在地的品牌轉(zhuǎn)化率表示，N（u）以用戶在此場景所在地的品牌轉(zhuǎn)化率表示，其中0

3　梯度提升回歸算法（Gradient Boost Decision Tree）

3.1原理及方法

Gradient Boost Decision Tree（GBDT）是Fridedman在1999年提出的一種組合模型，它的基本思想是通過構(gòu)建M個(gè)弱分類器，經(jīng)過多次迭代最終組合而成一個(gè)強(qiáng)分類器。每一次迭代是為了改進(jìn)上一次結(jié)果，減少上一次模型的殘差。并且在殘差減少的梯度方向上建立新的組合模型［11］。為了描述模型的精確程度，引入損失函數(shù)。假定為訓(xùn)練樣本，代表參數(shù)集合，β是每個(gè)分類器的權(quán)值，α是分類器內(nèi)的參數(shù)，則以P為參數(shù)的x函數(shù)：

將式（2）寫成梯度下降的形式為式（3），表示Fm（x）是之前所得模型Fm-1（x）的損失函數(shù)下降最快的方向：

對(duì)每個(gè)候選都計(jì)算偏導(dǎo)數(shù)gm（xi）：

最終得到一個(gè)N維梯度下降方向向量：

使用最小二乘法得αm：

進(jìn)而得到βm：

如此迭代M次最終得到參數(shù)集合P。

3.2改進(jìn)梯度提升回歸算法AGBDT：

梯度提升回歸算法是一種組合決策樹，通過對(duì)一系列的弱分類器累加，同時(shí)迭代逼近找出各分類器最佳權(quán)值，即損失函數(shù)在梯度下降方向時(shí)的參數(shù)，得出預(yù)測結(jié)果。原則上，各個(gè)分類器的初始權(quán)值一般設(shè)置相等，但本文研究O2O實(shí)際場景中，當(dāng)前位置和時(shí)間對(duì)位置特征分類器有明顯影響。通過多次實(shí)驗(yàn)將初始權(quán)值優(yōu)化設(shè)置如下：

最終改進(jìn)公式為：

其中，W是位置信息影響因子，n（T）是用戶商品服務(wù)消費(fèi)時(shí)間周期相關(guān)性函數(shù)。

4　實(shí)驗(yàn)結(jié)果與分析

4.1實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)為阿里巴巴公司在真實(shí)O2O電子商務(wù)業(yè)務(wù)場景下，一個(gè)月的移動(dòng)端行為數(shù)據(jù)和下一天用于準(zhǔn)確度計(jì)算的移動(dòng)端行為數(shù)據(jù)。數(shù)據(jù)項(xiàng)包含了脫敏處理的用戶ID、用戶行為、行為觸發(fā)時(shí)間、用戶位置信息數(shù)據(jù)和商品ID、商品類別、商品位置信息。在真實(shí)的業(yè)務(wù)場景下，需要對(duì)所有商品的一個(gè)子集構(gòu)建個(gè)性化推薦模型。在完成任務(wù)的過程中，不僅需要利用用戶在這個(gè)商品子集上的行為數(shù)據(jù)，還需要利用更豐富的用戶行為數(shù)據(jù)。定義符號(hào)如下：U——用戶集合；I——商品全集；P——商品子集，P∩_I；D——用戶對(duì)商品全集的行為數(shù)據(jù)集合。本文目標(biāo)是利用D來構(gòu)造U中用戶對(duì)P中商品的推薦模型。

1）數(shù)據(jù)說明：

數(shù)據(jù)包含兩個(gè)部分，如表1、2所示。第一部分是用戶在商品全集上的移動(dòng)端行為數(shù)據(jù)（D）：

表1　用戶行為日志字段說明

表2　商品數(shù)據(jù)字段說明

訓(xùn)練數(shù)據(jù)包含了抽樣出來的一定量用戶在一個(gè)月時(shí)間（11.18～12.18）內(nèi)的移動(dòng)端行為數(shù)據(jù)（D），測試數(shù)據(jù)是這些用戶此后一天（12.19）對(duì)商品子集（P）的購買數(shù)據(jù)。實(shí)驗(yàn)將使用訓(xùn)練數(shù)據(jù)建立推薦模型，并輸出用戶在此后一天對(duì)商品子集購買行為的預(yù)測結(jié)果。

2）評(píng)估指標(biāo)：

采用經(jīng)典的精確度（precision）、召回率（recall）和F1值作為評(píng)估指標(biāo)［8］。計(jì)算公式如下：

其中PredictionSet為算法預(yù)測的購買數(shù)據(jù)集合，ReferenceSet為真實(shí)的答案購買數(shù)據(jù)集合。我們以F1值作為最終的唯一評(píng)測標(biāo)準(zhǔn)。

4.2實(shí)驗(yàn)設(shè)計(jì)

4.2.1特征提取

原始數(shù)據(jù)包含字段：用戶ID、商品ID、商品類別ID、時(shí)間（精確到小時(shí)）、地理位置、用戶行為。首先劃分特征類別，比如分為用戶—商品類特征，用戶—商品類別類特征，商品—商品類別特征，商品類特征，用戶類特征，商品類別類特征，交叉特征等幾個(gè)方面。劃分粒度分為月，周，天，小時(shí)，初步數(shù)據(jù)統(tǒng)計(jì)之后會(huì)發(fā)現(xiàn)購買時(shí)間熱段和冷段，來適當(dāng)調(diào)整時(shí)間片長度。主要特征有：直接特征，按時(shí)間維度劃分點(diǎn)擊次數(shù)，購買次數(shù)，收藏次數(shù)，加入購物車次數(shù)；位置特征，劃分基于位置信息的各種用戶行為；轉(zhuǎn)化率特征，品牌被點(diǎn)擊，收藏，加入購物車到成功購買的轉(zhuǎn)化率；時(shí)間特征：最后一次購買，點(diǎn)擊，收藏，加入購物車的時(shí)間差，同類商品平均購買時(shí)間間隔，歷史至今點(diǎn)擊，購買的天數(shù)。為了獲取基于位置信息的用戶活躍度N（u）和場景活躍度N（s），需要提取用戶-位置-轉(zhuǎn)化率三維特征，位置-轉(zhuǎn)化率二維特征。

4.2.2實(shí)驗(yàn)結(jié)果與分析

本文在構(gòu)建完成的訓(xùn)練集中，正負(fù)樣本的比例采取大約為1：300，首先為了評(píng)估特征個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響，固定迭代次數(shù)k=300，得到圖1特征個(gè)數(shù)m與F1之間的曲線關(guān)系。由圖1可知，當(dāng)m在［10， 20］上升趨勢明顯，m>30，F(xiàn)1分?jǐn)?shù)平緩增長，m=80時(shí)，取得最大值。m>80后，曲線有下降趨勢。綜合考慮F1分?jǐn)?shù)和算法復(fù)雜度，m=80效果最好。

圖1　特征個(gè)數(shù)與F1分?jǐn)?shù)相關(guān)曲線

在取特征個(gè)數(shù)m=80，評(píng)估在算法GBDT和改進(jìn)算法AGBDT下，迭代次數(shù)和F1分?jǐn)?shù)的關(guān)系，訓(xùn)練結(jié)果如圖2所示，迭代次數(shù)相同的情況下，改進(jìn)算法AGBDT取得更高F1分?jǐn)?shù)，說明合理預(yù)判決策樹權(quán)值有助于降低迭代次數(shù)。迭代次數(shù)k在［50， 100］時(shí)，兩種算法的F1值趨勢明顯上升，k>100，增速放緩，k>400有明顯下降趨勢。綜合考慮，迭代次數(shù)選擇k=350。

圖2　迭代次數(shù)和F1分?jǐn)?shù)相關(guān)曲線

最終，在正負(fù)樣本比例取1：300，特征個(gè)數(shù)m=80，迭代次數(shù)k=350，取得實(shí)驗(yàn)結(jié)果如表3：

表3　實(shí)驗(yàn)最終結(jié)果

5　總結(jié)與展望

綜上所述，GBDT算法由多個(gè)弱分類器組成的強(qiáng)分類器具有較強(qiáng)的泛化能力，可以綜合考慮多個(gè)特征組合的不同情形，在本文中，為了在推薦模型中考慮當(dāng)前位置信息對(duì)用戶購物行為的影響，在相對(duì)應(yīng)的特征分類器上添加了相關(guān)位置信息相關(guān)因子，和時(shí)間消費(fèi)周期函數(shù)。實(shí)驗(yàn)結(jié)果表明，改進(jìn)算法取得了良好的準(zhǔn)確率和召回率。

本文在應(yīng)用GBDT算法實(shí)現(xiàn)基于用戶購物行為歷史數(shù)據(jù)預(yù)測下一步購物行為的基礎(chǔ)上，進(jìn)行了隨著位置改變引起的推薦內(nèi)容變化的算法改進(jìn)。不過由于條件限制，并未做線上實(shí)時(shí)推薦測試，因此關(guān)于算法推薦模型的實(shí)際運(yùn)行情況將成為下一個(gè)研究重點(diǎn)。

參考文獻(xiàn)

［1］許海玲，吳瀟，李曉東，等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究［J］. 軟件學(xué)報(bào)，2009，20（2）：350-262.

［2］Leungcw， Chansc， Chungf， et al. An empirical study of a cross-level association rule mining approach to cold-start recommendations［J］. Knowledge-Based Systems， 2008， 21（7）： 515-529.

［3］馬宏偉，張光衛(wèi)，李鵬.協(xié)同過濾推薦算法綜述［J］.小型微型計(jì)算機(jī)系統(tǒng)，2009，30（7）：1282-1288.

［4］Agrawal R， Imuekubsju R， Swami A. Mining association rules between sets of items in large databases［C］.//.Proc. of ACM SIGMOD International Conference on Management of Data. New York： ACM Press，1993；207-216.

［5］閆友彪，陳元琰.機(jī)器學(xué)習(xí)的主要策略綜述［J］. 計(jì)算機(jī)應(yīng)用研究，2004，（7）：4-11.

［6］Friedman JH. Greedy function approximation：a gardient boosting machine［J］. Annal of Statistics， 2000， 29（5）： 1189-1232.

［7］孟祥武，胡勛，王立才，等. 移動(dòng)推薦系統(tǒng)及其應(yīng)用［J］. 軟件學(xué)報(bào)，2013，24（1）：91-108.

［8］項(xiàng)亮.推薦系統(tǒng)實(shí)踐［M］.北京：人民郵電出版社，2012.

［9］張新猛，蔣盛益，張倩生，等.基于用戶偏好加權(quán)的混合網(wǎng)絡(luò)推薦算法［J］.山東大學(xué)學(xué)報(bào)（理學(xué)版），2015（50）：30-34.

［10］王興茂，張興明.基于貢獻(xiàn)因子的協(xié)同過濾推薦算法［J］.計(jì)算機(jī)應(yīng)用研究，2015， 32（12）： 3351- 3354.

［11］Friedman JH. Stochastic gradient boosting［J］. Computatianal Statistics & Data Analysis， 2002，38（4）： 367-378

基金支持：安徽省自然科學(xué)基金（1408085QE94）

A Recommendation Model for O2O E-commercebased on Improved Gradient Boosting Regression Trees

SUN Kelei，DENG Xianrong
（School of Computer Science and Engineering， Anhui University of Science and Technology， Huainan 232001， China）

Abstract：Location attribute exerts important infuences on offine consuers. In order to improve the accuracy of personalized recommendation， basing on the analysis of the O2O e-commerce with user characteristics， this paper introduces the current time and location parameters to the basis of the recommendation algorithm， and it proposes O2O e-commerce recommendation model on improved gradient boosting regression tree The results show this model is apparently superior to the traditional recommendation algorithm both in real-time and accuracy.

Keywords：GBDT， LBS， Personalized recommendations， behavior log analysis

作者簡介：孫克雷（1980-），男，博士，副教授，主要研究方向?yàn)樾畔⑷诤稀?/p>

收稿日期：2015-12-08

DOI:10.11921/j.issn.2095-8382.20160217

中圖分類號(hào)：TP391

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：2095-8382（2016）02-087-05

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種改進(jìn)的基于梯度提升回歸算法的O2O電子商務(wù)推薦模型

0 引 言

1 相關(guān)研究

2 移動(dòng)用戶基于位置的偏好特征分析

3 梯度提升回歸算法（Gradient Boost Decision Tree）

4 實(shí)驗(yàn)結(jié)果與分析

5 總結(jié)與展望

0　引　言

1　相關(guān)研究

2　移動(dòng)用戶基于位置的偏好特征分析

3　梯度提升回歸算法（Gradient Boost Decision Tree）

4　實(shí)驗(yàn)結(jié)果與分析

5　總結(jié)與展望