国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于神經(jīng)網(wǎng)絡(luò)的重復(fù)購買預(yù)測(cè)研究

2017-10-23 03:39
福建質(zhì)量管理 2017年18期
關(guān)鍵詞:原始數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)樣本

(重慶工商大學(xué)智能制造服務(wù)國(guó)際科技合作基地 重慶 400047)

基于神經(jīng)網(wǎng)絡(luò)的重復(fù)購買預(yù)測(cè)研究

張震

(重慶工商大學(xué)智能制造服務(wù)國(guó)際科技合作基地重慶400047)

為了提高互聯(lián)網(wǎng)用戶重復(fù)購買率預(yù)測(cè)的精確度,本文在人工特征工程(AFE)的基礎(chǔ)上采用神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行預(yù)測(cè),實(shí)驗(yàn)對(duì)用戶購買行為數(shù)據(jù)提取人工特征,先用logistic回歸進(jìn)行預(yù)測(cè),再與傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(ANN)模型進(jìn)行對(duì)比,ANN的F1度量值高于logistic回歸。最終結(jié)果表明,特征工程與神經(jīng)網(wǎng)絡(luò)結(jié)合的預(yù)測(cè)方法在解決重復(fù)購買預(yù)測(cè)問題中要優(yōu)于傳統(tǒng)的logistic回歸模型,且人工提取的特征集更具有可解釋性,可以發(fā)現(xiàn)用戶購買行為與重復(fù)購買率之間的關(guān)系,對(duì)于消費(fèi)者行為以及營(yíng)銷工程方面的研究具有重要的意義。

特征工程;重復(fù)購買預(yù)測(cè);邏輯回歸;人工神經(jīng)網(wǎng)絡(luò)

一、引言

在網(wǎng)絡(luò)營(yíng)銷中,通過對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的挖掘和預(yù)測(cè)可以理解消費(fèi)者行為,這對(duì)互聯(lián)網(wǎng)商家定位潛在的忠誠(chéng)顧客,采取有針對(duì)性的促銷活動(dòng),降低營(yíng)銷成本,有著至關(guān)重要的作用。重復(fù)購買預(yù)測(cè)就是基于互聯(lián)網(wǎng)用戶的個(gè)人信息和行為數(shù)據(jù),利用機(jī)器學(xué)習(xí)技術(shù)對(duì)顧客未來的購買行為進(jìn)行預(yù)測(cè)的二分類問題。目前,很多推薦系統(tǒng)類的問題都采用了深度學(xué)習(xí)等深層神經(jīng)網(wǎng)絡(luò)模型,這些基于神經(jīng)網(wǎng)絡(luò)發(fā)展出來的模型與傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,可以從無類別標(biāo)簽的數(shù)據(jù)中采取無監(jiān)督學(xué)習(xí)機(jī)制學(xué)習(xí)特征,挖掘深層次特征,自動(dòng)學(xué)習(xí)數(shù)據(jù)之間潛在的關(guān)聯(lián)關(guān)系,并且可以精確模擬任意復(fù)雜的非線性函數(shù),在很多分類問題上取得了不錯(cuò)的結(jié)果,深度學(xué)習(xí)的這一特點(diǎn)已經(jīng)在多個(gè)復(fù)雜的回歸分類問題中得到了有效證實(shí)[1,2,3]。但是,對(duì)于重復(fù)購買預(yù)測(cè),原始數(shù)據(jù)全部為類別數(shù)據(jù),深度學(xué)習(xí)無法直接從這些數(shù)據(jù)中提取特征,雖然可以采用one-hot編碼,構(gòu)造高維度稀疏矩陣作為ANN的輸入,但是采用這種方法對(duì)計(jì)算機(jī)性能要求極高,會(huì)耗費(fèi)大量計(jì)算資源和時(shí)間,沒有應(yīng)用價(jià)值,而且,在此類問題中,如果提取的特征集是一個(gè)黑箱,不具有可解釋性,不能說明用戶購買行為和重復(fù)購買率之間的關(guān)系,那么對(duì)企業(yè)制定營(yíng)銷策略也沒有任何幫助。本文的創(chuàng)新之處在于,并沒有直接采用神經(jīng)網(wǎng)絡(luò)或深度學(xué)習(xí)等算法進(jìn)行預(yù)測(cè),而是根據(jù)實(shí)際業(yè)務(wù)經(jīng)驗(yàn),人工提取大量特征,還原原始數(shù)據(jù)的信息后,再用ANN的方法進(jìn)行預(yù)測(cè),并與logistic回歸算法進(jìn)行對(duì)比,得到了不錯(cuò)的效果。

二、特征工程

(一)數(shù)據(jù)描述

本次實(shí)驗(yàn)數(shù)據(jù)來源于阿里云天池大數(shù)據(jù)競(jìng)賽公布的天貓雙十一當(dāng)天和雙十一前六個(gè)月的匿名用戶行為記錄,數(shù)據(jù)全部字段如下:

user_id,merchant_id,age_range,gender

activity_log,cat_id,brand_id,action_type,

(二)構(gòu)建特征工程表

原始數(shù)據(jù)中age_range,gender等為類別數(shù)據(jù),而merchant_id,item_id,cat_id等均為字符串特征,不能直接作為輸入數(shù)據(jù)。但是在數(shù)據(jù)集中隱藏著大量的用戶偏好信息,例如,一個(gè)顧客如果平時(shí)的購買量和瀏覽商品的次數(shù)遠(yuǎn)少于雙十一當(dāng)天的次數(shù),那么這種類型的用戶可能只對(duì)便宜的促銷商品感興趣,不太可能成為某個(gè)商家的忠誠(chéng)顧客。我們參考文獻(xiàn)[4]的特征工程模型和原始數(shù)據(jù),構(gòu)建出十種特征實(shí)體,分別為:

usermerchantcategorybranditemuser-merchantuser-branduser-categorymerchant-brandmerchant-category

每個(gè)特征實(shí)體根據(jù)特征類型又可分為更多的特征,與用戶行為次數(shù)有關(guān)的數(shù)據(jù)(counts/ratio),與統(tǒng)計(jì)量有關(guān)的數(shù)據(jù)(aggregation),用戶近期的行為數(shù)據(jù)(recent activity),與用戶年齡性別有關(guān)的數(shù)據(jù)(age/gender related)。

基于特征實(shí)體和特征類型的組合構(gòu)建完整的特征工程圖表。例如,user profile和overall action count組成的特征(user_overall_action_count)表示每個(gè)用戶在前六個(gè)月內(nèi)的全部行為次數(shù)(包括點(diǎn)擊行為,購買行為,加入購物車行為,加入收藏行為),該特征可以刻畫用戶的行為偏好。再如,item profile和monthly action count組成的特征(item_monthly_action_count)表示某種商品在每個(gè)月內(nèi)被用戶點(diǎn)擊、購買、加入購物車和加入收藏的次數(shù),顯然,如果某種商品被購買的次數(shù)很多,說明該種商品很暢銷,很容易吸引回頭客。利用特征工程表構(gòu)建出的特征不僅可以完整的反應(yīng)原始數(shù)據(jù)集的信息,提高預(yù)測(cè)的精度,而且均具有實(shí)際意義,可解釋性強(qiáng)。

三、預(yù)測(cè)模型

(一)神經(jīng)網(wǎng)絡(luò)算法(ANN)

人工神經(jīng)網(wǎng)絡(luò)(ANN)的模型結(jié)構(gòu)通常由三層神經(jīng)元相互連接構(gòu)成,層與層之間相互連接,同層之間無連接,以監(jiān)督學(xué)習(xí)為例,假設(shè)我們有訓(xùn)練樣本集(x(i),y(i)),那么神經(jīng)網(wǎng)絡(luò)算法能夠提供一種復(fù)雜且非線性的假設(shè)模型hw,b(x),它具有參數(shù)W,b,可以以此參數(shù)來擬合我們的數(shù)據(jù)。

1.前向傳播算法

2.反向傳導(dǎo)算法

假設(shè)我們有一個(gè)固定樣本集{(x(1),y(1)),…,(x(m),y(m))},它包含m個(gè)樣本例,我們可以用批量梯度下降法來求解神經(jīng)網(wǎng)絡(luò)。具體來講,對(duì)單個(gè)樣例(x,y),其代價(jià)函數(shù)為:

以上公式中的第一項(xiàng)J(W,b)是一個(gè)均方差項(xiàng)。第二項(xiàng)是一個(gè)權(quán)重衰減項(xiàng),其目的是減小權(quán)重的幅度,防止過擬合。

用梯度下降法對(duì)參數(shù)W和b進(jìn)行更新,求此代價(jià)函數(shù)的最小值

在用梯度下降法對(duì)參數(shù)進(jìn)行更新時(shí),其中關(guān)鍵步驟就是計(jì)算偏導(dǎo)數(shù),反向傳播就是計(jì)算偏導(dǎo)數(shù)的一種有效方法。

反向傳導(dǎo)算法可分為以下幾個(gè)步驟:

(1)進(jìn)行前饋傳導(dǎo)計(jì)算,利用前向傳導(dǎo)公式,得到L2,L3,…直到輸出層Lnl的激活值

(2)對(duì)于第nl層(輸出層)的每個(gè)輸出單元i,根據(jù)以下公式計(jì)算殘差:

(3)對(duì)l=nl-1,nl-2,nl-3,…,2的各個(gè)層,第l層的第i個(gè)節(jié)點(diǎn)的殘差計(jì)算方法如下:

(4)計(jì)算偏導(dǎo)數(shù),方法如下:

將求得的導(dǎo)數(shù)帶入到梯度下降算法中,通過迭代步驟來減小代價(jià)函數(shù)J(W,b)的值,進(jìn)而求解神經(jīng)網(wǎng)絡(luò)模型。

四、實(shí)驗(yàn)結(jié)果與分析

(一)實(shí)驗(yàn)流程1.數(shù)據(jù)樣本預(yù)處理

收集數(shù)據(jù)樣本,首先對(duì)數(shù)據(jù)進(jìn)行邏輯檢查,之后進(jìn)行預(yù)處理。

采取公式(1)將數(shù)據(jù)樣本映射到[0,1]。

2.特征工程

根據(jù)特征工程表從user_log_format1中提取75組特征,并將這些特征與訓(xùn)練集和測(cè)試集融合。

3.數(shù)據(jù)樣本的劃分

將測(cè)試集和訓(xùn)練集拆分,并在訓(xùn)練集中抽取相同數(shù)量的正負(fù)樣本組成新的訓(xùn)練集,再將訓(xùn)練集拆分出一個(gè)驗(yàn)證集。

4.預(yù)測(cè)模型的訓(xùn)練

分別用logistic回歸和ANN擬合數(shù)據(jù),并預(yù)測(cè)結(jié)果。

(二)實(shí)驗(yàn)結(jié)果及分析

表1為第一階段特征工程結(jié)束時(shí)訓(xùn)練集的測(cè)試結(jié)果,表2為驗(yàn)證集的測(cè)試結(jié)果,可以看出,ANN模型預(yù)測(cè)的結(jié)果在準(zhǔn)確率、查準(zhǔn)率、查全率和F1度量四個(gè)方面的分?jǐn)?shù)均高于logistic回歸,這說明ANN的非線性擬合能力較強(qiáng),有助于提高預(yù)測(cè)的精度。

表1 LR與ANN對(duì)比測(cè)試(第一階段特征工程)

表2 LR與ANN對(duì)比測(cè)試(第一階段特征工程)

五、結(jié)語

本文采用人工特征工程的方法對(duì)用戶購買行為數(shù)據(jù)進(jìn)行一定規(guī)模的特征提取,雖然人工提取特征的過程比較繁瑣,但在實(shí)際的管理應(yīng)用中,這種特征集更具有可解釋性,可以發(fā)現(xiàn)用戶的購買行為與重復(fù)購買率之間的關(guān)系,對(duì)于消費(fèi)者行為以及營(yíng)銷工程方面的研究具有重要的意義,實(shí)驗(yàn)最后對(duì)比神經(jīng)網(wǎng)絡(luò)算法和logistic回歸算法,發(fā)現(xiàn)人工特征工程結(jié)合神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型要優(yōu)于logistic回歸模型。

[1]BENGIO Y.Learning deep architectures for AI[J].Foundations and Trends in Machine Learning,2009,2(1):1-127.

[2]BENGIO Y,LECUN Y.Scaling learning algorithms towards AI[M].BOTTOU L,CHAPELLE O,DeCOSTE D,et al,Large-Scale Kernal Machines.Cambridge:MIT Press,2007:321-358.

[3]劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2014,31(7):1921-1942.

[4]Guimei Liu,Tam T.Nguyen,Gang Zhao,Wei Zha,Jianbo Yang,Jianneng Cao,Min Wu,Peilin Zhao,Wei Chen.Data Analytics Department,Institute for Infocomm Research,Singapore 138632

[5]Richardson M,Dominowska E,Ragno R.Predicting clicks:estimating the click-through rate for new ads[C].International Conference on World Wide Web.ACM,2007:521-530.

猜你喜歡
原始數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)樣本
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
推動(dòng)醫(yī)改的“直銷樣本”
全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
村企共贏的樣本
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用