国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Apriori—BP算法的團(tuán)購(gòu)?fù)扑]方法研究

2018-02-22 12:32王崢郭士串
無(wú)線(xiàn)互聯(lián)科技 2018年23期
關(guān)鍵詞:關(guān)聯(lián)規(guī)則神經(jīng)網(wǎng)絡(luò)

王崢 郭士串

摘 要:“網(wǎng)絡(luò)團(tuán)購(gòu)”是一種越來(lái)越流行的電子商務(wù)模式,吸引了大量的商家和消費(fèi)者,團(tuán)購(gòu)網(wǎng)站的商品展示方式和團(tuán)購(gòu)產(chǎn)品的推薦是很多團(tuán)購(gòu)網(wǎng)站迫切要解決的問(wèn)題,傳統(tǒng)的推薦算法多是使用與傳統(tǒng)電子商務(wù)類(lèi)似的協(xié)同過(guò)濾實(shí)現(xiàn)。文章提出了一種基于Apriori-BP算法的團(tuán)購(gòu)?fù)扑]模型,通過(guò)自定義數(shù)據(jù)清洗方法,使用Apriori算法和BP神經(jīng)網(wǎng)絡(luò)對(duì)商品進(jìn)行評(píng)分和推薦,最后使用線(xiàn)上CTR和ROI對(duì)推薦結(jié)果進(jìn)行評(píng)價(jià)和驗(yàn)證,顯著提高了團(tuán)購(gòu)?fù)扑]商品的準(zhǔn)確性。

關(guān)鍵詞:團(tuán)購(gòu);神經(jīng)網(wǎng)絡(luò);關(guān)聯(lián)規(guī)則

近年來(lái),隨著電子商務(wù)應(yīng)用模式與支付技術(shù)的日益成熟,一種新型消費(fèi)模式—“網(wǎng)絡(luò)團(tuán)購(gòu)”已經(jīng)興起。團(tuán)購(gòu)又稱(chēng)為組織購(gòu)物或者集體購(gòu)物,是指消費(fèi)者通過(guò)聚集自己的消費(fèi)需求因而達(dá)到了消費(fèi)數(shù)量的要求而降價(jià)的一種動(dòng)態(tài)制定商品價(jià)格的消費(fèi)模式。最早的團(tuán)購(gòu)網(wǎng)站是2008年在美國(guó)成立,之后這種新型的消費(fèi)模式在全世界范圍內(nèi)快速地掀起了一場(chǎng)發(fā)展的熱潮。隨后,Groupon的商業(yè)模式傳入中國(guó),這種新型的電子商務(wù)模式迅速在全國(guó)大中小城市出現(xiàn),并很快被國(guó)內(nèi)消費(fèi)者接受,團(tuán)購(gòu)網(wǎng)站在國(guó)內(nèi)的發(fā)展速度驚人,有26.2%的網(wǎng)民使用了團(tuán)購(gòu)網(wǎng)站的服務(wù)。團(tuán)購(gòu)已經(jīng)成為電子商務(wù)繼B2B,B2C,C2C后發(fā)展出來(lái)的又一全新的商務(wù)模式,與傳統(tǒng)的電子商務(wù)相比有許多不同之處。

個(gè)性化推薦能使電子商務(wù)系統(tǒng)更好地服務(wù)用戶(hù)、節(jié)約用戶(hù)的搜索時(shí)間、幫助用戶(hù)發(fā)現(xiàn)新的潛在需求,是當(dāng)前乃至未來(lái)很長(zhǎng)一段時(shí)間內(nèi)需要研究的重要課題。隨著團(tuán)購(gòu)電子商務(wù)模式的應(yīng)用和發(fā)展,在競(jìng)爭(zhēng)越來(lái)越激烈的市場(chǎng)環(huán)境下,將個(gè)性化推薦與團(tuán)購(gòu)電子商務(wù)模式相結(jié)合成了必然的趨勢(shì)。

1 研究現(xiàn)狀

傳統(tǒng)的推薦技術(shù)主要有基于商品內(nèi)容信息的過(guò)濾以及協(xié)同過(guò)濾兩種主要的方法。由于基于內(nèi)容信息的過(guò)濾受商品信息內(nèi)容的限制導(dǎo)致這種方法存在局限性,協(xié)同過(guò)濾技術(shù)成為了當(dāng)前主流的使用較多的推薦技術(shù),但是協(xié)同過(guò)濾方法需要依賴(lài)于用戶(hù)興趣信息,當(dāng)用戶(hù)興趣信息匱乏時(shí),該方法是不適用的。目前的研究方向主要集中在推薦系統(tǒng)的理論與技術(shù)方面,文獻(xiàn)[1]和[2]提出的一種協(xié)同過(guò)濾的推薦算法主要是基于項(xiàng)目評(píng)分預(yù)測(cè)的技術(shù)來(lái)實(shí)現(xiàn)。文獻(xiàn)[3]提出了用戶(hù)意圖識(shí)別和知識(shí)服務(wù)等相關(guān)技術(shù)。各種數(shù)據(jù)挖掘技術(shù)如關(guān)聯(lián)規(guī)則挖掘、聚類(lèi)挖掘等技術(shù)也被應(yīng)用到推薦系統(tǒng)的研究與應(yīng)用中,文獻(xiàn)[4]提出了一種構(gòu)建用戶(hù)偏好的方法,主要用到了神經(jīng)網(wǎng)絡(luò)和遺傳K-means的算法。

本文根據(jù)團(tuán)購(gòu)的業(yè)務(wù)特點(diǎn),將基于團(tuán)購(gòu)業(yè)務(wù)的個(gè)性化推薦模型分為數(shù)據(jù)清洗、關(guān)聯(lián)團(tuán)單挖掘和商品推薦結(jié)果排序3部分。數(shù)據(jù)清洗模塊對(duì)用戶(hù)數(shù)據(jù)中的噪聲數(shù)據(jù)和作弊數(shù)據(jù)進(jìn)行識(shí)別并過(guò)濾;關(guān)聯(lián)團(tuán)單挖掘模塊用于挖掘可進(jìn)行組合消費(fèi)的關(guān)聯(lián)團(tuán)單;商品推薦結(jié)果排序模塊主要依賴(lài)BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)團(tuán)單按序推薦。本文提出的算法不僅通過(guò)數(shù)據(jù)清洗明顯改進(jìn)了數(shù)據(jù)質(zhì)量,而且使用BP神經(jīng)網(wǎng)絡(luò)對(duì)關(guān)聯(lián)算法推薦的結(jié)果進(jìn)行排序,使得最終推薦的效果得到了顯著的提升。

2 算法簡(jiǎn)介

本文涉及的主要算法包括關(guān)聯(lián)規(guī)則算法和BP神經(jīng)網(wǎng)絡(luò)算法兩類(lèi),以下分別對(duì)兩種算法進(jìn)行介紹并闡述選擇的原因。

2.1 關(guān)聯(lián)規(guī)則算法

關(guān)聯(lián)規(guī)則是形如AàB的推薦方法,其中A和B分別是關(guān)聯(lián)規(guī)則的先導(dǎo)和后繼。目前比較流行的關(guān)聯(lián)規(guī)則推薦算法可分為寬度優(yōu)先算法、深度優(yōu)先算法、數(shù)據(jù)集劃分算法、采樣算法和增量更新算法5類(lèi)。其中寬度優(yōu)先算法中的Apriori算法和深度優(yōu)先算法中的FP-growth算法是目前使用最廣的兩類(lèi)算法,但是FP-growth算法在處理很大的且很稀疏的數(shù)據(jù)庫(kù)時(shí),在挖掘處理和遞歸運(yùn)算中存在一定的劣勢(shì),因此,本文采用Apriori算法進(jìn)行規(guī)則推薦。

2.2 BP神經(jīng)網(wǎng)絡(luò)算法

誤差反向傳播(Back-Propagation)算法是Rumelhart和McClelland在1985年提出的一種神經(jīng)網(wǎng)絡(luò)算法,其基本原理是利用輸出后的誤差來(lái)估計(jì)輸出層的直接前導(dǎo)層的誤差,再利用前導(dǎo)層的誤差來(lái)估計(jì)更前一層的誤差,如此一層一層地反傳直到獲得所有層的誤差估計(jì),通過(guò)不斷的循環(huán)迭代,直到誤差最終收斂到滿(mǎn)足預(yù)先設(shè)置的條件或迭代次數(shù)超過(guò)一定值后完成算法的實(shí)現(xiàn)。本文采用的BP神經(jīng)網(wǎng)絡(luò)算法共3層,分別為輸入層、隱藏層和輸出層,因?yàn)樽罱K要對(duì)商品進(jìn)行推薦,因此,在輸出層外加了一個(gè)softmax層進(jìn)行概率計(jì)算。具體的模型結(jié)構(gòu)如圖1所示。

3 基于Apriori-BP的團(tuán)購(gòu)?fù)扑]模型

Apriori-BP團(tuán)購(gòu)?fù)扑]模型主要分為3個(gè)部分,分別為數(shù)據(jù)清洗、關(guān)聯(lián)團(tuán)單挖掘和商品按序推薦,以下分別對(duì)這幾個(gè)模塊進(jìn)行闡述。

數(shù)據(jù)清洗模塊主要對(duì)所有用戶(hù)數(shù)據(jù)中的噪聲數(shù)據(jù)和作弊數(shù)據(jù)進(jìn)行識(shí)別并過(guò)濾剔除。大數(shù)據(jù)具有速度、精度、多樣、數(shù)量等眾多維度,大維度的數(shù)據(jù)中不可避免地存在著較多粗糙、不合時(shí)宜甚至是作弊的數(shù)據(jù),在團(tuán)購(gòu)系統(tǒng)中商家刷單和黃牛刷票的數(shù)據(jù)比較普遍,這些作弊數(shù)據(jù)會(huì)給個(gè)性化推薦尤其是關(guān)聯(lián)團(tuán)單挖掘造成嚴(yán)重的影響,為保證個(gè)性推薦的效果,必須對(duì)作弊數(shù)據(jù)進(jìn)行清洗剔除[5]。

作弊用戶(hù)的消費(fèi)行為一般具有以下兩個(gè)特點(diǎn):(1)用戶(hù)天成單量較大;(2)用戶(hù)消費(fèi)團(tuán)單類(lèi)目較為單一。本文采用閾值過(guò)濾法對(duì)用戶(hù)作弊行為進(jìn)行過(guò)濾,首先對(duì)用戶(hù)在一個(gè)時(shí)間窗口(如消費(fèi)時(shí)間間隔為30 min)內(nèi)的相鄰兩次消費(fèi)行為按照?qǐng)F(tuán)單進(jìn)行聚合,形成一次消費(fèi)行為,該次消費(fèi)行為信息包括驗(yàn)單的團(tuán)單與團(tuán)單張數(shù),然后按天級(jí)別對(duì)用戶(hù)的消費(fèi)行為次數(shù)進(jìn)行統(tǒng)計(jì),如果超過(guò)某閾值5次,判定該用戶(hù)該天存在作弊行為,之后對(duì)用戶(hù)存在作弊行為的天數(shù)進(jìn)行統(tǒng)計(jì)計(jì)數(shù),如果存在作弊行為的天數(shù)超過(guò)閾值1,則判定該用戶(hù)為作弊用戶(hù),一個(gè)用戶(hù)一旦被判定為作弊用戶(hù),為了防止該用戶(hù)的消費(fèi)行為對(duì)整個(gè)關(guān)聯(lián)規(guī)則挖掘算法造成影響,直接將該用戶(hù)的所有數(shù)據(jù)進(jìn)行過(guò)濾。

關(guān)聯(lián)團(tuán)單挖掘模塊主要根據(jù)用戶(hù)的組合消費(fèi)行為,挖掘可進(jìn)行組合消費(fèi)的關(guān)聯(lián)團(tuán)單。關(guān)聯(lián)團(tuán)單是整個(gè)組合消費(fèi)團(tuán)單推薦的數(shù)據(jù)基礎(chǔ),關(guān)聯(lián)團(tuán)單數(shù)據(jù)也可看作是群體性的推薦數(shù)據(jù)[6]。關(guān)聯(lián)規(guī)則挖掘工作的一項(xiàng)重要的關(guān)鍵任務(wù)是從大量的數(shù)據(jù)集當(dāng)中分析出所有滿(mǎn)足所設(shè)定的最小支持度和最小貢獻(xiàn)度的頻繁項(xiàng)集,這也是關(guān)聯(lián)規(guī)則挖掘算法的主要任務(wù)。

使用Apriori算法遞歸地挖掘出所有的一階頻繁項(xiàng)集與二階頻繁項(xiàng)集,利用最小支持度閾值和最小貢獻(xiàn)度閾值找到所有符合要求的團(tuán)購(gòu)網(wǎng)站團(tuán)單的強(qiáng)關(guān)聯(lián)規(guī)則,本文中最小支持度閾值設(shè)定為0.5,最小貢獻(xiàn)度閾值設(shè)為0.35。剩余的弱關(guān)聯(lián)再結(jié)合其他弱關(guān)聯(lián)間接得到強(qiáng)關(guān)聯(lián)規(guī)則,從而得到所有存在關(guān)聯(lián)條件的團(tuán)單組合,具體實(shí)現(xiàn)過(guò)程如圖2所示。

對(duì)挖掘得出的存在關(guān)聯(lián)條件的團(tuán)單組合使用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行分析,對(duì)各廠(chǎng)商名下的團(tuán)單組合中的各類(lèi)產(chǎn)品計(jì)算得分,選擇得分高的進(jìn)行推薦。其中樣本通過(guò)用戶(hù)的日常瀏覽、點(diǎn)擊、下單行為數(shù)據(jù)進(jìn)行構(gòu)建,首先通過(guò)BP神經(jīng)網(wǎng)絡(luò)的前兩層全連接層訓(xùn)練得出各類(lèi)產(chǎn)品的得分,整個(gè)模型框架使用Tensorflow搭建,其中損失函數(shù)選擇交叉熵,使用隨機(jī)梯度下降技術(shù)防止模型過(guò)擬合并降低計(jì)算量,在隱藏層使用取值為0.5的隨機(jī)失活以實(shí)現(xiàn)集成學(xué)習(xí)的功能和降低輸入特征之間的關(guān)聯(lián)性,設(shè)置最大訓(xùn)練次數(shù)為1 000次,loss的收斂值為0.005,梯度更新的步長(zhǎng)為0.01,并隨著迭代的進(jìn)行逐步降低,平均每迭代100次降低0.001,隱藏層激活函數(shù)使用relu函數(shù)。最后對(duì)計(jì)算出的得分使用Softmax進(jìn)行歸一化,最終得到各類(lèi)產(chǎn)品的概率得分。

Apriori-BP團(tuán)購(gòu)?fù)扑]算法相較于以往的關(guān)聯(lián)規(guī)則挖掘算法,在關(guān)聯(lián)團(tuán)單挖掘過(guò)程中增加了相同團(tuán)單和過(guò)期團(tuán)單的過(guò)濾,而且在計(jì)算支持度和貢獻(xiàn)度之前還對(duì)店鋪是否相同進(jìn)行了分類(lèi),這使得數(shù)據(jù)在計(jì)算之前就實(shí)現(xiàn)了有效性的過(guò)濾,不僅降低了計(jì)算量,而且增加了推薦結(jié)果的準(zhǔn)確性和有效性。在最后的排序算法層面使用了BP神經(jīng)網(wǎng)絡(luò)進(jìn)行推薦產(chǎn)品得分計(jì)算,其中使用0.5的dropout不僅降低了計(jì)算量,加快了模型的計(jì)算速度,而且實(shí)現(xiàn)了類(lèi)似于集成學(xué)習(xí)的功能,對(duì)提升模型的泛化能力有很大的幫助,隱藏層的激活函數(shù)選擇近年來(lái)使用比較頻繁的relu替代了以往使用較多的tanh函數(shù)和sigmoid函數(shù),有效預(yù)防了梯度消失。

4 性能評(píng)價(jià)

文中使用的樣本數(shù)據(jù)共64 929條,原始數(shù)據(jù)共約80 G,經(jīng)數(shù)據(jù)清洗后有效數(shù)據(jù)為55.8 G,清洗掉的數(shù)據(jù)包括無(wú)效數(shù)據(jù)和作弊數(shù)據(jù),其中作弊數(shù)據(jù)的團(tuán)單類(lèi)目多集中于“電影”“旅游”“體檢”等類(lèi)目。

將數(shù)據(jù)分為4組進(jìn)行訓(xùn)練,平均一組數(shù)據(jù)大約16 000條,每一組的運(yùn)行時(shí)間分別在50 min左右,最終數(shù)據(jù)過(guò)濾的準(zhǔn)確率在93%左右,具體清洗準(zhǔn)確率如表1所示。

對(duì)清洗后的數(shù)據(jù)使用關(guān)聯(lián)規(guī)則算法和BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行挖掘分析,對(duì)分析出的結(jié)果使用點(diǎn)擊率(Click Through Rate,CTR)和點(diǎn)擊后下單率(ROI)兩個(gè)指標(biāo)進(jìn)行評(píng)價(jià),通過(guò)觀(guān)察CTR和ROI的提升情況對(duì)參數(shù)和指標(biāo)進(jìn)行微調(diào),對(duì)挖掘分析出的部分結(jié)果進(jìn)行篩選得到最終的推薦商品,模型最終推薦的商品對(duì)提升線(xiàn)上CTR和線(xiàn)上ROI均有顯著的效果,其中CTR相對(duì)提升了29.15%,ROI相對(duì)提升了17.35%,相較于傳統(tǒng)算法分別提升了4.70%和2.35%(見(jiàn)圖3)。

5 結(jié)語(yǔ)

本文提出了一種基于Apriori-BP算法的團(tuán)購(gòu)?fù)扑]模型,根據(jù)團(tuán)購(gòu)的業(yè)務(wù)特點(diǎn),研究了推薦領(lǐng)域比較常用的關(guān)聯(lián)規(guī)則算法,過(guò)濾了無(wú)效數(shù)據(jù)和作弊數(shù)據(jù),降低了運(yùn)算量,提高了關(guān)聯(lián)團(tuán)單挖掘的有效性,并針對(duì)關(guān)聯(lián)團(tuán)單使用了BP神經(jīng)網(wǎng)絡(luò)進(jìn)行概率計(jì)算,針對(duì)神經(jīng)網(wǎng)絡(luò)使用的各類(lèi)方法不僅增加了模型的泛化能力,還提升了運(yùn)算速度和準(zhǔn)確性,最后在數(shù)據(jù)集上使用兩個(gè)線(xiàn)上指標(biāo)對(duì)本文算法和傳統(tǒng)算法進(jìn)行比較,證實(shí)了本模型在改進(jìn)團(tuán)購(gòu)?fù)扑]上的有效性。

[參考文獻(xiàn)]

[1]薛福亮.電子商務(wù)協(xié)同過(guò)濾推薦質(zhì)量影響因素及其改進(jìn)機(jī)制研究[D].天津:天津大學(xué),2012.

[2]SHEN S,HU B,CHEN W Z,et al.Personalized click model through collaborative filtering[C].Beijing:the Fifth ACM International Conference on Web Search and Data Mining,2012:323-332.

[3]羅成,劉奕群,張敏,等.基于用戶(hù)意圖識(shí)別的查詢(xún)推薦研究[J].中文信息學(xué)報(bào),2014(1):101-106.

[4]KUO R J,LIAO J L,TU C.Integration of ART2 neural network and genetic k-means algorithm for analyzing web browsing paths in electronic commerce[J].Decision Support Systems,2005(1):353-373.

[5]蔣勛,劉喜文.大數(shù)據(jù)環(huán)境下面向知識(shí)服務(wù)的數(shù)據(jù)清洗研究[J].圖書(shū)與情報(bào),2013(9):621-628.

[6]李?lèi)?ài)寶.基于組合消費(fèi)行為分析的團(tuán)購(gòu)?fù)扑]系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2015.

Abstract:“Online group purchase” is an increasingly popular e-commerce mode, attracting a large number of merchants and consumers. The merchandise display method of group purchase websites and the recommendation of group purchase products are urgent problems to be solved by many group purchase websites. Most of the recommended algorithms use collaborative filtering similar to traditional e-commerce. This paper proposes a group purchase recommendation model based on Apriori-BP algorithm. Through the custom data cleaning method, the Apriori algorithm and BP neural network are used to score and recommend the products. Finally, the online CTR and ROI are used to evaluate and verify the recommendation results, significantly improved the accuracy of the group purchase recommended products.

Key words:group purchase; neural network; association rules

猜你喜歡
關(guān)聯(lián)規(guī)則神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線(xiàn)通信干擾探究
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
基于GA-BP神經(jīng)網(wǎng)絡(luò)的光伏陣列MPPT研究