機器學(xué)習(xí)在購買意圖方面的應(yīng)用

2020-11-11 08:01:46劉占玉高榮芳

智能計算機與應(yīng)用 2020年6期

劉占玉，高榮芳

（西安石油大學(xué) 計算機學(xué)院，西安710065）

0 引言

隨著互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)購物幾乎成為人們最常用的消費渠道，然而不同類型的消費者、不同的購物網(wǎng)站、不同促銷活動和特殊日期等，都會影響消費者的購買意圖。社會環(huán)境不同，使得消費者的購物需求出現(xiàn)了個性化和多樣化，如受新冠肺炎疫情影響，大部分消費者選擇網(wǎng)上購物。

在線購買領(lǐng)域，國內(nèi)學(xué)者也做了很多相關(guān)研究。如：袁智慧采用實證研究的方法，來探究中UGC 不同形式的自我披露對消費者在線購買意愿的影響機理，并分析了產(chǎn)品熟悉度在其中的調(diào)節(jié)作用，不僅對自我披露理論的發(fā)展起到一定的補充和深化作用，也能給社會化商務(wù)平臺通過UGC 達到商家、消費者、平臺三方共贏的局面提供一定的決策支持［1］。盧美麗等人考慮在線重復(fù)購買強化效應(yīng)，建立顧客重復(fù)購買通用模型［2］。 Verhagen 等人針對沒有研究檢查在線商店信念和消費者在線情感狀態(tài)之間的效果等級是否因產(chǎn)品類型而異。研究通過檢查思考層次和感覺思考層次在解釋針對搜索產(chǎn)品與體驗產(chǎn)品的在線購買意向以及高參與度與低參與度產(chǎn)品的在線購買意向中的解釋能力［3］。本文使用機器學(xué)習(xí)對電商平臺的顧客在線購物數(shù)據(jù)進行分析，幫助商家更好的預(yù)測并掌握消費者的購買意向。

1 機器學(xué)習(xí)

1.1 隨機森林算法

隨機森林是Leo Breiman 把隨機子空間算法和集成學(xué)習(xí)算法相結(jié)合，最終得到了解決決策樹過擬合問題的隨機森林算法。它是一種基于樹的分類器，由多棵決策樹構(gòu)成對樣本進行訓(xùn)練，并預(yù)測的一種分類器。對于一棵樹，訓(xùn)練樣本采用放回式，從總的訓(xùn)練集中隨機采樣出來，而訓(xùn)練樹的結(jié)點｛G1，G2，…，Gn｝時，特征是從原有特征中按照一定的比例隨機地?zé)o放回式抽取的，類別的輸出是由各節(jié)點預(yù)測結(jié)果來決定最優(yōu)的預(yù)測結(jié)果，如圖1 所示。

1.2 SVM 算法

支持向量機是由Vapnik 等人根據(jù)統(tǒng)計學(xué)理論提出的一種新的機器學(xué)習(xí)方法，是通過監(jiān)督學(xué)習(xí)的方式對樣本數(shù)據(jù)進行二分類的廣義性分類器，它主要尋找一個超平面對樣本數(shù)據(jù)進行分割，讓訓(xùn)練集樣本中的數(shù)據(jù)恰好分布在超平面兩側(cè)。分割原則是間隔最大化，最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解［4］。給定訓(xùn)練數(shù)據(jù)集D ＝｛ ( x1，y1) ， ( x2，y2) ，…，（xm，ym）｝，其中xi∈χ ＝Rn，yi∈γ ＝ { + 1， - 1}，i ＝1，2，…，N，xi為第i 個特征向量，yi為xi的類標(biāo)記。它最基本的想法就是在訓(xùn)練集D 的樣本空間中找到一個劃分超平面，將不同類別的樣本分開，其中樣本的劃分存在很多個超平面，找到一個最佳的分類超平面，如圖2 所示。

圖1 隨機森林Fig. 1 Random forest

圖2 支持向量機Fig. 2 Support vector machines

對線性不可分情況的SVM，選擇恰當(dāng)?shù)暮撕瘮?shù)K（xi，xj）和恰當(dāng)?shù)膮?shù)C，構(gòu)造并求解最優(yōu)問題，如公式（1）：

其中：ai為拉格朗日乘子，K（xi，xj）為核函數(shù)，C 為懲罰系數(shù)。

支持向量機最終的判別函數(shù)，如公式（2）：

1.3 樸素貝葉斯算法

樸素貝葉斯算法是結(jié)合貝葉斯原理和特征條件假設(shè)的分類方法。有n 維特征向量X ＝｛x1，x2，…，xn｝，類變量Y ＝｛y1，y2，…，ym｝。根據(jù)樸素貝葉斯基本理論，其后驗概率，如公式（3）：

樸素貝葉斯算法根據(jù)樣本的特征X，計算所有類別的概率，最終概率最大的類別即為該樣本所屬的類。P（X）是不變的，在比較后驗概率時，只比較上式分子部分，得到一個樣本數(shù)據(jù)屬于類別yi的樸素貝葉斯計算方法，如公式（4）：

2 在線購買意向預(yù)測

本文實驗使用Anaconda 3 5.0.1 環(huán)境，UCI 網(wǎng)站公開的Online Shoppers Purchasing Intention Dataset Data Set 數(shù)據(jù)集，該數(shù)據(jù)集包含12330 個實例和18個字段，字段包括BounceRates（跳出率）、ExitRates（退出率）、SpecialDay（特殊日期）、Region（區(qū)域）、PageValues（頁面值）、VisitorType（訪客類型）等，其中Revenue 是類標(biāo)簽。

實驗使用大部分樣本數(shù)據(jù)進行模型訓(xùn)練，小部分?jǐn)?shù)據(jù)進行模型預(yù)測。使用清洗過的數(shù)據(jù)集建立隨機森林、SVM、樸素貝葉斯模型。為了選出可靠的模型，每個模型都進行k 折交叉驗證，參數(shù)cv 設(shè)置為3、5、10，通過實驗驗證，得到效果最好是cv ＝5，即3個模型采用五折交叉驗證，結(jié)果如表1 所示。支持向量機模型的參數(shù)c 表示懲罰系數(shù)，通過多次實驗取得c ＝10 的模型訓(xùn)練效果最好。

表1 模型五折交叉驗證評估結(jié)果Tab. 1 Model 5-fold cross-validation evaluation results

采用準(zhǔn)確率、召回率、F1 值、AUC 作為衡量性能的標(biāo)準(zhǔn)，在構(gòu)建的在線購買意圖預(yù)測模型中，其性能評價結(jié)果如表2 所示。從表2 中可以看出隨機森林比SVM 準(zhǔn)確率、召回率、F1 值、AUC 分別高0.18、0.06、0.12、0.263，比樸素貝葉斯的分別高0.05、0.1、0.08、0.039，因此對在線購買意圖預(yù)測最好的算法是隨機森林。

表2 在線購買意圖預(yù)測模型性能評價指標(biāo)Tab. 2 Performance evaluation index of online purchase intention prediction model

3 結(jié)束語

在線購買已經(jīng)成為一種消費趨勢，文章使用機器學(xué)習(xí)中隨機森林算法、SVM 算法、樸素貝葉斯算法建立在線購買意圖預(yù)測模型，通過比較模型的準(zhǔn)確率、召回率、F1 值、AUC，得到隨機森林算法更適合用于在線購買意圖的預(yù)測。就此，電商網(wǎng)站可以通過網(wǎng)站消費者的行為數(shù)據(jù)預(yù)測用戶的偏好和購買行為，機器學(xué)習(xí)發(fā)揮了重要的作用，對提高產(chǎn)品購買銷售具有重要的意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡