劉占玉, 高榮芳
(西安石油大學(xué) 計算機學(xué)院, 西安710065)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)購物幾乎成為人們最常用的消費渠道,然而不同類型的消費者、不同的購物網(wǎng)站、不同促銷活動和特殊日期等,都會影響消費者的購買意圖。 社會環(huán)境不同,使得消費者的購物需求出現(xiàn)了個性化和多樣化,如受新冠肺炎疫情影響,大部分消費者選擇網(wǎng)上購物。
在線購買領(lǐng)域,國內(nèi)學(xué)者也做了很多相關(guān)研究。如:袁智慧采用實證研究的方法,來探究中UGC 不同形式的自我披露對消費者在線購買意愿的影響機理,并分析了產(chǎn)品熟悉度在其中的調(diào)節(jié)作用,不僅對自我披露理論的發(fā)展起到一定的補充和深化作用,也能給社會化商務(wù)平臺通過UGC 達到商家、消費者、平臺三方共贏的局面提供一定的決策支持[1]。盧美麗等人考慮在線重復(fù)購買強化效應(yīng),建立顧客重復(fù)購買通用模型[2]。 Verhagen 等人針對沒有研究檢查在線商店信念和消費者在線情感狀態(tài)之間的效果等級是否因產(chǎn)品類型而異。 研究通過檢查思考層次和感覺思考層次在解釋針對搜索產(chǎn)品與體驗產(chǎn)品的在線購買意向以及高參與度與低參與度產(chǎn)品的在線購買意向中的解釋能力[3]。 本文使用機器學(xué)習(xí)對電商平臺的顧客在線購物數(shù)據(jù)進行分析,幫助商家更好的預(yù)測并掌握消費者的購買意向。
隨機森林是Leo Breiman 把隨機子空間算法和集成學(xué)習(xí)算法相結(jié)合,最終得到了解決決策樹過擬合問題的隨機森林算法。 它是一種基于樹的分類器,由多棵決策樹構(gòu)成對樣本進行訓(xùn)練,并預(yù)測的一種分類器。 對于一棵樹,訓(xùn)練樣本采用放回式,從總的訓(xùn)練集中隨機采樣出來,而訓(xùn)練樹的結(jié)點{G1,G2,…,Gn} 時,特征是從原有特征中按照一定的比例隨機地?zé)o放回式抽取的,類別的輸出是由各節(jié)點預(yù)測結(jié)果來決定最優(yōu)的預(yù)測結(jié)果,如圖1 所示。
支持向量機是由Vapnik 等人根據(jù)統(tǒng)計學(xué)理論提出的一種新的機器學(xué)習(xí)方法,是通過監(jiān)督學(xué)習(xí)的方式對樣本數(shù)據(jù)進行二分類的廣義性分類器,它主要尋找一個超平面對樣本數(shù)據(jù)進行分割,讓訓(xùn)練集樣本中的數(shù)據(jù)恰好分布在超平面兩側(cè)。 分割原則是間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解[4]。 給定訓(xùn)練數(shù)據(jù)集D ={ ( x1,y1) , ( x2,y2) ,…,(xm,ym)},其中xi∈χ =Rn,yi∈γ = { + 1, - 1},i =1,2,…,N,xi為第i 個特征向量,yi為xi的類標(biāo)記。 它最基本的想法就是在訓(xùn)練集D 的樣本空間中找到一個劃分超平面,將不同類別的樣本分開,其中樣本的劃分存在很多個超平面,找到一個最佳的分類超平面,如圖2 所示。
圖1 隨機森林Fig. 1 Random forest
圖2 支持向量機Fig. 2 Support vector machines
對線性不可分情況的SVM,選擇恰當(dāng)?shù)暮撕瘮?shù)K(xi,xj) 和恰當(dāng)?shù)膮?shù)C,構(gòu)造并求解最優(yōu)問題,如公式(1):
其中:ai為拉格朗日乘子,K(xi,xj) 為核函數(shù),C 為懲罰系數(shù)。
支持向量機最終的判別函數(shù),如公式(2):
樸素貝葉斯算法是結(jié)合貝葉斯原理和特征條件假設(shè)的分類方法。 有n 維特征向量X ={x1,x2,…,xn},類變量Y ={y1,y2,…,ym}。 根據(jù)樸素貝葉斯基本理論,其后驗概率,如公式(3):
樸素貝葉斯算法根據(jù)樣本的特征X,計算所有類別的概率,最終概率最大的類別即為該樣本所屬的類。P(X) 是不變的,在比較后驗概率時,只比較上式分子部分,得到一個樣本數(shù)據(jù)屬于類別yi的樸素貝葉斯計算方法,如公式(4):
本文實驗使用Anaconda 3 5.0.1 環(huán)境,UCI 網(wǎng)站公開的Online Shoppers Purchasing Intention Dataset Data Set 數(shù)據(jù)集,該數(shù)據(jù)集包含12330 個實例和18個字段,字段包括BounceRates(跳出率)、ExitRates(退出率)、SpecialDay(特殊日期)、Region(區(qū)域)、PageValues(頁面值)、VisitorType(訪客類型)等,其中Revenue 是類標(biāo)簽。
實驗使用大部分樣本數(shù)據(jù)進行模型訓(xùn)練,小部分?jǐn)?shù)據(jù)進行模型預(yù)測。 使用清洗過的數(shù)據(jù)集建立隨機森林、SVM、樸素貝葉斯模型。 為了選出可靠的模型,每個模型都進行k 折交叉驗證,參數(shù)cv 設(shè)置為3、5、10,通過實驗驗證,得到效果最好是cv =5,即3個模型采用五折交叉驗證,結(jié)果如表1 所示。 支持向量機模型的參數(shù)c 表示懲罰系數(shù),通過多次實驗取得c =10 的模型訓(xùn)練效果最好。
表1 模型五折交叉驗證評估結(jié)果Tab. 1 Model 5-fold cross-validation evaluation results
采用準(zhǔn)確率、召回率、F1 值、AUC 作為衡量性能的標(biāo)準(zhǔn),在構(gòu)建的在線購買意圖預(yù)測模型中,其性能評價結(jié)果如表2 所示。 從表2 中可以看出隨機森林比SVM 準(zhǔn)確率、召回率、F1 值、AUC 分別高0.18、0.06、0.12、0.263,比樸素貝葉斯的分別高0.05、0.1、0.08、0.039,因此對在線購買意圖預(yù)測最好的算法是隨機森林。
表2 在線購買意圖預(yù)測模型性能評價指標(biāo)Tab. 2 Performance evaluation index of online purchase intention prediction model
在線購買已經(jīng)成為一種消費趨勢,文章使用機器學(xué)習(xí)中隨機森林算法、SVM 算法、樸素貝葉斯算法建立在線購買意圖預(yù)測模型,通過比較模型的準(zhǔn)確率、召回率、F1 值、AUC,得到隨機森林算法更適合用于在線購買意圖的預(yù)測。 就此,電商網(wǎng)站可以通過網(wǎng)站消費者的行為數(shù)據(jù)預(yù)測用戶的偏好和購買行為,機器學(xué)習(xí)發(fā)揮了重要的作用,對提高產(chǎn)品購買銷售具有重要的意義。