国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機器學(xué)習(xí)在購買意圖方面的應(yīng)用

2020-11-11 08:01:46劉占玉高榮芳
智能計算機與應(yīng)用 2020年6期
關(guān)鍵詞:超平面樸素貝葉斯

劉占玉, 高榮芳

(西安石油大學(xué) 計算機學(xué)院, 西安710065)

0 引 言

隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)購物幾乎成為人們最常用的消費渠道,然而不同類型的消費者、不同的購物網(wǎng)站、不同促銷活動和特殊日期等,都會影響消費者的購買意圖。 社會環(huán)境不同,使得消費者的購物需求出現(xiàn)了個性化和多樣化,如受新冠肺炎疫情影響,大部分消費者選擇網(wǎng)上購物。

在線購買領(lǐng)域,國內(nèi)學(xué)者也做了很多相關(guān)研究。如:袁智慧采用實證研究的方法,來探究中UGC 不同形式的自我披露對消費者在線購買意愿的影響機理,并分析了產(chǎn)品熟悉度在其中的調(diào)節(jié)作用,不僅對自我披露理論的發(fā)展起到一定的補充和深化作用,也能給社會化商務(wù)平臺通過UGC 達到商家、消費者、平臺三方共贏的局面提供一定的決策支持[1]。盧美麗等人考慮在線重復(fù)購買強化效應(yīng),建立顧客重復(fù)購買通用模型[2]。 Verhagen 等人針對沒有研究檢查在線商店信念和消費者在線情感狀態(tài)之間的效果等級是否因產(chǎn)品類型而異。 研究通過檢查思考層次和感覺思考層次在解釋針對搜索產(chǎn)品與體驗產(chǎn)品的在線購買意向以及高參與度與低參與度產(chǎn)品的在線購買意向中的解釋能力[3]。 本文使用機器學(xué)習(xí)對電商平臺的顧客在線購物數(shù)據(jù)進行分析,幫助商家更好的預(yù)測并掌握消費者的購買意向。

1 機器學(xué)習(xí)

1.1 隨機森林算法

隨機森林是Leo Breiman 把隨機子空間算法和集成學(xué)習(xí)算法相結(jié)合,最終得到了解決決策樹過擬合問題的隨機森林算法。 它是一種基于樹的分類器,由多棵決策樹構(gòu)成對樣本進行訓(xùn)練,并預(yù)測的一種分類器。 對于一棵樹,訓(xùn)練樣本采用放回式,從總的訓(xùn)練集中隨機采樣出來,而訓(xùn)練樹的結(jié)點{G1,G2,…,Gn} 時,特征是從原有特征中按照一定的比例隨機地?zé)o放回式抽取的,類別的輸出是由各節(jié)點預(yù)測結(jié)果來決定最優(yōu)的預(yù)測結(jié)果,如圖1 所示。

1.2 SVM 算法

支持向量機是由Vapnik 等人根據(jù)統(tǒng)計學(xué)理論提出的一種新的機器學(xué)習(xí)方法,是通過監(jiān)督學(xué)習(xí)的方式對樣本數(shù)據(jù)進行二分類的廣義性分類器,它主要尋找一個超平面對樣本數(shù)據(jù)進行分割,讓訓(xùn)練集樣本中的數(shù)據(jù)恰好分布在超平面兩側(cè)。 分割原則是間隔最大化,最終轉(zhuǎn)化為一個凸二次規(guī)劃問題來求解[4]。 給定訓(xùn)練數(shù)據(jù)集D ={ ( x1,y1) , ( x2,y2) ,…,(xm,ym)},其中xi∈χ =Rn,yi∈γ = { + 1, - 1},i =1,2,…,N,xi為第i 個特征向量,yi為xi的類標(biāo)記。 它最基本的想法就是在訓(xùn)練集D 的樣本空間中找到一個劃分超平面,將不同類別的樣本分開,其中樣本的劃分存在很多個超平面,找到一個最佳的分類超平面,如圖2 所示。

圖1 隨機森林Fig. 1 Random forest

圖2 支持向量機Fig. 2 Support vector machines

對線性不可分情況的SVM,選擇恰當(dāng)?shù)暮撕瘮?shù)K(xi,xj) 和恰當(dāng)?shù)膮?shù)C,構(gòu)造并求解最優(yōu)問題,如公式(1):

其中:ai為拉格朗日乘子,K(xi,xj) 為核函數(shù),C 為懲罰系數(shù)。

支持向量機最終的判別函數(shù),如公式(2):

1.3 樸素貝葉斯算法

樸素貝葉斯算法是結(jié)合貝葉斯原理和特征條件假設(shè)的分類方法。 有n 維特征向量X ={x1,x2,…,xn},類變量Y ={y1,y2,…,ym}。 根據(jù)樸素貝葉斯基本理論,其后驗概率,如公式(3):

樸素貝葉斯算法根據(jù)樣本的特征X,計算所有類別的概率,最終概率最大的類別即為該樣本所屬的類。P(X) 是不變的,在比較后驗概率時,只比較上式分子部分,得到一個樣本數(shù)據(jù)屬于類別yi的樸素貝葉斯計算方法,如公式(4):

2 在線購買意向預(yù)測

本文實驗使用Anaconda 3 5.0.1 環(huán)境,UCI 網(wǎng)站公開的Online Shoppers Purchasing Intention Dataset Data Set 數(shù)據(jù)集,該數(shù)據(jù)集包含12330 個實例和18個字段,字段包括BounceRates(跳出率)、ExitRates(退出率)、SpecialDay(特殊日期)、Region(區(qū)域)、PageValues(頁面值)、VisitorType(訪客類型)等,其中Revenue 是類標(biāo)簽。

實驗使用大部分樣本數(shù)據(jù)進行模型訓(xùn)練,小部分?jǐn)?shù)據(jù)進行模型預(yù)測。 使用清洗過的數(shù)據(jù)集建立隨機森林、SVM、樸素貝葉斯模型。 為了選出可靠的模型,每個模型都進行k 折交叉驗證,參數(shù)cv 設(shè)置為3、5、10,通過實驗驗證,得到效果最好是cv =5,即3個模型采用五折交叉驗證,結(jié)果如表1 所示。 支持向量機模型的參數(shù)c 表示懲罰系數(shù),通過多次實驗取得c =10 的模型訓(xùn)練效果最好。

表1 模型五折交叉驗證評估結(jié)果Tab. 1 Model 5-fold cross-validation evaluation results

采用準(zhǔn)確率、召回率、F1 值、AUC 作為衡量性能的標(biāo)準(zhǔn),在構(gòu)建的在線購買意圖預(yù)測模型中,其性能評價結(jié)果如表2 所示。 從表2 中可以看出隨機森林比SVM 準(zhǔn)確率、召回率、F1 值、AUC 分別高0.18、0.06、0.12、0.263,比樸素貝葉斯的分別高0.05、0.1、0.08、0.039,因此對在線購買意圖預(yù)測最好的算法是隨機森林。

表2 在線購買意圖預(yù)測模型性能評價指標(biāo)Tab. 2 Performance evaluation index of online purchase intention prediction model

3 結(jié)束語

在線購買已經(jīng)成為一種消費趨勢,文章使用機器學(xué)習(xí)中隨機森林算法、SVM 算法、樸素貝葉斯算法建立在線購買意圖預(yù)測模型,通過比較模型的準(zhǔn)確率、召回率、F1 值、AUC,得到隨機森林算法更適合用于在線購買意圖的預(yù)測。 就此,電商網(wǎng)站可以通過網(wǎng)站消費者的行為數(shù)據(jù)預(yù)測用戶的偏好和購買行為,機器學(xué)習(xí)發(fā)揮了重要的作用,對提高產(chǎn)品購買銷售具有重要的意義。

猜你喜歡
超平面樸素貝葉斯
全純曲線的例外超平面
隔離樸素
涉及分擔(dān)超平面的正規(guī)定則
樸素的安慰(組詩)
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
最神奇最樸素的兩本書
以較低截斷重數(shù)分擔(dān)超平面的亞純映射的唯一性問題
貝葉斯公式及其應(yīng)用
基于貝葉斯估計的軌道占用識別方法
一種基于貝葉斯壓縮感知的說話人識別方法
電子器件(2015年5期)2015-12-29 08:43:15
扬中市| 辽中县| 定结县| 阳泉市| 山西省| 江川县| 兴隆县| 潮安县| 海林市| 咸宁市| 时尚| 马山县| 西吉县| 闽清县| 平南县| 岗巴县| 社会| 洛阳市| 镇雄县| 屯昌县| 河间市| 曲阳县| 吴江市| 牙克石市| 苏尼特右旗| 长岛县| 宜黄县| 新建县| 铁岭市| 柏乡县| 库车县| 乐平市| 富宁县| 克山县| 綦江县| 台东市| 罗源县| 北海市| 沅江市| 凯里市| 昌宁县|