俞濤
摘 要:電商使用個性化推薦系統(tǒng)分析用戶的興趣偏好,幫助用戶從龐大的商品目錄中挑選真正適合自己需要的商品,為每個用戶提供個性化服務(wù)。在很多電商個性化推薦技術(shù)中,作為當(dāng)今運(yùn)用最廣泛、最成功的推薦策略,從而改善了SVM算法在電商數(shù)據(jù)挖掘方面的性能,并且驗證了采用數(shù)據(jù)挖掘算法應(yīng)用到電商研究是可行的,并且具有較高的準(zhǔn)確性。
關(guān)鍵詞:SVM 電商 聚類 數(shù)據(jù)挖掘
中圖分類號: TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-3791(2018)12(c)-0035-02
隨著新一代社交網(wǎng)絡(luò)、數(shù)字城市等大規(guī)?;ヂ?lián)網(wǎng)應(yīng)用的迅猛發(fā)展。大數(shù)據(jù)的特點為:(1)彈性服務(wù)。(2)按需服務(wù)。(3)資源池化。(4)服務(wù)可計費。(5)泛在接入。大數(shù)據(jù)主要就是云架構(gòu)計算技術(shù),并且云架構(gòu)計算是分布式計算、互聯(lián)網(wǎng)技術(shù)以及大規(guī)模資源管理等技術(shù)的發(fā)展與融合,其應(yīng)用和研究涉及資源虛擬化、信息安全、海量數(shù)據(jù)處理等亟待處理的重要問題。
數(shù)據(jù)挖掘于2003年正式開啟開發(fā)和研究工作,美國的七所頂尖院校的研究人員共同提出了“數(shù)據(jù)挖掘VGrADS和網(wǎng)格虛擬化”的項目,之后Amazon、Giftag、Saleforce.com以及IBM都使用數(shù)據(jù)挖掘來提高自己在業(yè)界的競爭力。針對數(shù)據(jù)挖掘算法以及在解決電商研究領(lǐng)域中解決復(fù)雜問題的優(yōu)勢及不足,本文提出一種基于支持向量機(jī)SVM算法的電商聚類算法,并將基于隨機(jī)森林模型下的基尼指標(biāo)特征加權(quán)的支持向量機(jī)方法應(yīng)用于電商分析中。從而改善了SVM算法在分類識別方面性能,并且驗證了采用數(shù)據(jù)挖掘算法應(yīng)用到電商研究是可行的,并且具有較高的準(zhǔn)確性。
1 利用數(shù)據(jù)挖掘技術(shù)進(jìn)行電商研究的流程
隨著新一代社交網(wǎng)絡(luò)、數(shù)字城市等大規(guī)?;ヂ?lián)網(wǎng)應(yīng)用的迅猛發(fā)展。大數(shù)據(jù)的特點為:彈性服務(wù)。大數(shù)據(jù)主要就是云架構(gòu)計算技術(shù),并且云架構(gòu)計算是分布式計算、互聯(lián)網(wǎng)技術(shù)以及大規(guī)模資源管理等技術(shù)的發(fā)展與融合,其應(yīng)用和研究涉及資源虛擬化、信息安全、海量數(shù)據(jù)處理等亟待處理的重要問題。數(shù)據(jù)挖掘的過程主要包括以下幾個方面:
(1)根據(jù)已知的條件,確定數(shù)據(jù)挖掘目的。
(2)需要挖掘數(shù)據(jù)的準(zhǔn)備,即對數(shù)據(jù)的清洗、數(shù)據(jù)的篩選等步驟。
(3)根據(jù)選定的算法對已有的數(shù)據(jù)進(jìn)行挖掘。
(4)依據(jù)上述挖掘的結(jié)果,對數(shù)據(jù)挖掘的模式評估與知識進(jìn)行表示。
2 支持向量機(jī)SVM算法
2.1 支持向量機(jī)SVM算法
支持向量機(jī)SVM算法將我們待解決的問題通過一個二次規(guī)劃來進(jìn)行解決。例如,通過假設(shè)樣本集上存在超平面能夠?qū)⒁延械臉颖緞澐譃閮纱箢?,其中?xùn)練集為,那么有一個超平面能使兩類樣本到其距離的和能達(dá)到最大值,那么該平面為超平面,并且超平面的計算公式為:
(1)
(2)
其中,是松弛變量,是一個閾值,是懲罰參數(shù)。
我們將上述計算最佳平面的問題通過Lagrange算子轉(zhuǎn)化為二次規(guī)劃的對偶問題,其計算公式為:
(3)
(4)
其中,是Lagrange乘子,解決此對偶問題得到的決策函數(shù)為:
(5)
雖然支持向量機(jī)SVM的理論目前的應(yīng)用領(lǐng)域很廣泛,但是它在我們實際的應(yīng)用過程中還會遇到一些如核函數(shù)的選擇、歸納、優(yōu)化及內(nèi)積參數(shù)尋優(yōu)等問題。
2.2 改進(jìn)的支持向量機(jī)SVM
特征加權(quán)支持向量機(jī)由核函數(shù)經(jīng)特征加權(quán)構(gòu)造的支持向量機(jī)。并且特征加權(quán)核函數(shù)定義為:
(6)
改進(jìn)支持向量機(jī)SVM算法的詳細(xì)步驟如下:
Step1.確定樣本集S,即為:
其中為特征變量,為類別量。
Step2.所得指標(biāo)參數(shù)對其相應(yīng)的特征屬性加權(quán),構(gòu)造加權(quán)的特征向量:來優(yōu)化核函數(shù)中的原始特征內(nèi)積。
Step3.構(gòu)造待輸入空間的線性變換矩陣,以建立特征加權(quán)的核函數(shù)。
Step4.應(yīng)用所構(gòu)造的特征加權(quán)的核函數(shù)在程序設(shè)計中替換傳統(tǒng)的支持向量機(jī)SVM模型中的線性核函數(shù),并且輸出核心的SVM構(gòu)造分類器,與此同時,對構(gòu)造的改進(jìn)的支持向量機(jī)SVM算法進(jìn)行性能測試。
3 基于SVM算法的電商協(xié)同過濾推薦
本文將SVM,F(xiàn)WSVM,改進(jìn)的支持向量機(jī)SVM3種算法在數(shù)據(jù)庫中的多個電商研究電商分析數(shù)據(jù)集上進(jìn)行了實驗,將數(shù)據(jù)集分別應(yīng)用前面所提到的SVM,F(xiàn)WSVM,改進(jìn)的支持向量機(jī)SVM三種算法在MATLAB 2014a環(huán)境中進(jìn)行仿真實驗,其統(tǒng)計結(jié)果如圖1所示。
UCI電商研究電商分析數(shù)據(jù)集對比實驗結(jié)果的分析如圖1所示,在這5個分析數(shù)據(jù)上,可以看出本文所提出的改進(jìn)的支持向量機(jī)SVM算法平均的識別性能相對最高,而經(jīng)典的SVM算法的識別性能最差,但總體而言,本文所提出的改進(jìn)的支持向量機(jī)SVM算法在電商研究中識別的正確率最高,效果最為明顯。
4 結(jié)語
通過分析數(shù)據(jù)挖掘算法以及在解決電商研究領(lǐng)域中復(fù)雜問題的優(yōu)勢及不足,提出一種基于支持向量機(jī)SVM算法的電商聚類算法,并將基于隨機(jī)森林模型下的基尼指標(biāo)特征加權(quán)的支持向量機(jī)方法應(yīng)用于電商分析中。從而改善了SVM算法在分類識別方面性能,而且驗證了采用數(shù)據(jù)挖掘算法應(yīng)用到電商研究的可行性以及準(zhǔn)確性,實驗結(jié)果表明,本文所提出的改進(jìn)的支持向量機(jī)SVM算法在電商研究中識別的正確率最高,效果最為明顯。
參考文獻(xiàn)
[1] Valentine K, Kopcha TJ. The embodiment of cases as alternative perspective in a mathematics hypermedia learning environment[J].Educational Technology Research & Development,2016,64(6):1-24.
[2] 黃晟.基于變電站為中心的配電網(wǎng)電壓態(tài)勢圖片圖形特征的態(tài)勢評估模型及算法[D].杭州電子科技大學(xué), 2017.