国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于MKL-SVM的網(wǎng)絡購物評論分類方法

2012-04-29 00:44:03胡瀚
計算機時代 2012年4期
關(guān)鍵詞:文本分類

胡瀚

摘要: 購物網(wǎng)站在線評論系統(tǒng)收集了大量的顧客評價。支持向量機(SVM)是一種有效的文本分類方法,可以用于跟蹤和管理顧客意見,但是SVM存在訓練收斂速度慢,分類精度難以提高等缺點。文章提出利用異質(zhì)核函數(shù)性的不同特性,解決支持向量機(SVM)數(shù)據(jù)泛化學習能力弱的問題,提高SVM的分類精度,通過對顧客購物評論進行分類,解決購物網(wǎng)站海量顧客評論分析的問題,幫助企業(yè)及時進行顧客反饋,提升服務水平。

關(guān)鍵詞: 網(wǎng)絡購物評論; 文本分類; SVM; 多核學習

中圖分類號:F406.2文獻標識碼:A 文章編號:1006-8228(2012)04-43-03

A classification method of online reviews based on MKL-SVM

Hu Han

(Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)

Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVMs problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.

Key words: customer review; text classification; SVM; multiple kernel learning

0 引言

購物網(wǎng)站都建立有顧客評論系統(tǒng),收集顧客對于商品及網(wǎng)站服務的體驗感受。由于購物評論表達形式繁雜、內(nèi)容隨意、句型多樣,給企業(yè)有效跟蹤和管理用戶評論意見,帶來了很大的難度。

文本分類(text categorization)應用分類函數(shù)或分類模型,把文本映射到多個類別中的某一類,使檢索或查詢的速度更快,準確率更高。文本分類在自然語言處理與理解、信息組織與管理、內(nèi)容信息過濾等領(lǐng)域有著廣泛的應用。主要分類方法有:貝葉斯、決策樹、支持向量機(Support Vector Machines, SVM)、神經(jīng)網(wǎng)絡、遺傳算法等。其中SVM通過分隔面模式擺脫了樣本分布、冗余特征以及過度擬合等因素的影響,具有很好的泛化學習能力[1]。但是SVM存在訓練收斂速度慢,分類精度難以提高等缺點。

核函數(shù)是SVM解決非線性問題的方法,受限于單個核函數(shù)性能,使得SVM泛化學習能力有限,分類精度難以提升。多核學習(Multiple Kernel Learning,MKL)利用對同質(zhì)(homogeneous)或異質(zhì)(heterogeneous)核函數(shù)優(yōu)化整合,提高了SVM的學習能力和泛化性能。在處理大量異質(zhì)數(shù)據(jù)時,MKL具有很好的靈活性,且分類結(jié)果更清晰,便于解決現(xiàn)實應用問題[2],但MKL涉及較多的相關(guān)參數(shù)的優(yōu)化。對MKL研究目前主要集中在圖像識別領(lǐng)域[3,4]。本文通過校準算法確定MKL異質(zhì)核函數(shù)的優(yōu)化權(quán)系數(shù)和核參數(shù),建立基于多核學習的支持向量機(Multiple Kernel Learning SVM, MKL-SVM)文本分類模型,提升SVM在評論分類中的應用效果。

1 MKL-SVM方法描述

1.1 SVM核函數(shù)

SVM是基于統(tǒng)計學理論中的結(jié)構(gòu)風險最小化原理,具有高泛化性能的通用學習機。設分割面,樣本集線性可分時,SVM通過一個分割超平面,把訓練樣本點分類,使兩類訓練點到分割面的最小距離之和分類間隔(margin)最大[5]。分類間隔margin=2/||ω||,使間隔最大等價于使||ω||2最小。最優(yōu)分類面的求解可以轉(zhuǎn)化為優(yōu)化問題:

s.t.

利用Lagrange優(yōu)化可將上述問題轉(zhuǎn)為其對偶問題:求解下列函數(shù):

max:

s.t.和。

最優(yōu)分類函數(shù)是

。

上述式中a:為Lagrange非負乘子

將低維的輸入空間數(shù)據(jù)通過非線性映射函數(shù)映射到高維屬性空間,輸入空間線性不可分問題在屬性空間將轉(zhuǎn)化為線性可分問題。這種非線性映射函數(shù)稱之為核函數(shù)[6]。設x在χ對應一個映射到高緯空間,φ(x)為核映射函數(shù),K核函數(shù)為,,SVM尋找的超平面胃。此時目標函數(shù)變?yōu)椋?/p>

考慮最大分割和訓練誤差,優(yōu)化公式為:

s.t.

1.2 多核學習

設函數(shù)集合M由多個核函數(shù)K1…Km組成,核函數(shù)對應的映射函數(shù)是φ1…φM。MKL[7]公式:

s.t.

其中ωk表示φk在整個學習機中的權(quán)重。

其中00, k=1,2….M;多核學習核函數(shù)KMKL是Ki的凸線性組合:;最終的分類函數(shù)。

1.3 MKL-SVM及優(yōu)化參數(shù)計算

MKL-SVM核函數(shù)的選擇取決于對數(shù)據(jù)處理的要求。具有全局性的核函數(shù)和局部性的核函數(shù)的分類性能互補,可以使用不同核函數(shù)組成多核核函數(shù)[8],但是如果MKL異質(zhì)核函數(shù)種類過多,會使SVM訓練過于復雜。因此,本研究選用M=2,核函數(shù)選擇了:Gaussian徑向基核函數(shù)RBF (Radial Basis Function)。局部核函數(shù)具有較好的學習能力,而泛化推廣能力較弱。多項式核函數(shù)(Polynomial Function, PF)是一個全局性核函數(shù),具有較好的泛化推廣能力,而學習能力則要弱些。Sigmoid核函數(shù)在神經(jīng)網(wǎng)絡的應用中,具有良好的全局分類性能。對有下面2種實現(xiàn)形式:

MKL-SVM計算中核參數(shù)σ、d、β0、β需要尋找合適的值使得SVM測試錯誤率最小。權(quán)系數(shù)λ對MKL-SVM起著關(guān)鍵作用也需要進行尋優(yōu)。核參數(shù)和權(quán)系數(shù)的確定是MKL-SVM非常重要的環(huán)節(jié)。本文利用核函數(shù)之間的關(guān)系等價于核矩陣之間的關(guān)系,結(jié)合交叉驗證技術(shù)LOO和核校準(kernelalignment)[9],建立如下優(yōu)化求解步驟:

①,表示兩個核矩陣之間的內(nèi)積。

核校準度量k1與k2在樣本集S上的差異。核校準是一個標量值,體現(xiàn)了不同核函數(shù)之間的差異關(guān)系。

② 對k1,k2使用LOO方法,求出核參數(shù),使達到最大的核參數(shù)。

③ 定義函數(shù)

④ 構(gòu)造一個權(quán)參數(shù)λ和乘子αi的拉格朗日方程,構(gòu)造二次規(guī)劃子問題:

⑤ 重復步驟④直到誤差最小,算法收斂到最優(yōu)的λ值。

2 實例分析

2.1 評估標準和分類維度

表1購物評論分類維度

[[評論對象&編號&維度&解釋&售前服務&A1&購買咨詢&是否提供在線問答解決顧客疑問&A2&信息提供全面性&網(wǎng)站商品信息是否滿足顧客需求&商品&B1&定價&價格浮動給顧客帶來的影響&B2&商品特征&對商品使用感受&網(wǎng)站服務&C1&支付方式&網(wǎng)站方便、種類多、安全&C2&內(nèi)部配貨、調(diào)貨&企業(yè)內(nèi)部訂單處理速度&C3&信息溝通&及時傳遞商品處理信息給顧客&物流服務&D1&及時性&物流時間是否合理&D2&態(tài)度&快遞服務、送貨上門態(tài)度&D3&質(zhì)量&外包裝磨損、安全&售后服務&E1&換、退貨&問題商品的處理&]]

對于需要分類的n個狀態(tài),我們以ce表示對第i個狀態(tài)分類出的正確信息個數(shù),te表示沒有分類出的正確信息個數(shù),fe為錯誤信息個數(shù)。以精確度P(Precision)表示系統(tǒng)正確分類信息占所有分類信息的比例,;召回率R(Recall)表示系統(tǒng)分類出的正確信息占所有可能正確信息的比例,。評論模型性能需要同時考慮P和R,為此引入,其中β是P和R的相對權(quán)重,決定對P側(cè)重還是對R側(cè)重,通常設定為1。F值越大,說明分類性能越好。

圍繞購物網(wǎng)站服務流程,本研究結(jié)合顧客購物評論中的常見主題,總結(jié)出了評論的分類維度(表1)。

2.2 方法評估與應用

本文從卓越亞馬遜、當當網(wǎng)等購物網(wǎng)站,下載了不同商品的3000條購物評論。隨機抽取2000條作為訓練集,其余作為測試集,對比幾種方法F值。從圖1可以看出,單核SVM中Gaussian RBF優(yōu)于Polynomial;而MKL-GP和MKL-GS分類性能都優(yōu)于單核SVM。其中MKL-GP效果好于MKL-SG,這是由于Sigmoid函數(shù)在某些特定條件下,才滿足核函數(shù)對稱、半正定的要求,因此影響了其分類的性能。

圖1不同方法分類F值

表2數(shù)據(jù)集實驗結(jié)果

[[樣本量&Polynomial

SVM (F值)&Gaussian RBF

SVM(F值)&MKL-GS

SVM(F值)&MKL-GP

SVM(F值)&300&0.6573&0.6639&0.5081&0.6047&600&0.6894&0.7429&0.7026&0.7493&1000&0.7047&0.7579&0.8081&0.8169&2000&0.7715&0.8040&0.8559&0.8621&3000&0.7745&0.8037&0.8551&0.8676&]]

本文使用不同的樣本量對兩種算法進行對比,其中F值使用均值。從表2可以看出,在樣本量不夠大時,MKL-GS受Sigmoid函數(shù)特性影響性能較差;隨著樣本數(shù)量的增加,MKL優(yōu)勢逐漸明顯,表現(xiàn)出優(yōu)于單核SVM的分類性能;樣本量到2000之后,SVM分類性能的提升就不明顯,有待更進一步優(yōu)化。

3 結(jié)束語

網(wǎng)絡購物評論分析需要多種技術(shù)的結(jié)合。MKL-SVM方法通過集成學習發(fā)揮異質(zhì)核函數(shù)不同特性,實現(xiàn)了購物評論分類性能的提升。本文所做的工作僅僅是購物評論分析的第一步,還需要結(jié)合文本挖掘、情感分析、營銷分析等方法,才能幫助企業(yè)掌握消費者的感受,給予更多智能化的決策建議。網(wǎng)絡上存在各類評論、新聞、博客、微博,對這些文本的分類分析,只要通過優(yōu)選核函數(shù)以及相關(guān)參數(shù),可以參照MKL-SVM方法獲取更好的分類性能。

參考文獻:

[1] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術(shù)研究進展[J].軟件學報,2006.17(9):1848~1859

[2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14

[3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565

[4] Koji Tsuda, Gunnar R?tsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338

[5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790

[6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782

[7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12

[8] 劉向東,駱斌,陳兆乾.支持向量機最優(yōu)模型選擇的研究[J].計算機研究與發(fā)展,2005.42(4):576~581

[9] N. Cristianini, J. Shawe-Taylor, J. Kandola. On kernel target alignment [C].Neural Information Processing Systems Cambridge, 2002:367~373

猜你喜歡
文本分類
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡答疑反饋系統(tǒng)
基于K—means算法的文本分類技術(shù)研究
文本分類算法在山東女子學院檔案管理的應用
科技視界(2016年24期)2016-10-11 09:36:57
威信县| 怀远县| 桐柏县| 临泉县| 阿巴嘎旗| 东辽县| 上林县| 区。| 辽中县| 益阳市| 岗巴县| 屯门区| 安徽省| 会东县| 哈巴河县| 溧水县| 瓦房店市| 淮安市| 上杭县| 沁水县| 玉门市| 新兴县| 虹口区| 怀来县| 册亨县| 怀远县| 甘孜县| 将乐县| 阜新| 大石桥市| 甘谷县| 蓝山县| 蚌埠市| 崇阳县| 临夏县| 深泽县| 内乡县| 福贡县| 大关县| 镇远县| 宁津县|