基于文本向量和機(jī)器學(xué)習(xí)的評分預(yù)測算法

2019-05-23 10:44:40葛聲利

電腦知識與技術(shù) 2019年5期

葛聲利

摘要：隨著無線通信技術(shù)不斷發(fā)展，移動終端的普及，大量的用戶涌入到互聯(lián)網(wǎng)中來，同時(shí)隨著博客和微博的興起，互聯(lián)網(wǎng)進(jìn)入了web2.0的時(shí)代。以自媒體為代表的個(gè)人影響會被網(wǎng)絡(luò)放大，第三方點(diǎn)評平臺也在這種浪潮之下應(yīng)運(yùn)而生，人們可以通過第三方點(diǎn)評平臺來表達(dá)自己對商品的看法，大量的觀點(diǎn)在網(wǎng)絡(luò)平臺上匯聚，形成對商品的較全面的評價(jià)，同時(shí)大型第三方點(diǎn)評平臺上的評價(jià)和評分也成為用戶了解商品的最好方式。但是第三方點(diǎn)評平臺會存在評分缺失的現(xiàn)象，對平臺的準(zhǔn)確性和客觀性造成不良影響。針對此問題，本文提出了基于文本向量和機(jī)器學(xué)習(xí)的評分預(yù)測的方法，能較為準(zhǔn)確地預(yù)測確實(shí)的評分。

關(guān)鍵詞：評分預(yù)測；文本向量；機(jī)器學(xué)習(xí)；集成模型

中圖分類號：TP391 文獻(xiàn)標(biāo)識碼：A 文章編號：1009-3044（2019）05-0171-02

Rating Prediction Based on Text Vector and Machine Learning

GE Sheng-li

（Tongji University， Shanghai 201800， China）

Abstract： With the continuous development of wireless communication technology， the popularity of mobile terminals， a large number of users flooded into the Internet， and with the rise of blogs and Weibo， the Internet has entered the era of web2.0. The personal influence represented by the media will be amplified by the network， and the third-party review platform emerges under such a wave. People can express their views on the products through the third-party review platform. A large number of opinions are on the network platform. Convergence， a more comprehensive evaluation of the product， and evaluation and scoring on the large third-party review platform has become the best way for users to understand the product. However， the third-party review platform will have a lack of scores， which will adversely affect the accuracy and objectivity of the platform. In response to this problem， this paper proposes a method based on text vector and machine learning for scoring prediction， which can accurately predict the actual score.

Key words： score prediction； text feature engineering； machine learning； integrated model； weighted model

1 研究背景

隨著科學(xué)技術(shù)的進(jìn)步，基礎(chǔ)通信設(shè)施的工藝更加先進(jìn)，以及智能移動終端的普及，大量的用戶涌入到了互聯(lián)網(wǎng)中，人們的想法和意見更加容易被他人看見，同時(shí)也更加具有價(jià)值。于是相應(yīng)的第三方評論平臺就在互聯(lián)網(wǎng)的浪潮之下應(yīng)運(yùn)而生，比如電影的第三方評論平臺，國內(nèi)的豆瓣，國外的IMDB等，第三方自媒體平臺，國內(nèi)的微博，國外的twitter，實(shí)體店鋪的第三方評論平臺，國內(nèi)的大眾點(diǎn)評等，國外的yelp等。

這些點(diǎn)評平臺都擁有大量來自用戶的文本評論和評分，這些平臺上對商品和商鋪的評分會對消費(fèi)者的購物決策有較大影響。有社會學(xué)家通過統(tǒng)計(jì)研究發(fā)現(xiàn)，在美國的網(wǎng)購平臺上，有87%的用戶會在購買商品前會瀏覽店鋪評分和商品評論，有80%的用戶的購買意愿會受到用戶評論和商店評分的影響[1-3]。擁有高評分和優(yōu)質(zhì)評論的店鋪往往能贏得更多的用戶。

第三方評論平臺上的評論是通過眾包的形式來獲取的，這樣的評論通常是長度不同，偏重不同，寫作風(fēng)格各異的，如果用戶不是愿意化大量的時(shí)間去閱讀評論的話，那么用戶很難從中找到有用的信息，所以這些平臺最常用的辦法就是通過用戶給的評分，算出平均值，作為對電影或商品的客觀描述。所以第三方評論平臺上評分是否真實(shí)客觀有效就非常重要了。

但是出于種種原因，這些平臺上的許多評論總是會和實(shí)際值之間會存在一定的偏差。首先是第三方評論網(wǎng)站是開放的，會存著一些惡意的機(jī)器人刷評，或者僅僅只因?yàn)榻裉祛櫩偷男那椴缓茫詈蠼o了差評。再者，評分機(jī)制中的分?jǐn)?shù)是整數(shù)，而如果數(shù)值化用戶的滿意度也應(yīng)該是在給定范圍內(nèi)波動的實(shí)數(shù)。最后，網(wǎng)站上的評分不是強(qiáng)制的，會存在一些顧客只進(jìn)行評論，而沒有進(jìn)行評分的現(xiàn)象。

本文研究的基于多元特征和模型融合的評分預(yù)測算法，針對第三方評論網(wǎng)站的評論和vote數(shù)據(jù)進(jìn)行評分預(yù)測。通過在10-20萬條yelp評論數(shù)據(jù)上，結(jié)合句子中的統(tǒng)計(jì)特征，詞嵌入特征和評論的vote特征進(jìn)行特征融合，并對支持向量回歸和隨機(jī)森領(lǐng)的混合模型上進(jìn)行訓(xùn)練，生成一個(gè)評分預(yù)測模型。本文的基于多元特征和模型融合的評分預(yù)測模型，是將特征工程和機(jī)器學(xué)習(xí)算法優(yōu)化和整合，應(yīng)用到評論文本預(yù)測中的應(yīng)用型研究，該算法能在一定程度對第三方評論平臺上存在的大規(guī)模機(jī)器人刷分進(jìn)行打擊，同時(shí)也能對部分沒有評分的文本進(jìn)行評分預(yù)測，使商品總評分更加準(zhǔn)確。

2 實(shí)驗(yàn)分析

針對評論評分預(yù)測任務(wù)，先對評論文本進(jìn)行了文本預(yù)處理，然后通過6種文本特征提取的方法對評論文本進(jìn)行了特征提取，得到了6組不同的文本特征向量，最后使用了4種單一的機(jī)器學(xué)習(xí)模型和2種集成的機(jī)器學(xué)習(xí)模型，以文本特征向量作為輸入，評論評分作為標(biāo)簽，對機(jī)器學(xué)習(xí)模型進(jìn)行了訓(xùn)練，生成了36種評分預(yù)測的模型，并在測試集上用均方根誤差（RSME）作為衡量指標(biāo)，對36組評分預(yù)測模型進(jìn)行了評估，其中圖2.1是36組評分預(yù)測模型的均方根誤差的對比圖，我們可以看出，GradientBoosting Regression[4]模型都能得到最低的誤差率，但是RBF-SVR模型的預(yù)測誤差在任何特征向量上都有較大的誤差率。并且RBF-SVR模型的訓(xùn)練時(shí)間也是其他模型的千倍以上，可見對于本文的評分預(yù)測任務(wù)，Gradient Boosting Regression更加合適。

在使用單一模型Linear Regression，和Linear-SVR結(jié)合BOW模型生成的文本特征向量進(jìn)行評分預(yù)測時(shí)，效果最好，說明BOW模型生成的特征具有良好的線性特征，可以通過超平面進(jìn)行擬合，但是基于CBOW這種神經(jīng)網(wǎng)絡(luò)模型生成的詞向量，在線性空間內(nèi)的擬合效果就比較差。但是在使用集成模型之后，結(jié)合TAG-CBOW， TFIDF-CBOW， vTAG-CBOW以及vTFIDF-CBOW模型后進(jìn)行評分預(yù)測時(shí)，誤差率就要低于BOW[5-7]模型的誤差率了，并且36種評分預(yù)測模型中，誤差率最低的模型是vTAG-CBOW結(jié)合GradientBoosting Regression模型來進(jìn)行評分預(yù)測。模型預(yù)測的均方根誤差為0.6567，絕對平均誤差為0.6008。相對比現(xiàn)有的BOW模型結(jié)合Linear Regression的評分預(yù)測模型其均方根誤差降低了0.1727，比BOW模型結(jié)合GradientBoosting Regression模型的評分預(yù)測模型均方根誤差降低了0.107。

從評論特征提取的模型來看，vTAG-CBOW模型和vTFIDF-CBOW模型相比于TAG-CBOW模型和TFIDF-CBOW模型有更小的誤差率，尤其是vTFIDF-CBOW模型比TFIDF-CBOW模型的誤差率小很多。說明通過將評論的投票信息作為權(quán)重偏重，能夠有效的將評論的投票信息融合到特征向量中去，并提高評分預(yù)測的準(zhǔn)確率。

在整個(gè)評分預(yù)測任務(wù)中，傳統(tǒng)的文本特征提取的方法中BOW模型有很好地運(yùn)用于評分預(yù)測，不論是使用單一模型還是集成模型，都能取得較好的效果，但是AVG-CBOW模型得到的文本特征向量卻不能很好地用于本文的評分預(yù)測任務(wù)。本文提出的4種文本特征提取的方法，都取得了較好的結(jié)果。尤其是vTAG-CBOW模型和vTFIDF-CBOW模型生成的特征向量，在線性模型上進(jìn)行評分預(yù)測時(shí)，取得了和BOW模型相近的效果，并且在集成模型上進(jìn)行評分預(yù)測取得了比BOW模型更好的效果?？梢姳疚奶岢龅?中模型相比于現(xiàn)有文本特征模型更加適用于評論評分預(yù)測任務(wù)。

3 結(jié)論

本文主要介紹了6中機(jī)器學(xué)習(xí)的模型，其中包括4種單一模型和2種集成模型，并結(jié)合6種文本特征提取的方法，構(gòu)建了36種評論文本預(yù)測的模型，并且在yelp數(shù)據(jù)集上使用16萬條評論數(shù)據(jù)，對36種評分預(yù)測模型進(jìn)行了訓(xùn)練，并用4萬條評論數(shù)據(jù)作為測試數(shù)據(jù)，并以均方根誤差和絕對平均誤差最為標(biāo)準(zhǔn)對模型進(jìn)行了評估，并對模型的評估結(jié)果進(jìn)行了分析和總結(jié)。其中使用vTAG-CBOW模型和vTFIDF-CBOW模型提取出的文本特征向量作為輸入，對GradientBoosting Regression模型進(jìn)行訓(xùn)練得到的評分預(yù)測模型具有最優(yōu)的預(yù)測能力。通過實(shí)驗(yàn)可知，基于文本向量和機(jī)器學(xué)習(xí)的評分預(yù)測算法能夠較為準(zhǔn)確的根據(jù)評論文本預(yù)測評分。

參考文獻(xiàn)：

[1] Byers JW， Mitzenmacher M， Zervas G. The groupon effect on yelp ratings： a root cause analysis[J]， 2012：248-65.

[2] Büschken J， Allenby GM. Sentence-Based Text Analysis for Customer Reviews[J]. Marketing Science，2016，35（6）：953-75.

[3] Ganu G， Elhadad N， Marian A. Beyond the Stars： Improving Rating Predictions using Review Text Content[J]， 2009.

[4] Yu D， Mu Y， Jin Y. Rating prediction using review texts with underlying sentiments[J]. Inf Process Lett 2017（117）：10-18.

[5] Wang B-k， Huang Y， Li X. Combining Review Text Content and Reviewer-Item Rating Matrix to Predict Review Rating[J]. Comp Int and Neurosc 2016，2016：5968705：1-05：11.

[6] Xie X， Zhang Y， Wu J， et al. Bag-of-words feature representation for blind image quality assessment with local quantized pattern[J]. Neurocomputing，2017（266）：176-87.

[7] 姜霖王. 采用連續(xù)詞袋模型（CBOW）的領(lǐng)域術(shù)語自動抽取研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn)，2016，32（2）：9-15.

【通聯(lián)編輯：唐一東】

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于文本向量和機(jī)器學(xué)習(xí)的評分預(yù)測算法