蘇兵杰 周亦鵬 梁勛鴿
摘 要:由于電子商務網(wǎng)站上商品評論數(shù)量激增,對商品評論信息進行數(shù)據(jù)挖掘和情感分析顯得尤為重要。文中立足于電子商務平臺上生鮮產(chǎn)品的評論文本,將情感識別問題抽象為分類問題,結(jié)合TF-IDF和卡方檢驗方法提取文本特征,利用XGBoost算法訓練分類器建立商品評論文本的情感識別模型,將海量的商品評論數(shù)據(jù)轉(zhuǎn)換為人們需要的信息。
關(guān)鍵詞:電子商務;用戶評論;XGBoost算法;情感識別
中圖分類號:TP39 文獻標識碼:A 文章編號:2095-1302(2018)01-00-04
0 引 言
互聯(lián)網(wǎng)和電子商務的發(fā)展,使網(wǎng)絡上的商品評論文本數(shù)量激增,這些商品評論對購買同種商品的買家具有指導作用。然而面對數(shù)量龐大的商品評論,買家若通過逐個查看的方式獲取信息必將耗費大量精力,效果也不好。同時電子商務平臺上的評論分類并不能準確表達已購買用戶真正的情感傾向。在eBay信譽機制研究中Resnick等曾指出,買家由于擔心差評會遭到賣家的報復會在評論時選擇給出好評[1],比如2012年轟動一時的“壽衣門”事件。因此,大量消費者在評論時會再三思慮,造成了許多負面評價隱藏在好評之下。面對這些問題,迫切需要對評論文本進行情感傾向識別。
文本情感分析實質(zhì)上是對帶有情感色彩的主觀性文本進行分析、歸納和處理的過程[2],吸引著不同領(lǐng)域研究者的廣泛關(guān)注,比如人工智能、自然語言處理以及數(shù)據(jù)挖掘等[3-6],涌現(xiàn)出大量相關(guān)的研究工作。目前在文本情感分析方面最常用的兩種方法是基于語義詞典和基于機器學習的分類算法 [7]。
基于語義詞典的情感計算方法利用通用情感詞典或編纂情感詞表來進行情感分析。文獻[8]提出合并通用情感詞典并利用word2vec工具擴充詞典構(gòu)建酒店領(lǐng)域情感詞典,可有效對酒店領(lǐng)域的評論進行情感分析。文獻[9]針對網(wǎng)絡在線中文評論的特點,將領(lǐng)域本體和情感詞典相結(jié)合進行商品評論傾向性分析。文獻[10]基于HowNet情感詞典和自建的形容詞配價詞典,在HNC語境框架下進行文本的情感傾向性判斷,并通過實驗驗證了該方法具有較高的識別率。
基于機器學習的分類算法是將情感分析作為分類問題來解決,通過機器學習的方法對大量標注文本進分類訓練,使用訓練的分類模型來預測待分類文本的類別。文獻[11]中分別用最大熵模型、樸素貝葉斯算法和支持向量機三種機器學習的方法進行情感分類研究。此后,研究者通過改變分類器策略、合并分類器、訓練集變形等方法來提高分類效果,文獻[12]中比較了樸素貝葉斯和支持向量機兩種分類算法的優(yōu)缺點,提出兩者的綜合體NBSVM模型。文獻[13]綜合了多個半監(jiān)督分類器的結(jié)果,發(fā)現(xiàn)綜合后的結(jié)果均高于原本單個分類器。
但是傳統(tǒng)的情感分析方法并不足以滿足高準確率的要求,文本情感分類的準確率仍然有待提高。XGBoost算法是在2014年實現(xiàn)的一種算法,在工業(yè)中有大量應用,但鮮有研究者將其應用在情感分析中,為此本文采用XGBoost算法對網(wǎng)絡上的商品評論文本進行情感分析,并將其與樸素貝葉斯和支持向量機分類器進行比較。
1 評論文本情感識別模型
本文提出的模型將商品評論文本情感識別抽象為一個分類問題,采用機器學習的方法對人工標注的文本數(shù)據(jù)及其特征進行學習,得出預測模型,從而在輸入評論文本數(shù)據(jù)后自動預測該文本數(shù)據(jù)的情感傾向。模型的流程如圖1所示。
由圖1可以看出,商品評論文本情感識別模型的完整流程主要包括以下3個階段:
(1)模型訓練階段
該階段主要是對數(shù)據(jù)集中的訓練集進行相關(guān)處理并提取特征,利用XGBoost算法訓練分類器獲得情感分類模型。
(2)模型測試階段
該階段主要根據(jù)相關(guān)評價指標,利用數(shù)據(jù)集中的測試集對模型訓練階段獲得的情感分類模型進行性能評測。
(3)情感識別階段
該階段主要利用通過性能評價的情感分類模型對待處理的文本進行情感分析,得到情感分析結(jié)果,完成整個情感分析的過程。
1.1 數(shù)據(jù)集建立
文中所使用的數(shù)據(jù)集是利用八爪魚采集器在京東商城生鮮區(qū)采集的火龍果評論文本,隨機選取其中11 098條數(shù)據(jù)作為本文的實驗數(shù)據(jù),數(shù)據(jù)中包含部分無效數(shù)據(jù),比如“聽說評價可以獲取京東豆” “展卉越南進口紅心火龍果2個裝,單果約500g”等,去除320條無效評價,選取余下的10 778條有效評論文本作為本實驗的數(shù)據(jù)集并進行人工標注。
實驗中的情感識別是指對評論文本的情感極性(正向、中性和負向)進行判斷,因此,在人工標注時將數(shù)據(jù)集標注為三個類別標簽“1”“2”“3”,分別代表“正向評價”“中性評價”“負向評價”,標注完成后的數(shù)據(jù)集類別分布見表1所列,其中數(shù)據(jù)集中包括4 191條正向評價,3 171條中性評價和3 416條負向評價。
1.2 文本預處理
文本預處理是對文本進行分詞、去除情感色彩不明顯或沒有實際意義的詞語,便于計算機快速、準確地處理文本。
1.2.1 中文分詞
文中的實驗數(shù)據(jù)是中文文本,中文文本在分詞方面比英文文本復雜,英文文本只需根據(jù)空格或者標點符號便可完成分詞任務,但是中文詞語之間沒有空格分隔,并且單個漢字所表達的信息量太少,無法準確表示出句子的含義。為此,中文分詞是數(shù)據(jù)預處理階段必不可少的一步,文中采用的結(jié)巴分詞目前在python語言中應用比較廣泛,可獲得較高的分詞準確率。
1.2.2 停用詞處理
本文使用的是哈工大停用詞表,包含助詞、虛詞、介詞、符號等停用詞767個。在停用詞表中的個別詞語,比如“一般”“可以”等,在商品評價中含有情感色彩,因此,需要去掉停頓詞表中的此類詞語,同時加入一些商品評論領(lǐng)域的停頓詞。經(jīng)過整理,最終得到包含790個詞語的停頓詞表。
1.3 文本表示
向量空間模型(VSM)是比較常用的文本表示方法,在這個模型中,將文本中出現(xiàn)的詞匯作為文本的特征。例如,文本包含詞語w1,w2,…,wm,則文本T可以表示為向量T=(v1,v2,…,vm),其中vi(i=1,2,…,m)是特征wi在T中的取值,根據(jù)vi的取值不同,向量空間模型可以分為三類:
(1)布爾型(Boolean),即vi取值為0或1,若T包含詞匯wi,則vi=1,反之vi=0。
(2)詞頻形式(Term frequency,TF),假設ni表示wi在文本T中出現(xiàn)的次數(shù),則vi是ni的函數(shù),通常TF可以簡單地取值為ni,也可以定義為如下形式:
(3)詞頻-逆向文本頻率形式(Term Frequency-Inverse Document Frequency,TF-IDF),實際上就是TF×IDF。詞頻(Term Frequency,TF)表示詞匯在文檔T中出現(xiàn)的頻率,逆向文件頻率(Inverse Document Frequency,IDF)的主要思想是:如果包含詞匯wi的文檔越少,即ni值越小,那么IDF的權(quán)值越大,說明詞匯wi具有很好的類別區(qū)分能力。
也可以將IDF簡單地定義為|D|?|Dwi|,其中D表示文本集,Dwi表示包含詞匯wi的文本集,|D|表示集合的元素個數(shù)。
在上述三種表示方法中,TF-IDF具有較好的類別區(qū)分能力,因此,本文在文本表示方面采用了TF-IDF方法。
1.4 文本特征選取
商品評論雖然內(nèi)容短小,但包含了大量詞匯,向量空間維度勢必相當龐大。同時類別不同的文本中也包含了大量相同詞匯,對文本分類起不到任何作用。因此,進行文本特征選取是至關(guān)重要的一步。
特征選取方法較多,比如信息增益、卡方檢驗、互信息和粗糙集等。文中使用的是卡方檢驗方法,通過檢驗特征與類別間的相關(guān)性,選取與類別相關(guān)性最大的特征集合,在這種多分類的情況下,計算特征項與每個類別的卡方檢驗值,選取其中的最大值作為特征值進行計算??ǚ綑z驗統(tǒng)計量的計算公式如下所示:
其中,公式中各個參數(shù)的含義如下:
N:訓練集文本總數(shù);
A:包含詞匯w,且屬于類別c的文本數(shù)量;
B: 包含詞匯w,但不屬于類別c的文本數(shù)量;
C:屬于類別c,但是不包含詞匯w的文本數(shù)量;
D:不屬于類別c,也不包含詞匯w的文本數(shù)量。
卡方檢驗的不足之處在于夸大了低頻詞的作用,因為A,B,C,D只標記了某詞在文本中是否出現(xiàn),但不標記該詞在文本中出現(xiàn)的頻率,所以它不能表征詞匯在文本中的重要性。而TF-IDF傾向于選擇有區(qū)分度的詞匯,可以明確表達出詞匯的重要程度,能夠彌補卡方檢驗的不足。因此,文中在特征提取方面,結(jié)合了卡方檢驗和TF-IDF兩種方法,由此選取一個174維的特征空間。對特征情感詞進行總結(jié)分析,可以分為正向、中性和負向三類,該特征空間的部分特征詞如表2所示。
1.5 XGBoost算法
Boosting分類器是一種優(yōu)秀的集成學習模型,其主要思想是將多個準確率較低的決策樹模型組合成一個準確率較高的模型。Gradient Boosting 是 Boosting 的改進版本,該算法可通過分步方式建立模型,在不斷更新迭代中選擇梯度下降的方向來保證最終預測結(jié)果最優(yōu)。在梯度提升算法中本文主要參考了文獻[14],其算法流程如下所示 :
(7)end for
實驗采用XGBoost工具包來訓練模型,XGBoost全名為Extreme Gradient Boosting,是由陳天奇在2014年實現(xiàn)的,該算法可自動并行運行CPU多個線程,運行速度快,分類效果較好。本文采用Python語言調(diào)用XGBoost工具包實現(xiàn)了模型。
1.6 模型評價
本文采用常用的準確率(precision)、召回率(recall)、F1值評價模型,同時在模型訓練過程中使用K折交叉運算,通過多次運算求取平均值作為各評價指標的最終值,以減少運行誤差。
(1)情感識別召回率
召回率R=算法正確判斷文本情感傾向數(shù)量/文本總數(shù)量
(2)情感識別準確率
準確率P=算法正確判斷文本情感傾向數(shù)量/所有被算法召回的文本總數(shù)量
(3)F1-指數(shù)
2 實驗及結(jié)果分析
實驗在模型訓練過程中使用7折交叉運算,將數(shù)據(jù)集中的三個類別分別劃分成7等份,每次運算在三個類別中按比例選取9 234個數(shù)據(jù)作為訓練集,1 539個數(shù)據(jù)作為測試集,通過XGBoost算法訓練情感識別模型,利用1 539個測試集對模型進行測試,輸出模型的準確率。
模型中需要不斷調(diào)整以下三個參數(shù):訓練的最大深度max_depth,訓練的步長(學習率)eta,循環(huán)的次數(shù)num_round。通過不斷測試,當訓練的最大深度max_depth為8,訓練的步長為eta為0.8,循環(huán)的次數(shù)num_round為100時,模型的性能達到最優(yōu)。
文獻[11]采用最大熵模型、樸素貝葉斯算法和支持向量機三種方法進行了情感分類研究,通過實驗證明了支持向量機分類效果最好,但樸素貝葉斯是最簡單、最常見的一種分類算法。為此,為檢驗XGBoost算法的優(yōu)勢,文中將其與樸素貝葉斯算法和支持向量機算法進行比較,輸出7次交叉運算的準確率、召回率、F1值以及每個指標的均值,用以評判算法的優(yōu)劣。三種算法對比結(jié)果如圖2所示。
由圖2可以很明顯地看出,在商品評論文本情感識別中,樸素貝葉斯算法的表現(xiàn)是最差的,其次是支持向量機算法,表現(xiàn)最好的是XGBoost算法,在7次交叉運算結(jié)果及最終的平均值、準確率、召回率和F1-指數(shù)方面,XGBoost算法都遠優(yōu)于樸素貝葉斯和支持向量機算法。由此可知,將XGBoost算法應用于商品評論文本情感識別是可行的,并能取得不錯的效果,其分類結(jié)果優(yōu)于傳統(tǒng)的分類算法。
3 結(jié) 語
本文使用XGBoost算法實現(xiàn)了電子商務平臺上商品評論文本的情感識別。實驗中,建立一個包含10 778條評論文本的數(shù)據(jù)集并進行了人工標注,結(jié)合TF-IDF和卡方檢驗進行文本特征選取,驗證了XGBoost算法的可行性和優(yōu)勢,通過與樸素貝葉斯算法和支持向量機算法進行對比。實驗結(jié)果表明,XGBoost算法在評論文本情感識別方面具有很大的優(yōu)勢,其識別情感傾向的準確率為94.82%,遠遠高于樸素貝葉斯算法的85.81%和支持向量機算法的89.90%,具有很好的應用前景。
參考文獻
[1] Resnick P,Zeckhauser R.Trust among strangers in Internet transactions: Empirical analysis of eBays reputation system [A].The Economics of the Internet and E-Commerce[C].New York:Elservier Science,2002.
[2] 黃發(fā)良,馮時,王大玲,等. 基于多特征融合的微博主題情感挖掘[J]. 計算機學報,2017,40(4):872-888.
[3] Tang H F,Tan S B,Cheng X Q. A survey on sentiment detection of reviews [J]. Expert Systems with Applications,2009, 36(7):10760-10773.
[4] Liu B. Sentiment analysis and opinion mining [J]. Synthesis Lectures on Human Language Technologies,2012, 5(1):1-167.
[5] Tsytsarau M, Palpanas T. Survey on mining subjective data on the web [J]. Data Mining and Knowledge Discovery,2012, 24(3):478-514.
[6] Li Y, Gao H, Yang M, et al. What are Chinese talking about in hot weibos? [J]. Physica A Statistical Mechanics & Its Applications,2013 (419):546-557.
[7] 劉志明,劉魯.基于機器學習的中文微博情感分類實證研究[J].計算機工程與應用,2012, 48(1):1-4.
[8] 陳柯宇,何中市. 基于情感詞典的酒店評論情感分類研究[J].現(xiàn)代計算機(上下旬),2017 (6):3-6.
[9] 董麗麗,趙繁榮,張翔. 基于領(lǐng)域本體、情感詞典的商品評論傾向性分析[J]. 計算機應用與軟件,2014,31(12):104-108,194.
[10] 張克亮,黃金柱,曹蓉,等.基于HNC語境框架和情感詞典的文本情感傾向分析[J].山東大學學報(理學版),2016,51(7):51-58,73.
[11] Pang B, Lee L, Vaithyanathan S. Thumbs up Sentiment classification using mechine learning techniques[C].EMNLP,2002(10):79-86.
[12] Wang S, Maiming C D. Baselines and bigrams:Simple, good sentiment and topic classification[C].ACL,2012(2):90-94.
[13] Li S, Huang L, Wang J, et al. Semi-Stacking for Semi-supervised Sentiment Classification[C].ACL,2015(2):27-31.
[14] 鄧永莉, 呂愿愿, 劉明亮, 等.基于中高層特征的音樂情感識別模型[J].計算機工程與設計,2017,38(4):1029-1034.