蔡玉霞,孟佳娜
(大連民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連116605)
隨著淘寶、京東等購(gòu)物網(wǎng)站的迅猛發(fā)展,網(wǎng)購(gòu)人數(shù)也隨之快速增加,這讓消費(fèi)者越來越不知道如何選擇產(chǎn)品。在這樣的背景下,客觀的產(chǎn)品評(píng)論傾向性分析顯得尤為必要。本系統(tǒng)通過對(duì)產(chǎn)品評(píng)論進(jìn)行分詞、去停用詞、特征選擇、權(quán)重計(jì)算和LibSVM 分類,完成對(duì)評(píng)論文本的情感傾向性分類。除此之外,本文將以上研究?jī)?nèi)容通過Java Web 技術(shù)實(shí)現(xiàn)可視化,使用者可以直觀、快速的獲得特定類型產(chǎn)品的客戶評(píng)價(jià)情況。
目前比較典型的情感分類系統(tǒng)有上海交通大學(xué)針對(duì)汽車領(lǐng)域的用戶評(píng)論情感分類系統(tǒng)、哈爾濱工業(yè)大學(xué)的HIT_IR_OMS 系統(tǒng)以及日本富士通公司開發(fā)的情感分類系統(tǒng)。綜合來看,情感傾向性分類的主體方法分為有監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法。
在有監(jiān)督學(xué)習(xí)方法方面,Pang 等[1]利用有監(jiān)督學(xué)習(xí)的方法將電影評(píng)論分為正面和負(fù)面兩類。在無監(jiān)督學(xué)習(xí)方法方面;Turney[2]提出一種簡(jiǎn)單的無監(jiān)督學(xué)習(xí)方法把文本信息分為褒義和貶義,分類過程中采用PMI-IR 方法。近年來,研究人員已經(jīng)開始考慮情感分析中的話題語境和話題因素。
目前,國(guó)內(nèi)孫建旺等[3]提出一種能夠有效地對(duì)中文微博進(jìn)行情感分類的方法;張偉等[4]提出一種細(xì)粒度級(jí)別的情感分類方法對(duì)在線客戶評(píng)論進(jìn)行情感分類;劉全超等[5]優(yōu)化了多特征的微博話題情感傾向性判定算法。隨著人們對(duì)情感分類領(lǐng)域的不斷投入,情感傾向性分類的研究正不斷的向前推進(jìn)。
本文使用互聯(lián)網(wǎng)公開的評(píng)論文本作為語料集,對(duì)語料進(jìn)行了預(yù)處理,進(jìn)而計(jì)算特征項(xiàng)的權(quán)重,并將所得到的模型放在分類系統(tǒng)中進(jìn)行傾向性分析,最后將整個(gè)過程設(shè)計(jì)成一個(gè)能夠?qū)Ξa(chǎn)品評(píng)論進(jìn)行分類的系統(tǒng)。文本預(yù)處理階段主要包括中文自動(dòng)分詞、去停用詞、特征選擇和構(gòu)建詞典四個(gè)步驟。在特征項(xiàng)的權(quán)重計(jì)算階段使用布爾權(quán)值計(jì)算法,最后在分類系統(tǒng)中進(jìn)行情感分類的對(duì)比實(shí)驗(yàn)。
產(chǎn)品評(píng)論情感傾向性分類系統(tǒng)實(shí)現(xiàn)了對(duì)特定網(wǎng)購(gòu)產(chǎn)品評(píng)論的情感分類,在上述算法的基礎(chǔ)上,通過Java Web 技術(shù)實(shí)現(xiàn)該系統(tǒng)的可視化。本系統(tǒng)登錄階段分為管理員登錄和用戶登錄,不同登錄者擁有的權(quán)限和可進(jìn)行的操作如圖1:
圖1 系統(tǒng)設(shè)計(jì)功能模塊圖
產(chǎn)品評(píng)論情感傾向性分類,是指給定某個(gè)產(chǎn)品的評(píng)論,對(duì)該類評(píng)論分類成正面評(píng)論和負(fù)面評(píng)論。本文所設(shè)計(jì)的情感傾向性分類系統(tǒng)的具體步驟如下:
自動(dòng)分詞技術(shù)[6]目前主要有機(jī)械分詞法、基于理解的分詞方法以及基于統(tǒng)計(jì)的分詞方法等,本系統(tǒng)通過調(diào)用張華平教授NLPIR 漢語分詞系統(tǒng)[7]的源碼進(jìn)行環(huán)境配置,實(shí)現(xiàn)在產(chǎn)品評(píng)論分類系統(tǒng)的Web 界面調(diào)用分詞代碼,完成自動(dòng)分詞功能。
由于產(chǎn)品評(píng)論經(jīng)過分詞之后變成一個(gè)一個(gè)詞條的集合,這樣造成了文本的維數(shù)較大,因此在本實(shí)驗(yàn)中,采用哈工大擴(kuò)展后的停用詞表[8],特征集經(jīng)過去停用詞處理之后維數(shù)大大縮減。
整個(gè)過程本系統(tǒng)采用向量空間模型(VSM)[9],產(chǎn)品評(píng)論文本經(jīng)過分詞、去停用詞之后,仍需要特征選擇降低維數(shù),本系統(tǒng)分別使用卡方公式、信息增益進(jìn)行特征選擇實(shí)驗(yàn)。在進(jìn)行特征選擇之前需獲取訓(xùn)練集中的如下統(tǒng)計(jì)信息:
P(t):文檔中含特征t 的概率;
P(Ci):文檔屬于類別Ci的概率;
P(t,Ci):文檔含特征t 并又屬于類別Ci的聯(lián)合概率;
P(t|Ci):文檔含特征t 同時(shí)屬于類別Ci的概率;
特征選擇時(shí)的卡方公式的計(jì)算方法為:
通過Java 代碼運(yùn)用信息增益和卡方公式分別進(jìn)行特征選擇,進(jìn)而構(gòu)建含有不同特征維數(shù)的Hashmap 詞典,分別通過不同特征維數(shù)百分比進(jìn)行對(duì)比試驗(yàn),以獲得最佳產(chǎn)品評(píng)論情感傾向性分類結(jié)果。
系統(tǒng)權(quán)重的計(jì)算采用布爾權(quán)重計(jì)算法。根據(jù)特征項(xiàng)t 是否在文檔D 中出現(xiàn),出現(xiàn)賦值1,反之賦值0。支持向量機(jī)[10]的原理是將低維空間中的點(diǎn)一一映射到高維空間中去,使其成為線性可分的,再通過線性劃分原理判斷分類邊界。本系統(tǒng)使用70%的產(chǎn)品評(píng)論文本集進(jìn)行訓(xùn)練,30%的相應(yīng)評(píng)論作為測(cè)試集,通過LibSVM 分類器[11]建立模型,并對(duì)測(cè)試集數(shù)據(jù)進(jìn)行情感傾向性分類。
使用來自譚松波博士[12]分享的一個(gè)中文互聯(lián)網(wǎng)評(píng)論語料,該語料包括notebook、book 和hotel三種類型的產(chǎn)品評(píng)論文本,各類中正面評(píng)論2000個(gè)、負(fù)面評(píng)論2000 個(gè)。實(shí)驗(yàn)中將每類語料中的70%文檔為訓(xùn)練集,30 %文檔為測(cè)試集。
該實(shí)驗(yàn)分別采用卡方公式和信息增益對(duì)原本含有7 122 個(gè)特征詞的notebook 類、含有16 908個(gè)特征詞的book 類和含有13 718 個(gè)特征詞的hotel 類進(jìn)行特征選擇,通過布爾權(quán)重計(jì)算法計(jì)算權(quán)重,并在LibSVM 中進(jìn)行情感傾向性分類,三類產(chǎn)品評(píng)論分別經(jīng)過信息增益、卡方公式選擇一定百分比的特征在LibSVM 中進(jìn)行情感傾向性分類的效果如圖2、圖3。
由圖2 可知,三類產(chǎn)品評(píng)論均采用信息增益進(jìn)行特征選擇的情況下,notebook 類在特征總維數(shù)4 %時(shí)取得最佳分類效果,準(zhǔn)確率達(dá)81.07 %;book 類在特征總維數(shù)2 %情況下兩種特征選擇方法對(duì)情感分類效果均取得最優(yōu)效果,最終情感分類準(zhǔn)確率為86.5 %;hotel 類在特征總維數(shù)的5 %時(shí)取得最佳分類效果,準(zhǔn)確率達(dá)83.42 %。
由圖3 可知,三類產(chǎn)品評(píng)論均采用卡方公式進(jìn)行特征選擇的情況下,notebook 類在特征總維數(shù)2 %時(shí)取得最佳分類效果,準(zhǔn)確率達(dá)80.73 %;book 類在特征總維數(shù)的2 %情況下與信息增益同時(shí)取得最佳分類效果,卡方公式最佳的情感分類準(zhǔn)確率為86.75 %;hotel 類在特征總維數(shù)的4 %時(shí)取得最佳分類效果,準(zhǔn)確率達(dá)83.5 %。
圖2 信息增益特征選擇下三類產(chǎn)品評(píng)論情感傾向性分類準(zhǔn)確率
圖3 卡方公式特征選擇下三類產(chǎn)品評(píng)論情感傾向性分類準(zhǔn)確率
實(shí)驗(yàn)結(jié)果表明,信息增益和卡方公式可以在不損失情感分類效率的前提下顯著降低特征向量的維度并有效提高情感分類準(zhǔn)確率,由此可知在產(chǎn)品評(píng)論情感傾向性分類的實(shí)驗(yàn)過程中有必要考慮特征維數(shù)對(duì)情感分類結(jié)果的影響。
根據(jù)以上實(shí)驗(yàn)結(jié)果,三類產(chǎn)品評(píng)論分別采用兩種不同的特征選擇方法最終情感分類效果的對(duì)比如圖4 -圖6。圖4 表明,notebook 類特征維數(shù)百分比在10 %以上的情況下卡方公式具有明顯優(yōu)勢(shì);特征維數(shù)百分比在5 %以下時(shí)信息增益占優(yōu)勢(shì);圖5 顯示,book 類特征維數(shù)百分比在0.5 %以上時(shí)卡方公式準(zhǔn)確率高于信息增益,而在0.5 %以下時(shí)信息增益對(duì)分類效果影響更好,整體而言卡方公式對(duì)book 類產(chǎn)品評(píng)論的情感分類效果優(yōu)于信息增益;圖6 表明,hotel 類特征維數(shù)在5 %以上卡方公式和信息增益對(duì)情感分類效果的影響完全相同,而在4 %以下卡方公式具有明顯優(yōu)勢(shì),僅在2 %時(shí)信息增益的分類效果略微高出一點(diǎn)。
通過實(shí)驗(yàn)可知,兩種特征選擇方法各有利弊,信息增益方法的優(yōu)點(diǎn)是更全面的考慮了所有特征詞包括未出現(xiàn)詞對(duì)文本分類結(jié)果的影響,這樣可提高文本分類的效果,但統(tǒng)計(jì)量過大不利于推廣;卡方公式的優(yōu)點(diǎn)是得到的值是歸一化的值,但該方法只關(guān)心出現(xiàn)次數(shù)特別多的特征詞,很多情況下低頻詞對(duì)類別有很大的代表性,即卡方的“低頻詞缺陷”,因此開方經(jīng)常同其他因素綜合考慮。
綜合以上實(shí)驗(yàn)結(jié)果和兩種特征選擇方法的特點(diǎn)可知,在特征維數(shù)不同的情況下卡方公式和信息增益兩個(gè)特征選擇方法的分類效果各具優(yōu)勢(shì),此外特征選擇算法的效果也與文本分類的算法有關(guān),本實(shí)驗(yàn)中整體而言卡方統(tǒng)計(jì)法表現(xiàn)更好。
圖4 信息增益和卡方公式分別對(duì)notebook 類情感分類效果對(duì)比
圖5 信息增益和卡方公式分別對(duì)book 類情感分類效果對(duì)比
圖6 信息增益和卡方公式分別對(duì)hotel 類情感分類效果對(duì)比
在自然語言處理的領(lǐng)域中,情感傾向性分類已然成為持續(xù)升溫的研究熱點(diǎn),產(chǎn)品評(píng)論的情感傾向性分類隨著愈加火熱的網(wǎng)購(gòu)的發(fā)展變得更加炙手可熱。本系統(tǒng)在文本預(yù)處理、特征選擇、權(quán)重計(jì)算、分類算法的基礎(chǔ)上,設(shè)計(jì)出產(chǎn)品評(píng)論情感傾向性分類系統(tǒng),實(shí)現(xiàn)了對(duì)產(chǎn)品評(píng)論進(jìn)行情感分類的功能,方便網(wǎng)購(gòu)消費(fèi)者、廠家、商家更直觀、確切地把握該產(chǎn)品的客戶反饋結(jié)果。
[1]PANG B,LEE L,VAITHYANATHAN S. Thumbs up:sentiment classification using machine learning techniques[C]. In Proc. of the ACL-02 conference on Empirical methods in natural language processing - Volume 10,Stroudsburg,PA,USA:Association for Computational Linguistics,2002. 79 -86.
[2]TURNEY P.Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. In Proc. of the ACL’02.Philadelphia,USA:2002,417 -424.
[3]孫建旺,呂學(xué)強(qiáng),張雷瀚.基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析研究[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(7):177 -181.
[4]張偉,李培峰,朱巧明.基于樹核函數(shù)的英文句子情感分類研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(4):30 -32,39.
[5]劉全超,黃海燕,馮沖.基于多特征微博話題情感傾向性判定算法研究[J].中文信息學(xué)報(bào),2014,28(4):124-131.
[6]項(xiàng)煒,金彭.基于詞頻學(xué)習(xí)和動(dòng)態(tài)詞頻更新的藏文自動(dòng)分詞系統(tǒng)設(shè)計(jì)[J]. 計(jì)算機(jī)應(yīng)用與軟件,2014,31(5):106 -109.
[7]張華平. NLPIR 漢語分詞系統(tǒng)[EB/OL].[2013 -11-11]. http:∥ictclas.nlpir.org/.
[8]哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心. 哈工大停用詞表[EB /OL].[2013 -05 -30]. http:∥ir.hit.edu.cn/.
[9]郭鳳嬌,李長(zhǎng)玲,王曉笛,等. 基于向量空間模型的學(xué)科交叉文獻(xiàn)發(fā)現(xiàn)研究——以情報(bào)學(xué)和計(jì)算機(jī)學(xué)科為例[J].情報(bào)雜志,2014,33(3):172 -175.
[10]LEWIS D D. Naive (Bayes)at forty:The independence assumption in information retrieval[C]. In Proc.of the 10th European Conf. on Machine Learning(ECML),1998,4 -15.
[11]CHANG C C,LIN C J. LIBSVM :a library for support vector machines[J] ACM Transactions on Intelligent Systems and Technology,2007,2(3):389 -396.
[12]譚松波. 中文情感挖掘語料——ChnSentiCorp[EB/OL].[2012 -08 -10]. http://www.searchforum.org.cn/tansongbo/corpus.htm.