張志琳,宗成慶
(中國科學院 自動化研究所 模式識別國家重點實驗室,北京 100190)
?
基于多樣化特征的中文微博情感分類方法研究
張志琳,宗成慶
(中國科學院 自動化研究所 模式識別國家重點實驗室,北京 100190)
隨著Web 2.0時代的興起,微博作為一個新的信息分享平臺已經(jīng)成為人們生活中一個重要的信息來源和傳播渠道。近年來針對微博的情感分類問題研究也越來越多地引起人們的關(guān)注。該文深入分析了傳統(tǒng)的情感文本分類和微博情感分類在特征表示和特征篩選上存在的差異,針對目前微博情感分類在特征選擇和使用上存在的缺陷,提出了三種簡單但十分有效的特征選取和加入方法,包括詞匯化主題特征、情感詞內(nèi)容特征和概率化的情感詞傾向性特征。實驗結(jié)果表明,通過使用該文提出的特征選擇和特征加入方法,微博情感分類準確率由傳統(tǒng)方法的73.17%提高到了84.17%,顯著改善了微博情感分析的性能。
中文微博;情感分類;機器學習; 特征選擇
微博是微博客(Micro Blog)的簡稱,是一種基于用戶關(guān)系的信息分享、傳播和獲取的平臺,用戶可以通過WEB、WAP以及各種客戶端組建個人社區(qū),以140字左右的短文本更新信息,并實現(xiàn)及時分享*http://baike.baidu.com/view/1567099.htm。目前微博已經(jīng)從各個方面滲透到了人們的日常生活和工作當中。以國內(nèi)新浪微博為例,截止到2012年12月31日,用戶數(shù)目已經(jīng)超過了5億人。
微博的快速發(fā)展引發(fā)了研究人員對于微博處理的興趣。其中針對微博的情感分析研究是目前微博研究中最熱,關(guān)注度最高的研究領(lǐng)域之一。情感分類是情感分析研究中的基本任務,該任務旨在對文本按照情感極性進行褒貶分類。與普通文本相比,微博由于其本身所具有的特點,如句子短,用詞口語化,網(wǎng)絡詞匯較多等,使得對微博進行情感分類研究更具挑戰(zhàn)性。
目前,微博情感分類的方法主要有基于規(guī)則的方法[1-3]和機器學習方法[4-6]兩類。規(guī)則方法中主要采用了表情符號和情感詞作為規(guī)則的統(tǒng)計特征。機器學習方法都是將情感分類作為一個普通的分類問題來對待。微博情感分類的機器學習方法開始主要沿用了文本分類的方法,一般采用一元語言模型和二元語言模型等特征。之后,結(jié)合微博本身的特點,開始陸續(xù)提出了一些新的解決方法,例如,利用Twitter的標簽(hashtag)和笑臉符號(smileys)等進行情感分類。目前,基于機器學習方法的情感分類基本流程都是對預處理后的微博數(shù)據(jù)進行特征的獲取和加工。這些特征主要包括: 主題詞、鏈接、標點符號是否存在,正負極性表情符號的個數(shù)和正負極性情感詞的個數(shù)等作為特征進行分類器的訓練,取得了一定的成效。傳統(tǒng)的方法要么只側(cè)重于直接從訓練語料中提取特征,要么只依賴于情感詞典,而大量的工作表明,情感詞典和從訓練語料中抽取的特征對情感分類都非常重要??紤]到兩者在某種程度上互為補充、互相關(guān)聯(lián),我們相信,如果能夠很好地將兩者結(jié)合起來,發(fā)揮各自所長,必將對情感分類有很大的幫助。
正是基于這種動機,我們研究了情感詞典與從訓練語料中抽取的知識的結(jié)合方式。其基本思路是: 1)對于有關(guān)主題的特征,我們不僅考慮主題是否出現(xiàn),而且考慮主題詞的特定內(nèi)容;2)對于情感詞,不僅分析情感詞加入的方法,而且研究情感詞加入的數(shù)量對于整體分類效果的影響;3)考慮到通用的情感詞典首先不能及時覆蓋和添加日新月異的網(wǎng)絡用語,同時針對微博數(shù)據(jù)也沒有權(quán)重區(qū)分,我們提取了微博用語來豐富拓寬通用情感詞典,并使用微博數(shù)據(jù)對該詞典進行傾向性概率打分,將概率打分作為特征取代原始的布爾特征,從而更加真實地反映微博情感傾向。
針對上述分析,本文經(jīng)過詞匯化主題特征的選取、情感詞特征的加入和概率化情感詞傾向性特征的加入,逐漸豐富特征,既結(jié)合了外部詞典資源,又充分利用了微博數(shù)據(jù)本身,使得中文微博情感分析的準確率從73.17%上升到了84.17%。
本文其余部分的結(jié)構(gòu)組織如下: 第二節(jié)介紹相關(guān)的工作;第三節(jié)闡述了本文特征設(shè)計的主要內(nèi)容;第四節(jié)給出了實驗結(jié)果以及分析;第五節(jié)主要闡述本文的結(jié)論,并展望下一步的工作。
這一部分我們分別按照傳統(tǒng)情感分類和微博情感分類的相關(guān)工作進行陳述。
傳統(tǒng)情感文本分類研究主要有兩類: 一類是基于詞典的方法,另一類是基于統(tǒng)計機器學習的方法?;谠~典的方法代表工作有Lu[7]和Turney[8]等。Lu[7]等使用通用情感詞典,比如WordNet中的同義詞、反義詞信息以及一些語法規(guī)則,來判斷微博的情感極性。它的缺陷在于過于依賴外部詞典。Turney[8]利用PMI-IR方法計算出現(xiàn)在文本中符合規(guī)則的短語的情感傾向,通過這些情感傾向的平均值來判斷文本極性?;谠~典的方法過于依賴相關(guān)的知識庫(詞典、規(guī)則庫等)支撐,這些知識庫一般是由語言專家總結(jié)出來的,但是,這些規(guī)則難以描述不確定性事件,且規(guī)則與規(guī)則之間的相容性難以得到有效的控制。
基于統(tǒng)計機器學習的方法,代表工作有Pang[9]和Mullen[10]等。Pang[9]將統(tǒng)計機器學習方法引入到電影評論的褒貶分類任務中。文章中使用了包括一元詞、二元詞、詞性標注等若干特征,選用了樸素貝葉斯、最大熵、支持向量機訓練模型。實驗結(jié)果表明,支持向量機的效果最理想,且選用一元詞特征,特征值采用布爾值時取得了最好的準確率。Pang的分析是在英文語料中進行的,對于中文是否仍然有效還有待考證。除此之外,Pang的特征是對訓練語料進行統(tǒng)計得到的,沒有使用外部詞典,對于訓練語料的依賴性太強,所以泛化能力相對較差。Mullen[10]等使用SVM分類器,將不同來源的各個特征信息進行綜合,提升了分類效果。
對于微博情感分析,英文的微博情感分析相對中文微博情感分析來說效果較好。Go等[11]首次提出對微博文本進行情感分析的思想。文章中將表情符號加入到了選取的特征中,取得了很好的效果。Pak和Paroubek等[12]利用表情符號組織標注了一個Twitter微博文本情感極性數(shù)據(jù)集,并且使用N元詞匯(N-grams)作為特征進行分類,沒有使用任何情感詞典,與Pang[3]的工作類似,過于依賴訓練語料,泛化能力較差。除此之外,Davidov等[13]使用了Tweets 中的標簽(hashtag)和笑臉符號(smileys)作為特征,訓練出了一個有監(jiān)督的類似K近鄰(KNN)的分類器,用于對Tweets進行情感分類。針對中文微博的研究仍處于起步階段,已采用的方法包括基于表情符號的規(guī)則方法、基于情感詞典的規(guī)則方法以及機器學習的方法[4, 14]。在這些方法中,對于微博情感分類的特征選取比較單一[6],主要還是借助于外部資源對微博表情符號、情感詞的統(tǒng)計信息上,或者是直接沿用傳統(tǒng)的情感分析的方法,采用N-grams作為特征,忽略了情感詞典的作用,缺乏對于兩者結(jié)合的探討和研究。比較有代表性的文章是,謝麗星的基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征提取[14],文章中采用了基于層次結(jié)構(gòu)的多策略分析框架,并且引入了一些新的特征,實驗證明了基于SVM的一步三分類來解決情感分類取得了比較好的結(jié)果。
像處理其他分類問題一樣,情感分類的兩項關(guān)鍵任務是設(shè)計有效的分類器和選取有效的特征。對于分類器設(shè)計而言,很多分類器模型已較為成熟,那么,特征的選擇與使用方式無疑成了被重點關(guān)注的焦點問題。為此,本文也是將重點放在特征的獲取、選擇和組合方法研究上。分類器使用基于支持向量機(SVM)的分類模型。
首先我們給出目前研究工作中常用的效果不錯的特征作為我們不同特征組合實驗對比的基本特征。通過對已有工作的總結(jié),我們引入以下六大類特征,細化為14個小類特征作為基本特征,記作BaseSet(表1)。
表1 基本特征(BaseSet)
①http://www.openpr.org.cn/
由表1所示,我們可以更加清晰地了解到,在已有的工作中,主要是將主題、鏈接以及標點符號是否出現(xiàn)作為特征,缺乏對主題特征的進一步挖掘。另外,對于情感詞典,也僅僅利用正負向情感詞的個數(shù)作為特征,而沒有涉及情感詞本身的內(nèi)容,且缺少不同情感詞對于分類影響程度不同的區(qū)分性,這無疑會大大影響情感分類的性能。
所以,我們有必要從微博的特點出發(fā),逐步引入詞匯化主題特征、情感詞特征以及概率化情感詞傾向性特征作為基礎(chǔ)特征的擴展,以提高分類精度。
3.1 詞匯化主題特征
通過對微博數(shù)據(jù)的觀察,我們發(fā)現(xiàn)很多的微博都含有主題詞,例如,“#天主教#那些假借信仰而誤導世人者必下地獄……”,其中由“#”包圍的“天主教”就是主題詞。對于某一主題下的微博,情感極性往往會有一定的傾向性。例如,在談到“富二代”和“官二代”的主題中,負向情感極性就比較多。但是,在談及一個產(chǎn)品的時候,正負極性的比例會和產(chǎn)品本身有很大的關(guān)系。因此,微博的主題詞內(nèi)容能夠給情感分類帶來一定的先驗知識。
基于以上分析,我們在已有的方法僅考慮一條微博是否有主題的基礎(chǔ)上,更進一步探討了主題內(nèi)容對于情感分類的影響。我們將Hashtag的內(nèi)容作為特征加入到了分類中。例如,“獎狀植入廣告#滿天飛的廣告,就不能留點凈土!”中,我們將“獎狀植入廣告”作為一個詞匯化主題特征直接加入到分類中。特征權(quán)重,采用0/1二值化權(quán)重,出現(xiàn)為1,不出現(xiàn)為0。
由于某些微博的主題詞出現(xiàn)的概率非常小,對分類提供的幫助不大,所以,我們只選取那些出現(xiàn)頻次大于某一閾值的主題詞作為特征,特征描述見表2。
表2 分類特征-主題詞內(nèi)容特征
3.2 情感詞特征
如表1所示,在BaseSet中對于情感詞特征只是簡單統(tǒng)計了正向情感詞數(shù)和負向情感詞數(shù)。這樣處理只用到了情感詞語極性對于句子分類的部分信息,而沒有考慮到情感詞語本身對于微博情感的貢獻。有很多的情感詞,可以直接表征句子的情感極性,例如,在訓練數(shù)據(jù)中,凡是出現(xiàn)“坑爹”這個負向情感詞的句子均為負極性?;仡櫱叭说墓ぷ鳎瑢τ凇翱拥边@個詞只是作為負極性詞,僅僅增加了負向情感詞的個數(shù),這樣勢必導致它的作用很容易被其他情感詞的正負極特征所湮沒,因此,我們將情感詞本身作為一元詞匯(unigram)特征,加強了情感詞本身在分類器中的作用。
其次,如果將情感詞典中的情感詞全部作為情感詞特征的話,會造成特征空間膨脹并加重數(shù)據(jù)稀疏,分類結(jié)果會很差。所以,引入多少情感詞也是一個值得我們思考和研究的問題。
為了找到合適的情感詞特征空間,我們采用了兩種方法對情感詞進行篩選。
方法1 直接按照情感詞典中的詞語在訓練集合中出現(xiàn)的頻次進行排序,選取其中的前N個進行了測驗。特征的描述如表3所示。
對于情感詞的特征權(quán)重我們采用的仍然是二值化方法,出現(xiàn)為1,不出現(xiàn)則為0。
方法2 在第1種方法中,情感詞的頻次并不能夠嚴格地說明情感詞的重要程度。所以, 為了解決這個問題,我們采用了CHI[15-16]的打分方法,而不是簡單地通過頻次進行排序。
表3 分類特征-情感詞特征1
χ2統(tǒng)計量(CHI)是特征項ti和類別Cj之間的相關(guān)聯(lián)程度,并假設(shè)ti和Cj之間符合具有一階自由度的χ2分布。特征對于某類的χ2統(tǒng)計值越高,它與該類之間的相關(guān)性就越大,攜帶的類別信息就越多。公式(1)給出了χ2的計算方法。
(1)
其中,N表示訓練語料中文檔的總數(shù);A表示屬于Cj類且包含ti的文檔的頻數(shù);B表示不屬于Cj類但包含ti的文檔的頻數(shù);C表示屬于Cj類但不包含ti的文檔的頻數(shù);D是既不屬于Cj類也不包含ti的文檔的頻數(shù)。
對于多類問題,基于χ2統(tǒng)計量的特征提取方法采用下面的方法提取,分別計算ti對于每個類別的CHI值,然后,在整個訓練語料上計算。如式(2)所示。
(2)
其中,M表示的是類別的總數(shù)。
通過打分以后,我們?nèi)匀粚τ谠~語作為特征的數(shù)量進行了分析。特征描述見表4。
表4 分類特征-情感詞特征2
3.3 概率化的情感詞傾向性特征
在前面的特征中,對于情感詞我們通過查閱情感詞典進行了頻次計數(shù)。但是,這樣的做法忽略了情感詞本身的傾向性概率問題。對于不同的情感詞來說,所帶有的情感傾向性概率是不一樣的。例如,在微博中表達負面情緒時,“坑爹”要比“猥瑣”的傾向性要深的多。因此,我們認為有必要引入概率化的情感詞傾向性特征。
現(xiàn)在已開始有研究人員關(guān)注到帶情感傾向性概率的情感詞典的重要性,并根據(jù)自己的理解和定義對傳統(tǒng)的情感詞典添加情感傾向性信息。但是,他們往往直接將這些情感詞典搬來使用,這樣就會有很大的問題。第一,面對新的微博領(lǐng)域,微博構(gòu)詞靈活,新詞出現(xiàn)的頻率較高,情感詞典本身不能覆蓋微博中的情感詞。第二,微博情感詞的傾向性分布與情感詞典的分布未必一致,如果強制把情感詞典的傾向性強加于微博分類未必起到很好的作用。
為了克服上面的問題,我們做了如下的處理: 對于情感詞典,盡可能地從各個領(lǐng)域收集情感詞,也從微博中加入微博常用語,擴大覆蓋范圍。之后,為了適應微博情感詞用語環(huán)境,我們在標注數(shù)據(jù)中對微博情感詞典的傾向性概率進行打分。打分的準則如式(3)所示。
(3)
其中,i∈{pos,neg},pos和neg分別表示正面和負面兩個極性。
Countsi(wordi)表示某一極性的詞語在已標注情感極性的樣本中對應的極性出現(xiàn)的次數(shù)。具體情況是,如果wordi是一個正極性的情感詞,我們在正極性的樣本中統(tǒng)計其出現(xiàn)的次數(shù);如果是負極性情感詞,則在負極性的樣本中進行統(tǒng)計。
Sum(wordi)表示該詞語在整個語料中出現(xiàn)的次數(shù)。
利用上述方法,我們構(gòu)建了一個適應微博分類的帶有傾向性概率的情感詞典。利用這個情感詞典,我們對原來的簡單采用頻次疊加的方法替換為進行概率疊加的方法,從而反應整條句子的情感程度。特征的描述如表5所示。
表5 分類特征-情感詞典特征
4.1 實驗設(shè)置
實驗使用的語料來自兩個方面,一個是第一屆自然語言處理與中文計算會議(NLP&CC)評測中的微博語料*http://tcci.ccf.org.cn/conference/2012/pages/page04_evares.html。另一部分使用由新浪API抓取的電影、名人和熱點事件的微博。我們一共標注了客觀句以及正、負極性的微博各1 200句。最后,從這三個類別中各隨機抽取1 000句作為訓練集,200句作為測試集,進行實驗。
情感詞典一部分來自HowNet[17]的情感詞詞典,一部分來自NTUSD情感詞集合,另一部分來源于我們自己人工標注的網(wǎng)絡常用語。最后,情感詞典包含正向情感詞10 350個,負向情感詞14 980個。
除此之外,我們還從新浪API獲取了官方的表情符號,并且選取了常用的64個表情符號,其中,包括34個正向表情符和30個負向表情符號,組成正負極性表情符號詞典。
在對微博處理的過程中,我們還用到了否定詞列表,否定詞列表包括15個詞,包括: “不”,“不是”,“不然”,“不行”,“不要”,“沒”,“沒有”,“無”,“否”,“非”,“不夠”,“不可”,“未”,“絕非”,“并非”。處理否定詞的算法比較簡單,對于每一個情感詞,我們對其開了一個長度為4的前驅(qū)窗口,判斷該情感詞語的前面4個詞內(nèi),出現(xiàn)的否定詞的個數(shù),如果出現(xiàn)的是偶數(shù)次,則情感詞的極性不改變,如果是奇數(shù),則翻轉(zhuǎn)情感詞的極性。另外,為了避免微博分類中停用詞帶來的影響,我們收集了一個停用詞表,包含50個停用詞和無用符號。例如,“的”,“了”,“在”,“有”,“和”,“就”等。
整個實驗采用的分類器是libsvm[18]*http://www.csie.ntu.edu.tw/~cjlin/libsvm/,該分類器的設(shè)置都使用默認參數(shù)設(shè)置。
4.2 數(shù)據(jù)預處理
在執(zhí)行分類之前我們對數(shù)據(jù)進行了預處理。預處理的主要工作包括以下幾個方面。
1) 數(shù)據(jù)中所有的半角符號和全角符號的統(tǒng)一化;
2) 所有主題詞用“Hashtag”標簽進行替換;
3) 所有@信息用“AT”標簽進行替換;
4) 所有鏈接用“URL”標簽進行替換;
5) 所有數(shù)字用 “NUM”進行替換。
經(jīng)過上述處理之后,對于微博內(nèi)容進行分詞處理,我們使用Urheen[19]進行分詞和詞性標注*http://www.openpr.org.cn/。為了減少分詞錯誤,我們?nèi)斯ずY選了152個微博常用語組成了一個微博詞典以輔助分詞。
4.3 實驗結(jié)果
根據(jù)上述分析,我們對本文提出的新的特征加入和使用方法進行了一系列的實驗驗證。
在實驗結(jié)果中,我們對三個類別的每個類別計算了其準確率、召回率和F1值得分,并計算整體的正確率。
4.3.1 基礎(chǔ)特征分類性能
使用BaseSet作為特征集合的實驗結(jié)果見表6。
表6 基準系統(tǒng)的分類效果
從該組實驗結(jié)果,我們可以看出,對于客觀句(中性句)的識別準確率很高,達到了94.85%,但是召回率卻偏低。這個現(xiàn)象產(chǎn)生的原因可能是由于我們的情感詞典規(guī)模較大,覆蓋面較廣,而客觀句中也出現(xiàn)了這些情感詞。但是,BaseSet中對于情感詞典只是簡單地對頻次進行疊加,使得出現(xiàn)在客觀句中的情感詞與出現(xiàn)在主觀句中的情感詞統(tǒng)一對待,將客觀句誤判為主觀句。同時,由于被判為客觀句的句子,含有極少的情感詞,所以,基本上全部屬于客觀句,因此,準確率非常高。同時對負極性句子判斷的準確率偏低。這個現(xiàn)象在很多的微博情感分類中經(jīng)常見到。因為在微博中人們習慣于采用“否定+褒義詞”的說法,去表達貶義的概念,但是,卻很少用“否定+貶義”的說法來表達褒義的概念。例如,“這樣的做法不是很好,以后有待改善!”,在這句話中,作者就使用了“否定+褒義”的做法來表達貶義的概念。而微博貶義的識別也是一個難點,在文章中我們只是簡單地使用前驅(qū)窗口(大小為4)來識別貶義,這樣就造成了很多貶義句的識別錯誤。而誤把非貶義的表達按照模板強行規(guī)約到貶義中,例如,“這有什么不好的”,句子本意是正極性的句子,但是,我們卻由于找到“好”,以及否定詞“不”而誤判成了負極性。中文中否定形式非常多樣化 ,這可能是造成否定類別準確率較低的原因。
4.3.2 加入詞匯化主題特征分類性能
在“BaseSet+特征15詞匯化主題特征”的實驗中,我們選取了出現(xiàn)頻次大于4的主題作為特征加入進來,結(jié)果如表7所示。
表7 主題詞加入的結(jié)果
從表7的結(jié)果中可以看出,加入詞匯化主題特征以后,引入了對于同一類主題的先驗概率,三個類別的F值都有了明顯的提升,總體的準確率也有了顯著的提高,提高了五個百分點。分析其原因,是因為加入了詞匯化主題特征之后,對于特定主題引入了先驗概率,將之前這一主題下誤判的句子進行了糾正。
整體來看,實驗結(jié)果說明詞匯化主題特征在微博分類中有著非常重要的作用。
4.3.3 加入情感詞特征分類性能
? 根據(jù)情感詞頻次選詞
為了比較情感詞特征的作用,我們對3.2節(jié)中提到的方法進行對比。方法1通過頻次選取情感詞的方法,我們分別選取了25、50、75、100、150、200個情感詞作為特征加入到基本的特征集合中進行實驗比較,使用的特征集合為BaseSet+特征15+特征16。實驗結(jié)果如表8所示。
表8 方法1情感詞選擇結(jié)果比較
續(xù)表
從上面可以看出加入情感詞本身作為特征,比直接疊加而忽略詞語本身作用的特征更有效?;旧纤蓄悇e的準確率和召回率都有所提升。這一結(jié)果驗證了我們之前曾經(jīng)說過的,很多情感詞能夠直接說明句子的極性,如“坑爹”,“傷不起”等詞,這些情感詞作為特征的有效性非常明顯。
在實驗中,加入150個詞語作為特征的性能最好,準確率達到了80.33%,在基線系統(tǒng)上提高了2.16個百分點。但是從表8中,我們也注意到,準確率的提高并非與加入的詞的數(shù)量成正比。以下我們對加入詞語之后,各個類別的準確率變化情況做簡要分析。如圖1所示。
圖1 方法1情感詞趨勢分析
從圖1可以看出,除了正極性類別之外,其他的準確率出現(xiàn)先上升后下降的波動。在剛開始增加情感詞時,分類器從中學習到了知識,準確率提升比較明顯。當達到一定程度之后,繼續(xù)增加情感詞的話,會使得空間維度變大,數(shù)據(jù)稀疏,從而造成了準確率下降。
結(jié)果表明,加入情感詞對于分類效果的提升有很大幫助,但是,盲目地加入情感詞特征,反而會使效果下降。所以,情感詞特征并不是越多越好。而是需要尋找一個比較合適的值。
從結(jié)果中我們可以看出,情感詞特征的最大值大概在150到200之間。
? 根據(jù)CHI方法選情感詞
我們按照3.4中的方法2,利用CHI進行詞語的選取。同樣也選取了25、50、75、100、150、200個詞語作為特征進行分類比較。結(jié)果如表9所示。
表9 方法2情感詞選擇結(jié)果比較
從上面可以看出利用方法2加入的詞語在相同數(shù)量上,都要比之方法1加入的情感詞特征有效。CHI更加合理地區(qū)分了情感詞對于分類的重要性。對于負極性類別,在加入情感詞時變化比較明顯。究其原因,可能是使用頻次選取情感詞的方法只是簡單地計算該情感詞整體的頻次,而忽略了情感詞對于不同類別的貢獻度。CHI方法能夠比較合理地估計詞語對于不同類別的貢獻度。這樣能夠區(qū)分出經(jīng)常出現(xiàn)在負極性類別中的“否定+褒義”的表達方式中的情感詞,在一定程度上增加了對于這種表達方式的識別度。從整體來看,方法2提高了五個百分點,在方法1的基礎(chǔ)上又提高了三個百分點。這說明采用不同的方法來對情感詞進行情感程度的區(qū)分是很重要的。
以下我們對加入詞語之后各個類別的準確率變化情況以及與方法1的比較進行分析(圖2)。
圖2 方法2情感詞變化趨勢
從圖2可以看出,與方法1的變化趨勢基本相同,所有類別在加入特征之后準確率都有很大的提升,但仍然有不同之處。首先,達到最高值之后兩種方法都開始趨于平穩(wěn),而方法1之后下降比較慢,方法2卻下降較快。從方法2的走向趨勢我們可以看出,情感詞特征的最大值大概在100到150之間。達到最大值的速度最多只需要100個詞。所以,方法2比方法1在達到最好效果的速度上有優(yōu)勢,而且只需要較少的詞就可以達到比方法1更好的結(jié)果。但是,相對而言在維數(shù)增加時下降的趨勢也比較明顯。在方法2中后續(xù)加入的情感詞對于分類的作用并不明顯,反而由于特征維數(shù)的增加帶來了過多的噪聲,使得方法2的下降趨勢更加明顯。
為了驗證方法2在情感詞維數(shù)增加時準確率的變化趨勢,我們做了進一步實驗。
圖3 方法2情感詞數(shù)量變化形勢圖
從圖3可以看出,在利用CHI增加特征維數(shù)的過程中,準確率開始提升,達到一個峰值后準確率在波動中逐步下降。這一結(jié)果再次驗證了并不是維數(shù)越高越好的結(jié)論。
4.3.4 加入概率化情感詞傾向性特征的分類性能
本實驗以情感詞特征中方法2達到最好結(jié)果的特征為基礎(chǔ),分析加上詞典打分之后的情況,結(jié)果如表10所示。
表10 詞典打分后的結(jié)果
可以從結(jié)果中看出,加入詞典打分之后正極性和客觀的分類效果有了明顯的提高??傮w的準確率也上升了0.84個百分點。分析詞典的打分對于客觀分類有提升的原因,可能是由于之前我們簡單地對情感詞進行累加頻次,沒有考慮各個情感詞的傾向性概率對于整體句子情感分值的影響。使得本來非主觀性的句子被誤分為主觀句。加入傾向性概率以后,有效地表達了句子中整體的情感極性。
總體來看,加入情感詞的傾向性概率之后整體分類效果有了比較明顯的提高,這驗證了概率化情感詞傾向性特征的有效性。
4.3.5 整體對比分類性能
最后我們將每一類特征中最好的結(jié)果放到一起進行比較,實驗結(jié)果如圖4所示。
從圖4中可以直觀地看出,在特征加入的過程中整體準確率在穩(wěn)步上升。
圖 4 整體對比分類性能圖
為了進一步驗證我們方法的有效性,我們將本文提出的多樣化特征分類方法與謝立星提出的一步三分類的方法進行比較,實驗結(jié)果如表11所示。
表 11 兩種方法的對比
通過對比可以看出,我們的方法比之謝麗星的方法提高了4.64個百分點,由此,更進一步說明了我們方法的有效性。
本文在充分研究微博情感分類的基礎(chǔ)上,結(jié)合傳統(tǒng)方法,主要做出了以下貢獻: 1)對于有關(guān)主題特征,不僅考慮主題是否出現(xiàn),而且考慮了主題詞的特定內(nèi)容;2)對于情感詞,不僅深入地分析和探討了情感詞的加入方法,而且詳細研究了情感詞加入的數(shù)量對于整體分類的效果影響;3)考慮到通用的情感詞典首先不能及時覆蓋和添加日新月異的網(wǎng)絡用語,同時針對微博數(shù)據(jù)也沒有權(quán)重區(qū)分,我們提取了微博用語來豐富和拓寬通用情感詞典,并使用微博數(shù)據(jù)對該詞典傾向性概率進行打分,將概率打分作為特征取代原始的布爾特征,從而更加真實地反應微博情感傾向。實驗表明,這種方法使得微博情感分類準確率達到了84.17%。
在下一步工作中,我們將研究對表述方式基本相似的主題進行聚類的方法,以減少領(lǐng)域不同帶來的問題,并緩解數(shù)據(jù)稀疏問題。同時,探究情感詞加入數(shù)目的規(guī)律,進一步提升待分類問題的分類效果。另外,針對中文否定形式的表達多樣性,我們將提出中文微博否定形式的解決辦法。
[1] A Das, S Bandyopadhyay. Dr Sentiment knows everything![C]//Proceedings of the ACL-HLT, 2011: 50-55.
[2] A Joshi, A Balamurali, P Bhattacharyya, et al. C-feel-it: A sentiment analyzer for micro-blogs[C]//Proceedings of the ACL-HLT, 2011 :127-132.
[3] P Chesley, B Vincent, L Xu, et al. Using verbs and adjectives to automatically classify blog sentiment[J] .Training, 2006, 580(263).
[4] 劉魯,劉志明. 基于機器學習的中文微博情感分類實證研究[J]. 計算機工程與應用, 2012,48(1):1-4.
[5] L Jiang, M Yu, M Zhou, et al. Target -dependent twitter sentiment classification[C]//Proceedings of ACL-HLT, 2011:151-160.
[6] S Prasad. Micro-blogging Sentiment Analysis Using Bayesian Classification Methods[N]. Technical Report, Stanford University, 2010, Available at http://www-nlp.stanford.edu/courses/
[7] Y Lu, M Castellanos, U Dayal, et al. Automatic construction of a context-aware sentiment lexicon: an optimization approach[C]//Proceedings of the 20th international conference on World wide web, 2011:347-356.
[8] P D Turney. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002 :417-424.
[9] B Pang, L Lee, S Vaithyanathan. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of EMNLP, 2002:79-86.
[10] T Mullen, N Collier. Sentiment Analysis using Support Vector Machines with Diverse Information Sources[C]//Proceedings of EMNLP, 2004: 412-418.
[11] A Go, R Bhayani, L Huang. Twitter sentiment classification using distant supervision[J]. CS224N Project Report, Stanford University, 2009: 1-12.
[12] A Pak, P Paroubek. Twitter as a corpus for sentiment analysis and opinion mining[C]//Proceedings of LREC, 2010:1320-1326.
[13] D Davidov, O Tsur, A Rappoport. Enhanced sentiment learning using twitter hashtags and smileys[C]//Proceedings of the 23rd International Conference on Computational Linguistics,2010:241-249.
[14] 謝麗星, 周明,孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學報, 2012, 26(1):73-82.
[15] 宗成慶. 統(tǒng)計自然語言處理[M]. 北京: 清華大學出版社, 2008.
[16] T Dunning. Accurate methods for the statistics of surprise and coincidence[J]. Computational linguistics, 1993, 19(1): 61-74.
[17] Dong Z, Dong Q. HowNet [EB/OL]. Available at http://www.keenage.com/ 2000
[18] C C Chang, C J Lin. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST),2011,2(3):1-27.
[19] K Wang, C Zong, K Y Su. A character-based joint model for Chinese word segmentation[C]//Proceedings of the 23rd International Conference on Computational Linguistics, 2010:1173-1181.
Sentiment Analysis of Chinese Micro Blog Based on Rich-features
ZHANG Zhilin, ZONG Chengqing
(National Lab of Pattern Recognition, Institute of Automation, CAS, Beijing 100190, China)
Micro blog, a new information-sharing platform, is now playing an important role in people’s daily live with the rise of Web 2.0. And micro blog sentiment analysis research also attracts more attention in recent years. This paper provides an in-depth analysis on the difference of feature representation and feature selection between the traditional sentiment classification and micro blog sentiment analysis. To avoid the drawbacks of feature selection of existing methods, we propose three simple but effective approaches for feature representation and selection, including the lexicalization hashtag feature, the sentiment word feature, and the probabilistic sentiment lexicon feature. Experimental results show that our proposed methods significantly boost the micro blog sentiment classification accuracy from 73.17% to 84.17%, outperforming the state-of-the-art method significantly.
Chinese micro blog; sentiment analysis; machine learning; feature selection
張志琳(1988-),碩士,助理研究員,主要研究領(lǐng)域為情感分類方法研究。E-mail:zhilin.zhang@ia.ac.cn宗成慶(1963-),博士,研究員,主要研究領(lǐng)域為機器翻譯、情感分類和自然語言處理等相關(guān)領(lǐng)域的研究。E-mail:cqzong@nlpr.ia.ac.cn
1003-0077(2015)04-0134-10
2013-08-26 定稿日期: 2013-11-15
國家自然科學基金(61402478)
TP391
A