吳杰勝 陸 奎
(安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 安徽 淮南 232001)
微博是近些年來一個新生的適用于大眾的社交媒體平臺,隨著移動互聯(lián)網(wǎng)的普及,大眾對微博的使用率越來越高,微博也得以快速發(fā)展。廣大的用戶群體都可以通過微博來發(fā)表自己對當(dāng)前的一些熱點(diǎn)話題的看法,所以他們每天都在提供海量且豐富的觀點(diǎn)文本數(shù)據(jù),而這些數(shù)據(jù)中包含著很多情感信息。如何充分挖掘情感信息并進(jìn)行分析就是情感分析。情感分析在當(dāng)今的研究很廣泛,提取情感信息對社會發(fā)展起到一定的作用,而微博除了作為一個社交媒體平臺之外,還具有其他特性,因此對微博的情感分析研究至關(guān)重要。
目前國內(nèi)外都在對微博進(jìn)行研究,但中文微博和英文微博的研究進(jìn)展差距很大,英文微博的研究成熟度高于中文微博,而且中文微博與英文微博的特性幾乎不同,因此如何能利用中文微博情感信息來進(jìn)行研究分析是我們現(xiàn)在要做的工作。本文利用多部情感詞典和中文語義規(guī)則集相結(jié)合的方式判斷中文微博的情感極性。
文獻(xiàn)[1]中指出情感即文本作者的意見和觀點(diǎn),因此對情感的分析也可以理解為對意見的挖掘,文本意見挖掘?qū)儆跀?shù)據(jù)挖掘的子類,主要是利用現(xiàn)有的計(jì)算機(jī)技術(shù)挖掘出蘊(yùn)含在文本間的觀點(diǎn)、情緒等元素。在當(dāng)今可以通過構(gòu)造相應(yīng)的情感詞典和利用機(jī)器學(xué)習(xí)算法來對微博文本進(jìn)行情感分析、極性分類。構(gòu)造情感詞典來對微博進(jìn)行情感分析出現(xiàn)比較早,而且它對微博文本這種細(xì)粒度的情感分析效果極佳。文獻(xiàn)[2]就是在基礎(chǔ)情感詞典的基礎(chǔ)上,構(gòu)造了兩種計(jì)算詞匯語義的情感權(quán)值方法。文獻(xiàn)[3]也在基礎(chǔ)情感詞典的基礎(chǔ)上,構(gòu)造了一種分類器,可以對文本語義之間的歧義進(jìn)行消除,從而提高情感分析準(zhǔn)確率。
基于機(jī)器學(xué)習(xí)的方法來進(jìn)行情感分析,主要是通過選取一些特征來標(biāo)注訓(xùn)練集和測試集,接著利用樸素貝葉斯、支持向量機(jī)等分類器進(jìn)行情感分類。文獻(xiàn)[5]利用支持向量機(jī)或樸素貝葉斯與支持向量機(jī)相結(jié)合的方法對微博進(jìn)行情感分析。文獻(xiàn)[7]首先構(gòu)造微博語料庫,再用樸素貝葉斯算法進(jìn)行分類。
總之,微博情感分析常用的兩種方法都有一定的作用,但誰也不能做到更高的準(zhǔn)確率,只能在這個基礎(chǔ)上不斷地加以改進(jìn)方法提高準(zhǔn)確性?;谇楦性~典的方法擅長處理細(xì)粒度的文本情感分析,因此本文主要也是利用情感詞典,在此基礎(chǔ)上加以改進(jìn),并結(jié)合文本之間的語義規(guī)則集來對微博進(jìn)行情感分析,最后通過各個部分的情感權(quán)值加權(quán)求和得到微博的情感極性。微博的整體情感分析流程圖如圖1所示。
圖1 微博整體情感分析流程
目前國外的情感詞典《General Inquirer》完善度很高,但在國內(nèi)還沒有一部這樣比較完善的詞典,所以對微博來說,有一部完善的情感詞典是很有必要的。現(xiàn)在國內(nèi)使用常見的代表性情感詞典有知網(wǎng)HowNet情感詞典,臺灣大學(xué)的正、負(fù)面情感詞典和大連理工大學(xué)中文情感詞典庫等等。所以本文在此基礎(chǔ)詞典的基礎(chǔ)上進(jìn)行整合和優(yōu)化,構(gòu)建一個擴(kuò)展的多部情感詞典,同時還需要單獨(dú)構(gòu)建一個微博特定領(lǐng)域的情感詞典來一起組成微博情感詞典,從而進(jìn)行微博情感分析。
微博文本具有元素多樣性、隨意性、口語化等特點(diǎn),所以需要進(jìn)行預(yù)處理。預(yù)處理步驟如下:
1) 將網(wǎng)頁中的鏈接、圖片、視頻、動畫刪除;將“@+用戶名”刪除;將“#話題#”刪除。這些內(nèi)容雖對微博情感分析有一定作用,但是影響不大,可以刪除。
2) 將文本中的繁體字、英文等其他語言都翻譯成中文,這是為了后續(xù)工作的方便,可使用特定的工具來進(jìn)行翻譯。
3) 保留微博文本中的表情符號。因?yàn)楸砬槭乔楦袪顟B(tài)的外在表現(xiàn),與情感有關(guān),可以參與情感權(quán)值計(jì)算。
4) 分詞,本文使用中科院ICTCLAS軟件進(jìn)行分詞與詞性標(biāo)注。
5) 刪除停用詞,比如助詞“的”,代詞“她”、“他”等之類的詞。
在預(yù)處理完成之后,微博文本就是詞語連接成串的形式,比如“我國運(yùn)動員武大靖在短道速滑男子500米決賽中奪冠?!本蜁?yōu)閧我國,運(yùn)動員,武,大靖,在,短道速滑,男子,500,米,決賽,中,奪冠 }。
目前中文情感詞典還沒有完整成熟的情感詞典,所以除了構(gòu)造基礎(chǔ)情感詞典外,還有否定詞詞典和雙重否定詞詞典、程度副詞詞典、關(guān)系連詞詞典、表情符號詞典。
2.2.1基礎(chǔ)情感詞典
基礎(chǔ)情感詞典是取自大連理工大學(xué)的中文情感詞典庫。這個詞典庫將情感詞分成了五個強(qiáng)度和三類詞。本文用數(shù)字1表示正面詞,數(shù)字2表示反面詞,0表示中性詞且它的權(quán)值為0。示例如表1所示。
表1 基礎(chǔ)情感詞典示例
2.2.2否定詞詞典和雙重否定詞詞典
否定詞詞典包括否定副詞和反問詞這兩部分。文獻(xiàn)[10]中指出否定副詞和反問詞修飾情感詞時,都會改變詞的情感極性,但反問詞語氣更強(qiáng),而雙重否定不會改變詞的情感極性,但是語氣會更加強(qiáng)烈。通過人工篩選共獲取25個否定詞,示例如表2所示。
表2 否定詞詞典和雙重否定詞詞典示例
2.2.3程度副詞詞典
程度副詞詞典來自于知網(wǎng)詞典庫。將這些詞一共分為6個等級。等級分別是超、最、很、較、稍、欠。分別對這6個等級給予一定的權(quán)值,對所修飾的情感詞的情感強(qiáng)度擴(kuò)大一定的倍數(shù)。示例如表3所示。
表3 程度副詞詞典示例
2.2.4關(guān)系連詞詞典
關(guān)系連詞主要有轉(zhuǎn)折、讓步、遞進(jìn)、因果、假設(shè)等關(guān)系,它們在句子與句子之間的連接起到作用。本文收集整理常用的一些詞構(gòu)建了一個關(guān)系連詞詞典,并賦予一定的權(quán)值,示例如表4所示。
表4 關(guān)系連詞詞典示例
2.2.5表情符號詞典
微博表情在微博文本中具有很強(qiáng)的情感傾向性,可以通過它去判斷微博情感極性有一定的作用。本文通過微博抓取了一些頻率使用比較高的部分表情構(gòu)造表情詞典,共計(jì)217個表情。示例如表5所示。
表5 表情符號詞典示例
由于基礎(chǔ)的情感詞典還不完整,對情感詞的概括是有限的,所以還需要針對微博上一些特有的情感新詞進(jìn)行識別,從而對這些新詞集合構(gòu)建一個詞典。首先要基于統(tǒng)計(jì)信息來識別新詞,然后在新詞中進(jìn)行情感識別。
2.3.1基于統(tǒng)計(jì)信息的新詞識別
文獻(xiàn)[6]中給出三個定義,分別稱作字串頻數(shù)、內(nèi)部耦合度、鄰字集信息熵,一個字串能否成詞與這三個定義有關(guān)。微博文本是由一連串詞語組成的文本,首先我們用一個長字串來表示微博文本,同時將一個新詞的成詞長度設(shè)定為一個值,本文設(shè)定為7。同時再考慮上面三個定義,它們每個都要設(shè)定一個參數(shù)閾值,如果有任何一個條件不滿足,即超過閾值范圍,則這個字串不是一個詞。最后剩下的能構(gòu)成的詞語集合中,仍需要比對情感詞典中的詞語,若該詞在已有的詞典中找不到,即成為新詞。
2.3.2新詞情感分析與PMI算法改進(jìn)
通過以上方法能識別并挖掘出新詞,但是對這些詞的情感極性還需要繼續(xù)識別,從而構(gòu)建出一個微博特定領(lǐng)域的情感詞典。首先根據(jù)以上方法識別出新詞,按照詞頻進(jìn)行統(tǒng)計(jì)并排序,按照從上到下的方式來篩選,篩選出情感極性較強(qiáng)而且詞頻比較高的詞語作為種子詞。然后對這些詞的情感極性作出判斷,緊接著利用PMI算法計(jì)算其他未知詞與它們之間的語義相似度,最后計(jì)算未知新詞的情感極性,方法如下:
點(diǎn)互信息主要是可以計(jì)算詞與詞之間的相似度。兩個詞w1和w2之間的相似度計(jì)算公式為:
(1)
式中:P(w1,w2)表示w1、w2共同出現(xiàn)的概率,p(w1)、p(w2)分別表示w1、w2單獨(dú)出現(xiàn)的概率。
w1表示未知詞,w2表示種子詞,若式(1)的計(jì)算結(jié)果較大即相似度高,則可知兩個詞情感極性相同,否則就不同。但僅僅計(jì)算一對詞的語義相似度在微博情感分析中不具有說服力,所以本文在考慮這個的基礎(chǔ)上,在詞閾的范圍內(nèi)選取了30對正負(fù)面情感極性的種子詞,同時考慮到使用頻率高的表情元素,選取了5對正負(fù)面情感極性表情符號作為種子詞,一起構(gòu)成正面的情感詞集合WP和負(fù)面情感詞集合WN,用來考察多詞之間的語義相似度。同時對PMI公式進(jìn)行改進(jìn),得出新詞w的情感極性判斷的新公式:
(2)
式(2)的值如果大于0,則新詞w的情感極性為正面;等于0,新詞w的情感極性為中性;小于0,新詞w的情感極性為負(fù)面。
最后一起構(gòu)建成微博特定領(lǐng)域的情感詞典,本文識別并挖掘出2018年微博新詞共計(jì)164個,將這些詞分為4個級別,并賦予一定權(quán)值,示例如表6所示。
表6 微博新詞詞典示例
微博文本也是普通文本,都是由漢字等其他元素構(gòu)成的表達(dá)文本,而文本之間肯定存在著一些語法關(guān)系和語義規(guī)則,它們對文本的情感分析也有一定作用。
一條微博文本可以通過標(biāo)點(diǎn)符號劃分成若干個復(fù)句,一條復(fù)句可以分成若干個分句,句間分析規(guī)則就是考慮分句與分句之間的關(guān)系,而句間關(guān)系主要有三類:轉(zhuǎn)折、遞進(jìn)、假設(shè)。這里用S表示整個復(fù)句,Si表示復(fù)句的各個分句。定義集合{S1,S2,…,Si}為復(fù)句的分句集合,Ri表示句間規(guī)則對分句Si的情感權(quán)值。
3.1.1轉(zhuǎn)折關(guān)系規(guī)則
轉(zhuǎn)折關(guān)系中,基本都會實(shí)現(xiàn)前后的情感翻轉(zhuǎn)作用,轉(zhuǎn)折之前的分句情感會變?nèi)?,而主要突出后面分句的情感,后面分句與前面分句的情感極性相反。規(guī)則定義如下:
1) 若復(fù)句S中只有單一的轉(zhuǎn)折后接詞出現(xiàn)(如“但”,“可是”,“卻”等)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為0,Si之后的分句權(quán)值Ri都設(shè)為1。
2) 若復(fù)句S中只有單一的轉(zhuǎn)折前接詞出現(xiàn)(如“雖然”,“如”,“盡管”等)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為1,Si之后的分句權(quán)值Ri都設(shè)為0。
3) 若復(fù)句S中出現(xiàn)成對的轉(zhuǎn)折連接詞(如“雖然…但是…”等),且轉(zhuǎn)折后接詞出現(xiàn)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為0,Si之后的分句權(quán)值都Ri設(shè)為1。
3.1.2遞進(jìn)關(guān)系規(guī)則
遞進(jìn)關(guān)系,顧名思義,在這個關(guān)系規(guī)則中,復(fù)句的每個分句根據(jù)從前到后的順序逐漸增強(qiáng)情感。規(guī)則定義如下:
若復(fù)句S中出現(xiàn)遞進(jìn)關(guān)系的連接詞(如“更”,“更加”,“更重要的是”等),則分句的權(quán)值為:
Ri=1Ri+1=1.5 …Rj=1+0.5×(j-i)
3.1.3假設(shè)關(guān)系規(guī)則
假設(shè)關(guān)系建立在現(xiàn)實(shí)情況中的一種設(shè)想,它表達(dá)的情感主要在假設(shè)復(fù)句的前半分句,而對后半分句的情感相對弱化一些。比如:如果A,那么B。則句子強(qiáng)調(diào)的是內(nèi)容A。
1) 若復(fù)句S中未出現(xiàn)否定的假設(shè)連接詞,但是出現(xiàn)假設(shè)關(guān)系的后接詞(如“那么”),且假設(shè)后接詞出現(xiàn)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為1,Si之后的分句權(quán)值Ri都設(shè)為0.5。
2) 若復(fù)句S中出現(xiàn)否定的假設(shè)連接詞,而且假設(shè)后接詞(如“那么”)出現(xiàn)在分句Si中,則Si之前的分句權(quán)值Ri都設(shè)為-1,Si之后的分句權(quán)值Ri都設(shè)為-0.5。
上面描述的這三種句間關(guān)系都能影響到整個微博文本的情感極性,所以情感分析中要考慮到它們。至于其他的句間關(guān)系如因果、并列等,對情感分析的影響可以忽略不計(jì)。
上一節(jié)所說的是復(fù)句的分句之間的關(guān)系,這一節(jié)說明的是復(fù)句的句型對整個文本的情感極性的影響。本文主要討論陳述句、疑問句、反問句和感嘆句這四類常見句型。它們常以“?”、“!”、“?!钡葮?biāo)點(diǎn)符號結(jié)尾。一個文本用D來表示,則文本分割成各個分句即復(fù)句,用集合定義為{D1,D2,…,Di,…,Dn}。復(fù)句用Di來表示,定義Ti為句型規(guī)則對復(fù)句Di的情感權(quán)值。具體的規(guī)則定義如下:
1) 如果微博文本中有復(fù)句Di以感嘆號“!”結(jié)尾,則表示此復(fù)句為感嘆句,它的權(quán)值Ti設(shè)為1.5。
2) 如果微博文本中有復(fù)句Di以反問號“?”結(jié)尾且結(jié)尾處有反問標(biāo)志詞或者沒有以反問號“?”結(jié)尾但有反問標(biāo)志詞,則表示此復(fù)句為反問句,它的權(quán)值Ti設(shè)為-1。
3) 如果微博文本中有復(fù)句Di以反問號“?”結(jié)尾且結(jié)尾處無反問標(biāo)志詞,則表示此復(fù)句為疑問句,它的權(quán)值Ti設(shè)為0。
4) 如果微博文本中有復(fù)句Di以句號“。”等其他標(biāo)點(diǎn)符號結(jié)尾,則表示此復(fù)句為陳述句,它的權(quán)值Ti設(shè)為1。
本文基于多部情感詞典和規(guī)則集的微博情感分析,對微博從詞到句進(jìn)行整體綜合情感計(jì)算。用D表示整個文本,文本中各個復(fù)句用Di表示;S對應(yīng)一個復(fù)句Si表示復(fù)句中的各個分句;E表示情感權(quán)值,Ri表示分句的句間關(guān)系規(guī)則情感權(quán)值,Ti表示復(fù)句的句型關(guān)系規(guī)則情感權(quán)值,seni表示詞典匹配得到的權(quán)值。
1) 詞語情感值E(Wi)計(jì)算公式為:
E(Wi)=N×A×seni
(3)
式中:N表示情感詞前對應(yīng)的否定詞或者雙重否定詞,A表示情感詞前對應(yīng)的程度副詞,seni表示情感詞與詞典匹配得到的權(quán)值,Wi表示情感詞語。
詞語的情感權(quán)值計(jì)算不僅與它自身的權(quán)值有關(guān),還與在其前面修飾的程度副詞、否定詞有關(guān),所以在情感權(quán)值計(jì)算時要將它們考慮進(jìn)去。
2) 分句情感值E(Si)計(jì)算公式為:
(4)
3) 復(fù)句情感值E(Di)計(jì)算公式為:
(5)
4) 文本情感值E的計(jì)算公式為:
(6)
5) 表情情感值Em計(jì)算公式為:
(7)
6) 微博情感值Elast計(jì)算公式為:
Elast=m×E+n×Em
(8)
式(8)表示微博的最終情感值計(jì)算,m和n表示文本情感值和表情情感值在微博情感權(quán)值計(jì)算中所占分量的大小,本文根據(jù)文獻(xiàn)[9]中分析分別設(shè)置為0.6和0.4,計(jì)算得出Elast的大小。如果Elast大于0,則表示此微博的情感傾向?yàn)檎娴?,如果Elast小于0,則表示此微博的情感傾向?yàn)樨?fù)面的,如果Elast等于0,則表示此微博情感為中性的。
首先通過爬蟲工具爬取了微博上兩個相關(guān)的微博話題,然后對這些數(shù)據(jù)進(jìn)行情感分析,具體的實(shí)驗(yàn)步驟如下:
1) 獲取實(shí)驗(yàn)數(shù)據(jù)。利用爬蟲軟件爬取微博上比較兩個熱門話題“#短視頻整頓#”和“#《我不是藥神》爆紅引社會熱議#”的文本數(shù)據(jù)。
2) 情感極性的人工標(biāo)注。獲取數(shù)據(jù)的情感極性沒有進(jìn)行標(biāo)注,采用人工方法對這兩個話題進(jìn)行標(biāo)注。人工標(biāo)注主要是通過統(tǒng)計(jì)抽取隨機(jī)選擇三名實(shí)驗(yàn)同學(xué)對這兩個話題進(jìn)行主觀判斷,標(biāo)注情感極性,最后統(tǒng)計(jì)結(jié)果。
3) 預(yù)處理。根據(jù)上述對應(yīng)的方法構(gòu)建六部情感詞典。
4) 話題情感分析。分別在一部基礎(chǔ)情感詞典、六部情感詞典和基于六部情感詞典與規(guī)則集的基礎(chǔ)之上對這兩個話題進(jìn)行三組實(shí)驗(yàn),得出微博的情感分析結(jié)果。
本文通過爬蟲軟件爬取到關(guān)于兩個微博話題的數(shù)據(jù)集,接著利用人工標(biāo)注的方法,將這些文本進(jìn)行情感極性標(biāo)注,給出每條微博的情感權(quán)值并進(jìn)行分類。共篩選出話題“#短視頻整頓#”共計(jì)25 720條,其中正面數(shù)據(jù)18 634條,負(fù)面數(shù)據(jù)1 385條,中性數(shù)據(jù)5 701條;話題“#《我不是藥神》爆紅引社會熱議#”共計(jì)17 695條,其中正面數(shù)據(jù)10 672條,負(fù)面數(shù)據(jù)2 856條,中性數(shù)據(jù)4 167條。判斷標(biāo)準(zhǔn)是:微博情感權(quán)值大于0為正面,小于0為負(fù)面,等于0為中性。從篩選結(jié)果可知正面微博數(shù)據(jù)所占比例較大,負(fù)面微博數(shù)據(jù)和中性微博數(shù)據(jù)所占比例較小,且數(shù)據(jù)較少。
本實(shí)驗(yàn)根據(jù)本文提出的微博情感分析方法對每一條微博文本進(jìn)行情感分析,然后將在此方法下自動分析得出的結(jié)果與我們?nèi)斯し诸惖贸龅慕Y(jié)果進(jìn)行比對,看情感分析的效果如何。采用以下三個指標(biāo)進(jìn)行分析,分別是正確率P、召回率R和綜合度量F指標(biāo)值,具體公式如下:
(9)
(10)
(11)
為了驗(yàn)證本文提出的方法具有更好的作用,還另外做了只基于一部情感詞典和只基于六部情感詞典的實(shí)驗(yàn)。將本文提出的方法實(shí)驗(yàn)結(jié)果與這兩種方法得出的實(shí)驗(yàn)結(jié)果進(jìn)行對比,利用性能評估指標(biāo)對結(jié)果進(jìn)行分析。
對兩個話題分別做如下三組實(shí)驗(yàn):
第一組實(shí)驗(yàn):分別對話題“#短視頻整頓#”和“#《我不是藥神》爆紅引社會熱議#”采用基于一部基礎(chǔ)情感詞典的微博情感分析,并進(jìn)行微博分類。
第二組實(shí)驗(yàn):分別對話題“#短視頻整頓#”和“#《我不是藥神》爆紅引社會熱議#”采用基于六部基礎(chǔ)情感詞典的微博情感分析,并進(jìn)行微博分類。
第三組實(shí)驗(yàn):分別對話題“#短視頻整頓#”和“#《我不是藥神》爆紅引社會熱議#”采用基于六部基礎(chǔ)情感詞典和規(guī)則集的微博情感分析,并進(jìn)行微博分類。
實(shí)驗(yàn)結(jié)果如表7和表8所示。
表7 #短視頻整頓#實(shí)驗(yàn)結(jié)果
表8 #《我不是藥神》爆紅引社會熱議# 實(shí)驗(yàn)結(jié)果
通過表7和表8的數(shù)據(jù),對實(shí)驗(yàn)結(jié)果進(jìn)行如下分析:
1) 實(shí)驗(yàn)結(jié)果表明本文提出的方法提高了微博的情感分析的正確率。若只單純靠一部基礎(chǔ)情感詞典,那么正確率是較低的,因?yàn)槲⒉┑奶厥獾奈谋景撕芏嗥胀ㄎ谋静痪哂械奶匦裕砸谠瓉淼幕A(chǔ)上擴(kuò)建多部情感詞典,提高詞典的覆蓋面,同時將文本語義規(guī)則集考慮進(jìn)去,更有利于微博的情感分析。
2) 通過兩個話題的實(shí)驗(yàn)結(jié)果可以看出,話題“#短視頻整頓#”的正確率高于話題“#《我不是藥神》爆紅引發(fā)社會熱議#”的正確率。這是因?yàn)榍罢咚@取的正面數(shù)據(jù)居多,而且對后者話題中一些判斷失誤的微博文本進(jìn)行分析發(fā)現(xiàn)這是一部關(guān)于電影反諷刺的話題,有網(wǎng)友發(fā)表微博就使用了一些反諷刺的表達(dá)。比如“電影中的藥商真的好棒啊,竟然可以把藥賣給病人,真的是好樣的!”,這其中“好棒”“好樣”都是正面情感詞,但實(shí)際上是起到諷刺作用,是負(fù)面的微博,因此在后續(xù)對微博的情感分析中還可以繼續(xù)對語義規(guī)則進(jìn)行完善分析。
3) 通過表格中數(shù)據(jù)發(fā)現(xiàn)正確率和F值都是正面微博偏高,通過微博分析得知是由于正面、負(fù)面、中性數(shù)據(jù)分布不平衡造成的,因?yàn)檫@兩個微博都是社會熱點(diǎn)話題,眾多網(wǎng)友持支持態(tài)度。
4) 通過對比F值可以發(fā)現(xiàn)在引入六部情感詞典之后,F(xiàn)值相對于一部情感詞典下有很大提高,這是因?yàn)樵诹壳楦性~典下,匹配微博文本的面更廣,尤其加入了微博特定領(lǐng)域的情感詞典,而且在加入規(guī)則集以后,F(xiàn)值又有了一定的提升。雖然F值總體上提高了,但還可以繼續(xù)提高,因?yàn)閷?shí)驗(yàn)預(yù)處理過程中有個分詞過程,還有語義規(guī)則的分析過程,這兩個過程的優(yōu)劣程度都會影響最后結(jié)果。當(dāng)然還有一些其他因素,比如一詞多義現(xiàn)象等。
實(shí)驗(yàn)表明,本文提出的方法利用多部情感詞典,并考慮文本語義規(guī)則集,對微博的情感分析效果有明顯的提升,且在三個指標(biāo)下,都驗(yàn)證了此方法對微博情感分析有效果。
基于詞典的情感分析是已有的研究方法,本文在基于詞典的基礎(chǔ)上,構(gòu)建了除基礎(chǔ)情感詞典之外的其他五部詞典,這些詞典范圍更廣,其中微博特定領(lǐng)域的情感詞典構(gòu)造至關(guān)重要,未來還需要繼續(xù)不斷完善這部詞典。最后在六部詞典的基礎(chǔ)上,考慮文本之間的語義規(guī)則,因此提出一種基于多部情感詞典和規(guī)則集的中文微博情感分析方法,通過實(shí)驗(yàn)驗(yàn)證了此方法具有很好的作用。
微博的情感分析研究還有很多可以改進(jìn)之處,比如要考慮微博的點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)和閱讀數(shù)等。我們將繼續(xù)改進(jìn)方法,力爭使中文微博情感分析更上一個臺階。