国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于微博文本的情感傾向分析

2017-04-14 02:05宋繼紅葛達(dá)明
軟件工程 2016年12期
關(guān)鍵詞:情感分析

宋繼紅+葛達(dá)明

摘 要:微博作為一種用戶發(fā)表看法和觀點(diǎn)的載體已成為互聯(lián)網(wǎng)上一個(gè)重要的情感交流平臺(tái),博文搜索為這種交流提供了方便快捷的途徑?;贖owNet等中文情感詞典的微博情感詞的抽取和分類,計(jì)算詞語語義相似度和傾向性。對(duì)文本情感傾向的加權(quán)值、表情、和情感詞增強(qiáng)因素等進(jìn)行綜合考慮。實(shí)驗(yàn)結(jié)果表明表情情感傾向?qū)ξ⒉┣楦袃A向起著重要作用;在表情和文本情感傾向比值固定的情況下,調(diào)整因素和中性區(qū)間的選擇會(huì)對(duì)情感傾向判斷準(zhǔn)確率產(chǎn)生影響;通過與基于HowNet語義相似度的計(jì)算模型比較,該文方法使得情感傾向判斷準(zhǔn)確率有所提高。

關(guān)鍵詞:情感提??;情感分析;微博文本

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A

1 引言(Introduction)

微博文本中往往包含了大量的文本作者對(duì)于某事件的情感,例如對(duì)微博文本、時(shí)事的態(tài)度、意見、評(píng)價(jià)等,研究如何高效的對(duì)輿論信息進(jìn)行情感挖掘與趨勢(shì)分析,從而更好地分析網(wǎng)民群體的行為規(guī)律。通過分析,能夠?qū)崿F(xiàn)對(duì)網(wǎng)絡(luò)流行事件或突發(fā)事件的快速分析,對(duì)于政府機(jī)構(gòu)輿情分析、企業(yè)市場(chǎng)決策、消費(fèi)行為分析等方面具有重要意義。當(dāng)前,主要有兩大類針對(duì)情感分析的方法,分別是基于語義的方法與基于機(jī)器學(xué)習(xí)的方法[1]。一個(gè)詞匯的語義傾向是指通過對(duì)微博文本個(gè)體詞匯褒貶度進(jìn)行分析得到的度量值,取值區(qū)間為±1。微博文本的情感傾向值最終通過匯總組合個(gè)體詞匯的情感傾向度量值得到[2]?;跈C(jī)器學(xué)習(xí)的情感分析方法的思路是構(gòu)造一個(gè)分類器,并使用已分類的訓(xùn)練集來訓(xùn)練這一分類器,研究重點(diǎn)在于如何提高訓(xùn)練效果[3]與獲得高質(zhì)量的訓(xùn)練集[4]。

中文微博的情感分析一般可以分為三個(gè)步驟。第一步為微博語料的收集和預(yù)處理;第二步根據(jù)給定的規(guī)則從微博文本中抽取出情感詞并且標(biāo)注情感詞極性;第三步依據(jù)情感傾向值計(jì)算方法,對(duì)微博文本進(jìn)行傾向性計(jì)算,得出整體情感傾向值。微博情感分析工作的主要流程如圖1所示。

圖1 中文微博情感分析工作流程圖

Fig.1 Flow chart of Chinese micro-blog

emotion analysis

2 微博語料的收集和文本預(yù)處理(Collection and

text pretreatment of micro-blogging corpus)

微博語料的獲取途徑主要有通過互聯(lián)網(wǎng)上提供的語料庫(kù)獲得和通過微博爬蟲程序或網(wǎng)站應(yīng)用程序編程接口(API)函數(shù)獲取三種方式[5]?;ヂ?lián)網(wǎng)上提供的微博語料數(shù)量大質(zhì)量?jī)?yōu),但因需要經(jīng)過收集整理再發(fā)布的過程,往往難以獲得最新的數(shù)據(jù)?;谖⒉┑呐老x程序不同于傳統(tǒng)的爬蟲程序依靠超鏈接關(guān)系而是通過節(jié)點(diǎn)之間的社交關(guān)系來獲取整個(gè)微博的網(wǎng)絡(luò)數(shù)據(jù)。單獨(dú)采用微博爬蟲程序往往會(huì)在局部陷入深度優(yōu)先搜索,難以采集到大范圍的微博數(shù)據(jù)[6]。大多數(shù)網(wǎng)站都加入了反機(jī)器人機(jī)制如驗(yàn)證碼、驗(yàn)證滑塊等,進(jìn)一步增加了爬蟲程序獲取數(shù)據(jù)的難度;多數(shù)微博平臺(tái)都提供了使用API接口訪問的功能,但在實(shí)際使用過程中常常受到諸多限制,因此本文采用三者結(jié)合的方法進(jìn)行語料收集。

文本預(yù)處理主要使用自然語言處理技術(shù)對(duì)微博文本進(jìn)行分詞與詞性標(biāo)注[7]。國(guó)內(nèi)對(duì)于自然語言處理技術(shù)的研究由來已久,目前已比較成熟。本文采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的漢語詞法分析系統(tǒng)(ICTCLAS)作為詞法分析器,該系統(tǒng)歷經(jīng)多次內(nèi)核升級(jí),分詞速度與精度均處于國(guó)內(nèi)一流水平。

3 微博情感分類抽取和標(biāo)注(The extraction and labeling

of micro-blogging emotional classification)

3.1 文本表情處理

中文微博網(wǎng)站提供了豐富的表情符號(hào),借助這些符號(hào),可以比較容易地將微博分為主觀性文本和客觀性文本,從而使得分析結(jié)果更加精確。主觀性文本的情感傾向又分為積極和消極兩類,客觀性文本的情感傾向?yàn)橹行浴1疚膶?duì)表情強(qiáng)度采取了人工標(biāo)注強(qiáng)度的方法。強(qiáng)度值為(0,1)之間代表正向情感表情,消強(qiáng)度值為(-1,0)之間代表負(fù)向情感表情,強(qiáng)度值為0表示中性表情。下表列舉了一些具有代表性的正向、負(fù)向和中性表情,如表1所示。

3.2 微博文本情感詞典構(gòu)建

現(xiàn)有的中文情感詞典較少,比較成熟的有臺(tái)灣大學(xué)簡(jiǎn)體情感詞典(NTUSD)[8]和知網(wǎng)(HowNet)中文情感詞典[9]。本文對(duì)NTUSD、HowNet、情感詞匯本體庫(kù)和中文褒貶意詞典等詞典進(jìn)行整理、去重,同時(shí)加入搜狗實(shí)驗(yàn)室提供的互聯(lián)網(wǎng)詞庫(kù),擴(kuò)充網(wǎng)絡(luò)流行語。加入了程度副詞和否定詞,整理后的情感詞典包括正向情感詞4800個(gè)、負(fù)向情感詞6200個(gè)。

與基于句子的情感分析不同,微博文本段落的情感分析與判斷對(duì)情感詞典提出了更高的要求。對(duì)情感詞和程度副詞賦予權(quán)重,從而定量地度量文本傾向性可以提升文本情感的準(zhǔn)確性。情感詞的強(qiáng)度劃分在(-1,1),分別用(0,1)和(-1,0)代表正面情感詞語的權(quán)重和負(fù)面情感詞語的權(quán)重;程度副詞的權(quán)重劃分在(0.2,1.2),按照強(qiáng)度由強(qiáng)到弱劃分為5級(jí),如表2所示。若出現(xiàn)多個(gè)程度副詞修飾一個(gè)詞語的情況,則多個(gè)程度副詞的綜合權(quán)重為所有程度副詞權(quán)重之乘積。

4 基于文本和表情的情感計(jì)算方法(Emotional

computing method based on text and emotion)

基于表情的微博情感分析可以使用五元組Q(A,S,F(xiàn),E,T)表示,其中A、S、F、E、T分別表示程度副詞、情感傾向、表情情感傾向、增強(qiáng)因子與發(fā)表的時(shí)間。其中發(fā)表時(shí)間T對(duì)于微博情感分析結(jié)果影響可以忽略不計(jì),特將五元組簡(jiǎn)化為四元組Q(A,S,F(xiàn),E)。微博情感值的計(jì)算過程從而可以轉(zhuǎn)換為從微博文本中抽取出程度副詞、情感傾向、表情情感傾向、增強(qiáng)因子并對(duì)其進(jìn)行處理的過程。

微博文本的情感傾向由表情和文本的情感兩部分組成,微博文本的情感傾向值可以通過對(duì)這兩部分的情感傾向值加權(quán)處理來得出。

(1)

其中,Q(P)、Q(PS)、Q(PT)分別為微博總體的情感傾向值、微博表情的情感傾向值,以及微博文s本的情感傾向值。其中λ為變量,取值區(qū)間為(0,1),代表總體情感傾向值中表情與文本情感傾向所占的比重。

微博表情的情感傾向值可根據(jù)如公式(2)得到:

(2)

其中,Q(psi)為微博文本中第i個(gè)表情的情感強(qiáng)度。

使用HowNet提供的詞匯語義相似度計(jì)算工具計(jì)算義原之間的相似度,可以得到詞語之間的相似程度。進(jìn)而計(jì)算出詞語的情感傾向,最終計(jì)算出微博文本的情感傾向值Q(PT)。對(duì)于兩個(gè)漢語詞語W1和W2,如果W1有n個(gè)義項(xiàng):x1,x2,…,xn;W2有m個(gè)義項(xiàng):y1,y2,…,ym,則規(guī)定W1和W2的相似度為各義項(xiàng)相似度之最大值,即

(3)

義原相似度的計(jì)算公式為

(4)

其中,α為變量,取值區(qū)間為(0,+∞);d(xi,yj)表示義原xi和義原yj的義原距離,由詞匯語義相似度計(jì)算工具得出。一般地對(duì)于一個(gè)不在情感詞典中的詞語,其情感傾向值可以通過對(duì)比其與情感詞典中的詞之間的距離得到。具體計(jì)算方法為:將詞語W分別與正面和負(fù)面情感詞典中的每個(gè)種子詞進(jìn)行比較得到其正、負(fù)面情感傾向值,再通過比較其與正負(fù)向情感值之間的均差,得出其情感傾向值。某個(gè)詞語W的情感傾向值可以通過下式計(jì)算得出

(5)

其中,Pi、Nj分別表示情感詞典中的一個(gè)正向情感種子詞與一個(gè)負(fù)向情感種子詞。

對(duì)于得到的情感傾向值,可以應(yīng)用程度副詞和否定詞對(duì)其進(jìn)行修正,經(jīng)過修正后Q(W)的計(jì)算公式為

(6)

其中,Mn與Ma分別表示否定詞權(quán)重與程度副詞權(quán)重,,Ni為第i個(gè)否定詞的極性權(quán)重,,Ai代表情感詞典中第i個(gè)程度副詞的權(quán)重。

對(duì)一個(gè)語句中多個(gè)情感詞傾向值進(jìn)行累加可以得到整個(gè)語句的情感傾向值Q(W),而對(duì)構(gòu)成微博文本的多條語句的情感傾向值求和可以得出微博文本的總體情感傾向值Q(PT),計(jì)算公式如下

(7)

微博情感傾向Q(P)的最終計(jì)算公式由表情和文本的情感兩部分組成,公式為

5 實(shí)驗(yàn)結(jié)果與分析(Experimental results and

analysis)

實(shí)驗(yàn)?zāi)康氖菍?duì)測(cè)試集中的每條文本賦予一個(gè)情感傾向值來代表文本的褒貶意程度,文本的情感傾向值由其中包含的情感詞的情感值相加得到。情感傾向值判斷準(zhǔn)確率=判斷正確的文本數(shù)與測(cè)試集總文本數(shù)之比。實(shí)驗(yàn)數(shù)據(jù)來源于微博搜索與搜狗實(shí)驗(yàn)室提供的互聯(lián)網(wǎng)語料庫(kù)數(shù)據(jù),樣本集中共計(jì)含有微博文本5000余條,其中正向、負(fù)向、中性文本數(shù)量分別為1500條、2000條、1200條。對(duì)測(cè)試數(shù)據(jù)進(jìn)行比對(duì)分析,同時(shí)考慮微博表情符號(hào)、程度副詞和反向詞的影響因素對(duì)文本進(jìn)行加權(quán)處理,得到的實(shí)驗(yàn)結(jié)果如圖2所示,P代表分析準(zhǔn)確率。

分析圖中的折線數(shù)據(jù)中可以得出,λ使正面情感與負(fù)面情感的分析準(zhǔn)確率表現(xiàn)均較好的區(qū)間為(0.4,0.5)。表3給出了當(dāng)λ=0.4時(shí)程度副詞與否定詞等增強(qiáng)因素加權(quán)前后對(duì)正面情感,以及負(fù)面情感的分析準(zhǔn)確率對(duì)照情況??梢钥闯?,當(dāng)λ取值區(qū)間為(±0.2,±0.8)時(shí),加權(quán)后的判斷準(zhǔn)確率與加權(quán)之前均有提升,無論是正向情感還是負(fù)向情感,當(dāng)λ=±0.4準(zhǔn)確率達(dá)到最大值。超過±0.4后判斷準(zhǔn)確雖也有提升,但是幅度不及之前。同時(shí),負(fù)面情感傾向的判斷準(zhǔn)確率要明顯高于正面情感傾向的判斷準(zhǔn)確率,其主要原因可能是受情感字典中正向與負(fù)向詞語數(shù)量不同和文本樣本空間中正向與負(fù)向文本的比例不同的影響。其中Pqz、Phz分別為加權(quán)修正前后正面情感判斷準(zhǔn)確率,Pqf、Phf分別為判斷準(zhǔn)確率以及加權(quán)修正后負(fù)面情感判斷準(zhǔn)確率。

6 結(jié)論(Conclusion)

本文方法通過對(duì)NTUSD、HowNet、情感詞匯本體庫(kù)和中文褒貶意詞典進(jìn)行整理,基于HowNet的義原情感判別,加入程度副詞和表情,以及否定詞對(duì)文本情感的影響。實(shí)驗(yàn)結(jié)果顯示程度副詞與表情傾向?qū)ξ⒉┪谋厩楦袃A向起著至關(guān)重要的作用,當(dāng)λ參數(shù)取值一定時(shí),情感值傾向判斷的準(zhǔn)確率會(huì)

受到中性區(qū)間的影響。

參考文獻(xiàn)(References)

[1] Zhang L,et al.Sentiment Analysis Based on Light Reviews.Ruan Jian Xue Bao/Journal of Software,2014,25(12):2790-2807.

[2] Wang Wei,et al.Extraction of Comparative Elements Using Conditional Random Fields.Acta Automatica Sinica,2015,41(8):1385-1393.

[3] Riloff E,Wiebe J.Learning Extraction Patterns for Subjective Expressions[A].Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing(EMNLP-03)[C].Sapporo,Japan:EMNLP,2003:105-112.

[4] Seyed Ali Bahrainian Andreas Dengel.Sentiment Analysis of Texts by Capturing Underlying Sentiment Patterns[J].Web Intelligence and Agent Systems,2015(13):53-68.

[5] 李婷婷,姬東鴻.基于SVM和CRF多特征組合的微博情感分析[J].計(jì)算機(jī)應(yīng)用研究,2015,32(4):978-981.

[6] Anna Stavrianou,Caroline Brun.Expert Recommendations Based on Opinion Mining of User-Generated Product Reviews[J].Computational Intelligence,2015(31):165-183.

[7] 李清敏.面向微博情感分析的本體自動(dòng)抽取關(guān)鍵技術(shù)研究[D].北京:首都師范大學(xué),2014.

[8] 李揚(yáng),潘泉.基于段文本情感分析的敏感信息識(shí)別[J].西安交通大學(xué)學(xué)報(bào),2016,50(9):80-84.

[9] Neviarouskaya Alena,Prendinger Helmut.Attitude Sensing in Text Based on a Compositional Linguistic Approach[J].Computational Intelligence,2015,2(31):256-300.

作者簡(jiǎn)介:

宋繼紅(1963-),女,碩士,副教授.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò)通

信,計(jì)算機(jī)網(wǎng)絡(luò)遠(yuǎn)程控制,嵌入式技術(shù).

葛達(dá)明(1990-),男,碩士生.研究領(lǐng)域:智能信息處理.

猜你喜歡
情感分析
基于多特征組合的在線產(chǎn)品評(píng)論情感挖掘研究
面向應(yīng)用比較的用戶評(píng)論挖掘工具的設(shè)計(jì)與實(shí)現(xiàn)
基于word2vec擴(kuò)充情感詞典的商品評(píng)論傾向分析
基于語義的互聯(lián)網(wǎng)醫(yī)院評(píng)論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評(píng)價(jià)對(duì)象抽取研究
基于SVM的產(chǎn)品評(píng)論情感分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
在線評(píng)論情感屬性的動(dòng)態(tài)變化
歌曲《我的深情為你守候》的情感分析與演唱詮釋
文本觀點(diǎn)挖掘和情感分析的研究