王磊
摘? 要: 情感詞在文本情感分析中處于舉足輕重的地位,詞語(yǔ)情感傾向的不確定性會(huì)受到詞語(yǔ)上下文環(huán)境的影響。針對(duì)詞語(yǔ)上下文環(huán)境,提出一種基于最大熵模型的詞語(yǔ)情感傾向分析方法,從詞語(yǔ)上下文中提取詞語(yǔ)特征、詞語(yǔ)關(guān)系特征、詞語(yǔ)語(yǔ)義特征和詞語(yǔ)情感特征,采用最大熵模型來(lái)識(shí)別詞語(yǔ)的情感傾向,并利用平滑技術(shù)解決特征稀疏問題。同時(shí),利用詞語(yǔ)與句子之間的情感聯(lián)系,進(jìn)一步消除詞語(yǔ)情感傾向的不確定性。實(shí)驗(yàn)結(jié)果表明,該方法在詞語(yǔ)情感傾向識(shí)別上取得了令人滿意的效果。
關(guān)鍵詞: 情感分析; 最大熵; 語(yǔ)義特征; 情感傾向
中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1006-8228(2018)12-07-05
Abstract: Emotion words with sentiment polarity play important roles in text sentiment analysis. Uncertainties of sentiment polarity of words are affected by their contexts. In light of these contexts, a method is put forward in this paper to analyze sentiment polarity of words based on maximum entropy models. Features of words, relationships of words, semantic features and emotional characteristics of words are extracted from contexts. Then, sentiment polarity of words is identified by maximum entropy models, and problems concerning sparse features are solved by smoothing techniques. In the meantime, uncertainties of sentiment polarity of words are further eliminated by emotional connections between words and sentences. Experimental results show that this method achieves satisfactory effects in recognizing sentiment polarity of words.
Key words: sentiment analysis; maximum entropy; semantic feature; sentiment polarity
0 引言
信息技術(shù)的發(fā)展使得人類交流方式發(fā)生了巨大改變,越來(lái)越多的用戶正不斷通過互聯(lián)網(wǎng)相互交流,從而獲取個(gè)人所需信息。這些信息數(shù)據(jù)大多都表現(xiàn)為半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本數(shù)據(jù)形式,如產(chǎn)品評(píng)論、電影評(píng)論、新聞評(píng)論、博客等。這些文本信息更側(cè)重于表達(dá)個(gè)人對(duì)事物的主觀看法,帶有強(qiáng)烈的個(gè)人主觀情感特征,不同程度地反映了人們的各種喜好和情感傾向,如喜、怒、哀、樂等等。通過對(duì)在線文本信息的情感分析,可以很好地了解用戶對(duì)產(chǎn)品的喜愛程度,發(fā)現(xiàn)新聞事件的演化規(guī)律,認(rèn)識(shí)個(gè)體的情感狀態(tài),這一切都促進(jìn)了文本情感分析技術(shù)的發(fā)展,使之成為自然語(yǔ)言處理領(lǐng)域的一個(gè)研究熱點(diǎn)。
從語(yǔ)言學(xué)角度出發(fā),語(yǔ)言粒度從大到小依次為篇章,段落、句子,短語(yǔ)、詞、語(yǔ)素[1-2]。在現(xiàn)有的情感分析研究領(lǐng)域,大多數(shù)研究者都選擇詞作為基本的語(yǔ)言粒度和研究基礎(chǔ),利用詞的情感傾向來(lái)進(jìn)一步確定句子和篇章的情感傾向。詞的情感傾向識(shí)別方法可分為基于詞典和基于語(yǔ)料庫(kù)兩種方法[3-4]?;谠~典方法主要是利用已有詞典或詞語(yǔ)知識(shí)庫(kù)進(jìn)行擴(kuò)展生成情感詞典來(lái)直接識(shí)別詞語(yǔ)的情感極性。英文詞語(yǔ)情感詞典主要借助于WordNet[5]進(jìn)行,而中文詞語(yǔ)情感詞典則多借助于HowNet[6]。基于語(yǔ)料庫(kù)的方法首先對(duì)情感分析語(yǔ)料庫(kù)進(jìn)行人工標(biāo)注。在語(yǔ)料標(biāo)注的基礎(chǔ)上,利用大語(yǔ)料庫(kù)的統(tǒng)計(jì)特性,并借助詞語(yǔ)的共現(xiàn)關(guān)系、搭配關(guān)系或語(yǔ)義關(guān)系,來(lái)挖掘語(yǔ)料庫(kù)中的情感詞并判斷其情感傾向[7]。
近年來(lái),國(guó)內(nèi)外許多學(xué)者都發(fā)現(xiàn)領(lǐng)域知識(shí)和上下文知識(shí)會(huì)對(duì)文本情感分析產(chǎn)生巨大影響,先后開展了基于領(lǐng)域知識(shí)的情感詞典構(gòu)建,跨領(lǐng)域情感分類及上下文有關(guān)的情感分析等方面研究[8]。
本文提出一種基于最大熵模型的方法,融合上下文依賴關(guān)系,應(yīng)用于詞語(yǔ)情感傾向識(shí)別中。
1 最大熵模型
最大熵模型是基于信息熵理論建立起來(lái)的概率統(tǒng)計(jì)模型,采用概率估計(jì)的方法[9]。假設(shè)x是某個(gè)事件,y是事件x發(fā)生的上下文環(huán)境,則x和y的聯(lián)合概率記為p(x,y)。對(duì)于詞的情感傾向性識(shí)別問題,一個(gè)情感詞屬于某個(gè)情感,可以看成一個(gè)事件,文檔中關(guān)于情感詞的各類特征可以看作事件發(fā)生的環(huán)境。
定義1 給定一個(gè)訓(xùn)練集,定義E={e1,e2,…,em}是情感詞的情感傾向集合,C={c1,c2,…,cn}是文檔中獲取的關(guān)于情感詞的特征集合,則可以使用公式⑴來(lái)進(jìn)行概率估計(jì):
該概率估計(jì)方法存在一個(gè)問題即“稀疏矩陣”問題,對(duì)于較大規(guī)模的訓(xùn)練集,存在大量二元組(ei,cj)未曾同時(shí)出現(xiàn)過,則認(rèn)為該二元組的概率估計(jì)為零。本文根據(jù)訓(xùn)練集的具體情況,將采取一種平滑技術(shù)來(lái)解決該問題。
根據(jù)Shannon的定義,熵的計(jì)算公式如下:
求解滿足最大熵原則的概率分布公式如下:
盡管從訓(xùn)練集無(wú)法獲取所有二元組(ei,cj)的聯(lián)合概率值,但可以從中獲取部分二元組的聯(lián)合概率值或某些約束條件,這樣就將問題轉(zhuǎn)化為求解部分約束條件下的最大熵問題。
根據(jù)詞語(yǔ)自身特征及語(yǔ)言上下文環(huán)境,可以定義多個(gè)特征函數(shù)。
定義2 假設(shè)存在n個(gè)特征函數(shù)f1,f2,…,fn,且,則最大熵模型可以描述為在滿足約束條件的所有模型中選取熵最大的模型,如公式⑻和公式⑼所示:
拉格朗日乘子算法是求解約束條件下最優(yōu)解的經(jīng)典方法,本文也采用該方法來(lái)求解公式⑼,從而得到公式解如下:
λi是特征函數(shù)fi的權(quán)重,訓(xùn)練過程就是通過在訓(xùn)練集上的學(xué)習(xí)過程來(lái)求出每個(gè)λi值。
2 詞語(yǔ)的情感傾向性分析
2.1 基本框架
本文提出一個(gè)基于最大熵模型的詞語(yǔ)情感傾向分析方法,其分析方法框架結(jié)構(gòu)如圖1所示。
該方法以句子中所含情感詞語(yǔ)為研究對(duì)象,利用最大熵模型和詞句之間情感關(guān)系來(lái)識(shí)別句子中情感詞的情感傾向。從訓(xùn)練語(yǔ)料中進(jìn)行特征提取并構(gòu)建最大熵分類器(A部分),從測(cè)試語(yǔ)料中提取特征輸入最大熵分類器中(B部分),初步識(shí)別詞語(yǔ)的情感傾向,再利用詞句之間的情感關(guān)系特征來(lái)修改詞語(yǔ)的情感傾向。
2.2 特征選擇
從數(shù)據(jù)訓(xùn)練集中,我們抽取下列上下文特征應(yīng)用于最大熵模型中,這些特征描述如下。
⑴ 詞語(yǔ)情感特征(Word Emotion Feature: WEF):依據(jù)訓(xùn)練語(yǔ)料中的統(tǒng)計(jì)信息,利用候選詞wi自身所擁有的情感傾向特征來(lái)直接判別其情感傾向。
⑵ 詞語(yǔ)前后詞特征(N Word Feature:NWF):利用候選詞wi在句子中前后n個(gè)詞語(yǔ)的這個(gè)上下文特征來(lái)識(shí)別候選詞情感傾向:wi-n,…,wi,…,wi+n。
⑶ 詞語(yǔ)詞性特征(POS Word Feature: PWF):利用候選詞wi及其在句子中前后n個(gè)詞語(yǔ)的詞性特征來(lái)識(shí)別候選詞wi的情感傾向。在Ren-CECps中文情感語(yǔ)料庫(kù)[10]中所有句子均進(jìn)行分詞和詞性標(biāo)注,正確率達(dá)到97%,詞性包含35類。
⑷ 前N個(gè)情感詞特征(Pre-N Emotion Feature: PNEF):利用候選詞wi的前n個(gè)情感詞的情感特征來(lái)識(shí)別候選詞wi的情感傾向。
利用最大熵模型識(shí)別詞語(yǔ)情感傾向的流程圖如圖2所示:
2.3 平滑技術(shù)
對(duì)于詞語(yǔ)多標(biāo)記情感傾向識(shí)別問題,大多數(shù)詞語(yǔ)擁有多個(gè)情感傾向中的一個(gè)或兩個(gè)情感傾向,僅少數(shù)詞語(yǔ)擁有三個(gè)情感傾向,這樣就導(dǎo)致許多詞語(yǔ)的情感特征是非常稀疏的。
針對(duì)這種問題,本文采用絕對(duì)折扣平滑技術(shù)來(lái)進(jìn)行處理,直接給所有出現(xiàn)次數(shù)為零的特征賦予一個(gè)值 ,特征函數(shù)公式⑷轉(zhuǎn)換為公式⑿。
其中,d=0.05,N是詞語(yǔ)w在訓(xùn)練集中出現(xiàn)的次數(shù),count(w,c)是訓(xùn)練集中詞語(yǔ)w在上下文條件c中出現(xiàn)的次數(shù)。
2.4 詞句之間情感關(guān)系
為了進(jìn)一步提高情感詞語(yǔ)情感傾向識(shí)別的準(zhǔn)確性,可以利用情感詞語(yǔ)與句子之間的情感關(guān)系來(lái)調(diào)整情感詞語(yǔ)的情感傾向。按照如下關(guān)系進(jìn)行迭代計(jì)算,直到獲得穩(wěn)定的情感詞語(yǔ)情感傾向及強(qiáng)度。
α是一個(gè)可調(diào)節(jié)參數(shù),在實(shí)驗(yàn)中取值0.64,e(w)i表示第i次迭代時(shí)情感詞w的情感傾向強(qiáng)度值,Sens(w)表示一篇文檔中包含情感詞w的所有語(yǔ)句集合,e(Sens(w))表示包含所有語(yǔ)句的句子集的情感傾向強(qiáng)度值,nsen表示句子集中語(yǔ)句的個(gè)數(shù),senw為包含情感詞w的一個(gè)句子,e(senw)是包含情感詞w的一個(gè)句子的情感傾向強(qiáng)度值,nw表示一個(gè)句子中所含情感詞語(yǔ)的個(gè)數(shù)。
在整個(gè)迭代計(jì)算過程中,充分利用情感詞語(yǔ)與句子集之間的情感關(guān)系來(lái)修正詞語(yǔ)的情感傾向強(qiáng)度,進(jìn)而識(shí)別詞語(yǔ)的情感傾向。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
本文實(shí)驗(yàn)數(shù)據(jù)主要來(lái)自兩個(gè)數(shù)據(jù)集,一個(gè)是中科院譚松波提供的中文情感挖掘語(yǔ)料,使用其中去重后正負(fù)類各2000篇的酒店類評(píng)論語(yǔ)料,詞語(yǔ)及句子的情感傾向?yàn)檎?fù)2類;另一個(gè)是Ren-CECps中文情感語(yǔ)料庫(kù),詞語(yǔ)及句子的情感傾向分為8類,針對(duì)詞語(yǔ)進(jìn)行多標(biāo)記情感傾向識(shí)別。上述數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示:
本文主要進(jìn)行兩類實(shí)驗(yàn),實(shí)驗(yàn)一是利用酒店評(píng)論語(yǔ)料,來(lái)識(shí)別情感詞的情感正負(fù)極性,是一個(gè)情感傾向二元分類問題研究;實(shí)驗(yàn)二是在Ren-CECps語(yǔ)料庫(kù)中識(shí)別情感詞的多個(gè)情感傾向,屬于情感傾向多標(biāo)記分類問題研究。
3.2 實(shí)驗(yàn)設(shè)置
采用中文傾向性分析測(cè)評(píng)任務(wù)中規(guī)定的評(píng)測(cè)方法[11],針對(duì)每個(gè)情感傾向,采用精確率Precison,召回率Recall和F-measure值作為評(píng)價(jià)標(biāo)準(zhǔn)。
3.3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)一針對(duì)酒店評(píng)論語(yǔ)料中的情感詞進(jìn)行正負(fù)兩類情感傾向識(shí)別,選擇語(yǔ)料數(shù)據(jù)中的形容詞構(gòu)成實(shí)驗(yàn)數(shù)據(jù)集,將實(shí)驗(yàn)數(shù)據(jù)集分為訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,識(shí)別測(cè)試語(yǔ)料中候選詞的情感傾向。
預(yù)處理階段采用ICTCLAS對(duì)語(yǔ)料進(jìn)行分詞和詞性標(biāo)注。情感詞典采用HowNet情感詞(2090個(gè))和HowNet評(píng)價(jià)詞(6846個(gè))構(gòu)成基本情感詞典,然后去除其中的單字情感詞。
將利用最大熵模型進(jìn)行詞語(yǔ)情感傾向識(shí)別方法記作MaxEnt,將詞語(yǔ)與句子之間情感關(guān)系融入最大熵模型的詞語(yǔ)情感傾向識(shí)別方法記作Combine。
特征表示如下:F=WEF+NWF+PWF,其中n=1。詞語(yǔ)情感傾向識(shí)別結(jié)果如圖3所示。
對(duì)于實(shí)驗(yàn)結(jié)果,我們看到兩種方法在識(shí)別候選詞的褒貶兩類情感傾向上取得了不錯(cuò)的效果,而且在融合詞句之間的情感關(guān)系后,詞語(yǔ)情感傾向識(shí)別效果得到進(jìn)一步提高。
實(shí)驗(yàn)二針對(duì)Ren-CECps語(yǔ)料庫(kù)進(jìn)行情感詞的多標(biāo)記情感傾向識(shí)別。從Ren-CECps中文情感語(yǔ)料庫(kù)中選擇1476篇中文博客文章,共34630個(gè)句子,101842個(gè)情感詞。針對(duì)該數(shù)據(jù)集,采用5折交叉驗(yàn)證方法進(jìn)行實(shí)驗(yàn)驗(yàn)證。
情感詞的多標(biāo)記情感傾向識(shí)別結(jié)果如表2所示,特征表示如下:F1=WEF;F2=NWF;F3=WEF+NWF;
F4=WEF+NWF+PWF;F5=WEF+NWF+PWF+PNEF,其中n=1。
表2中的實(shí)驗(yàn)結(jié)果可以看出,詞語(yǔ)情感傾向判別結(jié)果基本令人滿意,但詞語(yǔ)情感傾向識(shí)別率并不是特別高,這既反映出人類情感的復(fù)雜性,也反映出多標(biāo)記情感傾向識(shí)別比單標(biāo)記情感傾向識(shí)別要困難。
分析表2的實(shí)驗(yàn)結(jié)果我們發(fā)現(xiàn),僅采用詞語(yǔ)情感特征(WEF)識(shí)別候選詞情感傾向的精確率、召回率和F1值較低。隨著選取特征的增加,候選詞的精確率、召回率和F1值不斷提升。
通過實(shí)驗(yàn)二,分析詞語(yǔ)多標(biāo)記情感傾向識(shí)別中產(chǎn)生錯(cuò)誤的原因主要有以下幾點(diǎn):
⑴ 在數(shù)據(jù)集中存在部分短句,短句中可以提取的上下文特征較少。
⑵ 對(duì)于大多數(shù)情感詞,其中某一個(gè)情感傾向的情感強(qiáng)度較強(qiáng),容易識(shí)別。然而其他情感傾向強(qiáng)度較弱,識(shí)別困難。
4 結(jié)束語(yǔ)
本文主要分析詞語(yǔ)情感傾向識(shí)別問題,提出一種基于最大熵模型的詞語(yǔ)情感多標(biāo)記傾向識(shí)別方法。在語(yǔ)料數(shù)據(jù)集中,提取詞語(yǔ)情感特征、詞性前后詞特征、詞語(yǔ)詞性特征和前N個(gè)情感詞特征來(lái)識(shí)別候選詞的情感傾向。對(duì)比酒店評(píng)論語(yǔ)料和Ren-CECps語(yǔ)料的實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)詞語(yǔ)多標(biāo)記情感傾向識(shí)別效果要低于褒貶兩類情感傾向識(shí)別效果,說明人類情感的復(fù)雜性。
在初步識(shí)別詞語(yǔ)情感傾向后,分析詞語(yǔ)與句子之間的情感聯(lián)系建立詞語(yǔ)情感傾向修正公式,詞語(yǔ)情感傾向識(shí)別效果有所提升。實(shí)驗(yàn)結(jié)果表明,詞語(yǔ)的情感傾向與所在句子的情感傾向之間存在一定的聯(lián)系,利用這種情感聯(lián)系可以輔助詞語(yǔ)情感傾向的識(shí)別。
本文關(guān)于詞語(yǔ)情感傾向識(shí)別過程是分步驟、分階段進(jìn)行的,如何將三支決策理論思想應(yīng)用于詞語(yǔ)級(jí)情感傾向分析中,這是未來(lái)工作的一個(gè)研究方向。同時(shí),隨著網(wǎng)絡(luò)特定用語(yǔ)和網(wǎng)絡(luò)符號(hào)的逐漸增多,如何識(shí)別網(wǎng)絡(luò)用語(yǔ)的情感傾向,這是今后詞語(yǔ)級(jí)情感傾向研究工作的熱點(diǎn)之一。
參考文獻(xiàn)(References):
[1] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010.21(8):1834-1848
[2] 姚天昉,程希文,徐飛玉等.文本意見挖掘綜述[J].中文信息學(xué)報(bào),2008.22(3).
[3] Peter D Turney. Thumbs Up or Thumbs Down? Semantic?Orientation Applied to Unsupervised Classification of Reviews: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics,2002:417-424
[4] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment?classification using machine learning techniques. In: Isabelle P, ed. Proc. of the EMNLP 2002. Morristown: ACL,2002:79-86
[5] Hu Ming, Liu Bin. Mining and Summarizing Customer?Reviews: Proceedings of the 10th International Conference on Knowledge Discovery and Data Mining,2004:168-177
[6] 朱嫣嵐,閔錦,周雅倩等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006.20(1):14-20
[7] Kushal Dave, Steve Lawrence, David M. Pennock. Mining?the peanut gallery: Opinion extraction and semantic classification of product reviews:Proceedings of WWW-03, 12th International Conference on the World Wide Web, Budapest, HU, ACM,2003:519-528
[8] Liu K,Zhao J. Cross-domain sentiment classification usinga two-stage method: Proceedings of the 18th ACM Conference on Information and Knowledge Management,New York,NY,USA, ACM,2009:1717-1720
[9] 李榮陸,王建會(huì),陳曉云,陶曉鵬,胡運(yùn)發(fā).使用最大熵模型進(jìn)行中文文本分類[J].計(jì)算機(jī)研究與發(fā)展,2005.42(18):94-101
[10] 任福繼等.Document for Ren-CECps 1.0, http://a1-www.is.tokushima-u.ac.jp/member/ren/Ren-CECps1.0/Ren-CECps1.0.html,2009.
[11] 譚松波,王素格,廖祥文等.第五屆中文傾向性分析測(cè)評(píng)總體報(bào)告.第五屆中文傾向性分析測(cè)評(píng)研討會(huì)論文集,2013:5-34