国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

情感詞典自動構建方法綜述

2016-11-08 01:53王科夏睿
自動化學報 2016年4期
關鍵詞:極性知識庫語料

王科 夏睿

情感詞典自動構建方法綜述

王科1夏睿1

情感詞典作為判斷詞語和文本情感傾向的重要工具,其自動構建方法已成為情感分析和觀點挖掘領域的一項重要研究內容.本文整理了現(xiàn)有的中、英文情感詞典資源,同時分別從知識庫、語料庫、以及兩者結合的角度,歸納現(xiàn)有英文和中文情感詞典的構建方法,分析了各種方法的優(yōu)缺點,并總結了情感詞典構建中的若干難點問題.之后,我們回顧了情感詞典性能評估方法及相關評測競賽.最后總結了情感詞典構建任務的發(fā)展前景以及一些亟需解決的問題.

自然語言處理,情感分析,觀點挖掘,情感詞典,詞典構建

引用格式王科,夏睿.情感詞典自動構建方法綜述.自動化學報,2016,42(4):495?511

隨著Web 2.0、社交媒體和電子商務的興起,互聯(lián)網(wǎng)用戶由單純的信息接受者,開始向信息發(fā)布的參與者轉變,互聯(lián)網(wǎng)上出現(xiàn)了大量的用戶評論文本,這些文本信息通常表達了用戶的主觀觀點和情感.通過對這些包含用戶情感的評論文本的挖掘與分析,人們能快速有效地獲取所需要的信息.然而數(shù)據(jù)指數(shù)級的增長速度,依靠人工進行評論分析需要耗費大量的人力物力,在這種背景下,計算機自動文本情感分析技術應運而生.情感詞典作為文本情感分析的重要工具,同時作為情感分析的基礎任務,其構建問題也逐漸成為自然語言處理領域的研究熱點之一.

1 概述

文本情感分析和觀點挖掘(Sentiment analysis and opinion mining)是自然語言處理領域的一個重要研究方向.它是利用計算機對主觀文本中所包含的情感、態(tài)度,進行分析、挖掘、總結和歸納的一項技術.相對于客觀文本,主觀文本包含了用戶個人的想法或態(tài)度,而客觀文本更多的是對事物本身屬性的客觀描述,并不反映用戶的任何觀點.客觀文本描述的是客觀事實,不存在用戶情感,故不需進行情感分析;主觀文本是用戶群體對某產(chǎn)品或事件,從不同的角度、不同的用戶需求和用戶體驗去分析評價的結果,這些評價信息具有主觀能動性和多樣性,具有情感分析意義.

目前,情感分析技術可以分為兩類.一類是基于機器學習的方法,通過大量有標注、無標注的主觀語料,使用統(tǒng)計機器學習算法,抽取特征,再進行文本情感分析.另一類是基于情感詞典的方法,根據(jù)情感詞典所提供的詞的情感傾向性,從而進行不同粒度下的文本情感分析.

按照文本的粒度,可以將情感分析任務歸納為詞、短語、屬性、句子、篇章等多個級別.情感詞典在不同粒度的情感分析任務中扮演著不同的角色,比如:

1)詞/短語級別情感分析任務中,對詞或短語進行情感傾向判斷的過程,基本等價于情感詞典的構建.情感詞典具有的詞/短語分析能力,能夠快速地完成對小粒度文本的情感分析.

2)句子/篇章級情感分析任務中,句子的情感極性可以通過對褒貶情感詞的得分累加或數(shù)量比較進行判斷[1],也可以構建統(tǒng)計機器學習方法,利用情感詞典作為分類器特征,進行文檔分類[2].

3)屬性級情感分析任務,需要先找出屬性詞對應的情感詞;針對該情感詞,使用詞/短語的方法判斷其情感,就是該屬性對應的情感傾向.此外,有些詞的情感極性依賴于所屬領域和上下文,我們將在第5.2節(jié)進行特別總結.

綜上所述,基于一份全面而精確的情感詞典進行情感分析,通常能獲得較高的準確率.情感詞典除了能夠準確判斷詞/短語的情感極性外,還可有效地輔助屬性級、句子/篇章級的情感分析任務.多數(shù)主觀文本均包含情感詞,情感詞是情感分析的重要依據(jù),所以找出情感詞,正確判斷其情感極性,從而構造高準確率和覆蓋率的情感詞典,具有至關重要的意義.

由于情感詞典在情感文本分析中的重要地位,其自動構建方法是近幾年自然語言處理領域的一個研究熱點.Liu在文獻[3]第七章對情感詞典構建方法進行了綜述.與之相比,本文具有下列三個特點:一是本文從方法論的角度對每類方法進行了深入的總結和歸類;二是本文除了介紹英文詞典構建方法之外,還就每類方法特別總結了中文詞典構建的研究現(xiàn)狀;三是除了相關方法描述之外,本文對現(xiàn)有的一些中英文情感詞典資源進行了整理,并總結了詞典性能的評估方法,以及部分國內外著名的評測競賽.

本文章節(jié)安排如下.第2節(jié)總結了情感詞典的現(xiàn)有資源.第3節(jié),我們回顧了英文情感詞典自動構建的現(xiàn)狀.第4節(jié),我們著重闡述了一些中文情感詞典構建現(xiàn)狀.第5節(jié)總結了情感詞典構建中的難點問題.第6節(jié)介紹了詞典性能評估方法和相關評測.最后對情感詞典構建工作做出了展望.

2 現(xiàn)有情感詞典資源

目前大部分的通用情感詞典,是通過人工構建的.人工構建方法主要是通過閱讀大量相關語料或借助現(xiàn)有詞典,人工總結出具有情感傾向的詞,標注其情感極性或強度,構成詞典.但是,這種方法花費的代價很大.表1總結了中英文常見的通用情感詞典.情感詞典的人工構建工作,國外起步較早,其中比較著名的是SentiWordNet1http://sentiwordnet.isti.cnr.it/.它根據(jù)WordNet2http://wordnet.princeton.edu/wordnet/download/,把釋義一致的詞合并在一起,給與相應的正面得分和負面得分,用戶既可以精確定位情感得分,也可以用一個詞的正負平均得分表示該詞的情感得分. General Inquirer(GI)3http://www.wjh.harvard.edu/inquirer/被認為是最早的一個情感詞庫,早期包含1915個褒義詞,2291個貶義詞,它還給每個詞語按情感極性、強度、詞性等屬性打上不同的標簽,便于在情感分析中能夠靈活應用.Hu等[1]提供的一份情感詞典Opinion Lexicon4https://www.cs.uic.edu/liub/FBS/sentiment-analysis.html#lexicon在業(yè)內也被廣泛使用,該詞典包含的詞較多,其中褒義詞2006個,貶義詞4783個.

表1 常見的通用情感詞典簡介Table 1 Common sentiment lexicon introduction

規(guī)范的中文情感詞典相對缺乏,最早也是最普遍傳播的是知網(wǎng)(HowNet)提供的情感分析用詞語集5http://www.keenage.com/html/e_index.html,其中包含了中英文褒貶的評價詞、情感詞,中文褒貶詞分別為4569個、4370個.除了情感詞外,HowNet還有類似WordNet的特點,它構建了一個詞與詞之間的大型關系網(wǎng)絡.大連理工的情感詞匯本體庫6http://ir.dlut.edu.cn/EmotionOntologyDownload從不同角度描述一個中文詞匯或者短語,包括詞語詞性種類、情感類別、情感強度及極性等信息.它是在國外比較有影響的Ekman的6大類情感分類體系的基礎上構建的,并且在Ekman的基礎上,該詞匯本體加入情感類別“好”,對正面情感進行了更細致的劃分,最終詞匯本體中的情感共分為7大類21小類,情感強度分為1、3、5、7、9五檔,9表示強度最大,含11229個褒義詞、10783個貶義詞.臺灣大學構建的情感詞典NTUSD7http://www.datatang.com/data/44317,也是一個比較常用的情感詞典,它包含2810褒義詞,8276個貶義詞,與HowNet、情感詞匯本體庫一起構成了目前中文處理中最常用的三個開放情感詞典.

3 情感詞典自動構建方法

基于人工構建的情感詞典雖然具備較好的通用性,但是在實際使用中,難以覆蓋來自不同領域的情感詞,領域適應性較差.同時,人工情感詞典構建需要耗費大量的人力物力.因此,學術界更多地聚焦于情感詞典的自動構建工作,這也是本文總結的重點.情感詞典自動構建方法,主要有三類:基于知識庫的方法、基于語料庫的方法、以及知識庫和語料庫相結合的方法.

3.1基于語料庫的方法

一些語種具有完備、開放的語義知識庫(比如英文的WordNet),通過挖掘其中詞與詞之間的關系(如同義、反義、上位以及下位關系等),就能構建出一部通用性較強的情感詞典.我們在表2中將這類方法又歸為三類,分別是:詞關系擴展法、迭代路徑法和釋義擴展法.

表2 基于知識庫的構建方法概述Table 2 Summary of the lexicon-based approach

3.1.1詞關系擴展法

基于WordNet的同義、反義詞關系擴展法的基本流程:先分別人工構建少量褒義、貶義形容詞集合,然后在WordNet語義知識庫中,查找它們的同義詞與反義詞來擴大這兩個集合,將同義詞放入種子詞所在集合,反義詞放入另一集合.通過循環(huán)迭代,構建一個具有一定規(guī)模的形容詞詞庫.最后人工整合,篩除錯分的詞,構成情感詞典.Hu等[1]在總結用戶評論時,采用了這個方法.但是,情感詞不僅僅只有形容詞,一些名詞或者動詞(比如“beauty”),甚至副詞也可能包含情感傾向.Strapparava等[4]在形容詞的基礎上,還加入了名詞和一小部分動詞和副詞作為初始詞典,使得到的情感詞典更加全面. Neviarouskaya等[5]還引入情感得分和情感權重,使得篇章級文本情感值計算更加合理.

大型知識庫中,詞與詞之間的關系錯綜復雜,一些詞在經(jīng)過若干次迭代之后,可能會迭代到它的反義詞,比如“good(好)”在經(jīng)過若干次同義詞迭代之后,有可能會得到極性完全相反的詞“bad(壞)”[good,sound,heavy,big,bad],這給詞典構建工作帶來了一些困難.為了排除這些詞匯,Kim等[6]在詞典構建過程中使用貝葉斯分類器,分別計算該詞屬于正面和負面的概率,從而確定其極性.Blair-Goldensohn等[7]添加了一個中性詞集合,再根據(jù)同義、反義關系,結合圖方法進行擴展,若擴展得到的詞在中性集中,則不擴展,從而提高了候選詞集合的準確率.

3.1.2迭代路徑法

由于語義知識庫中,詞間的網(wǎng)狀關系,任意兩個詞之間都可能存在著千絲萬縷的聯(lián)系.Kamps等[8]認為,意思越相似的兩個詞,它們通過同義詞迭代所需的次數(shù)就越少.他們使用兩個詞相互迭代所需的次數(shù)衡量兩者的相似性,并用于計算候選詞的情感傾向:

其中,d(t,w)是指未知極性的詞t通過同義詞迭代到已知極性的詞w所需的最少次數(shù),w+和w?分別代表褒義詞和貶義詞.計算迭代次數(shù)的思想,與下文介紹的點互信息類似,都可以衡量兩個詞之間的相似性.不同的是,逐點互信息(Pointwise mutual information,PMI)是基于語料統(tǒng)計計算兩個詞之間的共現(xiàn)信息作為相似性度量.Hassan等[9]根據(jù)WordNet構建一幅詞間關系圖,結合已知情感極性的種子詞集S,先從任意單詞wi(不屬于S)開始,按照一定轉移概率移動,直到遇到wk(屬于S).反復多次,分別計算wi到褒義、貶義種子詞的平均移動次數(shù),以次數(shù)少的確定為詞wi的情感極性.

3.1.3釋義擴展法

一些知識庫還給出了詞的釋義.若將知識庫中的褒義詞和貶義詞視為兩個類別,那么這些詞的釋義便可以看成是一個二分類的已標注語料庫.Andreevskaia等[10]同時使用WordNet中的詞間關系和釋義進行擴展.先標注一部分種子詞,對其利用詞關系進行擴展,再遍歷WordNet中的所有釋義,對釋義中含有種子詞的單詞,進行過濾消歧之后構成情感詞典.Baccianella等[11]使用半監(jiān)督機器學習,先通過WordNet擴展初始標注的種子情感詞集和客觀詞集.然后使用詞的釋義作為訓練集,構造一個三類(褒義、貶義、客觀)分類器,來判斷未知情感的釋義,以確定其對應的同義詞集中所有詞的極性,最后使用隨機游走(Random-walk)確定詞的得分,形成情感詞典.Esuli等[12]認為同義詞的釋義通常會包含同樣極性的其他詞,如果同義詞集合的釋義中包含另一個同義詞集的詞,則認為這兩個集合有聯(lián)系.

綜上所述,基于知識庫的方法不需要依賴于語料庫,僅依靠一個完備的語義知識庫,就能較快地得到情感詞典,并且該詞典能覆蓋大部分語料中的情感詞,通用性強,在對精度要求不高的情況下,該方法較為實用.但是對于英語以外的大部分語言,類似WordNet的語義知識庫相對缺乏,無法使用這類方法.即便使用基于知識庫的方法,由于知識庫內部、詞語之間的復雜關系,隨著迭代次數(shù)增多,準確率會下降,需要輔以其他方法來確定詞的極性.其次,基于知識庫的方法通常只能獲得一個通用的情感詞典.然而,情感知識庫存在領域適應問題(我們將在第5.1節(jié)詳細敘述),同一詞語在不同領域(甚至不同主題)下,可能表達出不同的情感.此時,基于知識庫的方法就不再適合.

3.2基于語料庫的方法

通用情感詞典能滿足大部分情感分析任務的需求.然而,為了解決某些特定領域的情感分析任務,或者為了提高情感分析的精度,需要使用領域情感詞典.領域情感詞典是根據(jù)某領域大量語料構建的情感詞庫,它具有領域特定、時效性高等特點.由于領域眾多,且新詞不斷涌現(xiàn),這些詞通常不能被通用詞典及時收錄.同時,由于各個領域的情感詞有所差異,特定領域的情感詞典用于另一領域時,詞典評估的召回率通常較低,所以鮮見針對某些特定領域的人工情感詞典發(fā)布,目前大多還是基于語料庫進行領域情感詞典構建.

語料相對于語義知識庫而言,其優(yōu)點是容易獲得且數(shù)量充裕.基于語料庫的方法能夠從語料中自動學習得到一部情感詞典,可以節(jié)省大量的人力、物力,同時,在不同領域的語料上可以得到領域特定的情感詞典,更加具有實用意義.我們總結了基于語料庫的情感詞典構建方法,并將其大致分為兩類:連詞關系法和詞語共現(xiàn)法,如表3所示.

表3 基于語料庫的情感詞典方法概述Table 3 Summary of the corpus-based approach

3.2.1連詞關系法

基于語料庫構建情感詞典的方法很多,其中最經(jīng)典的就是利用語句中的連詞來判斷前后詞語的情感極性關系.Hatzivassiloglou等[13]詳細總結了英語中的語言規(guī)則和連接模式,并通過大量實驗數(shù)據(jù)證明了連詞前后詞的極性關系,之后基于語料庫和情感種子詞集,識別形容詞的情感指向.具體地,首先提取出連詞連接的形容詞,標注其中高頻詞的極性,根據(jù)形容詞對在不同連詞下出現(xiàn)的次數(shù),使用log線性回歸模型來確定連詞前后的兩個詞具有相同還是相反的情感極性,接著使用聚類算法產(chǎn)生褒、貶兩個詞集,最后基于以下目標函數(shù)來調整這兩個集合:

其中,d(x,y)表示詞x,y的距離,通常同義詞間的距離較小,反義詞間的距離較大.|Ci|是聚類產(chǎn)生的詞集的大小,Φ是兩個集合內詞間距的總和,值越小,說明聚類效果越好.移動某個詞(如從C1到C2),若Φ值減小,說明集合間總距離減小,移動的單詞與C2中的單詞距離更接近,則移動;若變大,則不動.最后根據(jù)劃分,確定詞集極性.Kanayama等[14]先利用規(guī)則模式(比如“I think+v”、“not+v”)和句法分析的結果抽取情感詞,統(tǒng)計全語料中,上下文情感的一致性準確率和密度,設置閾值,篩選情感詞,再針對句內和句間情感進行一致性判別,認為連續(xù)出現(xiàn)的單詞具有相同的極性,只有遇到轉折詞的時候(比如“but”),情感極性才會反轉,以此判斷情感詞的極性.Huang等[15]利用連詞判斷單詞間的極性關系,并結合單詞形態(tài)上的否定形式(如:“X”和“unX”),構建情感極性約束矩陣,再利用逐點互信息(Pointwise mutual information,PMI),判斷單詞的情感極性.

連接關系法依賴連詞判斷前后文本的情感極性變化,以此判斷其中情感詞的極性變化,故該類方法主要適用于評論等主觀性較強,且句子間有情感變化的語料,如:商品評論,含有明顯的針對商品屬性的褒貶評價.實驗證明,即使是最簡單的連接關系法,也能在領域語料上表現(xiàn)出比通用詞典更好的性能[16].但是,連接關系法在構建領域情感詞典時,需事先得到候選情感詞集,再針對候選詞進行褒貶分類.語料中通常有很多情感詞,上述方法通常采用形容詞作為候選詞集,然而情感詞典可能包括動詞和名詞,甚至副詞,我們需要先把這些帶修飾性的、有情感極性的詞找出來,再利用相應算法確定極性.

3.2.2詞語共現(xiàn)法

逐點互信息(Pointwise mutual information,PMI)[18]是信息論和自然語言處理中的一個基本概念,它常被用來衡量兩個詞間的獨立性.其計算方式如式(3)所示:

其中,p(x,y)表示詞x和y一起出現(xiàn)的概率,p(x)表示詞x出現(xiàn)的概率,p(y)表示詞y出現(xiàn)的概率. pmi(x,y)表示詞x和y共現(xiàn)程度,值越大,兩者共現(xiàn)越頻繁,獨立性越小,兩者關系越緊密.

僅有PMI,只能用來判斷兩個詞的共現(xiàn)程度,還不足以用來判斷一個詞的極性.Turney[20]使用詞與正面、負面種子詞的緊密程度,來判斷一個詞的情感傾向(Sentiment orientation,SO).其計算方式如式(4)所示:

其中,w是待確定極性的情感詞,w+和w?分別表示正面和負面種子詞.若SO值大于閾值,說明詞跟正面詞更緊密,則其為正面詞的概率比較大,反之則為負面詞的概率較大,以此來確定詞的極性.

除了PMI,情感傾向的計算還可以借助其他統(tǒng)計模型得到.Turney等[21]采用一個詞與其鄰近詞的情感趨于一致的思想,同時結合了潛在語義分析(Latent semantic analysis,LSA),挖掘文檔中潛在的信息.通過計算單詞的SO-LSA,從大量語料中構建詞典.其計算方法如式(5)所示:

其中w為待確定極性的詞,w+和w?分別表示正面和負面種子詞.Pwords和Nwords分別表示正面詞集和負面詞集.Turney[20]基于AltaVista搜索引擎的NEAR操作,分別統(tǒng)計每個詞與“excellect”和“poor”的共現(xiàn)數(shù)量(間隔不超過10),并基于以下公式計算情感傾向.此時情感傾向SO的計算公式為

其中,hits即搜索引擎返回的共現(xiàn)數(shù)量.值得提起的是,這里的SO與上文我們給出的PMI和SO的計算方法[20]是等價的.

后續(xù)不少學者對該方法加以利用,提出了其他詞共現(xiàn)信息(或相似性)計算方法.Krestel等[22]首先利用LDA(Latent dirichlet allocation)將語料分為幾個主題,用評論的星數(shù)確定評論的情感傾向,之后將主題模型與sigmoid函數(shù)引入到PMI的計算中,得到情感詞的情感得分來判斷極性.Tai等[23]使用了二階共現(xiàn)點互信息(Second order cooccurrence PMI,SOC-PMI)來判斷短文本語料中詞的共現(xiàn)關系.SOC-PMI是針對短文本的一種處理方法,假定詞A、B一起出現(xiàn),詞A、C一起出現(xiàn),則通過SOC-PMI,我們可以得到詞B、C的相似關系.Wawer[24]基于Turney的思想,認為褒貶種子詞的選取對結果有較大的影響,于是采用了自動生成的方式,通過使用搜索引擎,依據(jù)部分固定模式檢索,獲取語料庫,從中獲得候選詞,對其構建詞頻矩陣后進行SVD操作,得到詞間潛在的關聯(lián),獲得褒貶種子詞,用于SO-PMI計算.Bollegala等[26]利用本領域標注評論和目標領域未標注的語料,先根據(jù)詞性選取候選詞;對每個候選詞,使用極性特征表示:首先將與候選詞一起出現(xiàn)的所有詞的極性標注為評論整體的極性,并用詞性代替詞,構成其特征.接著根據(jù)候選詞特征,使用PMI,并計算候選詞與已知情感詞的相關性來判斷其極性,構成情感詞典. Velikovich等[27]利用大量網(wǎng)頁構建詞典,先根據(jù)頻率和互信息篩選部分短句,之后利用N元文法構建特征向量,計算向量間的余弦值來衡量詞間的相似性.有些網(wǎng)頁中的某些表格會指明這一行或一列單詞的褒貶,Kaji等[30]基于這一思想從大量網(wǎng)頁中獲得正面和負面的詞.

PMI是衡量詞間相關性的一種有效方法.通過PMI值,我們能夠間接得獲取單詞間極性的相似性;在基于圖的方法(本文第3.3.1節(jié))中,PMI通常被用于構造詞相關性矩陣,再利用相似矩陣推導.

詞共現(xiàn)法考慮的是詞的相關性,通用性較強,適用于大部分語料,包括新聞語料等非主觀語料.相比連詞關系法,詞語共現(xiàn)法可以不指定候選情感詞集.但是共現(xiàn)法過分依賴于統(tǒng)計信息,只考慮詞語的共現(xiàn)情況,而缺少對復雜語言現(xiàn)象(如極性轉移問題)的建模,使得結果會存在一定偏差.如“東西不錯,就是貴”,未考慮轉折關系,使得“不錯”和“貴”的極性會被認為是一致的.而同樣地,“他很和善,一點都不挑剔”,由于未考慮否定關系,也會對“和善”、“挑剔”的情感關系作出錯誤的判斷.

3.3知識庫與語料庫結合的方法

基于語料庫的方法能利用大規(guī)模語料,無監(jiān)督地獲得領域特定的情感知識庫,但是與基于知識庫的方法相比,在準確率和通用性上尚有一定的欠缺.所以,目前很多方法將知識庫和語料庫結合起來.知識庫和語料庫都提供了詞與詞之間的關系,知識庫主要提供詞間標準的語義關系(同義、反義、上位、下位等),而語料庫則主要提供兩個詞在語料中的關系,包括位置信息、共現(xiàn)信息、情感保持、情感反轉等.利用現(xiàn)有知識庫作為先驗知識,提供精確的種子詞集,并結合語料庫中推導、約束信息,得到其他未知情感詞的極性,構成一個更為完善的領域情感知識庫.我們將這一類方法歸納為幾種常用的方法,如表4所示.

表4 知識庫與語料庫結合的構建方法Table 4 Summary of the combined approach of lexicon and corpus

3.3.1關系圖半監(jiān)督法

在標注資源不足的情況下,基于圖的方法常用于情感詞典構建.通常,該方法將詞看作節(jié)點,將詞間的相似度作為兩個連接節(jié)點的邊的權重,從部分已知極性的詞開始,推導未知極性的詞的情感傾向.Peng等[31]先利用WordNet中的同義詞、反義詞,對種子詞進行擴展;然后提取語料庫中用“and”和“but”連接的形容詞;最后根據(jù)同義詞關系和語料中“and”兩種關系構建一張關系圖,根據(jù)反義詞關系和語料中“but”關系構建一個限制矩陣,使用限制的非負矩陣分解(Constrained symmetric nonnegative matrix factorization,CSNMF)算法判斷極性,構成情感詞典.Tai等[23]使用了類似的方法,首先進行一些基礎的自然語言預處理(如詞性標注、詞干化),然后利用WordNet構建詞與詞之間的關系,使用依存分析器8http://nlp.stanford.edu/software/lex-parser.shtml#Download,獲取語料庫中單詞的連接關系構造關系矩陣,統(tǒng)計在一個窗口范圍內詞與詞之間共現(xiàn)信息,并計算二階共現(xiàn)點互信息,接著,結合WordNet、連接關系,以及SOC-PMI構建一個相似度矩陣,最后利用標簽傳播算法,來判斷未知極性情感詞的情感.同樣使用標簽傳播方法的還有文獻[15],它們先使用依存關系和現(xiàn)有通用情感詞典,提取語料中情感詞,同時提取標簽樣本中的高頻情感詞構造種子詞集.之后使用PMI構建相關性關系圖,同時抽取語料中的極性約束關系,包括連詞“and”和“but”等,以及詞在形態(tài)上的翻轉,如“X”和“unX”對文本情感造成的影響,用于定義約束關系矩陣,以推導出更多詞間的相關關系.最后使用標簽傳播算法,得到其他詞的情感傾向.等[25]還使用了潛在語義分析,獲得語義層的相似性,來幫助構建相似性矩陣,同時使用PMI、隨機索引(Random indexing,RI)、隨機游走算法獲得單詞相關性,之后根據(jù)構建的相似性矩陣,結合種子詞集,使用PageRank判斷其他詞的情感傾向. Esuli等[12]通過釋義,構建同義詞間關系后,以同義詞集為點,以集合間關系為邊,使用PageRank算法,分別得到褒、貶詞的傾向性排名,最后構成情感詞典.Rao等[32]將三種基于圖的半監(jiān)督算法(Mincut、randomized mincuts、label propagation)做了對比,分別利用這三種算法,對未知情感極性的詞進行標記,然后利用已有資源和一定數(shù)量的種子詞,確定未知詞的情感極性.

關系圖半監(jiān)督法同時利用知識庫和語料庫中的詞關系構建相關矩陣.該方法同時考慮了語料中轉折和共現(xiàn)對詞間關系的影響,再加上知識庫資源的約束,使得結果更加嚴謹,適用于大部分語料;然而,更多的約束條件使得后續(xù)算法迭代速度變得緩慢.此外,半監(jiān)督算法的運行結果,還依賴于初始標注種子詞的質量.如何選取合適的種子詞,是該類算法的一個重要問題.

3.3.2自舉半監(jiān)督法

自舉法(Bootstrapping)也是一類半監(jiān)督機器學習算法,其原理是利用少量標注樣本構建分類器,對未標注樣本進行預測,并將置信度較高的樣本添加到標注集中,訓練出一個相對完善的分類器. Volkova等[36]利用Bootstrapping思想,使用具有較強主觀性的詞作為初始詞典,將語料中包含一個主觀詞以上的句子視為主觀句.考慮否定詞的情況下,若一條語料中均為褒義/貶義,則將該條看成褒義/貶義.利用上一次迭代得到的詞典,計算詞屬于褒義、貶義的概率,并選取置信度較高的添加到詞典中,用于下次判斷.Zhang等[37]以少量帶標簽的文本和通用情感詞典作為輸入,使用Bootstrapping算法,對無標簽文本分類,然后按照轉折詞將帶標簽語料分成多個情感片段,使得情感片段內情感一致,再利用依存分析得到情感片段的依存關系,并獲取候選情感詞,最后利用整個情感片段的極性確定其中候選情感詞的極性,同時將其用于下一個情感片段的判斷.Weichselbraun等[38]首先利用初始情感詞典,結合否定詞,計算文檔的情感得分;然后設置得分閾值選取部分文檔構成語料庫;之后利用貝葉斯公式,分別計算單詞屬于正面、負面的概率,選取概率排名高的前m個單詞添加到情感詞典中(已經(jīng)在詞典中的,或者詞頻低于n的則不添加).反復多次,最后形成一個較為完整的情感詞典.Gao等[39]認為兩種語言的情感信息能用于相互提高分類器的學習.借助機器翻譯將英語和其他語言一一對應,以構建兩種語言間的關系R.利用co-training思想,分別使用英語和其他語言的標注數(shù)據(jù)集訓練分類器CE和CT,并使用CE、CT去預測各自數(shù)據(jù)集中未知極性的詞,選取置信度較高的n個,使用關系R,最終選取置信度最高的m個詞,添加標注數(shù)據(jù)集中,繼續(xù)訓練分類器.

自舉半監(jiān)督法是一種較為實用的方法,僅使用少量的標注信息,便可以擴展得到其他詞的情感傾向,適用于句型結構相似的語料.相比關系圖半監(jiān)督方法,在沒有語義知識庫的情況下,該方法也能使用,但對語料中包含的信息捕捉不夠全面,如其中的并列轉折關系,共現(xiàn)關系等.此類方法還有兩個較為重要問題值得關注.第一,初始標注數(shù)據(jù)的選擇.由于算法是通過不斷迭代來獲得其他詞的情感傾向的,所以若初始標注數(shù)據(jù)與語料關聯(lián)不大,或不是語料中具有代表性的情感詞,則會使得在判斷相關句子或詞的情感時,置信度偏低,影響判斷質量.第二,迭代過程中新添加的情感詞的質量控制.由于添加的情感詞會用于判斷其他句子或詞的情感傾向,若其中有較多錯分的情感詞,則會影響后續(xù)的判斷,使獲得的情感詞的準確率偏低.

3.3.3深度表示法

近年來,隨著神經(jīng)網(wǎng)絡和深度學習不斷發(fā)展和成功應用,“詞向量”(Word embedding)[44]成了自然語言處理領域(包括情感詞典構建)的一個熱門話題.Tang等[40]將情感詞典的構建視為對詞/短語的情感分類任務.他們使用Mikolov等[45]提出的skip-gram模型,依據(jù)大規(guī)模文本來訓練詞向量,并用詞向量均值來表示句子,使用三元組“〈短語,短語所在句子,短語極性〉”作為分類器輸入.分類器的訓練集,是通過Urban詞典擴展種子詞庫后獲得,最后使用Softmax regression分類器進行短語級別的文本分類,從而根據(jù)詞向量判斷其極性.梁軍等[41]提出了一種基于遞歸自編碼器(Recursive autoencoder,RAE)的情感極性轉移模型,該模型先將文本轉為低維實數(shù)向量(即詞向量),以建立文本表示矩陣,然后將其作為輸入,訓練時,將文本的否定考慮其中,使用LBFGS算法多次迭代生成最終的情感分析模型,來判斷單詞和短語的情感傾向.楊陽等[42]使用word2vec訓練詞向量,并使用大連理工情感詞典本體作為種子詞,從語料中選取與種子詞的余弦相似度大于0.8的詞作為備選后,再對備選集中每個詞計算與種子詞的余弦相似度,用于更新詞分別屬于褒貶的概率,最后判斷單詞的情感傾向.現(xiàn)有的一些詞向量訓練方法得到的結果,很可能出現(xiàn)兩個向量代表的詞,語義相近但極性完全相反,比如“好”和“壞”,Tang等[43]提出了一種新的方法,利用大量帶有弱監(jiān)督(Weakly-supervised)的tweets語料,在傳統(tǒng)的四層神經(jīng)網(wǎng)絡結構(look up、linear、hTanh、linear)C&W的基礎上做了改進,將情感信息融入到詞向量中,提出了三種改進模型:1)增加一個softmax層,使得在輸出詞向量之前,先進行一次情感分類,如果是褒義的,則結果為[1,0],貶義則為[0,1].2)作者認為上述的結果太過苛刻,對于諸如[0.7,0.3]這樣的結果,我們也可以認為是褒義的,所以去掉了softmax層,僅依靠輸出的褒貶概率,來判斷詞的情感傾向.3)前兩個模型都考慮了句子的情感極性,但忽略了詞的語境,作者在第三個模型中將語境的相關損失函數(shù)考慮其中.

深度學習是自然語言處理領域的近期研究熱點,在相似度計算和語義表示方面取得了突破性進展,具有廣闊的應用前景.但是,基于深度學習的文本隱式表示如何與基于規(guī)則的文本顯式表示很好地結合,是深度學習與情感詞典構建等自然語言處理任務中值得關注的一個問題.另外,一些深度學習方法對語料數(shù)據(jù)比較敏感,結論只適用于當前所用語料,而不具有通用性.

4 中文情感詞典構建方法

目前,中文的情感詞典構建方法研究相對較少.我們對這些方法進行了梳理,同樣按照基于知識庫、基于語料庫、知識庫與語料庫相結合三類分別進行總結,將這些工作對應歸納在表2~表4當中.

4.1基于知識庫的方法

在中文情感詞典構建方面,由于完備的漢語語義知識庫相對欠缺,純粹依靠知識庫方法的研究不是很多.柳位平等[2]利用HowNet進行擴展,先挑選出一部分常用的情感詞構成基礎情感詞語集,然后采用詞語義元距離計算相似度,得出每一個詞的情感傾向值,最終構成一個基礎情感詞典.楊超等[46]同時利用HowNet和NTUSD兩種資源,分別采用計算相似度和統(tǒng)計漢字詞頻的方式,判斷詞的情感傾向性.周詠梅等[47]使用跨語言方法,先獲取HowNet的英文義元,然后將義元與SentiWordNet對應,計算這些義元的平均情感強度,最終得到對應中文的情感強度.

4.2基于語料庫的方法

李勇敢等[48]是在中文依存句法分析的基礎上,對依存分析的結果進行剪枝和歸并,剪枝主要是刪除冗余信息(比如助詞及介詞標簽DEC、DEG、P等),歸并主要是將“不”和“佳”、“酒店”和“服務”這樣的詞合并為一個,方便處理,再利用一些依存規(guī)則進行情感詞的抽取和極性判斷.共現(xiàn)關系法也適用于構造中文情感詞典.Turney的PMI-IR算法中,為了確定已知詞和待確定詞的緊密程度,利用搜索引擎,對這些詞進行檢索,檢索到的信息再計算PMI值,從而找出與已知詞最相似的詞,構成同義詞詞典.陽愛民等[28]借用Turney的思想,利用種子詞與其他詞的百度搜索返回結果,計算詞的SO-PMI,來判斷詞的情感極性.魏志生等[29]通過計算所有形容詞、副詞與類別的MI值,取MI值最大的10%作為種子詞;再計算種子詞與各個類別的PMI值來確定種子詞的情感傾向.之后再計算候選詞和種子詞的SO-PMI來確定詞的情感極性.殷春霞等[49]認為語料中的相同評論對象(如:電影、新聞事件等)使用的同一個情感詞的情感傾向,通常在該評論對象的所有上下文中均是一致的.因此可以假設:只要語料足夠充分,通過詞匯間的上下文關系便可以計算任意兩個情感詞間的情感傾向關系.對于其中可能出現(xiàn)的關系沖突的情況,作者對兩個情感詞在語料中所有關系(轉折、非轉折、不存在關系)進行了統(tǒng)計分析,利用復雜網(wǎng)絡確定兩者關系. 4.3知識庫和語料庫相結合的方法

在中文評論語料相對缺乏的情況下,李壽山等[35]利用英文種子詞典,借助機器翻譯把原評論和對應的翻譯評論作為一篇文檔,計算其他詞與種子詞的PMI;然后利用詞之間的PMI值,構建連接矩陣,借助標簽傳播算法將英文的情感詞極性傳播到中文詞上,克服中文在現(xiàn)有資源上的一些劣勢,從而構建情感詞典.He等[50]使用英語的詞典資源及機器翻譯技術,進行跨語言情感分類.作者認為,在發(fā)表評論的時候,會先考慮文檔的整體情感,然后再考慮用詞,于是使用LDA來對文檔的三個主題(褒義,貶義,中性)建模,并根據(jù)單詞的概率分布,對其進行情感分類.Xu等[33]基于人民日報1997~2004、哈工大同義詞詞林、現(xiàn)代漢語詞典,結合擁有公共字的詞相似度比較大的思想,構建四個相似度矩陣;接著挑選并標注一部分種子詞,用于迭代推導未知詞的情感極性,并人工糾正迭代過程中產(chǎn)生的錯誤.王昌厚等[51]使用基于模式的Bootstrapping方法,找出種子詞所在的上下文模式,提取該模式,接著用提取到的模式抽取新的情感詞,然后循環(huán)該過程.比如,“總體還不錯吧”,其中“不錯”是一個情感詞,于是抽取出的模式就是“很+instance+吧”,用這個模式能繼續(xù)抽取其他情感詞.李榮軍等[34]提出了基于PageRank模型情感詞極性判斷方法,利用HowNet語義相似度構造相似矩陣,然后使用PageRank算法進行迭代計算.在開始迭代前,考慮到一些待確定情感詞連接權重較低的節(jié)點的“投票”可能不可靠,也為保證迭代收斂,對種子詞相似矩陣、待確定詞相似矩陣和極性矩陣做了一些處理.王科等[16]利用語料中的連接關系,依據(jù)轉折詞和否定詞對文本情感極性產(chǎn)生的影響,將單詞劃分成兩個集合,并利用通用情感詞典中情感表達明確的詞對判斷結果進行糾錯.對部分有歧義的情感詞,將其與所描述的對象相結合起來,作為一個情感詞.

4.4中文情感詞典構建尚存的問題

中文情感詞典構建相對于英文而言,存在著無可爭議的差距,這些差距的原因,主要有如下幾個方面:首先,中文知識庫和語料庫資源缺乏.可使用的知識庫與語料庫資源數(shù)量和質量,是影響情感詞典構建的主要因素.英語情感分析的研究不但起步較早,且具有完善的語義知識庫(如:WordNet),為英文情感詞典構建工作帶來了巨大的便利.除了知識庫資源,英語還有大量公開的且得到業(yè)內普遍認可的標注、無標注語料庫資源,然而在中文領域卻尚缺類似WordNet的語義知識庫,目前也并沒有形成太多公認的語料庫.因此,中文情感詞典構建工作與英文相關工作相比,還存在較大差距.

其次,中文語言分析工具不夠成熟.中文情感詞典構建首先需要進行中文分詞,然而現(xiàn)有的分詞系統(tǒng)在開放語料上的性能還不夠成熟,很多新詞、未登錄詞不能夠正確識別.除了分詞外,其他語言分析工具,如:詞性標注、句法分析等,中文與英文的準確率也存在一定差距.這些是導致情感詞典質量下降的一個重要因素.

此外,漢語博大精深,對于同一句話也可能會有不同的理解,比如:“中國隊大敗美國隊”,由于可能存在中文介詞省略的用法,即“中國隊大?。ㄓ冢┟绹牎保沟镁渥拥那楦型耆喾?;“冬天:能穿多少穿多少”、“夏天:能穿多少穿多少”.兩句中的“多少”,前者正確的分詞應該是“多少”,表示盡可能多,而后者的正確分詞應該是“多/少”,表示盡可能少.漢語語言的復雜性也是影響中文情感詞典構建性能的一個原因.

5 情感詞典構建的難點問題

在情感詞典構建過程中,有很多難點問題需要特別對待,部分難點問題如表5所示.

5.1情感詞典領域適應問題

公開的通用詞典準確率是毋庸置疑的,對這些資源加以改造和利用,構造領域知識庫,能降低噪音影響,提高準確率.Choi等[52]嘗試把一個通用的詞典運用到特定領域的情感分類.他們使用整數(shù)線性規(guī)劃(Integer linear programming),利用表達式級的情感來改進通用情感詞典,并用改進后的詞典來提升表達式級文本的情感判斷性能.Huang等[15]使用半監(jiān)督學習的方法,結合通用情感詞典,判斷領域內單詞的情感極性.除了通用情感詞典之外,現(xiàn)有的很多詞典,都是領域詞典,結合對應的語料庫,利用詞與文檔間的關系,能構建跨領域的情感詞典.Du等[53]利用標記的文檔和其對應的情感詞典,生成另一個未標記領域的情感詞典.雖然兩個領域分布不同,但是也可以找出它們的共同部分.對于未標記文檔,他們的兩個基本假設是:如果一個文檔中包含許多正面(負面)詞,那么這個文檔就是正面(負面)的,并且一個單詞如果出現(xiàn)在許多正面(負面)文檔中,那么這個單詞就是正面(負面)的,它們是相互增強的關系,之后使用信息瓶頸方法(Information bottleneck method)來構建領域詞典.Li等[54]通過選取一部分兩個領域共同的情感詞作為種子詞,并通過句法分析,獲得主題詞與情感詞之間的關系,之后再根據(jù)兩者構建領域種子詞.使用一種基于Bootstrapping的方法來擴展種子詞集,先用原領域詞典構建分類器對目標領域情感詞分類,選取置信度較高的k個新詞,用于構建主題-情感詞關系圖,并計算目標領域單詞的情感得分,多次迭代獲得所有情感詞的情感得分.

5.2屬性-情感詞對構建問題

不管是基于語料庫的方法還是語料庫與知識庫結合的方法,雖然能夠找到特定領域的情感詞和它們的情感指向,但在實際應用中還是不夠的.Ding等[55]指出,許多單詞在同一個領域的不同文本中,可能會有不同的情感指向.如相機領域,“長”在描述電池續(xù)航時間和聚焦時間上的情感極性是相反的.要解決這個問題,最好的方法就是將情感詞的情感傾向與屬性對應.Lek等[56]首先構造一個屬性詞和情感詞提取器,經(jīng)依存分析之后,根據(jù)英文語法的常用組合模式來同時提取屬性詞及其對應情感;對提取的結果先進行屬性集聚類,再利用WordNet對情感詞和屬性詞的近義詞進行合并,最后對情感詞分類,構成情感詞典.Qiu等[57]同時擴展屬性詞和情感詞.他們使用句法依存關系,抽取情感詞之間、特征之間、以及情感詞和特征之間的關系,擴展屬性詞庫和情感詞庫.最后,他們根據(jù)轉折詞和否定詞判斷情感,并作為特征用于分類,提高準確率.Xia等[17]對情感詞所在句子的內部特征作了進一步分析,增加了評價詞語的修飾副詞和情感詞等,并使用句子之間的連詞規(guī)則,通過貝葉斯分類器對屬性依賴詞進行極性判斷.Balahur等[58]使用三種策略的多數(shù)投票結果作為屬性-情感詞對的極性,三種策略分別是基于上下文的有監(jiān)督學習、基于網(wǎng)絡查詢的最高點擊,以及基于規(guī)則的方法.這里的網(wǎng)絡查詢形如:〈屬性+評價詞語+and+預定義褒貶義詞〉,例如:“價格高并且好”,“價格高并且差”,取返回結果數(shù)最多的類別作為屬性-情感詞對的極性.

5.3情感詞消歧問題

同一個單詞通常具有多種釋義,這些釋義可能會具有不同的情感極性;此外,語言有語境和語氣上的問題,不同語境或者不同語氣下的同一句話,可能會導致相反結果.比如:“我為你驕傲!”,“他一有點成就,就會驕傲”.這里的“驕傲”顯然具有相反的含義.Dragut等[59]使用WordNet把已知情感極性的單詞作為輸入,產(chǎn)生同義詞集合的情感指向.在產(chǎn)生過程中,針對同一單詞的不同釋義的情感極性可能會有所不同的情況,以使用頻率多的釋義的極性來表示這個單詞的情感極性,然后推導出的同義詞集合的情感指向能進一步用來推導其他單詞的極性. Wu等[60]提出了根據(jù)現(xiàn)有知識對情感詞消歧的方法.針對中文中的“大、小、多、少、高、低”等14個高頻屬性依賴詞,通過對屬性詞和修飾形容詞的副詞(“有點”、“那么”)的判斷,使用固定模式來判斷詞的情感.對于無法用模式判斷的屬性詞X,作者通過HowNet、百度搜索結果、PMI值,將X與已知的屬性詞關聯(lián)起來,判斷情感傾向.中文在構建情感詞典時,通常會引入已有資源幫助消歧.謝松縣等[61]將中文翻譯與SentiWordNet結合使用,對單詞的所有釋義進行加權計算,獲得唯一的褒貶得分,從而達到消歧的目的.

5.4含蓄情感詞問題

含蓄情感詞是指這樣一些詞,它們在通常情況下是中性或客觀的,但是在某些特定上下文中,它們會表現(xiàn)出一定的情感.Feng等[62]研究了含蓄字典的問題.情感詞典一般是直接或者間接表達情感,而含蓄字典一般和情感的特殊極性有關,比如“award”和“promotion”一般是正面的,而“war”、“cancer”一般是負面的.這些詞也屬于主觀詞,需要加入到情感詞典中.Zhang等[63]提出了一個確定名詞和名詞詞組特征的方法,同時也暗示了特定領域的情感.這些單獨的名詞和名詞詞組沒有情感,但是在某一領域的文本中,也許表達了一些情感.比如“山谷”和“山”,一般沒情感,但是在描述床墊的時候,一般是貶義的.Balahur等[64]基于常識構建行為反應鏈庫,針對不同的反應行為鏈,來判斷主體的情感.

5.5新情感詞問題

隨著網(wǎng)絡的迅速發(fā)展,生活中出現(xiàn)了越來越多的網(wǎng)絡詞,這些詞有些是舊詞新用(比如:“灌水”),有些是借鑒了一些方言(比如:“給力”),還有些是自造的(比如:“喜大普奔”).處理好它們的分詞和詞性標注工作,就能用現(xiàn)有的情感判斷方法識別.Huang等[66]使用種子詞和模板結合的方法發(fā)現(xiàn)情感新詞,模板為種子詞的上下文語境,如“太*了”、“都*的”等,利用模板迭代尋找新的情感詞,迭代過程中僅更新情感詞前的副詞和后面的助詞.在這之前,作者首先衡量了模板的有效性,之后根據(jù)有效性,每次迭代計算置信度,選取置信度較高的詞添加到種子詞中.張清亮等[67]利用PMI-IR方法,結合種子詞,來判斷網(wǎng)絡詞的情感極性.而在英文中,詞的改變通常會使用一些夸張的手法,比如“cooooooooool”形容非常冷.Brody等[65]通過對詞長的研究,來判斷對情感的影響.

5.6情感詞情感強度問題

情感強度是情感詞典的一個屬性.它是情感詞表現(xiàn)出的程度值.如描述建筑時,“好看”表現(xiàn)出的情感強度要小于“輝煌”.情感強度對情感詞典的現(xiàn)實應用具有重要的價值.值得一提的是,詞語共現(xiàn)法(本文第3.2.2節(jié))涉及到的SO-PMI及相關方法,均可以得到單詞的情感強度.Williams等[68]認為,在語義關系圖中,詞的路徑權值,與兩個詞的公共釋義數(shù)相關,公共釋義越少,則權值越大.再分別計算詞到一對褒貶種子詞的加權距離,以此來表示詞的極性強度,如式(7)所示:

其中,G(w+,w?)表示關系圖中詞w+到w?的最短距離.Kim等[6]利用WordNet中的同義詞關系來計算單詞的情感強度.對于一個未知極性的詞,通過查找其同義詞與種子詞的極性關系,來近似計算單詞的褒貶強度,以絕對值大小確定該詞的情感極性和情感強度,計算方法如式(8)所示:

其中,fk為詞w屬于c類情感的同義詞,count(fk,synset(w))為fk在w的同義詞集中出現(xiàn)的次數(shù). Esuli等[69]認為情感相近的詞具有相似的釋義,通過對每一個同義詞集的釋義使用TF-IDF技術,來對同義詞集進行向量化表示,之后將K 分別取0、2、4、6時得到的同義詞集向量(K 為同義詞集通過WordNet迭代擴充的次數(shù)),并使用支持向量機和樸素貝葉斯分類器分別對詞進行極性判斷,最后結合這8個結果對單詞的情感極性打分.Baccianella等[11]用詞與同義詞集釋義的包含關系建立關系圖后,以兩個隨機游走算法分別求單詞的褒貶得分,由于得分普遍偏低,對其進行指數(shù)加權后,進行兩者對比,確定詞的最終情感傾向和情感得分. Kumar等[70]使用Hatzivassiloglou等[13]的思想,依據(jù)語料庫中的連接和轉折關系,判斷詞與種子詞的相似度,并用種子詞的情感強度與兩詞相似度的乘積作為該詞的情感強度值.Lu等[71]從語料庫中抽取形容詞間的并列關系,構建關系網(wǎng)絡,然后用搜索引擎查找相連接的單詞對,按返回數(shù)來計算兩個單詞節(jié)點間的權重,之后使用傳播算法迭代更新,得到每個詞的強度.柳位平等[2]在構建情感詞典時,通過知網(wǎng)的語義相似度計算方法,計算兩個詞的語義距離,用情感詞與種子詞語義關聯(lián)的緊密程度作為其情感強度.Gatti等[72]利用SentiWordNet來計算單詞的情感強度,分別提出了八種計算方式:1)隨機取值.2)隨機取詞的一種釋義,在SentiWord-Net中查找其褒/貶情感得分,作為該詞的情感強度. 3)選取詞的第一個釋義對應的褒/貶情感得分作為該詞的情感強度.4)分別使用詞的平均褒/貶情感得分作為該詞的情感強度.5)分別使用詞非零褒/貶情感得分的平均值作為該詞的情感強度.6)分別選取詞最大的褒/貶得分作為其情感強度,若兩者相同,則求最大值對應釋義編號與釋義總數(shù)的商,商較大的釋義對應的情感為單詞的情感.7)和8)均按照使用頻率,對詞的情感得分乘以調和系數(shù)的均值作為其褒/貶情感.Schneider等[73]利用線性最優(yōu)理論,結合WordNet等現(xiàn)有詞典中詞及其褒義、貶義和中性釋義的數(shù)量,來獲得詞分別屬于這三類的概率,取概率最大的作為詞的極性,值為詞的情感得分.

6 情感詞典性能評估

我們將情感詞典的性能評估方式分為直接評估方法和間接評估方法.直接評估通過生成詞典與標準詞典比較得到;間接評估則將情感詞典應用到情感分析任務中,通過情感分析結果來評價詞典的性能.

6.1直接評估方法

直接評估方法主要是直接對詞典本身進行評估,其中一種方法是取詞典中一定比例(如:50/100/200)或者全部的詞,人工判斷或與通用情感詞典對比情感詞的極性是否正確,以這些詞的準確率來衡量情感詞典的性能.當詞典的排序按置信度或情感強度排序時,排名靠前的情感詞的準確率對詞典性能的評估尤為重要.

另一種直接評估的方法是將情感詞典與經(jīng)過人工標注的情感詞典進行比較,計算精確率(Presicion)、召回率(Recall)和F1值:

其中,right_hit為被正確檢索到的數(shù)目,all_hit為被檢索到的總數(shù),all_related為應該檢索到的數(shù)目.

相關工作中,文獻[5,8,31?32,56,62,74?75]等通過與通用情感詞典(如:GI)或人工標注結果的對比,來評估它們構建的情感詞典的性能.但是,在進行人工標注時,尤其涉及到情感強度的標注時,由于標注人員的主觀性,通常需要kappa統(tǒng)計量進行標注一致性檢測,來使標注結果更加可靠.

6.2間接評估方法

詞典性能的好壞,還可以結合它在情感分析中的應用情況來進行評估.性能好的詞典,能夠提高文本情感分析的各項指標結果.間接評估情感詞典的方法有很多,在屬性級情感分析任務中,一般做法是,找出屬性及其對應的情感詞,結合上下文語境和情感詞典來判斷情感詞的極性,與標準數(shù)據(jù)對比,計算精確率、召回率和F1值,從而評價不同情感詞典的性能[55].

情感詞典是無監(jiān)督句子/篇章級情感分析任務的主要依據(jù).Kaji等[30]利用生成的情感詞典,對文本進行句子級情感分類,并與其他方法構建的詞典進行性能對比.Choi等[52]采用條件隨機場(Conditional random fields,CRF)方法,在句子級的情感分類任務上,對比了是否使用詞典對結果產(chǎn)生的影響.對于監(jiān)督學習方法,柳位平等[2]采用監(jiān)督學習的方法來衡量詞典的優(yōu)劣,即以得到的情感詞作為特征進行文本分類,通過比較分類準確率的高低來衡量詞典的好壞.楊鼎等[76]對比了卡方檢驗和情感詞典作為文本特征,通過支持向量機進行文本情感分類的性能,認為情感詞典的效果相比卡方檢驗的結果有所提升.王科等[16]通過與COAE 2008任務三提供的標準答案對比,判斷情感詞典在語料上的精確率、召回率和F1值.

6.3國內外相關評測競賽

自2006年起,國內外相關組織逐漸發(fā)起了一系列情感分析測評比賽,如TREC(Text retrieval conference)、SemEval(Semantic evaluation)、中文傾向性分析評測(Chinese opinion analysis evaluation)等.我們在表6中總結了這些情感分析評測中與情感詞典構建相關的任務.TREC在2006年首次引入了博客檢索任務,更多的研究者致力于該任務的研究.情感信息檢索要求檢索到的文檔必須同時滿足兩個準則:主題相關和具有情感傾向[77]. SemEval是國際權威的語義分析相關評測,由早先成立的詞義消歧測評Senseval發(fā)展而來,目前已經(jīng)涉及文本語義相似度計算、語義分析、空間角色標注等多方面的任務.COAE是由中國中文信息學會信息檢索專業(yè)委員會組織的中文情感分析測評競賽,涉及不同環(huán)境、不同粒度的情感分析任務.

表6 相關測評競賽Table 6 Related evaluation contest

在TREC 2008的情感分析任務中,Lee等[78]以平均精確率(Mean average precision,MAP)0.4052的成績取得了較好的成績,他們在構建情感詞典時,使用亞馬遜帶星級的的評論語料庫,并結合SentiWordNet來判斷單詞的情感傾向,將4~5星的認為褒義,1~2星的為貶義,之后使用EM算法來估計p(pos|w)和p(neg|w),判斷詞w的情感傾向.Xu等[79]在SemEval 2010中,通過HowNet計算屬性詞與已知詞的相似度,來擴展部分屬性詞,構建〈屬性,情感詞〉種子對,若屬性依賴情感在種子對中,則直接判斷;若屬性依賴情感所在句子與已知情感詞相鄰,則結合轉折否定規(guī)則,判斷其情感,同時更新種子詞集.當依賴屬性的情感詞獨立出現(xiàn)時,通過對句子中已知情感詞的得分進行累加,判斷句子情感,從而判斷情感詞極性;若仍無法確定,則句子Sj的情感P(Sj)用上下文加權后計算.最后獲得了宏平均0.953,微平均0.936的成績.在SemEval 2014的情感詞典分析任務中,Toh等[80]使用Opinion Lexicon作為種子詞庫,并手動添加了部分餐館領域的種子詞.為擴大覆蓋率,作者又通過同義/反義關系進行擴充;之后使用雙向傳播算法擴展情感詞和屬性詞.由于部分情感詞依賴于它所描述的屬性,作者分別構建了通用情感詞庫和具有屬性依賴的情感詞庫.對于屬性依賴的情感詞,使用通用情感詞典,結合上下文語境來確定其極性.在給定訓練語料(筆記本/餐館)的情況下,F(xiàn)1值分別為:73.78和83.98.SemEval 2015中,Saias等[81]也在上述兩個領域的語料中,以準確率0.7934和0.7869勝出.他們的方法是,通過提取句子主干,包括否定關系、轉折關系、動詞、形容詞詞根等,再利用通用情感詞典發(fā)現(xiàn)情感詞進行監(jiān)督學習,來判斷屬性對應的情感,尤其是具有屬性依賴的情感詞的情感.在COAE競賽中,劉軍等[82]直接使用HowNet作為情感詞典,利用句法分析工具,找出與情感詞相關的依存關系,并結合語言規(guī)則,分析情感詞所處的上下文,深入分析情感詞的情感極性.獲得了P@100(前100個詞的準確率,下同)0.88,P@1000為0.925的成績.在COAE 2009中,徐戈等[83]人工標注一些情感色彩鮮明的詞作為種子詞,之后通過多個語料,分別求詞間的相似度并融合得到矩陣W.之后結合奇異值分解技術,獲得單詞的評分.最終F1得分為0.1675.在COAE 2011的情感分析任務中,徐睿峰等[84]使用現(xiàn)有的幾個情感知識庫(褒義詞、貶義詞詞典,HowNet,NTUSD等),對其進行合并構成情感詞典,初步實驗后發(fā)現(xiàn)金融領域情感詞覆蓋率低.于是通過一系列方法來擴展情感詞典,如:用并列連詞關系、高頻共現(xiàn)關系、固定模式“副詞+評價詞”等.最后在電子、影視、金融三個領域的上,平均結果為:F1:0.1476,P@1000:0.5713.由于微博中情感新詞較多,分詞時往往會被錯誤切分,廖健等[85]等利用互信息,對分詞結果進行重組,并根據(jù)詞性組合規(guī)則,如“名詞+形容詞”,來發(fā)現(xiàn)情感新詞.之后借用外部情感詞典,根據(jù)新詞與詞典中詞的PMI值,獲取新詞的情感強度.在COAE 2014中,得到F1值為0.166.

7 總結與展望

本文對情感詞典自動構建方法進行了綜述.從所需資源的角度,我們將情感詞典自動構建方法歸納為三大類:基于知識庫的方法、基于語料庫的方法和基于知識庫和語料庫相結合的方法;從方法論的角度,我們將每一大類方法又分成若干小類.按照這樣的體系,本文對中英文情感詞典自動構建主要文獻進行了詳細回顧和總結,闡述了每一類方法的優(yōu)點與缺陷,分析和歸納了情感詞典構建任務中的若干難點問題.此外,本文還對現(xiàn)有情感知識庫、情感詞典評估方法、情感詞典構建相關評測競賽進行了總結.

作為情感分析的一個基礎任務,盡管情感詞典自動構建已經(jīng)得到了廣泛關注和深入研究.但是仍然存在很多問題,亟待在未來工作中進一步解決和完善.對此,我們作出以下幾點展望:

1)情感詞典構建難點問題的突破

我們在第5節(jié)已經(jīng)總結了情感詞典構建的若干難點問題.到目前為止,大部分問題并沒有得到完善的解決.因此,期望在情感詞典構建研究上取得更好的進展,需要在這些難點問題的解決方法上有所突破.

2)自然語言處理基礎資源的完善

英文情感詞典自動構建工作相對成熟,其重要原因在于英文具有較為完善的詞典資源和相對成熟的自然語言分析工具.我們在第4.4節(jié)曾總結了中文情感詞典構建工作面臨的幾點困難,中文自然語言處理基礎資源不完善是其中一個重要因素.因此,在未來工作中,以期提高中文情感詞典自動構建的性能,需要著力于建立完善的中文詞典資源和提高中文自然語言分析工具的性能.

3)深度學習等新技術方法的應用

深度學習是近幾年機器學習、人工智能領域迅速發(fā)展的研究熱點.在自然語言處理領域,基于深度學習的文本表示技術也得到了長足的進展和廣泛的應用.如何進一步利用深度學習等新興技術方法,更加豐富地挖掘詞匯的情感信息,更加深刻地度量情感詞的相似性也是情感詞典自動構建工作一個值得關注的方向.

References

1 Hu M Q,Liu B.Mining and summarizing customer reviews. In:Proceedings of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2004.168?177

2 Liu Wei-Ping,Zhu Yan-Hui,Li Chun-Liang,Xiang Hua-Zheng,Wen Zhi-Qiang.Research on building Chinese basic semantic lexicon.Journal of Computer Applications,2009,29(10):2875?2877(柳位平,朱艷輝,栗春亮,向華政,文志強.中文基礎情感詞詞典構建方法研究.計算機應用,2009,29(10):2875?2877)

3 Liu B.Sentiment Analysis and Opinion Mining.San Rafael,CA:Morgan&Claypool Publishers,2012.

4 Strapparava C,Valitutti A.WordNet-affect:an affective extension of wordNet.In:Proceedings of the 2004 International Conference on Language Resources and Evaluation. Lisbon:LREC,2004.1083?1086

5 Neviarouskaya A,Prendinger H,Ishizuka M.SentiFul:a lexicon for sentiment analysis.IEEE Transactions on Affective Computing,2011,2(1):22?36

6 Kim S M,Hovy E.Determining the sentiment of opinions. In:Proceedings of the 20th International Conference on Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2004.1367?1377

7 Blair-Goldensohn S,Hannan K,McDonald R,Neylon T,Reis G,Reynar J.Building a sentiment summarizer for local service reviews.In:Proceedings of the WWW2008 Workshop:NLP in the Information Explosion Era.Beijing,China:NLPIX,2008.200?207

8 Kamps J,Marx M,Mokken R J,De Rijke M.Using wordnet to measure semantic orientations of adjectives.In:Proceedings of the 4th International Conference on Language Resources and Evaluation.Paris:European Language Resources Association,2004.1115?1118

9 Hassan A,Abu-Jbara A,Jha R,Radev D.Identifying the semantic orientation of foreign words.In:Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2011.592?597

10 Andreevskaia A,Bergler S.Mining WordNet for a fuzzy sentiment:sentiment tag extraction from wordNet glosses.In: Proceedings of the 2006 Conference of the European Chapter of the Association for Computational Linguistics.Budapest:EACL,2006.209?216

11 Baccianella S,Esuli A,Sebastiani F.Sentiwordnet 3.0:an enhanced lexical resource for sentiment analysis and opinion mining.In:Proceedings of the 2010 International Conference on Language Resources and Evaluation.Malta:LREC,2010.2200?2204

12 Esuli A,Sebastiani F.PageRanking wordNet synsets:an application to opinion mining.In:Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics.Prague:Association for Computational Linguistics,2007.424?431

13 Hatzivassiloglou V,McKeown K R.Predicting the semantic orientation of adjectives.In:Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,1997. 174?181

14 Kanayama H,Nasukawa T.Fully automatic lexicon expansion for domain-oriented sentiment analysis.In:Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA,USA:Association for Computational Linguistics,2006.355?363

15 Huang S,Niu Z D,Shi C Y.Automatic construction of domain-specific sentiment lexicon based on constrained label propagation.Knowledge-Based Systems,2014,56:191?200

16 Wang Ke,Xia Rui.An approach to Chinese sentiment lexicon construction based on conjunction relation.In:Proceedings of the 14th China National Conference on Computational Linguistics.Guangzhou,China:CCL,2015.(王科,夏睿.一種基于連接關系的情感詞典構建方法.見:第十四屆全國計算語言學學術會議.廣州:中國中文信息學會,2015.)

17 Xia Y Q,Cambria E,Hussain A,Zhao H.Word polarity disambiguation using Bayesian model and opinion-level features.Cognitive Computation,2014,7(3):369?380

18 Church K W,Hanks P.Word association norms,mutual information,and lexicography.Computational Linguistics,1990,16(1):22?29

19 Turney P D.Mining the web for synonyms:PMI-IR versus LSA on TOEFL.In:Proceedings of the 12th European Conference on Machine Learning.Berlin Heidelberg:Springer,2001.491?502

20 Turney P D.Thumbs up or thumbs down?:semantic orientation applied to unsupervised classification of reviews.In: Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2002.417?424

21 Turney P D,Littman M L.Measuring praise and criticism: inference of semantic orientation from association.ACM Transactions on Information Systems,2003,21(4):315?346

22 Krestel R,Siersdorfer S.Generating contextualized sentiment lexica based on latent topics and user ratings.In:Proceedings of the 24th ACM Conference on Hypertext and Social Media.New York,NY:ACM,2013.129?138

23 Tai Y J,Kao H Y.Automatic domain-specific sentiment lexicon generation with label propagation.In:Proceedings of the 2013 International Conference on Information Integration and Web-based Applications&Services.New York,NY:ACM,2013.191?200

24 Wawer A.Mining co-occurrence matrices for SO-PMI paradigm word candidates.In:Proceedings of the Student Research Workshop at the 13th Conference of the European Chapter of the Association for Computational Linguistics. Stroudsburg,PA,USA:Association for Computational Linguistics,2012.74?80

26 Bollegala D,Weir D,Carroll J.Using multiple sources to construct a sentiment sensitive thesaurus for cross-domain sentiment classification.In:Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies.Stroudsburg,PA,USA:Association for Computational Linguistics,2011.132?141

27 Velikovich L,Blair-Goldensohn S,Hannan K,McDonald R. The viability of web-derived polarity lexicons.In:Proceedings of the 2010 North American Chapter of the Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2010.777?785

28 Yang Ai-Ming,Lin Jiang-Hao,Zhou Yong-Mei.Method on building Chinese text sentiment lexicon.Journal of Frontiers of Computer Science and Technology,2013,7(11): 1033?1039(陽愛民,林江豪,周詠梅.中文文本情感詞典構建方法.計算機科學與探索,2013,7(11):1033?1039)

29 Wei Zhi-Sheng,Ji Yang-Sheng,Luo Chun-Yong,Chen Jia-Jun.Generative sentiment classification model affiliating domain-specific sentiment lexicons.Journal of Frontiers of Computer Science and Technology,2011,5(12):1105?1113(魏志生,吉陽生,羅春勇,陳家駿.加入領域先驗知識的產(chǎn)生式情感分類模型.計算機科學與探索,2011,5(12):1105?1113)

30 Kaji N,Kitsuregawa M.Building lexicon for sentiment analysis from massive collection of HTML documents.In:Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Prague:Association for Computational Linguistics,2007.1075?1083

31 Peng W,Park D H.Generate adjective sentiment dictionary for social media sentiment analysis using constrained nonnegative matrix factorization.In:Proceedings of the 15th International AAAI Conference on Weblogs and Social Media.Menlo Park,CA:AAAI Press,2011.273?280

32 Rao D,Ravichandran D.Semi-supervised polarity lexicon induction.In:Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2009.675?682

33 Xu G,Meng X F,Wang H F.Build Chinese emotion lexicons using a graph-based algorithm and multiple resources.In: Proceedings of the 23rd International Conference on Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2010.1209?1217

34 Li Rong-Jun,Wang Xiao-Jie,Zhou Yan-Quan.Semantic orientation computing using PageRank model.Journal of Beijing University of Posts and Telecommunications,2010,33(5):141?144(李榮軍,王小捷,周延泉.PageRank模型在中文情感詞極性判別中的應用.北京郵電大學學報,2010,33(5):141?144)

35 Li Shou-Shan,Li Yi-Wei,Huang Ju-Ren,Su Yan.Construction of Chinese sentiment lexicon using bilingual information and label propagation algorithm.Journal of Chinese Information Processing,2013,27(6):75?81(李壽山,李逸薇,黃居仁,蘇艷.基于雙語信息和標簽傳播算法的中文情感詞典構建方法.中文信息學報,2013,27(6):75?81)

36 Volkova S,Wilson T,Yarowsky D.Exploring sentiment in social media:bootstrapping subjectivity clues from multilingual twitter streams.In:Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Sofia,Bulgaria:Association for Computational Linguistics,2013.505?510

37 Zhang Z,Singh M P.ReNew:a semi-supervised framework for generating domain-specific lexicons and sentiment analysis.In:Proceedings of the 52nd Annual Meeting on Association for Computational Linguistics.Baltimore,Maryland,USA:Association for Computational Linguistics,2014. 542?551

38 Weichselbraun A,Gindl S,Scharl A.Using games with a purpose and bootstrapping to create domain-specific sentiment lexicons.In:Proceedings of the 20th ACM international conference on Information and knowledge management.New York,NY,USA:ACM,2011.1053?1060

39 Gao D H,Wei F R,Li W J,Liu X H,Zhou M.Co-training based bilingual sentiment lexicon learning.In:Proceedings of the Twenty-Seventh AAAI Conference on Artificial Intelligence.Menlo Park,CA:AAAI Press,2013.26?28

40 Tang D Y,Wei F R,Qin B,Zhou M,Liu T.Building large-scale twitter-specific sentiment lexicon:a representation learning approach.In:Proceedings of the 25th International Conference on Computational Linguistics.Dublin,Ireland:COLING,2014.172?182

41 Liang Jun,Chai Yu-Mei,Yuan Hui-Bin,Zan Hong-Ying,Liu Min.Deep learning for Chinese micro-blog sentiment analysis.Journal of Chinese Information Processing,2014,28(5):155?61(梁軍,柴玉梅,原慧斌,昝紅英,劉銘.基于深度學習的微博情感分析.中文信息學報,2014,28(5):155?61)

42 Yang Yang,Liu Long-Fei,Wei Xian-Hui,Lin Hong-Fei. New methods for extracting emotional words based on distributed representations of words.Journal of Shandong University(Natural Science),2014,49(11):51?58(楊陽,劉龍飛,魏現(xiàn)輝,林鴻飛.基于詞向量的情感新詞發(fā)現(xiàn)方法.山東大學學報(理學版),2014,49(11):51?58)

43 Tang D Y,Wei F R,Yang N,Zhou M,Liu T,Qin B.Learning sentiment-specific word embedding for twitter sentiment classification.In:Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore,Maryland,USA:Association for Computational Linguistics,2014.1555?1565

44 Collobret R,Weston J,Bottou L,Karlen M,Kavukcuoglu K,Kuksa P.Natural language processing(almost)from scratch.The Journal of Machine Learning Research,2011,12(1):2493?2537

45 Mikolov T,Sutskever I,Chen K,Corrado G S,Dean J.Distributed representations of words and phrases and their compositionality.In:Proceedings of the 2013 Advances in Neural Information Processing Systems.Nanjing:NIPS,2013: 3111?3119

46 Yang Chao,F(xiàn)eng Shi,Wang Da-Ling,Yang Nan,Yu Ge. Analysis on web public opinion orientation based on extending sentiment lexicon.Journal of Chinese Computer Systems,2010,31(4):691?695(楊超,馮時,王大玲,楊楠,于戈.基于情感詞典擴展技術的網(wǎng)絡輿情傾向性分析.小型微型計算機系統(tǒng),2010,31(4):691?695)

47 Zhou Yong-Mei,Yang Jia-Neng,Yang Ai-Ming.A method on building Chinese sentiment lexicon for text sentiment analysis.Journal of Shandong University(Engineering Science),2013,43(6):27?33(周詠梅,楊佳能,陽愛民.面向文本情感分析的中文情感詞典構建方法.山東大學學報(工學版),2013,43(6):27?33)

48 Li Yong-Gan,Zhou Xue-Guang,Sun Yan,Zhang Huan-Guo.The study of construction for emotion thesaurus based on dependency parsing combined with rules and statistics methods.Journal of Wuhan University(Natural Science Edition),2013,59(5):491?498(李勇敢,周學廣,孫艷,張煥國.結合依存關聯(lián)分析和規(guī)則統(tǒng)計分析的情感詞庫構建方法.武漢大學學報(理學版),2013,59(5): 491?498)

49 Yin Chun-Xia,Peng Qin-Ke.Identifying word sentiment orientation for free comments via complex network.Acta Automatica Sinica,2012,38(3):389?398(殷春霞,彭勤科.利用復雜網(wǎng)絡為自由評論鑒定詞匯情感傾向性.自動化學報,2012,38(3):389?398)

50 He Y L,Alani H,Zhou D Y.Exploring English lexicon knowledge for Chinese sentiment analysis.In:Proceedings of CIPS-SIGHAN Joint Conference on Chinese Language Processing.Beijing,China:ORO,2010.91?104

51 Wang Chang-Hou,Wang Fei.Extracting sentiment words using pattern based Bootstrapping method.Computer Engineering and Applications,2014,50(1):127?129(王昌厚,王菲.使用基于模式的Bootstrapping方法抽取情感詞.計算機工程與應用,2014,50(1):127?129)

52 Choi Y,Cardie C.Adapting a polarity lexicon using integer linear programming for domain-specific sentiment classification.In:Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA,USA:Association for Computational Linguistics,2009. 590?598

53 Du W F,Tan S B,Cheng X Q,Yun X C.Adapting information bottleneck method for automatic construction of domain-oriented sentiment lexicon.In:Proceedings of the 3rd ACM International Conference on Web Search and Data Mining.New York,NY,USA:ACM,2010.111?120

54 Li F T,Pan S J,Jin O,Yang Q,Zhu X Y.Cross-domain coextraction of sentiment and topic lexicons.In:Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2012.410?419

55 Ding X,Liu B,Yu P S.A holistic lexicon-based approach to opinion mining.In:Proceedings of the 2008 International Conference on Web Search and Data Mining.New York,NY,USA:ACM,2008.231?240

56 Lek H H,Poo D C C.Sentix:an aspect and domain sensitive sentiment lexicon.In:Proceedings of the 2012 IEEE 24th International Conference on Tools with Artificial Intelligence.Washington,DC,USA:IEEE Computer Society,2012.261?268

57 Qiu G,Liu B,Bu J J,Chen C.Expanding domain sentiment lexicon through double propagation.In:Proceedings of the 21st International Joint Conference on Artificial Intelligence.San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,2009.1199?1204

58 Balahur A,Montoyo A.OpAL:applying opinion mining techniques for the disambiguation of sentiment ambiguous adjectives in SemEval-2 task 18.In:Proceedings of the 5th International Workshop on Semantic Evaluation.Stroudsburg,PA,USA:Association for Computational Linguistics,2010.444?447

59 Dragut E C,Yu C,Sistla P,Meng W Y.Construction of a sentimental word dictionary.In:Proceedings of the 19th ACM International Conference on Information and Knowledge Management.New York,NY,USA:ACM,2010. 1761?1764

60 Wu Y F,Wen M M.Disambiguating dynamic sentiment ambiguous adjectives.In:Proceedings of the 23rd International Conference on Computational Linguistics.Stroudsburg,PA,USA:Association for Computational Linguistics,2010.1191?1199

61 Xie Song-Xian,Liu Bo,Wang Ting.Applying semantic relations to construct construct sentiment lexicon automaticlly. Journal of National University of Defense Technology,2014,36(3):111?115(謝松縣,劉博,王挺.應用語義關系自動構建情感詞典.國防科技大學學報,2014,36(3):111?115)

62 Feng S,Bose R,Choi Y.Learning general connotation of words using graph-based algorithms.In:Proceedings of the 2011 Conference on Empirical Methods in Natural Language Processing.Edinburgh,Scotland,UK:Association for Computational Linguistics,2011.1092?1103

63 Zhang L,Liu B.Identifying noun product features that imply opinions.In:Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA,USA:Association for Computational Linguistics,2011.575?580

64 Balahur A,Hermida J M,Montoyo A.Detecting implicit expressions of sentiment in text based on commonsense knowledge.In:Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis. Stroudsburg,PA,USA:Association for Computational Linguistics,2011.53?60

65 BrodyS,DiakopoulosN.Cooooooooooooooollllllllllllll?。。。。。?!:using word lengthening to detect sentiment in microblogs.In:Proceedings of the Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA,USA:Association for Computational Linguistics,2011. 562?570

66 Huang M L,Ye B R,Wang Y C,Chen H Q,Cheng J J,Zhu X Y.New word detection for sentiment analysis.In: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore,Maryland,USA: Association for Computational Linguistics,2014.531?541

67 Zhang Qing-Liang,Xu Jian.Research on automatic extraction of web sentiment words.Journal of Library and Information Technology,2011,27(10):24?28(張清亮,徐健.網(wǎng)絡情感詞自動識別方法研究.現(xiàn)代圖書情報技術,2011,27(10):24?28)

68 Williams G K,Anand S S.Predicting the polarity strength of adjectives using wordnet.In:Proceedings of the Third International ICWSM Conference.Menlo Park,CA:AAAI Press,2009.346?349

69 Esuli A,Sebastiani F.Sentiwordnet:a publicly available lexical resource for opinion mining.In:Proceedings of the 2006 Language Resources and Evaluation.Genoa,Italy:LREC,2006.417?422

70 Kumar A,Sebastian T M.Sentiment analysis on twitter.International Journal of Computer Science Issues,2012,9(4): 372?378

71 Lu Y,Kong X F,Quan X J,Liu W Y,Xu Y L.Exploring the sentiment strength of user reviews.Web-Age Information Management.Berlin Heidelberg:Springer,2010.471?482

72 Gatti L,Guerini M.Assessing sentiment strength in words prior polarities.In:Proceedings of the 23th International Conference on Computational Linguistics.Mumbai:CSCL,2012.361?370

73 Schneider A,Dragut E.Towards debugging sentiment lexicons.In:Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Beijing,China:Association for Computational Linguistics,2015.1024?1034

74 Mohammad S,Dunne C,Dorr B.Generating high-coverage semantic orientation lexicons from overtly marked words and a thesaurus.In:Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA,USA:Association for Computational Linguistics,2009.599?608

75 Wilson T,Wiebe J,Hoffmann P.Recognizing contextual polarity in phrase-level sentiment analysis.In:Proceedings of the 2005 Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg,PA,USA:Association for Computational Linguistics,2005.347?354

76 Yang Ding,Yang Ai-Min.Classification approach of Chinese texts sentiment based onsemantic lexicon and naive Bayesian.Application Research of Computers,2010,27(10): 3737?3739(楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法.計算機應用研究,2010,27(10):3737?3739)

77 Zhao Yan-Yan,Qin Bing,Liu Ting.Sentiment analysis. Journal of Software,2010,21(8):1834?1848(趙妍妍,秦兵,劉挺.文本情感分析.軟件學報,2010,21(8): 1834?1848)

78 Lee Y,Na S H,Kim J,Nam S H,Jng H Y,Lee J H.KLE at TREC 2008 blog track:blog post and feed retrieval.In:Proceedings of 2008 Text REtrieval Conference.Pohang,South Korea:Pohang University of Science and Technology(South Korea),2008.

79 Xu R F,Xu J,Kit C.HITSZCITY U:Combine collocation,context words and neighboring sentence sentiment in sentiment adjectives disambiguation.In:Proceedings of the 5th International Workshop on Semantic Evaluation.Stroudsburg,PA,USA:Association for Computational Linguistics,2010.448?451

80 Toh Z Q,Wang W T.DLIREC:aspect term extraction and term polarity classification system.In:Proceedings of the 8th International Workshop on Semantic Evaluation. Dublin,Ireland:IWSE,2014.235?240

81 Saias J,Ramalho R R.Sentiue:target and aspect based sentiment analysis in SemEval-2015 task 12.In:Proceedings of the 9th International Workshop on Semantic Evaluation.Denver,Colorado:Association for Computational Linguistics,2015.767?771

82 Liu Jun,Liu Quan-Sheng,Chen Mo-Sha,Song Hong-Yan,Huang Gao-Hui,Zhang Xiao-Jun,Yao Tian-Fang.Analysis on the evaluation results of the first Chinese orientation analysis evaluation.In:Proceedings of the 1st Conference on Chinese Opinion Analysis Evaluation.Beijing,China: COAE,2008.125?141(劉軍,劉全升,陳漠沙,宋鴻彥,黃高輝,張瀟君,姚天昉.第一屆中文傾向性分析評測結果淺析.見:第一屆中文傾向性分析評測研討會論文集.北京:中國中文信息學會,2008.125?141)

83 Xu Ge,Meng Xin-Fan,Wang Hou-Feng.Emotion ranking based on multi-modality learning.In:Proceedings of the 2nd Conference on Chinese Opinion Analysis Evaluation. Shanghai,China:COAE,2009.24?29(徐戈,蒙新泛,王厚峰.基于多模態(tài)學習的情感評級.見:第二屆中文傾向性分析評測研討會論文集.上海:中國中文信息學會,2009. 24?29)

84 Xu Rui-Feng,Wang Ya-Wei,Xu Jun,Zhang Yue,Zheng Hai-Qing,Gui Lin,Ye Lu.Chinese opinion analysis based on multi knowledge integration and multi classifier voting. In:Proceedings of the 3rd Conference on Chinese Opinion Analysis Evaluation.Ji'nan,China:COAE,2011.77?87(徐睿峰,王亞偉,徐軍,張玥,鄭海清,桂林,葉璐.基于多知識源融合和多分類器表決的中文觀點分析.見:第三屆中文傾向性分析評測會議(COAE 2011)論文集.濟南:中國中文信息學會,2011. 77?87)

85 Liao Jian,Wang Su-Ge,Li De-Yu,Chen Xin.Using wordformation rules and mutual information for new sentiment word identification in microblogs.In:Proceedings of the 6th Conference on Chinese Opinion Analysis Evaluation.Kunming,China:COAE,2014.90?96(廖健,王素格,李德玉,陳鑫.基于構詞規(guī)則與互信息的微博情感新詞發(fā)現(xiàn)與判定.見:第六屆中文傾向性分析評測會議論文集.昆明:中國中文信息學會,2014.90?96)

王 科南京理工大學計算機學院碩士研究生.主要研究方向為自然語言處理和文本挖掘.E-mail:wangkk998@gmail.com

(WANG KeMaster student at the School of Computer Science and Engineering,Nanjing University of Science and Technology.His research interest covers natural language processing and text mining.)

夏 睿南京理工大學計算機學院副教授.2011年獲得中國科學院自動化研究所博士學位.主要研究方向為自然語言處理,機器學習,文本挖掘.本文通信作者.E-mail:rxia@njust.edu.cn

(XIA RuiAssociate professor at the School of Computer Science and Engineering,Nanjing University of Science and Technology.He received his Ph.D.degree from the Institute of Automation,Chinese Academy of Sciences in 2011.His research interest covers natural language processing,machine learning,and text mining.Corresponding author of this paper.)

A Survey on Automatical Construction Methods of Sentiment Lexicons

WANG Ke1XIA Rui1

Sentiment lexicon is an important tool of identifying the sentiment polarity of words and texts.How to automatically construct sentiment lexicons has become a research topic in the field of sentiment analysis and opinion mining.We review the existing sentiment lexicon construction methods,for both English and Chinese languages,from the perspectives of lexicons,corpus,and the combination of the two.We analyze the advantages and disadvantages of each method and point out some special problems in sentiment lexicon construction.We furthermore summarize the evaluation methods and review several competitions related to sentiment lexicon construction.Finally,we discuss the prospect of sentiment lexicon construction,and present some problems that remain to be solved.

Natural language processing,sentiment analysis,opinion mining,sentiment lexicon,lexicon construction

Manuscript September 14,2015;accepted January 23,2016

10.16383/j.aas.2016.c150585

Wang Ke,Xia Rui.A survey on automatical construction methods of sentiment lexicons.Acta Automatica Sinica,2016,42(4):495?511

2015-09-14錄用日期2016-01-23

國家自然科學基金(61305090),軟件新技術國家重點實驗室開放基金,江蘇省自然科學基金(BK2012396)資助

Supported by National Natural Science Foundation of China(61305090),Open Fund of the State Key Laboratory for Novel Software Technology,and Jiangsu Provincial Natural Science Foundation of China(BK2012396)

本文責任編委張民

Recommended by Associate Editor ZHANG Min

1.南京理工大學計算機科學與工程學院南京210094

1.School of Computer Science and Engineering,Nanjing University of Science and Technology,Nanjing 210094

猜你喜歡
極性知識庫語料
漢語近義詞辨析知識庫構建研究
基于歸一化點向互信息的低資源平行語料過濾方法*
跟蹤導練(四)
基于TRIZ與知識庫的創(chuàng)新模型構建及在注塑機設計中的應用
紅蔥不同極性提取物抑菌活性研究
高速公路信息系統(tǒng)維護知識庫的建立和應用
《苗防備覽》中的湘西語料
雙極性壓縮觀測光譜成像技術研究
國內外語用學實證研究比較:語料類型與收集方法
異種語料融合方法: 基于統(tǒng)計的中文詞法分析應用