孫健 李超琪
摘要:詞語是文本中的情感表達(dá)的最小單位,而詞語語義的情感傾向性分析是文本情感分類的基礎(chǔ)。利用中文情感詞構(gòu)建出一個(gè)基礎(chǔ)情感詞典來判斷未知情感詞的情感極性。本文即是在HOWNET情感詞語集的基礎(chǔ)上,利用義原相似度算法,構(gòu)建了中文基礎(chǔ)情感詞典,并提出以信息融合方法,將此詞典與同濟(jì)大學(xué)的褒貶詞典進(jìn)行整合,建立了特定情感詞與特定情感標(biāo)注以及相應(yīng)的情感權(quán)值的映射關(guān)系,實(shí)驗(yàn)結(jié)果表明,該方法取得不錯(cuò)的分類效果。
關(guān)鍵詞:中文基礎(chǔ)情感詞典;信息融合;情感權(quán)值;情感標(biāo)注
0引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,尤其Web2.0以及社交媒體的出現(xiàn),越來越多的互聯(lián)網(wǎng)用戶在博客、微博、論壇里發(fā)布主觀性文本。這些主觀性文本可能是用戶對(duì)于某個(gè)產(chǎn)品或服務(wù)的評(píng)價(jià),能夠提供企業(yè)以決策參考?;蛘呤枪妼?duì)于政府部門的新出臺(tái)的政策的看法,來幫助有關(guān)部門了解社會(huì)輿情,及時(shí)出臺(tái)相關(guān)調(diào)控政策。然而面對(duì)每天以指數(shù)級(jí)的速度增長(zhǎng)的Web上的海量的評(píng)論信息,單純依靠人工進(jìn)行收集分析必將是耗時(shí)費(fèi)力的過程,因此,通過計(jì)算機(jī)來對(duì)這些主觀性文本的情感表達(dá)設(shè)計(jì)展開相關(guān)研究,即情感分析(亦稱意見挖掘),在近些年里逐漸成為自然語言處理研究領(lǐng)域里的一個(gè)熱點(diǎn),并得到快速發(fā)展。
文本情感分析是指對(duì)包含用戶表示的觀點(diǎn)、喜好、情感等的主觀性文本的情感傾向進(jìn)行數(shù)據(jù)提取、情感分類以及做出有效的挖掘和分析等過程。其中詞語情感傾向性的判別是文本情感分析的基礎(chǔ)工作,情感詞的極性判別的優(yōu)劣將直接影響情感分析的結(jié)果。常用的情感分析技術(shù)主要有基于詞典的方法和機(jī)器學(xué)習(xí)的方法。
近年來,研究人員為應(yīng)對(duì)不同的意見挖掘任務(wù),提出相應(yīng)的詞典,使之應(yīng)用范圍較小,格式、詞性互不兼容,例如,基于漢語情感詞極性表的產(chǎn)品情感分類,通過極值的正負(fù)來判斷客戶產(chǎn)品及其主要特征的喜好或者厭惡。但卻無法得知顧客對(duì)于產(chǎn)品具體的感受,例如,驚訝、生氣還是高興?而基于漢語情感標(biāo)簽的產(chǎn)品情感分類,雖然能對(duì)情感詞進(jìn)行分類,但缺少?gòu)?qiáng)度的定量。例如“生氣”與“冒犯”都是屬于憤怒的一類情感標(biāo)簽,但是兩者的強(qiáng)度,卻明顯呈現(xiàn)出不同,“冒犯”[-0.990]要大于“生氣”[-0.303]。這對(duì)于句子級(jí)情感傾向性分析有重要意義。
在本文中,主要針對(duì)現(xiàn)在大部分的詞典都有的數(shù)據(jù)集不完整、數(shù)據(jù)或格式嘈雜等問題,提出以多源信息融合技術(shù)將多個(gè)詞典進(jìn)行整合,建立了基于情感權(quán)值和情感標(biāo)注為基礎(chǔ)的中文情感詞典(Sentiment lexicon based polarity scores and emotion labels,SLPE),以獲得單個(gè)或單類詞典源所無法獲得的有價(jià)值的綜合信息,并最終完成以提高詞典的極性的判斷和深化情感詞的具體情感標(biāo)注來實(shí)現(xiàn)對(duì)于產(chǎn)品評(píng)論的研究。
1相關(guān)工作
目前關(guān)于詞典的文本情感分類的研究,國(guó)內(nèi)外已可見到諸多探討,具體論述如下。
中文情感詞典的構(gòu)建的思路主要分為基于語料統(tǒng)計(jì)以及語義詞典等方法,其中,語料統(tǒng)計(jì)主要是通過觀察大量語料的特性,找到一些語法模式、語法規(guī)則、語義特征和語言學(xué)特性,然后抽取出情感詞并判斷其極性。而語義詞典主要是基于HowNet和同義詞詞林等語義詞典展開。朱嫣嵐等人提出了2種詞匯語義傾向性計(jì)算的方法,即基于語義相似度的方法和基于語義相關(guān)場(chǎng)的方法。通過計(jì)算詞語間的相似程度,對(duì)基于HowNet的詞匯語義相似度及其計(jì)算方法,解析表述了2個(gè)詞語在詞語的褒貶傾向?qū)凑找欢ǖ挠?jì)算法則進(jìn)行賦值。根據(jù)所得的語義傾向度量值判別其褒貶傾向。柳位平等以HOWNET情感詞語集為基準(zhǔn),構(gòu)建了中文基礎(chǔ)情感詞典,并提出情感詞庫(kù)的權(quán)值計(jì)算方法。
國(guó)外方面,Esuli等人研究設(shè)計(jì)了基于WordNet中的同義詞集(svnset)來構(gòu)建語義情感詞典SENTIWORDNET:基于每一個(gè)同義詞集關(guān)聯(lián)的注釋(Gloss)的定量分析和向量化表示,通過8個(gè)不同的三元分類器組合,對(duì)同義詞集進(jìn)行半監(jiān)督分類,計(jì)算同義詞集的正面、中立和負(fù)面情感傾向性的評(píng)分。3種情感傾向性的評(píng)分之和等于1。SENTIWORDNET 3.0是對(duì)SENTIWORDNET 1.0的提升.其基于WordNet 3.0版本,并采用隨機(jī)游走算法(RandomWalk)優(yōu)化同義詞集3個(gè)方面的情感評(píng)分。
Joshi等人基于4個(gè)基礎(chǔ)詞典開發(fā)了一個(gè)Twitter情感分類系統(tǒng),利用信息融合的加權(quán)平均法,進(jìn)行情感值計(jì)算。
在已有的研究的基礎(chǔ)上,本文提出一種新的基于信息融合的情感詞典擴(kuò)建方法,首先對(duì)相關(guān)語料庫(kù)文檔進(jìn)行挖掘獲得特征值及其關(guān)系,綜合使用詞形模板和詞性模板,采用模糊匹配方法對(duì)情感詞和情感標(biāo)注進(jìn)行模糊建模,最后通過采用支持向量機(jī)(SVM)方法分類得出情感詞相應(yīng)的情感標(biāo)注。