黃高峰,周學(xué)廣,李 娟,劉 華
(1.海軍工程大學(xué)a.信息安全系;b.計(jì)算機(jī)工程系,武漢430033;2.75753部隊(duì),廣州510600)
具有權(quán)重因子的細(xì)粒度情感詞庫(kù)構(gòu)建方法
黃高峰1a,周學(xué)廣1a,李 娟1b,劉 華2
(1.海軍工程大學(xué)a.信息安全系;b.計(jì)算機(jī)工程系,武漢430033;2.75753部隊(duì),廣州510600)
情感詞庫(kù)在文本情感分析中發(fā)揮重要作用,但在分析細(xì)粒度情感如人類情緒狀態(tài)時(shí)卻無法正確區(qū)分。針對(duì)該問題,提出一種基于義原相似度計(jì)算的細(xì)粒度情感詞庫(kù)構(gòu)建方法。對(duì)詞語(yǔ)之間的義原相似度進(jìn)行計(jì)算分析,構(gòu)建7類細(xì)粒度情感詞庫(kù),并在此基礎(chǔ)上給出細(xì)粒度情感詞在詞庫(kù)中的權(quán)重計(jì)算方法,最終得到7類具有權(quán)重值的細(xì)粒度情感詞庫(kù)。實(shí)驗(yàn)結(jié)果表明,應(yīng)用引入權(quán)重的細(xì)粒度情感詞庫(kù)后,文本情感傾向判別的準(zhǔn)確率可提升5%左右。
義原相似度;情緒;細(xì)粒度情感;權(quán)重計(jì)算;權(quán)重因子;詞庫(kù)構(gòu)建
目前,中文語(yǔ)言處理領(lǐng)域已經(jīng)存在一些通用的情感詞庫(kù),它們?cè)谖谋厩楦蟹治鲋邪l(fā)揮了重要作用,然而,它們?cè)诩?xì)粒度情感分析上發(fā)揮的作用還非常不足。主要表現(xiàn)為:已存在的通用情感詞庫(kù)主要有正極性詞庫(kù)、負(fù)極性詞庫(kù)等,不論是對(duì)句子的情感分析,還是對(duì)文檔的情感分析,較多的是側(cè)重褒義、貶義還是中立,然而,有時(shí)人們更想得到是用戶對(duì)于某個(gè)主題對(duì)象所表現(xiàn)的內(nèi)心的情緒,比如高興、憂愁、悲傷、憤怒、喜愛等細(xì)粒度情感,從而可以提取更為有價(jià)值的信息,而這些是傳統(tǒng)詞庫(kù)無法做到和區(qū)分的。因此,構(gòu)建能反映用戶心理狀態(tài)的細(xì)粒度情感詞庫(kù)顯得尤為必要。
文獻(xiàn)[1]通過分析《知網(wǎng)》的知識(shí)描述結(jié)構(gòu),利用義原的上下位關(guān)系計(jì)算詞語(yǔ)義原相似度;文獻(xiàn)[2]考慮層次樹的深度、密度及語(yǔ)義路徑等多因素對(duì)義元相似度計(jì)算影響,對(duì)詞匯語(yǔ)義相似度計(jì)算進(jìn)行了改進(jìn);文獻(xiàn)[3-5]分別對(duì)中文基礎(chǔ)情感詞進(jìn)行了擴(kuò)展,并對(duì)基準(zhǔn)詞的應(yīng)用進(jìn)行了相關(guān)研究,取得了不錯(cuò)的效果;文獻(xiàn)[6]利用詞語(yǔ)極性評(píng)分進(jìn)行語(yǔ)句級(jí)的觀點(diǎn)抽取。大量文獻(xiàn)提供了文本情感分析的典型方法,但文獻(xiàn)中均未曾提及對(duì)細(xì)粒度情感詞分類及詞庫(kù)構(gòu)建的相關(guān)研究。
本文以義原相似度計(jì)算為基礎(chǔ),提出一種表現(xiàn)人類情緒的細(xì)粒度情感詞庫(kù)構(gòu)建方法,并針對(duì)詞庫(kù)所含詞語(yǔ)設(shè)計(jì)一種權(quán)重值計(jì)算方法,從而實(shí)現(xiàn)文本中所表現(xiàn)情緒狀態(tài)的準(zhǔn)確分類。
人類情感非常豐富,儒家學(xué)派把人類情感表述為七情:喜,怒,哀,懼,愛,憎,欲。舉例,表達(dá)“喜”的詞語(yǔ):高興,興奮,快樂,喜悅等;表達(dá)“怒”的詞語(yǔ):憤怒,惱怒,氣憤,憤慨,怒火沖天,大發(fā)雷霆等;表達(dá)“愛”的詞語(yǔ):喜愛,可愛,愛惜,憐憫,憐愛,同情,感激等;表達(dá)“欲”的詞語(yǔ):期望,渴望,期盼,盼望,失望,思念等。這里的七情中的“欲”,實(shí)際是對(duì)人類“七情六欲”中“六欲”:見欲,聲欲,香欲,味欲,觸欲,意欲的總稱,泛指人類生理需求和欲望,把這些統(tǒng)一歸類為一種人類情感。
相似度是一個(gè)數(shù)值,一般取值范圍在[0,1]之間。一個(gè)詞語(yǔ)與其本身的語(yǔ)義相似度為1。如果2個(gè)詞語(yǔ)在任何上下文中都不可替換,那么其相似度為0。本文通過對(duì)情感詞的相似度計(jì)算,得出一個(gè)能反映其情感傾向強(qiáng)度的權(quán)值來區(qū)分細(xì)粒度情感詞。知網(wǎng)中詞語(yǔ)相似度是以詞的義原為基礎(chǔ)計(jì)算得來。知網(wǎng)中將同類的義原組成一棵層次樹,《知網(wǎng)》中層次結(jié)構(gòu)如圖1所示,因而把義原的相似度計(jì)算轉(zhuǎn)化為義原之間在層次樹中的路徑距離的計(jì)算。
圖1 實(shí)體類義原層次樹
假設(shè)兩個(gè)詞語(yǔ)W1,W2的2個(gè)義原s1,s2在這個(gè)層次體系中的路徑距離為dist(s1,s2),則這兩個(gè)義原的義原相似度如式(1)所示。
其中,s1和s2表示兩個(gè)不同義項(xiàng)之間的義原;dist(s1,s2)表示它們?cè)诹x原樹中的距離;?是一個(gè)調(diào)節(jié)參數(shù),表示相似度為0.5時(shí)的兩個(gè)詞在義原樹中的距離長(zhǎng)度,一般取1.6。一個(gè)詞語(yǔ)有時(shí)存在多個(gè)義原,在計(jì)算多義原詞語(yǔ)間的相似度時(shí),取義原之間相似度最大值作為詞語(yǔ)的相似度。對(duì)于兩個(gè)中文詞語(yǔ)W1,W2,假設(shè)它們分別有多個(gè)義原,W1的義原m個(gè),分別為s11,s12,…,s1m;W1的義原n個(gè),分別為s21,s22,…,s2n,則它們的相似度計(jì)算如式(2)所示。
細(xì)粒度情感詞的情感權(quán)值大小由這個(gè)詞與基準(zhǔn)詞的義原相似程度有關(guān),基準(zhǔn)詞是指那些表達(dá)情感非常明顯、最常用的、具有代表性的詞語(yǔ)。與基準(zhǔn)詞聯(lián)系越緊密,則詞語(yǔ)的傾向性越強(qiáng)。因此,可以通過計(jì)算細(xì)粒度情感詞與基準(zhǔn)詞之間的義原相似度來區(qū)分不同的細(xì)粒度情感詞匯。
但是,要注意的是相似度的大小表示的是趨近于某種情感的程度而不是情感強(qiáng)度。比如表達(dá)“喜”的詞中,詞頻最高的是“高興”一詞,利用上述公式判斷某個(gè)詞與“高興”的相似度越大表示該詞越準(zhǔn)確地在表達(dá)“喜”的情感。再如“喜極而泣”的詞頻就沒有“高興”的詞頻高,但比“高興”所表達(dá)的“喜”的情感強(qiáng)度更強(qiáng)。
3.1 種子詞集的生成
若要判別一個(gè)詞是否屬于細(xì)粒度情感詞,只用一個(gè)基準(zhǔn)詞進(jìn)行情感相似度計(jì)算所得到的準(zhǔn)確性是有限的,這時(shí)需要有若干個(gè)基準(zhǔn)詞構(gòu)成一個(gè)基準(zhǔn)詞集,再由基準(zhǔn)詞集計(jì)算該新詞的相似度值,這樣就能更準(zhǔn)確地判斷某個(gè)詞語(yǔ)的情感類別,該基準(zhǔn)詞集稱為種子詞集。
種子詞的選擇,必須選取若干個(gè)表達(dá)某類情感強(qiáng)烈且最常用的詞[7]。由《知網(wǎng)》提供的情感分析詞語(yǔ)集對(duì)表達(dá)7類情感較強(qiáng)烈的詞進(jìn)行人工篩選[3],再利用搜索引擎對(duì)這些詞語(yǔ)的使用條目數(shù)進(jìn)行統(tǒng)計(jì),該詞語(yǔ)的使用條目數(shù)即認(rèn)為該詞的詞頻,選取詞頻最高的前n個(gè)詞作為備選種子詞,這里的n根據(jù)該類情感詞的高頻常用詞的數(shù)量來定,高頻常用詞的數(shù)量越多n就越大,反之n就越小。再在n個(gè)詞中人工進(jìn)行情感強(qiáng)度判斷,得出較準(zhǔn)確的表達(dá)該類情感強(qiáng)烈且最常用的m個(gè)詞,即為該類細(xì)粒度情感種子詞集。一般m≈15% ×n最佳[3]。
3.2 細(xì)粒度情感詞庫(kù)構(gòu)建
針對(duì)細(xì)粒度情感詞庫(kù)的構(gòu)建,本文提出了一種通過情感種子詞集與情緒詞庫(kù)進(jìn)行義原相似度計(jì)算,再進(jìn)行閾值比較并歸類的構(gòu)建方法,依次可生成7類詞集,具體流程如圖2所示。
圖2 細(xì)粒度情感詞庫(kù)構(gòu)建流程
實(shí)驗(yàn)過程如下:
(1)對(duì)情緒語(yǔ)料進(jìn)行分詞、去噪處理。
(2)從詞語(yǔ)庫(kù)取出某個(gè)詞與7類情感種子詞集分別進(jìn)行義原相似度計(jì)算,按式(2)進(jìn)行運(yùn)算。
(3)把運(yùn)算結(jié)果進(jìn)行閾值比較,閾值范圍的定義為[0.75,1],若相似度在閾值范圍內(nèi)的詞最終判決屬于細(xì)粒度情感詞;若相似度在(0.25,0.75)之間的屬于不確定詞集,進(jìn)行人工篩選;若相似度在[0,0.25],則最終判決該詞不屬于此類情感詞,直接丟棄。
實(shí)驗(yàn)中需要注意的是情緒語(yǔ)料庫(kù)要求盡可能詳盡,能較全面地涵蓋基本情感詞語(yǔ)。
3.3 情感詞權(quán)重計(jì)算
假設(shè)選定用seedi,j代表第j類情感的種子詞,i表示該j類情感種子詞的序號(hào),總數(shù)為Q。情感詞語(yǔ)α在第j類情感的情感傾向值(Sentiment Orientation,SO)用soj(α)′表示,soj(α)′的數(shù)值越大表示其越趨近于j類情感。本文提出計(jì)算情感詞語(yǔ)α在第j類情感的情感傾向權(quán)值,如式(3)所示。
需要注意區(qū)分的是,這里的情感傾向值同樣是指趨向于該類情感的準(zhǔn)確程度而不是指情感強(qiáng)度,傾向值越大表示越準(zhǔn)確地趨向于該類情感。即soj(α)′,j=1,2,…,7,在這7類情感中,第j類取到最大值,則soj(α)′代表更準(zhǔn)確地趨近于第j類情感。
3.4 情感詞權(quán)重值的線性變換
在生成情感權(quán)重詞庫(kù)的過程中,研究發(fā)現(xiàn)得到的情感詞語(yǔ)的情感權(quán)值較小。利用線性變換進(jìn)行轉(zhuǎn)換,計(jì)算方法如式(4)所示。
其中,soj(α)′是根據(jù)式(3)計(jì)算得到的情感權(quán)值;soj(α)是規(guī)劃后的情感詞情感權(quán)值;soj(α)′min表示式(3)計(jì)算出的所有情感權(quán)值中的最小值;soj(α)′max為最大值。
為了驗(yàn)證所構(gòu)建的細(xì)粒度情感權(quán)重詞庫(kù)的分類效果,本文研究進(jìn)行了以下實(shí)驗(yàn)。先使用TF-IWF算法,進(jìn)行微博情感傾向性計(jì)算。然后再把細(xì)粒度情感權(quán)重詞庫(kù)得到的情感詞權(quán)重值引入TF-IWF算法,再次進(jìn)行微博情感傾向性加權(quán)計(jì)算。通過比較前后的準(zhǔn)確率,以驗(yàn)證該方法的有效性。實(shí)驗(yàn)中對(duì)7類情感分別進(jìn)行了權(quán)重詞庫(kù)的構(gòu)建,這里僅列舉了3類情感權(quán)重詞庫(kù)的構(gòu)建方法,其余的以此類推。實(shí)驗(yàn)結(jié)論適用于7類細(xì)粒度情感的情感傾向性的分析判斷。
選取由《知網(wǎng)》提供的情感分析詞語(yǔ)集[8](內(nèi)含正面情感詞836個(gè),負(fù)面情感詞1 254個(gè))作為訓(xùn)練集生成細(xì)粒度情感權(quán)重詞庫(kù)。用3類關(guān)鍵詞“令人高興”、“令人恐懼”和“令人傷心”進(jìn)行Google中文微博相關(guān)主題的搜索(http://blogsearch.google.com.cn),按相關(guān)性排序[9-10],再?gòu)拿款惻琶壳暗奈⒉┲羞x取主題情感傾向明顯的100篇微博進(jìn)行抓取作為測(cè)試集[11],以此來驗(yàn)證情感詞庫(kù)對(duì)于微博情感傾向判別的準(zhǔn)確率。測(cè)試生成的情感權(quán)重詞庫(kù)部分內(nèi)容如表1所示。
表1 細(xì)粒度情感權(quán)重詞庫(kù)部分內(nèi)容
TF-IWF算法比TF-IDF算法的改進(jìn)之處在于: TF-IWF算法中用特征頻率倒數(shù)的對(duì)數(shù)值IWF代替IDF;TF-IWF算法中采用IWF的平方來平衡權(quán)重值對(duì)特征頻度的倚重[12]。TF-IWF算法如式(5)所示。
(αi)表示特征項(xiàng)αi在訓(xùn)練文本Dj中的權(quán)重,其中,fij表示特征項(xiàng)αi在訓(xùn)練文本Dj中出現(xiàn)的頻度;ni為特征項(xiàng)αi在訓(xùn)練集中出現(xiàn)的次數(shù);N為特征項(xiàng)的個(gè)數(shù);i表示測(cè)試集與情感權(quán)重詞庫(kù)匹配的詞語(yǔ)的數(shù)量;j表示每類微博的數(shù)量,取1~100。訓(xùn)練集{Dj}即微博測(cè)試集。這里所說的特征項(xiàng)即情感詞,利用式(5)計(jì)算得出情感詞的權(quán)重值,表示該情感詞在整個(gè)訓(xùn)練集中的權(quán)重值。而這個(gè)詞在情感權(quán)重詞庫(kù)中也對(duì)應(yīng)了一個(gè)權(quán)重值,因此,為了得到更準(zhǔn)確的結(jié)果,把兩者進(jìn)行結(jié)合,得到該情感詞的最終情感權(quán)重值SOj(αi),利用式(6)計(jì)算。
soj(αi)表示情感詞αi在j類情感權(quán)重詞庫(kù)中的權(quán)重值。則該微博在j類情感微博中的情感權(quán)重值Wj,利用式(7)計(jì)算得出。
利用情感詞庫(kù)的詞對(duì)測(cè)試集進(jìn)行搜索匹配和權(quán)重計(jì)算,因此情感詞庫(kù)中匹配的情感詞總數(shù)量即為特征項(xiàng)的總數(shù)量,定為M。若該微博在第j類情感微博中取得最大值,則該微博歸類為第j類情感微博。
對(duì)上述3類情感的微博測(cè)試集進(jìn)行實(shí)驗(yàn),得到的準(zhǔn)確率如表2所示。
表2 3種細(xì)粒度情感微博的判斷準(zhǔn)確率 %
以上實(shí)驗(yàn)結(jié)果表明,單獨(dú)用TF-IWF算法進(jìn)行情感權(quán)重判斷的準(zhǔn)確率明顯低于引入細(xì)粒度情感權(quán)重詞庫(kù)以后的準(zhǔn)確率。TF-IWF算法的準(zhǔn)確率受訓(xùn)練語(yǔ)料庫(kù)大小的限制,訓(xùn)練語(yǔ)料庫(kù)越大準(zhǔn)確率越高。細(xì)粒度情感權(quán)重詞庫(kù)的引入使情感特征詞不再受訓(xùn)練語(yǔ)料庫(kù)大小的約束,兩者的結(jié)合恰好削弱了這種影響,從而使得判斷準(zhǔn)確率得到大幅度提升。
本文提出的細(xì)粒度情感權(quán)重詞庫(kù)構(gòu)建方法,以義原相似度分析為基礎(chǔ),通過情感基準(zhǔn)詞的義原相似度計(jì)算獲得初步的細(xì)粒度情感詞庫(kù)。整個(gè)詞庫(kù)生成由計(jì)算機(jī)進(jìn)行義原相似度的自動(dòng)運(yùn)算、比較并結(jié)合人工篩選來完成,具有較高的準(zhǔn)確性和適應(yīng)性,可以推廣到其他的文本特征分類領(lǐng)域。構(gòu)建的細(xì)粒度情感權(quán)重詞庫(kù),可以利用其權(quán)重值來分析計(jì)算句子級(jí)、篇章級(jí)的文本細(xì)粒度情感傾向,為進(jìn)一步研究細(xì)粒度情感傾向分析提供了依據(jù)。下一步將對(duì)本文方法進(jìn)行改進(jìn)和優(yōu)化,并考慮詞語(yǔ)之間義原的深度和區(qū)域密度分布因素,以進(jìn)一步提高算法準(zhǔn)確率。
[1] 劉 群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度的計(jì)算[C]//第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì)論文集.臺(tái)北:出版者不詳,2002:59-67.
[2] 蔣 溢,丁 優(yōu),熊安萍,等.一種基于知網(wǎng)的詞匯語(yǔ)義相似度改進(jìn)計(jì)算方法[J].重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2009,21(4):533-537.
[3] 柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009,29(10): 2875-2877.
[4] 張 彬,楊志曉.基于基準(zhǔn)詞的文本情感傾向性研究[J].電腦知識(shí)與技術(shù),2011,7(8):1881-1885.
[5] 彭學(xué)士,孫春華.面向傾向性分析的基于詞聚類的基準(zhǔn)詞選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2011,28(1): 114-116.
[6] Ku L W,Lo Y S,Chen H H.Using Polarity Scores of Words for Sentence-level Opinion Extraction[C]// Proceedings of the 6th NTCIR Workshop Meeting.Tokyo,Japan:[s.n.],2007:316-322.
[7] 張清亮,徐 健.網(wǎng)絡(luò)情感詞自動(dòng)識(shí)別方法研究[J].現(xiàn)代圖書情報(bào)技術(shù),2011,(10):25-28.
[8] 董振東,董 強(qiáng).知網(wǎng)[EB/OL].(2011-06-23).http:// www.keenage.com.
[9] Kang J H,Lerman K,Plangprasopchok A.Analyzing Microblogs with Affinity Propagation[C]//Proceedings of the 1st KDD Workshop on Social Media Analytic.New York,USA:ACM Press,2010:67-70.
[10] Ramage D,Dumais S,Liebling D.Characterizing Microblogs with Topic Models[C]//Proceedings of International AAAI Conference on Weblogs and Social Media.Menlo Park,USA:AAAI Press,2010:130-137.
[11] Kaji N,Kitsuregawa M.Building Lexicon for Sentiment Analysis from Massive Collection of HTML Documents[C]//Proceedings of EMNLP-CoNLL 2007.Prague,Czech:[s.n.],2007:1075-1083.
[12] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.
編輯 金胡考
Construction Method of Fine-grained Emotion Thesaurus with Weight Factor
HUANG Gaofeng1a,ZHOU Xueguang1a,LI Juan1b,LIU Hua2
(1a.Information Security Department;1b.Computer Engineering Department, Naval University of Engineering,Wuhan 430033,China;2.75753 Troops,Guangzhou 510600,China)
Emotion thesaurus plays an important role in the text sentiment analysis,but it is particularly inadequate in the analysis of fine-grained emotions such as human emotions.To solve this problem,this paper presents a fine-grained emotion thesaurus construction method via the calculation of sememe similarity,and finishes the construction of seven sorts of thesaurus.Based on this work,this paper researches on the calculation method of the weight of fine-grained emotion words,and proposes a new weight calculation method of emotion words.Finally,this paper finishes the construction of seven sorts of thesaurus with weight value.Experimental results show that the introduction of the finegrained emotion thesaurus with weights can make the accuracy rate of the text emotional tendencies increased by about 5%.
sememe similarity;emotion;fine-grained emotion;weight calculation;weight factor;thesaurus construction
1000-3428(2014)11-0211-04
A
TP391.1
10.3969/j.issn.1000-3428.2014.11.041
國(guó)家自然科學(xué)基金資助項(xiàng)目(611100042)。
黃高峰(1979-),男,講師、CCF會(huì)員,主研方向:網(wǎng)絡(luò)輿情分析,自然語(yǔ)言處理;周學(xué)廣,教授;李 娟,副教授、博士研究生;劉 華,工程師、碩士。
2013-12-05
2014-02-10E-mail:huanggaofeng@163.com
中文引用格式:黃高峰,周學(xué)廣,李 娟,等.具有權(quán)重因子的細(xì)粒度情感詞庫(kù)構(gòu)建方法[J].計(jì)算機(jī)工程,2014, 40(11):211-214.
英文引用格式:Huang Gaofeng,Zhou Xueguang,Li Juan,et al.Construction Method of Fine-grained Emotion Thesaurus with Weight Factor[J].Computer Engineering,2014,40(11):211-214.