陳 濤,徐睿峰,吳明芬,劉 濱
(1.哈爾濱工業(yè)大學(xué) 深圳研究生院,廣東 深圳518055;2.五邑大學(xué) 計(jì)算機(jī)學(xué)院,廣東 江門529020)
情感(Sentiment)是一種復(fù)雜的生理和心理現(xiàn)象,包括情緒 (Emotion)、感覺(Feeling)和心情(Mood)等。它是人類智能的重要特征,是人類生活的重要內(nèi)容。隨著Web 2.0、社交網(wǎng)絡(luò)的興起,越來越多的人通過網(wǎng)絡(luò)分享自己的觀點(diǎn)、體驗(yàn)和心情,包含有情感的文本也越來越多。對(duì)文本中蘊(yùn)含的情感和情緒進(jìn)行自動(dòng)分析正在成為新的研究熱點(diǎn)。這些分析技術(shù)的研究對(duì)于大數(shù)據(jù)行業(yè)挖掘文本潛在的情感表達(dá),發(fā)現(xiàn)用戶興趣與需求,提高服務(wù)質(zhì)量等應(yīng)用領(lǐng)域都具有重要的意義。
目前文本情感分類的典型方法包括:(1)基于關(guān)鍵詞的方法。如Turney[1]等使用詞之間的點(diǎn)式 互信息(Point-wise mutual information)和 SO(Semantic orientation)對(duì)評(píng)論進(jìn)行非監(jiān)督的分類;Kamps[2]等利用 WordNet記錄的信息來分析形容詞的極性;朱嫣嵐[3]等基于HowNet分析詞匯的傾向性進(jìn)行句子傾向性分析。這類方法對(duì)分析顯式的、含有情感詞的文本比較有效。(2)基于規(guī)則或常識(shí)知識(shí)庫的方法,如Hu[4]等使用關(guān)聯(lián)規(guī)則挖掘客戶的主觀評(píng)論;姚天昉[5]等使用句法規(guī)則的方法對(duì)汽車評(píng)論中的情感傾向進(jìn)行挖掘;劉鴻宇[6]等基于句法樹中的路徑對(duì)評(píng)價(jià)對(duì)象進(jìn)行抽??;任巨偉[7]等在陳健美[8]等人的情感常識(shí)表示框架基礎(chǔ)上構(gòu)建了二元結(jié)構(gòu)的情感常識(shí)庫,進(jìn)行文本情感分析和傾向性分析。這類方法具有一定的分析隱含情感和領(lǐng)域相關(guān)情感文本的能力。(3)基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的方法。如Bo Pang[9]應(yīng)用樸素貝葉斯、最大熵、支持向量機(jī)SVM(Support Vector Machine)等分類器對(duì)電影評(píng)論進(jìn)行分類;谷學(xué)靜[10]等利用隱馬爾科夫模型HMM對(duì)情感進(jìn)行建模;王根[11]等采用多重冗余標(biāo)記的條件隨機(jī)場(chǎng)分類器,通過求聯(lián)合解碼最優(yōu),減少了單分類的錯(cuò)誤傳遞;Li[12]等利用多分類器融合的方法改進(jìn)單一分器的效果;李壽山[13]等采用了基于Stacking組合分類方法對(duì)分類器進(jìn)行情感傾向分析。這類方法得到了較多的應(yīng)用。
考慮到同類別的情感句往往有相同或者相似的句法和語義表達(dá)模式,本文提出一種基于情感句模的文本情感分類方法。首先,從《現(xiàn)代漢語基本句?!罚?4]中選取與情感表達(dá)相關(guān)的三大類句模,并進(jìn)行人工補(bǔ)充獲得105個(gè)二級(jí)分類句模。而后,利用情感標(biāo)注語料,對(duì)基礎(chǔ)情感句模無法覆蓋的情感句進(jìn)行分詞、句法分析和依存關(guān)系分析,從中找出句子的核心謂詞和與其直接關(guān)聯(lián)的句子主干詞以及對(duì)句子情感有直接影響的其他詞,通過半自動(dòng)的方法獲取情感表達(dá)句模,從而建立一個(gè)情感句模庫。在情感分類任務(wù)中,將情感句分類問題轉(zhuǎn)換為最相似句模分類和排序,從而實(shí)現(xiàn)情感分類。在NLP&CC 2013中文微博情緒分類評(píng)測(cè)數(shù)據(jù)集及RenCECps博客情緒語料[15]進(jìn)行的評(píng)估實(shí)驗(yàn)顯示,本文提出的方法對(duì)語料多標(biāo)簽情感分類準(zhǔn)確率分別達(dá)到43%和60%,明顯優(yōu)于基于詞語特征的SVM分類器方法,本文提出的基于情感句模的方法可以有效地提高文本情感分類性能。
通過對(duì)大量情感句的表達(dá)方式進(jìn)行分析和總結(jié),可以發(fā)現(xiàn)句子的主要語義往往通過句子的主干來表達(dá),很多時(shí)候具有相同或者類似主干的句子所表達(dá)的情感也相同。例如,表示喜愛情感的兩個(gè)句子“我喜歡你”與“我愛自然語言處理”具有共同的句子主干“情感的持有者+表示喜愛的詞語+情感的對(duì)象”。為此,本文引入朱曉亞[16]提出的漢語句模的概念進(jìn)行描述。這里,句模定義為動(dòng)核結(jié)構(gòu)生成句子時(shí)與句型結(jié)合在一起的語義成分的配置模式,是根據(jù)句子語義平面的特征分出來的類別。上述例子中的句子主干可以用句?!埃几惺拢荆枷矏墼~類><向事>”來描述,其中“感事”表示情感的主體,“向事”表示情感施加的對(duì)象。每一類句模包含對(duì)應(yīng)的詞類。在利用句模對(duì)情感句表達(dá)方式進(jìn)行分析和總結(jié)的基礎(chǔ)上,本文提出以下假設(shè):
假設(shè)1:情感句模能夠表達(dá)句子的主要語義。
假設(shè)2:如果句子S能用情感句模M表示(即與該句模匹配),則S與M表達(dá)的情感分類相同。
基于情感句模的文本情感分類方法的基本設(shè)計(jì)思想是:將待分類句子與情感句模進(jìn)行匹配,找出匹配程度最高的句模,句模所屬的情感類別即為此句子的情感分類。
考慮到情感表達(dá)的靈活多樣,因此需要對(duì)情感表達(dá)句和對(duì)應(yīng)的情感句模進(jìn)行相對(duì)精細(xì)的區(qū)分。魯川[14]等人在論文《現(xiàn)代漢語基本句?!分袑⒊R姷臐h語句模分為26個(gè)大類,122個(gè)二級(jí)分類。本文首先從中選擇出與情感表達(dá)有著密切關(guān)系的包括“態(tài)度、感受、思想”3個(gè)大類和14個(gè)二級(jí)分類,其中“態(tài)度”大類分為“熱情類、細(xì)心類”等,“感受”大類分為“感知類、感覺類”等,“思想”大類分為“希望類、愿意類”等。從這些分類對(duì)應(yīng)的句模庫中抽取了14個(gè)句模和14個(gè)對(duì)應(yīng)的詞類構(gòu)成基本情感句模庫。考慮到文獻(xiàn)[14]存在對(duì)情感表達(dá)句式覆蓋率有所不足的問題,結(jié)合對(duì)大規(guī)模情感語料庫的觀察和分析,本文對(duì)上述二級(jí)分類進(jìn)行了擴(kuò)展,最終得到對(duì)應(yīng)于“態(tài)度”大類的41個(gè)二級(jí)分類、對(duì)應(yīng)于“感受”大類的48個(gè)二級(jí)分類、對(duì)應(yīng)于“思想”大類的16個(gè)二級(jí)分類。詳細(xì)的分類列表在附錄中給出。
由于基本情感句模庫不能夠覆蓋所有對(duì)應(yīng)類別情感句的表達(dá)方式。另一方面,本文新擴(kuò)展出的二級(jí)分類無法從現(xiàn)有的《現(xiàn)代漢語基本句?!焚Y源中獲得對(duì)應(yīng)的句模。為此,本文提出了一種情感句模的半自動(dòng)獲取方法,基本過程如下。
(1)從情感語料庫中抽取情感句,利用基本情感句模庫進(jìn)行匹配。對(duì)能匹配的句子作為對(duì)應(yīng)句模的實(shí)例存儲(chǔ)。對(duì)不能匹配的句子,人工標(biāo)注其對(duì)應(yīng)的情感二級(jí)分類,并繼續(xù)處理。
(2)對(duì)這些句子進(jìn)行分詞、句法分析和依存關(guān)系分析。從中找出句子的核心謂詞和與其直接關(guān)聯(lián)的句子主干詞,以及對(duì)句子情感有直接影響的其他詞(稱為:附屬詞)。
(3)借助《同義詞詞林》,查找核心謂詞和附屬詞所在的同義詞詞類,用同義詞詞類名代替該核心謂詞和附屬詞。如果這些詞語不屬于任何同義詞詞類,則創(chuàng)建新的詞類。這里,為區(qū)別詞和詞類,將詞類名用尖括號(hào)括起來。
(4)參考《現(xiàn)代漢語基本句模》中定義的語義角色,將句子主干詞抽象成語義角色。這里,為區(qū)別詞和語義角色,將語義角色用尖括號(hào)括起來。
(5)將制作好的句模存入句模庫。
下面以例句1“我愛自然語言處理。”說明“喜愛類”中句模的構(gòu)建過程:
(1)生成句子的分詞結(jié)果“我/愛/自然/語言/處理/?!?,以及對(duì)應(yīng)的句法分析和依存關(guān)系分析結(jié)果如圖1和圖2所示。結(jié)合句法分析和依存分析結(jié)果,可知例句1的核心謂詞是“愛”,與其直接關(guān)聯(lián)的句子主干詞分別是“我”和“處理”,而“自然”和“語言”則不被視為句子主干。
圖1 例句1依存關(guān)系樹
表1 典型情感句模及其所屬情感分類
圖2 例句1句法樹
(2)在句模庫中查找“愛”是否屬于某個(gè)已知詞類,如果匹配則使用該詞類名代替“愛”;如果無法匹配,則在《同義詞詞林》中查找“愛”的同義詞,在句模庫中創(chuàng)建“喜愛詞類”,并將“愛”和它的同義詞添加到該詞類中。而后用“<喜愛詞類>”替代“愛”,此時(shí)例句1的主干為:“我 <喜愛詞類> 處理”。
(3)參考《現(xiàn)代漢語基本句模》中定義的語義角色,通過將“我”抽象為“感事”,將“處理”抽象為“向事”,則從例句1獲得句模“<感事><喜愛詞類><向事>”。
(4)將新句模存入情感句模庫。
按照上述步驟,我們共從約3500個(gè)情感句中獲得了413個(gè)情感句模,表1列舉了一些典型情感句模及其所屬的情感分類,其中中括號(hào)里面的詞是可以省略的詞。
2.2.1 分類特征選擇
利用情感分類句模庫,可以將句子的情感分類轉(zhuǎn)換為對(duì)情感句模的分類問題,只要找出與待分類
其中,向量w=[w1,w2,w3,w4],是對(duì)向量f=[f1,f2,f3,f4]的權(quán)重向量。b為閾值,y=1表示匹配成功,該句模所屬情感分類記為待分類句子的分類,y=-1表示不匹配。
例如,例句2“我 喜愛 信息 檢索?!钡暮诵脑~為“喜愛”,查找句模庫得到可能的類別為喜愛類。對(duì)應(yīng)喜愛類中的句模1“<感事><喜愛詞類><向事>”,其中“<喜愛詞類>”包括核心詞“喜愛”,所以f1=1;句模1中沒有附屬詞匹配,所以f2=0;句模1的依存關(guān)系樹與句法樹分別如圖3和4所示。依存關(guān)系樹與核心詞連接的邊“SBV”和“VOB”,兩條邊都匹配,所以f3=2;句法樹中有4個(gè)分支匹配:分別是“ROOT→IP→NP→PN”、“ROOT→IP→VP→ VV”、“ROOT→IP→VP→NP→NN”和“ROOT→IP→PU”,所以f4=4。因此f=[1,0,2,4]。類似可以生成其他句模對(duì)應(yīng)的f向量。句子匹配程度最高的句模,即可使用句模的情感分類作為此句子的情感分類。本文設(shè)計(jì)和選擇了4種句模匹配特征用于描述句模匹配的相似性。
圖3 句模1依存樹
圖4 句模1句法樹
f1:是否匹配核心詞,匹配則f1=1,不匹配則為0。
f2:匹配附屬詞個(gè)數(shù)。
f3:匹配依存關(guān)系樹中與核心詞連接的邊的個(gè)數(shù)。
f4:匹配句法樹中從根到葉子節(jié)點(diǎn)的路徑(或稱為句法樹分支)的個(gè)數(shù)。
隨后,使用下面的線性分類器模型結(jié)合上述4種匹配特征進(jìn)行分類:
利用線性分類器分類結(jié)果可得到句模1為最近似句模分類結(jié)果,對(duì)應(yīng)的例句2的情感分類結(jié)果可以由句模1的分類“喜愛”獲得。
本文設(shè)計(jì)的基于情感句模的情感分類算法分類成功的標(biāo)準(zhǔn)是至少找到一個(gè)匹配得分超過閾值的句模。每個(gè)情感分類中所有句模的最高得分為該分類的得分,按總得分由高到低對(duì)情感分類進(jìn)行排序,分?jǐn)?shù)最高的一個(gè)或多個(gè)分類為最終分類結(jié)果,其他分類作為參考結(jié)果。也就意味著本文的分類方法支持多標(biāo)簽分類。
2.2.2 基于感知機(jī)的權(quán)重參數(shù)優(yōu)化
為提高線性分類器的性能,本文使用感知機(jī)學(xué)習(xí)算法,利用標(biāo)注訓(xùn)練語料對(duì)情感分類算法中的權(quán)重參數(shù)w進(jìn)行優(yōu)化。算法偽代碼描述如下:
其中fi是訓(xùn)練語料中第i個(gè)句子匹配特征向量,2.2.1節(jié)中例句1匹配句模1的匹配特征向量fi=[1,0,2,4]。w 是分類算法的4個(gè)匹配特征的打分權(quán)重向量。zi是期望分類,表示當(dāng)前句模所在情感類與第i個(gè)句子標(biāo)注的情感分類是否相同,相同則zi=1,不相同則zi=0,例句1標(biāo)注的情感分類是喜愛類,與句模1所在分類相同,所以zi=1。training_set是訓(xùn)練語料對(duì)應(yīng)的匹配特征向量t與期望分類z的集合。error_count記錄變量error不為0的個(gè)數(shù),當(dāng)訓(xùn)練語料中所有的句子對(duì)應(yīng)的error變量值都為0時(shí)程序結(jié)束。ɑ為學(xué)習(xí)因子,取值在0到1之間。
2.2.3 特殊詞語處理
在算法設(shè)計(jì)與分析過程中,發(fā)現(xiàn)以下幾點(diǎn)問題。
(1)不規(guī)則詞問題:一些語料尤其是微博語料中經(jīng)常出現(xiàn)不規(guī)則詞和短語,分類算法無法識(shí)別句模庫中沒有的詞。例如,句子:“剛才的拔河比賽,太雞凍了”,句模庫的激動(dòng)詞類中只有“激動(dòng)”而沒有“雞凍”。解決辦法是搜集不規(guī)則詞將其添加到詞類庫中。
(2)分詞錯(cuò)誤問題。例如,對(duì)“自己是最棒的”的分詞結(jié)果為“自己/是/最/棒/的”,如果能將“最棒的”作為一個(gè)獨(dú)立單元來處理,更有利于根據(jù)關(guān)鍵詞選擇候選分類。解決辦法是將具有明顯情感的短語加入到自定義詞表中作為一個(gè)詞處理。
本文實(shí)驗(yàn)使用兩個(gè)領(lǐng)域的語料:語料1為NLP&CC 2013中文微博情緒識(shí)別評(píng)測(cè)數(shù)據(jù),簡(jiǎn)稱NLP&CC語料。共包括4000條微博中的13250個(gè)句子,其中情感句4949句,無情感句8301句。情感句共分7類:Anger憤怒、Disgust厭惡、Fear恐懼、Happiness高興、Like喜好、Sadness悲傷、Surprise驚訝。每個(gè)句子最多屬于兩個(gè)情感分類。語料2為RenCECps博客情緒語料,包括1487篇博客短文共34954個(gè)句子,其中情感句32171句,無情感句2783句。情感句共分8類:Sorrow,Anger,Anxiety,Surprise,Hate,Love,Joy,Expect。每個(gè)句子可屬于一個(gè)或多個(gè)情感分類。
實(shí)驗(yàn)使用評(píng)估指標(biāo)為:
準(zhǔn)確率:
召回率:
待分類句子的多標(biāo)簽分類結(jié)果中任意一個(gè)標(biāo)簽分類正確,則視為正確分類句。#system_correct(emotion=Y(jié))是對(duì)語料中情感句分類正確的句子數(shù)目,#system_proposed(emotion=Y(jié))是語料中的情感句總數(shù),#gold(emotion=Y(jié))是語料中被劃分為情感句的句子數(shù)目。
本文采用的Baseline系統(tǒng)是基于詞語特征SVM分類器的方法。
實(shí)驗(yàn)1 與Baseline系統(tǒng)對(duì)比實(shí)驗(yàn)。
Baseline系統(tǒng)使用SVM分類器和詞語特征分別對(duì)NLP&CC微博語料和RenCECps博客情緒語料進(jìn)行分類,具體方法是:對(duì)情感句進(jìn)行分詞標(biāo)注詞性后挑選所有的名詞、動(dòng)詞和形容詞組成一個(gè)詞匯表,以待分類句子中的詞是否在詞匯表中出現(xiàn)以及出現(xiàn)的頻率為特征,隨機(jī)挑選2/3的句子為訓(xùn)練語料,1/3的句子為測(cè)試語料,使用SVM Multi-Class工具進(jìn)行訓(xùn)練和測(cè)試。Baseline系統(tǒng)和本文提出的分類器獲得的最高準(zhǔn)確率統(tǒng)計(jì)結(jié)果如表2所示。
表2 NLP&CC微博語料Baseline系統(tǒng)對(duì)比實(shí)驗(yàn)結(jié)果
表3 RenCECps博客情緒語料Baseline系統(tǒng)對(duì)比實(shí)驗(yàn)結(jié)果
由此可見,基于情感句模的分類算法相比Baseline方法可以達(dá)到較高的準(zhǔn)確率。特別是RenCECps博客情緒語料上可以達(dá)到很高性能,這是由于這個(gè)語料中用詞比較規(guī)范,因此,基于情感句模的分類算法準(zhǔn)確率較高。
實(shí)驗(yàn)2 權(quán)重優(yōu)化影響實(shí)驗(yàn)。
使用2.2.2節(jié)描述的感知機(jī)算法,取α=0.1,threshold=0.5,對(duì)NLP&CC語料中情感句進(jìn)行訓(xùn)練,得到w=[0.6,0.2,0.6,-0.2],為方便計(jì)算將每個(gè)權(quán)值放大10倍后取整,得到w=[6,2,6,-2]。分別使用均等權(quán)重、經(jīng)驗(yàn)權(quán)重和感知機(jī)優(yōu)化特征權(quán)重,對(duì)NLP&CC語料中情感句和無情感句進(jìn)行分類,分類結(jié)果如表4所示。
表4 評(píng)估特征權(quán)重影響實(shí)驗(yàn)結(jié)果
與均等權(quán)重相比,采用感知機(jī)學(xué)習(xí)算法優(yōu)化特征權(quán)重后,分類算法性能提升了約3%。與經(jīng)驗(yàn)權(quán)重相比,召回率略有上升,準(zhǔn)確率有所下降,F(xiàn)值略微上升。
實(shí)驗(yàn)3 句模數(shù)量與分類準(zhǔn)確度及句模庫對(duì)中文情感句的覆蓋率的評(píng)估。
對(duì)NLP&CC語料中情感句進(jìn)行分類,統(tǒng)計(jì)與分類正確的情感句匹配頻率最高的10個(gè)句模,如表5所示。
表5 與分類正確情感句匹配頻率最高的10個(gè)句模
進(jìn)一步,分別統(tǒng)計(jì)與分類正確的情感句統(tǒng)計(jì)匹配頻率最高的10個(gè)、20個(gè)、50個(gè)、100個(gè)、150個(gè)句模,以及與它們匹配的句子個(gè)數(shù),統(tǒng)計(jì)結(jié)果如圖5所示。
圖5中橫坐標(biāo)為高頻句模數(shù)量,實(shí)線圖的縱坐標(biāo)為高頻句模匹配的句子占全部分類正確的情感句的百分比,虛線圖的縱坐標(biāo)為高頻句模匹配的句子占全部情感句的百分比??梢园l(fā)現(xiàn)前150個(gè)高頻句模匹配了97.6%的分類正確的情感句,覆蓋了絕大多數(shù)分類正確的情感句,對(duì)NLP&CC語料中全部情感句的覆蓋率為40.7%。
此外,分別只使用匹配頻率最高的10個(gè)、20個(gè)、30個(gè)、50個(gè)、100個(gè)、150個(gè)句模對(duì)NLP&CC語料進(jìn)行分類,統(tǒng)計(jì)分類準(zhǔn)確率如圖6所示。
圖5 句模數(shù)量與匹配句子百分比統(tǒng)計(jì)圖
圖6 句模數(shù)量與分類準(zhǔn)確率統(tǒng)計(jì)圖
圖中橫坐標(biāo)為高頻句模的數(shù)量,縱坐標(biāo)為只使用這些句模對(duì)NLP&CC語料中情感句進(jìn)行分類的準(zhǔn)確率??梢园l(fā)現(xiàn)只使用前10個(gè)高頻句模對(duì)NLP&CC語料7個(gè)分類的分類準(zhǔn)確率為16.6%,只比隨機(jī)分配1/7=14.3%的概率高2個(gè)百分點(diǎn)。隨著高頻句模數(shù)量的增加,分類準(zhǔn)確率迅速提高。當(dāng)使用前150個(gè)句模時(shí),分類準(zhǔn)確率為40.7%,與使用全部413個(gè)句模的準(zhǔn)確率43.4%只相差3個(gè)百分點(diǎn)。由此可見,前150個(gè)高頻句模對(duì)分類效果起到?jīng)Q定性影響,繼續(xù)增加句模數(shù)量對(duì)分類準(zhǔn)確率提高效果不明顯。
實(shí)驗(yàn)4 分類特征、自定義詞表與分類效果關(guān)系實(shí)驗(yàn)。
分別使用以下3種方法進(jìn)行實(shí)驗(yàn)。
方法1:只使用分類算法4個(gè)分類特征中詞級(jí)特征f1和f2,對(duì)NLP&CC語料進(jìn)行分類。
方法2:使用全部4個(gè)特征對(duì)NLP&CC語料進(jìn)行分類。
方法3:使用全部4個(gè)特征加自定義詞表對(duì)NLP&CC語料進(jìn)行分類。
分類統(tǒng)計(jì)結(jié)果如表6所示。
表6 實(shí)驗(yàn)4統(tǒng)計(jì)結(jié)果
由表6可知,方法2在方法1的基礎(chǔ)上使用依存關(guān)系特征f3和句法特征f4分類性能提升明顯。方法1效果較差的原因是句模庫中有些同義詞的含義并不能與句模匹配。例如:《同義詞詞林》中“細(xì)心”的同義詞包括“致密”、“逐字逐句”、“細(xì)瞧”、“有心人”等,與細(xì)心類的句模:“<當(dāng)事><細(xì)心詞類>”中的“細(xì)心詞類”并不匹配,這些詞在細(xì)心詞類中會(huì)降低分類系統(tǒng)的召回率。方法3比方法2多了自定義分詞詞表,分類效果略有提高。這說明自定義詞表能夠提高分類效果,但自定義詞都是針對(duì)特定句子的情感表達(dá)手工抽取添加,目前的規(guī)模還不夠,覆蓋范圍有限,對(duì)分類效果提升有限。
實(shí)驗(yàn)1至4表明,繼續(xù)增加分類系統(tǒng)的句模數(shù)量和優(yōu)化打分權(quán)重對(duì)分類效果提高影響不大。下一步考慮增加新的匹配特征,例如,句模中的語義角色特征等。
實(shí)驗(yàn)過程中發(fā)現(xiàn)下列問題:(1)句模庫中只有情感類句模,沒有無情感類句模。任何與4個(gè)匹配特征中任意1個(gè)匹配的句子都會(huì)劃分為情感句,導(dǎo)致無情感句被劃為情感句的概率較高,降低了系統(tǒng)的性能。下一步將考慮優(yōu)化特征匹配得分的閾值或完善三大情感分類以外的基于謂詞的分類,并構(gòu)建相應(yīng)的句模庫。(2)情感分類和句模都是基于謂詞和相應(yīng)規(guī)則構(gòu)建的,對(duì)顯式含有情感詞或情感搭配的句子比較有效。而類似“如同觀看一部真正的大片一樣”這樣的句子中,表達(dá)情感的要素是名詞“大片”和它的修飾語“真正的”,比較難用句模匹配的方法劃分情感類別。類比句或比喻句的情感分類是十分困難的,下一步考慮增加相應(yīng)的匹配特征,嘗試結(jié)合基于統(tǒng)計(jì)的方法,提高隱含情感句子的分類效果。
本文設(shè)計(jì)和實(shí)現(xiàn)了一種半自動(dòng)獲取情感句模的方法,使用句模分類的方法實(shí)現(xiàn)對(duì)情感句的分類,在兩個(gè)情感測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果顯示本文提出的方法可以穩(wěn)定有效地提高文本情感分類性能。目前情感分類的細(xì)致劃分還在繼續(xù)進(jìn)行中,計(jì)劃細(xì)化同義詞詞類和嘗試添加更多匹配特征。另外還將加入基于統(tǒng)計(jì)的情感分類方法,構(gòu)筑相應(yīng)的訓(xùn)練語料和測(cè)試語料,提高對(duì)隱含情感句子的分類效果。
附錄A.情感句模分類
① 態(tài)度類分為:支持類,反對(duì)類,懷疑類,沉默類,耐心類,怨氣類,果斷類,信心類,冒險(xiǎn)類,妥協(xié)類,熱情類,冷淡類,粗暴類,誠懇類,溫柔類,和藹類,客氣類,寬容類,霸道類,謙虛類,細(xì)心類,勤奮類,負(fù)責(zé)類,積極類,謹(jǐn)慎類,粗心類,親密類,團(tuán)結(jié)類,一見如故類,熟悉類,戀愛類,和睦類,疏遠(yuǎn)類,友好類,糾紛類,糾纏類,挑逗類,苛刻類,重視類,嚴(yán)格類,輕視類。共41個(gè)二級(jí)分類。
② 感受類分為:吸引類,為榮類,自娛類,為恥類,不知所措類,傷感情類,感知類,記得類,生理感覺類,非生理感覺類,聽到類,偷聽類,看見類,偷看類,知道類,不知道類,發(fā)現(xiàn)類,慚愧類,憤怒類,義憤類,幸災(zāi)樂禍類,敬佩類,羨慕類,感激類,譴責(zé)類,害怕類,喜愛類,溺愛類,討厭類,仇恨類,寬慰類,失望類,擔(dān)憂類,高興類,悲傷類,驚訝類,滿意類,不滿意類,沒耐心類,懊悔類,緊張情緒類,心安類,自豪類,慌張類,眼熟類,耳熟類,眼生類,耳生類。共48個(gè)二級(jí)分類。
③ 思想類分為:希望類,自愿類,向往類,思考類,想象類,相信類,鑒別類,主張類,接受類,看待類,信任類,寵信類,看得起類,另眼相看類,想念類,著想類。共16個(gè)二級(jí)分類。
[1]Peter D Turney.Thumbs Up or Thumbs Down?Senmantic Orientition Applied to Unsupervised Classification of Reviews[C]//Proceedings of ACL 2002:417-424.
[2]Kamps J,Marx M,Mokken RJ.Using WordNet to Measure Semantic Orientation of Adjectives.[C]//Proceedings of LREC.2004:1115-1118.
[3]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.
[4]Hu Minqing,Liu B.Mining Opinion Features in Customer Reviews.[C]//Proceedings of AAAI 2004:755-760.
[5]姚天昉,聶青陽,李建超,等.一個(gè)用于漢語汽車評(píng)論的意見挖掘系統(tǒng).[C]//中文信息處理前沿進(jìn)展——中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集.北京:清華大學(xué)出版社,2006:260-280.
[6]劉鴻宇,趙妍妍,秦兵,等.評(píng)價(jià)對(duì)象抽取及其傾向性分析[J].中文信息學(xué)報(bào),2010,24(1):84-89.
[7]任巨偉,楊源,王昊,等.二元情感常識(shí)庫建設(shè)及其在文本情感分析中的應(yīng)用[OL].中國科技論文在線,2013,http://www.paper.edu.cn/releasepaper/content/201301-158.
[8]陳健美,林鴻飛.中文情感常識(shí)知識(shí)庫的構(gòu)建[J].情報(bào)學(xué)報(bào),2009,28(4):492-498.
[9]Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up?Sentiment Classification using Machine Learning Techniques [C]//Proceedings of EMNLP 2002:79-86.
[10]谷學(xué)靜,王志良,劉冀偉,等.基于 HMM的人工心理建模方法的研究[C].第一屆中國情感計(jì)算及智能交互學(xué)術(shù)會(huì)議,北京,2003:31-36.
[11]王根,趙軍.基于多重冗余標(biāo)記CRFs的句子情感分析研究[J].中文信息學(xué)報(bào),2007,21(5):51-56.
[12]S Li and C Zong,Multi-domain Sentiment Classification[C]//Proceedings of ACL-HLT 2008:257-260.
[13]李壽山,黃居仁.基于Stacking組合分類方法的中文情感分類研究[J].中文信息學(xué)報(bào),2010,24(5):56-61.
[14]魯川,緱瑞隆,董麗萍.現(xiàn)代漢語基本句模[J].世界漢語教學(xué),2000,54(4):11-24.
[15]Changqin Quan,F(xiàn)uji Ren.Construction of a Blog E-motion Corpus for Chinese Emotional Expression A-nalysis[C]//Proceedings of the 2009Conference on Empirical Methods in Natural Language Processing,pages:1446-1454.
[16]朱曉亞,范曉.二價(jià)動(dòng)作動(dòng)詞形成的基干句模[J].語言教學(xué)與研究,1999:111-122.