皇甫璐雯,毛文吉
(中國(guó)科學(xué)院自動(dòng)化研究所 復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
一種基于OCC模型的文本情感挖掘方法
皇甫璐雯,毛文吉
(中國(guó)科學(xué)院自動(dòng)化研究所 復(fù)雜系統(tǒng)管理與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
觀點(diǎn)挖掘(或情感分析)作為面向網(wǎng)絡(luò)社會(huì)媒體分析挖掘領(lǐng)域的一個(gè)核心研究課題,具有重要的研究意義和應(yīng)用價(jià)值。針對(duì)傳統(tǒng)觀點(diǎn)挖掘方法存在的不足和局限性,本文設(shè)計(jì)并實(shí)現(xiàn)了一種基于OCC情感模型的觀點(diǎn)挖掘方法。該方法首先采用統(tǒng)計(jì)方法,利用WordNet詞典、句法依存關(guān)系及少量標(biāo)注數(shù)據(jù),自動(dòng)構(gòu)建情感維度詞典;其次,對(duì)所構(gòu)建的情感維度詞典進(jìn)行求精,通過語義、情感傾向的不一致性處理和非情感詞的過濾,得到高質(zhì)量的情感維度詞典;最后,基于所得到的情感維度詞典,結(jié)合OCC模型中情感維度值與情感類型的對(duì)應(yīng)關(guān)系,生成6種主要的情感類型。實(shí)驗(yàn)方法表明,此方法在使用靈活性、可解釋性和有效性上具有明顯的優(yōu)勢(shì)。
觀點(diǎn)挖掘;OCC情感模型;情感維度;情感類型;情感詞典;認(rèn)知心理學(xué);情感挖掘;共現(xiàn)
近年來,社會(huì)媒體迅猛發(fā)展并快速滲透到了社會(huì)、經(jīng)濟(jì)、政治、文化等各方面,互聯(lián)網(wǎng)用戶產(chǎn)生的內(nèi)容中包含大量關(guān)于用戶意見、態(tài)度、情緒等有價(jià)值的信息,而且其數(shù)量隨時(shí)間累積呈指數(shù)級(jí)增長(zhǎng)。這些信息主要是用戶的主觀性觀點(diǎn),與客觀的事實(shí)有很大的不同。這些包含用戶觀點(diǎn)的海量數(shù)據(jù)蘊(yùn)含著巨大的實(shí)際應(yīng)用價(jià)值,亟需自動(dòng)化的計(jì)算分析與處理技術(shù),這種現(xiàn)象促進(jìn)了觀點(diǎn)挖掘與情感分析這一新興研究領(lǐng)域的蓬勃發(fā)展。目前,觀點(diǎn)挖掘(或情感分析)[1-2]已成為社會(huì)媒體分析挖掘領(lǐng)域的一個(gè)核心研究課題,其研究成果已應(yīng)用于用戶觀點(diǎn)發(fā)現(xiàn)、產(chǎn)品評(píng)論分析及社會(huì)輿情監(jiān)控等領(lǐng)域,并在推動(dòng)社會(huì)和諧發(fā)展、改善人們生活方面發(fā)揮重要作用[3]。
互聯(lián)網(wǎng)中的文本數(shù)據(jù)大致可以分為兩類:一類用來陳述客觀性的事實(shí),另一類用來表達(dá)主觀性的觀點(diǎn)。相對(duì)于客觀性的事實(shí)數(shù)據(jù),主觀性的觀點(diǎn)數(shù)據(jù)由于其內(nèi)在的復(fù)雜性,在研究方法和技術(shù)上與前者區(qū)別較大。目前觀點(diǎn)挖掘分為兩類工作:識(shí)別觀點(diǎn)的正負(fù)極性和文本中的情感類型。文本中的情感類型比正負(fù)極性包含更為豐富的信息,因而挖掘文本中的情感類型更具有挑戰(zhàn)性,但往往需要大量的手工標(biāo)注數(shù)據(jù),并且所獲得的情感類型常常缺乏可解釋性。
挖掘觀點(diǎn)正負(fù)極性的方法主要有文檔級(jí)觀點(diǎn)挖掘[3-4]、語句級(jí)觀點(diǎn)挖掘[5-8]、基于情感對(duì)象特征的觀點(diǎn)挖掘[9-10]等。Turney[4]提出了一種利用非監(jiān)督學(xué)習(xí)方法計(jì)算詞之間的互信息(PMI)來判斷整個(gè)文檔的正負(fù)極性。Pang等[3]提出采用多種機(jī)器學(xué)習(xí)方法分類每篇電影評(píng)論的正負(fù)極性。Wiebe等[8]通過大量數(shù)據(jù)集學(xué)習(xí)線索和特征,區(qū)分主觀觀點(diǎn)和客觀事實(shí),并在語句級(jí)判斷觀點(diǎn)的正負(fù)極性。Zhang等[11]提出利用詞之間的依賴關(guān)系分析中文語句的正負(fù)傾向性。Hu等[9]利用頻繁挖掘算法獲得情感對(duì)象特征,再利用語義詞典確定情感詞的正負(fù)極性,從而輸出針對(duì)每個(gè)情感對(duì)象特征的相關(guān)正負(fù)評(píng)論。
挖掘文本中情感類型的方法主要包括基于統(tǒng)計(jì)的方法[12]、機(jī)器學(xué)習(xí)方法[13-16]、基于情感結(jié)構(gòu)/模型的方法[16-17]等?;跈C(jī)器學(xué)習(xí)的情感類型挖掘工作主要采用分類學(xué)習(xí)算法[13-14,16,18-19]。Mostafa[17]提出了一種基于情感模型的方法,該方法利用大量的手工標(biāo)注數(shù)據(jù),并基于主要的情感變量計(jì)算語句中幾乎所有詞的情感變量值,進(jìn)而計(jì)算得到整個(gè)語句的情感類型。但是,這種方法不但需要大量人力,費(fèi)時(shí)費(fèi)力,而且不加區(qū)分地計(jì)算句子中出現(xiàn)的詞,導(dǎo)致該方法的效率和性能較低。
綜上,觀點(diǎn)傾向性的傳統(tǒng)挖掘方法主要關(guān)注觀點(diǎn)的正負(fù)極性而忽略了其豐富的情感類型;已有的情感類型挖掘盡管能夠輸出豐富的情感類型,但是需要大量的標(biāo)注數(shù)據(jù)支持。此外,以往工作幾乎都未考慮情感認(rèn)知理論模型在觀點(diǎn)挖掘和情感分析中的重要作用。因此,為了更好地實(shí)現(xiàn)從網(wǎng)上文本數(shù)據(jù)中挖掘出豐富的情感類型,文中提出一種基于OCC情感模型的觀點(diǎn)挖掘方法。
認(rèn)知評(píng)估理論[20-23]是認(rèn)知心理學(xué)研究中最為成熟和影響最廣的情感理論。認(rèn)知評(píng)估理論認(rèn)為評(píng)估過程是個(gè)體評(píng)價(jià)其與所處環(huán)境間的關(guān)系,包括目前的條件、導(dǎo)致當(dāng)前狀態(tài)的事件和對(duì)未來的預(yù)期。評(píng)估理論認(rèn)為評(píng)估本身盡管不是一個(gè)慎思的過程,但其確實(shí)由認(rèn)知的過程提供信息,尤其是那些參與理解和與環(huán)境交互的過程。評(píng)估將這些異類過程的特征映射到一個(gè)共同的中介術(shù)語集(即維度變量)。這些維度變量作為個(gè)體與環(huán)境之間關(guān)系的中介描述,在刺激源和反應(yīng)之間進(jìn)行協(xié)調(diào)。維度變量刻畫了對(duì)個(gè)體而言事件的重要特征。
認(rèn)知評(píng)估理論中的不同情感模型采用了不同的情感維度變量,但它們所使用的情感維度變量間有很大的相似性,其中文獻(xiàn)[23]工作中的分類最全,包括相關(guān)性(relevance)、合意性(desirability)、行動(dòng)性(actionability)、責(zé)備/褒獎(jiǎng)(praise/blame-worthiness)、可能性(likelihood)、意外性(unexpectedness)、自我投入(ego-involvement)、可控性(controllability)、權(quán)力(power)、適應(yīng)性(adaptability)。
不同的情感維度變量及其取值產(chǎn)生不同的情感類型。比如,在一個(gè)具體的經(jīng)濟(jì)環(huán)境下,“賠錢”是個(gè)不合人意的事件,并導(dǎo)致負(fù)性情感評(píng)估。在此情形下,其他變量的不同取值可引發(fā)不同的情感評(píng)估。諸如,如果可能性是不確定的,引發(fā)“恐懼”(fear)情感,否則引發(fā)“悲傷”(distress)情感。自我的行動(dòng)帶來應(yīng)受到責(zé)備的行為后果引發(fā)“羞恥”(shame),如果事件是不合己意的,則帶來“悔恨”(remorse)。如果不合己意的事件帶來的后果是他人應(yīng)受到責(zé)備的行為引發(fā)的,則導(dǎo)致“生氣”(anger)情感。
OCC情感模型[21]是認(rèn)知心理學(xué)中經(jīng)典的情感認(rèn)知結(jié)構(gòu)模型,也是在計(jì)算領(lǐng)域近年來采用最多的心理學(xué)情感模型,在情感的計(jì)算建模中有著非常廣泛的應(yīng)用。
OCC情感模型的整個(gè)層次結(jié)構(gòu)主要包括3個(gè)部分:與事件結(jié)果相關(guān)的情感,與智能體行為相關(guān)的情感和與對(duì)象屬性相關(guān)的情感。這3個(gè)部分也可以結(jié)合起來組合成更為復(fù)雜的情感類型。該模型共描述了22種不同情感類型的認(rèn)知結(jié)構(gòu)。OCC模型中每個(gè)情感類型的出現(xiàn)都由一定的條件觸發(fā),這些條件通過不同的情感維度值表達(dá)。其中,“合意性(desirability)” “褒貶性(praise-/blame-worthiness)”和“可能性(likelihood)”是該模型中3個(gè)最為重要的情感維度變量。“合意性”與主體的目標(biāo)相關(guān)聯(lián),“褒貶性”與行為是否符合社會(huì)道德標(biāo)準(zhǔn)相關(guān)聯(lián),而“可能性”則表示對(duì)事件發(fā)生的期望。
在情感認(rèn)知結(jié)構(gòu)理論中,每個(gè)情感維度變量有不同的取值?!昂弦庑?desirability)”維度的取值包括“合意的(desirable)”和“不合意的(undesirable)”。當(dāng)某些事件的發(fā)生有利于最終目標(biāo)的實(shí)現(xiàn)時(shí),這種情況對(duì)于主體而言是合意的;反之則是不合意的。類似地,“褒貶性(praise-/blame-worthiness)”維度的取值有“值得稱贊的(praiseworthy)”和“應(yīng)受責(zé)備的(blameworthy)”?!翱赡苄?likelihood)”維度有“可能的(likely)”和“確定的(certain)”這兩個(gè)取值。情感維度變量的不同取值及其組合可以生成不同的情感類型。例如,如果“合意的”事件的可能性是“確定的”,引發(fā)“高興(joy)”情感;否則引發(fā)“希望(hope)”。如果個(gè)體“值得表揚(yáng)的(praiseworthy)”行為帶來合乎自己心意的行為后果,則導(dǎo)致“驕傲(pride)”情感的產(chǎn)生。表1給出了3個(gè)情感維度變量與情感類型之間的對(duì)應(yīng)關(guān)系。
表13個(gè)情感維度變量及其對(duì)應(yīng)的情感類型
Table1Threeemotionaldimensionvariablesandtheircorrespondingemotiontypes
合意性褒貶性可能性情感類型合意的—確定的高興不合意的—確定的悲傷合意的—可能的希望不合意的—可能的恐懼合意的值得稱贊的確定的驕傲不合意的應(yīng)受責(zé)備的確定的羞恥
表1左邊3列是情感維度取值列表,右邊一列是在特定的情感維度取值下所產(chǎn)生的情感類型。本文的研究思路基于經(jīng)典的OCC情感模型,選取其最主要的3個(gè)情感維度,以挖掘文中包含的這3類維度變量的情感。
詞為重點(diǎn),通過建立相應(yīng)的情感維度詞典,自動(dòng)推演出6種主要的情感類型:高興(joy)、悲傷(distress)、希望(hope)、恐懼(fear)、驕傲(pride)和羞恥(shame)。
結(jié)合前面介紹的OCC情感認(rèn)知結(jié)構(gòu)模型,建立自動(dòng)識(shí)別文本中情感類型的方法?;贠CC模型的情感類型挖掘問題可以分解成兩個(gè)子問題:1)自動(dòng)構(gòu)建高質(zhì)量的情感維度詞典,即建立包括具體的詞和抽象的情感維度值之間的映射關(guān)系;2)基于OCC模型,以規(guī)則的形式建立情感維度值與情感類型間的對(duì)應(yīng)關(guān)系。構(gòu)建情感維度詞典則是建立文本情感類型識(shí)別系統(tǒng)的關(guān)鍵。情感維度詞典涵蓋了比通常僅包含正負(fù)極性的情感詞庫更豐富的信息,所以在構(gòu)建情感維度詞典時(shí),綜合考慮了依存句法關(guān)系、語義關(guān)系和統(tǒng)計(jì)信息。由于構(gòu)建后的情感維度詞典存在語義、情感傾向的不一致性等問題,因此還需要對(duì)情感維度詞典進(jìn)一步求精,過濾掉低質(zhì)量的候選詞。
圖1是基于OCC情感模型的觀點(diǎn)挖掘方法的數(shù)據(jù)流圖,主要由情感維度詞典的構(gòu)建、求精和情感類型的生成3個(gè)模塊組成。該方法基于海量開源文本輸入,以句子為單位輸出情感類型及其關(guān)聯(lián)的情感對(duì)象。其中,情感維度詞典的構(gòu)建模塊利用通用語義詞典和句法依存關(guān)系建立關(guān)于各情感維度值的詞典,情感維度詞典的求精模塊包括語義、正負(fù)情感傾向的不一致性處理和非情感詞的過濾。針對(duì)前2個(gè)模塊,文中還提出了融合Bootstrapping的構(gòu)建與求精同步的改進(jìn)算法。情感類型的生成模塊基于前2個(gè)模塊得到情感維度詞典,利用經(jīng)典的OCC情感模型,獲得情感類型。最后,得到情感類型與情感對(duì)象相結(jié)合的輸出結(jié)果,以滿足用戶需求。
圖1 基于OCC模型的本文情感挖掘方法Fig.1 OCC model-based emotion mining method from texts
2.1 情感維度詞典的構(gòu)建與求精
情感維度詞典是基于WordNet詞典和句法依存關(guān)系,采用統(tǒng)計(jì)的方法自動(dòng)構(gòu)建的。WordNet詞典可以提供詞的語義解釋和詞之間的關(guān)系,有同義詞、反義詞、還原詞、派生詞等。句法依存關(guān)系是指,通過句法分析樹中得到的詞之間存在的聯(lián)系,可以提示詞之間潛在的關(guān)系。
為自動(dòng)構(gòu)建情感維度詞典,首先手工挑選少量高質(zhì)量的情感維度值種子詞(不超過10個(gè))和4個(gè)依存關(guān)系模板。其中,關(guān)于每個(gè)情感維度值的種子詞包含詞的原型和詞性信息。加入詞性信息是因?yàn)橄嗤脑~在詞性不同的時(shí)候含義大不相同,例如:sentence做動(dòng)詞時(shí),意思為“判刑”,維度是Blameworthy;但是做名詞時(shí),意思為“句子”,可以認(rèn)為不是情感詞。4個(gè)依存關(guān)系包括conj_and、conj_or、prep_in和parataxis。其含義分別是詞之間的并列and關(guān)系、詞之間的并列or關(guān)系、詞之間的介詞in關(guān)系和2個(gè)詞在分句中所處的并列關(guān)系。然而,僅僅依靠依存關(guān)系可能會(huì)有一些問題。比如,簡(jiǎn)單的并列關(guān)系“wonderful and exciting”中wonderful和exciting是同義詞關(guān)系;而在另一個(gè)短語“young and old”中,young和old有著強(qiáng)烈的反義詞關(guān)系而不是同義詞關(guān)系。由此可見,盡管模板conj_and可以提示詞之間存在語義關(guān)系,但是這種語義關(guān)系到底是一致還是恰好相反需要借助詞典來進(jìn)一步判斷。因此,基于詞典的方法不但用來尋找候選的情感維度詞,而且用來判斷候選情感維度詞的情感維度值的合理性。
在第一輪循環(huán)開始,對(duì)于每種情感維度值挑選少量高質(zhì)量的種子詞,作為初始的情感維度詞典輸入。情感維度詞典包括DICD(合意的)、DICU(不合意的)、DICP(值得稱贊的)、DICB(應(yīng)受責(zé)備的)。挑選情感維度種子詞有多種策略,可以通過手工查看數(shù)據(jù)集憑經(jīng)驗(yàn)進(jìn)行挑選或者通過計(jì)算詞出現(xiàn)的頻率挑選出頻率高并且包含情感維度值的詞作為種子詞。
2.1.1 構(gòu)建過程
在每一輪循環(huán)中,用WordNet和手工挑選的模板不斷地抽取不同維度值下的情感詞。在每一輪循環(huán)后,利用一個(gè)基于共現(xiàn)思想的評(píng)分函數(shù)來評(píng)估抽取的情感維度詞。情感維度詞典的構(gòu)建過程如下。
1)針對(duì)情感維度詞典中每個(gè)新加入的情感維度詞,基于WordNet詞典,找出其同義詞和反義詞,并將其同義詞和反義詞分別放入相應(yīng)的情感維度詞典候選集中。
2)利用前面提到的4個(gè)句法依存關(guān)系從輸入的海量文本中找出與所述相應(yīng)的情感維度詞典中已有的情感維度詞具有依存關(guān)系的新情感維度詞,放入相應(yīng)的情感維度詞典候選集中。
3)利用(1)式所示的評(píng)分函數(shù)對(duì)相應(yīng)的情感維度詞典候選集進(jìn)行評(píng)價(jià)與過濾,選取其中評(píng)分大于閾值的候選集中的情感詞,放入相應(yīng)的情感維度詞典中:
4)不斷重復(fù)步驟2)~3),直到不再有新的情感維度詞加入;
5)利用WordNet中的派生以及還原關(guān)系擴(kuò)充情感維度詞典。
構(gòu)建情感維度詞典過程中的輸入是海量的文本和關(guān)于某個(gè)情感維度值的種子詞,輸出是針對(duì)這個(gè)情感維度值建立起來的情感維度詞典。這里涉及3個(gè)維度,6個(gè)維度值,情感維度值可以是“合意的” “不合意的” “值得稱贊的” “應(yīng)受責(zé)備的” “可能的”和“確定的”,分別簡(jiǎn)寫為“D” “U” “P” “B” “L” “C”。其中L、C情感維度詞典的構(gòu)建僅僅依賴WordNet中詞之間的語義關(guān)系,并且Likelihood維度的默認(rèn)值為C。
循環(huán)初始時(shí)挑選的高質(zhì)量情感維度種子詞為1)和2)提供一個(gè)良好的基礎(chǔ)。1)和2)的目的是分別基于詞典和基于依存關(guān)系獲得候選的情感維度詞。3)通過計(jì)算一個(gè)評(píng)分函數(shù)保證進(jìn)入情感維度詞典的詞的質(zhì)量。最后,在情感維度詞典中的詞基于WordNet中的同義、反義、還原和派生關(guān)系進(jìn)行擴(kuò)充。比如,如果“harm”是在情感維度詞典中維度值為“blameworthy”的詞,擴(kuò)充它的派生詞“harmful”到情感維度詞典中,同時(shí)它的情感維度值也為“blameworthy”。
評(píng)分函數(shù)f(v∈DICk)主要是基于共現(xiàn)的思想,如果待評(píng)價(jià)的情感詞與某一已知情感維度值的情感詞共同出現(xiàn)的次數(shù)越多,則該情感詞的維度值就更有可能成為該情感維度值。在每一輪循環(huán)中,評(píng)分函數(shù)利用WordNet詞典和句法依存關(guān)系得到候選集,通過設(shè)定共現(xiàn)次數(shù)的閾值θ1,過濾掉低質(zhì)量的候選情感維度詞。這里v是當(dāng)前待評(píng)價(jià)的候選情感詞,u是已知情感維度值為k的情感維度詞典中的詞,k的取值可以是“D” “U” “P” “B”。DICk是當(dāng)前生成的維度值為k的情感維度詞典,|DICk|表示情感維度詞典元素個(gè)數(shù)。DIC是當(dāng)前所有情感維度詞典的并集,其元素個(gè)數(shù)為|DIC|。函數(shù)c(v,u) 表示詞v和詞u在同一語句中共現(xiàn)的次數(shù)。評(píng)分函數(shù)中詞v是否屬于某類情感維度詞典的計(jì)算既考慮了v與該類情感維度詞共現(xiàn)的次數(shù)(作為后驗(yàn)),也考慮到該類情感維度詞典在當(dāng)前所有情感維度詞典中所占的詞的比例(作為先驗(yàn))。
2.1.2 求精過程
構(gòu)建完成后的情感維度詞典往往存在不一致性或者噪聲,包括語義不一致性、情感傾向不一致性,以及非情感詞等。因此利用情感維度詞的同義詞集合和反義詞集合檢查情感維度詞的正負(fù)傾向,從而過濾掉質(zhì)量低的情感維度詞,完成情感維度詞典的求精過程。
語義不一致性是指同一個(gè)詞在同一情感維度上具有相互矛盾的取值,比如在“褒貶性”維度上同時(shí)具有“P”和“B”這兩個(gè)維度值或者在“合意性”維度上同時(shí)具有“D”和“U”這兩個(gè)維度值;情感傾向不一致性是指一個(gè)詞同時(shí)具有正負(fù)情感傾向相互沖突的情感維度值。情感詞的極性可以是正向或負(fù)向。根據(jù)含義可知,“P”和“D”表示對(duì)情感對(duì)象的正面態(tài)度或評(píng)價(jià),故極性為正;“B”和“U”表示對(duì)情感對(duì)象的負(fù)面態(tài)度或評(píng)價(jià),故極性為負(fù)。若檢測(cè)到語義或情感傾向不一致的詞,對(duì)該情感詞的求精方法根據(jù)通用語義詞典中的同義和反義關(guān)系共同確定其情感傾向。當(dāng)前待求精的情感維度詞的計(jì)算公式如式(2):
式中:nSyn、nAnt分別是當(dāng)前待求精的情感詞的同義詞和反義詞的總數(shù),nSyn+、nSyn-分別是該詞的極性為正和為負(fù)的同義詞個(gè)數(shù),nSyn-、nAnt-分別是該詞的極性為正和為負(fù)的反義詞個(gè)數(shù)。同時(shí),為了保證同義詞和反義詞集合的均衡性,將其歸一化后相加。如果計(jì)算得到的score值小于某一閾值θ2,則過濾掉該情感詞。由于以往相關(guān)工作中已建立了多個(gè)關(guān)于情感詞的正負(fù)極性詞典,這里nSyn、nAnt的正負(fù)極性可通過參照這些情感極性詞典來確定。
非情感詞包括無實(shí)際意義的詞,如具體數(shù)字、代詞等,也包括中性的名詞和動(dòng)詞。過濾的方法包括直接列出這些明顯的不應(yīng)該加入的詞加以過濾,或者計(jì)算情感傾向,將某一閾值范圍內(nèi)的詞剔除。
除了以本身建造的情感維度詞典作為極性詞典,還采用一個(gè)公開的極性詞表[9]。選擇這兩個(gè)極性詞典的原因是它們的優(yōu)勢(shì)可以互補(bǔ)。構(gòu)建的情感維度詞典能夠覆蓋到較大集合的情感維度詞,詞性詞表盡管質(zhì)量高,但是包含詞的數(shù)量非常有限,并且只有詞的極性信息。所以,兩者結(jié)合后彼此揚(yáng)長(zhǎng)避短。同時(shí)可以通過(3)式進(jìn)一步提高詞的質(zhì)量。
(0≤α≤1)
式中scorepolarity1和scorepolarity2雖然基于相同的(2)式,但是分別利用了上面提到的不同的極性詞典計(jì)算而得的。通過設(shè)定score的閾值,以避免加入質(zhì)量過低的詞。
2.2 情感類型的生成
完成構(gòu)建和求精情感維度詞典后,便可以利用OCC情感模型生成情感類型。情感類型的生成基于情感認(rèn)知結(jié)構(gòu)模型,根據(jù)該模型中每種情感類型與情感維度及其取值的對(duì)應(yīng)關(guān)系,自動(dòng)生成6種主要的情感類型。具體地說,“合意性”維度值為“合意的”并且“可能性”維度值為“確定的”時(shí)對(duì)應(yīng)的情感類型為“高興”;“合意性”維度值為“不合意的”且“可能性”維度值為“確定的”對(duì)應(yīng)的情感類型為“悲傷”;“合意性”維度值為“合意的”且“可能性”維度值為“可能的”對(duì)應(yīng)的情感類型為“希望”;“合意性”維度值為“不合意的”且“可能性”維度值為“可能的”對(duì)應(yīng)的情感類型為“恐懼”;“合意性”維度值為“合意的”,“褒貶性”維度值為 “值得稱贊的”且“可能性”維度值為“確定的”對(duì)應(yīng)的情感類型為“驕傲”;“合意性”維度值為“不合意的”, “褒貶性”維度值為“應(yīng)受責(zé)備的” 且“可能性”維度值為“確定的”對(duì)應(yīng)的情感類型為“羞恥”。工作實(shí)現(xiàn)的6種情感類型生成規(guī)則如下。
規(guī)則1 如果“合意性”維度值=“合意的”并且 “可能性”維度值=“確定的”對(duì)應(yīng)的情感類型=“高興”。
規(guī)則2 如果“合意性”維度值=“不合意的” 并且“可能性”維度值=“確定的”對(duì)應(yīng)的情感類型=“悲傷”。
規(guī)則3 如果“合意性”維度值=“不合意”并且“可能性”維度值=“可能的” 對(duì)應(yīng)的情感類型=“希望”。
規(guī)則4 如果 “合意性”維度值=“不合意的”并且“可能性”維度值=“可能的”對(duì)應(yīng)的情感類型=“恐懼”。
規(guī)則5 如果“合意性”維度值=“合意的”并且“褒貶性”維度值=“值得稱贊的” 對(duì)應(yīng)的情感類型=“驕傲”。
規(guī)則6 如果“合意性”維度值=“不合意的”并且“褒貶性”維度值=“應(yīng)受責(zé)備的” 對(duì)應(yīng)的情感類型=“羞恥”。
根據(jù)前述的情感類型的生成過程,下面給出一個(gè)具體示例。
圖2是對(duì)句子“US’s providing aid is a step in the right direction.”的情感類型挖掘過程。查看情感維度詞典,可得到這句話中包含2個(gè)情感維度詞,分別是“is”和“right”。其中,“is”的情感維度“可能性”取值為“確定的”,“right”的情感維度 “合意性”取值為“合意的”,情感維度“褒貶性”的取值為“值得稱贊的”。再根據(jù)情感類型生成規(guī)則1和規(guī)則5得到兩種情感,分別為“Joy(高興)”和“Pride(驕傲)”。
圖2 情感類型生成示例圖Fig.2 Generation of emotion types example
由此可見,通過求精后的情感維度詞典和OCC模型,最后生成多種情感類型是切實(shí)可行的。與這些情感類型相關(guān)聯(lián)的情感對(duì)象則通過由文獻(xiàn)[9]提出的頻繁情感對(duì)象識(shí)別算法進(jìn)行挖掘。下面是一些輸出結(jié)果的示例:
North Korea is in a bad situation.
=gt;(North Korea ,{Distress});
It was very wise for us to compromise and to promise food aid.
=gt;(food aid,{Joy, Hope, Pride}).
Consequently, this deal is brilliant.
=gt;( deal,{Joy, Pride}).
2.3 實(shí)驗(yàn)結(jié)果與分析
為實(shí)際驗(yàn)證提出的基于OCC情感模型的挖掘方法,文中基于網(wǎng)上新聞評(píng)論數(shù)據(jù),設(shè)計(jì)實(shí)驗(yàn)方法,對(duì)所建立的情感維度詞典進(jìn)行有效性驗(yàn)證。
2.3.1 數(shù)據(jù)獲取
從紐約時(shí)報(bào)抓取了2002年1月1日~2012年1月1日這10年間的16 398個(gè)新聞評(píng)論數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù),然后利用斯坦福的句法分析器將句子的成分都提取出來,并且手工定義高質(zhì)量的情感維度種子詞,覆蓋情感維度值包括“D” “U” “P” “B” “L”。全部種子詞如表2(括號(hào)外為情感維度詞,括號(hào)內(nèi)為情感維度詞的詞性)所示。
表2 情感維度種子詞
基于情感維度種子詞,利用WordNet詞典和句法依存關(guān)系得到情感維度詞的候選集合,并基于共現(xiàn)思想進(jìn)行過濾,進(jìn)而獲得高質(zhì)量的情感維度詞,建立相應(yīng)的情感維度詞典。對(duì)情感維度詞典的求精過程完成語義、情感傾向的不一致處理和非情感詞的過濾。由于維度L主要通過同義詞和反義詞獲得,文中僅驗(yàn)證情感維度詞典DUPB的性能。詞典DUPB在求精前和求精后所包含詞的數(shù)目如表3所示。
表3求精前后情感維度詞典
Table3Emotion-dimensiondictionariesbeforeandafterrefinement
階段DUPB求精前(含重復(fù))203316219109034108求精后(α=0.3,β=0.65)13071467794895
2.3.2 實(shí)驗(yàn)設(shè)計(jì)
為了保證標(biāo)注數(shù)據(jù)的客觀性,請(qǐng)兩個(gè)標(biāo)注者分別獨(dú)立標(biāo)注了237個(gè)測(cè)試數(shù)據(jù)。若標(biāo)注者認(rèn)為一句話中某個(gè)單詞包含某種情感維度值,就將其連同維度值一起標(biāo)注出來。為了檢查兩個(gè)標(biāo)注者的一致程度,采用式(4)計(jì)算其Kappa值:
其中,Pr(a)表示實(shí)際標(biāo)注時(shí)的一致程度,Pr(e)表示隨機(jī)情況下期望的一致程度。實(shí)驗(yàn)中兩個(gè)標(biāo)注者的Kappa值為0.613(Kappa值大于0.6表明一致程度較好)。
基于標(biāo)注數(shù)據(jù),利用精度、召回率和F值這3個(gè)指標(biāo)對(duì)情感維度詞典DUPB進(jìn)行定量評(píng)價(jià)。F值的計(jì)算公式為
式中:F-value表示F值,precision表示精度,recall表示召回率。
2.3.3 實(shí)驗(yàn)結(jié)果
平均精度、召回率和F值的實(shí)驗(yàn)結(jié)果如表4所示。
表4 實(shí)驗(yàn)結(jié)果
由表4可知,平均精度、召回率和F值分別為0.622、0.400和0.482??梢钥吹?,情感維度詞典DUPB的平均精度較好但召回率還比較低,導(dǎo)致召回率較低的一個(gè)原因是情感維度詞典中的情感維度詞的數(shù)量有限,對(duì)于驗(yàn)證集中的情感維度詞覆蓋程度不足,因此召回率不高。
2.3.4 結(jié)果分析及改進(jìn)
上面介紹的基于OCC模型的情感挖掘方法仍存在一些可改進(jìn)之處,如:將情感維度詞典的構(gòu)建和求精分開進(jìn)行,使用預(yù)先定義的固定模板,以及不加區(qū)分地對(duì)待詞之間的共現(xiàn)情形等。特別是,考慮到情感維度詞和模板之間的相互關(guān)聯(lián),可以通過兩者之間的互學(xué)習(xí)促進(jìn)情感挖掘的性能。
針對(duì)以上不足,文中考慮了融合Bootstrapping的改進(jìn)方法。該方法將情感維度詞典的構(gòu)建和求精在同一個(gè)循環(huán)中完成。算法的主要思想是利用情感維度詞與模板進(jìn)行互學(xué)習(xí),并且對(duì)兩者分別進(jìn)行評(píng)分?;谇楦芯S度詞在模板前后的維度值,對(duì)模板進(jìn)行評(píng)分,將一致性/不一致性用模板的可區(qū)分性指標(biāo)進(jìn)行刻畫。這里的可區(qū)分情況有兩種:一種是模板前后的詞維度恰好一致,另一種是模板前后的詞維度恰好相反。如果一個(gè)模板在這兩種情況中的一種占大多數(shù),則該模板的質(zhì)量較好?;谀0?,對(duì)情感維度詞進(jìn)行評(píng)分,將情感維度詞屬于某個(gè)情感維度值的概率用可靠性進(jìn)行刻畫。此外,用相關(guān)性刻畫某一模板與情感維度詞共現(xiàn)的程度,用傾向性刻畫某一情感詞的極性值。
本文提出了一種基于認(rèn)知心理學(xué)領(lǐng)域發(fā)展成熟的情感認(rèn)知結(jié)構(gòu)模型OCC,設(shè)計(jì)并實(shí)現(xiàn)了一種基于OCC情感模型的觀點(diǎn)挖掘方法,并采用網(wǎng)上新聞評(píng)論數(shù)據(jù),采用實(shí)驗(yàn)方法初步驗(yàn)證了文中方法的有效性。與相關(guān)工作比較,該方法所需要的人力少,且在使用靈活性和有效性上具有明顯的優(yōu)勢(shì)。同時(shí),本文基于經(jīng)典的情感認(rèn)知結(jié)構(gòu)模型,不但給文本情感分析這一研究問題賦予了更深層次的認(rèn)知結(jié)構(gòu)關(guān)聯(lián),而且為情感類型的輸出維度提供了一個(gè)建立在認(rèn)知心理學(xué)模型基礎(chǔ)上的更加精細(xì)的解釋。
[1]CHEN, Hsinchun. AI and opinion mining, part 2[J]. IEEE intelligentsystems, 2010, 25(4): 72-79.
[2]CHEN, Hsinchun, DAVID Z. AI and opinion mining[J]. IEEE intelligentsystems, 2010, 25(3): 74-80.
[3]PANG B, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing-Volume 10. Stroudsburg,USA, 2002: 79-86.
[4]TURNEY P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, USA, 2002: 417-424.
[5]WIEBE J, WILSON T, BRUCE R, et al. Learning subjective language[J]. Computational linguistics, 2004, 30(3): 277-308.
[6]ATTARDI G, SIMI M. Blog Mining through opinionated words[C]//Fifteenth Text Retrieval Conference, Trec 2006.Gaithersburg, USA, 2006.
[7]HATZIVASSILOGLOU V, WIEBE J M. Effects of adjective orientation and gradability on sentence subjectivity[C]//Proceedings of the 18th Conference on Computational Linguistics-Volume 1. Stroudsburg, USA, 2000: 299-305.
[8]RILOFF E, WIEBE J, WILSON T. Learning subjective nouns using extraction pattern bootstrapping[C]//Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4. Stroudsburg,USA,2003: 25-32.
[9]HU M, LIU B. Mining and summarizing customer reviews[C]//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2004: 168-177.
[10]HU M, LIU B. Mining opinion features in customer reviews[C]//AAAI. 2004, 4(4): 755-760.
[11]ZHANG C, ZENG D, LI J, et al. Sentiment analysis of Chinese documents: from sentence to document level[J]. Journal of the American society for information science and technology, 2009, 60(12): 2474-2487.
[12]READ J. Recognising affect in text using pointwise-mutual information[D]. Brighton:University of Sussex,2004:1-29.
[13]MISHNE G. Experiments with mood classification in blog posts[C]//Proceedings of ACM SIGIR 2005 Workshop on Stylistic Analysis of Text for Information Access. Stroudsburg,USA, 2005: 19.
[14]ALM C O, ROTH D, SPROAT R. Emotions from text: machine learning for text-based emotion prediction[C]//Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics,2005: 579-586.
[15]FENG S, WANG D, YU G, et al. Extracting common emotions from blogs based on fine-grained sentiment clustering[J]. Knowledge and information systems, 2011, 27(2): 281-302.
[16]KESHTKAR F, INKPEN D. Using sentiment orientation features for mood classification in blogs[C]//Proceedings of the IEEE International Conference on Natural Language Processing and Knowledge Engineering (IEEE NLP-KE 2009).Dalian, China, 2009.
[17]SHAIKH M A M. An analytical approach for affect sensing from text[D]. Toyko: University of Tokyo,2008: 1-111.
[18]YANG C, LIN K H Y, CHEN H H. Building emotion lexicon from weblog corpora[C]//Proceedings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Stroudsburg, USA, 2007: 133-136.
[19]MAO Y, LEBANON G. Sequential models for sentiment prediction[C]//ICML Workshop on Learning in Structured Output Spaces. Pittsburgh, USA, 2006.
[20]FRIJDA N H. The emotions[M]. New York: Cambridge University Press, 1986.
[21]ORTONY A. The cognitive structure of emotions[M]. New York: Cambridge University Press, 1990.
[22]LAZARUS R S. Emotion and adaptation[M]. New York: Oxford University Press, 1991.
[23]SCHERER K R, SCHORR A E, JOHNSTONE T E. Appraisal processes in emotion: theory, methods, research[M]. New York: Oxford University Press, 2001.
皇甫璐雯,女,1988年生,碩士研究生,主要研究方向?yàn)樯鐣?huì)媒體信息分析與處理、情感分析與觀點(diǎn)挖掘。
毛文吉,女,1968年生,研究員,博士生導(dǎo)師,主要研究方向?yàn)橹悄苄畔⑻幚?、人工智能、社?huì)計(jì)算。
OCC-model-basedtext-emotionminingmethod
HUANGFU Luwen, MAO Wenji
(State Key Laboratory of Management and Control for Complex Systems, Institute of Automation, Chinese Academy of Science, Beijing 100190, China)
Opinion mining, also called sentiment analysis, as one of the core research areas in the network-oriented social media analysis and mining domain, has important practical and research significance. Due to the weaknesses and limitations of traditional opinion mining methods, in this study, we designe and implemente an OCC emotion model-based opinion mining method for extracting emotion types from text. First, we adopte a statistical method to construct an emotion dictionary, based on candidate sets collected by the WordNet dictionary, as well as several syntactic dependent relationships and a small amount of annotated data. Next, we refine the constructed emotion-dimension dictionary to improve its quality by filtering out non-emotional words as well as emotional words that have conflicting syntactic or orientation. Lastly, we generate six main emotion types based on the obtained emotion-dimension dictionary combined with the corresponding relations between emotional dimensions and the different emotion types identified by the OCC model. Experimental results show that the proposed method has obvious advantages with respect to flexibility of usage, interpretability, and effectiveness.
opinion mining; OCC emotion model; emotional dimension; emotion types; emotion dictionary; cognitive psychology; emotion mining; co-occurrence
10.11992/tis.201312032
http://kns.cnki.net/kcms/detail/23.1538.TP.20171021.1342.002.html
TP391
A
1673-4785(2017)05-0645-08
中文引用格式:皇甫璐雯,毛文吉.一種基于OCC模型的文本情感挖掘方法J.智能系統(tǒng)學(xué)報(bào), 2017, 12(5): 645-652.
英文引用格式:HUANGFULuwen,MAOWenji.OCC-model-basedtext-emotionminingmethodJ.CAAItransactionsonintelligentsystems, 2017, 12(5): 645-652.
2013-12-17. < class="emphasis_bold">網(wǎng)絡(luò)出版日期
日期:2017-10-21.
國(guó)家自然科學(xué)基金項(xiàng)目(61175040, 71025001).
毛文吉. E-mail:wenji.mao@ia.ac.cn.