国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感分析的“真假美猴王”存疑研究

2019-04-17 05:45張辰麟王明文譚亦鳴陳志明左家莉羅遠(yuǎn)勝
中文信息學(xué)報(bào) 2019年3期
關(guān)鍵詞:詞表分詞語料

張辰麟,王明文,譚亦鳴,陳志明,左家莉,羅遠(yuǎn)勝

(1. 江西師范大學(xué) 計(jì)算機(jī)信息工程學(xué)院,江西,南昌,330022;2. 江西財(cái)經(jīng)大學(xué) 網(wǎng)絡(luò)信息管理中心,江西,南昌,330022)

0 引言

《西游記》[1]是中國(guó)古代第一部長(zhǎng)篇章回體神魔小說。全篇描寫了唐三藏遠(yuǎn)赴西天求取真經(jīng)的故事,深刻揭露了當(dāng)時(shí)社會(huì)的現(xiàn)實(shí)。作為四大名著之一,《西游記》對(duì)中國(guó)文學(xué)的意義不言而喻,而其中的“真假美猴王”事件,把整部《西游記》的故事推向高潮。該事件主要描寫孫悟空和唐三藏這兩個(gè)主要角色之間的矛盾。作者吳承恩為“真假美猴王”事件埋下了許多伏筆,這些伏筆引發(fā)了多種解讀。相關(guān)討論主要體現(xiàn)在孫悟空的性格與語言變化[2]、藝術(shù)形象[3]、思想變化[4]、緊箍咒和金箍棒的象征意義[3,5]、六耳獼猴的身份[6]、孫悟空和唐僧的關(guān)系[7]等方面。加上一度在網(wǎng)絡(luò)上引發(fā)熱議的“被如來打死的究竟是誰”的問題,現(xiàn)有對(duì)“真假美猴王”的解讀總結(jié)起來分為三個(gè)類型:

1. 認(rèn)為真孫悟空已經(jīng)被如來佛祖打死,《西游記》后半部分參與取經(jīng)的是六耳獼猴。

2. 認(rèn)為真孫悟空還活著,死的是六耳獼猴,孫悟空是唐三藏的精神導(dǎo)師[7]?!罢婕倜篮锿酢币皇率翘迫氐男扌?,消滅的是唐三藏的“心魔”。《西游記》后半部分,孫悟空的桀驁不馴并沒有收斂[4]。

3. 認(rèn)為真孫悟空還活著。“心魔”,即六耳獼猴[6],是孫悟空的反抗精神[2]?!罢婕倜篮锿酢币皇率菍O悟空“心的修行”[3]。事件之后,孫悟空走向逐漸被“同化”,屈服于神權(quán),再無反意的悲劇結(jié)局[8]。

以往對(duì)于文學(xué)作品的研究和相關(guān)討論一般是基于文獻(xiàn)法的定性研究。近年來,隨著自然語言處理技術(shù)的迅猛發(fā)展,不少語言研究者開始利用自然語言處理的新方法和新手段,從定量的角度來解決語言的相關(guān)問題,但幾乎未涉及到文學(xué)領(lǐng)域。本文將嘗試使用自然語言處理中情感分析的方法,對(duì)“真假美猴王”事件進(jìn)行解讀。情感分析又稱情感計(jì)算,是對(duì)帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理[9],對(duì)文本的情感傾向做出判斷[10]的過程。情感分析技術(shù)被廣泛運(yùn)用于微博[11-15]、用戶評(píng)論[16-18]中的情感傾向研究與預(yù)測(cè)。情感分析中情感的劃分一般采用三分法[9](褒義、貶義、中性)或細(xì)粒度分法[19],其本質(zhì)是一個(gè)文本分類問題。情感分析研究通常從文本數(shù)據(jù)挖掘[13,18,20]、建立知識(shí)庫[10,12,21]、挖掘句法特征[16-18,22]等方法入手,通過篩選種子詞[12-13],建立情感詞典[12-13,23-25]并驗(yàn)證情感詞典的有效性的方式,得到較為可靠的情感詞典以分析文本的情感傾向。

目前,將情感分析技術(shù)應(yīng)用于文學(xué)作品分析的相關(guān)研究尚不多見。本文將通過構(gòu)建孫悟空的情感詞典,分析“真假美猴王”事件前后孫悟空對(duì)其他角色的情感變化。從定量角度分析“真假美猴王”事件,從而探索情感分析技術(shù)對(duì)文學(xué)研究的可行性。

1 語料選取與自動(dòng)分詞

1.1 語料的選取

為保證研究的真實(shí)性,本文的研究對(duì)象為《西游記》原版,而并非是現(xiàn)代漢語版。同時(shí),利用檢索方式,將冒號(hào)加雙引號(hào)(: “……”)作為特征。從原版《西游記》中抽取所有角色的對(duì)話,并根據(jù)紙質(zhì)版的《西游記》,人工對(duì)其句子錯(cuò)漏、別字等進(jìn)行了改正。該方法一共抽取了322 307字的《西游記》人物對(duì)話,總計(jì)包含10 664句臺(tái)詞(不包括臺(tái)詞中的詩句部分),約占整個(gè)《西游記》總篇幅的一半。而后,從32萬余字的人物對(duì)話中,手工挑選出所有孫悟空的臺(tái)詞,合計(jì)107 009字,包含3 358句臺(tái)詞。

1.2 自動(dòng)分詞及分詞結(jié)果優(yōu)化

本文選擇了Jieba、NLPIR、Stanford三種自動(dòng)分詞系統(tǒng)分別對(duì)這3358句臺(tái)詞進(jìn)行分詞。

并隨機(jī)抽取了《西游記》中的兩章(37、81章共81句臺(tái)詞)來驗(yàn)證自動(dòng)分詞的分詞效果。驗(yàn)證階段由兩位文學(xué)院的博士和兩位古代文學(xué)專業(yè)的碩士作為專家,采用帶權(quán)重投票的策略,得到一個(gè)更為合理的人工分詞結(jié)果,并以此人工分詞結(jié)果作為黃金標(biāo)準(zhǔn)。本文借鑒了機(jī)器翻譯評(píng)測(cè)當(dāng)中的TER值[28]作為評(píng)測(cè)標(biāo)準(zhǔn),將人工黃金標(biāo)準(zhǔn)作為參考譯文,將自動(dòng)分詞的結(jié)果作為機(jī)器翻譯結(jié)果,計(jì)算出分詞符號(hào)被插入、刪除、替換和移動(dòng)等操作的編輯次數(shù),以便衡量分詞(Segment)效果的好壞, 本文將TER公式運(yùn)用如式(1)所示。

(1)

表1展示了三種分詞系統(tǒng)及三種分詞投票得到的分詞結(jié)果的TER值。

表1 三種分詞系統(tǒng)及投票的TER值

我們發(fā)現(xiàn),由于明清白話中白話文句子較短,且結(jié)構(gòu)單一。人名、稱呼、地名、專有名詞等命名實(shí)體出現(xiàn)分詞錯(cuò)誤時(shí),很容易黏連到其前后的詞語。從而造成連鎖反應(yīng)。基于此,我們對(duì)孫悟空的所有3 358句臺(tái)詞中的人名[29]、地名、專有名詞[30-31]等進(jìn)行了人工篩選,并構(gòu)建了一個(gè)599詞的用戶詞表添加到分詞系統(tǒng)。首先,將待分詞語料進(jìn)行預(yù)處理。用數(shù)字前后加分詞符的形式,替換掉用戶詞表中的詞,以避免用戶詞表與分詞系統(tǒng)內(nèi)置詞表的沖突。同時(shí),采用了音序排列、大詞在上的方法進(jìn)行預(yù)處理替換,避免用戶詞表詞與詞之間存在包含關(guān)系。然后,將替換之后的結(jié)果再次進(jìn)行分詞。最后,通過后處理,將用戶詞表中的詞還原。經(jīng)此步驟,三種分詞系統(tǒng)分詞結(jié)果如表2所示。

表2 加入用戶詞表后的三種分詞系統(tǒng)及投票的TER值

可以看出,Jieba分詞系統(tǒng)+用戶詞表的方案TER值最低,性能最好。因此,最終我們選用了該方案進(jìn)行全文分詞。

2 情感種子詞的獲取

2.1 情感種子詞訓(xùn)練集

《西游記》角色的臺(tái)詞,往往以“某某道: ”作為開始。若作者已經(jīng)預(yù)設(shè)了這句臺(tái)詞的情感,則會(huì)表示為“某某XX道: ”,如“悟空罵道: ”。其中,“罵”即是臺(tái)詞的前綴,也是作者留給我們的明確的情感信息。因此,這些帶有明確情感前綴的臺(tái)詞適合用來抽取情感種子詞。

我們將所有帶有情感前綴的臺(tái)詞挑揀出來,并將一部分例子示于表3。

表3 臺(tái)詞前綴情感分類

在明清章回體小說中,“笑道”比較特殊,不僅包含了開心、高興的笑,也包含了譏笑、諷刺、嘲笑等,正面/負(fù)面情感無法從字面上判斷。因此,對(duì)于以“笑道”為前綴的臺(tái)詞,我們單獨(dú)進(jìn)行了人工判斷。

該階段總計(jì)得到了400句臺(tái)詞的正面情感語料和 412句臺(tái)詞的負(fù)面情感語料。

2.2 否定詞表與停用詞表

本文參考了現(xiàn)代漢語常用的否定詞表,包含35個(gè)否定詞。通過檢索這35個(gè)否定詞在《西游記》中出現(xiàn)的次數(shù),發(fā)現(xiàn)一部分否定詞不會(huì)在明清白話環(huán)境下出現(xiàn),故予以刪除。用否定詞典中的否定詞素,如“不、無、非、沒”等作為對(duì)象[32]進(jìn)行搜索,挖掘出一些明清白話環(huán)境下的否定詞,并將它們加入否定詞表,最終得到一個(gè)37詞的否定詞表。

結(jié)合明清白話句子較短的特點(diǎn),本文將否定詞的支配域設(shè)定為否定詞所在的分句。若某個(gè)分句中出現(xiàn)了否定詞,則認(rèn)為該分句中所有的情感詞,原本的情感傾向應(yīng)與實(shí)際屬于的語料分類相反(未出現(xiàn)分句中有復(fù)數(shù)否定詞的特殊情況)。

通過挑出含有否定詞的分句還原到其對(duì)應(yīng)的分類,最終得到正面/負(fù)面情感的語料分別為: 正面情感語料2 100個(gè)分句,負(fù)面情感語料2 073個(gè)分句。

本文嘗試使用四川大學(xué)、哈爾濱工業(yè)大學(xué)等研究機(jī)構(gòu)研究的停用詞表(共1 893個(gè)停用詞),發(fā)現(xiàn)以往的停用詞表對(duì)明清白話的停用效果不理想。因此,除了使用這些停用詞表之外,還通過查閱詞典的方式,停用了古今常用的數(shù)詞、量詞、代詞、介詞、連詞、助詞,以及前文用戶詞表中的地名、人名(不包括稱呼)、否定詞表、數(shù)量詞詞組等,并將其加入停用詞表。

2.3 種子詞情感值計(jì)算

該部分的實(shí)驗(yàn)方法主要參考了趙妍妍[22]等學(xué)者的情感詞典構(gòu)建方法,并根據(jù)《西游記》明清白話的語言性質(zhì)對(duì)方法進(jìn)行了一定的改動(dòng)。本文使用式(2)[33]來計(jì)算種子詞屬于正面/負(fù)面的情感傾向。

(2)

式(2)中,freqi為詞語i出現(xiàn)的頻次,freqi-pos為詞i在正面情感語料中出現(xiàn)的頻次,freqi-neg為詞i在負(fù)面情感語料中出現(xiàn)的頻次。由于語料規(guī)模較小,詞頻次取對(duì)數(shù)使用了自然數(shù)e為底,以避免得到的結(jié)果值過小。由于指數(shù)為1的情況下對(duì)數(shù)為0,該式可以很好地屏蔽偶然事件。若Polari大于零,則證明該詞屬于正面情感詞的可能性更高。若Polari小于零,則證明該詞屬于負(fù)面情感詞的可能性更高。該式得到的結(jié)果Polari的絕對(duì)值越大,證明詞語的情感極性越大。

通過去除停用詞,最終得到了一個(gè)包括330個(gè)正面情感詞和332個(gè)負(fù)面情感詞的種子詞詞表,記為SeedA。通過專家人工對(duì)這662個(gè)詞進(jìn)行了復(fù)審,剔除了其中分詞錯(cuò)誤詞、無情感傾向的一般物質(zhì)名詞。我們發(fā)現(xiàn),一部分詞語正面/負(fù)面的情感分類恰巧分反,這與語料規(guī)模較小及否定詞支配域設(shè)定有一定的關(guān)系。對(duì)這些恰好分反極性的詞語,本文采取了兩種策略。一種是將極性分反的詞還原到其本該屬于的極性詞表當(dāng)中,生成包含228個(gè)正面情感詞和232個(gè)負(fù)面情感詞的種子詞表,記為SeedB;另一種是放棄這些詞,得到包含189個(gè)正面情感詞和198個(gè)負(fù)面情感詞的種子詞表,記為SeedC。表4展示了情感種子詞中正面/負(fù)面情感傾向最高的Top20詞。

表4 正面/負(fù)面情感種子詞Top20

3 全文情感詞挖掘

3.1 全文點(diǎn)互信息計(jì)算

通過計(jì)算全文的詞頻發(fā)現(xiàn),除停用詞外,大部分詞的詞頻數(shù)為1。由于語料規(guī)模較小,通過初步試驗(yàn),我們發(fā)現(xiàn)這些詞給情感分析帶來的噪聲影響尤為嚴(yán)重。因此,本文剔除了詞頻為1的詞,得到全文待計(jì)算情感傾向的詞語數(shù)量為2 442個(gè)。并利用上階段生成的三個(gè)種子詞表: SeedA、SeedB、SeedC,分別放入全文語料中進(jìn)行點(diǎn)互信息計(jì)算,而后以式(3)來確定待計(jì)算情感詞n的極性:

(3)

式(3)中pos為正面情感的種子詞集,neg為負(fù)面情感的種子詞集。若Polarn大于零,則該詞屬于正面情感詞的可能性較大。若小于零,則屬于負(fù)面情感詞的可能性較大。Polarn絕對(duì)值越大,證明極性越高。由于訓(xùn)練集高達(dá)28 000字左右而孫悟空所有的臺(tái)詞只有10萬字。為了防止過擬合,本文將情感種子詞規(guī)模最小的SeedC按照情感詞的極性排列進(jìn)行五等分,分別作20%SeedC、40%SeedC、60%SeedC、80%SeedC。同時(shí),分別作為種子詞表進(jìn)行點(diǎn)互信息運(yùn)算,得到全文情感詞典。

3.2 確定情感詞典規(guī)模

本文將7個(gè)種子詞集所計(jì)算出的情感詞典,按照情感值極性大小排列。并根據(jù)情感詞典的規(guī)模向下取整進(jìn)行十等分,加上種子詞集自身,共得到不同種子詞規(guī)模、不同互信息規(guī)模的77個(gè)情感詞典。

為了確定情感詞典的規(guī)模,我們從全部語料中隨機(jī)抽取了90句臺(tái)詞,包括377個(gè)分句作為驗(yàn)證集。讓4名專家以人工標(biāo)注的方式,標(biāo)注每一個(gè)分句的情感極性。正面感情的標(biāo)為1,負(fù)面感情的標(biāo)為-1,無明確感情的標(biāo)為0,如出現(xiàn)分歧則采取投票的方式。

以77個(gè)情感詞典分別對(duì)這377個(gè)分句進(jìn)行情感打分。打分規(guī)則為: 句中出現(xiàn)正面情感詞+1分,分句中出現(xiàn)負(fù)面情感詞-1分,每出現(xiàn)一次否定詞則整個(gè)分句最后的得分結(jié)果乘以-1。最后,得到的結(jié)果若大于0,則記為1,即正面情感句子;若小于0,則記為-1,若等于0則記為0。77個(gè)情感詞典對(duì)句子的打分和人工打分的一致性準(zhǔn)確率展示如表5所示。

表5 77個(gè)情感詞典的情感判斷準(zhǔn)確率

注: 下劃線為較好結(jié)果,下同

我們發(fā)現(xiàn),互信息并不能起到正面的作用。主要原因是驗(yàn)證集中無情感句占到了198個(gè),即總數(shù)量的52.5%。因此,投入的情感詞數(shù)量越少,正確率反而顯得越高。

3.3 無情感句的處理與錯(cuò)誤距離

我們以人工判定無情感的句子數(shù)量198為基線,對(duì)判定無情感句子數(shù)量大于198的情感詞典,賦予其一個(gè)懲罰因子,實(shí)際情感詞典判斷正確的句子數(shù)量N應(yīng)以式(4)表示:

(4)

判定無情感句子數(shù)量不足198的不做處理,通過這一步處理,各情感詞典實(shí)際準(zhǔn)確率如表6所示。

表6 77個(gè)情感詞典的情感判斷準(zhǔn)確率(處理后)

77個(gè)情感詞典的正確率變化趨勢(shì)如圖1:

我們選取五個(gè)準(zhǔn)確率最高的情感詞典,引入錯(cuò)誤距離的概念。認(rèn)為情感判斷錯(cuò)誤的類型不同,其代價(jià)也不同在。在一定意義上,可以反映情感詞典的好壞。因此,本文對(duì)這五個(gè)情感詞典判定錯(cuò)誤的性質(zhì)進(jìn)行分析。把無情感判定為有情感,或?qū)⒂星楦信卸闊o情感,記為-1分。將正面情感判斷為負(fù)面情感或者負(fù)面情感判斷為正面情感,記為-2分。五個(gè)性能最優(yōu)的情感詞典的錯(cuò)誤距離合計(jì)如表7所示。

表7 情感詞典Top5的錯(cuò)誤距離

最終選擇了SeedC+40%點(diǎn)互信息的情感詞作為《西游記》情感分析的情感詞典,該詞典錯(cuò)誤距離合計(jì)-190,情感三分法下準(zhǔn)確率為55.97%。

4 角色情感計(jì)分

4.1 角色分類

“真假美猴王”這一事件出現(xiàn)在《西游記》的第五十七到五十八回,主要描述孫悟空和唐三藏之間的矛盾。孫悟空從第十三回開始保唐三藏取經(jīng),至五十六回誅草寇為止,為事件發(fā)生之前;第五十九回至第一百回取到真經(jīng),《西游記》全篇完結(jié),為事件發(fā)生之后。事件發(fā)生之前,涵蓋了44章,1 720句臺(tái)詞。事件發(fā)生之后,涵蓋了42章,1 377句臺(tái)詞。事件前后語料規(guī)模相差較小,具有可比性。

我們根據(jù)《西游記》原文,將孫悟空在事件前后所有3 097句臺(tái)詞的會(huì)話對(duì)象進(jìn)行人工標(biāo)注,對(duì)事件前后孫悟空對(duì)話過的所有角色進(jìn)行分類。由于《西游記》的故事性質(zhì),大部分角色僅登場(chǎng)一次,在事件前后均有登場(chǎng)的角色寥寥無幾。因此,對(duì)于取經(jīng)團(tuán)隊(duì)核心,唐三藏、豬八戒、沙悟凈三人,每個(gè)人單獨(dú)作為一類。其他角色根據(jù)他們的陣營(yíng)、地位、善惡等,總計(jì)分為10類。具體分類如表8所示。

在這些孫悟空對(duì)話的對(duì)象中,我們舍棄了語料過少、不具有統(tǒng)計(jì)意義的與白龍馬、后半部分未出現(xiàn)過的與花果山群猴、孫悟空的自言自語,及與佛像等物品的對(duì)話。

根據(jù)上述的分類,本文將語料分為了26個(gè)子語料。如果孫悟空的對(duì)話對(duì)象是群體的,如“豬八戒和沙悟凈”,則將該臺(tái)詞同時(shí)復(fù)制到豬八戒、沙悟凈兩個(gè)人的子語料庫中。敵對(duì)神仙歸入妖怪的分類,山賊、草寇、惡獸等歸入次要妖怪的分類。一些角色隨著故事的發(fā)展,所屬陣營(yíng)有所變化。如奎木狼曾經(jīng)是妖怪,后來歸順成為了四木禽星中的一員。對(duì)此我們進(jìn)行具體分析,將妖怪時(shí)期的奎木狼分到主要妖怪的一類,而歸順后則分到次要神仙一類。一些角色精通變化。如打黃風(fēng)怪時(shí)的護(hù)法伽藍(lán),孫悟空以為他是普通的山野老翁,這里就把孫悟空與他對(duì)話的臺(tái)詞分到平民一類。

表8 孫悟空在《西游記》中說話對(duì)象的分類

我們把“真假美猴王”事件的三類解讀形式化:

假設(shè)1: 如果死的是孫悟空,一切都是如來佛祖設(shè)局。那么,冒名頂替的六耳獼猴對(duì)神佛的態(tài)度在事件之后,相較之前應(yīng)該具有更高的正面情感傾向。但因換了人,假孫悟空對(duì)取經(jīng)團(tuán)隊(duì)的另外三個(gè)角色的情感幾乎不可能與之前的情感有較高相似性。

假設(shè)2: 如果孫悟空沒有死,“真假美猴王”是唐僧的修行,是為了緩和唐僧師徒之間的關(guān)系。那么,孫悟空在事件之后,對(duì)唐三藏的正面情感傾向應(yīng)該有明顯上升,對(duì)神佛等權(quán)利階級(jí)應(yīng)該不會(huì)有明顯變化。對(duì)取經(jīng)團(tuán)隊(duì)的其他主要人員——豬八戒和沙悟凈應(yīng)該基本沒有變化。

假設(shè)3: 如果孫悟空沒有死,如來安排“真假美猴王”一難是為了消滅孫悟空的“心魔”,讓他拋棄主觀性和反抗精神,屈服于神權(quán)。那么孫悟空在事件之后,對(duì)唐三藏的正面情感傾向應(yīng)該有明顯上升,對(duì)神佛等神權(quán)階級(jí)的正面情感傾向應(yīng)該也有明顯的上升,對(duì)取經(jīng)團(tuán)隊(duì)的其他主要人員應(yīng)該基本沒有變化。

4.2 情感計(jì)算與結(jié)果分析

為驗(yàn)證這三個(gè)假設(shè),根據(jù)前文所述的句子打分規(guī)則,我們對(duì)13類角色及事件前后26個(gè)子語料進(jìn)行情感打分,結(jié)果如下:

表9 孫悟空對(duì)其他角色在事件前后的情感值打分

注: 判定標(biāo)準(zhǔn)以0.01為界

實(shí)驗(yàn)結(jié)果表明,孫悟空在事件前后對(duì)豬八戒、沙悟凈兩位師弟的態(tài)度幾乎沒有變化,故基本可以判定取經(jīng)的還是孫悟空本人而非六耳獼猴。而對(duì)主要妖怪和皇族、官員等的態(tài)度幾乎沒有變化也可以佐證這一點(diǎn)。因此,拒絕假設(shè)1。事件之后,孫悟空對(duì)唐三藏的正面情感有明顯上升,但單靠對(duì)唐三藏的情感變化尚不能區(qū)別假設(shè)2與假設(shè)3。孫悟空在“真假美猴王”之后,對(duì)神佛群體的態(tài)度均明顯轉(zhuǎn)好,對(duì)主要神仙、次要神仙、佛等的正面情感上升幅度也很高。特別是對(duì)主要神仙和佛的上升幅度非常大,對(duì)土地神、丁甲伽藍(lán)、四海龍王等這些原本孫悟空看不起的神仙,正面情感也有了明顯的提升。尤其是對(duì)土地神,從“一生好吃沒錢酒,偏打老年人”變?yōu)槭录蟮恼媲楦谐^了負(fù)面情感,其情感發(fā)生了質(zhì)的變化。由于后半部分孫悟空對(duì)四海龍王等人的臺(tái)詞較少,不具有統(tǒng)計(jì)意義。我們嘗試將土地神、丁甲伽藍(lán)、四海龍王這三個(gè)相似群體的語料合并,其結(jié)果依然是正面情感有明顯上升。

我們可以明顯發(fā)現(xiàn)孫悟空對(duì)妖怪的負(fù)面情感句子數(shù)量較多,對(duì)師父、神佛等自己人的正面情感句子較多,對(duì)八戒的負(fù)面情感句子比例明顯大于其他群體,這也基本符合對(duì)《西游記》中人物關(guān)系的認(rèn)知,證明了本文研究的情感詞典在小說人物分析上的有效性。對(duì)平民這個(gè)群體正面情感傾向有下降的趨勢(shì),這可能是由于《西游記》全文中平民角色過多,且往往是故事中的次要人物。因而,該語料混雜度過高、噪聲過多所造成的,在此不對(duì)該群體進(jìn)行細(xì)致討論。

從上述分析基本可以驗(yàn)證,“真假美猴王”這一事件如來佛祖雖然沒有殺死孫悟空,但卻消滅了孫悟空的反抗精神,誅“心魔”是一個(gè)同化過程[8]。事件之后,孫悟空對(duì)神佛群體的正面情感傾向明顯上升,性格逐漸趨向扁平單一,從向往自由漸漸走向了屈服體制的歸化之路[2]。通過情感分析,我們認(rèn)為,假設(shè)3更適合作為“真假美猴王”事件的正確解讀。

5 總結(jié)與展望

本文從情感分析的視角對(duì)傳統(tǒng)名著《西游記》中“真假美猴王”事件進(jìn)行了解讀。通過評(píng)測(cè)現(xiàn)有分詞系統(tǒng),提出了明清白話的分詞方案。借助作者吳承恩在《西游記》中遺留下的情感信息確定了情感種子詞,并以點(diǎn)互信息的方式生成并驗(yàn)證了適合分析孫悟空這個(gè)角色的情感詞典。通過對(duì)事件前后孫悟空對(duì)其他角色情感變化的分析,得出了真的孫悟空并沒有死,而是象征著反抗精神的“心魔”被消滅的結(jié)論。本文作為一種新的嘗試,驗(yàn)證了情感分析技術(shù)對(duì)文學(xué)研究和文學(xué)作品角色分析的可行性。

明清小說是中國(guó)小說歷史上的巔峰,四大名著均在其列。明清白話的分詞問題值得進(jìn)一步的探討,借助自然語言處理的方法對(duì)明清白話小說中人物進(jìn)行情感分析也值得進(jìn)一步研究。文學(xué)作品的分析的語料量級(jí)往往比較小,故本文主要使用的是基于規(guī)則的方法。情感分析的準(zhǔn)確率較現(xiàn)代漢語語料而言,尚有空間可以改進(jìn)。因此,在日后的研究中,我們將嘗試使用更大規(guī)模的語料,運(yùn)用機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方法,對(duì)明清小說及明清白話進(jìn)行更加深入的研究進(jìn)一步提高模型的準(zhǔn)確率。

猜你喜歡
詞表分詞語料
基于VOLT的藏漢雙向機(jī)器翻譯
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
分詞在英語教學(xué)中的妙用
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
近十年國(guó)內(nèi)外專業(yè)學(xué)術(shù)詞表建立文獻(xiàn)綜述*
瀕危語言與漢語平行語料庫動(dòng)態(tài)構(gòu)建技術(shù)研究
對(duì)外漢語教學(xué)領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標(biāo)注及應(yīng)用研究為例
國(guó)內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
灵宝市| 南投县| 泸州市| 安顺市| 丰顺县| 鹿邑县| 张家港市| 吐鲁番市| 龙岩市| 宁夏| 渑池县| 高邑县| 上栗县| 淅川县| 阜南县| 扶余县| 杭锦旗| 泰兴市| 娄底市| 营山县| 滁州市| 汾西县| 西乡县| 南城县| 竹北市| 新龙县| 滁州市| 永善县| 阿巴嘎旗| 贞丰县| 花莲县| 南丰县| 阳东县| 黔西| 新巴尔虎左旗| 广南县| 巴马| 玉屏| 博乐市| 昌都县| 田阳县|