国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

古代中國(guó)格律詩(shī)中的社會(huì)情感挖掘

2021-04-12 05:19:00張?zhí)煸?/span>金紓羽

李 暉,張?zhí)煸?,金紓?/p>

沈陽(yáng)工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,沈陽(yáng) 110870

計(jì)算社會(huì)學(xué)[1]是社會(huì)學(xué)的分支之一,由哈佛大學(xué)的15名教授于2009年2月提出。該學(xué)科利用計(jì)算機(jī)模擬、人工智能及復(fù)雜的統(tǒng)計(jì)方法來(lái)分析大規(guī)模的人類行為,以此構(gòu)建社會(huì)交互的理論模型。根據(jù)計(jì)算社會(huì)學(xué)的研究思路,若利用現(xiàn)代信息技術(shù)對(duì)某一時(shí)期內(nèi)包含情感傾向的大量人類行為數(shù)據(jù)進(jìn)行情感分析,便可由此反映出該時(shí)期的社會(huì)整體情感狀況。文本向來(lái)是人類表達(dá)情感的主要載體,對(duì)某一時(shí)期社會(huì)情感狀況的挖掘可通過(guò)對(duì)該時(shí)期內(nèi)的文本進(jìn)行情感分析來(lái)實(shí)現(xiàn)?,F(xiàn)有研究多通過(guò)分析微博、論壇等媒體上的現(xiàn)代文本情感來(lái)反映現(xiàn)代社會(huì)情感[2-6],利用古代文本挖掘古代社會(huì)情感的研究較少。在古代中國(guó),格律詩(shī)是人們抒情最集中、最豐富的文本,存世多、流傳廣。因此,在利用現(xiàn)代技術(shù)分析古代特定時(shí)期的社會(huì)情感時(shí),該時(shí)期的格律詩(shī)集可作為理想數(shù)據(jù)集。

格律詩(shī)作為一種古代中國(guó)特有的文學(xué)體裁,具有言辭簡(jiǎn)練、語(yǔ)義關(guān)系緊密、韻律嚴(yán)格等特性。這些特性導(dǎo)致其情感分析存在兩個(gè)困難。其一,格律詩(shī)本身字?jǐn)?shù)較少,情感特征并不明顯。如一首五言絕句僅用字20個(gè),這為其情感特征的提取增大了難度。其二,相較于現(xiàn)代文本,格律詩(shī)多包含組合式情感,語(yǔ)義表達(dá)極為緊湊,這導(dǎo)致在分析過(guò)程中必須考慮情感特征間的相對(duì)關(guān)系。如韋應(yīng)物在七言絕句《休暇日訪王侍御不遇》中用28個(gè)字表達(dá)了“乘興—悵惘—嘆慕”的組合情感,僅針對(duì)情感特征本身進(jìn)行的情感傾向判斷有失偏頗。

現(xiàn)代文本情感分析的研究方法主要為基于情感詞典匹配的方法[7-8]和基于機(jī)器學(xué)習(xí)的方法[9-11]?;谇楦性~典的情感分析方法本質(zhì)是構(gòu)建規(guī)則對(duì)文本情感進(jìn)行對(duì)照判別,對(duì)隱晦情感的識(shí)別較為困難,并不適用于語(yǔ)言精練、情感特征不明顯的格律詩(shī)文本。基于機(jī)器學(xué)習(xí)的情感分析方法常依靠神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力自動(dòng)判別文本情感,對(duì)隱晦情感特征的判別能力有所提升。但由于以CNN 為代表的一些傳統(tǒng)神經(jīng)網(wǎng)絡(luò)采用池化層結(jié)構(gòu),仍會(huì)忽略細(xì)微的情感特征,且以標(biāo)量形式存儲(chǔ)特征,無(wú)法完整保留特征間的位置關(guān)系,難以分析格律詩(shī)文本中緊湊的組合式情感。

膠囊網(wǎng)絡(luò)采用動(dòng)態(tài)路由機(jī)制代替池化層結(jié)構(gòu),在膠囊中以多維向量的形式保留實(shí)例化特征,使數(shù)據(jù)特征能夠被完整留存,彌補(bǔ)了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在特征提取時(shí)忽略細(xì)微特征的缺陷,能夠識(shí)別格律詩(shī)文本中不明顯的情感特征。同時(shí),膠囊網(wǎng)絡(luò)通過(guò)動(dòng)態(tài)路由機(jī)制自動(dòng)更新膠囊之間的連接權(quán)重,從而識(shí)別特征間關(guān)系的緊密程度,能夠挖掘格律詩(shī)文本中包含的組合式情感。

本文構(gòu)建了一個(gè)基于整合膠囊網(wǎng)絡(luò)的格律詩(shī)情感分析模型,通過(guò)該模型對(duì)中文格律詩(shī)的情感傾向進(jìn)行快速高效的自動(dòng)判別,解決了由情感特征不明顯、語(yǔ)義過(guò)于緊湊導(dǎo)致的格律詩(shī)文本情感分析困難問題。由于格律詩(shī)的具體格律與其情感表達(dá)方式有一定關(guān)聯(lián)(如五言絕句表達(dá)情感通常直觀、七言律詩(shī)多用意象表達(dá)情感等),單一標(biāo)準(zhǔn)的情感分析模型缺乏有效性。本文使用四種不同格律的詩(shī)集分別構(gòu)建參數(shù)不同的膠囊網(wǎng)絡(luò)模型,引入基于字?jǐn)?shù)的規(guī)則將其整合,并利用整合后的情感分析模型,通過(guò)一系列實(shí)例化實(shí)驗(yàn)推測(cè)了古代中國(guó)各個(gè)時(shí)期的社會(huì)情感和民生狀況。

1 相關(guān)工作

文本情感分析的目的是對(duì)包含情感的文字進(jìn)行分析與挖掘,其核心是情感分類。該方向的研究主要通過(guò)使用基于情感詞典匹配的方法和基于機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)情感分類。

基于情感詞典匹配的文本情感分析方法主要通過(guò)構(gòu)建包含情感詞與情感標(biāo)簽的情感詞典,依據(jù)情感詞典對(duì)文本中的情感詞進(jìn)行匹配和打分,從而判別文本的情感傾向。早期的情感詞典構(gòu)建基于半監(jiān)督的方式。Hatzivassiloglou 等人[12]提出基于人工標(biāo)記樣本和設(shè)置簡(jiǎn)單規(guī)則區(qū)分文本情感的方法。該方法由于無(wú)法分類含隱晦情感的文本,其分類效果并不理想。隨后,大量研究者開始關(guān)注構(gòu)建更有效情感詞典的方法[13-15]。陳國(guó)蘭[16]提出了一種基于情感詞典和語(yǔ)義規(guī)則的情感分析方法對(duì)微博評(píng)論進(jìn)行情感分類。該方法構(gòu)建了大量情感詞典(開源情感詞典、表情符號(hào)情感詞典和微博網(wǎng)絡(luò)用語(yǔ)情感詞典等),并設(shè)計(jì)規(guī)則對(duì)子句和整句的情感值進(jìn)行計(jì)算,提高了情感詞典的質(zhì)量。然而,在情感詞典構(gòu)建的過(guò)程中,需要大量的人工標(biāo)注,開銷較大。李永帥等人[17]提出了一種基于雙向LSTM 的動(dòng)態(tài)情感詞典的構(gòu)建方法,旨在提高情感詞典的可擴(kuò)展性。該方法通過(guò)提取文本中的情感特征和語(yǔ)義特征,使用雙向LSTM進(jìn)行情感分類訓(xùn)練,有效地提高了情感分類的精度,節(jié)省人力。基于以上研究的情感分類依賴于情感詞典的構(gòu)建,情感詞典質(zhì)量越好,分類結(jié)果越準(zhǔn)確。然而,基于情感詞典的文本情感分析方法在處理包含隱晦情感的文本時(shí)仍不具有適用性。

基于機(jī)器學(xué)習(xí)的文本情感分析方法主要利用神經(jīng)網(wǎng)絡(luò)模型強(qiáng)大的特征提取能力,自動(dòng)提取和分析文本在語(yǔ)義空間中包含的情感特征,從而判別文本的情感傾向[18]。梁軍等人[19]提出使用遞歸自編碼器對(duì)文本中情感極性進(jìn)行分析,提高了情感分析的準(zhǔn)確性。該方法依據(jù)遞歸自編碼器構(gòu)建含有語(yǔ)義信息的二叉樹,通過(guò)葉節(jié)點(diǎn)的情感極性和權(quán)重對(duì)文本的情感狀態(tài)進(jìn)行計(jì)算。盡管這種方法在一定程度上提高了情感判別的準(zhǔn)確性,但由于其參數(shù)較多,訓(xùn)練時(shí)易產(chǎn)生過(guò)擬合的現(xiàn)象。陳珂等人[20]提出了一種基于多通道卷積神經(jīng)網(wǎng)絡(luò)的情感分析模型,采用不同的特征組合,從多方面學(xué)習(xí)情感信息,有效地提取出在句子中每個(gè)詞語(yǔ)的重要程度。該方法得到了良好的結(jié)果,魯棒性強(qiáng)。然而,由于卷積神經(jīng)網(wǎng)絡(luò)模型采用池化層結(jié)構(gòu),僅能保留顯著的情感特征,因此在判別時(shí)存在一定的局限性。

膠囊網(wǎng)絡(luò)是一種新型的神經(jīng)網(wǎng)絡(luò)模型,改善了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在細(xì)微特征提取能力的局限性。2017 年,Sabour 等人[21]首次提出使用膠囊作為神經(jīng)元來(lái)實(shí)現(xiàn)深度學(xué)習(xí)的技術(shù),這也為文本情感分析的相關(guān)研究者提供了一套新的思路。Wei 等人[22]于2018 年分別使用膠囊網(wǎng)絡(luò)進(jìn)行了文本的單分類和多分類,并利用其動(dòng)態(tài)路由機(jī)制調(diào)整膠囊之間的連接強(qiáng)度,使文本分類的準(zhǔn)確率得到了明顯的提高。同年,Ren 等人[23]在此基礎(chǔ)上提出了一種基于k-means 聚類理論的路由算法,在保證分類準(zhǔn)確性的同時(shí),減少了使用的參數(shù),從而節(jié)省了資源?;诖?,本文使用膠囊網(wǎng)絡(luò)作為情感分析的算法模型,對(duì)中文格律詩(shī)進(jìn)行二元情感分類。

2 針對(duì)格律詩(shī)文本的情感分析方法

本文提出了一種基于整合膠囊網(wǎng)絡(luò)的中文格律詩(shī)情感分析方法。由于不同格律的格律詩(shī)常具有不同的抒情方式,該方法依據(jù)中文格律詩(shī)的格律分別構(gòu)建了四種參數(shù)不同的膠囊網(wǎng)絡(luò),采用基于字?jǐn)?shù)的規(guī)則對(duì)其進(jìn)行整合。利用整合后的膠囊網(wǎng)絡(luò)模型進(jìn)行情感判別的流程如圖1所示。

基于機(jī)器學(xué)習(xí)的文本情感分析方法主要依靠情感特征及其關(guān)系的提取。與針對(duì)現(xiàn)代文本的情感分析方法不同的是文本集的預(yù)處理部分,即中文分詞和向量化文本的方法。

圖1 情感判別流程

如今,現(xiàn)代文本在中文分詞時(shí)大多使用統(tǒng)計(jì)與字典相結(jié)合或基于深度學(xué)習(xí)的方式?;诮y(tǒng)計(jì)與字典相結(jié)合的方式主要是在統(tǒng)計(jì)分詞模型中融入適合的詞典特征[24]。古代格律詩(shī)含有大量的繁體字,且各朝代用字情況繁簡(jiǎn)不一,并沒有合適的字典可以融入統(tǒng)計(jì)分詞模型中?;谏疃葘W(xué)習(xí)的方式是將向量化的文本作為輸入,對(duì)其進(jìn)行有效的特征和上下文表示[25]。由于本文使用的情感分析方法屬于深度學(xué)習(xí)的一種,若使用雙向LSTM對(duì)其進(jìn)行分詞處理,情感分析的時(shí)間復(fù)雜度會(huì)較高,降低訓(xùn)練的效率。由于古代格律詩(shī)言詞簡(jiǎn)練,多數(shù)可以通過(guò)單字表達(dá)特殊情感,且基于以上提出的方法不適用于本文提出的模型的情況下,本文對(duì)格律詩(shī)的分詞選擇單詞成詞的方式。例如:“暮雪搖空江”的分詞結(jié)果為“暮|雪|搖|空|江”。實(shí)驗(yàn)結(jié)果證明,單字成詞也可對(duì)格律詩(shī)所蘊(yùn)含的情感進(jìn)行準(zhǔn)確的分析。

對(duì)于基于機(jī)器學(xué)習(xí)的現(xiàn)代文本情感分析來(lái)說(shuō),在詞語(yǔ)向量化階段,通常既可以選擇傳統(tǒng)的TF-idf 方法,也可以使用開源的已經(jīng)訓(xùn)練好的詞向量或在機(jī)器學(xué)習(xí)的嵌入層對(duì)單詞進(jìn)行隨機(jī)初始化的方式。然而,針對(duì)格律詩(shī)言辭簡(jiǎn)練和多采用組合情感的特點(diǎn),若采用傳統(tǒng)TFidf方法表示情感特征,會(huì)導(dǎo)致特征間關(guān)系被忽略,判別準(zhǔn)確率低;若使用已有的詞向量直接對(duì)格律詩(shī)中的單字進(jìn)行向量化,會(huì)導(dǎo)致大量的格律詩(shī)中的生僻字沒有與之對(duì)應(yīng)的詞向量;若采用隨機(jī)初始化的方式,會(huì)導(dǎo)致情感分析模型的結(jié)果不夠準(zhǔn)確。因此,本文采用word2vec中CBOW模型,對(duì)爬取的所有古詩(shī)詞進(jìn)行訓(xùn)練,以期得到較為準(zhǔn)確的詞向量?jī)?nèi)部的情感特征及其關(guān)系表示。隨即,對(duì)于不同格律的格律詩(shī)分別構(gòu)建相應(yīng)的膠囊網(wǎng)絡(luò)模型。

受益于近兩年深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究人員對(duì)使用膠囊網(wǎng)絡(luò)提取完整的語(yǔ)義特征進(jìn)行了相關(guān)研究。對(duì)于每首向量化后的格律詩(shī),可用D∈?L·K表示。其中,第i行表示句子S中的第i個(gè)單詞wordi,每個(gè)單詞用k維詞向量進(jìn)行表示。

向量化后文本作為卷積層的輸入,通常使用Xi:j表示由第i個(gè)字到第j個(gè)字的矢量矩陣,卷積核從Xi:j提取的特征ci可表示為公式(2):

其中,f為非線性激活函數(shù),b0為偏置項(xiàng),W為卷積核。

膠囊網(wǎng)絡(luò)的特點(diǎn)為使用“膠囊”代替神經(jīng)元,并采用動(dòng)態(tài)路由機(jī)制保存細(xì)微特征和特征間關(guān)系。在主膠囊層中,存在著大量以多維向量的輸出方式代替標(biāo)量,保存實(shí)例化特征的膠囊單元。每個(gè)膠囊在特征學(xué)習(xí)中可以辨識(shí)實(shí)體文本對(duì)象,并輸出在有限范圍內(nèi)存在的概率及一組包含特征間關(guān)系的實(shí)體參數(shù)。采用動(dòng)態(tài)路由機(jī)制保存實(shí)例化特征capi可用公式(3)表示:

其中,Ci表示卷積層輸出的特征集合,b1為偏置項(xiàng),W"是主膠囊層權(quán)重矩陣,g為Squash函數(shù),是膠囊網(wǎng)絡(luò)特有的激活函數(shù),用于壓扁膠囊(即壓縮膠囊長(zhǎng)度)。Squash函數(shù)可表示為公式(4):

其中,等式右側(cè)第一項(xiàng)為壓縮函數(shù),范圍在0 到1 之間;第二項(xiàng)為向量sj的歸一化,長(zhǎng)度為1?;诠剑?),可確保輸出向量的長(zhǎng)度在0 到1 之間,該長(zhǎng)度也可以解釋為特定特征的概率。經(jīng)過(guò)squash 函數(shù)的最終輸出值反映了膠囊網(wǎng)絡(luò)認(rèn)為文本是積極情感的概率,可以通過(guò)設(shè)置閾值得到最終的判別結(jié)果,如公式(5)所示:

整個(gè)網(wǎng)絡(luò)的參數(shù)更新由動(dòng)態(tài)路由機(jī)制和反向傳播兩部分組成:動(dòng)態(tài)路由機(jī)制能夠迭代自更新膠囊間權(quán)重,即情感特征間關(guān)系的緊密程度;反向傳播能夠更新網(wǎng)絡(luò)中各節(jié)點(diǎn)的權(quán)值。經(jīng)過(guò)調(diào)查研究,本文采用交叉熵?fù)p失函數(shù)。交叉熵函數(shù)處處光滑,且對(duì)異常值不敏感,避免了在異常值敏感的情況下產(chǎn)生的偏差過(guò)大的問題。為了加強(qiáng)規(guī)范化和防止過(guò)擬合,損失函數(shù)由誤差項(xiàng)和正則化項(xiàng)兩部分構(gòu)成??捎霉剑?)表示:

其中,yi為真實(shí)值,ypredictedi為根據(jù)模型得出的預(yù)測(cè)值,等號(hào)右側(cè)第一項(xiàng)為損失項(xiàng),第二項(xiàng)為L(zhǎng)2正則化。

膠囊網(wǎng)絡(luò)模型的整合體現(xiàn)在依據(jù)不同的格律分別訓(xùn)練了參數(shù)不同的膠囊網(wǎng)絡(luò)。由于格律詩(shī)其格律能夠表示不同的抒情特點(diǎn),若用同種參數(shù)的膠囊網(wǎng)絡(luò)對(duì)不同格律的格律詩(shī)統(tǒng)一進(jìn)行情感分析,易產(chǎn)生過(guò)擬合以及情感分析準(zhǔn)確率較低的問題。因此,本文根據(jù)四種不同格律的詩(shī)集,分別對(duì)其進(jìn)行膠囊網(wǎng)絡(luò)訓(xùn)練。當(dāng)一首未知情感的格律詩(shī)輸入至所提出的情感分析模型時(shí),首先通過(guò)統(tǒng)計(jì)格律詩(shī)的字?jǐn)?shù)得到其屬于的格律類別,根據(jù)其類別可選擇與之對(duì)應(yīng)的膠囊網(wǎng)絡(luò)模型,進(jìn)行情感分析。

3 實(shí)驗(yàn)及結(jié)果分析

本文使用五言絕句、五言律詩(shī)、七言絕句、七言律詩(shī)四類格律詩(shī)分別訓(xùn)練了膠囊網(wǎng)絡(luò)模型。每類格律詩(shī)文本在經(jīng)過(guò)預(yù)處理、情感極性標(biāo)注和詞嵌入之后,分別輸入膠囊網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,從而得到4 種不同參數(shù)的、能夠準(zhǔn)確判別格律詩(shī)情感的膠囊網(wǎng)絡(luò)模型。之后,引入一個(gè)基于字?jǐn)?shù)的格律判別規(guī)則將4個(gè)模型進(jìn)行整合,以保證不同格律的格律詩(shī)能夠被最合適的模型識(shí)別和判斷。整合模型后,本文將格律詩(shī)分別依據(jù)所屬朝代及時(shí)期分類,以此進(jìn)行實(shí)例化實(shí)驗(yàn)。

3.1 語(yǔ)料集

本文設(shè)計(jì)了爬蟲系統(tǒng)對(duì)選取的古詩(shī)文網(wǎng)(https://www.gushiwen.org/)中的格律詩(shī)進(jìn)行爬取,構(gòu)建出總量為100 000 首的語(yǔ)料集。該語(yǔ)料集涵蓋唐、宋、元、明、清5代的格律詩(shī)。對(duì)其進(jìn)行二元情感極性標(biāo)注后,依據(jù)格律將其分為4 類。其中每個(gè)類別隨機(jī)選取包含積極情感和包含消極情感的詩(shī)各1 000首。各個(gè)類別均隨機(jī)抽取其80%作為訓(xùn)練集、20%作為測(cè)試集,其構(gòu)成如表1所示。

表1 實(shí)驗(yàn)語(yǔ)料集構(gòu)成

所有語(yǔ)料分類完成后,使用3-Gram 的CBOW 模型對(duì)其進(jìn)行詞嵌入,以確保其能夠被膠囊網(wǎng)絡(luò)識(shí)別和分析。

3.2 模型效果分析

本文使用ROC 曲線、AUC 值和準(zhǔn)確率、精確率、召回率、F1 值等指標(biāo)作為模型效果的判斷依據(jù),將本文模型(Init_Cap)與CNN 模型和未經(jīng)格律分類進(jìn)行訓(xùn)練的單一膠囊網(wǎng)絡(luò)模型(Single_Cap)的分類效果進(jìn)行對(duì)比。

3.2.1 ROC曲線與AUC值

接受者操作特性曲線(ROC 曲線)又稱為感受性曲線。該曲線是在特定刺激條件下,以被試樣本在不同判斷標(biāo)準(zhǔn)下所得的假陽(yáng)性率為橫坐標(biāo)、真陽(yáng)性率為縱坐標(biāo)連綴而成的曲線。該曲線為凸曲線,曲線越靠近(0,1.0)坐標(biāo),表示通過(guò)模型取得的效果越好。其橫、縱坐標(biāo)可表示為式(7):

其中,F(xiàn)PR為假陽(yáng)性率,TPR為真陽(yáng)性率,F(xiàn)P為N個(gè)負(fù)樣本中預(yù)測(cè)為真的樣本個(gè)數(shù);TP為P個(gè)正樣本中預(yù)測(cè)為真的樣本個(gè)數(shù);N為負(fù)樣本總數(shù),P為正樣本總數(shù)。

實(shí)驗(yàn)結(jié)果顯示,本文方法的ROC曲線如圖2所示。

圖2 模型分類效果ROC曲線

圖2在標(biāo)簽中示出了基于每個(gè)模型得到的AUC 面積。AUC 是ROC 曲線與x軸圍成的面積,同樣用于模型優(yōu)劣的評(píng)估。如圖2所示,整合膠囊網(wǎng)絡(luò)模型與單一膠囊網(wǎng)絡(luò)模型的ROC 曲線有交叉重疊的部分,肉眼無(wú)法區(qū)分二者孰優(yōu)孰劣。因此對(duì)模型AUC 值進(jìn)行計(jì)算,在0.5~1.0范圍內(nèi),AUC值越大,模型效果越好。其計(jì)算過(guò)程可由公式(8)表示:

其中,ranki表示將預(yù)測(cè)概率從小到大排序之后,第i個(gè)樣本的序列號(hào);M和N分別表示積極情感和消極情感的樣本數(shù)量。由于膠囊網(wǎng)絡(luò)能夠彌補(bǔ)CNN模型提取細(xì)微特征能力的不足,整合膠囊網(wǎng)絡(luò)模型與單一膠囊網(wǎng)絡(luò)模型的AUC值均大于CNN模型的AUC值;整合膠囊網(wǎng)絡(luò)模型的AUC值略大于單一膠囊網(wǎng)絡(luò)的AUC值,這是由于格律詩(shī)情感與其格律的關(guān)聯(lián)性。由于五言詩(shī)抒情方式更加簡(jiǎn)單直接,七言詩(shī)多使用意向隱晦的表達(dá)情感,若使用相同的膠囊網(wǎng)絡(luò)模型進(jìn)行情感判別,易造成神經(jīng)網(wǎng)絡(luò)欠擬合,判別結(jié)果不精準(zhǔn)。因此,本文針對(duì)不同格律的格律詩(shī)分別構(gòu)建其相應(yīng)的膠囊網(wǎng)絡(luò)模型,保證情感分類的準(zhǔn)確性。

3.2.2 準(zhǔn)確率、精確率、召回率和F1值

為進(jìn)一步檢測(cè)本文方法用于中文格律詩(shī)情感分析的有效性,本文通過(guò)計(jì)算準(zhǔn)確率(Acc)、精確率(P)、召回率(R)、F1 值對(duì)模型質(zhì)量進(jìn)行綜合評(píng)估。其計(jì)算過(guò)程可表示為式(9)~(12):

其中,TP為實(shí)際為正樣本,檢測(cè)為正樣本的情況數(shù);FP為實(shí)際為負(fù)樣本,檢測(cè)為正樣本的情況數(shù);FN為實(shí)際為正樣本,檢測(cè)為負(fù)樣本的情況數(shù);TN為實(shí)際為負(fù)樣本,檢測(cè)為負(fù)樣本的情況數(shù)。Acc為準(zhǔn)確率,反映了正確檢測(cè)出的文本數(shù)與總樣本數(shù)之比;P為精確率,反映了檢測(cè)正確與實(shí)際被檢測(cè)到的比值;R為召回率,反映了檢測(cè)正確與應(yīng)該被檢測(cè)到的比例;F1 值為P和R的調(diào)和平均率,是一種兼顧了精準(zhǔn)率和召回率的比率。

實(shí)驗(yàn)結(jié)果顯示,CNN、單一膠囊網(wǎng)絡(luò)、整合膠囊網(wǎng)絡(luò)的以上各項(xiàng)指標(biāo)如表2所示。

表2 模型效果評(píng)估指標(biāo)對(duì)比

從表2可以得知,整合膠囊網(wǎng)絡(luò)對(duì)古代中國(guó)格律詩(shī)的情感判別效果最優(yōu),準(zhǔn)確率可達(dá)到94%以上。這是由于整合膠囊網(wǎng)絡(luò)在彌補(bǔ)CNN忽略細(xì)微特征與特征間關(guān)系這一缺陷的同時(shí),兼顧了格律與情感表達(dá)的關(guān)聯(lián)。

3.3 實(shí)例化實(shí)驗(yàn)與社會(huì)情感挖掘

為分析古代中國(guó)各朝代社會(huì)情感狀況,本文對(duì)唐、宋、元、明、清5個(gè)朝代的格律詩(shī)分別使用提出的方法進(jìn)行實(shí)例化情感分析實(shí)驗(yàn),以分析各朝代社會(huì)情感基調(diào)。其中,由于唐、宋、明、清歷時(shí)較長(zhǎng),階段性明顯,針對(duì)朝代全期進(jìn)行的整體社會(huì)情感狀況分析具體性不足。故本文將唐、宋、明、清格律詩(shī)依據(jù)具體時(shí)期分類進(jìn)行情感分析,旨在細(xì)化分析其社會(huì)情感。

3.3.1 古代中國(guó)各朝代社會(huì)情感挖掘

格律詩(shī)這一文體成型于唐代,并盛行于宋、元、明、清等大一統(tǒng)朝代。這5 個(gè)朝代在中國(guó)歷史上均居于重要地位,其社會(huì)情感能夠反映當(dāng)時(shí)的社會(huì)狀況與民生水平,具有研究?jī)r(jià)值。實(shí)驗(yàn)使用本文方法對(duì)各朝代的格律詩(shī)進(jìn)行了情感分類,并結(jié)合《呂著中國(guó)通史》[26]對(duì)分類結(jié)果反映的社會(huì)情感進(jìn)行了分析。本文隨機(jī)抽取唐、宋、元、明、清格律詩(shī)各10 000首,分別使用整合后的膠囊網(wǎng)絡(luò)模型進(jìn)行情感分類實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 各朝代格律詩(shī)情感極性占比

由圖3 可知,就各朝代整體情況而言,唐代與明代的格律詩(shī)情感以積極情感為主流;元、清兩代則相對(duì)消極;宋代積極與消極情感占比基本持平。這反映了唐、明兩代由于國(guó)力強(qiáng)盛、貿(mào)易發(fā)達(dá)等原因,整體社會(huì)情感偏向于積極,民生狀況總體較好;元代為外族入侵統(tǒng)治,漢族人民社會(huì)地位低下,苛捐雜稅繁重,故整體社會(huì)情感消極;清代早期雖有盛世出現(xiàn),但晚期閉關(guān)鎖國(guó),人民思想迂腐麻木,同時(shí)受到西方工業(yè)文明的侵略和文化沖擊,因此社會(huì)情感整體呈負(fù)面;宋代民生既由于繁榮的文化與經(jīng)濟(jì)得到改善,又因?yàn)榘等醯恼闻c軍事遭受沖擊,故整體社會(huì)情感并無(wú)明顯傾向。就整體趨勢(shì)而言,社會(huì)情感隨各朝代發(fā)展呈先下降、后上升、再下降的走向,這一趨勢(shì)與主流研究結(jié)論相符。

3.3.2 唐、宋各時(shí)期社會(huì)情感挖掘

本文依據(jù)史料研究將唐代劃分為初唐(公元618年至712年)、盛唐(公元712年至762年)、中唐(公元762年至827年)、晚唐(公元827年至859年)4個(gè)時(shí)期,各抽取格律詩(shī)3 000首;將宋代劃分為北宋(公元960至1127年)、南宋(公元1127 年至1279 年)兩個(gè)時(shí)期時(shí)期,各抽取格律詩(shī)5 000首。將以上數(shù)據(jù)集分別使用整合后的膠囊網(wǎng)絡(luò)模型進(jìn)行情感分類實(shí)驗(yàn)后,實(shí)驗(yàn)結(jié)果如圖4所示。

圖4 唐、宋各時(shí)期格律詩(shī)情感極性占比

由圖4(a)可知,初唐、盛唐時(shí)期的格律詩(shī)多表達(dá)積極情感;中唐時(shí)期積極情感與消極情感占比相當(dāng);晚唐時(shí)期則以消極情感為主。這反映了初唐和盛唐時(shí)期由于政治清明、國(guó)力強(qiáng)盛,社會(huì)情感得以保持積極,并在盛唐時(shí)期達(dá)到頂峰;中唐時(shí)期雖承接了盛唐的良好發(fā)展,但由于政治、經(jīng)濟(jì)、軍事上的隱患開始出現(xiàn),民生水平有所下降,社會(huì)情感由以積極為主轉(zhuǎn)變?yōu)橼呌谥行?;晚唐則由于國(guó)內(nèi)局勢(shì)動(dòng)蕩,人民幸福感普遍較低,社會(huì)情感普遍消極。就整體趨勢(shì)而言,唐代社會(huì)情感隨各時(shí)期發(fā)展呈先上升、后下降的走向,這一趨勢(shì)與主流研究結(jié)論相符。由圖4(b)可知,北宋時(shí)期格律詩(shī)情感偏向積極;南宋時(shí)期則相反。這反映了北宋時(shí)期由于經(jīng)濟(jì)繁榮、思想開放,民生水平較高,積極情感占據(jù)社會(huì)情感主流;南宋時(shí)期雖然商業(yè)與文化的發(fā)展水平維持在極高水準(zhǔn),但由于統(tǒng)治階級(jí)無(wú)能、內(nèi)憂外患并存,人民生活受到嚴(yán)重影響,故社會(huì)情感以消極為主。就整體趨勢(shì)而言,宋代社會(huì)情感隨各時(shí)期發(fā)展由高走低,這一趨勢(shì)與主流研究結(jié)論相符。

3.3.3 明、清各時(shí)期社會(huì)情感挖掘

本文依據(jù)史料研究將明代劃分為明初期(公元1368年至1435年)、明中期(公元1435年至1582年)、明晚期(公元1582 年至1644 年)3 個(gè)時(shí)期,各抽取格律詩(shī)3 000首;將清代劃分為清初期(公元1636年至1735年)、清中期(公元1735 年至1840 年)、清晚期(公元1840 年至1911年)3個(gè)時(shí)期,各抽取格律詩(shī)3 000首。將以上數(shù)據(jù)集分別使用整合后的膠囊網(wǎng)絡(luò)模型進(jìn)行情感分類實(shí)驗(yàn)后,實(shí)驗(yàn)結(jié)果如圖5所示。

圖5 明、清各時(shí)期格律詩(shī)情感極性占比

由圖5(a)可知,明初期與明中期的格律詩(shī)表達(dá)積極情感居多;明晚期則以消極情感為主。這反映了明初期由于國(guó)家機(jī)器較為穩(wěn)定、經(jīng)濟(jì)資源龐大、風(fēng)氣優(yōu)良,社會(huì)情感偏向積極;明中期一系列統(tǒng)治改革引發(fā)了許多沖突與斗爭(zhēng),國(guó)家控制的社會(huì)資源不斷流失,國(guó)力由盛轉(zhuǎn)衰,但民間受到的影響有限,故社會(huì)情感雖有所下降,但仍能保持以積極為主;明晚期政治上的既得利益集團(tuán)排除改革阻撓,上層社會(huì)日益腐朽,國(guó)家失去自我救治的可能,人民生活受到嚴(yán)重影響,故社會(huì)情感普遍消極。就整體趨勢(shì)而言,明代社會(huì)情感隨各時(shí)期發(fā)展呈先緩后急的下降走向,這一趨勢(shì)與主流研究結(jié)論相符。由圖5(b)可知,清初期的格律詩(shī)多表達(dá)積極情感;清中期與清末期則明顯以消極情感為主。這反映了清初期由于國(guó)力極其強(qiáng)盛,各領(lǐng)域得到有力發(fā)展,各階層生活較穩(wěn)定,積極情感成為社會(huì)主流情感;清中期雖有乾隆盛世,但統(tǒng)治階級(jí)嚴(yán)厲控制思想,政治僵化腐敗,國(guó)庫(kù)空虛,階級(jí)矛盾激化,故人民思想迂腐麻木,社會(huì)情感普遍消極;清晚期受到列強(qiáng)侵略,損失大量領(lǐng)土、主權(quán)與財(cái)富,國(guó)家逐漸半殖民地化,雖有改良中興,但已無(wú)力改變時(shí)局,故社會(huì)情感中消極情感占比劇增。就整體趨勢(shì)而言,清代社會(huì)情感隨各時(shí)期發(fā)展由高走低,這一趨勢(shì)與主流研究結(jié)論相符。

4 結(jié)束語(yǔ)

本文嘗試使用現(xiàn)代信息技術(shù)分析古代中國(guó)社會(huì)情感,提出了一種基于整合膠囊網(wǎng)絡(luò)的文本情感分析方法,利用格律詩(shī)情感對(duì)古代中國(guó)社會(huì)情感狀況進(jìn)行挖掘。該方法對(duì)大量格律詩(shī)文本進(jìn)行預(yù)處理后依據(jù)格律將其分類,分別構(gòu)建相應(yīng)的膠囊網(wǎng)絡(luò)情感分析模型,再通過(guò)基于字?jǐn)?shù)的規(guī)則將四個(gè)模型整合,實(shí)現(xiàn)對(duì)格律詩(shī)文本的情感判別。實(shí)驗(yàn)結(jié)果表明,該方法對(duì)格律詩(shī)的情感判別準(zhǔn)確率可以達(dá)到94%以上,優(yōu)于CNN 與單一膠囊網(wǎng)絡(luò),能夠解決古代短文本因情感特征不明顯和情感特征間關(guān)系難以保留導(dǎo)致的情感分析困難問題。同時(shí),本文利用該方法分別對(duì)不同朝代、不同時(shí)期的格律詩(shī)進(jìn)行了實(shí)例化實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果與相關(guān)研究結(jié)合,證明了分析結(jié)果的合理性,挖掘了古代中國(guó)的社會(huì)情感,證實(shí)了利用現(xiàn)代信息技術(shù)分析古代短文本情感和挖掘古代社會(huì)情感的可行性,為文本情感分析領(lǐng)域和計(jì)算社會(huì)學(xué)領(lǐng)域提供了新的研究思路。該方法及其思想可應(yīng)用于古代中國(guó)的社會(huì)情感分析、民生狀況分析和輿情分析等研究方向,為相關(guān)歷史學(xué)、社會(huì)學(xué)研究提供科學(xué)佐證與新的思路,并可與中國(guó)古詩(shī)詞信息化、智能化教育結(jié)合,開創(chuàng)出新的研究課題。

大关县| 鹤壁市| 拉萨市| 潼关县| 巧家县| 化州市| 灯塔市| 泾川县| 嘉善县| 罗平县| 九台市| 富锦市| 华容县| 新乐市| 阳泉市| 阿拉善左旗| 普安县| 隆德县| 威宁| 房产| 应用必备| 洛隆县| 会理县| 津市市| 玉山县| 涞水县| 天峻县| 宁德市| 宣汉县| 教育| 安福县| 本溪市| 怀化市| 崇信县| 莱阳市| 监利县| 博白县| 九龙县| 龙州县| 天峨县| 兴国县|