王素格,程琦,陳鑫
(1.山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;2.山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006)
情感詞語能夠為情感分析提供豐富的信息,也為許多情感分析任務(wù)提供研究基礎(chǔ)。根據(jù)情感粒度的不同,詞語有兩種分類方式,一種是粗粒度分為正面(褒義)或負面(貶義)的詞語,每一個詞都被賦予正面或負面的極性;另外一種是細粒度的分類,根據(jù)情感詞語所包含的情緒,將詞語標(biāo)注為喜、怒、哀、樂等標(biāo)簽。本文將從情緒的角度抽取散文體裁的情感詞語,并對抽取的詞語標(biāo)注情緒標(biāo)簽。由于情緒詞語具有體裁相關(guān)性,詞語的情緒標(biāo)簽因文本體裁不同而不同。因此,有研究表明[1],在特殊領(lǐng)域的情感詞典比通用領(lǐng)域的情感詞典在情感分析上有更好的表現(xiàn)。目前大部分構(gòu)建情感詞典的詞語來源于新聞、產(chǎn)品評論和微博等社交媒體,而針對散文文本中的情緒詞語鮮有人關(guān)注。已有的部分研究主要是面向高考散文閱讀理解答案獲取[2],該任務(wù)主要是考查學(xué)生對散文的理解,而機器閱讀是希望機器理解散文中作者所描寫的景、物和人等抒發(fā)的情感。因此,抽取散文中的情緒詞語,在一定程度上可以提高閱讀理解的答題準(zhǔn)確率。
針對情感詞語抽取任務(wù),主要分為三種方法,基于詞典的方法、基于語料庫的方法和兩者相結(jié)合的方法?;谠~典的方法,主要有Rao等人[3]基于圖的半監(jiān)督學(xué)習(xí)方法,通過給出正、負面種子集和同義詞圖,從WordNet提取正面和負面的情感詞。張璞等人[4]采用標(biāo)簽傳播算法抽取情感詞語,其中鄰接矩陣采用Word2Vec和連詞結(jié)合的方法。楊小平等人[5]提出了基于轉(zhuǎn)換約束集的多維情感詞語抽取,主要利用詞分布密度的感情色彩消歧方法,抽取了包含10種情感標(biāo)注的多維漢語情感詞語。Choi[6]提出了基于FrameNet的感知層面的情感詞語建立方法。Xu[7]使用英文情緒詞典WordNet-Affect自動抽取中文情緒詞語,首先將英文詞典中的英文單詞翻譯為中文,再借助中文同義詞詞典《同義詞詞林》為每一種情緒標(biāo)簽構(gòu)建雙語無向圖,構(gòu)建了一個圖算法用于獲取種子情緒詞集,最后通過同義詞擴大情緒詞語集。
基于語料庫的方法。Yang等人[8]構(gòu)建了一個情感詞典,通過對情緒間的分析,對bug嚴重程度的預(yù)測進行了研究。Hamilton等人[9]使用了論壇Reddit中250個在線社區(qū)語料,展示了社區(qū)之間情感的重大變化。引用150年英語的歷史情感詞匯,發(fā)現(xiàn)了在這段時間內(nèi)大于5%的詞語交替極性。Yu等人[10]通過使用股市新聞的語料擴展情感詞,對文本進行情感的正負性判定,并將其用于股票趨勢的預(yù)測。Zhao[11]為中文情感分析創(chuàng)造出一個細粒度的語料庫,通過分析注釋語料庫來探索新的情感分析任務(wù)。
基于語料庫和詞典相結(jié)合的方法。Zhang[12]使用了一種半監(jiān)督框架模型在用戶評論語料中抽取情感詞。Yang[13]利用情緒感知LDA模型,使用一組領(lǐng)域無關(guān)的最小種子詞作為先驗知識,為預(yù)定義的情感抽取特定領(lǐng)域的情緒詞語。Wu等人[14]提出一種基于數(shù)據(jù)驅(qū)動的微博專用情緒詞語分類方法,該方法包含3種詞典的情緒知識統(tǒng)一框架,不斷將檢測到的情緒新詞加入到已有的情緒詞語集中,從而擴展情緒詞典的樣本集。Song[15]認為在具有動態(tài)性領(lǐng)域(社交媒體等),詞匯不僅需要適應(yīng)領(lǐng)域中的變化,還需要提供更細粒度的定量估計,以獲取詞-情感關(guān)聯(lián)。利用標(biāo)記和弱標(biāo)記情感文本來學(xué)習(xí)基于生成的模型,用于抽取情感特征進而進行分類。Mohammad[16]提出了一種從Twitter語料庫中生成詞匯之間的情感關(guān)聯(lián)方法,第一個構(gòu)建了詞語之間具有情感關(guān)聯(lián)分數(shù)的詞典。Abdaoui[17]提出了基于英語情感詞典的同義詞的半自動翻譯和擴展方法,考慮詞語極性和情感的新語法擴展情感詞語。馬秉楠等人[18]提出一種基于社交網(wǎng)絡(luò)中特殊情感符號的跨媒體多情緒(喜、怒、哀、樂)情感詞語抽取方法。將圖片與短文本內(nèi)容相結(jié)合,利用表情符與文本詞之間互信息的計算,篩選基于社交網(wǎng)絡(luò)的情緒詞語。
散文中的高頻情感詞語具有通用性,可以使用通用詞典或者詞共現(xiàn)等方法抽取[9],而對于散文中出現(xiàn)的低頻詞,源于其作者不同,寫作內(nèi)容及表達方式不一致,一切景語皆情語,不同的景,表達不同的情感。例如在史鐵生的作品《合歡樹》、朱自清的作品《荷塘月色》等散文作品中,不同作者將情感寄托在不同的景物中。僅從詞典或詞語共現(xiàn)的角度抽取散文中的低頻情感詞語難于獲得理想的結(jié)果。因此,本文針對散文中低頻情感詞語抽取,提出了一種基于隨機游走模型的情感詞語識別方法。首先利用一般詞典確定種子集詞語,采用詞典和語料庫相結(jié)合、詞語間的共現(xiàn)信息和Word2Vec的語義相似度相結(jié)合,構(gòu)建了隨機游走圖,抽取情感詞語并對情感詞語進行情緒標(biāo)簽的標(biāo)注,其中情緒標(biāo)簽分為喜、怒、哀、樂、懼五類。
散文中的詞語在表達情緒時較為含蓄和深沉,因此,若要獲取其情緒詞語,需要考慮詞語間的相關(guān)性。
例1 我孤傲的心境,我坦蕩的胸襟,我直言不諱的稟性,我潔身自好的習(xí)性,我疾惡如仇的憤世。
在例1中,“孤傲”“坦蕩”“直言不諱”“潔身自好”“疾惡如仇”五個詞語共現(xiàn)時,用來稱贊“我”的人生態(tài)度,猶如孤芳自賞的隱士,由“坦蕩”等詞與“孤傲”共現(xiàn)和上下文的環(huán)境中可以推斷出“孤傲”一詞與“坦蕩”具有較大相近情緒標(biāo)簽,而在其他體裁中“孤傲”帶有貶責(zé)色彩。為了定義詞語之間的相關(guān)性,定義如下的共現(xiàn)關(guān)系度量。
定義1 共現(xiàn)關(guān)系度量(CRM),利用候選詞語之間的互信息度量詞語間的相關(guān)性,在詞語頻數(shù)高的情況下,兩個詞語間的共現(xiàn)信息和關(guān)聯(lián)程度具有較好的效果。兩個詞語之間的共現(xiàn)關(guān)系度量見公式(1)。
(1)
其中,p(xi)表示某一個詞在給定語料中出現(xiàn)的概率,p(xi,xj)表示兩個詞語xi與xj共同在一個句子中的概率。CRM值越高,兩個詞語情緒標(biāo)簽相同的可能性就越大。
例2 它們是一片朦朧的溫馨與寂寥,是一片成熟的希望與絕望,它們的領(lǐng)地只有兩處:心與墳?zāi)埂?/p>
在例2中,“溫馨”和“寂寥”、“希望”和“成熟”、“心”與“墳?zāi)埂狈謩e表示相對的情感傾向。僅使用共現(xiàn)關(guān)系,容易將此類的詞語分類錯誤,因此,利用詞語間的語義信息可為此類問題的解決提供支持。因此,給出如下的語義關(guān)系度量定義。
定義2 語義關(guān)系度量(SRM),Word2Vec中的Skip-gram模型是利用特定詞對應(yīng)的上下文詞向量,用于刻畫該詞的分布表示。設(shè)詞xi∈Rl和詞xj∈Rl為l維向量,使用余弦相似度度量兩個詞語之間的語義關(guān)系,見公式(2)。
(2)
公式(2)計算的相似度越大,說明兩個詞語語義越相關(guān)。
根據(jù)第1節(jié)定義的兩種相關(guān)性度量,共現(xiàn)關(guān)系度量主要是利用詞語同時出現(xiàn)的概率,而本文的主要目標(biāo)是抽取低頻詞語,即出現(xiàn)概率較少的詞語。若使用公式(1)可能會導(dǎo)致度量關(guān)系較為稀疏。另外,語義關(guān)系度量使用詞語間各自的詞向量,而詞向量生成是根據(jù)詞語上下文的預(yù)測,然而,僅靠上下文的詞向量也會使低頻詞語的信息不夠豐富。因此,本文根據(jù)文獻[19-20]中使用的兩步傳播算法,融合兩種度量關(guān)系,構(gòu)建隨機游走模型中的隨機游走圖。最后根據(jù)候選詞到種子集的游走概率判斷候選詞的情緒傾向。
隨機游走模型是通過點與點之間的連通性刻畫候選詞之間的相關(guān)性。整個模型分為兩部分,隨機游走圖和隨機游走過程。這里的隨機游走過程是在隨機游走圖基礎(chǔ)上,從未知情緒傾向的詞語x出發(fā),開始游走,在詞語x相連的所有詞語中,如果某個詞語在模型圖上距離詞語x越近,則游走到這個詞語的概率就會越大,反之,游走到這個詞語的概率就會越小。最后,通過游走到種子集詞語的概率判斷詞語x的情緒傾向。
2.2.1 隨機游走圖
隨機游走圖是隨機游走模型的基礎(chǔ),圖中點與點之間連通的概率用于度量散文體裁中詞語之間的相關(guān)性。如果游走圖上連接兩點之間的概率值越大,則表示兩個詞語之間相關(guān)的可能性越大,也就越有可能擁有相同的情緒。
假設(shè)候選詞中的每一個詞語映射為隨機游走圖上的一個點,則游走圖記作G=(V,E),其中,V={xi|xi∈X}表示隨機游走圖上的點集合,X表示候選詞集合,E={(xi,xj)|xi,xj∈X}表示圖中兩個點之間連接的概率集合,即詞語間相關(guān)性集合。
為了便于詞語之間情緒的傳播,我們將游走圖表示成鄰接矩陣,其中,鄰接矩陣中初始元素是由詞語之間的共現(xiàn)關(guān)系構(gòu)成。
(1)初始鄰接矩陣建立
利用公式(1)共現(xiàn)關(guān)系的度量值CRM(xi,xj),構(gòu)建初始鄰接矩陣W∈R|m|×|m|,其中m表示候選詞語的數(shù)量。矩陣W中元素wij見公式(3)所示。
(3)
(2)詞語語義關(guān)系矩陣
為了反映詞語間的語義關(guān)系,利用公式(2),構(gòu)建語義關(guān)系矩陣D∈R|m|×|m|,矩陣D中的元素見公式(4)所示。
di,j=SRM(xi,xj) .
(4)
(3)詞語情緒的傳播
僅靠初始鄰接矩陣只能刻畫兩個詞間的直接關(guān)系,為了進一步利用詞語間的語義關(guān)系,達到局部傳播影響到整體情感候選詞語[19],需要構(gòu)建兩步傳播算法,包括列上的垂直傳播和行上的水平傳播。
① 列垂直方向情感傳播
利用公式(3)和(4),構(gòu)建列垂直方向情感傳播迭代公式,見公式(5)所示。
Ev(t+1)=α·S·Ev(t)+(1-α)D,
(5)
利用公式(5),通過不斷迭代,直到游走圖趨于穩(wěn)定,得到鄰接矩陣Ev*。
② 行水平方向情感傳播
在列垂直方向情感傳播的基礎(chǔ)上,構(gòu)建行水平方向上情感傳播迭代公式,見公式(6)所示。
(6)
利用公式(6),通過不斷迭代,直到游走圖趨于穩(wěn)定,得到鄰接矩陣Eh*,其中,Eh(0)=D.
上述① 和② 兩步傳播,獲得詞語間的游走圖。其傳播算法的收斂性分析見文獻[19]。
2.2.2 隨機游走過程
隨機游走過程[20]是從一個或一系列頂點開始遍歷一張游走圖。對于游走圖中的任意一個頂點x,以概率p(x,yi) 跳躍到圖中的其他任何一個頂點yi,稱p(x,yi) (i=1,2,…,m)為跳轉(zhuǎn)發(fā)生概率。游走過程需要4個輸入?yún)?shù),鄰接矩陣(Eh*)、初始概率分布向量s0、跳轉(zhuǎn)發(fā)生的權(quán)重β∈(0,1)和隨機跳轉(zhuǎn)概率p.
假設(shè)游走后的詞語xi∈X(i=1,2,…,m)輸出概率分布向量si=(si1,si2,…,sim),每次游走后詞語xi(i=1,2,…,m)的概率分布向量si的迭代計算見公式(7)。
(7)
其中,向量si(0)中的sij(0)為詞語xj的初始情緒標(biāo)簽,對于未知情緒標(biāo)簽的詞語設(shè)置為0.每次迭代之后,重置種子集中詞語的標(biāo)簽為初始情緒標(biāo)簽。
本文假設(shè)詞語概率分布p為均勻分布,隨機跳轉(zhuǎn)概率分布向量見公式(8)。
(8)
利用公式(7)的迭代過程,可以得到穩(wěn)定的概率分布si*。
2.2.3 基于隨機游走模型的詞語情緒標(biāo)簽判斷
利用2.2.2節(jié)構(gòu)建的隨機游走模型,設(shè)計如下判斷詞語的情緒標(biāo)簽方法。
設(shè)詞語xi∈X(i=1,2,…,m),xi情緒標(biāo)簽的判別見公式(9)。
(9)
這里的N為種子集的個數(shù),sij為詞語xi游走到第j個種子詞語的概率值,O(xi)為詞語xi的情緒類別標(biāo)簽。
1)實驗數(shù)據(jù)集。本文使用了80 190篇散文,數(shù)據(jù)來源于高考散文、散文網(wǎng)等相關(guān)網(wǎng)站,經(jīng)過去重、去燥(網(wǎng)址)等處理。
2)分詞。使用哈工大社會計算與信息檢索研究中心研發(fā)的語言技術(shù)平臺(LTP)進行分詞。
3)候選詞語的選取。
本文對收集的80 190篇散文進行分詞。選取其中的名詞、形容詞、動詞、俗語(成語)作為候選詞語。實驗選擇詞頻500到7的低頻詞語,平均分為十組。在每組候選詞中,《情感詞匯本體》中的詞語占候選詞的比例如圖1所示。
Fig.1 Proportion of words in “Emotional Vocabulary Ontology” under different word frequencies圖1 不同詞頻下包含《情感詞匯本體》中詞語的比例
為了驗證在第2節(jié)中提出的隨機游走模型在散文體裁低頻情感詞語抽取作用,本文選取圖1中比例最小的一組,即詞頻為20到16作為實驗的候選詞語,共選取候選詞語1 140條,其中各種情緒詞語所占比例如表1所示,在真實散文文本中情感詞語各類別數(shù)量存在不平衡性,為符合真實文本情況,本文實驗數(shù)據(jù)未做平衡處理。
表1 各類情緒詞語數(shù)量分布情況
由表1中可知:在候選詞中,“喜、怒、哀、樂、懼”五類情緒標(biāo)簽的詞語占總候選詞數(shù)量為74.1%,說明在散文低頻詞語中,這五類情緒詞語比例較高,因此,本文僅考慮這五類標(biāo)簽的詞語。其中“樂”比例最高,其次是“喜”,說明在散文數(shù)據(jù)中,較多的散文是屬于緬懷、贊揚、祝愿等主題,而“懼”所占比例最小,說明恐懼一類的詞語的散文篇章較少。
情感詞語的種子集是隨機游走模型實現(xiàn)的基礎(chǔ)。本文選擇《情感詞匯本體》與候選詞語的交集,每種情緒標(biāo)簽選擇10個詞語作為種子集,如表2所示。
表2 隨機游走模型中的各個情緒標(biāo)簽的種子集
實驗結(jié)果評價指標(biāo)采用準(zhǔn)確率(P)、召回率(R)和F1值。每一類情緒的實驗結(jié)果指標(biāo)分別見公式(10)、公式(11)、公式(12)。
(10)
(11)
(12)
其中,TPemoi表示某種情緒emoi預(yù)測正確的數(shù)量,FPemoi表示將其他類別的情緒預(yù)測為情緒emoi,FNemoi表示情緒emoi未預(yù)測正確的數(shù)量。Pemoi(i=1,2,…,N)表示情緒emoi的準(zhǔn)確率,Remoi(i=1,2,…,N)表示情緒emoi的召回率,F1emoi(i=1,2,…,N)表示情緒emoi的F1值。
所有情緒的實驗結(jié)果指標(biāo)分別見公式(13)、公式(14)、公式(15).
(13)
(14)
(15)
本文實驗的詞向量維度l=70,第2.2.1節(jié)傳播參數(shù)α=0.1[20]
實驗1:不同數(shù)量的情感詞語種子集對情緒類別判別的影響
為了分析隨機游走模型,在不同數(shù)量的情感詞語種子集對情緒類別判別的影響,本實驗選取6組不同的種子集,分別進行了對比實驗,實驗結(jié)果如表3所示。
表3 不同數(shù)量的種子集詞語的實驗結(jié)果
Fig.2 Emotional tendency discrimination results of various emotional words圖2 各類情感詞語情緒傾向判別結(jié)果
由圖2可知:“怒”和“哀”情緒類的各項評價指標(biāo)均低于另外三種。其原因是在情緒標(biāo)簽判別中,這兩種情緒關(guān)系緊密,某個詞語可能同時含有兩種情緒,但是根據(jù)模型,詞語的判別更偏向于概率大的這種情緒。例如,“爾虞我詐”既包含“怒”的情緒,也包含“哀”的情緒,在本文中人工判別其為“哀”情緒,而在實驗結(jié)果中,判別其為“怒”情緒。因此,模型判別“哀”的情緒標(biāo)簽時,有26.5%的詞語被判別為“怒”的情緒。
實驗2:不同權(quán)重β下的隨機游走模型抽取情感詞語的結(jié)果
Fig.3 Different weights β downstream walking model to discriminate emotional tendency圖3 不同的權(quán)重β下游走模型判別情感詞語情緒傾向結(jié)果
由圖3可知:隨著β的變化,各項評價指標(biāo)出現(xiàn)波動,說明游走過程中跳轉(zhuǎn)發(fā)生概率的權(quán)重會影響散文情感詞語的識別。當(dāng)β值為0.15時,準(zhǔn)確率、召回率和F1值均取得了最優(yōu)結(jié)果,在后續(xù)的實驗中均選取β=0.15.
實驗3:為了驗證本文提出的隨機游走模型(RWM)的有效性,設(shè)置了五個baseline方法進行對比。
(1)標(biāo)簽傳播算法(LPA)[22]:該方法與本文的核心游走模型有相似之處,其基本思路是用已標(biāo)記節(jié)點的標(biāo)簽信息去預(yù)測未標(biāo)記節(jié)點的標(biāo)簽信息。
(2)CRM:基于詞語間共現(xiàn)關(guān)系度量的詞語情緒標(biāo)簽判斷。
(3)SRM:基于詞語間語義關(guān)系度量的詞語情緒標(biāo)簽判斷。
(4)CNN:基于文獻[23]提出的卷積神經(jīng)網(wǎng)絡(luò),本文抽取候選詞所在句子作為卷積網(wǎng)絡(luò)的特征進行分類,實驗中參數(shù)均采用文獻[23]中參數(shù)。
(5)LEX:基于詞典《情感詞匯本體》的方法對詞語情緒標(biāo)簽判斷。
以上五種方法和本文所提出的方法進行比較實驗,實驗結(jié)果見表4所示。
表4 各類詞語情緒判別方法的實驗結(jié)果比較
由表4中結(jié)果可知:
(1)本文方法RWM比LPA方法在抽取面向散文體裁詞語情緒標(biāo)簽的三項指標(biāo)結(jié)果均好。LPA算法要求每個節(jié)點的標(biāo)簽按照相似度傳播給相鄰節(jié)點,在節(jié)點傳播的每一步,每個節(jié)點根據(jù)相鄰節(jié)點的標(biāo)簽來更新自己的標(biāo)簽,與該節(jié)點相似度越大,相鄰節(jié)點對其標(biāo)注的影響權(quán)值越大。本文的RWM方法,是由未知情感傾向的詞語進行隨機跳轉(zhuǎn),根據(jù)迭代收斂之后跳轉(zhuǎn)到種子集的概率,判斷未知詞語的情緒標(biāo)簽。由于散文情感最大的特點是由景抒情,將心情看作一種抽象的事物,使用相應(yīng)的具體景物描寫出來,因此隨機游走模型更適合于散文體裁的情感詞語抽取。
(2)RWM方法在各項評價指標(biāo)上均大于CRM方法和SRM方法,說明融合了兩種方法的隨機游走模型比單一的任一種方法能夠更好地抽取面向散文體裁的低頻情感詞語。主要原因是當(dāng)候選詞中部分詞語與種子集中的詞語未產(chǎn)生共現(xiàn)時,PMI方法和WS方法將無法對其判斷,因此,單獨使用任一種方法均不能將所有候選詞語的情緒標(biāo)簽進行判別,僅能判斷候選詞語中的53.4%和50.4%的情緒傾向。
(3)CNN方法適用于數(shù)據(jù)均衡且數(shù)據(jù)量較大的情況,而本文中候選詞是低頻詞,每個詞語只抽取10個句子作為CNN訓(xùn)練集,將數(shù)據(jù)按照9∶1的比例,分為訓(xùn)練集和測試集,實驗結(jié)果進行了五倍交叉驗證。另一方面,各類情緒詞語的數(shù)據(jù)分布不均衡,每類情緒的評價指標(biāo)平均后均低于RWM方法。
(4)由于詞典中的情感詞語不夠完善,LEX方法只能抽取到詞典有的詞語,不能很好地包含面向散文體裁的情感詞語,僅能判斷候選詞語中的25.5%的情緒傾向。LEX方法的實驗指標(biāo)均低于RWM方法。
實驗4:為了驗證本文實驗方法在其他頻次的候選詞語中的效果,分別對不同頻次的候選詞進行實驗。實驗結(jié)果如表5所示。
表5 不同頻次候選詞語情緒判別的實驗結(jié)果比較
由表5中結(jié)果可知:
隨著候選詞的詞頻減少,詞語之間的相關(guān)性刻畫程度減少,實驗指標(biāo)有小幅度降低,但變化幅度不大,證明了本文提出的隨機游走模型,在高頻和低頻詞語中都能取得不錯的結(jié)果。其中頻次在499~115候選詞的實驗結(jié)果指標(biāo)最好,是由于詞頻高的詞語,語義關(guān)系和共現(xiàn)關(guān)系足夠豐富,在模型游走中,能更好地傳遞詞間關(guān)系的信息。而詞頻在12~10之間的候選詞實驗結(jié)果指標(biāo)最差,實驗結(jié)果中,未檢測到“懼”類情緒的情感詞語,即此類的準(zhǔn)確率和召回率均為0,各類情緒結(jié)果指標(biāo)求平均之后,低于其他頻次的候選詞。
為了展示第2.2節(jié)兩步傳播算法的性能,選取部分詞語,通過詞語實驗過程中情緒的變化,直至最后情緒傾向判斷正確,其示意圖見圖4、圖5、圖6所示。
Fig.4 Shows the co-occurrence relationship between candidate words and seed sets圖4 表示候選詞語與種子集之間的共現(xiàn)關(guān)系度量
圖4表示第1節(jié)中詞語之間的共現(xiàn)關(guān)系度量。連線上的數(shù)字表示兩個詞語之間的共現(xiàn)關(guān)系度量值,若沒有連線,說明兩個詞語沒有共現(xiàn)關(guān)系。
Fig.5 Shows the semantic relationship between candidate words and seed sets圖5 表示候選詞語與種子集之間的語義關(guān)系度量
圖5表示第1節(jié)中詞語之間的語義關(guān)系度量。連線上的數(shù)字表示兩個詞語之間的語義關(guān)系度量值,值越大說明其與種子集的關(guān)系越密切。
Fig.6 Probability of emotional tendency of candidate words in the two-step propagation algorithm圖6 兩步傳播算法過程中候選詞的情緒傾向的概率
圖6中,圖6a表示在經(jīng)過列的垂直方向傳播情感之后,候選詞的情緒標(biāo)簽概率;圖6b表示在行的水平方向傳播情感后,候選詞的情緒標(biāo)簽概率。
從圖4和圖5中可以看出,單獨使用共現(xiàn)關(guān)系度量和單獨使用語義關(guān)系度量不能很好地識別候選詞語的情緒傾向,經(jīng)過在列的垂直方向上傳播情感之后部分情感詞語可以分配正確的標(biāo)簽。當(dāng)經(jīng)過在行水平方向上情感傳播之后,候選詞語的情緒傾向能夠判斷正確,且原先正確的詞語的情緒傾向的概率也有小幅度增加。例如“萎縮”一詞在圖6a上分配了正確的情緒標(biāo)簽,在圖6b上情緒類別的概率增加。
本文針對散文體裁的低頻情感詞語抽取任務(wù),提出了一種融合詞語相關(guān)性和相似度的隨機游走模型。首先基于一般的詞典選取種子集,確定候選詞語和種子集范圍,然后根據(jù)兩種度量詞語之間共現(xiàn)關(guān)系和相似度的方法,融合構(gòu)建隨機游走模型圖,最后在模型圖上實現(xiàn)隨機游走過程,再根據(jù)游走到種子集的概率判斷詞語的情緒類別。最后通過實驗驗證了本文所提出方法的有效性。
由于散文是一種抒發(fā)作者情感,寫作方式靈活的記敘類的文學(xué)體裁,是作家反映各自復(fù)雜而微妙的情感載體。由于散文中的一些名詞,往往帶有特殊的情感,比如2016年高考題《老腔》中的“老腔”,對于讀者來說,老腔是一種文化,但是對于作者而言,不僅是一種文化,更是一種感動和感慨,因此,在未來工作中,將考慮針對名詞性的情感詞語及其寓意的識別。