基于人物特征增強(qiáng)的擬人句要素抽取方法研究

2023-10-25 02:22:20王素格

中文信息學(xué)報 2023年8期

李婧,王素格,2,陳鑫,王典,李

(1. 山西大學(xué) 計(jì)算與信息技術(shù)學(xué)院,山西太原 030006;2. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西太原 030006;3. 山西財經(jīng)大學(xué) 金融學(xué)院,山西太原 030006)

0 引言

擬人作為最常見的修辭格之一,是將事物人格化,把原來不具有人動作和性格的事物比作和人一樣的模樣,在我們的日常交流和文學(xué)作品中常有意識或無意識地使用。例如,童話故事里的動物、植物能講話。擬人的三要素為本體、擬人詞、擬體[1]。本體: 被描寫和說明的事物,事物本身不是人,但是具有人的特點(diǎn)。擬人詞: 用來描繪人物特點(diǎn)的詞語,如“夜空中的小星星在對你微笑”中擬人詞為“微笑”。擬體: 與本體相對,就是人。由于擬人的修辭方式具有增強(qiáng)表達(dá)力,并生動刻畫所描述對象的特點(diǎn),常被用于散文的寫作中,將物體、動物、植物、思想或抽象概念等比擬為人,將事物人格化,使其具有人的動作、思想或情感。在近年的高考語文散文類鑒賞題中,多有涉及擬人句的考查。以2020年浙江省高考語文第10題為例。

原文: 穿過小城,一片暮靄中,波塔波夫終于走到了房子跟前。小心翼翼地打開小門,可是小門還是咯吱地響了一聲?；▓@仿佛抖動了一下。樹枝上有雪花簌簌飄落,沙沙作響……

問題: 賞析文中畫線部分的語言特點(diǎn)。

部分參考答案: 語言具有詩化風(fēng)格。如通過“花園仿佛抖動了一下”的擬人化描寫,表現(xiàn)波塔波夫內(nèi)心的情感波瀾,情景交融,充滿詩意。

根據(jù)上述部分參考答案,如果能抽取擬人句中的本體和擬人詞,不僅可以幫助解答鑒賞類問題,還可以進(jìn)一步了解作者或主人公想表達(dá)的思想感情。

本文基于多任務(wù)學(xué)習(xí),提出基于人物特征增強(qiáng)的擬人句要素抽取方法。該方法主要包含三個部分: 表示增強(qiáng)、要素抽取及關(guān)系檢測。具體地,在表示增強(qiáng)部分,將人物特征詞融入句子的表示中;要素抽取部分利用條件隨機(jī)場,確定標(biāo)簽之間的前后依賴關(guān)系;關(guān)系檢測部分使用自注意力機(jī)制,建模字間的關(guān)系。為了實(shí)現(xiàn)擬人句的要素抽取和關(guān)系檢測部分間的信息交互,使用要素同步機(jī)制和關(guān)系同步機(jī)制。在創(chuàng)建的擬人數(shù)據(jù)集中進(jìn)行<本體,擬人詞>抽取的實(shí)驗(yàn),結(jié)果表明本文提出的模型性能優(yōu)于其他比較模型。

1 相關(guān)工作

對于要素抽取,研究者們利用多任務(wù)學(xué)習(xí)方法,通過在相關(guān)任務(wù)間共享表示信息,提升模型在原始任務(wù)上的泛化性能。由CRF[2]可以有效學(xué)習(xí)輸出標(biāo)簽之間的前后依賴關(guān)系,近些年在自然語言處理領(lǐng)域中得到了廣泛使用。Huang等人[3]提出了一系列基于長短時記憶(LSTM)的序列標(biāo)注模型,并首次將BiLSTM-CRF模型應(yīng)用于NLP基準(zhǔn)序列標(biāo)記數(shù)據(jù)集,證明了此模型可以有效地利用過去和未來的輸入特征,對于CRF層,使用句子級的標(biāo)記信息,使方法具有較強(qiáng)的魯棒性,而且對嵌入詞的依賴性也小。但有關(guān)擬人句要素抽取的相關(guān)研究目前較少,趙琳玲[1]通過對擬人修辭手法的分析,發(fā)現(xiàn)擬人句中包含顯著的人物特征,因而提出了基于人物特征的擬人句判別及要素抽取方法,但僅對擬人句中的本體進(jìn)行了抽取,并沒有對擬人詞進(jìn)行抽取且未判斷二者存在的二元關(guān)系。

對于實(shí)體關(guān)系抽取,已有很多的研究工作。早期方法[4-5]將實(shí)體抽取和關(guān)系抽取視為兩個獨(dú)立的子任務(wù),在抽取所有實(shí)體后,采用管道方法進(jìn)行關(guān)系分類。為了在兩個子任務(wù)之間建立橋梁,實(shí)體和關(guān)系的聯(lián)合抽取模型已經(jīng)引起了研究者的廣泛關(guān)注。在抽取模型中,通常使用標(biāo)記策略構(gòu)建實(shí)體和關(guān)系之間的連接。其中,NovelTagging模型[6]將實(shí)體類型和關(guān)系角色作為標(biāo)簽的不同部分,再將聯(lián)合抽取任務(wù)建模作為單個序列標(biāo)注問題,缺點(diǎn)是不能處理重疊的情況。作為改進(jìn),文獻(xiàn)[7-9]執(zhí)行了多輪標(biāo)記過程,從而緩解重疊的問題。Seq2Seq方法接收非結(jié)構(gòu)化文本作為輸入,并直接將實(shí)體-關(guān)系三元組解碼為順序輸出。這種簡潔的方法符合人類的注釋過程,即注釋者先讀句子,理解句子的意思,然后按順序指出實(shí)體-關(guān)系對。CopyRE模型[10]是基于Seq2Seq的聯(lián)合抽取方法,通過兩個具有復(fù)制機(jī)制的對應(yīng)實(shí)體生成關(guān)系,但只能生成實(shí)體的最后一個字。因此,CopyMTL模型[11]應(yīng)用多任務(wù)學(xué)習(xí)框架抽取多字實(shí)體,解決了CopyRE模型生成實(shí)體不完整的問題。由于擬人句中的本體和擬人詞之間存在一定的隱式語義關(guān)系,若直接使用實(shí)體關(guān)系抽取方法,則不能將本體和擬人詞進(jìn)行準(zhǔn)確的抽取。例如“月亮那么明媚又充滿哀傷”,該句子中的本體是“月亮”,擬人詞是“哀傷”。為了解決此問題,本文基于多任務(wù)學(xué)習(xí),提出了一種基于人物特征增強(qiáng)的擬人句要素抽取模型。

2 擬人句語料庫和特征詞庫構(gòu)建

2.1 擬人句語料庫構(gòu)建

由于目前沒有開放的擬人句數(shù)據(jù)集,所以我們?nèi)斯?gòu)建數(shù)據(jù)資源。數(shù)據(jù)來源于高中語文課文、查字典網(wǎng)、散文吧網(wǎng)站以及全國部分省市的高考語文真題,具有一定的代表性。通過篩選和標(biāo)注處理,構(gòu)建了4 283條擬人句的數(shù)據(jù)集。

標(biāo)注過程中,由三名同學(xué)同時標(biāo)注相同的數(shù)據(jù)。對于同一待標(biāo)注句,檢驗(yàn)三人的標(biāo)注結(jié)果,當(dāng)至少兩人標(biāo)注一致時,則數(shù)據(jù)入庫;否則三人共同討論,確定一致結(jié)果。

2.2 擬人特征詞庫構(gòu)建

對于一個擬人句,擬人詞是用來描繪人物特征的詞語,將人物特征細(xì)分為人物的情感、動作、神態(tài)、性格、外貌和其他特征六類,通過對擬人數(shù)據(jù)進(jìn)行人物特征統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果和人物特征示例如表1所示。

表1 擬人數(shù)據(jù)統(tǒng)計(jì)結(jié)果和人物特征示例

從表1中可以看出,將人物特征歸納為六個方面,從不同的角度對人物的特點(diǎn)進(jìn)行描述。同時,對擬人句進(jìn)行分析發(fā)現(xiàn),存在一個擬人句包含多種人物特征的情況,例如“冬天對自己的創(chuàng)造很是得意,歡呼雀躍著,在雪原上嬉戲玩耍?！痹诖藬M人句中,“得意”屬于人物神態(tài),“歡呼雀躍”“嬉戲玩?！睂儆谌宋飫幼?從多角度對“冬天”進(jìn)行了人物特征描寫。根據(jù)對擬人句的人物特征統(tǒng)計(jì)結(jié)果,發(fā)現(xiàn)80.97%的擬人句中包含人物動作,其次是人物情感、其他特征、人物性格。因而,體現(xiàn)了人物特征在擬人句中的重要性。

在已構(gòu)建的擬人數(shù)據(jù)集上,總結(jié)出較為常見的人物特征詞匯1 586個,利用哈工大的《同義詞詞林?jǐn)U展版》和WordNet進(jìn)行同義詞查找,對特征詞匯進(jìn)一步擴(kuò)充,使詞庫盡可能多地包含相關(guān)詞匯,最終構(gòu)建有2 480個詞匯或短語的人物特征詞庫即為DF,其中,人物特征詞庫包含表1中提到的六種人物特征,同時詞匯帶有褒、貶不同含義,覆蓋面廣,幾乎涵蓋了文學(xué)作品中常用到的人物特征,對于更準(zhǔn)確地進(jìn)行擬人句要素抽取,具有一定的輔助作用。

3 擬人句要素抽取方法

在擬人句中,本體和擬人詞之間存在一定的隱式語義關(guān)系,這兩個要素可以同時存在,但兩者之間不一定存在二元關(guān)系。例如“寧靜的夜晚,只有那天上的星星在竊竊私語,一排排柳樹倒映在水中,欣賞著自己的容貌?！痹谠摼渥又写嬖趦蓚€本體——“星星”和“柳樹”,三個擬人詞——“竊竊私語”“欣賞”“容貌”,若按照一般的要素抽取方法僅將本體和擬人詞抽取,難以找到兩個本體分別對應(yīng)的擬人詞,因此,為了解決這個問題,本文提出基于人物特征增強(qiáng)的擬人句要素抽取方法。在要素抽取時將其看作序列標(biāo)注問題,采用BIO標(biāo)注方法產(chǎn)生五種標(biāo)記,其中B-T和I-T分別表示本體的首部和中部,B-P和I-P分別表示擬人詞的首部和中部,O沒有任何含義。同時,通過建模字間的關(guān)系,最終推理出<本體,擬人詞>,完成擬人句要素抽取。

<本體,擬人詞>抽取任務(wù)的目標(biāo),是從給定句子S中獲得本體與擬人詞構(gòu)成的集合C={},其中ai和oi分別表示本體和擬人詞,它們可以是一個詞或短語。基于人物特征增強(qiáng)的擬人句要素抽取方法模型的總體框架如圖1所示。

在該模型框架中,表示增強(qiáng)部分將人物特征詞作為特定領(lǐng)域的特征引入編碼層,與BERT得到的上下文表示向量進(jìn)行結(jié)合,得到句子的增強(qiáng)表示的特征。要素抽取部分和關(guān)系檢測部分用于提取本體、擬人詞以及判斷二者存在的二元關(guān)系。此外,還使用了一個同步單元實(shí)現(xiàn)要素抽取部分和關(guān)系檢測部分之間的信息交互。整體模型需要多個遞歸過程,最后采用一個推理層捕獲<本體,擬人詞>。

3.1 表示增強(qiáng)部分

表示增強(qiáng)部分是指人物特征增強(qiáng)后的編碼層。由于預(yù)訓(xùn)練模型的編碼傾向于捕獲一般文本表示,但缺乏領(lǐng)域知識。為了彌補(bǔ)相關(guān)領(lǐng)域信息的不足,在編碼層中加入了人物特征進(jìn)行增強(qiáng)。

輸入序列與已構(gòu)建好的人物特征詞庫DF進(jìn)行檢索,找到所有可能構(gòu)成人物特征的子序列。將X[i:j]定義為X的子序列,X以xi開始,以xj結(jié)束,再利用掩模矩陣MD表示人物特征。其中第i行和第j列的元素mij表示子序列X[i:j]是否為人物特征的表達(dá)式。

(1)

利用額外的Transformer編碼器計(jì)算輸入句子的人物特征的特定表示。該層包括兩個子層,一個多頭自注意力機(jī)制和一個前饋網(wǎng)絡(luò),每個子層后面都有一個殘差連接和層規(guī)范化。融合了人物特征信息的特征掩蔽編碼器的最終輸出表示為HD。最后,將HL和HD進(jìn)行加權(quán)平均,得到人物特征增強(qiáng)表示HEncoder。

HEncoder=γHL+(1-γ)HD

(2)

其中,γ為加權(quán)參數(shù)。在這項(xiàng)工作中,采用了γ=0.5。

3.2 要素抽取部分

(3)

(4)

預(yù)測序列Yt的概率計(jì)算如式(5)所示。

(5)

3.3 關(guān)系檢測部分

由于本體和擬人詞之間的二元關(guān)系結(jié)構(gòu)可以是一對一,也可以是一對多,甚至是多對多。因此,考慮到本體和擬人詞之間關(guān)系的復(fù)雜性,采用自注意力作為關(guān)系檢測部分,根據(jù)句子的上下文信息動態(tài)地建模字間關(guān)系,而不受時序限制。

(6)

(7)

在最后一步t中,通過最大化似然概率,進(jìn)一步將監(jiān)督信息引入到Gt的計(jì)算中,如式(8)所示。

(8)

其中,標(biāo)準(zhǔn)關(guān)系矩陣Z由元素zi,j組成,關(guān)系概率p(zi,j|xi,xj)計(jì)算如式(9)所示。

(9)

其中,zi,j=1表示第i個字與第j個字之間存在關(guān)系,反之亦然。有了這些監(jiān)督信息,可以引導(dǎo)注意力更有效地捕捉字間的關(guān)聯(lián)。

3.4 同步單元

3.4.1 要素同步機(jī)制

3.4.2 關(guān)系同步機(jī)制

3.5 聯(lián)合學(xué)習(xí)

為了同步學(xué)習(xí)要素抽取部分和關(guān)系檢測部分,將各自的損失函數(shù)進(jìn)行融合。對于要素抽取部分,給定標(biāo)準(zhǔn)標(biāo)簽序列Y,最后一步最小化負(fù)對數(shù)似然損失函數(shù)如式(16)所示。

(16)

對于關(guān)系檢測部分,將標(biāo)準(zhǔn)注釋轉(zhuǎn)換為一個one-hot矩陣,其中0表示沒有關(guān)系,1表示兩個字間存在二元關(guān)系。最小化最后一步預(yù)測分布與標(biāo)準(zhǔn)分布之間的交叉熵?fù)p失如式(17)所示。

(17)

將這兩部分結(jié)合,構(gòu)建整個模型的損失目標(biāo)如式(18)所示。

L(θ)=LE+LR

(18)

3.6 推理層

(19)

4 實(shí)驗(yàn)

4.1 參數(shù)設(shè)置與評價指標(biāo)

本文采用精確率P、召回率R和F1值作為評價指標(biāo)。

圖2 部分超參數(shù)對實(shí)驗(yàn)性能的影響

4.2 對比方法介紹

為了驗(yàn)證本文提出方法的有效性,將其與如下基線方法進(jìn)行對比實(shí)驗(yàn)。

BERT+CH[1]該模型采用BiLSTM-CRF的方法抽取擬人句中的本體。編碼層分為兩部分,一是使用BERT得到上下文向量表示,二是微調(diào)BERT,將segmentid參數(shù)設(shè)置為是否為人物特征,采用1或0表示,拼接二者。但此模型沒有對擬人詞以及要素存在的二元關(guān)系進(jìn)行進(jìn)一步研究。

W+F[15]該模型的Embedding層為每個詞的向量和詞性特征的拼接。此模型是對比喻句中的要素進(jìn)行識別和抽取,現(xiàn)用于擬人句識別。

SDRN[14]: 該模型研究的是方面意見對抽取(AOPE)任務(wù),目的是成對地提取方面和意見表達(dá)。

BERT+CH+SDRN(B+C+S) 將上述BERT+CH和SDRN方法進(jìn)行結(jié)合,在SDRN的編碼層中微調(diào)BERT,將segmentid參數(shù)設(shè)置為是否為人物特征,采用1或0表示。

SDRN+SMHSA[16](S+S) 該模型將SDRN模型中關(guān)系檢測部分換為SMHSA模型中的多頭自注意力的方法。SMHSA的主要任務(wù)是聯(lián)合實(shí)體和關(guān)系抽取,得到關(guān)系三元組。

4.3 實(shí)驗(yàn)結(jié)果與分析

利用第3節(jié)提出的模型以及4.2節(jié)介紹的對比模型,在已構(gòu)建的擬人數(shù)據(jù)中進(jìn)行對比實(shí)驗(yàn),結(jié)果如表2所示。

表2 六種方法的對比實(shí)驗(yàn)結(jié)果 (單位: %)

由表2實(shí)驗(yàn)結(jié)果可以看出:

(1) 與其他模型進(jìn)行比較,本文提出的模型在<本體,擬人詞>抽取任務(wù)的F1值達(dá)到了目前最優(yōu),驗(yàn)證了本文使用聯(lián)合學(xué)習(xí)方法對<本體,擬人詞>的抽取是有效的。

(2) 由于本文的模型是對SDRN模型進(jìn)行的改進(jìn),因此,本文所提出的方法與SDRN的結(jié)果比較。在<本體,擬人詞>抽取的任務(wù)上,本文提出的模型比SDRN,在P值、R值、F1值上分別提高了1.75,1.10,1.37個百分點(diǎn),驗(yàn)證了在編碼層中加入人物特征進(jìn)行增強(qiáng),彌補(bǔ)了預(yù)訓(xùn)練模型在編碼時對相關(guān)領(lǐng)域信息獲取不足的問題。

(3) 由于之前的工作并沒有對<本體,擬人詞>抽取進(jìn)行研究,而SDRN在很大程度上解決了判斷兩者間存在二元關(guān)系的問題,這說明自注意力機(jī)制有助于學(xué)習(xí)句子內(nèi)部要素間相關(guān)聯(lián)的依賴關(guān)系。BERT+CH+SDRN模型將BERT編碼中的sigmentid進(jìn)行修改,改變了上下文的語義。SDRN+SMHSA模型的要素抽取部分使用的是SDRN實(shí)體識別部分,而關(guān)系檢測部分則采用SMHSA模型中抽取實(shí)體關(guān)系任務(wù)的方法,導(dǎo)致實(shí)驗(yàn)結(jié)果不理想,其原因是在擬人句中本體和擬人詞的關(guān)系不同于實(shí)體間的關(guān)系,利用該方法存在關(guān)系無法判別的問題。而我們的模型使用了自注意力機(jī)制。

值得說明的是,本文使用聯(lián)合學(xué)習(xí)模型的參數(shù)是在訓(xùn)練時僅考慮了<本體,擬人詞>抽取的關(guān)系F1值達(dá)到最高,因此,僅僅抽取本體或擬人詞的性能指標(biāo)不是最佳。

4.4 消融實(shí)驗(yàn)

為了驗(yàn)證模型各個部分的性能,將模型中去掉部分信息進(jìn)行消融實(shí)驗(yàn)。

-feature: 表示將人物特征融合去掉后的模型。

-ESM: 將模型中的要素同步機(jī)制(ESM)去掉,只保留全連接層更新關(guān)系隱藏表示。

-RSM: 將模型中的關(guān)系同步機(jī)制(RSM)去掉,并采用全連接層更新擬人詞隱藏表示。

-ESM-RSM: 將模型中的要素同步機(jī)制(ESM)和關(guān)系同步機(jī)制(RSM)均去掉。

上述四種方法與本文的模型在擬人數(shù)據(jù)中的比較結(jié)果如表3所示。

表3 <本體,擬人詞>抽取消融實(shí)驗(yàn)對比結(jié)果 (單位: %)

由表3實(shí)驗(yàn)結(jié)果可以看出:

(1) -feature、-ESM和-RSM在<本體,擬人詞>抽取任務(wù)的評價指標(biāo)F1上均有所下降。其中,-feature與本文模型的性能相比下降明顯,說明具有人物特征增強(qiáng)的編碼層對<本體,擬人詞>抽取任務(wù)是有效的,在一定程度上彌補(bǔ)了一般編碼層對相關(guān)領(lǐng)域信息不足的問題。

(2) -ESM-RSM是所有方法中最差的,說明使用ESM或RSM,對模型的整體都是有幫助的,且兩個同時使用的性能優(yōu)于只使用一個。特別是ESM的貢獻(xiàn)略大于RSM。另外,在這種同步機(jī)制的作用下,我們的模型優(yōu)于其他基線方法。

5 總結(jié)

針對擬人句的本體和擬人詞抽取問題,本文提出了基于人物特征增強(qiáng)的擬人句要素抽取方法。首先通過表示增強(qiáng)部分將人物特征詞作為特定領(lǐng)域的特征引入編碼層,與BERT得到的上下文表示向量進(jìn)行結(jié)合,得到能夠增強(qiáng)表示的特征。其次,使用要素抽取部分和關(guān)系檢測部分,同時提取本體、擬人詞和二者存在的二元關(guān)系。此外,還用同步單元實(shí)現(xiàn)后兩個部分之間的信息交互。經(jīng)過多個遞歸過程后,最后采用推理層捕獲<本體,擬人詞>,并與其他模型進(jìn)行對比實(shí)驗(yàn)。實(shí)驗(yàn)表明,人物特征增強(qiáng)和多任務(wù)學(xué)習(xí)的共同采用提高了本文所提出方法的有效性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡