国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于同義詞詞林和規(guī)則的中文遠(yuǎn)程監(jiān)督人物關(guān)系抽取方法*

2021-09-23 01:22:44謝明鴻王紅斌
關(guān)鍵詞:示例句式實(shí)體

謝明鴻,冉 強(qiáng),王紅斌

(1.昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué)云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)

1 引言

隨著互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的到來,各式各樣的數(shù)據(jù)以一種近乎爆炸的方式不斷地增長(zhǎng)。面對(duì)五花八門、分類多樣的數(shù)據(jù),尤其是文本數(shù)據(jù),如何快速且有效地發(fā)掘抽取其中的實(shí)體及實(shí)體關(guān)系就成為了一個(gè)亟待解決的問題。關(guān)系抽取是信息抽取和自然語言理解中的一個(gè)核心任務(wù)。關(guān)系抽取的目標(biāo)是從一個(gè)或多個(gè)句子中預(yù)測(cè)其中的實(shí)體與實(shí)體對(duì)應(yīng)的關(guān)系[1 - 3]。同樣地,人物關(guān)系抽取的目的是利用從樣本數(shù)據(jù)集中提取到的特征對(duì)人物實(shí)體對(duì)間的關(guān)系進(jìn)行預(yù)測(cè),由此得到的人物實(shí)體對(duì)-關(guān)系三元組〈en1,rel,en2〉可進(jìn)一步用于構(gòu)建高質(zhì)量、大規(guī)模的人物關(guān)系知識(shí)圖譜[4]和知識(shí)庫(kù),并應(yīng)用于自動(dòng)問答系統(tǒng)等任務(wù),幫助人們快速獲取有效的信息。

用于關(guān)系抽取的大規(guī)模標(biāo)注數(shù)據(jù)集的獲取是關(guān)系抽取的一大難題。有監(jiān)督方法的關(guān)系抽取數(shù)據(jù)集,通常需要人們花費(fèi)大量的時(shí)間和精力去整理收集并人工添加標(biāo)簽,無疑代價(jià)巨大。因此,遠(yuǎn)程監(jiān)督的思想應(yīng)運(yùn)而生。遠(yuǎn)程監(jiān)督最早是由Mintz等人[5]于2009年國(guó)際計(jì)算語言學(xué)協(xié)會(huì)年會(huì)(ACL2009)上提出的,是一種用知識(shí)庫(kù)去自動(dòng)對(duì)齊樸素文本實(shí)體并標(biāo)注的方法。但是,受遠(yuǎn)程監(jiān)督思想假設(shè)性太強(qiáng)的影響,由此構(gòu)建的數(shù)據(jù)集存在標(biāo)簽噪聲問題。人們發(fā)現(xiàn)多示例學(xué)習(xí)的思想比較契合遠(yuǎn)程監(jiān)督的噪聲問題,因此,在多示例學(xué)習(xí)的基礎(chǔ)上結(jié)合神經(jīng)網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行關(guān)系抽取成為了一大研究熱點(diǎn)。然而,一般的神經(jīng)網(wǎng)絡(luò)雖然能從訓(xùn)練數(shù)據(jù)集中通過迭代訓(xùn)練自動(dòng)學(xué)習(xí)和提取特征,但標(biāo)簽噪聲以及遠(yuǎn)程監(jiān)督語料質(zhì)量等問題的存在使得利用一般神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取的效果并不盡人意,并且需要消耗大量時(shí)間和計(jì)算資源。

本文針對(duì)遠(yuǎn)程監(jiān)督人物關(guān)系抽取數(shù)據(jù)集中存在的標(biāo)簽噪聲問題,借助同義詞詞林統(tǒng)計(jì)能表達(dá)人物關(guān)系的人物關(guān)系觸發(fā)詞的詞頻確定候選關(guān)系,結(jié)合中文人物關(guān)系的特定句式搭配等規(guī)則在多示例學(xué)習(xí)思想下判斷人物關(guān)系。在遠(yuǎn)程監(jiān)督人物關(guān)系數(shù)據(jù)集IPRE(Inter-Personal Relationship Extraction)[6]上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明本文提出的方法具有較好的F1值,并且關(guān)系抽取效果受遠(yuǎn)程監(jiān)督數(shù)據(jù)集噪聲的影響較小,能進(jìn)一步識(shí)別一些數(shù)據(jù)集沒有標(biāo)注出的人物關(guān)系。

2 相關(guān)工作

人物關(guān)系抽取是關(guān)系抽取中的一個(gè)子任務(wù)。傳統(tǒng)的有監(jiān)督關(guān)系抽取方法存在缺少大量人工標(biāo)注好的數(shù)據(jù)集問題。因此,運(yùn)用遠(yuǎn)程監(jiān)督思想快速獲取大規(guī)模有標(biāo)注語料的方法成為了一個(gè)可行的思路。遠(yuǎn)程監(jiān)督的主要思想是根據(jù)知識(shí)庫(kù)中已有的實(shí)體對(duì)與對(duì)應(yīng)關(guān)系的三元組〈en1,rel,en2〉,假設(shè)在樸素文本中檢測(cè)到具有和知識(shí)庫(kù)中相同的2個(gè)實(shí)體en1和en2,就認(rèn)為這樣的句子具有知識(shí)庫(kù)中的關(guān)系,利用這一假設(shè)在大規(guī)模樸素文本中去自動(dòng)對(duì)齊實(shí)體對(duì),并給該句子中的實(shí)體對(duì)賦上對(duì)應(yīng)的關(guān)系標(biāo)簽。這樣的方法在構(gòu)建大規(guī)模的關(guān)系抽取語料時(shí)具有省時(shí)省力的優(yōu)點(diǎn),但這樣的假設(shè)太過理想化,許多具有同一實(shí)體對(duì)的句子可能并沒有體現(xiàn)知識(shí)庫(kù)中對(duì)應(yīng)的關(guān)系,甚至并不存在任何關(guān)系,因此,這種方法在構(gòu)建數(shù)據(jù)集的過程中會(huì)引入大量的標(biāo)簽噪聲問題。例如,在表1中,例句1人物實(shí)體葉莉是姚明的“妻子”,而例句2則不能反映任何人物關(guān)系(用NA表示)。

Table 1 Example of label noise表1 標(biāo)簽噪聲例子

針對(duì)遠(yuǎn)程監(jiān)督數(shù)據(jù)集假設(shè)過強(qiáng)導(dǎo)致的標(biāo)簽噪聲問題,Surdeanu等人[7]通過多示例學(xué)習(xí)的思想緩解噪聲問題。多示例學(xué)習(xí)的主要思想是數(shù)據(jù)集由多個(gè)包(bag)組成,每個(gè)bag由一個(gè)或多個(gè)示例(instances)所構(gòu)成。特別地,bag中單個(gè)的instance沒有標(biāo)簽,而bag作為多個(gè)instances的集合具有標(biāo)簽。當(dāng)一個(gè)bag中存在至少一個(gè)或多個(gè)正標(biāo)記的instances時(shí),就認(rèn)為該bag具有正標(biāo)簽;相反,當(dāng)一個(gè)bag中所存在的所有instances都為負(fù)示例樣本時(shí),該bag被賦予負(fù)標(biāo)簽。多示例學(xué)習(xí)在訓(xùn)練過程中通過學(xué)習(xí)一個(gè)bag中的正示例特征并削弱負(fù)示例特征的影響,能從一定程度上緩解遠(yuǎn)程監(jiān)督噪聲數(shù)據(jù)帶來的影響。

利用神經(jīng)網(wǎng)絡(luò)的方法處理遠(yuǎn)程監(jiān)督數(shù)據(jù)集噪聲問題成為了一大熱點(diǎn)。Zeng等人[8]在多示例學(xué)習(xí)的基礎(chǔ)上提出了PCNN(Piecewise Convolutional Neural Networks)神經(jīng)網(wǎng)絡(luò),將詞向量與位置向量相結(jié)合,在句子特征向量卷積后根據(jù)實(shí)體位置分為3段池化進(jìn)行特征抽取,提高了神經(jīng)網(wǎng)絡(luò)關(guān)系抽取的性能。Lin等人[9]在文獻(xiàn)[8]的基礎(chǔ)上增加了attention機(jī)制,依據(jù)計(jì)算得到的標(biāo)簽向量和句子向量間的注意力權(quán)重得分給bag中的各個(gè)句子賦予不同的權(quán)重,抑制了噪聲示例的影響。Feng等人[10]提出利用強(qiáng)化學(xué)習(xí)方法在句子級(jí)上提取關(guān)系,提高了模型對(duì)噪聲的忍受能力。Shen等人[11]利用基于BERT (Bidirectional Encoder Representation from Transformers) 模型的分類器和對(duì)bag數(shù)據(jù)集進(jìn)行語料重構(gòu)的方法去噪,取得了不錯(cuò)的效果。

雖然神經(jīng)網(wǎng)絡(luò)運(yùn)用在遠(yuǎn)程監(jiān)督數(shù)據(jù)集上取得了不錯(cuò)的效果,但面對(duì)標(biāo)簽噪聲問題,現(xiàn)有的方法只是在模型對(duì)特征的提取能力和噪聲緩解能力上做出了一定的改進(jìn),并且受模型訓(xùn)練時(shí)長(zhǎng)和計(jì)算資源的影響,神經(jīng)網(wǎng)絡(luò)方法的推廣與運(yùn)用具有較高門檻和限制。此外,中文文本句式結(jié)構(gòu)復(fù)雜,因此運(yùn)用傳統(tǒng)機(jī)器學(xué)習(xí)方法或基于規(guī)則的方法進(jìn)行遠(yuǎn)程監(jiān)督中文人物關(guān)系抽取任務(wù)也成為了一種可行的思路。

Figure 1 Chinese distant supervised personal relationship extraction method 圖1 中文遠(yuǎn)程監(jiān)督人物關(guān)系抽取方法

劉丹丹等人[12]將同義詞詞林運(yùn)用到中文關(guān)系抽取任務(wù)上,利用中文語義信息提高關(guān)系抽取性能?!锻x詞詞林》最早是由梅家駒等人[13]編纂的,編寫此書的目的是希望找到一些可以表示同種意思或語境的詞語,為翻譯或者創(chuàng)作工作提供幫助。中文表達(dá)關(guān)系的詞語種類繁多,僅憑人力很難在短時(shí)間內(nèi)將各種關(guān)鍵性詞語歸納完全。對(duì)于人物關(guān)系抽取,借用同義詞詞林可以較為方便快捷地得到代表各種人物關(guān)系的人物關(guān)系觸發(fā)詞,覆蓋面廣,準(zhǔn)確率高。潘云等人[14]首次利用中文在線資源人物關(guān)系知識(shí)庫(kù)構(gòu)建中文人物關(guān)系抽取系統(tǒng),結(jié)合標(biāo)簽傳播算法進(jìn)行遠(yuǎn)程監(jiān)督人物關(guān)系抽取。黃蓓靜等人[15]提出了一種利用句子模式聚類及模式評(píng)分對(duì)遠(yuǎn)程監(jiān)督訓(xùn)練集進(jìn)行去噪的方法,提升了遠(yuǎn)程監(jiān)督關(guān)系抽取準(zhǔn)確率。黃楊琛等人[16]提出了一種可以對(duì)遠(yuǎn)程監(jiān)督自動(dòng)生成的訓(xùn)練數(shù)據(jù)去噪的人物實(shí)體關(guān)系抽取模型,融合詞法特征和句法特征并根據(jù)關(guān)系指示詞的過濾算法提高了遠(yuǎn)程監(jiān)督關(guān)系抽取的準(zhǔn)確率。以上基于機(jī)器學(xué)習(xí)或基于規(guī)則的方法從不同角度提升了人物關(guān)系抽取模型的性能,雖然借用了知識(shí)庫(kù)等外部知識(shí)提升性能,但是沒有處理標(biāo)簽噪聲問題,有些還需要繁瑣的算法來緩解噪聲問題。本文結(jié)合多示例學(xué)習(xí)思想和同義詞詞林,僅根據(jù)中文數(shù)據(jù)集本身固有信息和同義詞詞林等少量外部知識(shí),融合中文人物關(guān)系特有的句式在多示例學(xué)習(xí)思想下對(duì)遠(yuǎn)程監(jiān)督人物關(guān)系數(shù)據(jù)集進(jìn)行人物關(guān)系分類。實(shí)驗(yàn)結(jié)果表明,本文方法受噪聲干擾小,效果良好。

3 基于同義詞詞林和規(guī)則的中文遠(yuǎn)程監(jiān)督人物關(guān)系抽取方法

3.1 人物關(guān)系抽取方法思想

本文方法利用同義詞詞林和固定句式搭配規(guī)則在多示例學(xué)習(xí)思想下完成對(duì)遠(yuǎn)程監(jiān)督人物關(guān)系數(shù)據(jù)的關(guān)系抽取,主要思想如圖1所示。具體可分為人物關(guān)系觸發(fā)詞擴(kuò)展、根據(jù)人物關(guān)系觸發(fā)詞詞頻確定主要候選關(guān)系和次要候選關(guān)系、人物關(guān)系判別規(guī)則構(gòu)建和多關(guān)系預(yù)測(cè)4個(gè)步驟,具體如下所示:

步驟1人物關(guān)系觸發(fā)詞擴(kuò)展。人物關(guān)系觸發(fā)詞對(duì)基于規(guī)則的人物關(guān)系抽取具有重要作用。因此,本文方法首要步驟便是擴(kuò)展人物關(guān)系觸發(fā)詞。首先得到根據(jù)多示例學(xué)習(xí)思想劃分好bag的遠(yuǎn)程監(jiān)督人物關(guān)系語料集,利用訓(xùn)練集中的正示例,選取人物關(guān)系觸發(fā)詞(能表達(dá)某種人物關(guān)系的詞,多為名詞或動(dòng)詞,例如父親、母親、嫁、娶等)來擴(kuò)展同義詞詞林中對(duì)應(yīng)類別的同義詞詞簇。

步驟2候選關(guān)系確定。根據(jù)步驟1擴(kuò)展后的人物關(guān)系觸發(fā)詞來協(xié)助確定bag的候選關(guān)系。統(tǒng)計(jì)語料集中每個(gè)bag擴(kuò)展后的人物關(guān)系觸發(fā)詞數(shù)量,進(jìn)行人物關(guān)系觸發(fā)詞詞頻統(tǒng)計(jì),選取觸發(fā)詞詞頻高的前2個(gè)詞來確定最大詞頻關(guān)系候選和次大詞頻關(guān)系候選。

步驟3人物關(guān)系判別規(guī)則構(gòu)建。得到bag的候選關(guān)系后,根據(jù)多示例學(xué)習(xí)思想對(duì)bag中的每個(gè)句子示例依次進(jìn)行主要關(guān)系候選判斷和次要關(guān)系候選判斷:若一個(gè)bag中有1個(gè)以上的句子滿足關(guān)系判定條件,則給該bag賦予對(duì)應(yīng)關(guān)系正標(biāo)簽,若沒有一個(gè)句子滿足關(guān)系判定條件,給該bag賦予NA,即負(fù)標(biāo)簽。關(guān)系判定條件具體方法包含實(shí)體人物性別判斷、重復(fù)人物實(shí)體處理和固定句式搭配等,若滿足判斷條件,則確定bag人物關(guān)系為主要關(guān)系候選或次要關(guān)系候選中的一種,否則判斷bag人物關(guān)系為NA,即沒有關(guān)系。

步驟4多關(guān)系預(yù)測(cè)。由于bag存在多標(biāo)簽的情況,因此在步驟3得到對(duì)應(yīng)bag的某種關(guān)系預(yù)測(cè)結(jié)果后,還需要進(jìn)行多關(guān)系預(yù)測(cè),最后得到關(guān)系預(yù)測(cè)結(jié)果。

3.2 人物關(guān)系抽取方法實(shí)現(xiàn)

3.2.1 人物關(guān)系觸發(fā)詞擴(kuò)展

人物關(guān)系觸發(fā)詞對(duì)基于規(guī)則的人物關(guān)系抽取具有重要意義。本文將用于判斷人物關(guān)系的一些重要詞匯定義為人物關(guān)系觸發(fā)詞。這樣的詞匯在中文表達(dá)中有多個(gè)類似的詞,例如,表達(dá)戀人關(guān)系的“戀愛”一詞,就有“相戀”“交往”“戀情”等多個(gè)詞與之類似。因此,本文將可以表達(dá)某種人物關(guān)系的同類觸發(fā)詞歸在一個(gè)簇下,形成表達(dá)某種候選人物關(guān)系的觸發(fā)詞集?!锻x詞詞林》原本已包含了一定數(shù)量的人物關(guān)系觸發(fā)詞的同義詞。但是,由于《同義詞詞林》提供的和人物關(guān)系相關(guān)的同義詞不能完全涵蓋遠(yuǎn)程監(jiān)督語料中表達(dá)人物關(guān)系的觸發(fā)詞,為了盡可能完善人物關(guān)系觸發(fā)詞的覆蓋范圍,以提升人物關(guān)系抽取模型的性能,本文利用word2vec預(yù)訓(xùn)練的詞向量模型,通過計(jì)算《同義詞詞林》中關(guān)系觸發(fā)詞詞向量與訓(xùn)練集中所有詞語詞向量的余弦距離,選取余弦距離小于0.5、與關(guān)系觸發(fā)詞相關(guān)性較大的詞語,用于擴(kuò)展《同義詞詞林》中對(duì)應(yīng)簇下的同義詞。余弦距離計(jì)算公式如式(1)所示:

cos_dis=1-cosθ=

(1)

其中,N代表詞向量維度,xi、yi分別代表2個(gè)詞向量第i維的值。

3.2.2 人物關(guān)系判別規(guī)則構(gòu)建

(1)構(gòu)建固定句式搭配。

根據(jù)擴(kuò)展的人物關(guān)系觸發(fā)詞和中文固定的句式搭配可以較快確定大部分人物實(shí)體之間的關(guān)系。人物關(guān)系觸發(fā)詞一般以名詞或動(dòng)詞居多,并且常常與人物實(shí)體中的1個(gè)或2個(gè)在相對(duì)位置上靠得很近。本文根據(jù)人物關(guān)系觸發(fā)詞與實(shí)體對(duì)的相對(duì)位置確定人物關(guān)系,因此構(gòu)建能判斷各種人物關(guān)系的搭配句式尤為重要。本文構(gòu)建的固定句式如表2所示。

Table 2 Fixed sentence patterns表2 固定句式搭配

表2中,en1代表人物實(shí)體1,en2代表人物實(shí)體2,“+”代表句子中實(shí)體與觸發(fā)詞之間的相對(duì)位置距離。根據(jù)表2給出的固定句式即可簡(jiǎn)單確定句子中人物實(shí)體對(duì)關(guān)系,圖2所示為根據(jù)固定句式搭配判斷人物關(guān)系的例子。

Figure 2 Judging relationship by fixed sentence patterns圖2 固定句式搭配判斷關(guān)系

如圖2所示,人物實(shí)體en1和人物實(shí)體en2已經(jīng)給出,en1“姚明”在句子中的位置下標(biāo)是4,人物關(guān)系觸發(fā)詞“妻子”位置下標(biāo)是6,en2“葉莉”位置下標(biāo)是11,滿足編號(hào)3“en1(+1/+2)觸發(fā)詞en2”的句式搭配。故根據(jù)人物關(guān)系觸發(fā)詞“妻子”和固定句式搭配可以得到實(shí)體對(duì)-關(guān)系三元組〈en1,現(xiàn)妻,en2〉。值得注意的是,在同一固定句式搭配中,實(shí)體1和實(shí)體2的順序發(fā)生變化,相應(yīng)的關(guān)系預(yù)測(cè)結(jié)果也會(huì)不同。對(duì)于圖2中的句子,如果實(shí)體1變成了“葉莉”,實(shí)體2變成了“姚明”,則預(yù)測(cè)的結(jié)果就成了〈en1,現(xiàn)夫,en1〉。此外,當(dāng)一個(gè)句子中出現(xiàn)多個(gè)有關(guān)聯(lián)的人物關(guān)系觸發(fā)詞時(shí),則需要關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式判斷人物關(guān)系。關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式如表3所示。

Table 3 Trigger word sentence patterns of related personal relation表3 關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式

由于篇幅有限,表3僅展示了部分關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式。當(dāng)有多個(gè)關(guān)聯(lián)的人物關(guān)系觸發(fā)詞出現(xiàn)在一個(gè)句子中時(shí),如果僅根據(jù)其中一個(gè)觸發(fā)詞判斷人物實(shí)體間的關(guān)系,忽視另外一個(gè)人物關(guān)系觸發(fā)詞,則大概率會(huì)出錯(cuò)。例如,對(duì)于滿足句式“祖父(+1/+2)en1+父親(+1/+2)en2”的句子,句子中en1和en2的關(guān)系為“兒子”。如果在判斷句式的時(shí)候忽略“祖父”,則句式為“en1+父親(+1/+2)en2”,判斷en1和en2之間關(guān)系為“父親”,顯然這個(gè)判斷是錯(cuò)誤的。因此,對(duì)于一個(gè)句子含有多個(gè)關(guān)聯(lián)人物關(guān)系觸發(fā)詞的情況需要根據(jù)表3的關(guān)聯(lián)人物關(guān)系觸發(fā)詞句式進(jìn)行人物關(guān)系判斷。此外,除了以上句式外,還需要進(jìn)行一些其他處理,以進(jìn)一步提升遠(yuǎn)程監(jiān)督人物關(guān)系抽取的準(zhǔn)確性和可擴(kuò)展性。

(2)重復(fù)人物實(shí)體處理。

根據(jù)人物關(guān)系觸發(fā)詞和固定句式搭配能正確識(shí)別出一部分語料所包含的人物關(guān)系,但通過對(duì)語料進(jìn)行重復(fù)人物實(shí)體處理能進(jìn)一步提升人物關(guān)系抽取的效率與準(zhǔn)確性。遠(yuǎn)程監(jiān)督產(chǎn)生的數(shù)據(jù)集是由知識(shí)庫(kù)自動(dòng)對(duì)齊互聯(lián)網(wǎng)文本產(chǎn)生的,可能會(huì)出現(xiàn)一句話中存在多個(gè)重復(fù)人物名的情況。例如“張充和人物經(jīng)歷:張充和的曾祖是晚清名臣張樹聲,曾任兩廣總督?!敝?,人物實(shí)體名“張充和”在句子中出現(xiàn)了2次。本文發(fā)現(xiàn)保留距離觸發(fā)詞“曾祖”更近的實(shí)體有助于確定對(duì)人物關(guān)系抽取有幫助的區(qū)域,使得分類效果更好。因此,針對(duì)重復(fù)人物實(shí)體的情況,本文選取離觸發(fā)詞較近的實(shí)體確定位置下標(biāo)進(jìn)行關(guān)系抽取。

(3)實(shí)體人物性別判斷。

根據(jù)觸發(fā)詞和固定句式搭配識(shí)別人物關(guān)系可能會(huì)出現(xiàn)不知道人物性別,從而無法準(zhǔn)確判斷實(shí)體人物關(guān)系的情況。因此,實(shí)體人物性別的判斷在一些不能直接依據(jù)觸發(fā)詞和固定句式搭配確定人物關(guān)系的情況下顯得尤為重要。本文根據(jù)人物性別關(guān)鍵詞與人物實(shí)體的相對(duì)位置確定人物性別,表4所示為本文中使用的一部分人物性別關(guān)鍵詞同義詞簇。利用同義詞詞林中這些能表達(dá)人物性別的詞簇,結(jié)合句式搭配判斷句子中人物實(shí)體性別,在一些特殊情況下能準(zhǔn)確地判斷人物關(guān)系。表4和表5所示為人物性別判斷詞簇和人物性別判斷句式。

Table 4 Personal gender cluster表4 人物性別詞簇

Table 5 Sentence patterns of judging personal gender表5 人物性別判斷句式

如表5所示,判斷人物性別需要關(guān)鍵詞的性別屬性和人物實(shí)體與關(guān)鍵詞的位置關(guān)系。當(dāng)句子具有人物關(guān)系觸發(fā)詞并滿足一定句式,但不確定人物實(shí)體性別無法進(jìn)一步判斷人物實(shí)體間的關(guān)系時(shí),就需要借助實(shí)體人物性別判斷去正確地識(shí)別人物關(guān)系。圖3所示為根據(jù)實(shí)體人物性別判斷和句式搭配判斷人物關(guān)系的例子。

Figure 3 Judging relationship by the gender of personal entity圖3 實(shí)體人物性別判斷關(guān)系

如圖3所示,已知en1“馬志明”,en2“馬三立”,根據(jù)人物關(guān)系觸發(fā)詞“長(zhǎng)子”結(jié)合句式搭配“en1en2(+2)觸發(fā)詞”可以判斷en2“馬三立”的兒子是en1“馬志明”,但在沒有外部知識(shí),即不知道人物實(shí)體性別的情況下,無法判斷en1“馬志明”和en2“馬三立”的確切人物關(guān)系,因?yàn)閮H憑“en1en2(+1/+2)兒子”無法判斷en2“馬三立”是父親還是母親。但是,運(yùn)用人物性別判斷句式,由表5可根據(jù)“先生”一詞得到en2“馬三立”的身份是男性,因此得到實(shí)體對(duì)-關(guān)系三元組〈en1,父親,en2〉。

3.2.3 多關(guān)系預(yù)測(cè)

前面幾節(jié)的方法主要針對(duì)單關(guān)系預(yù)測(cè),而多示例學(xué)習(xí)存在“多樣本多標(biāo)簽”的情況,即對(duì)含有多個(gè)句子示例的bag來說,一個(gè)bag可能具有多個(gè)人物關(guān)系標(biāo)簽。因此,本節(jié)主要討論如何對(duì)bag進(jìn)行多關(guān)系預(yù)測(cè)。本文所使用的遠(yuǎn)程監(jiān)督數(shù)據(jù)集具體分為3大類:親屬關(guān)系、社交關(guān)系和師生關(guān)系,具體又分為35類關(guān)系(包含NA)。除了親屬關(guān)系中前夫/妻、現(xiàn)夫/妻、未婚夫/妻存在多關(guān)系的情況,同一大類中不可能出現(xiàn)多關(guān)系標(biāo)簽。因?yàn)橐粋€(gè)bag中的多個(gè)句子可能存在一對(duì)人物實(shí)體的關(guān)系是未婚夫/妻、現(xiàn)夫/妻、前夫/妻的情況,但他們的關(guān)系不可能是父親、爺爺并存,這樣的關(guān)系是有悖常理的。因此,多關(guān)系預(yù)測(cè)的一般是親屬、社交或師生關(guān)系交叉存在的情況。本文采用的多關(guān)系預(yù)測(cè)方法是首先在主要關(guān)系候選或次要關(guān)系候選中預(yù)測(cè)出bag中存在的某一大類關(guān)系,接著再判斷bag中是否還存在其他大類關(guān)系,最后得到盡可能詳盡的關(guān)系預(yù)測(cè)結(jié)果。圖4所示為人物關(guān)系預(yù)測(cè)流程,其中包含多關(guān)系預(yù)測(cè)。

如圖4所示,句子①~句子⑤是一個(gè)bag中包含同一實(shí)體對(duì)“周森鋒”和“霍焰”的句子示例。根據(jù)人物關(guān)系觸發(fā)詞對(duì)這些句子進(jìn)行詞頻統(tǒng)計(jì),得到最大詞頻關(guān)系候選和次大詞頻關(guān)系候選;接著根據(jù)人物關(guān)系判別規(guī)則對(duì)候選關(guān)系進(jìn)行人物關(guān)系判別,預(yù)測(cè)出其中一個(gè)關(guān)系為“妻子”;隨后進(jìn)行多關(guān)系預(yù)測(cè),根據(jù)之前的“妻子”關(guān)系結(jié)合句子③中的“戀情”一詞可判斷實(shí)體對(duì)可能存在“戀人”關(guān)系,而“妻子”和“戀人”分屬于3大關(guān)系中的親屬關(guān)系和社交關(guān)系,故做出“戀人”關(guān)系預(yù)測(cè)。綜上,最終對(duì)實(shí)體對(duì)“周森鋒”和“霍焰”的關(guān)系預(yù)測(cè)為“妻子”和“戀人”。

Figure 4 Process of personal relationship prediction圖4 人物關(guān)系預(yù)測(cè)流程

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)集

實(shí)驗(yàn)采用的是CCKS 2019 eval Task3提供的人物關(guān)系遠(yuǎn)程監(jiān)督數(shù)據(jù)集IPRE[6]。該數(shù)據(jù)集是通過爬取中文百度百科網(wǎng)頁資源中的人物關(guān)系三元組,利用遠(yuǎn)程監(jiān)督的方法構(gòu)建而成。IPRE有35類人物關(guān)系,其中NA表示沒有關(guān)系,為關(guān)系負(fù)例,其余34類關(guān)系為關(guān)系正例。IPRE總共有超過410 000個(gè)句子,其中大約有9 000個(gè)句子的標(biāo)簽是人工標(biāo)注的。數(shù)據(jù)集分為訓(xùn)練集(70%)、驗(yàn)證集(10%)和測(cè)試集(20%),僅驗(yàn)證集和測(cè)試集的正例標(biāo)簽是人工標(biāo)注,其余標(biāo)簽均為遠(yuǎn)程監(jiān)督生成。

4.2 評(píng)價(jià)指標(biāo)

采用對(duì)預(yù)測(cè)結(jié)果計(jì)算F1值進(jìn)行實(shí)驗(yàn)評(píng)價(jià),由于遠(yuǎn)程監(jiān)督包含大量的負(fù)樣本,因此僅計(jì)算正例預(yù)測(cè)結(jié)果的F1值。具體計(jì)算如式(2)~式(4)所示:

(2)

(3)

(4)

其中,Nr表示正例關(guān)系預(yù)測(cè)正確的bag的數(shù)目,Nsys表示預(yù)測(cè)結(jié)果中正例關(guān)系bag的數(shù)目,Nstd表示驗(yàn)證集中給出的正例關(guān)系bag的數(shù)目。

4.3 實(shí)驗(yàn)結(jié)果與分析

運(yùn)用本文方法對(duì)IPRE數(shù)據(jù)測(cè)試集進(jìn)行人物關(guān)系分類。將本文方法(同義詞詞林+固定句式搭配)與作為baseline的CNN+ATT(Convolutional Neural Networks+ATTention)[9],PCNN+ATT(Piecewise Convolutional Neural Networks+ATTention)[9]以及Shen等人[11]提出的Bert with Reconstructing在bag任務(wù)上的分類結(jié)果進(jìn)行對(duì)比分析,人物關(guān)系分類結(jié)果如表6所示。

Table 6 Comparison of classification results of each method表6 各方法的分類結(jié)果對(duì)比

從表6可以看出,本文方法的F1值對(duì)比CNN+ATT和PCNN+ATT等方法有了較為明顯的提升,但與Bert with Reconstructing相比仍有一定的差距。對(duì)于IPRE數(shù)據(jù)集中存在大量的標(biāo)簽噪聲、正負(fù)樣本失衡并且語料質(zhì)量良莠不齊等問題,CNN+ATT和PCNN+ATT雖然利用神經(jīng)網(wǎng)絡(luò)自動(dòng)提取文本中的特征,利用分段卷積池化試圖提取更細(xì)節(jié)的句法和語法信息,甚至利用注意力機(jī)制盡可能消除bag中無關(guān)示例的影響,但對(duì)噪聲的緩解能力始終有限。Bert with Reconstructing利用BERT模型進(jìn)行特征抽取和分類,并對(duì)語料中的句子進(jìn)行重構(gòu),去噪效果較好,但是,基于BERT的神經(jīng)網(wǎng)絡(luò)模型包含大量參數(shù)訓(xùn)練并且需要消耗大量的GPU計(jì)算資源。本文提出的基于同義詞詞林和規(guī)則的方法僅根據(jù)正例標(biāo)簽示例擴(kuò)展人物關(guān)系觸發(fā)詞,采用規(guī)則的方法不需要進(jìn)行模型的訓(xùn)練,所以基本不受標(biāo)簽噪聲和正負(fù)樣本失衡的影響;同時(shí)提出的的重復(fù)人物實(shí)體和實(shí)體人物性別判斷等處理方式都從一定程度上緩解了語料質(zhì)量問題。綜上所述,本文方法相比CNN+ATT和PCNN+ATT對(duì)噪聲的容忍度更強(qiáng)。在F1值上本文方法相比Bert with Reconstructing仍有一定差距,但在整個(gè)關(guān)系抽取過程中本文方法所耗的時(shí)間與計(jì)算資源要低很多。

在前面的實(shí)驗(yàn)基礎(chǔ)之上,還進(jìn)行了正樣本預(yù)測(cè)數(shù)量的實(shí)驗(yàn),得到的結(jié)果如表7所示。通過對(duì)表7的分析,將本文方法的關(guān)系預(yù)測(cè)結(jié)果與數(shù)據(jù)集給定的標(biāo)簽進(jìn)行了人工校驗(yàn)比對(duì),得到了部分假陰性示例,如表8所示。

Table 7 Prediction result of positive samples表7 正樣本預(yù)測(cè)結(jié)果

Table 8 Part of false negative instances表8 部分假陰性示例

表7所示為本文方法對(duì)正樣本預(yù)測(cè)的結(jié)果數(shù)量。從預(yù)測(cè)的結(jié)果可以看出,本文方法預(yù)測(cè)的正樣本數(shù)量遠(yuǎn)大于驗(yàn)證集所標(biāo)注的正樣本數(shù)量。通過對(duì)預(yù)測(cè)結(jié)果為正樣本而測(cè)試集標(biāo)簽為負(fù)樣本的數(shù)據(jù)進(jìn)行人工校驗(yàn)發(fā)現(xiàn),測(cè)試集中的一部分?jǐn)?shù)據(jù)為假陰性樣本。由于篇幅有限,表8僅展示了部分對(duì)預(yù)測(cè)結(jié)果為非NA而測(cè)試集關(guān)系標(biāo)簽為NA的句子進(jìn)行人工校驗(yàn)得到的假陰性示例句子。這一部分假陰性數(shù)據(jù)說明本文方法具有識(shí)別假陰性樣本人物關(guān)系的能力,受噪聲的干擾較小。

5 結(jié)束語

本文針對(duì)遠(yuǎn)程監(jiān)督人物關(guān)系抽取數(shù)據(jù)集IPRE中存在的標(biāo)簽噪聲問題,提出了一種基于同義詞詞林和規(guī)則的遠(yuǎn)程監(jiān)督人物關(guān)系抽取方法。該方法首先根據(jù)訓(xùn)練集中正樣本示例擴(kuò)展同義詞詞林中的人物關(guān)系觸發(fā)詞詞簇;隨后對(duì)每一個(gè)bag統(tǒng)計(jì)人物關(guān)系觸發(fā)詞詞頻確定候選人物關(guān)系,根據(jù)固定句式搭配規(guī)則和重復(fù)人物實(shí)體處理、實(shí)體人物性別判斷等處理方法在多示例學(xué)習(xí)思想下確定人物關(guān)系類別;最后根據(jù)各個(gè)大類間關(guān)系并存的可能性進(jìn)行多關(guān)系的預(yù)測(cè)判斷。雖然本文提出的固定句式搭配規(guī)則能識(shí)別出一定數(shù)量的人物關(guān)系,但因?yàn)橹形谋磉_(dá)方式的豐富多樣,所以存在一部分滿足句式搭配但實(shí)際人物關(guān)系并不和本文方法預(yù)測(cè)的結(jié)果一致的情況,下一步將引入更加完善、嚴(yán)謹(jǐn)?shù)囊?guī)則進(jìn)行改進(jìn)。

猜你喜歡
示例句式實(shí)體
大還是小
2019年高考上海卷作文示例
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
常見單位符號(hào)大小寫混淆示例
山東冶金(2019年5期)2019-11-16 09:09:22
“全等三角形”錯(cuò)解示例
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
基本句式走秀場(chǎng)
例析wh-ever句式中的常見考點(diǎn)
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
施甸县| 楚雄市| 安庆市| 长乐市| 武乡县| 阿瓦提县| 乌拉特前旗| 桐城市| 景洪市| 青冈县| 永寿县| 淮南市| 枣阳市| 淳化县| 唐山市| 扎鲁特旗| 招远市| 潜江市| 监利县| 崇州市| 永顺县| 南阳市| 当涂县| 高雄市| 道孚县| 汶川县| 开封县| 庆安县| 马公市| 平果县| 上林县| 武义县| 北海市| 都安| 建始县| 贺兰县| 衡山县| 韩城市| 泸定县| 南充市| 犍为县|