面向政府公文的關(guān)系抽取方法研究

2022-01-09 05:19崔從敏施運(yùn)梅李云漢李源華周楚圍

計算機(jī)技術(shù)與發(fā)展 2021年12期

崔從敏，施運(yùn)梅，袁博，李云漢，李源華，周楚圍

(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室，北京 100101；2.北京信息科技大學(xué)，北京 100101)

0 引言

隨著政務(wù)大數(shù)據(jù)化的快速發(fā)展，公文文本數(shù)據(jù)存在量大、增速快、類型多、處理復(fù)雜的特點(diǎn)，但是目前處理數(shù)據(jù)主要依賴于傳統(tǒng)的人工方式，效率低、準(zhǔn)確率低，具有時延性，為政府辦公帶來許多挑戰(zhàn)，消耗了巨大的人力財力，所以如何準(zhǔn)確挖掘出其中的關(guān)鍵信息愈加重要。

現(xiàn)階段在政府公文領(lǐng)域中應(yīng)用NLP技術(shù)，可以將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化為結(jié)構(gòu)化的信息，從而挖掘出文本中潛藏的有價值的內(nèi)容，減輕人工壓力。NLP的一個重要的子任務(wù)就是實(shí)體關(guān)系抽取，將非結(jié)構(gòu)的文本語句轉(zhuǎn)換為知識三元組，用簡單的數(shù)據(jù)結(jié)構(gòu)解釋文本中的實(shí)體關(guān)系。基于監(jiān)督學(xué)習(xí)的方法雖然可以通過訓(xùn)練數(shù)據(jù)抽取特征，但過程中要達(dá)到期望的準(zhǔn)確率和召回率需要大量的人工標(biāo)注數(shù)據(jù)來輔助訓(xùn)練。在現(xiàn)如今數(shù)據(jù)量大、類型多的大背景下，基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法因其省去了大量的人工標(biāo)注加上其能夠在不同領(lǐng)域適用的特性，已成為目前研究熱點(diǎn)。

近年來，深度學(xué)習(xí)方法被廣泛應(yīng)用到實(shí)體關(guān)系抽取任務(wù)中，其通過對實(shí)體的位置信息進(jìn)行向量化表示，來提供神經(jīng)網(wǎng)絡(luò)自動提取的文本特征，繼而預(yù)測實(shí)體中的關(guān)系類型?；赗NN、CNN、LSTM的方法為其中三種代表方法，但這些神經(jīng)網(wǎng)絡(luò)模型通常在關(guān)系分類中沒有充分考慮標(biāo)記實(shí)體及其位置信息，而實(shí)際上實(shí)體的位置信息在關(guān)系分類中起到非常重要的作用。此外，CNN還需要大量的人工標(biāo)注語料庫進(jìn)行訓(xùn)練才能達(dá)到良好的分類效果。因此，有研究將膠囊網(wǎng)絡(luò)應(yīng)用于實(shí)體關(guān)系抽取，其不需要大量標(biāo)注的數(shù)據(jù)集就可以取得不錯的效果。同時隨著對自注意力機(jī)制的深入研究，有研究將Transformer架構(gòu)應(yīng)用在關(guān)系抽取任務(wù)上，以及利用語言模型BERT進(jìn)行關(guān)系抽取的工作，都取得了良好效果。

針對預(yù)訓(xùn)練語言模型的研究近年來發(fā)展迅猛[1-3]，預(yù)訓(xùn)練語言模型能夠捕捉兩個目標(biāo)實(shí)體的信息，并且基于上下文信息捕捉文本的語義信息。在數(shù)據(jù)量足夠大的規(guī)模下，預(yù)訓(xùn)練能夠獲取文本的上下文的特征表示，應(yīng)用于下游任務(wù)中，無需大規(guī)模的訓(xùn)練數(shù)據(jù)就能取得更好的效果。

由于中文與英文存在語言特性差異，且目前公文領(lǐng)域標(biāo)注數(shù)據(jù)集少，所以現(xiàn)有的方法不能很好地解決政府公文領(lǐng)域中的關(guān)系抽取問題。因此，該文提出基于ALBERT預(yù)訓(xùn)練語言模型和膠囊網(wǎng)絡(luò)相結(jié)合的遠(yuǎn)程監(jiān)督關(guān)系抽取方法(Albert_Capnet)。針對政府公文領(lǐng)域中的人事任免信息，通過基于遠(yuǎn)程監(jiān)督的關(guān)系抽取技術(shù)，抽取人名和職務(wù)之間的關(guān)系。首先使用ALBERT預(yù)訓(xùn)練模型對文本進(jìn)行特征表示，獲取文本深層語義信息；然后將其特征向量輸入到膠囊網(wǎng)絡(luò)中傳輸?shù)蛯拥礁邔拥奶卣鳎孟蛄康拈L度對關(guān)系進(jìn)行分類，判斷所屬職務(wù)是上任還是卸任；最后使用訓(xùn)練完成的關(guān)系抽取模型對待抽取的文本語料進(jìn)行抽取。

主要貢獻(xiàn)在于：(1)提出一種基于ALBERT預(yù)訓(xùn)練語言模型和膠囊網(wǎng)絡(luò)相結(jié)合的關(guān)系抽取方法，適用于小樣本數(shù)據(jù)集，提高了關(guān)系抽取質(zhì)量；(2)將遠(yuǎn)程監(jiān)督關(guān)系抽取技術(shù)應(yīng)用到政府公文領(lǐng)域，構(gòu)建人名-職務(wù)知識庫，并按該方法實(shí)現(xiàn)人名職務(wù)關(guān)系的實(shí)例抽取的迭代擴(kuò)充，解決公文領(lǐng)域中標(biāo)記數(shù)據(jù)集少的問題，大大減輕人工標(biāo)注成本。

1 相關(guān)工作

關(guān)系抽取作為信息抽取的一項(xiàng)關(guān)鍵技術(shù)，在知識庫自動構(gòu)建、問答系統(tǒng)等領(lǐng)域有著極為重要的意義。現(xiàn)有的關(guān)系抽取方法可以分為4類，分別是有監(jiān)督關(guān)系抽取、半監(jiān)督關(guān)系抽取、遠(yuǎn)程監(jiān)督關(guān)系抽取和無監(jiān)督關(guān)系抽取[4]。

有監(jiān)督實(shí)體關(guān)系抽取將關(guān)系抽取任務(wù)視為分類任務(wù)，將標(biāo)記好的數(shù)據(jù)作為訓(xùn)練集輸入到分類模型中進(jìn)行訓(xùn)練，能得到較高的準(zhǔn)確率和召回率，但在構(gòu)造訓(xùn)練集的過程中會耗費(fèi)大量人工成本。為此，Mintz等人[5]提出基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法，首先構(gòu)建外部知識庫，將待標(biāo)注文本與外部知識庫進(jìn)行實(shí)體對齊，自動標(biāo)注關(guān)系，然后通過分類任務(wù)實(shí)現(xiàn)關(guān)系抽取，大大減少了人工標(biāo)注的成本。

現(xiàn)階段半監(jiān)督和無監(jiān)督的關(guān)系抽取技術(shù)還不發(fā)達(dá)，遠(yuǎn)程監(jiān)督關(guān)系抽取方法可以極大地減少人工標(biāo)注成本，并解決因缺乏標(biāo)記中文知識庫導(dǎo)致的問題，因而近年來受到了學(xué)者們的關(guān)注。

由于遠(yuǎn)程監(jiān)督的強(qiáng)假設(shè)，目前主要采取多示例學(xué)習(xí)[6-9]和注意力機(jī)制[10-14]來緩解數(shù)據(jù)噪聲問題。PCNN(Piece-Wise-CNN)模型[8]在池化層將兩個實(shí)體位置分為三段進(jìn)行池化，并且將具有相同實(shí)體對和關(guān)系標(biāo)注的所有句子看成一個包，將標(biāo)注的關(guān)系作為整個包的標(biāo)簽進(jìn)行訓(xùn)練，從而能夠更好地捕捉兩個實(shí)體間的結(jié)構(gòu)化信息。但是PCNN可能會舍棄多個正確標(biāo)注的句子，造成數(shù)據(jù)浪費(fèi)，從而導(dǎo)致提取到的特征可能是片面的，這種數(shù)據(jù)處理方式對小數(shù)據(jù)樣本并不友好。隨后清華大學(xué)劉知遠(yuǎn)團(tuán)隊(duì)提出了PCNN+ATT(Piece-Wise-CNN-ATTention)模型[10]，其在句子間特征提取上運(yùn)用了自注意力機(jī)制，為包內(nèi)每個句子賦予權(quán)重，可以更全面提取包的信息，是目前常用的中文遠(yuǎn)程監(jiān)督關(guān)系抽取模型。

1.1 預(yù)訓(xùn)練語言模型

在NLP任務(wù)中，隨著近年來算力的不斷提升，基于深度學(xué)習(xí)的訓(xùn)練方法成為業(yè)界的主流方法，但是大多依賴于大量標(biāo)注數(shù)據(jù)。預(yù)訓(xùn)練模型通過基于特征集成的方式和基于模型微調(diào)的方式將語言模型學(xué)習(xí)到的文本表示當(dāng)做下游任務(wù)的輸入特征進(jìn)行應(yīng)用，有效減輕了任務(wù)對于標(biāo)注數(shù)據(jù)的依賴。

預(yù)訓(xùn)練模型的發(fā)展分為淺層的詞嵌入到深層編碼兩個階段。在淺層詞嵌入階段，研究目標(biāo)主要聚焦在基于特征的方法上，并不注重上下文的語義關(guān)系，其代表方法為NNLM、word2vec等。深層編碼通過一個預(yù)訓(xùn)練編碼器輸出上下文相關(guān)的詞向量，解決一詞多義的問題，如Peter等人提出的ELMo模型及Devlin等人提出的BERT模型，使得模型能夠?qū)W習(xí)到句子與句子間的關(guān)系。

BERT的問世證明了預(yù)訓(xùn)練語言模型對下游的NLP任務(wù)有很大的提升，可以幫助提高關(guān)系抽取效果。Shi P等人[15]簡單地使用BERT預(yù)訓(xùn)練語言模型方式，將句子輸入到BERT模型中獲取文本的語義表征，再連接一個全連接層作分類，完成關(guān)系抽取任務(wù)，通過實(shí)驗(yàn)結(jié)果表明其取得了不錯的效果。Wu等人[16-17]將BERT模型應(yīng)用于關(guān)系抽取任務(wù)，使用BERT學(xué)習(xí)到實(shí)體的位置信息及語義特征，從而提高模型對實(shí)體的表征能力。Livio等人[18]也證明通過BERT提取實(shí)體的位置及句子的語義信息能夠提高關(guān)系抽取任務(wù)性能。

但是由于BERT模型過大，在參數(shù)和梯度的同步上消耗大量訓(xùn)練時間，因此，Lan等人[19]提出ALBERT模型，通過對嵌入層的參數(shù)進(jìn)行分解、層間參數(shù)共享來大幅減少預(yù)訓(xùn)練模型參數(shù)量，加快BERT的訓(xùn)練速度。此外ALBERT還提出用句子順序預(yù)測任務(wù)代替BERT中的預(yù)測下一個句子任務(wù)，使得模型能學(xué)習(xí)到更細(xì)粒度的關(guān)于段落級的一致性的區(qū)別，提高了下游任務(wù)中多句編碼任務(wù)的性能。

Google在閱讀理解、文本分類等13項(xiàng)NLP任務(wù)中進(jìn)行了大量對比實(shí)驗(yàn)，結(jié)果表明，有233 M參數(shù)量的ALBERT_xxlarge模型，全面優(yōu)于有1 270 M參數(shù)的BERT_xlarge模型。另外，ALBERT中的albert_tiny模型，其隱藏層僅有4層，模型參數(shù)量約為1.8 M，非常輕便。相對于BERT，ALBERT不僅提升了訓(xùn)練速度、推理預(yù)測速度約10倍，且基本保留了精度。

1.2 關(guān)系抽取與膠囊網(wǎng)絡(luò)

關(guān)系抽取任務(wù)可被定義為關(guān)系分類任務(wù)，傳統(tǒng)的機(jī)器學(xué)習(xí)算法如支持向量機(jī)(SVM)、邏輯回歸(Logistic Regression)、樸素貝葉斯(Naive Bayes)等，僅適用于小規(guī)模的數(shù)據(jù)訓(xùn)練，且隨著數(shù)據(jù)量增大，處理海量數(shù)據(jù)過程會費(fèi)時費(fèi)力。

近年來，將CNN或RNN與注意力機(jī)制結(jié)合的方法成為解決關(guān)系分類問題的最新方式，但是CNN或RNN難以提取不同卷積核所獲得的特征之間的關(guān)系。Sabour等人[20]提出基于動態(tài)路由算法的膠囊網(wǎng)絡(luò)模型，彌補(bǔ)了CNN的缺陷，并在MNIST數(shù)據(jù)集上驗(yàn)證了該模型在圖像分析領(lǐng)域具有很好的效果。

此后，膠囊網(wǎng)絡(luò)被引入到文本領(lǐng)域解決NLP問題，如文本分類[21]、情感分析[22-23]、機(jī)器翻譯[24]等任務(wù)。目前，在分類模型中，膠囊網(wǎng)絡(luò)通常被應(yīng)用到分類模型的最后一層，以取代最大池化層來完成分類任務(wù)。特別是趙等人2018年首次將膠囊網(wǎng)絡(luò)應(yīng)用在文本分類任務(wù)中，提出基于膠囊網(wǎng)絡(luò)的文本分類模型，其性能超過CNN和LSTM，從而證實(shí)了膠囊網(wǎng)絡(luò)能夠有效地提升分類任務(wù)的準(zhǔn)確性。Peng等人[25]將膠囊網(wǎng)絡(luò)應(yīng)用到中文實(shí)體關(guān)系分類中，提出結(jié)合自注意力機(jī)制和膠囊網(wǎng)絡(luò)的實(shí)體關(guān)系分類模型，該模型僅需要少量的訓(xùn)練語料，就能有效地捕捉詞位置信息。

中文關(guān)系抽取依賴于文本分類技術(shù)。膠囊網(wǎng)絡(luò)提供一種基于聚類的思想來代替池化層來完成特征的整合的方案，在分類任務(wù)中，能夠?qū)W習(xí)到文本局部和整體之間的關(guān)聯(lián)信息，克服CNN池化時信息丟失的局限性，從而更好地進(jìn)行分類、提取文本段落與全文之間關(guān)聯(lián)特征信息，最終達(dá)到提高關(guān)系抽取效果的目的。

2 Albert_Capnet關(guān)系抽取模型

對政府公文中領(lǐng)導(dǎo)人職務(wù)關(guān)系抽取的框架如圖1所示。通過遠(yuǎn)程監(jiān)督的思想，構(gòu)建關(guān)系示例公文集，將其劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集，輸入到Albert_Capnet關(guān)系抽取模型中進(jìn)行關(guān)系分類訓(xùn)練，最終得到關(guān)系抽取結(jié)果。從而實(shí)現(xiàn)將非結(jié)構(gòu)化的人事信息轉(zhuǎn)化為結(jié)構(gòu)化的三元組信息，描述政府公文領(lǐng)域的人名職務(wù)關(guān)系，并進(jìn)行存儲，具體步驟如下：

圖1 關(guān)系抽取框架

(1)構(gòu)建職務(wù)任免示例集。

職務(wù)任免示例集用于關(guān)系抽取模型的訓(xùn)練，由公文集中存在人事任免關(guān)系的句子和人名職務(wù)三元組共同構(gòu)成。公文集中存放的是來自于政府網(wǎng)站的人事任免信息，公文領(lǐng)域知識庫是通過對公文集進(jìn)行詞法和句法分析，得到的實(shí)體對集合V。實(shí)體對(E1,E2)∈V，其中E1為人名，E2為職務(wù)?；谶h(yuǎn)程監(jiān)督的思想，將公文領(lǐng)域知識庫中的實(shí)體對和公文集進(jìn)行實(shí)體對齊，為實(shí)體對匹配關(guān)系標(biāo)簽，得到人名職務(wù)三元組。

(2)關(guān)系抽取模型訓(xùn)練與測試。

將職務(wù)任免示例集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集，其中，訓(xùn)練數(shù)據(jù)集用于訓(xùn)練關(guān)系抽取模型，測試數(shù)據(jù)集用于評估模型的準(zhǔn)確率。

(3)職務(wù)關(guān)系抽取。

將待抽取公文輸入到Albert_Capnet關(guān)系抽取模型中，對職務(wù)任免關(guān)系進(jìn)行預(yù)測，得到關(guān)系抽取結(jié)果。

2.1 Albert_Capnet模型結(jié)構(gòu)

Albert_Capnet模型用于抽取公文中人名-職務(wù)關(guān)系，模型由四部分組成，分別為輸入層、ALBERT預(yù)訓(xùn)練語言模型層、膠囊網(wǎng)絡(luò)層和輸出層。模型具體結(jié)構(gòu)如圖2所示。

圖2 Albert_Capnet關(guān)系抽取模型

(1)輸入層。

輸入層中接收的數(shù)據(jù)是職務(wù)任免示例集X，輸入文本采用如式(1)所示的形式化方式表示，其中Xi表示職務(wù)任免示例集中的第i個詞。

X=(X1,X2,…,XN)

(1)

(2)ALBERT層。

該層對句子中的詞進(jìn)行編碼并提取深層語義特征。ALBERT是以單個漢字作為輸入的，輸出為向量形式E，如式(2)所示，其中Ei表示單個字的向量。

E=(E1,E2,…,EN)

(2)

經(jīng)過多層雙向的Transformer編碼器的訓(xùn)練，最終輸出文本的特征表示T，如式(3)所示，其中Ti表示文本中第i個詞的特征向量。

T=(T1,T2,…,TN)

(3)

(3)膠囊網(wǎng)絡(luò)層。

本層用于傳輸?shù)蛯拥礁邔拥奈谋咎卣?，?shí)現(xiàn)實(shí)體關(guān)系分類。該層的輸入是ALBERT的特征向量輸出。首先構(gòu)建出低級膠囊網(wǎng)絡(luò)層，經(jīng)由動態(tài)路由的方法將低層特征輸入到高層膠囊網(wǎng)絡(luò)層中，最終得到與分類結(jié)果相匹配的輸出膠囊。

(4)輸出層。

從膠囊網(wǎng)絡(luò)的輸出向量中選擇長度最大的類別，作為最終模型預(yù)測的關(guān)系分類類別。

2.2 ALBERT層

Albert-Capnet關(guān)系抽取模型使用ALBERT預(yù)訓(xùn)練語言模型進(jìn)行特征提取，采用詞嵌入和位置嵌入的方法，將數(shù)據(jù)之間的關(guān)聯(lián)性融入到數(shù)據(jù)中，使輸入詞學(xué)習(xí)到文本的語義信息和位置信息，解決特征提取中誤差傳播問題，從而達(dá)到提高關(guān)系抽取效能的目的。

ALBERT與BERT相同，使用Transformer的編碼器來提取輸入序列的特征信息，自注意力機(jī)制將模型上下層直接全部連接，使詞嵌入具有更豐富的語義信息。ALBERT模型結(jié)構(gòu)如圖3所示。其中Ei表示單個詞或字的向量輸入，Trm即Transformer，Ti表示最終隱藏層的輸出，通過編碼器中的注意力矩陣和注意力加權(quán)后，每個Ti都具有整句話上下文的語義信息。

圖3 ALBERT層的結(jié)構(gòu)

為了使ALBERT模型定位到兩個實(shí)體間的位置信息，在文本中插入實(shí)體定位字符。在每個輸入句子的開頭添加[CLS]字符，在頭實(shí)體前后添加[E11]和[E12]字符，尾實(shí)體前后添加[E21]和[E22]字符，對位置進(jìn)行標(biāo)記。將頭實(shí)體、尾實(shí)體用向量表示，作為實(shí)體特征。

自注意力機(jī)制公式如式(4)，其中Q、K、V分別代表輸入序列中每個詞的query、key和value向量，dk是K矩陣的維度。

(4)

將提取到的全局語義特征和實(shí)體特征進(jìn)行拼接融合，共同作為膠囊網(wǎng)絡(luò)層的輸入。

2.3 膠囊網(wǎng)絡(luò)層

膠囊網(wǎng)絡(luò)是基于聚類的思想，利用動態(tài)路由機(jī)制實(shí)現(xiàn)低層特征與高層特征的融合，提取豐富的文本信息和詞位置信息，在實(shí)體關(guān)系分類中起到重要作用。膠囊網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示，分為低層膠囊網(wǎng)絡(luò)層、動態(tài)路由層和高層膠囊網(wǎng)絡(luò)層。

圖4 膠囊網(wǎng)絡(luò)結(jié)構(gòu)

(5)

通過對輸入向量加權(quán)并求和得到向量S，S是高層膠囊網(wǎng)絡(luò)的輸入，公式如式(6)所示。

(6)

用非線性函數(shù)squash對高層膠囊網(wǎng)絡(luò)輸出的向量S進(jìn)行壓縮，如公式(7)所示。

(7)

低層膠囊網(wǎng)絡(luò)通過動態(tài)路由算法將信息傳輸?shù)礁邔幽z囊網(wǎng)絡(luò)中，將臨時變量bij初始化為0，以公式(8)和公式(9)進(jìn)行迭代更新，值保存到cij。

(8)

(9)

膠囊網(wǎng)絡(luò)通過傳輸?shù)蛯拥礁邔又g的特征，學(xué)習(xí)到文本局部和整體之間的關(guān)聯(lián)信息，其最終輸出為向量長度，值為類別概率值。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境設(shè)置如表1所示。

表1 實(shí)驗(yàn)環(huán)境配置

3.2 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)選取從中國政府網(wǎng)站獲取的中央、地方、駐外、其他四類人事信息，構(gòu)成公文集，共4 698篇公文文本。從實(shí)驗(yàn)數(shù)據(jù)中劃分出訓(xùn)練集4 000條，測試集698條。該文利用哈工大的LTP(Language Technology Platform)進(jìn)行詞法和句法分析，對候選實(shí)體進(jìn)行篩選，最終得到實(shí)體897例，包括804例人名和93例職務(wù)。采用遠(yuǎn)程監(jiān)督學(xué)習(xí)的方式為實(shí)體對自動標(biāo)注關(guān)系類型，并構(gòu)建人名-職務(wù)知識庫。人名-職務(wù)知識庫格式和部分內(nèi)容如圖5所示。

圖5 部分人名-職務(wù)知識庫

3.3 模型中的參數(shù)設(shè)置

在實(shí)驗(yàn)參數(shù)方面，該文通過多次實(shí)驗(yàn)并對實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證，最終選定最優(yōu)的實(shí)驗(yàn)參數(shù)。在預(yù)訓(xùn)練語言模型的選擇中，采用albert_tiny中文預(yù)訓(xùn)練模型。采用Adam優(yōu)化器調(diào)整學(xué)習(xí)率，交叉熵?fù)p失函數(shù)對模型參數(shù)進(jìn)行調(diào)優(yōu)，模型具體的參數(shù)設(shè)置如表2所示。

表2 實(shí)驗(yàn)參數(shù)設(shè)置

3.4 實(shí)驗(yàn)結(jié)果與分析

3.4.1 不同分類器效果比較

為驗(yàn)證膠囊網(wǎng)絡(luò)在政府公文領(lǐng)域的分類效果，使用ALBERT提取文本特征，不同的機(jī)器學(xué)習(xí)分類器進(jìn)行對比實(shí)驗(yàn)，包括：邏輯回歸(Logistic Regression)、樸素貝葉斯(Naive Bayes)和支持向量機(jī)(SVM)。

表3為使用ALBERT提取特征，不同機(jī)器學(xué)習(xí)分類器的關(guān)系抽取實(shí)驗(yàn)結(jié)果。

表3 不同分類器關(guān)系抽取效果 %

根據(jù)實(shí)驗(yàn)結(jié)果分析，Albert-Capnet關(guān)系抽取模型在政府公文領(lǐng)域數(shù)據(jù)集上的分類效果優(yōu)于Logistic Regression、Naive Bayes和SVM的傳統(tǒng)機(jī)器學(xué)習(xí)分類器的分類效果。同時，實(shí)驗(yàn)也證明了膠囊網(wǎng)絡(luò)能提取豐富的文本信息和詞位置信息，在小樣本數(shù)據(jù)集上具有良好的分類效果。

Naive Bayes假設(shè)文本中的詞是彼此獨(dú)立的，詞之間不具有關(guān)聯(lián)性，并且只有訓(xùn)練樣本數(shù)量非常多的情況下才能達(dá)到非常準(zhǔn)確的效果，因此不適合做小樣本數(shù)據(jù)集上的文本分類器。Logistic Regression和SVM在分類結(jié)果上取得了很大的優(yōu)勢，而且分類的時間較深度學(xué)習(xí)來說縮短了很多，但是需要人工進(jìn)行特征構(gòu)造，可擴(kuò)展性差。Logistic Regression適合處理二分類問題，但是不能解決非線性問題。SVM把高維空間的復(fù)雜性問題轉(zhuǎn)化為求核函數(shù)問題，在小樣本訓(xùn)練集上能夠取得不錯的效果，但是需要大量的存儲空間。

3.4.2 不同關(guān)系抽取方法的比較

為對比不同關(guān)系抽取方法的抽取效果，選擇兩種在遠(yuǎn)程監(jiān)督關(guān)系抽取中被廣泛應(yīng)用的模型作為對比實(shí)驗(yàn)?zāi)Ｐ?，即PCNN和PCNN-ATT。PCNN是常用的遠(yuǎn)程監(jiān)督關(guān)系抽取模型，PCNN-ATT是目前已知遠(yuǎn)程監(jiān)督中文關(guān)系抽取數(shù)據(jù)集上效果最好的模型，也是基準(zhǔn)模型。不同關(guān)系抽取方法結(jié)果對比如表4所示。

表4 不同關(guān)系抽取方法的對比效果 %

實(shí)驗(yàn)結(jié)果表明，PCNN提取的文本特征是片面的，在小樣本數(shù)據(jù)集上的效果不好，PCNN-ATT通過提高包中正確標(biāo)注句子的注意力權(quán)重，提高了關(guān)系抽取效果。而Albert_Capnet關(guān)系抽取方法能夠有效提取文本中的深層語義信息和詞位置信息，在準(zhǔn)確率、召回率、F1值上均遠(yuǎn)高于PCNN和PCNN-ATT方法。

通過以上兩個實(shí)驗(yàn)，表明Albert_Capnet關(guān)系抽取模型在政府公文領(lǐng)域的小樣本數(shù)據(jù)集上具有更好的抽取性能。

4 結(jié)束語

通過分析政府公文領(lǐng)域特點(diǎn)，該文提出了基于ALBERT預(yù)訓(xùn)練模型和膠囊網(wǎng)絡(luò)相結(jié)合的遠(yuǎn)程監(jiān)督關(guān)系抽取模型，針對抽取人名-職務(wù)間的職務(wù)關(guān)系，進(jìn)行分類，大大減少了人工對數(shù)據(jù)標(biāo)記所耗費(fèi)的時間和精力，解決了公文領(lǐng)域標(biāo)注數(shù)據(jù)集少的問題。ALBERT通過字嵌入和位置嵌入的方式，提取文本中深層的語義信息，解決特征提取中的誤差傳播問題。對比實(shí)驗(yàn)結(jié)果表明，膠囊網(wǎng)絡(luò)在公文領(lǐng)域的小樣本數(shù)據(jù)集上具有良好的分類效果，可以有效提高分類精確度。

對于政府網(wǎng)站日益增加的政府公文，采用遠(yuǎn)程監(jiān)督的關(guān)系抽取方法可以減少人工標(biāo)注成本，提高關(guān)系抽取效率，進(jìn)而保證了獲取重要信息的質(zhì)量和實(shí)效性。該方法所獲實(shí)例可擴(kuò)充現(xiàn)有公文領(lǐng)域知識庫，輔助政府工作人員在書寫公文時快速獲取人事信息。

該文聚焦于單一的實(shí)體關(guān)系抽取，未來將著眼于能否同步抽取多個實(shí)體間的多類關(guān)系等信息。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡