崔從敏,施運(yùn)梅,袁 博,李云漢,李源華,周楚圍
(1.北京信息科技大學(xué) 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.北京信息科技大學(xué),北京 100101)
隨著政務(wù)大數(shù)據(jù)化的快速發(fā)展,公文文本數(shù)據(jù)存在量大、增速快、類型多、處理復(fù)雜的特點(diǎn),但是目前處理數(shù)據(jù)主要依賴于傳統(tǒng)的人工方式,效率低、準(zhǔn)確率低,具有時延性,為政府辦公帶來許多挑戰(zhàn),消耗了巨大的人力財力,所以如何準(zhǔn)確挖掘出其中的關(guān)鍵信息愈加重要。
現(xiàn)階段在政府公文領(lǐng)域中應(yīng)用NLP技術(shù),可以將非結(jié)構(gòu)化的自然語言文本轉(zhuǎn)化為結(jié)構(gòu)化的信息,從而挖掘出文本中潛藏的有價值的內(nèi)容,減輕人工壓力。NLP的一個重要的子任務(wù)就是實(shí)體關(guān)系抽取,將非結(jié)構(gòu)的文本語句轉(zhuǎn)換為知識三元組,用簡單的數(shù)據(jù)結(jié)構(gòu)解釋文本中的實(shí)體關(guān)系。基于監(jiān)督學(xué)習(xí)的方法雖然可以通過訓(xùn)練數(shù)據(jù)抽取特征,但過程中要達(dá)到期望的準(zhǔn)確率和召回率需要大量的人工標(biāo)注數(shù)據(jù)來輔助訓(xùn)練。在現(xiàn)如今數(shù)據(jù)量大、類型多的大背景下,基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法因其省去了大量的人工標(biāo)注加上其能夠在不同領(lǐng)域適用的特性,已成為目前研究熱點(diǎn)。
近年來,深度學(xué)習(xí)方法被廣泛應(yīng)用到實(shí)體關(guān)系抽取任務(wù)中,其通過對實(shí)體的位置信息進(jìn)行向量化表示,來提供神經(jīng)網(wǎng)絡(luò)自動提取的文本特征,繼而預(yù)測實(shí)體中的關(guān)系類型?;赗NN、CNN、LSTM的方法為其中三種代表方法,但這些神經(jīng)網(wǎng)絡(luò)模型通常在關(guān)系分類中沒有充分考慮標(biāo)記實(shí)體及其位置信息,而實(shí)際上實(shí)體的位置信息在關(guān)系分類中起到非常重要的作用。此外,CNN還需要大量的人工標(biāo)注語料庫進(jìn)行訓(xùn)練才能達(dá)到良好的分類效果。因此,有研究將膠囊網(wǎng)絡(luò)應(yīng)用于實(shí)體關(guān)系抽取,其不需要大量標(biāo)注的數(shù)據(jù)集就可以取得不錯的效果。同時隨著對自注意力機(jī)制的深入研究,有研究將Transformer架構(gòu)應(yīng)用在關(guān)系抽取任務(wù)上,以及利用語言模型BERT進(jìn)行關(guān)系抽取的工作,都取得了良好效果。
針對預(yù)訓(xùn)練語言模型的研究近年來發(fā)展迅猛[1-3],預(yù)訓(xùn)練語言模型能夠捕捉兩個目標(biāo)實(shí)體的信息,并且基于上下文信息捕捉文本的語義信息。在數(shù)據(jù)量足夠大的規(guī)模下,預(yù)訓(xùn)練能夠獲取文本的上下文的特征表示,應(yīng)用于下游任務(wù)中,無需大規(guī)模的訓(xùn)練數(shù)據(jù)就能取得更好的效果。
由于中文與英文存在語言特性差異,且目前公文領(lǐng)域標(biāo)注數(shù)據(jù)集少,所以現(xiàn)有的方法不能很好地解決政府公文領(lǐng)域中的關(guān)系抽取問題。因此,該文提出基于ALBERT預(yù)訓(xùn)練語言模型和膠囊網(wǎng)絡(luò)相結(jié)合的遠(yuǎn)程監(jiān)督關(guān)系抽取方法(Albert_Capnet)。針對政府公文領(lǐng)域中的人事任免信息,通過基于遠(yuǎn)程監(jiān)督的關(guān)系抽取技術(shù),抽取人名和職務(wù)之間的關(guān)系。首先使用ALBERT預(yù)訓(xùn)練模型對文本進(jìn)行特征表示,獲取文本深層語義信息;然后將其特征向量輸入到膠囊網(wǎng)絡(luò)中傳輸?shù)蛯拥礁邔拥奶卣鳎孟蛄康拈L度對關(guān)系進(jìn)行分類,判斷所屬職務(wù)是上任還是卸任;最后使用訓(xùn)練完成的關(guān)系抽取模型對待抽取的文本語料進(jìn)行抽取。
主要貢獻(xiàn)在于:(1)提出一種基于ALBERT預(yù)訓(xùn)練語言模型和膠囊網(wǎng)絡(luò)相結(jié)合的關(guān)系抽取方法,適用于小樣本數(shù)據(jù)集,提高了關(guān)系抽取質(zhì)量;(2)將遠(yuǎn)程監(jiān)督關(guān)系抽取技術(shù)應(yīng)用到政府公文領(lǐng)域,構(gòu)建人名-職務(wù)知識庫,并按該方法實(shí)現(xiàn)人名職務(wù)關(guān)系的實(shí)例抽取的迭代擴(kuò)充,解決公文領(lǐng)域中標(biāo)記數(shù)據(jù)集少的問題,大大減輕人工標(biāo)注成本。
關(guān)系抽取作為信息抽取的一項(xiàng)關(guān)鍵技術(shù),在知識庫自動構(gòu)建、問答系統(tǒng)等領(lǐng)域有著極為重要的意義。現(xiàn)有的關(guān)系抽取方法可以分為4類,分別是有監(jiān)督關(guān)系抽取、半監(jiān)督關(guān)系抽取、遠(yuǎn)程監(jiān)督關(guān)系抽取和無監(jiān)督關(guān)系抽取[4]。
有監(jiān)督實(shí)體關(guān)系抽取將關(guān)系抽取任務(wù)視為分類任務(wù),將標(biāo)記好的數(shù)據(jù)作為訓(xùn)練集輸入到分類模型中進(jìn)行訓(xùn)練,能得到較高的準(zhǔn)確率和召回率,但在構(gòu)造訓(xùn)練集的過程中會耗費(fèi)大量人工成本。為此,Mintz等人[5]提出基于遠(yuǎn)程監(jiān)督的關(guān)系抽取方法,首先構(gòu)建外部知識庫,將待標(biāo)注文本與外部知識庫進(jìn)行實(shí)體對齊,自動標(biāo)注關(guān)系,然后通過分類任務(wù)實(shí)現(xiàn)關(guān)系抽取,大大減少了人工標(biāo)注的成本。
現(xiàn)階段半監(jiān)督和無監(jiān)督的關(guān)系抽取技術(shù)還不發(fā)達(dá),遠(yuǎn)程監(jiān)督關(guān)系抽取方法可以極大地減少人工標(biāo)注成本,并解決因缺乏標(biāo)記中文知識庫導(dǎo)致的問題,因而近年來受到了學(xué)者們的關(guān)注。
由于遠(yuǎn)程監(jiān)督的強(qiáng)假設(shè),目前主要采取多示例學(xué)習(xí)[6-9]和注意力機(jī)制[10-14]來緩解數(shù)據(jù)噪聲問題。PCNN(Piece-Wise-CNN)模型[8]在池化層將兩個實(shí)體位置分為三段進(jìn)行池化,并且將具有相同實(shí)體對和關(guān)系標(biāo)注的所有句子看成一個包,將標(biāo)注的關(guān)系作為整個包的標(biāo)簽進(jìn)行訓(xùn)練,從而能夠更好地捕捉兩個實(shí)體間的結(jié)構(gòu)化信息。但是PCNN可能會舍棄多個正確標(biāo)注的句子,造成數(shù)據(jù)浪費(fèi),從而導(dǎo)致提取到的特征可能是片面的,這種數(shù)據(jù)處理方式對小數(shù)據(jù)樣本并不友好。隨后清華大學(xué)劉知遠(yuǎn)團(tuán)隊(duì)提出了PCNN+ATT(Piece-Wise-CNN-ATTention)模型[10],其在句子間特征提取上運(yùn)用了自注意力機(jī)制,為包內(nèi)每個句子賦予權(quán)重,可以更全面提取包的信息,是目前常用的中文遠(yuǎn)程監(jiān)督關(guān)系抽取模型。
在NLP任務(wù)中,隨著近年來算力的不斷提升,基于深度學(xué)習(xí)的訓(xùn)練方法成為業(yè)界的主流方法,但是大多依賴于大量標(biāo)注數(shù)據(jù)。預(yù)訓(xùn)練模型通過基于特征集成的方式和基于模型微調(diào)的方式將語言模型學(xué)習(xí)到的文本表示當(dāng)做下游任務(wù)的輸入特征進(jìn)行應(yīng)用,有效減輕了任務(wù)對于標(biāo)注數(shù)據(jù)的依賴。
預(yù)訓(xùn)練模型的發(fā)展分為淺層的詞嵌入到深層編碼兩個階段。在淺層詞嵌入階段,研究目標(biāo)主要聚焦在基于特征的方法上,并不注重上下文的語義關(guān)系,其代表方法為NNLM、word2vec等。深層編碼通過一個預(yù)訓(xùn)練編碼器輸出上下文相關(guān)的詞向量,解決一詞多義的問題,如Peter等人提出的ELMo模型及Devlin等人提出的BERT模型,使得模型能夠?qū)W習(xí)到句子與句子間的關(guān)系。
BERT的問世證明了預(yù)訓(xùn)練語言模型對下游的NLP任務(wù)有很大的提升,可以幫助提高關(guān)系抽取效果。Shi P等人[15]簡單地使用BERT預(yù)訓(xùn)練語言模型方式,將句子輸入到BERT模型中獲取文本的語義表征,再連接一個全連接層作分類,完成關(guān)系抽取任務(wù),通過實(shí)驗(yàn)結(jié)果表明其取得了不錯的效果。Wu等人[16-17]將BERT模型應(yīng)用于關(guān)系抽取任務(wù),使用BERT學(xué)習(xí)到實(shí)體的位置信息及語義特征,從而提高模型對實(shí)體的表征能力。Livio等人[18]也證明通過BERT提取實(shí)體的位置及句子的語義信息能夠提高關(guān)系抽取任務(wù)性能。
但是由于BERT模型過大,在參數(shù)和梯度的同步上消耗大量訓(xùn)練時間,因此,Lan等人[19]提出ALBERT模型,通過對嵌入層的參數(shù)進(jìn)行分解、層間參數(shù)共享來大幅減少預(yù)訓(xùn)練模型參數(shù)量,加快BERT的訓(xùn)練速度。此外ALBERT還提出用句子順序預(yù)測任務(wù)代替BERT中的預(yù)測下一個句子任務(wù),使得模型能學(xué)習(xí)到更細(xì)粒度的關(guān)于段落級的一致性的區(qū)別,提高了下游任務(wù)中多句編碼任務(wù)的性能。
Google在閱讀理解、文本分類等13項(xiàng)NLP任務(wù)中進(jìn)行了大量對比實(shí)驗(yàn),結(jié)果表明,有233 M參數(shù)量的ALBERT_xxlarge模型,全面優(yōu)于有1 270 M參數(shù)的BERT_xlarge模型。另外,ALBERT中的albert_tiny模型,其隱藏層僅有4層,模型參數(shù)量約為1.8 M,非常輕便。相對于BERT,ALBERT不僅提升了訓(xùn)練速度、推理預(yù)測速度約10倍,且基本保留了精度。
關(guān)系抽取任務(wù)可被定義為關(guān)系分類任務(wù),傳統(tǒng)的機(jī)器學(xué)習(xí)算法如支持向量機(jī)(SVM)、邏輯回歸(Logistic Regression)、樸素貝葉斯(Naive Bayes)等,僅適用于小規(guī)模的數(shù)據(jù)訓(xùn)練,且隨著數(shù)據(jù)量增大,處理海量數(shù)據(jù)過程會費(fèi)時費(fèi)力。
近年來,將CNN或RNN與注意力機(jī)制結(jié)合的方法成為解決關(guān)系分類問題的最新方式,但是CNN或RNN難以提取不同卷積核所獲得的特征之間的關(guān)系。Sabour等人[20]提出基于動態(tài)路由算法的膠囊網(wǎng)絡(luò)模型,彌補(bǔ)了CNN的缺陷,并在MNIST數(shù)據(jù)集上驗(yàn)證了該模型在圖像分析領(lǐng)域具有很好的效果。
此后,膠囊網(wǎng)絡(luò)被引入到文本領(lǐng)域解決NLP問題,如文本分類[21]、情感分析[22-23]、機(jī)器翻譯[24]等任務(wù)。目前,在分類模型中,膠囊網(wǎng)絡(luò)通常被應(yīng)用到分類模型的最后一層,以取代最大池化層來完成分類任務(wù)。特別是趙等人2018年首次將膠囊網(wǎng)絡(luò)應(yīng)用在文本分類任務(wù)中,提出基于膠囊網(wǎng)絡(luò)的文本分類模型,其性能超過CNN和LSTM,從而證實(shí)了膠囊網(wǎng)絡(luò)能夠有效地提升分類任務(wù)的準(zhǔn)確性。Peng等人[25]將膠囊網(wǎng)絡(luò)應(yīng)用到中文實(shí)體關(guān)系分類中,提出結(jié)合自注意力機(jī)制和膠囊網(wǎng)絡(luò)的實(shí)體關(guān)系分類模型,該模型僅需要少量的訓(xùn)練語料,就能有效地捕捉詞位置信息。
中文關(guān)系抽取依賴于文本分類技術(shù)。膠囊網(wǎng)絡(luò)提供一種基于聚類的思想來代替池化層來完成特征的整合的方案,在分類任務(wù)中,能夠?qū)W習(xí)到文本局部和整體之間的關(guān)聯(lián)信息,克服CNN池化時信息丟失的局限性,從而更好地進(jìn)行分類、提取文本段落與全文之間關(guān)聯(lián)特征信息,最終達(dá)到提高關(guān)系抽取效果的目的。
對政府公文中領(lǐng)導(dǎo)人職務(wù)關(guān)系抽取的框架如圖1所示。通過遠(yuǎn)程監(jiān)督的思想,構(gòu)建關(guān)系示例公文集,將其劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,輸入到Albert_Capnet關(guān)系抽取模型中進(jìn)行關(guān)系分類訓(xùn)練,最終得到關(guān)系抽取結(jié)果。從而實(shí)現(xiàn)將非結(jié)構(gòu)化的人事信息轉(zhuǎn)化為結(jié)構(gòu)化的三元組信息,描述政府公文領(lǐng)域的人名職務(wù)關(guān)系,并進(jìn)行存儲,具體步驟如下:
圖1 關(guān)系抽取框架
(1)構(gòu)建職務(wù)任免示例集。
職務(wù)任免示例集用于關(guān)系抽取模型的訓(xùn)練,由公文集中存在人事任免關(guān)系的句子和人名職務(wù)三元組共同構(gòu)成。公文集中存放的是來自于政府網(wǎng)站的人事任免信息,公文領(lǐng)域知識庫是通過對公文集進(jìn)行詞法和句法分析,得到的實(shí)體對集合V。實(shí)體對(E1,E2)∈V,其中E1為人名,E2為職務(wù)?;谶h(yuǎn)程監(jiān)督的思想,將公文領(lǐng)域知識庫中的實(shí)體對和公文集進(jìn)行實(shí)體對齊,為實(shí)體對匹配關(guān)系標(biāo)簽,得到人名職務(wù)三元組。
(2)關(guān)系抽取模型訓(xùn)練與測試。
將職務(wù)任免示例集劃分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,其中,訓(xùn)練數(shù)據(jù)集用于訓(xùn)練關(guān)系抽取模型,測試數(shù)據(jù)集用于評估模型的準(zhǔn)確率。
(3)職務(wù)關(guān)系抽取。
將待抽取公文輸入到Albert_Capnet關(guān)系抽取模型中,對職務(wù)任免關(guān)系進(jìn)行預(yù)測,得到關(guān)系抽取結(jié)果。
Albert_Capnet模型用于抽取公文中人名-職務(wù)關(guān)系,模型由四部分組成,分別為輸入層、ALBERT預(yù)訓(xùn)練語言模型層、膠囊網(wǎng)絡(luò)層和輸出層。模型具體結(jié)構(gòu)如圖2所示。
圖2 Albert_Capnet關(guān)系抽取模型
(1)輸入層。
輸入層中接收的數(shù)據(jù)是職務(wù)任免示例集X,輸入文本采用如式(1)所示的形式化方式表示,其中Xi表示職務(wù)任免示例集中的第i個詞。
X=(X1,X2,…,XN)
(1)
(2)ALBERT層。
該層對句子中的詞進(jìn)行編碼并提取深層語義特征。ALBERT是以單個漢字作為輸入的,輸出為向量形式E,如式(2)所示,其中Ei表示單個字的向量。
E=(E1,E2,…,EN)
(2)
經(jīng)過多層雙向的Transformer編碼器的訓(xùn)練,最終輸出文本的特征表示T,如式(3)所示,其中Ti表示文本中第i個詞的特征向量。
T=(T1,T2,…,TN)
(3)
(3)膠囊網(wǎng)絡(luò)層。
本層用于傳輸?shù)蛯拥礁邔拥奈谋咎卣?,?shí)現(xiàn)實(shí)體關(guān)系分類。該層的輸入是ALBERT的特征向量輸出。首先構(gòu)建出低級膠囊網(wǎng)絡(luò)層,經(jīng)由動態(tài)路由的方法將低層特征輸入到高層膠囊網(wǎng)絡(luò)層中,最終得到與分類結(jié)果相匹配的輸出膠囊。
(4)輸出層。
從膠囊網(wǎng)絡(luò)的輸出向量中選擇長度最大的類別,作為最終模型預(yù)測的關(guān)系分類類別。
Albert-Capnet關(guān)系抽取模型使用ALBERT預(yù)訓(xùn)練語言模型進(jìn)行特征提取,采用詞嵌入和位置嵌入的方法,將數(shù)據(jù)之間的關(guān)聯(lián)性融入到數(shù)據(jù)中,使輸入詞學(xué)習(xí)到文本的語義信息和位置信息,解決特征提取中誤差傳播問題,從而達(dá)到提高關(guān)系抽取效能的目的。
ALBERT與BERT相同,使用Transformer的編碼器來提取輸入序列的特征信息,自注意力機(jī)制將模型上下層直接全部連接,使詞嵌入具有更豐富的語義信息。ALBERT模型結(jié)構(gòu)如圖3所示。其中Ei表示單個詞或字的向量輸入,Trm即Transformer,Ti表示最終隱藏層的輸出,通過編碼器中的注意力矩陣和注意力加權(quán)后,每個Ti都具有整句話上下文的語義信息。
圖3 ALBERT層的結(jié)構(gòu)
為了使ALBERT模型定位到兩個實(shí)體間的位置信息,在文本中插入實(shí)體定位字符。在每個輸入句子的開頭添加[CLS]字符,在頭實(shí)體前后添加[E11]和[E12]字符,尾實(shí)體前后添加[E21]和[E22]字符,對位置進(jìn)行標(biāo)記。將頭實(shí)體、尾實(shí)體用向量表示,作為實(shí)體特征。
自注意力機(jī)制公式如式(4),其中Q、K、V分別代表輸入序列中每個詞的query、key和value向量,dk是K矩陣的維度。
(4)
將提取到的全局語義特征和實(shí)體特征進(jìn)行拼接融合,共同作為膠囊網(wǎng)絡(luò)層的輸入。
膠囊網(wǎng)絡(luò)是基于聚類的思想,利用動態(tài)路由機(jī)制實(shí)現(xiàn)低層特征與高層特征的融合,提取豐富的文本信息和詞位置信息,在實(shí)體關(guān)系分類中起到重要作用。膠囊網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,分為低層膠囊網(wǎng)絡(luò)層、動態(tài)路由層和高層膠囊網(wǎng)絡(luò)層。
圖4 膠囊網(wǎng)絡(luò)結(jié)構(gòu)
(5)
通過對輸入向量加權(quán)并求和得到向量S,S是高層膠囊網(wǎng)絡(luò)的輸入,公式如式(6)所示。
(6)
用非線性函數(shù)squash對高層膠囊網(wǎng)絡(luò)輸出的向量S進(jìn)行壓縮,如公式(7)所示。
(7)
低層膠囊網(wǎng)絡(luò)通過動態(tài)路由算法將信息傳輸?shù)礁邔幽z囊網(wǎng)絡(luò)中,將臨時變量bij初始化為0,以公式(8)和公式(9)進(jìn)行迭代更新,值保存到cij。
(8)
(9)
膠囊網(wǎng)絡(luò)通過傳輸?shù)蛯拥礁邔又g的特征,學(xué)習(xí)到文本局部和整體之間的關(guān)聯(lián)信息,其最終輸出為向量長度,值為類別概率值。
實(shí)驗(yàn)環(huán)境設(shè)置如表1所示。
表1 實(shí)驗(yàn)環(huán)境配置
實(shí)驗(yàn)數(shù)據(jù)選取從中國政府網(wǎng)站獲取的中央、地方、駐外、其他四類人事信息,構(gòu)成公文集,共4 698篇公文文本。從實(shí)驗(yàn)數(shù)據(jù)中劃分出訓(xùn)練集4 000條,測試集698條。該文利用哈工大的LTP(Language Technology Platform)進(jìn)行詞法和句法分析,對候選實(shí)體進(jìn)行篩選,最終得到實(shí)體897例,包括804例人名和93例職務(wù)。采用遠(yuǎn)程監(jiān)督學(xué)習(xí)的方式為實(shí)體對自動標(biāo)注關(guān)系類型,并構(gòu)建人名-職務(wù)知識庫。人名-職務(wù)知識庫格式和部分內(nèi)容如圖5所示。
圖5 部分人名-職務(wù)知識庫
在實(shí)驗(yàn)參數(shù)方面,該文通過多次實(shí)驗(yàn)并對實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證,最終選定最優(yōu)的實(shí)驗(yàn)參數(shù)。在預(yù)訓(xùn)練語言模型的選擇中,采用albert_tiny中文預(yù)訓(xùn)練模型。采用Adam優(yōu)化器調(diào)整學(xué)習(xí)率,交叉熵?fù)p失函數(shù)對模型參數(shù)進(jìn)行調(diào)優(yōu),模型具體的參數(shù)設(shè)置如表2所示。
表2 實(shí)驗(yàn)參數(shù)設(shè)置
3.4.1 不同分類器效果比較
為驗(yàn)證膠囊網(wǎng)絡(luò)在政府公文領(lǐng)域的分類效果,使用ALBERT提取文本特征,不同的機(jī)器學(xué)習(xí)分類器進(jìn)行對比實(shí)驗(yàn),包括:邏輯回歸(Logistic Regression)、樸素貝葉斯(Naive Bayes)和支持向量機(jī)(SVM)。
表3為使用ALBERT提取特征,不同機(jī)器學(xué)習(xí)分類器的關(guān)系抽取實(shí)驗(yàn)結(jié)果。
表3 不同分類器關(guān)系抽取效果 %
根據(jù)實(shí)驗(yàn)結(jié)果分析,Albert-Capnet關(guān)系抽取模型在政府公文領(lǐng)域數(shù)據(jù)集上的分類效果優(yōu)于Logistic Regression、Naive Bayes和SVM的傳統(tǒng)機(jī)器學(xué)習(xí)分類器的分類效果。同時,實(shí)驗(yàn)也證明了膠囊網(wǎng)絡(luò)能提取豐富的文本信息和詞位置信息,在小樣本數(shù)據(jù)集上具有良好的分類效果。
Naive Bayes假設(shè)文本中的詞是彼此獨(dú)立的,詞之間不具有關(guān)聯(lián)性,并且只有訓(xùn)練樣本數(shù)量非常多的情況下才能達(dá)到非常準(zhǔn)確的效果,因此不適合做小樣本數(shù)據(jù)集上的文本分類器。Logistic Regression和SVM在分類結(jié)果上取得了很大的優(yōu)勢,而且分類的時間較深度學(xué)習(xí)來說縮短了很多,但是需要人工進(jìn)行特征構(gòu)造,可擴(kuò)展性差。Logistic Regression適合處理二分類問題,但是不能解決非線性問題。SVM把高維空間的復(fù)雜性問題轉(zhuǎn)化為求核函數(shù)問題,在小樣本訓(xùn)練集上能夠取得不錯的效果,但是需要大量的存儲空間。
3.4.2 不同關(guān)系抽取方法的比較
為對比不同關(guān)系抽取方法的抽取效果,選擇兩種在遠(yuǎn)程監(jiān)督關(guān)系抽取中被廣泛應(yīng)用的模型作為對比實(shí)驗(yàn)?zāi)P?,即PCNN和PCNN-ATT。PCNN是常用的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,PCNN-ATT是目前已知遠(yuǎn)程監(jiān)督中文關(guān)系抽取數(shù)據(jù)集上效果最好的模型,也是基準(zhǔn)模型。不同關(guān)系抽取方法結(jié)果對比如表4所示。
表4 不同關(guān)系抽取方法的對比效果 %
實(shí)驗(yàn)結(jié)果表明,PCNN提取的文本特征是片面的,在小樣本數(shù)據(jù)集上的效果不好,PCNN-ATT通過提高包中正確標(biāo)注句子的注意力權(quán)重,提高了關(guān)系抽取效果。而Albert_Capnet關(guān)系抽取方法能夠有效提取文本中的深層語義信息和詞位置信息,在準(zhǔn)確率、召回率、F1值上均遠(yuǎn)高于PCNN和PCNN-ATT方法。
通過以上兩個實(shí)驗(yàn),表明Albert_Capnet關(guān)系抽取模型在政府公文領(lǐng)域的小樣本數(shù)據(jù)集上具有更好的抽取性能。
通過分析政府公文領(lǐng)域特點(diǎn),該文提出了基于ALBERT預(yù)訓(xùn)練模型和膠囊網(wǎng)絡(luò)相結(jié)合的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,針對抽取人名-職務(wù)間的職務(wù)關(guān)系,進(jìn)行分類,大大減少了人工對數(shù)據(jù)標(biāo)記所耗費(fèi)的時間和精力,解決了公文領(lǐng)域標(biāo)注數(shù)據(jù)集少的問題。ALBERT通過字嵌入和位置嵌入的方式,提取文本中深層的語義信息,解決特征提取中的誤差傳播問題。對比實(shí)驗(yàn)結(jié)果表明,膠囊網(wǎng)絡(luò)在公文領(lǐng)域的小樣本數(shù)據(jù)集上具有良好的分類效果,可以有效提高分類精確度。
對于政府網(wǎng)站日益增加的政府公文,采用遠(yuǎn)程監(jiān)督的關(guān)系抽取方法可以減少人工標(biāo)注成本,提高關(guān)系抽取效率,進(jìn)而保證了獲取重要信息的質(zhì)量和實(shí)效性。該方法所獲實(shí)例可擴(kuò)充現(xiàn)有公文領(lǐng)域知識庫,輔助政府工作人員在書寫公文時快速獲取人事信息。
該文聚焦于單一的實(shí)體關(guān)系抽取,未來將著眼于能否同步抽取多個實(shí)體間的多類關(guān)系等信息。