国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向煤礦的實(shí)體識(shí)別與關(guān)系抽取模型

2020-09-04 10:00張心怡馮仕民丁恩杰
計(jì)算機(jī)應(yīng)用 2020年8期
關(guān)鍵詞:解碼向量標(biāo)簽

張心怡 ,馮仕民 *,丁恩杰

(1. 礦山互聯(lián)網(wǎng)應(yīng)用技術(shù)國家地方聯(lián)合工程實(shí)驗(yàn)室(中國礦業(yè)大學(xué)),江蘇徐州221008;2. 中國礦業(yè)大學(xué)信息與控制工程學(xué)院,江蘇徐州221008; 3. 中國礦業(yè)大學(xué)物聯(lián)網(wǎng)(感知礦山)研究中心,江蘇徐州221008)

0 引言

隨著“互聯(lián)網(wǎng)+”與“大數(shù)據(jù)”的發(fā)展,煤礦科學(xué)數(shù)據(jù)總量日趨龐大,煤礦安全的相關(guān)信息也爆炸式增多,這些離散存儲(chǔ)的資料中包含著不安全事故發(fā)生原因、影響因素、響應(yīng)措施、預(yù)防辦法等重要信息。有效整合利用、充分挖掘這些具有專業(yè)性的資料與文獻(xiàn),可有效監(jiān)督、把控、預(yù)防不安全事件的發(fā)生,在煤礦安全領(lǐng)域是十分迫切的安全需求。而傳統(tǒng)僅靠人力手動(dòng)提取、整合、管理信息已經(jīng)遠(yuǎn)遠(yuǎn)無法滿足目前信息抽取的需求。因此,設(shè)計(jì)模型自動(dòng)抽取信息已成為目前煤炭行業(yè)的熱點(diǎn)問題。其中,命名實(shí)體識(shí)別作為信息自動(dòng)抽取任務(wù)的重要一環(huán),對(duì)知識(shí)圖譜的構(gòu)建、本體的自動(dòng)構(gòu)建等下游任務(wù)有著重要意義。

目前,對(duì)命名實(shí)體識(shí)別的研究已有很多,但與通用領(lǐng)域相比,煤礦安全領(lǐng)域的資料由于包含煤礦地理信息以及大量專有名詞,其信息抽取任務(wù)難點(diǎn)在于命名實(shí)體具有一詞多義或多次同義的現(xiàn)象,并且不同的命名實(shí)體間存在一定語義關(guān)系,這些語義關(guān)系對(duì)實(shí)體識(shí)別有很大影響,應(yīng)被充分利用。由此,煤礦安全領(lǐng)域的命名實(shí)體識(shí)別任務(wù)依然有很大改進(jìn)空間。

本文主要針對(duì)命名實(shí)體的語義多樣性、結(jié)構(gòu)嵌套、長度較長的問題來設(shè)計(jì)模型,另外,為充分利用實(shí)體間關(guān)系對(duì)實(shí)體識(shí)別的影響信息,提出同時(shí)進(jìn)行命名實(shí)體識(shí)別與關(guān)系抽取的聯(lián)合學(xué)習(xí)模型。本文主要工作如下:

1)提出了一種新的詞嵌入方法。使用多種向量模型對(duì)輸入進(jìn)行映射,以解決一詞多義問題并提升低頻詞表示的準(zhǔn)確性。

2)提出了一種端到端的聯(lián)合學(xué)習(xí)模型。該模型將命名實(shí)體識(shí)別與關(guān)系抽取以統(tǒng)一標(biāo)注的方式視為一個(gè)統(tǒng)一的任務(wù),使用本文提出的深層注意力網(wǎng)絡(luò)同時(shí)完成,從而關(guān)注到實(shí)體間關(guān)系對(duì)實(shí)體識(shí)別的影響信息。

3)提出了兩種模型的加強(qiáng)方案:一種方案是在注意力機(jī)制中嵌套雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)模型,以犧牲時(shí)間來提升精度;另一種方案是將卷積網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合,從而在保證學(xué)習(xí)速度的前提下同時(shí)關(guān)注整體特征與局部特征。

4)提出了在序列標(biāo)注任務(wù)中省略解碼結(jié)構(gòu)。通過對(duì)比實(shí)驗(yàn)得出深層網(wǎng)絡(luò)足以學(xué)習(xí)時(shí)序特征,無需對(duì)標(biāo)簽解碼也可得到準(zhǔn)確率較高的標(biāo)注結(jié)果,解碼結(jié)構(gòu)的省略減少了模型的訓(xùn)練時(shí)間,提高了對(duì)未標(biāo)注詞、低頻詞的識(shí)別準(zhǔn)確率。

實(shí)驗(yàn)結(jié)果表明,本文模型不僅對(duì)煤礦安全領(lǐng)域的命名實(shí)體識(shí)別有較好的識(shí)別效果,對(duì)關(guān)系抽取的效果也有了提升。同時(shí),并行化與編碼層的省略,提高了模型的訓(xùn)練速度。

1 相關(guān)工作

傳統(tǒng)的命名實(shí)體識(shí)別方法主要是基于規(guī)則的方法與基于機(jī)器學(xué)習(xí)的方法。其中基于規(guī)則的方法對(duì)專家及規(guī)則庫的要求嚴(yán)格,難以遷移,因此,基于機(jī)器學(xué)習(xí)的方法逐漸流行。張海楠等[1]提出將命名實(shí)體識(shí)別的任務(wù)看作是序列標(biāo)注任務(wù),從而根據(jù)標(biāo)簽確定實(shí)體的邊界與類型。Bikel等[2]提出隱馬爾可夫模型,張玥杰等[3]、Artalejo 等[4]將最大熵引入馬爾可夫模型,Song 等[5]提出條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型等,以上方法全都旨在使用狀態(tài)轉(zhuǎn)移矩陣來表示標(biāo)簽與文本的依賴關(guān)系,從而更為科學(xué)與靈活地識(shí)別出實(shí)體的邊界與類別,但需研究者手動(dòng)提取文本特征并設(shè)定特征模板,模型的泛化性較差。同時(shí),針對(duì)中文語料,以上方法不可避免地需要基于分詞技術(shù)的結(jié)果來完成實(shí)體的識(shí)別,而礦山領(lǐng)域知識(shí)體系復(fù)雜,現(xiàn)有的分詞算法對(duì)該特定領(lǐng)域的語料分詞效果較差。

為避免手工構(gòu)建并選擇特征的繁瑣以及分詞對(duì)實(shí)體識(shí)別任務(wù)的影響,基于字的深度學(xué)習(xí)方法逐漸成為命名實(shí)體識(shí)別領(lǐng)域關(guān)注的熱點(diǎn)。Lu等[6]將文本表示成字符級(jí)的分布式形式送入深度學(xué)習(xí)模型進(jìn)行實(shí)體識(shí)別;Dong 等[7]使用字級(jí)別的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)實(shí)體進(jìn)行識(shí)別;王博冉等[8]將字級(jí)模型與詞表匹配信息相結(jié)合,提出了Lattice LSTM 模型,取得了很好的效果。然而煤礦領(lǐng)域的專業(yè)術(shù)語存在嵌套情況,長度較長,僅通過字符級(jí)的單一網(wǎng)絡(luò)忽略了詞語級(jí)的語義信息,且難以學(xué)習(xí)語句間的依賴關(guān)系。不少學(xué)者針對(duì)這一問題提出了編碼-解碼系列模型,加入標(biāo)簽間的依賴特征以提高識(shí)別性能。如柏兵等[9]提出結(jié)合Bi-LSTM 與CRF 的識(shí)別方法,在人民日?qǐng)?bào)1998 年語料上取得了很好的效果;李明揚(yáng)等[10]在 Bi-LSTM 與 CRF 模型的基礎(chǔ)上引入自注意力機(jī)制,豐富了文本特征,在命名實(shí)體識(shí)別微博語料庫中達(dá)到了58.76%的成績;谷歌團(tuán)隊(duì)[11]提出使用單純的注意力機(jī)制網(wǎng)絡(luò)完成實(shí)體識(shí)別等任務(wù)。以上方法在一定程度上提高了實(shí)體識(shí)別的準(zhǔn)確率,但解碼結(jié)構(gòu)的引入帶來了時(shí)間上的耗費(fèi),同時(shí)也增強(qiáng)了模型對(duì)標(biāo)簽的依賴,而礦山領(lǐng)域知識(shí)語義多樣,使用該結(jié)構(gòu)的實(shí)體識(shí)別模型會(huì)導(dǎo)致對(duì)低頻詞、未標(biāo)注詞的識(shí)別效果不明顯等問題,也忽略了實(shí)體間關(guān)系對(duì)實(shí)體識(shí)別的影響作用。綜上所述,針對(duì)礦山領(lǐng)域術(shù)語的識(shí)別,一方面需要充分提取文本信息,減少模型對(duì)標(biāo)簽的依賴,避免嵌套術(shù)語、未標(biāo)注術(shù)語等無法識(shí)別的問題;另一方面可通過彌補(bǔ)實(shí)體間關(guān)系對(duì)實(shí)體識(shí)別的影響,來提升實(shí)體識(shí)別效果。

對(duì)此,本文提出了聯(lián)合學(xué)習(xí)實(shí)體及實(shí)體間關(guān)系的深度注意力模型,旨在重點(diǎn)關(guān)注文本信息,同時(shí)探究解碼結(jié)構(gòu)對(duì)時(shí)序標(biāo)注效果的影響,并對(duì)二者間的相關(guān)性信息進(jìn)行關(guān)注以提升煤礦領(lǐng)域術(shù)語的識(shí)別效果。

2 實(shí)體識(shí)別與關(guān)系抽取模型

2.1 數(shù)據(jù)標(biāo)注策略

本文將聯(lián)合學(xué)習(xí)任務(wù)看作序列化標(biāo)注任務(wù)進(jìn)行端到端的直接抽取,即給定一個(gè)句子,聯(lián)合學(xué)習(xí)的目標(biāo)是識(shí)別句子中的所有實(shí)體及關(guān)系,并對(duì)其進(jìn)行語義分類。本文采用與文獻(xiàn)[12]中相同的標(biāo)注策略。例如,對(duì)句子:“河北海岷工礦集團(tuán)有限公司坐落于全國標(biāo)準(zhǔn)件集散地河北-邯鄲。”,產(chǎn)生如圖1所示標(biāo)注。其中,“河北海岷工礦集團(tuán)有限公司”與“河北-邯鄲”為相同的關(guān)系類“屬于(SY)”,且標(biāo)簽為“1”代表關(guān)系中的主語,標(biāo)簽為“2”代表關(guān)系中的賓語。由此可使用關(guān)系將兩個(gè)實(shí)體進(jìn)行連接,從而得到最終的三元組結(jié)果。

圖1 標(biāo)注策略Fig. 1 Annotation strategy

2.2 模型框架

本文的聯(lián)合學(xué)習(xí)模型框架主要分為三個(gè)模塊,模型整體框架如圖2 所示。訓(xùn)練過程分別由文本數(shù)據(jù)預(yù)處理模塊、投影模塊、特征提取模塊以及分類模塊構(gòu)成。

首先,將原始話語投影到實(shí)值向量中,再將其輸送至下一層;然后,設(shè)計(jì)了一個(gè)深層的多頭自注意力神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)將嵌入矩陣作為輸入,以捕獲句子的嵌套結(jié)構(gòu)以及標(biāo)簽之間的依存關(guān)系;最后,使用分類層對(duì)實(shí)體及其關(guān)系進(jìn)行分類。

模型的推理方法為端到端的直接推理,即僅將句子經(jīng)過預(yù)處理送入模型后便可得到實(shí)體及其關(guān)系的序列標(biāo)注。

圖2 基于深度注意力的聯(lián)合學(xué)習(xí)模型框架Fig. 2 Framework of joint learning model based on deep attention

2.3 模型組件

2.3.1 數(shù)據(jù)預(yù)處理模塊

由于本文模型為實(shí)體及其關(guān)系的聯(lián)合抽取模型,需對(duì)句子中的實(shí)體及其關(guān)系進(jìn)行同時(shí)關(guān)注,為避免句子中實(shí)體過多對(duì)模型帶來的干擾,本文在模型訓(xùn)練前對(duì)語料進(jìn)行以下處理:

1)對(duì)于以頓號(hào)連接的相似實(shí)體,生成隨機(jī)數(shù)x,僅保留第x個(gè)實(shí)體,從而減少句子冗余性。

2)分詞:采用jieba分詞軟件對(duì)文本進(jìn)行分詞處理。

2.3.2 投影模塊

投影模塊的整體框架如圖3所示。

圖3 投影模塊Fig. 3 projection module

為豐富句子的語義信息,本文使用三種分布式模型為輸入語句進(jìn)行編碼,具體如下:

1)使用詞向量(Word to Vector,Word2Vec)[13]對(duì)字向量與詞向量進(jìn)行聯(lián)合訓(xùn)練。為提升低頻詞表示的準(zhǔn)確率,將更細(xì)粒度的字向量引入詞表示中,與詞向量一同使用連續(xù)詞袋(Continuous Bag-Of-Words,CBOW)模型聯(lián)合訓(xùn)練出新的詞表示模型。詞向量與字向量的組合方式如圖4所示。

CBOW的改進(jìn)公式如下:

其中:N為文本中的中文數(shù)量;cjk為字編碼;系數(shù)保證了字向量與詞向量計(jì)算詞語距離的一致性。并且,為了簡化模型,僅對(duì)上下文部分引入字向量信息,即最終的target信息是由字向量與詞向量的組合信息預(yù)測(cè)得到。

圖4 基于CBOW的字詞嵌入模型Fig. 4 Word embedding model based on CBOW

2)使用Fasttext[14]訓(xùn)練詞向量。為學(xué)習(xí)詞級(jí)的上下文信息及句子結(jié)構(gòu)信息,使用Fasttext訓(xùn)練詞向量。

3)使 用 全 局 詞 向 量(Global vectors for word representation,Glove)[15]訓(xùn)練詞。為學(xué)習(xí)詞間共現(xiàn)信息,使用Glove對(duì)詞進(jìn)行分布式學(xué)習(xí)。

4)提取相對(duì)位置信息。本文使用注意力機(jī)制對(duì)特征進(jìn)行提取,而注意力機(jī)制本身無法區(qū)分不同的位置特征,因此本文加入每一個(gè)字的位置編碼信息。

將前三部分向量進(jìn)行串聯(lián),生成新的投影向量作為下一模塊的輸入。為避免由于信息重復(fù)抽取導(dǎo)致的數(shù)據(jù)偏移,進(jìn)行以下操作:

1)在拼接好的向量后加入全連接層。主要思想是引入一個(gè)權(quán)重矩陣,對(duì)輸入進(jìn)行降維。

2)在全連接層后加入Dropout 層。Dropout 層類似于Bagging 的輕量級(jí)版,主要思想是以一定概率臨時(shí)扔掉一些神經(jīng)元節(jié)點(diǎn),從而使得每次都在訓(xùn)練不同結(jié)構(gòu)的網(wǎng)絡(luò)。

2.3.3 特征提取模塊

特征提取模塊旨在設(shè)計(jì)網(wǎng)絡(luò)模型,學(xué)習(xí)輸入語料的嵌套結(jié)構(gòu)及與標(biāo)簽間的潛在依存關(guān)系,模型結(jié)構(gòu)如圖5所示。

圖5 基于深度注意力的特征提取模塊Fig. 5 Feature extraction module based on deep attention

原始模型使用深度注意力機(jī)制對(duì)實(shí)體與實(shí)體間關(guān)系進(jìn)行聯(lián)合學(xué)習(xí)。相較于傳統(tǒng)聯(lián)合學(xué)習(xí)方案,本文方案無需對(duì)樣本與標(biāo)簽特征進(jìn)行編碼與解碼的單獨(dú)學(xué)習(xí),而是使用深層網(wǎng)絡(luò)學(xué)習(xí)文本特征,使用最大似然得到序列的標(biāo)簽。該模型具體細(xì)節(jié)如下:

1)自注意力機(jī)制。自注意力是注意力機(jī)制的一種特殊情況,其輸入為一個(gè)單獨(dú)的分布式序列,即在沒有任何額外信息的情況下,仍可從句子中獲取需要關(guān)注的信息。自注意力機(jī)制已經(jīng)在機(jī)器翻譯、文本表示等自然語言處理任務(wù)中被成功使用。其計(jì)算公式如下:

首先計(jì)算當(dāng)前隱態(tài)與之前隱態(tài)的匹配度得分,作為當(dāng)前隱藏單元的注意力得分;其次將得分通過歸一化映射轉(zhuǎn)換成概率值;最后對(duì)當(dāng)前狀態(tài)以前的所有隱藏狀態(tài)加權(quán)求和。

2)多頭注意力機(jī)制。若只計(jì)算一個(gè)注意力得分,則難以捕捉到輸入句子中所有空間的信息,因此,Vaswani 等[11]提出多頭注意力機(jī)制。多頭注意力機(jī)制是點(diǎn)乘注意力的堆疊版,其基本思想是將輸入線性投影到不同空間h 次,每一次分別做點(diǎn)乘注意力計(jì)算。本文使用的多頭注意力機(jī)制基于自注意力機(jī)制之上,詳細(xì)過程如圖6 所示:首先將輸入矩陣X 映射為K、Q、V 三個(gè)矩陣,再分別對(duì)K、Q、V 三個(gè)矩陣做h 個(gè)不同的線性變化;然后將線性變化后的結(jié)果輸入至自注意力機(jī)制,并行產(chǎn)生h 個(gè)不同的注意力得分;最后將h 個(gè)得分進(jìn)行拼接,并使用線性映射融合三個(gè)矩陣通道,得到輸出矩陣Y。

圖6 多頭注意力模型Fig. 6 Multi-head attention model

3)非線性映射層。非線性映射層是避免多層網(wǎng)絡(luò)等同于單層線性網(wǎng)絡(luò)的重要步驟。由于注意力機(jī)制使用加權(quán)和來生成輸出向量,其表示能力受到了一定限制。對(duì)此,需要采用非線性子層對(duì)底層輸入進(jìn)行非線性映射。在原始模型中,使用類似于多層感知機(jī)的全連接層作為非線性映射層。

4)殘差機(jī)制。在誤差反向傳播時(shí),由第L 層傳播至輸入的第一層的過程中,會(huì)有很多參數(shù)與導(dǎo)數(shù)的連乘計(jì)算,從而會(huì)導(dǎo)致梯度的消失或者膨脹。對(duì)此,He等[16]借鑒了高速公路網(wǎng)絡(luò)跨層連接的思想,將原本帶權(quán)重的殘差項(xiàng)改為恒等映射,即將某一層的輸出直接短接到兩層之后,而跳過的兩層只需擬合上層輸出和目標(biāo)之間的殘差即可。計(jì)算式如下:

若本層網(wǎng)絡(luò)學(xué)習(xí)到的預(yù)測(cè)值和觀測(cè)值之間的差距較小(或下層誤變大時(shí)),則下個(gè)學(xué)習(xí)目標(biāo)是恒等映射的學(xué)習(xí),即使輸入X近似于H(X),從而保持模型精度不會(huì)下降。

本文的改進(jìn)模型1 是在原始模型的基礎(chǔ)上將雙向長短時(shí)記憶網(wǎng)絡(luò)嵌入于自注意力機(jī)制中,以更好地提取文本與標(biāo)簽的時(shí)序特征。改進(jìn)的具體細(xì)節(jié)如下:

1)基于雙向 LSTM 的注意力層。Jozifowicz 等[17]提出雙向LSTM,是前向LSTM 與反向LSTM 結(jié)果的拼接,可有效利用文本序列的上下文信息。將注意力機(jī)制與雙向LSTM 進(jìn)行結(jié)合,可有效克服注意力機(jī)制在時(shí)序特征提取方面的不足?;贚STM的注意力層的相關(guān)計(jì)算公式如下:

其中:T為輸入序列的長度;eki為第i個(gè)節(jié)點(diǎn)對(duì)第k個(gè)節(jié)點(diǎn)的注意力得分;αki即為第i 個(gè)節(jié)點(diǎn)對(duì)第k 個(gè)節(jié)點(diǎn)的注意力權(quán)重;hi為前向隱層序列的第i個(gè)向量;hk為反向隱層序列的第k 個(gè)向量;C 為語義編碼;hk′則為最終的特征向量,最終提取的特征向量對(duì)關(guān)鍵詞分配了較多注意力,特征提取有效突出了關(guān)鍵詞的作用。

2)非線性映射層。該部分的前饋?zhàn)訉佑删€性整流函數(shù)(Rectified Linear Unit,ReLU)連接的兩個(gè)線性層組成,計(jì)算公式如下:

其中,W1∈Rd*hf與W2∈Rhf*d是可訓(xùn)練的權(quán)重矩陣。使用殘差機(jī)制對(duì)LSTM 的改進(jìn)如下:在雙向LSTM 中使用殘差機(jī)制,有選擇地對(duì)隱層進(jìn)行更新,從而提高訓(xùn)練速度。

本文的改進(jìn)模型2 則在原始模型的基礎(chǔ)上將注意力機(jī)制引入卷積模型中,從而在提取更多信息的基礎(chǔ)上,更好地加速模型訓(xùn)練。具體細(xì)節(jié)如下:

1)加入CNN 的注意力層。對(duì)于卷積層,本文使用門控線性單元(Gated Linear Unit,GLU)。與標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)相比,GLU更易于學(xué)習(xí),并且在語言建模和及其翻譯的任務(wù)上取得了較好的效果。GLU的輸出激活計(jì)算如下:

并且分別在卷積網(wǎng)絡(luò)之前的輸入層和池化層使用注意力機(jī)制,使整個(gè)網(wǎng)絡(luò)不僅能關(guān)注整體信息還能關(guān)注到局部信息。

2)非線性映射層。該部分的前饋?zhàn)訉尤杂蒖eLU 連接的兩個(gè)線性層組成。

2.3.4 分類模塊

由于語義標(biāo)簽之間存在依賴性,傳統(tǒng)的大多數(shù)網(wǎng)絡(luò)使用解碼層學(xué)習(xí)標(biāo)簽間的順序關(guān)系。本文所設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)將文本與標(biāo)簽一同作為網(wǎng)絡(luò)輸入進(jìn)行特征提取,為探究深度模型對(duì)依賴特征學(xué)習(xí)的性能,在分類模塊中分別使用CRF 層與Softmax層對(duì)實(shí)體進(jìn)行分類,具體算法如下。

1)使用CRF 作為分類層。CRF 層以路徑為單位,考慮路徑概率,其原始目標(biāo)函數(shù)如下:

為簡化該目標(biāo)函數(shù)做了兩個(gè)假設(shè):首先假設(shè)該條件概率為指數(shù)分布;其次,假設(shè)輸出間的關(guān)聯(lián)僅發(fā)生在相鄰兩個(gè)位置上。最終,其目標(biāo)函數(shù)如下:

對(duì) 于 輸 入 序 列 為x=(x1,x2,…,xn),標(biāo) 簽 序 列 為y={y1,y2,…,yn}的訓(xùn)練集,使用最大似然法對(duì)目標(biāo)函數(shù)求解參數(shù)值。預(yù)測(cè)階段,CRF 模型根據(jù)深度注意力網(wǎng)絡(luò)的最后一層產(chǎn)生的隱藏狀態(tài)預(yù)測(cè)相應(yīng)的標(biāo)簽。

2)使用Softmax 作為分類層。模型訓(xùn)練階段,對(duì)于給定的輸入x=(x1,x2,…,xn),相應(yīng)的標(biāo)簽序列y={y1,y2,…,yn}的似然函數(shù)為:

預(yù)測(cè)階段,Softmax 模型根據(jù)深度注意力網(wǎng)絡(luò)的最高關(guān)注子層產(chǎn)生的隱層表示預(yù)測(cè)相應(yīng)的標(biāo)簽,計(jì)算式如下:

3 實(shí)驗(yàn)與結(jié)果分析

本文的語料庫以眾源數(shù)據(jù)庫(OpenStreetMap,OSM)和中國礦業(yè)大學(xué)測(cè)繪學(xué)院收集的地理實(shí)體作為基礎(chǔ)地名,通過爬取百度百科、維基百科及各種煤礦安全相關(guān)文獻(xiàn)的正文及簡介,清洗并標(biāo)定了實(shí)體及關(guān)系的數(shù)據(jù)集合。訓(xùn)練集包含8 233 425 個(gè)句子,其中包含23 個(gè)可能的關(guān)系及1 個(gè)不相關(guān)負(fù)例,實(shí)體對(duì)921 876 個(gè),關(guān)系事實(shí)425 871 個(gè);測(cè)試集包含2 254 162個(gè)句子,其中實(shí)體對(duì)116 781個(gè),關(guān)系事實(shí)34 565個(gè)。

3.1 模型設(shè)置及評(píng)價(jià)標(biāo)準(zhǔn)

3.1.1 模型初始化

針對(duì)原始模型,設(shè)置模型所有子層的初始權(quán)重為一個(gè)隨機(jī)的正交矩陣。設(shè)置其他參數(shù)的初始值為基于(0,1d)高斯分布的隨機(jī)采樣,其中d為隱層單元數(shù)。嵌入層的初始權(quán)重設(shè)置為預(yù)訓(xùn)練模型的權(quán)重。設(shè)置所有Dropout 層參數(shù)為0.8,即以0.8 的概率對(duì)神經(jīng)元進(jìn)行保留。設(shè)置隱層個(gè)數(shù)為15,隱層單元數(shù)為200。設(shè)置多頭自注意力機(jī)制的head 數(shù)為8,使用人工手動(dòng)調(diào)參。

3.1.2 學(xué)習(xí)參數(shù)設(shè)置

使 用 Adam(ε= 106,ρ= 0.95)作 為 隨 機(jī) 梯 度 下 降(Stochastic Gradient Descent ,SGD)的優(yōu)化算法,即設(shè)置初始學(xué)習(xí)率為1.0,使用梯度的一階矩和二階矩動(dòng)態(tài)調(diào)整學(xué)習(xí)率,從而使梯度的下降較為平穩(wěn)。同時(shí)為避免梯度爆炸,將梯度范數(shù)剪裁為1.0。

3.1.3 評(píng)估標(biāo)準(zhǔn)

本文使用F1-score(F1)作為評(píng)價(jià)指標(biāo)對(duì)命名實(shí)體識(shí)別與實(shí)體關(guān)系抽取的效果進(jìn)行評(píng)估。F1的計(jì)算公式如下:

其中:P表示精確度;R表示召回率;TP表示測(cè)試集中的正例被正確預(yù)測(cè)為正例的個(gè)數(shù);FP表示測(cè)試集中的正例被誤分類為負(fù)例的個(gè)數(shù);FN表示測(cè)試集中的負(fù)例被誤分類為正例的個(gè)數(shù)。

3.2 結(jié)果分析

3.2.1 模型深度對(duì)結(jié)果的影響分析

如表1 所示,本文研究了模型深度對(duì)序列標(biāo)注效果的影響。可以看到,在層數(shù)為4,詞嵌入模型為Glove 時(shí),F(xiàn)1 僅為73.2%。因此本文對(duì)網(wǎng)絡(luò)層數(shù)進(jìn)行不斷疊加,經(jīng)實(shí)驗(yàn)可得,10層的網(wǎng)絡(luò)表現(xiàn)接近最佳,并且在12 層可以看到F1 的提升不再明顯,因此網(wǎng)絡(luò)深度最佳值為10。

表1 模型參數(shù)實(shí)驗(yàn)對(duì)比結(jié)果Tab. 1 Experimental comparison results of model parameters

3.2.2 模型寬度對(duì)結(jié)果的影響分析

同樣,針對(duì)網(wǎng)絡(luò)隱藏單元的個(gè)數(shù)對(duì)標(biāo)注效果的影響,本文也設(shè)計(jì)了探究實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表1。可以看到,在隱藏單元數(shù)為400時(shí)F1達(dá)到了83.7%,本文模型表現(xiàn)接近最好,再繼續(xù)加寬網(wǎng)絡(luò),模型的提升并不明顯,反而還增加了需要承擔(dān)的訓(xùn)練時(shí)間成本,因此網(wǎng)絡(luò)寬度最佳值為400。

3.2.3 投影層對(duì)結(jié)果的影響分析

Gormley等[18]研究表明,可以通過對(duì)未標(biāo)記的詞嵌入進(jìn)行預(yù)訓(xùn)練來提高下游任務(wù)的性能。本文使用多種詞嵌入對(duì)網(wǎng)絡(luò)進(jìn)行初始化,其中:Glove 為利用了全局信息的詞嵌入模型;Word2Vec 為淺層的詞嵌入模型;Fasttext 在Word2Vec 基礎(chǔ)上增加了多元語法等信息;Random 為隨機(jī)初始化的詞分布式表示。將以上詞嵌入方法與本文提出的詞嵌入方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見表1??梢钥吹?,使用一種預(yù)訓(xùn)練詞嵌入模型的最佳效果比不使用詞嵌入模型的F1 最高增加了5.3 個(gè)百分點(diǎn),而使用本文嵌入方法相較最好的單一詞嵌入方法的F1又增加了1.2個(gè)百分點(diǎn)。

3.2.4 分類層對(duì)結(jié)果的影響分析

為提取標(biāo)簽之間的依賴關(guān)系,傳統(tǒng)模型普遍采取解碼層提取標(biāo)簽間的依存關(guān)系,但解碼層會(huì)大大降低模型的學(xué)習(xí)速度,因此,本文對(duì)深度網(wǎng)絡(luò)中的解碼層設(shè)計(jì)實(shí)驗(yàn)進(jìn)行探究,結(jié)果如表2 所示??梢钥吹剑cSoftmax 使用最大似然原理的分類層相比,在深度網(wǎng)絡(luò)中使用解碼層的模型性能反而下降。由此說明,深度網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力已經(jīng)足夠強(qiáng)大,無需特定的解碼層就可捕獲標(biāo)簽間的依賴關(guān)系。

表2 分類層對(duì)模型的影響Tab. 2 Influence of classification layer on model

3.2.5 與其他模型的對(duì)比分析

將本文模型與經(jīng)典的實(shí)體識(shí)別與關(guān)系抽取模型在本文數(shù)據(jù)集上進(jìn)行了如表3 所示的對(duì)比實(shí)驗(yàn)。其中多特征組合嵌入模型(Feature-Rich Compositional Embedding Models,F(xiàn)CM)[18]與 LINE(Large-scale Information Network Embedding)[19]為基于串行結(jié)構(gòu)的實(shí)體識(shí)別與關(guān)系抽取模型:FCM 將文本表示與詞向量表示進(jìn)行融合,然后分步進(jìn)行實(shí)體識(shí)別與關(guān)系抽??;LINE 則是基于網(wǎng)絡(luò)的嵌套方法分步抽取實(shí)體及實(shí)體間關(guān)系。由實(shí)驗(yàn)結(jié)果可以看到,聯(lián)合學(xué)習(xí)兩項(xiàng)任務(wù)相較于串行學(xué)習(xí)效果更好。多實(shí)例聯(lián)合抽取(Multi-instance Relation extraction,MultiR)模型[20]與增量集束搜索算法和結(jié)構(gòu)化感知器的聯(lián)合抽取算法 DS-Joint[21]為聯(lián)合學(xué)習(xí)模型,其中:MultiR 針對(duì)遠(yuǎn)程監(jiān)督的噪聲問題提出了多實(shí)例的聯(lián)合學(xué)習(xí)方法;DS-Joint則在標(biāo)注數(shù)據(jù)集中使用結(jié)構(gòu)感知器對(duì)實(shí)體與實(shí)體關(guān)系進(jìn)行聯(lián)合抽取??梢钥闯觯c經(jīng)典淺層聯(lián)合模型相比,本文模型的F1 有了近 5 個(gè)百分點(diǎn)的提升。LSTM-CRF[12]與 LSTM-LSTM[12]是序列標(biāo)注任務(wù)中的經(jīng)典模型;LSTM-SA-LSTM-Bias[12]則將注意力機(jī)制引入LSTM-LSTM,在準(zhǔn)確率上達(dá)到了更好的效果。與序列標(biāo)注領(lǐng)域常用的經(jīng)典編碼解碼模型相比,本文方案也有了一定提升;而相較于編碼-解碼結(jié)構(gòu)的前沿模型Transformer[11],本文提出的聯(lián)合深度注意力網(wǎng)絡(luò)Joint-DeepAttention 的F1高出了1.5個(gè)百分點(diǎn)。上述實(shí)驗(yàn)結(jié)果驗(yàn)證了本文模型的有效性。

表3 本文模型與傳統(tǒng)抽取方法的實(shí)驗(yàn)結(jié)果對(duì)比 單位:%Tab. 3 Comparison of experimental results between the proposed model and traditional extraction methods unit:%

3.2.6 探究模型有效性

在煤礦安全領(lǐng)域數(shù)據(jù)集上抽取四種主要的實(shí)體類型進(jìn)行模型性能的測(cè)試,實(shí)驗(yàn)結(jié)果如表4所示。表4中:PER為人名,ORG 為組織結(jié)構(gòu)名,LOC 為區(qū)域名,EQU 為煤礦設(shè)備名??梢钥吹剑R(shí)別效果較好的實(shí)體類型為人名,區(qū)域名、組織機(jī)構(gòu)名與設(shè)備名由于類型多變、語義豐富,F(xiàn)1得分相對(duì)較低,但相較于人名長度短、位置單一的識(shí)別優(yōu)勢(shì),其識(shí)別效果的差距可以接受。

同樣對(duì)四種關(guān)系類型進(jìn)行抽取,完成模型性能的測(cè)試,實(shí)驗(yàn)結(jié)果如表5所示。表5中:SY 為地理從屬關(guān)系;JZ為人與機(jī)構(gòu)間的從屬關(guān)系;SS 為實(shí)施者與被實(shí)施者的關(guān)系,如“運(yùn)輸工超速駕駛機(jī)車”中運(yùn)輸工與機(jī)車間的關(guān)系;ZW為職務(wù)關(guān)系,為機(jī)構(gòu)內(nèi)部人與人的關(guān)系。可以看出,由于在煤礦安全領(lǐng)域語料加入地理語料,施事關(guān)系與地理從屬關(guān)系頻繁出現(xiàn),且由于實(shí)體特征較明顯,識(shí)別效果較好。

表4 實(shí)體識(shí)別結(jié)果 單位:%Tab. 4 Entity recognition results unit:%

表5 關(guān)系抽取結(jié)果 單位:%Tab. 5 Relation extraction results unit:%

4 結(jié)語

本文針對(duì)礦山領(lǐng)域知識(shí)具有的語義豐富等特點(diǎn),提出了一種端到端的聯(lián)合學(xué)習(xí)實(shí)體及其關(guān)系的深度注意力模型,該模型與詞向量融合模型進(jìn)行結(jié)合,并通過實(shí)驗(yàn)驗(yàn)證了結(jié)合不同詞向量的聯(lián)合學(xué)習(xí)模型可豐富詞的表達(dá)、增加任務(wù)間的交互特征,同時(shí)可提高實(shí)體抽取和實(shí)體關(guān)系抽取兩個(gè)任務(wù)的準(zhǔn)確率。另一方面,探尋了解碼模塊在深度網(wǎng)絡(luò)中的作用,證明了解碼模塊在基于深度網(wǎng)絡(luò)的序列標(biāo)注任務(wù)中可被省略從而提升模型訓(xùn)練速度。最后,本文提出了兩種模型增強(qiáng)方法,用戶可根據(jù)對(duì)模型的精度與速度的平衡進(jìn)行模型增強(qiáng)方向的選擇。

下一步工作將在已提取的實(shí)體及實(shí)體間關(guān)系的三元組基礎(chǔ)上,形成本體化的知識(shí)表達(dá),同時(shí)結(jié)合知識(shí)融合與知識(shí)加工技術(shù),形成面向礦井安全領(lǐng)域的結(jié)構(gòu)化語義知識(shí)庫,從而通過聚合大量知識(shí)的方式實(shí)現(xiàn)礦井安全領(lǐng)域知識(shí)的快速響應(yīng)與推理。

猜你喜歡
解碼向量標(biāo)簽
向量的分解
聚焦“向量與三角”創(chuàng)新題
文化解碼
解碼eUCP2.0
文化 解碼
文明 解碼
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
讓衣柜擺脫“雜亂無章”的標(biāo)簽
驻马店市| 长沙市| 专栏| 革吉县| 泸溪县| 突泉县| 龙州县| 海晏县| 南城县| 道孚县| 宜兰县| 塔城市| 仪征市| 宁明县| 克拉玛依市| 灌阳县| 镇康县| 米泉市| 黄龙县| 金昌市| 谢通门县| 温泉县| 宣威市| 泽库县| 钟祥市| 介休市| 崇礼县| 上林县| 台东县| 崇仁县| 尼木县| 长乐市| 和林格尔县| 亚东县| 察哈| 梅河口市| 丹寨县| 九龙坡区| 延津县| 临沭县| 沙湾县|