国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)融合的中文命名實體識別與應(yīng)用

2021-06-29 10:58汪小龍吳曲寧范佳佳
關(guān)鍵詞:向量實體建筑施工

汪小龍,吳曲寧,范佳佳

(安徽建筑大學(xué) a. 機械與電氣工程學(xué)院; b. 電子與信息工程學(xué)院,安徽 合肥 230601)

0 引言

互聯(lián)網(wǎng)的迅速發(fā)展導(dǎo)致文本信息量呈指數(shù)級增長,信息抽取技術(shù)旨在從這些海量的文本信息中挖掘出有價值的關(guān)鍵信息.命名實體識別作為信息抽取的重要子任務(wù),受到了廣大國內(nèi)外研究者的關(guān)注.命名實體識別NER屬于自然語言處理NLP中的序列標(biāo)注問題,其任務(wù)就是給輸入語句的每一個字做實體標(biāo)注(如地名、機構(gòu)名、人名等).

近年來,基于神經(jīng)網(wǎng)絡(luò)和基于語言模型的NER方法被相繼提出.2003年,Hammerton等人[1]首次提出使用神經(jīng)網(wǎng)絡(luò)模型解決NER問題,其網(wǎng)絡(luò)結(jié)構(gòu)是單向的LSTM.2011年,Collobert等[2]利用CNN和CRF構(gòu)建模型處理NER問題.2015年,Huang等[3]提出了BiLSTM-CRF模型,并加入了手工拼寫特征.

相比于CNN,RNN更適合處理序列文本,但RNN會存在梯度消失問題.通常用LSTM解決普通RNN梯度消失問題,但LSTM也只是緩解這個問題,而CNN可以捕捉全局信息.對于命名實體識別任務(wù),普通的CNN為了覆蓋更多的原始信息,會加深網(wǎng)絡(luò)的層數(shù),最終導(dǎo)致模型龐大并且難以訓(xùn)練.為此,2016年,Yu等[4]提出膨脹卷積Dilated Convolution.膨脹卷積在標(biāo)準(zhǔn)卷積的卷積圖上注入空洞,可以快速覆蓋全部輸入數(shù)據(jù).雖然膨脹卷積神經(jīng)網(wǎng)絡(luò)可以獲取全局的信息,卻會丟失局部信息,所以本文結(jié)合LSTM和DCNN的優(yōu)點來解決處理長文本序列的問題.

中文漢字存在多義性,傳統(tǒng)詞向量(Skip-gram、CBOW等)無法表征漢字的多義性,而語言模型可以預(yù)訓(xùn)練詞表征解決一詞多義問題.Peters等[5]利用LSTM構(gòu)建ELMo語言模型.2017年,Vaswani等[6]提出了Transformer網(wǎng)絡(luò)結(jié)構(gòu),其提取特征信息能力強于RNN.2018年, Devlin等[7]利用Transformer構(gòu)建的BERT模型比Radford等[8]提出的GPT模型在表征漢字語義方面效果更好.由于BERT模型的有效性,2019年,楊飄等[9]提出BERT-BiGRU-CRF模型,王子牛等[10]使用BERT-BiLSTM-CRF模型來解決中文NER問題,但這2個模型只用了單一的循環(huán)神經(jīng)網(wǎng)絡(luò).

本文提出的BLDC-NER模型可以較好地解決長序列和漢字多義性問題.命名實體識別是自動構(gòu)建知識圖譜的關(guān)鍵任務(wù),其研究主要用于金融和醫(yī)療等領(lǐng)域.本文將BLDC-NER模型應(yīng)用在建筑施工安全領(lǐng)域,實現(xiàn)該領(lǐng)域?qū)嶓w的自動識別.

1 BLDC-NER模型

1.1 BLDC-NER模型結(jié)構(gòu)

BLDC-NER模型整體結(jié)構(gòu)如圖1所示,模型由3部分構(gòu)成,分別是BERT層、BiLSTM-DCNN層以及解碼層.

圖1 BLDC-NER模型整體結(jié)構(gòu)

模型首先利用BERT層對輸入文本中每個字符進(jìn)行編碼,獲取每個字符的動態(tài)語義向量.接著利用BiLSTM-DCNN層對字向量序列進(jìn)行進(jìn)一步語義編碼,BiLSTM可以捕捉當(dāng)前字符的上下文時序信息,DCNN模塊可以獲取輸入文本的全局信息,將兩者編碼后的向量融合,使得模型既能獲取文本的上下文時序信息,也能捕獲輸入文本的全局語義特征,輸出的語義編碼則包含更豐富的特征信息.最后將融合后的語義向量輸入CRF層進(jìn)行解碼,CRF層可以學(xué)習(xí)標(biāo)簽之間的約束信息,從而提升最終的預(yù)測結(jié)果.

1.2 BERT層

BERT采用Transformer的編碼器作為特征抽取器,通過遮掩語言建模和預(yù)測句子間關(guān)系來構(gòu)建語言模型.遮掩語言建模任務(wù)是隨機遮蓋每一個句子中15%的字,讓模型來預(yù)測這些字,這種方法不再是簡單地將正序和反序的句子編碼拼接起來,而是實現(xiàn)了雙向語義建模;自然語言處理中有些任務(wù)需要對句子進(jìn)行理解,預(yù)測句子間關(guān)系訓(xùn)練任務(wù)是為了學(xué)習(xí)句子間的相關(guān)性.BERT模型的結(jié)構(gòu)如圖2所示.

圖2 BERT模型結(jié)構(gòu)

Transformer是一種編碼器-解碼器結(jié)構(gòu),其中的編碼器采用了自注意力機制.Transformer編碼器由輸入層以及多個子編碼模塊組成.由于Transformer缺少循環(huán)神經(jīng)網(wǎng)絡(luò)的迭代操作,無法確定文本中每個字的位置,必須提供每個字的位置信息給Transformer.Vaswani等使用正弦函數(shù)和余弦函數(shù)的線性變換提供模型位置信息.

PE(pos,2i)=sin(pos/10 0002i/dmodel),

(1)

PE(pos,2i+1)=cos(pos/10 0002i/dmodel).

(2)

公式(1)和(2)中pos表示句中字的位置,i指的是詞向量的維度.

每個子編碼模塊皆由自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層組成,自注意力層和前饋神經(jīng)網(wǎng)絡(luò)層后均再接個殘差連接與歸一化層.

Q=XWq,

(3)

K=XWk,

(4)

V=XWv,

(5)

(6)

1.3 BiLSTM-DCNN層

BiLSTM-DCNN層由BiLSTM層和多個DCNN模塊組合,將兩者的輸出特征向量進(jìn)行融合,從而使特征向量包含更豐富的特征信息.

BiLSTM是正向LSTM和反向LSTM組合,單向LSTM只能捕捉文本上文信息或者下文信息,而BiLSTM可以捕捉雙向信息.

LSTM結(jié)構(gòu)表示公式為

ft=σ(Wfxt+Vfht-1+bf),

(7)

it=σ(Wixt+Viht-1+bi),

(8)

ot=σ(Woxt+Voht-1+bo),

(9)

(10)

(11)

ht=ot× tanh(ct),

(12)

(13)

在DCNN中,隨著層數(shù)的增加,參數(shù)數(shù)量呈線性增加,而感受野呈指數(shù)增加,這樣便可捕捉輸入全局信息.為防止過擬合,本文模型使用4個DCNN模塊.

1.4 解碼層

對于觀測序列X=(x1,x2,...,xn)和對應(yīng)的標(biāo)記序列Y=(y1,y2,...,yn),條件隨機場(Conditional Random Fields,CRF)在訓(xùn)練時,利用訓(xùn)練集通過極大似然估計法得到條件概率模型P(Y|X);預(yù)測時,通過觀測序列求出條件概率P(Y|X)最大的輸出序列.

定義打分函數(shù)為F(X,Y),如式(14),其中si,yi表示編碼層輸出的值,即當(dāng)前標(biāo)簽分?jǐn)?shù);tyi-1,yi表示標(biāo)簽轉(zhuǎn)移分?jǐn)?shù).

(14)

正確路徑的概率公式為

P(Y|X)=eF(X,Y)/∑Y∈YXeF(X,Y).

(15)

對于概率問題,一般使用極大似然估計法來計算,對訓(xùn)練集合{(xi,yi)},其似然函數(shù)為公式為

(16)

2 數(shù)據(jù)集及評價指標(biāo)

2.1 試驗數(shù)據(jù)集

本文選取的數(shù)據(jù)集是2個公開中文數(shù)據(jù)集MSRA[11]、RESUME[12]和1個自制的建筑施工安全數(shù)據(jù)集,數(shù)據(jù)集大小如表1所示.

表1 中文數(shù)據(jù)集 ×103

MSRA數(shù)據(jù)集包含人名、地名和機構(gòu)名3類實體,RESUME包含人名、專業(yè)、學(xué)位、職業(yè)、機構(gòu)名、地名、國籍和種族8類實體.

根據(jù)知識圖譜的應(yīng)用需求,本文對建筑施工安全事故領(lǐng)域定義了6類實體,即事故名稱、公司名稱、施工項目名稱、事故發(fā)生時間、事故發(fā)生地點和事故造成損失,如表2所示.數(shù)據(jù)集語料是從網(wǎng)絡(luò)爬取的建筑施工安全事故案例,經(jīng)過清洗、整理得到1 200條文本數(shù)據(jù),并利用YEDDA開源工具[13]對文本采用BIO標(biāo)注策略進(jìn)行標(biāo)注.

表2 建筑施工安全事故實體類型

2.2 評價指標(biāo)

在測試過程中,只有當(dāng)1個實體的邊界和實體的類型完全正確時,才判斷該實體預(yù)測正確.

NER的評價指標(biāo)有精確率(P)、召回率(R)和F1值.具體定義為

(17)

(18)

(19)

式中:Tp為模型識別正確的實體個數(shù);Fp為模型誤檢的實體個數(shù);Fn為模型漏檢相關(guān)實體的個數(shù).

3 試驗及結(jié)果分析

3.1 試驗環(huán)境

本文試驗所采用的硬件和軟件環(huán)境如表2所示.

表3 試驗環(huán)境

3.2 試驗參數(shù)設(shè)置和訓(xùn)練方式

BERT的網(wǎng)絡(luò)層數(shù)是12,隱藏層的維度是768,注意力機制的頭數(shù)是12;每次讀取的序列長度設(shè)置為256,每次訓(xùn)練的批次大小為16;學(xué)習(xí)率為5×10-5;丟棄率為0.1;優(yōu)化器選擇Adam;正反向LSTM的隱藏單元個數(shù)均為128;為防止梯度爆炸,使用了梯度裁剪技術(shù),設(shè)置為5.

BLDC-NER模型有2種訓(xùn)練方式:一種是直接使用大量無標(biāo)注文本預(yù)訓(xùn)練好的BERT模型,接下來用已經(jīng)標(biāo)注的數(shù)據(jù)集來對整個模型微調(diào);另一種是有監(jiān)督學(xué)習(xí),隨機初始化整個模型的參數(shù),然后用標(biāo)注好的數(shù)據(jù)集對整個模型進(jìn)行訓(xùn)練.考慮到本文采用的數(shù)據(jù)集較小,使用第一種訓(xùn)練方式.

3.3 試驗結(jié)果分析

為了驗證基于BERT嵌入比傳統(tǒng)詞向量的效果好,同時也為了驗證BLDC-NER模型的識別更準(zhǔn)確,本文在各個數(shù)據(jù)集上進(jìn)行試驗比較,試驗結(jié)果如表4所示.

表4 各模型在3個數(shù)據(jù)集測試集上的結(jié)果 %

表4中BLDC-NER*使用傳統(tǒng)詞向量(使用Skip-gram)和分詞后的詞向量進(jìn)行拼接表征文本中每個漢字,其在MSRA、RESUME上的F1值分別為90.09%和90.56%,比BLDC-NER在2個數(shù)據(jù)集上的結(jié)果分別低了4.69%和5.12%.Lattice模型在當(dāng)時取得最佳結(jié)果,使用的是傳統(tǒng)詞向量方法,其在MSRA、RESUME上的F1值分別為93.18%和94.46%,相比于BLDC-NER模型的結(jié)果具有一定的差距.這組對比試驗表明了BERT比固定詞向量表征漢字的語義更好,可以使模型理解更深的語義信息.

目前常被用來解決NER問題的是BERT-BiLSTM-CRF模型,其在2個數(shù)據(jù)集上的精確率、召回率和F1值均低于BLDC-NER模型.BLDC-NER模型在MSRA、RESUME上的F1值分別為94.78%和95.68%,表明本文模型具有更佳的識別效果.

在建筑施工安全數(shù)據(jù)集中,隨機將語料按照7∶2∶1比例劃分,為了避免隨機性劃分語料造成試驗誤差,按照相同的比例進(jìn)行5次重復(fù)試驗, 對5次試驗結(jié)果取平均為最后結(jié)果,試驗結(jié)果如表5.BLDC-NER模型在施工安全數(shù)據(jù)集上的F1值為95.24%,識別效果優(yōu)于BERT-BiLSTM-CRF模型.圖3是2個模型在建筑施工安全數(shù)據(jù)集中訓(xùn)練的Loss值變化,可以看出BLDC-NER模型在訓(xùn)練過程中擬合速度更快,相比于BERT-BiLSTM-CRF模型更快達(dá)到平衡狀態(tài).

圖3 在建筑施工安全數(shù)據(jù)集訓(xùn)練時Loss值

表5 BLDC-NER模型對不同類型實體的識別結(jié)果 %

從表5中可以看出:在MSRA數(shù)據(jù)集中,機構(gòu)名的結(jié)果較差,因為在文本中機構(gòu)名常常存在實體嵌套和縮寫現(xiàn)象.預(yù)測錯誤結(jié)果見表6,例句1中,模型將“比利時通用銀行”識別為機構(gòu)名,這是因為該實體存在嵌套;例句2中,模型未能識別出實體,“經(jīng)貿(mào)代表團”是機構(gòu)名的縮寫.在RESUME數(shù)據(jù)集中,機構(gòu)名和專業(yè)實體識別的結(jié)果較差,因為文本中存在書名和實體嵌套.例句3中,模型將書名識別為機構(gòu)名;例句4中,是職業(yè)的實體中存在專業(yè)的實體.在建筑施工安全數(shù)據(jù)集中,公司名、時間和損失3類實體識別的F1值較高,主要是因為這3類實體有明顯的邊界,表述形式較為相似.項目名和事故類型識別結(jié)果較差,例句5中,項目名中嵌入公司名稱,導(dǎo)致預(yù)測錯誤;例句6中,由于事故類型表達(dá)形式多樣化,對訓(xùn)練集中未出現(xiàn)過的實體無法正確識別.

表6 BLDC-NER預(yù)測錯誤的結(jié)果

4 結(jié)語

本文提出的BLDC-NER模型能夠較好地捕捉長序列文本中豐富的特征信息,利用動態(tài)向量編碼漢字解決傳統(tǒng)詞向量存在的缺陷,在MSRA、RESUME數(shù)據(jù)集上的F1值為94.78%、95.68%,識別結(jié)果超過了Lattice和BERT-BiLSTM-CRF等模型,本文模型在中文命名實體識別任務(wù)中具有一定的優(yōu)勢.在建筑施工安全領(lǐng)域中,BLDC-NER模型處理中文命名實體識別任務(wù)時其F1值達(dá)到95.24%,優(yōu)于BERT-BiLSTM-CRF模型的識別結(jié)果,同時訓(xùn)練時收斂速度更快.但是,對于文本中存在實體嵌套和縮寫時,BLDC-NER模型識別效果不佳.另外,本文自制的建筑施工安全數(shù)據(jù)集存在語料范圍局限性以及定義的實體類別不夠詳細(xì),有必要進(jìn)一步擴大語料范圍,定義更全面的實體類別,從而滿足該領(lǐng)域知識圖譜的構(gòu)建.

猜你喜歡
向量實體建筑施工
向量的分解
建筑施工及加強建筑施工安全管理
土木工程建筑施工技術(shù)創(chuàng)新
建筑施工管理工作探討
土木工程建筑施工技術(shù)創(chuàng)新初探
聚焦“向量與三角”創(chuàng)新題
前海自貿(mào)區(qū):金融服務(wù)實體
實體書店步入復(fù)興期?
兩會進(jìn)行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
定日县| 文化| 广宗县| 宁德市| 句容市| 临江市| 通州区| 横峰县| 苗栗县| 涪陵区| 长宁区| 兴业县| 东乡| 江都市| 吴忠市| 福建省| 江津市| 措勤县| 军事| 高平市| 台南市| 桑日县| 景宁| 韩城市| 六盘水市| 封开县| 锡林浩特市| 鄂托克前旗| 饶阳县| 阿坝县| 驻马店市| 长兴县| 碌曲县| 壤塘县| 蒙阴县| 东城区| 金寨县| 泸州市| 山阳县| 荔波县| 巴青县|