摘" 要:針對(duì)中文命名實(shí)體識(shí)別模型存在的語(yǔ)義信息不明和實(shí)體邊界模糊的問(wèn)題,該文提出一種基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別方法:先將預(yù)訓(xùn)練模型中提取的字符特征結(jié)合詞典信息構(gòu)成文本的詞匯特征,再對(duì)特征信息進(jìn)行提取并識(shí)別上下文語(yǔ)義特征及全局語(yǔ)義特征,最后解碼層輸出實(shí)體識(shí)別的最優(yōu)結(jié)果。在Resume數(shù)據(jù)集和Weibo數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果表明,該模型相較于經(jīng)典的實(shí)體識(shí)別模型有更好的表現(xiàn)。
關(guān)鍵詞:命名實(shí)體識(shí)別;字詞融合;雙向門(mén)控循環(huán)單元;迭代膨脹卷積網(wǎng)絡(luò);多頭自注意力機(jī)制
中圖分類(lèi)號(hào):O157.5""" 文獻(xiàn)標(biāo)識(shí)碼:A
DOI:10.16601/j.cnki.issn2096-7330.2024.02.007文章編號(hào):2096-7330(2024)02-0038-07
收稿日期:2023-09-08
基金項(xiàng)目:廣西自然科學(xué)基金項(xiàng)目“基于深度學(xué)習(xí)的視頻編碼聯(lián)合復(fù)雜度廣義率失真模型及其應(yīng)用”(2020GXNSFAA297184)
通信作者:夏馨,南寧師范大學(xué)碩士研究生,1583482868@qq.com。
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理(Natural Language Processing,NLP)的一項(xiàng)基本任務(wù),也是其后續(xù)工作(如信息檢索、數(shù)據(jù)解析和知識(shí)圖譜[1])的基礎(chǔ)任務(wù)。早期的命名實(shí)體識(shí)別常用基于規(guī)則和字典的方法,如果提取的規(guī)則準(zhǔn)確地反映了語(yǔ)言現(xiàn)象,這些方法可以實(shí)現(xiàn)對(duì)給定語(yǔ)料庫(kù)進(jìn)行高度識(shí)別。但是基于規(guī)則的方法依賴于為特定的實(shí)體識(shí)別任務(wù)手動(dòng)建立規(guī)則庫(kù),耗時(shí)且便攜性較差,所以現(xiàn)在使用的頻率較低,逐漸被機(jī)器學(xué)習(xí)方法取代。隨著統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的發(fā)展,出現(xiàn)了隱馬爾可夫模型(Hidden Markov Model,HMM)[2]和條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)[3]等一系列經(jīng)典模型,這些模型是在大量的注釋數(shù)據(jù)上訓(xùn)練出來(lái)的,可應(yīng)用于新的領(lǐng)域且?guī)缀醪恍枰薷?,它們通過(guò)識(shí)別各類(lèi)實(shí)體的邊界并對(duì)這些實(shí)體類(lèi)別進(jìn)行分類(lèi)或順序標(biāo)記來(lái)實(shí)現(xiàn)對(duì)語(yǔ)料的精確識(shí)別。然而,基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)方法依靠定性的特征選擇來(lái)創(chuàng)建特征集,這種方法是人工的、主觀的、耗時(shí)的,而特征的選擇對(duì)實(shí)體識(shí)別的效率有很大影響。
近年來(lái)深度學(xué)習(xí)在自然語(yǔ)言處理方向取得了較快進(jìn)展。與基于規(guī)則和詞典的方法以及和統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)可以自動(dòng)提取字符層面的特征,可以解決少數(shù)領(lǐng)域中數(shù)據(jù)稀缺的問(wèn)題。大多數(shù)深度學(xué)習(xí)模型都在自然語(yǔ)言處理任務(wù)中得到了最優(yōu)結(jié)果,在卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[4]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[5]等經(jīng)典模型用于命名實(shí)體識(shí)別領(lǐng)域后,Huang 等[6]提出的BiLSTM-CRF 模型,是最先將雙向長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)模型(Bi-directional Long Short-Term Memory)與CRF相結(jié)合并應(yīng)用于命名實(shí)體識(shí)別任務(wù)的模型;BERT(Bidirectional Encoder Representations from Transformers)[7]等預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn)更好地捕捉到句子序列中的雙向關(guān)系,在多種命名實(shí)體任務(wù)上都有很好的表現(xiàn)。文獻(xiàn)[8]提出迭代空洞卷積神經(jīng)網(wǎng)絡(luò)(Iterated Dilated Convolutional Neural Networks,IDCNN)用于命名實(shí)體識(shí)別,IDCNN 由多個(gè)卷積堆疊而成,比單層的CNN模型有更強(qiáng)大的上下文信息抽取能力。
由于中文文本沒(méi)有明顯的詞匯界限,大多數(shù)模型無(wú)法適應(yīng),針對(duì)此問(wèn)題,以下模型應(yīng)用了字詞融合方法[9],在字符嵌入的同時(shí)融入詞匯向量。針對(duì)局部特征刻畫(huà)不完全的問(wèn)題,Zhang 和Yang[10]在長(zhǎng)短期記憶網(wǎng)絡(luò)模型的基礎(chǔ)上提出了一種網(wǎng)格結(jié)構(gòu)的模型(Lattice Long Short-Term Memory network,Lattice-LSTM),該模型將字符自動(dòng)匹配到對(duì)應(yīng)的詞匯,并將合適的詞匯信息嵌入句子表示,以提高模型的特征提取能力。針對(duì)中文文本的命名實(shí)體識(shí)別任務(wù),Li等[11]提出了FLAT(Flat-Lattice)模型,該模型是在Lattice-LSTM的基礎(chǔ)上引入Transformer模塊來(lái)獲得字符特征或詞匯特征的位置信息,然后利用位置信息計(jì)算兩個(gè)字符或詞匯之間的相對(duì)位置。FLAT 模型能充分地利用網(wǎng)格信息,使得模型能夠更好地解決Lattice-LSTM引入詞典信息不完全的問(wèn)題。Liu等[12]提出了LEBERT模型結(jié)構(gòu),將Lexicon Adapter layer嵌入 BERT中構(gòu)造詞典信息,使得字符特征和詞典特征同時(shí)輸出。Ma等[13]提出一種 SoftLexicon 模型, 將字符信息對(duì)應(yīng)到B、M、E、S這4種結(jié)構(gòu)。通過(guò)將每個(gè)字符在外部詞典中匹配相對(duì)應(yīng)的詞匯,SoftLexicon模型既能實(shí)現(xiàn)字粒度表征和詞粒度表征之間的特征互補(bǔ),還能融合字符的位置信息,全面地表示句子的語(yǔ)義特征。
鑒于上述工作的優(yōu)點(diǎn)和不足,本文提出一種面向中文實(shí)體識(shí)別任務(wù)的深度學(xué)習(xí)模型Bert-Softlexicon-BIM-CRF。該模型首先使用BERT預(yù)訓(xùn)練模型提取特征向量,并與外部詞典構(gòu)成詞典特征,然后將融合后的特征向量輸入BiGRU(Bidirectional Gated Circulation Unit)層,BiGRU對(duì)前向和后向的特征向量進(jìn)行編碼,完成特征抽取后將相應(yīng)時(shí)刻的結(jié)果輸出,輸出的優(yōu)化特征輸入IDCNN(Iterated Dilated Convolutional Neural Networks)中,進(jìn)一步提取融合向量的空間關(guān)系;再利用MHA(Multi-head Self-attention) 來(lái)增強(qiáng)模型對(duì)實(shí)體的識(shí)別能力;最后在CRF層對(duì)標(biāo)簽序列結(jié)果進(jìn)行合理約束,并通過(guò)最大似然法輸出。識(shí)別模型的實(shí)驗(yàn)表明,本文提出的模型對(duì)比其他主流模型,能顯著提升準(zhǔn)確率、召回率和F1值,同時(shí)消耗的時(shí)間和資源更少,因而適用于命名實(shí)體識(shí)別工作,并能有效地提取數(shù)據(jù)特征。
1" 模型構(gòu)建
1.1" 中文命名實(shí)體識(shí)別模型
Bert-Softlexicon-BIM-CRF模型包括詞嵌入層、特征提取層和解碼層等3部分。第一部分是在BERT預(yù)訓(xùn)練語(yǔ)言模型中,對(duì)文本中的字符進(jìn)行編碼并轉(zhuǎn)換為字符特征向量,再通過(guò)Softlexicon方法結(jié)合外部詞典得到詞匯特征向量,輸出具有字詞融合特征的向量。第二部分則是利用BiGRU和IDCNN分別捕捉文本的時(shí)序特征和空間特征,學(xué)習(xí)相鄰字符之間潛在的組詞知識(shí)。最后使用CRF把輸出的特征向量進(jìn)行解碼,學(xué)習(xí)相鄰實(shí)體標(biāo)簽之間的約束關(guān)系,從而得到最優(yōu)概率的自然災(zāi)害標(biāo)簽序列。模型的結(jié)構(gòu)如圖1所示。
1.2" 字詞融合模型
BERT是谷歌人工智能研究院在2018年推出的一種先進(jìn)的雙向預(yù)訓(xùn)練模型,該模型以Transformer為基礎(chǔ),但不是用傳統(tǒng)的單向語(yǔ)言模型進(jìn)行預(yù)訓(xùn)練,也不是對(duì)兩個(gè)單向語(yǔ)言模型進(jìn)行表面融合,而是在大型語(yǔ)料庫(kù)上使用新的掩蔽語(yǔ)言模型(Masked Language Model,MLM),Bert可以產(chǎn)生深度的雙向語(yǔ)言表征,在自然語(yǔ)言處理方面取得了良好的效果。后來(lái)的許多研究如RoBERTa、XLNET、ALBERT等都是以Bert模型為基礎(chǔ)進(jìn)行改進(jìn)的,這些改進(jìn)后提出的模型為NLP領(lǐng)域的進(jìn)步作出了巨大貢獻(xiàn)。Bert的結(jié)構(gòu)如圖2所示。
為了進(jìn)行詞匯整合,字符融合層使用了SoftLexicon方法。SoftLexicon首先將輸入序列中的每個(gè)字符與外部詞典進(jìn)行匹配,得到與該字符相對(duì)應(yīng)的詞匯以及字符在句子序列中的位置信息。該方法不僅提出了該字符在相應(yīng)單詞中的位置,還提出了其在相應(yīng)單詞的每個(gè)位置的嵌入向量。然后,將句子中的字符與字符向量相結(jié)合,形成一個(gè)字符表示。每個(gè)字符根據(jù)匹配的詞被分組為4個(gè)集合{B,M,E,S},它們分別對(duì)應(yīng)以該字符為第一位的詞匯、該字符處于中間的詞匯、該字符為最后一位的詞匯和字符本身,并將詞匯信息與字符相結(jié)合。對(duì)于輸入的字符向量,4組可以匹配的集合如下:
B(xi)={wi,k,wi,k∈L,i<k≤n},I(xi)={wj,k,wj,k∈L,1≤j<i<k≤n},E(xi)={wj,i,wj,i∈L,1≤j<i≤n},S(xi)={ci,ci∈L,1≤i≤n},
其中ci是文本序列中的第i個(gè)字符,B、I、E、S表示字符所匹配到的對(duì)應(yīng)詞匯,L表示引入的外部詞典,wi,k表示以xi為首、以xk為尾的詞語(yǔ)。在得到每個(gè)字符wi,k的四個(gè)詞集合后,使用加權(quán)平均計(jì)算每個(gè)集合的向量:
vs(S)=4Z∑w∈sz(w)ew(w)," Z=∑w∈B∪I∪E∪Sz(w),
es(B,I,E,S)=[vs(B);vs(I);vs(E);vs(S)。
將每個(gè)字的字符向量表示與詞典向量表示拼接融合在一起,共同組成輸入序列的融合向量表示,如下所示:
XA←Xc;e(B,M,E,S)。
1.3" 特征提取層
1.3.1" BiGRU
門(mén)控循環(huán)單元GRU是在循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的基礎(chǔ)上進(jìn)行改進(jìn)得來(lái)的,并且GRU又在長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM的基礎(chǔ)上進(jìn)行了優(yōu)化,解決了 LSTM 存在的梯度消失和梯度爆炸的問(wèn)題. LSTM有輸入門(mén)、 輸出門(mén)和遺忘門(mén)三個(gè)門(mén),而GRU將輸入門(mén)和遺忘門(mén)合并成了更新門(mén),只有更新門(mén)和重置門(mén)兩個(gè)門(mén)。GRU細(xì)胞單元內(nèi)部結(jié)構(gòu)如圖3所示。
Rt=σ(Wr·[Ht-1,Xt]+br).
更新門(mén)更新的數(shù)據(jù)Zt:
Zt=σ(Wz·[Ht-1,Xt]+bz),
H~t=tanh(Wh·[Rt·Ht-1,Xt]+bh),
Ht=(1-Zt)·H~t+Zt·Ht-1。
其中σ為sigmoid激活函數(shù),Zt和Rt分別表示更新門(mén)和重置門(mén),兩者一起掌握隱藏狀態(tài)的輸出。由于Zt經(jīng)過(guò)激活函數(shù)σ,故其值控制在區(qū)間[0,1]中;Xt為t時(shí)刻的輸入信息;Wr為重置門(mén)的輸入權(quán)重矩陣;Wz為更新門(mén)的輸入權(quán)重矩陣;Ht表示隱藏狀態(tài),Ht-1前一時(shí)刻的隱藏狀態(tài),*為Hadamard積。
雙向GRU層得到字詞融合層輸出的字向量,輸入前向GRU和后向GRU中提取特征向量聯(lián)系上下文信息,BiGRU結(jié)構(gòu)如圖4所示,其中Ht和Ht分別是在t時(shí)刻前向GRU和后向GRU的隱藏狀態(tài):
Hi=GRU(H→i-1,Xi)," H←i=GRU(H←i-1,Xi)," Hi=H→iH←i。
1.3.2" IDCNN
CNN能很好地從文本中提取特征信息,能更有效地利用GPU的并行性。但是,一維的卷積需要通過(guò)增加Pooling層來(lái)增強(qiáng)感受視野,這樣會(huì)造成信息損失.隨著命名實(shí)體識(shí)別中出現(xiàn)更多的長(zhǎng)文本任務(wù),一維的卷積只能獲得輸入序列的局部信息,而非獲取全局的序列信息特征。多數(shù)模型通過(guò)堆疊多層的卷積來(lái)解決這個(gè)問(wèn)題,但會(huì)出現(xiàn)過(guò)擬合的情況,導(dǎo)致特征提取結(jié)果出現(xiàn)錯(cuò)誤??斩淳矸e(DCNN)不是單純的對(duì)卷積層進(jìn)行堆疊,而是放棄Pooling層,在卷積核中增加一個(gè)膨脹距離,增大感受野范圍,以此來(lái)提高對(duì)較長(zhǎng)輸入文本的特征提取能力??斩淳矸e結(jié)構(gòu)如圖5所示。令卷積核的權(quán)重矩陣k=(k1,…,kn),則計(jì)算方法為
ct=∑li=-lki·xt+i·d+bc。
迭代膨脹卷積網(wǎng)絡(luò)無(wú)須多余的處理就能實(shí)現(xiàn)多層DCNN疊加的效果,輕松獲得文本信息的全局特征,能夠提升特征抽取的速度。IDCNN模型是一個(gè)以每次卷積后的輸出結(jié)果為下一次迭代膨脹卷積輸入的連接層,將字詞融合層中得到的特征向量矩陣輸入IDCNN,以獲得輸入序列的空間特征,Djθ(·)是膨脹步長(zhǎng)是θ的第j層膨脹卷積,膨脹步長(zhǎng)θ={1,1,2},c(j)t是特征矩陣it經(jīng)過(guò)j次膨脹卷積迭代的卷積結(jié)果,r(·)為RELU激活函數(shù),則有
c(1)t=D(0)1xt," c(j)t=r(D(j-1)2tc(j-1)t)," c(n+1)t=r(D(n)1c(n)t)。
對(duì)于輸入文本的每個(gè)詞,IDCNN將每次膨脹卷積輸出的結(jié)果進(jìn)行堆疊成為膨脹卷積模塊的輸出,即IDCNN計(jì)算的每個(gè)標(biāo)簽對(duì)應(yīng)每個(gè)詞的概率。
1.4" 注意力機(jī)制
MHA(Multi-head Self-attention)能將特征提取層輸出的特征向量分配不同的權(quán)重來(lái)進(jìn)行加權(quán)組合,利用注意力參數(shù)強(qiáng)化特征在向量矩陣中所占的權(quán)重,從而增強(qiáng)模型對(duì)實(shí)體進(jìn)行識(shí)別的能力[14]。對(duì)輸入序列中每個(gè)位置的向量分別進(jìn)行三次線性變換,生成查詢矩陣Q、鍵矩陣K和值矩陣V。將Q和K相似度計(jì)算后得到權(quán)重,如下式所示:
Attention(Q,K,V)=softmax(QKTdk)V。
得到相似性計(jì)算權(quán)重后, 利用softmax 函數(shù)對(duì)權(quán)重進(jìn)行歸一化處理,最后與V相乘獲得多頭注意力權(quán)重求和結(jié)果,如下式所示:
MultiHead(Q,K,V)=Concat(head1,head2…,headd)WO。
其中WO為進(jìn)行拼接后對(duì)應(yīng)的權(quán)重參數(shù)矩陣,headj表示多頭注意力機(jī)制中的第i個(gè)單頭注意力頭,d為拼接數(shù)量,Concat表示將每個(gè)輸出向量進(jìn)行拼接的函數(shù),各個(gè)頭的注意力值拼接變換得到最終的多頭注意力值,如下式所示:
headj=Attention(QWQj,KWKj,VWVj),
其中WQj、WKj、WVj分別表示Q、K、V的權(quán)重矩陣。將所有頭的輸出拼接起來(lái),再經(jīng)過(guò)一個(gè)最終的線性變換和層歸一化,得到多頭注意力的輸出。
1.5" CRF模型
在中文實(shí)體識(shí)別的任務(wù)中,RNN和LSTM都無(wú)法避免產(chǎn)生不符合注釋系統(tǒng)序列順序的文本片段。相比之下,CRF用于確定解碼時(shí)當(dāng)前標(biāo)記所對(duì)應(yīng)的標(biāo)簽,從而學(xué)習(xí)句子中相鄰的實(shí)體與標(biāo)簽之間的規(guī)則,每個(gè)實(shí)體的標(biāo)簽與它旁邊的實(shí)體標(biāo)簽都持有特定的約束關(guān)系。例如在BIOES注釋系統(tǒng)中,標(biāo)簽O不能跟在標(biāo)簽I后面,標(biāo)簽B必須在標(biāo)簽E之前,而E標(biāo)簽不會(huì)在B標(biāo)簽和I標(biāo)簽的中間。因此CRF可以通過(guò)結(jié)合標(biāo)簽的上下文語(yǔ)義信息來(lái)確定每個(gè)詞的標(biāo)簽序列出現(xiàn)的最佳概率,從而提高預(yù)測(cè)精度。
對(duì)每個(gè)輸入序列X=(X1,…,Xn),預(yù)測(cè)標(biāo)簽序列Y=(Y1,…,Yn),其預(yù)測(cè)分?jǐn)?shù)為
score(X,y)=∑ni=0Ayi,yi+1+∑ni=1pi,yi,
其中pi表示在第i個(gè)位置輸出的標(biāo)簽為y的概率,Ayi,yi+1表示從標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yi+1的概率,對(duì)每一個(gè)輸入的句子序列,獲取所有可能的標(biāo)簽序列的分?jǐn)?shù),則歸一化結(jié)果和損失函數(shù)分別為:
P(y|X)=escore(X,y)∑y~∈yscore(X,y~),
log P(y|X)=score(X,y)-log(∑y~∈YXescore(X,y~)),
y=argmaxscore(X,y~)。
2" 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)
2.1" 數(shù)據(jù)集
本文選取Resume數(shù)據(jù)集和Weibo數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),前者包含籍貫(LOC)、機(jī)構(gòu)(ORG)、專(zhuān)業(yè)(PRO)、職稱(chēng)(TITLE)、人物(NAME)、學(xué)位(EDU)國(guó)籍(CONT)和種族(RACE)等8類(lèi)實(shí)體,后者包含人物(PER)、機(jī)構(gòu)(ORG)、地點(diǎn)(LOC)和地緣政治(GPE)等4類(lèi)實(shí)體。數(shù)據(jù)集規(guī)模如表1所示。
2.2" 評(píng)價(jià)指標(biāo)
實(shí)體識(shí)別和關(guān)系抽取實(shí)驗(yàn)通常采用準(zhǔn)確率、召回率和F1值指標(biāo)來(lái)評(píng)價(jià)模型。準(zhǔn)確率P是被預(yù)測(cè)為真實(shí)標(biāo)簽的個(gè)數(shù)與真實(shí)標(biāo)簽數(shù)的比值;召回率R是真實(shí)標(biāo)簽被正確預(yù)測(cè)的個(gè)數(shù)與真實(shí)標(biāo)簽數(shù)的比值;得到準(zhǔn)確率與召回率后,用F1值平衡,得到平均值。計(jì)算方法為
P=TPTP+FP×100%,
R=TPTP+FN×100%,
F1=2×P×RP+R×100%,
其中TP表示真實(shí)標(biāo)簽被正確預(yù)測(cè)的個(gè)數(shù),F(xiàn)N表示真實(shí)標(biāo)簽被錯(cuò)誤預(yù)測(cè)的個(gè)數(shù),F(xiàn)N表示錯(cuò)誤標(biāo)簽被誤分類(lèi)為真實(shí)標(biāo)簽的個(gè)數(shù)。
2.3" 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)環(huán)境基于Python3.6.5,深度學(xué)習(xí)框架為Pytorch1.10.2,實(shí)驗(yàn)參數(shù)設(shè)置如表2所示。
3" 實(shí)驗(yàn)結(jié)果分析
3.1" 模型有效性分析
為驗(yàn)證不同領(lǐng)域的實(shí)體類(lèi)型信息對(duì)模型有效性的影響,將添加Resume 數(shù)據(jù)集和Weibo 數(shù)據(jù)集與Lattice-LSTM[10]、LR-CNN[15]、Flat-Lattice[11]、SoftLexicon[13]、CAN-NER[16]和NFLAT[17]等6組主流模型進(jìn)行對(duì)比,來(lái)驗(yàn)證該模型中文命名實(shí)體識(shí)別任務(wù)上的有效性,如表3所示。
由表3可見(jiàn),在 Resume 數(shù)據(jù)集上本文模型的F1值為96.63%,相比實(shí)現(xiàn)字詞信息融合的Lattice-LSTM模型高出2.17個(gè)百分點(diǎn);相比采用多頭注意力機(jī)制處理不同特征,實(shí)現(xiàn)多特征嵌入的FLAT和NFLAT模型,分別高出0.77和1.05個(gè)百分點(diǎn);相比將字符表示嵌入詞典信息的SoftLexicon方法高出1.10個(gè)百分點(diǎn)。另外,對(duì)于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的LR-CNN模型及CAN-NER模型,精確度、召回率和F1分?jǐn)?shù)都存在明顯提升。這表明本文的模型充分地抽取和識(shí)別了特征向量的信息,在不同的方向上都取得了顯著的效果。在Weibo數(shù)據(jù)集上本文模型的F1值達(dá)到了70.84%,明顯高于其他模型的F1值;在Weibo數(shù)據(jù)集上也有良好的表現(xiàn)。這表明本文模型在嵌入層加入詞典特征并在編碼層進(jìn)行特征融合能夠關(guān)注到全局信息,從而更好地識(shí)別實(shí)體的邊界。
3.2" 消融實(shí)驗(yàn)
為了驗(yàn)證各模塊結(jié)果的影響,我們?cè)O(shè)計(jì)了消融實(shí)驗(yàn)。我們用-SoftLexicon 代表去除詞典特征嵌入之后的模型,-MHA代表去除多頭注意力機(jī)制,只利用BiLSTM-IDCNN進(jìn)行特征提取,不進(jìn)行特征融合。實(shí)驗(yàn)在Resume數(shù)據(jù)集上進(jìn)行,結(jié)果如表4所示。
由表4可知:本文模型具有最好的F1分?jǐn)?shù),當(dāng)移除SoftLexicon方法只獲取字符特征表示時(shí),F(xiàn)1分?jǐn)?shù)下降 1.02個(gè)百分點(diǎn),模型效果略微下降,說(shuō)明詞匯特征在提取語(yǔ)義信息中的重要性;移除多頭自注意力機(jī)制后F1分?jǐn)?shù)下降 0.8個(gè)百分點(diǎn),說(shuō)明不同的特征信息對(duì)于實(shí)體識(shí)別任務(wù)均有著關(guān)鍵性的作用。實(shí)驗(yàn)結(jié)果表明,以上模塊都對(duì)模型的性能帶來(lái)積極的影響,因此,本文所提模型語(yǔ)義表征能力較強(qiáng),特征抽取能力較強(qiáng),進(jìn)一步證明了本文模型在中文實(shí)體識(shí)別任務(wù)上的有效性。
4" 結(jié)束語(yǔ)
本文提出了一種基于詞嵌入的深度學(xué)習(xí)模型BERT-Softlexicon-BIM-CRF,用于識(shí)別不同領(lǐng)域的實(shí)體信息。該模型使用BERT預(yù)訓(xùn)練模型而非傳統(tǒng)的靜態(tài)向量模型來(lái)提取領(lǐng)域特征向量,并引入外部詞典得到詞典特征,將字符特征向量與詞特征向量相結(jié)合,使下一層得到更多可學(xué)習(xí)的特征。將上層融合后的特征輸入BiGRU模型及IDCNN模型中進(jìn)行特征提取,并加入自注意力機(jī)制增強(qiáng)特征權(quán)重,最后通過(guò)CRF模型輸出文本中的實(shí)體及其標(biāo)注標(biāo)簽。在Resume 數(shù)據(jù)集和Weibo數(shù)據(jù)集上的實(shí)驗(yàn)表明,BERT-Softlexicon-BIM-CRF模型在Resume數(shù)據(jù)集Weibo數(shù)據(jù)集上的效果優(yōu)于其他傳統(tǒng)模型,其F1值分別達(dá)到96.63%和70.84%,故可有效應(yīng)用于中文命名實(shí)體識(shí)別任務(wù)中。
參考文獻(xiàn):
[1]" ELIGZEL N, ETINKAYA C, DERELI T. Application of named entity recognition on tweets during earthquake disaster: a deep learning-based approach. Soft Comput, 2022,26:395-421.
[2]" SAITO K, NAGATA M. Multi-language named-entity recognition system based on HMM[C]//Proceedings of the ACL 2003 workshop on Multilingual and mixed-language named entity recognition,2003:41-48.
[3]" LAFFERTY J, MCCALLUM A, PEREIRA F. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Icml,2001,1(2):3.
[4]" YAMASHITA R, NISHIO M, DO R K G, et al. Convolutional neural networks: an overview and application in radiology[J]. Insights into imaging, 2018,9:611-629.
[5]" SCHUSTER M, PALIWAL K K. Bidirectional recurrent neural networks[J]. IEEE transactions on Signal Processing, 1997,45(11):2673-2681.
[6]" HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991,2015.
[7]" DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805,2018.
[8]" STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions[J]. arXiv preprint arXiv:1702.02098, 2017.
[9]" 張汝佳,代璐,王邦,等.基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別最新研究進(jìn)展綜述[J].中文信息學(xué)報(bào),2022,36(6):20-35.
[10]ZHANG Y, YANG J. Chinese NER using lattice LSTM[J]. arXiv preprint arXiv:1805.02023, 2018.
[11]LI X, YAN H, QIU X, et al. FLAT: Chinese NER using flat-lattice transformer[J]. arXiv preprint arXiv:2004.11795, 2020.
[12]LIU W, FU X, ZHANG Y, et al. Lexicon enhanced Chinese sequence labeling using BERT adapter[J]. arXiv preprint arXiv:2105.07148, 2021.
[13]MA R, PENG M, ZHANG Q, et al. Simplify the usage of lexicon in Chinese NER[J]. arXiv preprint arXiv:1908.05969, 2019.
[14]封紅旗,孫楊,楊森,等.基于BERT的中文電子病歷命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2023,44(4):1220-1227.
[15]GUI T, MA R, ZHANG Q, et al. CNN-Based Chinese NER with Lexicon Rethinking[C]//International Joint Conference on Artificial Intelligence, 2019.
[16]ZHU Y, WANG G, KARLSSON B F. CAN-NER: Convolutional attention network for Chinese named entity recognition[J]. arXiv preprint arXiv:1904.02141, 2019.
[17]WU S, SONG X, FENG Z, et al. Nflat: Non-flat-lattice transformer for chinese named entity recognition[J]. arXiv preprint arXiv:2205.05832,2022.
[責(zé)任編輯:彭喻振]