国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于去噪字詞聯(lián)合模型的中文命名實(shí)體識(shí)別

2021-04-12 05:18:44倩,顧

楊 倩,顧 磊

南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京 210023

隨著互聯(lián)網(wǎng)和信息科技的飛速發(fā)展,人們正處于一個(gè)大量的數(shù)據(jù)信息時(shí)代。為了應(yīng)對(duì)信息爆炸帶來(lái)的嚴(yán)峻考驗(yàn),亟需一種自動(dòng)管理、提取文本中信息的技術(shù),幫助人們從海量的文本信息中找到所需的關(guān)鍵信息,對(duì)命名實(shí)體識(shí)別的研究便是在這一背景下產(chǎn)生的。命名實(shí)體識(shí)別主要是從文本中識(shí)別出特定類別的實(shí)體,例如人名、地名、組織機(jī)構(gòu)名等,是自然語(yǔ)言處理任務(wù)中的最基礎(chǔ)的一步,可以應(yīng)用于關(guān)系抽取[1]、實(shí)體鏈接[2]、事件提取[3]、知識(shí)圖譜等一系列下游任務(wù)。因而,命名實(shí)體識(shí)別一直受到國(guó)內(nèi)外研究者的廣泛關(guān)注。

早期的命名實(shí)體識(shí)別主要采用基于規(guī)則的方法[4],該方法主要通過(guò)語(yǔ)言學(xué)專家對(duì)目標(biāo)文本手工制定有效的規(guī)則識(shí)別命名實(shí)體,大多依賴知識(shí)庫(kù)和詞典的建立,需要耗費(fèi)大量的時(shí)間和精力,而且難以找到適合所有領(lǐng)域的規(guī)則模型,可遷移性較差[5]。因此,隨著技術(shù)的發(fā)展,研究人員越來(lái)越關(guān)注基于統(tǒng)計(jì)的方法來(lái)實(shí)現(xiàn)命名實(shí)體識(shí)別?;诮y(tǒng)計(jì)的方法涉及的機(jī)器學(xué)習(xí)模型主要有隱馬爾科夫模型[6](Hidden Markov Model,HMM)、最大熵模型[7](Maximum Entropy,ME)、條件隨機(jī)場(chǎng)[8-9](Conditional Random Field,CRF)、支持向量機(jī)(Support Vector Machine,SVM)等?;诮y(tǒng)計(jì)的方法,主要是利用大型語(yǔ)料庫(kù)來(lái)訓(xùn)練,需要針對(duì)不同任務(wù)進(jìn)行大量手工特征工程來(lái)設(shè)計(jì)出合適的特征模板[5],雖然解決了可遷移性問(wèn)題,但依舊比較費(fèi)時(shí)費(fèi)力。近幾年,隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,在命名實(shí)體識(shí)別方向使用基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法取得了很大的進(jìn)展。Collobert 等人[10]提出了一種基于神經(jīng)網(wǎng)絡(luò)的統(tǒng)一模型CNN-CRF,CNN(Convolutional Neural Network)用來(lái)提取字特征,CRF 預(yù)測(cè)序列標(biāo)簽,實(shí)驗(yàn)結(jié)果表明該模型表現(xiàn)優(yōu)于之前最好的統(tǒng)計(jì)模型。Chiu 等人[11]將Collobert 模型中的前饋神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化,改為使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)。Dong等人[12]將偏旁部首特征引入神經(jīng)網(wǎng)絡(luò)BiLSTM-CRF中,獲得更好的識(shí)別結(jié)果。Peng 等人[13]提出一種能夠聯(lián)合訓(xùn)練中文分詞任務(wù)的統(tǒng)一模型,融入了從分詞系統(tǒng)學(xué)習(xí)到的詞邊界隱藏信息,識(shí)別效果明顯提升。He 等人[14]針對(duì)標(biāo)記語(yǔ)料有限的情況,提出一種基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型進(jìn)行中文命名實(shí)體識(shí)別。Zhang等人[15]將注意力機(jī)制[16]融入通用的BiLSTM-CRF模型,捕捉到更多的上下文特征。Cao 等人[17]利用了對(duì)抗性遷移學(xué)習(xí)聯(lián)合訓(xùn)練中文分詞任務(wù)和中文命名實(shí)體識(shí)別任務(wù),抽取任務(wù)共享詞邊界信息,識(shí)別效果較好。Zhang 等人[18]構(gòu)建了一種字詞聯(lián)合的網(wǎng)格(Lattice)結(jié)構(gòu),將和字典匹配到的詞信息整合進(jìn)神經(jīng)網(wǎng)絡(luò)模型,不僅避免了分詞錯(cuò)誤,同時(shí)充分利用了詞與詞的序列信息,該模型在多個(gè)數(shù)據(jù)集上有很好地表現(xiàn)。與基于規(guī)則和基于統(tǒng)計(jì)的方法相比,這些基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別方法獲得了更好的識(shí)別效果。

基于字詞聯(lián)合的神經(jīng)網(wǎng)絡(luò)雖然在中文命名實(shí)體識(shí)別上有著良好的表現(xiàn),但仍存在著一定的改進(jìn)空間。本文在Zhang等人[18]字詞聯(lián)合神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,提出了一種融合Gated 去噪機(jī)制的字詞聯(lián)合網(wǎng)絡(luò)模型進(jìn)行中文命名實(shí)體識(shí)別,將該網(wǎng)絡(luò)模型簡(jiǎn)稱Gated-Lattice,實(shí)驗(yàn)結(jié)果表明,改進(jìn)的模型可以有效地提升命名實(shí)體識(shí)別效果。

1 基于字詞聯(lián)合的BiLSTM-CRF模型

1.1 基于字詞聯(lián)合的LSTM模型

長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)是對(duì)傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的一種改進(jìn)模型,它在原有循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,加入記憶細(xì)胞來(lái)記錄狀態(tài)信息,并引入了輸入門、遺忘門、輸出門三個(gè)門結(jié)構(gòu),有效地解決了由于梯度爆炸和梯度消失而產(chǎn)生的長(zhǎng)距離依賴問(wèn)題[10]。因此,LSTM網(wǎng)絡(luò)模型被廣泛的應(yīng)用于序列標(biāo)注問(wèn)題中。

基于字詞聯(lián)合的LSTM 模型(Lattice)[18-19]是處理中文命名實(shí)體識(shí)別任務(wù)的一種有效模型,該模型是在基于字級(jí)LSTM模型的基礎(chǔ)上集成詞信息,如圖1所示。通過(guò)加入詞,可以充分利用精確的詞序列信息,有效避免分詞錯(cuò)誤的影響[18]。

圖1 基于字詞聯(lián)合的LSTM模型

基于字詞聯(lián)合的LSTM模型的輸入包括兩個(gè)部分:字信息和詞信息。設(shè)字典Dc和詞典Dw分別是使用自動(dòng)分詞的大量原始文本構(gòu)建的字向量矩陣和詞向量矩陣,給定句子s={ }c1,c2,…,cM,輸入信息為單字序列c1,c2,…,cM和該句子與詞典Dw匹配到的所有詞wb,e,b、e是詞首字、尾字的索引。如圖1中,c1,c2,c3,c4,c5依次對(duì)應(yīng)“北京天安門”五個(gè)字,w1,2為“北京”,w3,5為“天安門”。將每一個(gè)字cj通過(guò)查找字典Dc映射為字向量xcj,并將每一個(gè)詞wb,e通過(guò)查找詞典Dw映射為詞向量xw b,e,表達(dá)式如下:

在基于字詞聯(lián)合的LSTM模型[18]中,假設(shè)輸入為字和詞xwb,e,首先計(jì)算字級(jí)xcj的LSTM 單元中的相關(guān)狀態(tài),計(jì)算方式如下:

其中,σ表示sigmoid激活函數(shù),icj、ocj、f jc分別表示輸入門、輸出門、遺忘門,Wc ix、Wc ih、Wcox、Wc oh、Wc fx、Wfch、WCc?x、WCc?h、bci、boc、bcf、bcC?都是模型參數(shù),hcj-1表示上一個(gè)字隱藏層的輸出,表示當(dāng)前字xcj產(chǎn)生的狀態(tài)信息。

對(duì)于詞xwb,e采用類似的方式,用表示詞的記憶細(xì)胞狀態(tài),記錄從句子開(kāi)始詞的循環(huán)狀態(tài)信息,值的計(jì)算方法如下:

其中,iwb,e、f bw,e分別表示詞的輸入門和遺忘門。Wiwx、Wiwh、Wfwx、Wfwh、WCw?x、WCw?h、、bwC?是模型參數(shù),hcb是cb對(duì)應(yīng)的隱藏層輸出,Cbl是從句子開(kāi)始第b個(gè)字對(duì)應(yīng)的記憶細(xì)胞所記錄的字詞循環(huán)狀態(tài)。

由于聯(lián)合了字詞信息,進(jìn)入每個(gè)字詞聯(lián)合(Lattice)的記憶細(xì)胞狀態(tài)Clb的信息便有了更多的輸入源,如圖1中,Cl5的輸入源包括字xc5(門)和詞Cw3,5(天安門)。因此對(duì)于Cle的計(jì)算,要將字xce和所有詞的記憶細(xì)胞狀態(tài)Cbw,e同時(shí)考慮在內(nèi)。為了控制每個(gè)詞的記憶細(xì)胞狀態(tài)Cbw,e的輸入程度,額外地設(shè)置一個(gè)輸入門icb,e,其計(jì)算方式如下:

其中,Wxl、WCl、bl是對(duì)應(yīng)的模型參數(shù)。

為了衡量每個(gè)Cjl的各個(gè)輸入源,xcj、Cbw,j的貢獻(xiàn),采用歸一化的方法為其分配權(quán)重:

其中,icj、ibc,j的計(jì)算方式分別采用式(3)和式(11),Aj和Ab,j是xcj、Cbw,j對(duì)應(yīng)的歸一化因子,即分配權(quán)重。再例如圖1,Cl5的輸入源:xc5和Cw3,5的權(quán)重分別是A5和A3,5。

將當(dāng)前各個(gè)輸入源的狀態(tài)信息與對(duì)應(yīng)的權(quán)重進(jìn)行加權(quán)求和,得到Clj:

由于最終要對(duì)每一個(gè)字打標(biāo)簽,體現(xiàn)在字級(jí)層面上,因此采用字級(jí)輸出門ocj控制當(dāng)前記憶細(xì)胞狀態(tài)Cjl的輸出程度。最后的隱藏層輸出向量hcj計(jì)算如下:

其中,ocj、Clj分別取自式(4)、(14)。

1.2 BiLSTM-CRF模型

單向的LSTM模型只能獲取過(guò)去的信息,不能考慮到未來(lái)的上下文信息[20]。Dyer等人[21]證明了雙向LSTM模型的有效性,BiLSTM能夠同時(shí)捕獲前向和后向的長(zhǎng)距離信息,有利于下一階段的序列預(yù)測(cè)。因此,將前向隱藏向量hcj和后向隱藏向量hcj合并起來(lái),得到BiLSTM模型的輸出hj,如圖2中BiLSTM層的輸出。

圖2 基于Gated去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF模型

命名實(shí)體識(shí)別任務(wù)中,相鄰字的標(biāo)簽之間通常會(huì)有很強(qiáng)的依賴關(guān)系,例如,在BMES(B-Begin:詞首,M-Middle:詞中,E-End:詞尾,S-Single:?jiǎn)巫郑╊愋蜆?biāo)注中,標(biāo)簽M-LOC 只能在標(biāo)簽B-LOC 之后,而不能跟在B-ORG 或E-LOC 之后。因此,一般使用CRF 模型[18]直接作用在BiLSTM 層的輸出hj上,進(jìn)行合標(biāo)注,以保證標(biāo)簽的合理性與正確性。

2 融合Gated 去噪機(jī)制的字詞聯(lián)合BiLSTMCRF模型

2.1 Gated去噪機(jī)制

本文在對(duì)輸入文本的每一個(gè)字進(jìn)行字嵌入時(shí),使用了一個(gè)在大型原始文本上訓(xùn)練的字典矩陣Dc。該字典矩陣采用連續(xù)詞袋模型[22],即依據(jù)中心字前后各兩個(gè)字來(lái)預(yù)測(cè)中心字向量表示,最終將所有訓(xùn)練完成的字向量組成Dc。

在實(shí)驗(yàn)過(guò)程中,將輸入文本數(shù)據(jù)與字典匹配,可以快速有效地查找到相應(yīng)的字向量。由于匹配到的字向量是在大量原始文本上訓(xùn)練得到的,因此這些字向量包含的信息含噪、不夠準(zhǔn)確。確切地說(shuō),對(duì)于一個(gè)訓(xùn)練文本中的每個(gè)字,其字向量表示是依據(jù)上下文訓(xùn)練的,但是局部區(qū)域里的字不一定每次都出現(xiàn)在一起,有的可能只出現(xiàn)少數(shù)次,導(dǎo)致提取的字特征不夠準(zhǔn)確,從而影響識(shí)別效果。針對(duì)這一缺陷,考慮加入一個(gè)Gated去噪機(jī)制,對(duì)字向量信息進(jìn)行微調(diào),即讓每個(gè)字向量以一定概率出現(xiàn),以過(guò)濾掉文本中一些無(wú)關(guān)的或者不重要的字信息。而對(duì)于訓(xùn)練文本與詞典Dw匹配到的詞序列,由于這些詞可以提供大量的精確的詞邊界信息,有利于提升命名實(shí)體識(shí)別的性能[18],因此,不使用去噪機(jī)制對(duì)詞進(jìn)行處理。

Gated 去噪機(jī)制實(shí)質(zhì)上是一個(gè)神經(jīng)網(wǎng)絡(luò)層,對(duì)輸入特征向量進(jìn)行了一次線性變換和一次非線性變換。主要由一個(gè)sigmoid 激活函數(shù)作用在原始輸入字向量上,輸出一系列0~1之間的值,然后加權(quán)到對(duì)應(yīng)的原始輸入字向量來(lái)控制輸入字信息的輸入程度,從而達(dá)到去噪的效果。

對(duì)于句子s={c1,c2,…,cM},將每個(gè)字cj通過(guò)字典Dc映射為相應(yīng)的字向量:

將rc j作為該神經(jīng)網(wǎng)絡(luò)層的輸入,然后采用Gated去噪機(jī)制gj直接作用到原始字向量rc j上,得到微調(diào)后的字向量xc j,如圖2中虛框深藍(lán)色區(qū)域所示。xc j具體計(jì)算方式如下:

其中,Wg、bg為模型參數(shù),⊙表示逐點(diǎn)乘積。

2.2 融合Gated去噪機(jī)制的字詞聯(lián)合BiLSTMCRF模型

融合Gated 去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF 模型整體框架如圖2 所示,其大致過(guò)程如下:首先將字序列和與詞典匹配到的詞序列作為輸入,經(jīng)過(guò)嵌入層分別將字和詞映射為相應(yīng)的字向量和詞向量。再將字向量經(jīng)過(guò)一個(gè)Gated去噪神經(jīng)網(wǎng)絡(luò)層進(jìn)一步處理,該神經(jīng)網(wǎng)絡(luò)層針對(duì)不同的輸入文本序列,作出相應(yīng)的文本字特征調(diào)整。然后將調(diào)整后的字向量與詞向量一同送入BiLSTM 神經(jīng)網(wǎng)絡(luò)中,得到前后兩個(gè)方向上的隱藏狀態(tài)。最后,再使用CRF模型進(jìn)行序列合理化標(biāo)注,通過(guò)將BiLSTM層輸出的隱藏狀態(tài)作為CRF層的輸入,獲得最終的全局最優(yōu)標(biāo)簽序列。

2.3 訓(xùn)練過(guò)程

本文模型的訓(xùn)練過(guò)程:

輸入:原始字序列s={c1,c2,…,cM},與詞典Dw匹配到的所有子序列wb,j,以及真實(shí)標(biāo)簽序列:

輸出:命名實(shí)體標(biāo)簽序列:

1.rc j =Dc(cj),xwb,e=Dw(wb,e)//字嵌入、詞嵌入

2.xcj=Gated(rc j)//Gated去噪機(jī)制

3.(xcj,xwb,e)//前向LSTM

6. 令句子級(jí)隱藏向量h=[h1,h2,…,hM],并根據(jù)句子真實(shí)序列標(biāo)簽y,得到P(y,h)=CRF(y,h,s)

7. 利用對(duì)數(shù)似然損失函數(shù)公式(20)進(jìn)行計(jì)算,再利用反向傳播,更新參數(shù),返回第2步重新計(jì)算

本文模型的訓(xùn)練過(guò)程如上文所示,輸入序列先經(jīng)過(guò)嵌入層,再經(jīng)過(guò)Gated 去噪層、BiLSTM 層,然后在CRF層,為了全局考慮,根據(jù)BiLSTM 層輸出的句子級(jí)隱藏向量h和真實(shí)標(biāo)簽序列y,產(chǎn)生輸入序列被標(biāo)注為y的概率P(y,h),利用如下對(duì)數(shù)似然損失函數(shù):

最大化正確標(biāo)簽序列的概率,最后通過(guò)反向傳播,根據(jù)梯度下降優(yōu)化算法更新模型參數(shù),并返回到Gated去噪層重新計(jì)算。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)中使用了兩個(gè)公開(kāi)數(shù)據(jù)集:Resume數(shù)據(jù)集和Weibo數(shù)據(jù)集。Resume數(shù)據(jù)集來(lái)自新浪財(cái)經(jīng)的1 027份簡(jiǎn)歷總結(jié),標(biāo)注了8 種命名實(shí)體:CONT(Country)、EDU(Educational Institution)、LOC(Location)、PER(Person Name)、ORG(Organization)、PRO(Profession)、RACE(Ethnicity Background)、TITLE(Job Title);Weibo數(shù)據(jù)集來(lái)自社交媒體網(wǎng)站,標(biāo)注了4 種命名實(shí)體:PER、ORG、LOC、GPE,包括名稱實(shí)體和名詞實(shí)體。表1列出兩個(gè)數(shù)據(jù)集的詳細(xì)信息,統(tǒng)計(jì)了其訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集中句子和字符的數(shù)量。

表1 數(shù)據(jù)集統(tǒng)計(jì)情況

3.2 實(shí)驗(yàn)基本設(shè)置

本文的模型(Gated-Lattice)實(shí)驗(yàn)設(shè)置:在64 位Ubuntu16.0系統(tǒng),Intel E5-2603 v4 @ 1.70 GHz×6處理器,15.6 GB 內(nèi)存,Quadro M2000 顯卡硬件環(huán)境中進(jìn)行。本文模型是在文獻(xiàn)[18]模型的基礎(chǔ)上進(jìn)行改進(jìn)的,因此采用了與之相同的參數(shù)設(shè)置,如表2 所示。具體參數(shù)值如下:embedding 大小設(shè)置為50,LSTM 模型的隱藏層節(jié)點(diǎn)數(shù)設(shè)置為200;Dropout 丟棄率應(yīng)用于字向量和詞向量,設(shè)置值為0.5;采用隨機(jī)下降梯度(SGD)進(jìn)行模型參數(shù)優(yōu)化,設(shè)置初始學(xué)習(xí)率為0.015,衰減率為0.05。

表2 參數(shù)設(shè)置

對(duì)比模型實(shí)驗(yàn)設(shè)置:在Resume 數(shù)據(jù)集上使用的對(duì)比模型來(lái)自Zhang 等人[18],因?yàn)楸疚牡哪P褪窃赯hang等人[18]的模型上的改進(jìn),所以為了實(shí)驗(yàn)的公平性,Zhang等人[18]的模型和本文的模型采用如上所述一樣的實(shí)驗(yàn)設(shè)置和參數(shù)設(shè)置。在Weibo 數(shù)據(jù)集上使用的三個(gè)對(duì)比模型來(lái)自Peng等人[13]、He等人[14]和Zhang等人[18],其中,前兩個(gè)對(duì)比模型的實(shí)驗(yàn)數(shù)據(jù)直接取自其文獻(xiàn),而Zhang等人[18]的實(shí)驗(yàn)設(shè)置也與本文實(shí)驗(yàn)設(shè)置相同。

3.3 評(píng)價(jià)指標(biāo)

判別一個(gè)命名實(shí)體是否被正確標(biāo)注主要考慮三個(gè)方面[23]:(1)是否正確劃分出實(shí)體邊界;(2)是否正確標(biāo)注出實(shí)體標(biāo)簽類型;(3)是否按照正確標(biāo)簽順序標(biāo)注實(shí)體。為了直觀地對(duì)比預(yù)測(cè)和實(shí)際的標(biāo)注結(jié)果,本文采用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F1 值(F1-score)三個(gè)指標(biāo)來(lái)衡量模型效果。準(zhǔn)確率是正確標(biāo)注的實(shí)體數(shù)占預(yù)測(cè)標(biāo)注實(shí)體總數(shù)的比例,召回率是指正確標(biāo)注的實(shí)體數(shù)占原來(lái)標(biāo)準(zhǔn)標(biāo)注實(shí)體總數(shù)的比例,為了綜合評(píng)價(jià)模型的性能,又引入F1評(píng)價(jià)指標(biāo),即準(zhǔn)確率和召回率的加權(quán)幾何平均值。三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下:

3.4 實(shí)驗(yàn)對(duì)比分析

為了驗(yàn)證本文提出的融合Gated去噪機(jī)制的字詞聯(lián)合BiLSTM-CRF 模型的有效性,實(shí)驗(yàn)中,使用了兩個(gè)不同領(lǐng)域的公開(kāi)數(shù)據(jù)集進(jìn)行模型訓(xùn)練,并利用測(cè)試集進(jìn)行測(cè)試。

表3 給出了在Resume 測(cè)試集上的實(shí)驗(yàn)結(jié)果,并同Zhang 等人[18]的模型結(jié)果作了對(duì)比。在基于詞的BiLSTM-CRF 模型(Word baseline)上獲得了93.58%的F1 值,在此基礎(chǔ)上再加上字和雙字(Word baseline+char+bichar LSTM)后的F1 值達(dá)到了94.24%;在基于字的BiLSTM-CRF模型(Char baseline)獲得了93.48%的F1 值,在此基礎(chǔ)上再加上雙字和分詞特征(Char baseline+bichar+softword),F(xiàn)1值達(dá)到了94.41%;在基于字詞聯(lián)合的BiLSTM-CRF模型(Lattice)上,F(xiàn)1值達(dá)到了94.46%,本文提出的在這一模型基礎(chǔ)上改進(jìn)的模型相較于這一最高結(jié)果,將F1 值提高到了95.04%。而且,P值和R值較表2中最高的結(jié)果均有不同程度的提升,特別是R值提升到了95.10%。

表3 不同模型在Resume數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比%

采用的第一個(gè)數(shù)據(jù)集Resume數(shù)據(jù)集內(nèi)容取自新浪財(cái)經(jīng)網(wǎng)的簡(jiǎn)歷,語(yǔ)言文本較為正式、規(guī)范,因此本文模型在其測(cè)試效果上表現(xiàn)很好。為了進(jìn)一步驗(yàn)證模型性能,將采用一個(gè)更復(fù)雜的數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試:Weibo數(shù)據(jù)集。Weibo數(shù)據(jù)集的內(nèi)容取自社交媒體文本,具有文本長(zhǎng)度短,語(yǔ)言不規(guī)范,噪聲多,詞匯新奇等特點(diǎn),這使得對(duì)該數(shù)據(jù)集進(jìn)行命名實(shí)體的識(shí)別變得更加困難。

表4顯示了本文模型和前人模型在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比結(jié)果(均為F1值)。其中,NE表示只含名稱實(shí)體(Named Entity)的語(yǔ)料,NM 表示只含名詞實(shí)體(Nominal Mention)的語(yǔ)料,Overall 表示包含NE 和NM 兩部分整體語(yǔ)料。Peng 2015[13]是一種能夠聯(lián)合訓(xùn)練中文分詞任務(wù)的統(tǒng)一模型,在NE、NM和Overall上分別獲得了51.96%、61.05%和56.05%的F1值。He 2017[14]是一種基于BiLSTM神經(jīng)網(wǎng)絡(luò)的半監(jiān)督學(xué)習(xí)模型,由于其采用的是半監(jiān)督,因此得到的F1 值略低。進(jìn)一步采用本文的改進(jìn)模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)相較于Zhang 的結(jié)果,F(xiàn)1 值分別從52.34%、62.03%、57.72%提高到52.52%、62.07%、58.52%,超過(guò)了表4 中對(duì)比模型的結(jié)果,進(jìn)一步驗(yàn)證了模型的有效性。

表4 不同模型在Weibo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比%

3.5 案例分析

表5 和表6 分別顯示了在Weibo、Resume 數(shù)據(jù)集上字詞聯(lián)合Lattice 模型和本文改進(jìn)的Gated-Lattice 模型的對(duì)比案例,Golds是標(biāo)準(zhǔn)標(biāo)簽。在表5中,字詞聯(lián)合模型錯(cuò)誤地將“鄧超四”識(shí)別為人名實(shí)體,留下職業(yè)名詞“大名捕”,而改進(jìn)的模型通過(guò)學(xué)習(xí)自動(dòng)減少干擾信息,根據(jù)上下文信息正確識(shí)別出“鄧超”是人名,留下電影名“四大名捕”。表6 中,字詞聯(lián)合模型只正確識(shí)別出“國(guó)家物資局”是機(jī)構(gòu)名,而改進(jìn)的融合Gated機(jī)制的字詞聯(lián)合模型還成功地識(shí)別出了“物資部”與“國(guó)內(nèi)貿(mào)易部金屬材料流通司”機(jī)構(gòu)名實(shí)體,由此進(jìn)一步說(shuō)明了改進(jìn)的模型的有效性。

表5 Weibo數(shù)據(jù)集案例

表6 Resume數(shù)據(jù)集案例

4 結(jié)束語(yǔ)

本文提出了一種基于字詞聯(lián)合去噪機(jī)制融合的中文命名實(shí)體識(shí)別算法,該算法的目的是利用Gated去噪神經(jīng)網(wǎng)絡(luò)對(duì)輸入字特征進(jìn)行微調(diào),使得輸送到字詞聯(lián)合模型中的字特征表示更加準(zhǔn)確,讓模型專注于學(xué)習(xí)跟命名實(shí)體相關(guān)的特征。實(shí)驗(yàn)證明了提出的改進(jìn)算法可以有效地提高中文命名實(shí)體識(shí)別的效果。不過(guò),從實(shí)驗(yàn)結(jié)果來(lái)看,由于Weibo數(shù)據(jù)集內(nèi)容非正式、語(yǔ)言不太規(guī)范,包括本文算法在內(nèi)的現(xiàn)有算法在識(shí)別效果上都不太理想,因此,這將是今后進(jìn)一步研究改進(jìn)的方向。

都匀市| 土默特右旗| 聂荣县| 牟定县| 金门县| 乳源| 峡江县| 大厂| 闸北区| 原阳县| 普宁市| 都匀市| 定西市| 额尔古纳市| 菏泽市| 开江县| 西宁市| 景泰县| 高雄县| 雷山县| 湖南省| 定远县| 乌兰浩特市| 霍林郭勒市| 沙雅县| 临沂市| 任丘市| 河池市| 乌兰浩特市| 和田市| 鹤岗市| 安岳县| 马公市| 南靖县| 莱阳市| 兴文县| 梁河县| 郁南县| 茌平县| 阜城县| 谢通门县|