袁 健,章海波
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
命名實(shí)體識(shí)別(Named-entity Recognition,NER)是自然語(yǔ)言處理中最核心的任務(wù)之一,是機(jī)器翻譯、實(shí)體鏈接、信息提取等任務(wù)的基礎(chǔ)和前提,其主要的任務(wù)是對(duì)文本中的人名、組織機(jī)構(gòu)名、地名等專(zhuān)有名詞進(jìn)行識(shí)別提取并進(jìn)行分類(lèi).命名實(shí)體識(shí)別的結(jié)果會(huì)對(duì)后續(xù)任務(wù)產(chǎn)生直接的影響,因此對(duì)其進(jìn)行更進(jìn)一步的研究是十分具有價(jià)值的.
早期對(duì)于命名實(shí)體識(shí)別任務(wù)的處理一般是基于規(guī)則和詞典的方法,例如K.Humphreys等提出的LaSIE-II[1]系統(tǒng)和Collins等提出的DL-CoTrain方法[2].基于規(guī)則和詞典的方法可解釋性比較強(qiáng),速度較快.但是其中的詞典與規(guī)則的構(gòu)建和維護(hù)任務(wù)繁重,規(guī)則在不同領(lǐng)域的移植性表現(xiàn)很差,因此,研究人員開(kāi)始使用機(jī)器學(xué)習(xí)的方法來(lái)研究NER.
在機(jī)器學(xué)習(xí)中,常用的方法有隱馬爾科夫模型(HMM)[3,4]、條件隨機(jī)場(chǎng)(CRF)[5,6]、最大熵(ME)[7,8]、支持向量機(jī)(SVM)[9,10]等.但是這些傳統(tǒng)的機(jī)器學(xué)習(xí)方法依賴(lài)于人工對(duì)特征的選取,將各種特征信息加入到特征向量中,特征選擇的好壞會(huì)直接影響到最終模型的性能.
近年來(lái),隨著深度學(xué)習(xí)的興起,各種基于深度學(xué)習(xí)的方法開(kāi)始應(yīng)用于命名實(shí)體識(shí)別中[11,12].Collobert等[13]于2011年提出了基于滑動(dòng)窗口方法和基于句子方法的兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行實(shí)體識(shí)別,但是其不能考慮到長(zhǎng)距離單詞之間的信息.Zhiheng Huang等[14]最先使用BiLSTM+CRF結(jié)構(gòu)來(lái)處理序列標(biāo)注任務(wù),用雙向RNN代替了之前的NN/CNN結(jié)構(gòu),可以有效的結(jié)合過(guò)去的特征和未來(lái)的特征,考慮到長(zhǎng)遠(yuǎn)的上下文特征信息,實(shí)驗(yàn)表明RNN+CRF結(jié)構(gòu)在命名實(shí)體識(shí)別數(shù)據(jù)集中取得了更好的效果.RNN+CRF結(jié)構(gòu)的深度學(xué)習(xí)方法也成為了目前最主流的模型之一.
中文語(yǔ)言博大精深,是世界上最主流的語(yǔ)言之一,因此中文命名實(shí)體識(shí)別也是命名實(shí)體識(shí)別任務(wù)中一個(gè)重要的組成部分.但是由于中文本身的特點(diǎn),與英文命名實(shí)體識(shí)別有很大不同,中文的字的邊界是確定的,詞的邊界是模糊的.而英文中每個(gè)詞是由空格分隔開(kāi)來(lái).所以中文分詞、語(yǔ)義信息等要素直接影響了最終中文命名實(shí)體識(shí)別的結(jié)果.在主流的RNN+CRF模型中,主要有基于詞和基于字符的兩種模式來(lái)進(jìn)行中文實(shí)體識(shí)別.例如馮蘊(yùn)天[15]提出了基于詞特征的深度信念網(wǎng)絡(luò)實(shí)體識(shí)別模型,首先對(duì)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型進(jìn)行無(wú)監(jiān)督訓(xùn)練來(lái)得到詞語(yǔ)特征的分布式表示,然后將分布式的特征輸入到深度信念網(wǎng)絡(luò)中以發(fā)現(xiàn)詞語(yǔ)的深層特征.馮艷紅[16]利用基于上下文的詞向量和基于字的詞向量,并考慮詞語(yǔ)的標(biāo)簽之間的約束關(guān)系,提出了一種基于BLSTM的命名實(shí)體識(shí)別方法.Chuanhai Dong等[17]提出了基于字符的中文命名實(shí)體識(shí)別模型,該模型將字符向量和部首向量結(jié)合起來(lái)對(duì)中文進(jìn)行實(shí)體識(shí)別.但是,基于詞或基于字符的中文實(shí)體識(shí)別方法有其局限性:1)基于字符方法中由于窗口大小的限制,使得語(yǔ)義信息獲取不足;2)基于詞方法中由于詞邊界模糊,更依賴(lài)中文分詞的準(zhǔn)確性.于是也有一些研究人員提出了混合嵌入向量模型,如殷章志等[18]提出了簡(jiǎn)單融合字詞的命名實(shí)體識(shí)別模型,將字向量與詞向量簡(jiǎn)單地連接在一起.
針對(duì)以上問(wèn)題,本文結(jié)合漢字字形特征,對(duì)字詞特征進(jìn)行融合,提出了多粒度融合嵌入的中文命名實(shí)體識(shí)別模型(Grapheme-Char Word Embedding Chinese Named Entity Recognition Model,簡(jiǎn)稱(chēng)GCWE-NER模型).本文主要工作如下:
1)本文利用BERT[19]模型強(qiáng)大的語(yǔ)義表達(dá)能力獲取中文字符向量,從而更好地表征字符的多義性;2)本文提出合并字形特征的增強(qiáng)字符信息算法,針對(duì)漢字屬于象形文字的特點(diǎn),利用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)提取漢字的字形特征,將得到的字形特征向量與通過(guò)BERT獲得的字符特征向量拼接得到增強(qiáng)字符向量;3)本文提出多粒度融合嵌入算法,利用注意力機(jī)制將增強(qiáng)字符向量與詞向量結(jié)合,以便更好地利用增強(qiáng)字符向量信息和詞向量的語(yǔ)義信息,而且不會(huì)因?yàn)橹苯舆B接導(dǎo)致向量維度過(guò)高,可以有效減小模型計(jì)算的復(fù)雜性;4)本文針對(duì)中文實(shí)體識(shí)別提出了GCWE-NER模型,實(shí)驗(yàn)表明,GCWE-NER模型在實(shí)驗(yàn)中取得了較好的結(jié)果.
本文構(gòu)建的GCWE-NER模型的結(jié)構(gòu)如圖1所示,該模型分為3層:輸入層,語(yǔ)義編碼層和標(biāo)簽解碼層.
圖1 GCWE-NER模型結(jié)構(gòu)Fig.1 Structure of GCWE-NER model
首先在輸入層,本文利用BERT模型獲得輸入語(yǔ)句中每個(gè)字的字符向量,然后通過(guò)改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)GCNN對(duì)漢字圖像提取生成字形向量,將字符向量與字形向量進(jìn)行拼接得到增強(qiáng)字符向量.接著利用word2vec模型在百度百科語(yǔ)料庫(kù)中進(jìn)行預(yù)訓(xùn)練得到預(yù)訓(xùn)練模型,獲取詞特征向量,然后利用多粒度融合嵌入算法將增強(qiáng)字符向量與詞特征向量有效地結(jié)合在一起.在語(yǔ)義編碼層再將混合向量輸入到雙向LSTM神經(jīng)網(wǎng)絡(luò)中,經(jīng)過(guò)前向訓(xùn)練和后向訓(xùn)練后,把兩個(gè)訓(xùn)練獲取的隱藏層向量拼接在一起,得到完整的隱狀態(tài)序列.最后輸入到標(biāo)簽解碼層CRF模型中,通過(guò)動(dòng)態(tài)規(guī)劃算法得到最優(yōu)預(yù)測(cè)結(jié)果.
2.1.1 合并字形特征的增強(qiáng)字符信息算法
1)字符向量獲取
BERT[19]模型是一種強(qiáng)大的預(yù)訓(xùn)練模型,其核心部分是采用雙向Transformer結(jié)構(gòu)來(lái)抽取特征.Transformer是一種基于自注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò),不僅可以獲得更長(zhǎng)的上下文信息,而且具備不錯(cuò)的并行計(jì)算能力,表義能力更強(qiáng).本文選用BERT模型來(lái)獲取中文字符向量,與其他語(yǔ)言模型相比,其優(yōu)點(diǎn)是可以充分利用到單詞上下文的信息,生成的字符向量更能表達(dá)多義性,包含更多的語(yǔ)義信息.
2)字形向量獲取
漢字,起源于甲骨文,是世界上最為古老的象形文字之一,更偏向于圖像信息而不是編碼信息.在漢字的圖形中通常蘊(yùn)含著豐富的語(yǔ)義信息,一些學(xué)者通過(guò)提取漢字的特征來(lái)提升中文實(shí)體識(shí)別的效果.Dong[17]將漢字拆成了各個(gè)部首,如“朝”字拆成了“十”、“日”、“十”和“月”,對(duì)部首提取特征,與字符特征向量連接后進(jìn)行中文實(shí)體識(shí)別,取得了不錯(cuò)的效果.不過(guò)這種方法也有一定的缺陷,例如“葉”和“古”可以拆成一樣的部首,但是漢字意義卻相差很大.這種方法忽視了漢字的整體結(jié)構(gòu)性,漢字屬于表意象形文字,字形相近的字含義也很接近,如“江”“河”,“草”“苗”等.因此可以利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)漢字整體的字形特征進(jìn)行提取,捕捉漢字中潛在的語(yǔ)義信息,字形相近的漢字得到的字形特征向量余弦相似度會(huì)更大.通過(guò)將字形向量作為特征之一,可以提升模型效果.
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[20]是一種前饋神經(jīng)網(wǎng)絡(luò),包含了卷積層,池化層與全連接層,可以通過(guò)多個(gè)卷積核對(duì)圖像特征進(jìn)行自動(dòng)提取,具備稀疏連接與參數(shù)共享的特點(diǎn),被廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域.本文在VGGNet的基礎(chǔ)上進(jìn)行改進(jìn),提出了GCNN網(wǎng)絡(luò).GCNN網(wǎng)絡(luò)如圖2所示,其中f表示過(guò)濾器數(shù)目,k表示過(guò)濾器大小,s表示步長(zhǎng),g_s表示每層輸出的維度大小.GCNN網(wǎng)絡(luò)使用的漢字圖收集于新華字典,數(shù)量為8630.GCNN網(wǎng)絡(luò)先將漢字圖渲染為32×32的灰度圖像輸入,利用多組卷積核大小為3×3,步長(zhǎng)為1的二維卷積和最大池化提取到中文漢字的128維字形向量gemb.同時(shí),為了減少過(guò)擬合化,在訓(xùn)練中還加入了圖像分類(lèi)損失函數(shù).利用GCNN網(wǎng)絡(luò)對(duì)漢字圖像x提取特征得到字形特征向量gemb后,直接送去預(yù)測(cè)它屬于哪個(gè)中文.如果x相對(duì)應(yīng)的中文標(biāo)簽是z,W為權(quán)重矩陣,那么圖像分類(lèi)損失函數(shù)為:
圖2 GCNN網(wǎng)絡(luò)Fig.2 GCNN net
L(cls)=-logp(z|x)=-logsoftmax(W×gemb)
(1)
3)合并字形特征的增強(qiáng)字符信息算法
本文結(jié)合GCNN網(wǎng)絡(luò)和BERT模型提出了合并字形特征的增強(qiáng)字符信息算法,算法結(jié)構(gòu)如圖3所示.
圖3 合并字形特征的增強(qiáng)字符信息算法Fig.3 Enhanced character information of merging glyph features algorithm
算法描述如下:
算法1.合并字形特征的增強(qiáng)字符信息算法
輸入:中文語(yǔ)句文本
輸出:合并字形特征的增強(qiáng)字符向量
算法步驟:
Step 1.將輸入的中文語(yǔ)句分為一個(gè)個(gè)漢字,輸入到GCNN網(wǎng)絡(luò)中,經(jīng)過(guò)卷積和最大池化后得到128維字形特征向量gemb.
Step 2.將中文語(yǔ)句輸入到BERT模型中,經(jīng)過(guò)雙向Transformer結(jié)構(gòu),得到字符特征向量cemb,向量維度為768維.
Step 3.將字形特征向量gemb與字符特征向量cemb拼接得到合并字形特征的增強(qiáng)字符向量gcemb,向量維度為896維,
gcemb=gembconcatcemb
(2)
2.1.2 多粒度融合嵌入算法
注意力機(jī)制(attention mechanism,簡(jiǎn)稱(chēng)attention),最先源于研究人員對(duì)圖像領(lǐng)域的研究,后來(lái)研究人員把注意力機(jī)制引入到了機(jī)器翻譯任務(wù)中,計(jì)算高效并且效果顯著,于是開(kāi)始有許多自然語(yǔ)言處理的工作開(kāi)始把a(bǔ)ttention作為提升模型性能的一個(gè)重要組成模塊.注意力機(jī)制主要分為兩步:1)計(jì)算所有輸入信息的注意力權(quán)值分布;2)通過(guò)注意力權(quán)值分布對(duì)輸入信息進(jìn)行加權(quán)平均.
在注意力機(jī)制的啟發(fā)下,本文結(jié)合Raffel提出的Feed-Forward Attention[21],提出了多粒度融合嵌入算法,算法結(jié)構(gòu)如圖4所示.
圖4 多粒度融合嵌入算法Fig.4 Attention weight model
算法描述如下:
算法2.多粒度融合嵌入算法
輸入:中文文本
輸出:多粒度融合后的嵌入特征向量
算法步驟:
Step 1.輸入中文文本,通過(guò)Word2vec預(yù)訓(xùn)練模型獲取到詞特征向量wemb,同時(shí)通過(guò)合并字形特征的增強(qiáng)字符向量算法獲取到增強(qiáng)字符特征向量gcemb.
Step 2.將增強(qiáng)字符特征向量gcemb和詞特征向量wemb輸入到權(quán)重公式中,計(jì)算gcemb的權(quán)重t1和wemb的權(quán)重t2,
(3)
(4)
其中σ是logistic函數(shù),W1,W2表示權(quán)值矩陣,b1和b2是可學(xué)習(xí)向量.
Step 3.將增強(qiáng)字符特征向量gcemb與詞特征向量wemb按各自權(quán)重融合,計(jì)算得到混合嵌入向量x:
x=t1×gcemb+t2×wemb
(5)
利用注意力機(jī)制的多粒度融合嵌入算法可以動(dòng)態(tài)調(diào)整增強(qiáng)字符向量gcemb與詞向量wemb的使用比例,能夠更好地結(jié)合字符信息,字形信息與詞信息.而且對(duì)于以往向量與向量拼接而造成的維度增大問(wèn)題,本文提出的基于注意力機(jī)制的多粒度融合嵌入算法不會(huì)造成維度過(guò)高,減輕了模型計(jì)算的復(fù)雜性,提高了運(yùn)算效率.
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[22]是一種包含循環(huán)的神經(jīng)網(wǎng)絡(luò),在理論上可以解決長(zhǎng)期依賴(lài)問(wèn)題,但是在實(shí)際操作中由于梯度在反向傳播中不停連乘,會(huì)造成梯度爆炸和梯度消失,學(xué)習(xí)不到歷史信息.
為了解決長(zhǎng)期依賴(lài)問(wèn)題,本文選用一種特殊的RNN網(wǎng)絡(luò)——長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory networks,LSTM)[14].通過(guò)前向與后向LSTM來(lái)計(jì)算上文與下文所含的隱藏信息,最終共同構(gòu)成最后的輸出.
在傳統(tǒng)機(jī)器學(xué)習(xí)中,在標(biāo)簽解碼階段一般會(huì)選用Softmax多分類(lèi)器來(lái)處理多分類(lèi)的問(wèn)題,但是Softmax在處理具有較強(qiáng)依存關(guān)系的序列標(biāo)簽時(shí),輸出相互獨(dú)立,未考慮到相鄰標(biāo)簽之間存在的關(guān)系,效果是有限的.例如,在BIO序列標(biāo)注方式下,預(yù)測(cè)句子的第一個(gè)詞一般是標(biāo)簽“O”或者“B”,而不是標(biāo)簽“I”,“B-Person”標(biāo)簽后可能會(huì)是“I-Persion”,而不會(huì)是“I-Organization”等錯(cuò)誤標(biāo)簽.
為了避免上述的問(wèn)題,論文采用條件隨機(jī)場(chǎng)(CRF)[14]讓它自己來(lái)學(xué)習(xí)這些約束條件,進(jìn)而對(duì)BiLSTM的輸出進(jìn)行更好的解碼,模型在解碼時(shí)使用Viterbi算法來(lái)求解最優(yōu)路徑.
本文使用的實(shí)驗(yàn)數(shù)據(jù)集來(lái)自于1998年《人民日?qǐng)?bào)》的標(biāo)注語(yǔ)料,這是由北京大學(xué)和富士通公司一起標(biāo)注的語(yǔ)料,是中文自然語(yǔ)言處理中經(jīng)典的標(biāo)注語(yǔ)料.本文選用實(shí)驗(yàn)數(shù)據(jù)的80%作為訓(xùn)練集,剩余20%作為測(cè)試集,對(duì)數(shù)據(jù)中的人名,地名和組織機(jī)構(gòu)名進(jìn)行識(shí)別.
標(biāo)注方式采用BIO標(biāo)注模式,其中B表示實(shí)體最開(kāi)始的部分,I表示實(shí)體開(kāi)始部分以外的剩余部分,O表示不是實(shí)體的部分,例如B-LOC表示地名最開(kāi)始的部分,I-LOC表示地名的剩余部分.PER,LOC,ORG分別代表人名,地名和組織機(jī)構(gòu)名,故3種實(shí)體類(lèi)型總共有6種標(biāo)簽,加上不是實(shí)體的O標(biāo)簽總共有7種標(biāo)簽.
本文的模型實(shí)驗(yàn)基于Tensorflow深度學(xué)習(xí)框架,字符向量獲取基于BERT-base模型,共12層,隱層為768維,采用12頭注意力機(jī)制模式,詞向量獲取基于word2vec模型CBOW模式,上下文窗口設(shè)定為5,初始學(xué)習(xí)率設(shè)定為0.015,BiLSTM的初始學(xué)習(xí)率設(shè)定為0.001,batch_size設(shè)置為128,epoch設(shè)為40,模型采用隨機(jī)梯度下降法來(lái)進(jìn)行參數(shù)的優(yōu)化,為了防止模型出現(xiàn)過(guò)擬合現(xiàn)象,使用dropout正則化方法,參數(shù)值設(shè)為0.5,為了在實(shí)驗(yàn)中防止出現(xiàn)梯度爆炸的現(xiàn)象,本文使用梯度截?cái)喾?,并讓參?shù)值設(shè)定為5.對(duì)于模型實(shí)體識(shí)別的結(jié)果,本文采用精確率P(Precision)、召回率R(Recall)和F1值(F1-Score)3個(gè)指標(biāo)來(lái)衡量,公式如下:
(6)
(7)
(8)
3.3.1 GCWE-NER有效性實(shí)驗(yàn)
為了驗(yàn)證GCWE-NER模型的有效性,本文在輸入層分別采用字符向量char輸入,詞向量word輸入,字詞向量結(jié)合char+word輸入和多粒度融合嵌入方式GCWE-NER輸入,在編碼層與解碼層分別使用雙向LSTM神經(jīng)網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)模型,結(jié)果如表1所示.
表1 有效性實(shí)驗(yàn)結(jié)果Table 1 Result of effectiveness experimental
從實(shí)驗(yàn)結(jié)果中可以看出,對(duì)于中文命名實(shí)體識(shí)別單一向量嵌入方式來(lái)說(shuō),基于詞向量word的輸入方式比基于字符向量char的輸入方式識(shí)別效果更好,這是因?yàn)樵~向量與字符向量相比,詞向量包含了更豐富的上下文語(yǔ)義信息.與單一向量嵌入方式相比,混合向量嵌入效果更好,例如字詞融合的混合向量嵌入方式char+word取得了比單一向量嵌入更好的結(jié)果.在混合向量嵌入基礎(chǔ)上,本文提出的GCWE-NER模型在實(shí)驗(yàn)中取得了更好的成績(jī),驗(yàn)證了模型的有效性.另外,在對(duì)于3種實(shí)體的識(shí)別中,實(shí)驗(yàn)發(fā)現(xiàn)對(duì)于人名和地名的識(shí)別效果較好,機(jī)構(gòu)名的識(shí)別效果相對(duì)較差,這是由于機(jī)構(gòu)名有些由多個(gè)詞嵌套構(gòu)成,識(shí)別相對(duì)來(lái)說(shuō)比較困難.
3.3.2 GCWE-NER優(yōu)越性實(shí)驗(yàn)
與他人的中文命名實(shí)體識(shí)別模型進(jìn)行對(duì)比,GCWE-NER模型也表現(xiàn)了較好的優(yōu)越性,實(shí)驗(yàn)對(duì)比結(jié)果如表2所示.
表2 優(yōu)越性實(shí)驗(yàn)結(jié)果Table 2 Result of superiority experimental
文獻(xiàn)[15]使用了深度信念網(wǎng)絡(luò),在大量無(wú)標(biāo)注語(yǔ)料中無(wú)監(jiān)督地訓(xùn)練語(yǔ)言模型,得到詞性特征與詞特征各自的分布式表示,再輸入到構(gòu)建的深度信念網(wǎng)絡(luò)中,最后構(gòu)建的6層網(wǎng)絡(luò)架構(gòu),對(duì)于人名,機(jī)構(gòu)組織名和地名識(shí)別的F1分值分別為90.48%,88.61%和89.66%.文獻(xiàn)[16]利用基于上下文的詞向量和基于字的詞向量,前者表達(dá)命名實(shí)體的上下文信息,后者表達(dá)構(gòu)成命名實(shí)體的前綴、后綴和領(lǐng)域信息,同時(shí)考慮詞語(yǔ)的標(biāo)簽之間的約束關(guān)系,最終對(duì)于人名,機(jī)構(gòu)組織名和地名識(shí)別的F1分值分別達(dá)到了93.66%,90.77%和93.25%.文獻(xiàn)[18]在基于BiLSTM-CRF模型上,使用SVM對(duì)字詞特征進(jìn)行融合,最后在人名,機(jī)構(gòu)組織名和地名識(shí)別的F1分值分別達(dá)到了94.04%,87.05%和92.15%.實(shí)驗(yàn)結(jié)果顯示,與他人方法相比,GCWE-NER模型的識(shí)別效果均有一定程度的提升,與文獻(xiàn)[18]將字向量與詞向量直接拼接在一起相比較,GCWE-NER模型也取得了更好的成績(jī).與各模型對(duì)于人名,組織名和地名最好的實(shí)體識(shí)別結(jié)果F1值相比,GCWE-NER分別提升了0.94%,0.7%和1.42%.實(shí)驗(yàn)結(jié)果表明,GCWE-NER模型與他人中文實(shí)體識(shí)別模型相比更具有優(yōu)越性.
在自然語(yǔ)言處理領(lǐng)域中,中文命名實(shí)體識(shí)別是最重要的基礎(chǔ)任務(wù)之一.本文提出的GCWE-NER模型,首先利用GCNN網(wǎng)絡(luò)提取漢字的字形特征,與字符向量拼接得到增強(qiáng)字符向量;再利用注意力機(jī)制,將詞向量與增強(qiáng)字符向量以各自的權(quán)重動(dòng)態(tài)地結(jié)合在一起,以此作為混合向量輸入到BiLSTM網(wǎng)絡(luò)中,有效地利用了中文的字形信息,字符信息和詞向量的語(yǔ)義信息,并且不會(huì)造成向量維度過(guò)高,降低模型計(jì)算的復(fù)雜性.而且GCWE-NER模型也結(jié)合了雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)捕捉上下文語(yǔ)義信息的能力,同時(shí)也保留了通過(guò)條件隨機(jī)場(chǎng)模型來(lái)推理標(biāo)簽的能力,在1998年《人民日?qǐng)?bào)》的標(biāo)注語(yǔ)料實(shí)驗(yàn)上驗(yàn)證了其有效性和優(yōu)越性.
中文嵌套實(shí)體識(shí)別的研究現(xiàn)在仍具有挑戰(zhàn)性,在接下來(lái)的工作中將繼續(xù)研究對(duì)于嵌套實(shí)體識(shí)別效果的提升.