張曉 李業(yè)剛 王棟 史樹敏
摘要:針對深度學(xué)習(xí)方法處理命名實體識別任務(wù)時,經(jīng)典的詞向量表示只能將其映射為單一向量,無法在上下文中表示出字的多義性這一問題,提出ERNIE-BiGRU-CRF模型,該模型通過知識增強語義表示ERNIE預(yù)訓(xùn)練模型增強字的語義感知表示。引入多元數(shù)據(jù)知識生成語義向量,然后將字向量輸入到GRU層提取特征,最后通過CRF層得到標(biāo)簽序列。實驗結(jié)果表明,該模型在人民日報語料庫中F1值達到了94.46%。
關(guān)鍵詞: 命名實體識別; 知識增強語義表示; 門控循環(huán)單元網(wǎng)絡(luò); 條件隨機場
【Abstract】 For the problem of processing the named entity recognition in the deep learning method, traditional word embedding method map words or chars into a single vector, which can't represent the ambiguity of the word in the context. The ERNIE-BiGRU-CRF model is proposed. The model expresses the semantic perceptual representation of the enhanced words of the ERNIE pre-training model through Enhanced Representation from kNowledge IntEgration. The multivariate data knowledge is introduced to generate the semantic vector, ?the word embedding is input to the GRU layer to extract features, and the label sequence is obtained through the CRF layer. The experimental results show that the F1 value of the model in the People's Daily corpus reaches 94.46%.
【Key words】 ?Named Entity Recognition; Enhanced Representation from kNowledge IntEgration; Gated Recurrent Unit; Conditional Random Field
0 引 言
命名實體識別[1](Named Entity Recognition,NER)是自然語言處理[2](Natural Language Processing,NLP)中的一項基礎(chǔ)性任務(wù),目的是從非結(jié)構(gòu)化數(shù)據(jù)文本中提取出人名、地名、組織機構(gòu)名和數(shù)字表達等特定類型的實體。NER在問答系統(tǒng)[3]、句法分析[4]、機器翻譯[5]等高級NLP任務(wù)中有廣泛的應(yīng)用價值。英文命名實體識別和中文命名實體識別相比,起步相對較早,且英文單詞間有空格等明顯的標(biāo)識符,實體識別過程中不涉及分詞等問題,只需要考慮詞本身的特征,識別起來較中文來說難度相對較小。而中文實體結(jié)構(gòu)復(fù)雜、形式多樣、邊界模糊,且中文字在不同的語境下還會存在一詞多義、一字多性的情況。同時與分詞等其它NLP任務(wù)相互影響。這些都增加了中文命名實體識別的難度,使得中文命名實體識別更具有研究和應(yīng)用價值。
針對中文命名實體識別任務(wù),本文在傳統(tǒng)深度學(xué)習(xí)命名實體識別中引入了融合知識增強語義表示ERNIE預(yù)訓(xùn)練語言模型,提出了一種ERNIE-BiGRU-CRF神經(jīng)網(wǎng)絡(luò)模型。ERNIE 通過對訓(xùn)練數(shù)據(jù)中的詞法結(jié)構(gòu)、語法結(jié)構(gòu)、語義信息進行統(tǒng)一建模,極大地增強了通用語義表示能力。實驗結(jié)果表明,ERNIE-BiGRU-CRF模型在人民日報語料庫上F1值達到了94.46%。與之前最好的Feng(2018)模型相比,人名實體、地名實體F1值分別提高了3.26個百分點和2.96個百分點。
1 相關(guān)工作
在命名實體識別中常用的機器學(xué)習(xí)算法有條件隨機場(Conditional Random Fields,CRF)模型、支持向量機 (Support Vector Machine,SVM) 模型等。這類機器學(xué)習(xí)方法通常依賴復(fù)雜的特定人工特征,需要人工制作特征模板,導(dǎo)致識別方法泛化能力弱,識別方法不通用。
隨著深度學(xué)習(xí)的興起,端到端的神經(jīng)網(wǎng)絡(luò)模型占據(jù)了命名實體識別方法的主流。Hammerton[6]首先通過LSTM網(wǎng)絡(luò)結(jié)構(gòu)進行命名實體識別的研究。Huang等人[7]通過LSTM網(wǎng)絡(luò)結(jié)構(gòu)和CRF相結(jié)合,彌補了LSTM未能考慮樣本輸出之間關(guān)系的缺陷,該模型在NER等序列標(biāo)記任務(wù)中取得了很好的效果。目前許多NER框架都是基于LSTM-CRF模型的。通過在LSTM-CRF模型上融入各種特征,可以進一步提升命名實體識別效果。Ma等人[8]采用了CNN提取字符級別的特征,通過字詞結(jié)合的方式處理命名實體識別任務(wù)獲得了不錯的效果。李麗雙等人[9]在生物領(lǐng)域內(nèi)利用BiLSTM-CNN-CRF模型取得了當(dāng)時最高的F1值。李明揚等人[10]通過使用Transformer結(jié)構(gòu)中的多頭注意力機制結(jié)合BiLSTM-CRF模型在微博文本領(lǐng)域的命名實體識別中取得了很好的效果。Strubell等人[11]通過利用空洞卷積網(wǎng)絡(luò)進行命名實體識別,有效提取序列信息的同時縮短了訓(xùn)練的時間。
將深度學(xué)習(xí)算法引用到命名實體識別任務(wù)中的一個關(guān)鍵步驟是用詞向量表達文本中詞語[12]。其中,word2vec[13]的提出吸引了大量科研人員的關(guān)注,word2vec可以通過訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型將詞語表示為固定長度的低維向量,得到分布表示特征。訓(xùn)練好的向量中蘊涵著一些潛在的語義信息。將預(yù)訓(xùn)練詞向量作為字詞特征輸入到神經(jīng)網(wǎng)絡(luò)模型中,提高了命名實體識別效果。Lample等人提出的BiLSTM-CRF模型,使用了大量無標(biāo)記的語料在無監(jiān)督學(xué)習(xí)中預(yù)訓(xùn)練生成word2vec詞向量,模型中沒有使用附加詞典便取得了很好的效果。但word2vec無法表示字的多義性。例如在句子“他每天都重復(fù)地做著那些重活”中“重”字表達了不同的意思,類似于word2vec等工作聚焦于上下文無關(guān)的詞向量建模,不能分別區(qū)分其含義,針對這個問題,科研人員提出了各種預(yù)訓(xùn)練語言模型來進行詞表示,Peters等人[14]提出了一種基于BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)的詞向量表征模型,該模型通過上下文的語境變動而改變,動態(tài)地增強詞的表示,表征詞匯的語法語義層面特征;Devlin等人[15]提出的BERT模型,通過預(yù)測屏蔽的詞,利用雙向Transformer網(wǎng)絡(luò)來獲取預(yù)訓(xùn)練語言模型;2019年,Sun等人[16]針對BERT在處理中文時難以學(xué)習(xí)出更大語義單元的完整表示,提出了基于知識增強的ERNIE模型直接對先驗語義知識單元進行建模,增強了模型語義表示能力。
鑒于ERNIE預(yù)訓(xùn)練語言模型的強大表義能力,針對中文命名實體識別任務(wù),本文引入了ERNIE預(yù)訓(xùn)練語言模型,提出了一種融合知識增強語義表示的ERNIE-BiGRU-CRF深度神經(jīng)網(wǎng)絡(luò)模型。結(jié)合GRU網(wǎng)絡(luò)對文本進行深層特征提取,結(jié)果表明,ERNIE-BiGRU-CRF模型在人民日報語料庫上F1值達到了94.46%。
2 ERNIE-BiGRU-CRF模型
ERNIE-BiGRU-CRF模型的整體架構(gòu)如圖1所示。該模型首先通過知識增強語義表示的ERNIE預(yù)訓(xùn)練語言模型獲得輸入的語義表示,獲取的字向量輸入到雙向GRU層提取句子級別特征,最后經(jīng)過CRF層進行序列標(biāo)注,獲取全局最優(yōu)的標(biāo)簽序列。
與之前的主流命名實體識別模型相比,ERNIE-BiGRU-CRF模型最主要的區(qū)別是加入了知識增強的語義表示ERNIE預(yù)訓(xùn)練語言模型,ERNIE模型通過對詞、實體等語義單元的掩碼學(xué)習(xí)得到完整概念的語義表示。表征了字的多義性,增強了模型語義表示能力。
2.1 ERNIE預(yù)訓(xùn)練語言模型
近年來,通過深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練無監(jiān)督文本的預(yù)訓(xùn)練語言模型有效地提高了命名實體識別、情感分析和問答系統(tǒng)等各類NLP任務(wù)。早期的工作集中于上下文無關(guān)詞向量的建模,之后的Glove[17]、Elmo等模型構(gòu)建了語句級的語義表示,2018年Google的Devlin等人[15]提出的BERT模型利用Transformer編碼器的self-attention雙向建模,取得了更好的性能。但以上的幾種模型關(guān)注的焦點在于處理原始語言信號上,很少利用語義知識建模,導(dǎo)致模型難以獲取更大語義單元的完整語義表示,在中文上表現(xiàn)更為突出。針對這個問題,Sun等人[16]提出了基于知識增強的ERNIE模型。ERNIE模型通過對大規(guī)模的語料中的詞、實體及實體關(guān)系進行建模,學(xué)習(xí)真實世界的語義關(guān)系。
BERT 模型采用雙向 Transformer 作為編碼器,并提出了掩碼語言模型(Masked Language Model,MLM)用來捕捉詞級別的表示。掩碼語言模型用來訓(xùn)練一個深度雙向文本表示向量,其主要思想是通過隨機的方式來任意屏蔽序列中的15%單詞作為訓(xùn)練樣本,利用編碼器通過序列中其它未被屏蔽的單詞預(yù)測這些被屏蔽單詞的原始詞匯。BERT中的Transformer基于注意力機制進行建模,Transformer編碼單元如圖2所示。
在模型訓(xùn)練過程中,使用隨機梯度法(Stochastic gradient descent, SGD)優(yōu)化模型,在模型中加入Dropout層減少模型過擬合問題,Dropout設(shè)為0.5,batch-size為64,學(xué)習(xí)率為0.001,學(xué)習(xí)率的更新采用step decay,衰減率為0.05,L2正則化參數(shù)為0.000 1。模型訓(xùn)練過程中利用GTX1060ti加速處理。
3.3 實驗結(jié)果與分析
為了驗證本文提出的基于ERNIE的命名實體識別方法的有效性和泛化性,對比了以下幾種主流算法,評估模型的性能。對此可做解析分述如下。
(1)CRF。CRF是機器學(xué)習(xí)中處理命名實體識別任務(wù)效果最好且應(yīng)用最為廣泛的算法。
(2)BLSTM-CRF。該模型是序列標(biāo)注任務(wù)中經(jīng)典神經(jīng)網(wǎng)絡(luò)模型,采用預(yù)訓(xùn)練好word2vec向量作為BLSTM網(wǎng)絡(luò)的輸入進行特征提取,最后將其特征矩陣輸入到CRF中完成序列標(biāo)注。
(3)Feng(2018) [18]。該模型是Feng等人在2018年提出的一種命名實體識別模型,在BLSTM-CRF模型的基礎(chǔ)上加入了詞語的前后綴信息和領(lǐng)域詞典,并將其轉(zhuǎn)換為詞的分布表示特征。
(4)ERNIE-BiGRU-CRF模型。本文提出的ERNIE-BiGRU-CRF模型,通過引入了ERNIE預(yù)訓(xùn)練語言模型,增強模型語義表示能力,通過學(xué)習(xí)到海量文本中的潛在知識,提高了命名實體識別效果。
在實驗中,為驗證ERNIE對實體識別效果的影響,對比了采用預(yù)訓(xùn)練好的詞向量輸入到BiGRU-CRF模型中進行訓(xùn)練的效果。
表3~表5中分別展示了地名、人名、組織名三種實體準(zhǔn)確率、召回率、F1值的對比情況,與現(xiàn)有的方法相比,本文提出的ERNIE-BiGRU-CRF模型三種實體的F1值分別達到了93.73%、96.92%和91.56%,總體F1值達到了94.46%。其中,組織類實體識別的F1值相對于其它兩種相對較低,分析是因為組織類實體容易出現(xiàn)地名嵌套、歧義實體等干擾信息,導(dǎo)致模型預(yù)測出現(xiàn)誤差。而人名這類實體結(jié)構(gòu)相對簡單,一般由姓和名兩部分組成,更易獲取中文命名實體識別的特征,故F1值高于機構(gòu)名和地名兩類實體。
ERNIE-BiGRU-CRF模型在P、R、F1值三個方面均優(yōu)于與CRF模型。原因是利用GRU網(wǎng)絡(luò)在訓(xùn)練的過程中能夠捕捉長距離信息,能夠更加有效地提取特征信息。同時ERNIE-BiGRU-CRF模型避免了手動構(gòu)造特征模板等不足,解決了傳統(tǒng)識別方法過于依賴人工特征的問題,實現(xiàn)了端到端的命名實體識別。
與BiGRU-CRF模型、BLSTM-CRF模型相比,地名、人名、組織名三類實體的F1值均所提高,其中提高幅度最大的是人名類實體,分別提高了10.04%和9.15%。說明基于知識增強的ERNIE模型能夠通過建模海量數(shù)據(jù)中的實體概念等先驗知識,增強字的語義感知表示,更好地表示字的語義信息。例如在句子“羅陽汝信韋典徐達歐陽春湯洪高安啟元”中,正確的實體劃分應(yīng)為“羅陽|汝信|韋典|徐達|歐陽春|湯洪高|安啟元”,但是在BiGRU-CRF模型中,未能識別出安啟元這個名字,研究分析是因為安字作為姓氏出現(xiàn)的場景較少,利用word2vec訓(xùn)練的詞向量可能更會偏向于“平安”的意思。而在ERNIE-BiGRU-CRF模型中,由于采用了知識增強語義表示ERNIE預(yù)訓(xùn)練模型, ERNIE模型通過對詞、實體等語義單元的掩碼學(xué)習(xí)到完整概念的語義表示。表征了字的多義性,根據(jù)不同的語義生成不同的語義向量,正確識別出人名。
對比Feng等人(2018)的模型,ERNIE-BiGRU-CRF模型在地名實體、人名實體F1值均有所提高,說明ERNIE的特征抽取能力較強。與Feng(2018)模型相比,還少去了添加字典等構(gòu)造外部特征的過程,從而使模型具有更好的魯棒性與更強的泛化能力。
本文提出的ERNIE-BiGRU-CRF模型更具有競爭力,明顯優(yōu)于本文對比的其它方法,在人民日報語料庫實驗對比中取得了最佳的結(jié)果。證明了該模型在中文命名實體識別中的有效性。
4 結(jié)束語
針對傳統(tǒng)詞向量不能表征字的多義性問題和模型難以獲取更大語義單元的完整語義表示等問題,本文提出了ERNIE-BiGRU-CRF模型。ERNIE預(yù)訓(xùn)練模型采用了多層雙向Transformer作為編碼器提取特征的基本單元,通過采用字掩碼、短語掩碼和實體掩碼三種級別的掩碼策略動態(tài)生成字的上下文語義表示,比傳統(tǒng)的詞向量更能增強模型語義表示能力,最終提高了命名實體識別效果。
該模型存在的問題是在一些缺乏大規(guī)模標(biāo)記數(shù)據(jù)的特定領(lǐng)域中,由于上下文信息不足,且存在縮寫、歧義實體等現(xiàn)象時,會出現(xiàn)提取錯誤的情況,下一步的研究方向可以考慮深度學(xué)習(xí)結(jié)合遷移學(xué)習(xí)方法來解決。
參考文獻
[1] MARRERO M, URBANO J, SNCHEZ-CUADRADO S, et al. Named entity recognition: Fallacies, challenges and opportunities[J]. Computer Standards & Interfaces, 2013, 35(5): 482.
[2]SEKINE S, NOBATA C. Definition, dictionaries and tagger for extended named entity hierarchy[C]//LREC. Lisbon:ELRA, 2004: 1977.
[3]于根,李曉戈,劉睿,等. 基于信息抽取技術(shù)的問答系統(tǒng)[J]. 計算機工程與設(shè)計,2017,38(4):1051.
[4]楊錦鋒,于秋濱,關(guān)毅,等. 電子病歷命名實體識別和實體關(guān)系抽取研究綜述[J]. 自動化學(xué)報,2014,40(8):1537.
[5]張磊,楊雅婷,米成剛,等. 維吾爾語數(shù)詞類命名實體的識別與翻譯[J]. 計算機應(yīng)用與軟件,2015,32(8):64.
[6]HAMMERTON J. Named entity recognition with long short-term memory[C]//Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003. Stroudsburg, PA, USA:ACL , 2003,4: 1.
[7]HUANG Z, XU W L, YU K, et al. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv: 1508.01991, 2015.
[8]MA Xuezhe, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[J]. arXiv preprint arXiv:1603.01354, 2016.
[9]李麗雙, 郭元凱. 基于 CNN-BLSTM-CRF 模型的生物醫(yī)學(xué)命名實體識別[J]. 中文信息學(xué)報, 2018,32(1):116.
[10]李明揚, 孔芳. 融入自注意力機制的社交媒體命名實體識別[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2019,59(6):461.
[11]STRUBELL E, VERGA P, BELANGER D, et al. Fast and accurate entity recognition with iterated dilated convolutions[J]. arXiv preprint arXiv:1702.02098, 2017.
[12]BENGIO Y,SCHWENK H,SENCCAL J S,et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003,3(6):1137.
[13]MIKOLOV T, CHEN K, CORRADO G S, et al. Efficient estimation of word representations in vector space[C]//Proceedings of International Conference on Learning Representations. Scottsdale, Arizona:ICLR, 2013:1.
[14]PETERS M E, NEUMANN M, IYYER M, et al. Deep contextualized word representations[C]//North American Chapter of the Association for Computational Linguistics. Louisiana, USA:dblp, 2018: 2227.
[15]DEVLIN J, CHANG M, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[C]// North American Chapter of the Association for Computational Linguistics. Minneapolis:dblp, 2019: 4171.
[16]SUN Y, WANG S, LI Y, et al. ERNIE: Enhanced representation through knowledge integration[J]. arXiv preprint arXiv:1904.09223, 2019.
[17]PENNINGTON J, SOCHER R,MANNING C D. Glove: Global vectors for word representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, Qatar:ACL, 2014:1532.
[18]馮艷紅,于紅,孫庚,等. 基于BLSTM的命名實體識別方法[J]. 計算機科學(xué), 2018, 45(2): 261.
[19]石春丹, 秦嶺. 基于BGRU-CRF的中文命名實體識別方法[J]. 計算機科學(xué), 2019, 46(9): 237.
[20]李佰蔚. 基于GRU-CRF的中文命名實體識別方法研究[D]. 哈爾濱:哈爾濱理工大學(xué),2019.
[21]CHO K, Van MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, Qatar: Association for Computational Linguistics, 2014: 1724.