張俊飛 畢志升 王靜 吳小玲
摘? ?要:為在不依賴特征工程的情況下提高中文領(lǐng)域命名實(shí)體識(shí)別性能,構(gòu)建了BLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型。首先利用CBOW模型對(duì)1998年1月至6月人民日?qǐng)?bào)語(yǔ)料進(jìn)行負(fù)采樣遞歸訓(xùn)練,生成低維度稠密字向量表,以供查詢需要;然后基于Boson命名實(shí)體語(yǔ)料,查詢字向量表形成字向量,并利用Jieba分詞獲取語(yǔ)料中字的信息特征向量;最后組合字向量和字信息特征向量,輸入到BLSTM-CRF深層神經(jīng)網(wǎng)絡(luò)中。實(shí)驗(yàn)結(jié)果證明,該模型面向中文領(lǐng)域命名實(shí)體能夠較好的進(jìn)行識(shí)別,F(xiàn)1值達(dá)到91.86%。
關(guān)鍵詞:BLSTM-CRF;CBOW;Boson;命名實(shí)體識(shí)別
中圖分類號(hào):X853? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:The BLSTM-CRF neural network model is built to improve the performance of Chinese domain named entity recognition in the absence of feature engineering.First,the CBOW model was used to carry out recursion training of negative sampling on the corpus of People's Daily from January to June in 1998 to generate a low-dimensional dense word vector table for the query needs;then,based on Boson entity corpus,the word vector was formed by querying the word vector table,and the information feature vector of the words in the corpus was obtained by using the Jieba participle;finally,the combined word vector and word information feature vector are input into BLSTM-CRF deep neural network.Experimental results show that the model can be well identified for the Chinese domain named entities,and the F1 value is up to 91.86%.
Key words:BLSTM-CRF;CBOW;Boson;named entity recognition
命名實(shí)體識(shí)別是自然語(yǔ)言處理中的一項(xiàng)基礎(chǔ)任務(wù),旨在從文本中識(shí)別命名實(shí)體如人名、地名和組織機(jī)構(gòu)名等。命名實(shí)體識(shí)別是信息提取[1]、問(wèn)答系統(tǒng)[2]、句法分析[3]、機(jī)器翻譯[4]等應(yīng)用領(lǐng)域的重要基礎(chǔ),其研究具有重要意義。早期學(xué)者利用命名實(shí)體識(shí)別規(guī)則或機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)對(duì)中文命名實(shí)體識(shí)別。張小衡等[5]利用相應(yīng)的規(guī)則實(shí)現(xiàn)對(duì)中國(guó)內(nèi)地、香港、臺(tái)灣高校名稱的識(shí)別;程志剛[6]提出了采用基于規(guī)則和條件隨機(jī)場(chǎng)相結(jié)合的中文命名實(shí)體識(shí)別研究方案對(duì)人民日?qǐng)?bào)的語(yǔ)料進(jìn)行人名、地名、機(jī)構(gòu)名的識(shí)別。馮艷紅等[7]基于詞向量和條件隨機(jī)場(chǎng)在漁業(yè)領(lǐng)域語(yǔ)料和Sogou CA語(yǔ)料上進(jìn)行了領(lǐng)域術(shù)語(yǔ)識(shí)別,F(xiàn)值達(dá)到0.9643。近年來(lái),隨著人工智能技術(shù)的發(fā)展,相比基于規(guī)則和機(jī)器學(xué)習(xí)的命名實(shí)體識(shí)別方法,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法因不依賴特征工程而備受關(guān)注。LSTM-CRF模型是當(dāng)前命名實(shí)體識(shí)別比較流行的組合,最早由Collobert[8]提出,隨后國(guó)內(nèi)外學(xué)者對(duì)LSTM-CRF模型展開了深入研究。Huang[9]把BLSTM-CRF模型應(yīng)用于序列標(biāo)注;買買提阿依甫[10]通過(guò)CNN提取維吾爾單詞的字符特征結(jié)合單詞詞性和詞向量,應(yīng)用BLSTM-CRF模型實(shí)現(xiàn)維吾爾命名實(shí)體識(shí)別,F(xiàn)1值達(dá)到91.89%;Dong[11]利用字的偏旁部首特性結(jié)合LSTM-CRF模型實(shí)現(xiàn)命名實(shí)體識(shí)別。
從當(dāng)前研究可以看出,深度學(xué)習(xí)的命名實(shí)體識(shí)別不使用特征工程;在神經(jīng)網(wǎng)絡(luò)輸入層盡量豐富輸入數(shù)據(jù)信息,以提高識(shí)別準(zhǔn)確率?;?998年1月-6月人民日?qǐng)?bào)語(yǔ)料和Boson命名實(shí)體識(shí)別語(yǔ)料,本文提出一種基于BLSTM-CRF的神經(jīng)網(wǎng)絡(luò)模型,首先利用Word2Vec訓(xùn)練人民日?qǐng)?bào)語(yǔ)料,輸出字向量數(shù)據(jù),以供Boson語(yǔ)料查詢,形成Boson語(yǔ)料字向量;然后通過(guò)對(duì)Boson命名實(shí)體語(yǔ)料進(jìn)行Jieba分詞,獲得字的信息特征向量;最后組合字向量和字信息特征向量輸入到BLSTM-CRF模型中進(jìn)行訓(xùn)練,從而得到面向中文領(lǐng)域命名實(shí)體識(shí)別模型。
1? ?框架整體設(shè)計(jì)
圖1為本文提出的BLSTM-CRF模型框架。本模型共有三部分組成:輸入層、BLSTM模塊、線性CRF模塊。輸入層輸入信息包括:字向量和字的信息特征向量。字向量通過(guò)查找預(yù)先利用Word2Vec訓(xùn)練好的字向量表得到;字的信息特征向量,需要對(duì)輸入句子分詞處理,然后進(jìn)行標(biāo)注獲得。字向量和字信息特征向量組合喂入BLSTM模塊中,輸出各種標(biāo)記序列組合,再進(jìn)行線性CRF處理,得到一個(gè)最優(yōu)的標(biāo)記序列。
1.1? ?字向量
將文本應(yīng)用于深度學(xué)習(xí)網(wǎng)絡(luò)中,首先需要對(duì)輸入數(shù)據(jù)進(jìn)行向量化表示。文本向量化表示有兩種:One-Hot方式和分布式方式[12]。One-Hot方式實(shí)現(xiàn)字符0和1表示的長(zhǎng)向量,向量的長(zhǎng)度是語(yǔ)料詞典的大小。One-Hot表示容易遭受向量維數(shù)災(zāi)難,數(shù)據(jù)非常稀疏(大部分為0值),沒有考慮字符間的語(yǔ)義和語(yǔ)法關(guān)系。分布式表示將字符從One-Hot表示向量映射為低維、稠密實(shí)數(shù)向量,且考慮了字符間的上下文信息環(huán)境,克服了One-Hot存在的缺陷。Mikolov等人[13]提出CBOW(Continuous Bag-of-
Word)和Skip-gram(Continuous Skip-gram)兩個(gè)分布式表示模型。CBOW在訓(xùn)練效率上高于Skip-gram,[14]故本研究中采用CBOW模型來(lái)訓(xùn)練字的分布式特征。
CBOW模型包含三層:輸入層、投影層、輸出層,其模型框架如圖2所示。以語(yǔ)料中“大江截流展宏圖”語(yǔ)句為例,輸入層為字符“流”的上下文,其中 wt-e,wt-e+1,…,wt-e-1,wt+e表示“流”上下文“長(zhǎng)江截展宏圖”對(duì)應(yīng)的各個(gè)字的One-Hot向量表示,窗口大小c為3;投影層將6個(gè)輸入層向量求和(或求均值、直接拼接);輸出層是被One-Hot編碼的輸出字“流"。其目標(biāo)函數(shù)為:p(wt|wt,wt-e+1,…,wt-e-1,wt+e),在上下文環(huán)境下求得wt的概率最大化。通過(guò)對(duì)目標(biāo)函數(shù)的訓(xùn)練,獲得每個(gè)字的k維向量。k值越大訓(xùn)練成本越高,模型效果越好,本研究k為150。
本研究以1998年1月-6月人民日?qǐng)?bào)為字向量訓(xùn)練語(yǔ)料,使用Python Gensim工具構(gòu)建Word2Vec的CBOW模型、輸出層使用負(fù)采樣降低訓(xùn)練復(fù)雜度,提高訓(xùn)練效率,最終生成了字向量Vec.txt文件。
1.2? ?Boson命名實(shí)體語(yǔ)料處理
Boson命名實(shí)體采用UTF-8編碼進(jìn)行標(biāo)注,每行為一個(gè)段落標(biāo)注,共包括2000段落。所有的實(shí)體標(biāo)注格式為:{{實(shí)體類型:實(shí)體文本}}。Boson語(yǔ)料中數(shù)據(jù)如:{{product_name:浙江在線杭州}}{{time:4月25日}}訊(記者{{person_name: 施宇翔}} 通訊員 {{person_name:方英}})。Boson標(biāo)注的實(shí)體類別如下表1所示。
Boson命名實(shí)體語(yǔ)料首先采用BIEO標(biāo)記(B表示詞開頭,I表示詞中間,E表示詞結(jié)尾,O表示其他)方法進(jìn)行處理,按照標(biāo)點(diǎn)符號(hào)分成短句,每個(gè)短句為一行。標(biāo)記結(jié)果如:
浙/B_product_name江/I_product_name在/I_product_name線 /I_product_name杭/I_product_name州/E_product_name 4/B_time月/I_time 2/I_time 5/I_time日/E_time訊/O(/O記/O者/O施/B_person_name宇/I_person_name翔/E_person_name通/O訊/O員/O方/B_person_name英/E_person_name)。
然后,給每個(gè)字(char)和標(biāo)簽(tag)分配一個(gè)id,并將char_to_id,id_to_char,tag_to_id,id_to_tag的關(guān)系數(shù)據(jù)存在Boson.pkl中,以供本設(shè)計(jì)模型調(diào)用。
本文設(shè)計(jì)命名實(shí)體識(shí)別模型,其輸入層數(shù)據(jù)不僅僅包含字向量還有字的特征向量。以“浙江在線杭州…訊”為例,首先查找Vec.txt獲取字向量表示,同時(shí)采用Jieba分詞加載外部詞典Boson.dic(針對(duì)Boson語(yǔ)料設(shè)計(jì)的詞典)實(shí)現(xiàn)對(duì)Boson語(yǔ)料分詞處理,獲取其信息特征[1,2,2,2,2,3,…,0](1表示詞的開始,2表示詞中間位置,3表示詞結(jié)束位置,0表示單個(gè)詞)。在使用字信息特征向量之前,先對(duì)其進(jìn)行Min-Max Normalization歸一化處理。
1.3? ?BLSTM模塊
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[15]是一種循環(huán)網(wǎng)絡(luò)(RNN)模型的變種,通過(guò)引入一個(gè)記憶單元解決了RNN訓(xùn)練過(guò)程中的長(zhǎng)距離依賴問(wèn)題。記憶單元由記憶細(xì)胞、輸入門、遺忘門和輸出門組成,其中記憶細(xì)胞存儲(chǔ)和更新歷史信息,門結(jié)構(gòu)利用sigmoid函數(shù)決定信息的保留程度。
(1)實(shí)驗(yàn)1和實(shí)驗(yàn)2對(duì)比分析
實(shí)驗(yàn)1和實(shí)驗(yàn)2對(duì)比分析可知,本文提出的識(shí)別框架模型識(shí)別效果F1值有2.77%的提升,這說(shuō)明輸出端采用線性CRF比softmax更能判斷正確的標(biāo)注序列。softmax層的輸出是相互獨(dú)立的,只考慮輸出概率越大越好,沒有計(jì)算輸出標(biāo)簽之間的語(yǔ)法關(guān)系;線性CRF不僅考慮了輸出概率的大小,還通過(guò)轉(zhuǎn)移矩陣衡量了輸出標(biāo)簽之間的轉(zhuǎn)移分?jǐn)?shù),保證了標(biāo)簽之間的正確的語(yǔ)法關(guān)系。
(2)實(shí)驗(yàn)1和實(shí)驗(yàn)3對(duì)比分析
實(shí)驗(yàn)1和實(shí)驗(yàn)3對(duì)比分析可知,本文提出的識(shí)別框架模型識(shí)別效果F1值有2.06%的提升。本文提出的識(shí)別框架輸入層的輸入數(shù)據(jù)包括字向量和字的信息特征向量。字的信息特征向量的加入,豐富了輸入信息,使得模型對(duì)領(lǐng)域命名實(shí)體的識(shí)別更加有效。
綜上,在Boson領(lǐng)域語(yǔ)料命名實(shí)體識(shí)別任務(wù)上,本文提出的通過(guò)Jieba分詞獲取字的信息特征來(lái)補(bǔ)充字向量信息,以及BLSTM和CRF模型的融合,都是有效提高領(lǐng)域命名實(shí)體識(shí)別的途徑。
3? ?結(jié)? ?論
文本針對(duì)Boson命名實(shí)體語(yǔ)料,提出了獲取字的信息特征補(bǔ)充字向量信息,進(jìn)而構(gòu)建BLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型,在Boson語(yǔ)料上取得了很好的識(shí)別效果。針對(duì)中文命名實(shí)體領(lǐng)域識(shí)別體現(xiàn)在如下兩點(diǎn):①采用Word2Vec方法,利用CBOW模型產(chǎn)生的Vec.txt具有特殊性。不同的訓(xùn)練語(yǔ)料可能產(chǎn)生不同的字向量數(shù)據(jù),字向量維度和包含的字都可能不同。②利用Jieba分詞獲取的字信息特征具有獨(dú)特性。針對(duì)Boson語(yǔ)料設(shè)計(jì)了外部分詞詞典Boson.dic,對(duì)Boson中的專屬詞語(yǔ)分詞準(zhǔn)確,增強(qiáng)了字的信息特征的有效性。提出的基于Boson中文領(lǐng)域命名實(shí)體識(shí)別框架針對(duì)專屬領(lǐng)域的,通過(guò)選擇字向量訓(xùn)練語(yǔ)料、設(shè)計(jì)該領(lǐng)域的專屬詞語(yǔ)分詞詞典,更加準(zhǔn)確的識(shí)別命名實(shí)體。
參考文獻(xiàn)
[1]? ? 田家源,楊東華,王宏志. 面向互聯(lián)網(wǎng)資源的醫(yī)學(xué)命名實(shí)體識(shí)別研究[J]. 計(jì)算機(jī)科學(xué)與探索,2018,12(06):898—907.
[2]? ? 于根,李曉戈,劉睿,等. 基于信息抽取技術(shù)的問(wèn)答系統(tǒng)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2017,38(04):1051—1055.
[3]? ? 楊錦鋒,于秋濱,關(guān)毅,等. 電子病歷命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取研究綜述[J].自動(dòng)化學(xué)報(bào),2014,40(08):1537—1562.
[4]? ? 張磊,楊雅婷,米成剛,等. 維吾爾語(yǔ)數(shù)詞類命名實(shí)體的識(shí)別與翻譯[J]. 計(jì)算機(jī)應(yīng)用與軟件,2015,32(08):64—67+109.
[5]? ? 張小衡,王玲玲. 中文機(jī)構(gòu)名稱的識(shí)別與分析[J]. 中文信息學(xué)報(bào),1997(04):22—33.
[6]? ? 程志剛. 基于規(guī)則和條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別方法研究[D]. 武漢:華中師范大學(xué),2015.
[7]? ? 馮艷紅,于紅,孫庚,等. 基于詞向量和條件隨機(jī)場(chǎng)的領(lǐng)域術(shù)語(yǔ)識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,2016,36(11):3146—3151.
[8]? ? COLLOBERT R,WESTON J,BOTTOU L,et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research,2011,12(8): 2493—2537.
[9]? ?HUANG Z,XU W,YU K. Bidirectional LSTM-CRF models for sequence tagging[J]. arXiv preprint arXiv:1508.01991,2015.
[10]? 買買提阿依甫,吾守爾·斯拉木,帕麗旦·木合塔爾,等. 基于BiLSTM-CNN-CRF模型的維吾爾文命名實(shí)體識(shí)別[J].計(jì)算機(jī)工程,2018,44(08):230—236.
[11]? DONG C,ZHANG J,ZONG C,et al. Character-based LSTM-CRF with radical-level features for chinese named entity recognition[C]//International Conference on Computer Processing of Oriental Languages. Springer International Publishing,2016: 239—250.
[12]? 溫瀟. 分布式表示與組合模型在中文自然語(yǔ)言處理中的應(yīng)用[D]. 南京:東南大學(xué),2016.
[13]? MIKOLOV T,SUTSKEVER I,CHEN K,et al. Distributed representations of words and phrases and their compo-sitionality[J]. Advances in Neural Information Processing Systems,2013:3111—3119.
[14]? 孫娟娟,于紅,馮艷紅,等.基于深度學(xué)習(xí)的漁業(yè)領(lǐng)域命名實(shí)體識(shí)別[J].大連海洋大學(xué)學(xué)報(bào),2018,33(02):265—269.
[15]? HOCHREITER S,SCHMIDHUBER J. Long Short-term memory[J]. Neural Computation,1997,9(8):1735—1780.
[16]? 李麗雙,郭元?jiǎng)P. 基于CNN-BLSTM-CRF模型的生物醫(yī)學(xué)命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào),2018,32(01):116—122.
[17]? SRIVASTAVA N,HINTON G,KRIZHEVSKY A,et al. Dropout: a simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research,2014,15(1): 1929—1958.