張子睿,劉云清
(長春理工大學 電子信息工程學院,長春 130022)
基于BI-LSTM-CRF模型的中文分詞法
張子睿,劉云清
(長春理工大學 電子信息工程學院,長春 130022)
遞歸神經網絡能夠很好地處理序列標記問題,已被廣泛應用到自然語言處理(NLP)任務中。提出了一種基于長短期記憶(LSTM)神經網絡改進的雙向長短期記憶條件隨機場(BI-LSTM-CRF)模型,不僅保留了LSTM能夠利用上下文信息的特性,同時能夠通過CRF層考慮輸出標簽之間前后的依賴關系。利用該分詞模型,通過加入預訓練的字嵌入向量,以及使用不同詞位標注集在Bakeoff2005數(shù)據(jù)集上進行的分詞實驗,結果表明:BI-LSTM-CRF模型比LSTM和雙向LSTM模型具有更好的分詞性能,同時具有很好地泛化能力;相比四詞位,采用六詞位標注集的神經網絡模型能夠取得更好的分詞性能。
中文分詞;BI-LSTM-CRF;詞位標注
由于中文寫法的特性,決定了詞與詞之間沒有類似空格的顯式標志來進行分割,因此中文分詞問題就成了中文自然語言處理中面臨的首要基礎性工作。近些年,特別是從國際中文分詞評測活動Bakeoff開展以來,中文自動分詞技術發(fā)生了重大的變化和進步[1]。中文自動分詞的研究方法主要分為三種:基于詞表的方法;基于傳統(tǒng)統(tǒng)計模型的方法;基于深度學習神經網絡的方法。
基于詞表的分詞方法基本上是20世紀80年代或者更早一些時候提出來的,其中劉源[2]做出了一些總結性的工作,介紹了包括正向最大匹配法,逆向最大匹配法,雙向掃描法等16種不同的基于詞表的分詞方法。而基于詞表的分詞方法由于對詞表的依賴性很大,在針對中文分詞難點中的命名實體識別,未登陸詞識別方面表現(xiàn)很差。同時詞表的構建受到相關針對領域的限制,適應性較差。
基于傳統(tǒng)統(tǒng)計模型的分詞方法,自從Bakeoff比賽開展后,就出現(xiàn)了大量相關工作的論文。最常用的方法是將中文分詞問題看作是序列標注問題,如Xue等人[3]使用最大熵算法實現(xiàn)由字構詞模型,將漢字標注成為4位標注集(B,M,E,S)其中之一,然后利用標注規(guī)則進行分詞。Peng等人[4]通過構建線性鏈條件隨機場(CRF)來進行分詞。Tseng等人[5]在文獻[4]的基礎上利用條件隨機場和字標注的方法構建分詞系統(tǒng)取得了比較不錯的分詞效果。Stanford最初發(fā)布的漢語分詞工具亦是基于文獻[5]的成果實現(xiàn)。之后,同樣是利用條件隨機場模型但是卻是構建6詞位標注(B,B1,B2,M,E,S)和6特征模板(TMPT-6)的分詞系統(tǒng)被黃昌寧等人[6]提出。而基于傳統(tǒng)統(tǒng)計模型的分詞方法無論是最大熵,條件隨機場,還是它們的聯(lián)合模型[7]等,其性能都受到了特征設定的局限。在實際使用中往往出現(xiàn)特征過多的情況使得模型過擬合。
基于深度學習神經網絡的分詞方法,能夠從原始數(shù)據(jù)中自主學習,從而找到更深層次,更加抽象的特征。由于這些特征不是人為設定,這樣使它規(guī)避了傳統(tǒng)統(tǒng)計模型分詞方法的局限所在,因此能夠在自然語言處理任務中獲得更好的表現(xiàn)。Collobert等人[8]就是利用神經網絡這一優(yōu)勢,拋棄了傳統(tǒng)的人工特征設定及提取的方式,從而在英文語句標注方面獲得了不錯的成績。Zheng等人[9]按照文獻[8]中提出的思路,首次將神經網絡運用到中文分詞任務上,并且用感知器算法替換了原本神經網絡的訓練算法,加速了整個訓練過程。但文獻[9]只是簡單的通過設置窗口來獲得上下文向量,針對這一點文獻[10]增加了標簽的嵌入和張量轉換層,想以此加大上下文特征之間的關聯(lián),但是所取得的效果略遜于傳統(tǒng)方法。之后,Chen等人[11-12]先后提出了GRNN(gated recursive neural network)模型和基于GRNN模型改進的具有上下文記憶單元的LSTM(long short-term memory)模型來進行中文分詞,取得了與傳統(tǒng)統(tǒng)計模型分詞方法相當?shù)某煽?。而LSTM模型只能對記住過去的上下文信息,無法對未來的上下文信息進行處理,因此Yao等人[13]提出了雙向LSTM模型來進行中文分詞,進一步的提升分詞的準確率。
這些深度神經網絡模型的分詞方法均是基于4詞位標注方法,無法全面表達詞語中每一個詞的詞位信息,并且對于神經網絡模型訓練的結果僅僅只是做了維特比來進行分詞,沒有進一步來深化處理。針對這些問題,本文做出了如下工作:
(1)應用基于LSTM神經網絡的雙向LSTMCRF模型到中文分詞任務上。這樣既利用了雙向LSTM模型能夠保存上下文信息的優(yōu)勢,同時也利用了CRF層從句子層面考慮前后標注之間的影響,而不是只對神經網絡層的輸出進行簡單的動態(tài)規(guī)劃處理。最后的實驗結果表明,BI-LSTM-CRF模型對比雙向LSTM模型具有更好的分詞性能。
(2)在神經網絡分詞模型上分別采用了4詞位標注與6詞位標注方法,實驗結果表明采用6詞位標注的分詞模型具有更加優(yōu)越的性能表現(xiàn)
通過介紹LSTM單元和CRF模型來分別構建LSTM神經網絡、BI-LSTM神經網絡以及BILSTM-CRF模型。其中BI-LSTM-CRF模型在文獻[14]中第一次被提出用做處理序列標注問題。
LSTM單元能夠在不保留冗余上下文信息的同時解決長期依賴問題,因此被廣泛的運用在自然語言處理任務中。LSTM記憶單元的基本結構由三個門結構和一個細胞狀態(tài)組成,如圖1所示。
圖1 LSTM記憶單元結構圖
從圖1中可以看出,LSTM記憶單元中細胞狀態(tài)的保存與更新由輸入門,忘記門和輸出門決定。其中輸入門控制將新的信息中哪些部分保存到細胞狀態(tài)中,忘記門決定歷史細胞狀態(tài)的保留信息,輸出門控制全部更新后的細胞狀態(tài)哪些部分被輸出。LSTM單元具體工作流程用以下公式表示:
其中,it,ft,ot,Ct分別表示t時刻輸入門,忘記門,輸出門和細胞狀態(tài)的輸出,xt和ht表示t時刻時的輸入向量和隱藏層向量。σ表示sigmoid激活函數(shù),W和b分別表示權重矩陣和偏置向量,它們的下標代表它們所屬歸類,如Wi和bi表示它們屬于輸入門結構中的權值矩陣和偏置向量。
LSTM神經網絡通過LSTM記憶單元來保存前面的上下文信息,解決了RNN算法出現(xiàn)的長距離依賴問題,其結構圖如圖2所示。其中輸入層為X,即語料庫中每個字構造成的特征向量。隱藏層為h,A表示每一個LSTM記憶單元。輸出層為y,即每個字對應的標注。
圖2 LSTM神經網絡結構
但是LSTM不能考慮到未來的上下文信息,比如“他們”這個詞,若無法考慮到“他”后面的上下文信息,那么就會把“他”單獨分詞。這也是LSTM神經網絡作為分詞模型的局限所在。
BI-LSTM神經網絡的思路來自于雙向RNN模型[15],其結構圖如圖3所示。它擁有兩個不同方向的并行層,前向層與后向層的運行方式和常規(guī)神經網絡的運行方式相同。這兩個層分別從句子的前端和末端開始運行,因此能存儲來自兩個方向的句子的信息。這樣BI-LSTM既能保存前面的上下文信息,也能同時考慮到未來的上下文信息,從而使其在中文分詞中擁有更好的表現(xiàn)。
圖3 BI-LSTM神經網絡結構
在中文分詞中,一般有兩種序列標注的思想。第一種是從時間順序上考慮,從前向后預測出序列標注分布,比如最大熵馬爾可夫模型(MEMM)[16]。第二種是從句子層面考慮序列標注問題,每個字標注的狀態(tài)不僅僅是受到時間順序上的從前向后的影響,同時也會被未來的狀態(tài)所影響,比如線性條件隨機場模型(CRF)[17]。
這種考慮前后狀態(tài)影響的序列標注思想和BI-LSTM模型利用前后上下文特征的思想很相似,同時在文獻[17]和文獻[13]中分別被證明這類模型性能優(yōu)于只考慮單方面影響的模型。CRF的鏈式結構圖如圖4所示。
圖4 CRF鏈式結構圖
那么在給定觀察序列X=(x1,x2,...,xn)時,標注序列y的概念可以定義為:
其中,tj(yi-1,yi,X,i)為概率轉移函數(shù),表示對于序列X在其標注為yi-1和yi之間的轉移概率。sk(yi,X,i)為狀態(tài)函數(shù),表示對于序列X其i位置的標記為yi的概率。λj,uk分別對應著相應函數(shù)的權重。
BI-LSTM-CRF模型是將BI-LSTM網絡和CRF模型結合起來,即在BI-LSTM網絡的隱藏層后加一層CRF線性層,模型結構如圖5所示。該模型通過雙向LSTM層很好地結合了上下文的特征,并且經由CRF層有效地考慮了句子前后的標簽信息。
由1.3小節(jié)可知,對比單獨的BI-LSTM神經網絡,該模型還需要一個標注之間的狀態(tài)轉移矩陣作為CRF層的參數(shù)。通過引入狀態(tài)轉移矩陣A,然后設定矩陣P為雙層LSTM網絡的輸出。其中Ai,j表示時序上從第i個狀態(tài)轉移到第j個狀態(tài)的概率,Pi,j表示輸入觀察序列中第i個詞為第j個標注的概率。則觀察序列X對應的標注序列y=(y1,y2,...,yn)的預測輸出為:
利用動態(tài)規(guī)劃算法可以很好地計算標簽序列的推理,具體算法請參閱文獻[17]。
圖5 BI-LSTM-CRF模型結構
為了將中文分詞問題轉化成序列標注問題,就需要將分詞中的每一個字進行標注。在深度學習分詞研究工作中,常用的標注集是四詞位(B,M,E,S),分別表示一個分詞的開始詞位,中間詞位,結束詞位以及以單獨一個字構成的分詞。而對比四詞位標注,文獻[6]中提出的六詞位(B,B1,B2,M,E,S)標注方法更能有效地表達出字在詞語中的詞位信息。因此本文對分詞語料庫文本分別進行四詞位標注和六詞位標注的預處理,從而對比最后的分詞效果。以四詞位標注為例,基于本文構建的分詞模型訓練流程圖如圖6所示。
圖6 BI-LSTM-CRF分詞模型訓練流程圖
如圖6的向量層所示,輸入分詞模型的文本序列首先需要分布式向量化。這里采用的是文獻[18]提出的word2vec方法,同時該方法在文獻[13]中被證明對描述字級別特征有效,能夠提升分詞的準確率。通過word2vec方法,訓練語料庫中每一個字可以轉化成一個長度為d的空間向量。而對于每一個輸入分詞模型的字,其對應的分布式向量由該字和該字上下文的字向量拼接而成。
Dropout[19]是當前流行的避免神經網絡過擬合的方法之一。Dropout方法直接作用在神經網絡結構上,隨機選擇部分單元連同它們的輸入輸出連接,都暫時從網絡中刪除它們。其中單元被選中暫時刪除的概率可以在訓練的時候人為設定。如圖6所示,在BI-LSTM-CRF模型輸入之前,對最終的字嵌入向量層應用dropout方法。
本實驗所有的模型全部使用NVIDIA GeForce GTX 1070顯卡來訓練,相比用CPU訓練時間長達好幾天的情況下,使用該型號GPU訓練模型的時間縮短為3個小時左右。
實驗采用Bakeoff2005提供的數(shù)據(jù)集來評估構建的分詞模型,它包括PKU Corpus,MSRA Corpus,AS Corpus和CityU Corpus。為了公正的評估模型的分詞性能,實驗采用了SIGHAN規(guī)定的“封閉測試”原則,其評價指標有:準確率(P),召回率(R),綜合指標值(F)。
由于文本向量化的維度大小及使用dropout方法設定的百分比都會在一定程度上影響最終的分詞結果,因此最終使用MSRA Corpus作為語料庫,基于4詞位標注方法,以基礎的LSTM神經網絡為模型,分別設定嵌入字向量維度大小為50,100,200,300,dropout百分比為20%,50%,其實驗結果見表1。通過表1可知,在字嵌入向量維度為200,dropout大小為20%時,LSTM分詞模型取得最佳性能。
通過表1的測試結果,可以設定接下來分詞模型實驗均是在字嵌入維度為200,dropout百分比為20%的條件下進行。記4詞位標注為4-tag,6詞位標注為6-tag,以LSTM,BI-LSTM,BI-LSTMCRF為分詞模型,以4-tag與6-tag為標注,分別在PKU,M SRA,AS和CityU語料庫上進行分詞性能測試。其實驗結果見表2,其中模型1-6分別表示 LSTM(4-tag),LSTM(6-tag),BI-LSTM(4-tag),BI-LSTM(6-tag),BI-LSTM-CRF(4-tag)和BI-LSTM-CRF(6-tag)。
表1 在不同模型參數(shù)下LSTM模型分詞性能
通過表2可知,采用6詞位標注的模型在分詞性能上優(yōu)于采用4詞位標注的模型。對比LSTM以及BI-LSTM模型,BI-LSTM-CRF模型在分詞性能評價的各個指標上也有著更加優(yōu)秀的表現(xiàn)。表3為BI-LSTM-CRF模型與前人在分詞領域研究的對比。其中Bakeoff-best表示2005年度Bakeoff測評的最好成績,(Chen,2015)為文獻[11]中的最好結果,其使用了LSTM模型并且在文本向量化過程中加入了雙字符嵌入向量,(Yao,2016)為文獻[13]中的最好結果,其使用了BI-LSTM模型并且堆疊了BI-LSTM模型的層數(shù)為3層。而在本文中并未使用復雜的嵌入向量和增加神經網絡模型層數(shù)的方法就達到了不錯的分詞性能,證明了BILSTM-CRF分詞模型的優(yōu)越性。
表2 不同標注下LSTM,BI-LSTM以及BI-LSTM-CRF分詞模型性能
表3 BI-LSTM-CRF模型與前人研究模型性能對比
本文的工作是在LSTM神經網絡的基礎上建立BI-LSTM-CRF分詞模型,采用不同詞位標注并加入預訓練字嵌入向量的方法來進行中文分詞。通過在Bakeoff 2005數(shù)據(jù)集上進行的分詞性能實驗測試以及與前人的研究工作結果對比得出:在同樣的分詞模型下,六詞位標注比四詞位標注具有更好的分詞性能;在中文分詞任務中,對比LSTM模型和BI-LSTM模型,BI-LSTM-CRF模型在各項指標上具有更優(yōu)秀的性能表現(xiàn)。研究結果還表明了BI-LSTM-CRF分詞模型在簡體中文和繁體中文中均具有良好的性能,更容易推廣到自然語言處理中其他序列標注問題上,具有一定的泛化能力。
[1]黃昌寧,趙海.中文分詞十年回顧[J].中文信息學報,2007,21(3):8-19.
[2]劉源.信息處理用現(xiàn)代漢語分詞規(guī)范及自動分詞方法[M].北京:清華大學出版社,1994.
[3]Nianwen Xue.Chinese word segmentation as character tagging[J].Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.
[4]Peng F,F(xiàn)eng F,Mccallum A.Chinese segmentation and new word detection using conditional random fields[C].Proceedings of Coling,2004:562-568.
[5]Tseng H,Chang P,Andrew G,et al.A conditional random field word segmenter for sighan bakeoff 2005[C].Proc of the Fourth SIGHAN Workshop on Chinese Language Processing,2005:168-171.
[6]Zhao H,Huang C N,Li M,et al.An improved Chinese word segmentation system with conditional random field[C].Proceedings of the Fifth Sighan Workshop on Chinese Language Processing,2006:162-165.
[7]劉一佳,車萬翔,劉挺,等.基于序列標注的中文分詞、詞性標注模型比較分析[J].中文信息學報,2013,27(4):30-36.
[8]Collobert R,Weston J,Bottou L.Natural language processing(almost)from scratch[J].Journal of Machine Learning Research,2011,12(1):2493-2537.
[9]Zheng X,Chen H,Xu T.Deep learning for Chinese word segmentation and POS tagging[C].Conference on Empirical Methods in Natural Language Processing,2013:647-657.
[10]Pei W,Ge T,Chang B.Max-margin tensor neural network for Chinese word segmentation[C].Meeting of the Association for Computational Linguistics,2014:293-303.
[11]Chen X,Qiu X,Zhu C,et al.Gated recursive neural network for Chinese word segmentation[C].Proc of Annual Meeting of the Association for Computational Linguistics,2015:1744-1753.
[12]Chen X,Qiu X,Zhu C,et al.Long short-term memory neural networks for Chinese word segmentation[C].Conference on Empirical Methods in Natural Language Processing,2015:1197-1206.
[13]Yushi Yao,Zheng Huang.Bi-directional LSTM recurrent neural network for Chinese word segmentation[C].International Conference on Neural Information Processing,2016:345-353.
[14]Huang Z,Xu W,Yu K.Bidirectional LSTM-CRF models for sequence tag-ging[OL].http://arxiv.org/pdf/1508.01991v1.pdf,2015.
[15]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,2012,9(8):1735-1780.
[16]Mccallum A,F(xiàn)reitag D,Pereira F C N.Maximum entropy markov models for information extraction and segmentation[C].Proc of ICML,2000:591-598.
[17]Lafferty J D,Mccallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C].Proc of ICML,2002,3(2):282-289.
[18]Tomas Mikolov,Kai Chen,Greg Corrado,et al.Efficient estimation of word representations in vector space[C].International Conference on Learning Representations,2013:1388-1429.
[19]Srivastava N,Hinton G,Krizhevsky A,et al.Dropout:a simple way to prevent neural networks from overfitting[J].Journal of Machine Learning Research,2014,15(1):1929-1958.
Chinese Word Segmentation Based on Bi-directional LSTM-CRF Model
ZHANG Zirui,LIU Yunqing
(School of Electronic and Information Engineering,Changchun University of Science and Technology,Changchun 130022)
Recurrent neural network had been broadly applied to natural language processing (NLP) problems,because they deal well with the problem of sequence labeling.In this paper,we propose to use bidirectional LSTM CRF (BI-LSTMCRF)model for Chinese word segmentation,which is based on long short-term memory(LSTM) units.This model not only can keep the contextual information in both directions,but also through the CRF layer to consider the dependency between the output tag.By using different tag set and adding pre-trained character embeddings,and using the model in the Bakeoff2005 data set on the word segmentation experiment results show that:BI-LSTM-CRF model has better segmentation performance than LSTM and bidirectional LSTM model,and has good generalization ability;Compared with the four-tag-set,the neural network model with the six-tag-set can achieve better segmentation performance.
Chinese word segment;BI-LSTM-CRF;tag set
TP391
A
1672-9870(2017)04-0087-06
2017-05-26
吉林省科技攻關項目(No.20160204003GX)
張子睿(1993-),男,碩士研究生,E-mail:zzirui@163.com
劉云清(1970-),男,博士,教授,Email:mzliuyunqing@163.