張曉海,操新文,高 源
(國防大學聯(lián)合作戰(zhàn)學院,河北石家莊 050084)
為適應信息化戰(zhàn)爭的特點,指揮文書信息數(shù)據(jù)化的概念被提出,并且取得了一定的研究成果。指揮文書信息數(shù)據(jù)化,是解決指揮文書信息的內(nèi)容如何轉變?yōu)楦谥笓]信息系統(tǒng)直接使用的數(shù)據(jù)的問題,其核心任務是信息抽取。作戰(zhàn)文書是指揮信息的一種重要載體,面向作戰(zhàn)文書的命名實體識別,是作戰(zhàn)文書信息抽取的基礎性研究工作,對于指揮文書信息數(shù)據(jù)化具有重要的研究價值。命名實體識別(Named Entity Recognition,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。作戰(zhàn)文書命名實體識別中,主要是針對部隊編制、作戰(zhàn)編成、武器裝備、地點、坐標、時間等實體進行識別。
隨著深度學習的快速發(fā)展,文書信息抽取領域取得較大突破。然而,由于中文自身的特殊性,該領域的發(fā)展始終落后于國外的相關研究。在早期的作戰(zhàn)文書命名實體識別的相關研究中,均是基于規(guī)則、模板等傳統(tǒng)方法。這類方法較難對語料全面覆蓋,且規(guī)則和模板庫的設計和維護異常困難,因此基于統(tǒng)計的機器學習方法成為主流。其中,統(tǒng)計機器學習主要模型有:條件隨機場(Conditional Random Fields,CRF)、隱馬爾科夫(Hidden Markov Model,HMM)、支持向量機(Support Vector Machine,SVM)等。馮蘊天[1]、單赫源[2]、姜文志[3]等人的研究比較具有代表性。單赫源等人針對組合嵌套特征較為明顯的實體類別進行分析,提出的小粒度策略下的基于CRF的軍事命名實體識別方法,提高了實體識別準確率;姜文志等人將CRF模型與基于規(guī)則的方法進行了結合,并說明了方法的可行性,為后續(xù)的研究打下了一定的基礎。然而這一類統(tǒng)計模型普遍存在一個不足,即需要有經(jīng)驗的人員進行特征選取,且識別結果非常依賴選取特征的質量,使得人工特征和領域知識在提高模型性能的同時也導致整個模型的魯棒性和泛化能力大大下降。
近年來,基于深度學習的軍事命名實體識別的相關研究越來越多,它們使用雙向長短期記憶網(wǎng)絡(Bi-directional Long Short-Term Memory,BiLSTM)和條件隨機場結合的神經(jīng)網(wǎng)絡模型,來完成命名實體識別的序列標注問題。神經(jīng)網(wǎng)絡模型可以大大減少復雜的人工特征,從大量的語料中,自動學習特征表示。目前已有的研究中,使用的方法和所解決的問題雖如出一轍,卻又不盡相同。如:游飛[4]等人利用一個四層神經(jīng)網(wǎng)絡,進行了面向武器裝備名稱的識別研究,對深度學習解決該類問題進行了初步探索;王學峰[5]等人提出的基于BiLSTM-CRF的軍事命名實體識別,利用預訓練的字向量作為輸入,在自建語料庫的測試中,F值達到98%;朱佳暉[6]等人面向網(wǎng)絡軍事文本,提出了15種命名實體類別的體系,與王學峰等人工作類似,使用BiLSTM-CRF模型進行命名實體識別,并提出軍事命名實體的鏈接框架。
如圖1所示,本文的模型框架主要由三個部分組成,CNN、BiLSTM和CRF模塊。其首先對軍事領域語料進行分詞和詞性標注,將輸入的句子轉換為詞向量序列;其次通過CNN模塊對每個詞內(nèi)的字向量進行卷積操作,以此作為字符級的特征,并采用獨熱編碼對詞性特征進行向量表示;再將每個詞的詞向量、字符級向量、詞性向量進行拼接,輸入BiLSTM網(wǎng)絡,最終通過CRF模塊輸出預測標注序列。
圖1 CNN-BiLSTM-CRF模型框架
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks, CNN)主要包含卷積層和池化層,可以更好地表示數(shù)據(jù)的局部特征。Collobert[7]等人以整個句子作為當前預測詞的輸入,引入詞在句中的相對位置特征,它使用了一層卷積神經(jīng)網(wǎng)絡結構進行特征的提取。Santos[8]等利用CNN獲取字符級特征,使得詞性標注的效果得到提升。以上是較早將CNN用于自然語言處理任務的兩項研究工作,均證明了CNN在字符級特征提取中的優(yōu)勢。本文采用CNN提取字符級特征向量,與詞向量、詞性向量進行拼接作為輸入,以提高模型性能。
圖2 字符級CNN模型
長短期記憶模型(Long Short-Term Memory,LSTM)[9]是一種循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)模型[10],該模型可通過輸入、輸出和遺忘三個控制門,對上下文的信息進行選擇性記憶傳遞,從而捕獲到長距離依賴信息。而記憶機制最大的貢獻,則是解決了傳統(tǒng)RNN中存在的梯度消失和梯度爆炸的問題。公式(1)為LSTM網(wǎng)絡的形式化表示。
(1)
LSTM網(wǎng)絡很好地解決了RNN梯度彌散的問題,但單向LSTM只能通過前文信息對結果進行預測,雙向LSTM對詞序列分別采取正序和逆序兩個方向進行遞歸,如圖3所示。進行正向計算時,隱層t時刻的狀態(tài)與t-1時刻相關,而反向計算時,又與t+1時刻狀態(tài)相關,最終將兩個向量拼接得到最終的隱層表示,因此可以更好地利用上下文信息。
圖3 雙向LSTM(BiLSTM)模型
CRF模型是一種基于條件概率分布的無向圖模型,它可以在給定輸入觀測序列的前提下,輸出最大概率的預測序列,常用在序列標注任務中。
P表示BiLSTM的輸出,其中n為序列長度,k表示不同的標簽個數(shù)。P為n×k的矩陣,Pi,j表示矩陣中第i行第j列的概率。那么,對于給定序列X={x1,x2,.…,xn},和預測標注序列Y={y1,y2,.…,yn},該模型可定義為
(2)
Ai,j表示由標簽i到j的狀態(tài)轉移概率,y0,yn為句子開始和結束的標記,由此,矩陣A是一個維度為k+2的方陣。最后通過softmax計算得到標簽序列Y的概率
(3)
訓練中,標記序列的似然函數(shù)
(4)
(5)
分詞及詞性標注采用中科院開發(fā)的ICTCLAS工具進行處理,詞向量采用Word2vec工具進行訓練。根據(jù)Ratinov[11]和Lample[12]的研究,語料庫采用效果更好的“BIOES”策略進行手工標注。其中,B表示實體的開始,I表示實體內(nèi)部,E表示實體結尾,O表示非實體部分,S表示該詞獨立成為實體。
對照組患者采用氯氮平片聯(lián)合碳酸鋰進行治療:患者開始服用的劑量為每天50mg,14天內(nèi)增加藥物劑量至每天150mg到300mg之間,具體根據(jù)患者病情狀況進行調整。整個治療過程中,氯氮平片的平均劑量為每天(210±31.5)mg,碳酸鋰的平均劑量為每天1g。
為了更好地表達不同實體的特征,本文將命名實體類別進行了細分類,最終將位置、部隊、人員、物品、數(shù)量五大類細分為13個小類進行標注,標注方法如表1所示。
表1 實體類別及標注方法
例如對句子[合成預備隊由合成第2營編成,配置在王莊(22,34)東北100米。]經(jīng)預處理和實體標注后,得到標注序列如表2所示。
表2 訓練集樣本示例
CRF模型在序列標注任務中效果較好,而在神經(jīng)網(wǎng)絡中,通常在BiLSTM隱層輸出的基礎上,用CRF層代替softmax方法來計算上下文的聯(lián)合概率,從而得到最優(yōu)的預測序列。本文在此基礎上,利用CNN對分詞后的字符級向量特征進行提取,從而在詞嵌入階段,更好地表示詞的語義信息。訓練過程中,優(yōu)化器采用SGD,學習率0.1。同時,為減輕過擬合問題,在BiLSTM的輸入和輸出中使用Dropout,取值0.5。
模型訓練完畢后,通過測試集進行識別效果的測評。采用召回率R、精確率P和F值3個指標評判模型的性能,計算方法如下:
(6)
(7)
(8)
收集作戰(zhàn)文書100篇,通過分詞和手工標注得到作戰(zhàn)文書語料庫,共計830句、39 347字。按照3:1的比例,隨機選擇207句作為測試集,其余作為訓練集。
1)識別結果及模型對比分析
表3為CNN-BiLSTM-CRF模型實驗結果,考慮到實體類別較多,因此僅選取幾個具有代表性數(shù)據(jù)進行分析。
表3 CNN-BiLSTM-CRF作戰(zhàn)文書命名實體識別結果
得分相對較高的實體類別主要有編制、地名、坐標、時間、職務等。首先,這類實體大多以相對規(guī)范的格式出現(xiàn),其次,地名實體一般緊鄰坐標實體,編制實體通常以“旅、團、營”等字結尾,這些實體的邊界特征比較明顯。作戰(zhàn)編成、姓名、武器裝備等類別得分較低,可能是由于該類別的訓練語料不足所導致。
表4為不同模型的對比實驗結果。首先,BiLSTM模型的精確率為89.49%,召回率為88.30%,F值為88.89%,F值比單向LSTM模型高出了2.91%。可見,雙向LSTM由于能夠更好地利用上下文信息,效果要優(yōu)于單向LSTM網(wǎng)絡。其次,增加CRF層后,BiLSTM的精確率、召回率、F值分別提高了2.32%、1.83%和2.07%。這是由于CRF模塊能夠通過聯(lián)合概率的計算,更加充分地利用標簽的相鄰信息,比如“155自行加榴炮第1營”這類長度較大的編制實體在增加CRF后的模型可以正確識別,而在LSTM中則識別錯誤。因此,通過增加CRF層來計算BiLSTM隱層輸出的聯(lián)合概率,可以一定程度上解決長距離實體的識別問題。為使詞向量能夠更好地表示語義信息,使用獨熱編碼對詞性(POS)進行向量表示,將詞性向量與詞向量進行拼接作為輸入。結果顯示,增加詞性特征的模型F值提高了1.25%。并在此基礎上,通過CNN對字符級特征進行提取,由于字符級向量對于中英混合、包含特殊符號、邊界模糊等實體的特征獲取能夠更加充分,提升了如武器裝備類別的實體識別效果,精確率、召回率和F值最終分別達到94.40%、93.43%和93.91%。
表4 各模型對比實驗結果
2)標注策略的影響
作戰(zhàn)文書中,對于編制、作戰(zhàn)編成等類別的實體,常常出現(xiàn)復雜的嵌套組合現(xiàn)象。如:“集團軍炮兵群/ORG”中,“集團軍”是編制實體,“炮兵群”為作戰(zhàn)編成實體。因此,本文對于長度最小的可獨立成為實體的序列進行標注,即“集團軍/ORG-BZ 炮兵群/ORG-BC”,這樣可以一定程度上避免對組合實體的錯誤識別。通過模型預測出標注序列后,再根據(jù)預先設定的規(guī)則對組合實體進行連接,從而得到最終的實體名。根據(jù)這個思路,本文將最初的位置、部隊、人員、武器裝備及時間共5個類別的實體,細分成13類。將位置細分地名、坐標、方位、作戰(zhàn)地域4類,部隊細分編制、編成和機構部門3類,人員細分職務、姓名2類,數(shù)字細分時間、數(shù)、量3類。
表5 不同標注語料結果對比
本文對相同的生語料,分別按5類和13類進行手工標注,得到兩個內(nèi)容相同但實體標注類別不同的樣本集,并使用CNN-BiLSTM-CRF對兩個樣本集進行對比實驗,結果如表5所示。細分類的語料集對模型性能有不小的提升,分析主要有兩方面原因:一方面,由于對實體類別進行了細分類,使得實體特征更加突出;另一方面,這樣的標注方法可以充分利用鄰近實體間的語義關系,對于嵌套組合現(xiàn)象突出的實體識別效果有所提升。
本文針對作戰(zhàn)文書的命名實體識別,使用CNN獲取字符級特征,并將字符級特征向量、詞性向量拼接到詞向量中,進而構建了CNN-BiLSTM-CRF模型,在自建語料上取得了較好的效果,結論如下:
1)傳統(tǒng)的統(tǒng)計機器學習中,模型的效果非常依賴人工特征的選取,而選取合適的特征需要豐富的經(jīng)驗和大量的人工處理,導致成本較高;并且,由于需要根據(jù)特定任務選取不同的特征,泛化能力較弱。因此,采用神經(jīng)網(wǎng)絡模型可以自動學習到特征信息,代替了人工選取,在語料充足的情況下,能夠獲得更好的效果。
2)通過CNN模塊,對字符級向量進行卷積操作,提高了原BiLSTM-CRF模型對于包含特殊字符、中英混合等實體的識別效果;另外,將詞性向量作為外部特征,與字符級向量一起拼接到詞向量中,可以一定程度表達出更多的語義信息,對于模型性能的提升有一定幫助。
3)細分類的標注策略,能夠更好地表現(xiàn)實體特征,一定程度減輕數(shù)據(jù)稀疏問題;同時,還能更充分的表達相鄰實體間的語義關系,從而提高模型的整體性能。