李鴻飛,劉盼雨,魏 勇
(1.戰(zhàn)略支援部隊信息工程大學地理空間信息學院,河南 鄭州 450052;2.31008部隊,北京 100091;3.國防科技大學計算機學院,湖南 長沙 410073)
命名實體識別NER(Named Entity Recognition)[1]是自然語言處理的基礎任務,研究成果廣泛用于語義提取、關鍵詞檢索、計算機翻譯和智能問答QA(Question Answering)系統(tǒng)[2]。當前,軍事領域已進入到信息化聯(lián)合作戰(zhàn)階段,基于傳統(tǒng)非格式化文本的指揮方式已不能適應現(xiàn)代作戰(zhàn)指揮需要,數(shù)據(jù)化、甚至代碼化支撐驅(qū)動的指揮控制功能成為指揮信息系統(tǒng)不可或缺的組成部分,大量由數(shù)據(jù)驅(qū)動的、滿足精確作戰(zhàn)需要的難點問題成為打贏未來戰(zhàn)爭的重要研究內(nèi)容。在上述問題中,通過加強軍事命名實體識別研究,采用人工智能算法可以以較高精度和速度抽取文本中的重要實體信息,例如軍銜職務、軍事機構、武器裝備和時空區(qū)域等,進而把非格式化、半格式化數(shù)據(jù)轉(zhuǎn)變?yōu)榭啥攘俊⒖捎嬎?、可分析的格式化?shù)據(jù),使軍事數(shù)據(jù)的精算、深算、細算成為現(xiàn)實。
通常NER的研究方法分為3大類:(1) 基于詞典和規(guī)則的方法[3]。在缺少數(shù)據(jù)的小樣本情況下,這種方法精度較高且執(zhí)行效率高,但是該方法對詞典規(guī)模及詞典覆蓋率的依賴性較大,并且規(guī)則的生成代價是大量時間和精力消耗[4]。當前常用的方法是將通用規(guī)則和機器學習融合使用。(2) 利用機器學習算法。其常用算法和模型包括:條件隨機場CRF(Conditional Random Field)和支持向量機SVM(Support Vector Machine)等。(3) 利用深度學習策略。深度神經(jīng)網(wǎng)絡是一種提取潛在信息的多層神經(jīng)網(wǎng)絡結構,每一層的提取結果都是該字句的一種計算機表示,而文本字句的最大特點就是對于計算機來說是非量化的數(shù)據(jù)。因此,在大量數(shù)據(jù)的支撐下,利用神經(jīng)網(wǎng)絡訓練生成基于向量嵌入的特征表示,進而進行NER是當前學術界正在探索的一種方法。
目前在英文數(shù)據(jù)NER中,通過雙向長短時記憶BiLSTM(Bidirectional Long Short-Term Memory)網(wǎng)絡可以較為準確地識別出字句中的局部信息,而CRF層將標簽的依賴關系信息提取出來,使得標注的工作不再是對每個詞進行分類,取得了較好的識別效果[5,6]。與英文不同,對中文命名實體識別結果影響貢獻度最大的是中文分詞的準確性[3],從對文本分詞到命名實體識別的過程中可能會存在誤差累積的潛在風險,并且分詞不準確的詞語邊界會造成命名實體識別的不準確[7],因此需要提取的重要特征包括分詞中未登錄詞[8]。軍事文本屬于特定領域的文本信息,與普通的文本在很多方面存在差距[9]。軍事語言信息中通常有較多的軍事命名實體,而這些實體的語法結構區(qū)別于傳統(tǒng)的語言文本,構成都比常見的文本特殊[9]。對中文軍事文本進行分詞時,字所包含的語義信息在很大程度上沒有詞包含的信息多,所以字級別的分詞容易導致語義信息缺失。利用某種單一的機器學習訓練好的模型進行命名實體識別是多數(shù)研究者采用的方法。在獲取字詞融合信息的過程中,首先是將屬于字詞層次的數(shù)據(jù)輸入到設置好的模型網(wǎng)絡結構中,然后通過參數(shù)的迭代更新獲取到隱層嵌入向量信息,最后將隱層嵌入向量組裝在對應的詞向量后面,從而在詞層次的命名實體識別準確率得到提高。另一方面,為了快速記錄信息,在軍事文本中還存在著在形成文本時只需要展示主要信息數(shù)據(jù)的現(xiàn)象,其中快速記錄數(shù)據(jù)的規(guī)則和記錄格式是一成不變的[9]。在NER提取特征過程中,基于卷積神經(jīng)網(wǎng)絡的方法一般只提取全文字詞的全局特征,忽視文本的局部特征,這可能會最終限制模型的總體表現(xiàn)。
為了解決上述問題,本文提出了Lattice長短時記憶(Lattice-LSTM)神經(jīng)網(wǎng)絡與自注意力機制(self-attention)相結合的神經(jīng)網(wǎng)絡模型。Lattice-LSTM[10]結構可以對句中專有名詞進行有效提取,并將隱含的字詞特征融合到基于字符的LSTM-CRF模型中[3]。本文通過自行標注的小規(guī)模樣本集進行實驗,結果表明,本文提出的模型相較于幾種基線模型取得了最優(yōu)結果。
近年來,自然語言處理在預訓練語言模型方面取得了巨大的進展,極大地促進了文本問答、自然語言推論和文本分類等下游任務的發(fā)展。預訓練語言模型的核心思想是在大規(guī)模無監(jiān)督語料庫上預訓練一個語言模型,并在下游目標任務中利用該模型的編碼嵌入表示進行訓練。這類工作是預訓練詞嵌入工作的延續(xù),主要解決了傳統(tǒng)詞嵌入模型在以下2方面的問題:(1) 傳統(tǒng)詞嵌入模型無法有效處理復雜的詞匯變形;(2) 傳統(tǒng)詞嵌入模型很難獲取到基于上下文的信息表示。預訓練語言模型可以根據(jù)模型結構、訓練方法和使用方法等方面進行分類。從模型結構角度來看,預訓練語言模型主要分為基于LSTM的模型和基于Transformer[10]的模型。具體來說,Peters等人[11]提出的ELMo嵌入,其實質(zhì)是一個深度雙向LSTM語言模型。McCann等人[12]提出的CoVe嵌入,利用機器翻譯中的編碼器和解碼器架構來學習嵌入表示,而編碼器和解碼器這2個組件都是用深度LSTM模型實現(xiàn)的。但是,基于LSTM的模型無法有效捕捉長程依賴關系,且由于梯度爆炸/消失問題無法通過增加網(wǎng)絡深度來增強模型的容量。為了解決這一問題,Vaswani等人[10]提出Transformer模型,該模型不包含任何循環(huán)單元和卷積單元,完全是通過自注意力和前饋連接構建。與LSTM類模型相比,Transformer模型具有捕捉長程依賴關系、并行編碼速度快以及模型容量大等優(yōu)點?;赥ransformer結構,Radford等人[13]提出了單向Transformer結構的GPT模型。在此基礎上,Devlin等人[14]提出了BERT模型,該模型是一個深度雙向Transformer模型。而Yang等人[15]更進一步地提出了XLNet,在BERT模型中融入了雙流自注意力機制、相對位置編碼和段循環(huán)機制等技術。Liu等人[16]提出了RoBERTa,其網(wǎng)絡結構和BERT一致。從使用方法角度來看,預訓練語言模型又可分為固定參數(shù)和微調(diào)參數(shù)2類。固定參數(shù)類方法是在預訓練過程結束以后,用預訓練模型編碼輸入以獲得編碼嵌入表示,而模型本身參數(shù)固定,不參與后續(xù)訓練。該類方法的好處是可以針對不同任務設計更加有針對性的模型結構,并且由于參數(shù)固定的原因訓練計算量更低。而微調(diào)參數(shù)類方法是指在預訓練結束后,還追加了一個微調(diào)階段,以便在目標任務上進一步地訓練模型參數(shù)。這類方法的好處是預訓練模型本身充當了編碼器,而研究人員只需引入極少的額外參數(shù)和網(wǎng)絡結構,但缺點是訓練計算量更大。
按照上述分類,固定參數(shù)類方法包括ELMo和CoVe,微調(diào)參數(shù)類方法包括GPT、BERT、XLNet和RoBERTa等。對于一個指定的文本,模型的輸入一般由3個標識的特征向量相加得到:第1個是特征標識,通常加在文本頭部,用于表示文本整體的特征信息并用于模型的最終分類;第2個是分隔標識,當輸入文本包含2個句子時添加在2句之間;第3個是位置標識,通常用于表示指定文本在全文中的位置信息。
本文采用BERT作為字向量嵌入層,字典使用騰訊訓練好的詞向量,騰訊詞向量包含了800多萬中國字詞,其中每個詞用200維的向量表示。
循環(huán)神經(jīng)網(wǎng)絡以一列n維向量X=[x1,…,xn]作為輸入,返回另一列與輸入層中每一步的輸入信息相對應的n維向量h=[h1,…,hn]。網(wǎng)絡的隱藏層可以處理不限長度的語言序列信息,達到對文本特征的長時間記憶的效果,學習長時間信息的關聯(lián)關系。訓練過程中一個最重要的過程是反向傳播,而反向傳播由于采用冪乘方式進行計算,極其容易出現(xiàn)梯度消失和梯度爆炸現(xiàn)象。不同的神經(jīng)網(wǎng)絡會采用不同的策略避免和解決這種問題,而其中一種重要的網(wǎng)絡是長短時記憶LSTM網(wǎng)絡,對于反向傳播過程中梯度消失等問題,LSTM是采用引入門的策略解決的。這種方法常見于很多的自然語言處理任務中。LSTM在結構組成上和卷積神經(jīng)網(wǎng)絡類似,這兩者的區(qū)別在于LSTM的每次循環(huán)計算過程中設計和使用了復雜的網(wǎng)絡圖,LSTM的網(wǎng)絡結構主要由4個以特殊方式互相影響的門控單元組成。其計算過程如式(1)~式(6)所示:
(1)
(2)
(3)
(4)
(5)
(6)
本文采用Lattice-LSTM來表示句子中的字典單詞(lexicon word)?;谧址腘ER的一個不足是表征的字詞和字詞位置信息未被有效使用,在實體識別任務中這些信息是非常重要的,因此需要借助外部信息源進行NER任務處理,通常利用Lattice-LSTM來表示句子中的字典單詞,將隱含的單詞特征融合到基于字符的LSTM中。本文采用一個自動獲取到的詞典來與句子進行匹配,進而構建基于詞的Lattice,如圖1所示,通過組合輸入文本和詞典構造單詞-字符的Lattice結構[3]。基于詞的Lattice是由大規(guī)模經(jīng)過分詞后的中文文本使用BERT訓練后自動得到的,例如“集團”“集團軍”“指揮”等。訓練輸出的詞典可用于解決上下文中深層的命名實體問題。模型中的潛在詞序列與主干LSTM模型中相應的字符連接,例如 “指” 字的潛在詞匯有 “指揮” 和 “指揮所”,因此當計算 “指” 的向量時除了考慮“指” 字以外還應考慮 “指揮” 和 “指揮所”。
(7)
(8)
(9)
(10)
Figure 1 Lattice-LSTM structure圖1 Lattice-LSTM 結構圖
Figure 2 Lattice model圖2 Lattice 模型
Lattice-LSTM 對字信息的提取同原始結構一樣,但對于詞主要是通過重新設計循環(huán)網(wǎng)絡單元結構,在原網(wǎng)絡的基礎上加入外部詞典來增強模型對于詞信息的獲取。該模型集成了詞序列信息和用于控制信息流的附加門,如圖2所示。
(11)
再將當前字計算出的輸入門和所有詞的輸入門進行歸一計算出權重:
(12)
其中,D表示之前構建的字典。
最后和通常計算注意力特征向量的方式一樣,利用計算出的權重進行向量加權融合:
(13)
正如“注意”一詞所表達的意思,self-attention結構的重點是給予上下文的局部信息,使模型加強對重要信息的捕捉,減少非必要信息的噪聲影響。簡單來說,將重點放在序列的特定部分,而不是整個序列來預測該單詞,不會丟棄編碼器狀態(tài)的中間值,而是利用它從所有狀態(tài)生成上下文向量,以便解碼器給出輸出結果。作為適用于順序數(shù)據(jù)建模的代表性深度學習結構,LSTM網(wǎng)絡結構被視為建立關注機制的基礎網(wǎng)絡。 LSTM的作用是對每個輸出層在其之前的層上施加的影響權重的時間歷史進行建模,并且注意力機制會自適應地確定每個輸出層對最終特征性能的影響。
自注意力(self-attention)機制是注意力機制的一個特例,也被稱為內(nèi)部注意力機制(Intra Attention)。Self-attention 的獎勵策略是點乘注意力(Scaled Dot-Product Attention)函數(shù)[10],如圖3所示。先通過詞向量Q和K的點乘運算來得到每2個詞之間的相關性,再利用softmax進行歸一化處理,最后對V進行加權求和,如式(14)所示:
(14)
Figure 3 Scaled dot-product attention function圖3 點乘注意力函數(shù)
使用單個注意力策略并一不定可以達到理想效果,本文使用多頭注意力(Multi-head Attention)策略[10]從多個方向?qū)ξ谋倦[含信息進行提取,以增加文本表達信息的力度和強度,如圖4所示。
Figure 4 Multi-head attention mechanism圖4 多頭注意力機制
多頭注意力機制是將Q、K、V分別通過參數(shù)矩陣進行轉(zhuǎn)換,再對轉(zhuǎn)換后的參數(shù)矩陣進行點乘。將該過程重復h次后的結果進行拼接,得到最終的特征信息,其計算公式如式(15)和式(16)所示:
(15)
M(Q,K,V)=Concat(head1,…,headi)Wo
(16)
對于命名實體識別模型,給出最終標簽預測結果的通常是其組成結構中的網(wǎng)絡輸出層,其功能是對隱含層輸出的非標準化計算值進行歸一化處理。通俗來講就是將模型對于不同文本屬于各個標簽的得分轉(zhuǎn)化為概率,最終給出分類預測結果。但是,每個標簽結果的概率值計算是相互獨立的,局部的標簽和上下文信息不會被歸一化函數(shù)計算進去,所以使用歸一化函數(shù)并不是最準確的策略。為了解決上述問題,CRF避免了沒有考慮附近標簽的相關性的缺點,通過融合相關標簽數(shù)據(jù)實現(xiàn)對句子級信息較為準確的標注。CRF的核心模塊是標簽的轉(zhuǎn)移獎勵矩陣,該矩陣的作用是利用計算全局的序列最優(yōu)解對結果進行優(yōu)化,計算出全局最優(yōu)的序列預測結果,在一定程度上彌補了獨立計算概率方法的不足。
對于輸入文本向量,LSTM 輸出的結果是維度為n*k的矩陣P,其中n是輸入序列的長度,k是定義標簽的數(shù)目,p(i,j)表示模型將輸入xi分配給標簽yj的得分。對于一個待預測的文本序列Y=[y1,…,yn], 其得分定義為:
(17)
其中,A(yi,yj)表示第i個標簽到第j個標簽的轉(zhuǎn)移獎勵矩陣,y0和yn是句子起始和結束字符,所以在輸入句子為X產(chǎn)生序列標記為y的概率為:
(18)
其中,y′代表真實的標簽值。
在模型權重更新過程中,使用式(19)和式(20)所示的最大化對數(shù)似然函數(shù):
(19)
logP(yx|X)=S(X,yx)-T
(20)
針對中文命名實體識別和實體關系的分析研究,本文使用的數(shù)據(jù)集來源于聯(lián)合作戰(zhàn)公共數(shù)據(jù)集的軍事數(shù)據(jù)集,該數(shù)據(jù)集為人工新標注的特殊軍事領域數(shù)據(jù)集。本文根據(jù)該數(shù)據(jù)集中文本的特殊性,并結合經(jīng)典ACE 2005[20]中文數(shù)據(jù)集的實體類型和實體關系類型,定義軍事領域文本數(shù)據(jù)集中的命名實體和實體關系,然后使用人工完成標注。軍事特定領域文本標注數(shù)據(jù)集中命名實體的類型共有4種:人名PER(Person)、地名LOC(Location)、機構名ORG(Organization)和裝備EQU(Equipment)。為了更全面地驗證本文所提方法的效果,本文也在開放數(shù)據(jù)集 Chinese Resume[6]上進行了結果校驗。
為了對命名實體識別模型的準確率有客觀和全面的評價,本文使用以下3個指標對人名、地名、機構名和裝備的識別結果進行計算:準確率P(Precision)、召回率R(Recall)、F1 值(F1-Score)。對于二分類情況,將測試數(shù)據(jù)集的真實分類和模型計算得出的分類進行比較,4種指標如圖5所示,樣本總數(shù)為TP+FP+FN+TN。對比結果用混淆矩陣表示。
Figure 5 Comparison of four prediction types圖5 4種預測類型對比
(1)準確率:正確識別的命名實體數(shù)占全部識別出來的命名實體數(shù)的比例:
P=TP/(TP+FP)×100%
(21)
(2)召回率:正確識別的命名實體數(shù)占數(shù)據(jù)集中命名實體總數(shù)的比例:
R=TP/(TP+FN)×100%
(22)
(3)F1 值:準確率和召回率相互影響,很多情況下單一指標無法準確衡量,需要將幾個指標綜合計算,最常見的就是F1值:
F1=2×P×R/(P+R)
(23)
可見F1值綜合了精確率和召回率的結果,F(xiàn)1值較高時說明模型的整體性能較好。
本文在TensorFlow1.11框架基礎上進行實驗,該深度學習框架被研究人員廣泛應用于各類機器學習算法的實現(xiàn)。使用Python實現(xiàn)模型的構建和訓練。本文實驗中字向量和詞向量的維度都是768。采用ADMA 作為優(yōu)化器,訓練時的學習率(Learning Rate)為0.01。為了預防訓練過程中發(fā)生梯度爆炸,使用梯度裁剪(Gradient Clipping)技術并設置參數(shù)為5。使用隨機丟棄(dropout)技術來防止過擬合,值設為0.5。
在上述軍事領域?qū)嶒灅颖炯蛥?shù)設置基礎上,本文選擇 4個模型進行對比實驗,表1所示為不同模型的對比實驗結果。
Table 1 Comparative experimental results of various models in the military field
為了將詞級、字級的BiLSTM-CRF 模型性能進行比較和分析,第1步是對字級BiLSTM-CRF與詞級BiLSTM-CRF進行對照實驗,實驗數(shù)據(jù)顯示,字級BiLSTM-CRF模型的準確率、召回率和F1值分別為88.64%,89.38% 和89.00%,對比詞級BiLSTM-CRF模型分別高出了0.42%,0.88% 和0.62%。可以得出結論,字級BiLSTM-CRF模型由于能夠更好地利用上下文信息,效果要優(yōu)于詞級BiLSTM-CRF模型。此外還可以發(fā)現(xiàn),Lattice-LSTM 模型相比于字級BiLSTM-CRF與詞級BiLSTM-CRF模型的性能都有不小的提升,說明Lattice-LSTM可以捕獲詞級信息融入模型。為了驗證使用預訓練模型BERT提取特征的有效性,設置了BERT-BiLSTM-CRF 模型。BERT-BiLSTM-CRF 模型與BiLSTM-CRF 模型相比,有不低于2%的準確度的提升,從這里可以看出 BERT 模型對文本數(shù)據(jù)中字符間的關聯(lián)提取較為精準,對提升模型的精度發(fā)揮了重要作用。本文在模型 5 中加入了自注意力機制,即表 1中BERT+Lattice-LSTM+self-attention 模型,其準確率、召回率、F1值分別達到了 93.02%,96.58% 和94.76%。相較模型4 中未包含 self-attention 層的模型3項指標分別提高了0.9%,1.20% 和1.04%??梢钥吹?,自注意力機制的引入提升了模型性能,表明了多頭注意力機制能在多個不同子空間捕獲上下文信息,從而獲取更豐富的文本內(nèi)部特征信息。
表2為各模型在Chinese Resume數(shù)據(jù)集上的表現(xiàn)。為了比較的公平性,本文沒有采用BERT訓練文本的向量表示,而是采用詞嵌入表示[6]。從表2中可以發(fā)現(xiàn),本文所提模型相較于基準模型,其準確率、召回率、F1值都達到最好的結果,分別為95.60%,94.88% 和95.23%,說明本文模型識別相關實體的有效性。對比 Lattice-LSTM模型[11],本文所提模型準確率、召回率、F1值分別提高了0.79%,0.77% 和0.77%,同樣表明了Lattice-LSTM結構結合self-attention的有效性。
Table 2 Comparative experimental results of each model on Chinese Resume dataset
本文針對軍事命名實體識別任務的特點,提出了一種基于Lattice-LSTM結合自注意力機制的軍事命名實體識別方法,以BiLSTM-CRF為基線模型,分別對字級BiLSTM-CRF、詞級BiLSTM-CRF、BERT+BiLSTM-CRF、BERT+Lattice-LSTM和BERT+Lattice-LSTM+self-attention 在自建數(shù)據(jù)集上進行了對比實驗。實驗結果表明了引入Lattice-LSTM 和自注意力機制的有效性,此外預訓練模型BERT在模型的總體性能提高方面也有重要作用。