俞海亮,彭冬亮,谷 雨*
(1.杭州電子科技大學(xué) 圣光機聯(lián)合學(xué)院,浙江 杭州 310018;2.杭州電子科技大學(xué) 自動化學(xué)院,浙江 杭州 310018)
隨著軍事信息化的快速發(fā)展,網(wǎng)絡(luò)公開的軍事新聞數(shù)據(jù)越來越多,但是非結(jié)構(gòu)化的軍事武器信息不利于國防工作者提取有效信息,尤其軍事武器實體信息。因此,從非結(jié)構(gòu)化的軍事文本新聞中準(zhǔn)確識別出軍事武器實體、屬性、實體之間的關(guān)系等信息是至關(guān)重要的。軍事武器實體識別就是從海量公開軍事新聞數(shù)據(jù)中識別出軍事武器實體,是軍事知識本體庫構(gòu)建的關(guān)鍵一步。常見的軍事武器實體包括飛機、艦船、坦克、火炮、槍械和導(dǎo)彈6大類,本文也是基于這6類武器實體構(gòu)建數(shù)據(jù)集,實現(xiàn)識別任務(wù),從而構(gòu)建系統(tǒng)的軍事武器本體知識庫,為軍事武器情報信息檢索提供輔助支持。
傳統(tǒng)的實體識別方法主要以統(tǒng)計學(xué)和語言學(xué)為基礎(chǔ),通過詞性分析和依存句法分析等技術(shù)人工建立規(guī)則模板實現(xiàn)文本的實體識別,主要包含基于規(guī)則的方法[1-2]、基于統(tǒng)計的方法[3-4]以及基于統(tǒng)計和規(guī)則相結(jié)合的方法[5-6]。隨著機器學(xué)習(xí)尤其是深度學(xué)習(xí)技術(shù)的發(fā)展,實體識別實現(xiàn)了重大突破,研究者借助支持向量機(Support Vector Machine,SVM)[7]、隱馬爾科夫模型(Hidden Markov Model,HMM)[8]和條件隨機場模型(Conditional Random Field,CRF)[9-10]將實體識別問題轉(zhuǎn)化為分類問題或者序列標(biāo)注任務(wù)。
使用深度學(xué)習(xí)方法,可以利用深度學(xué)習(xí)模型自動學(xué)習(xí)詞語本身的向量化信息作為輸入,對輸入特征自動學(xué)習(xí)能力更強。趙洪等[11]提出了BiLSTM-CRF深度學(xué)習(xí)模型,該方法的F1值達(dá)到了84.52%,相比于以往基于統(tǒng)計學(xué)習(xí)和淺層機器學(xué)習(xí)方法效果有所提升。馬建紅等[12]為提高新能源汽車領(lǐng)域?qū)嶓w識別準(zhǔn)確率,在使用BiLSTM提取特征基礎(chǔ)上,加入注意力機制(Attention Mechanism)[13],實現(xiàn)對關(guān)鍵詞信息的提取。實驗結(jié)果表明,加入注意力機制后,實驗精度進(jìn)一步提高。2020年,吳俊等[14]提出基于BERT嵌入BiLSTM-CRF模型的中文專業(yè)實體識別研究,該模型相對于上述2種模型采用BERT字向量嵌入代替詞向量嵌入,該模型對實體提取的F1值為92.96%。
上述方法在輸入特征層面,都只考慮了字符特征或者詞典特征等單一特征,或者只是將二者進(jìn)行了一個簡單拼接。然而實際情況是,對于某一特征在嵌入層以及在命名實體識別任務(wù)中的語義理解上的重要程度是不一樣的。因此為區(qū)別不同特征的重要性,本文提出了一種新的軍事武器實體識別方法,采用雙層自注意力機制與BiLSTM-CRF模型結(jié)合的方法識別候選實體,然后參考軍事武器實體構(gòu)詞特點加入校驗機制,對候選實體過濾,從而得到最終實體。為驗證本文提出模型的性能,在自建的軍事武器實體識別數(shù)據(jù)集上,進(jìn)行了消融實驗,實驗結(jié)果驗證了本文提出方法的有效性。論文主要創(chuàng)新點包括以下2個方面:
① 為了區(qū)別字符不同輸入特征對實體識別效果的影響,本文使用多頭自注意力對字符特征、位置特征以及標(biāo)簽特征進(jìn)行加權(quán)融合,從而獲得更優(yōu)的字符嵌入。
② 針對具有軍事背景的武器實體識別任務(wù),結(jié)合武器實體構(gòu)詞特點,加入正則匹配模板,對模型識別的武器實體進(jìn)行過濾,進(jìn)一步降低了誤識別率。
注意力機制最早在計算機視覺領(lǐng)域被提出,它指出注意力機制可以對傳統(tǒng)的視覺搜索方法進(jìn)行優(yōu)化,通過調(diào)整視覺對網(wǎng)絡(luò)的處理,減少了需要處理的樣本數(shù)據(jù)并且增加了樣本的特征匹配[15-16]。
注意力機制的本質(zhì)來自于人類視覺注意力機制,人類往往根據(jù)需求會著重關(guān)注于特定的一部分,而不是全部。在自然語言處理任務(wù)中,希望通過注意力機制能夠?qū)W習(xí)到對文本語義理解起關(guān)鍵作用的詞或者字符。
傳統(tǒng)的注意力機制廣泛應(yīng)用于Encoder-Decoder框架中,輸入和輸出內(nèi)容是不一樣的。比如對于機器翻譯任務(wù)來說,輸入是英文句子,輸出目標(biāo)是對應(yīng)中文句子,注意力機制發(fā)生在輸出目標(biāo)元素和輸入元素之間,將查詢矩陣和鍵矩陣進(jìn)行相似度計算得到權(quán)重。然后通過softmax函數(shù)對權(quán)重進(jìn)行歸一化,最后將權(quán)重和相應(yīng)的鍵值加權(quán)求和得到注意力表示,采用的是加權(quán)求和的方式。而自注意力機制只需要考慮輸入句子內(nèi)部之間的信息,不需要考慮外部信息。然后通過計算每個詞和句子內(nèi)部所有詞的注意力函數(shù),所以可以更好地捕獲詞語在長距離文本依賴中的語義關(guān)系。
在軍事武器實體識別任務(wù)中,高質(zhì)量的軍事新聞文本語料相對較少,而且軍事武器實體構(gòu)成多為多種類型字符組合,如中英文混合以及與數(shù)字字符組合,給識別任務(wù)造成了一定的困難。因此,使用自注意力機制可以動態(tài)學(xué)習(xí)字符的關(guān)鍵特征,而且使用多頭自注意力機制也可以提取字符的重要語義特征,從而更準(zhǔn)確地識別所有軍事武器實體。
軍事武器實體識別任務(wù)通常被當(dāng)作序列標(biāo)注任務(wù)來處理,模型整體結(jié)構(gòu)如圖1所示。模型主要包括Embedding層、MHA-BiLSTM-MHA層以及CRF層。為了區(qū)分不同輸入特征在實體識別任務(wù)中的重要程度,本文在BiLSTM層之前加入多頭自注意力機制[17],使用多頭自注意力機制給予輸入特征不同的權(quán)重系數(shù)。BiLSTM層用于學(xué)習(xí)句子序列的時序信息,并且對文本進(jìn)行特征提取,后面一層多頭自注意力層用于獲取文本序列的關(guān)鍵字符信息以及字符之間的依賴信息,最后通過CRF層獲得最終的標(biāo)簽序列。
圖1 模型整體結(jié)構(gòu)Fig.1 Overall structure of the model
軍事武器實體和其他命名實體有很大不同,它具有很強的軍事背景,構(gòu)成較為復(fù)雜,通常由多種類型字符組合而成,例如“殲-20”“天燕1號”等。因此直接使用jieba等分詞器對原始新聞文本分詞,效果較差,分詞結(jié)果不符合軍事武器實體特點,從而導(dǎo)致生成的詞向量嵌入不具有武器實體語義特征。因此加入自定義敘詞表,將常見軍事武器實體加入自定義詞典中,然后對新聞文本進(jìn)行分詞。
2.1.1 字符特征
字符特征表征字符的語義信息,本文首先在中文維基百科數(shù)據(jù)集中加入從新浪軍事網(wǎng)站爬取的大規(guī)模中文軍事數(shù)據(jù),經(jīng)過自定義軍事領(lǐng)域詞典進(jìn)行分詞以及去除常見停用詞處理之后,使用word2vec訓(xùn)練得到詞向量表Vw=[vw1,vw2,…,vwn],vwi表示經(jīng)過訓(xùn)練之后生成的每個字符的向量。
然后對于分詞后的軍事武器新聞文本數(shù)據(jù)在詞向量表中查找其對應(yīng)的詞向量,對于沒有在詞向量表中找到的字符集合,隨機生成其向量,于是對于輸入序列得到其字符嵌入表示為Vc=[vc1,vc2,…,vcn],其中,vci表示第i個字符的嵌入向量。
2.1.2 位置特征
字符特征僅表征了字符本身的語義信息,對于文本理解實體的依賴關(guān)系沒有效果。位置特征則解決了該問題,例如對于新聞文本序列“武直-10兩側(cè)武器短翼可掛載反坦克導(dǎo)彈以及空對空導(dǎo)彈”,通過表示字符之間的位置特征,可以學(xué)習(xí)實體之間的依賴關(guān)系,以便于準(zhǔn)確識別“武直-10”“反坦克導(dǎo)彈”“空對空導(dǎo)彈”所有武器實體,而且不會有所遺漏。
首先基于新聞文本中出現(xiàn)的所有字符集合構(gòu)建詞典集合,然后通過前序詞典匹配以及后序詞典匹配方法,標(biāo)記每個字符距離最近標(biāo)簽實體的相對位置。然后通過向量化方式將其映射為低維向量,于是對于輸入文本序列可以得到其位置嵌入表示為Vp=[vp1,vp2,…,vpn],其中,vpi表示第i個字符的位置向量。
2.1.3 標(biāo)簽特征
除了考慮字符特征和位置特征,也考慮了標(biāo)簽特征。通過學(xué)習(xí)字符的標(biāo)簽特征,可以將字符與標(biāo)簽建立聯(lián)系,有助于對字符標(biāo)簽的預(yù)測。本文采用BIO數(shù)據(jù)標(biāo)注格式,對于分詞后的字符,得到其對應(yīng)的“B-Gun”“I-Gun”“O”等標(biāo)簽特征。
為了便于將標(biāo)簽特征轉(zhuǎn)化為向量形式,將所有字符對應(yīng)的標(biāo)簽信息隨機初始化為一個向量,然后通過此向量代替對應(yīng)的標(biāo)簽信息,于是對于每一個輸入文本序列中的字符,都可以通過查找映射表得到該標(biāo)簽的向量表示,從而對于每一段輸入文本序列都可以得到其標(biāo)簽嵌入,表示為Vb=[vb1,vb2,…,vbn],其中,vbi表示第i個字符的標(biāo)簽向量。
經(jīng)過Embedding層,得到3種嵌入向量表示,傳統(tǒng)方法通常對3種向量做拼接得到最終BiLSTM層的輸入向量。該方法將所有特征默認(rèn)看成是同等重要的,然而對于不同的文本序列,不同特征在語義理解上所產(chǎn)生的效果不同,因此有必要動態(tài)生成3種特征的權(quán)重,本文中采用多頭自注意力機制,生成3種特征的權(quán)重系數(shù)。
將輸入序列表示為S={x1,x2,…,xn},n為輸入文本序列的字符個數(shù),使用多頭自注意力機制,對字符特征Vc、位置特征Vp和標(biāo)簽特征Vb生成不同的權(quán)重系數(shù),分別表示它們對文本語義理解的重要程度,于是最終的嵌入向量可以表示為:
V=α·Vc⊕β·Vp⊕γ·Vb,
(1)
式中,·表示乘積運算符;⊕表示向量拼接運算符。
2.2.1 BiLSTM神經(jīng)網(wǎng)絡(luò)模型
本文采用了BiLSTM對輸入向量進(jìn)行特征提取。BiLSTM網(wǎng)絡(luò)不止有前向傳播而且也包含反向傳播,因此可以學(xué)習(xí)到句子的前后時序信息,有助于文本的語義理解。BiLSTM網(wǎng)絡(luò)主要由LSTM網(wǎng)絡(luò)構(gòu)成,LSTM單元結(jié)構(gòu)如圖2所示。
圖2 LSTM單元結(jié)構(gòu)Fig.2 Structure of LSTM unit
LSTM結(jié)構(gòu)由3個門控單元組成,分別是輸入門、遺忘門和輸出門,計算公式為:
ft=σ(Wf·[ht-1,xt]+bf),
(2)
it=σ(Wi·[ht-1,xt]+bi),
(3)
(4)
(5)
ot=σ(Wo·[ht-1,xt]+bo),
(6)
ht=ot*tanh(Ct),
(7)
式中,ft,it,ot分別代表遺忘門、輸入門、輸出門;x,h表示輸入層、隱藏層;W,b代表權(quán)重矩陣和偏置向量;*為點積。BiLSTM模型通過對輸入文本特征提取,得到句子級別特征,最終輸出每個字符對應(yīng)標(biāo)簽類別的概矩陣記為矩陣P=[p1,p2,…,pn],其中,pi表示該字符對應(yīng)各標(biāo)簽類別的分?jǐn)?shù)。
2.2.2 多頭自注意力機制
使用多頭自注意力機制可以學(xué)習(xí)文本序列中更為重要的信息,本文中2次使用多頭自注意力機制,分別是對特征嵌入,使用多頭自注意力機制得到3種特征輸入的權(quán)重系數(shù),以及在BiLSTM特征提取過程中,使用多頭自注意力機制提取關(guān)鍵字符的語義信息。單個字符注意力計算公式為:
(8)
(9)
Q,K,V首先經(jīng)過一個線性變換,然后輸入到放縮點積Attention,注意這里要做h次,也就是所謂的多頭,本文中h為8,頭之間參數(shù)不共享,即每次線性變換的參數(shù)W是不一樣的。然后將8次的放縮點積Attention結(jié)果進(jìn)行拼接,再進(jìn)行一次線性變換得到的值作為多頭Attention的結(jié)果。
經(jīng)過MHA-BiLSTM-MHA層得到每個字符屬于哪一類標(biāo)簽的概率矩陣P,也就是狀態(tài)分?jǐn)?shù)矩陣同時也是CRF的發(fā)射概率矩陣,定義pij表示i字符對應(yīng)標(biāo)簽j的概率。對于預(yù)測序列y={y1,y2,…,yn},它的概率計算為:
(10)
式中,矩陣A是狀態(tài)轉(zhuǎn)移矩陣;Aij表示從標(biāo)簽i轉(zhuǎn)移到標(biāo)簽j的概率;y0,yn是預(yù)測句子開始和結(jié)束的標(biāo)志。在訓(xùn)練過程中標(biāo)記序列的似然函數(shù)為:
(11)
通過式(11)可以計算出所有可能的標(biāo)記輸出序列,最終通過式(12)輸出概率最大的一組標(biāo)記序列,即為最優(yōu)的標(biāo)注結(jié)果:
(12)
盡管使用上述模型對軍事武器實體識別已有不錯的效果,但還是會存在一定的誤識別。所以對經(jīng)過模型識別之后的武器實體進(jìn)行二次過濾是很有必要的。對爬取的大量軍事武器新聞文本分析,發(fā)現(xiàn)軍事武器實體構(gòu)詞有如下特點:軍事武器實體多為名詞或名詞短語組成,軍事武器實體命名規(guī)則單一,一般由4個部分中的幾個組合而成,分別是“武器系列”“型號字符串”“特定漢字”“武器系列”[18]。
參考以上軍事武器實體命名規(guī)則,如AK-47突擊步槍,由武器系列(英文字符AK),型號(數(shù)字47),武器類型(突擊步槍)組成,根據(jù)不同的軍事武器實體類型構(gòu)建對應(yīng)的正則表達(dá)式模板,部分規(guī)則匹配模板如表1所示。
表1 部分武器實體正則匹配模板Tab.1 Some weapon entity regular matching templates
結(jié)合軍事武器實體命名規(guī)則,按以下步驟對軍事武器實體進(jìn)行過濾。先過濾掉非名詞和名詞短語的候選實體,然后利用正則匹配模板對候選實體進(jìn)行下一步過濾,最后對刪除的候選實體進(jìn)行人工校驗避免因模板不夠全面而導(dǎo)致的誤刪的情況,最終得到實體。對候選實體的校驗規(guī)則流程如圖3所示。
圖3 候選實體過濾流程Fig.3 Candidate entity filtering flowchart
利用網(wǎng)絡(luò)爬蟲技術(shù)以“武器”“坦克”“導(dǎo)彈”“航空母艦”等為關(guān)鍵詞爬取網(wǎng)絡(luò)公開軍事新聞數(shù)據(jù),本文從新浪軍事網(wǎng)站(URL:https:∥mil.news.sina.com.cn/roll/index.d.html)爬取公開軍事新聞數(shù)據(jù)、原始數(shù)據(jù)為非結(jié)構(gòu)化文本數(shù)據(jù),然后對數(shù)據(jù)進(jìn)行專題數(shù)據(jù)篩選,去除與軍事武器無關(guān)的軍事新聞數(shù)據(jù),得到最終需要標(biāo)注的數(shù)據(jù)。
通過閱讀現(xiàn)有的軍事武器實體庫,學(xué)習(xí)軍事武器專業(yè)實體,然后對以上數(shù)據(jù)采用BIO數(shù)據(jù)標(biāo)注格式完成對語料的標(biāo)注。B表示實體起始字符,I表示實體內(nèi)部字符,O表示當(dāng)前字符不再是實體,圖4給出了軍事武器實體標(biāo)注示例。
圖4 軍事武器實體標(biāo)注示例Fig.4 Examples of military weapon entity labeling
標(biāo)注完成后,將標(biāo)注后的數(shù)據(jù)集按照7∶2∶1分別劃分為訓(xùn)練集、驗證集以及測試集。訓(xùn)練集用于對模型的訓(xùn)練,驗證集對學(xué)習(xí)過后的模型進(jìn)行驗證,調(diào)整模型相應(yīng)參數(shù)、優(yōu)化模型,測試集最終評判模型的優(yōu)劣。數(shù)據(jù)集統(tǒng)計信息如表2所示。
表2 數(shù)據(jù)集統(tǒng)計Tab.2 Statistics of datasets
本實驗的服務(wù)器環(huán)境配置如表3所示。
表3 實驗環(huán)境配置Tab.3 Configuration of experimental environment
本實驗的實驗參數(shù)設(shè)置如表4所示。
表4 實驗參數(shù)設(shè)置Tab.4 Settings of experimental parameters
為檢驗本文提出模型在軍事武器實體識別領(lǐng)域的具體效果,以BiLSTM-MHA-CRF為基準(zhǔn)模型,作為本文提出的MHA-BiLSTM-MHA-CRF模型的實驗對比,模型的具體識別結(jié)果如表5所示。從實驗結(jié)果中可以看出,對于文本語義簡單的新聞文本,2種模型均能準(zhǔn)確識別出所有武器實體,而對于存在干擾實體或者武器實體間距很小的新聞文本中,BiLSTM-MHA-CRF模型則會出現(xiàn)錯誤識別的情況,例如將“渦扇-10發(fā)動機”識別為飛機實體、“鷹擊62和鷹擊83空對艦導(dǎo)彈”識別為一個導(dǎo)彈實體。但MHA-BiLSTM-MHA-CRF模型依然能夠準(zhǔn)確識別出所有實體,由此推斷出雙層自注意力相比于單層自注意力在實體識別方面更具有優(yōu)勢。
為具體評判本文提出方法的性能,采用2階段對比實驗,驗證本文提出方法的優(yōu)越性,首先采用不同模型在字符嵌入作為輸入特征上做實驗對比得到實驗結(jié)果,然后從一階段實驗結(jié)果中選取最佳模型作為基準(zhǔn)模型與本文提出的雙層多頭自注意力機制模型分別在字符特征與融合特征方面做實驗對比,由此驗證本文提出方法的優(yōu)勢。
采用精確率(Precision,P),召回率(Recall,R)和F1值(F1-score,F(xiàn)1)作為評價指標(biāo),得到一階段實驗結(jié)果如表6所示。
表6 基準(zhǔn)模型實驗結(jié)果對比Tab.6 Comparison of benchmark model experiment results
從表6中的實驗1,2,4可知:CRF與HMM和BiLSTM相比,CRF表現(xiàn)出更好的性能,由此可以推斷出CRF在序列標(biāo)注等任務(wù)上有較大的優(yōu)勢;表6中的實驗3,5分別利用CNN網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)提取特征,然后使用CRF模型生成實體標(biāo)注序列,發(fā)現(xiàn)CNN網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)相比,在提取文本序列特征時,CNN效果較差。而BiLSTM-CRF模型在使用BiLSTM網(wǎng)絡(luò)提取特征之后相比于CRF模型在精度、召回率和F1值上均有提升,說明BiLSTM在序列標(biāo)注任務(wù)上提取特征是有效的,可以增強CRF模型的實體識別效果。
從表6中的實驗7可知:BiLSTM-MHA-CRF模型確實優(yōu)于其他模型,因此將BiLSTM-MHA-CRF作為基準(zhǔn)模型,與本文提出的MHA-BiLSTM-MHA-CRF模型進(jìn)行實驗對比,論證雙層自注意力在輸入特征融合方面的優(yōu)越性,實驗結(jié)果如表7所示。
表7 本文提出方法實驗結(jié)果對比Tab.7 Comparison of experimental results of the proposed method
從以上實驗結(jié)果可以看出,當(dāng)使用字符、位置、標(biāo)簽3種特征拼接作為BiLSTM-MHA-CRF模型輸入時,在精確率、召回率以及F1值方面均比僅使用字符特征嵌入有所提升。然后通過BiLSTM-MHA-CRF與MHA-BiLSTM-MHA-CRF模型對比,發(fā)現(xiàn)在字符特征嵌入對比實驗中,2種模型實驗在精確率等評價指標(biāo)上很接近,但是在使用字符、位置和標(biāo)簽3種特征融合時,MHA-BiLSTM-MHA-CRF相比于BiLSTM-MHA-CRF在精確率、召回率以及F1值上分別提升了0.92%,0.9%,0.82%,由此可以看出,在BiLSTM層之前使用多頭自注意力機制確實可以對輸入特征向量進(jìn)行有效的加權(quán)融合,可以在不同新聞文本實體識別過程中動態(tài)地賦予關(guān)鍵特征更高的權(quán)重,使得識別效果達(dá)到更優(yōu)。最后,通過結(jié)合軍事武器實體構(gòu)成特點,加入校驗機制對武器實體進(jìn)一步過濾,可以進(jìn)一步完善實體識別效果。
本文提出了一種結(jié)合雙層多頭自注意力機制和BiLSTM-CRF模型的軍事武器實體識別方法,實驗結(jié)果表明通過雙層多頭自注意力機制,不僅可以在BiLSTM層之后找到關(guān)鍵字符信息,而且能夠在BiLSTM層之前對輸入的不同特征進(jìn)行有效的加權(quán)融合,生成最終輸入的特征嵌入,使得實體識別效果更好,同時對于軍事武器實體,利用正則匹配構(gòu)建規(guī)則模板對武器實體過濾也具有不錯的效果。