基于深度神經(jīng)網(wǎng)絡(luò)的武器名稱識別①

2018-02-07 02:42于銘華

計(jì)算機(jī)系統(tǒng)應(yīng)用 2018年1期

游飛,張激,邱定,于銘華

1(華東計(jì)算技術(shù)研究所系統(tǒng)平臺部,上海 201808)2(華東計(jì)算技術(shù)研究所總師辦,上海 201808)

科學(xué)技術(shù)的進(jìn)步推進(jìn)著軍事武器裝備的快速更迭,同時(shí)信息處理技術(shù)的快速發(fā)展,我軍的高度信息化時(shí)代正式到來.在日常軍事訓(xùn)練和行動中,產(chǎn)生了大量的以電子文本形式存在的信息.如何高效自動化地處理這些海量的文本成為急需解決的問題.

命名實(shí)體識別 (Named Entity Recognition,NER)已經(jīng)成為許多自然語言處理應(yīng)用的重要步驟,例如問答系統(tǒng)、信息提取和機(jī)器翻譯[1],是自然語言處理中的一項(xiàng)重要的基礎(chǔ)工作.然而命名實(shí)體識別的效果受限于特定的領(lǐng)域和語言,這就需要為不同領(lǐng)域不同語言量身定制一套識別系統(tǒng).

命名實(shí)體識別最初是在第六屆MUC會議作為一個(gè)子任務(wù)提出的[2].命名實(shí)體識別的主要任務(wù)是識別文本中出現(xiàn)的專有名稱和數(shù)量短語,并對其加以歸類.早期的命名實(shí)體基于字典和規(guī)則的方法識別,字典和規(guī)則的編寫需要語言專家的參與,且不能完全覆蓋所有的實(shí)體.之后,人們開始提出基于將統(tǒng)計(jì)的方法,統(tǒng)計(jì)的方法能夠有效的捕捉到命名實(shí)體的位置或特征現(xiàn)象,接著用維特比(Viterbi)算法求解最佳的狀態(tài)序列.基于統(tǒng)計(jì)方法的優(yōu)點(diǎn)是不需要豐富的語言學(xué)知識、可移植性較好,缺點(diǎn)是需要大量的人工進(jìn)行語料的標(biāo)注.基于統(tǒng)計(jì)方法主要的有:Bikel等人[3]最早將隱馬爾科夫(Hidden Markov Model,HMM)方法用于命名實(shí)體識別.Ratnaparkhi等人[4]提出最大熵 (Maximum Entropy,EM)模型用于語言分類的問題.

中文的命名實(shí)體的研究緊跟其后,始于上世紀(jì)90年代初.由于語言的特性,中文的命名實(shí)體識別的難度較難,效果較差.命名實(shí)體識別任務(wù)中涉及到分詞和詞法分析等任務(wù),英文中詞的邊界明顯,詞性特性特征顯著,而中文中存在一詞多義,詞邊界模糊等現(xiàn)象.國內(nèi)的孫茂松等[5]較早地對中文人名進(jìn)行識別.俞鴻魁等[6]基于層疊隱馬爾科夫模型進(jìn)行中文命名實(shí)體識別,達(dá)到較高的識別準(zhǔn)確率.姜文志等[7]基于條件隨機(jī)場(Conditional Random Field,CRF)和規(guī)則的方法對軍事命名實(shí)體進(jìn)行了識別.

最近,由于深度學(xué)習(xí)能夠從大量的無標(biāo)記的語料中學(xué)習(xí)特征,利用深度學(xué)習(xí)模型解決命名實(shí)體識別已經(jīng)成為的趨勢[8].深度學(xué)習(xí)屬于機(jī)器學(xué)習(xí)領(lǐng)域,它能夠通過構(gòu)造深度神經(jīng)網(wǎng)絡(luò) (Deep Neural Networks,DNN)模型學(xué)習(xí)高層的特征[9].Dr.Ronan Collobert等人[10]基于深度神經(jīng)模型處理詞性標(biāo)注、命名實(shí)體識別等問題,并取得了當(dāng)時(shí)最好水平.

在軍事信息處理領(lǐng)域,軍事專有名詞的識別是非常重要的一項(xiàng)工作.目前許多軍事信息處理系統(tǒng)的實(shí)體基于字典、規(guī)則或統(tǒng)計(jì)的方法.本文主要研究詞的向量的表示和詞向量模型的訓(xùn)練,借鑒已有的深度神經(jīng)網(wǎng)絡(luò)模型,在訓(xùn)練集上訓(xùn)練模型,觀察不同參數(shù)下的測試結(jié)果.

1 深度神經(jīng)網(wǎng)絡(luò)模型

深度神經(jīng)網(wǎng)絡(luò)從狹義上講是一個(gè)具有多層感知機(jī)模型,近些年深度神經(jīng)網(wǎng)絡(luò)模型被應(yīng)用在自然語言處理的許多任務(wù)中并取得了顯著的效果,如:詞性標(biāo)注、命名實(shí)體識別、語塊識別等.本文基于深度神經(jīng)網(wǎng)絡(luò)構(gòu)建出武器名稱識別的模型.模型的結(jié)構(gòu)如圖1所示.底層是神經(jīng)網(wǎng)絡(luò)的輸入層,即連續(xù)化的詞向量窗口.由于模型的輸入是固定的格式,本文將固定維度的詞向量和詞性向量作為輸入,通過中間隱層的非線性變換,學(xué)習(xí)到高層的特征,即詞的上下文的特征,本文將詞對應(yīng)實(shí)體識別的四種狀態(tài),作為網(wǎng)絡(luò)模型的輸出.最后通過再結(jié)合訓(xùn)練集的狀態(tài)轉(zhuǎn)移概率求得句子的最佳標(biāo)注序列.

圖1 深度神經(jīng)網(wǎng)絡(luò)模型

1.1 詞向量模型

將每個(gè)詞語表示成一個(gè)低維的實(shí)數(shù)向量,那么任意兩個(gè)詞語之間的距離可以用歐式距離表示.這種特征表示可以解決機(jī)器學(xué)習(xí)中維數(shù)災(zāi)難和局部泛化等問題[10].與傳統(tǒng)的基于統(tǒng)計(jì)記錄上下特征的方法相比,它可以更好的捕捉到數(shù)據(jù)之間的固有聯(lián)系,而且不需要進(jìn)行人工標(biāo)注.

在基于基于詞向量特征的命名實(shí)體識別任務(wù)中,常把訓(xùn)練集的單詞W,表示為一個(gè)固定維度的列向量,作為深度神經(jīng)的輸入.該向量可以很好的表示句子信息和語義相似度.理想狀態(tài)下,DNN的輸入為若干詞語的存儲矩陣是一個(gè)詞語向量的維度,而W是領(lǐng)域詞語字典的大小.在命名實(shí)體識別任務(wù)中,當(dāng)前的句子能夠很好的體現(xiàn)的詞語之間的關(guān)聯(lián),而句子之間的詞語關(guān)聯(lián)較弱.因?yàn)镈NN模型的輸入是固定的格式,本文大小為W的窗口作為輸入,窗口中間是當(dāng)前詞為Mi,則它前后的(k-1/2)個(gè)詞語代表它的上下文,即為詞序?qū)τ谖挥诰淝昂途湮驳漠?dāng)前詞,本文動窗口的前部或尾部做隨機(jī)填充處理,考慮到詞性在特定語言中有普遍的規(guī)律,本文選用參考北大計(jì)算所詞性標(biāo)注集簡表,選用常用的詞性14個(gè),并將其他詞性視為統(tǒng)一詞性,將窗口中每個(gè)詞映射到15維的詞性向量中,并將詞性向量與詞向量拼接,即把這W個(gè)詞語的特征向量作為模型的輸入.

1.2 隱藏層

兩層隱藏層進(jìn)行非線性變換,變換后的窗口向量為:

1.3 輸出層

對于軍事武器名稱識別任務(wù),在給定電子文本中,利用當(dāng)前詞語的上下文環(huán)境,識別該詞是否為武器名稱,故設(shè)計(jì)輸出層的節(jié)點(diǎn)個(gè)數(shù)為4,對應(yīng)詞語的四個(gè)狀態(tài)標(biāo)注值:集合中四種狀態(tài)的含義為:B代表該詞語為武器名稱的第一個(gè)詞,I代表武器名稱的中間詞,E代表武器名稱的尾部詞,O代表該詞語不是武器名稱.

輸出層的輸入來自上層隱藏層的輸出,該輸入為一個(gè)h3維的向量z,輸出層的非線性變換為為該層的變換矩陣,b4該層的偏置矩陣,h4為輸出層神經(jīng)單元的個(gè)數(shù).變換后得到一個(gè)沒有歸一化的h4維向量,本文用Softmax函數(shù)對其進(jìn)行歸一化處理,zi表示輸出向量的第i個(gè)值:

1.4 標(biāo)注推斷

命名實(shí)體識別的輸出是一個(gè)狀態(tài)序列標(biāo)記的問題.對于句子的一種標(biāo)記序列為在已知上下文得分和狀態(tài)轉(zhuǎn)移得分的情況下,計(jì)算最高得分的標(biāo)記路徑的問題可以通過維特比(Viterbi)算法求解.算法的遞推關(guān)系如下.

正式啟動并全面推進(jìn)漢江流域加快實(shí)施最嚴(yán)格水資源管理制度試點(diǎn)。分解落實(shí)漢江“三條紅線”、及時(shí)完善了漢江水量分配成果、提出了多種保護(hù)區(qū)劃分方案等，進(jìn)一步完善了漢江流域用水總量、用水效率控制指標(biāo)體系。組織完成了漢江、嘉陵江、岷江、沱江、赤水河水量分配方案，啟動了金沙江、烏江、牛欄江河流水量分配方案工作。加強(qiáng)水功能區(qū)管理，積極推進(jìn)水功能區(qū)監(jiān)測、評估、考核與管理體系建設(shè)。編制完成了《南水北調(diào)中線一期工程水量調(diào)度方案》，完成了沙沱、魯?shù)乩?、瀑布溝?0個(gè)工程蓄水計(jì)劃和調(diào)度方案審查，加強(qiáng)了節(jié)水型社會建設(shè)。

初始化:

遞推關(guān)系:

2 參數(shù)訓(xùn)練

式中λ為學(xué)習(xí)率,取其值為0.02.為下降的梯度,參數(shù)的估計(jì)采用最大似然估計(jì)的方法,即:

為了避免在訓(xùn)練過程中出現(xiàn)參數(shù)過擬合的發(fā)生,在模型的每層激活函數(shù)加入dropout正則化,dropout的參數(shù)設(shè)置為0.2.

3 實(shí)驗(yàn)結(jié)果和分析

3.1 實(shí)驗(yàn)設(shè)置

在詞的向量表示部分,本文采用開源工具包word2 vec,該工具實(shí)現(xiàn)了Mikolov等人提出的連續(xù)詞袋(constant bag of words)模型[11,12]的向量表示.該模型的訓(xùn)練語料來自搜狐實(shí)驗(yàn)室全網(wǎng)中文新聞數(shù)據(jù)(SogouCA)2012年6月至7月的語(http://www.Sogou.com/labs/resource/ca.php),大小共計(jì) 711MB.使用北京大學(xué)計(jì)算語言學(xué)研究所的云分詞服務(wù)對該語料進(jìn)行分詞后,利用word2vec學(xué)習(xí)詞語的向量表示,詞向量的維度為100維至400維,步長為60維.

由于目前沒有較權(quán)威開放的中文軍事語料[13],本文爬取環(huán)球軍事網(wǎng)、中華網(wǎng)等軍事網(wǎng)站文章共7500篇,對武器名稱進(jìn)行標(biāo)注后作為實(shí)驗(yàn)語料,隨機(jī)抽取其中80%(6000篇文章)作為訓(xùn)練集,剩下的20%(1500篇文章)作為測試數(shù)據(jù).本實(shí)驗(yàn)設(shè)置3組實(shí)驗(yàn).

實(shí)驗(yàn)一.利用詞向量表示模型,對訓(xùn)練集進(jìn)行詞的向量表示,設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷僅考慮詞的上下文得分.構(gòu)建并訓(xùn)練4層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個(gè)數(shù)為 250,150,100,4.在詞向量的維度訓(xùn)練上,設(shè)置維度在100至400之間,步長為60,觀測試驗(yàn)結(jié)果.

實(shí)驗(yàn)二.利用詞向量表示模型,對訓(xùn)練集進(jìn)行詞的向量表示.設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷僅考慮詞的上下文得分.構(gòu)建并訓(xùn)練5層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個(gè)數(shù)為 250,200,150,100,4.設(shè)置詞向量的維度為280,觀測試驗(yàn)結(jié)果.

實(shí)驗(yàn)三.利用詞向量表示模型,對訓(xùn)練集進(jìn)行詞的向量表示.設(shè)置詞性向量維數(shù)為15,將其與詞向量拼接作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入.標(biāo)注推斷結(jié)合詞的上下文得分和狀態(tài)轉(zhuǎn)移得分.構(gòu)建并訓(xùn)練5層神經(jīng)網(wǎng)絡(luò)模型,各層神經(jīng)單元個(gè)數(shù)為 250,200,150,100,4.設(shè)置詞向量的維度為280,觀測試驗(yàn)結(jié)果.

3.2 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)以F-1值作為實(shí)驗(yàn)評判標(biāo)準(zhǔn)準(zhǔn)確F-1值表示如下:

對三組實(shí)驗(yàn)結(jié)果做如下分析.

圖2表示詞向量維數(shù)的增加,F-1值的變化情況.在維度為100至400之間,F-1值緩慢上升.在維度為 280 時(shí)達(dá)到最大,為 0.9021,在 340 維度時(shí),有所下降.這說明詞向量的維度不是越大越好,它存在局部最優(yōu)值,這可能與文本長度和文本詞語分布有關(guān).

圖2 不同緯度下 F-1 值的分布

在詞向量表示的最優(yōu)維度(280維)的情況下,表1是三組不同實(shí)驗(yàn)情況下的F-1值.試驗(yàn)二的F-1值為0.9076,較實(shí)驗(yàn)一(280維)的識別效果提升了0.609%,說明增加一層隱層捕獲了更多的特征信息.實(shí)驗(yàn)三的F-1值為0.9102,較實(shí)驗(yàn)二的識別效果提升了0.396%,說明融合狀態(tài)的轉(zhuǎn)移得分,可以提升命名實(shí)體的性能.

表1 三組試驗(yàn)結(jié)果 F-1 值

4 總結(jié)

我國擁有漫長的國界線和海岸線,提升軍事信息智能處理能力具有重要的戰(zhàn)略意義.命名實(shí)體識別作為自然語言處理的重要一環(huán),是軍事信息化建設(shè)上的基礎(chǔ),如智能問答、信息提取、輿情分析等.本文針對軍事文本中常出現(xiàn)的幾類武器名詞,提出了基于詞向量特征利用深度神經(jīng)網(wǎng)絡(luò)模型,再融合詞性和狀態(tài)轉(zhuǎn)移得分的特征,在測試數(shù)據(jù)集上達(dá)到0.9102的識別精準(zhǔn)度.

由于實(shí)驗(yàn)基于移動窗口來代表詞語的前后文,移動窗口不能捕獲詞語在句子中的特征.下一步待改進(jìn)的是如何捕獲基于語義的特征,以及如何減少深層網(wǎng)絡(luò)的訓(xùn)練時(shí)間.

1 McCallum A,Li W. Early results for named entity recognition with conditional random fields,feature induction and web-enhanced lexicons. Proceedings of the Seventh Conference on Natural Language Learning at Hlt-Naacl.Edmonton,Canada.2003.188–191.

2 Grishman R,Sundheim B. Message understanding conference-6:A brief history. Proceedings of the 16th Conference on Computational Linguistics. Copenhagen,Denmark.1996.466–471.

3 Bikel DM,Schwartz R,Weischedel RM.An algorithm that learns what’s in a name.Machine Learning,1999,34(1-3):211–231.

4 Ratnaparkhi A.A simple introduction to maximum entropy models for natural language processing. IRCS Technical Reports.Pennsylvania:University of Pennsylvania,1997.

5 孫茂松,黃昌寧,高海燕,等.中文姓名的自動辨識.中文信息學(xué)報(bào),1995,9(2):16–27.

6 俞鴻魁,張華平,劉群,等.基于層疊隱馬爾可夫模型的中文命名實(shí)體識別.通信學(xué)報(bào),2006,27(2):87–94.

7 姜文志,顧佼佼,叢林虎.CRF與規(guī)則相結(jié)合的軍事命名實(shí)體識別研究.指揮控制與仿真,2011,33(4):13–15.

8 Collobert R,Weston J,Bottou L,et al.Natural language processing (Almost)from scratch.The Journal of Machine Learning Research,2011,12(1):2493–2537.

9 Hinton GE,Salakhutdinov RR.Reducing the dimensionality of data with neural networks.Science,2006,313(5786):504–507.[doi:10.1126/science.1127647]

10 Mansur M,Pei W,Chang B.Feature-based neural language model and chinese word segmentation.Proceedings of the 6th International Joint Conference on Natural Language Processing.Nagoya,Japan,2013:1271–1277.

11 Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space. Computer Science,2013.

12 Mikolov T,Sutskever I,Chen K,et al. Distributed representations of words and phrases and their compositionality.Advances in Neural Information Processing Systems,2013,(26):3111–3119.

13 馮蘊(yùn)天,張宏軍,郝文寧.面向軍事文本的命名實(shí)體識別.計(jì)算機(jī)科學(xué),2015,42(7):15–18.[doi:10.11896/j.issn.1002-137X.2015.07.004]

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡