国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

作戰(zhàn)文書中部隊番號的自動識別方法

2020-03-23 13:21劉海燕
兵器裝備工程學(xué)報 2020年2期
關(guān)鍵詞:自動機(jī)組塊文法

唐 堅,劉海燕

(1.陸軍裝甲兵學(xué)院,北京 100072;2.31632部隊,昆明 650000)

進(jìn)入21世紀(jì),高速度、快節(jié)奏的現(xiàn)代戰(zhàn)爭分秒必奪,指揮自動化應(yīng)運(yùn)而生。作戰(zhàn)文書包含部隊番號、編成、地名、時間、行動等命名實(shí)體信息,其識別處理是指揮自動化領(lǐng)域的重要研究內(nèi)容,經(jīng)過信息抽取后的文書信息,可用于智能輔助決策、自動標(biāo)繪地圖、自動生成摘要等方面。因此作戰(zhàn)文書信息抽取的準(zhǔn)確度成為決定作戰(zhàn)文書自動處理性能的關(guān)鍵因素。部隊番號是作戰(zhàn)文書中的重要組成元素,部隊番號的準(zhǔn)確識別意義重大。

1 部隊番號識別技術(shù)研究現(xiàn)狀

部隊番號的識別屬于命名實(shí)體識別中的機(jī)構(gòu)名識別[1-2]。近年來大部分研究將部隊番號作為普通軍事命名實(shí)體,采用基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法,同編成、行動、地點(diǎn)等運(yùn)用統(tǒng)一模型識別。由于作戰(zhàn)文書語義簡明、結(jié)構(gòu)性強(qiáng),文獻(xiàn)[3-6]采用基于規(guī)則的方法提取信息,但在算法實(shí)現(xiàn)上沒有提出解決方案。文獻(xiàn)[7]、文獻(xiàn)[8]通過角色標(biāo)注并使用正向匹配算法對部隊番號進(jìn)行識別,存在識別不完整的問題。文獻(xiàn)[9-11]提出使用基于機(jī)器學(xué)習(xí)的方法,但這種方法模型設(shè)計難,且改進(jìn)模型后需重新訓(xùn)練模型,耗時較多。文獻(xiàn)[12]提出使用基于字向量的深度神經(jīng)網(wǎng)絡(luò)模型識別,但其對訓(xùn)練樣本依賴高,時間復(fù)雜度高,計算資源消耗大。同時采取統(tǒng)一模型識別的優(yōu)勢在于信息識別范圍廣,但也存在模型特征多、設(shè)計難、實(shí)現(xiàn)復(fù)雜、識別廣度和精度難以并重的問題。針對上述問題,以“專而精”為出發(fā)點(diǎn),本文重點(diǎn)對部隊番號的識別問題進(jìn)行了研究,旨在實(shí)現(xiàn)部隊番號的準(zhǔn)確、簡單、高速識別。

2 部隊番號的結(jié)構(gòu)及識別模型

根據(jù)軍隊標(biāo)號規(guī)定和分析可知,部隊番號由多個子元素組成,有較強(qiáng)的組成規(guī)律,可以按組塊分析[13]的方法處理。文獻(xiàn)[14]給出的漢語組塊定義如下:組塊是一種結(jié)構(gòu),是符合一定句法功能的非遞歸短語。但在真實(shí)語料中,部隊番號的構(gòu)成具有遞歸性,不能簡單套用組塊識別的方法。針對部隊番號識別問題,本文提出了一種遞歸型組塊規(guī)則,并實(shí)現(xiàn)了基于有窮自動機(jī)的部隊番號識別。

2.1 部隊番號的結(jié)構(gòu)

部隊番號是部隊的編制名稱,一般按照部隊的性質(zhì)、編制序列授予。從構(gòu)成上講,基本的番號是由部隊種類、序列、編制構(gòu)成。如:“坦克第10團(tuán)”,“騎兵2旅”,“憲兵連”等。因此得出構(gòu)造部隊番號的基本組塊規(guī)則是:

基本塊=部隊種類+序列+編制

通過建立作戰(zhàn)文書語料庫并分析,番號的組成并不是完全簡單的按上述規(guī)則構(gòu)成,往往是由基本塊加表附加的屬性詞復(fù)合而成。如:“空軍11師空降第173旅”“炮兵第17旅工兵營和防化營”“裝甲1營前方支援連”“3旅1營欠3連”等。由上分析得到一個遞歸的組塊規(guī)則(其中帶方括號的項(xiàng)可以為空):

基本塊=[附加]+基本塊

番號=基本塊+[基本塊]

2.2 基于有窮自動機(jī)的識別模型

部隊番號是一種結(jié)構(gòu)化語塊,使用有窮自動機(jī)分析能避免計算機(jī)理解作戰(zhàn)文書的困難,具有較強(qiáng)的操作性。這種方法首先要確定部隊番號的生成文法,然后根據(jù)文法構(gòu)造識別部隊番號的有窮自動機(jī),最后建立分析表供識別時使用。有窮自動機(jī)是一種識別裝置,它能準(zhǔn)確的識別正規(guī)文法所定義的語言和正規(guī)式所表示的集合。由于在分詞處理中諸如:“第二十六”、“第97”等詞通常被拆分成“第/二十六”,“第/97”。為了便于計算機(jī)處理,對上面給出的規(guī)則進(jìn)行改進(jìn)。將“序列”拆分成“[順序]+數(shù)字”。定義非終結(jié)符集合a,b,c,d,e,f(其元素不屬于前述任意集合),g(基本塊),它們的意義見表1。

表1 非終結(jié)符意義

這里構(gòu)造了兩個有窮自動機(jī)實(shí)現(xiàn)對完整部隊番號的識別。使用兩重自動機(jī)可以簡化文法的構(gòu)造,避免復(fù)雜文法帶來的沖突和編制程序時的復(fù)雜性。根據(jù)規(guī)則可以得基本塊的文法為

G1=({S1,S2,S3,S4},{a,b,c,d},P,S′),其中P由下列產(chǎn)生式組成:

[0]S′→S0

[1]S0→aS1

[2]S0→bS2

[3]S0→cS3

[4]S1→bS2

[5]S1→cS3

[6]S1→dS4

[7]S2→cS3

[8]S3→dS4

[9]S4→ε

顯然上述文法是一個正規(guī)文法,因此可以使用有窮自動機(jī)對由該文法表示的集合進(jìn)行識別。識別基本塊的有窮自動機(jī)DFA1如圖1所示。

圖1 DFA1示意圖

完整部隊番號的文法為

G2=({S1,S2},{e,f,g},P,S′),其中P由下列產(chǎn)生式組成:

[0]S′→S0

[2]S0→eS1

[3]S0→fS2

[4]S1→gS0

[5]S1→fS2

[6]S2→ε

譯文:The analysis is carried out according to the universal standard and general features of English abstracts,chiefly from the linguistic and the stylistic aspects.

文法G2是正規(guī)文法,DFA2如圖2所示。

圖2 DFA2示意圖

3 部隊番號的識別

3.1 識別方法

自底向上的分析方法廣泛應(yīng)用于文法分析,它是一種“移進(jìn)—?dú)w約”的分析方法。其基本思想是對輸入文本從左到右掃描,逐個符號入棧,形成可歸約串便用產(chǎn)生式的右部替換,如此反復(fù)如果最后只剩開始符則分析成功。LR(k)是一種規(guī)范的自底向上分析方法。大多數(shù)無二義性上下文無關(guān)文法都可以使用相應(yīng)的LR分析器識別。一個LR分析器由驅(qū)動程序、分析表、分析棧組成。

構(gòu)造一個文法的分析表的前提是構(gòu)造它的識別可歸納前綴的有窮自動機(jī)。列出文法G1和G2產(chǎn)生式的全部項(xiàng)目,對所有項(xiàng)目對應(yīng)的狀態(tài)構(gòu)造識別活前綴的有窮自動機(jī)。基本塊的識別活前綴的有窮自動機(jī)如圖3所示(In代表狀態(tài))。部隊番號的識別活前綴的有窮自動機(jī)如圖4所示。

圖3 識別G1活前綴的有窮自動機(jī)框圖

圖4 識別G2活前綴的有窮自動機(jī)框圖

由上可以看出:文法G1和G2的項(xiàng)目不存在“移進(jìn)—?dú)w約”沖突和“歸約—?dú)w約”沖突,在分析過程中不需要向右查看輸入符號,所以選用LR(0)文法作為識別部隊番號的文法。

根據(jù)識別活前綴的有窮自動機(jī)構(gòu)造文法,首先根據(jù)基本塊的識別活前綴自動機(jī),構(gòu)造G1的LR(0)分析表,如表2(rj表示使用G1的產(chǎn)生式j(luò)進(jìn)行歸約)。

表2 G1的LR(0)分析

使用同樣的方法,構(gòu)造文法G2的LR(0)分析表,如表3(Rj表示使用G2的產(chǎn)生式j(luò)進(jìn)行歸約)。

表3 G2的LR(0)分析

3.2 應(yīng)用實(shí)例

使用自動機(jī)識別前,應(yīng)將語句劃分為具有語義且不可分割的“單詞”,即做分詞處理。本文使用ICTCLAS分詞系統(tǒng)提供的接口對作戰(zhàn)文書進(jìn)行處理。分詞過程中導(dǎo)入了部隊番號有關(guān)的用戶詞典,提高分詞準(zhǔn)確率。對分詞后的文本以句為識別單位,提高識別效率。輸入文本:“騎兵第1旅(欠1營)加強(qiáng)化學(xué)2連”分詞結(jié)果為:“騎兵/第/1/旅/(/欠/1/營/)/加強(qiáng)/化學(xué)/2/連”。第一次轉(zhuǎn)換成標(biāo)記的結(jié)果是:abcdecdeacd。然后掃描識別,識別的過程是不斷的移進(jìn)歸約,這里列舉運(yùn)用表2分析acd子串的過程,如表4。

表4 基本塊識別過程

識別完成后整個串轉(zhuǎn)換為gegegf,運(yùn)用表3分析,番號識別過程如表5。

表5 番號識別過程

輸出ACC,識別成功,儲存所識別出的語塊,以備向番號注記轉(zhuǎn)換時使用。

4 測試與分析

測試樣本分為3個類別:作戰(zhàn)文書、軍用公文、軍事戰(zhàn)例。作戰(zhàn)文書選自某部隊2015年參加某大型演習(xí)任務(wù)的演習(xí)文書匯編,共69篇文書,153 788字。軍用公文選自某部隊近五年各類檢查通報50篇,62 752字。軍事戰(zhàn)例使用《軍隊指揮與案例》(國防工業(yè)出版社,2015年第1版),約210 000字。測試前,先對測試樣本中包含的部隊番號數(shù)進(jìn)行人工統(tǒng)計,生成檢驗(yàn)集,再用自動識別生成的番號集與之對比,得出精確率(P)、召回率(R)和F值。測試中使用的計算機(jī)配置:處理器為 Intel i7-8750H 2.2 GHz,內(nèi)存為8 GB,操作系統(tǒng)為64 位Windows10(企業(yè)版),硬盤為512G固態(tài)硬盤。

4.1 測試結(jié)果

4.1.1不同識別方法測試結(jié)果

測試時,分別使用本文提出的基于有窮自動機(jī)的識別方法(記為DFA法),文獻(xiàn)[9]提出的基于支持向量機(jī)的識別方法(記為SVM法),文獻(xiàn)[11]提出的基于條件隨機(jī)場的識別方法(記為CRF法),文獻(xiàn)[12]提出的基于深度學(xué)習(xí)的識別方法(記為DL法)對作戰(zhàn)文書類測試樣本進(jìn)行測試,得到精確率(P)、召回率(R)和F值如表6所示。

表6 不同方法測試結(jié)果

從表6看出:DFA法的精確率、召回率都在95%以上,說明本方法是有效的。DFA法和DL法在識別精確率、召回率和F值上較為接近,效果好于SVM法和CRF法。從算法角度看,后兩種方法難以準(zhǔn)確界定識別粒度,且均需指定識別的上下文窗口值,這樣的設(shè)置是以損失準(zhǔn)確度為代價以提高識別速度。但總體上DFA法好于其他三種方法,說明在組成規(guī)則明確的條件下,運(yùn)用規(guī)則法具有更好的可靠性。原因是SVM法和CRF法并非完全由機(jī)器自主發(fā)現(xiàn)特征,而是依賴人運(yùn)用領(lǐng)域知識提取特征,其識別準(zhǔn)確度取決于提取特征的準(zhǔn)確度,從而導(dǎo)致了識別的精確率難以到達(dá)較高的水平。而DL法需要大量準(zhǔn)確標(biāo)記的訓(xùn)練數(shù)據(jù)訓(xùn)練模型才能達(dá)到較理想的效果,但目前還沒有面向軍事命名實(shí)體識別的權(quán)威數(shù)據(jù)集,個人選取的訓(xùn)練數(shù)據(jù)集覆蓋面不全,較大的影響深度學(xué)習(xí)結(jié)果的準(zhǔn)確性。DFA法從部隊番號的構(gòu)成規(guī)則出發(fā),避免了上述問題。

4.1.2不同測試樣本測試結(jié)果

使用DFA法分別對作戰(zhàn)文書、軍用公文、軍事戰(zhàn)例三類測試樣本進(jìn)行測試,得到精確率(P)、召回率(R)和F值如表7所示。

表7 不同測試樣本測試結(jié)果

從表7可以看出:本方法在對作戰(zhàn)文書和軍用公文中部隊番號的識別效果上,明顯好于對軍事戰(zhàn)例中部隊番號的識別。原因是作戰(zhàn)文書和軍用公文是規(guī)范化的文書,其行文和用詞都嚴(yán)格遵守相關(guān)規(guī)定和《軍語》,而軍事戰(zhàn)例行文相對自由,部隊番號的使用不夠規(guī)范,從而導(dǎo)致識別精確率下降。以上結(jié)果說明本方法在應(yīng)用范圍上具有一定的局限性。

4.2 影響因素分析

統(tǒng)計分析識別中存在的問題,發(fā)現(xiàn)影響識別準(zhǔn)確性的因素主要有3類:作修飾語的番號、未登錄詞和歧義。各因素占比如圖5所示。

圖5 3種樣本各類型錯誤數(shù)量分布

1)作修飾語的番號的影響

本文需要識別的部隊番號應(yīng)當(dāng)是專有名詞,而做定語成分出現(xiàn)具有修飾作用的番號則不應(yīng)被召回,這類番號雖然被準(zhǔn)確識別,但卻不能獨(dú)立使用。在全部識別結(jié)果中,有73條番號屬于這類番號,占總錯誤的61.24%,成為影響識別結(jié)果的主要因素。例如:“另一方面,必須對敵防空排陣地實(shí)施有效的火力打擊”,此句中的防空排被識別為番號,但分析語句可知,“防空排”作定語修飾“陣地”,不可以單獨(dú)使用,應(yīng)當(dāng)在識別結(jié)果中予以排除。

2)未登錄詞的影響

未登錄詞在本文中特指屬于部隊番號組成元素但又未收錄入非終結(jié)符集的詞語。對照識別結(jié)果,由未登錄詞導(dǎo)致的識別不準(zhǔn)共出現(xiàn)37條,占總錯誤的31.09%。未登錄詞對于識別的影響主要表現(xiàn)為3種:一是識別晚觸發(fā),二是識別早終止,三是識別未觸發(fā)。例如:“參演機(jī)關(guān)有東海艦隊、東航、舟山基地”,此語句中包含未登錄詞“東航”,方法1沒有將簡稱東航識別為部隊番號。又如:“娘母江曲兩側(cè)為阿薩姆步兵第5營”,由于阿薩姆屬于未登錄詞,導(dǎo)致識別晚觸發(fā),只識別出“步兵第3營”,未將該番號完整識別。

3)歧義的影響

歧義在漢語中屬于常見現(xiàn)象,例如:“南京市長江大橋”,既可以理解為“南京市/長江大橋”,也可以理解為“南京市長/江大橋”,其準(zhǔn)確含義需要聯(lián)系具體語境判斷。在識別中,由于分詞存在誤差,導(dǎo)致了非部隊番號被召回。例如:“我們首次三軍聯(lián)合渡海登陸作戰(zhàn)”中,由于將“三軍”拆分為“三/軍”,觸發(fā)了自動機(jī),將其識別為部隊番號。

5 結(jié)論

經(jīng)過識別抽取的部隊番號被存儲為結(jié)構(gòu)化文本,可直接轉(zhuǎn)換成番號注記用于自動標(biāo)繪要圖。此方法還可擴(kuò)展應(yīng)用于輔助涉軍輿情監(jiān)測、涉密信息檢查,能較為快速準(zhǔn)確的鎖定涉及部隊番號的相關(guān)信息。本文提出的部隊番號識別方法可操作性強(qiáng)。提出了遞歸型部隊番號組塊規(guī)則,并設(shè)計實(shí)現(xiàn)了一種運(yùn)用有窮自動機(jī)識別部隊番號的方法,測試結(jié)果表明該方法具有實(shí)用性。由于受分詞系統(tǒng)的影響和測試語料規(guī)模的限制,該方法的適用性和處理能力還有待進(jìn)一步檢驗(yàn)。

猜你喜歡
自動機(jī)組塊文法
馮諾依曼型元胞自動機(jī)和自指語句
基于Java的遞歸下降語法分析器的實(shí)現(xiàn)
組塊理論的解讀及啟示
一種基于模糊細(xì)胞自動機(jī)的新型疏散模型
一種基于模糊細(xì)胞自動機(jī)的新型疏散模型
元胞自動機(jī)在地理學(xué)中的應(yīng)用綜述
基于元胞自動機(jī)下的交通事故路段仿真
基于元胞自動機(jī)下的交通事故路段仿真
為什么聽得懂卻不會做
試析“詞匯組塊”教學(xué)在高中英語教學(xué)中的實(shí)際運(yùn)用
太和县| 江都市| 任丘市| 桦南县| 枞阳县| 绥化市| 东兰县| 阜新市| 安龙县| 南汇区| 民权县| 景东| 沂南县| 手机| 铜山县| 蒙城县| 思南县| 云霄县| 清涧县| 镇沅| 江达县| 贵德县| 共和县| 高州市| 桂阳县| 江都市| 澎湖县| 广汉市| 黄梅县| 河西区| 堆龙德庆县| 泾川县| 三穗县| 东辽县| 保德县| 平原县| 宜良县| 石河子市| 尚义县| 大石桥市| 交城县|