鄧雅倩 劉元高
(第七〇一研究所 湖北省武漢市 430064)
軍事情報(Military Intelligence)主要是指情報研究者為了保護國家安全、提供可靠決策參考、保障軍事活動能夠順利進行,進行搜集、處理與分析的某些有關(guān)國家安全、作戰(zhàn)指揮和軍隊建設(shè)方面的情況信息[1]。軍事情報的收集與分析在軍事領(lǐng)域占有極其重要的地位,情報信息的收集充分與否、準確與否與軍事作戰(zhàn)息息相關(guān),充足準確的軍事情報可以為軍事活動提供可靠依據(jù)[2]。如今,軍事信息呈指數(shù)形態(tài)增長,呈現(xiàn)“數(shù)據(jù)超載”現(xiàn)象,且獲取的數(shù)據(jù)來源廣泛,導(dǎo)致內(nèi)容繁雜,難以提取出有效信息[3]。
軍事情報分析(Military Intelligence Analysis)則主要面臨著情報數(shù)據(jù)多元化、情報價值獲取難度升級以及傳統(tǒng)情報處理方法和應(yīng)用模式無法滿足現(xiàn)有情況需要等問題[4],需要研究出適應(yīng)于現(xiàn)代軍事情報分析的智能情報分析系統(tǒng)。隨著人工智能技術(shù)的飛速發(fā)展,人工智能技術(shù)已在許多領(lǐng)域取得卓越成就[5][6],同樣,軍事情報領(lǐng)域也可以通過相關(guān)的人工智能技術(shù),實現(xiàn)對軍事情報的自動收集、智能分析,來解決情報分析面臨的問題[7][8]。目前,對于美海軍水面艦船活動信息的情報分析上,還未發(fā)現(xiàn)相關(guān)情報分析系統(tǒng)的研究,而美國的各大軍事網(wǎng)站、軍事論壇中包含著大量有用的軍事數(shù)據(jù)[9],針對美海軍水面艦船,可以利用合適的人工智能技術(shù),建立相應(yīng)的軍事情報分析系統(tǒng),自動化地對其各項軍事活動數(shù)據(jù)進行收集、分析,從中獲取可用情報。
因此,本文針對美國各大軍事和軍事論壇中的開源數(shù)據(jù),首先運用基于BeautifulSoup 框架的網(wǎng)絡(luò)爬蟲技術(shù)進行數(shù)據(jù)爬取;然后運用基于NLP 的數(shù)據(jù)處理技術(shù),對爬取的原始網(wǎng)頁文本進行結(jié)構(gòu)化處理;最后利用NLP 技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)技術(shù)對經(jīng)過處理的文本進行知識抽取,獲得最終情報分析結(jié)果,由此建立了集自動收集、處理、分析于一體的軍事情報分析系統(tǒng)。
網(wǎng)絡(luò)爬蟲(Web Crawler),即按照預(yù)先設(shè)定的規(guī)則,自動進行網(wǎng)絡(luò)信息的抓取,自動采集所有其能夠訪問到的頁面內(nèi)容[10]。數(shù)據(jù)爬?。―ata Crawling)就是從種子URL(Uniform Resource Locator)開始,通過HTTP(Hyper Text Transport Protocol)請求獲取頁面內(nèi)容。URL 即統(tǒng)一資源定位符,其作用就是指定“資源”的訪問方式,例如https://www.janes.com/index.html 就是一個URL,由三部分組成:訪問協(xié)議(https)、訪問路徑(//www.janes.com/)、資源名稱(index.html),可以成功訪問簡氏防務(wù)周刊,從而進行軍事數(shù)據(jù)的爬取。
圖1:數(shù)據(jù)爬取流程
圖2:指代消解流程
圖3:最大池化與動態(tài)多池化特征選擇
Web 開源數(shù)據(jù)爬取流程[11]如圖1 所示,具體步驟介紹如下:
(1)選取一部分種子URL,即選定目標爬取網(wǎng)站地址作為種子URL 列表。
(2)一方面,根據(jù)種子URL 和待采集URL 隊列信息,網(wǎng)頁采集模塊進行相關(guān)URL 網(wǎng)頁內(nèi)容的抓取。另一方面,根據(jù)網(wǎng)頁標題和內(nèi)容等,網(wǎng)頁去重模塊去除重復(fù)的頁面,防止重復(fù)抓取情況發(fā)生。
(3)網(wǎng)頁匹配模塊根據(jù)URL 模式,從待抓取的URL 隊列中匹配對應(yīng)的待采集URL,添加到待采集隊列,并將URL 對應(yīng)的網(wǎng)頁下載下來,同時將這些URL 放進已抓取URL 隊列,將其他未抓取的URL 放入待抓取URL 隊列,從而進入下一個循環(huán)。
(4)對于上一步中,已經(jīng)抓取的內(nèi)容,網(wǎng)頁入庫模塊將抓取到的網(wǎng)頁內(nèi)容,有序存儲到本地MySQL 數(shù)據(jù)庫中。
由此經(jīng)過以上步驟的循環(huán),可抓取到目標網(wǎng)頁中的頁面內(nèi)容。
指代(Anaphora)在語言表達中起著簡化語言表述、銜接上下文信息的重要作用,是常見的語言表達現(xiàn)象[12]。在文字表達形式中,指代就是用一個代詞表示某個之前提到的語言單位,指代詞稱為照應(yīng)詞,所指的對象或內(nèi)容稱為先行詞,先行詞在照應(yīng)詞前面的情況稱作照應(yīng)關(guān)系,先行詞在照應(yīng)詞后面的情況稱作逆照應(yīng)關(guān)系。指代消解(Anaphora Resolution)的目的是為找出照應(yīng)詞與先行詞之詞的關(guān)系,從而找出照應(yīng)詞指代的對象或內(nèi)容[13],這種找出照應(yīng)詞的先行詞的過程叫做指代消解。
在求取結(jié)果的形式上,指代消解可以看成是一個分類或者聚類的過程。分類主要是判斷不同特征表達之間是否指向同一種類別特征, 聚類主要是判斷一個特征表達能否加入到某類特征的集合中。目前,指代消解大致可以分為兩類:實體指代消解(Entity Anaphora Resolution)與事件指代消解(Event Anaphora Resolution)。實體指代中先行詞和照應(yīng)詞都是客觀存在的實體,事件指代中先行詞和照應(yīng)詞是事件或事實等抽象性對象。目前指代消解的方法由很多,其中最常用的為基于有監(jiān)督的指代消解方法。如圖2 所示,基于有監(jiān)督的指代消解方法具體步驟介紹如下:
(1)輸入待消解的原始文本。
(2)對原始文本進行預(yù)處理,并抽取出需要進行指代消解的部分。
(3)進行特征選擇:獲取實體表達或事件表達的特征,對每個特征賦予不同的權(quán)重構(gòu)建特征向量。
(4)進行指代消解:首先選取部分數(shù)據(jù)構(gòu)建訓(xùn)練集,然后通過機器學(xué)習(xí)算法對訓(xùn)練集進行分類或聚類,最終得到分類模型。
(5)利用分類模型對測試集進行分類或聚類,獲取文本所有的共指鏈。
經(jīng)研究發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)可以有效用于處理NLP(Natural Language Processing)任務(wù)的句子內(nèi)的單詞之間的句法和語義等信息[14],池化(Pooling)是卷積神經(jīng)網(wǎng)絡(luò)中的一個重要的概念,用來進行句子降采樣處理。目前,有多種不同形式的非線性池化函數(shù),而其中最為常見的是“最大池化(Max Pooling)”,其將輸入的圖像劃分為若干個矩形區(qū)域,對每個子區(qū)域輸出最大值。為了提取每個特征圖中最大值,傳統(tǒng)的CNN 采用最大池化方法,即將一個特征映射作為一個池,并且每個特征圖只得到一個最大值,對整個句子的表示應(yīng)用最大操作以捕獲最有用的信息。
圖4:系統(tǒng)主要模塊
圖5:數(shù)據(jù)爬取流程
但是,在事件提取中,一個句子可能包含兩個或多個事件,并且這些事件可能共享具有不同角色的參數(shù),常規(guī)的CNN 不適用于多個事件在同一句子中的事件提取,因此需采用動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Multi-pooling Convolution Neural Network,DMCNN),來獲取句子每個部分的最大值,避免重要信息的丟失[15]。動態(tài)多池化即根據(jù)參數(shù)分類階段中的候選參數(shù)和預(yù)測觸發(fā)器將每個特征映射分成多個部分,保留每個拆分部分的最大值,而不是使用整個特征映射的一個最大值來表示句子。與傳統(tǒng)的最大池相比,動態(tài)多池化可以在不丟失最大池化值的情況下保留更多有價值的信息。最大池化與動態(tài)多池化特征選擇如圖3 所示。最大池化中3 個特征序列皆直接選取一個序列中的最大值Max(c1)、Max(c2)、Max(c3)作為特征,而動態(tài)多池化中根據(jù)特征序列情況,分別選取序列中不同部分的最大值作為特征,例如特征序列1 選取Max(c11)、Max(c12)作為特征。
本文中事情報分析系統(tǒng)主要模塊有3 大部分:數(shù)據(jù)爬取模塊、文本結(jié)構(gòu)化模塊、知識抽取模塊。首先數(shù)據(jù)爬取模塊主要進行數(shù)據(jù)爬取、數(shù)據(jù)清洗工作,獲得原始網(wǎng)頁文本;然后文本結(jié)構(gòu)化模塊對原始網(wǎng)頁文本進行主題分類和分句處理,得到結(jié)構(gòu)化文本;最后知識抽取模塊對結(jié)構(gòu)化文本進行指代消解、命名實體識別、知識抽取,由此獲得了船名、事件、時間、地點等情報結(jié)果。系統(tǒng)主要模塊如圖4 所示,接下來將對每一模塊進行詳細介紹。
數(shù)據(jù)爬取模塊主要分為兩大部分:數(shù)據(jù)爬取、數(shù)據(jù)清洗。
數(shù)據(jù)爬取中選取了6 個開源軍事網(wǎng)站為數(shù)據(jù)來源網(wǎng)站,網(wǎng)站中皆包含有大量的美海軍水面艦船相關(guān)新聞,人工收集需耗費大量的人力物力,因此可以運用爬蟲程序,進行自動化的數(shù)據(jù)爬取。來源網(wǎng)站名稱和具體網(wǎng)址如表1 所示。
圖6:主題分類流程
圖7:事件指代消解基本框架
數(shù)據(jù)爬取采用了BeautifulSoup 框架,以及正則匹配函數(shù)庫,不同網(wǎng)站的頁面結(jié)構(gòu)雖然有所不同,但數(shù)據(jù)爬取流程大致相同,主要經(jīng)過兩大步驟:網(wǎng)頁爬取、頁面解析,即可得到原始網(wǎng)頁文本。此過程中主要解決兩個問題:動態(tài)頁面加載、周期爬取。一方面,Naval Technology 為動態(tài)頁面,而 BeautifulSoup 不能獲取動態(tài)頁面中的完整網(wǎng)頁信息,因此運用selenium+webdriver 解決動態(tài)頁面的動態(tài)加載問題。另一方面,以上6 個軍事網(wǎng)站均會定時更新新聞內(nèi)容,因此需在爬蟲程序中設(shè)定周期爬取功能,以便能長期進行周期數(shù)據(jù)爬取,獲得最新進展內(nèi)容。根據(jù)目標軍事網(wǎng)站的更新頻率,Naval Technology 爬蟲周期設(shè)定為7 天,其他網(wǎng)站爬蟲周期為1 天。當(dāng)?shù)竭_周期時間時,爬蟲程序?qū)⒆詣舆M行數(shù)據(jù)爬取,具體爬取流程如圖5 所示。
表1:數(shù)據(jù)來源網(wǎng)站
表2:主題分類測試結(jié)果
表3:命名實體識別測試結(jié)果
表4:知識抽取測試結(jié)果
爬取下來的數(shù)據(jù)并不能夠直接使用,需要對其進一步清洗。數(shù)據(jù)清洗將爬取得到的雜亂數(shù)據(jù)清理為簡潔有效的干凈數(shù)據(jù),節(jié)約了存儲空間、提升了后續(xù)處理的效率。本模塊中主要解決了兩個問題。其中一個問題是原始頁面含有大量的噪聲數(shù)據(jù),例如Web 標簽、廣告信息、頁面彈窗和其他非新聞?wù)膬?nèi)容的其他數(shù)據(jù)等。因此,在對文本新聞內(nèi)容進行數(shù)據(jù)處理之前,先過濾掉頁面廣告、彈出窗口等不相關(guān)信息,將Web 頁面轉(zhuǎn)化成為不含噪音信息的統(tǒng)一的文本數(shù)據(jù)。另一個問題是頁面編碼不一致,如今全球使用計算機的范圍十分廣泛,計算機發(fā)展時間也十分久遠,導(dǎo)致計算機存儲數(shù)據(jù)采用的編碼格式有許多種類,例如ASCII、UTF-8、GBK 等等,在對文本進行去噪的同時,將所有文本的編碼格式統(tǒng)一轉(zhuǎn)換為UTF-8 格式。
本模塊選用基于NLP 的英文文本結(jié)構(gòu)化技術(shù),對上一模塊獲得的原始網(wǎng)頁文本進行文本結(jié)構(gòu)化(Text Structuration)處理,以獲得結(jié)構(gòu)化文本。主要思路是:首先對獲取的原始網(wǎng)頁文本進行主題分類,獲得主題為美海軍的目標文本;然后利用NLP 的工具包,對獲得的文本進行分句處理,得到結(jié)構(gòu)化文本。
在爬取的網(wǎng)站中,JANES(簡氏防務(wù)周刊網(wǎng)站)、NAVAL technology(海軍技術(shù)雜志網(wǎng)站)的內(nèi)容為世界各國軍事信息,Defense News(美國防務(wù)新聞網(wǎng))、Breaking Defense(國防快報網(wǎng))含有美國海陸空等軍事信息。因此,在爬取到原始文本后,需要對其進行主題分類,以求獲得主題為美海軍的新聞文本。
一般,根據(jù)預(yù)定義的類別不同,主題分類可以分為兩種:兩類分類和多類分類。本模塊中為多類分類,即將所有原始文本分“美海軍”、“美陸軍”、“美空軍”、“美火箭軍”、“他國軍隊”“軍事評論”、“其他”。進行主題分類后,獲得僅和美國海軍相關(guān)的原始網(wǎng)頁文本。
本模塊采用有監(jiān)督分類方法對獲取的原始文本進行主題分類,主題分類的一般流程如圖6 所示。
首先按照9:1 的比例,將上一模塊獲得的原始文本隨機劃分為訓(xùn)練集和測試集;然后對測試集進行預(yù)處理以及表達為向量形式,接著進行特征選擇,建立分類模型,獲取分類標簽;最后對測試集進行與訓(xùn)練集一致操作獲得特征值后,利用訓(xùn)練所得標簽進行分類處理,獲得所有分類結(jié)果。最終,獲得了主題為美海軍的原始網(wǎng)頁文本。
經(jīng)過主題分類的網(wǎng)頁文本,需要提取出新聞中有用的信息。因此對新聞文本進行了分句處理,將文章切分成以句子為單位的文本,以句子為單位進行分析,可以提高后續(xù)提取效率與增強提取效果。
本模塊采用機器學(xué)習(xí)和決策樹相結(jié)合的方法來進行分句處理。機器學(xué)習(xí)方法主要是利用現(xiàn)有的數(shù)據(jù)處理的庫,例如自然語言處理中nltk 的sent_tokenize 庫,有較為成熟的分句程序,通過調(diào)用可以直接實現(xiàn)分句。決策樹是一個分類模型,代表的是需分類對象自身所具備的特性與其所屬類別之間的一種對應(yīng)關(guān)系,其本質(zhì)就是一系列的if-then-else 語句,其關(guān)鍵之處在于如何進行選擇特征,即如何制定if 語句里面的條件語句。決策樹方法分句思路即逐一檢查是否為分句點:首先檢查該詞之后是否有很多空白行;其次檢查最后一個標點是否是:? !等;然后檢查最后一個標點是否是 . ;最后檢查該詞是不是“etc”或其他縮寫詞,利用這些標點符號進行分句處理。由此得到結(jié)構(gòu)化文本。
知識抽?。↘nowledge Extraction)就是從描述目標知識的文本中抽取出所關(guān)注的知識信息并將其進行結(jié)構(gòu)化表示。本模塊中需要依次抽取出艦船名稱、活動事件、活動時間和活動海域等信息,以求獲得一個完整軍事活動的描述:某一艘艦船(在某個時間)(在某一片海域)進行了某種活動事件 。
本模塊中首先對上一模塊獲得的結(jié)構(gòu)化文本采用基于有監(jiān)督的機器學(xué)習(xí)方法進行事件指代消解處理;然后采用BiLSTM+CRF 網(wǎng)絡(luò)結(jié)構(gòu)模型進行命名實體識別;最后利用基于動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)進行知識抽取,由此得到最終情報分析結(jié)果。
指代消解主要分為兩個階段:訓(xùn)練階段、測試階段。在訓(xùn)練階段,首先對訓(xùn)練集進行預(yù)處理后抽取出需要進行指代消解的事件部分及其對應(yīng)的上下文信息;然后,一方面運用事件最小描述特征抽取獲得事件自身特征, 另一方面將事件進行配對, 運用事件關(guān)系描述特征抽取獲得事件間關(guān)系特征;最后對事件自身特征和事件間關(guān)系特征分別進行向量化處理, 并利用神經(jīng)網(wǎng)絡(luò)進行分類訓(xùn)練模型的構(gòu)建,由此訓(xùn)練階段完成。在測試階段,對測試集進行與訓(xùn)練環(huán)節(jié)一致處理,在分類訓(xùn)練模型的輔助下,借助神經(jīng)網(wǎng)絡(luò)進行事件分類。事件指代消解基本框架如圖7 所示。
圖8:命名實體識別結(jié)構(gòu)圖
圖9:知識抽取結(jié)構(gòu)圖
命名實體識別中,BiLSTM+CRF 結(jié)構(gòu)分為四層,具體結(jié)構(gòu)圖如圖8 所示。
(1)輸入層:通過詞向量訓(xùn)練獲取每個單詞的特征表示,作為特征序列輸入神經(jīng)網(wǎng)絡(luò),例如圖8 將“Nimitz was depolyed on the Black Sea.”每個單詞的詞向量序列通過Word Dict.Emb.match 作為輸入。
(2)隱藏層:采用雙向LSTM 網(wǎng)絡(luò),通過前向傳播與后向傳播進行兩次操作,前向傳播的LSTM 網(wǎng)絡(luò)可以有助于獲取上文信息,后向傳播的LSTM 網(wǎng)絡(luò)則用于獲取下文信息,例如獲取“Nimitz”前后文信息。雙向LSTM 相較于單向網(wǎng)絡(luò),可以更好地表達某個詞前后所有信息,更全面的獲取上下文信息。
(3)輸出層:將隱藏層前后向的LSTM 獲取的特征信息進行拼接,例如將進行拼接獲得新的特征信息。
(4)CRF 層: CRF 能夠利用轉(zhuǎn)移進行拼接獲得新的特征信息。
(4)CRF 層:CRF 能夠利用轉(zhuǎn)移特征考慮到標簽之間的順序性,獲得全局最優(yōu)的輸出序列。最終將“Nimitz”標記為“B-ShipName”, 將“Black”標記為“B-place”, 將“Sea”標記為“I-place”,即識別出了船名、地點實體。
知識抽取部分分為兩個階段的多分類任務(wù)。第一階段為觸發(fā)詞分類,利用DMCNN 模型對句子中的每個單詞進行識別,并判斷是否為觸發(fā)詞。若句子中包含了觸發(fā)詞,則進行第二階段,即論元分類,該階段使用類DMCNN 模型,對句中除觸發(fā)詞之外所有論元進行判別,識別與該觸發(fā)詞存在關(guān)系的論元以及該論元所扮演的論元角色。知識抽取模型結(jié)構(gòu)主要包括四部分,具體結(jié)構(gòu)如圖9 所示。
(1)詞嵌入學(xué)習(xí):通過無監(jiān)督詞向量訓(xùn)練獲得每個單詞的向量表示。
(2)詞匯級別特征學(xué)習(xí):輸入詞匯級特征,經(jīng)過命名識別處理,得到詞匯級特征。
(3)句子級別特征學(xué)習(xí):輸入句子級特征,經(jīng)過最大池化卷積神經(jīng)網(wǎng)絡(luò)計算,得到句子語義級別的特征。
(4)分類輸出:計算論元及論元角色得分,得到知識抽取結(jié)果。
對于系統(tǒng)的功能測試主要看系統(tǒng)主要模塊是否實現(xiàn)設(shè)定功能。在系統(tǒng)搭建成功以后,對每一模塊進行了功能測試,主要為進行抽取測試,計算精確率(Precision)、召回率(Recall)、F1 值,由此來判斷功能是否實現(xiàn)。
(1)數(shù)據(jù)爬取模塊中,六個網(wǎng)站皆實現(xiàn)了周期為1 天或7 天的周期性數(shù)據(jù)爬取。在為期14 天的時間內(nèi),分別進行了14 次或2次的數(shù)據(jù)爬取,共爬取數(shù)據(jù)532MB,共計181590 條,說明周期數(shù)據(jù)爬取功能實現(xiàn)。爬取數(shù)據(jù)以.txt 文本的形式,存入爬蟲程序根據(jù)爬取日期和數(shù)據(jù)來源網(wǎng)站分別建立的文件夾中。接下來用爬取的數(shù)據(jù)進行其他模塊功能的測試。
(2)文本結(jié)構(gòu)化模塊中,隨機選取部分數(shù)據(jù)進行主題分類結(jié)果檢測,預(yù)先設(shè)定的七類分類情況具體測試結(jié)果如表2 所示。
由表2 可以看出,模型在各個類別上的分類測試平均F1 值達到了91.8,且美海軍主題數(shù)據(jù)分類的F1 值達到了94.9,說明主題分類功能基本實現(xiàn),能夠滿足后續(xù)模塊的使用需求。
(3)知識抽取模塊中,隨機選取部分數(shù)據(jù)進行命名實體識別結(jié)果檢測,對BiLSTM+CRF 的超參數(shù)(隱藏層大小、LSTM 層數(shù)、batch size)進行調(diào)試,分別選取不同參數(shù)值做對比測試,具體測試結(jié)果如表3 所示。
由表3 可以看出,最終選取隱藏層大小為300,LSTM 層數(shù)為3,batch size 為100 時,可以獲取較好的命名實體識別效果。最終經(jīng)過測試,實體命名識別的結(jié)果為:精確率93.5%、召回率94.9%、F1值94.2%,說明命名實體識別功能基本實現(xiàn)。
對于需要抽取的四個目標知識,分別在數(shù)據(jù)集中隨機抽取部分數(shù)據(jù)作為測試集,進行了知識抽取效果測試,具體測試結(jié)果如表4所示。
其中,船名、事件、時間、地點的F1 值分別為89.7%、93.3%、91.7%、89.2%,說明知識抽取功能基本實現(xiàn),最終生成了軍事情報。
隨著大數(shù)據(jù)時代的到來,軍事情報分析面臨“數(shù)據(jù)超載”和“數(shù)據(jù)源結(jié)構(gòu)復(fù)雜化”兩大問題,利用先進的人工智能技術(shù)實現(xiàn)軍事情報的自動分析已成為必然趨勢。本文首先利用基于BeautifulSoup框架的網(wǎng)絡(luò)爬蟲技術(shù)進行數(shù)據(jù)爬取,然后利用NLP 技術(shù)進行文本結(jié)構(gòu)化處理,最后利用NLP 技術(shù)和卷積神經(jīng)網(wǎng)絡(luò)等技術(shù)進行知識抽取。經(jīng)過測試,最終知識抽取中船名、事件、時間、地點的F1值分別為89.7%、93.3%、91.7%、89.2%,獲得了較為可靠的最終情報。由此建立了一個集自動收集、處理、分析于一體的軍事情報分析系統(tǒng),對美海軍水面艦船的部分相關(guān)軍事活動進行了分析。這不僅可以提高對美海軍水面艦船相關(guān)活動情報研究的分析效率,為研究相關(guān)軍事情報提供了參考依據(jù),也可以為之后建立相關(guān)情報系統(tǒng)提供一種參考方法,供之后的學(xué)者進行相關(guān)研究。
但本軍事系統(tǒng)依然還有較多局限,例如:研究對象和軍事活動內(nèi)容單薄、知識抽取受限于在同一句中進行提取等。因此可以從以下兩方面進行后續(xù)研究:
(1)將研究對象從部分水面艦船擴大至全部現(xiàn)役的293 艘,將部分全壽期采辦事件列表擴大,增加更多軍事活動,使軍事情報分析系統(tǒng)研究范圍更加廣泛。
(2)對于多個句子共同描述同一事件的情況,可以利用依存語義分析或其他方法,從多個句子中進行同一事件的知識抽取。