劉冬瑞,潘越,郭繼光
(中國(guó)電子科技集團(tuán)公司 電子科學(xué)研究院,北京100041)
軍事預(yù)警情報(bào)在戰(zhàn)爭(zhēng)中扮演著重要的角色。傳統(tǒng)戰(zhàn)爭(zhēng)過(guò)程中,首先圍繞情報(bào)的爭(zhēng)奪拉開(kāi)戰(zhàn)爭(zhēng)序幕[1]。隨著信息技術(shù)的飛速發(fā)展以及網(wǎng)絡(luò)的高度普及,軍事預(yù)警信息承載形式也發(fā)生了變革[2]。收集到的預(yù)警情報(bào)數(shù)據(jù)具有多元、復(fù)雜、無(wú)序和異構(gòu)等挑戰(zhàn),為軍事預(yù)警情報(bào)準(zhǔn)確定位及服務(wù)帶來(lái)巨大挑戰(zhàn),是情報(bào)工作者必須解決的問(wèn)題。使用本體技術(shù)能夠更加規(guī)范、完整地將情報(bào)內(nèi)容描述出來(lái),增強(qiáng)情報(bào)的透明度和共享性。
由于本體可以描述數(shù)據(jù)語(yǔ)義,所以在網(wǎng)絡(luò)或傳統(tǒng)數(shù)據(jù)庫(kù)中的任何數(shù)據(jù)都可以用本體來(lái)表示,使不同用戶可以進(jìn)行高效的數(shù)據(jù)交互,有效解決了預(yù)警情報(bào)信息共享和復(fù)用效率低的問(wèn)題。本體映射是解決異構(gòu)本體之間互操作的有效方法[3,4],是本體研究領(lǐng)域中的基礎(chǔ)性研究。
本文針對(duì)互聯(lián)網(wǎng)絡(luò)中的預(yù)警情報(bào)信息,使用本體技術(shù)描述預(yù)警情報(bào)的特征,為決定作戰(zhàn)決策提供輔助。并且結(jié)合LDA主題建模技術(shù),建立本體之間的映射依據(jù),提供自動(dòng)化本體映射的有利依據(jù),為研究本體構(gòu)建策略提供參考。
20世紀(jì)90年代以來(lái),以信息化為核心的軍事預(yù)警變革蓬勃發(fā)展,信息化武器裝備大量出現(xiàn)和廣泛運(yùn)用,信息作戰(zhàn)正成為一種全新的作戰(zhàn)樣式,信息化戰(zhàn)爭(zhēng)的核心之一就是情報(bào)戰(zhàn)。隨著現(xiàn)代技術(shù)在情報(bào)領(lǐng)域的運(yùn)用,軍事預(yù)警情報(bào)呈現(xiàn)出情報(bào)范圍廣泛、數(shù)據(jù)量大、保密性強(qiáng)、成為戰(zhàn)爭(zhēng)前沿等特性,增加了軍事預(yù)警情報(bào)搜集和使用的難度,針對(duì)這些特性研究者進(jìn)行了相關(guān)研究,包括實(shí)現(xiàn)了基于Web 軍事預(yù)警情報(bào)挖掘模型[5]、提出一種基于云計(jì)算架構(gòu)的四層軍事預(yù)警情報(bào)融合系統(tǒng)實(shí)現(xiàn)模型[6]、建立了基于本體的情報(bào)元數(shù)據(jù)模型等。
使用本體技術(shù)能夠有效解決情報(bào)信息共享和復(fù)用效率低的問(wèn)題,但由于本體本身具有分散性,不同用戶可以構(gòu)建不同本體,而導(dǎo)致在同一個(gè)領(lǐng)域產(chǎn)生了大量冗余的本體,出現(xiàn)本體異構(gòu)問(wèn)題。異構(gòu)的本體之間不能進(jìn)行互操作,用戶之間也不能進(jìn)行相互理解。本體映射能夠很好地解決本體異構(gòu)的問(wèn)題,為本體之間的互操作提供支撐。
目前本體理論在軍事情報(bào)領(lǐng)域當(dāng)中已經(jīng)有了相關(guān)的研究,如信息檢索、知識(shí)管理、信息服務(wù)等方面。基于本體的元數(shù)據(jù)思想引入軍事情報(bào)描述中,建立了用于描述軍事情報(bào)資源的元數(shù)據(jù)模型,能夠更加清楚地反映軍事情報(bào)資源所涵蓋的信息,提出了基于本體的情報(bào)需求滿足度計(jì)算方法,解決了海量軍事情報(bào)排序問(wèn)題,提出基于軍事訓(xùn)練本體的向量空間模型構(gòu)建方法,使用文檔相似度作為參考標(biāo)準(zhǔn),解決了語(yǔ)義相關(guān)問(wèn)題。
以上研究將本體技術(shù)應(yīng)用于軍事情報(bào)領(lǐng)域,在一定程度上提升了情報(bào)共享和信息檢索的效率。但本體自身帶有分散的特性,很多具有相似屬性的數(shù)據(jù)可能來(lái)自多個(gè)不同本體。由于本體的創(chuàng)建和建模方法不同,即使對(duì)同一領(lǐng)域內(nèi)數(shù)據(jù)的建模,不同專家開(kāi)發(fā)的本體也很可能存在差異,導(dǎo)致本體異構(gòu)問(wèn)題,限制了本體之間的互操作。本體映射可以有效解決本體異構(gòu)的問(wèn)題,從根本上解放本體互操作的限制,從而進(jìn)一步提升本體應(yīng)用價(jià)值。
本體異構(gòu)問(wèn)題已經(jīng)成為語(yǔ)義網(wǎng)所面臨的重要問(wèn)題之一,而本體映射能夠較好地解決本體異構(gòu)問(wèn)題。國(guó)內(nèi)外對(duì)本體映射較為統(tǒng)一的認(rèn)識(shí)是:“假設(shè)O1 和O2 兩個(gè)本體,用一種方式來(lái)映射本體O1 中的每一個(gè)概念,使其能在本體O2 中找到相應(yīng)的類或概念,反之亦然”。
近年來(lái),本體映射技術(shù)已經(jīng)成為一個(gè)研究的熱點(diǎn),許多國(guó)內(nèi)外研究者開(kāi)發(fā)出了不同的本體映射方法。例如:基于Schema 的本體映射方法、基于上層本體的映射方法、基于語(yǔ)義相似度的本體映射方法、基于機(jī)器學(xué)習(xí)的本體映射方法、組合映射方法等。
本文首先使用LDA 主題模型提取本體文本的主題,將文本主題詞作為本體的文本概念,通過(guò)比較不同文本概念的相似度,為確認(rèn)本體之間的映射關(guān)系提供依據(jù)。
最早在2003年,David M.Blei 等人提出LDA 主題模型。該模型的目標(biāo)是識(shí)別文檔中的主題詞集,根據(jù)詞集對(duì)文檔進(jìn)行分類。目前LDA 已經(jīng)廣泛應(yīng)用于文檔分類、人臉識(shí)別、信息演化分析等方面。本文結(jié)合LDA 和本體技術(shù),構(gòu)建語(yǔ)境情報(bào)領(lǐng)域內(nèi)容本體映射關(guān)系,為數(shù)據(jù)共享提供支撐。
本文對(duì)本體映射依據(jù)進(jìn)行研究,主要分為3 個(gè)步驟:
①根據(jù)專家經(jīng)驗(yàn)為本體添加描述性綜述文檔作為本體文本特征;
②抽取文本特征的主題信息,作為本體映射依據(jù);
③構(gòu)建本體映射依據(jù)的映射關(guān)系。
在構(gòu)建本體過(guò)程中,依靠專家經(jīng)驗(yàn),為每一個(gè)本體添加描述,作為本體的文本特征。在不解讀本體概念關(guān)系前,提供本體摘要性描述,該過(guò)程依賴于專家的經(jīng)驗(yàn)。
本文目標(biāo)給本體映射提供依據(jù),為實(shí)現(xiàn)自動(dòng)構(gòu)建本體映射關(guān)系提供支撐。所謂本體映射,是根據(jù)兩個(gè)本體O1、O2之中不同概念的相似度進(jìn)行比較,認(rèn)為概念相似度較大的本體屬于同一本體庫(kù)。給出本體O1和O2的映射過(guò)程:
①map:O1→O2;
②如果Sim(C1,C2)>ε,則map(C1)=C2,其中ε 是設(shè)定的閾值,C1∈O1,C2∈O2。
概念C1和C2的相似度sim<(C1,C2)如果高于閾值ε 時(shí),則建立O1和O2之間的映射關(guān)系,將異構(gòu)本體不同概念建立映射關(guān)系的過(guò)程轉(zhuǎn)化為概念語(yǔ)義相似度計(jì)算。如果本體庫(kù)中存在大量本體,構(gòu)建本體映射關(guān)系以前,首先要確定相似的本體集合。
為了提高映射的整體效率,對(duì)于待映射的本體概念,首先直接比對(duì)本體的文本主題詞集,如果相似度大于閾值ε,繼續(xù)建立映射關(guān)系,否則沒(méi)有映射關(guān)系,閾值ε 根據(jù)專家經(jīng)驗(yàn)給出,公式(1)表示如下:
使用Jaccard 相似度模型計(jì)算不同本體中不同主題詞集Ct1與Ct2的相似度,如公式(2)所示:
針對(duì)多本體之間構(gòu)建映射關(guān)系問(wèn)題,設(shè)計(jì)了適用于本體文本映射的算法,如算法1 所示。算法思想:在所有本體Os中,本體Oi之間的文本特征Ct進(jìn)行相似度比較,若相似度大于閾值ε,則對(duì)本體間的文本概念建立映射關(guān)系,繼續(xù)建立其
余概念映射關(guān)系。
算法1:
通過(guò)以上方法,能夠確認(rèn)本體之間的映射依據(jù)。在映射依據(jù)的基礎(chǔ)之上,對(duì)本體之間繼續(xù)構(gòu)建映射關(guān)系,提升多本體之間建立映射關(guān)系的效率。
表1 試驗(yàn)數(shù)據(jù)
本文選擇10 個(gè)有關(guān)預(yù)警情報(bào)特征的本體進(jìn)行試驗(yàn)。根據(jù)專家經(jīng)驗(yàn)為每個(gè)本體添加綜述性文檔特征,試驗(yàn)數(shù)據(jù)描述如表1 所示,其中每個(gè)文檔特征用一篇綜述性文章進(jìn)行表示。依照本體的構(gòu)建過(guò)程,本體3 與本體4 非常類似。
使用Mallet 主題建模工具提取每個(gè)本體文本特征的主題,設(shè)置主題個(gè)數(shù)為20。例如提取本體7 文檔特征的主題如下:model space vector training military ontology based construct revelance semantic representation text index problem solve VSM show results experimental reduction。
依照主題之間的相似度作為本體映射的依據(jù),選擇了本體1、3、5、7、9 的數(shù)據(jù)進(jìn)行顯示,如圖1 所示,其中橫軸表示10個(gè)本體,縱軸表示本體間文本概念相似度。明顯發(fā)現(xiàn)其中本體3 和本體4 的文本主題相似度達(dá)到50%,而其余本體之間的文本主題相似度均低于25%。說(shuō)明本體3 和本體4 具有映射依據(jù),很有可能是異構(gòu)的本體,應(yīng)該對(duì)其進(jìn)行本體映射處理。
圖1 本體映射依據(jù)
進(jìn)一步分析發(fā)現(xiàn),影響構(gòu)建映射依據(jù)有效性的原因可能有以下幾個(gè)方面:①根據(jù)專家經(jīng)驗(yàn)為本體添加文本概念,能夠在解析本提前對(duì)其進(jìn)行描述,為后期本體映射提供依據(jù)。但該文本概念還沒(méi)有固定的形式,依賴于專家的決策,直接影響到本體的映射依據(jù)。②LDA 提取到的主題,能夠?qū)ξ谋靖拍钸M(jìn)行較為準(zhǔn)確的描述。但字符數(shù)較多的文本概念無(wú)法用20 個(gè)主題進(jìn)行準(zhǔn)確表現(xiàn),因此LDA 提取的主題個(gè)數(shù)應(yīng)該隨著文本概念長(zhǎng)度的變化而變化,可以進(jìn)一步提升映射依據(jù)的準(zhǔn)確性。
本文在軍事預(yù)警情報(bào)領(lǐng)域當(dāng)中,使用本體相關(guān)技術(shù),提升軍事情報(bào)的共享和復(fù)用性。首先根據(jù)專家經(jīng)驗(yàn)為每一個(gè)本體添加文本概念,接著使用LDA 技術(shù)提取文本概念的主題,最后通過(guò)比較主題之間的相似度,為本體映射提供依據(jù)。試驗(yàn)選取了10 個(gè)預(yù)警情報(bào)領(lǐng)域的本體,經(jīng)驗(yàn)證發(fā)現(xiàn)本文所提方法能夠在多個(gè)本體映射之間,提供本體映射依據(jù),為本體之間自動(dòng)構(gòu)建映射關(guān)系提供支撐。