馮俊池, 安豐亮, 尹黨輝
(軍事科學(xué)院系統(tǒng)工程研究院后勤科學(xué)與技術(shù)研究所, 北京 100071)
近年來,隨著數(shù)據(jù)的重要性與日俱增,各領(lǐng)域數(shù)據(jù)量迅速增長,如何有效利用數(shù)據(jù)、實現(xiàn)數(shù)據(jù)到知識的轉(zhuǎn)化,成為研究熱點。傳統(tǒng)關(guān)系型數(shù)據(jù)庫存在字段多、關(guān)聯(lián)復(fù)雜、查詢困難和呈現(xiàn)方式不直觀等缺點,而知識圖譜具備注重語義表達、機器可理解、關(guān)聯(lián)清晰、結(jié)構(gòu)靈活、查詢高效和可視化程度高等優(yōu)勢,通過語義網(wǎng)絡(luò)對現(xiàn)實世界的事物及其相互關(guān)系進行形式化地描述,將結(jié)構(gòu)化、非結(jié)構(gòu)化多源異構(gòu)信息孤島集成,提升應(yīng)用效能,實現(xiàn)數(shù)據(jù)增值[1]。
國防交通業(yè)務(wù)領(lǐng)域涉及規(guī)劃計劃、交通工程設(shè)施、運載工具、國防運輸、交通保障、物資儲備等多方面[2],領(lǐng)域范圍廣、數(shù)據(jù)來源多、形式復(fù)雜。借助知識圖譜的優(yōu)勢,實現(xiàn)分散孤立的數(shù)據(jù)到聚合關(guān)聯(lián)的知識轉(zhuǎn)化,可以深化數(shù)據(jù)資源利用,更好地為國防交通業(yè)務(wù)提供支撐保障。
隨著國防交通信息化及大數(shù)據(jù)建設(shè)的發(fā)展,鐵路、公路、水路、航空、通信、郵政等各行業(yè)信息系統(tǒng)越來越多,數(shù)據(jù)資源日益豐富,在數(shù)據(jù)處理利用方面面臨更大的挑戰(zhàn)。主要包括以下幾個方面:
(1)數(shù)據(jù)組織處理難。國防交通業(yè)務(wù)領(lǐng)域數(shù)據(jù)從內(nèi)容上,包括但不限于相對規(guī)范的業(yè)務(wù)表格數(shù)據(jù),通知、批復(fù)、報告等文件數(shù)據(jù),位置、軌跡等地理信息數(shù)據(jù),圖片、視頻等多媒體數(shù)據(jù);從來源上,包括業(yè)務(wù)信息系統(tǒng)、電子文件、網(wǎng)頁資源及外部信息系統(tǒng)等;從形式上,包括數(shù)據(jù)庫、文本、圖片、視頻、文件、超鏈接等多種形式;從類型上,涵蓋結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)及半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)資源具有典型的大數(shù)據(jù)特色[3],形式、來源復(fù)雜多樣,質(zhì)量水平參差不齊,有效組織形成體系比較困難。
(2)數(shù)據(jù)關(guān)聯(lián)融合難。國防交通業(yè)務(wù)范圍廣,彼此之間關(guān)聯(lián)關(guān)系復(fù)雜,機構(gòu)、人員、運力、設(shè)施設(shè)備、地理位置等對象之間彼此均相互關(guān)聯(lián),例如特定路段的轉(zhuǎn)彎半徑會限制運輸車輛通行,從而影響特定裝備的運輸路線。如何將數(shù)據(jù)有機整合實現(xiàn)關(guān)聯(lián)搜索查詢存在困難。
(3)數(shù)據(jù)挖掘利用難。數(shù)據(jù)存儲以傳統(tǒng)數(shù)據(jù)庫形式為主,且大量數(shù)據(jù)以文檔等非結(jié)構(gòu)化形式存在,呈現(xiàn)方式不直觀、數(shù)據(jù)分析困難,無法有效利用。
通過采用知識圖譜技術(shù),可整合大量分散孤立的異構(gòu)數(shù)據(jù),將國防交通領(lǐng)域的業(yè)務(wù)數(shù)據(jù)庫結(jié)構(gòu)化數(shù)據(jù)以及文件、圖像、視頻等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進行融合,并根據(jù)真實世界的實體、屬性、關(guān)系進行建模,建立語義層面關(guān)聯(lián);在搜索查詢中識別搜索內(nèi)容為知識圖譜中的實體,并根據(jù)實體的類別、關(guān)系及相關(guān)性等信息找到關(guān)聯(lián)的實體,實現(xiàn)精確化及關(guān)聯(lián)查詢;通過以人類認知為基礎(chǔ)的可視化技術(shù),以圖形方式清晰高效地展現(xiàn)數(shù)據(jù),支持開展交互探索式分析,深化數(shù)據(jù)資源挖掘利用。
從內(nèi)容與適用范圍角度,知識圖譜主要包括通用知識圖譜和領(lǐng)域(行業(yè))知識圖譜二類。通用知識圖譜注重廣度,面向全領(lǐng)域;而領(lǐng)域知識圖譜則面向特定領(lǐng)域,注重深度,通常涵蓋更細粒度的知識,且對質(zhì)量有著更為苛刻的要求,在構(gòu)建過程中專家參與的程度較高,計算操作和應(yīng)用較通用知識圖譜也相對復(fù)雜。針對國防交通業(yè)務(wù)領(lǐng)域建立的知識圖譜則是典型的領(lǐng)域知識圖譜,其整體框架如圖1所示,主要包括知識來源、知識表示、知識獲取、知識融合、知識存儲和知識應(yīng)用6個層次。
圖1 國防交通領(lǐng)域知識圖譜整體框架
針對來源不同、接入方式不同的異構(gòu)數(shù)據(jù)進行統(tǒng)一的集成與管理[4],為后續(xù)數(shù)據(jù)處理提供統(tǒng)一入口。首先通過數(shù)據(jù)接入接口,針對不同格式、結(jié)構(gòu)、規(guī)范、來源的數(shù)據(jù)進行數(shù)據(jù)匯聚;然后開展初步數(shù)據(jù)清洗,主要針對一些特定的常用字段類型設(shè)定規(guī)則,如時間、標準代碼等,對將要進行存儲的數(shù)據(jù)進行預(yù)處理;最后根據(jù)數(shù)據(jù)資源分類體系進行數(shù)據(jù)存儲,并為后續(xù)數(shù)據(jù)向知識的轉(zhuǎn)化提供數(shù)據(jù)訪問接口。
知識表示將國防交通業(yè)務(wù)相關(guān)概念進行形式化表示,為數(shù)據(jù)建立統(tǒng)一標準,形成領(lǐng)域知識圖譜的概念層。以國防交通業(yè)務(wù)頂層為例,國防交通主要活動可分為國防交通規(guī)劃、國防交通工程設(shè)施、民用運載工具、國防交通物資儲備、國防運輸和國防交通保障;行業(yè)領(lǐng)域可分為鐵路、公路、水路、航空、管道和郵政;涉及單位主要包括國防交通主管機構(gòu)、有關(guān)軍事機關(guān)、政府交通主管部門和交通企業(yè)事業(yè)單位等。以具體業(yè)務(wù)運載工具管理中的船舶為例,其屬性包括船舶類型、船舶名稱、唯一識別號、載重等,與之相關(guān)聯(lián)的包括管理使用單位、建造單位等。
知識獲取是將數(shù)據(jù)轉(zhuǎn)化為知識即建立知識圖譜數(shù)據(jù)層的主要過程,將較低語義層次、多種采集和描述規(guī)格、質(zhì)量參差不齊的數(shù)據(jù)處理為高語義層次、規(guī)范統(tǒng)一、高質(zhì)量的數(shù)據(jù)。主要通過數(shù)據(jù)抽取轉(zhuǎn)換、機器學(xué)習、深度學(xué)習等技術(shù),將數(shù)據(jù)轉(zhuǎn)換為實體、屬性以及實體間相互關(guān)系的三元組,如國防交通專業(yè)保障隊伍實體,包括人員數(shù)量、裝備數(shù)量、所在位置等屬性,其與國防交通工程設(shè)施存在保障與被保障的關(guān)系。
知識融合指融合來自不同數(shù)據(jù)源的關(guān)于同一個實體或概念的描述信息,實現(xiàn)多源數(shù)據(jù)下知識的整合和消歧。通過知識抽取得到的國防交通領(lǐng)域?qū)嶓w、屬性等內(nèi)容來自不同數(shù)據(jù)源,其中包含大量的冗余和錯誤信息,如業(yè)務(wù)系統(tǒng)中的交通設(shè)施等數(shù)據(jù)和外部來源中的數(shù)據(jù)會存在重復(fù)和分歧,同一設(shè)施之間也未關(guān)聯(lián),形成的知識子圖互相獨立,缺乏層次性和邏輯性,需要經(jīng)過清理和整合匯聚形成知識圖譜。
國防交通領(lǐng)域知識圖譜由互相關(guān)聯(lián)的實體形成的圖結(jié)構(gòu)組成,采用圖數(shù)據(jù)庫Neo4j作為知識存儲的主要數(shù)據(jù)庫,可以簡單快速地檢索難以在關(guān)系數(shù)據(jù)庫系統(tǒng)中建模的復(fù)雜層次結(jié)構(gòu),具有嵌入式、高性能、輕量級等優(yōu)勢。此外,業(yè)務(wù)過程中產(chǎn)生的文檔數(shù)據(jù)可采用MongoDB文檔型數(shù)據(jù)庫存儲,交通工程設(shè)施、運載工具、交通保障任務(wù)等相關(guān)圖片、視頻非結(jié)構(gòu)化數(shù)據(jù)則依賴HDFS存儲,通過知識圖譜實體屬性中的鏈接形式實現(xiàn)訪問。關(guān)系數(shù)據(jù)庫主要用于支撐知識圖譜平臺軟件的運行,以及存儲概念和實體的基本信息等相對固定的數(shù)據(jù)。
知識應(yīng)用層對軟件系統(tǒng)或用戶提供知識圖譜應(yīng)用接口,包括語義搜索、查詢推薦、智能問答、數(shù)據(jù)分析、圖譜可視化等。用戶可使用圖形界面訪問相應(yīng)功能,精確查詢相關(guān)業(yè)務(wù)知識,獲取國防交通保障所需資源,并根據(jù)業(yè)務(wù)之間關(guān)聯(lián)以圖形化方式跳轉(zhuǎn)瀏覽相關(guān)內(nèi)容,以可視化分析手段實現(xiàn)資源與需求匹配。同時,借助提供的應(yīng)用訪問接口API,相關(guān)軟件系統(tǒng)可快速集成圖譜所提供的功能,從而利用領(lǐng)域知識提升業(yè)務(wù)保障支撐能力。
知識圖譜構(gòu)建從數(shù)據(jù)源開始,包括領(lǐng)域本體創(chuàng)建、知識獲取、知識融合、知識存儲、圖譜繪制等步驟,如圖2所示。原始數(shù)據(jù)通過人工及自動化方式建立領(lǐng)域本體,在知識獲取階段將數(shù)據(jù)轉(zhuǎn)換為三元組形式,經(jīng)過融合及存儲,形成知識圖譜;圖譜繪制階段將知識以圖的形式表示,以實體作為節(jié)點、關(guān)系作為邊,可視化展現(xiàn)實體及關(guān)系。
圖2 國防交通領(lǐng)域知識圖譜構(gòu)建流程
領(lǐng)域本體描述國防交通領(lǐng)域內(nèi)實體概念及相互關(guān)系,作為知識圖譜的概念層,明確知識結(jié)構(gòu),避免構(gòu)建過程中出現(xiàn)過多冗余和錯誤。本體構(gòu)建中涉及的相關(guān)概念有:類、對象、屬性,屬性又分為對象屬性和數(shù)據(jù)屬性。類代表了個體的集合,與面向?qū)ο笤O(shè)計中的概念相似,類通過由父類和子類構(gòu)成的結(jié)構(gòu)層次圖表達。對象(實體)則是類的實例,對應(yīng)著現(xiàn)實世界事物。屬性具有指定的域和范圍,并將其關(guān)聯(lián),對應(yīng)到三元組即是<域,屬性,范圍>。對象屬性表達類之間的關(guān)聯(lián)關(guān)系,域和范圍均為類,如管理屬性,涉及交通工程設(shè)施和單位兩個類,代表交通工程設(shè)施由單位管理的關(guān)系。數(shù)據(jù)屬性表達某個類所具有的屬性及值,范圍一般為值域,如車輛的長度屬性,范圍則為一定區(qū)間的正整數(shù)。
本體構(gòu)建主要有兩種方法:一是利用現(xiàn)有文獻和領(lǐng)域?qū)<业谋尘爸R用手動方式創(chuàng)建概念和關(guān)聯(lián)形成數(shù)據(jù)模式;二是基于行業(yè)標準進行轉(zhuǎn)換或者從現(xiàn)有的高質(zhì)量行業(yè)數(shù)據(jù)源中進行映射[5]。針對國防交通領(lǐng)域知識圖譜本體,采取兩者結(jié)合的方式,針對頂層概念,在領(lǐng)域?qū)<业膸椭?,基于領(lǐng)域概念知識,通過人工建模的方法構(gòu)建;針對數(shù)據(jù)規(guī)范化程度較高的具體業(yè)務(wù)對象,通過數(shù)據(jù)庫表結(jié)構(gòu)映射到類和屬性,以自動化或半自動化方式構(gòu)建本體。
本體構(gòu)建可采用本體構(gòu)建工具Protégé輔助進行[6],如圖3所示,其中展示了國防交通領(lǐng)域部分頂層概念,包括國防交通規(guī)劃、交通工程設(shè)施、民用運載工具、單位和機構(gòu)、國防交通儲備物資等。其中,交通工程設(shè)施包括國防交通工程設(shè)施和其他交通工程設(shè)施2個子類,相關(guān)屬性有管理單位、地點位置、設(shè)施類型、保障能力,管理單位為對象屬性,與單位和機構(gòu)相關(guān)聯(lián);單位和機構(gòu)則包括國防交通主管機構(gòu)、有關(guān)軍事機關(guān)、政府交通主管部門和交通企業(yè)事業(yè)單位等子類;國防交通物資儲備相關(guān)屬性則包括管理單位、物資類型、物資名稱、儲備地點、技術(shù)參數(shù)、數(shù)量等。
圖3 國防交通領(lǐng)域本體編輯
針對結(jié)構(gòu)化數(shù)據(jù),以關(guān)系數(shù)據(jù)庫表中的船舶基本信息為例,通過自動提取數(shù)據(jù)結(jié)構(gòu),以表的主題作為類,與外表關(guān)聯(lián)字段作為對象屬性,其他字段作為數(shù)據(jù)屬性,依據(jù)字段數(shù)據(jù)類型確定屬性值域范圍,構(gòu)建船舶本體如圖4所示。
圖4 船舶本體
知識獲取過程依據(jù)本體,將數(shù)據(jù)轉(zhuǎn)換處理形成三元組。處理的關(guān)鍵內(nèi)容是“實體—關(guān)系—實體”和“實體—屬性—值”三元組的構(gòu)建。根據(jù)知識來源的不同,分為數(shù)據(jù)抽取轉(zhuǎn)換、包裝器適配、自然語言處理三種方式。
3.2.1 數(shù)據(jù)抽取轉(zhuǎn)換
針對國防交通領(lǐng)域已有業(yè)務(wù)信息系統(tǒng)或引接外部信息系統(tǒng)中的關(guān)系型數(shù)據(jù),可通過基于規(guī)則的數(shù)據(jù)抽取轉(zhuǎn)換實現(xiàn)數(shù)據(jù)記錄到實體、實體間關(guān)系及實體屬性的映射,從關(guān)系表中快速提取信息。以3.1節(jié)中的船舶基本信息表為例,根據(jù)建立的船舶本體模型,可將指定字段的數(shù)據(jù)內(nèi)容與本體自動對應(yīng)提取,并生成三元組。
3.2.2 包裝器適配
針對相關(guān)行業(yè)外部資源和業(yè)務(wù)網(wǎng)站中的HTML、XML等半結(jié)構(gòu)化數(shù)據(jù),其內(nèi)容格式相對固定,可使用包裝器適配方法,針對同一類模板設(shè)計實現(xiàn)數(shù)據(jù)提取工具,實現(xiàn)數(shù)據(jù)的自動提取。
3.2.3 自然語言處理
從業(yè)務(wù)工作中產(chǎn)生的大量文本等非結(jié)構(gòu)化數(shù)據(jù)中獲取知識則包括命名實體識別、關(guān)系抽取、屬性抽取等過程,其中涉及分詞、詞性標注、語義解析、語義角色標注、語義相似度計算等自然語言處理技術(shù),主要采用機器學(xué)習、深度學(xué)習等方法實現(xiàn)。
知識融合主要包括實體對齊、實體鏈接、屬性融合、值規(guī)范化等。實體對齊識別不同來源、語義相同的實體并進行合并,例如根據(jù)船舶名稱或唯一識別號,將戰(zhàn)略投送支援隊伍中的船舶與船舶基本信息表中的船舶進行一一對應(yīng),實現(xiàn)邏輯關(guān)聯(lián)。實體鏈接則將文本中抽取得到的實體對象,鏈接到知識庫中已有的對應(yīng)實體。屬性融合識別同一屬性的不同描述,如船舶總長和船舶長度,并進行合并。值規(guī)范化針對不同來源、不同格式的數(shù)據(jù)值或者不同的描述形式,進行統(tǒng)一規(guī)范。
知識圖譜形成后,隨著新數(shù)據(jù)的不斷出現(xiàn),需要獲取新知識融合到原有圖譜中,即對知識進行迭代更新。知識更新包括概念層更新和數(shù)據(jù)層更新,主要采用增量更新的方式,以當前的新增數(shù)據(jù)作為輸入,向現(xiàn)有的知識圖譜中添加新增知識,相對于全面更新對于資源消耗更少,更新所需的時間更短。
通過將業(yè)務(wù)實體有機關(guān)聯(lián),知識圖譜可以提高用戶搜索的深度和廣度,展現(xiàn)更加詳細全面的信息。例如在查詢某一道路的基本信息時,根據(jù)轉(zhuǎn)彎半徑屬性,可查看受其影響無法通行的車輛類別,并通過車輛運輸裝備情況了解哪些裝備無法通行此路段,此外還可以瀏覽查看通行受限時相關(guān)處理措施等業(yè)務(wù)知識內(nèi)容;在針對港口設(shè)施信息的查詢中,不僅能查詢到指定港口設(shè)施的屬性信息,還可以通過關(guān)聯(lián)關(guān)系展現(xiàn)管理單位、周邊進出道路、保障力量分布、船舶??壳闆r、視頻多媒體資料等相關(guān)內(nèi)容,使用戶獲取信息路徑更短,更有助于發(fā)現(xiàn)有用信息。
領(lǐng)域知識圖譜將國防交通各業(yè)務(wù)及外部資源相關(guān)知識深度關(guān)聯(lián),融合各方面要素信息,通過語義鏈接實現(xiàn)對業(yè)務(wù)的智能理解,從知識體系中系統(tǒng)挖掘關(guān)鍵內(nèi)容,提高分析的精確度和可行性。如針對交通保障任務(wù)需求,根據(jù)數(shù)據(jù)資源和業(yè)務(wù)規(guī)則相關(guān)知識,可以輔助分析所需保障人員、物資、車輛、設(shè)施設(shè)備等方面要求,供業(yè)務(wù)人員參考。
通過實現(xiàn)基于知識圖譜的業(yè)務(wù)智能問答,可將用戶的問題理解轉(zhuǎn)化為對知識圖譜的查詢,提供用戶所關(guān)心的問題答案,提高準確率。以查詢內(nèi)容為“XX型裝備運輸保障”為例,通過問題識別進行深層次的知識挖掘與提煉,反饋該型裝備性能參數(shù)、運輸要求、對人員車輛需求以及相關(guān)保障方案、歷史案例等數(shù)據(jù),如加上任務(wù)地域等詳細信息,則會進一步聚焦包括道路情況、周邊可利用資源等內(nèi)容,為實際保障業(yè)務(wù)提供智能輔助。
知識圖譜提供了圖形化的數(shù)據(jù)表示形式,分類整理的結(jié)構(gòu)化知識符合人類認知,更易于業(yè)務(wù)人員理解和選擇需求目標,并可在總體全局和具體對象視角切換,同時支持以交互探索式分析方式進一步挖掘、搜索,通過業(yè)務(wù)對象實體之間的關(guān)聯(lián),挖掘隱含知識。以查看儲備倉庫實體數(shù)據(jù)為例,業(yè)務(wù)人員以可視化方式瀏覽其地理位置、人員情況、交通情況、物資儲備等信息,并可查看全部倉庫總體情況、關(guān)聯(lián)對比其他類似倉庫,有助于從倉庫布局、儲備物資類別及數(shù)質(zhì)量分布等角度發(fā)現(xiàn)存在的問題,從而從現(xiàn)有知識中發(fā)掘新的關(guān)注點來改進提升業(yè)務(wù)。
知識圖譜技術(shù)實現(xiàn)由數(shù)據(jù)到知識的轉(zhuǎn)化,能夠有效利用數(shù)據(jù)資源,提升業(yè)務(wù)智能決策水平,在國防交通領(lǐng)域具有重要價值。本文提出的框架及構(gòu)建流程方法可為國防交通領(lǐng)域知識圖譜建設(shè)提供參考。下一步將針對其中涉及的文本數(shù)據(jù)實體識別等關(guān)鍵技術(shù)點開展深入研究,提高知識圖譜構(gòu)建效率和準確性。