陳渠++凌衛(wèi)青++王堅
摘要:數據是一種參與企業(yè)經濟活動的經濟資源,是企業(yè)無形、有價值的核心資產。但是企業(yè)高層管理人員并未充分利用這些資產,原因在于數據缺乏準確性、一致性、相關性。該文將本體應用于企業(yè)運營數據治理中,通過構建企業(yè)領域本體模型,來對企業(yè)信息資源進行統(tǒng)一的語義描述,并建立資源間的語義相關性,最后將信息系統(tǒng)產生的實例數據與本體模型進行映射,生成RDF數據,從而實現(xiàn)對企業(yè)運營數據的治理。該文主要以企業(yè)領域本體中的物料為例進行實現(xiàn)與展示。
關鍵詞:數據治理;本體模型;RDF數據
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)03-0001-03
Enterprise Information Integration Based on Ontology
CHEN Qu, LING Wei-qing, WANG Jian
(CIMS Research Center, Tongji University, Shanghai 201804, China)
Abstract: Data is a kind of economic resources to participate in economic activities of enterprises, is the enterprise of intangible and valuable core assets. However, senior management did not make the best use of these assets because of the lack of accuracy, consistency, and relevance of the data. In this paper, the ontology is applied to enterprise operation data management, and the enterprise domain ontology model is constructed to describe the enterprise information resource semantically and establish semantic relevance among resources. Finally, the instance data generated by the information system is carried on with the ontology model Mapping, generate RDF data, in order to achieve business data management. In this paper, the enterprise domain ontology in the material as an example to achieve and display.
Key words: Data Governance; ontology model; RDF data
目前,隨著互聯(lián)網技術的飛速發(fā)展,我國大中型企業(yè)的信息化程度也逐步提高,企業(yè)開始廣泛使用各種管理信息系統(tǒng),使企業(yè)積累了大量的信息資源,然而由于各個信息系統(tǒng)缺乏對領域信息的統(tǒng)一規(guī)劃和頂層設計,信息資源的數據類型具有多樣性。同時各個信息系統(tǒng)產生的數據存在準確性、一致性、相關性等問題,這些因素已經成為企業(yè)在信息化與業(yè)務深度融合過程中的關鍵制約因素。本文將使用本體技術對企業(yè)運營數據進行治理。本體的目標是捕獲相關領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的概念,并從不同層次的形式化模式上給出這些概念和概念間關系的明確定義。文中把本體理論引入企業(yè)建模領域,構建企業(yè)領域本體,從而有效解決數據的準確性、一致性、相關性等問題,實現(xiàn)對企業(yè)運營數據治理。
1 本體論
本體是共享概念模型的明確的形式化規(guī)范說明,能夠澄清領域知識的結構,獲得統(tǒng)一的術語和概念,使數據通過本體語言上升為知識,并使知識的共享成為可能。隨著本體研究的發(fā)展,本體已逐漸應用于企業(yè)建模領域中,來對企業(yè)信息資源進行數據治理。目前,較為著名的研究有英國愛丁堡大學的Enterprise項目,加拿大多倫多大學的TOVE本體論等。另外,由于本體作為重要的知識組織系統(tǒng),在知識管理、信息服務、人工智能等方面發(fā)揮著重要作用。
1.1 本體的定義
本體一詞來源于哲學,在哲學中是對存在本質的研究。但是,目前本體成為計算機科學領域引進的許多單詞之一,并且被賦予了一個與原始含義截然不同的具體技術含義。本體以從概念的角度描述客觀領域世界為目的,目前已發(fā)展為六元組的形式:Ontology={C,AC,R,AR,H,X},其中C表示本體的有關概念集,是領域中的重要概念;表示基于各概念的屬性集;R表示概念間的關聯(lián)關系集合;表示各關聯(lián)關系的屬性集;H表示基于概念集C的層級關系,表示父類與子類關系;X表示公理集,其中的每一公理表示基于概念屬性間、關聯(lián)關系屬性間和概念對象間的約束。
1.2 本體描述語言
RDFS是一種基本的本體語言,是一種詞匯表描述語言,用來描述RDF資源的類和屬性,以及類層次和屬性層次的泛化語義以及屬性定義域和值域的定義。OWL(Web Ontology Language)是W3C推薦的本體描述語言,作為RDFS的擴展,是一種描述屬性和類的更豐富的詞匯描述語言,例如類之間的關聯(lián)關系(比如不相交性)、基數(比如恰好等于1)、相等、更豐富的屬性類型定義等
1.3 本體構建方法
本體開發(fā)方法很多,目前具有代表性的本體構建方法包括骨架法 、TOVE法、IDEF5法、斯坦福七步法、五步循環(huán)、METHONTOLOGY法、KACTUS法、SENSUS法和循環(huán)獲取法。骨架法、TOVE法和IDEF5法是用于描述和獲取企業(yè)本體的方法,它們主要區(qū)別在于:骨架法是基于流程導向的構建方法,它只提供開發(fā)本體的指導方針;TOVE法是專用于構建關于企業(yè)建模過程中的知識本體;而IDEF5法可通過提供圖表語言和細化說明來構建企業(yè)領域的本體。METHONTOLOGY法、KACTUS法、SENSUS法和斯坦福七步法,主要用于構建領域知識本體,它們不同之處是:METHONTOLOGY法是專用于構建化學知識本體;KACTUS法主要是對已有本體的提煉、擴展,主要用于解決知識復用的問題;SENSUS法遵循自上而下的層級結構,可操作性較強;斯坦福七步法是基于本體構建工具Protégé的本體構建方法,目前應用廣泛。本文主要參考斯坦福七步法來構建本體模型,七步法構建流程如圖1所示。
2 關鍵技術研究
2.1 資源的統(tǒng)一語義描述
為了實現(xiàn)對資源的統(tǒng)一語義描述能力,本文采用RDF數據模型。RDF數據模型的基本構造為陳述,表述了一個主體-屬性-客體的三元組。OWL是構建在RDF之上的本體語言,用于對資源及資源之間關系的精確語義描述,從而對數據資源實現(xiàn)語義的描述框架、數據的語義、數據之間關系的表達。
2.2 本體模型的構建
圖2 本體模型構建流程
由于關系型數據庫的概念模型都基于現(xiàn)實世界的實體、屬性及其關系而構建,因而可以根據關系數據庫中數據字典信息以及關系模型來提取語義實體。語義實體提取及實體相關性建立的主要實現(xiàn)策略為根據關系型數據庫的數據字典信息和關系模型,獲得領域關系數據庫的模式信息,并從中抽取出候選的語義實體,再將抽取出的各種語義實體進行過濾和篩選,在過濾和篩選過程中需多次對已有的語義實體進行比較;語義實體篩選完畢后,最后根據企業(yè)領域知識對語義實體進行一致性檢測,并建立實體間的關聯(lián)關系,通過操作流程如圖2所示。
2.3 本體模型與實例數據的映射
為了實現(xiàn)實例數據的語義、實例數據之間關系的表達,需要對本體模型與實例數據進行映射,即將實例數據綁定到本體模型,形成RDF數據。D2R是其中一個非常流行的工具,它的作用是一個將關系型數據庫發(fā)布為RDF數據。使用D2RQ Mapping 語言手動編制映射文件,調用D2RQ Engine將本體模型與關系型數據庫中實例數據進行映射,生成RDF數據,操作流程如圖3所示。
圖3 本體模型與實例數據映射流程
在以上的操作流程中,關鍵步驟是映射文件編制。D2RQ Mapping 語言通過核心要素ClassMap、PropertyBridge 及Property,來將本體模型中的類,屬性,與數據表中的表名,列名進行映射。本體模型與關系模型的映射關系如表1所示。
表1 本體模型與關系模型的映射關系
[概念映射\&數據映射\&Ontology Model RDBMS\&Ontology Model RDBMS\&類\&實體\&主體,客體\&表\&數據屬性\&實體屬性\&謂詞-文本值\&列-元組\&對象屬性\&實體關系\&謂詞-客體\&關系名-表\&]
3 企業(yè)本體實現(xiàn)與展示
圖4 企業(yè)領域本體模型元實體
通過采用第二章節(jié)描述的語義實體提取及語義相關性建立技術,可以初步得到企業(yè)領域本體模型,該模型表達了企業(yè)領域中包含的實體及其相互關系,可通過開發(fā)工具Protégé 4.1來編輯實現(xiàn)企業(yè)領域本體模型的構建。在Protégé4.1本體開發(fā)環(huán)境下,依據企業(yè)領域本體模型中的元實體來定義相應的元類,其他子實體通過繼承、擴展元實體,以其子類形式展示,如圖4所示。
在領域本體中,我們將企業(yè)中的運營數據分為實體類與信息類,實體類下的子類有人員、資金、組織、設備、產品、物料、能源、環(huán)境、信息載體,信息類下的子類有人員信息、資金信息、組織信息、設備信息、產品信息、物料信息、能源信息、環(huán)境信息、信息載體信息,信息類是用來描述實體類的。下面以物料類展開,如圖5所示,可以看到物料類與企業(yè)中的哪些實體類和信息類有關聯(lián)。
圖5 物料類關聯(lián)圖
對信息類下的物料信息類的子類物料描述信息類進行展開,可通過圖6查看物料描述信息類的數據屬性,有物料號,語言代碼,物料描述。
圖6 物料描述信息類的數據屬性
通過采用本體模型與實例數據的映射技術,將本體模型與實例數據進行綁定,生成RDF數據。通過Protégé4.1查看RDF數據,如圖7所示,可以看到物料信息類的數據屬性所綁定的實例數據。
圖7 物料描述信息類的實例數據
4 結束語
本文探討了企業(yè)領域本體的構建方法和技術實現(xiàn),利用企業(yè)領域本體對企業(yè)的信息資源進行統(tǒng)一規(guī)劃,對建立關聯(lián)的數據提供統(tǒng)一風格的數據展現(xiàn)能力,對企業(yè)運營數據進行治理,有效解決企業(yè)運營數據的準確性、一致性、相關性等問題,促進企業(yè)的信息化與業(yè)務深度融合。由于企業(yè)領域涵蓋范圍廣,本文中構建的本體模型還需進一步細化和改進。另外,目前本體建立還沒有形成一種工程性的活動,建立本體時缺乏本體建模標準、指導原則和可操作性的方法來影響本體的重用、共享和互操作。這些都還需要不斷進行實踐和探索。
參考文獻:
[1] 王向前, 張寶隆, 李慧宗. 本體研究綜述[J]. 情報雜志, 2016(6): 163-170.
[2] The Enterprise Ontology[EB/OL]. [2016-03-20]. http://www.aiai.ed.ac.uk/project/enterprise/.
[3] 李曉輝, 李志祥, 李江. 基于本體的信息集成研究[J]. 河北省科學院學報, 2011(3): 38-42.
[4] 白海燕, 梁冰. 利用D2R實現(xiàn)關系數據庫與關聯(lián)數據的語義模式映射[J]. 現(xiàn)代圖書情報技術, 2011(Z1): 1-7.
[5] Bizer C.D2R MAP- A Database to RDF Mapping Language[EB/OL].[2011-06-12].http://www.wiwiss.fu-berlin.de/suhl/bizer/d2rmap/www2003-D2R-Map.pdf.
[6] 唐曉波, 田杰, 望俊成. 基于語義網技術的企業(yè)信息資源整合研究[J]. 情報理論與實踐, 2012(10): 42-46.
[7] 黃煙波, 張紅宇, 李建華, 等. 本體映射方法研究[J]. 計算機工程與應用, 2005(18):27-29,33.
[8] 向陽, 王敏, 馬強. 基于Jena的本體構建方法研究[J]. 計算機工程, 2007(14):59-61.