国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)系數(shù)據(jù)庫的油田領(lǐng)域數(shù)據(jù)質(zhì)量本體構(gòu)建

2016-08-08 08:21:09張曉冉
微型電腦應(yīng)用 2016年7期
關(guān)鍵詞:主鍵關(guān)系數(shù)據(jù)庫本體

張曉冉,舒 昝

?

基于關(guān)系數(shù)據(jù)庫的油田領(lǐng)域數(shù)據(jù)質(zhì)量本體構(gòu)建

張曉冉,舒昝

摘 要:為實現(xiàn)對油田數(shù)據(jù)質(zhì)量全方位、規(guī)范的描述,以石油領(lǐng)域的相關(guān)專業(yè)的數(shù)據(jù)為研究背景,借助于現(xiàn)代先進(jìn)的本體理論,基于已有的油田數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫資源,抽取出相關(guān)概念模型,再將概念模型轉(zhuǎn)換成 OWL 本體,嘗試構(gòu)建出集數(shù)據(jù)質(zhì)量管控于一體的規(guī)范的石油領(lǐng)域數(shù)據(jù)質(zhì)量本體模型。

關(guān)鍵詞:數(shù)據(jù)質(zhì)量本體構(gòu)建關(guān)系數(shù)據(jù)庫;OWL

0 引言

隨著企業(yè)對數(shù)據(jù)資源的重要性認(rèn)識的提高,企業(yè)均將數(shù)據(jù)當(dāng)作資產(chǎn)來看待,特別是近幾年,隨著大數(shù)據(jù)理念的提出與應(yīng)用,對于數(shù)據(jù)質(zhì)量的要求更是越來越高。油田領(lǐng)域信息化已經(jīng)發(fā)展多年,但對于數(shù)據(jù)的管理仍然比較粗放,數(shù)據(jù)有采集,但不注重本身的質(zhì)量,導(dǎo)致今天反過來再去補(bǔ)充修改數(shù)據(jù),不能很好地管理利用數(shù)據(jù)。

目前,解決數(shù)據(jù)質(zhì)量的核心問題之一就是要對數(shù)據(jù)進(jìn)行各種業(yè)務(wù)規(guī)則的定義與描述,先進(jìn)的做法就是采用元數(shù)據(jù)中的元建模技術(shù)進(jìn)行定義與描述。但是,一方面,這些元模型與原數(shù)據(jù)模型緊緊耦合在一起,一旦模型變化,元模型必須同步變更;另一方面,元模型對數(shù)據(jù)模型的模式層上的一些規(guī)則定義相對較為容易,對于有些復(fù)雜的業(yè)務(wù)規(guī)則以及定義在實例層上的規(guī)則是無能為力的。本體卻以它規(guī)范化、共享、靈活的表達(dá)能力以及對定義與描述各種復(fù)雜規(guī)則的的支持,再加之對深度推理的支持,可以很好的解決這些問題。因此,以本體理論與技術(shù)為重要的方法論,以石油領(lǐng)域的數(shù)據(jù)質(zhì)量管控為實際應(yīng)用背景、建立油田領(lǐng)域數(shù)據(jù)質(zhì)量本體不僅具有理論價值,更具有重要的應(yīng)用價值。

1 數(shù)據(jù)質(zhì)量概念及規(guī)則

1.1 數(shù)據(jù)質(zhì)量概念

數(shù)據(jù)質(zhì)量現(xiàn)在沒有一個精確的定義,文獻(xiàn)[1]將其定義為數(shù)據(jù)的適用程度;文獻(xiàn)[2]將數(shù)據(jù)質(zhì)量定義為多大程度的實現(xiàn)了模式和實例的一致性;文獻(xiàn)[3]分析得出數(shù)據(jù)質(zhì)量評估包含完整性、唯一性、精確性、有效性、一致性、時效性等六個指標(biāo)要素。

1.2 數(shù)據(jù)質(zhì)量規(guī)則

數(shù)據(jù)質(zhì)量規(guī)則,是對數(shù)據(jù)制定的語義限制,評價數(shù)據(jù)是否滿足一般性指標(biāo)就是檢查數(shù)據(jù)是否滿足評估指標(biāo)對應(yīng)的具體規(guī)則。

以油田采油廠數(shù)據(jù)質(zhì)量控制系統(tǒng)為例,該系統(tǒng)在上述研究的基礎(chǔ)上,按照完整性、一致性、準(zhǔn)確性、冗余性等四個指標(biāo)細(xì)化了數(shù)據(jù)質(zhì)量規(guī)則。

2 本體理論與方法

2.1 本體與關(guān)系數(shù)據(jù)庫

本體的概念源于哲學(xué),本體是事物的抽象。1993 年Gruber提出”本體是概念模型的明確的規(guī)范說明[4]”這一定義被廣泛接受。本體目的是捕獲特定領(lǐng)域內(nèi)公認(rèn)的核心概念集,篩選出公認(rèn)的概念術(shù)語,并且能通過不同的形式化模式定義術(shù)語以及術(shù)語間的關(guān)系。

目前,多數(shù)數(shù)據(jù)存在關(guān)系數(shù)據(jù)庫中,應(yīng)用程序不能隨意訪問這些數(shù)據(jù),阻礙了語義網(wǎng)的發(fā)展[5],本體作為語義網(wǎng)的基礎(chǔ),可以用來描述數(shù)據(jù)的語義信息,如何將關(guān)系數(shù)據(jù)庫和本體相互轉(zhuǎn)換是解決問題的關(guān)鍵。由于本體比數(shù)據(jù)庫的表達(dá)能力更強(qiáng),因此不采用將本體轉(zhuǎn)換成數(shù)據(jù)庫這種方式。同樣現(xiàn)階段中間模型都乏通用的定義,不適合重用和共享,定義中間模型也是不現(xiàn)實的,因此本文按照通用的映射規(guī)則基于質(zhì)量關(guān)系庫來構(gòu)建質(zhì)量本體。實驗證明了該方法的有效性。

2.2 抽象概念模型

Perez 通過分類法來組織本體。本體包括五個建模元語。據(jù)此給出如下幾個定義:

定義1:本體為一個五元組 O =< C,R,F(xiàn),A,I>,其中:C為classes即本體類,R為relations本體關(guān)系,F(xiàn)為functions本體函數(shù),A為axioms本體公理,I為instances本體實例。

關(guān)系數(shù)據(jù)庫也可以形式化定義如下:

定義2 :關(guān)系數(shù)據(jù)庫同樣定義為一個五元組RD =< T , COL, DT , R ,REC>,其中: T 為table 指數(shù)據(jù)表;COL 為column,指數(shù)據(jù)表中的列;DT為 data type,指數(shù)據(jù)的存儲類型;R為restriction,指約束規(guī)則。REC 為record指表記錄。

關(guān)系數(shù)據(jù)庫向本體映射的抽象模型如圖1所示:

圖1 關(guān)系數(shù)據(jù)庫向本體映射的抽象模型

3 數(shù)據(jù)質(zhì)量本體構(gòu)建

本文以油田采油廠數(shù)據(jù)質(zhì)量控制系統(tǒng)關(guān)系數(shù)據(jù)庫中的表為例進(jìn)行分析,發(fā)現(xiàn)主要存在如下關(guān)系:

數(shù)據(jù)質(zhì)量關(guān)系例表如表1所示:

表1 質(zhì)量總系例表

FUNC_ID NO DQ_CLASSIFY(評估分類表) ASSESS_CODE, FUNC_ID ASSESS_CODE FUNC_ID(ASSESS_FUNCTION) RULE_CLASSIFY(規(guī)則分類表) CLASS_ID, CLASS_NAME, CLASS_ID ASSESS_CODE(DQ_CLASSIFY) ASSESS_CODE,FUNC_ID, FUNC_ID(ASSESS_FUNCTION) CLASS_CODE DQ_RULE_MAP(規(guī)則映射) ASSESS_CODE,CLASS_ID NO ASSESS_CODE(DQ_CLASSIFY) CLASS_ID (RULE_CLASSIFY) ASSESSINFO(評估信息表) TASK_ID,ASSESS_BEGIN, TASK_ID ASSESS_ENDTIME, ASSESS_USER _ID (USER) ASSESS_USER _ID USER(評估人信息表) ASSESS_USER _ID,AGE, ASSESS_USER _ID NO ASSESS_USER,SEX

數(shù)據(jù)質(zhì)量本體構(gòu)建規(guī)則如下:

規(guī)則1 數(shù)據(jù)表存在主鍵且唯一,將表映射成OWL Class類。

規(guī)則 2 數(shù)據(jù)表主鍵有多個,但至少有一個不是外鍵,將表映射成OWL Class類。

規(guī)則 3 數(shù)據(jù)表不存在主鍵,但至少有一個不是外鍵,將表映射成OWL Class類。

規(guī)則4 數(shù)據(jù)表不存在主鍵,并且不存在非外鍵的屬性,將表映射成對象屬性。

根據(jù)以上規(guī)則,數(shù)據(jù)質(zhì)量表轉(zhuǎn)化如下:

規(guī)則4:如果某個表滿足規(guī)則1,且外鍵等于或多于一個,則可將該外鍵直接轉(zhuǎn)換為該表對應(yīng)的本體類的對象屬性。并且定義域為該表本體類,值域是外鍵所屬的本體類。

規(guī)則5:如果某個表滿足規(guī)則1,并且存在屬性既不是主鍵也不是外鍵,則將這些屬性直接映射為該表對應(yīng)的本體類的數(shù)據(jù)類型屬性。

RULE_CLASSIFY的外鍵可以轉(zhuǎn)換為對象屬性ASSESS_CODE,F(xiàn)UNC_ID,數(shù)據(jù)類型屬性有 CLASS_CODE,CLASS_NAME

規(guī)則6:如果某個表T滿足規(guī)則3,則必然有兩個表T1 和T2是通過該表連接的;將T1表和T2 表映射成概念C1和概念C2,T1表和T2 表的主鍵映射成對象屬性O(shè)P1和OP2,其中OP1的定義域為C1,值域為C2,而OP2的定義域為C2,值域為C1,并且OP1和OP2互為反函數(shù)。

DQ_RULE_MAP可以轉(zhuǎn)換為一對對象屬性 Map和DQ_RULE_MAP

本體的屬性性質(zhì)可以被直接定義。若是屬性存在唯一取值,則可用owl:Functionalporperty定義函數(shù)性。如果一個屬性可以唯一標(biāo)識一行,則用owl:InverseFunctionalproperty定義逆函數(shù)性。

主鍵轉(zhuǎn)化規(guī)則如下:(1)主鍵存在且唯一,定義函數(shù)性和逆函數(shù)性;(2)主鍵包含多個屬性,其中至少有一個是外鍵,則將非外鍵屬性定義函數(shù)性。(3)主鍵的基數(shù)約束cardinality為1。

4 實驗

4.1 生成的OWL文檔

用 Java語言實現(xiàn)了油田領(lǐng)域數(shù)據(jù)質(zhì)量本體的構(gòu)建,部分OWL文檔片段如下所示:

〈owl: ontology rdf: about = " file: /C: /Program%20Files/ Protege 4.3 / empty.owl" / 〉

〈owl: Class rdf: ID = "DATASOURCE" /〉

〈owl: Class rdf: ID = " TABLEINFO" /〉

〈owl: Class rdf: ID = "COLUMN_INFO" /〉

〈owl: Class rdf: ID = "DQ_CLASSIFY"〉

〈owl: Class rdf: ID = "ASSESS_FUNCTION"〉

〈owl: Class rdf: ID = " RULE_CLASSIFY"〉

〈owl: Class rdf: ID = "ASSESSINFO "〉

〈owl: Class rdf: ID = "USER"〉

4.2 有效性檢驗

將轉(zhuǎn)換后的OWL文檔 dataquality.OWL用Protege 4.3打開,清楚的看到數(shù)據(jù)質(zhì)量數(shù)據(jù)庫轉(zhuǎn)換而來的本體類、屬性及實例,符合語法規(guī)則,由此可知該方法建模的有效性。

5 總結(jié)

本文在已有的油田數(shù)據(jù)質(zhì)量關(guān)系數(shù)據(jù)庫中抽取出相關(guān)概念模型,實現(xiàn)了油田領(lǐng)域數(shù)據(jù)質(zhì)量本體的構(gòu)建,通過引入本體,為數(shù)據(jù)質(zhì)量提供了共享的概念集和術(shù)語集,利用明確的語義信息增強(qiáng)了對數(shù)據(jù)質(zhì)量問題的描述能力,有效的對數(shù)據(jù)進(jìn)行管理。但是以長遠(yuǎn)的角度來看,數(shù)據(jù)質(zhì)量還有許多的問題有待于進(jìn)一步地研究與完善并應(yīng)用,如數(shù)據(jù)質(zhì)量的智能化研究是值得進(jìn)一步探索的問題。如何更好地利用本體理論、數(shù)理統(tǒng)計、人工智能等技術(shù)實現(xiàn)數(shù)據(jù)質(zhì)量評估的自動化和處理的智能化將是今后值得關(guān)注的一個方向。

參考文獻(xiàn)

[1] Huang K T,Lee Y W,Wang R Y. Quality information and knowledge management [M].New Jersey: Prentice Hall,1998.

[2] 韓京宇,徐立臻,董逸生.?dāng)?shù)據(jù)質(zhì)量研究綜述[J].計算機(jī)科學(xué),2008,35( 2) : 1 -5.

[3] 高科,刁興春,曹建軍.基于簡單規(guī)則的數(shù)據(jù)質(zhì)量檢查系統(tǒng)設(shè)計與應(yīng)用[J].計算機(jī)技術(shù)與發(fā)展,2015.

[4] 蘇依拉,王一云,譚艷梅.基于關(guān)系數(shù)據(jù)庫的蒙文局部本體構(gòu)建及整合[J].北京工業(yè)大學(xué)學(xué)報,2014.

[5] 蔣翠清,魯佼.從關(guān)系數(shù)據(jù)庫構(gòu)建語義豐富本體的方法[J].計算機(jī)應(yīng)用研究,2011.

中圖分類號:TP393

文獻(xiàn)標(biāo)志碼:A

文章編號:1007-757X(2016)07-0071-03

收稿日期:(2016.04.11)

作者簡介:張曉冉(1992-),女,東北石油大學(xué)計算機(jī)與信息技術(shù)學(xué)院,碩士研究生,研究方向:本體構(gòu)建,數(shù)據(jù)質(zhì)量,大慶,163318 舒 昝(1991-),男,東北石油大學(xué)計算機(jī)與信息技術(shù)學(xué)院,碩士研究生,研究方向:大數(shù)據(jù)、數(shù)據(jù)挖掘,大慶,163318

Construction of Oilfield Data Quality Ontology Based on Relational Database

Zhang Xiaoran, Shu Zan
(College of Computer and Information Technology,Northeast Petroleum University, Daqing 163318, China)

Abstract:In order to carry out the overall and standard description of oilfield data quality, it takes the relevant oilfield data as the research background. With the help of advanced ontology theory ,extract relevant conceptual model based on the existing relational database resources. Then it makes the conceptual model into the OWL ontology, trying to construct standard data quality ontology model of oilfield with Data quality control.

Key words:Data Quality; Ontology Build; Relational Database; OWL

猜你喜歡
主鍵關(guān)系數(shù)據(jù)庫本體
Abstracts and Key Words
基于Go 實現(xiàn)的分布式主鍵系統(tǒng)研究
關(guān)系數(shù)據(jù)庫在高爐數(shù)據(jù)采集系統(tǒng)中的應(yīng)用
山東冶金(2022年2期)2022-08-08 01:51:30
對姜夔自度曲音樂本體的現(xiàn)代解讀
基于外鍵的E-R圖繪制方法研究
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
基于索引結(jié)構(gòu)的關(guān)系數(shù)據(jù)庫關(guān)鍵詞檢索
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
數(shù)據(jù)庫主鍵的設(shè)計方法探討
一種基于數(shù)據(jù)圖劃分的關(guān)系數(shù)據(jù)庫關(guān)鍵詞檢索方法
陆丰市| 高青县| 墨江| 银川市| 桐城市| 奉新县| 舒兰市| 秀山| 沙田区| 通渭县| 永康市| 温宿县| 福鼎市| 潼南县| 巩义市| 佛教| 宁城县| 南阳市| 剑阁县| 桃园县| 肃南| 镇巴县| 澄江县| 定安县| 桂林市| 松潘县| 汉川市| 锦州市| 同江市| 霍城县| 怀化市| 仙游县| 积石山| 新津县| 扎赉特旗| 鄂托克旗| 平塘县| 如皋市| 太康县| 上饶县| 慈溪市|