宮法明, 崔 佳
(中國石油大學(xué)(華東) 計(jì)算機(jī)與通信工程學(xué)院, 青島 266580)
隨著全球信息化的推進(jìn), 石油領(lǐng)域進(jìn)入了信息爆炸的時(shí)代. 大量來源不同的石油數(shù)據(jù)缺乏統(tǒng)一的表達(dá)方式及語義描述, 給數(shù)據(jù)分析帶來了極大的困難. 實(shí)現(xiàn)數(shù)據(jù)重用和信息共享成為石油行業(yè)的巨大挑戰(zhàn)[1].
數(shù)據(jù)融合可以把把不同來源、不同角度的數(shù)據(jù)結(jié)合在一起, 并且為用戶提供統(tǒng)一的數(shù)據(jù)接口[2]. 本體通常用來表示領(lǐng)域知識(shí), 解決數(shù)據(jù)融合過程中的語義異構(gòu)問題. 因此, 本文提出了一種新型的數(shù)據(jù)融合框架,能夠?qū)崿F(xiàn)不同來源石油數(shù)據(jù)的融合問題. 為解決上述問題, 本文提出了一種新型的數(shù)據(jù)融合框架, 能夠?qū)崿F(xiàn)多源數(shù)據(jù)語義上的融合. 該框架是在一個(gè)兩層本體結(jié)構(gòu)的基礎(chǔ)上實(shí)現(xiàn)的. 如圖1所示, 框架分為 4 層: 源數(shù)據(jù)層、本體層、融合層和用戶層. 源數(shù)據(jù)層包含來自不同數(shù)據(jù)源的數(shù)據(jù), 本體層是能夠?qū)崿F(xiàn)數(shù)據(jù)語義融合的兩層本體結(jié)構(gòu), 融合層提供了一些沖突數(shù)據(jù)的融合規(guī)則, 用戶層則將融合結(jié)果展示給用戶.
本文提出了一個(gè)四級信息融合框架來解決石油領(lǐng)域的信息融合問題. 文章以下部分的組織結(jié)構(gòu)如下: 第一部分介紹了基于本體的融合模型的研究現(xiàn)狀; 第二部分提出了本體的語義模型定義及本體間的映射關(guān)系;第三部分介紹了基于本體的融合規(guī)則; 第四部分通過實(shí)驗(yàn)證明了該融合框架的可行性; 第五部分對全文進(jìn)行了總結(jié).
圖1 四層融合框架圖
本體通過領(lǐng)域中的概念及概念之間的關(guān)系來表示領(lǐng)域知識(shí)[3]. 鑒于本體較強(qiáng)的語義表達(dá)和語義推理的能力, 很多研究人員利用本體來解決語義異構(gòu)問題.
一般來說, 運(yùn)用本體的方式有三種模式: 單本體模式、多本體模式和混合模式[4]. 單本體模式是通過一個(gè)全局本體提供的詞匯表表示語義. 這種模式是簡單地把所有信息源都和一個(gè)全局本體建立起映射關(guān)系. 由Arens提出的SIMS模型[5]就是運(yùn)用了單本體的方法.但是單本體模式只適用于所有信息源都是從同一角度描述的情況. 多本體模式突破了這種限制, 每個(gè)信息源都有相應(yīng)的本體與之對應(yīng). OBSERVER模型[6]就是一種基于多本體模式的模型, 通過不同的本體來表示不同數(shù)據(jù)源的語義, 但是本體之間關(guān)系定義困難, 而且在需要添加信息源的時(shí)候, 需要添加所有舊本體與新添加的本體之間的映射關(guān)系. 為了解決上述兩種模式的缺點(diǎn), Cheng[7]和 Wache 等[8]提出了混合模式, 在多本體的基礎(chǔ)上構(gòu)建了一個(gè)全局共享詞典, 將不同的本體通過共享詞典聯(lián)系起來. 混合模式的優(yōu)勢在于當(dāng)需要添加新的信息源的時(shí)候, 本體與共享詞典之間的映射不需要改動(dòng). Visser[9]提出了可以用一個(gè)全局本體來代替全局共享詞典. 本文提出的模型就是基于混合模式的融合模型.
許多研究人員都在以上三種模式的基礎(chǔ)上進(jìn)行了研究. 趙春江等人[3]提出了一種混合本體結(jié)構(gòu), 實(shí)現(xiàn)了自上而下的融合. 徐賜軍等[10]提出了一個(gè)基于本體和元數(shù)據(jù)庫的知識(shí)融合模型. Boury-Brisset[11]利用本體化方法, 實(shí)現(xiàn)了高級別的信息融合, 并將其應(yīng)用在軍事規(guī)劃領(lǐng)域. 謝能付[12]也在農(nóng)業(yè)領(lǐng)域做了借助本體進(jìn)行農(nóng)業(yè)信息融合的相關(guān)研究, 并且提出了一個(gè)針對Web信息的只是融合框架[13]. 易善楨等人提出了一種用于數(shù)據(jù)融合估計(jì)的目標(biāo)地理實(shí)體模型和基于圖形的本體方法[14]. 王遠(yuǎn)等人[1]利用全局本體實(shí)現(xiàn)了飛機(jī)故障數(shù)據(jù)融合, 對多源數(shù)據(jù)進(jìn)行了統(tǒng)一具體的描述. Pai等人[15]用本體的語義網(wǎng)技術(shù)融合軍事信息并解決軍事中的態(tài)勢感知問題. 李曉麗等人[16]提出了一個(gè)JDL模型能夠?qū)崿F(xiàn)一級和二級信息的融合.
本文基于混合模式提出了一種石油領(lǐng)域的融合模型, 能夠解決石油信息的語義異構(gòu)問題, 實(shí)現(xiàn)信息融合.
基于混合模式, 我們采用一個(gè)兩層本體的結(jié)構(gòu): 全局領(lǐng)域本體和局部本體.
局部本體對應(yīng)的數(shù)據(jù)源有不同的存儲(chǔ)模式, 例如,關(guān)系數(shù)據(jù)庫, RDF和結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)文件等.局部本體可以實(shí)現(xiàn)信息源內(nèi)部的語義異構(gòu)問題, 但是不同的局部本體之間仍然可能存在語義異構(gòu). 因此, 需要全局本體來解決上述問題.
全局本體是對領(lǐng)域整體的全局語義定義, 能夠?yàn)閿?shù)據(jù)融合提供公共的語義描述[17].
本體是對知識(shí)的概念化描述, 包含一系列的領(lǐng)域概念和概念間的關(guān)系. 石油領(lǐng)域本體可以定義為其中表示本體名表示概念集表示關(guān)系集. 則本體中的對象可以定義為一個(gè)四元組
局部本體通常是由不同的人員建立的, 因此語義異構(gòu)很難避免. 建立全局本體與局部本體之間的映射關(guān)系就是為了找出本體間的語義聯(lián)系.
2.2.1 本體間的映射
本體映射的定義如下:
在本文中我們只考慮一對一的映射關(guān)系. 映射關(guān)系如圖2所示.
圖2 本體元素映射圖
為了計(jì)算元素間的相似度關(guān)系, 我們依據(jù)Ehrig等人[18]對相似度度量的定義提出了一個(gè)相似度函數(shù)定義如下:
2.2.2 基于本體元素的相似度算法
本體映射的關(guān)鍵就是不同的局部本體元素間相似度的計(jì)算. 本體元素的相似度可以分成四部分: 概念相似度、關(guān)系相似度、屬性相似度和實(shí)例相似度.
如果有且只有一個(gè)父集為空, 那么相似度為0, 其他情況也用重疊率來計(jì)算.
如果父集相似度和自己相似度都為0, 那么關(guān)系相似度為0; 如果只有一個(gè)為0, 那么關(guān)系相似度用不為零的那 如果兩個(gè)都不為0, 分別給父集相似度添加了兩個(gè)權(quán)重一般來說,
元素屬性可以被分為四種: 整數(shù)、浮點(diǎn)數(shù)、字符和日期. 我們用一個(gè)相似度矩陣[20]來計(jì)算各種數(shù)據(jù)類型之間的相似度, 如表1所示.
表1 相似度矩陣
如果不同本體中描述同一個(gè)實(shí)例的屬性值不同,那么就會(huì)反饋給用戶不一致的結(jié)果. 為了解決這個(gè)問題Motro等人[21]提出了5條解決方法.
(1) 混合結(jié)果. 將所有的結(jié)果以集合的形勢反饋給用戶.
(2) 排序結(jié)果. 就是在混合結(jié)果的基礎(chǔ)上, 按照用戶的需求進(jìn)行排序.
(3) 更優(yōu)結(jié)果. 取排序結(jié)果中靠前的一個(gè)或者幾個(gè)結(jié)果反饋給用戶.
(4) 隨機(jī)結(jié)果. 從混合結(jié)果集合中隨機(jī)選取一個(gè).
(5) 融合結(jié)果. 將結(jié)果集中的所有結(jié)果融合成一個(gè).
顯然, 融合結(jié)果更符合用戶的需要. 基于此, 我們提出了一些融合規(guī)則, 關(guān)鍵的融合規(guī)則定義如下.
數(shù)優(yōu)先規(guī)則認(rèn)為出現(xiàn)次數(shù)多的那個(gè)結(jié)果可信度大.
閉區(qū)間規(guī)則只適用于屬性值為數(shù)字類型的情況.
圖3 局部本體中的“油井”元素
根據(jù)本文提出的框架, 我們開發(fā)了一個(gè)石油信息融合系統(tǒng), 并對兩個(gè)局部本體和一個(gè)全局本體進(jìn)行了實(shí)驗(yàn). 兩個(gè)局部本體中關(guān)于其中關(guān)于油井的描述如圖3所示, 全局本體中的描述如圖4所示.
由圖可見, “Oiler”和“OilWell”都表示“油井”, 但是它們在本體中的呈現(xiàn)形式是不同的, 或者說這兩個(gè)本體是從不同的角度來描述的“油井”. 運(yùn)用提出的相似度算法和融合規(guī)則, 可以對這兩個(gè)本體進(jìn)行融合, 融合之后的結(jié)果如圖5所示.
圖4 全局本體中的“油井”元素
圖5 融合結(jié)果圖
由實(shí)驗(yàn)可以看出, 本文提出的雙層本體結(jié)構(gòu)及相似度算法和融合規(guī)則能夠較精確地實(shí)現(xiàn)石油領(lǐng)域的數(shù)據(jù)融合問題.
隨著石油行業(yè)的發(fā)展, 石油領(lǐng)域的數(shù)據(jù)越來越復(fù)雜, 數(shù)據(jù)融合技術(shù)可以更好地分析并使用這些數(shù)據(jù). 本文提出了一個(gè)基于本體的數(shù)據(jù)融合框架, 能夠解決多源數(shù)據(jù)的語義異構(gòu)問題. 本文的融合框架是在石油領(lǐng)域本體的基礎(chǔ)上提出的, 但是至今石油領(lǐng)域還沒有建立起一個(gè)權(quán)威的本體. 自動(dòng)化地構(gòu)建石油領(lǐng)域的本體將是今后的研究重點(diǎn).