郟奎奎, 劉海濱
(中國航天系統(tǒng)科學與工程研究院,北京 100048)
隨著計算機及網絡技術的迅猛發(fā)展和廣泛應用,政府和企業(yè)的信息化程度得到了大幅度的提高,數據的采集、存儲、處理和傳播的數量也與日俱增. 數據不斷累積,形成了海量數據,如果能夠實現這些數據的共享,將會使更多的人能更充分地使用已有的數據資源,減少重復的數據收集等勞動和相應的費用. 然而,這些海量數據往往存儲在不同的平臺和系統(tǒng)中,數據具有異構多源的特征,需要通過不同的方式進行訪問,難以實現數據的共享,各個數據源也就變成了“信息孤島”. 因此,為實現不同數據源的互連互通和數據的共享,構建多源異構數據集成系統(tǒng)顯得尤為迫切.
在進行多源異構數據集成時,有兩種集成框架[1],一種是通過建立數據倉庫進行數據集成,一種是虛擬數據集成系統(tǒng). 數據倉庫的方法需要將各個數據源的數據抽取轉換裝載到一個集中的數據庫中,當數據源有更新時,數據倉庫不能夠及時隨著數據源的更新而更新,實時性較差,而且建立數據倉庫需要較大的經費成本. 虛擬數據集成系統(tǒng)[2]通過中介模式的方法,建立數據源模式與中介模式的映射關系,用戶能夠通過一張統(tǒng)一的視圖實現對數據源的實時訪問,無需再將各個數據源抽取轉換裝載到一個物理存儲空間中,用戶發(fā)起的查詢請求會通過中間模式與數據源模式的映射關系將查詢分解到各個數據源中,最后將各個數據源上的查詢結果匯總就得到了完整的查詢結果. 考慮到數據集成系統(tǒng)實時性和建設成本的要求,本文采用虛擬數據集成的框架.
數據集成系統(tǒng)中核心的問題就是如何建立數據源模式與中介模式的映射關系[2],只有解決了這個問題才能夠實現多個數據源的數據集成. 由此學者提出了模式映射語言[3],以便于建立數據源模式與中介模式的映射關系. 主要有三類模式映射: 全局視圖GAV (Global-As-View)、局部視圖LAV(Local-As-View)和全局-局部視圖GLAV (Global-and-Local-As-View). Glenn I N在文獻[4]中提出了ISTAR數據融合框架,將情報、監(jiān)視、目標捕獲和偵察數據融合到統(tǒng)一的數據庫中,該框架基于北約國家IEEE POSIX共同的數據規(guī)范,在數據的互操作基礎之上實現多源異構信息的融合.Fonseca在文獻[5]中提出了利用本體進行語義轉換,建立同一數據集內概念的相互聯系及不同數據集語義間的對應關系. 以上方法能夠解決多源異構數據集成的問題,然而在實際操作中集成效率和查詢響應時間存在不足,尤其是當數據源的規(guī)模相差較大時就會出現效率低下的情況,即一系列需要集成的數據源中,有某個數據源包含信息量較大,并且與其他數據源有較強的關聯關系時,例如寧東智慧環(huán)保項目中,需要實現環(huán)保類數據、企業(yè)投入產出類數據、氣象數據、遙感衛(wèi)星數據、地理信息系統(tǒng)數據的數據集成,且地理信息系統(tǒng)具有較大規(guī)模數據量,這種情況下進行多源異構數據集成的復雜度較高,傳統(tǒng)的數據集成方法會使映射關系非常復雜,由此本文提出了一種層次全局視圖HGAV (Hierarchical-Global-As-View)模式映射來提高數據集成效率和縮短數據集成系統(tǒng)的查詢響應時間.
虛擬數據集成系統(tǒng)面向用戶查詢的是具有統(tǒng)一視圖的中介模式,數據源通過映射關系與中介模式建立對應關系. 用戶在中介模式上的查詢會通過中介模式G與數據源模式S的映射關系M,將查詢分發(fā)到各個數據源上,最后再通過包裝器將各個數據源查詢得到的結果合并包裝返回給用戶. 邏輯結構圖如圖1所示.通過系統(tǒng)集成,用戶構建自己的查詢時不必知道數據在哪里,以及源數據是如何組織的. 數據源提供實際數據是需要集成的對象,它們獨立存在于不同主機節(jié)點上,它可以是各種類型的數據庫、數據文件等等. 包裝器位于整個系統(tǒng)的底層,駐留在數據源上. 與數據源直接打交道.不同類型數據源需要不同的適配器. 包裝器主要功能有: (1)請求數據源模式信息; (2)響應數據中心的數據提取請求,并對結果進行整理; (3)將結果整理成XML格式,發(fā)送給集成中心. 映射配置器建立全局模式與局部模式間的映射關系.
圖1 虛擬數據集成框架
在整個虛擬數據集成系統(tǒng)中的查詢包括查詢重寫、查詢優(yōu)化、查詢執(zhí)行等環(huán)節(jié). 一個中介模式上的查詢經過查詢重寫模塊后,會生成一個基于數據源的邏輯查詢計劃,該邏輯計劃經過查詢優(yōu)化器后生成基于數據源的物理查詢計劃. 該物理查詢計劃在執(zhí)行引擎里執(zhí)行生成各個數據源上的子查詢,并根據計劃的實施情況,將重優(yōu)化請求發(fā)送給查詢優(yōu)化器.
在全局視圖上的查詢是針對XML數據查詢的,因為本文所建立的全局視圖是將局部數據源的模式轉化為XML Schema形式,然后再將各個局部數據源的模式合并形成一張總的基于XML Schema的全局視圖,所以全局視圖上的查詢就是將XML Schema作為元數據,利用XQuery作為查詢語句在虛擬的集成數據庫上查詢.
中介模式中的術語組成了用戶的查詢語句. 系統(tǒng)首先應把用戶的查詢語句重寫成數據源模式所對應的查詢語句. 用戶在中介模式上的查詢被重寫為數據源上的查詢語句,各個數據源的查詢結果匯總起來就形成了用戶所期望的查詢結果. 這個重寫的結果就被稱為邏輯查詢計劃[6].
利用Datalog表達形式來表示查詢,其形式如下:
這里,q和是謂詞,q代表查詢結果,指向數據源中的關系.稱為查詢頭,其余部分稱為查詢體,稱為查詢體中的子查詢. 元組中僅包含變量或常量. 如果,即查詢體中所有的變量必須包含查詢頭中的所有變量,則認為這樣的查詢結果是完備的. 帶有比較謂詞的子查詢也可以包含在查詢體中,前提條件是如果子目標中含有比較謂詞,且x是比較中的一個變量,那么在普通子目標中也必須包含它. 我們通常用表示在數據庫實例D上的查詢結果.
對于任意數據庫實例D,如果查詢Q1在此數據庫上計算的結果都包含于另一個查詢Q2的結果,則記為,即Q1包含于Q2,記作; 如果且,則稱Q1和Q2是等價的,記作.
在多源異構數據集成系統(tǒng)中,最核心的就是對多個數據源進行模式匹配和模式映射,只有建立一套完整的語義匹配和語義映射系統(tǒng),用戶才能通過一張統(tǒng)一的全局視圖訪問到底層的數據源數據. 本文在現有的GAV模式映射的基礎上,提出了分層的HGAV模式映射方法,接下來將要介紹HGAV模式映射方法的定義,以及模式匹配和模式映射的方法.
在虛擬數據集成系統(tǒng)中,核心的部分就是建立局部數據源與全局視圖的映射關系,這個映射關系高效與否直接決定了整個數據集成系統(tǒng)的效率高低,因為用戶針對中介模式提出的查詢可能涉及到多個數據源,每個數據源都有一個對應的數據源描述,模式映射就是將各個數據源的模式映射到全局模式中,并且映射后的模式互補,不發(fā)生查詢沖突. 常用的映射方法是GAV模式映射,然而GAV的映射方法面對信息量分布不均勻的多個數據源時,查詢效率較低,因此本文提出了改進方法,利用基于HGAV的模式映射方法優(yōu)化查詢,從而提高數據集成系統(tǒng)的查詢效率,縮短查詢的響應時間.
1) 模式映射語言
模式映射是描述模式之間關系的表達式集合[7]. 這里的模式映射描述了中介模式和源模式之間的關系.當一個查詢針對中介模式查詢時,我們會使用這些映射把它重寫為對數據源的查詢. 重寫的結果是一個邏輯查詢計劃. 我們使用查詢表達式作為模式映射的主要表達方式,在描述中,用G表示中介模式,用表示源模式.
2) 模式映射語義
模式映射的語義是這樣指定的,通過定義中介模式的哪個實例與數據源的給定實例是一致的[8]. 具體來講,一個語義映射M定義了一個關系Mr:
已知GAV模式映射的定義為[9]: 假定G是一個中介模式是n個數據源模式. 一個全局視圖模式映射M是一個滿足或者的表達式集合,其中: (1)是中介模式G的一個關系,并且最多出現在M的一個表達式中; (2)是中關系上的一個查詢.是n個數據源模式,表示介于中介模式和數據源模式之間的中間數據源模式. 首先建立中間數據源到全局視圖的模式映射M1,
HGAV模式映射相較于GAV就是抽象出一層介于全局模式和數據源模式的中間數據源模式,中間數據和其他局部數據源一樣,也是數據庫實例,只不過它包含的數據庫信息較多,基于全局視圖的查詢大部分會發(fā)生在中間數據源上,除非有些數據必須要從其他局部數據源獲得,具體定義如下: 假定G是一個中介模式,
M1滿足或者,其中: (1)是G中的一個關系,并且最多出現在M1的一個表達式中; (2)是中關系上的一個查詢.
同時又要建立數據源到中間數據源的模式映射M2,M2滿足或者,其中: (1)是中間數據源中的一個關系,并且最多出現在M2的一個表達式中; (2)是中關系上的一個查詢.HGAV模式映射結構圖如圖2所示.
圖2 HGAV模式映射結構圖
中介模式作為全局視圖,在中介模式上的查詢通過映射M1與中間數據源模式Sm產生對應關系,任意中間數據源模式Smi作為數據源S之上的“全局視圖”(這里的全局視圖也是局部的,它是底層數據源上的全局視圖). 通過映射M2與S產生對應關系,這樣就將在中介模式上的查詢分層級地映射到中間數據源模式和數據源模式上. 這樣做有利于將包含信息量較大的數據源與一般數據源分離處理,簡化映射算法,提高了數據集成的效率,縮短了查詢時間.
為了更形象地說明整個映射過程,這里用幾個數據表實例來說明,已知兩個學校SchoolA和SchoolB,它們都有圖書館圖書信息表、圖書借閱信息表、教師信息表和學生信息表,具體字段如下所示:
這里要做一個學校A和學校B圖書館的數據集成,兩個學校的學生和老師既可以到學校A的圖書館借書也可以到學校B的圖書館借書. 那么需要將學校A和B的圖書館數據庫、學生數據庫和教師數據庫中的數據集成,按照本文所提出的HGAV模式映射方法,由于圖書館數據庫包含的信息量比較大,所以將兩個學校的圖書館數據庫作為中間數據源,將學生和老師數據庫作為底層的局部數據源,分別映射到圖書館數據源模式中,最后再將兩個圖書館數據源模式合成,形成一張全局視圖,結果如下所示:
中間視圖
全局視圖表
以上闡述了HGAV模式映射的定義,以及利用實例說明了HGAV映射結果,接下來將詳細描述模式匹配和模式映射的過程.
為了創(chuàng)建數據源的描述信息,我們經常首先創(chuàng)建模式匹配,然后從匹配得到映射[10]. 之所以首先創(chuàng)建匹配,是因為比較容易從設計者哪里得到匹配. 模式匹配的主要目的就是在給定的模式S和T之間產生一個匹配(即,對應)集合,通過計算數據字段之間的相似度來確定數據是否匹配,如,由于可用的線索和啟發(fā)式比較多,并且還需要對匹配的準確度進行最大化,所以需要構架一個模式匹配系統(tǒng)架構,如圖3所示.
圖3 模式匹配系統(tǒng)模塊圖
1) 匹配器
匹配器的輸入是一對模式S和T[11]. 除此之外,匹配器還可以考慮任何其他可用的信息,如數據實例、文本描述等. 匹配器輸出一個相似度矩陣,該矩陣為S和T中的每一個元素對(s,t) 賦一個0-1之間的數值,用來預測s是否與t匹配. 在具體應用中,使用多種匹配器相結合的方法來獲得相似度矩陣. 典型地,有名字匹配器和數據實例匹配器兩大類,其中名字匹配器的度量算法有編輯距離、Jaccard度量和Soundex度量算法,實現實例匹配器的方法有3種: 創(chuàng)建識別器方法、測量度量值的重疊度方法和構建分類器的方法,常用的分類器有樸素貝葉斯、決策樹、規(guī)則學習和支持向量機等.
2) 組合器
不同的匹配器往往會計算出不同的相似度矩陣[12],這里就需要組合器將匹配器輸出的多個相似度矩陣合并成一個. 簡單的組合器可以取得分的均值、最小值或者最大值. 如果匹配系統(tǒng)采用k個匹配器來預測si和tj的相似度得分,那么均值組合器就可以采用如下的公式來計算兩個元素之間的相似度得分:
3) 匹配選擇器
匹配系統(tǒng)的最后一個模塊就是從組合器輸出的相似度矩陣中產生匹配[13]. 最簡單的匹配策略是閾值法:相似度分數大于給定閾值的所有模式的元素對都可以作為匹配返回.
在對信息較為密集的多個數據源進行數據集成時,利用閾值法能夠解決數據的模式匹配問題,因為面向同一個業(yè)務的系統(tǒng)中雖然存在多個數據源模式,但是大都遵循著固定的行業(yè)標準,所以進行模式匹配過程中,相同的數據具有較高的相似度,不同的數據具有較低的相似度,利用閾值法能比較快捷有效地篩選出相同的模式. 當面對比較稀疏的數據模式,且業(yè)務領域跨度比較大時,簡單的閾值法有可能失效,需要采用更復雜的方法,如基于貝葉斯的選擇器、基于規(guī)則的選擇器等.
在把匹配轉義為映射的過程中,關鍵的挑戰(zhàn)是是匹配充實化、具體化[14],并把所有的匹配變成一個統(tǒng)一的整體在創(chuàng)建映射時,需要通過連接和并操作對源和目標中數據的表組織結構進行調整,使其一致[15]. 本節(jié)主要描述如何探尋可能的模式映射空間. 給定一個匹配集合,我們設計一個針對可能的映射的搜索算法,這些可能的映射時與給定匹配相一致. 我們根據一些常見的模式設計原理來定義合適的搜索空間.
在匹配集合已知的情況下,本文設計了一個模式映射算法來實現數據源模式到全局視圖模式的映射,算法的輸入是一個匹配集合,其中是源S的屬性集合,Bi是目標G的一個屬性.
輸入: 中介模式G和數據源S模式之間的匹配,(當包含的屬性個數大于1時,形式為g(),其中g是對屬性進行合并的函數);: 與fi相關聯的過濾器集合.輸出: 查詢形式的映射.
{階段 1: 創(chuàng)建候選集合}
for對于任何一個do
if包含S中多個關系中的屬性then
if不存在連接路徑then
end if
end if
end for
{階段 3: }
Covers:={包含了M中的所有匹配fi,并且的任何子集都無
法包含所有的fi}
selectedCover:=c∈Covers,c是具有最少候選路徑的覆蓋
if Covers中有多個覆蓋then
利用啟發(fā)式3選擇一個覆蓋
end if
{階段 4:}
for對于selectedCover中的每一個覆蓋vdo
創(chuàng)建一個如下形式的查詢隊Qv:
SELECT vars FROMWHERE
其中,vars表示v中匹配涉及的屬性,是v的連接路徑中的各個關系,是V的連接路徑中的連接條件,是連接路徑中的過濾條件
end for
return查詢Q1UNION ALL… UNION ALL Qb
其中,Q1,…,Qb是前面創(chuàng)建的查詢.
啟發(fā)式1. 尋找連接路徑. 一個連接路徑可以是:
1) 外鍵之間的路徑;
2) 通過檢查以前S上的查詢而得到的路徑;
3) 通過挖掘S中可連接的列的數據而發(fā)現的路徑.
在V中,我們需要為尋找連接路徑的候選集合的
啟發(fā)式2. 選擇連接路徑. 優(yōu)先選擇外鍵之間的路徑. 如果存在多個這樣的路徑,那么選擇在匹配中某一個屬性上有過濾器的路徑(如果存在這樣的路徑) . 為了對路徑進一步排序,選擇外連接和內連接之間估計差別最小的連接路徑. 最后可以選擇擁有最少不確定元組的連接路徑.
啟發(fā)式3. 選擇覆蓋. 如果存在多個覆蓋,那么選擇候選集合數量最少的一個,因為一般情況下我們認為,越簡單的映射越合適. 如果有多個覆蓋含有相同數目的候選集合,那么選擇包含較多MS屬性的覆蓋.
這樣就建立了中間數據源模式與局部數據源模式的映射關系,然后再對全局模式與中間數據源按照以上算法建立映射關系,如此就可以形成一個完整的HGAV模式映射系統(tǒng)了.
利用2.2節(jié)中的模式匹配方法實現不同數據源的語義匹配,建立匹配集合. 不同的匹配器往往會得到不同的匹配相似矩陣,需要根據字段所在的語義環(huán)境判斷所匹配的對象,圖4展示了模式匹配的對應關系.
圖4 模式匹配對應關系
圖4中實現了從關系數據庫模式到X M L Schema的轉換,按照字段的相似程度建立了匹配關系.利用模型轉換算法可以將所有的數據庫模式定義信息轉換為XML schema,然后按照HGAV模式映射方法,將底層的數據源模式映射到中間數據源模式,再將中間數據源模式映射到全局視圖模式中.
完成了數據的模式匹配之后,就可以利用2.3節(jié)中的映射方法建立數據源上的查詢了,根據其中的三個啟發(fā)式規(guī)則自動地實現模式映射的建立,查詢所用到的元數據信息從全局XML schema獲得,通常采用XQuery語句進行查詢,如:
如果所做的查詢涉及到多個數據庫,就需要進行查詢的分解,將查詢分解成針對各個局部數據源的查詢,如果數據源時MySQL、Oracle等結構化的數據,還需要將XQuery查詢轉換為相應的sql語句. 最后再局部數據源上的查詢結構再通過wrapper包裝器,將查詢結果包裝成XML形式的數據文檔返回結果,最后將所有返回的XML文檔合并就形成了總的查詢結果了,整個數據集成系統(tǒng)模型如圖5所示.
圖5 寧東智慧環(huán)保數據集成系統(tǒng)模型圖
寧東智慧環(huán)保工程中包含很多類別的數據,主要有環(huán)保類數據、企業(yè)投入產出數據、氣象數據、遙感衛(wèi)星數據以及GIS數據. 這些數據分散在不同的應用系統(tǒng)之內,數據結構多樣,需要利用多源異構數據的集成方法將各類數據進行集成,以便于進行查詢和數據挖掘. 本文采用基于HGAV模式映射的方法,通過建立中介模式在各類數據源上建立一張統(tǒng)一的視圖,用戶就可以通過這個統(tǒng)一的視圖進行查詢. 整個寧東智慧環(huán)保工程多源異構數據集成系統(tǒng)的體系架構如圖6所示. 數據集成系統(tǒng)需要從各個數據庫的元數據中讀取數據的結構、模型和映射關系,進而按照本文所提出算法解析查詢,并將查詢分解成針對各個數據源的局部查詢,最后獲得各個局部查詢的匯總結果.
圖6 寧東智慧環(huán)保工程多源異構數據集成系統(tǒng)體系架構圖
在該虛擬集成系統(tǒng)中建立了兩個模式映射集合,包括中介模式與中間數據源模式之間的映射集合M1,以及中間數據源模式與底層數據源的映射集合M2. 在智慧環(huán)保的數據集成系統(tǒng)中,共有5個數據源,分別是環(huán)保數據庫、企業(yè)投入產出數據庫、氣象數據庫、遙感數據庫以及GIS數據庫. 在這5類數據庫中GIS數據庫包含的信息量最大,而且其他4個數據庫與GIS數據存在地理位置的關系,故把GIS數據源作為中間數據源,其他4個數據源作為底層的數據源. 在GIS數據源之上建立中介模式,是用戶查詢的接口.
為了驗證本文所提出方法的正確性,設計了一個基于Java的Web應用系統(tǒng),通過瀏覽器客戶端訪問數據集成系統(tǒng).
實驗運行環(huán)境: 硬件配置為Intel(R) Core(TM) i3 CPU M 350 @2.27 GHz; 4 GB RAM內存; Windows 7(64位)旗艦版操作系統(tǒng); Apache-tomcat-8.0.15服務器環(huán)境. 軟件設計是在eclipse-4.4.1平臺下利用Java語言編寫完成的.
利用chrome瀏覽器作為Web客戶端,用賬戶user登錄系統(tǒng),可以看到寧東地區(qū)所有跟環(huán)保相關的數據,包括污染源企業(yè),污染源行業(yè)分布、廢水在線監(jiān)測信息、廢氣在線監(jiān)測信息、空氣質量、環(huán)境立體監(jiān)測信息等. 智慧環(huán)保的多源異構數據融合系統(tǒng)效果圖如圖7所示. 通過利用所提出的多源異構數據融合模型將來自各個信息系統(tǒng)的數據融合,形成了一個統(tǒng)一的視圖,用戶通過這個統(tǒng)一的視圖能夠很便捷地訪問到各類數據.
將所有排放污染物的企業(yè)位置和所有空氣、水、固廢監(jiān)測站點與GIS相結合,可以通過一張圖清晰地看到所有企業(yè)的污染物排放量以及各個監(jiān)測站點測得的環(huán)境污染物含量,并能通過放置鼠標到地圖上的任意一個點獲得實時的環(huán)境信息,效果如圖8所示,可以看到當前PM2.5含量為23.765,PM10含量為73.047等信息. 圖中小圖標表示該地點存在一個工廠,可以清晰地看到工廠的分布位置,同時在GIS圖下方還能觀察到當前排污的企業(yè)有哪些. 右側是專家綜合研討區(qū),專家根據左側圖中的環(huán)境信息,對某個相關議題發(fā)起討論,并對討論結果進行表決. 由此可見,多源異構數據融合系統(tǒng)能夠為用戶提供快捷的數據訪問,而且能夠較為全面地看到各方面的數據,可以決策人員提供全面的信息.
圖7 多源異構環(huán)保數據融合結果圖
圖8 GIS平臺上的多源異構數據融合結果展示圖
為了驗證本文所提出算法的正確性和高效性,將其與常用的數據集成方法進行性能上的對比. 典型地,這里與全局視圖GAV和局部視圖LAV模式映射方法進行對比. 使用的數據來自本地3.1中的五類數據,這五類數據分別存儲于MySQL、Oracle、Access、SQL Server和XML數據庫中,在同一個查詢條件下,分別記錄在不同的數據量情況下,這三種方法所整合的查詢結果的準確率和計算時間,如表1所示.
從表中可以看出,三種算法的都有較高的準確率,HGAV模式映射方法的準確率略高一些. 隨著數據量的增大,三種方法所消耗的時間都在增加,GAV和LAV方法的時間消耗呈較快的增長趨勢,而HGAV方法所消耗的時間平穩(wěn)增長. 由此可見,本文所提出的HGAV模式映射方法高效,且具有較高的準確率.
表1 算法性能數據
本文構建了面向寧東智慧環(huán)保的多源異構數據集成系統(tǒng),通過前臺的數據請求,得到了經過集成處理后的數據信息,驗證了基于HGAV的模式映射算法的可行性. 為了驗證該查詢方法結果的完備性,與傳統(tǒng)的GAV模式映射方法做了比較,發(fā)現查詢的結果相同,由此可見基于HGAV的模式映射能夠查詢到正確的結果. 最后通過將本文所提出的方法應用實際工程項目中,通過程序運行效果驗證了本文所提出方法的可行性和實用性.
1Doan AH,Halevy A,Ives Z. Principles of Data Integration.Waltham,MA: Morgan Kaufmann,2012. 110-120.
2Lenzerini M. Data integration: A theoretical perspective.Proceedings of the Twenty-first ACM SIGMOD-SIGACTSIGART Symposium on Principles of Database Systems.Madison,WI,USA. 2002. 233-246.
3Abiteboul S,Duschka O. Complexity of answering queries using materialized views. Proceedings of the 17th ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems. Seattle,WA,USA. 1998. 254-263.
4Glenn IN. Multi-source data fusion in NATO coalition operations (a Canadian Army perspective on ISTAR).Proceedings of the Conference Record of the Thirty-Third Asilomar Conference on Signals,Systems and Computers.Pacific Grove,CA,USA. 1999. 407-411.
5Fonseca FT,Egenhofer MJ,Agouris P,et al. Using ontologies for integrated geographic information systems.Transactions in GIS,2002,6(3): 231-257. [doi: 10.1111/1467-9671.00109]
6Ullman JD. Information integration using logical views.Theoretical Computer Science,2000,239(2): 189-210. [doi:10.1016/S0304-3975(99)00219-4]
7姚崇東. 基于XML的多源異構數據集成的實現方法研究[碩士學位論文]. 哈爾濱: 哈爾濱工程大學,2007.
8朱珊娜,李書琴,安福定. XML文檔到關系數據庫的轉換研究. 計算機工程與設計,2008,29(21): 5507-5509,5571.
9張永新. 面向Web數據集成的數據融合問題研究[博士學位論文]. 濟南: 山東大學,2012.
10許平格. 數據庫管理系統(tǒng)中查詢優(yōu)化的設計和實現[碩士學位論文]. 杭州: 浙江大學,2005.
11鐘將,宋娟. 基于本體的異構數據集成框架. 計算機工程,2011,37(14): 44-46. [doi: 10.3969/j.issn.1000-3428.2011.14.013]
12劉偉,孟小峰,孟衛(wèi)一. DeepWeb數據集成研究綜述. 計算機學報,2007,30(9): 1475-1489.
13化柏林. 多源信息融合方法研究. 情報理論與實踐,2013,36(11): 16-19.
14王艷華. 基于中間件技術的分布式數據集成研究與實現[碩士學位論文]. 武漢: 武漢理工大學,2006.
15Gao JJ,Xiao JQ. Research on heterogeneous data access and integration model based on OGSA-DAI. Proceedings of the 2013 5th International Conference on Computational and Information Sciences. Shiyang,China. 2013. 1690-1693.