孫 凱 賈 萍 李威蓉 諸云強5,6 楊 杰 侯志偉 王筱萱
(1.中國科學院地理科學與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101;2.中國科學院大學,北京 100049;3. 國土資源部信息中心, 北京 100812;4.山東理工大學建筑工程學院,山東淄博 255000;5.白洋淀流域生態(tài)保護與京津冀可持續(xù)發(fā)展協(xié)同創(chuàng)新中心,河北保定 071002;6.江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇南京 210023)
地學數據本體支持下的科學數據集成方法
孫 凱1,2賈 萍3李威蓉4諸云強1,5,6楊 杰1,2侯志偉1,2王筱萱1
(1.中國科學院地理科學與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101;2.中國科學院大學,北京 100049;3. 國土資源部信息中心, 北京 100812;4.山東理工大學建筑工程學院,山東淄博 255000;5.白洋淀流域生態(tài)保護與京津冀可持續(xù)發(fā)展協(xié)同創(chuàng)新中心,河北保定 071002;6.江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇南京 210023)
科學數據的語義異構是數據集成共享的主要瓶頸。數據本體是解決數據語義異構的有效方法。首先在系統(tǒng)分析地學數據特征的基礎上,提出地學數據本體的總體架構,重點研究地學數據本質內容本體和形態(tài)本體,并構建了地學數據本體庫。進一步結合科學數據集成的需求,提出基于地學數據本體的數據集成總體流程。在此基礎上,以科技基礎性工作專項產出的科學數據為例,開展地學數據本體支持下的科學數據集成方法應用研究,證明本方法的可行性和有效性。
地學數據本體;語義異構;科學數據;數據集成;映射關系
科學數據包含基本科學技術數據、資料及其相關信息[1],通常分為兩大類型,一類是行業(yè)部門按照統(tǒng)一的規(guī)范標準長期采集和管理的科學數據;一類是國家各類科技計劃項目在研究過程和結果中產生的并為支持科學研究而通過觀測、監(jiān)測、試驗等站點采集的科學數據[2]。隨著國家逐步加大對科學研究的投入,科學技術迅猛發(fā)展,科學數據迅速積累。與此同時,科學研究逐漸向以數據為中心、以數據為驅動的數據密集型科研范式(“第四范式”)轉變[3],科學數據的集成共享逐漸成為迫切需求。
有效的數據集成是數據共享、傳播及應用的前提,是數據價值最大化的基礎,它是指將分散的部分結合形成一個整體,將數據有機地關聯(lián)起來[4]。數據集成不是簡單地將數據合并在一起,而是數據集的重建模過程,集成時需充分考慮數據自身特征。數據的來源、格式、學科領域等的不同,使得數據間存在顯著的異構性。常用的聯(lián)邦數據庫、中間件和數據倉庫三種異構數據集成方法,可以有效解決數據的結構異構、語法異構和系統(tǒng)異構,但無法解決數據間的語義異構。
本體是對共享概念模型明確的形式化規(guī)范說明[5-6],可以用于描述全部數據源共同認可的、可共享的知識,因而本體可作為數據集成的語義基礎。為了在數據集成過程中,充分考慮數據元素間的語義異構,有效解決語義異構問題[7],基于本體的異構數據集成方法已成為研究的熱點[7-13]。Wache等[9]從本體角色、表示、映射和工程4個方面對基于本體的數據集成方法進行了綜合分析,并根據本體在數據集成過程的使用方式將其劃分為單一本體方法、多本體方法和混合本體方法。Fu等[8]以異構數據集成為目標,采用形式概念分析方法實現半自動化構建本體,并以工業(yè)數據集為案例證明了該方法的適用性。李星毅等[10]采用基于混合本體的異構數據集成方法,通過構建全局和局部本體以及它們之間的映射關系,實現了數據的集成。朱勤斯等[11]詳細闡述了基于本體的數據集成方法的步驟,并采用語義網技術研發(fā)了數據集成系統(tǒng)。
地學領域的本體理論及其應用研究已取得豐碩的成果,形成了GeoNames[14]、Time Ontology in OWL等經典地理時空本體以及土地利用本體[15]以及Chinese Time Ontology[16]等領域本體,在地學本體的概念、形式化表達、應用等方面,為本文提供了堅實的研究基礎。但上述成果或是基礎本體而過于通用,或是應用驅動的領域本體而較為狹窄,均無法適用于地學數據的集成共享。多源地學數據的集成與共享,需要有專門的“數據本體”的支撐來處理數據間的語義異構,實現對數據信息的統(tǒng)一化、規(guī)范化描述,以達到數據集間語義的共同理解,實現數據真正的有機集中。
綜上所述,本文提出通過構建專門的“數據本體”來解決地學數據集成共享中的語義異構難題。
地學數據是表達特定地理位置上,現實世界中地理現象或實體的狀態(tài)、屬性以及分布特征等信息的數據[17],呈現分布式、多尺度(時間多尺度和空間多尺度)、不確定性等特點。其具有時空、要素等基本特征,還有數據形態(tài)、來源等內容。其中,時空、要素特征是數據內容的決定因素和唯一性標識,稱之為數據的本質特征[18]。形態(tài)特征[19]是對“數據形狀”的描述,包含數據基準、格式、類型、比例尺、單位等內容。來源特征是指數據在完整的生命周期(數據從創(chuàng)建到銷毀的過程)內,記錄在數據活動(數據采集、數據加工、數據分發(fā)、數據管理等)過程中所涉及的數據源、責任人、責任團體、時間、空間等相關信息。
地學數據集成是在統(tǒng)一的數據基準下,不同類型和格式的數據時空、屬性信息的有機集中,集成過程事實上是數據的本質和形態(tài)信息的集成。所以,基于地學數據本體的數據集成主要需要時空本體、要素本體和形態(tài)本體作為語義支撐。地學數據本體是對地學數據領域的共享知識(概念及其關系)的形式化規(guī)范說明,即地學數據知識框架是本體構建的基礎。本文以下內容將提出地學數據本體的總體框架,并重點闡述支撐地學數據集成的本質和形態(tài)本體。
地學數據本體實現數據本質、形態(tài)和來源等語義信息的規(guī)范化描述,形成對應的本質內容本體、形態(tài)本體及來源本體,三者呈現與數據本身依次遞減的耦合關系,其總體框架如圖1所示。本質內容本體是地學數據本體的核心內容和基本維度,反映數據的時空、要素等核心內容。形態(tài)本體是對本質內容本體的重要補充,描述“數據的形狀”信息[19]。本質和形態(tài)本體共同構成了數據本身內容的語義描述。而來源本體是對數據來源信息的規(guī)范化描述,是從數據使用的角度,對數據的質量和可靠性進行輔助評估,包括數據源、責任者、采集方法和加工方法等。
地學數據本質內容本體由時間本體、空間本體和要素本體組成。時間本體是對地學數據中涉及的時間概念及其關系的規(guī)范化表達,可分為基礎時間本體和領域時間本體。其中,基礎時間本體包含時間單位、時間關系及時間坐標系等與領域無關的通用時間概念,而領域時間本體包含歷史朝代、歷史事件、地質年代等領域應用時間概念。時間關系是時間實體在時間坐標系上的相互作用關系[20],根據時間區(qū)間代數理論[21],可以分為相接、相離、相交、相等和包含五類關系??臻g本體是地學空間實體及其位置、形狀、大小、狀態(tài)等屬性,以及相互間關系的形式化表達,主要包括境界區(qū)劃本體、陸地水系本體、陸地地形本體、海域本體等??臻g關系主要有拓撲關系、方位關系和度量關系3種。要素本體描述數據所涵蓋的專題內容。本文結合科技基礎性工作專項產生的科學數據(以下簡稱“科技基礎性工作科學數據”)現況,參考《學科分類與代碼國家標準》[22],并根據其學科分類對要素特征進行分析總結。要素特征間的關系主要是指其在學科類別中的層次(包含)關系。
圖1 地學數據本體總體框架
形態(tài)本體實現在數據表達與可視化、組織與存儲過程中形成的內在結構特征和外在形狀特征等概念及其關系的語義表達,主要由數據格式本體、數據類型本體、存儲介質本體,數據基準本體、數據精度本體,數據單位本體、數據語言本體等組成。形態(tài)本體的概念間不存在統(tǒng)一的關系體系,其概念關系主要由各個子概念的實例間關系組成。例如數據格式間的版本關系、擴展限定關系、容納關系、同一家族關系等。
來源本體主要由數據活動本體和數據責任者本體組成。來源概念間關系主要包含數據間、數據活動間、數據責任者間及其相互之間的多重關系。例如,數據間的融合關系、衍生關系,數據活動間的共生關系,數據責任者間的授權關系、合作關系等。
本體構建是利用本體構建工具將本體概念、屬性、關系、實例和約束等實現為本體文件的過程。目前,本體構建的方法主要有骨架法[23]、七步法[24]、企業(yè)建模法[25]、Methontology方法[26]和Bernaras方法[27]等。此外,為了避免由于領域知識不斷擴展和更新而導致本體的大規(guī)模重構,出現了本體的模塊化構建方法[28]。本文在七步法的基礎上,融合模塊化的構建原則,形成地學數據本體構建的總體流程(圖2)。本體構建工具采用protégé。
本體模塊劃分是在考慮“模塊內聚合度高和模塊間耦合度低”的分解原則基礎上,將地學數據本體的概念層次關系映射為本體的模塊結構。首先,地學數據本體總體上劃分為基礎地學數據本體和領域地學數據本體。其中,基礎地學數據本體包含通用的、領域無關的模塊,例如時間關系、空間關系、度量單位、數據格式等。領域地學數據本體支撐領域相關應用,包括歷史年代、地質年代、行政區(qū)劃等。然后,依據概念層次關系逐層往下即可完成本體的模塊劃分。
按照地學數據本體的模塊設計,逐個構建。在構建過程中,結合多種方式提升本體開發(fā)效率:(1)復用現有的本體。例如復用已有的行政區(qū)劃本體、數據單位本體等。(2)結構化知識的半自動化構建。網絡上存在的與地學數據本體相關的結構化知識,可以直接轉換為OWL本體文件。例如,可將Access存儲的EPSG數據集轉換為空間基準本體,將《學科分類與代碼國家標準》轉換為要素特征本體。(3)手工構建。對于非結構化的知識,需要采用手工方式進行構建。本體模塊構建完成后,使用protégé的本體引用功能,按照模塊劃分的逆過程,將本體模塊進行集成,最終形成地學數據本體庫。圖3為已構建的地學數據本體概念結構圖。
圖2 地學數據本體構建流程
目前,已構建的地學數據本體庫包含了近230個本體文件、450個概念、256個對象屬性和112個數據屬性以及9700多個實例。主要模塊內容如表1所示。
基于本體的數據集成方法是指通過明確無歧義的語義表達,利用機器可讀的方式描述數據及其相互關系,建立多源異構數據間的相互映射關系,實現面向語義的數據集成。本體作為數據源的公共語義描述,能夠實現數據間基于知識單元的匹配,發(fā)現數據間的隱含關系,因而可以輔助實現更為科學有效的數據集成。按照本體在數據集成中的角色劃分,目前主要有3種方式,即單一本體方式、多本體方式和混合本體方式[9]。
本文結合地學數據本體和科技基礎性工作科學數據的實際情況,采用混合本體的方式進行數據集成,并提出基于地學數據本體的科學數據集成總體流程(圖4)。
(1)本體構建。本體構建的目的是為數據提供統(tǒng)一的、規(guī)范化的語義表達基礎,實現數據在語義上的同構。本體構建需完成地學數據本體庫和推理規(guī)則的建立。
(2)基于本體的數據標注。提取數據描述信息,與地學數據本體庫中提供的概念語義知識進行逐層匹配,將描述信息以本體中概念的形式表示,構造明確且無歧義的、結構化的數據集特征集合,為下一步映射關系的生成提供基礎。
圖3 地學數據本體概念結構圖
表1 已構建地學數據本體主要模塊內容
圖4 地學數據本體支持下的科學數據集成總體流程
(3)映射關系生成。映射關系指具有相同或相似語義的概念間的對應關系,有1:1、1:m、1:n、m:n等4種。此處主要指本體與數據集間的映射,實現本體概念與數據集特征集合間的語義對齊。映射關系生成過程為:以數據集語義標注的特征集合為基礎,以地學數據本體包含的概念及概念間關系為語義空間,利用基于規(guī)則的本體推理機制實現語義擴展,從而生成標注數據集的特征集合與本體庫中概念間的映射關系。數據與本體間的映射關系間接實現了數據間的映射。
(4)映射轉換。根據生成的映射關系,將映射同一個目標概念的數據集成起來。重復此步,最終完成所有數據的集成。
(5)結果檢驗及評價。檢查數據集成的結果,將其中由于本體庫的不完善而導致的錯誤進行反饋,實現本體庫的修正和更新。
科技基礎性工作已積累了大量數據資料,產出了系統(tǒng)的科學數據、調查報告、科技資料、圖書圖件等成果。截止到2017年7月,僅本文所依托的科技基礎性工作專項重點項目“科技基礎性工作專項數據集成整編”已接收匯交的數據量達2.17 TB,涉及大氣、材料、海洋、地理、生物、土壤、植物、動物等學科領域,涵蓋了科學數據、志書典籍、自然科技資源、計量基標準、標準規(guī)范、文獻資料等類型,時間跨度在20年以上,覆蓋國內大部分地區(qū)以及俄羅斯、蒙古、吉爾吉斯斯坦等國家??茖W數據具有來源多樣、內容豐富、跨學科等特點,使得數據間存在顯著的語義異構,導致數據未能得到有效的集成整編,也就無法產生可直接共享利用的數據產品,間接阻礙了科學數據的共享和傳播。
本文在地學數據本體支持下對科學數據進行集成。圖5表示數據先進行要素集成再進行空間集成的過程,表2和表3為數據集成前后的片段對比。首先,對數據信息進行要素語義標注,例如“長汀縣資源環(huán)境調查數據平均降雨量”和“福安市資源環(huán)境調查地面降水觀測數據”,這兩個數據集可用本體概念“降水”來標注,同時也生成數據集與概念間多對一的映射關系,并按照此映射關系進行數據集成。按照該方法將要素本體中同一要素所涉及的數據(如圖5中的降水、氣溫等)逐一集成。然后針對已完成要素集成的數據,逐要素按空間范圍集成。例如,降水數據“長汀縣資源環(huán)境調查數據平均降雨量”和“福安市資源環(huán)境調查地面降水觀測數據”映射的空間實體為“福建省”,按照此映射關系進行進一步數據集成。至此,實現了數據在要素和空間上的雙重集成,解決了數據語義異構導致的科學數據集成困難的問題。
本文闡述了地學數據的本質、形態(tài)、來源特征,地學數據本體的總體架構及內容,本體的構建,提出了基于地學數據本體的數據集成方法。
圖5 科技基礎性工作科學數據集成過程
表2 數據集成前
表3 數據集成后
(1)現有科學數據普遍存在語義異構,阻礙了數據的集成。本文以地學數據語義為切入口,構建了地學數據本體庫,提出了基于地學數據本體的科學數據的集成方法。經科技基礎性工作科學數據集成的案例研究,證明了本方法的科學性和適宜性。
(2)在本研究中,地學數據本體庫略顯粗糙,尚需繼續(xù)細化和完善其結構和內容,補充遺漏的概念、關系、屬性等。此外,數據標注和映射關系的完成依賴于手工方法,但隨著未來數據量的增大,其限制性將進一步顯現。因此,數據標注和映射關系的自動化處理將是未來研究的重點。
[1]黃鼎成, 李曉波, 莫紀宏. 科學數據共享法規(guī)體系建設的若干思考[J]. 中國基礎科學, 2003(6): 38-43.DOI: 10.3969/j.issn.1009-2412.2003.06.008.
[2]孫九林, 王卷樂. 探索分散科學數據資源共享之路:記“地球系統(tǒng)科學數據共享網”[M]. 北京: 中國科學技術出版社, 2008.
[3]HEY T, TANSLEY S, TOLLE K M. The fourth paradigm: data-intensive scienti fi c discovery[M]. WA: Microsoft Research Redmond, 2009.
[4]李軍, 莊大方. 地學數據集成的理論基礎與集成體系[J]. 地理科學進展, 2001, 20(2): 137-145. DOI: 10.11820/dlkxjz.2001.02.006.
[5]STUDER R, BENJAMINS V R, FENSEL D. Knowledge engineering: principles and methods[J]. Data &Knowledge Engineering, 1998, 25(1): 161-197. DOI:http: //dx.doi.org/10.1016/S0169-023X(97)00056-6.
[6]GRUBER T R. Toward principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-computer Studies, 1995, 43(5):907-928. DOI: https: //doi.org/10.1006/ijhc.1995.1081.
[7]蔡暢. 基于地理本體的空間數據集成研究[D].鄭州:解放軍信息工程大學, 2008.
[8]FU G. FCA based ontology development for data integration[J]. Information Processing & Management,2016, 52(5): 765-782. DOI: http: //dx.doi.org/10.1016/j.ipm.2016.02.003.
[9]WACHE H, OGELE T V, VISSER U, et al. Ontologybased integration of information: a survey of existing approaches[C]// Ijcai’01 Workshop on Ontologies &Information Sharing, 2002: 108-117.
[10]李星毅, 高文浩, 施化吉. 基于本體的異構數據集成方法[J]. 計算機工程與設計, 2009, 30(8): 1931-1933.
[11]朱勤斯, 虞慧群. 一種基于語義網技術和本體的數據集成方法[J]. 華東理工大學學報(自然科學版),2009, 35(1): 119-124.DOI: 10.3969/j. issn.1006-3080.2009.01.024.
[12]UITERMARK H T, OOSTEROM P J M V, MARS N J I, et al. Ontology-based integration of topographic data sets[J]. International Journal of Applied Earth Observations & Geoinformation, 2005, 7(2): 97-106. DOI: http://dx.doi.org/10.1016/j.jag.2005.03.002.
[13]王敬貴, 杜云艷, 蘇奮振, 等. 基于地理本體的空間數據集成方法及其實現[J]. 地理研究, 2009, 28(3):696-704. DOI: 10.11821/yj2009030014.
[14]GEONAMES. GeoNames geographical database[EB/OL].[2017-06-25]. http: //www.geonames.org/.
[15]李厚銀, 李景文, 朱文德, 等. 土地利用信息本體的構建方法研究[J]. 測繪與空間地理信息, 2015(6): 36-38. DOI: 10.3969/j.issn.1672-5867.2015.06.010.
[16]ZHANG C, CAO C, SUI Y, et al. A Chinese time ontology for the Semantic Web[J]. Knowledge-Based Systems,2011, 24(7): 1057-1074. DOI: http: //dx.doi.org/10. 1016/j.knosys.2011.04.021.
[17]李軍, 周成虎. 地學數據特征分析[J]. 地理科學, 1999,19(2): 158-162. DOI: 10.13249/j.cnki.sgs. 1999. 02.158.
[18]ZHU Y, ZHU A X, SONG J, et al. Multidimensional and quantitative interlinking approach for Linked Geospatial Data[J]. International Journal of Digital Earth, 2017, 10(9): 923-943. DOI: 10.1080/17538947.2016.1266041.
[19]孫凱, 諸云強, 潘鵬, 等. 形態(tài)本體及其在地理空間數據發(fā)現中的應用研究[J]. 地球信息科學學報, 2016,18(8): 1011-1021. DOI: 10.3724/SP.J. 1047. 2016.01011.
[20]侯志偉, 諸云強, 高星, 等. 時間本體及其在地學數據檢索中的應用[J]. 地球信息科學學報, 2015, 17(4):379-390. DOI: 10.3724/SP.J.1047.2015.00379.
[21]ALLEN J F. Maintaining knowledge about temporal intervals[J]. Commun ACM, 1983, 26(11): 832-843.DOI: 10.1145/182.358434.
[22]GB/T 13745-2009, 中華人民共和國學科分類與代碼國家標準[S].2009.
[23]USCHOLD M, GRUNINGER M. Ontologies: principles, methods and applications[J]. The Knowledge Engineering Review, 1996, 11(2): 93-136. DOI: https://doi.org/10.1017/S0269888900007797.
[24]NOY N F, MCGUINNESS D L. Ontology development 101: a guide to creating your fi rst ontology[R]. Knowledge Systems laboratory, stanford university, 2001.
[25]GRUNINGER M, FOX M S. Methodology for the design and evaluation of ontologies[C]// Workshop on Basic Ontological Issues in Knowledge Sharing, 1995.DOI: 10.1.1.44.8723.
[26]GóMEZ-PéREZ A. Knowledge sharing and reuse[J].Handbook of Applied Expert Systems, 1998(10): 1-36.
[27]BERNARAS A, LARESGOITI I, CORERA J. Building and reusing ontologies for electrical network applications’[C]//proceedings of the ECAI, 1996: 298-302.
[28]林松濤. 模塊化本體建設研究[D]. 北京: 北京郵電大學, 2006.
Scientific Data Integration Method Based on Geodata Ontology
SUN Kai1,2, JIA Ping3, LI Weirong4, ZHU Yunqiang1,5,6, YANG Jie1,2, HOU Zhiwei1,2, WANG Xiaoxuan1
(1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101;2. University of Chinese Academy of Sciences,Beijing 100049; 3. Information Center, Ministry of Land and Resources, Beijing 100812; 4. School of Civil and Architectural Engineering, Shandong University of Technology, Zibo 255000; 5. Center for Collaborative Innovation in Baiyangdian Basin Ecological Protection and Sustainable Development of Beijing-Tianjin-Hebei,Baoding 071002; 6. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023)
Semantic heterogeneity of scientific data is main bottleneck for its integration and sharing. Data Ontology is an effective way to solves mantic heterogeneity of data. On the basis of systematic analysis of geodata characteristics, this paper puts forward the overall architecture of GeoData Ontology (GDO) and mainly studies essential characteristics ontology and morphological characteristics ontology of geodata and constructs GDO. Then, combining with the demand of scientific data integration, this paper puts forward the overall fl ow of data integration based on GDO. In the last part, this paper takes the example of scientific data of National Special Program on Basic Works for Science and Technology of China, researches application of scientific data integration method based on GDO andvalidates the feasibility and effectiveness of the proposed method.
geodata ontology, semantic heterogeneity, scienti fi c data, data integration, mapping relations
G203
A
10.3772/j.issn.1674-1544.2017.06.007
孫凱(1990—),男,中國科學院地理科學與資源研究所博士研究生,研究方向:地學本體及數據關聯(lián);賈萍(1979—),女,國土資源部信息中心碩士研究生,研究方向:國土資源信息化;李威蓉(1991—),男,山東理工大學碩士研究生,研究方向:地學數據來源及數據關聯(lián);諸云強(1977—),男,博士,中國科學院地理科學與資源研究所研究員,研究方向:地學數據共享關鍵技術,資源環(huán)境信息系統(tǒng)(通訊作者);楊杰(1990—),男,中國科學院地理科學與資源研究所碩士研究生,研究方向:地學模型數據匹配方法;侯志偉(1989—),男,中國科學院地理科學與資源研究所博士研究生,研究方向:語義Web服務;王筱萱(1983—),女,碩士,中國科學院地理科學與資源研究所工程師,研究方向:科學數據共享。
科技基礎性工作專項重點項目“科技基礎性工作數據資料集成與規(guī)范化整編”(2013FY110900);國家自然科學基金重點項目“網絡文本蘊含地理信息理解與知識圖構建”(41631177);貴州省公益性基礎性地質工作項目“貴州省巖溶地下水系統(tǒng)功能可持續(xù)利用性研究”(黔國土資地環(huán)函〔2014〕23號);貴州省公益性基礎性地質工作項目“貴州省國土資源可持續(xù)發(fā)展戰(zhàn)略研究”(黔國土資源函〔2016〕269號)。
2017年7月31日。