張 華,李 勁,鄭明輝(湖北民族學院計算機科學與技術(shù)系)
基于關(guān)聯(lián)數(shù)據(jù)的文物信息語義模型研究
張華,李勁,鄭明輝(湖北民族學院計算機科學與技術(shù)系)
針對當前數(shù)字文物共享的問題,提出了一個基于關(guān)聯(lián)數(shù)據(jù)的文物信息語義模型,通過文物信息本體構(gòu)建實現(xiàn)了各種文物要素之間的語義關(guān)聯(lián),并為信息共享提供了統(tǒng)一標準,最后用實例驗證了模型的可行性。
關(guān)聯(lián)數(shù)據(jù);文物信息;本體;唐崖土司城
文物是中華民族的一個象征,它具有很高的藝術(shù)欣賞及歷史研究價值。自從1982年《中華人民共和國文物保護法》出臺后,各級地方政府通過設(shè)立傳統(tǒng)博物館、文物館、紀念館等形式進行文物及資料實體保護,但在資源采集、保護及展示方面受到時間、空間的限制。近年來,隨著計算機軟硬件技術(shù)、多媒體技術(shù)、互聯(lián)網(wǎng)技術(shù)尤其是三維虛擬技術(shù)、移動互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,文物數(shù)據(jù)庫、數(shù)字博物館、虛擬博物館、網(wǎng)上博物館、掌上博物館等各種數(shù)字化手段層出不窮,極大地拓寬了文物信息的保護渠道及展示方式。但目前各地數(shù)字博物館普遍還是基于本地數(shù)據(jù),其信息組織在數(shù)據(jù)格式、構(gòu)建平臺及具體技術(shù)應(yīng)用上都存在很大差異,難以實現(xiàn)互通互連,從而削弱了數(shù)字化文物資源共享的優(yōu)勢。
為有效解決這一問題,本文針對我國文物信息的特點,在借鑒語義網(wǎng)知識組織方法的基礎(chǔ)上,設(shè)計了一個基于關(guān)聯(lián)數(shù)據(jù)的文物信息發(fā)布模型,基于該信息模型實現(xiàn)對文物組成要素、各要素之間關(guān)聯(lián)關(guān)系的統(tǒng)一語義描述與展示,為文物信息的語義化組織提供了一種有效的方法,從而為實現(xiàn)數(shù)字化文物資源共享奠定基礎(chǔ)。
上世紀80年代初,我國出臺了文物保護法,各地通過傳統(tǒng)方式進行信息采集及管理,雖然收集了大量第一手資料,但信息化程度很低。2001年7月16日,故宮數(shù)字博物館網(wǎng)站正式上線,這是我國第一個數(shù)字博物館。同年,國家文物局、財政部聯(lián)合啟動了一項全國性的“文物調(diào)查及數(shù)據(jù)庫管理系統(tǒng)建設(shè)”項目,這一系列事件標志著國內(nèi)的文物信息管理上了一個新臺階。據(jù)國家文物局數(shù)據(jù)中心統(tǒng)計,截至2010 年8月31日24時,全國絕大部分省份已順利完成二、三級館藏珍貴文物數(shù)據(jù)的備案工作。[1]建立了以文物數(shù)據(jù)采集、管理為中心的適合數(shù)字化技術(shù)要求的標準規(guī)范體系,研發(fā)了《館藏文物信息管理系統(tǒng)》、《省級館藏文物數(shù)據(jù)管理系統(tǒng)》等系列軟件,培養(yǎng)了一批文博信息化專業(yè)人才,目前已全面進入以數(shù)據(jù)整理和應(yīng)用工作為核心的新階段。[2]該階段的主要任務(wù)是如何突破這些數(shù)據(jù)在時間與空間上的限制,打破數(shù)據(jù)與數(shù)據(jù)之間的信息壁壘,挖掘這些海量數(shù)據(jù)中的寶貴知識。傳統(tǒng)數(shù)據(jù)庫及信息系統(tǒng)架構(gòu)的方式已無法勝任,迫切需要新的技術(shù)體系來解決。
關(guān)聯(lián)數(shù)據(jù)作為“通過共享模型,建立數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)網(wǎng)”,為解決目前傳統(tǒng)信息管理缺陷,將文物信息領(lǐng)域所包含的全部知識及其語義關(guān)聯(lián)進行系統(tǒng)、全面的揭示奠定了方法論基礎(chǔ)。關(guān)聯(lián)數(shù)據(jù)(Linked Data)最早由互聯(lián)網(wǎng)之父Tim Berners-Lee于2006年7月提出,他的思想核心就是構(gòu)建一個數(shù)據(jù)與數(shù)據(jù)互聯(lián)的大數(shù)據(jù)網(wǎng),在這張網(wǎng)中,每個數(shù)據(jù)點都按照相同的底層規(guī)范RDF三元組模型組織數(shù)據(jù),然后用一個世界唯一標識URI發(fā)布到網(wǎng)上,數(shù)據(jù)之間通過URI進行互訪,從而實現(xiàn)了真正意義上的信息共享。[3]國外在關(guān)聯(lián)數(shù)據(jù)研究方面一直處在前列,2007年5月由萬維網(wǎng)聯(lián)盟和關(guān)聯(lián)數(shù)據(jù)社區(qū)發(fā)起的“關(guān)聯(lián)開放數(shù)據(jù)”(Linked Open Data,LOD)項目,其中的數(shù)據(jù)集所涉及的知識領(lǐng)域涵蓋了社交、政府、出版物、生命科學等多個領(lǐng)域,2011年9月LOD云中的數(shù)據(jù)集數(shù)量達到了295個數(shù)據(jù)集,截至目前,數(shù)據(jù)集已超過1014個;[4]隨著開放數(shù)據(jù)影響的擴大,各國政府及企業(yè)也積極加入,美國、英國、澳大利亞、新西蘭、荷蘭等國家先后建立了政府開放數(shù)據(jù);[5,6]紐約時報、英國BBC及全球最大的專業(yè)零售商之一的百思買等紛紛將自己的企業(yè)數(shù)據(jù)進行了關(guān)聯(lián)數(shù)據(jù)發(fā)布。[7,8]國內(nèi)早在2008年就開始關(guān)注關(guān)聯(lián)數(shù)據(jù)研究,如白海燕等針對關(guān)聯(lián)數(shù)據(jù)構(gòu)建提出了基于實體文本、圖相似和規(guī)則的三種自動構(gòu)建方法;[9]沈志宏開展了基于科技文獻、科技數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)的發(fā)布流程及關(guān)鍵技術(shù)研究;[10]歐石燕基于關(guān)聯(lián)數(shù)據(jù)提出語義數(shù)字圖書館的概念,并給出了包含元數(shù)據(jù)層、本體層、關(guān)聯(lián)數(shù)據(jù)層和應(yīng)用層的體系模型;[11]朝樂門等采用語義Web編程技術(shù)實現(xiàn)面向DBpedia、Yago、FOAF、Freebase等不同關(guān)聯(lián)數(shù)據(jù)集的知識地圖系統(tǒng)等。[12]但總的來說,國內(nèi)關(guān)聯(lián)數(shù)據(jù)研究進展相對緩慢,文物文化領(lǐng)域應(yīng)用相對較少。
本研究針對我國文物信息的特點及關(guān)聯(lián)數(shù)據(jù)的發(fā)布流程,提出了一個關(guān)聯(lián)數(shù)據(jù)驅(qū)動的文物信息資源語義組織框架,該框架由4層結(jié)構(gòu)組成,如圖1所示。
(1)數(shù)據(jù)層。文物資源數(shù)據(jù)層是各種文物信息的來源,包括考古勘察、文保工程、館藏文物信息、各類文物數(shù)據(jù)庫(文物征集、科技保護等信息庫)及各類網(wǎng)上文物信息等。該層數(shù)據(jù)來源豐富、形式多樣,為上層架構(gòu)提供了基礎(chǔ)數(shù)據(jù)支撐。
(2)語義轉(zhuǎn)化層。關(guān)聯(lián)的基礎(chǔ)是數(shù)據(jù)的規(guī)范化、語義化。語義轉(zhuǎn)化層通過本研究構(gòu)建的基于文物信息的本體模型將數(shù)據(jù)層提供的各類文物信息資源進行規(guī)范化分類處理,將數(shù)據(jù)語義化,這部分工作主要包括:類和屬性定義、URI標識、文物詞匯選擇以及RDF三元組描述。
(3)數(shù)據(jù)網(wǎng)絡(luò)關(guān)聯(lián)層。本層是關(guān)聯(lián)數(shù)據(jù)的核心層,依據(jù)關(guān)聯(lián)邊界的不同分為內(nèi)部關(guān)聯(lián)與外部關(guān)聯(lián)。內(nèi)部關(guān)聯(lián)主要是文物機構(gòu)資源集內(nèi)部的信息關(guān)聯(lián),外部關(guān)聯(lián)指文物機構(gòu)資源集與采用不同詞匯集的其他外部文物資源集進行信息關(guān)聯(lián)。通過大大小小的內(nèi)外關(guān)聯(lián),各種RDF資源通過HTTP URI可以相互訪問,從而形成了一張大的語義知識網(wǎng)。
(4)應(yīng)用服務(wù)層?;跀?shù)據(jù)網(wǎng)絡(luò)關(guān)聯(lián)層,應(yīng)用服務(wù)層主要提供面向用戶的各類應(yīng)用,如文物信息個性化服務(wù),文物、歷史、地理等信息融合應(yīng)用,文物語義檢索,地域文化文物關(guān)聯(lián)服務(wù)等。
圖1 基于關(guān)聯(lián)數(shù)據(jù)的文物信息語義模型架構(gòu)
以上語義模型架構(gòu)數(shù)據(jù)層的文物來源數(shù)據(jù)沒有統(tǒng)一規(guī)范,因此語義轉(zhuǎn)化層需要提供一個描述文物概念、屬性、分類之間關(guān)系的統(tǒng)一本體模型。在文化遺產(chǎn)領(lǐng)域,國外已經(jīng)有了一些比較成熟的領(lǐng)域本體模型,如ICONCLASS、TGN、AAT、CIDOCCRM、ABC、ULAN等,相對其他方案,CIDOCCRM歷時十多年被眾多有影響力的項目廣為采用,且能表示動態(tài)文物信息,[13]但它在表達人物方面不夠靈活,因而本文在CIDOCCRM[14]的基礎(chǔ)上結(jié)合人物本體Foaf[15]進行構(gòu)建。
文物一般都具有歷史、藝術(shù)、科學等方面的價值。比如世界文化遺產(chǎn)恩施咸豐唐崖土司城遺址,除了可觀看到的由張王廟、牌坊、衙署區(qū)、土王墓等組成的古遺址之外,還有其背后的歷史人文背景?!扒G南雄鎮(zhèn)”牌坊,就是明朝天啟三年(1623)明熹宗皇帝為表彰土司王覃鼎率土家軍隊為朝廷征戰(zhàn)立下顯赫戰(zhàn)功而賜予的。所以定義一個文物除了它的體貌特征之外,還有其歷史文化背景資料,包括時間、地點、人物、事件等要素,圍繞這五個要素,提煉關(guān)鍵特性,從不同信息渠道抽取數(shù)據(jù),最后通過統(tǒng)一模型對外提供查詢推理接口。最終構(gòu)建的本體模型如圖2所示。
圖2 文物信息本體模型
(1)文物實體。模型中的中心實體,主要描述文物相關(guān)的物理信息,包括文物名稱、圖片、材質(zhì)、形狀、大小、說明等。
(2)人物實體。此處的人指代較廣,既可以表示文物的創(chuàng)建者,也可以指歷史擁有者,還可以指目前的管理者,其個體信息包含姓名、性別、年齡、照片和所屬組織等。
(3)時間實體。代表一個時間段而非時間點,由開始、持續(xù)、結(jié)束等屬性來定義,表示某個特定時期等。
(4)地點實體。主要描述地名、地址、空間坐標等地理相關(guān)信息。
(5)事件實體。通過與其他實體關(guān)聯(lián),描述文物起源、轉(zhuǎn)移、毀壞、修補等歷史軌跡。除了以上主要實體外,還有各個實體之間的關(guān)系,其中部分關(guān)系屬性詳細說明如下表所示。
本文以恩施咸豐唐崖土司城遺址展館為例,基于上文提出的文物本體及語義模型,將館藏考古勘察、文保工程、歷史文獻、文物古跡等數(shù)據(jù)資料以關(guān)聯(lián)數(shù)據(jù)形式發(fā)布,一方面實現(xiàn)本地數(shù)據(jù)的語義瀏覽、查詢,另一方面為下一步關(guān)聯(lián)恩施州8縣市博物館數(shù)據(jù)奠定基礎(chǔ)。
5.1源數(shù)據(jù)整理
目前,館藏各類資源雖然大部分都實現(xiàn)了電子化,但都是說明、介紹、物品清單等形式,且都以word、excel格式存儲,所以首先要以前述文物信息本體模型為指導原則,借助關(guān)系型數(shù)據(jù)庫將各類數(shù)據(jù)資料進行存儲,本文采用mysql數(shù)據(jù)庫,在底層建立了數(shù)據(jù)表,其中核心的五個數(shù)據(jù)表為:cultrelic、place、person、timespan、event,關(guān)系如圖3所示。
表 文物實體關(guān)系
5.2基于D2RQ的關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換及發(fā)布
上述數(shù)據(jù)存儲屬于關(guān)系型數(shù)據(jù)庫模式,要和前述文物信息本體實現(xiàn)映射,以便在應(yīng)用服務(wù)層通過Sparql查詢時,本體查詢結(jié)果和數(shù)據(jù)庫能保持同步,因此需借助映射平臺,目前相關(guān)工具軟件比較多,例如:D2RQ、Linked Media Framework、Virtuoso U-niversal Server、Pubby等,依據(jù)易用性、開源性原則,這里選用D2RQ作為關(guān)聯(lián)數(shù)據(jù)映射及發(fā)布平臺。
D2RQ[16]是一個開源軟件,主要包括D2R Server,D2RQ Engine以及D2RQ Mapping語言三部分,它通過D2RQ Engine使用一個可用D2RQ Mapping語言定制的映射文件將關(guān)系數(shù)據(jù)庫映射成虛擬RDF格式文件,然后通過D2R Server提供對 RDF數(shù)據(jù)的查詢訪問接口,以供上層的 RDF瀏覽器、SPARQL查詢客戶端以及傳統(tǒng)的HTML瀏覽器調(diào)用。
圖3 數(shù)據(jù)表關(guān)系
通過D2R,對cultrelic、place、person、timespan、event等五個數(shù)據(jù)表進行了RDF關(guān)系映射,映射示例如下:
5.3咸豐唐崖土司城遺址展館語義Web系統(tǒng)
通過關(guān)聯(lián)數(shù)據(jù)發(fā)布,最終生成系統(tǒng)界面。通過點擊文物,展示目前館藏信息列表,點擊任意文物名稱,調(diào)出文物詳細信息,其中又有事件、時間、地點等鏈接,依次查看可分別顯示具體內(nèi)容,實現(xiàn)了文物信息的語義互聯(lián)。
通過SPARQL[17]查詢接口,可以自定義查詢條件,對建立的語義網(wǎng)進行關(guān)聯(lián)查詢,比如查詢當前所有文物的名稱、前任所有者及用途,并可返回結(jié)果。
本文提出了一個基于關(guān)聯(lián)數(shù)據(jù)的文物信息語義模型,并以其中的文物本體為核心實現(xiàn)了各種要素之間的語義關(guān)聯(lián),最后以咸豐唐崖土司城遺址館藏資源關(guān)聯(lián)數(shù)據(jù)發(fā)布為例,驗證了模型的可行性。
相對于常規(guī)的文物管理信息系統(tǒng)建設(shè),本模型特點如下:
(1)基于RDF的底層架構(gòu)解決了以往本地數(shù)據(jù)與外界數(shù)據(jù)信息共享的難點;
(2)以文物本體為中心的組織架構(gòu),突破了傳統(tǒng)單一信息存儲與管理的局限,實現(xiàn)了文物要素之間的語義關(guān)聯(lián);
(3)為進一步的文物知識挖掘與推理工作奠定了基礎(chǔ)。
下一步的研究工作將集中在兩方面:一是考察恩施州其它縣市文物信息系統(tǒng),擴展完善本文所提出的語義模型,以實現(xiàn)本州8縣市的文物信息關(guān)聯(lián);二是進一步研究基于關(guān)聯(lián)數(shù)據(jù)的知識挖掘與推理,看能否從已有的文物信息中找到新的線索,為本州的文化事業(yè)提供技術(shù)支撐,同時也為其他研究者提供借鑒。
[1]國家文物局[EB/OL].[2010-09-09].http://www. sach.gov.cn/art/2010/9/9/art_98_3197.html.
[2]“文物調(diào)查及數(shù)據(jù)庫管理系統(tǒng)建設(shè)”項目紀實[EB/OL].[2014-08-30].http://www.capitalmuseum.org.cn/zjsb/content/2011-11/11/content_35981. htm.
[3]Bemers-LeeT.LinkedData[EB/OL].[2013-03-06].http://www.w3.org/Design Issues/Linked Data.Htm.
[4]LODclouddiagram[EB/OL].[2014-08-30].http: //lod-cloud.net/.
[5]ThehomeoftheU.S.Government'sopendata[EB/OL]. [2015-08-21].http://data.gov/.
[6]OpeningupGovernment[EB/OL].[2015-08-21]. http://data.gov.uk/.
[7]BBC LinkedData[EB/OL].[2015-08-21].http: //www.bbc.co.uk//academy/technology/software-engineering/semantic-web.
[8] How Best Buy is Using The Semantic Web[EB/OL]. [2015-08-21].http://www.bbc.co..uk//academy/ technolog.
[9]白海燕,朱禮軍.關(guān)聯(lián)數(shù)據(jù)的自動關(guān)聯(lián)構(gòu)建研究[J].現(xiàn)代圖書情報技術(shù),2010(2):44-49.
[10]沈志宏,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布流程與關(guān)鍵問題研究——以科技文獻、科學數(shù)據(jù)的發(fā)布為例[J].中國圖書館學報,2013(2):53-62.
[11]歐石燕.面向關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字圖書館資源描述與組織框架設(shè)計與實現(xiàn)[J].中國圖書館學報,2012(6):58-71.
[12]朝樂門,等.面向開放關(guān)聯(lián)數(shù)據(jù)的知識地圖研究[J].圖書情報工作,2012(10):17-24.
[13]黃永欣.文化遺產(chǎn)資訊領(lǐng)域中的參考模型[J].圖書館學研究,2012(11):57-61.
[14]ICOM/CIDOC CRM Special Interest Group.CIDOC CRMVersion5.1.2[EB/OL].[2013-12-20].http: //www.cidoc-crm.org/docs/cidoc_crm_5_1_2.zip.
[15]FOAF[EB/OL].[2014-02-22].http://www. foaf-project.org/.
[16]D2RQ-Accessing Relational Databases as Virtual RDF Graphs[EB/OL].[2015-08-21].http://d2rq.org/.
[17]SPARQL1.1 Query Language[EB/OL].[2015-08 -21].http://www.w3.org/TR/sparql11-query/.
Research on Semantic Model of Cultural Relics Information Based on Linked Data
Zhang Hua,Li Jing,Zheng Ming-hui
In order to realize digital cultural relic information sharing,this article puts forward a cultural relics information semantic model based on linked data.The cultural relics information ontology can not only realize the association of each element of cultural relics but also can provide a standard for information sharing.Finally,the feasibility of the model is tested with a case study.
Linked Data;Cultural Relics Information;Ontology;Tangya Tusi Domain
G264.1;G250.76
A
1005-8214(2016)07-0051-05
本文系湖北省民宗委項目“網(wǎng)絡(luò)中的武陵山區(qū)特色信息的檢索優(yōu)化研究”(項目編號:HBMW2013018)的研究成果。
張華(1978-),男,博士,湖北民族學院講師,研究方向:本體理論及應(yīng)用;李勁(1973-),男,博士,湖北民族學院教授,研究方向:數(shù)據(jù)挖掘及信息檢索;鄭明輝(1972-),男,博士,湖北民族學院教授,研究方向:信息融合及安全。
2015-12-22[責任編輯]徐娜