国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館框架設(shè)計研究

2015-06-25 20:53石華
檔案管理 2015年4期
關(guān)鍵詞:元數(shù)據(jù)

石華

摘??要:本文介紹了關(guān)聯(lián)數(shù)據(jù)概念,提出了基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館概念,并設(shè)計了語義數(shù)字檔案館的框架,該框架具有四個層次:數(shù)據(jù)發(fā)布層、數(shù)據(jù)網(wǎng)、數(shù)據(jù)存取整合保存層和應(yīng)用層。其核心是用RDF三元組替換檔案數(shù)據(jù)庫,將傳統(tǒng)的檔案數(shù)據(jù)發(fā)布為關(guān)聯(lián)檔案數(shù)據(jù),實現(xiàn)檔案數(shù)據(jù)的共享、擴展和重用。

關(guān)鍵詞:語義數(shù)字檔案館;關(guān)聯(lián)數(shù)據(jù);元數(shù)據(jù);RDF

Abstract:This?paper?pointed?out?the?concepts?of?linked?data?,?proposed?a?conception?of?Semantic?Digital?Archives?on?based?on?linked?data,?and?designed?the?framework?of?the?Semantic?Digital?Archives,?which?includes?four?layers-?publication?layer,web?of?data?,data?access?integration?and?storage?layer?and?application?layer.The?core?of?the?framework?is?migrating?traditional?archive?data?to?Linked?Archive?Data?which?is?sharable,?extensible,?and?easily?re-usable.

Key?words:Semantic?digital?Archives;Linked?data;Metadata;RDF

1??前言

關(guān)聯(lián),或者說“互相聯(lián)系”的概念對于檔案行業(yè)并不陌生,比如檔案整理就要求保持文件之間的有機聯(lián)系,還有“參引”的概念等。檔案人員花費大量的人力物力來著錄檔案數(shù)據(jù),其目的之一就是揭示檔案和檔案責(zé)任者或其他背景之間的聯(lián)系,但其中的許多內(nèi)在聯(lián)系,并不能為計算機所理解和使用。檔案數(shù)據(jù)被局限于各個不同的軟件系統(tǒng)和數(shù)據(jù)庫中,沒有和網(wǎng)絡(luò)資源整合在一起。檔案數(shù)據(jù)基本上沒有成為一種廣為人知的網(wǎng)絡(luò)存在,能夠被方便地查找、標識、選擇、獲取、利用及為第三方開發(fā)新的應(yīng)用。近年來,關(guān)聯(lián)數(shù)據(jù)LD(Linked?Data)技術(shù)的興起,第一次為上述目標的實現(xiàn)提供了一種可能。

2??語義網(wǎng)及關(guān)聯(lián)數(shù)據(jù)概述

2.1??語義網(wǎng)與關(guān)聯(lián)數(shù)據(jù)概念。萬維網(wǎng)的發(fā)明人蒂姆·博納斯-李將下一代互聯(lián)網(wǎng)稱為“語義網(wǎng)”,并解釋說“語義網(wǎng)就是數(shù)據(jù)網(wǎng)”。所謂“語義”,是指遵循一個統(tǒng)一的標準,給每一片信息賦予一個計算機都能理解的“意義”,也就是“元數(shù)據(jù)”。在當前使用的萬維網(wǎng)上,網(wǎng)頁是信息資源的基本組織單位,每個網(wǎng)頁都有一個網(wǎng)址,即“統(tǒng)一資源標識”(URI),它們通過開發(fā)者定義的鏈接連接起來,用戶可以從一個網(wǎng)頁跳躍切換到另一個網(wǎng)頁,即網(wǎng)上沖浪。

在語義網(wǎng)上,數(shù)據(jù)將像網(wǎng)頁一樣,成為組織資源的單位。一個數(shù)據(jù),可以像萬維網(wǎng)上的網(wǎng)頁一樣獲得一個網(wǎng)址(即統(tǒng)一資源標識URI),同時,還有統(tǒng)一的語義對它進行描述。這樣,語義網(wǎng)上的數(shù)據(jù),就不再是一個死的數(shù)字,而是一個活的“細胞”,它可以被定位,還擁有和其他數(shù)據(jù)語義一致的標簽,這意味著它可以和其他數(shù)據(jù)相聯(lián)。之所以稱之為相“聯(lián)”,而不是相“連”,是因為,它們并不是像網(wǎng)頁一樣通過一個鏈接簡單連在一起,而是通過數(shù)據(jù)之間內(nèi)在的關(guān)系掛起鉤來,“聯(lián)”在一起。這種關(guān)系,不是隨便定義的,而是基于數(shù)據(jù)的含義和屬性產(chǎn)生的。?這種相聯(lián),就像兩個數(shù)據(jù)庫通過“主鍵”(Primary?key)相聯(lián)起來一樣,不同的是,這里的“主鍵”,是一個數(shù)據(jù)的元數(shù)據(jù)。

“語義網(wǎng),從某種程度上來說,就像一個全球性的數(shù)據(jù)庫?!Z義網(wǎng)不僅僅是把數(shù)據(jù)放上網(wǎng),它還要在數(shù)據(jù)之間創(chuàng)建聯(lián)接,數(shù)據(jù)一旦聯(lián)接,計算機和人都可以對數(shù)據(jù)進行探索:通過一個數(shù)據(jù)發(fā)現(xiàn)另外一些相關(guān)的數(shù)據(jù)?!盵1]這將是一次劃時代的革命。而關(guān)聯(lián)數(shù)據(jù)是一種推薦的最佳實踐,用來在語義網(wǎng)中使用URI(統(tǒng)一資源標識符,即網(wǎng)址)和RDF(資源描述框架)發(fā)表、分享、連接各類數(shù)據(jù)、信息和知識(引自維基百科)。蒂姆·博納斯-李概括出在網(wǎng)上發(fā)布關(guān)聯(lián)數(shù)據(jù)的四原則:

1.使用URI(統(tǒng)一資源標識符)作為任何事物的標識名稱。

2.使用HTTP?URI,任何人可以定位到具體的對象。

3.當有人訪問名稱時,提供有用的信息。

4.盡可能提供相關(guān)的URI,以使人們可以發(fā)現(xiàn)更多的信息。[2]

關(guān)聯(lián)數(shù)據(jù)可以說是語義網(wǎng)的一個簡化實現(xiàn)。

2.2???RDF?三元組舉例說明。RDF(Resource?Description?Framework)是一種信息資源描述框架,使用主體、謂詞、客體三段式描述現(xiàn)實世界實體(thing),回答兩種問題:

a.這個實體(thing)是什么?(屬性-值)

b.這個實體(thing)和其他實體(thing)有什么關(guān)系?

這兩種問題的答案都可以用三元組來描述,如:

姚明????出生于(birth?Place)??????上海

①[主體]?②[謂語(屬性)]??③[客體(值)]

圖1??三段式舉例

這個三元組就是RDF的表達方式:主體-謂詞-客體結(jié)構(gòu)。

謂詞、客體均盡可能使用已有的URI,如“姚明”可使用一個已有的唯一的網(wǎng)址

http://dbpedia.org/page/Yao_Ming,“上?!币彩褂靡粋€已經(jīng)存在的網(wǎng)址

http://dbpedia.org/page/Shanghai,這樣就可以生成一個RDF三元組:

圖2??RDF三元組

三元組的客體部分也可以變?yōu)橹黧w,能產(chǎn)生新的三段式。比如上海,還可以有自己的屬性和值。謂詞、客體允許其他人使用自己的數(shù)據(jù)。三段式的任何一部分都可以回答檢索問題,三段式的任何一部分都可以集中很多信息。比如來自某小學(xué)的姚明的畢業(yè)證書,可以與某網(wǎng)站上姚明的照片自動關(guān)聯(lián),只要兩者生成的RDF三元組中“姚明”使用的是同一個URI。信息從而不僅僅是信息,已經(jīng)轉(zhuǎn)化為相互聯(lián)接的知識。這種聯(lián)接是格式化數(shù)據(jù)的相聯(lián),不是文本的相聯(lián),是機器可理解和可處理的數(shù)據(jù),是對現(xiàn)有數(shù)據(jù)的再利用,可產(chǎn)生新的資源,其又被利用、再利用,可無限擴展下去。

這種自動關(guān)聯(lián),稱之為RDF鏈接。RDF鏈接是關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用最大的價值,它不僅可以對實體的內(nèi)部資源進行鏈接,還能夠?qū)崿F(xiàn)實體與實體之間的鏈接,從而將各自獨立分布的實體織成數(shù)據(jù)網(wǎng)絡(luò),使得用戶能跟隨RDF鏈接從一個實體遍歷到另一個實體,獲取更多更加標準化和規(guī)范化的數(shù)據(jù)資源。如下圖:

圖3??RDF鏈接

3??語義數(shù)字檔案館概念及基本框架

本文提出了語義數(shù)字檔案館概念,主要利用關(guān)聯(lián)數(shù)據(jù)發(fā)布數(shù)字檔案館資源、擴展資源發(fā)現(xiàn)服務(wù)、實現(xiàn)數(shù)據(jù)整合與語義檢索服務(wù)、實現(xiàn)異構(gòu)關(guān)聯(lián)數(shù)據(jù)的開放與復(fù)用。

從目前檔案部門數(shù)據(jù)來看,大部分是格式化的數(shù)據(jù),如excel或dbf,也有非格式化的數(shù)據(jù)如PDF等,均不具備語義表達功能,要對這些分布、異構(gòu)的數(shù)據(jù)進行共享和操作是很困難的,改變檔案數(shù)據(jù)著錄和發(fā)布標準,按照關(guān)聯(lián)數(shù)據(jù)標準對現(xiàn)有檔案數(shù)據(jù)進行改造、發(fā)布,顯得尤為重要。

本文設(shè)計了一個基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館基本架構(gòu),其功能層有三層:數(shù)據(jù)發(fā)布層,數(shù)據(jù)存取、整合和保存層,數(shù)據(jù)應(yīng)用層。

圖4??基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館框架

數(shù)據(jù)發(fā)布層主要由數(shù)據(jù)發(fā)布者構(gòu)成,是核心部分數(shù)據(jù)網(wǎng)的數(shù)據(jù)提供者。各機構(gòu)以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布本機構(gòu)的信息資源。根據(jù)關(guān)聯(lián)數(shù)據(jù)的發(fā)布原則,首先確立每一個獨立存在的實體對象(例如單位、人員、事件、文檔),賦予其唯一的URI作為標識,將傳統(tǒng)數(shù)據(jù)轉(zhuǎn)成RDF三元組數(shù)據(jù)集。數(shù)字檔案館可將元數(shù)據(jù)集、機構(gòu)、名人、事件等作為規(guī)范文檔發(fā)布為關(guān)聯(lián)數(shù)據(jù)。部分允許開放的檔案目錄數(shù)據(jù)也可以發(fā)布為關(guān)聯(lián)數(shù)據(jù)。

數(shù)據(jù)應(yīng)用層由關(guān)聯(lián)數(shù)據(jù)消費者即查詢者構(gòu)成,它們主要是應(yīng)用數(shù)據(jù)網(wǎng)中的數(shù)據(jù),來滿足自身的數(shù)據(jù)需求,其消費方式包括瀏覽、發(fā)現(xiàn)、抓取、檢索、混搭、推理、展現(xiàn)。

數(shù)據(jù)存取、整合和保存層,處于中間一層,由關(guān)聯(lián)數(shù)據(jù)的第三方參與者構(gòu)成。它提供了一系列基礎(chǔ)服務(wù),如本體詞匯的維護、不同本體詞匯間的相互映射、數(shù)據(jù)標識的規(guī)范控制等。這一層其實是關(guān)聯(lián)數(shù)據(jù)網(wǎng)的基礎(chǔ)設(shè)施,構(gòu)建了數(shù)據(jù)發(fā)布者和消費者間的橋梁。

檔案部門可以存在于這三個功能層中,它可以作為數(shù)據(jù)的發(fā)布者而成為發(fā)布層的主要組成部分;它又可以成為關(guān)聯(lián)數(shù)據(jù)的消費者。更重要的是,檔案部門以其天然的權(quán)威性,可成為數(shù)據(jù)存取、整合和保存層的主力軍。其工作包括:制定域名策略,以保證URIs的一致性、穩(wěn)定性,提高效率和質(zhì)量;創(chuàng)建和維護URIs,保證URIs的持久性;保存元數(shù)據(jù)和屬性值詞匯;長期保存和維護數(shù)據(jù)集;?實現(xiàn)不同本體詞匯之間的相互映射。

語義數(shù)字檔案館用RDF三元組替換檔案數(shù)據(jù)庫,用統(tǒng)一資源標識符(URIs)標識每一份檔案(無論是電子還是實物檔案)。

4??檔案數(shù)據(jù)轉(zhuǎn)換為RDF三元組過程

傳統(tǒng)上檔案的著錄數(shù)據(jù)是兩維結(jié)構(gòu),如:

表1??檔案著錄數(shù)據(jù)舉例

ID

題名

責(zé)任者

主題詞

年度

檔案A

54321

市檔案局關(guān)于檔案宣傳活動的通知

鄭州市檔案局

宣傳、通知

2011

檔案B

76543

市檔案局關(guān)于召開2013年度檔案培訓(xùn)班的通知

鄭州市檔案局

培訓(xùn)、通知

2013

采用RDF三段式表示以上著錄數(shù)據(jù),如下圖:

圖5??三段式表示檔案數(shù)據(jù)

由上圖,將檔案數(shù)據(jù)根據(jù)其性能分為三類:數(shù)據(jù)集、元數(shù)據(jù)集和取值詞匯。取值詞匯作為客體,有些值是常數(shù),如2013,而有些則是可以識別的實體,如“鄭州市檔案局”。

例如,“檔案A”相對應(yīng)的URI可以定為檔案館Z所在網(wǎng)址+館內(nèi)唯一ID號?http://MyArchiveZ.com/54321

為簡化URI的書寫,定義一個由URI確定的命名空間(Name?Space),maz指代所有檔案館Z發(fā)布的RDF,http://MyArchiveZ.com/54321可表示為?maz:54321。

屬性盡可能使用已有的URI,如:題名title,來自DC(都柏林核心元數(shù)據(jù)元素集,圖書館使用,已發(fā)布為關(guān)聯(lián)數(shù)據(jù)),URI為http://purl.org/dc/terms/title(dct:title)

生成的RDF三元組如下:

5??基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館應(yīng)用前景

“關(guān)聯(lián)數(shù)據(jù)”自2006年提出至今,受到各界的廣泛關(guān)注,研究的深度和廣度都得到不斷拓展,應(yīng)用領(lǐng)域也有長足的進步。然而問題和困難還是存在的,關(guān)聯(lián)數(shù)據(jù)的發(fā)展還有很長的路要走。但是其資源數(shù)量的龐大性、人機互動的靈活性以及信息發(fā)布的高效性,都決定了它未來發(fā)展的必然性。面對大環(huán)境,檔案部門作為信息的采集者、儲存者和提供者,將關(guān)聯(lián)數(shù)據(jù)這一前端技術(shù)應(yīng)用到工作中已是大勢所趨。

基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館,不僅大大提高檔案資源的利用率,而且在更大程度上滿足社會公眾的文化需求,其優(yōu)勢如下:

5.1??從封閉的數(shù)據(jù)到開放的數(shù)據(jù)。目前檔案數(shù)據(jù)存儲在各自的數(shù)據(jù)庫中,沒有與網(wǎng)絡(luò)上其他數(shù)據(jù)資源整合。其實檔案數(shù)據(jù)和網(wǎng)絡(luò)上其他類型的資源,可以在日期、機構(gòu)、人物、全宗、事件等方面實現(xiàn)互連。檔案數(shù)據(jù)覆蓋眾多部門、機構(gòu)、團體,經(jīng)常需要數(shù)據(jù)交換與轉(zhuǎn)換,也就是需要數(shù)據(jù)開放。關(guān)聯(lián)數(shù)據(jù)技術(shù)本身并不要求將數(shù)據(jù)開放,但是該技術(shù)隨時可以將數(shù)據(jù)發(fā)布為關(guān)聯(lián)的開放的數(shù)據(jù)。不僅可以在本單位內(nèi)使用、外部各種的應(yīng)用也可以獲取并使用,數(shù)據(jù)成為網(wǎng)上的資源,不僅是人可讀的資源,還可以被電腦所使用,可在更大范圍內(nèi)被任意鏈接和重用,發(fā)揮數(shù)據(jù)的最大價值,消除信息孤島。

5.2??從固定的數(shù)據(jù)到可混搭的數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù)間可以隨意混搭,甚至可以和其他關(guān)聯(lián)數(shù)據(jù)的不同片段進行混搭。通過自下而上發(fā)布數(shù)據(jù)的方法,關(guān)聯(lián)數(shù)據(jù)技術(shù)為檔案部門提供了改善著錄現(xiàn)狀的機會。過去描述檔案數(shù)據(jù),一條記錄作為一個獨立的整體,不能產(chǎn)生高粒度的信息。有了關(guān)聯(lián)數(shù)據(jù)技術(shù),同一資源可以以分散的方式由不同的責(zé)任者提供不同的著錄數(shù)據(jù),而這些數(shù)據(jù)可以整合在一起。文件生成部門提供某文件的原始數(shù)據(jù),如題名、責(zé)任者等;檔案室添加文件歸檔時的信息,如歸檔時間、保管期限、室編件號等;檔案館添加館藏信息,如檔案館、館編件號等,查檔用戶可添加附加信息,如在維基百科的鏈接等。檔案館人員為所有這些與本文件相關(guān)的信息生成頁面和鏈接,作為關(guān)聯(lián)數(shù)據(jù)發(fā)布到萬維網(wǎng)上。無數(shù)據(jù)冗余,每個流程只創(chuàng)建自己的部分數(shù)據(jù);無需下載到本地,所有數(shù)據(jù)都“聯(lián)邦”鏈接;責(zé)任明確:哪個流程的元數(shù)據(jù)出問題,不會影響其他;無需統(tǒng)一工作平臺:以數(shù)據(jù)為中心,流到哪個平臺就在哪個平臺加工。系統(tǒng)各組成部分松散耦合,互相聯(lián)系卻互不干擾,整個系統(tǒng)成為一個不斷增長的有機體。

關(guān)聯(lián)數(shù)據(jù)技術(shù)可以幫助機構(gòu)提高內(nèi)部數(shù)據(jù)的整合過程,另一優(yōu)勢是數(shù)據(jù)發(fā)布者可以將發(fā)布的數(shù)據(jù)的部分信息開放。即使機構(gòu)內(nèi)部的數(shù)據(jù)沒有完全開放,關(guān)聯(lián)數(shù)據(jù)技術(shù)也可以提高機構(gòu)內(nèi)部數(shù)據(jù)的發(fā)布過程。

5.3??從低質(zhì)量的數(shù)據(jù)到高質(zhì)量的數(shù)據(jù)。關(guān)聯(lián)數(shù)據(jù),能夠有效維護各單位不同類型數(shù)據(jù)的一致與完整性,為查詢者從大量的信息資源中獲取所需要的信息和問題提供解決方案。如,同一責(zé)任者“鄭州市人民政府”在不同單位可能簡稱不一,應(yīng)該統(tǒng)一為同一名稱,但這樣做費時費力。如果將“鄭州市人民政府”賦予唯一的URI,各單位都引用這個URI,就可以保障數(shù)據(jù)的一致性,并減少數(shù)據(jù)冗余。檔案部門的資源可以跨領(lǐng)域得到廣泛的參引?;ヂ?lián)網(wǎng)的域名系統(tǒng)保證了URI的穩(wěn)定性、可信性和可持續(xù)性,這和檔案部門的長期保存信息資源的使命是一致的。

5.4??擺脫數(shù)據(jù)格式和軟件商的限制。所有的技術(shù)都是有壽命的,每一階段代表性技術(shù)都不例外。關(guān)聯(lián)數(shù)據(jù)描述的數(shù)據(jù)(包含語義),不受限于數(shù)據(jù)格式(語法或者格式),因此,保證了關(guān)聯(lián)數(shù)據(jù)不會被格式的變化所淘汰。通過一般開源軟件就可以滿足開發(fā)需要。

6??關(guān)聯(lián)數(shù)據(jù)技術(shù)在應(yīng)用中可能遇到的問題

6.1??技術(shù)難題:要實現(xiàn)基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館,需要運用一些語義網(wǎng)的技術(shù),例如SPARQL和OWL等,需要工具和技術(shù)支持。

6.2??各相關(guān)系統(tǒng)封閉問題:關(guān)聯(lián)數(shù)據(jù)最大的阻礙就是封閉,如果其他數(shù)字檔案館、數(shù)字檔案室、OA系統(tǒng)都不開放,關(guān)聯(lián)數(shù)據(jù)也就無計可施。需要鼓勵更多的數(shù)據(jù)提供者參與進來,并且保證用戶能夠規(guī)范使用這些數(shù)據(jù)。

6.3??關(guān)聯(lián)數(shù)據(jù)的監(jiān)管問題:如果某一數(shù)據(jù)源的數(shù)據(jù)被修改或刪除,數(shù)據(jù)源之間的關(guān)聯(lián)很可能發(fā)生斷鏈現(xiàn)象,從而使得基于關(guān)聯(lián)數(shù)據(jù)的應(yīng)用程序發(fā)生錯誤。需建立起有效的監(jiān)測和修正機制以維護關(guān)聯(lián)數(shù)據(jù)的參照完整性和數(shù)據(jù)更新的同步性。

盡管基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館目前只是一個框架,也有可能遇到各種問題,但關(guān)聯(lián)數(shù)據(jù)是在語義網(wǎng)時代,提供對任何網(wǎng)上資源和數(shù)字對象進行著錄和規(guī)范控制的基礎(chǔ)技術(shù)。關(guān)聯(lián)數(shù)據(jù)技術(shù)為檔案行業(yè)帶來了千載難遇的新機遇,若能利用好這個機遇,檔案行業(yè)將成功實現(xiàn)向數(shù)字化、網(wǎng)絡(luò)化、開放化的華麗轉(zhuǎn)身,在網(wǎng)絡(luò)時代創(chuàng)造新的輝煌。

參考文獻:

[1]涂子沛.大數(shù)據(jù)[M].桂林:廣西師范大學(xué)出版社,2013:284.

[2]劉煒,胡小菁,錢國富,張春景,夏翠娟.RDA與關(guān)聯(lián)數(shù)據(jù)[J].中國圖書館學(xué)報,2011(197):35~42.

(作者單位:河南省鄭州市檔案局科技教育處???來稿日期:2015-04-20)

猜你喜歡
元數(shù)據(jù)
元數(shù)據(jù)國際交換共享的客家古民居數(shù)字記憶工程建設(shè)
元數(shù)據(jù)與社會化標簽在微視頻搜索中的應(yīng)用
高等院校智慧校園建設(shè)規(guī)劃與實現(xiàn)
利用VB讀取中國知網(wǎng)過刊數(shù)據(jù)提取元數(shù)據(jù)的研究
財會信息資源元數(shù)據(jù)標準的研究
基于隱語義模型和用戶信任的個性化推薦模型
基于角色控制的異構(gòu)數(shù)據(jù)展示在企業(yè)門戶中的應(yīng)用
基于元數(shù)據(jù)映射機制的異構(gòu)數(shù)據(jù)操作