国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Drupal的政府開放數(shù)據(jù)平臺構(gòu)建

2016-05-14 11:23李盼翟軍陳燕
現(xiàn)代情報(bào) 2016年8期
關(guān)鍵詞:元數(shù)據(jù)

李盼 翟軍 陳燕

〔摘要〕開放政府?dāng)?shù)據(jù)能夠促進(jìn)政府透明和社會(huì)創(chuàng)新,已成為國內(nèi)外研究和實(shí)踐的熱點(diǎn)。本文針對我國地方政府開放數(shù)據(jù)門戶網(wǎng)站在元數(shù)據(jù)規(guī)范和數(shù)據(jù)格式上的不足,設(shè)計(jì)并建立基于Drupal的政府開放數(shù)據(jù)平臺。在分析平臺核心功能的基礎(chǔ)上,引進(jìn)W3C的通用元數(shù)據(jù)標(biāo)準(zhǔn)DCAT。重點(diǎn)說明平臺建立元數(shù)據(jù)模式的映射過程,并介紹如何為關(guān)聯(lián)數(shù)據(jù)集提供Sparql端點(diǎn)。以來自浙江省開放數(shù)據(jù)網(wǎng)站的一個(gè)具體數(shù)據(jù)集的發(fā)布為例,表明該平臺支持機(jī)器可讀的通用元數(shù)據(jù)格式,為我國各類開放數(shù)據(jù)網(wǎng)站的建設(shè)和升級提供借鑒和參考。

〔關(guān)鍵詞〕Drupal;政府開放數(shù)據(jù);開放數(shù)據(jù)平臺;元數(shù)據(jù);DCAT;關(guān)聯(lián)數(shù)據(jù)

DOI:10.3969/j.issn.1008-0821.2016.08.007

〔中圖分類號〕G25073〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2016)08-0037-07

〔Abstract〕As a hot topic,Open Government Data provides a new way for promoting the construction of the transparent government and innovations between different social organizations.This paper designed and established a platform based on Drupal in order to resolve the problem about datasets metadata and data formats existing in open data portals of local government in China.Metadata providing can permit interoperability between different systems and the use of machine-readable,non-proprietary electronic data formats can reduce technical barriers to data access for users.Based on the basic analysis of the core functions of the platform,this paper introduced a common metadata standard DCAT,which was announced by W3C.Then the clear description was given to explain how to process mappings between DCAT vocabularies and fields of Drupal,which aimed to provide metadata for datasets.Publishing linked data is always difficult for the study of open data.There fore,the paper presented a simple solution on how to provide a Sparql endpoint for publishing data formats of linked datasets using Drupal.Finally,taking a dataset from Zhejiang governments Open data platform as an example to show the whole process about how this platform publishes datasets and provided machine-readable metadata formats.And this paper also made a detailed introduction about the important Drupal modules used in this platform,including RDFx module,Sparql endpoint module,DKAN related modules,which is a complimentary offering to CKAN with a full suite of cataloging,publishing and visualization features,and so on.This paper provided references for the construction and upgrading of all types of open data platform in our country.

〔Key words〕Drupal;government open data;open data platform;metadata;DCAT;linked data

大數(shù)據(jù)時(shí)代,“數(shù)據(jù)”的重要性被提到了前所未有的高度,通過對海量數(shù)據(jù)的交換、整合、分析和利用,能夠發(fā)現(xiàn)新知識、創(chuàng)造新價(jià)值[1]。在全社會(huì)中,政府?dāng)?shù)據(jù)起著核心與樞紐的作用。各國的研究與實(shí)踐表明,開發(fā)和利用信息資源的前提是信息公開和數(shù)據(jù)開放,而數(shù)據(jù)開放的核心則是“開放政府?dāng)?shù)據(jù)”(Open Government Data,OGD)[2]。全球范圍興起的“開放政府?dāng)?shù)據(jù)運(yùn)動(dòng)”始于2009年美國奧巴馬政府推動(dòng)的“開放政府行動(dòng)計(jì)劃”(Open Government Initiative)[3]。2011年9月20日,美國、英國、巴西、印度尼西亞、墨西哥、挪威、菲律賓、南非八個(gè)國家在紐約集會(huì),宣布成立“開放政府合作組織”(Open Government Partnership,OGP),到2016年4月其成員國已從8個(gè)發(fā)展到69個(gè)。目前,世界各國已有超過250個(gè)政府(中央政府、地方政府或城市)實(shí)施“開放數(shù)據(jù)”的行動(dòng)計(jì)劃[4]。“開放數(shù)據(jù)”為政府機(jī)構(gòu)、社會(huì)組織和個(gè)人的創(chuàng)新及協(xié)作提供了新的途徑。世界銀行總結(jié)的OGD的益處主要包括:①促進(jìn)政府的公開透明和公共服務(wù)質(zhì)量及辦事效率的提升;②為社會(huì)創(chuàng)新和經(jīng)濟(jì)增長提供數(shù)據(jù)資源和推動(dòng)力[5]。

在開放政府?dāng)?shù)據(jù)運(yùn)動(dòng)中,為了集中管理大量的開放數(shù)據(jù)和方便用戶進(jìn)行數(shù)據(jù)查找,關(guān)鍵的舉措之一是發(fā)布“開放數(shù)據(jù)目錄”(Open Data Catalogs)的門戶網(wǎng)站(Portals)[3,6]。以2009年美國政府的“一站式”數(shù)據(jù)門戶Data.Gov為先河,到2016年4月,DataPortals.org收集的數(shù)據(jù)門戶網(wǎng)站已達(dá)519個(gè)。數(shù)據(jù)門戶所依托的“開放數(shù)據(jù)平臺”(Open Data Platform)也成為這一領(lǐng)域的研究熱點(diǎn)之一[6]。

在我國,從2012年開始,北京、上海、浙江、青島、深圳等地方政府在大數(shù)據(jù)戰(zhàn)略和智慧城市建設(shè)中率先推出了政府開放數(shù)據(jù)門戶網(wǎng)站[7]。理論上,一些學(xué)者也開始關(guān)注“開放數(shù)據(jù)平臺”的技術(shù)、管理與評價(jià)問題。鄭磊等對國內(nèi)各開放數(shù)據(jù)平臺的數(shù)據(jù)導(dǎo)引、數(shù)據(jù)獲取、界面體驗(yàn)、互動(dòng)交流等方面進(jìn)行了評估[7]。徐慧娜等通過13個(gè)指標(biāo),比較了紐約和上海兩大城市政府開放數(shù)據(jù)平臺的有用性、易用性和用戶數(shù)據(jù)利用效果,指出了國內(nèi)開放數(shù)據(jù)平臺發(fā)展的不足[8]。錢曉紅等論述了“開放數(shù)據(jù)平臺”的技術(shù)特征:發(fā)布和管理數(shù)據(jù)、檢索和查找數(shù)據(jù)、元數(shù)據(jù)建設(shè)、可視化處理等[9]。周志峰等對美國、英國、加拿大、澳大利亞和新加坡五國的政府開放數(shù)據(jù)門戶的數(shù)據(jù)管理、檢索與用戶參與功能進(jìn)行了分析,對我國政府信息公開工作提出了諸多建議[10]。

研究表明,我國的開放數(shù)據(jù)實(shí)踐正處于萌芽和發(fā)展?fàn)顟B(tài),與發(fā)達(dá)國家存在著較大的差距[11]。當(dāng)前的開放數(shù)據(jù)平臺對數(shù)據(jù)文件格式的支持有限[7-8]、沒有采用通用的元數(shù)據(jù)規(guī)范和機(jī)器可讀的元數(shù)據(jù)格式[6]等都影響到了數(shù)據(jù)開放的效果[7]。為此,本文在借鑒國際先進(jìn)國家經(jīng)驗(yàn)的基礎(chǔ)上,構(gòu)建基于Drupal的政府開放數(shù)據(jù)平臺,引入W3C的數(shù)據(jù)目錄元數(shù)據(jù)標(biāo)準(zhǔn)DCAT,并支持開放數(shù)據(jù)格式的5星模型,為我國地方政府開放數(shù)據(jù)平臺的建設(shè)和升級提供部分解決方案。

1開放數(shù)據(jù)平臺發(fā)展現(xiàn)狀

各國數(shù)據(jù)門戶使用的基礎(chǔ)平臺可以分為開源的和商業(yè)目的兩種[12]。Junar(junar.com)和Socrata是基于云服務(wù)的SaaS(Software as a Service)開放數(shù)據(jù)平臺,屬于商用范疇;而CKAN(Comprehensive Knowledge Archive Network)、DKAN和ODPL等則是構(gòu)建開放數(shù)據(jù)平臺的開源軟件(Open Source Software)。

目前,使用最廣泛的基礎(chǔ)平臺是CKAN和DKAN[13-14]。CKAN適用于大型數(shù)據(jù)門戶的構(gòu)建,如美國(Data.Gov)、英國(Data.Gov.UK)的國家開放數(shù)據(jù)門戶[10]。但是CKAN的部署和實(shí)現(xiàn)過程較為復(fù)雜,對于人員的專業(yè)素質(zhì)要求較高[13]。DKAN(Drupal+CKAN)是基于Drupal的用于實(shí)現(xiàn)數(shù)據(jù)目錄服務(wù)的一種方式,能夠兼容CKAN且實(shí)現(xiàn)更多的功能,如對關(guān)聯(lián)開放數(shù)據(jù)的支持等。DKAN和CKAN的主要技術(shù)對比見表1。

作為一個(gè)開源的內(nèi)容管理系統(tǒng)(Content Management System,CMS),Drupal的所有功能的增減可以通過模塊的啟動(dòng)和關(guān)閉來實(shí)現(xiàn),易于開發(fā)和維護(hù)。截至2016年4月,Drupal站點(diǎn)上的模塊已達(dá)33 728個(gè),吸引了100 654個(gè)用戶來貢獻(xiàn)模塊。Drupal已經(jīng)廣泛應(yīng)用于圖書館各類門戶網(wǎng)站的建設(shè)[15-16]以及教學(xué)資源管理中[17]。越來越多的政府?dāng)?shù)據(jù)門戶也在采用Drupal,例如非洲近1/3的政府開放數(shù)據(jù)平臺利用了DKAN[14]。本文的關(guān)注焦點(diǎn)則是Drupal在我國地方政府開放數(shù)據(jù)門戶的應(yīng)用。

2開放數(shù)據(jù)平臺的核心功能分析

開放數(shù)據(jù)是指數(shù)據(jù)可以被任何人自由免費(fèi)獲取、利用和再發(fā)布,而不受版權(quán)、專利或其他機(jī)制的限制[11]。開放數(shù)據(jù)的本質(zhì)是促進(jìn)數(shù)據(jù)在最大范圍上的再利用,為實(shí)現(xiàn)這一目標(biāo)各國的最佳實(shí)踐是在基于Web的開放數(shù)據(jù)平臺上以“機(jī)器可讀”(machine-readable,即數(shù)據(jù)能被程序自動(dòng)處理)的格式發(fā)布各種高價(jià)值的數(shù)據(jù)[6]。為促進(jìn)開放數(shù)據(jù)的機(jī)器可讀性,政府?dāng)?shù)據(jù)開放的積極推動(dòng)者、W3C主席蒂姆·伯納斯-李于2010年在華盛頓特區(qū)的Gov20博覽會(huì)上首次提出了開放程度(Openness)的“5星評級模型”(5 star rating scheme)[2,18]:

(1)1星(★)級別:以“開放許可”將數(shù)據(jù)發(fā)布到Web上,格式不限,可以是紙質(zhì)文件的掃描件或PDF文檔等,其特征簡記為OL(open license);

(2)2星(★★)級別:發(fā)布為機(jī)器可讀的結(jié)構(gòu)化數(shù)據(jù),如一個(gè)Excel電子表格,其特征簡記為RE(readable);

(3)3星(★★★)級別:發(fā)布為非專有格式,如CSV,其特征簡記為OF(open format);

(4)4星(★★★★)級別:采用W3C的開放標(biāo)準(zhǔn),如RDF、Sparql等,其特征為通過URI來標(biāo)識事物,簡記為URI;

(5)5星(★★★★★)級別:將數(shù)據(jù)鏈接到其它數(shù)據(jù)集,即“關(guān)聯(lián)數(shù)據(jù)”,其特征簡記為LD(Linked Data)。

在模型中,星★是累加的,即高級別的開放涵蓋低級別的所有特性。該模型關(guān)注開放數(shù)據(jù)的兩個(gè)主要方面:法律和技術(shù),即法律上要有開放許可、技術(shù)上要以機(jī)器可讀的格式發(fā)布數(shù)據(jù)。模型指出了數(shù)據(jù)格式的升級路線:從專有格式到非專有格式、從開放標(biāo)準(zhǔn)到關(guān)聯(lián)數(shù)據(jù)(即數(shù)據(jù)萬維網(wǎng)),見表2。

國際上已有越來越多的5星級別的開放政府?dāng)?shù)據(jù)被發(fā)布出來[2]。如紐約市開放政府?dāng)?shù)據(jù)網(wǎng)站(data.cityofnewyork.us)提供的關(guān)聯(lián)數(shù)據(jù)已經(jīng)達(dá)到了5星水平[8],2014年“開放數(shù)據(jù)指數(shù)”冠軍-英國,在國家數(shù)據(jù)網(wǎng)站(Data.Gov.UK)上已經(jīng)發(fā)布了150個(gè)5星數(shù)據(jù)集。與此相對照,我國地方政府的開放數(shù)據(jù)還沒有5星級別的,如上海市(www.datashanghai.gov.cn)、浙江?。╠ata.zjzwfw.gov.cn)提供的數(shù)據(jù)格式仍處在2星、3星水平[7-8]。

在開放數(shù)據(jù)平臺中,一組數(shù)據(jù)文件組織在一起形成數(shù)據(jù)集(Dataset)[9],數(shù)據(jù)集的列表就是數(shù)據(jù)目錄(Data Catalog),而數(shù)據(jù)目錄管理的是數(shù)據(jù)集的元數(shù)據(jù)[6]。為此,數(shù)據(jù)平臺的核心功能是各種格式數(shù)據(jù)集的元數(shù)據(jù)管理和數(shù)據(jù)訪問的API服務(wù),見圖1。數(shù)據(jù)平臺的其他功能,諸如數(shù)據(jù)查找、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)可視化、用戶交互等[9],都是為核心功能服務(wù)或者建立在核心功能基礎(chǔ)之上的。

3元數(shù)據(jù)管理

31元數(shù)據(jù)模式

隨著開放數(shù)據(jù)門戶和數(shù)據(jù)集數(shù)量的快速增長,對于應(yīng)用者而言,尋找適當(dāng)?shù)臄?shù)據(jù)集就越發(fā)具有挑戰(zhàn)性,特別是跨多個(gè)數(shù)據(jù)目錄的搜索[2]。為此,需要對數(shù)據(jù)集進(jìn)行適當(dāng)描述,即需要提供“元數(shù)據(jù)”(Metadata)。元數(shù)據(jù)是“數(shù)據(jù)的數(shù)據(jù)”(Data about Data)或“信息的信息”。開放數(shù)據(jù)集的元數(shù)據(jù)管理是政府?dāng)?shù)據(jù)目錄的最基本功能,采用的元數(shù)據(jù)正在向結(jié)構(gòu)化、標(biāo)準(zhǔn)化、語義化和機(jī)器可讀的方向發(fā)展[6,10,19-20]。數(shù)據(jù)目錄詞匯表DCAT(Data Catalog Vocabulary)是W3C發(fā)布的支持?jǐn)?shù)據(jù)目錄之間互操作(Interoperability)的通用元數(shù)據(jù)標(biāo)準(zhǔn)[21],已經(jīng)被英國、美國、歐盟的國家數(shù)據(jù)門戶網(wǎng)站及datahub.io等采納。在我國,對地方政府開放數(shù)據(jù)狀況調(diào)查的結(jié)果顯示[7-8]:各地方政府?dāng)?shù)據(jù)門戶采用了不同的元數(shù)據(jù)模式,元數(shù)據(jù)的格式以HTML為主、不是機(jī)器可讀的,這些都阻礙了開放數(shù)據(jù)集的可發(fā)現(xiàn)性和可用性[6]。

Drupal的最大特點(diǎn)是通過“內(nèi)容類型”(Content Type)組織和管理結(jié)構(gòu)化數(shù)據(jù)。內(nèi)容類型可以理解為具有特定結(jié)構(gòu)的數(shù)據(jù)模式,等價(jià)于數(shù)據(jù)庫的表結(jié)構(gòu)或類概念,符合模式定義的一條具體數(shù)據(jù)記錄在Drupal中則以結(jié)點(diǎn)(Node)的方式存在。DKAN將數(shù)據(jù)集處理為一種“內(nèi)容類型”,并通過映射建立 DKAN字段/屬性與DCAT詞匯/元素之間的對應(yīng)關(guān)系,從而形成描述數(shù)據(jù)集的元數(shù)據(jù)模式,詳情見表3。

32元數(shù)據(jù)實(shí)例

當(dāng)在DKAN平臺添加一個(gè)數(shù)據(jù)集即創(chuàng)建一個(gè)實(shí)例結(jié)點(diǎn)(Node)后,系統(tǒng)會(huì)自動(dòng)為該數(shù)據(jù)集生成元數(shù)據(jù)文件,目前提供了rdf和json兩種格式,它們均是機(jī)器可讀的。圖2與其下的文件是由平臺自動(dòng)生成的浙江省開放數(shù)據(jù)網(wǎng)站(data.zjzwfw.gov.cn)上的“師資庫數(shù)據(jù)集”的元數(shù)據(jù)實(shí)例文件,而現(xiàn)有的元數(shù)據(jù)格式是HTML,很難被應(yīng)用程序自動(dòng)處理。在DKAN平臺上發(fā)布數(shù)據(jù)集的詳細(xì)過程請見下文“應(yīng)用實(shí)例”小節(jié)。圖2RDF格式的元數(shù)據(jù)json格式的元數(shù)據(jù)文件如下所示:

{″help″:″Return the metadata of a dataset(package) and its resources.:param id:the id or name of the dataset:type id:string″,

″success″:true,

″result″:[{″id″:″cd1be547-7fae-4d91-bbae-ef37661a1bc4″,

″title″:″師資庫信息″,

″publisher″:″省安全生產(chǎn)監(jiān)管局″,

″licensetitle″:″http:∥opendefinition.org/licenses/odc-by/″,

″notes″:″安全培訓(xùn)師資庫信息,包括姓名、性別、工作單位、學(xué)歷、職稱、聯(lián)系電話、狀態(tài)″,

″url″:″http:localhost:8088/drupal/dataset/師資庫信息″,

″private″:″Published″,

″url″:″http:manager.zjsafety.gov.cn″,

″description″:″通過提供API接口發(fā)布浙江省--師資庫信息數(shù)據(jù)集。″,

″state″:″Active″,

″revisiontimestamp″:″Wed, 04\/27\/2016-11∶25″,

……}]}

在數(shù)據(jù)目錄平臺上,這兩個(gè)元數(shù)據(jù)文件的訪問地址分別為/node/nodeid.rdf和/api/3/action/packageshow?id=cd1be547-7fae-4d91-bbae-ef37661a1bc4。平臺通過程序處理提供json格式的元數(shù)據(jù),將元數(shù)據(jù)封裝為一個(gè)result集合,并為該集合提供惟一的標(biāo)識符,用戶可以通過該標(biāo)識符來訪問具體的數(shù)據(jù)集所對應(yīng)的元數(shù)據(jù)。無論是rdf格式,還是json格式,用戶的應(yīng)用程序都能夠通過讀取和解析這些元數(shù)據(jù)而了解數(shù)據(jù)集的詳細(xì)信息,這提高了開放數(shù)據(jù)平臺與用戶應(yīng)用程序之間的互操作性[6]。

4關(guān)聯(lián)數(shù)據(jù)集的API發(fā)布

2011年1月發(fā)布的Drupal 7正式版已把RDF和關(guān)聯(lián)數(shù)據(jù)的相關(guān)模塊作為Drupal的核心部分[22]。通過Drupal創(chuàng)建5星級(參見表2)的關(guān)聯(lián)數(shù)據(jù)得到了學(xué)者的關(guān)注和研究[22-23],而本文則關(guān)注開放數(shù)據(jù)平臺如何為5星級的關(guān)聯(lián)數(shù)據(jù)集提供API服務(wù)(參見圖1)。

關(guān)聯(lián)數(shù)據(jù)的獲取方式主要有3種:批量下載、REST接口和Sparql端點(diǎn)[24]。前兩種方式與普通的數(shù)據(jù)集一致,后一種方式是關(guān)聯(lián)數(shù)據(jù)所獨(dú)有的,目前還沒有得到我國地方政府開放數(shù)據(jù)門戶網(wǎng)站的支持。

Drupal的Sparql模塊支持Sparql端點(diǎn)的發(fā)布,Sparql模塊又包含SPARQL Endpoint和SPARQL Registry兩個(gè)子模塊。SPARQL Endpoint模塊為本地站點(diǎn)的RDF數(shù)據(jù)向Web開放提供標(biāo)準(zhǔn)化接口;SPARQL Registry模塊提供其它站點(diǎn)的Sparql端點(diǎn)注冊功能。在Drupal 7x中可以結(jié)合Sparql View和Views模塊進(jìn)行關(guān)聯(lián)數(shù)據(jù)集的消費(fèi)和使用。

在啟用Sparql模塊之前,需要引入ARC2 Library包,將其放入sites/all/modules/rdfx/vendor/arc目錄下。該包用于存儲(chǔ)系統(tǒng)自動(dòng)生成RDF數(shù)據(jù),并支持Sparql查詢語句的執(zhí)行。成功啟用Sparql模塊后,站點(diǎn)就擁有相應(yīng)的Sparql端點(diǎn),默認(rèn)的URL為:http:∥域名:端口號/站點(diǎn)名稱/sparql,本文的例子為:http:∥localhost:8088/drupal/sparql。應(yīng)用程序通過HTTP協(xié)議向Sparql端點(diǎn)發(fā)送Sparql查詢請求,便可獲取關(guān)聯(lián)數(shù)據(jù)集中的數(shù)據(jù)[2,23]。

5平臺構(gòu)建

在建立DKAN平臺前,需要安裝Drupal站點(diǎn)。Drupal依賴于Windows+Apache+Mysql+PHP或者Linux+Apche+Mysql+PHP開發(fā)環(huán)境,可以手工搭建該集成環(huán)境,也可以直接下載wamp(https:∥sourceforge.net/projects/wampserver/)或者lamp集成包進(jìn)行安裝。DKAN依賴于Drupal 7x及以上版本的Drupal,推薦使用Drupal 741(https:∥www.drupal.org/drupal-7.41-release-notes),因?yàn)樵摪姹灸壳笆荄rupal 7x最穩(wěn)定的版本。Drupal的DKAN模塊托管在gitHub(https:∥github.com/NuCivic/dkan)上,下載其相關(guān)模塊進(jìn)行安裝即可。也可以選擇直接安裝嵌入DKAN的Drupal站點(diǎn)(https:∥github.com/nucivic/dkan-drops-7),步驟與安裝普通的Drupal站點(diǎn)相同。

安裝Drupal模塊時(shí),需要在/modules/install new module下選擇模塊所在的路徑,然后加載模塊。DKAN.info文件列出了DKAN所依賴的所有模塊,包括Drupal核心模塊(如block、file、image、rdf、path、taxonomy等),和眾多的第三方模塊(如restserver、restws、views、rules、services、facetapi、feeds等),另外還需要open data和DKAN features相關(guān)模塊。需要注意的是,成功啟用DKAN模塊前,站點(diǎn)必須提供并啟用這些依賴模塊。表4列出了DKAN的核心模塊,其中DKAN Dataset模塊將數(shù)據(jù)集處理為結(jié)點(diǎn),結(jié)點(diǎn)內(nèi)容包括數(shù)據(jù)集元數(shù)據(jù)信息和數(shù)據(jù)資源信息;DKAN Datastore模塊提供數(shù)據(jù)文件的上傳、數(shù)據(jù)解析和保存功能;RDFx模塊是Drupal構(gòu)建語義數(shù)據(jù)所依賴的核心模塊,在DKAN中為字段添加DCAT詞匯表的元數(shù)據(jù)配置信息。表4DKAN的核心模塊

核心模塊描述DKANdistro包含了DKAN默認(rèn)的主題,并且定義了塊和導(dǎo)航條目,對DKAN所需的文件或者模塊進(jìn)行聲明。DKAN Dataset將數(shù)據(jù)集和資源文件以內(nèi)容類型方式定義,并且提供了數(shù)據(jù)集注冊的個(gè)性化流程。DKAN Datastore將完成解析的數(shù)據(jù)文件存入數(shù)據(jù)庫。recline一個(gè)js庫文件,提供數(shù)據(jù)文件的預(yù)覽視圖。FeedsFlatstoreProcessor該模塊用于將CSV文件解析為二維數(shù)據(jù)表文件。NuBoot RadixDKAN的默認(rèn)主題基于Radix。RDFx為各字段添加DCAT詞匯表的元數(shù)據(jù)描述信息。

6應(yīng)用實(shí)例

下面以浙江省開放數(shù)據(jù)網(wǎng)站上的教育科技大類中的“師資庫數(shù)據(jù)集”為例,利用DKAN平臺實(shí)現(xiàn)該數(shù)據(jù)集的發(fā)布。

61在平臺上添加數(shù)據(jù)集

在Content->Add content中選擇“內(nèi)容類型”為Dataset,然后添加該數(shù)據(jù)集的描述信息——元數(shù)據(jù)。數(shù)據(jù)集的“字段”值取自浙江省開放數(shù)據(jù)網(wǎng)站(data.zjzwfw.gov.cn),實(shí)例地址為:http:∥data.zjzwfw.gov.cn/catedetail.action?resid=210562/20150619105946000432&catecode=SJLY006。容易發(fā)現(xiàn),該數(shù)據(jù)集描述網(wǎng)頁并未提供“開放許可”信息。而DKAN提供了17種開放許可,如OGL、ODbl、PDDL等,并且每種開放許可都能鏈接到相應(yīng)的說明頁面。

62為數(shù)據(jù)集添加數(shù)據(jù)資源

添加數(shù)據(jù)集后,需要為其添加具體的數(shù)據(jù)資源。DKAN同樣也將數(shù)據(jù)資源作為一種“內(nèi)容類型”,這種低耦合方式有利于平臺實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的高效管理。一個(gè)數(shù)據(jù)集可以對應(yīng)多個(gè)數(shù)據(jù)資源文件,通過數(shù)據(jù)集的標(biāo)識字段將數(shù)據(jù)集和數(shù)據(jù)資源文件連接起來。DKAN提供了注冊數(shù)據(jù)資源的3種方式:API、數(shù)據(jù)文件上傳和鏈接到數(shù)據(jù)資源文件的URL。本例采用API方式發(fā)布數(shù)據(jù)資源文件。DKAN能夠有效管理數(shù)據(jù)集中的多種格式的數(shù)據(jù)文件,用戶可以根據(jù)需要訪問或下載它們。

完成上述操作后,平臺中該數(shù)據(jù)集的展示頁面如圖3所示。該頁面的左側(cè)包含有數(shù)據(jù)集的開放許可(License),及機(jī)器可讀的兩種格式(RDF和JSON)的元數(shù)據(jù)文件的下載圖標(biāo),其詳細(xì)內(nèi)容見本文32;頁面右側(cè)列出了數(shù)據(jù)集中的數(shù)據(jù)文件信息,右側(cè)下方的Dataset Info部分以HTML表格列出了所有的元數(shù)據(jù)。圖3DKAN平臺上的數(shù)據(jù)集展示頁面

比較該數(shù)據(jù)集在浙江省公共平臺的展示與圖3可知,DKAN平臺在開放數(shù)據(jù)集的元數(shù)據(jù)管理上有著明顯的優(yōu)勢:既為人的閱讀提供了HTML格式的元數(shù)據(jù),也為程序自動(dòng)處理提供了機(jī)器可讀的元數(shù)據(jù)文件。

7結(jié)語

近年來,開放政府?dāng)?shù)據(jù)已經(jīng)成為信息管理、電子政務(wù)、圖書情報(bào)等領(lǐng)域的研究熱點(diǎn)。如何設(shè)計(jì)和建設(shè)一個(gè)高質(zhì)量的開放數(shù)據(jù)平臺從而促進(jìn)數(shù)據(jù)集的發(fā)現(xiàn)和有效利用,對處于發(fā)展階段的我國各級政府開放數(shù)據(jù)工作具有重要的現(xiàn)實(shí)意義。

Drupal的開源特性、模塊化特點(diǎn)及DKAN等模塊為構(gòu)建開放數(shù)據(jù)平臺提供了技術(shù)基礎(chǔ)。本文表明,基于Drupal的DKAN平臺支持通用的元數(shù)據(jù)標(biāo)準(zhǔn)和機(jī)器可讀的元數(shù)據(jù)格式,并為各種格式的數(shù)據(jù)集(特別是5星級的關(guān)聯(lián)數(shù)據(jù)集)提供API接口,能有效克服國內(nèi)開放數(shù)據(jù)網(wǎng)站的一些不足。下一步工作的重點(diǎn)將是在平臺核心功能的基礎(chǔ)上增加數(shù)據(jù)查找和導(dǎo)航、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)可視化、用戶交互、統(tǒng)計(jì)分析等功能。

參考文獻(xiàn)

[1]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活(第3版)[M].桂林:廣西師范大學(xué)出版社,2015:345-351.

[2]翟軍.關(guān)聯(lián)政府?dāng)?shù)據(jù)原理與應(yīng)用——大數(shù)據(jù)時(shí)代開放數(shù)據(jù)的技術(shù)與實(shí)踐[M].北京:電子工業(yè)出版社,2016:4-12.

[3]張涵,王忠.國外政府開放數(shù)據(jù)的比較研究[J].情報(bào)雜志,2015,34(8):142-146.

[4]World Bank.Open Data in 60 Seconds[EB/OL].http:∥opendatatoolkit.worldbank.org/en/open-data-in-60-seconds.html.

[5]World Bank.Benefits of Open Data[EB/OL].http:∥opendatatoolkit.worldbank.org/en/starting.html.

[6]Attard J,Orlandi F,Scerri S,Sren Auer.A systematic review of open government data initiatives[J].Government Information Quarterly,2015,32(4):399-418.

[7]鄭磊,高豐.中國開放政府?dāng)?shù)據(jù)平臺研究:框架、現(xiàn)狀與建議[J].電子政務(wù),2015,(7):8-16.

[8]徐慧娜,鄭磊.面向用戶利用的開放政府?dāng)?shù)據(jù)平臺:紐約與上海比較研究[J].電子政務(wù),2015,(7):37-45.

[9]錢曉紅,胡芒谷.政府開放數(shù)據(jù)平臺的構(gòu)建及技術(shù)特征[J].圖書情報(bào)知識,2014,(3):124-129.

[10]周志峰,黃如花.國外政府開放數(shù)據(jù)門戶服務(wù)功能探析[J].情報(bào)雜志,2013,32(3):144-147.

[11]馬海群,汪宏帥.我國政府開放數(shù)據(jù)戰(zhàn)略的SLEPT分析及戰(zhàn)略部署[J].情報(bào)科學(xué),2016,34(3):3-8.

[12]Zuiderwijk A,Janssen M,Parnia A.The complementarity of open data infrastructures:An analysis of functionalities[C].Proceedings of the 14th Annual International Conference on Digital Government Research,ACM,2013:166-171.

[13]World Bank.Technical Assessment of Open Data Platforms for National Statistical Organisations[EB/OL].http:∥documents.worldbank.org/curated/en/2014/10/20451797/technical-assessment-open-data-platforms-national-statistical-organisations,2014-10.

[14]Bello O,Jolayemi O,Akinwande V,A Ibrahim.Open Data Portals in Africa An Empirical Analysis of Open Government Data Initiatives[C].Conference:4th iSTEAMS Research Nexus,2015:595-606.

[15]董智鵬,劉靜羽.基于Drupal的項(xiàng)目網(wǎng)站建設(shè)——以“開放資源建設(shè)”網(wǎng)站為例[J].現(xiàn)代圖書情報(bào)技術(shù),2016,(1):81-86.

[16]周宇,魏太亮,廖思琴.基于Drupal的圖書館知識交流共享平臺構(gòu)建[J].現(xiàn)代情報(bào),2016,36(3):53-60.

[17]孫榮.基于開源軟件Drupal構(gòu)建高校數(shù)字化教學(xué)資源門戶[J].現(xiàn)代情報(bào),2012,32(12):52-57.

[18]Tim Berners-Lee.Linked Data[EB/OL].http:∥www.w3.org/DesignIssues/LinkedData.html,2009-06-18.

[19]Zuiderwijk,A.,Helbig,N.,Gil-García,JRA.,& Janssen,M.Special issue on innovation through open data:Guest editors introduction[J].Journal of Theoretical and Applied Electronic Commerce Research,2014,9(2).

[20]Zuiderwijk A,Jeffery K,Janssen M.The potential of metadata for linked open data and its value for users and publishers[J].JeDEM-eJournal of eDemocracy and Open Government,2012,4(2):222-244.

[21]W3C.Data Catalog Vocabulary(DCAT)[EB/OL].http:∥www.w3.org/TR/vocab-dcat/,2014-01-16.

[22]夏翠娟,劉煒,趙亮,等.關(guān)聯(lián)數(shù)據(jù)發(fā)布技術(shù)及其實(shí)現(xiàn)——以Drupal為例[J].中國圖書館學(xué)報(bào),2012,38(1):49-57.

[23]任瑞娟,濮德敏,王劍宏,等.基于Drupal實(shí)現(xiàn)多類型學(xué)術(shù)資源的語義化組織與關(guān)聯(lián)化聚合[J].情報(bào)科學(xué),2015,33(5):63-67.

[24]王思麗,馬建玲,李慧佳,等.關(guān)聯(lián)數(shù)據(jù)集中開放資源的自動(dòng)獲取研究[J].圖書館學(xué)研究,2015(18):49-54.

(本文責(zé)任編輯:郭沫含)

猜你喜歡
元數(shù)據(jù)
元數(shù)據(jù)國際交換共享的客家古民居數(shù)字記憶工程建設(shè)
財(cái)會(huì)信息資源元數(shù)據(jù)標(biāo)準(zhǔn)的研究
基于角色控制的異構(gòu)數(shù)據(jù)展示在企業(yè)門戶中的應(yīng)用
新巴尔虎左旗| 治县。| 莆田市| 宝丰县| 天镇县| 仁布县| 土默特左旗| 和林格尔县| 民丰县| 濮阳市| 西吉县| 岱山县| 东莞市| 镇原县| 佛学| 周宁县| 汝州市| 名山县| 腾冲县| 崇信县| 静安区| 郑州市| 兰考县| 大庆市| 无极县| 龙陵县| 新余市| 吴桥县| 会东县| 大安市| 榆林市| 新建县| 云阳县| 馆陶县| 石城县| 北碚区| 新巴尔虎左旗| 翁源县| 改则县| 南部县| 砀山县|