翟軍+于夢(mèng)月+林巖
摘 要:元數(shù)據(jù)是各國(guó)政府開放數(shù)據(jù)行動(dòng)計(jì)劃的重要組成部分。文章在介紹W3C元數(shù)據(jù)標(biāo)準(zhǔn)DCAT(Data Catalog Vocabulary)、美國(guó)的“開放數(shù)據(jù)項(xiàng)目”(Project Open Data,POD)和歐盟的DCAT應(yīng)用綱要(DCAT-AP)方案基礎(chǔ)上,分析和總結(jié)了美國(guó)、歐盟和愛爾蘭政府開放數(shù)據(jù)元數(shù)據(jù)建設(shè)的成果和特點(diǎn)。通過(guò)對(duì)比我國(guó)北京、上海和浙江三個(gè)地方政府開放數(shù)據(jù)元數(shù)據(jù)建設(shè)情況,認(rèn)為我國(guó)政府開放數(shù)據(jù)的元數(shù)據(jù)建設(shè)應(yīng)在政策支持及法律保障、體系完整和語(yǔ)義化方面加強(qiáng)工作,以克服當(dāng)前在規(guī)范化、標(biāo)準(zhǔn)化和互操作上的不足。
關(guān)鍵詞:政府開放數(shù)據(jù);元數(shù)據(jù);DCAT;開放數(shù)據(jù)項(xiàng)目;語(yǔ)義化
中圖分類號(hào): D035-39 文獻(xiàn)標(biāo)識(shí)碼: A DOI:10.11968/tsyqb.1003-6938.2017081
Abstract Metadata is an important part of Open Data Initiative across the world. Based on W3C metadata standard DCAT(Data Catalog Vocabulary), American Project Open Data (POD) and DCAT-AP of EU, this paper analyzes the achievements and characteristics of the metadata in the United States, European Union and Ireland. By comparing metadata schemas of Chinese local governments such as Beijing, Shanghai and Zhejiang, this paper points out that the metadata construction of China's OGD should be strengthened from aspects of policy support, legal protection, system improvement and adoption of semantic technology so as to overcome the drawback in the normalization, standardization and interoperability.
Key words open government data; metadata; DCAT; DCAT-AP; semantization
1 引言
自2009年開始,全球興起了一場(chǎng)“開放政府?dāng)?shù)據(jù)”(Open Government Data, OGD)運(yùn)動(dòng)[1-2]。截至到2016年7月,“開放政府合作組織”(Open Government Partnership,OGP)的成員國(guó)已從2011年成立之初的8個(gè)發(fā)展到70個(gè)。根據(jù)世界銀行的統(tǒng)計(jì),目前已有超過(guò)250個(gè)各級(jí)政府實(shí)施了“開放數(shù)據(jù)行動(dòng)計(jì)劃”(Open Data Initiative)[3]。
與此同時(shí),開放政府?dāng)?shù)據(jù)成為圖書情報(bào)、信息管理和電子政務(wù)等領(lǐng)域的研究熱點(diǎn)[4-5]。英國(guó)學(xué)者Tim Davies總結(jié)了“開放數(shù)據(jù)行動(dòng)計(jì)劃”的十個(gè)障礙[6]:(1)領(lǐng)導(dǎo)和官員的支持;(2)開放數(shù)據(jù)集;(3)開放數(shù)據(jù)許可;(4)數(shù)據(jù)標(biāo)準(zhǔn);(5)數(shù)據(jù)門戶;(6)第三方的數(shù)據(jù)應(yīng)用;(7)推廣與普及(公眾參與);(8)能力建設(shè);(9)反饋機(jī)制;(10)政策和立法。其中(2)(4)(5)(6)(7)(8)六個(gè)障礙都涉及到元數(shù)據(jù),包括數(shù)據(jù)集的元數(shù)據(jù)描述、元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)門戶的元數(shù)據(jù)管理、基于元數(shù)據(jù)的數(shù)據(jù)查找和發(fā)布者提供高質(zhì)量元數(shù)據(jù)的能力等。2014年,G8的《開放數(shù)據(jù)憲章》發(fā)起了“元數(shù)據(jù)映射”共同行動(dòng)[7];歐盟的“開放數(shù)據(jù)戰(zhàn)略”研究政府元數(shù)據(jù)的“語(yǔ)義互操作性”問(wèn)題(ISA中的SEMIC.EU項(xiàng)目)[8]。隨著開放數(shù)據(jù)的逐步深入,元數(shù)據(jù)從提高開放數(shù)據(jù)集的可發(fā)現(xiàn)性[9]到幫助用戶理解、選擇數(shù)據(jù)集[10],正在向規(guī)范化、標(biāo)準(zhǔn)化和機(jī)器可讀的方向發(fā)展。
在學(xué)術(shù)研究和政府實(shí)踐上,我國(guó)也已開始加快了追趕全球開放數(shù)據(jù)浪潮的腳步[11]。如鄭磊等[12]構(gòu)建的“中國(guó)政府開放數(shù)據(jù)整體評(píng)估框架”中,元數(shù)據(jù)是13個(gè)評(píng)估維度之一;錢曉紅[13]、周志峰[14]等均認(rèn)為元數(shù)據(jù)的建設(shè)和管理是“開放數(shù)據(jù)平臺(tái)”和“數(shù)據(jù)目錄門戶”的核心功能。從2012年開始,北京、上海、浙江和重慶等地方政府相繼推出了十余個(gè)開放數(shù)據(jù)的門戶網(wǎng)站。雖然這些網(wǎng)站都能提供基本的元數(shù)據(jù)信息[15],但元數(shù)據(jù)對(duì)數(shù)據(jù)集的描述尚不全面、規(guī)范程度也不高,難以支撐大范圍的數(shù)據(jù)目錄互操作和用戶的查找需求,這將影響到數(shù)據(jù)開放的效果[9]。為此,本文通過(guò)比較國(guó)際上主要的政府開放數(shù)據(jù)元數(shù)據(jù)方案,概述與分析了我國(guó)地方政府開放數(shù)據(jù)元數(shù)據(jù)方案的不足,以期為我國(guó)政府開放數(shù)據(jù)的元數(shù)據(jù)體系建設(shè)提供一定的理論借鑒和參考。
2 W3C的開放數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范
由蒂姆·伯納斯-李領(lǐng)導(dǎo)的W3C是政府?dāng)?shù)據(jù)開放運(yùn)動(dòng)的積極推動(dòng)者[16]。2014年1月16日,W3C政府關(guān)聯(lián)數(shù)據(jù)工作組(Government Linked Data Working Group)發(fā)布了由愛爾蘭國(guó)立大學(xué)DERI(Digital Enterprise Research Institute)起草、W3C電子政務(wù)興趣小組(eGovernment Interest Group)修改的政府開放數(shù)據(jù)元數(shù)據(jù)的正式推薦標(biāo)準(zhǔn)——DCAT(Data Catalog Vocabulary)[17]。據(jù)統(tǒng)計(jì),DCAT及其應(yīng)用綱要(Application Profile)已被歐盟、美國(guó)、英國(guó)、西班牙、愛爾蘭和意大利等政府機(jī)構(gòu)、服務(wù)全球的數(shù)據(jù)目錄DataHub(datahub.io)和開放數(shù)據(jù)平臺(tái)DKAN等廣泛采用[18]。endprint
DCAT主要支持?jǐn)?shù)據(jù)目錄之間的互操作性(interoperability),因此采取了本體的表述方式[19-20]。DCAT本體(也稱“詞匯表”)的命名空間是http://www.w3.org/ns/dcat#(前綴是dcat),共定義了7個(gè)類和17個(gè)屬性,并復(fù)用了都柏林核心元數(shù)據(jù)(Dublin Core)、FOAF本體和SKOS本體的相關(guān)詞匯。
2.1 描述對(duì)象
DCAT元數(shù)據(jù)的描述對(duì)象主要是“數(shù)據(jù)目錄”、“數(shù)據(jù)集”和“數(shù)據(jù)資源”(見圖1),其分別對(duì)應(yīng)圖中的類dcat:Catalog、dcat:Dataset和dcat:Distribution。dcat:Catalog類的實(shí)例是開放數(shù)據(jù)目錄的門戶網(wǎng)站,如美國(guó)的catalog.data.gov、英國(guó)的data.gov.uk、北京的bjdata.gov.cn及datahub.io等。截至2016年7月,DataPortals.org收集的數(shù)據(jù)目錄門戶網(wǎng)站已達(dá)519個(gè)。
一個(gè)數(shù)據(jù)目錄網(wǎng)站通常含有大量的“數(shù)據(jù)集”——數(shù)據(jù)目錄管理的基本單元,由一個(gè)機(jī)構(gòu)或部門發(fā)布和維護(hù)的數(shù)據(jù)的集合。2013年全球43個(gè)國(guó)家以24種語(yǔ)言開放了1028054個(gè)數(shù)據(jù)集[7],這一數(shù)字還在快速增長(zhǎng)。因此,“數(shù)據(jù)集”是元數(shù)據(jù)描述的核心對(duì)象,以幫助用戶發(fā)現(xiàn)、理解和選擇適當(dāng)?shù)臄?shù)據(jù)。一個(gè)數(shù)據(jù)集包含一個(gè)或多個(gè)“數(shù)據(jù)資源”——能被下載的數(shù)據(jù)文件、訪問(wèn)數(shù)據(jù)的端點(diǎn)(endpoint)或RSS源(feed)等。顯然,用戶增值應(yīng)用的對(duì)象是“數(shù)據(jù)資源”。
2.2 元數(shù)據(jù)元素
在三個(gè)主要描述對(duì)象中DCAT推薦的元數(shù)據(jù)見表1,帶下劃線的是被美國(guó)政府采用的,dcat:Catalog類有13個(gè)屬性,包括DCAT本體定義的3個(gè)新屬性;dcat:Dataset類有15個(gè)屬性,有5個(gè)新屬性;dcat:Distribution類有11個(gè)屬性,有4個(gè)新屬性,其中括號(hào)內(nèi)的是來(lái)自都柏林核心元數(shù)據(jù)或FOAF的父屬性(見表2)。
3 美國(guó)的元數(shù)據(jù)方案
美國(guó)是開放政府?dāng)?shù)據(jù)的發(fā)起者和領(lǐng)跑者。從2009年5月21日發(fā)布了全球第一個(gè)國(guó)家數(shù)據(jù)門戶Data.Gov以來(lái),到2016年7月各級(jí)政府(州、縣和市)的開放數(shù)據(jù)門戶網(wǎng)站已有88個(gè)[22]。Data.Gov上的數(shù)據(jù)集從幾百個(gè)發(fā)展到超過(guò)18萬(wàn)個(gè),涵蓋農(nóng)業(yè)、教育、能源、氣候、財(cái)政、健康、公共安全、科學(xué)研究等14個(gè)主題群。2016年4月21日,由互聯(lián)網(wǎng)之父蒂姆·伯納斯·李(Tim Berners-Lee)創(chuàng)辦的萬(wàn)維網(wǎng)基金會(huì)(World Wide Web Foundation)公布了其第三份“開放數(shù)據(jù)晴雨表”(Open Data Barometer)全球報(bào)告。 報(bào)告顯示:在納入評(píng)價(jià)的92個(gè)國(guó)家和地區(qū)中,英國(guó)的政府開放數(shù)據(jù)水平綜合得分居首,美國(guó)、法國(guó)、加拿大,丹麥緊隨其后[21]。
在元數(shù)據(jù)建設(shè)方面,美國(guó)也走在了前列。由白宮領(lǐng)導(dǎo)的“開放數(shù)據(jù)項(xiàng)目”(Project Open Data)于2013年9月20發(fā)布“元數(shù)據(jù)方案”1.0版[23]后,2014年11月6日發(fā)布了最新的1.1版(Project Open Data Metadata Schema V1.1,POD V1.1)[24],并于2015年2月1日前完成了從V1.0到V1.1的轉(zhuǎn)換。目前,Data.Gov上的數(shù)據(jù)集不僅來(lái)自聯(lián)邦政府機(jī)構(gòu),也聚集了諸多地方政府?dāng)?shù)據(jù)門戶的數(shù)據(jù)集,這得益于各級(jí)政府廣泛使用了POD V1.1。
歸納起來(lái),美國(guó)在開放數(shù)據(jù)元數(shù)據(jù)的建設(shè)上呈現(xiàn)如下特點(diǎn):
(1)政策保障。2013年5月,美國(guó)白宮行政管理和預(yù)算辦公室(OMB)發(fā)表的備忘錄《開放數(shù)據(jù)政策:將信息作為資產(chǎn)管理》是美國(guó)政府?dāng)?shù)據(jù)資產(chǎn)管理的綱領(lǐng)性文件[25-26]。備忘錄明確指出[27]:元數(shù)據(jù)是美國(guó)聯(lián)邦政府開放數(shù)據(jù)政策的一部分,“元數(shù)據(jù)方案”廣泛適用于中央政府和地方政府及非政府組織。
(2)標(biāo)準(zhǔn)化和規(guī)范化?;贒CAT建立1.0和1.1版的“通用核心元數(shù)據(jù)”(common core metadata)[2,23],并映射到元數(shù)據(jù)標(biāo)準(zhǔn)DCAT、Schema.org、CKAN元數(shù)據(jù)、ISO 19115和 CSDGM[28]。方案采用JSON-LD定義元數(shù)據(jù)模式及機(jī)器可讀(machine readable)的標(biāo)準(zhǔn)化元數(shù)據(jù)記錄格式,如Data.gov提供了RDF和JSON兩種格式的元數(shù)據(jù)。方案明確規(guī)定各元素的取值類型,如將String 類型細(xì)化為IRI、URL和IANA Media Type等,而與時(shí)間有關(guān)的元素(如issued、modified和temporal等)的取值類型是ISO 8601 Date(www.iso.org/iso/home/standards/iso8601.htm)。
得益于這一系列的標(biāo)準(zhǔn)化和規(guī)范化方案要求,故在“數(shù)據(jù)創(chuàng)新中心”(Center for Data Innovation)2015年對(duì)G8各國(guó)的開放數(shù)據(jù)情況評(píng)估中,美國(guó)元數(shù)據(jù)標(biāo)準(zhǔn)化的得分是滿分(10分)[29]。
(3)本土化。美國(guó)結(jié)合政府信息化的發(fā)展情況,引進(jìn)和構(gòu)建了具有本土特點(diǎn)的元數(shù)據(jù),以實(shí)現(xiàn)對(duì)數(shù)據(jù)集等對(duì)象的全面描述。主要體現(xiàn)在:①引進(jìn)只適用于美國(guó)聯(lián)邦政府的元數(shù)據(jù)元素:bureauCode、programCode、dataQuality、primaryITInvestmentUII和systemOfRecords;②支持?jǐn)?shù)據(jù)標(biāo)準(zhǔn)的元素conformsTo,支持?jǐn)?shù)據(jù)字典或數(shù)據(jù)模式的元素describedBy;③將元素分為三類:必需的(Required)、一定條件下必需的(Required-if )和擴(kuò)展的(Expanded)。
3.1 數(shù)據(jù)目錄的元數(shù)據(jù)
PODV1.1對(duì)數(shù)據(jù)目錄設(shè)有6個(gè)元素:@context、@id、@type、conformsTo、describedBy和dct:dataset(dcat:dataset)(見表3)。其中,前三個(gè)元素取自JSON-LD規(guī)范定義的關(guān)鍵字[30],接下來(lái)的兩個(gè)是美國(guó)獨(dú)有的,最后一個(gè)來(lái)自DCAT。endprint
3.2 數(shù)據(jù)集的元數(shù)據(jù)
描述數(shù)據(jù)集的元素有29個(gè),其中17個(gè)來(lái)自DCAT(表1帶下劃線的元素),1個(gè)(dct:references)來(lái)自都柏林核心元數(shù)據(jù),11個(gè)是自定義元素(見表4)。
3.3 數(shù)據(jù)資源的元數(shù)據(jù)
描述數(shù)據(jù)資源的元素有10個(gè):@type、conformsTo、describedBy、describedByType、dct:title、dct:description、dct:format、dcat:downloadURL、dcat:accessURL和dcat:mediaType。除了復(fù)用DCAT的6個(gè)元素,有4個(gè)是自定義的元素(見表5)。
4 歐盟的元數(shù)據(jù)方案
開放數(shù)據(jù)是歐盟大數(shù)據(jù)戰(zhàn)略的主要內(nèi)容之一[31]。2011年12月,歐盟明確提出開放數(shù)據(jù)戰(zhàn)略——《開放數(shù)據(jù)——?jiǎng)?chuàng)新、增長(zhǎng)和透明治理的引擎》,以為實(shí)現(xiàn)歐盟2020目標(biāo)提供新的路徑與動(dòng)力。2016年,在歐盟28國(guó)和EFTA 4個(gè)國(guó)家(冰島、列支敦士登、挪威和瑞士)開放數(shù)據(jù)的直接市場(chǎng)規(guī)模將為553億歐元,2020年將增長(zhǎng)36.9%達(dá)到757億歐元,2016-2020五年間累積的直接市場(chǎng)規(guī)模為3250億歐元[32]。
2014年12月,歐盟在連接歐洲設(shè)施(CEF)框架下,啟動(dòng)了“歐盟數(shù)據(jù)門戶項(xiàng)目” (European Data Portal Project)。項(xiàng)目建設(shè)的歐盟28國(guó)統(tǒng)一的數(shù)據(jù)目錄門戶(www.europeandataportal.eu)已收集了來(lái)自70個(gè)數(shù)據(jù)目錄的58萬(wàn)多個(gè)數(shù)據(jù)集。而做到這一點(diǎn),依賴的是歐盟的開放數(shù)據(jù)元數(shù)據(jù)方案“歐盟數(shù)據(jù)門戶的DCAT應(yīng)用綱要”(DCAT Application Profile for data portals in Europe,DCAT-AP)。
4.1 歐盟的DCAT-AP
歐盟項(xiàng)目“公共部門互操作性方案”(ISA)的行動(dòng)計(jì)劃“提高歐盟電子政務(wù)系統(tǒng)的語(yǔ)義互操作性”于2013年9月2日發(fā)布DCAT-AP 1.01版,到2015年ISA2項(xiàng)目已將其修訂為V1.1版[33]。在W3C DCAT的基礎(chǔ)上,歐盟DCAT-AP將類和屬性分成強(qiáng)制的(Mandatory)、推薦的(Recommended)和可選的(Optional )三組。其中22個(gè)類中,dcat:Catalog 、dcat:Dataset、skos:ConceptScheme、skos:Concept、foaf:Agent等7個(gè)類是強(qiáng)制類,dcat:Distribution為推薦類(dcat:Catalog 、dcat:Dataset和dcat:Distribution的部分屬性見表6),dct:Location、dct:Standard和v:VCard等14個(gè)類是可選的。對(duì)于強(qiáng)制類和屬性,發(fā)布者必須提供相應(yīng)的描述信息。
為了解決分布式數(shù)據(jù)目錄的互操作和跨語(yǔ)言問(wèn)題,歐盟DCAT-AP引進(jìn)了受控詞匯表來(lái)規(guī)范元數(shù)據(jù)記錄的取值部分屬性和取值的受控詞匯表(見表7)。
作為標(biāo)準(zhǔn)規(guī)范,DCAT-AP已被歐盟各成員國(guó)通過(guò),歐盟和14個(gè)國(guó)家(奧地利、法國(guó)、德國(guó)、希臘、愛爾蘭、意大利、荷蘭、挪威、羅馬尼亞、斯洛伐克、斯洛文尼亞、瑞典、西班牙、英國(guó))的開放數(shù)據(jù)門戶網(wǎng)站已經(jīng)采用DCAT-AP[34]。
4.2 愛爾蘭的元數(shù)據(jù)方案
愛爾蘭于2014年建立了國(guó)家數(shù)據(jù)門戶(data.gov.ie),其“成熟度”(Maturity)在歐盟處于中上水平[32]。愛爾蘭公共支出和改革部成立專門的工作組PBWG(Public Bodies Working Group)于2015年6月發(fā)布“開放數(shù)據(jù)技術(shù)框架”(Open Data Technical Framework),包括五部分:開放數(shù)據(jù)許可、數(shù)據(jù)格式、元數(shù)據(jù)方案、數(shù)據(jù)標(biāo)準(zhǔn)和標(biāo)識(shí)符[35]。愛爾蘭的元數(shù)據(jù)方案在歐盟DCAT-AP的基礎(chǔ)上,增加了描述地理數(shù)據(jù)集的元數(shù)據(jù)(見表8)。
5 我國(guó)地方政府的元數(shù)據(jù)方案
不同于美國(guó)、英國(guó)、歐盟等從國(guó)家(或中央政府)層面到地方政府的發(fā)展路徑,我國(guó)的開放政府?dāng)?shù)據(jù)主要發(fā)端于地方政府。從2012年開始,在大數(shù)據(jù)戰(zhàn)略和智慧城市建設(shè)中一些地方政府率先推出了開放數(shù)據(jù)門戶網(wǎng)站[12](網(wǎng)址參見參考文獻(xiàn)[7]和[12])。
5.1 元數(shù)據(jù)方案
本研究在調(diào)查和分析各數(shù)據(jù)目錄實(shí)際使用的元數(shù)據(jù)基礎(chǔ)上,以北京、上海和浙江為代表,歸納出主要的
元數(shù)據(jù)元素,并建立了各元素到DCAT的映射(見表9)。
5.2 不足之處
雖然我國(guó)這些地方政府開放數(shù)據(jù)的元數(shù)據(jù)能滿足現(xiàn)階段開放數(shù)據(jù)的基本需求,但仍有不足,如:
(1)元數(shù)據(jù)規(guī)范程度低。2013年11月,上海市質(zhì)量技術(shù)監(jiān)督局發(fā)布上海市地方標(biāo)準(zhǔn)《政務(wù)信息資源共享與交換實(shí)施規(guī)范第1部分:目錄元數(shù)據(jù)》,用以規(guī)范政府部門數(shù)據(jù)資源開放清單的編制。但其他地方政府還沒(méi)有公布專門的開放數(shù)據(jù)元數(shù)據(jù)方案,也沒(méi)有聲明采用已有的元數(shù)據(jù)標(biāo)準(zhǔn)或規(guī)范(如《政務(wù)信息資源目錄體系第3部分:核心元數(shù)據(jù)》(GB/T 21063.3-2007)),這一直接后果是元數(shù)據(jù)規(guī)范程度低。如,北京市政務(wù)數(shù)據(jù)資源網(wǎng)(bjdata.gov.cn)上的“資源更新周期”取值有“一年”的、也有“每年”的,而“在線資源鏈接地址”的取值都是“WWW.BJDATA.GOV.CN”,造成用戶不能從元數(shù)據(jù)直接找到數(shù)據(jù)資源,也就失去了元數(shù)據(jù)的價(jià)值。
(2)對(duì)開放數(shù)據(jù)集的描述不全面??偨Y(jié)各網(wǎng)站普遍缺失的最基本和重要的元數(shù)據(jù)(見表10),可以發(fā)現(xiàn)“開放許可”、“修改日期”和“標(biāo)識(shí)符”在開放數(shù)據(jù)晴雨表ODB的評(píng)價(jià)指標(biāo)中分別占15、10和5分的權(quán)重[7],是影響開放數(shù)據(jù)質(zhì)量的核心元數(shù)據(jù)。中國(guó)在ODB 2015的綜合得分是21.16,在92個(gè)國(guó)家的排名是55,由此地方政府調(diào)查反映出來(lái)的元數(shù)據(jù)不完整則是分?jǐn)?shù)不高的重要因素之一。endprint
(3)不支持分布式數(shù)據(jù)目錄的互操作。調(diào)查發(fā)現(xiàn)我國(guó)地方政府開放數(shù)據(jù)沒(méi)有描述數(shù)據(jù)目錄的元數(shù)據(jù);各網(wǎng)站普遍沒(méi)有采用機(jī)器可讀的元數(shù)據(jù)格式;網(wǎng)站間的元數(shù)據(jù)差異較大,表現(xiàn)為元素的個(gè)數(shù)、名稱與格式上的不一致。因此,數(shù)據(jù)目錄間的互操作水平低,難以實(shí)現(xiàn)聚合多個(gè)數(shù)據(jù)門戶到統(tǒng)一入口和應(yīng)用程序跨多個(gè)數(shù)據(jù)目錄讀取數(shù)據(jù)集的元數(shù)據(jù)。
6 對(duì)我國(guó)元數(shù)據(jù)建設(shè)的啟示
2015年9月5日,國(guó)務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,明確在2018年底前要建成國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺(tái)[36-37]。2014 年12月2日,全國(guó)信標(biāo)委成立大數(shù)據(jù)標(biāo)準(zhǔn)工作組,啟動(dòng)了大數(shù)據(jù)領(lǐng)域(含開放數(shù)據(jù))標(biāo)準(zhǔn)的研制工作[38]。開放政府?dāng)?shù)據(jù)元數(shù)據(jù)的建設(shè)已日益緊迫,結(jié)合我國(guó)的本土情況,可多方面借鑒國(guó)外的先進(jìn)經(jīng)驗(yàn)。
6.1 政策支持和法律、法規(guī)保障
在開放數(shù)據(jù)行動(dòng)計(jì)劃中,各國(guó)都出臺(tái)了一批新的政策、法律和法規(guī)[6,11,25,39],明確了元數(shù)據(jù)的重要性。除了上面介紹的美國(guó)和歐盟,英國(guó)的開放數(shù)據(jù)原則第十四條規(guī)定:“公共機(jī)構(gòu)應(yīng)該發(fā)布數(shù)據(jù)集的相關(guān)元數(shù)據(jù)”。正是政策的支持和法律、法規(guī)的保障,促進(jìn)了實(shí)踐中元數(shù)據(jù)的標(biāo)準(zhǔn)化和規(guī)范化。
我國(guó)還沒(méi)有國(guó)家層面專門的政府?dāng)?shù)據(jù)開放法規(guī),政府信息版權(quán)法規(guī)政策體系中也沒(méi)有“開放許可”的內(nèi)容[39]。研究表明,開放許可相關(guān)法規(guī)的缺失是實(shí)踐中普遍沒(méi)有“開放許可”這一核心元數(shù)據(jù)項(xiàng)的主要原因[12]。
6.2 構(gòu)建完整的元數(shù)據(jù)標(biāo)準(zhǔn)體系
開放政府?dāng)?shù)據(jù)將重塑政府信息管理體系[40],包括元數(shù)據(jù)標(biāo)準(zhǔn)體系。愛爾蘭“開放數(shù)據(jù)技術(shù)框架”的五部分是一個(gè)有機(jī)的整體,是一個(gè)廣義的“元數(shù)據(jù)標(biāo)準(zhǔn)體系”的雛形。其中的開放數(shù)據(jù)許可、數(shù)據(jù)格式、數(shù)據(jù)標(biāo)準(zhǔn)和標(biāo)識(shí)符不僅適用于開放的原始數(shù)據(jù),也適用于元數(shù)據(jù)。
在遵循標(biāo)準(zhǔn)化和本土化的原則下,我國(guó)應(yīng)構(gòu)建完整的元數(shù)據(jù)標(biāo)準(zhǔn)體系進(jìn)而實(shí)現(xiàn):(1)既支持各層次的開放政府?dāng)?shù)據(jù),也支持非政府機(jī)構(gòu)的開放數(shù)據(jù);(2)將“數(shù)據(jù)目錄”作為重要的描述對(duì)象,支持目錄間的互操作;(3)既有核心的通用元數(shù)據(jù),也有專門領(lǐng)域(如地理數(shù)據(jù)集等)的元數(shù)據(jù)標(biāo)準(zhǔn);(4)技術(shù)上保障元數(shù)據(jù)的開放共享性,如機(jī)器可讀的數(shù)據(jù)格式標(biāo)準(zhǔn)和模式定義標(biāo)準(zhǔn)等;(5)規(guī)范元數(shù)據(jù)取值的分類體系(如主題詞表)、編碼體系(如受控詞表)和數(shù)據(jù)字典等。
6.3 重視元數(shù)據(jù)的語(yǔ)義化
Web是開放數(shù)據(jù)的第一渠道,正在向語(yǔ)義Web和數(shù)據(jù)Web(即關(guān)聯(lián)數(shù)據(jù))的方向發(fā)展,顯著特征是出現(xiàn)了大量的本體/詞匯表和關(guān)聯(lián)開放數(shù)據(jù)集。為實(shí)現(xiàn)開放數(shù)據(jù)目錄的語(yǔ)義互操作,W3C、美國(guó)和歐盟等均采用了語(yǔ)義Web和本體技術(shù)。
實(shí)現(xiàn)元數(shù)據(jù)語(yǔ)義化的途徑主要有:(1)開發(fā)核心詞匯表(如DC、FOAF等),它們是設(shè)計(jì)元數(shù)據(jù)方案的基礎(chǔ);(2)通過(guò)本體建立元數(shù)據(jù)的概念模型;(3)利用RDF/XML、JSON-LD等編碼元數(shù)據(jù);(4)通過(guò)SKOS等本體形式化表示受控詞表;(5)復(fù)用和擴(kuò)展已有本體和元數(shù)據(jù),構(gòu)建應(yīng)用綱要。
7 結(jié)語(yǔ)
開放數(shù)據(jù)是政府信息公開在大數(shù)據(jù)時(shí)代的發(fā)展和深化,元數(shù)據(jù)對(duì)于用戶查找和選擇適當(dāng)?shù)臄?shù)據(jù)集和聚合數(shù)據(jù)目錄具有重要意義,而我國(guó)政府開放數(shù)據(jù)的元數(shù)據(jù)建設(shè)尚處于起步階段。
本文介紹了國(guó)際上主流的元數(shù)據(jù)方案:W3C DCAT、美國(guó)的POD v1.1和歐盟的DCAT-AP,總結(jié)了美國(guó)和愛爾蘭在元數(shù)據(jù)建設(shè)上的本土化等特點(diǎn)。進(jìn)而對(duì)照國(guó)際上最佳實(shí)踐的發(fā)展趨勢(shì),指出我國(guó)的元數(shù)據(jù)建設(shè)應(yīng)在政策支持及法律保障、體系完整和語(yǔ)義化方面加強(qiáng)工作,以克服當(dāng)前在規(guī)范化、標(biāo)準(zhǔn)化和互操作上的不足。
本研究進(jìn)一步的工作是在政務(wù)信息資源元數(shù)據(jù)和DCAT的基礎(chǔ)上構(gòu)建開放數(shù)據(jù)的元數(shù)據(jù)方案和規(guī)范、研究元數(shù)據(jù)的質(zhì)量測(cè)度和評(píng)價(jià)方法等。
參考文獻(xiàn):
[1] Attard J,Orlandi F,Scerri S,et al.A systematic review of open government data initiatives[J].Government Information Quarterly,2015,32(4):399-418.
[2] 張涵,王忠.國(guó)外政府開放數(shù)據(jù)的比較研究[J].情報(bào)雜志,2015,34(8):142-146.
[3] World Bank.Open Data in 60 Seconds[EB/OL].[2016-08-20].http://opendatatoolkit.worldbank.org/en/open-data-in-60-seconds.html.
[4] 蘇云,任媛媛.大數(shù)據(jù)背景下政府信息公開制度的構(gòu)建與完善——兼論國(guó)外透明政府實(shí)踐的前沿發(fā)展對(duì)我國(guó)的啟示[J]. 圖書與情報(bào),2016(2):113-122.
[5] 趙潤(rùn)娣.政府信息公開領(lǐng)域新發(fā)展:開放政府?dāng)?shù)據(jù)[J].情報(bào)理論與實(shí)踐,2015,38(10):116-121.
[6] Tim Davies.Ten building blocks of an open data initiative[EB/OL].[2016-08-20].http://www.opendataimpacts.net/2012/08/.
[7] 翟軍.關(guān)聯(lián)政府?dāng)?shù)據(jù)原理與應(yīng)用——大數(shù)據(jù)時(shí)代開放數(shù)據(jù)的技術(shù)與實(shí)踐[M].北京:電子工業(yè)出版社,2016:151-168.
[8] SEMIC-Semantic Interoperability Community[EB/OL].[2016-06-11].https://joinup.ec.europa.eu/community/semic/Description.
[9] Erickson J S,Viswanathan A,Shinavier J,et al.Open Government Data:A Data Analytics Approach[J].IEEE Intelligent Systems,2013,28(5):19-23.endprint
[10] AnnekeZuiderwijk,Marijn Janssen,IrynaSusha.Improving thespeed and ease of open data use through metadata,interaction mechanisms, and qualityindicators[J].Journal of Organizational Computing and Electronic Commerce,2016,26(1-2):116-146.
[11] 馬海群,蒲攀.國(guó)內(nèi)外開放數(shù)據(jù)政策研究現(xiàn)狀分析及我國(guó)研究動(dòng)向研判[J].中國(guó)圖書館學(xué)報(bào),2015,41(5):76-86.
[12] 鄭磊,高豐.中國(guó)開放政府?dāng)?shù)據(jù)平臺(tái)研究:框架、現(xiàn)狀與建議[J].電子政務(wù),2015(7):8-16.
[13] 錢曉紅,胡芒谷.政府開放數(shù)據(jù)平臺(tái)的構(gòu)建及技術(shù)特征[J].圖書情報(bào)知識(shí),2014(3):124-129.
[14] 周志峰,黃如花.國(guó)外政府開放數(shù)據(jù)門戶服務(wù)功能探析[J].情報(bào)雜志,2013,32(3):144-147.
[15] 中國(guó)電子政務(wù)資訊網(wǎng).我國(guó)政府?dāng)?shù)據(jù)開放現(xiàn)狀如何[EB/OL].[2016-08-19].http://www.cegov.cn/tabid/77/InfoID/3610/frtid/38/Default.aspx.
[16] 譚健.開放數(shù)據(jù)及其應(yīng)用現(xiàn)狀[J].圖書與情報(bào),2011(4):42-47.
[17] W3C.Data Catalog Vocabulary(DCAT)[EB/OL].[2016-08-16].http://www.w3.org/TR/vocab-dcat/.
[18] W3C.DCAT Implementations[EB/OL].[2016-08-15].https://www.w3.org/2011/gld/wiki/DCAT_Implementations.
[19] 劉煒,李大玲,夏翠娟.元數(shù)據(jù)與知識(shí)本體[J].圖書館雜志,2004,23(6):50-54.
[20] 楊蕾,李金芮.國(guó)外公共數(shù)字文化資源整合元數(shù)據(jù)互操作方式研究[J].圖書與情報(bào),2015(1):15-21.
[21] Carlos Iglesias,Alonso J.,Ana Brandusecu.Open Data Barometer-3rd Edition[R].World Wide Web Foundation,2016.
[22] Data.Gov.Open Government[EB/OL].[2016-08-15].http://www.data.gov/open-gov/.
[23] Common Core Metadata Schema v1.0[EB/OL].[2016-08-20].https://project-open-data.cio.gov/schema/.
[24] Project Open Data Metadata Schema v1.1[EB/OL].[2016-08-15].https://project-open-data.cio.gov/v1.1/schema/.
[25] 趙潤(rùn)娣.國(guó)外開放政府?dāng)?shù)據(jù)政策:一個(gè)先導(dǎo)性研究[J].情報(bào)理論與實(shí)踐,2016,39(1):44-48.
[26] Rashmi Krishnamurthy,Yukika Awazu.Liberating data for public value:The case of Data.gov[J].International Journal of Information Management,2016,36(4):668-672.
[27] M-13-13—Memorandum for the Heads of Executive Departments and Agencies[EB/OL].[2016-08-16].https://project-open-data.cio.gov/policy-memo/.
[28] Metadata Resources for Schema v1.1[EB/OL].[2016-08-16].https://project-open-data.cio.gov/v1.1/metadata-resources/.
[29] Daniel Castro,Travis Korte.Open Data in the G8:A Review of Progress on the Open Data Charter[EB/OL].[2016-08-20].http://www.datainnovation.org/2015/03/open-data-in-the-g8/.
[30] JSON-LD1.0[EB/OL].[2016-08-16]https://www.w3.org/TR/json-ld/.
[31] 曹凌.大數(shù)據(jù)創(chuàng)新:歐盟開放數(shù)據(jù)戰(zhàn)略研究[J].情報(bào)理論與實(shí)踐,2013,36(4):118-122.
[32] European Commission.Creating Value through Open Data:Study on the Impact of Re-use of Public Data Resources[EB/OL].[2016-08-26].http://www.europeandataportal.eu/en/node/101.
[33] DCAT application profile for data portals in Europe[EB/OL].[2016-08-28].https://joinup.ec.europa.eu/asset/dcat_application_profile/home/.
[34] DCAT Application Profile for data portals in Europe:Metadata standard[EB/OL].[2016-08-06].http://ec.europa.eu/isa/ready
-to-use-solutions/dcat-ap_en.htm.
[35] Open Data Technical Framework[EB/OL].[2016-10-22].https://data.gov.ie/technical-framework.
[36] 國(guó)務(wù)院.國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知[EB/OL].[2016-09-05].http://www.gov.cn/zhengce/content/2015
-09/05/content_10137.htm.
[37] 武琳,劉珺.數(shù)據(jù)消費(fèi)與孵化創(chuàng)新——開放政府?dāng)?shù)據(jù)商業(yè)應(yīng)用發(fā)展趨勢(shì)[J].情報(bào)資料工作,2016(3):90-94.
[38] 張群.大數(shù)據(jù)標(biāo)準(zhǔn)化現(xiàn)狀及標(biāo)準(zhǔn)研制[J].信息技術(shù)與標(biāo)準(zhǔn)化,2015(7):23-26.
[39] 張曉娟,唐長(zhǎng)樂(lè),王文強(qiáng).大數(shù)據(jù)背景下美國(guó)政府信息管理法規(guī)與政策的拓展[J].情報(bào)資料工作,2016(4):26-31
[40] 夏義堃,丁念.開放政府?dāng)?shù)據(jù)的發(fā)展及其對(duì)政府信息活動(dòng)的影響[J].情報(bào)理論與實(shí)踐,2015,38(12):1-6.
作者簡(jiǎn)介: 翟軍,男,大連海事大學(xué)交通運(yùn)輸管理學(xué)院教授,博士生導(dǎo)師,研究方向:開放數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù);于夢(mèng)月,女,大連海事大學(xué)交通運(yùn)輸管理學(xué)院碩士研究生; 林巖,男,大連海事大學(xué)交通運(yùn)輸管理學(xué)院副教授。endprint