国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

政府類開放關(guān)聯(lián)數(shù)據(jù)集調(diào)查研究

2016-10-21 09:26趙蕊菡
圖書與情報(bào) 2016年4期
關(guān)鍵詞:政府

摘 要:作為開放關(guān)聯(lián)數(shù)據(jù)云圖中重要的數(shù)據(jù)集合,政府開放關(guān)聯(lián)數(shù)據(jù)集擁有龐大的數(shù)據(jù)規(guī)模和發(fā)達(dá)的數(shù)據(jù)共享實(shí)踐,受到廣泛關(guān)注。文章對(duì)曼海姆關(guān)聯(lián)數(shù)據(jù)目錄中的284個(gè)政府類開放關(guān)聯(lián)數(shù)據(jù)集進(jìn)行調(diào)查,從數(shù)據(jù)集的發(fā)布國(guó)家分布、主題分布、數(shù)據(jù)集格式、鏈出情況、鏈入情況、連接謂詞、詞表和開放協(xié)議等方面進(jìn)行統(tǒng)計(jì)分析,發(fā)現(xiàn)政府類開放關(guān)聯(lián)數(shù)據(jù)集具有數(shù)據(jù)集國(guó)家分布較集中、數(shù)據(jù)集主體涵蓋政府工作各個(gè)方面、數(shù)據(jù)集之間關(guān)聯(lián)關(guān)系緊密、質(zhì)量控制和版權(quán)保護(hù)較為嚴(yán)格等特點(diǎn)。

關(guān)鍵詞:政府;關(guān)聯(lián)數(shù)據(jù);開放關(guān)聯(lián)數(shù)據(jù)集

中圖分類號(hào): G203 文獻(xiàn)標(biāo)識(shí)碼: A DOI:10.11968/tsyqb.1003-6938.2016083

Investigation and Research on Government Linked Open Data Sets

Abstract As an important part of the Linking Open Data (LOD) data sets, government data sets have a large volume data and advanced data sharing practice, and receive a widespread attention. 284 government linked open data sets from Mannheim Linked Data Catalog are investigated, and aspects of distribution in countries, themes, formats, outgoing and incoming links, predicates for interlinking, used vocabularies and licensing information. Consequently, the paper summarizes the features of government open linked data and provides reference for the development of Chinese government linked open data.

Key words government;linked data;open linked data sets

1 引言

2016年3月,中央發(fā)布的“十三五”規(guī)劃綱要中提出,要全面實(shí)施促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng),加快政府?dāng)?shù)據(jù)開放共享?!毒V要》指出,要全面推進(jìn)重點(diǎn)領(lǐng)域大數(shù)據(jù)高效采集、有效整合,深化政府?dāng)?shù)據(jù)和社會(huì)數(shù)據(jù)關(guān)聯(lián)分析、融合利用,提高宏觀調(diào)控、市場(chǎng)監(jiān)管、社會(huì)治理和公共服務(wù)精準(zhǔn)性和有效性。2015年9月,國(guó)務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,稱要在2018年底前建成國(guó)家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺(tái),率先在氣象、環(huán)境、信用、交通、醫(yī)療、衛(wèi)生等20余個(gè)重要領(lǐng)域,實(shí)現(xiàn)公共數(shù)據(jù)資源合理適度向社會(huì)開放,政府?dāng)?shù)據(jù)開放作為國(guó)家大數(shù)據(jù)發(fā)展戰(zhàn)略中重要的組成部分被提上了建設(shè)日程。

不僅中國(guó),各國(guó)政府都把開放數(shù)據(jù)提到了前所未有的高度。在2009年奧巴馬簽署開放政府的行政命令后,政府?dāng)?shù)據(jù)的開放已成為近年來(lái)世界性的趨勢(shì)。美國(guó)聯(lián)邦數(shù)據(jù)平臺(tái)Data.gov上線后,英國(guó)、加拿大、新西蘭等國(guó)也都建立起了政府?dāng)?shù)據(jù)開放平臺(tái),開放政府?dāng)?shù)據(jù)已成為政府的一項(xiàng)重要工作。在我國(guó),2011年香港特別區(qū)政府開放政府?dāng)?shù)據(jù)網(wǎng)站“資料一線通(data.gov.hk)”;上海在2012年6月推出了中國(guó)大陸第一個(gè)數(shù)據(jù)開放平臺(tái)。之后,北京、武漢、無(wú)錫、佛山、南海等城市也都上線了自己的數(shù)據(jù)平臺(tái)。盡管如此,在我國(guó)開放政府?dāng)?shù)據(jù)過(guò)程中還存在各種問(wèn)題,如開放數(shù)據(jù)總量偏低,可機(jī)讀性差,大多為靜態(tài)數(shù)據(jù),數(shù)據(jù)按承諾更新比例低,整體都未嚴(yán)格符合開放授權(quán)等。

從2006年Tim Berners-Lee提出通過(guò)關(guān)聯(lián)數(shù)據(jù)發(fā)展數(shù)據(jù)網(wǎng)絡(luò)(Data Web)后,國(guó)際互聯(lián)網(wǎng)協(xié)會(huì)(W3C)的關(guān)聯(lián)開放數(shù)據(jù)(Linking Open Data,LOD)運(yùn)動(dòng)正式啟動(dòng)。近年來(lái)關(guān)聯(lián)數(shù)據(jù)引起了學(xué)者的廣泛關(guān)注,同時(shí)也在政府部門的開放數(shù)據(jù)領(lǐng)域展開了實(shí)踐探索。關(guān)聯(lián)數(shù)據(jù)的核心目的就是促進(jìn)數(shù)據(jù)資源的共享和重用,以此增加數(shù)據(jù)資源的應(yīng)用價(jià)值。政府開放數(shù)據(jù)涵蓋各個(gè)領(lǐng)域的數(shù)據(jù)資源,包括醫(yī)療、交通、旅行和環(huán)境等領(lǐng)域數(shù)據(jù)。關(guān)聯(lián)政府開放數(shù)據(jù)同時(shí)也促進(jìn)領(lǐng)域資源之間的互聯(lián),即通過(guò)關(guān)聯(lián)數(shù)據(jù)技術(shù),將具有相關(guān)性的政府開放數(shù)據(jù)進(jìn)行鏈接,實(shí)現(xiàn)數(shù)據(jù)資源之間的關(guān)聯(lián)發(fā)現(xiàn)。如美國(guó)倫斯勒理工學(xué)院(Rensselaer Polytechnic Institute,簡(jiǎn)稱RPI)開發(fā)的Data-gov Wiki可以將data.gov中的數(shù)據(jù)集轉(zhuǎn)換為RDF格式,以關(guān)聯(lián)數(shù)據(jù)的形式重新呈現(xiàn)[1];英國(guó)政府發(fā)布的關(guān)聯(lián)數(shù)據(jù)主要包括統(tǒng)計(jì)數(shù)據(jù)[2]和地理空間數(shù)據(jù)[3]。

從國(guó)際上相關(guān)研究上來(lái)看,Hendler等[4]和Shadbolt等[2]分別介紹了數(shù)據(jù)集“Semantic.data.gov”和“Data.gov.uk”的建設(shè)和發(fā)布情況:Shadbolt 和O'Hara[5]通過(guò)研究英國(guó)開放數(shù)據(jù)集的發(fā)展現(xiàn)狀,認(rèn)為在關(guān)注政府領(lǐng)域開放關(guān)聯(lián)數(shù)據(jù)時(shí),要關(guān)注質(zhì)量、消費(fèi)動(dòng)力問(wèn)題,要跟蹤數(shù)據(jù)出處、保護(hù)公民隱私等;Galiotou等[6]介紹了希臘基于關(guān)聯(lián)數(shù)據(jù)技術(shù),應(yīng)用于希臘政府門戶網(wǎng)站的政府開放關(guān)聯(lián)數(shù)據(jù)技術(shù)的案例;Janssen和Hoven[7]探討了在建設(shè)和利用開放關(guān)聯(lián)大數(shù)據(jù)(Big and Open Linked Data,BOLD)時(shí)需要關(guān)注透明度和隱私問(wèn)題;Vert[8]分析了運(yùn)用關(guān)聯(lián)數(shù)據(jù)解決開放政府?dāng)?shù)據(jù)處理的生命周期中所需要的數(shù)據(jù)發(fā)現(xiàn)、清洗、造型、出版等步驟,并以羅馬尼亞為例介紹LOGD在智慧城市中的應(yīng)用;Corradi等[9]以博洛尼亞為例,分析關(guān)聯(lián)數(shù)據(jù)在開放政府中的應(yīng)用;Yuan等[10]認(rèn)為,通過(guò)關(guān)聯(lián)數(shù)據(jù)技術(shù)發(fā)布的政府?dāng)?shù)據(jù)可以提高數(shù)據(jù)的透明度和重用度,并對(duì)中國(guó)智慧城市建設(shè)中使用的關(guān)聯(lián)政府?dāng)?shù)據(jù)進(jìn)行了研究。

目前,國(guó)內(nèi)還沒(méi)有實(shí)現(xiàn)大規(guī)模的政府開放關(guān)聯(lián)數(shù)據(jù)集建設(shè)。如吳玥、李占羽[11]根據(jù)國(guó)外的實(shí)踐經(jīng)驗(yàn),總結(jié)出了發(fā)布開放政府?dāng)?shù)據(jù)到Web上的工作流程,認(rèn)為我國(guó)應(yīng)該按照先發(fā)布后調(diào)解的原則來(lái)發(fā)布政府?dāng)?shù)據(jù),以便讓政府?dāng)?shù)據(jù)早日實(shí)現(xiàn)開放與共享;袁遠(yuǎn)明等[12]深入分析涵蓋內(nèi)容表達(dá)層、創(chuàng)建層、互聯(lián)層、瀏覽/查詢層4層結(jié)構(gòu)的關(guān)聯(lián)政府?dāng)?shù)據(jù)技術(shù)體系,展望政府關(guān)聯(lián)數(shù)據(jù)在智慧城市建設(shè)中發(fā)揮的作用;錢國(guó)富[13]認(rèn)為,政府?dāng)?shù)據(jù)應(yīng)通過(guò)關(guān)聯(lián)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行發(fā)布,利用本體技術(shù)將與政府運(yùn)作相關(guān)的各類數(shù)據(jù)模型開發(fā)成一個(gè)規(guī)范的政府?dāng)?shù)據(jù)本體,使得政府?dāng)?shù)據(jù)更規(guī)范,更關(guān)聯(lián),更易于查找和利用。在實(shí)踐方面,吳玥等[14]使用關(guān)聯(lián)數(shù)據(jù)技術(shù),改進(jìn)國(guó)外命名實(shí)體提取工具Scones,鏈接發(fā)現(xiàn)工具Silk,數(shù)據(jù)轉(zhuǎn)換工具RDFizer以及其他工具,設(shè)計(jì)出一套適用于公安系統(tǒng)的關(guān)聯(lián)數(shù)據(jù)模型;丁楠等[15]構(gòu)建了基于關(guān)聯(lián)數(shù)據(jù)技術(shù)的政府信息聚合模型,并通過(guò)美國(guó)政府關(guān)聯(lián)數(shù)據(jù)網(wǎng)站的關(guān)聯(lián)數(shù)據(jù)集進(jìn)行實(shí)例驗(yàn)證模型的可行性。總體而言,國(guó)內(nèi)的研究主要集中于關(guān)聯(lián)開放政府?dāng)?shù)據(jù)(Linked Open Government Data,LOGD)的模型構(gòu)建和分析,較少能應(yīng)用于實(shí)踐中解決實(shí)際問(wèn)題。

本文通過(guò)對(duì)國(guó)際上政府類開放關(guān)聯(lián)數(shù)據(jù)集進(jìn)行較為詳細(xì)的調(diào)查研究,重點(diǎn)關(guān)注不同國(guó)家和不同管理單位對(duì)于開放關(guān)聯(lián)數(shù)據(jù)集的應(yīng)用情況,希望對(duì)我國(guó)開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集的研究和實(shí)踐起到一定的參考指導(dǎo)作用。

2 開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集統(tǒng)計(jì)分析

2.1 數(shù)據(jù)來(lái)源選擇

隨著開放關(guān)聯(lián)數(shù)據(jù)計(jì)劃(The Linking Open Data Project,簡(jiǎn)稱 LOD)的發(fā)展,越來(lái)越多的數(shù)據(jù)提供者和網(wǎng)絡(luò)應(yīng)用開發(fā)者將各自的數(shù)據(jù)發(fā)布到網(wǎng)絡(luò)上,并與其它數(shù)據(jù)源關(guān)聯(lián)在一起,形成了一個(gè)巨大的數(shù)據(jù)網(wǎng)絡(luò)。筆者以德國(guó)曼海姆大學(xué)發(fā)布的關(guān)聯(lián)數(shù)據(jù)目錄(Mannheim Linked Data Catalog)為主要調(diào)查對(duì)象,結(jié)合LOD云圖2014年發(fā)布成果進(jìn)行檢索,檢索時(shí)間為2016年3月20日。檢索結(jié)果顯示,截止調(diào)查時(shí)間為止,在互聯(lián)網(wǎng)上發(fā)布的開放關(guān)聯(lián)數(shù)據(jù)集共有1484個(gè),主要集中于政府、出版物、生命科學(xué)、用戶生成內(nèi)容、跨領(lǐng)域、媒體、地理、社交網(wǎng)絡(luò)等八大主題領(lǐng)域(見(jiàn)表1),與2014年8月LOD云圖發(fā)布的數(shù)據(jù)相對(duì)比,可以看到,關(guān)聯(lián)數(shù)據(jù)集數(shù)量增長(zhǎng)了46.35%。其中,政府主題的數(shù)據(jù)集增長(zhǎng)了55.19%。本次調(diào)查的樣本在曼海姆關(guān)聯(lián)數(shù)據(jù)目錄中滿足標(biāo)簽信息為“government”的284個(gè)關(guān)聯(lián)數(shù)據(jù)集。

2.2 開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集概況分析

2.2.1 數(shù)據(jù)集發(fā)布國(guó)家分布概況

從表2可知,284個(gè)數(shù)據(jù)集分布在20個(gè)國(guó)家或國(guó)際組織之間。其中,英國(guó)以153個(gè)占據(jù)首位,發(fā)布機(jī)構(gòu)有英國(guó)內(nèi)政部、英國(guó)統(tǒng)計(jì)局、Data.gov.uk團(tuán)隊(duì)等,

注:檢索時(shí)間為2016年3月20日。

發(fā)布平臺(tái)有Opendatacommunities.org、data.gov.org等,數(shù)據(jù)集內(nèi)容包括地方政府財(cái)政、政府預(yù)算、居民住房和家庭情況、社會(huì)福利、復(fù)合剝奪指數(shù)、部門業(yè)務(wù)計(jì)劃以及地理數(shù)據(jù)等。歐盟提供有30個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集,發(fā)布機(jī)構(gòu)有歐盟統(tǒng)計(jì)局、歐盟議會(huì)、歐盟環(huán)境署、歐洲中央銀行等。美國(guó)提供有20個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集,發(fā)布機(jī)構(gòu)為美國(guó)證券交易委員會(huì)、美國(guó)聯(lián)邦統(tǒng)計(jì)機(jī)構(gòu)、美國(guó)國(guó)會(huì)等。西班牙提供有15個(gè),市政府、市統(tǒng)計(jì)局等為主要發(fā)布機(jī)構(gòu)。還有一些國(guó)際組織也紛紛發(fā)布了關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集,如國(guó)際清算銀行、國(guó)際援助透明度倡議組織、國(guó)際糧食政策研究所、國(guó)際貨幣基金組織、經(jīng)濟(jì)合作與發(fā)展組織和世界銀行等。

三元組數(shù)量排名前20的數(shù)據(jù)集部分屬性信息

(見(jiàn)表3)中,前五位有3個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集都是由美國(guó)data.gov發(fā)布的政府?dāng)?shù)據(jù),占到政府類數(shù)據(jù)集三元組總數(shù)的52.18%。

2.2.2 數(shù)據(jù)集主題分布

政府信息資源涉及到綜合政務(wù)、經(jīng)濟(jì)管理、交通運(yùn)輸、信息產(chǎn)業(yè)、城市建設(shè)、科技教育等多個(gè)領(lǐng)域,在調(diào)查涉及的284個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集中,其主題分布在民政社區(qū)、政法監(jiān)察、綜合政務(wù)、經(jīng)濟(jì)建設(shè)等幾個(gè)方面(見(jiàn)表4)。其中,93個(gè)(占總體32.75%)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集的主題為民政和社區(qū),內(nèi)容包括人口數(shù)據(jù)(如2001年西班牙人口普查數(shù)據(jù)“2001 Spanish Census to RDF”;英國(guó)國(guó)家統(tǒng)計(jì)局發(fā)布的2001年年中到2007年年中的人口數(shù)據(jù)集“EnAKTing Population Dataset”等)、社會(huì)福利(如由英國(guó)社區(qū)暨地方發(fā)展部進(jìn)行的區(qū)域社會(huì)復(fù)合剝奪指數(shù)“Index of Multiple Deprivation,簡(jiǎn)稱 IMD”系列調(diào)查而生成的關(guān)聯(lián)數(shù)據(jù)集“English Index of Multiple Deprivation Ranking 2010”等)、民意調(diào)查(如歐洲標(biāo)準(zhǔn)調(diào)查數(shù)據(jù)集“Standard Eurobarometer”,提供歐洲社會(huì)科學(xué)研究中應(yīng)用最廣泛的數(shù)據(jù)來(lái)源)等。

在政法監(jiān)察類數(shù)據(jù)集中,有代表性的為英國(guó)國(guó)家檔案館發(fā)布的法律主題數(shù)據(jù)集“UK Legislation”、國(guó)際透明組織發(fā)布的包括腐敗感知指數(shù)和數(shù)據(jù)來(lái)源的數(shù)據(jù)集“Transparency International Linked Data”、希臘警察局發(fā)布的犯罪事件數(shù)據(jù)集“Hellenic Police”等。

2.2.3 數(shù)據(jù)集格式分布

從曼海姆關(guān)聯(lián)數(shù)據(jù)目錄中提供的數(shù)據(jù)集格式可以看出,不同的數(shù)據(jù)集或采用單一的格式,或?qū)⒍喾N格式進(jìn)行組合呈現(xiàn)。本次調(diào)查的284個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集共采用了26種數(shù)據(jù)集格式,其中排名前15名的見(jiàn)圖1。可以看出,example/rdf+xml、api/sparql和meta/void是LOGD最常采用的格式,特別是example/rdf+xml,有85.21%的關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集選擇了此格式,如為了便于數(shù)據(jù)集的管理和互操作,由英國(guó)社區(qū)以及地方政府管理部成立的開放關(guān)聯(lián)數(shù)據(jù)網(wǎng)站OpenDataCommunities.org中所提供的所有數(shù)據(jù)集格式都統(tǒng)一為example/rdf+xml格式。而與醫(yī)學(xué)相關(guān)領(lǐng)域的開放關(guān)聯(lián)數(shù)據(jù)集進(jìn)行對(duì)比,關(guān)聯(lián)開放政府

數(shù)據(jù)集更常采用meta/void、meta/rdf-schema來(lái)組織數(shù)據(jù)集格式[16]。

2.3 開放關(guān)聯(lián)數(shù)據(jù)集關(guān)聯(lián)應(yīng)用統(tǒng)計(jì)分析

關(guān)聯(lián)數(shù)據(jù)的提供者通過(guò)設(shè)置RDF連接,將單一的數(shù)據(jù)集鏈接到數(shù)據(jù)云圖中,使得數(shù)據(jù)集可以通過(guò)RDF鏈接更易被發(fā)現(xiàn)和利用。在2014年對(duì)LOD云圖中數(shù)據(jù)集的統(tǒng)計(jì)中發(fā)現(xiàn),一共有56.11%的數(shù)據(jù)集可以鏈接到至少一個(gè)數(shù)據(jù)集[17]。本次調(diào)查通過(guò)參考“鏈出”(outgoing links)和“鏈入”(incoming links)概念[16]來(lái)描述開放關(guān)聯(lián)數(shù)據(jù)集之前的關(guān)聯(lián)關(guān)系,根據(jù)在曼海姆關(guān)聯(lián)數(shù)據(jù)目錄中對(duì)284個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集進(jìn)行調(diào)研,各個(gè)數(shù)據(jù)集的鏈出和鏈入情況詳細(xì)描述如下。

2.3.1 數(shù)據(jù)集鏈出統(tǒng)計(jì)

關(guān)聯(lián)數(shù)據(jù)的云圖并不是強(qiáng)連接,并不是每一個(gè)數(shù)據(jù)集都存在于其他數(shù)據(jù)集的連接,即可能會(huì)出現(xiàn)數(shù)據(jù)集“孤島”[18]。在本次調(diào)查的284個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集中,有103個(gè)數(shù)據(jù)集沒(méi)有鏈接到其他數(shù)據(jù)集,有70個(gè)數(shù)據(jù)集僅與一個(gè)數(shù)據(jù)集建立連接關(guān)系,而鏈出數(shù)量最高的為數(shù)據(jù)集“Community R&D; Information Service (CORDIS) (RKBExplorer)”,鏈出至20個(gè)數(shù)據(jù)集(見(jiàn)圖2)。其中鏈出數(shù)據(jù)集數(shù)量在5個(gè)以上的數(shù)據(jù)集具體分布情況(見(jiàn)表5)。

2.3.2 數(shù)據(jù)集鏈入統(tǒng)計(jì)

在284個(gè)數(shù)據(jù)集中,有57個(gè)數(shù)據(jù)集被本領(lǐng)域的其他數(shù)據(jù)集鏈入(非本領(lǐng)域的數(shù)據(jù)集鏈入情況不統(tǒng)計(jì)),具體分布情況(見(jiàn)圖3)。

根據(jù)LOD2014報(bào)告顯示,在LOD2014年發(fā)布的關(guān)聯(lián)數(shù)據(jù)中,鏈出數(shù)量最高的為數(shù)據(jù)集“DBpedia”,其入度(indegree)達(dá)到了207。在本次調(diào)查涉及的政府信息相關(guān)的關(guān)聯(lián)數(shù)據(jù)中,數(shù)據(jù)集“reference.data.gov.uk”和“statistics.data.gov.uk”的鏈入數(shù)據(jù)集最多,占到了所有關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集的29.23%,這兩個(gè)數(shù)據(jù)集分別提供英國(guó)有關(guān)人口、部門、行政區(qū)劃等信息,因此其鏈入的數(shù)據(jù)集多為在平臺(tái)opendatacommunities.org上發(fā)布的數(shù)據(jù)集。

而從LOD整體數(shù)據(jù)集來(lái)看,被關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集引用次數(shù)較多的數(shù)據(jù)集還有:跨領(lǐng)域數(shù)據(jù)集“dbpedia.org”,鏈入數(shù)據(jù)集71個(gè);地理數(shù)據(jù)集“geonames.org”鏈入數(shù)據(jù)集33個(gè);跨領(lǐng)域數(shù)據(jù)集“w3.org”鏈入數(shù)據(jù)集10個(gè);跨領(lǐng)域數(shù)據(jù)集“l(fā)exvo.org”鏈入數(shù)據(jù)集9個(gè)??珙I(lǐng)域數(shù)據(jù)集提供標(biāo)準(zhǔn)被LOGD廣泛的使用,如由Wikipedia中抽取結(jié)構(gòu)化信息生成的Dbpedia數(shù)據(jù)集為包括聯(lián)合國(guó)糧農(nóng)組織關(guān)聯(lián)數(shù)據(jù)、國(guó)際貨幣基金組織關(guān)聯(lián)數(shù)據(jù)和Europeana關(guān)聯(lián)開放數(shù)據(jù)等在內(nèi)的關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集所引用。地理數(shù)據(jù)集geonames.org包含了超過(guò)800萬(wàn)個(gè)地理名稱,涉及地理信息的關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集,如世界銀行關(guān)聯(lián)數(shù)據(jù)集、OECD關(guān)聯(lián)數(shù)據(jù)集合、美國(guó)國(guó)會(huì)數(shù)據(jù)集、希臘政府消防數(shù)據(jù)集等被廣泛引用。

2.3.3 連接謂詞統(tǒng)計(jì)分析

關(guān)聯(lián)數(shù)據(jù)中的連接謂詞是RDF聲明語(yǔ)句中的屬性,定義了主體和客體之間的聯(lián)系,一般由一個(gè)URI表示。謂詞的選擇能使得知識(shí)連接的RDF描述語(yǔ)義更加明確,用戶和網(wǎng)絡(luò)抓取程序也能容易獲取知識(shí)連接,并通過(guò)謂詞的詞間關(guān)系建立更多的知識(shí)鏈接[19]。政府類關(guān)聯(lián)開放數(shù)據(jù)集常用的連接謂詞(見(jiàn)圖4)。dct:publisher定義了責(zé)任者屬性,通過(guò)該屬性將不同責(zé)任者制作的數(shù)據(jù)集建立關(guān)聯(lián),形成基于同一內(nèi)容不同出版者之間的數(shù)據(jù)操作。dct:spatial定義了空間屬性,數(shù)據(jù)集之間可以通過(guò)該屬性將不同實(shí)體地理坐標(biāo)的數(shù)據(jù)集建立關(guān)聯(lián),形成互操作[20]。owl:sameAs在LOD整體使用較多,表示“兩個(gè)URI引用實(shí)際上指向同一事物”,使用這一屬性能夠有效聚合指向同一事務(wù)對(duì)象的所有數(shù)據(jù)。

2.3.4 開放關(guān)聯(lián)數(shù)據(jù)集所用詞表統(tǒng)計(jì)

為了使應(yīng)用程序更好的理解關(guān)聯(lián)數(shù)據(jù),數(shù)據(jù)提供者使用詞表來(lái)盡可能的定義數(shù)據(jù)。在研究關(guān)聯(lián)數(shù)據(jù)的時(shí)候,一般認(rèn)為,當(dāng)一個(gè)詞表被至少2個(gè)數(shù)據(jù)集使用,即認(rèn)為是非專有詞表,反之則為專有詞表。

從表7中可以看到,關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集最常使用的詞表是作為描述語(yǔ)言的rdf和rdfs,都柏林核

心詞表dcterms使用也較為廣泛,有近半數(shù)的關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集選擇了該詞表。除此之外,關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集還較常使用詞表cube(The RDF Data Cube Vocabulary),這是一個(gè)用來(lái)發(fā)布規(guī)范的多維數(shù)據(jù)集語(yǔ)言,使用W3C RDF標(biāo)準(zhǔn)構(gòu)建,主要用于表達(dá)各種統(tǒng)計(jì)數(shù)據(jù)[21],代表性數(shù)據(jù)集包括英國(guó)復(fù)合剝奪指數(shù)系列數(shù)據(jù)集等。FOAF(Friend of a Friend Vocabulary)也是一個(gè)得到廣泛應(yīng)用的本體,用于描述與人相關(guān)的資源,包括個(gè)人、組織和項(xiàng)目等,代表性數(shù)據(jù)集為2011年美國(guó)國(guó)會(huì)議員數(shù)據(jù)集“2011 US Congress People”、巴西政治家數(shù)據(jù)集“Brazilian Politicians”和西班牙政府?dāng)?shù)據(jù)集“Datos Abiertos de Zaragoza”等。而在其他領(lǐng)域被廣泛使用的網(wǎng)絡(luò)本體語(yǔ)言owl詞表在關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集使用率相對(duì)較低(僅為20.77%,相比于LOD 2014數(shù)據(jù)為36.49%[17],出版領(lǐng)域59.38%[22]、醫(yī)學(xué)領(lǐng)域71/85[16]),使用owl詞表的有聯(lián)合國(guó)糧農(nóng)組織的地緣政治本體、歐洲關(guān)聯(lián)數(shù)據(jù)本體中心等。

2.5 開放關(guān)聯(lián)數(shù)據(jù)集開放協(xié)議統(tǒng)計(jì)

在發(fā)布關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集的時(shí)候,不同的機(jī)構(gòu)對(duì)數(shù)據(jù)集有不同等級(jí)和側(cè)重的開放許可協(xié)議。數(shù)

據(jù)開放許可協(xié)議一般分為面向內(nèi)容和數(shù)據(jù)兩方面的協(xié)議。本次調(diào)查的284個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集中,聲明數(shù)據(jù)開放許可的情況(見(jiàn)表8)。

在284個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集中,有72.54%的數(shù)據(jù)集采用各種形式使用了許可信息,與2011年(LOD的207個(gè)開放數(shù)據(jù)集中有18個(gè)數(shù)據(jù)集公開了其協(xié)議信息[23])相比,越來(lái)越多的數(shù)據(jù)集發(fā)布者開始使用各種關(guān)聯(lián)數(shù)據(jù)訪問(wèn)協(xié)議來(lái)保護(hù)利益相關(guān)者,為政府類的關(guān)聯(lián)數(shù)據(jù)能穩(wěn)定健康的發(fā)展和利用提供了法律保障,其中常用的協(xié)議主要包括知識(shí)共享(Creative Commons,CC)、公共數(shù)據(jù)協(xié)議(Open Government License,OGL)、開放數(shù)據(jù)共用(Open Data Commons,ODC)等針對(duì)關(guān)聯(lián)數(shù)據(jù)自身特點(diǎn)而制定的協(xié)議。英國(guó)由data.gov.uk發(fā)布的系列數(shù)據(jù)集(如商業(yè)、環(huán)境、專利、交通等)采用了英國(guó)皇家版權(quán)協(xié)議。還有16個(gè)數(shù)據(jù)集使用借鑒“開放知識(shí)”[24]的定義,從不同維度規(guī)定了開放協(xié)議的基本權(quán)利。

而通過(guò)調(diào)查數(shù)據(jù)集發(fā)布者的信息可以得知,在284個(gè)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集中,由第三方發(fā)布的有83個(gè),其中僅有2個(gè)沒(méi)有提供開放許可信息;由制作者發(fā)布的有26個(gè),其中有3個(gè)沒(méi)有提供開放許可信息。而在175個(gè)沒(méi)有明確標(biāo)注發(fā)布者信息的數(shù)據(jù)集中,則有73個(gè)都無(wú)法提供明確的開放許可信息。可見(jiàn)明確的數(shù)據(jù)集發(fā)布者都較為注重保護(hù)信息的版權(quán)和隱私等信息。

3 開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集的特點(diǎn)

根據(jù)上文中對(duì)關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集的發(fā)布國(guó)家、主題分布、關(guān)聯(lián)應(yīng)用和開放協(xié)議等方面的統(tǒng)計(jì),筆者總結(jié)出開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集的特點(diǎn),為我國(guó)建設(shè)開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集提供啟示。

3.1 數(shù)據(jù)集國(guó)家分布呈現(xiàn)較為集中,主要發(fā)布國(guó)之間數(shù)據(jù)開放程度高

在2015年英國(guó)開放基金會(huì)(OKF)公布的全球開放數(shù)據(jù)指數(shù)中,臺(tái)灣以78%政府?dāng)?shù)據(jù)開放成為全球第一,緊隨其后的是英國(guó)(76%)和丹麥(70%),而我國(guó)僅以18%的指數(shù)排在第93位,其中國(guó)家統(tǒng)計(jì)數(shù)據(jù)、全民普選數(shù)據(jù)等多個(gè)關(guān)鍵數(shù)據(jù)集均顯示并無(wú)法公開可訪問(wèn), “數(shù)據(jù)僅為公開、尚未達(dá)到開放的標(biāo)準(zhǔn)”[25]。而在由獨(dú)立學(xué)術(shù)組織世界正義項(xiàng)目(World Justice Project)發(fā)布的“全球開放政府指數(shù)”中,得分最高的前三個(gè)國(guó)家分別是瑞典、新西蘭、挪威,我國(guó)以0.43分位列全部國(guó)家和地區(qū)中的第87名[26]。

通過(guò)關(guān)聯(lián)數(shù)據(jù)發(fā)布的政府?dāng)?shù)據(jù)利用本體技術(shù),整合政府運(yùn)作過(guò)程中產(chǎn)生的各類術(shù)語(yǔ)體系和數(shù)據(jù)模型,使得數(shù)據(jù)通過(guò)語(yǔ)義關(guān)聯(lián),便于數(shù)據(jù)的開啟、鏈接和重用,能夠有效提高數(shù)據(jù)的透明度,規(guī)范數(shù)據(jù)發(fā)布行為,提升政府?dāng)?shù)據(jù)的利用效率[27]。從調(diào)查中可以看到,關(guān)聯(lián)數(shù)據(jù)集集中分布在英國(guó)、歐盟、美國(guó)等國(guó)家,另外,根據(jù)檢索數(shù)據(jù)集網(wǎng)站the datahub,還可以發(fā)現(xiàn)捷克共和國(guó)、丹麥等國(guó)家的開放關(guān)聯(lián)數(shù)據(jù)集也已占據(jù)一定規(guī)模,這些國(guó)家通過(guò)關(guān)聯(lián)數(shù)據(jù)技術(shù)將已經(jīng)發(fā)布的開放數(shù)據(jù)進(jìn)行規(guī)范和重用,數(shù)據(jù)集之間建立連接關(guān)系,大大提高了政府開放數(shù)據(jù)的利用程度。

3.2 數(shù)據(jù)集主題涵蓋政府工作各個(gè)方面,為構(gòu)建智慧政府和智慧城市提供數(shù)據(jù)支撐

開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集的主題涵蓋了政治、經(jīng)濟(jì)、文化、民生在內(nèi)的多個(gè)方面,隨著智慧政府建設(shè)的發(fā)展,誕生智慧的過(guò)程就是建立信息關(guān)聯(lián)的過(guò)程。關(guān)聯(lián)數(shù)據(jù)技術(shù)將相關(guān)數(shù)據(jù)通過(guò)W3C標(biāo)準(zhǔn)中的關(guān)聯(lián)數(shù)據(jù)技術(shù)實(shí)現(xiàn)語(yǔ)義連接,并發(fā)布到統(tǒng)一的數(shù)據(jù)平臺(tái)上供公眾使用。通過(guò)數(shù)據(jù)化的高度融合,以數(shù)據(jù)信息的融合為基礎(chǔ)實(shí)現(xiàn)數(shù)據(jù)之間的互聯(lián)互通。關(guān)聯(lián)政府開放數(shù)據(jù)能夠?yàn)橹腔壅椭腔鄢鞘械臉?gòu)建提供數(shù)據(jù)的組織和管理,促進(jìn)數(shù)據(jù)資源的融合。

3.3 數(shù)據(jù)集之間關(guān)聯(lián)關(guān)系較為緊密,促進(jìn)政府開放數(shù)據(jù)的關(guān)聯(lián)發(fā)現(xiàn)

政府目錄和數(shù)據(jù)集的數(shù)量繼續(xù)增加,最佳實(shí)踐通過(guò)數(shù)據(jù)發(fā)布者和使用者的連接數(shù)量來(lái)制定。2011年6月啟動(dòng)的W3C政府關(guān)聯(lián)數(shù)據(jù)工作組具有提供標(biāo)準(zhǔn)和幫助世界各地政府發(fā)布他們的數(shù)據(jù)作為有效和有用的關(guān)聯(lián)數(shù)據(jù)的其他信息的使命,包括指導(dǎo)部門和對(duì)遺留數(shù)據(jù)的采集、詞匯選擇、URI構(gòu)建,版本控制、穩(wěn)定性、轉(zhuǎn)換機(jī)制[28]。政府類關(guān)聯(lián)數(shù)據(jù)集之間的相互關(guān)聯(lián)較為活躍,有63.7%的數(shù)據(jù)集與外部有鏈接,而對(duì)跨領(lǐng)域和地理領(lǐng)域的數(shù)據(jù)集關(guān)聯(lián)程度也較高。在搭建數(shù)據(jù)集平臺(tái)時(shí),可以借鑒其他領(lǐng)域數(shù)據(jù)集的關(guān)聯(lián)關(guān)系,提高數(shù)據(jù)集之間信息的互聯(lián)。

3.4 質(zhì)量控制和版權(quán)保護(hù)較為嚴(yán)格,規(guī)范利益相關(guān)者行為

從LOD2014可以看到,開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集較多采用都柏林核心元數(shù)據(jù)組織信息,在關(guān)聯(lián)數(shù)據(jù)集格式上,也有85.21%的關(guān)聯(lián)開放政府?dāng)?shù)據(jù)集選擇了example/rdf+xml、meta/void和meta/rdf-schema等RDF標(biāo)準(zhǔn)數(shù)據(jù)發(fā)布格式,使得發(fā)布的關(guān)聯(lián)數(shù)據(jù)更為可靠,對(duì)于使用者也能更方便、靈活的重用政府?dāng)?shù)據(jù)。另外,開放關(guān)聯(lián)政府?dāng)?shù)據(jù)集的開放授權(quán)協(xié)議的使用也較為廣泛,這種嚴(yán)謹(jǐn)?shù)陌鏅?quán)保護(hù)政策能夠從數(shù)據(jù)發(fā)布的源頭規(guī)范人們涉及知識(shí)產(chǎn)權(quán)的行為,在滿足互聯(lián)網(wǎng)數(shù)據(jù)共享需求的同時(shí),促進(jìn)人們積極參與關(guān)聯(lián)數(shù)據(jù)運(yùn)動(dòng),保障關(guān)聯(lián)數(shù)據(jù)運(yùn)動(dòng)不斷向前發(fā)展。

參考文獻(xiàn):

[1] Tetherless World Constellation.The Data-gov Wiki[EB/OL].[2016-03-20].https://data-gov.tw.rpi.edu//wiki.

[2] Shadbolt N,O'Hara K,Berners-Lee T,et al.Linked Open Government Data:Lessons from Data.gov.uk[J].IEEE,Intelligent Systems,2012,27(3):16-24.

[3] Clough P,Tang J,Hall M M,et al.Linking archival data to location: a case study at the UK National Archives[J].Aslib Proceedings,2011,63(2/3):127-147.

[4] Hendler J,Holm J,Musialek C,et al.US Government Linked Open Data:Semantic.data.gov[J].IEEE Intelligent Systems,2012,27(3):25-31.

[5] Shadbolt N,O'Hara K.Linked Data in Government[J].IEEE Internet Computing,2013,17(4):72-77.

[6] Galiotou E,F(xiàn)ragkou P.Applying Linked Data Technologies to Greek Open Government Data:A Case Study[J].Procedia - Social and Behavioral Sciences,2013(73):479-486.

[7] Janssen M,Jeroen V D H.Big and Open Linked Data(BOLD)in government:A challenge to transparency and privacy?[J]. Government Information Quarterly,2015,32(4):363-368.

[8] Vert,S.Linked Open Government Data for Smart City Applications[C].Patrut,B,etc.SMART 2014 - SOCIAL MEDIA IN ACADEMIA:RESEARCH AND TEACHING.ITALY:MEDIMOND S R L,2015:401-406.

[9] Corradi A,F(xiàn)oschini L,Ianniello R.Linked data for Open Government:The case of Bologna[C].Computers and Communication.2014:1-7.

[10] Yuan Y,Wu C,Ai H.Application Of Linked Open Government Data:State Of The Art And Challenges[J].Theriogenology, 2005,63(2):283-299.

[11] 吳玥,李占羽.基于關(guān)聯(lián)數(shù)據(jù)開放政府?dāng)?shù)據(jù)[J].電腦知識(shí)與技術(shù),2010,6(11):8688-8691.

[12] 袁遠(yuǎn)明,吳產(chǎn)樂(lè),艾浩軍.關(guān)聯(lián)開放政府?dāng)?shù)據(jù)的研究與應(yīng)用進(jìn)展[J].電信科學(xué),2012,28(9):69-73.

[13] 錢國(guó)富.基于關(guān)聯(lián)數(shù)據(jù)的政府?dāng)?shù)據(jù)發(fā)布[J].圖書情報(bào)工作,2012,56(5):123-127.

[14] 吳玥,李占羽,李丹寧.關(guān)聯(lián)數(shù)據(jù)在公安情報(bào)研判系統(tǒng)的應(yīng)用[J].貴州科學(xué),2011,29(2):26-31.

[15] 丁楠,王鈺,潘有能.基于關(guān)聯(lián)數(shù)據(jù)的政府信息聚合研究[J].情報(bào)理論與實(shí)踐,2015,38(7):76-79.

[16] 涂志芳,吳丹.醫(yī)學(xué)相關(guān)領(lǐng)域開放關(guān)聯(lián)數(shù)據(jù)集調(diào)查研究[J].圖書情報(bào)工作,2015,59(18):14-23.

[17] State of the LOD Cloud[EB/OL].[2016-03-20].http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/#toc4.

[18] Rodriguez M A. A Graph Analysis of the Linked Data Cloud[EB/OL].[2016-04-30].http://arxiv.org/pdf/0903.0194vl.pdf.

[19] 司徒俊峰,曹樹金,謝莉.論基于關(guān)聯(lián)數(shù)據(jù)的知識(shí)鏈接構(gòu)建與應(yīng)用[J].圖書情報(bào)工作,2013,57(16):123-129.

[20] Data Catalog Vocabulary(DCAT)[EB/OL].[2016-03-20].https://www.w3.org/TR/vocab-dcat/.

[21] The RDF Data Cube Vocabulary[EB/OL].[2016-03-20].https://www.w3.org/TR/vocab-data-cube/.

[22] 賈君枝,寇蕾蕾.關(guān)聯(lián)數(shù)據(jù)云圖中出版類數(shù)據(jù)集特點(diǎn)分析[J].國(guó)家圖書館學(xué)刊,2016(1):59-68.

[23] 張春景,劉煒,夏翠娟,等.關(guān)聯(lián)數(shù)據(jù)開放應(yīng)用協(xié)議[J].中國(guó)圖書館學(xué)報(bào),2012(1):43-48.

[24] Open Definition 2.0 - Open Definition - Defining Open in Open Data, Open Content and Open Knowledge[EB/OL].[2016-03-20].http://opendefinition.org/od/2.0/en/.

[25] Place overview | Global Open Data Index by Open Knowledge[EB/OL].[2016-03-20].http://index.okfn.org/place/.

[26] World Justice Project.Open Government Index 2015 Report[EB/OL].[2016-03-20].http://worldjusticeproject.org/sites/default/files/ogi_2015.pdf.

[27] Li Ding,Vassilios Peristeras,Michael Hausenblas.Linked Open Government Data INTRODUCTION[J].Intelligent Systems,IEEE,2012,27(3):11-15.

[28] eGovernment at W3C|Better Government Through Better Use of the Web.[EB/OL].[2016-03-20].http://www.w3.org/egov/.

作者簡(jiǎn)介:趙蕊菡,女,武漢大學(xué)信息管理學(xué)院博士研究生。

猜你喜歡
政府
地方政府趕超行為對(duì)消除貧困的阻礙分析
地方政府趕超行為對(duì)消除貧困的阻礙分析
省級(jí)政府金融權(quán)力榜
一張圖看懂政府工作報(bào)告中的信息通信
貴州實(shí)現(xiàn)縣級(jí)以上政府法律顧問(wèn)全覆蓋
煽動(dòng)民族主義情緒 被疑與政府演雙簧
月榜
完形填空三則