袁遠(yuǎn)明,吳產(chǎn)樂,3,艾浩軍
(1.武漢大學(xué)計算機(jī)學(xué)院 武漢 430072;2.國家多媒體軟件工程技術(shù)研究中心 武漢430072;3.武漢東湖學(xué)院 武漢430212)
影響公眾及公共事務(wù)等多方面的政府?dāng)?shù)據(jù)不斷增加,為滿足民眾對政府職能與義務(wù)的知情需求、促進(jìn)政府公共數(shù)據(jù)潛在價值的應(yīng)用開發(fā)、增強(qiáng)政府不同部門間的數(shù)據(jù)互操作,開展開放政府?dāng)?shù)據(jù)的研究與應(yīng)用對構(gòu)建服務(wù)型政府有十分重大的意義。
然而,傳統(tǒng)政府?dāng)?shù)據(jù)中缺乏語義互操作的格式化數(shù)據(jù)(xls、csv)以及不具備語義關(guān)聯(lián)的非格式化數(shù)據(jù)(txt、doc、ppt、pdf、html)大量存在,異構(gòu)的政府?dāng)?shù)據(jù)間的互操作難以實現(xiàn)。
改變當(dāng)前政府?dāng)?shù)據(jù)的發(fā)布標(biāo)準(zhǔn)將是解決問題的重要手段?;ヂ?lián)網(wǎng)和語義網(wǎng)等新技術(shù)的發(fā)展,已使各國政府意識到基于開放標(biāo)準(zhǔn)進(jìn)行政府?dāng)?shù)據(jù)發(fā)布的重要性,應(yīng)更多地考慮數(shù)據(jù)之間的關(guān)聯(lián)和復(fù)用,同時使得機(jī)器能夠理解并發(fā)現(xiàn)更多的相關(guān)數(shù)據(jù)。
關(guān)聯(lián)數(shù)據(jù)采用資源描述框架 (resource description framework,RDF)數(shù)據(jù)模型,利用統(tǒng)一資源標(biāo)識符(uniform resource identifier,URI)命名數(shù)據(jù)實體,通過 HTTP 瀏覽并獲取這些數(shù)據(jù),通過“鏈接”揭示數(shù)據(jù)的關(guān)聯(lián)關(guān)系以及能被計算機(jī)理解的語境信息。關(guān)聯(lián)數(shù)據(jù)也稱RDF數(shù)據(jù),RDF是用于描述Web資源的標(biāo)記語言,是由“主體(subject)—謂詞(predicate)—客體(object)”3 部分(即三元組)組成的資源描述通用模型。關(guān)聯(lián)政府?dāng)?shù)據(jù)的發(fā)布不要求使用者將數(shù)據(jù)拷入原數(shù)據(jù)集,只需創(chuàng)建不同數(shù)據(jù)源間的數(shù)據(jù)鏈接即可發(fā)現(xiàn)相關(guān)信息,以滿足政府?dāng)?shù)據(jù)發(fā)布的需求[1]。
開放數(shù)據(jù)尚無統(tǒng)一定義,來自維基百科的理解為:開放數(shù)據(jù)將資料開放給任何人使用,不論是出版還是做其他的運用,不受著作權(quán)、專利權(quán)以及其他管理機(jī)制的限制[2]。所有的定義最終均以實現(xiàn)信息的開放與獲取、共享與重用為目標(biāo)。
開放政府?dāng)?shù)據(jù)作為以建立更加開放、透明、高效政府為目標(biāo)的開放政府運動的重要部分,是政府與市民間的重要交流通道,其最直接的優(yōu)勢是讓政府更加透明,市民能訪問不透明的原始政府?dāng)?shù)據(jù)。
關(guān)聯(lián)開放政府?dāng)?shù)據(jù)(linked open government data,LOGD)是一項很有前景、能更加高效訪問開放政府?dāng)?shù)據(jù)的技術(shù),也是關(guān)聯(lián)數(shù)據(jù)技術(shù)在開放政府?dāng)?shù)據(jù)方面的重要實踐應(yīng)用。
關(guān)聯(lián)數(shù)據(jù)社區(qū)[3]提出了一系列在網(wǎng)絡(luò)上合作發(fā)布與互聯(lián)結(jié)構(gòu)化數(shù)據(jù)的最佳原則[4]:使用URI作為事物的名稱,允許用戶使用HTTP URI查找這些名稱;當(dāng)查找一個URI時,以RDF提供有用的信息,包含與其他URI的RDF鏈接,以便發(fā)現(xiàn)更多的相關(guān)信息。數(shù)據(jù)提供者遵循上述原則發(fā)布數(shù)據(jù),將原始數(shù)據(jù)加入關(guān)聯(lián)政府?dāng)?shù)據(jù)集合,并被各種程序加以利用。
關(guān)聯(lián)政府?dāng)?shù)據(jù)的優(yōu)勢體現(xiàn)在如下3個方面[5]。
·開放:能以開放的形式被各種應(yīng)用獲取并使用。
·組合化:關(guān)聯(lián)數(shù)據(jù)之間或與其他關(guān)聯(lián)數(shù)據(jù)間可以混搭,如城市醫(yī)療健康方面的政府?dāng)?shù)據(jù)與該市的人口、環(huán)境等方面的數(shù)據(jù)聯(lián)合起來,用于評估政府醫(yī)療投入的效率。
·可拓展性強(qiáng):互聯(lián)方式的改變不會影響數(shù)據(jù)本身。
依據(jù)以上發(fā)布原則及要求,歸納分析關(guān)聯(lián)數(shù)據(jù)的整體技術(shù)體系,該體系可分為關(guān)聯(lián)數(shù)據(jù)的表達(dá)、創(chuàng)建與發(fā)布、互聯(lián)、瀏覽與檢索4個層次,如圖1所示。
LOGD表達(dá)的是具體的政府?dāng)?shù)據(jù)內(nèi)容,數(shù)據(jù)表達(dá)采用RDF數(shù)據(jù)模型,用URI予以標(biāo)識,能通過HTTP調(diào)用,如http://www.w3.org/people/EM/contact#me,這個URI可用來指代Eric Miller的人名信息,對應(yīng)的關(guān)聯(lián)數(shù)據(jù)的RDF三 元 組 表 達(dá) 為{‘http://www.w3.org/People/EM/contact#me’,‘Full Name’,‘Eric Miller’}。HTTP URI是抽象的概念,需要采用內(nèi)容協(xié)商[6]實現(xiàn)URI到具體數(shù)據(jù)記錄的映射,從而獲取如RDF/XML文本數(shù)據(jù)、HTML網(wǎng)頁等具體的內(nèi)容。
LOGD創(chuàng)建是實現(xiàn)LOGD的關(guān)鍵環(huán)節(jié),采取3.1節(jié)的表達(dá)方式描述對象的內(nèi)部結(jié)構(gòu)及其內(nèi)含語義,其關(guān)聯(lián)深度取決于內(nèi)容對象本身和所屬元數(shù)據(jù)格式的豐富程度,創(chuàng)建過程是基于元數(shù)據(jù)格式將元數(shù)據(jù)轉(zhuǎn)換成RDF數(shù)據(jù)。
政府?dāng)?shù)據(jù)大多以關(guān)系型數(shù)據(jù)庫 (relational databases,RDB)形式進(jìn)行存儲,需要考慮如何將RDB數(shù)據(jù)轉(zhuǎn)換成RDF數(shù)據(jù)。RDB的模式是二維表,而RDF三元組是用二元關(guān)系表達(dá)主客體間的關(guān)系,兩者雖有不同但都是基于現(xiàn)實世界而構(gòu)建,具備建立映射的條件。RDB和RDF數(shù)據(jù)的具體映射方式見表1。
表1 RDB數(shù)據(jù)到RDF數(shù)據(jù)的映射
使用轉(zhuǎn)換工具將RDB數(shù)據(jù)轉(zhuǎn)換成RDF數(shù)據(jù),當(dāng)前流行的轉(zhuǎn)換工具有 D2RQ Platform/D2R Server[7,8]、Open Link Virtuoso’s RDF Views[9]、Triplify[10]。Linked MDB、DrugBank 等很多數(shù)據(jù)集都采用D2RQ Platform進(jìn)行數(shù)據(jù)發(fā)布。
LOGD的互聯(lián)層建立了同一數(shù)據(jù)集中內(nèi)容對象間的關(guān)聯(lián)關(guān)系,與其他數(shù)據(jù)集的互聯(lián)是其主要工作,也是整個LOGD體系的關(guān)鍵環(huán)節(jié)。
關(guān)聯(lián)數(shù)據(jù)的互聯(lián)技術(shù)是近年來的研究熱點,在消費關(guān)聯(lián)數(shù)據(jù)專題研討會(COLD)發(fā)布的研究熱點中,關(guān)聯(lián)數(shù)據(jù)的互聯(lián)算法居于首位?;净ヂ?lián)方法主要有共同鍵匹配、字符串匹配、子圖匹配3類,關(guān)聯(lián)架構(gòu)主要有Silk[11]、LinQuer[12]。其中,Silk是基于規(guī)則的互聯(lián)框架,是根據(jù)兩個數(shù)據(jù)集中數(shù)據(jù)的屬性相似度計算它們之間的互聯(lián)關(guān)系;LinQuer是一種從語義上發(fā)現(xiàn)關(guān)系數(shù)據(jù)集間的關(guān)聯(lián),從而生成SQL查詢的架構(gòu),包含LinQuer語言、Web接口、一個能將LinQL查詢轉(zhuǎn)換成SQL查詢的API、一個能更容易用LinQL查詢編寫的接口。由于LinQuer采用模塊化和通用化進(jìn)行構(gòu)建,使得LinQuer能容易地使用用戶定義關(guān)聯(lián)發(fā)現(xiàn)算法進(jìn)行充實和豐富。
建立互聯(lián)后的LOGD需要瀏覽器瀏覽數(shù)據(jù),并依據(jù)RDF鏈接實現(xiàn)數(shù)據(jù)間的導(dǎo)航,當(dāng)前較常見的關(guān)聯(lián)數(shù)據(jù)瀏覽器 包 括 Tabulator RDF Browser、Disco Hyperdata Browser、OpenLink RDF Browser、Object Viewer、Marbles RDF Browser等,均運行在服務(wù)器端。
關(guān)聯(lián)數(shù)據(jù)瀏覽器有別于傳統(tǒng)瀏覽器,它運行在服務(wù)器端,為用戶提供基于Web瀏覽器的界面;還有些RDF瀏覽器(如LongwellMSpaceFacet)因無法在不同數(shù)據(jù)源之間瀏覽,不能稱為關(guān)聯(lián)數(shù)據(jù)瀏覽器。搜索引擎技術(shù)用于檢索所需的數(shù)據(jù),常見的關(guān)聯(lián)數(shù)據(jù)搜索引擎包括Falcons、Sindice、Watson、Semantic Web Search Engine、Swoogle等。
兩者的有效結(jié)合,能以更智慧的方式提供瀏覽服務(wù),Marbles就是較好地融合兩種技術(shù)的關(guān)聯(lián)數(shù)據(jù)瀏覽器。
開放數(shù)據(jù)在信息組織與信息發(fā)現(xiàn)中的應(yīng)用相當(dāng)廣泛。在政府公共信息服務(wù)領(lǐng)域中,美國最先開展關(guān)聯(lián)數(shù)據(jù)的實踐應(yīng)用,基于關(guān)聯(lián)數(shù)據(jù)標(biāo)準(zhǔn)建立了data.gov政府?dāng)?shù)據(jù)門戶網(wǎng)站。英國(data.gc.uk)、加拿大(data.gc.ca)、澳大利亞(data.gov.au)、新西蘭(www.data.govt.nz)等國家相繼建立起本國的政府?dāng)?shù)據(jù)網(wǎng)站。與此同時,相關(guān)研究機(jī)構(gòu)也紛紛成立,世界首個開放數(shù)據(jù)研究所于2012年5月在英國成立,目標(biāo)旨在幫助公共部門更有效地使用政府?dāng)?shù)據(jù),更好地發(fā)掘開放數(shù)據(jù)的商業(yè)價值。
2009年5月,全球第一個國家政府層面的數(shù)據(jù)門戶網(wǎng)站(data.gov)正式上線,數(shù)十萬項政府專用的數(shù)據(jù)被白宮開放到互聯(lián)網(wǎng),是政府各部門數(shù)據(jù)得以互操作的重大實踐成果。
data.gov是一個數(shù)據(jù)可自由獲取、公眾與政府機(jī)構(gòu)互動、API開放的網(wǎng)絡(luò)信息共享平臺。數(shù)據(jù)采集方式為分工協(xié)作、多點聚合,數(shù)據(jù)集來源有兩類:一類以聯(lián)邦政府所轄的能源安全、財政、司法、教育等部門發(fā)布的數(shù)據(jù)集為縱向數(shù)據(jù)鏈;另一類以美國各市州為橫向數(shù)據(jù)鏈。data.gov以都柏林核心元數(shù)據(jù)集為標(biāo)準(zhǔn),采用目錄分類方式組織政府?dāng)?shù)據(jù),提供類目、機(jī)構(gòu)、關(guān)鍵詞等搜索途徑。其以一套完整的元數(shù)據(jù)分類體系集中管理數(shù)據(jù)資源,按照 “Raw Data Catalog”、“Tools Data Catalog”、“Geo Data Catalog”3 類將資源編制為一級目錄,并在每個一級分類檢索模塊中,為所有數(shù)據(jù)資源建立了兩個獨立的二級分類體系,一個是以數(shù)據(jù)所屬的社會領(lǐng)域角度為出發(fā)點,另一個是以數(shù)據(jù)的來源機(jī)構(gòu)為出發(fā)點,以提高檢索效率。
政府各部門專門設(shè)有信息主管,負(fù)責(zé)數(shù)據(jù)的審核、提交與發(fā)布、與data.gov的溝通等工作,定期在data.gov發(fā)布可供公眾自由獲取的高價值數(shù)據(jù)集。最早有11個機(jī)構(gòu)提供了76項數(shù)據(jù)集,之后數(shù)據(jù)集不斷攀升,見表2。
表2 data.gov數(shù)據(jù)集的發(fā)展情況
繼美國政府?dāng)?shù)據(jù)網(wǎng)站data.gov后,英國政府開放數(shù)據(jù)門戶網(wǎng)站data.gov.uk于2010年1月正式投入使用,旨在建立政府?dāng)?shù)據(jù)間的關(guān)聯(lián),便于公眾獲取政府?dāng)?shù)據(jù)。
data.gov.uk已從上線之初的2 500多個政府?dāng)?shù)據(jù)集發(fā)展到超過8 607個,涉及人口與健康、交通與環(huán)保、教育與商務(wù)等領(lǐng)域[13]。該網(wǎng)站由“萬維網(wǎng)之父”TimBerners-Lee等人創(chuàng)立,在數(shù)據(jù)組織方面使用RDF、URI、SPARQL查詢語言、關(guān)聯(lián)數(shù)據(jù)API等高效的國際標(biāo)準(zhǔn)和新技術(shù),保證與關(guān)聯(lián)數(shù)據(jù)原則及協(xié)議的一致性,較好地實現(xiàn)數(shù)據(jù)的有效性及互聯(lián)。
英國各屆政府重視更多地發(fā)布政府?dāng)?shù)據(jù),新一屆政府提出了“數(shù)據(jù)權(quán)”的新概念,指明數(shù)據(jù)權(quán)是信息社會一項基本的公民權(quán)利,承諾深入推進(jìn)以使之制度化。
data.gov.uk的建立,使得政府?dāng)?shù)據(jù)更加透明化、政府信息更加關(guān)聯(lián)化,對政府與社會關(guān)系的轉(zhuǎn)變有重大意義。
當(dāng)今,智慧城市已成為全球城市發(fā)展的新熱點,在全球智慧風(fēng)潮和國家政策的鼓勵下,北京、上海、武漢等紛紛加入“智慧城市”建設(shè)的行列。智慧政務(wù)作為智慧城市的首要建設(shè)項目,是進(jìn)一步加快推進(jìn)服務(wù)型政府建設(shè)的重大舉措。智慧政務(wù)的目的就是要增強(qiáng)政府信息的透明化水平,提升政府?dāng)?shù)據(jù)的重用效率,實現(xiàn)政府?dāng)?shù)據(jù)的透明、開放、共享以及政府智慧化決策與管理。
4.3.1 部門數(shù)據(jù)集之間的互聯(lián)提升政府?dāng)?shù)據(jù)的利用效率
提升政府?dāng)?shù)據(jù)的利用效率,需要在開放政府?dāng)?shù)據(jù)的同時,實現(xiàn)政府各個部門數(shù)據(jù)集之間的互聯(lián)。通過數(shù)據(jù)集間的互聯(lián)挖掘潛在價值信息,實現(xiàn)數(shù)據(jù)交互重用,并最終實現(xiàn)城市智慧化決策與管理。
(1)城市可持續(xù)發(fā)展水平智慧評估
如經(jīng)濟(jì)部門、環(huán)保部門、衛(wèi)生部門,都在各自網(wǎng)站上公布了自己的業(yè)務(wù)數(shù)據(jù)集,若3個網(wǎng)站的數(shù)據(jù)集內(nèi)部及外部都實現(xiàn)了關(guān)聯(lián),分析人員可將這3個網(wǎng)站背后的GDP數(shù)據(jù)、污染數(shù)據(jù)和人們的健康指數(shù)聯(lián)接糅合起來形成新的應(yīng)用,通過應(yīng)用挖掘潛在信息,評估城市的可持續(xù)發(fā)展水平。
(2)政府醫(yī)療投入效率評估
如城市衛(wèi)生部門的醫(yī)療健康方面的政府?dāng)?shù)據(jù),可以和城市人口統(tǒng)計部門的人口數(shù)據(jù)、環(huán)保部門的環(huán)境數(shù)據(jù)等聯(lián)合起來,從而對政府醫(yī)療投入的效率進(jìn)行評估。
(3)部門間數(shù)據(jù)的高效共享
城市行政服務(wù)中心作為提供城市電子政務(wù)服務(wù)的重要載體,是連通各部門數(shù)據(jù)信息的重要樞紐。而連通各部門數(shù)據(jù)實現(xiàn)數(shù)據(jù)間的共享重用,需要建立以各部門數(shù)據(jù)集為基礎(chǔ)的統(tǒng)一數(shù)據(jù)交互模型,該模型可采用RDF架構(gòu)、URI資源標(biāo)識方式、關(guān)聯(lián)數(shù)據(jù)等高效的國際標(biāo)準(zhǔn)和新技術(shù)來構(gòu)建。以市民辦理房產(chǎn)交易為例:行政服務(wù)中心的房地產(chǎn)管理處窗口工作人員可以通過共享民政部門的個人婚姻信息、公安部門的戶籍信息審查相關(guān)資格信息,市民不需要在多個部門收集資格材料就可以快速進(jìn)行房產(chǎn)交易。通過數(shù)據(jù)關(guān)聯(lián)實現(xiàn)部門數(shù)據(jù)的高效共享,明顯提升行政服務(wù)能力。
4.3.2 智慧城市LOGD組織和應(yīng)用
在建設(shè)智慧城市及服務(wù)型政府的指引下,基于關(guān)聯(lián)數(shù)據(jù)技術(shù)建立國家及城市的LOGD網(wǎng)站十分必要。當(dāng)前政府體制內(nèi)不同部門之間的利益難以協(xié)調(diào),難以實現(xiàn)數(shù)據(jù)的整合以及公民對政府的監(jiān)督和問責(zé)??梢詤⒖紘忾_放數(shù)據(jù)的建設(shè)經(jīng)驗,建立國家信息化推進(jìn)辦公室,統(tǒng)一指導(dǎo)國家開放政府?dāng)?shù)據(jù)的研究與應(yīng)用工作,加大開放數(shù)據(jù)關(guān)聯(lián)技術(shù)研究,按照關(guān)聯(lián)數(shù)據(jù)的內(nèi)容組織框架及原則,建立國家開放政府?dāng)?shù)據(jù)網(wǎng)站。并對開放政府?dāng)?shù)據(jù)進(jìn)行立法,保證開放政府?dāng)?shù)據(jù)的有效使用。更重要的是,在運用關(guān)聯(lián)數(shù)據(jù)技術(shù)處理國家開放政府?dāng)?shù)據(jù)的同時,應(yīng)考慮到具體的國情和中文信息處理方面的問題,只有與現(xiàn)實情況相結(jié)合,才能做好政府關(guān)聯(lián)開放數(shù)據(jù)的工作。
基于關(guān)聯(lián)數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布政府公共數(shù)據(jù),讓機(jī)器更好地理解和處理這些數(shù)據(jù),充分重用和挖掘政府公共數(shù)據(jù)潛在的價值,以簡化行政服務(wù)流程,提升行政服務(wù)水平。開放政府?dāng)?shù)據(jù)作為開放數(shù)據(jù)的重要應(yīng)用領(lǐng)域,關(guān)聯(lián)開放政府?dāng)?shù)據(jù)將更好地推動開放數(shù)據(jù)在其他行業(yè)的發(fā)展。我國在借鑒英美政府實踐經(jīng)驗的基礎(chǔ)上,建立了我國的開放數(shù)據(jù)許可環(huán)境,并健全了相關(guān)法規(guī)。
筆者在描述關(guān)聯(lián)開放政府?dāng)?shù)據(jù)相關(guān)概念的基礎(chǔ)上,分析了關(guān)聯(lián)開放政府?dāng)?shù)據(jù)4層結(jié)構(gòu)的技術(shù)體系,總結(jié)了國外典型開放政府?dāng)?shù)據(jù)的應(yīng)用實踐,重點討論了關(guān)聯(lián)政府?dāng)?shù)據(jù)在我國智慧城市建設(shè)中的應(yīng)用與挑戰(zhàn)。面對我國政府尚無開放數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)技術(shù)尚未得到有效應(yīng)用的現(xiàn)狀,建立我國關(guān)聯(lián)開放政府?dāng)?shù)據(jù)的網(wǎng)站,實現(xiàn)政府?dāng)?shù)據(jù)的關(guān)聯(lián)化將是一個長期的過程,有許多工作要去做。
1 Linking open data,2012
2 Open data.http://en.wikipedia.org/wiki/Open_data,2012
3 Christian Bizer,Tom Heath,Tim Berners-Lee.Linked data—the story so far.International Journals of Semantic Web Information System,2009,5(3):1~22
4 Tim Berners-Lee.Linked data.W3C Design Issues,2006
5 Qian Guofu.Government data online release based on linked data.Library and Information Service,2012(5)
6 Best practice recipes for publishing RDF vocabularies.http://www.w3.org/TR/swbp-vocab-pub/,2012
7 D2R server.http://d2rq.org/d2r-server,2012
8 D2R platform.http://d2rq.org/,2012
9 Open-link software.http://virtuo-so.openlinksw.com,2012
10 Triplify.org:overview.http://triplify.org/,2012
11 Volz J,Bizer C,Gaedke M,et al.Silk-A link discovery framework for the web of data.Proceedings of LDOW 2009,Madrid,Spain,2009
12 Oktie Hassanzadeh.Linkage Query Writer,PVLDB,2009
13 Datasets.http://data.gov.uk,2012