翟 軍 陶晨陽(yáng) 李曉彤
(大連海事大學(xué)航運(yùn)經(jīng)濟(jì)與管理學(xué)院 遼寧大連 116026)
隨著“開放政府?dāng)?shù)據(jù)”(Open Government Data, OGD)行動(dòng)的發(fā)展,越來越多的數(shù)據(jù)發(fā)布到Web上,相應(yīng)的質(zhì)量問題也顯現(xiàn)出來。例如,美國(guó)Data.Gov上的Gun Offenders(槍支犯罪者)數(shù)據(jù)集曾存在數(shù)據(jù)不完整、不一致等質(zhì)量問題[1];英國(guó)《計(jì)算機(jī)周刊》的專家對(duì)政府開放支出等數(shù)據(jù)集的4 200萬條記錄進(jìn)行分析,發(fā)現(xiàn)其中含有大量“臟數(shù)據(jù)”:人為錯(cuò)誤、格式和編碼問題等,導(dǎo)致公眾難以理解和使用數(shù)據(jù)[2]。
目前,我國(guó)開放數(shù)據(jù)及元數(shù)據(jù)的質(zhì)量狀況也不容樂觀。楊瑞仙等[3]選取7個(gè)代表性的地方政府?dāng)?shù)據(jù)開放平臺(tái)與美國(guó)比較,發(fā)現(xiàn)存在數(shù)據(jù)格式非機(jī)器可讀和實(shí)用性低等質(zhì)量問題;孫璐等[4]指出,從幾個(gè)開放數(shù)據(jù)網(wǎng)站上嘗試下載數(shù)據(jù),只有60%能夠成功下載;于夢(mèng)月、翟軍等[5-6]對(duì)元數(shù)據(jù)的研究表明,我國(guó)各地方政府的元數(shù)據(jù)存在取值不規(guī)范、缺失重要的元數(shù)據(jù)項(xiàng)等不足。
各國(guó)政府為保障和提高OGD的質(zhì)量均采取了一系列措施,其核心是各種“質(zhì)量評(píng)估系統(tǒng)”。美國(guó)白宮的“開放數(shù)據(jù)項(xiàng)目”(Project Open Data)開發(fā)了“儀表板”在線系統(tǒng),評(píng)估和監(jiān)測(cè)各聯(lián)邦機(jī)構(gòu)的元數(shù)據(jù)質(zhì)量及對(duì)M-13-13指令的執(zhí)行情況[7]。英國(guó)內(nèi)閣辦公室要求開放數(shù)據(jù)集要經(jīng)歷“開放數(shù)據(jù)證書”(Open Data Certificate,ODC)質(zhì)量評(píng)估工具(certificates.theodi.org)的評(píng)估過程,并將結(jié)果公布在網(wǎng)站Data.Gov.UK[8]。歐盟的“開放數(shù)據(jù)監(jiān)測(cè)器”(Open Data Monitor,ODM)項(xiàng)目對(duì)歐洲各國(guó)173個(gè)數(shù)據(jù)門戶中的規(guī)??偭窟_(dá)1 472 GB的數(shù)據(jù)資源的質(zhì)量進(jìn)行評(píng)估和監(jiān)測(cè),結(jié)果展示在網(wǎng)站www.opendatamonitor.eu[9];于2015年11月上線的歐洲統(tǒng)一的數(shù)據(jù)門戶(www.europeandataportal.eu)包含“元數(shù)據(jù)質(zhì)量?jī)x表板”(Metadata Quality Dashboard)板塊,實(shí)時(shí)監(jiān)測(cè)73個(gè)數(shù)據(jù)目錄的元數(shù)據(jù)質(zhì)量狀況。
澳大利亞昆士蘭大學(xué)的Sadiq S等[1]認(rèn)為“開放數(shù)據(jù)應(yīng)質(zhì)量?jī)?yōu)先于數(shù)量”,但還存在著三方面的挑戰(zhàn),即“對(duì)數(shù)據(jù)質(zhì)量維度的共同理解”“支持用戶的質(zhì)量感知”及“加強(qiáng)數(shù)據(jù)質(zhì)量與使用之間的聯(lián)結(jié)”。當(dāng)前,“質(zhì)量評(píng)估”是OGD研究的主要領(lǐng)域之一[10],相應(yīng)成果提供了應(yīng)對(duì)這些挑戰(zhàn)的方案并有力支撐了各國(guó)的質(zhì)量管理實(shí)踐。
OGD質(zhì)量評(píng)估可以分為兩個(gè)層次:宏觀和微觀。前者主要針對(duì)國(guó)家層面展開整體評(píng)價(jià)和對(duì)比分析,除了數(shù)據(jù)質(zhì)量因素,還包括數(shù)據(jù)集的數(shù)量、政策和法律基礎(chǔ)、平臺(tái)服務(wù)、數(shù)據(jù)使用和效果等因素[11]。著名的有開放數(shù)據(jù)晴雨表、全球開放數(shù)據(jù)指數(shù)等,后者針對(duì)開放數(shù)據(jù)平臺(tái)中的每個(gè)數(shù)據(jù)集及其元數(shù)據(jù)開展質(zhì)量的多維評(píng)估,以提升數(shù)據(jù)質(zhì)量為目標(biāo)。本文重點(diǎn)關(guān)注微觀層次的數(shù)據(jù)質(zhì)量(含元數(shù)據(jù)質(zhì)量)評(píng)估(Data Quality Assessment,DQA)。
“開放數(shù)據(jù)門戶”(Open Data Portal)是以目錄管理為核心的軟件平臺(tái),向用戶提供數(shù)據(jù)集的查找、展示和獲取等服務(wù)[12]。數(shù)據(jù)目錄(Data Catalog)是“元數(shù)據(jù)的集合”,而元數(shù)據(jù)是描述數(shù)據(jù)集的結(jié)構(gòu)化數(shù)據(jù)。
J.Attard 等[13]指出“元數(shù)據(jù)質(zhì)量”是提高開放數(shù)據(jù)可發(fā)現(xiàn)性的關(guān)鍵,是決定OGD成敗的最重要因素之一。德國(guó)學(xué)者K.J.Reiche等[14-16]通過8個(gè)度量指標(biāo):完整性、加權(quán)的完整性、準(zhǔn)確性、信息量、可讀性、URL有效性、內(nèi)在精度和開放許可,對(duì)德國(guó)、英國(guó)、加拿大和墨西哥等14個(gè)國(guó)家數(shù)據(jù)門戶的元數(shù)據(jù)記錄質(zhì)量進(jìn)行了評(píng)價(jià),所采用的自動(dòng)化方法依賴于CKAN平臺(tái)的元數(shù)據(jù)API。類似地,盧森堡大學(xué)的S.Kubler等[17]在歐盟H2020計(jì)劃項(xiàng)目資助下,采用AHP方法對(duì)44個(gè)國(guó)家的146個(gè)“開放數(shù)據(jù)門戶質(zhì)量”(Open Data Portal Quality,ODPQ)進(jìn)行綜合排序,前三名的網(wǎng)站分別來自荷蘭、加拿大和英國(guó)。該方法的基礎(chǔ)是CKAN平臺(tái)構(gòu)建的五個(gè)元數(shù)據(jù)質(zhì)量指標(biāo):核心元數(shù)據(jù)的存在性、記錄完整性、開放性、資源可獲取性和溯源信息。奧地利學(xué)者J.Umbrich等[18-19]建立各平臺(tái)(CKAN、Socrata和OpenDataSoft等)元數(shù)據(jù)到W3C標(biāo)準(zhǔn)DCAT(Data Catalog Vocabulary)的映射,有效屏蔽了平臺(tái)間的差異,成功地對(duì)260個(gè)網(wǎng)站、110萬個(gè)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量進(jìn)行了定期(以7天為周期)自動(dòng)評(píng)價(jià),評(píng)價(jià)結(jié)果公布在data.wu.ac.at/portalwatch。其評(píng)價(jià)體系包含5個(gè)維度(存在性、合規(guī)性、可獲取性、準(zhǔn)確性和開放性)下的18個(gè)指標(biāo),既面向元數(shù)據(jù)記錄、也面向元數(shù)據(jù)模式,又增加了體現(xiàn)開放數(shù)據(jù)原則的維度——開放性??梢?,元數(shù)據(jù)質(zhì)量評(píng)估以自動(dòng)評(píng)價(jià)方法為主,向著通用框架的方向發(fā)展:指標(biāo)更加全面與不依賴特定的軟件平臺(tái)。
同時(shí),元數(shù)據(jù)質(zhì)量評(píng)估是對(duì)開放數(shù)據(jù)平臺(tái)進(jìn)行綜合評(píng)估的基礎(chǔ)。西班牙學(xué)者A.S.Martín等[20]將平臺(tái)的“質(zhì)量指數(shù)”(Quality Index,QI)分解為3個(gè)子指數(shù):功能指數(shù)、內(nèi)容指數(shù)和語(yǔ)義指數(shù),其中語(yǔ)義指數(shù)的四個(gè)指標(biāo)之一是元數(shù)據(jù)質(zhì)量水平。捷克學(xué)者R.Máchová等[21]建立的數(shù)據(jù)門戶質(zhì)量評(píng)估的“基準(zhǔn)框架”共有4個(gè)維度(技術(shù)、搜索與訪問服務(wù)、用戶交互和數(shù)據(jù)集描述)下的28個(gè)指標(biāo),其中數(shù)據(jù)集描述維度下的10個(gè)指標(biāo)涉及到各種元數(shù)據(jù)項(xiàng),如Title、Publisher和License等。
數(shù)據(jù)本身的質(zhì)量是另一個(gè)研究焦點(diǎn)。巴西學(xué)者M(jìn).I.S.Oliveira等[22]對(duì)巴西國(guó)內(nèi)的13個(gè)數(shù)據(jù)門戶進(jìn)行對(duì)比分析,評(píng)估了CSV數(shù)據(jù)集的數(shù)據(jù)稀疏性(即完整性)、記錄重復(fù)性及模式定義的規(guī)范性等,發(fā)現(xiàn)了記錄重復(fù)、字段定義不一致等質(zhì)量問題。意大利都靈理工大學(xué)的A.Vetrò等[2]以意大利為背景,在SPDQM(Square-Aligned Portal Data Quality Model)基礎(chǔ)上建立了7個(gè)維度(準(zhǔn)確性、完整性、時(shí)效性和溯源等)和14個(gè)度量指標(biāo)的評(píng)估框架,評(píng)價(jià)粒度細(xì)致到數(shù)據(jù)集中的記錄與單元。荷蘭代爾夫特理工大學(xué)的A.Zuiderwijk等[23]在下一代開放數(shù)據(jù)平臺(tái)中引入“數(shù)據(jù)質(zhì)量指示器”功能模塊,以促進(jìn)開放數(shù)據(jù)的再利用。數(shù)據(jù)質(zhì)量評(píng)估也是各種綜合評(píng)估的基礎(chǔ)。例如,在政府的開放性評(píng)價(jià)中,塞爾維亞學(xué)者N.Veljkovi?等[24]從開放數(shù)據(jù)的八項(xiàng)原則出發(fā),重點(diǎn)關(guān)注數(shù)據(jù)的完整性、原始性、及時(shí)性、機(jī)器可讀性及開放許可等。葡萄牙學(xué)者P.L.Rui[25]認(rèn)為數(shù)據(jù)質(zhì)量是政府?dāng)?shù)據(jù)披露(Data Disclosure)的關(guān)鍵特征,包括準(zhǔn)確性、一致性、完整性、及時(shí)性和可獲取性等子屬性。英國(guó)倫敦布魯內(nèi)爾大學(xué)的K.Kapoor等[26]將數(shù)據(jù)質(zhì)量列為政府?dāng)?shù)據(jù)可用性(Usability)的關(guān)鍵特征之一。
2014 年12月2日,全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)成立大數(shù)據(jù)標(biāo)準(zhǔn)工作組,啟動(dòng)了大數(shù)據(jù)領(lǐng)域(含開放數(shù)據(jù))標(biāo)準(zhǔn)的研制工作,目前在研究的12項(xiàng)標(biāo)準(zhǔn)包括“信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)”[27]。夏義堃[28]的研究成果認(rèn)為“數(shù)據(jù)質(zhì)量問題(數(shù)據(jù)重疊和不準(zhǔn)確等)是OGD風(fēng)險(xiǎn)的重要來源”,提出的風(fēng)險(xiǎn)管理流程包括“建立政府?dāng)?shù)據(jù)開放的質(zhì)量保障體系與評(píng)估體系”。李平等[29]認(rèn)為數(shù)據(jù)質(zhì)量是開放數(shù)據(jù)成功應(yīng)用的基礎(chǔ),包括數(shù)據(jù)的高價(jià)值性、一致性、可機(jī)讀性和持續(xù)性等。
臺(tái)灣高雄大學(xué)的C.S.Lin等[30]對(duì)臺(tái)灣省內(nèi)的3個(gè)開放數(shù)據(jù)網(wǎng)站質(zhì)量進(jìn)行評(píng)估,13個(gè)指標(biāo)包括元數(shù)據(jù)、API、數(shù)據(jù)格式、可用性、隱私保護(hù)和開放許可等。鄭磊等[31-32]基于國(guó)情,提出“基礎(chǔ)”“數(shù)據(jù)”“平臺(tái)”三大層面共13個(gè)維度的OGD評(píng)估框架,數(shù)據(jù)質(zhì)量是維度之一。馬海群等構(gòu)建了六維度的政府開放數(shù)據(jù)網(wǎng)站服務(wù)質(zhì)量測(cè)量的結(jié)構(gòu)方程模型[33]和基于用戶滿意度理論的政府開放數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)體系[34],數(shù)據(jù)質(zhì)量指標(biāo)包括準(zhǔn)確性、全面性、一致性和及時(shí)性。武琳等[35]構(gòu)建的城市開放政府?dāng)?shù)據(jù)平臺(tái)服務(wù)績(jī)效評(píng)估體系中,數(shù)據(jù)質(zhì)量是7個(gè)二級(jí)指標(biāo)之一,含有4個(gè)三級(jí)指標(biāo):數(shù)據(jù)完整性、元數(shù)據(jù)描述、數(shù)據(jù)格式和授權(quán)許可。譚必勇等[36]從開放政府?dāng)?shù)據(jù)平臺(tái)的宏觀功能結(jié)構(gòu)出發(fā),對(duì)我國(guó)10個(gè)代表性開放平臺(tái)數(shù)據(jù)質(zhì)量從可用性、可讀性、全面性、及時(shí)性和開放性等7個(gè)指標(biāo)進(jìn)行評(píng)價(jià),每個(gè)指標(biāo)分為三個(gè)等級(jí),在綜合等級(jí)上“上海”和“青島”排名最高(都是一級(jí))。
同國(guó)外相比,這些工作的不足是選取的維度和指標(biāo)偏少,對(duì)數(shù)據(jù)質(zhì)量的描述不全面、粒度較大,對(duì)元數(shù)據(jù)質(zhì)量重視不夠,也缺乏細(xì)粒度的評(píng)價(jià)案例和實(shí)際應(yīng)用的評(píng)價(jià)系統(tǒng)。
為完成數(shù)據(jù)質(zhì)量評(píng)估(DQA),需要合適的評(píng)估指標(biāo)、方法和工具,而構(gòu)建維度和指標(biāo)體系是上述研究工作的核心內(nèi)容。質(zhì)量維度(Dimension)是數(shù)據(jù)特征或數(shù)據(jù)需求的一個(gè)方面(如準(zhǔn)確性、開放性等),需要分解為可測(cè)量的一系列度量指標(biāo)(Metric)[37]。借助一定的方法或工具,每個(gè)指標(biāo)能夠根據(jù)評(píng)估對(duì)象被賦予一個(gè)明確的值——一個(gè)語(yǔ)言值或數(shù)值,常用的是布爾值(0或1)和百分比。
表1 元數(shù)據(jù)質(zhì)量的評(píng)估指標(biāo)——模式層
目前,OGD的元數(shù)據(jù)質(zhì)量的評(píng)估指標(biāo)已相當(dāng)完善,本文從兩個(gè)層次(模式層和實(shí)例層)[38]對(duì)其進(jìn)行歸納,結(jié)果分別見表1和表2。可見,在22個(gè)指標(biāo)中已有50%在歐盟、英國(guó)或美國(guó)的“質(zhì)量評(píng)估系統(tǒng)”中得到了應(yīng)用;除了信息量、記錄的正確性和地理范圍等指標(biāo)難以計(jì)算外,大部分指標(biāo)的計(jì)算較為簡(jiǎn)單,可由程序自動(dòng)完成,比如URL的有效性可以通過“正則表達(dá)式”自動(dòng)驗(yàn)證等[19]。
表2 元數(shù)據(jù)質(zhì)量的評(píng)估指標(biāo)——實(shí)例層
目前提出的主要的數(shù)據(jù)集質(zhì)量評(píng)估指標(biāo)見表3,也分為模式層和實(shí)例層兩個(gè)層次。其中,可追溯性維度下的兩個(gè)指標(biāo)與表1中的“日期”指標(biāo)重復(fù),模式的可理解性也是通過元數(shù)據(jù)實(shí)現(xiàn)的。數(shù)據(jù)集的開放性是開放數(shù)據(jù)的核心屬性,其評(píng)價(jià)歸為元數(shù)據(jù)范疇(見表2),沒有出現(xiàn)在表3中。元數(shù)據(jù)的一些質(zhì)量屬性,如表2中的資源可用性、開放性等,實(shí)質(zhì)上也反映了數(shù)據(jù)集的相應(yīng)質(zhì)量屬性。
從表3可見,對(duì)數(shù)據(jù)集模式定義的評(píng)估指標(biāo)比較少,表明這方面的研究才剛剛起步。實(shí)際上,在傳統(tǒng)的數(shù)據(jù)庫(kù)領(lǐng)域存在著“模式的質(zhì)量決定著數(shù)據(jù)的質(zhì)量”這一規(guī)則[38],在開放數(shù)據(jù)領(lǐng)域也應(yīng)重視數(shù)據(jù)和元數(shù)據(jù)在模式層次的質(zhì)量問題及其對(duì)數(shù)據(jù)質(zhì)量的影響。
表3 數(shù)據(jù)集質(zhì)量的評(píng)估指標(biāo)
(注:資料來源于參考文獻(xiàn)第2、22、24—25、30、32、34—36條。)
提升和保障數(shù)據(jù)質(zhì)量是我國(guó)政府?dāng)?shù)據(jù)共享開放工程的主要任務(wù)之一[10]。我國(guó)目前的研究成果偏向于對(duì)數(shù)據(jù)平臺(tái)的整體評(píng)價(jià),還缺乏對(duì)平臺(tái)內(nèi)數(shù)據(jù)和元數(shù)據(jù)等的細(xì)粒度質(zhì)量評(píng)價(jià)。在開展我國(guó)OGD數(shù)據(jù)質(zhì)量評(píng)估工作時(shí),應(yīng)著重從以下三方面借鑒國(guó)際先進(jìn)經(jīng)驗(yàn)。
數(shù)據(jù)質(zhì)量是一個(gè)多維和主觀的概念,與背景、環(huán)境和應(yīng)用場(chǎng)景密切相關(guān)。不同于其他領(lǐng)域,OGD質(zhì)量評(píng)估的對(duì)象呈現(xiàn)出多元化的特點(diǎn)。W3C Web數(shù)據(jù)最佳實(shí)踐(Data on the Web Best Practices,DWBP)工作組在對(duì)各國(guó)開放數(shù)據(jù)實(shí)踐全面調(diào)研和深入分析基礎(chǔ)上,在元數(shù)據(jù)、開放許可、數(shù)據(jù)質(zhì)量等方面提煉了35個(gè)最佳實(shí)踐(Best Practice, BP),于2017年1月31日發(fā)布為正式推薦標(biāo)準(zhǔn)[39],其中提出的開放數(shù)據(jù)的結(jié)構(gòu)模型如圖1所示。在將“數(shù)據(jù)集”發(fā)布到Web的同時(shí),相應(yīng)的“元數(shù)據(jù)”和“詞匯表”也應(yīng)同時(shí)發(fā)布出來,這里的“詞匯表”通常是數(shù)據(jù)集的模式定義,或者是元數(shù)據(jù)模式定義的一部分[6],用以規(guī)范元素的取值。因此,數(shù)據(jù)集、元數(shù)據(jù)和詞匯表應(yīng)是數(shù)據(jù)質(zhì)量評(píng)估的三個(gè)基本對(duì)象,在此基礎(chǔ)上可以進(jìn)一步開展“數(shù)據(jù)目錄”(即門戶網(wǎng)站或軟件平臺(tái))質(zhì)量的綜合評(píng)價(jià)。
圖1 開放數(shù)據(jù)的結(jié)構(gòu)模型
在我國(guó),除了元數(shù)據(jù)和數(shù)據(jù)本身,數(shù)據(jù)模式定義也被越來越多的數(shù)據(jù)門戶網(wǎng)站開放出來,如上海(www.datashanghai.gov.cn)、廣州(datagz.gov.cn/data)和哈爾濱(data.harbin.gov.cn)等。但在各字段(數(shù)據(jù)項(xiàng))的格式定義中,均采用“文本”類型,沒有區(qū)分日期型和數(shù)值型等,為數(shù)據(jù)質(zhì)量管理帶來隱患。同時(shí),不同于國(guó)外將數(shù)據(jù)訪問的API (Application Programming Interface)作為一種數(shù)據(jù)資源,我國(guó)各網(wǎng)站將API接口服務(wù)處理為與數(shù)據(jù)集并列的開放對(duì)象。因此,數(shù)據(jù)集(含元數(shù)據(jù)和模式定義)與API(含元數(shù)據(jù)和參數(shù)定義)應(yīng)是我國(guó)開放數(shù)據(jù)細(xì)粒度質(zhì)量評(píng)估的基本對(duì)象。
各國(guó)的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范在OGD建設(shè)和質(zhì)量評(píng)估中起到了關(guān)鍵性的作用。美國(guó)白宮的“開放數(shù)據(jù)項(xiàng)目”(Project Open Data)開發(fā)了元數(shù)據(jù)方案POD v1.1(Project Open Data Metadata Schema v1.1),已被24個(gè)聯(lián)邦機(jī)構(gòu)和43個(gè)地方政府采用。美國(guó)行政管理預(yù)算局(Office of Management and Budget,OMB)要求各聯(lián)邦機(jī)構(gòu)依據(jù)POD v1.1定期報(bào)送“企業(yè)數(shù)據(jù)清單”和“開放數(shù)據(jù)清單”,并對(duì)其質(zhì)量進(jìn)行評(píng)估和監(jiān)測(cè)。在W3C DCAT的基礎(chǔ)上,歐盟開發(fā)了元數(shù)據(jù)方案DCAT-AP(DCAT Application Profile),通過它評(píng)估各國(guó)的元數(shù)據(jù)質(zhì)量。英國(guó)的ODC收集每個(gè)數(shù)據(jù)集的DCAT元數(shù)據(jù)評(píng)價(jià)其質(zhì)量和可信度[9]。J.Umbrich等建立的通用評(píng)估框架借助DCAT解決了各平臺(tái)元數(shù)據(jù)的異構(gòu)問題[19]。
對(duì)標(biāo)準(zhǔn)規(guī)范的遵從程度是質(zhì)量評(píng)估的基本準(zhǔn)則。2013年11月,上海市質(zhì)量發(fā)布地方標(biāo)準(zhǔn)《政務(wù)信息資源共享與交換實(shí)施規(guī)范第1部分:目錄元數(shù)據(jù)》,用以規(guī)范政府部門數(shù)據(jù)資源開放清單的編制[6]。2016年9月28日,貴州省技術(shù)監(jiān)督局發(fā)布《政府?dāng)?shù)據(jù)資源目錄第1部分:元數(shù)據(jù)描述規(guī)范》等四項(xiàng)地方標(biāo)準(zhǔn)。這些標(biāo)準(zhǔn)應(yīng)成為我國(guó)元數(shù)據(jù)質(zhì)量評(píng)估的基礎(chǔ)。同時(shí),國(guó)家數(shù)據(jù)開放網(wǎng)站www.data.gov.cn的建設(shè),迫切需要全國(guó)統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)和通用的質(zhì)量評(píng)估體系,以促進(jìn)和保障地方政府的數(shù)據(jù)目錄聚合到全國(guó)統(tǒng)一的平臺(tái)上。
質(zhì)量改進(jìn)是一個(gè)持續(xù)的漸進(jìn)過程,需要定期開展質(zhì)量評(píng)估和監(jiān)測(cè)工作,找出質(zhì)量問題并采用應(yīng)對(duì)措施。隨著OGD的發(fā)展,數(shù)據(jù)集的數(shù)量和規(guī)模迅速增長(zhǎng)。為此,自動(dòng)化的質(zhì)量評(píng)估與監(jiān)測(cè)系統(tǒng)得到普遍重視,其運(yùn)行方式分為兩種:嵌入到開放數(shù)據(jù)平臺(tái)(如歐盟)與獨(dú)立運(yùn)行(如美國(guó)和英國(guó))。
以濟(jì)南市為例,在對(duì)其開放數(shù)據(jù)網(wǎng)站(www.jndata.gov.cn)中數(shù)據(jù)集的調(diào)查發(fā)現(xiàn),無論是元數(shù)據(jù)、還是數(shù)據(jù)本身都存在各種維度下的一些質(zhì)量問題,詳見表4。該網(wǎng)站于2017年7月25日正式開通,發(fā)布了325個(gè)數(shù)據(jù)集。到12月25日已有894個(gè)數(shù)據(jù)集,而到2018年1月初已增長(zhǎng)到1 010個(gè)。顯然,建設(shè)質(zhì)量評(píng)估系統(tǒng)是質(zhì)量管理成熟度提升的必由之路,也只有自動(dòng)化的方式才能實(shí)時(shí)監(jiān)測(cè)最新的質(zhì)量狀況。
表4 濟(jì)南市開放數(shù)據(jù)存在的質(zhì)量問題
由于我國(guó)各地的開放數(shù)據(jù)網(wǎng)站大多沒有提供元數(shù)據(jù)API,使得程序不能以一致、便捷的方式獲取元數(shù)據(jù)記錄。這時(shí)需要網(wǎng)頁(yè)抓取技術(shù),但由于各地網(wǎng)站的組織方式不同,需設(shè)計(jì)不同的抓取方案,增加了獨(dú)立運(yùn)行的自動(dòng)評(píng)估系統(tǒng)的復(fù)雜性。
世界各國(guó)的實(shí)踐表明,開放不等同于高質(zhì)量。在開放的同時(shí),數(shù)據(jù)發(fā)布者應(yīng)確保數(shù)據(jù)是可信的和可發(fā)現(xiàn)的,即保障數(shù)據(jù)質(zhì)量和元數(shù)據(jù)質(zhì)量。國(guó)內(nèi)外面向OGD數(shù)據(jù)質(zhì)量評(píng)估的研究方興未艾,以應(yīng)對(duì)“對(duì)質(zhì)量維度的共同理解”等挑戰(zhàn)。本文對(duì)其進(jìn)行了梳理,提煉出了主要的評(píng)估維度和指標(biāo),結(jié)合我國(guó)實(shí)際,分析了可以借鑒的經(jīng)驗(yàn)。
下一步的工作是構(gòu)建適應(yīng)國(guó)情的數(shù)據(jù)質(zhì)量評(píng)估和監(jiān)測(cè)體系,并應(yīng)用到我國(guó)開放政府?dāng)?shù)據(jù)的實(shí)踐中。
(來搞時(shí)間:2018年3月)