摘 要:元數(shù)據(jù)作為一種較為先進(jìn)的數(shù)據(jù)管理手段,在國(guó)際上已經(jīng)得到了廣泛的應(yīng)用。隨著統(tǒng)計(jì)信息化的逐步推進(jìn),統(tǒng)計(jì)元數(shù)據(jù)建設(shè)也逐步提上日程。本文通過(guò)梳理元數(shù)據(jù)的概念,立足于江西統(tǒng)計(jì)工作實(shí)際,應(yīng)用現(xiàn)代的信息化技術(shù),提出了建設(shè)本省元數(shù)據(jù)系統(tǒng)的設(shè)想,以更好地服務(wù)于江西統(tǒng)計(jì)工作。
關(guān)鍵詞:元數(shù)據(jù);統(tǒng)計(jì)信息化;行業(yè)標(biāo)準(zhǔn)
中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2018)08-0025-03
Abstract:As a relatively advanced data management method,metadata has been widely used in the world. With the gradual advancement of statistical informatization,the construction of statistical metadata is gradually on the agenda. This article through the concept of combing metadata,based on the actual situation of statistical work in Jiangxi,the application of modern information technology,put forward the idea of building the provinces metadata system,to better serve the statistical work in Jiangxi.
Keywords:metadata;statistical informatization;industry standard
0 引 言
元數(shù)據(jù)是定義和描述其他數(shù)據(jù)的數(shù)據(jù)。依據(jù)《國(guó)家統(tǒng)計(jì)調(diào)查元數(shù)據(jù)標(biāo)準(zhǔn)》(國(guó)統(tǒng)辦設(shè)管字[2016]29號(hào)),通過(guò)建立統(tǒng)計(jì)元數(shù)據(jù)庫(kù)系統(tǒng),使所有的基層數(shù)據(jù)和宏觀數(shù)據(jù)都能夠被正確地描述和存儲(chǔ),避免在數(shù)據(jù)流轉(zhuǎn)過(guò)程中出現(xiàn)信息丟失或轉(zhuǎn)義等錯(cuò)誤。這對(duì)于增強(qiáng)統(tǒng)計(jì)數(shù)據(jù)的可解釋性、準(zhǔn)確性和一致性,提高統(tǒng)計(jì)工作的標(biāo)準(zhǔn)化水平,以及推進(jìn)統(tǒng)計(jì)信息化具有重要的意義。
1 目前國(guó)內(nèi)外已經(jīng)建立的元數(shù)據(jù)規(guī)范
(1)DDI(Data Documentation Initiative):針對(duì)社會(huì)科學(xué)領(lǐng)域,較貼近統(tǒng)計(jì),國(guó)際住戶調(diào)查案例較成熟,對(duì)統(tǒng)計(jì)抽樣調(diào)查規(guī)范具有很好的啟示作用;
(2)ISO/IEC 11179:針對(duì)社會(huì)組織,適合描述微觀數(shù)據(jù),并跟蹤其變動(dòng)情況;
(3)SDMX(ISO 17369:2013):主要由國(guó)際金融機(jī)構(gòu)發(fā)起,人民銀行發(fā)布的行業(yè)標(biāo)準(zhǔn)(JR/T 0107.1~7-2014);
(4)GSIM(Generic Statistical Information Model):屬于概念模型,適于描述政府統(tǒng)計(jì)產(chǎn)品全過(guò)程;
(5)GSBPM(The Generic Statistical Business Process Model):用于描述統(tǒng)計(jì)業(yè)務(wù)流程模型;
(6)GILS(Global Information Locator Service):針對(duì)政府/組織,適合描述信息資源定位與檢索;
(7)Dublin Core:針對(duì)數(shù)字圖書(shū)館,對(duì)描述我們的統(tǒng)計(jì)文檔有借鑒意義;
(8)FGDC、CEN/TC287、ISO/TC211:空間元數(shù)據(jù)標(biāo)準(zhǔn)的三個(gè)組織和規(guī)范;
(9)CWM(Common Warehouse Metamodel):用于數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建和應(yīng)用的元數(shù)據(jù)建模;
(10)RDF(Resource Description Framework):使用XML語(yǔ)法和RDF Schema(RDFS),將元數(shù)據(jù)描述成為數(shù)據(jù)模型。
2 統(tǒng)計(jì)元數(shù)據(jù)庫(kù)的設(shè)計(jì)思路
按照國(guó)際標(biāo)準(zhǔn),元數(shù)據(jù)大致可分為3種類(lèi)型:描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)和管理性元數(shù)據(jù)。
(1)描述性元數(shù)據(jù):用以描述和識(shí)別數(shù)字對(duì)象的特征、分析信息體知識(shí)內(nèi)容的數(shù)據(jù);
(2)結(jié)構(gòu)性元數(shù)據(jù):用于確保數(shù)字化對(duì)象正常發(fā)揮功能的技術(shù)性信息;
(3)管理型元數(shù)據(jù):提供有關(guān)數(shù)字對(duì)象的存儲(chǔ)條件和轉(zhuǎn)換過(guò)程相關(guān)的信息。
3 統(tǒng)計(jì)元數(shù)據(jù)庫(kù)的設(shè)計(jì)原則
(1)一致性原則。在元數(shù)據(jù)設(shè)計(jì)過(guò)程中,應(yīng)保持與現(xiàn)有的國(guó)家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)或者其他國(guó)際標(biāo)準(zhǔn)相一致;
(2)準(zhǔn)確性原則。在元數(shù)據(jù)設(shè)計(jì)過(guò)程中,應(yīng)盡可能全面細(xì)致地描述數(shù)字對(duì)象,滿足統(tǒng)計(jì)業(yè)務(wù)人員的專(zhuān)業(yè)需求,避免元數(shù)據(jù)描述與實(shí)際出現(xiàn)歧義;
(3)簡(jiǎn)單性原則。在滿足準(zhǔn)確性原則的基礎(chǔ)上,設(shè)計(jì)的元數(shù)據(jù)在實(shí)際應(yīng)用時(shí)應(yīng)易于掌握,方便理解,這將有助于專(zhuān)業(yè)技術(shù)人員在編寫(xiě)制度、基層表和匯總表時(shí),更好更快地完成任務(wù);
(4)可擴(kuò)展性原則。統(tǒng)計(jì)業(yè)務(wù)在不斷地發(fā)展,統(tǒng)計(jì)標(biāo)準(zhǔn)的更新以及指標(biāo)概念的重新定義將導(dǎo)致原有的元數(shù)據(jù)在描述上變得不準(zhǔn)確,所以在元數(shù)據(jù)設(shè)計(jì)過(guò)程中,應(yīng)允許在原來(lái)的元數(shù)據(jù)定義上擴(kuò)充一些屬性值,以滿足新的統(tǒng)計(jì)標(biāo)準(zhǔn);
(5)可遷移性原則。建立的統(tǒng)計(jì)元數(shù)據(jù)庫(kù),應(yīng)當(dāng)可以在不同的統(tǒng)計(jì)業(yè)務(wù)系統(tǒng)中應(yīng)用,具備一定的可遷移性。
4 統(tǒng)計(jì)元數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)技術(shù)框架
統(tǒng)計(jì)元數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)技術(shù)框架包括元素定義、核心元素集、描述規(guī)范、語(yǔ)法機(jī)構(gòu)和擴(kuò)展規(guī)則。
(1)元素是統(tǒng)計(jì)元數(shù)據(jù)體系中的業(yè)務(wù)對(duì)象,可以小到單位名稱(chēng),可以是指標(biāo),也可以是制度等。元素之間具有關(guān)聯(lián)關(guān)系,比如制度包含報(bào)表,報(bào)表包含指標(biāo)等。元素定義是對(duì)元素進(jìn)行各種屬性的約定。元素的屬性具有可擴(kuò)展性,根據(jù)業(yè)務(wù)需要進(jìn)行擴(kuò)展。比如,“單位名稱(chēng)”的屬性除了字段類(lèi)型、長(zhǎng)度等外,可以擴(kuò)展編碼屬性等;
(2)核心元素集是針對(duì)統(tǒng)計(jì)業(yè)務(wù)實(shí)際形成的基礎(chǔ)的、穩(wěn)定的和關(guān)鍵的元素集合。比如制度、報(bào)表、指標(biāo)、分組、目錄和方法等涉及的元素集合都是統(tǒng)計(jì)業(yè)務(wù)中的核心元素集;
(3)描述規(guī)范保證統(tǒng)計(jì)元數(shù)據(jù)體系形式上的統(tǒng)一和規(guī)范,通常采用XML或Json等格式進(jìn)行內(nèi)容描述,采用DTD、XML Schemas等文件進(jìn)行規(guī)范描述;
(4)語(yǔ)法結(jié)構(gòu)是利用某些技術(shù)手段形成的元數(shù)據(jù)定義和關(guān)聯(lián)關(guān)系等的統(tǒng)一、規(guī)范、一致的語(yǔ)法結(jié)構(gòu),保證元數(shù)據(jù)體系能夠適應(yīng)業(yè)務(wù)變化的需求,而不會(huì)造成混亂。例如:
(5)元數(shù)據(jù)體系需要建立擴(kuò)展機(jī)制和規(guī)則,靈活適應(yīng)統(tǒng)計(jì)業(yè)務(wù)的變化需求。例如:
(6)技術(shù)框架。借鑒國(guó)內(nèi)外現(xiàn)有元數(shù)據(jù)規(guī)范,結(jié)合國(guó)內(nèi)統(tǒng)計(jì)數(shù)據(jù)及應(yīng)用的實(shí)際特點(diǎn)制定。針對(duì)統(tǒng)計(jì)調(diào)查對(duì)象、基層數(shù)據(jù)、宏觀數(shù)據(jù)、文檔資料和空間數(shù)據(jù)等信息制定元數(shù)據(jù)規(guī)范。建立調(diào)查對(duì)象、統(tǒng)計(jì)制度、統(tǒng)計(jì)報(bào)表、統(tǒng)計(jì)指標(biāo)、分組/目錄、空間數(shù)據(jù)等統(tǒng)計(jì)要素之間的關(guān)聯(lián)關(guān)系,形成統(tǒng)一、規(guī)范、可自解釋的統(tǒng)計(jì)數(shù)據(jù)資源視圖;建立元數(shù)據(jù)頂層管理規(guī)范,包括元數(shù)據(jù)注冊(cè)、審批和發(fā)布等;開(kāi)發(fā)元數(shù)據(jù)編輯、管理和發(fā)布等軟件工具;為統(tǒng)計(jì)信息交換、存儲(chǔ)、處理、分析和發(fā)布等環(huán)節(jié)奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ),統(tǒng)計(jì)元數(shù)據(jù)技術(shù)框架如圖1所示。
5 統(tǒng)計(jì)元數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)體系設(shè)計(jì)
面對(duì)數(shù)據(jù)資源來(lái)源廣泛、數(shù)據(jù)類(lèi)型復(fù)雜、數(shù)據(jù)標(biāo)準(zhǔn)不一致等問(wèn)題和挑戰(zhàn),需要設(shè)計(jì)面向數(shù)據(jù)資源處理的元數(shù)據(jù)規(guī)范。具體數(shù)據(jù)資源處理元數(shù)據(jù)規(guī)范涉及制度、報(bào)表、指標(biāo)、目錄、分組和方法等內(nèi)容。下面以制度元數(shù)據(jù)規(guī)范為例,制度元數(shù)據(jù)定義規(guī)范如表1所示。
參考文獻(xiàn):
[1] 胡帆.中國(guó)統(tǒng)計(jì)元數(shù)據(jù)的構(gòu)成及初步詮釋 [J].中國(guó)統(tǒng)計(jì),2008(11):6-8.
[2] 上海市統(tǒng)計(jì)局課題組.建設(shè)上海統(tǒng)計(jì)元數(shù)據(jù)研究 [J].統(tǒng)計(jì)科學(xué)與實(shí)踐,2014(5):36-38.
[3] 馮甲策.博物館元數(shù)據(jù)規(guī)范建設(shè)與應(yīng)用 [J].現(xiàn)代信息科技,2017,1(3):17-19.
[4] 朱榮.基于信息組織技術(shù)的數(shù)字圖書(shū)館服務(wù) [J].現(xiàn)代信息科技,2018,2(3):124-125+127.
作者簡(jiǎn)介:鄧帥(1983-),男,漢族,江西南昌人,工程師,學(xué)士。研究方向:元數(shù)據(jù)。