国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

小數(shù)據(jù)的大價(jià)值

2019-01-31 01:56:24李廣乾
關(guān)鍵詞:數(shù)據(jù)管理結(jié)構(gòu)化

李廣乾

(國務(wù)院發(fā)展研究中心 信息中心, 北京 100010)

一、 小數(shù)據(jù):背景、概念

大數(shù)據(jù)是當(dāng)下一個(gè)熱得發(fā)燙的概念。自從2012年美國政府發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》之后,大數(shù)據(jù)就開始受到世界各主要國家的高度重視,一些國家和地區(qū)都先后發(fā)布了有關(guān)大數(shù)據(jù)發(fā)展的戰(zhàn)略和規(guī)劃。例如,歐盟委員會(huì)先后于 2014年、2017年發(fā)布了《數(shù)據(jù)驅(qū)動(dòng)經(jīng)濟(jì)戰(zhàn)略》和《打造歐洲數(shù)據(jù)經(jīng)濟(jì)》報(bào)告,強(qiáng)調(diào)大數(shù)據(jù)是經(jīng)濟(jì)增長、就業(yè)和社會(huì)進(jìn)步的重要資源。我國也加快了大數(shù)據(jù)的發(fā)展步伐,近年來中央、地方陸續(xù)出臺(tái)了160多份大數(shù)據(jù)相關(guān)政策文件,20 個(gè)省級(jí)單位設(shè)立了大數(shù)據(jù)專門機(jī)構(gòu)[注]相關(guān)數(shù)據(jù)引自工信部信息化與軟件服務(wù)業(yè)司副司長李冠宇于2018 年6月27日在江蘇省經(jīng)濟(jì)和信息化委員會(huì)主辦的江蘇省大數(shù)據(jù)和新一代軟件產(chǎn)業(yè)發(fā)展推進(jìn)會(huì)上的發(fā)言。資料來源:http://bigdata.huanqiu.com/information/2018-06/12356490.html。。近年來,我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展迅速、規(guī)模日益龐大,2015年、2016年、2017年分別達(dá)到 2 800、3 600、4 700億元[1]。在這種情況下,人們自然就會(huì)問:那么,小數(shù)據(jù)又在哪里?小數(shù)據(jù)究竟又有什么價(jià)值?

遺憾的是,盡管人們這么好奇小數(shù)據(jù),但卻不知道小數(shù)據(jù)到底是什么,至今也沒對(duì)小數(shù)據(jù)形成一個(gè)統(tǒng)一權(quán)威的定義。從現(xiàn)有的材料來看,人們對(duì)于小數(shù)據(jù)的說法是多種多樣的:一是認(rèn)為小數(shù)據(jù)泛指零星的弱信號(hào),往往被當(dāng)作沒有規(guī)范、看似隨機(jī)的偏差或噪音;二是認(rèn)為結(jié)構(gòu)化的采樣數(shù)據(jù)就是小數(shù)據(jù);三是認(rèn)為小數(shù)據(jù)是指信息項(xiàng)目和數(shù)據(jù)規(guī)模較小的數(shù)據(jù)庫[注]關(guān)于這種說法,網(wǎng)易科技2017年10月19日所刊登的一篇《“大數(shù)據(jù)”這詞不火了是不是因?yàn)闆]當(dāng)年說的那么好》的文章就認(rèn)為,小數(shù)據(jù)是指簡單到可以直接由人來分析和解讀、不需要求助于超級(jí)計(jì)算機(jī)或者 Hadoop 作業(yè)的數(shù)據(jù)集。資料來源:http://tech.163.com/17/1019/07/D13GJPSS00097U7T.html。;等等。根據(jù)這些說法,我們發(fā)現(xiàn)人們對(duì)于小數(shù)據(jù)的屬性界定是根本不同的:第一種說法將小數(shù)據(jù)看作是小概率事件的數(shù)據(jù),第二種說法從數(shù)據(jù)結(jié)構(gòu)類型去認(rèn)識(shí)小數(shù)據(jù),第三種說法則簡單地從數(shù)據(jù)量的多少去界定,顯然是太不著邊際了。由此可見,目前人們對(duì)于小數(shù)據(jù)的認(rèn)識(shí)和理解還是很混亂的。

不過,在正式厘清小數(shù)據(jù)的概念之前,有必要明確以下3個(gè)基本問題:

(1)人們采集、加工處理海量數(shù)據(jù),通常都是某種具有特定目的的理性行為。因此,盡管大數(shù)據(jù)的容量很大、涉及的對(duì)象很多,但是人們通常會(huì)根據(jù)業(yè)務(wù)類型對(duì)這些海量數(shù)據(jù)進(jìn)行分類處理。

(2)要體現(xiàn)出某種價(jià)值,“數(shù)據(jù)”本身必須能夠表述一個(gè)完整的“信息”。無論是大數(shù)據(jù)中的“數(shù)據(jù)”還是小數(shù)據(jù)中的“數(shù)據(jù)”,都只是一個(gè)抽象的概念。單個(gè)的數(shù)據(jù)本身無法反映什么內(nèi)容,必須是若干條“數(shù)據(jù)”綜合在一起去反映某種“信息”[注]這分兩種情況:一種是某數(shù)據(jù)與其他類型數(shù)據(jù)組合在一起表達(dá)某個(gè)具體含義(信息);另一種是眾多的某類數(shù)據(jù)經(jīng)過一定的算法處理后,可以揭示某種具體的問題。。而且,從邏輯上來看,通常存在著如圖1所示的層次遞進(jìn)關(guān)系(圖1也被稱為 DIKW模型)。

資料來源:筆者根據(jù)相關(guān)材料整理圖1 數(shù)據(jù)、信息、知識(shí)與智慧之間的關(guān)系

(3)一條完整的信息應(yīng)該包含一個(gè)明確的主體、客體和行為。通常情況下,主體和客體一般都與具體的現(xiàn)實(shí)對(duì)象(實(shí)體)關(guān)聯(lián)在一起。

上述3個(gè)基本問題為我們界定小數(shù)據(jù)的內(nèi)涵提供了基本思路,我們可以據(jù)此去明確那些界定小數(shù)據(jù)的基本屬性:

(1)小數(shù)據(jù)應(yīng)該與數(shù)據(jù)容量無關(guān)。我們不應(yīng)該說 20KB 的數(shù)據(jù)才是小數(shù)據(jù),而20MB的則不是小數(shù)據(jù)。

(2)小數(shù)據(jù)自身應(yīng)該包含特定意義。與大數(shù)據(jù)中的那些不能反映趨勢(shì)性價(jià)值判斷的零星數(shù)據(jù)不同,小數(shù)據(jù)應(yīng)該是那些自身包含特定意義的數(shù)據(jù),特別是能夠反應(yīng)大數(shù)據(jù)的某種基本屬性。

(3)小數(shù)據(jù)應(yīng)該是一種結(jié)構(gòu)化數(shù)據(jù)。從前面兩條原則可以確定小數(shù)據(jù)應(yīng)該就是一種結(jié)構(gòu)化數(shù)據(jù),小數(shù)據(jù)的最大價(jià)值應(yīng)該是既能夠界定其他結(jié)構(gòu)化數(shù)據(jù)的屬性及結(jié)構(gòu),同時(shí)也應(yīng)該能夠被用于界定部分非結(jié)構(gòu)化的數(shù)據(jù)。

(4)小數(shù)據(jù)應(yīng)該是對(duì)于大數(shù)據(jù)(無論是結(jié)構(gòu)化的還是非結(jié)構(gòu)化的)的數(shù)據(jù)之間關(guān)系的宏觀描述?!耙孕〔┐蟆?或者說“統(tǒng)籌大數(shù)據(jù)”)應(yīng)該是小數(shù)據(jù)之于大數(shù)據(jù)的價(jià)值所在。這包含兩個(gè)方面的內(nèi)容:一是對(duì)于大數(shù)據(jù)的基本屬性的描述,具體又包括兩個(gè)方面,一方面是對(duì)于特定業(yè)務(wù)類型大數(shù)據(jù)的屬性的描述,另一方面是大數(shù)據(jù)中的主體行為特征的描述。二是對(duì)于大數(shù)據(jù)中所包含的主體、客體的基本特征的管理數(shù)據(jù)。

(5)小數(shù)據(jù)與大數(shù)據(jù)形影相隨。與大數(shù)據(jù)相比,小數(shù)據(jù)的4V(volume、 velocity、variety、value)發(fā)生了不少變化:小數(shù)據(jù)的數(shù)據(jù)容量(volume)肯定無法和大數(shù)據(jù)相比,數(shù)據(jù)類型(variety)以結(jié)構(gòu)化數(shù)據(jù)為主;與大數(shù)據(jù)的時(shí)刻變化(velocity)相比,小數(shù)據(jù)的屬性相對(duì)穩(wěn)定;就等容量的數(shù)據(jù)而言,小數(shù)據(jù)的價(jià)值(value)要比大數(shù)據(jù)的大得多且明確得多。

上述五個(gè)方面初步概括了小數(shù)據(jù)的基本內(nèi)涵及其與大數(shù)據(jù)的關(guān)系。根據(jù)這些界定,我們可以嘗試為小數(shù)據(jù)進(jìn)行一次具體的定義:所謂小數(shù)據(jù)就是描述并管理大數(shù)據(jù)的數(shù)據(jù)屬性的數(shù)據(jù)?;谏鲜龇治觯覀兛梢愿鶕?jù)這個(gè)定義劃分3類小數(shù)據(jù)(如圖2所示)。

圖2 小數(shù)據(jù)的分類

第一類:關(guān)于特定類型的大數(shù)據(jù)的數(shù)據(jù)屬性的數(shù)據(jù)。其中的“數(shù)據(jù)屬性”的“屬性”,是包含該數(shù)據(jù)庫的定義、結(jié)構(gòu)、類型、操作、管理等各個(gè)方面內(nèi)容的一般化的描述。

第二類:描述大數(shù)據(jù)中所包含的主體、客體的基本特征的管理數(shù)據(jù)。這包括兩個(gè)方面的內(nèi)容,一是對(duì)于大數(shù)據(jù)中所包含的主體、客體的一般屬性的規(guī)定,二是滿足某類主(客)體屬性的所有對(duì)象。

第三類:描述大數(shù)據(jù)中的行為、過程等的數(shù)據(jù)。這類數(shù)據(jù)主要是從海量數(shù)據(jù)中概括、分析、提取的某種“行業(yè)知識(shí)”、業(yè)務(wù)框架和發(fā)展模型。這是對(duì)于行業(yè)業(yè)務(wù)內(nèi)容的描述分析。

二、小數(shù)據(jù)與元數(shù)據(jù)、主數(shù)據(jù)

根據(jù)上述有關(guān)小數(shù)據(jù)類型的分析,我們發(fā)現(xiàn),小數(shù)據(jù)本身并不是什么新創(chuàng)的數(shù)據(jù)類型,而應(yīng)該是對(duì)于大數(shù)據(jù)中一些特定數(shù)據(jù)的概括、總結(jié)和歸類。而且,這些特定的小數(shù)據(jù)類型都可以運(yùn)用現(xiàn)有的專業(yè)數(shù)據(jù)語言(例如元數(shù)據(jù)、主數(shù)據(jù)等)來表述。實(shí)際上,第一、三類小數(shù)據(jù)都可以被稱為某種元數(shù)據(jù);第二類的第一個(gè)方面也是一種元數(shù)據(jù),而第二類的第二個(gè)方面則應(yīng)該被稱為某種主數(shù)據(jù)(如圖3所示)。無論是元數(shù)據(jù)還是主數(shù)據(jù)管理,都是在數(shù)據(jù)庫處理領(lǐng)域得到廣泛應(yīng)用的基礎(chǔ)性技術(shù)。因此,認(rèn)識(shí)和理解元數(shù)據(jù)和主數(shù)據(jù),有助于我們正確地認(rèn)識(shí)和深刻地理解小數(shù)據(jù)的科學(xué)內(nèi)涵及其本質(zhì)特征。

圖3 小數(shù)據(jù)分類與元數(shù)據(jù)、小數(shù)據(jù)

(一)元數(shù)據(jù)與元數(shù)據(jù)管理

“元數(shù)據(jù)”最初是指網(wǎng)絡(luò)資源的描述數(shù)據(jù),后來逐步擴(kuò)展到各種用于描述電子化信息資源屬性的數(shù)據(jù)。目前,“元數(shù)據(jù)”這一術(shù)語廣泛地應(yīng)用于各類信息資源的描述記錄。

元數(shù)據(jù)通常被定義為數(shù)據(jù)的數(shù)據(jù),是用于描述某種數(shù)據(jù)資源的基本信息的結(jié)構(gòu)化數(shù)據(jù)。具體地說,元數(shù)據(jù)是有關(guān)一個(gè)企業(yè)所使用的物理數(shù)據(jù)、技術(shù)和業(yè)務(wù)流程、數(shù)據(jù)規(guī)則和約束,以及數(shù)據(jù)的物理與邏輯結(jié)構(gòu)的信息[2],其目的在于:識(shí)別資源,評(píng)價(jià)資源,追蹤資源在使用過程中的變化,實(shí)現(xiàn)簡單高效地管理大量網(wǎng)絡(luò)化數(shù)據(jù),實(shí)現(xiàn)信息資源的有效發(fā)現(xiàn)、查找、一體化組織與管理[3]。元數(shù)據(jù)主要包括以下 16 個(gè)潛在主題領(lǐng)域(如表1所示)和4種類型(如表2所示),幾乎涵蓋信息系統(tǒng)建設(shè)的各個(gè)方面。

表1 元數(shù)據(jù)可能包含的潛在主題領(lǐng)域

注:筆者根據(jù)參考文獻(xiàn)[2]整理

表2 元數(shù)據(jù)類型、屬性與內(nèi)容

注:筆者根據(jù)參考文獻(xiàn)[2]整理

面對(duì)種類繁多的元數(shù)據(jù),需要實(shí)施有效的元數(shù)據(jù)管理。為此需要建立合理的元數(shù)據(jù)戰(zhàn)略,并通過開展一系列的元數(shù)據(jù)管理活動(dòng)貫徹實(shí)施該戰(zhàn)略。這些元數(shù)據(jù)管理活動(dòng)主要包括理解元數(shù)據(jù)需求、定義元數(shù)據(jù)架構(gòu)、開發(fā)和維護(hù)元數(shù)據(jù)標(biāo)準(zhǔn)、構(gòu)建合理的元數(shù)據(jù)評(píng)估標(biāo)準(zhǔn)等。此外,針對(duì)業(yè)務(wù)元數(shù)據(jù)構(gòu)建各種本體,有利于加強(qiáng)元數(shù)據(jù)管理效能;構(gòu)建合理的元數(shù)據(jù)管理成熟度模型,有利于促進(jìn)元數(shù)據(jù)管理持續(xù)深入的展開[注]本文有關(guān)元數(shù)據(jù)管理的觀點(diǎn),綜合參考了《DAMA 數(shù)據(jù)管理知識(shí)體系指南》[2]和 IBM 公司有關(guān)元數(shù)據(jù)產(chǎn)品的相關(guān)論述。。

(二)主數(shù)據(jù)[注]《DAMA 數(shù)據(jù)管理知識(shí)體系指南》[2]將參考數(shù)據(jù)與主數(shù)據(jù)放在一起討論,限于篇幅本文主要討論主數(shù)據(jù)。 與主數(shù)據(jù)管理

當(dāng)前,主數(shù)據(jù)已經(jīng)被越來越多的 IT 企業(yè)應(yīng)用于其數(shù)據(jù)管理產(chǎn)品或解決方案中,但是盡管如此,人們對(duì)主數(shù)據(jù)仍然缺乏一個(gè)權(quán)威的定義。IBM公司發(fā)布的有關(guān)主數(shù)據(jù)管理的紅皮書MasterDataManangement:RapidDeploymentPackageforMDM認(rèn)為,所謂主數(shù)據(jù)是有關(guān)客戶、供應(yīng)商、產(chǎn)品和賬戶的企業(yè)關(guān)鍵信息;有人將主數(shù)據(jù)定義為“表示‘跟蹤事物狀態(tài)’的數(shù)據(jù)”;也有人認(rèn)為,企業(yè)主數(shù)據(jù)是用來描述企業(yè)核心業(yè)務(wù)實(shí)體的數(shù)據(jù),比如客戶、合作伙伴、員工、產(chǎn)品、物料單、賬戶等,是具有高業(yè)務(wù)價(jià)值的、可以在企業(yè)內(nèi)跨越各個(gè)業(yè)務(wù)部門被重復(fù)使用的數(shù)據(jù),并且存在于多個(gè)異構(gòu)的應(yīng)用系統(tǒng)中;等等。國際數(shù)據(jù)管理協(xié)會(huì)(DAMA)認(rèn)為,主數(shù)據(jù)是關(guān)于關(guān)鍵業(yè)務(wù)實(shí)體的權(quán)威的、最準(zhǔn)確的數(shù)據(jù),可用于建立交易數(shù)據(jù)的關(guān)聯(lián)環(huán)境[1]。

圖4 主數(shù)據(jù)與其他數(shù)據(jù)之間的關(guān)系

這些定義分別從各自不同角度對(duì)主數(shù)據(jù)進(jìn)行了界定,我們根據(jù)這些不同定義做一個(gè)比較全面的概括:所謂主數(shù)據(jù)是指滿足跨部門業(yè)務(wù)協(xié)同需要的、反映核心業(yè)務(wù)實(shí)體狀態(tài)屬性的企業(yè)(組織機(jī)構(gòu))的基礎(chǔ)信息。就企業(yè)數(shù)據(jù)管理來講,主數(shù)據(jù)主要涉及四大主題領(lǐng)域:當(dāng)事人主數(shù)據(jù)、財(cái)務(wù)主數(shù)據(jù)、產(chǎn)品主數(shù)據(jù)、位置主數(shù)據(jù)[1]。

綜合主數(shù)據(jù)的各種概念,我們構(gòu)建一個(gè)業(yè)務(wù)信息系統(tǒng)中有關(guān)主數(shù)據(jù)與其他各類數(shù)據(jù)之間的邏輯關(guān)系,如圖4所示。在圖4中,“業(yè)務(wù)數(shù)據(jù)”被分解為“主數(shù)據(jù)”和“交易數(shù)據(jù)”。在這里,所謂業(yè)務(wù)數(shù)據(jù)是指業(yè)務(wù)實(shí)體完成一項(xiàng)具體行為過程的完整的數(shù)據(jù),所謂交易數(shù)據(jù)是業(yè)務(wù)實(shí)體基于業(yè)務(wù)行為規(guī)則而發(fā)生的具體行為過程數(shù)據(jù)。對(duì)于業(yè)務(wù)數(shù)據(jù)而言,主數(shù)據(jù)是相對(duì)不變的,而交易數(shù)據(jù)是每次都會(huì)變化的。

由于主數(shù)據(jù)涉及眾多主數(shù)據(jù)的產(chǎn)生與應(yīng)用部門,因此為了協(xié)調(diào)和管理與核心業(yè)務(wù)實(shí)體相關(guān)的系統(tǒng)記錄和系統(tǒng)登錄中的數(shù)據(jù)和元數(shù)據(jù),需要加強(qiáng)主數(shù)據(jù)管理,為此需要構(gòu)建一整套用于生成和維護(hù)企業(yè)主數(shù)據(jù)的規(guī)范、技術(shù)和方案,以保證主數(shù)據(jù)的完整性、一致性和準(zhǔn)確性。

(三)大數(shù)據(jù)中的元數(shù)據(jù)、主數(shù)據(jù)

元數(shù)據(jù)和主數(shù)據(jù)之間有著密切的關(guān)系。從概念和邏輯上講,主數(shù)據(jù)(結(jié)構(gòu))屬于元數(shù)據(jù)的一個(gè)子集,是一種特定類型的元數(shù)據(jù)。但是,從產(chǎn)品上講,主數(shù)據(jù)和元數(shù)據(jù)是兩個(gè)完全不同的概念:元數(shù)據(jù)是指表示數(shù)據(jù)的經(jīng)過抽象的相關(guān)信息,比如數(shù)據(jù)定義等;主數(shù)據(jù)是指實(shí)例數(shù)據(jù),比如產(chǎn)品目錄信息等。由于主數(shù)據(jù)對(duì)于業(yè)務(wù)系統(tǒng)建設(shè)具有獨(dú)特地位,因而人們往往將其獨(dú)立出來并單獨(dú)建設(shè)、維護(hù),例如客戶關(guān)系管理系統(tǒng)(CRM)等。另外,無論是主數(shù)據(jù)還是元數(shù)據(jù),都不是系統(tǒng)自行產(chǎn)生的數(shù)據(jù),而是在規(guī)劃建設(shè)信息系統(tǒng)時(shí)從加強(qiáng)業(yè)務(wù)系統(tǒng)管理角度出發(fā)所構(gòu)建的數(shù)據(jù)(庫)。

就常規(guī)的大數(shù)據(jù)信息系統(tǒng)建設(shè)而言,小數(shù)據(jù)(元數(shù)據(jù)、主數(shù)據(jù))為我們認(rèn)識(shí)大數(shù)據(jù)的核心屬性提供了一種有效手段。雖然大數(shù)據(jù)容量可能很大,但經(jīng)過初步分析,我們?nèi)匀豢梢詮闹型诰?、提煉出相關(guān)的小數(shù)據(jù)(元數(shù)據(jù)、主數(shù)據(jù))來。 反過來說,小數(shù)據(jù)雖然數(shù)據(jù)容量較小,但人們卻可以通過小數(shù)據(jù)去認(rèn)識(shí)大數(shù)據(jù)系統(tǒng)中的海量數(shù)據(jù)的基本特征。

三、充分發(fā)揮小數(shù)據(jù)對(duì)于大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要作用

當(dāng)前,以元數(shù)據(jù)、主數(shù)據(jù)為主要內(nèi)容的小數(shù)據(jù)仍然沒有受到人們的重視,小數(shù)據(jù)對(duì)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展所具有的積極作用沒有得到應(yīng)有的發(fā)揮、體現(xiàn)。為此,今后應(yīng)該采取以下措施:

首先,加強(qiáng)研究,深化認(rèn)識(shí)。

人們對(duì)于小數(shù)據(jù)尚缺乏深入研究和深刻認(rèn)識(shí),今后應(yīng)該將小數(shù)據(jù)作為數(shù)據(jù)科學(xué)的重要內(nèi)容,從數(shù)據(jù)屬性、知識(shí)管理、數(shù)據(jù)架構(gòu)等方面對(duì)小數(shù)據(jù)進(jìn)行專題研究。從促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展來看,當(dāng)前有必要基于元數(shù)據(jù)和主數(shù)據(jù)去深化對(duì)小數(shù)據(jù)的科學(xué)屬性的認(rèn)識(shí)。

其次,加強(qiáng)宣傳普及,消除認(rèn)識(shí)誤區(qū)。

近年來,大數(shù)據(jù)產(chǎn)業(yè)的爆發(fā)式增長掩蓋了人們對(duì)于傳統(tǒng)數(shù)據(jù)庫技術(shù)特別是結(jié)構(gòu)化數(shù)據(jù)管理的關(guān)注,并給人造成一種假象,認(rèn)為大數(shù)據(jù)技術(shù)本身就可以解決數(shù)據(jù)處理的一切問題。這種錯(cuò)誤的假象也使得人們?cè)谡J(rèn)識(shí)小數(shù)據(jù)方面出現(xiàn)了上述諸多的混亂。實(shí)際上,盡管非結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)發(fā)展中占據(jù)日益重要的分量,但是作為結(jié)構(gòu)化數(shù)據(jù)(的產(chǎn)物),元數(shù)據(jù)和主數(shù)據(jù)對(duì)于日益增長的大數(shù)據(jù)仍然發(fā)揮著重要的作用,在大數(shù)據(jù)系統(tǒng)建設(shè)中仍然占據(jù)重要地位。

元數(shù)據(jù)和主數(shù)據(jù)要遠(yuǎn)比其他所謂的大數(shù)據(jù)的屬性(如小概率事件、隨機(jī)偏差、噪音或小容量數(shù)據(jù)等)更加科學(xué)、合理,也有助于人們深刻認(rèn)識(shí)大數(shù)據(jù)的基本特征。從技術(shù)上講,從 ISO8000 以及DAMA 數(shù)據(jù)管理知識(shí)體系的構(gòu)建來看,元數(shù)據(jù)和主數(shù)據(jù)都占據(jù)最重要的位置;而從有關(guān)大數(shù)據(jù)處理系統(tǒng)如 Hadoop 等的架構(gòu)設(shè)計(jì)來看,建立數(shù)據(jù)來源的元數(shù)據(jù)、通過數(shù)據(jù)清洗等流程保障大數(shù)據(jù)質(zhì)量,仍然是必不可少的[4]。

為此,為消除人們的認(rèn)識(shí)假象,今后應(yīng)該在有關(guān)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的政策文件、論壇活動(dòng)等方面,突出小數(shù)據(jù)發(fā)展議題;在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展政策、規(guī)劃和重要的信息系統(tǒng)建設(shè)中設(shè)立小數(shù)據(jù)發(fā)展專項(xiàng)。

第三,基于小數(shù)據(jù)建立完善我國的數(shù)據(jù)管理體系,促進(jìn)我國大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展。

近年來我國各級(jí)政府發(fā)布了大量促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的政策文件。但是,這些政策文件著力解決的是如何促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,而對(duì)如何構(gòu)建數(shù)據(jù)管理體系著墨不多。由于沒有建立完善的數(shù)據(jù)管理體系,我國大數(shù)據(jù)產(chǎn)業(yè)普遍存在著數(shù)據(jù)質(zhì)量不高、價(jià)值無法得到高效發(fā)揮等諸多問題。隨著我國大數(shù)據(jù)產(chǎn)業(yè)的深入發(fā)展,這些問題勢(shì)必不斷加劇并嚴(yán)重阻礙我國大數(shù)據(jù)產(chǎn)業(yè)的健康發(fā)展。因此,建立和完善國家數(shù)據(jù)管理體系迫在眉睫。

根據(jù)《DAMA 數(shù)據(jù)管理知識(shí)體系指南》,數(shù)據(jù)管理體系主要包括數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)管理、數(shù)據(jù)開發(fā)、數(shù)據(jù)操作管理、數(shù)據(jù)安全管理、參考數(shù)據(jù)和主數(shù)據(jù)管理、數(shù)據(jù)倉庫和商務(wù)智能管理、文檔和內(nèi)容管理、元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理等10個(gè)數(shù)據(jù)管理職能,其中元數(shù)據(jù)和主數(shù)據(jù)都各自成為一個(gè)獨(dú)立的組成部分,可見小數(shù)據(jù)對(duì)于數(shù)據(jù)管理體系建設(shè)的極端重要性。

建立和完善數(shù)據(jù)管理體系,是保障我國大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展的基礎(chǔ)條件,但這也是一項(xiàng)長期艱巨的任務(wù)。從工作需要出發(fā),當(dāng)前應(yīng)該基于元數(shù)據(jù)和主數(shù)據(jù)管理的理論和方法,構(gòu)建我國電子政務(wù)領(lǐng)域的小數(shù)據(jù)管理體系。具體工作包括:應(yīng)用元數(shù)據(jù)(本體)管理的理論方法,從法律法規(guī)和我國行政管理實(shí)踐出發(fā),構(gòu)建我國的(電子)政務(wù)管理知識(shí)體系;應(yīng)用主數(shù)據(jù)管理的理論方法,構(gòu)建我國的自然資源、微觀與宏觀經(jīng)濟(jì)運(yùn)行管理的基礎(chǔ)數(shù)據(jù)資源管理體系,特別是要以主數(shù)據(jù)管理理論和方法,規(guī)范和完善我國電子政務(wù)基礎(chǔ)數(shù)據(jù)庫建設(shè)。

猜你喜歡
數(shù)據(jù)管理結(jié)構(gòu)化
企業(yè)級(jí)BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實(shí)踐
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
列控?cái)?shù)據(jù)管理平臺(tái)的開發(fā)
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
靖州| 鸡西市| 咸阳市| 福泉市| 北碚区| 定安县| 沈阳市| 乐亭县| 衢州市| 博乐市| 陆川县| 房产| 桂林市| 江山市| 阳信县| 平邑县| 梁平县| 正宁县| 天峻县| 镇原县| 揭西县| 武平县| 托克托县| 赤峰市| 晋江市| 和林格尔县| 阳信县| 徐州市| 凉山| 临桂县| 依兰县| 汉阴县| 莱阳市| 洛浦县| 吉水县| 东宁县| 定陶县| 嘉禾县| 廉江市| 洱源县| 台江县|