国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于高校的數(shù)據(jù)資產(chǎn)管理模型研究

2020-07-27 16:44羅軍鋒張亞娟馮興利
現(xiàn)代信息科技 2020年5期
關鍵詞:數(shù)據(jù)集成數(shù)據(jù)交換數(shù)據(jù)管理

羅軍鋒 張亞娟 馮興利

摘? 要:隨著高校信息化建設的飛速發(fā)展,產(chǎn)生的數(shù)據(jù)量也飛速增長,如何管理和利用這些海量的數(shù)據(jù)成為一個迫切需要面對的問題。數(shù)據(jù)治理是數(shù)據(jù)資產(chǎn)管理中核心組成部門,其對提高數(shù)據(jù)質量、實現(xiàn)數(shù)據(jù)共享、最終實現(xiàn)數(shù)據(jù)價值最大化有重大意義。從數(shù)據(jù)管理中數(shù)據(jù)治理的概念出發(fā),對數(shù)據(jù)治理中的有關技術進行了介紹,在此基礎上提出以數(shù)據(jù)治理為核心的數(shù)據(jù)資產(chǎn)管理模型,最后對高校的數(shù)據(jù)資產(chǎn)管理進行了總結。

關鍵詞:數(shù)據(jù)管理;數(shù)據(jù)規(guī)范;數(shù)據(jù)清洗;數(shù)據(jù)交換;數(shù)據(jù)集成

中圖分類號:TP311.5? ? ? 文獻標識碼:A 文章編號:2096-4706(2020)05-0108-04

Research on Data Asset Management Model Based on Universities

LUO Junfeng,ZHANG Yajuan,F(xiàn)ENG Xingli

(Network Information Center of Xian Jiaotong University,Xian? 710049,China)

Abstract:With the rapid development of university information construction,the amount of data produced is also growing rapidly. How to manage and utilize these massive data has become an urgent problem. Data governance is the core component of data asset management,which is of great significance to improve data quality,realize data sharing and ultimately realize data value maximization. Starting from the concept of data governance in data management,this paper introduces the related technologies in data governance,on this basis,puts forward the data asset management model with data governance as the core,and finally summarizes the data asset management in universities.

Keywords:data management;data specification;data cleaning;data exchange;data integration

0? 引? 言

隨著高校信息化建設的深入發(fā)展,尤其是數(shù)字校園三大平臺(統(tǒng)一數(shù)據(jù)平臺、統(tǒng)一門戶平臺和統(tǒng)一認證平臺)的建設,數(shù)據(jù)方面的建設和管理越來越得到關注和重視,同時在這一過程中也產(chǎn)生了諸多的問題和困擾,比如如何對數(shù)據(jù)資產(chǎn)進行有效的管理、數(shù)據(jù)未來的建設方向和路徑是什么等,為解決這些問題,亟需對數(shù)據(jù)的建設和發(fā)展進行一次梳理和探討,并提出一個具有現(xiàn)實意義的框架模型。在此模型的基礎上一窺智慧校園的發(fā)展路徑。

大多數(shù)人都容易混淆數(shù)據(jù)管理與數(shù)據(jù)治理這兩個概念,因為本身兩者就容易混淆。二者從本質上雖然是兩個完全不同的活動,但是存在一定的聯(lián)系。

在數(shù)據(jù)管理知識體系(DMBOK)中,所謂的數(shù)據(jù)治理是數(shù)據(jù)管理的重要組成部分。從字面意思上看,數(shù)據(jù)治理相對容易理解,它就是明確數(shù)據(jù)管理中的角色定位、工作責任和具體工作流程的,確保數(shù)據(jù)資產(chǎn)能夠長期被有序地、可持續(xù)地管理。而數(shù)據(jù)管理這個定義相對寬泛,與數(shù)據(jù)采集、應用等過程中所有這些數(shù)據(jù)處理中可重復流程的各個方面都密不可分、息息相關。對數(shù)據(jù)治理的深入研究與分析也就對數(shù)據(jù)資產(chǎn)的管理研究進行了研究與分析,因此本文將從數(shù)據(jù)治理入手開始進行數(shù)據(jù)資產(chǎn)管理模型的研究。

1? 研究現(xiàn)狀

IBM對于數(shù)據(jù)治理的定義是,數(shù)據(jù)治理是一種質量控制規(guī)程,用于在管理、使用、改進和保護組織信息的過程中添加新的嚴謹性和紀律性[1]。從這個定義中可以得出,數(shù)據(jù)治理的目的就在于提高數(shù)據(jù)的質量,以獲取數(shù)據(jù)的最大價值,具體包括[1]:(1)構筑靈活、標準、模塊化的多源異構的數(shù)據(jù)資源接入體系;(2)建設規(guī)范化、流程化、智能化的數(shù)據(jù)處理體系;(3)構建統(tǒng)一調度、精準服務、安全可用的數(shù)據(jù)共享使用體系。

國內(nèi)高校信息化水平經(jīng)過數(shù)十年的建設和發(fā)展,可以說已經(jīng)進入智慧校園階段。國家市場監(jiān)督管理總局和國家標準化管理委員會于2018年6月發(fā)布了《智慧校園總體框架》這一國家標準[2],用來指導高校數(shù)據(jù)治理工作,其中明確提出以“用數(shù)據(jù)說話、用數(shù)據(jù)決策、用數(shù)據(jù)管理、用數(shù)據(jù)創(chuàng)新”作為數(shù)據(jù)治理的目標,對各個學校產(chǎn)生的業(yè)務域數(shù)據(jù)進行治理,著重解決信息化建設過程中長期存在的“數(shù)據(jù)不規(guī)范、不統(tǒng)一、不準確、共享難”的問題。

國內(nèi)學者也對各高校數(shù)據(jù)治理進行了不少探索。許曉東將數(shù)據(jù)治理的過程分為數(shù)據(jù)的獲取和抽取、整合分析、解釋預測三個階段[3]。李勇軍等介紹了上海海洋大學的數(shù)據(jù)治理經(jīng)驗以及數(shù)據(jù)治理體系框架架構[4]。王洪宇提出從數(shù)據(jù)管理、治理技術、治理的組織架構三個緯度出發(fā),將數(shù)據(jù)治理融入業(yè)務梳理、行政管理中,構建了數(shù)據(jù)治理的綜合工程[5]。

本文首先介紹了數(shù)據(jù)治理的相關關鍵技術,之后提出一種適用于高校的數(shù)據(jù)治理模型,最后介紹了該模型的應用和對數(shù)據(jù)治理的展望。

2? 數(shù)據(jù)治理中涉及的主要技術

數(shù)據(jù)治理中涉及到的技術就是在數(shù)據(jù)治理的過程中所用到的有關技術、工具,其中主要包括有數(shù)據(jù)標準化、數(shù)據(jù)清洗、數(shù)據(jù)交換和數(shù)據(jù)集成這4種技術。

2.1? 數(shù)據(jù)標準化

數(shù)據(jù)的標準化主要包括數(shù)據(jù)代碼的標準規(guī)范、數(shù)據(jù)格式的統(tǒng)一等。其主要目的是為了提高數(shù)據(jù)的通用性、交換性和共享性。所以,在建立數(shù)據(jù)標準化規(guī)范時要具有通用性,遵循行業(yè)的或者國家的標準。數(shù)據(jù)的標準化方法主要有規(guī)則處理引擎和標準代碼映射[6]。

2.1.1? 標準處理引擎

數(shù)據(jù)治理通過引入的元數(shù)據(jù)工具,依照制定好的數(shù)據(jù)標準化規(guī)范制定好元數(shù)據(jù)規(guī)則進行標準化處理,具體處理的邏輯包括數(shù)據(jù)的轉換、數(shù)據(jù)的校驗、數(shù)據(jù)的賦值等等。通過元數(shù)據(jù)處理引擎,利用數(shù)據(jù)自動對標技術,對數(shù)據(jù)字段進行認知和識別,解決數(shù)據(jù)不規(guī)范的問題。

如經(jīng)典的日期規(guī)則的定義,一般的規(guī)則如下:

稽核規(guī)則:YYYY-MM-DDD;

取值規(guī)則:1900

需要強調的是,規(guī)則可以多層次迭代,形成規(guī)則鏈;也可以多種規(guī)則進行組合來形成規(guī)則組合等等,足以支持對各種數(shù)據(jù)的處理。

2.1.2? 標準代碼映射

標準代碼映射是常用的數(shù)據(jù)標準化處理方式,是基于國家、行業(yè)、教育部等標準代碼來構建。例如,我們將表示民族“漢族”的字段都轉換成“漢族”這種統(tǒng)一的表示方式,可以構建一個數(shù)據(jù)映射字典,具體如下:

“漢族”. {

“漢族” => “漢族”,

“漢” => “漢族”,

“han” => “漢族”,

“1” => “漢族” ...

}

使用數(shù)據(jù)轉換規(guī)則時查找該數(shù)據(jù)映射字典,將所有民族統(tǒng)一成一種表示方式。

以上兩種方式都可以在元數(shù)據(jù)管理平臺定義構建,從而可以形成規(guī)范化的處理模式和數(shù)據(jù)標準,從而在后續(xù)的數(shù)據(jù)治理中嚴格執(zhí)行改規(guī)范標準。

2.2? 數(shù)據(jù)清洗

通俗地說,數(shù)據(jù)清洗的目的就是對數(shù)據(jù)中存在問題的數(shù)據(jù)也就是一般說的“臟”數(shù)據(jù)進行識別,然后再盡可能就行修復。這些“臟”數(shù)據(jù)主要包括數(shù)據(jù)值錯誤、數(shù)據(jù)不完整、數(shù)據(jù)重復或者相似。對不同的“臟”數(shù)據(jù),也就是不同的數(shù)據(jù)質量問題,數(shù)據(jù)清洗的辦法也不盡相同。數(shù)據(jù)清洗一般包括數(shù)據(jù)的過濾、剔重、類型轉換、編碼映射、拆分與合并、維度轉換等具體方法或策略。

表1就體現(xiàn)了針對不同的數(shù)據(jù)質量問題會有不同的清洗策略。

一般來說,數(shù)據(jù)清洗主要是針對源數(shù)據(jù)庫中的不完整、二義性、數(shù)據(jù)重復、違反規(guī)則等問題的數(shù)據(jù)進行統(tǒng)一的處理,具體處理包括:Null處理、格式轉換、類型轉換等。在數(shù)據(jù)的清洗之前首先需要做數(shù)據(jù)的質量分析,以便找到存在問題的數(shù)據(jù),數(shù)據(jù)質量一般表現(xiàn)在以下幾個方面:(1)正確性:數(shù)據(jù)是否客觀真實地表示了現(xiàn)實或可證實的來源;(2)完整性:完整性是否存在或一致;(3)一致性:數(shù)據(jù)是否被一致地定義;(4)完備性:是否所有的數(shù)據(jù)都存在;(5)有效性:數(shù)據(jù)是否在定義的可接受范圍之內(nèi);(6)時效性:數(shù)據(jù)在需要的時候是否仍然有效;(7)可獲取性:數(shù)據(jù)是否易于獲取、理解和使用。

2.3? 數(shù)據(jù)交換

數(shù)據(jù)交換是將一種源模式的數(shù)據(jù)轉換為符合目標模式數(shù)據(jù)的問題。常見的數(shù)據(jù)交換的實現(xiàn)模式主要包括標準化交換和協(xié)議式交換。

所謂的標準化數(shù)據(jù)交換是指事先建立一個統(tǒng)一的標準,這個標準要求能夠供數(shù)據(jù)使用的各方共同使用數(shù)據(jù),從而實現(xiàn)數(shù)據(jù)的共享要求。這種模式的優(yōu)點就是可以跨平臺使用,有較高的通用性。

所謂的協(xié)議式交換是源系統(tǒng)和目標系統(tǒng)之間預先定義好數(shù)據(jù)使用的各項協(xié)議,然后將源數(shù)據(jù)庫的數(shù)據(jù)移植到目標數(shù)據(jù)庫來完成數(shù)據(jù)交換[6]。這種交換模式的優(yōu)點在于:它無需對底層數(shù)據(jù)庫的應用邏輯和數(shù)據(jù)結構做任何改變,可以直接用于數(shù)據(jù)訪問層開發(fā)。缺點就是對于開發(fā)人員要求很高,需要對數(shù)據(jù)庫的底層設計有清楚的了解。

標準化數(shù)據(jù)交換是指通過雙方都認可的方法作為統(tǒng)一的標準,來進行數(shù)據(jù)共享與交換。

2.4? 數(shù)據(jù)集成

數(shù)據(jù)集成技術[6]是通過一定的技術將分布的、異構的、自治的數(shù)據(jù)集成起來,以便用戶可以透明地訪問。其重點包括:數(shù)據(jù)的標準化、元數(shù)據(jù)中心的建立。前面已經(jīng)介紹了數(shù)據(jù)標準化,下面介紹一下元數(shù)據(jù)中心。

元數(shù)據(jù)中心就是元數(shù)據(jù)在統(tǒng)一數(shù)據(jù)標準的基礎上,對目標數(shù)據(jù)進行抽取、轉換、儲存,實現(xiàn)對目標數(shù)據(jù)的整合?;玖鞒倘鐖D1所示。

3? 數(shù)據(jù)治理質量

數(shù)據(jù)質量管理實現(xiàn)對數(shù)據(jù)質量的監(jiān)督,一般流程如圖2所示,具體包括核查規(guī)則的指定,數(shù)據(jù)核檢任務的配置、執(zhí)行直到最終核檢報告的生成。數(shù)據(jù)質量規(guī)則體系的構建是最重要的環(huán)節(jié),只有在對數(shù)據(jù)質量已經(jīng)建立好的規(guī)則體系上,才能做到對數(shù)據(jù)質量監(jiān)控中的任務進行有效的監(jiān)督與管理、數(shù)據(jù)質量中的調度和規(guī)則執(zhí)行體系才能發(fā)揮作用。數(shù)據(jù)質量的管理最終目標是保障數(shù)據(jù)的質量符合數(shù)據(jù)使用的要求。為了這個目標,根據(jù)定義好的管理流程、管理制度,對各個業(yè)務系統(tǒng)進行數(shù)據(jù)的全周期監(jiān)管與檢查,以數(shù)據(jù)質量分析報告為載體,展現(xiàn)數(shù)據(jù)治理質量的問題、提出下一步質量整改的方向,最終完成數(shù)據(jù)質量生命周期管理全過程。

4? 數(shù)據(jù)資產(chǎn)管理框架

本文提出的數(shù)據(jù)資產(chǎn)管理平臺是數(shù)據(jù)資產(chǎn)方面的一種普適架構,當與各個高校的實際業(yè)務相對接,可以輕松實現(xiàn)高校的數(shù)據(jù)從采集到數(shù)據(jù)治理、監(jiān)控和服務等功能,具有較好的可擴展性和兼容性。如圖3所示。

整個平臺架構按照數(shù)據(jù)流向,從下而上按邏輯劃分為六層:數(shù)據(jù)源層、數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)治理層、全息數(shù)據(jù)庫、數(shù)據(jù)應用層、數(shù)據(jù)服務層,對應由六個系統(tǒng)(平臺)支撐,為上層應用提供數(shù)據(jù)支撐服務。此外,還有數(shù)據(jù)治理體系、標準規(guī)范體系和數(shù)據(jù)資產(chǎn)安全管理體系為打造高校數(shù)據(jù)生態(tài)系統(tǒng)提供有效的機制保障。

(1)數(shù)據(jù)源層由數(shù)據(jù)源管理系統(tǒng)支撐,負責數(shù)據(jù)來源定義,通過底層技術實現(xiàn)外部系統(tǒng)接入數(shù)據(jù)源頭。其中,數(shù)據(jù)源接入方式支持結構化通用DB數(shù)據(jù)源、非結構化/半結構化數(shù)據(jù)源以及多種協(xié)議與數(shù)據(jù)源通信API接口等;(2)數(shù)據(jù)采集層由數(shù)據(jù)采集系統(tǒng)支撐,是分布式架構,通過云節(jié)點來完成數(shù)據(jù)的采集和下發(fā);(3)數(shù)據(jù)處理層由數(shù)據(jù)融合系統(tǒng)支撐,負責針對采集的數(shù)據(jù)進行數(shù)據(jù)清洗處理,包括常用的格式標準化轉換、敏感數(shù)據(jù)的脫敏與加密、數(shù)據(jù)過濾與去重等;(4)數(shù)據(jù)治理層主要作用是使用元數(shù)據(jù)、血緣管理等工具,對數(shù)據(jù)資源,數(shù)據(jù)質量進行定義、監(jiān)督、管理,以形成準確、規(guī)范的全息數(shù)據(jù)庫。(5)全息數(shù)據(jù)庫由數(shù)據(jù)資源管理平臺支撐,將所有采集的數(shù)據(jù)統(tǒng)一匯聚并存儲,針對數(shù)據(jù)不同來源、用途、統(tǒng)計維度進行合理的拆分并存儲,為大數(shù)據(jù)分析做準備;(6)數(shù)據(jù)應用層由數(shù)據(jù)分析平臺支撐,負責與數(shù)據(jù)中心數(shù)據(jù)進行通信,滿足上層數(shù)據(jù)服務層的業(yè)務服務需要,針對不同行業(yè)、不同數(shù)據(jù)進行分析挖掘,形成有價值的數(shù)據(jù)視圖;(7)數(shù)據(jù)服務層由數(shù)據(jù)服務平臺支撐,是平臺中實現(xiàn)數(shù)據(jù)資源資產(chǎn)化的核心系統(tǒng),將數(shù)據(jù)資源以數(shù)據(jù)服務的方式提供給需求方,同時也是實現(xiàn)應用系統(tǒng)數(shù)據(jù)共享的組件,所有應用系統(tǒng)交互的統(tǒng)一接口,所有數(shù)據(jù)需求放獲取數(shù)據(jù)資源服務的統(tǒng)一入口;(8)標準規(guī)范體系保障平臺中數(shù)據(jù)的標準化,包括元數(shù)據(jù)標準、主數(shù)據(jù)標準、數(shù)據(jù)字典等數(shù)據(jù)標準以及數(shù)據(jù)管理的標準等;(9)數(shù)據(jù)資產(chǎn)安全管理體系保障平臺中所有數(shù)據(jù)資產(chǎn)的安全,包括數(shù)據(jù)傳輸安全、存儲安全、使用安全等;(10)數(shù)據(jù)治理體系保障數(shù)據(jù)資產(chǎn)管理平臺中數(shù)據(jù)的質量持續(xù)改進,包括數(shù)據(jù)標準執(zhí)行情況、數(shù)據(jù)庫優(yōu)化情況等。

5? 數(shù)據(jù)資產(chǎn)管理框架的實踐

我校自2018年開始進行數(shù)據(jù)治理方面的探索,經(jīng)過一年多的探索和努力,目前以完成學校數(shù)據(jù)資產(chǎn)的初步治理。在實踐過程中,該框架能夠支撐學校教學、科研、學工等方面對數(shù)據(jù)的不同需求,初步實現(xiàn)了數(shù)據(jù)橫向貫通、縱向互聯(lián)。

我校數(shù)據(jù)資產(chǎn)管理平臺整體架構分為如下層次:(1)數(shù)據(jù)源層:考慮到我校現(xiàn)狀,目前主要有各個業(yè)務系統(tǒng)的數(shù)據(jù)庫構成,如本科教務數(shù)據(jù)庫、人事數(shù)據(jù)庫等等;(2)數(shù)據(jù)處理層:由數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)處理等子層構成,采用統(tǒng)一的數(shù)據(jù)交換工具實現(xiàn);(3)數(shù)據(jù)應用服務層:我們將數(shù)據(jù)應用和服務層合并,構建統(tǒng)一的應用服務平臺,提供統(tǒng)一的數(shù)據(jù)使用服務接口;(4)標準規(guī)范體系:以元數(shù)據(jù)標準、主數(shù)據(jù)標準、數(shù)據(jù)字典等數(shù)據(jù)標準體系為支撐對數(shù)據(jù)進行規(guī)范;(5)安全管理體系:保障數(shù)據(jù)的傳輸安全、存儲安全、使用安全等。

從上面介紹可以看出,該框架和通用架構的主要區(qū)別是,結合我校實際情況,將圖3中的全息數(shù)據(jù)庫、數(shù)據(jù)治理合并到數(shù)據(jù)處理層,因為都是為了數(shù)據(jù)的處理,這樣做的好處就是采用統(tǒng)一的工具實現(xiàn)數(shù)據(jù)的采集、清洗、交換、存儲;將數(shù)據(jù)應用層和數(shù)據(jù)服務層合并,構建一體化的、統(tǒng)一的數(shù)據(jù)服務接口。

6? 結? 論

在這個大數(shù)據(jù)的時代,高校數(shù)據(jù)資產(chǎn)管理是一項長期的系統(tǒng)工程,需要高校信息化主管部門做好頂層設計,制定數(shù)據(jù)管理長期發(fā)展戰(zhàn)略方針,調動各個業(yè)務部門的積極性和創(chuàng)造性,依靠科學先進的技術手段和技術工具,確保數(shù)據(jù)的質量、安全和可用,充分發(fā)揮數(shù)據(jù)的最大價值,以支持高校人才培養(yǎng)、科學研究、管理水平更上一層樓。

參考文獻:

[1] 吳信東,董丙冰,堵新政,等.數(shù)據(jù)治理技術 [J].軟件學報,2019,30(9):2830-2856.

[2] 全國信息技術標準化技術委員會.智慧校園總體框架:GB/T 36342-2018 [S].北京:中國標準出版社,2018.

[3] 許曉東,王錦華,卞良,等.高等教育的數(shù)據(jù)治理研究 [J].高等工程教育研究,2015(5):25-30.

[4] 李勇軍,彭琳,林成,等.大數(shù)據(jù)治理在高校信息化管理中的探究 [J].中國管理信息化,2016,19(3):185-187.

[5] 王宏宇,陳冬梅.行政院校系統(tǒng)信息化建設中的數(shù)據(jù)治理淺析 [J].遼寧行政學院學報,2017(4):92-96.

[6] 吳信東,董丙冰,堵新政,等.數(shù)據(jù)治理技術 [J].軟件學報,2019,30(9):2830-2856.

作者簡介:羅軍鋒(1976.10-),男,漢族,陜西澄城人,高級工程師,碩士,研究方向:數(shù)據(jù)挖掘、高校信息化。

猜你喜歡
數(shù)據(jù)集成數(shù)據(jù)交換數(shù)據(jù)管理
《大數(shù)據(jù)管理》課程思政教學質量評價體系研究
如何有效開展DCMM數(shù)據(jù)管理成熟度評估
數(shù)據(jù)挖掘在學生成績數(shù)據(jù)管理中的應用研究
數(shù)據(jù)挖掘在學生成績數(shù)據(jù)管理中的應用研究
XBRL在財務報表網(wǎng)絡數(shù)據(jù)交換中的應用
成本與制造數(shù)據(jù)集成分析
基于Biztalk的異構醫(yī)療信息系統(tǒng)數(shù)據(jù)集成研究
信息系統(tǒng)集成與數(shù)據(jù)集成策略研究
基于數(shù)據(jù)集成的水上項目國家隊數(shù)據(jù)庫網(wǎng)絡管理平臺的設計與開發(fā)