国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校數(shù)據(jù)質(zhì)量管理技術(shù)研究與實(shí)踐

2019-11-15 03:13:07樊建永劉洋
衛(wèi)星電視與寬帶多媒體 2019年12期
關(guān)鍵詞:數(shù)據(jù)質(zhì)量數(shù)據(jù)管理教育信息化

樊建永 劉洋

【摘要】本文通過對(duì)高校數(shù)據(jù)管理過程的梳理,提出高校數(shù)據(jù)質(zhì)量管理的方法、步驟及主要技術(shù)框架,并對(duì)數(shù)據(jù)質(zhì)量管理過程中的數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理等問題進(jìn)行研究與實(shí)踐,將數(shù)據(jù)管理從單純的技術(shù)操作層擴(kuò)展到技術(shù)、業(yè)務(wù)、管理相結(jié)合的復(fù)合模式,讓數(shù)據(jù)更好的支撐學(xué)校各部門的教學(xué)管理,從而提高管理水平和工作效率。

【關(guān)鍵詞】數(shù)據(jù)質(zhì)量;數(shù)據(jù)管理;教育信息化

目前高校信息化已得到長(zhǎng)足發(fā)展,數(shù)據(jù)中心已積累了大量的教學(xué)、科研、管理等數(shù)據(jù),然而數(shù)據(jù)的質(zhì)量參差不齊,數(shù)據(jù)的共享大部分也僅限于主數(shù)據(jù)的交換,數(shù)據(jù)的可用性并不高,因此通過數(shù)據(jù)管理系統(tǒng),將數(shù)據(jù)質(zhì)量管理從單純的技術(shù)操作層面擴(kuò)展到“技術(shù)+業(yè)務(wù)+管理”的復(fù)合模式,將數(shù)據(jù)質(zhì)量管理的參與者從信息管理部門推廣到全校各業(yè)務(wù)部門,實(shí)現(xiàn)數(shù)據(jù)的全生命周期管理。對(duì)于數(shù)據(jù)管理部門,通過數(shù)據(jù)質(zhì)量管理系統(tǒng)能夠以全局視角觀察數(shù)據(jù)在其產(chǎn)生、流通、留存、使用、變化和歸檔過程中的狀態(tài),另外可以查看各部門在數(shù)據(jù)使用、維護(hù)、變更過程中的參與程度和狀態(tài)反饋,不僅對(duì)數(shù)據(jù)的質(zhì)量、數(shù)量、更新頻度及規(guī)范性進(jìn)行方便的管理,還能高效安全的將數(shù)據(jù)提供給用戶,服務(wù)于一站式門戶、數(shù)據(jù)填報(bào)、決策支持等綜合性業(yè)務(wù)管理,充分發(fā)揮數(shù)據(jù)的價(jià)值。

數(shù)據(jù)質(zhì)量管理流程主要包括數(shù)據(jù)調(diào)研、數(shù)據(jù)標(biāo)準(zhǔn)制定、數(shù)據(jù)識(shí)別、數(shù)據(jù)采集、質(zhì)量檢查、清洗轉(zhuǎn)換和標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)幾個(gè)步驟,如圖1所示。

1. 數(shù)據(jù)標(biāo)準(zhǔn)制定

數(shù)據(jù)標(biāo)準(zhǔn)的制定,以業(yè)務(wù)分類和業(yè)務(wù)規(guī)范為指導(dǎo),以符合學(xué)校管理和業(yè)務(wù)模式為原則,引入學(xué)校正在使用的代碼實(shí)際標(biāo)準(zhǔn),盡量減少對(duì)原有業(yè)務(wù)系統(tǒng)及管理過程的影響。最終生成的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)按照標(biāo)準(zhǔn)規(guī)范進(jìn)行數(shù)據(jù)分類和數(shù)據(jù)模型定義,并進(jìn)行統(tǒng)一的管理。

數(shù)據(jù)標(biāo)準(zhǔn)制定包括數(shù)據(jù)標(biāo)準(zhǔn)的編制、審查、發(fā)布三部分。數(shù)據(jù)標(biāo)準(zhǔn)管理部門將數(shù)據(jù)標(biāo)準(zhǔn)通過數(shù)據(jù)管理平臺(tái)發(fā)布展示,并將發(fā)布后的數(shù)據(jù)標(biāo)準(zhǔn)、版本說(shuō)明保存?zhèn)浒?。?duì)數(shù)據(jù)標(biāo)準(zhǔn)的變更將及時(shí)更新至數(shù)據(jù)標(biāo)準(zhǔn)管理平臺(tái)。

按照教育部頒布的教育管理數(shù)據(jù)標(biāo)準(zhǔn)的要求,在高校管理信息的基本體系結(jié)構(gòu)、數(shù)據(jù)元素的元數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,還需做以下幾個(gè)方面的優(yōu)化,第一表結(jié)構(gòu)優(yōu)化,需要結(jié)合學(xué)校實(shí)際數(shù)據(jù)使用場(chǎng)景進(jìn)行表結(jié)構(gòu)的優(yōu)化。第二對(duì)擴(kuò)展命名的規(guī)范,例如部標(biāo)中定義的數(shù)據(jù)對(duì)象包含表、字段、代碼集,校標(biāo)需要在此基礎(chǔ)上擴(kuò)展數(shù)據(jù)開發(fā)、過程管理、接口管理等命名規(guī)范。第三代碼集優(yōu)化,校標(biāo)在部標(biāo)代碼集的基礎(chǔ)上需要擴(kuò)展學(xué)校相關(guān)屬性的代碼表。第四新標(biāo)準(zhǔn)補(bǔ)充,因?yàn)椴繕?biāo)是通適性的規(guī)范,因此需要在部標(biāo)的基礎(chǔ)上擴(kuò)展學(xué)校特有的標(biāo)準(zhǔn)內(nèi)容。

在數(shù)據(jù)標(biāo)準(zhǔn)制定的過程中,數(shù)據(jù)生產(chǎn)部門參與數(shù)據(jù)標(biāo)準(zhǔn)的收集和整理工作,并按照協(xié)商一致的原則形成數(shù)據(jù)標(biāo)準(zhǔn)初稿。在對(duì)數(shù)據(jù)標(biāo)準(zhǔn)初稿進(jìn)行討論完善后,形成數(shù)據(jù)標(biāo)準(zhǔn)送審稿提交給學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)管理部門,經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)管理決策者的討論審核后,由學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)管理部門再次進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的修改完善,最終完成數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)布。

最終形成的數(shù)據(jù)標(biāo)準(zhǔn)體系內(nèi)容應(yīng)包括元數(shù)據(jù)標(biāo)準(zhǔn)、代碼標(biāo)準(zhǔn)、編碼規(guī)范(如學(xué)號(hào)、工號(hào)、房間號(hào)、部門編號(hào)等編制規(guī)則)和對(duì)象命名規(guī)范(如表、字段、接口、文檔等統(tǒng)一命名規(guī)則)。

2. 數(shù)據(jù)的采集

根據(jù)高校當(dāng)前的數(shù)據(jù)現(xiàn)狀,大部分業(yè)務(wù)數(shù)據(jù)已完成了數(shù)據(jù)歸集,還有部分業(yè)務(wù)數(shù)據(jù)需要從數(shù)據(jù)生產(chǎn)部門收集,對(duì)于批量的數(shù)據(jù)集成可以直接通過ETL工具將全量業(yè)務(wù)數(shù)據(jù)采集到預(yù)處理數(shù)據(jù)庫(kù)。

對(duì)于網(wǎng)絡(luò)設(shè)備、安全設(shè)備以及服務(wù)器產(chǎn)生的日志數(shù)據(jù),采用FTP方式將日志文件推送到日志服務(wù)器;對(duì)于其他非結(jié)構(gòu)化數(shù)據(jù)以HBASE數(shù)據(jù)庫(kù)或者以HDFS文件的方式存放。除了在線的信息系統(tǒng)數(shù)據(jù)外,對(duì)于線下的電子表格數(shù)據(jù),采用工具導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。對(duì)于圖像數(shù)據(jù)以BLOB大字段的形式存放在關(guān)系型數(shù)據(jù)庫(kù)或者分布式數(shù)據(jù)庫(kù)中,也可以直接通過ETL工具采集到HDFS中進(jìn)行存儲(chǔ)。

數(shù)據(jù)采集過程主要包括以下幾個(gè)步驟,第一識(shí)別有效數(shù)據(jù),通過數(shù)據(jù)字典的指引,對(duì)原始數(shù)據(jù)進(jìn)行識(shí)別理解,從中甄別出有效的數(shù)據(jù)(即數(shù)據(jù)標(biāo)準(zhǔn)所對(duì)應(yīng)的數(shù)據(jù)范圍),并進(jìn)行相應(yīng)的標(biāo)注,例如是否主數(shù)據(jù)、是否關(guān)鍵過程數(shù)據(jù)、備注等。第二數(shù)據(jù)采集映射,數(shù)據(jù)識(shí)別完成后,即通過配置ETL轉(zhuǎn)換,將數(shù)據(jù)從源庫(kù)加載到目標(biāo)庫(kù)。除了需要記錄表與表之間的映射關(guān)系外,還需要進(jìn)一步記錄字段與字段之間的映射關(guān)系。第三元數(shù)據(jù)標(biāo)識(shí)過程,主要是建立元數(shù)據(jù)模型,并對(duì)模型數(shù)據(jù)進(jìn)行初始化。

3. 數(shù)據(jù)質(zhì)量核查

數(shù)據(jù)質(zhì)量核查是數(shù)據(jù)采集識(shí)別后的關(guān)鍵步驟。數(shù)據(jù)質(zhì)量核查主要包括三部分,第一配置質(zhì)量檢測(cè)規(guī)則,并將質(zhì)量規(guī)則綁定到對(duì)應(yīng)字段上,一個(gè)字段可以同時(shí)綁定多個(gè)規(guī)則;第二執(zhí)行數(shù)據(jù)質(zhì)量檢查;第三輸出質(zhì)量檢核報(bào)告。

3.1 設(shè)置質(zhì)量規(guī)則

在進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)前,配置數(shù)據(jù)質(zhì)量檢測(cè)指標(biāo)、檢測(cè)規(guī)則(分為值域正確性、枚舉正確性、正則匹配性、關(guān)聯(lián)一致性),配置規(guī)則應(yīng)與學(xué)校業(yè)務(wù)系統(tǒng)要求相對(duì)應(yīng),并由業(yè)務(wù)部門進(jìn)行逐項(xiàng)確認(rèn)。

3.2 綁定字段

在設(shè)置了數(shù)據(jù)質(zhì)量檢驗(yàn)規(guī)則后,將相應(yīng)的字段和規(guī)則進(jìn)行綁定,然后按照規(guī)則選擇數(shù)據(jù)字段進(jìn)行規(guī)則檢驗(yàn)。比如,年齡字段需要綁定對(duì)應(yīng)的值域規(guī)則(0-100),電話號(hào)碼、電子郵件字段需要綁定相應(yīng)正則規(guī)則等。

3.3 輸出質(zhì)量報(bào)告

全面及時(shí)發(fā)現(xiàn)已有數(shù)據(jù)的質(zhì)量問題是數(shù)據(jù)后期治理的重要依據(jù),數(shù)據(jù)質(zhì)量報(bào)告應(yīng)考慮完整性、唯一性、一致性、準(zhǔn)確性、合法性、及時(shí)性等因素。通過數(shù)據(jù)質(zhì)量規(guī)則定義,結(jié)合數(shù)據(jù)質(zhì)量報(bào)告,可以深度挖掘當(dāng)前數(shù)據(jù)質(zhì)量存在的問題及所需改進(jìn)的部分,并按照數(shù)據(jù)管理手段督促相應(yīng)的業(yè)務(wù)部門對(duì)源數(shù)據(jù)進(jìn)行修改。

數(shù)據(jù)質(zhì)量檢測(cè)完成后,還需要對(duì)系統(tǒng)中的數(shù)據(jù)質(zhì)量問題進(jìn)行統(tǒng)計(jì)分析和預(yù)警,管理人員可以查看檢測(cè)報(bào)告的詳情。檢測(cè)報(bào)告支持圖形化展現(xiàn),并支持多維度動(dòng)態(tài)鉆取,同時(shí)支持?jǐn)?shù)據(jù)導(dǎo)出功能。此外還可以設(shè)置郵件及短信提醒功能,從而將自動(dòng)生成的數(shù)據(jù)質(zhì)量報(bào)告以郵件方式發(fā)送到指定人員,方便其及時(shí)對(duì)數(shù)據(jù)問題進(jìn)行修正。

4. 數(shù)據(jù)清洗轉(zhuǎn)換

對(duì)于源系統(tǒng)中數(shù)據(jù)存在的質(zhì)量問題,可以通過數(shù)據(jù)清洗轉(zhuǎn)換方式進(jìn)行數(shù)據(jù)質(zhì)量提升,主要包括以下幾個(gè)步驟:

4.1 預(yù)處理規(guī)范定義

為了保證數(shù)據(jù)預(yù)處理過程的有效性,根據(jù)制定的數(shù)據(jù)標(biāo)準(zhǔn),可對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、數(shù)據(jù)標(biāo)簽化等。

4.2 數(shù)據(jù)審核

數(shù)據(jù)審核的內(nèi)容主要包括以下幾個(gè)方面:

4.2.1 完整性審核。檢查應(yīng)調(diào)研的部門是否有遺漏,所有的調(diào)研項(xiàng)或指標(biāo)是否完備齊全。

4.2.2 準(zhǔn)確性審核。從數(shù)據(jù)的真實(shí)性與精確性角度檢查數(shù)據(jù),重點(diǎn)是檢查調(diào)研過程中所發(fā)生的誤差。

4.2.3 適用性審核。根據(jù)數(shù)據(jù)的用途,檢查數(shù)據(jù)的有效性和相關(guān)性。具體包括數(shù)據(jù)與分析主題、與目標(biāo)總體的界定、與調(diào)查項(xiàng)目的解釋等是否匹配。

4.2.4 及時(shí)性核查。檢查數(shù)據(jù)是否按照規(guī)定時(shí)間報(bào)送,如未按規(guī)定時(shí)間報(bào)送,就需要檢查未及時(shí)報(bào)送的原因。

4.2.5 一致性核查。檢查數(shù)據(jù)在不同業(yè)務(wù)系統(tǒng)、不同時(shí)間段是否一致。

4.3 數(shù)據(jù)篩選

在數(shù)據(jù)審核完成后,對(duì)審核過程中發(fā)現(xiàn)的錯(cuò)誤應(yīng)盡可能予以糾正。如果有數(shù)據(jù)不符合標(biāo)準(zhǔn)要求且又無(wú)法改正時(shí),應(yīng)需要對(duì)數(shù)據(jù)進(jìn)行篩選。數(shù)據(jù)篩選一方面是將某些不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù)予以剔除,另一方面是將符合某種特定條件的數(shù)據(jù)篩選出來(lái)。

4.4 數(shù)據(jù)集成

不同的數(shù)據(jù)源通過ETL工具或數(shù)據(jù)總線集成到數(shù)據(jù)倉(cāng)庫(kù)中,同時(shí)完成數(shù)據(jù)的清洗轉(zhuǎn)換。數(shù)據(jù)集成管理的內(nèi)容包括:

4.4.1 數(shù)據(jù)集成資源展示,集中展示已連接到數(shù)據(jù)中心平臺(tái)的各種數(shù)據(jù)源信息,包括數(shù)據(jù)源類型、接口類型、數(shù)據(jù)業(yè)務(wù)類型、數(shù)據(jù)規(guī)模、數(shù)據(jù)更新頻度以及是否系統(tǒng)同步數(shù)據(jù)。

4.4.2 集成過程展示和監(jiān)控,主要展示各數(shù)據(jù)集成項(xiàng)目數(shù)據(jù)集成內(nèi)容、項(xiàng)目集成名稱、數(shù)據(jù)同步開啟時(shí)間、結(jié)束時(shí)間、運(yùn)行狀態(tài)以及任務(wù)的操作狀態(tài)。

4.4.3 數(shù)據(jù)集成相關(guān)統(tǒng)計(jì)信息展示,主要包括集成數(shù)據(jù)總量、連接數(shù)據(jù)源數(shù)、集成業(yè)務(wù)表數(shù)量、數(shù)據(jù)集總數(shù)、集成任務(wù)總數(shù)等。

4.4.4 數(shù)據(jù)安全規(guī)則配置,針對(duì)需要集成的基礎(chǔ)數(shù)據(jù)和過程數(shù)據(jù),可設(shè)置數(shù)據(jù)冗余的規(guī)則對(duì)數(shù)據(jù)進(jìn)行溯源,也可采用“拉鏈表”和“歷史表”的設(shè)計(jì)方式提供數(shù)據(jù)備份功能。

4.4.5 集成運(yùn)行監(jiān)控,通過各類查詢和報(bào)表,可以實(shí)時(shí)查看每日數(shù)據(jù)集成運(yùn)行情況,可自定義生成各種統(tǒng)計(jì)報(bào)表,并動(dòng)態(tài)展現(xiàn)其運(yùn)行的情況,同時(shí)提供異常信息的警告機(jī)制,可通過郵件、短信進(jìn)行報(bào)警。

4.5 數(shù)據(jù)轉(zhuǎn)換

數(shù)據(jù)轉(zhuǎn)換即對(duì)抽取的數(shù)據(jù),按照數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)格式的統(tǒng)一和規(guī)范。數(shù)據(jù)轉(zhuǎn)換通過數(shù)據(jù)之間的映射關(guān)系,完成數(shù)據(jù)統(tǒng)一命名、數(shù)據(jù)格式標(biāo)準(zhǔn)化、計(jì)量單位轉(zhuǎn)換以及數(shù)據(jù)粒度轉(zhuǎn)換等工作。

對(duì)數(shù)據(jù)類型的不一致問題,采用編程處理或者使用數(shù)據(jù)庫(kù)管理系統(tǒng)提供的轉(zhuǎn)換函數(shù),進(jìn)行日期到整型、字符串到整形等轉(zhuǎn)換。對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的不一致問題,比如在人事系統(tǒng)中性別的定義為“男”、“女”,在教學(xué)管理系統(tǒng)中則以“1”代表男,“0”代表女,按照標(biāo)準(zhǔn)庫(kù)里面的定義,進(jìn)行統(tǒng)一轉(zhuǎn)換。

在數(shù)據(jù)倉(cāng)庫(kù)的場(chǎng)景中,有一些數(shù)據(jù)內(nèi)容屬于源數(shù)據(jù)庫(kù)中可能不存在的數(shù)據(jù),需要做數(shù)據(jù)二次計(jì)算,即對(duì)源數(shù)據(jù)進(jìn)行字段分割或計(jì)算,組合成新的內(nèi)容。數(shù)據(jù)二次計(jì)算主要是對(duì)數(shù)據(jù)的匯總,比如從人員基礎(chǔ)信息中統(tǒng)計(jì)出各個(gè)學(xué)院的人數(shù)、職稱比例等數(shù)據(jù),對(duì)中間計(jì)算數(shù)據(jù)進(jìn)程存儲(chǔ),在最終分析呈現(xiàn)的時(shí)候提高數(shù)據(jù)計(jì)算的效率。

5 標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)

依據(jù)標(biāo)準(zhǔn)要求定義數(shù)據(jù)范圍和數(shù)據(jù)內(nèi)容,對(duì)原始數(shù)據(jù)經(jīng)過采集、識(shí)別、質(zhì)量檢查、清洗后,就形成了標(biāo)準(zhǔn)數(shù)據(jù)。數(shù)據(jù)完成清洗轉(zhuǎn)換后,依次按照數(shù)據(jù)子集分類存儲(chǔ)到標(biāo)準(zhǔn)數(shù)據(jù)倉(cāng)庫(kù),完成后使用質(zhì)量監(jiān)控工具,對(duì)數(shù)據(jù)再做一次完整的數(shù)據(jù)質(zhì)量檢查。

標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)后,為了能夠讓前端快速準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行檢索排序,需要數(shù)據(jù)檢索的功能,在數(shù)據(jù)治理階段,需要對(duì)采集到數(shù)據(jù)中間庫(kù)的元數(shù)據(jù)進(jìn)行標(biāo)識(shí),比如給ODS中元數(shù)據(jù)的某個(gè)字段添加特定的標(biāo)識(shí),不僅可以定位數(shù)據(jù)在流轉(zhuǎn)過程中的位置,也便于對(duì)數(shù)據(jù)的排序和檢索。

6 結(jié)束語(yǔ)

通過數(shù)據(jù)質(zhì)量管理,提升數(shù)據(jù)的質(zhì)量及數(shù)據(jù)可用性。對(duì)于高校職能部門,能夠方便的查看、瀏覽、使用數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)資產(chǎn),履行本部門數(shù)據(jù)的生產(chǎn)使用責(zé)任,對(duì)數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)填報(bào)需求、數(shù)據(jù)糾錯(cuò)申請(qǐng)進(jìn)行處理,方便調(diào)用所需的數(shù)據(jù),了解數(shù)據(jù)流動(dòng)的方式和狀態(tài),執(zhí)行數(shù)據(jù)操作的規(guī)范和要求,讓數(shù)據(jù)更好的支撐部門管理過程,從而提高管理水平和管理效率。

對(duì)于廣大師生,可以方便查看自己在學(xué)校各種數(shù)據(jù),讓每個(gè)人能夠通過一站式服務(wù)門戶、智慧教室、協(xié)同科研、移動(dòng)校園等應(yīng)用獲得高質(zhì)量的教學(xué)服務(wù)、生活服務(wù),體驗(yàn)到信息化成果帶來(lái)的便捷和高質(zhì)量服務(wù)。

參考文獻(xiàn):

[1] 劉冰,龐琳. 國(guó)內(nèi)外大數(shù)據(jù)質(zhì)量研究述評(píng)[J]. 情報(bào)學(xué)報(bào), 2019, 38(2):217-226.

[2] 張新興.高??茖W(xué)數(shù)據(jù)管理研究綜述[J].情報(bào)資料工作,2016,37(6): 48-54.

[3] 王宏志.大數(shù)據(jù)質(zhì)量管理:?jiǎn)栴}與研究進(jìn)展[J].科技導(dǎo)報(bào),2014,32(34):78-84.

[4] 韓京宇,徐立臻,董逸生.數(shù)據(jù)質(zhì)量研究綜述[J].計(jì)算機(jī)科學(xué),2008,35(2):1-5.

[5] 盧本新. 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)質(zhì)量管理的研究[D]. 大連理工大學(xué),2013:18.【摘要】本文通過對(duì)高校數(shù)據(jù)管理過程的梳理,提出高校數(shù)據(jù)質(zhì)量管理的方法、步驟及主要技術(shù)框架,并對(duì)數(shù)據(jù)質(zhì)量管理過程中的數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理等問題進(jìn)行研究與實(shí)踐,將數(shù)據(jù)管理從單純的技術(shù)操作層擴(kuò)展到技術(shù)、業(yè)務(wù)、管理相結(jié)合的復(fù)合模式,讓數(shù)據(jù)更好的支撐學(xué)校各部門的教學(xué)管理,從而提高管理水平和工作效率。

【關(guān)鍵詞】數(shù)據(jù)質(zhì)量;數(shù)據(jù)管理;教育信息化

目前高校信息化已得到長(zhǎng)足發(fā)展,數(shù)據(jù)中心已積累了大量的教學(xué)、科研、管理等數(shù)據(jù),然而數(shù)據(jù)的質(zhì)量參差不齊,數(shù)據(jù)的共享大部分也僅限于主數(shù)據(jù)的交換,數(shù)據(jù)的可用性并不高,因此通過數(shù)據(jù)管理系統(tǒng),將數(shù)據(jù)質(zhì)量管理從單純的技術(shù)操作層面擴(kuò)展到“技術(shù)+業(yè)務(wù)+管理”的復(fù)合模式,將數(shù)據(jù)質(zhì)量管理的參與者從信息管理部門推廣到全校各業(yè)務(wù)部門,實(shí)現(xiàn)數(shù)據(jù)的全生命周期管理。對(duì)于數(shù)據(jù)管理部門,通過數(shù)據(jù)質(zhì)量管理系統(tǒng)能夠以全局視角觀察數(shù)據(jù)在其產(chǎn)生、流通、留存、使用、變化和歸檔過程中的狀態(tài),另外可以查看各部門在數(shù)據(jù)使用、維護(hù)、變更過程中的參與程度和狀態(tài)反饋,不僅對(duì)數(shù)據(jù)的質(zhì)量、數(shù)量、更新頻度及規(guī)范性進(jìn)行方便的管理,還能高效安全的將數(shù)據(jù)提供給用戶,服務(wù)于一站式門戶、數(shù)據(jù)填報(bào)、決策支持等綜合性業(yè)務(wù)管理,充分發(fā)揮數(shù)據(jù)的價(jià)值。

數(shù)據(jù)質(zhì)量管理流程主要包括數(shù)據(jù)調(diào)研、數(shù)據(jù)標(biāo)準(zhǔn)制定、數(shù)據(jù)識(shí)別、數(shù)據(jù)采集、質(zhì)量檢查、清洗轉(zhuǎn)換和標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)幾個(gè)步驟,如圖1所示。

1. 數(shù)據(jù)標(biāo)準(zhǔn)制定

數(shù)據(jù)標(biāo)準(zhǔn)的制定,以業(yè)務(wù)分類和業(yè)務(wù)規(guī)范為指導(dǎo),以符合學(xué)校管理和業(yè)務(wù)模式為原則,引入學(xué)校正在使用的代碼實(shí)際標(biāo)準(zhǔn),盡量減少對(duì)原有業(yè)務(wù)系統(tǒng)及管理過程的影響。最終生成的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)按照標(biāo)準(zhǔn)規(guī)范進(jìn)行數(shù)據(jù)分類和數(shù)據(jù)模型定義,并進(jìn)行統(tǒng)一的管理。

數(shù)據(jù)標(biāo)準(zhǔn)制定包括數(shù)據(jù)標(biāo)準(zhǔn)的編制、審查、發(fā)布三部分。數(shù)據(jù)標(biāo)準(zhǔn)管理部門將數(shù)據(jù)標(biāo)準(zhǔn)通過數(shù)據(jù)管理平臺(tái)發(fā)布展示,并將發(fā)布后的數(shù)據(jù)標(biāo)準(zhǔn)、版本說(shuō)明保存?zhèn)浒?。?duì)數(shù)據(jù)標(biāo)準(zhǔn)的變更將及時(shí)更新至數(shù)據(jù)標(biāo)準(zhǔn)管理平臺(tái)。

按照教育部頒布的教育管理數(shù)據(jù)標(biāo)準(zhǔn)的要求,在高校管理信息的基本體系結(jié)構(gòu)、數(shù)據(jù)元素的元數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,還需做以下幾個(gè)方面的優(yōu)化,第一表結(jié)構(gòu)優(yōu)化,需要結(jié)合學(xué)校實(shí)際數(shù)據(jù)使用場(chǎng)景進(jìn)行表結(jié)構(gòu)的優(yōu)化。第二對(duì)擴(kuò)展命名的規(guī)范,例如部標(biāo)中定義的數(shù)據(jù)對(duì)象包含表、字段、代碼集,校標(biāo)需要在此基礎(chǔ)上擴(kuò)展數(shù)據(jù)開發(fā)、過程管理、接口管理等命名規(guī)范。第三代碼集優(yōu)化,校標(biāo)在部標(biāo)代碼集的基礎(chǔ)上需要擴(kuò)展學(xué)校相關(guān)屬性的代碼表。第四新標(biāo)準(zhǔn)補(bǔ)充,因?yàn)椴繕?biāo)是通適性的規(guī)范,因此需要在部標(biāo)的基礎(chǔ)上擴(kuò)展學(xué)校特有的標(biāo)準(zhǔn)內(nèi)容。

在數(shù)據(jù)標(biāo)準(zhǔn)制定的過程中,數(shù)據(jù)生產(chǎn)部門參與數(shù)據(jù)標(biāo)準(zhǔn)的收集和整理工作,并按照協(xié)商一致的原則形成數(shù)據(jù)標(biāo)準(zhǔn)初稿。在對(duì)數(shù)據(jù)標(biāo)準(zhǔn)初稿進(jìn)行討論完善后,形成數(shù)據(jù)標(biāo)準(zhǔn)送審稿提交給學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)管理部門,經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)管理決策者的討論審核后,由學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)管理部門再次進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的修改完善,最終完成數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)布。

最終形成的數(shù)據(jù)標(biāo)準(zhǔn)體系內(nèi)容應(yīng)包括元數(shù)據(jù)標(biāo)準(zhǔn)、代碼標(biāo)準(zhǔn)、編碼規(guī)范(如學(xué)號(hào)、工號(hào)、房間號(hào)、部門編號(hào)等編制規(guī)則)和對(duì)象命名規(guī)范(如表、字段、接口、文檔等統(tǒng)一命名規(guī)則)。

2. 數(shù)據(jù)的采集

根據(jù)高校當(dāng)前的數(shù)據(jù)現(xiàn)狀,大部分業(yè)務(wù)數(shù)據(jù)已完成了數(shù)據(jù)歸集,還有部分業(yè)務(wù)數(shù)據(jù)需要從數(shù)據(jù)生產(chǎn)部門收集,對(duì)于批量的數(shù)據(jù)集成可以直接通過ETL工具將全量業(yè)務(wù)數(shù)據(jù)采集到預(yù)處理數(shù)據(jù)庫(kù)。

對(duì)于網(wǎng)絡(luò)設(shè)備、安全設(shè)備以及服務(wù)器產(chǎn)生的日志數(shù)據(jù),采用FTP方式將日志文件推送到日志服務(wù)器;對(duì)于其他非結(jié)構(gòu)化數(shù)據(jù)以HBASE數(shù)據(jù)庫(kù)或者以HDFS文件的方式存放。除了在線的信息系統(tǒng)數(shù)據(jù)外,對(duì)于線下的電子表格數(shù)據(jù),采用工具導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。對(duì)于圖像數(shù)據(jù)以BLOB大字段的形式存放在關(guān)系型數(shù)據(jù)庫(kù)或者分布式數(shù)據(jù)庫(kù)中,也可以直接通過ETL工具采集到HDFS中進(jìn)行存儲(chǔ)。

數(shù)據(jù)采集過程主要包括以下幾個(gè)步驟,第一識(shí)別有效數(shù)據(jù),通過數(shù)據(jù)字典的指引,對(duì)原始數(shù)據(jù)進(jìn)行識(shí)別理解,從中甄別出有效的數(shù)據(jù)(即數(shù)據(jù)標(biāo)準(zhǔn)所對(duì)應(yīng)的數(shù)據(jù)范圍),并進(jìn)行相應(yīng)的標(biāo)注,例如是否主數(shù)據(jù)、是否關(guān)鍵過程數(shù)據(jù)、備注等。第二數(shù)據(jù)采集映射,數(shù)據(jù)識(shí)別完成后,即通過配置ETL轉(zhuǎn)換,將數(shù)據(jù)從源庫(kù)加載到目標(biāo)庫(kù)。除了需要記錄表與表之間的映射關(guān)系外,還需要進(jìn)一步記錄字段與字段之間的映射關(guān)系。第三元數(shù)據(jù)標(biāo)識(shí)過程,主要是建立元數(shù)據(jù)模型,并對(duì)模型數(shù)據(jù)進(jìn)行初始化。

3. 數(shù)據(jù)質(zhì)量核查

數(shù)據(jù)質(zhì)量核查是數(shù)據(jù)采集識(shí)別后的關(guān)鍵步驟。數(shù)據(jù)質(zhì)量核查主要包括三部分,第一配置質(zhì)量檢測(cè)規(guī)則,并將質(zhì)量規(guī)則綁定到對(duì)應(yīng)字段上,一個(gè)字段可以同時(shí)綁定多個(gè)規(guī)則;第二執(zhí)行數(shù)據(jù)質(zhì)量檢查;第三輸出質(zhì)量檢核報(bào)告。

3.1 設(shè)置質(zhì)量規(guī)則

在進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)前,配置數(shù)據(jù)質(zhì)量檢測(cè)指標(biāo)、檢測(cè)規(guī)則(分為值域正確性、枚舉正確性、正則匹配性、關(guān)聯(lián)一致性),配置規(guī)則應(yīng)與學(xué)校業(yè)務(wù)系統(tǒng)要求相對(duì)應(yīng),并由業(yè)務(wù)部門進(jìn)行逐項(xiàng)確認(rèn)。

3.2 綁定字段

在設(shè)置了數(shù)據(jù)質(zhì)量檢驗(yàn)規(guī)則后,將相應(yīng)的字段和規(guī)則進(jìn)行綁定,然后按照規(guī)則選擇數(shù)據(jù)字段進(jìn)行規(guī)則檢驗(yàn)。比如,年齡字段需要綁定對(duì)應(yīng)的值域規(guī)則(0-100),電話號(hào)碼、電子郵件字段需要綁定相應(yīng)正則規(guī)則等。

3.3 輸出質(zhì)量報(bào)告

全面及時(shí)發(fā)現(xiàn)已有數(shù)據(jù)的質(zhì)量問題是數(shù)據(jù)后期治理的重要依據(jù),數(shù)據(jù)質(zhì)量報(bào)告應(yīng)考慮完整性、唯一性、一致性、準(zhǔn)確性、合法性、及時(shí)性等因素。通過數(shù)據(jù)質(zhì)量規(guī)則定義,結(jié)合數(shù)據(jù)質(zhì)量報(bào)告,可以深度挖掘當(dāng)前數(shù)據(jù)質(zhì)量存在的問題及所需改進(jìn)的部分,并按照數(shù)據(jù)管理手段督促相應(yīng)的業(yè)務(wù)部門對(duì)源數(shù)據(jù)進(jìn)行修改。

數(shù)據(jù)質(zhì)量檢測(cè)完成后,還需要對(duì)系統(tǒng)中的數(shù)據(jù)質(zhì)量問題進(jìn)行統(tǒng)計(jì)分析和預(yù)警,管理人員可以查看檢測(cè)報(bào)告的詳情。檢測(cè)報(bào)告支持圖形化展現(xiàn),并支持多維度動(dòng)態(tài)鉆取,同時(shí)支持?jǐn)?shù)據(jù)導(dǎo)出功能。此外還可以設(shè)置郵件及短信提醒功能,從而將自動(dòng)生成的數(shù)據(jù)質(zhì)量報(bào)告以郵件方式發(fā)送到指定人員,方便其及時(shí)對(duì)數(shù)據(jù)問題進(jìn)行修正。

4. 數(shù)據(jù)清洗轉(zhuǎn)換

對(duì)于源系統(tǒng)中數(shù)據(jù)存在的質(zhì)量問題,可以通過數(shù)據(jù)清洗轉(zhuǎn)換方式進(jìn)行數(shù)據(jù)質(zhì)量提升,主要包括以下幾個(gè)步驟:

4.1 預(yù)處理規(guī)范定義

為了保證數(shù)據(jù)預(yù)處理過程的有效性,根據(jù)制定的數(shù)據(jù)標(biāo)準(zhǔn),可對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、數(shù)據(jù)標(biāo)簽化等。

猜你喜歡
數(shù)據(jù)質(zhì)量數(shù)據(jù)管理教育信息化
企業(yè)級(jí)BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實(shí)踐
CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
淺析統(tǒng)計(jì)數(shù)據(jù)質(zhì)量
金融統(tǒng)計(jì)數(shù)據(jù)質(zhì)量管理的國(guó)際借鑒與中國(guó)實(shí)踐
淺談統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制
提高政府統(tǒng)計(jì)數(shù)據(jù)質(zhì)量,增強(qiáng)政府公信力
基于虛擬仿真技術(shù)的地方高校實(shí)驗(yàn)教學(xué)探討
信息技術(shù)與教學(xué)難以深度融合的成因及解決途徑探析
科技資訊(2016年19期)2016-11-15 10:19:53
体育| 桐乡市| 申扎县| 赤城县| 邛崃市| 霞浦县| 卢龙县| 乐山市| 廊坊市| 旌德县| 珠海市| 名山县| 扎鲁特旗| 潼南县| 玉田县| 建平县| 武城县| 沐川县| 长寿区| 延长县| 山西省| 普宁市| 滁州市| 宣化县| 华池县| 旺苍县| 岳阳市| 张家港市| 太和县| 布尔津县| 雷山县| 乌审旗| 河北省| 仙桃市| 彰化市| 舒城县| 益阳市| 黄冈市| 安宁市| 毕节市| 枣阳市|