樊建永 劉洋
【摘要】本文通過對(duì)高校數(shù)據(jù)管理過程的梳理,提出高校數(shù)據(jù)質(zhì)量管理的方法、步驟及主要技術(shù)框架,并對(duì)數(shù)據(jù)質(zhì)量管理過程中的數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理等問題進(jìn)行研究與實(shí)踐,將數(shù)據(jù)管理從單純的技術(shù)操作層擴(kuò)展到技術(shù)、業(yè)務(wù)、管理相結(jié)合的復(fù)合模式,讓數(shù)據(jù)更好的支撐學(xué)校各部門的教學(xué)管理,從而提高管理水平和工作效率。
【關(guān)鍵詞】數(shù)據(jù)質(zhì)量;數(shù)據(jù)管理;教育信息化
目前高校信息化已得到長(zhǎng)足發(fā)展,數(shù)據(jù)中心已積累了大量的教學(xué)、科研、管理等數(shù)據(jù),然而數(shù)據(jù)的質(zhì)量參差不齊,數(shù)據(jù)的共享大部分也僅限于主數(shù)據(jù)的交換,數(shù)據(jù)的可用性并不高,因此通過數(shù)據(jù)管理系統(tǒng),將數(shù)據(jù)質(zhì)量管理從單純的技術(shù)操作層面擴(kuò)展到“技術(shù)+業(yè)務(wù)+管理”的復(fù)合模式,將數(shù)據(jù)質(zhì)量管理的參與者從信息管理部門推廣到全校各業(yè)務(wù)部門,實(shí)現(xiàn)數(shù)據(jù)的全生命周期管理。對(duì)于數(shù)據(jù)管理部門,通過數(shù)據(jù)質(zhì)量管理系統(tǒng)能夠以全局視角觀察數(shù)據(jù)在其產(chǎn)生、流通、留存、使用、變化和歸檔過程中的狀態(tài),另外可以查看各部門在數(shù)據(jù)使用、維護(hù)、變更過程中的參與程度和狀態(tài)反饋,不僅對(duì)數(shù)據(jù)的質(zhì)量、數(shù)量、更新頻度及規(guī)范性進(jìn)行方便的管理,還能高效安全的將數(shù)據(jù)提供給用戶,服務(wù)于一站式門戶、數(shù)據(jù)填報(bào)、決策支持等綜合性業(yè)務(wù)管理,充分發(fā)揮數(shù)據(jù)的價(jià)值。
數(shù)據(jù)質(zhì)量管理流程主要包括數(shù)據(jù)調(diào)研、數(shù)據(jù)標(biāo)準(zhǔn)制定、數(shù)據(jù)識(shí)別、數(shù)據(jù)采集、質(zhì)量檢查、清洗轉(zhuǎn)換和標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)幾個(gè)步驟,如圖1所示。
1. 數(shù)據(jù)標(biāo)準(zhǔn)制定
數(shù)據(jù)標(biāo)準(zhǔn)的制定,以業(yè)務(wù)分類和業(yè)務(wù)規(guī)范為指導(dǎo),以符合學(xué)校管理和業(yè)務(wù)模式為原則,引入學(xué)校正在使用的代碼實(shí)際標(biāo)準(zhǔn),盡量減少對(duì)原有業(yè)務(wù)系統(tǒng)及管理過程的影響。最終生成的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)按照標(biāo)準(zhǔn)規(guī)范進(jìn)行數(shù)據(jù)分類和數(shù)據(jù)模型定義,并進(jìn)行統(tǒng)一的管理。
數(shù)據(jù)標(biāo)準(zhǔn)制定包括數(shù)據(jù)標(biāo)準(zhǔn)的編制、審查、發(fā)布三部分。數(shù)據(jù)標(biāo)準(zhǔn)管理部門將數(shù)據(jù)標(biāo)準(zhǔn)通過數(shù)據(jù)管理平臺(tái)發(fā)布展示,并將發(fā)布后的數(shù)據(jù)標(biāo)準(zhǔn)、版本說(shuō)明保存?zhèn)浒?。?duì)數(shù)據(jù)標(biāo)準(zhǔn)的變更將及時(shí)更新至數(shù)據(jù)標(biāo)準(zhǔn)管理平臺(tái)。
按照教育部頒布的教育管理數(shù)據(jù)標(biāo)準(zhǔn)的要求,在高校管理信息的基本體系結(jié)構(gòu)、數(shù)據(jù)元素的元數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,還需做以下幾個(gè)方面的優(yōu)化,第一表結(jié)構(gòu)優(yōu)化,需要結(jié)合學(xué)校實(shí)際數(shù)據(jù)使用場(chǎng)景進(jìn)行表結(jié)構(gòu)的優(yōu)化。第二對(duì)擴(kuò)展命名的規(guī)范,例如部標(biāo)中定義的數(shù)據(jù)對(duì)象包含表、字段、代碼集,校標(biāo)需要在此基礎(chǔ)上擴(kuò)展數(shù)據(jù)開發(fā)、過程管理、接口管理等命名規(guī)范。第三代碼集優(yōu)化,校標(biāo)在部標(biāo)代碼集的基礎(chǔ)上需要擴(kuò)展學(xué)校相關(guān)屬性的代碼表。第四新標(biāo)準(zhǔn)補(bǔ)充,因?yàn)椴繕?biāo)是通適性的規(guī)范,因此需要在部標(biāo)的基礎(chǔ)上擴(kuò)展學(xué)校特有的標(biāo)準(zhǔn)內(nèi)容。
在數(shù)據(jù)標(biāo)準(zhǔn)制定的過程中,數(shù)據(jù)生產(chǎn)部門參與數(shù)據(jù)標(biāo)準(zhǔn)的收集和整理工作,并按照協(xié)商一致的原則形成數(shù)據(jù)標(biāo)準(zhǔn)初稿。在對(duì)數(shù)據(jù)標(biāo)準(zhǔn)初稿進(jìn)行討論完善后,形成數(shù)據(jù)標(biāo)準(zhǔn)送審稿提交給學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)管理部門,經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)管理決策者的討論審核后,由學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)管理部門再次進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的修改完善,最終完成數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)布。
最終形成的數(shù)據(jù)標(biāo)準(zhǔn)體系內(nèi)容應(yīng)包括元數(shù)據(jù)標(biāo)準(zhǔn)、代碼標(biāo)準(zhǔn)、編碼規(guī)范(如學(xué)號(hào)、工號(hào)、房間號(hào)、部門編號(hào)等編制規(guī)則)和對(duì)象命名規(guī)范(如表、字段、接口、文檔等統(tǒng)一命名規(guī)則)。
2. 數(shù)據(jù)的采集
根據(jù)高校當(dāng)前的數(shù)據(jù)現(xiàn)狀,大部分業(yè)務(wù)數(shù)據(jù)已完成了數(shù)據(jù)歸集,還有部分業(yè)務(wù)數(shù)據(jù)需要從數(shù)據(jù)生產(chǎn)部門收集,對(duì)于批量的數(shù)據(jù)集成可以直接通過ETL工具將全量業(yè)務(wù)數(shù)據(jù)采集到預(yù)處理數(shù)據(jù)庫(kù)。
對(duì)于網(wǎng)絡(luò)設(shè)備、安全設(shè)備以及服務(wù)器產(chǎn)生的日志數(shù)據(jù),采用FTP方式將日志文件推送到日志服務(wù)器;對(duì)于其他非結(jié)構(gòu)化數(shù)據(jù)以HBASE數(shù)據(jù)庫(kù)或者以HDFS文件的方式存放。除了在線的信息系統(tǒng)數(shù)據(jù)外,對(duì)于線下的電子表格數(shù)據(jù),采用工具導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。對(duì)于圖像數(shù)據(jù)以BLOB大字段的形式存放在關(guān)系型數(shù)據(jù)庫(kù)或者分布式數(shù)據(jù)庫(kù)中,也可以直接通過ETL工具采集到HDFS中進(jìn)行存儲(chǔ)。
數(shù)據(jù)采集過程主要包括以下幾個(gè)步驟,第一識(shí)別有效數(shù)據(jù),通過數(shù)據(jù)字典的指引,對(duì)原始數(shù)據(jù)進(jìn)行識(shí)別理解,從中甄別出有效的數(shù)據(jù)(即數(shù)據(jù)標(biāo)準(zhǔn)所對(duì)應(yīng)的數(shù)據(jù)范圍),并進(jìn)行相應(yīng)的標(biāo)注,例如是否主數(shù)據(jù)、是否關(guān)鍵過程數(shù)據(jù)、備注等。第二數(shù)據(jù)采集映射,數(shù)據(jù)識(shí)別完成后,即通過配置ETL轉(zhuǎn)換,將數(shù)據(jù)從源庫(kù)加載到目標(biāo)庫(kù)。除了需要記錄表與表之間的映射關(guān)系外,還需要進(jìn)一步記錄字段與字段之間的映射關(guān)系。第三元數(shù)據(jù)標(biāo)識(shí)過程,主要是建立元數(shù)據(jù)模型,并對(duì)模型數(shù)據(jù)進(jìn)行初始化。
3. 數(shù)據(jù)質(zhì)量核查
數(shù)據(jù)質(zhì)量核查是數(shù)據(jù)采集識(shí)別后的關(guān)鍵步驟。數(shù)據(jù)質(zhì)量核查主要包括三部分,第一配置質(zhì)量檢測(cè)規(guī)則,并將質(zhì)量規(guī)則綁定到對(duì)應(yīng)字段上,一個(gè)字段可以同時(shí)綁定多個(gè)規(guī)則;第二執(zhí)行數(shù)據(jù)質(zhì)量檢查;第三輸出質(zhì)量檢核報(bào)告。
3.1 設(shè)置質(zhì)量規(guī)則
在進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)前,配置數(shù)據(jù)質(zhì)量檢測(cè)指標(biāo)、檢測(cè)規(guī)則(分為值域正確性、枚舉正確性、正則匹配性、關(guān)聯(lián)一致性),配置規(guī)則應(yīng)與學(xué)校業(yè)務(wù)系統(tǒng)要求相對(duì)應(yīng),并由業(yè)務(wù)部門進(jìn)行逐項(xiàng)確認(rèn)。
3.2 綁定字段
在設(shè)置了數(shù)據(jù)質(zhì)量檢驗(yàn)規(guī)則后,將相應(yīng)的字段和規(guī)則進(jìn)行綁定,然后按照規(guī)則選擇數(shù)據(jù)字段進(jìn)行規(guī)則檢驗(yàn)。比如,年齡字段需要綁定對(duì)應(yīng)的值域規(guī)則(0-100),電話號(hào)碼、電子郵件字段需要綁定相應(yīng)正則規(guī)則等。
3.3 輸出質(zhì)量報(bào)告
全面及時(shí)發(fā)現(xiàn)已有數(shù)據(jù)的質(zhì)量問題是數(shù)據(jù)后期治理的重要依據(jù),數(shù)據(jù)質(zhì)量報(bào)告應(yīng)考慮完整性、唯一性、一致性、準(zhǔn)確性、合法性、及時(shí)性等因素。通過數(shù)據(jù)質(zhì)量規(guī)則定義,結(jié)合數(shù)據(jù)質(zhì)量報(bào)告,可以深度挖掘當(dāng)前數(shù)據(jù)質(zhì)量存在的問題及所需改進(jìn)的部分,并按照數(shù)據(jù)管理手段督促相應(yīng)的業(yè)務(wù)部門對(duì)源數(shù)據(jù)進(jìn)行修改。
數(shù)據(jù)質(zhì)量檢測(cè)完成后,還需要對(duì)系統(tǒng)中的數(shù)據(jù)質(zhì)量問題進(jìn)行統(tǒng)計(jì)分析和預(yù)警,管理人員可以查看檢測(cè)報(bào)告的詳情。檢測(cè)報(bào)告支持圖形化展現(xiàn),并支持多維度動(dòng)態(tài)鉆取,同時(shí)支持?jǐn)?shù)據(jù)導(dǎo)出功能。此外還可以設(shè)置郵件及短信提醒功能,從而將自動(dòng)生成的數(shù)據(jù)質(zhì)量報(bào)告以郵件方式發(fā)送到指定人員,方便其及時(shí)對(duì)數(shù)據(jù)問題進(jìn)行修正。
4. 數(shù)據(jù)清洗轉(zhuǎn)換
對(duì)于源系統(tǒng)中數(shù)據(jù)存在的質(zhì)量問題,可以通過數(shù)據(jù)清洗轉(zhuǎn)換方式進(jìn)行數(shù)據(jù)質(zhì)量提升,主要包括以下幾個(gè)步驟:
4.1 預(yù)處理規(guī)范定義
為了保證數(shù)據(jù)預(yù)處理過程的有效性,根據(jù)制定的數(shù)據(jù)標(biāo)準(zhǔn),可對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、數(shù)據(jù)標(biāo)簽化等。
4.2 數(shù)據(jù)審核
數(shù)據(jù)審核的內(nèi)容主要包括以下幾個(gè)方面:
4.2.1 完整性審核。檢查應(yīng)調(diào)研的部門是否有遺漏,所有的調(diào)研項(xiàng)或指標(biāo)是否完備齊全。
4.2.2 準(zhǔn)確性審核。從數(shù)據(jù)的真實(shí)性與精確性角度檢查數(shù)據(jù),重點(diǎn)是檢查調(diào)研過程中所發(fā)生的誤差。
4.2.3 適用性審核。根據(jù)數(shù)據(jù)的用途,檢查數(shù)據(jù)的有效性和相關(guān)性。具體包括數(shù)據(jù)與分析主題、與目標(biāo)總體的界定、與調(diào)查項(xiàng)目的解釋等是否匹配。
4.2.4 及時(shí)性核查。檢查數(shù)據(jù)是否按照規(guī)定時(shí)間報(bào)送,如未按規(guī)定時(shí)間報(bào)送,就需要檢查未及時(shí)報(bào)送的原因。
4.2.5 一致性核查。檢查數(shù)據(jù)在不同業(yè)務(wù)系統(tǒng)、不同時(shí)間段是否一致。
4.3 數(shù)據(jù)篩選
在數(shù)據(jù)審核完成后,對(duì)審核過程中發(fā)現(xiàn)的錯(cuò)誤應(yīng)盡可能予以糾正。如果有數(shù)據(jù)不符合標(biāo)準(zhǔn)要求且又無(wú)法改正時(shí),應(yīng)需要對(duì)數(shù)據(jù)進(jìn)行篩選。數(shù)據(jù)篩選一方面是將某些不符合要求的數(shù)據(jù)或有明顯錯(cuò)誤的數(shù)據(jù)予以剔除,另一方面是將符合某種特定條件的數(shù)據(jù)篩選出來(lái)。
4.4 數(shù)據(jù)集成
不同的數(shù)據(jù)源通過ETL工具或數(shù)據(jù)總線集成到數(shù)據(jù)倉(cāng)庫(kù)中,同時(shí)完成數(shù)據(jù)的清洗轉(zhuǎn)換。數(shù)據(jù)集成管理的內(nèi)容包括:
4.4.1 數(shù)據(jù)集成資源展示,集中展示已連接到數(shù)據(jù)中心平臺(tái)的各種數(shù)據(jù)源信息,包括數(shù)據(jù)源類型、接口類型、數(shù)據(jù)業(yè)務(wù)類型、數(shù)據(jù)規(guī)模、數(shù)據(jù)更新頻度以及是否系統(tǒng)同步數(shù)據(jù)。
4.4.2 集成過程展示和監(jiān)控,主要展示各數(shù)據(jù)集成項(xiàng)目數(shù)據(jù)集成內(nèi)容、項(xiàng)目集成名稱、數(shù)據(jù)同步開啟時(shí)間、結(jié)束時(shí)間、運(yùn)行狀態(tài)以及任務(wù)的操作狀態(tài)。
4.4.3 數(shù)據(jù)集成相關(guān)統(tǒng)計(jì)信息展示,主要包括集成數(shù)據(jù)總量、連接數(shù)據(jù)源數(shù)、集成業(yè)務(wù)表數(shù)量、數(shù)據(jù)集總數(shù)、集成任務(wù)總數(shù)等。
4.4.4 數(shù)據(jù)安全規(guī)則配置,針對(duì)需要集成的基礎(chǔ)數(shù)據(jù)和過程數(shù)據(jù),可設(shè)置數(shù)據(jù)冗余的規(guī)則對(duì)數(shù)據(jù)進(jìn)行溯源,也可采用“拉鏈表”和“歷史表”的設(shè)計(jì)方式提供數(shù)據(jù)備份功能。
4.4.5 集成運(yùn)行監(jiān)控,通過各類查詢和報(bào)表,可以實(shí)時(shí)查看每日數(shù)據(jù)集成運(yùn)行情況,可自定義生成各種統(tǒng)計(jì)報(bào)表,并動(dòng)態(tài)展現(xiàn)其運(yùn)行的情況,同時(shí)提供異常信息的警告機(jī)制,可通過郵件、短信進(jìn)行報(bào)警。
4.5 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換即對(duì)抽取的數(shù)據(jù),按照數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)格式的統(tǒng)一和規(guī)范。數(shù)據(jù)轉(zhuǎn)換通過數(shù)據(jù)之間的映射關(guān)系,完成數(shù)據(jù)統(tǒng)一命名、數(shù)據(jù)格式標(biāo)準(zhǔn)化、計(jì)量單位轉(zhuǎn)換以及數(shù)據(jù)粒度轉(zhuǎn)換等工作。
對(duì)數(shù)據(jù)類型的不一致問題,采用編程處理或者使用數(shù)據(jù)庫(kù)管理系統(tǒng)提供的轉(zhuǎn)換函數(shù),進(jìn)行日期到整型、字符串到整形等轉(zhuǎn)換。對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的不一致問題,比如在人事系統(tǒng)中性別的定義為“男”、“女”,在教學(xué)管理系統(tǒng)中則以“1”代表男,“0”代表女,按照標(biāo)準(zhǔn)庫(kù)里面的定義,進(jìn)行統(tǒng)一轉(zhuǎn)換。
在數(shù)據(jù)倉(cāng)庫(kù)的場(chǎng)景中,有一些數(shù)據(jù)內(nèi)容屬于源數(shù)據(jù)庫(kù)中可能不存在的數(shù)據(jù),需要做數(shù)據(jù)二次計(jì)算,即對(duì)源數(shù)據(jù)進(jìn)行字段分割或計(jì)算,組合成新的內(nèi)容。數(shù)據(jù)二次計(jì)算主要是對(duì)數(shù)據(jù)的匯總,比如從人員基礎(chǔ)信息中統(tǒng)計(jì)出各個(gè)學(xué)院的人數(shù)、職稱比例等數(shù)據(jù),對(duì)中間計(jì)算數(shù)據(jù)進(jìn)程存儲(chǔ),在最終分析呈現(xiàn)的時(shí)候提高數(shù)據(jù)計(jì)算的效率。
5 標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)
依據(jù)標(biāo)準(zhǔn)要求定義數(shù)據(jù)范圍和數(shù)據(jù)內(nèi)容,對(duì)原始數(shù)據(jù)經(jīng)過采集、識(shí)別、質(zhì)量檢查、清洗后,就形成了標(biāo)準(zhǔn)數(shù)據(jù)。數(shù)據(jù)完成清洗轉(zhuǎn)換后,依次按照數(shù)據(jù)子集分類存儲(chǔ)到標(biāo)準(zhǔn)數(shù)據(jù)倉(cāng)庫(kù),完成后使用質(zhì)量監(jiān)控工具,對(duì)數(shù)據(jù)再做一次完整的數(shù)據(jù)質(zhì)量檢查。
標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)后,為了能夠讓前端快速準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行檢索排序,需要數(shù)據(jù)檢索的功能,在數(shù)據(jù)治理階段,需要對(duì)采集到數(shù)據(jù)中間庫(kù)的元數(shù)據(jù)進(jìn)行標(biāo)識(shí),比如給ODS中元數(shù)據(jù)的某個(gè)字段添加特定的標(biāo)識(shí),不僅可以定位數(shù)據(jù)在流轉(zhuǎn)過程中的位置,也便于對(duì)數(shù)據(jù)的排序和檢索。
6 結(jié)束語(yǔ)
通過數(shù)據(jù)質(zhì)量管理,提升數(shù)據(jù)的質(zhì)量及數(shù)據(jù)可用性。對(duì)于高校職能部門,能夠方便的查看、瀏覽、使用數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)資產(chǎn),履行本部門數(shù)據(jù)的生產(chǎn)使用責(zé)任,對(duì)數(shù)據(jù)質(zhì)量問題、數(shù)據(jù)填報(bào)需求、數(shù)據(jù)糾錯(cuò)申請(qǐng)進(jìn)行處理,方便調(diào)用所需的數(shù)據(jù),了解數(shù)據(jù)流動(dòng)的方式和狀態(tài),執(zhí)行數(shù)據(jù)操作的規(guī)范和要求,讓數(shù)據(jù)更好的支撐部門管理過程,從而提高管理水平和管理效率。
對(duì)于廣大師生,可以方便查看自己在學(xué)校各種數(shù)據(jù),讓每個(gè)人能夠通過一站式服務(wù)門戶、智慧教室、協(xié)同科研、移動(dòng)校園等應(yīng)用獲得高質(zhì)量的教學(xué)服務(wù)、生活服務(wù),體驗(yàn)到信息化成果帶來(lái)的便捷和高質(zhì)量服務(wù)。
參考文獻(xiàn):
[1] 劉冰,龐琳. 國(guó)內(nèi)外大數(shù)據(jù)質(zhì)量研究述評(píng)[J]. 情報(bào)學(xué)報(bào), 2019, 38(2):217-226.
[2] 張新興.高??茖W(xué)數(shù)據(jù)管理研究綜述[J].情報(bào)資料工作,2016,37(6): 48-54.
[3] 王宏志.大數(shù)據(jù)質(zhì)量管理:?jiǎn)栴}與研究進(jìn)展[J].科技導(dǎo)報(bào),2014,32(34):78-84.
[4] 韓京宇,徐立臻,董逸生.數(shù)據(jù)質(zhì)量研究綜述[J].計(jì)算機(jī)科學(xué),2008,35(2):1-5.
[5] 盧本新. 數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)質(zhì)量管理的研究[D]. 大連理工大學(xué),2013:18.【摘要】本文通過對(duì)高校數(shù)據(jù)管理過程的梳理,提出高校數(shù)據(jù)質(zhì)量管理的方法、步驟及主要技術(shù)框架,并對(duì)數(shù)據(jù)質(zhì)量管理過程中的數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)、數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理等問題進(jìn)行研究與實(shí)踐,將數(shù)據(jù)管理從單純的技術(shù)操作層擴(kuò)展到技術(shù)、業(yè)務(wù)、管理相結(jié)合的復(fù)合模式,讓數(shù)據(jù)更好的支撐學(xué)校各部門的教學(xué)管理,從而提高管理水平和工作效率。
【關(guān)鍵詞】數(shù)據(jù)質(zhì)量;數(shù)據(jù)管理;教育信息化
目前高校信息化已得到長(zhǎng)足發(fā)展,數(shù)據(jù)中心已積累了大量的教學(xué)、科研、管理等數(shù)據(jù),然而數(shù)據(jù)的質(zhì)量參差不齊,數(shù)據(jù)的共享大部分也僅限于主數(shù)據(jù)的交換,數(shù)據(jù)的可用性并不高,因此通過數(shù)據(jù)管理系統(tǒng),將數(shù)據(jù)質(zhì)量管理從單純的技術(shù)操作層面擴(kuò)展到“技術(shù)+業(yè)務(wù)+管理”的復(fù)合模式,將數(shù)據(jù)質(zhì)量管理的參與者從信息管理部門推廣到全校各業(yè)務(wù)部門,實(shí)現(xiàn)數(shù)據(jù)的全生命周期管理。對(duì)于數(shù)據(jù)管理部門,通過數(shù)據(jù)質(zhì)量管理系統(tǒng)能夠以全局視角觀察數(shù)據(jù)在其產(chǎn)生、流通、留存、使用、變化和歸檔過程中的狀態(tài),另外可以查看各部門在數(shù)據(jù)使用、維護(hù)、變更過程中的參與程度和狀態(tài)反饋,不僅對(duì)數(shù)據(jù)的質(zhì)量、數(shù)量、更新頻度及規(guī)范性進(jìn)行方便的管理,還能高效安全的將數(shù)據(jù)提供給用戶,服務(wù)于一站式門戶、數(shù)據(jù)填報(bào)、決策支持等綜合性業(yè)務(wù)管理,充分發(fā)揮數(shù)據(jù)的價(jià)值。
數(shù)據(jù)質(zhì)量管理流程主要包括數(shù)據(jù)調(diào)研、數(shù)據(jù)標(biāo)準(zhǔn)制定、數(shù)據(jù)識(shí)別、數(shù)據(jù)采集、質(zhì)量檢查、清洗轉(zhuǎn)換和標(biāo)準(zhǔn)數(shù)據(jù)入庫(kù)幾個(gè)步驟,如圖1所示。
1. 數(shù)據(jù)標(biāo)準(zhǔn)制定
數(shù)據(jù)標(biāo)準(zhǔn)的制定,以業(yè)務(wù)分類和業(yè)務(wù)規(guī)范為指導(dǎo),以符合學(xué)校管理和業(yè)務(wù)模式為原則,引入學(xué)校正在使用的代碼實(shí)際標(biāo)準(zhǔn),盡量減少對(duì)原有業(yè)務(wù)系統(tǒng)及管理過程的影響。最終生成的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)按照標(biāo)準(zhǔn)規(guī)范進(jìn)行數(shù)據(jù)分類和數(shù)據(jù)模型定義,并進(jìn)行統(tǒng)一的管理。
數(shù)據(jù)標(biāo)準(zhǔn)制定包括數(shù)據(jù)標(biāo)準(zhǔn)的編制、審查、發(fā)布三部分。數(shù)據(jù)標(biāo)準(zhǔn)管理部門將數(shù)據(jù)標(biāo)準(zhǔn)通過數(shù)據(jù)管理平臺(tái)發(fā)布展示,并將發(fā)布后的數(shù)據(jù)標(biāo)準(zhǔn)、版本說(shuō)明保存?zhèn)浒?。?duì)數(shù)據(jù)標(biāo)準(zhǔn)的變更將及時(shí)更新至數(shù)據(jù)標(biāo)準(zhǔn)管理平臺(tái)。
按照教育部頒布的教育管理數(shù)據(jù)標(biāo)準(zhǔn)的要求,在高校管理信息的基本體系結(jié)構(gòu)、數(shù)據(jù)元素的元數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,還需做以下幾個(gè)方面的優(yōu)化,第一表結(jié)構(gòu)優(yōu)化,需要結(jié)合學(xué)校實(shí)際數(shù)據(jù)使用場(chǎng)景進(jìn)行表結(jié)構(gòu)的優(yōu)化。第二對(duì)擴(kuò)展命名的規(guī)范,例如部標(biāo)中定義的數(shù)據(jù)對(duì)象包含表、字段、代碼集,校標(biāo)需要在此基礎(chǔ)上擴(kuò)展數(shù)據(jù)開發(fā)、過程管理、接口管理等命名規(guī)范。第三代碼集優(yōu)化,校標(biāo)在部標(biāo)代碼集的基礎(chǔ)上需要擴(kuò)展學(xué)校相關(guān)屬性的代碼表。第四新標(biāo)準(zhǔn)補(bǔ)充,因?yàn)椴繕?biāo)是通適性的規(guī)范,因此需要在部標(biāo)的基礎(chǔ)上擴(kuò)展學(xué)校特有的標(biāo)準(zhǔn)內(nèi)容。
在數(shù)據(jù)標(biāo)準(zhǔn)制定的過程中,數(shù)據(jù)生產(chǎn)部門參與數(shù)據(jù)標(biāo)準(zhǔn)的收集和整理工作,并按照協(xié)商一致的原則形成數(shù)據(jù)標(biāo)準(zhǔn)初稿。在對(duì)數(shù)據(jù)標(biāo)準(zhǔn)初稿進(jìn)行討論完善后,形成數(shù)據(jù)標(biāo)準(zhǔn)送審稿提交給學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)管理部門,經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)管理決策者的討論審核后,由學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)管理部門再次進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)的修改完善,最終完成數(shù)據(jù)標(biāo)準(zhǔn)的發(fā)布。
最終形成的數(shù)據(jù)標(biāo)準(zhǔn)體系內(nèi)容應(yīng)包括元數(shù)據(jù)標(biāo)準(zhǔn)、代碼標(biāo)準(zhǔn)、編碼規(guī)范(如學(xué)號(hào)、工號(hào)、房間號(hào)、部門編號(hào)等編制規(guī)則)和對(duì)象命名規(guī)范(如表、字段、接口、文檔等統(tǒng)一命名規(guī)則)。
2. 數(shù)據(jù)的采集
根據(jù)高校當(dāng)前的數(shù)據(jù)現(xiàn)狀,大部分業(yè)務(wù)數(shù)據(jù)已完成了數(shù)據(jù)歸集,還有部分業(yè)務(wù)數(shù)據(jù)需要從數(shù)據(jù)生產(chǎn)部門收集,對(duì)于批量的數(shù)據(jù)集成可以直接通過ETL工具將全量業(yè)務(wù)數(shù)據(jù)采集到預(yù)處理數(shù)據(jù)庫(kù)。
對(duì)于網(wǎng)絡(luò)設(shè)備、安全設(shè)備以及服務(wù)器產(chǎn)生的日志數(shù)據(jù),采用FTP方式將日志文件推送到日志服務(wù)器;對(duì)于其他非結(jié)構(gòu)化數(shù)據(jù)以HBASE數(shù)據(jù)庫(kù)或者以HDFS文件的方式存放。除了在線的信息系統(tǒng)數(shù)據(jù)外,對(duì)于線下的電子表格數(shù)據(jù),采用工具導(dǎo)入到關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。對(duì)于圖像數(shù)據(jù)以BLOB大字段的形式存放在關(guān)系型數(shù)據(jù)庫(kù)或者分布式數(shù)據(jù)庫(kù)中,也可以直接通過ETL工具采集到HDFS中進(jìn)行存儲(chǔ)。
數(shù)據(jù)采集過程主要包括以下幾個(gè)步驟,第一識(shí)別有效數(shù)據(jù),通過數(shù)據(jù)字典的指引,對(duì)原始數(shù)據(jù)進(jìn)行識(shí)別理解,從中甄別出有效的數(shù)據(jù)(即數(shù)據(jù)標(biāo)準(zhǔn)所對(duì)應(yīng)的數(shù)據(jù)范圍),并進(jìn)行相應(yīng)的標(biāo)注,例如是否主數(shù)據(jù)、是否關(guān)鍵過程數(shù)據(jù)、備注等。第二數(shù)據(jù)采集映射,數(shù)據(jù)識(shí)別完成后,即通過配置ETL轉(zhuǎn)換,將數(shù)據(jù)從源庫(kù)加載到目標(biāo)庫(kù)。除了需要記錄表與表之間的映射關(guān)系外,還需要進(jìn)一步記錄字段與字段之間的映射關(guān)系。第三元數(shù)據(jù)標(biāo)識(shí)過程,主要是建立元數(shù)據(jù)模型,并對(duì)模型數(shù)據(jù)進(jìn)行初始化。
3. 數(shù)據(jù)質(zhì)量核查
數(shù)據(jù)質(zhì)量核查是數(shù)據(jù)采集識(shí)別后的關(guān)鍵步驟。數(shù)據(jù)質(zhì)量核查主要包括三部分,第一配置質(zhì)量檢測(cè)規(guī)則,并將質(zhì)量規(guī)則綁定到對(duì)應(yīng)字段上,一個(gè)字段可以同時(shí)綁定多個(gè)規(guī)則;第二執(zhí)行數(shù)據(jù)質(zhì)量檢查;第三輸出質(zhì)量檢核報(bào)告。
3.1 設(shè)置質(zhì)量規(guī)則
在進(jìn)行數(shù)據(jù)質(zhì)量檢測(cè)前,配置數(shù)據(jù)質(zhì)量檢測(cè)指標(biāo)、檢測(cè)規(guī)則(分為值域正確性、枚舉正確性、正則匹配性、關(guān)聯(lián)一致性),配置規(guī)則應(yīng)與學(xué)校業(yè)務(wù)系統(tǒng)要求相對(duì)應(yīng),并由業(yè)務(wù)部門進(jìn)行逐項(xiàng)確認(rèn)。
3.2 綁定字段
在設(shè)置了數(shù)據(jù)質(zhì)量檢驗(yàn)規(guī)則后,將相應(yīng)的字段和規(guī)則進(jìn)行綁定,然后按照規(guī)則選擇數(shù)據(jù)字段進(jìn)行規(guī)則檢驗(yàn)。比如,年齡字段需要綁定對(duì)應(yīng)的值域規(guī)則(0-100),電話號(hào)碼、電子郵件字段需要綁定相應(yīng)正則規(guī)則等。
3.3 輸出質(zhì)量報(bào)告
全面及時(shí)發(fā)現(xiàn)已有數(shù)據(jù)的質(zhì)量問題是數(shù)據(jù)后期治理的重要依據(jù),數(shù)據(jù)質(zhì)量報(bào)告應(yīng)考慮完整性、唯一性、一致性、準(zhǔn)確性、合法性、及時(shí)性等因素。通過數(shù)據(jù)質(zhì)量規(guī)則定義,結(jié)合數(shù)據(jù)質(zhì)量報(bào)告,可以深度挖掘當(dāng)前數(shù)據(jù)質(zhì)量存在的問題及所需改進(jìn)的部分,并按照數(shù)據(jù)管理手段督促相應(yīng)的業(yè)務(wù)部門對(duì)源數(shù)據(jù)進(jìn)行修改。
數(shù)據(jù)質(zhì)量檢測(cè)完成后,還需要對(duì)系統(tǒng)中的數(shù)據(jù)質(zhì)量問題進(jìn)行統(tǒng)計(jì)分析和預(yù)警,管理人員可以查看檢測(cè)報(bào)告的詳情。檢測(cè)報(bào)告支持圖形化展現(xiàn),并支持多維度動(dòng)態(tài)鉆取,同時(shí)支持?jǐn)?shù)據(jù)導(dǎo)出功能。此外還可以設(shè)置郵件及短信提醒功能,從而將自動(dòng)生成的數(shù)據(jù)質(zhì)量報(bào)告以郵件方式發(fā)送到指定人員,方便其及時(shí)對(duì)數(shù)據(jù)問題進(jìn)行修正。
4. 數(shù)據(jù)清洗轉(zhuǎn)換
對(duì)于源系統(tǒng)中數(shù)據(jù)存在的質(zhì)量問題,可以通過數(shù)據(jù)清洗轉(zhuǎn)換方式進(jìn)行數(shù)據(jù)質(zhì)量提升,主要包括以下幾個(gè)步驟:
4.1 預(yù)處理規(guī)范定義
為了保證數(shù)據(jù)預(yù)處理過程的有效性,根據(jù)制定的數(shù)據(jù)標(biāo)準(zhǔn),可對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)歸約、數(shù)據(jù)標(biāo)簽化等。