李愛鳳 劉葵 王挺
摘 ? 要:數(shù)據(jù)是一所學校的重要資產(chǎn)。科學規(guī)劃數(shù)據(jù)和進行有效的治理,對數(shù)據(jù)資產(chǎn)的應用發(fā)揮最大價值具有重要意義。文章首先采用文獻調(diào)研法系統(tǒng)梳理了國內(nèi)外數(shù)據(jù)治理的相關研究動態(tài);然后提出了高校數(shù)據(jù)治理五星模型;最后,以具體業(yè)務場景教師一張表信息為數(shù)據(jù)治理對象進行了實踐分析與研究。結果表明,業(yè)務驅動是推進高校數(shù)據(jù)治理方案的關鍵。
關鍵詞:大數(shù)據(jù);數(shù)據(jù)治理;五星模型;業(yè)務驅動
中圖分類號:G647 文獻標志碼:A 文章編號:1673-8454(2020)13-0064-04
一、引言
廣州大學的信息化建設經(jīng)歷了基礎建設階段、數(shù)字校園建設階段后,目前已步入智慧校園階段。學校在日常教學、學習、科研、管理和校園生活過程中形成的各式各樣數(shù)據(jù)將成為智慧校園的基礎。但是,目前廣州大學數(shù)據(jù)質量總體處于較為低下的水平,各業(yè)務系統(tǒng)數(shù)據(jù)存在數(shù)據(jù)缺失、錯誤數(shù)據(jù)、重復數(shù)據(jù)各種問題,沒有進行有效的數(shù)據(jù)治理,也沒有針對未來需求主動采取數(shù)據(jù)質量保障措施,一直疲于應對存量數(shù)據(jù)產(chǎn)生的數(shù)據(jù)質量問題。主要表現(xiàn)是:①數(shù)據(jù)多頭管理且缺少專門對數(shù)據(jù)進行監(jiān)督和控制的組織;②數(shù)據(jù)多系統(tǒng)分散建設沒有規(guī)范統(tǒng)一的校級數(shù)據(jù)標準和數(shù)據(jù)模型;③數(shù)據(jù)缺少統(tǒng)一的關鍵數(shù)據(jù)視圖和缺乏對關鍵數(shù)據(jù)的管理;④沒有建立數(shù)據(jù)質量管理平臺。
為解決數(shù)據(jù)治理存在的諸多問題,我們從企業(yè)數(shù)據(jù)資產(chǎn)管理的角度定義智慧校園中的數(shù)據(jù)資產(chǎn)管理,并在此基礎上提出高校的數(shù)據(jù)治理五星模型。以一個具體的應用場景闡述高校數(shù)據(jù)治理平臺以實現(xiàn)數(shù)據(jù)治理可視化、流程化和自動化的技術實現(xiàn)。通過整體數(shù)據(jù)治理五星模型管理,持續(xù)梳理學校數(shù)據(jù)資產(chǎn),促進高校管理模式從業(yè)務驅動到數(shù)據(jù)驅動的轉變,進一步推動高校信息化水平的提升,實現(xiàn)數(shù)據(jù)轉換為智慧。
二、國內(nèi)外數(shù)據(jù)治理研究動態(tài)
數(shù)據(jù)治理概念最先產(chǎn)生于企業(yè)領域,后逐漸在銀行、保險、電信、教育等行業(yè)得到應用。國內(nèi)外學者圍繞著數(shù)據(jù)治理進行過多方面的研究。[1]其中國外學術界涉及的研究領域有治理概念、治理要素、治理模型、治理框架,其中在這幾方面有代表性的成果是:P.Sonla[2]指出數(shù)據(jù)治理是一個有機組合的系統(tǒng),它包括決策、職責及流程;S.Stockdale[3]在論文中提出數(shù)據(jù)治理有五要素,分別是治理架構、相關角色和職責、治理數(shù)據(jù)分類、治理標準、治理實施;S.Kim[4]提出商業(yè)和IT聯(lián)盟的數(shù)據(jù)治理模型;DGI[5]提出DGI數(shù)據(jù)治理框架和數(shù)據(jù)生命周期理論。國外學者研究的領域較寬,涉及的治理內(nèi)容豐富,但最終都是對相應職責以及角色的分配。
國內(nèi)學者主要從治理體系、治理保障,及實踐應用方面展開了研究。治理體系集中于對治理模型和框架的研究;治理保障主要研究數(shù)據(jù)的質量安全;治理應用集中在圖書館、銀行、電力等以數(shù)據(jù)為核心的行業(yè)。目前,高校數(shù)據(jù)中心的建設、醫(yī)療大數(shù)據(jù)等也得到了很高的重視。[6]在這三方面,產(chǎn)生了有代表性的研究成果。童楠楠等探索了卡內(nèi)基·梅隆大學于2014年提出的數(shù)據(jù)管理成熟度模型(Data Management Maturity,DMM)的邏輯架構、要素構成和應用實踐。包冬梅等研究了國際數(shù)據(jù)管理協(xié)會(Global Data Management Community)框架和國際數(shù)據(jù)治理研究所(Data Governance Institute)的數(shù)據(jù)治理框架。包冬梅等分析了兩個框架之間的差異,并提出具體業(yè)務領域的數(shù)據(jù)治理框架。嚴昕等[7]從城鎮(zhèn)信息化角度,探索這兩種框架對城鎮(zhèn)信息化數(shù)據(jù)治理構建與實施的意義。數(shù)據(jù)質量管理的目標是通過數(shù)據(jù)分析提高數(shù)據(jù)質量。續(xù)瑾成[8]和張瓊文[9]分別在質量管理和質量評估上做了相應的研究。李冬等[10]對數(shù)據(jù)傳輸中的安全和趙剛等[11]對國家層面的網(wǎng)絡空間問題進行了研究,主要包括數(shù)據(jù)安全、隱私保護、訪問權限管理、安全審計、制度及流程五大方面。在應用實踐數(shù)據(jù)治理方面,有談韻[12]在電力行業(yè),王宏宇等[13]、許曉東等[14]在高校方面,常朝娣等[15]在醫(yī)療領域的研究。
三、業(yè)務驅動的高校數(shù)據(jù)治理平臺
為幫助企業(yè)管理海量數(shù)據(jù)并從中快速獲取真正有用的信息,數(shù)據(jù)資產(chǎn)管理應運而生。[16]在高校教育大數(shù)據(jù)背景下,越來越多的學校在建設高校數(shù)據(jù)中心平臺,構建基于數(shù)據(jù)治理的數(shù)據(jù)中心五星模型。數(shù)據(jù)治理的五星功能模塊如圖1所示。其中元數(shù)據(jù)管理平臺如同人體的血管深入到學校每個系統(tǒng)內(nèi)部,通過每個系統(tǒng)的關聯(lián)關系,構建了學校的數(shù)據(jù)地圖信息。其中包含的數(shù)據(jù)基因可以形成單個數(shù)據(jù)單元的血緣分析和影響分析,在數(shù)據(jù)質量管理過程中,沿著元數(shù)據(jù)的脈絡找到數(shù)據(jù)存在的問題,補充完善數(shù)據(jù)質量,從源頭上做好數(shù)據(jù)規(guī)范抽取。在下游,做好數(shù)據(jù)質量清洗,形成一個良性循環(huán)的體系。在業(yè)務場景驅動下,通過ETL工具的可視化將各業(yè)務系統(tǒng)的數(shù)據(jù)存儲到同一個大庫里,獲得一個完整的物理數(shù)據(jù)庫,以便構建主題進行數(shù)據(jù)分析。數(shù)據(jù)質量的實施針對的是系統(tǒng)可能還會存在一些問題。例如,同步異常或者人為失誤等情況形成的臟數(shù)據(jù),這時候,需要一個逐步完善的階段,分析問題、改進相關數(shù)據(jù)清洗規(guī)則,實現(xiàn)對數(shù)據(jù)整體質量控制;根據(jù)改進的規(guī)則定義,又可以反饋到數(shù)據(jù)標準上完善,把數(shù)據(jù)質量與數(shù)據(jù)標準有機結合在一起。數(shù)據(jù)的安全管理對數(shù)據(jù)安全策略進行管理,包括定義及維護數(shù)據(jù)敏感性、敏感數(shù)據(jù)的定義、敏感數(shù)據(jù)的發(fā)現(xiàn)并提供發(fā)現(xiàn)報告及敏感信息維護。幾大子平臺是緊密相關并互為補充,其核心都是圍繞數(shù)據(jù)治理?,F(xiàn)結合具體的業(yè)務場景以教師一張表為對象描述數(shù)據(jù)治理活動。
1.教師一張表實現(xiàn)流程
以教師為主題,首先分析與教師主題相關的所有業(yè)務系統(tǒng)數(shù)據(jù)。其中包括幾大核心業(yè)務系統(tǒng)如人事、教務、科研、研究生、財務等管理系統(tǒng)以及一卡通和圖書管理系統(tǒng)。對接入數(shù)據(jù)治理平臺的業(yè)務系統(tǒng)進行特征構造,即把每個系統(tǒng)與教師主題相關的具體指標信息進行有效的清洗和整合,加以重組并進行數(shù)據(jù)倉庫建模,以實現(xiàn)教師主題的相關數(shù)據(jù)集成及特征數(shù)據(jù)匯聚。整個過程如圖2所示。圖2以思維導圖的形式展現(xiàn)了教師一張表實現(xiàn)的過程,圖2中的第三部分是數(shù)據(jù)倉庫分層建模,在數(shù)據(jù)倉庫實施過程中將數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)劃分為原始數(shù)據(jù)層(ODS)、數(shù)據(jù)倉庫層(DW)和公共數(shù)據(jù)集市層(ADS)。圖3是ETL示意圖,圖3表明,其中將業(yè)務系統(tǒng)的數(shù)據(jù)原封不動地抽取至原始數(shù)據(jù)層(ODS),避免數(shù)據(jù)倉庫直接調(diào)用業(yè)務系統(tǒng)的數(shù)據(jù)。數(shù)據(jù)倉庫層(DW)是面向主題的基礎數(shù)據(jù)表和代碼表?;A數(shù)據(jù)表是一個包涵主題的通用集合。通過對原始數(shù)據(jù)層(ODS)的數(shù)據(jù)進行清洗和轉換形成特定主題的簡明視圖。代碼表用于定義常規(guī)的、可枚舉的數(shù)據(jù)值,同時幫助用戶明確這些數(shù)據(jù)的含義。公共數(shù)據(jù)集市層(ADS)以某一主題分析為出發(fā)點進行建設,只關心主題需要的數(shù)據(jù),因此,結構清晰、針對性強、擴展性好。該層數(shù)據(jù)一般是對數(shù)據(jù)倉庫層(DW)的數(shù)據(jù)進行匯聚后形成特定的主題視圖。在高校數(shù)據(jù)治理管理平臺中,一般在公共數(shù)據(jù)集市層(ADS)包括教職工主題域和學生主題域兩個大的主題域。再根據(jù)業(yè)務應用需要,以教職工主題域為例可分為學科建設分析、教學管理分析、科研活動與成果分析等子主題進一步分析;以學生主題域為例可在招生就業(yè)分析、學生管理分析等子主題進一步分析,為學校的管理提供決策支持。教師一張表通過一個可視化的圖形界面展示了教師在校的主數(shù)據(jù),圖4展示了人事信息的部分數(shù)據(jù);除此之外還有教職工的教學教研信息、科研信息、資產(chǎn)信息、其他信息等欄目。通過該應用場景實現(xiàn)了一次采集、統(tǒng)一管理、多業(yè)務應用。但也要求教職工各項數(shù)據(jù)必須準確且具備唯一屬性。然而在實際應用中發(fā)現(xiàn)各業(yè)務系統(tǒng)作為教職工相關數(shù)據(jù)產(chǎn)生的源頭,還存在大量的臟數(shù)據(jù),圖4所示的高層次人才信息的批準時間99999999就是一個無效的時間格式,必須對數(shù)據(jù)進行治理以便從數(shù)據(jù)產(chǎn)生的源頭上提升數(shù)據(jù)質量。
2.教師一張表數(shù)據(jù)治理流程
(1)數(shù)據(jù)治理組織架構及職責
合理的組織架構設置是進行數(shù)據(jù)治理工作的必要條件。根據(jù)學校實際,學校組織架構由決策管理層、組織協(xié)調(diào)層、執(zhí)行層組成。決策管理層是學校數(shù)據(jù)治理領導小組,由學校主管信息化的副校長、網(wǎng)絡中心主任、各業(yè)務部門負責信息化的領導代行其職責;組織協(xié)調(diào)層是數(shù)據(jù)治理管理辦公室,由數(shù)據(jù)質量管理員代行其職責;執(zhí)行層包括數(shù)據(jù)治理小組、業(yè)務部門、網(wǎng)絡中心等部門及外部廠商。數(shù)據(jù)治理組織架構設置如圖5所示,各工作人員的職責如下。
①數(shù)據(jù)治理領導小組:定義數(shù)據(jù)治理愿景和目標,設置數(shù)據(jù)治理計劃的總體方向;組織跨業(yè)務部門協(xié)調(diào);審核和批準數(shù)據(jù)治理相關制度和報告,負責重大數(shù)據(jù)質量問題的解決。
②數(shù)據(jù)質量管理員:負責數(shù)據(jù)治理的牽頭、組織、指導和協(xié)調(diào)數(shù)據(jù)治理工作;數(shù)據(jù)治理管控辦法、數(shù)據(jù)質量管理流程等有關規(guī)則制度的牽頭制定和修改;數(shù)據(jù)治理相關系統(tǒng)和工具的管理使用,跟蹤數(shù)據(jù)治理過程改進。
③業(yè)務匯總統(tǒng)計機構:負責各業(yè)務數(shù)據(jù)匯總統(tǒng)計口徑業(yè)務的對接和確定,協(xié)調(diào)處理數(shù)據(jù)匯總口徑的問題。
④數(shù)據(jù)治理小組:負責分析評估數(shù)據(jù)質量,出具各業(yè)務系統(tǒng)數(shù)據(jù)質量報告;負責數(shù)據(jù)的剖析、清洗匹配合并等;定義數(shù)據(jù)的轉換規(guī)則。
⑤數(shù)據(jù)源負責教師:遵循數(shù)據(jù)“一數(shù)一源”原則負責處理系統(tǒng)數(shù)據(jù)質量問題;按照數(shù)據(jù)管理辦法及數(shù)據(jù)標準執(zhí)行數(shù)據(jù)的日常維護;提出業(yè)務數(shù)據(jù)使用需求。
⑥數(shù)據(jù)治理技術支持人員:負責數(shù)據(jù)治理中系統(tǒng)和工具的開發(fā)與維護。
(2)教師一張表數(shù)據(jù)治理實施
通過梳理教師主題業(yè)務場景的構建發(fā)現(xiàn),從各業(yè)務系統(tǒng)集成的數(shù)據(jù)存在各種數(shù)據(jù)質量問題。圖6所示是數(shù)據(jù)主要問題及占比。要讓數(shù)據(jù)成為學校資產(chǎn)并有效應用,數(shù)據(jù)治理刻不容緩。因此,廣州大學以業(yè)務場景驅動面向學校全量數(shù)據(jù)、增量數(shù)據(jù)和未來數(shù)據(jù)積極開展數(shù)據(jù)全生命周期質量管理規(guī)劃設計工作,規(guī)劃成果指導學校業(yè)務數(shù)據(jù)質量管理工作的開展,促進學校數(shù)據(jù)質量持續(xù)提升。教師數(shù)據(jù)主題數(shù)據(jù)治理總體流程設計如圖7所示。從圖7可以看出,教師一張表數(shù)據(jù)治理分兩輪進行:第一輪治理通過數(shù)據(jù)質量管理模塊進行數(shù)據(jù)質量自動探查,匯總出教師主題疑似錯誤數(shù)據(jù)、異常數(shù)據(jù)、重復數(shù)據(jù)和缺失數(shù)據(jù)。并將存在質量問題的數(shù)據(jù)批量反饋業(yè)務部門并限期處理。第二輪治理則開放教師一張表信息系統(tǒng)供教職工使用,教職工使用過程中發(fā)現(xiàn)數(shù)據(jù)問題可通過電話、郵件、現(xiàn)場反饋等方式聯(lián)系數(shù)據(jù)質量管理員或者業(yè)務數(shù)據(jù)負責人進行數(shù)據(jù)核查、補錄、修正等。經(jīng)過業(yè)務部門批量處理以及教師個人糾錯兩輪數(shù)據(jù)治理后,將各業(yè)務系統(tǒng)的數(shù)據(jù)再次同步到教師一張表,即可以提升教師一張表數(shù)據(jù)質量,并應用到其他各個場景。
四、結論與展望
在高校數(shù)據(jù)治理的實踐中可得出以下結論:①數(shù)據(jù)治理是對數(shù)據(jù)進行全生命周期管理;其最終目標是提高數(shù)據(jù)的質量、保證數(shù)據(jù)的安全性、實現(xiàn)數(shù)據(jù)資源在各組織機構部門共享、提升數(shù)據(jù)的服務能力以實現(xiàn)數(shù)據(jù)價值的最大化。②數(shù)據(jù)治理是一個長期而非一蹴而就的浩大工程;數(shù)據(jù)治理應成為高校管理中常態(tài)化工作。③數(shù)據(jù)治理是自上而下的,數(shù)據(jù)治理的推進以業(yè)務驅動將事半功倍。④數(shù)據(jù)治理是一項先管理后技術的問題。主體在數(shù)據(jù)責任部門,以技術部門為輔助。數(shù)據(jù)治理在高校大數(shù)據(jù)生態(tài)建設中有舉足輕重的地位,尋求適合高校數(shù)據(jù)治理的流程和策略值得深入和持續(xù)的探討。
參考文獻:
[1]劉桂鋒,錢錦琳,盧章平.國內(nèi)外數(shù)據(jù)治理研究進展:內(nèi)涵、要素、模型與框架[J].圖書情報工作,2017(21):137-144.
[2]P.Sonla.Six critical success factors for data governance-viewpoint son innovation[EB/OL].http://viewpoints.io/entry/six-critical-success-factors-for-data-governance.
[3]S.Stockdale.Deconstructing data governance[EB/OL].https://repository.unm.edu/Handle/1928/31583.
[4]S.Kim.The analysis of data governance model for business and ITalignment[J].Journal of the Korea Society of Computer and Information,2013,18(7):69-78.
[5]Data governance framework[EB/OL].http://www.datagovernance.com/the-dgi-Framework.
[6]孫嘉睿.國內(nèi)數(shù)據(jù)治理研究進展:體系、保障與實踐[J].圖書館學研究,2018(16):2-8.
[7]嚴昕,孫紅蕾,鄭建明.城鎮(zhèn)信息化中的數(shù)據(jù)治理問題研究[J].情報科學,2017(9):30-35.
[8]續(xù)瑾成.淺談企業(yè)數(shù)據(jù)治理及其統(tǒng)一流程[J].中國管理信息化,2016(16):57.
[9]張瓊文.試論數(shù)據(jù)治理在數(shù)據(jù)質量管理中的作用[J].通訊世界,2017(3):140-141.
[10]李冬,萬磊,費建章.大數(shù)據(jù)治理中的安全問題研究[J].信息與電腦(理論版),2017(6):192-193.
[11]趙剛,王帥,王碰.面向數(shù)據(jù)主權的大數(shù)據(jù)治理技術方案探究[J].網(wǎng)絡空間安全,2017 (Z1):36-42.
[12]談韻.電網(wǎng)大數(shù)據(jù)治理體系初探[J].電子技術與軟件工程,2017(5):182-183.
[13]王宏宇,陳冬梅.行政院校系統(tǒng)信息化建設中的數(shù)據(jù)治理淺析[J].遼寧行政學院學報,2017(4):92-96.
[14]許曉東,王錦華,卞良,孟倩.高等教育的數(shù)據(jù)治理研究[J].高等工程教育研究,2015(5):25-30.
[15]常朝娣,陳敏.大數(shù)據(jù)時代醫(yī)療健康數(shù)據(jù)治理方法研究[J].中國數(shù)字醫(yī)學,2016(9):2-5.
[16]程永新.大數(shù)據(jù)時代的數(shù)據(jù)資產(chǎn)管理方法論與實踐[J].計算機應用與軟件,2018(11):326-329.
(編輯:王天鵬)