文/魏楚元
高校數(shù)據(jù)治理與大數(shù)據(jù)分析的思考與探索
文/魏楚元
大數(shù)據(jù)的出現(xiàn)將顛覆傳統(tǒng)的數(shù)據(jù)管理方式,在數(shù)據(jù)來(lái)源、數(shù)據(jù)處理方式和數(shù)據(jù)思維等方面會(huì)帶來(lái)革命性的變化。高校的大數(shù)據(jù)分析,第一要?jiǎng)?wù)是找準(zhǔn)大數(shù)據(jù)的源頭,并真正把這些大數(shù)據(jù)收集起來(lái),其次是找處理的平臺(tái),最后才是價(jià)值分析。
北京建筑大學(xué)從2000年開(kāi)始建立MIS系統(tǒng)至今十余年,結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)的治理仍然是大部分高校多年來(lái)的重點(diǎn)、難點(diǎn)、痛點(diǎn)和頑疾。雖然處在大數(shù)據(jù)時(shí)代,但高校大數(shù)據(jù)的采集渠道、具體內(nèi)涵仍然在探索之中,而結(jié)構(gòu)化數(shù)據(jù)是清晰可見(jiàn)的,也是最有含金量的,通過(guò)數(shù)據(jù)治理的過(guò)程,應(yīng)該能為大數(shù)據(jù)時(shí)代的數(shù)據(jù)價(jià)值展現(xiàn)做出貢獻(xiàn)。
目前,高校數(shù)據(jù)治理面臨的嚴(yán)峻問(wèn)題:一是業(yè)務(wù)系統(tǒng)過(guò)于分散。職能部處、教輔部門、學(xué)院(部)各自購(gòu)買或建設(shè)業(yè)務(wù)系統(tǒng),孤立的業(yè)務(wù)系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)不一致、代碼標(biāo)準(zhǔn)不一致,客觀上造成了數(shù)據(jù)的孤島,加大了數(shù)據(jù)清洗、整合的難度;二是“兩張皮”現(xiàn)象。業(yè)務(wù)系統(tǒng)使用與Excel管理并舉,更多管理人員習(xí)慣于Excel管理。業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)不準(zhǔn)確、更新不及時(shí),多科室多人頭管理,崗位變動(dòng)頻繁,數(shù)據(jù)管理混亂;三是數(shù)據(jù)質(zhì)量問(wèn)題嚴(yán)重。數(shù)據(jù)源頭上的數(shù)據(jù)質(zhì)量水平層次不齊,數(shù)據(jù)質(zhì)量不高是普遍事實(shí)。
此外,數(shù)據(jù)來(lái)源眾多且分散,缺少真正有效整合;數(shù)據(jù)從生產(chǎn)到使用中間流程不清晰;數(shù)據(jù)孤島林立,數(shù)據(jù)之間不能有效交換;數(shù)據(jù)融合困難,存在壁壘和發(fā)展不均衡;數(shù)據(jù)質(zhì)量堪憂,數(shù)據(jù)的完備性、準(zhǔn)確性存疑。
高校數(shù)據(jù)治理工作可分為以下幾步:第一步是發(fā)現(xiàn)數(shù)據(jù)并采集,第二步是數(shù)據(jù)進(jìn)行梳理與質(zhì)量初檢,第三步是數(shù)據(jù)標(biāo)準(zhǔn)核對(duì)與數(shù)據(jù)補(bǔ)充核準(zhǔn),第四步是數(shù)據(jù)清洗與整合交換,建立共享數(shù)據(jù)中心,第五步是數(shù)據(jù)管理與質(zhì)量評(píng)估、可用服務(wù)接口設(shè)計(jì),第六步是數(shù)據(jù)價(jià)值模型建立與展示。
數(shù)據(jù)治理的目標(biāo)是提升數(shù)據(jù)質(zhì)量。實(shí)現(xiàn)數(shù)據(jù)資源在各組織機(jī)構(gòu)部門的共享,以接口方式提供任何可用數(shù)據(jù)服務(wù)。挖掘出數(shù)據(jù)的價(jià)值,可視化展示,支持決策分析。充分發(fā)揮信息化作用,用數(shù)據(jù)價(jià)值增強(qiáng)師生對(duì)信息化發(fā)展的信心與價(jià)值認(rèn)同。
數(shù)據(jù)治理的幾個(gè)關(guān)鍵要素包括:組織架構(gòu)、業(yè)務(wù)流程、技術(shù)平臺(tái)與工具、制度與標(biāo)準(zhǔn)規(guī)范。
在組織架構(gòu)上,北京建筑大學(xué)設(shè)立信息化協(xié)調(diào)工作組,其中數(shù)據(jù)共享專業(yè)小組負(fù)責(zé)制定學(xué)校的整體數(shù)據(jù)架構(gòu)。從管理和技術(shù)兩個(gè)層面對(duì)學(xué)校數(shù)據(jù)資源進(jìn)行定義,制定全校數(shù)據(jù)的標(biāo)準(zhǔn)、運(yùn)維機(jī)制、分布策略和共享方法。 數(shù)據(jù)共享專業(yè)小組由黨政辦公室、組織部、研究生院、學(xué)生工作部(處)、教務(wù)處、招生就業(yè)處、科技處、人事處、財(cái)務(wù)處、資產(chǎn)與后勤管理處和網(wǎng)絡(luò)信息中心等單位組成,圍繞學(xué)校各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)建設(shè)、質(zhì)量分析、運(yùn)維管理、交換共享、決策分析和數(shù)據(jù)驗(yàn)收等開(kāi)展工作。
在業(yè)務(wù)流程方面,所有的數(shù)據(jù)都不是孤立的,從數(shù)據(jù)生產(chǎn)到數(shù)據(jù)歸倉(cāng),數(shù)據(jù)的流向一定是業(yè)務(wù)流程的輸入或輸出,如同經(jīng)絡(luò)與血液。通過(guò)全方位的業(yè)務(wù)梳理,盤點(diǎn)數(shù)據(jù)資產(chǎn)(如圖1所示)。
圖1 數(shù)據(jù)資產(chǎn)盤點(diǎn)過(guò)程
在技術(shù)平臺(tái)和工具方面,實(shí)現(xiàn)大數(shù)據(jù)分析平臺(tái)與傳統(tǒng)業(yè)務(wù)數(shù)據(jù)管理平臺(tái)交叉融合。
在制度與標(biāo)準(zhǔn)規(guī)范上,明確數(shù)據(jù)是學(xué)校的核心資產(chǎn),理清每一條數(shù)據(jù)的責(zé)任人。
數(shù)據(jù)治理的核心目標(biāo)是數(shù)據(jù)質(zhì)量, 數(shù)據(jù)質(zhì)量意識(shí)是數(shù)據(jù)治理的生命線。質(zhì)量意識(shí)是一所大學(xué)從領(lǐng)導(dǎo)決策層到每一個(gè)員工對(duì)質(zhì)量和質(zhì)量工作的認(rèn)識(shí)和理解的程度,這對(duì)質(zhì)量行為起著極其重要的影響和制約作用。
在數(shù)據(jù)標(biāo)準(zhǔn)上,學(xué)校起草了新版《北京建筑大學(xué)管理信息標(biāo)準(zhǔn)》,為推進(jìn)數(shù)據(jù)共享和業(yè)務(wù)系統(tǒng)建設(shè)提供數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),包含教職工、學(xué)生、教學(xué)、科研、財(cái)務(wù)、辦公、圖書、一卡通、資產(chǎn)、其他10個(gè)數(shù)據(jù)子集和1個(gè)學(xué)校基礎(chǔ)情況數(shù)據(jù)子集。
在數(shù)據(jù)抽取方面,利用DCI平臺(tái),建立數(shù)據(jù)抽取轉(zhuǎn)換業(yè)務(wù)。設(shè)計(jì)包含科研、研究生、圖書館、人事、一卡通、教務(wù)、辦公、財(cái)務(wù)、招就、學(xué)工10個(gè)業(yè)務(wù)系統(tǒng)共300多個(gè)數(shù)據(jù)抽取轉(zhuǎn)換業(yè)務(wù)。并根據(jù)需要配置任務(wù)執(zhí)行時(shí)間及頻率,通過(guò)系統(tǒng)對(duì)數(shù)據(jù)抽取業(yè)務(wù)實(shí)時(shí)監(jiān)控。
在數(shù)據(jù)質(zhì)量上,利用數(shù)據(jù)質(zhì)量監(jiān)控平臺(tái),實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)中心集成的數(shù)據(jù)。對(duì)數(shù)據(jù)質(zhì)量配置相應(yīng)監(jiān)控規(guī)則(如完整性、一致性、有效性等),及時(shí)發(fā)現(xiàn)有問(wèn)題的數(shù)據(jù)。針對(duì)人事數(shù)據(jù)進(jìn)行重點(diǎn)排查,形成數(shù)據(jù)質(zhì)量報(bào)告,報(bào)告中指明了數(shù)據(jù)缺失、數(shù)據(jù)異常、數(shù)據(jù)錯(cuò)誤等各類問(wèn)題并附有詳細(xì)列表,便于協(xié)同人事處對(duì)有問(wèn)題數(shù)據(jù)進(jìn)行進(jìn)一步治理。
通過(guò)數(shù)據(jù)接口服務(wù),向人事考核系統(tǒng)提供教師科研、教學(xué)工作量、指導(dǎo)學(xué)生等數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)有效流轉(zhuǎn),避免教師重復(fù)填寫;向離校系統(tǒng)提供學(xué)生財(cái)務(wù)繳費(fèi)、欠費(fèi)數(shù)據(jù)、圖書借閱、違章、欠款情況,實(shí)現(xiàn)業(yè)務(wù)網(wǎng)上辦理,數(shù)據(jù)實(shí)時(shí)呈現(xiàn),簡(jiǎn)化學(xué)生離校程序;建立數(shù)據(jù)抽取轉(zhuǎn)換定時(shí)任務(wù),支撐科研財(cái)務(wù)系統(tǒng)對(duì)接完成。
北建大數(shù)據(jù)價(jià)值模型設(shè)計(jì)了智慧校園運(yùn)營(yíng)多級(jí)指標(biāo)體系以及相應(yīng)的數(shù)據(jù)可視化運(yùn)營(yíng)大屏,初步實(shí)現(xiàn)了智慧北建大數(shù)據(jù)駕駛艙,包含綜合校情、師資科研、學(xué)生成長(zhǎng)服務(wù)等模型(圖2、3為相關(guān)實(shí)例)。
綜上,北建大數(shù)據(jù)治理初見(jiàn)成效,初步建立了《管理信息標(biāo)準(zhǔn)》和共享數(shù)據(jù)中心。學(xué)校注重?cái)?shù)據(jù)服務(wù)接口建設(shè),保證共享數(shù)據(jù)中心的可用性。在數(shù)據(jù)治理過(guò)程中發(fā)現(xiàn)了很多散落的數(shù)據(jù),逐步梳理收集歸倉(cāng)。數(shù)據(jù)治理過(guò)程提升了數(shù)據(jù)質(zhì)量,數(shù)據(jù)的價(jià)值模型、價(jià)值發(fā)現(xiàn)在同步建設(shè)和研討中,同時(shí),數(shù)據(jù)治理還不夠深入,需要不斷迭代優(yōu)化,需要進(jìn)一步提升數(shù)據(jù)質(zhì)量。
圖2 教學(xué)活動(dòng)透視分析
圖3 近幾個(gè)月學(xué)生生活消費(fèi)異常行為分析模型
同時(shí),要做好大數(shù)據(jù)分析,還需要做好以下幾點(diǎn):
第一,要在數(shù)據(jù)源頭采集上下功夫,拓展大數(shù)據(jù)分析之外的工作,數(shù)據(jù)采集工作很重要,已有的要采集歸倉(cāng),沒(méi)有的要實(shí)現(xiàn)采集;
第二,加強(qiáng)網(wǎng)絡(luò)流量分析、網(wǎng)絡(luò)日志分析、圖書文獻(xiàn)資源檢索分析、圖書館門禁分析等;
第三,結(jié)構(gòu)化數(shù)據(jù)治理與非結(jié)構(gòu)化數(shù)據(jù)都要重視,更要重視結(jié)構(gòu)化數(shù)據(jù)分析;
第四,了解學(xué)校最關(guān)心什么:教師和學(xué)生。教師是否在認(rèn)真教書育人?學(xué)生是否在認(rèn)真學(xué)習(xí)?所有的管理工作都是為這兩點(diǎn)服務(wù)的。大數(shù)據(jù)分析應(yīng)該從學(xué)校最關(guān)心的業(yè)務(wù)點(diǎn)著手,才會(huì)有的放矢。
未來(lái),北建大將建設(shè)真正完全交換、可用的全量數(shù)據(jù)管理中心,數(shù)據(jù)為流程服務(wù),流程促進(jìn)數(shù)據(jù)價(jià)值;繼續(xù)收集梳理非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);通過(guò)結(jié)構(gòu)化數(shù)據(jù)+非結(jié)構(gòu)化數(shù)據(jù)+大數(shù)據(jù)分析平臺(tái),尋找大數(shù)據(jù)的價(jià)值;建設(shè)綜合校情實(shí)時(shí)分析平臺(tái),為各級(jí)各類領(lǐng)導(dǎo)提供決策支持。