毛文卉, 吳 馳, 劉雅琴, 李 凱, 秦 楠, 嚴(yán) 帆
(華中科技大學(xué)網(wǎng)絡(luò)與計算中心,武漢 430074)
大數(shù)據(jù)時代,數(shù)據(jù)互通共享是挖掘數(shù)據(jù)價值的重要基礎(chǔ),也是數(shù)據(jù)利用的主要方式。數(shù)據(jù)共享在國家層面也受到極大重視,國務(wù)院辦公廳先后印發(fā)了《政務(wù)信息資源共享管理暫行辦法》[1]和《政務(wù)信息系統(tǒng)整合共享實施方案》[2]。作為人才培養(yǎng)和科技創(chuàng)新重要場所,在教育信息化2.0的背景下,全國高校都在不斷優(yōu)化整合自己的業(yè)務(wù)流程、逐步消除數(shù)據(jù)孤島,促進(jìn)數(shù)據(jù)共享,大部分高校均建設(shè)了統(tǒng)一的數(shù)據(jù)共享平臺,基本實現(xiàn)了“信息多跑路,師生少跑退”,但在這個過程中也暴露出業(yè)務(wù)部門數(shù)據(jù)共享意愿不足、數(shù)據(jù)質(zhì)量不高、數(shù)據(jù)標(biāo)準(zhǔn)缺失、數(shù)據(jù)共享存在安全隱患等問題[3]。
通過在CNKI中檢索并分析高教領(lǐng)域的數(shù)據(jù)共享相關(guān)文獻(xiàn)后發(fā)現(xiàn),目前高校數(shù)據(jù)共享治理框架的研究較少,大部分集中在對數(shù)據(jù)共享平臺和共享技術(shù)與平臺功能的研究[3],這些平臺僅從技術(shù)和工具上解決了數(shù)據(jù)流動的問題,但是數(shù)據(jù)共享過程中的組織機(jī)制建設(shè)、流程梳理、數(shù)據(jù)源頭確定、數(shù)據(jù)安全保障、數(shù)據(jù)質(zhì)量管理等重要因素較少提及,沒有上述保障,數(shù)據(jù)在共享過程中的完整性、一致性和可用性很難保證,數(shù)據(jù)的真正價值無法發(fā)揮。同時,為提升數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)價值,發(fā)揮數(shù)據(jù)在高校治理、決策中的作用,高校不少學(xué)者提出了自己的數(shù)據(jù)治理框架和體系[4-8],數(shù)據(jù)共享作為數(shù)據(jù)治理的主要目標(biāo)之一,其中雖提及數(shù)據(jù)共享框架的建設(shè),但未對其進(jìn)行深入探討和分析,數(shù)據(jù)共享作為數(shù)據(jù)治理的核心問題和主要目標(biāo)之一[9-12],對其研究的深度和廣度需要加強(qiáng)。
因此本文在高教領(lǐng)域數(shù)據(jù)治理的背景下,從組織建設(shè)、流程管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、數(shù)據(jù)集成、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量7個方面構(gòu)建統(tǒng)一、通用的高校數(shù)據(jù)共享治理框架,全面梳理數(shù)據(jù)共享的整個流程、完善數(shù)據(jù)共享中的體制機(jī)制、擴(kuò)大數(shù)據(jù)共享的廣度和深度,同時提升數(shù)據(jù)的質(zhì)量,保障數(shù)據(jù)安全。在學(xué)校數(shù)據(jù)共享平臺的建設(shè)中,基于此框架,建成了校數(shù)據(jù)共享平臺,厘清了數(shù)據(jù)共享中的組織建設(shè)、流程管理等問題,實現(xiàn)了數(shù)據(jù)標(biāo)準(zhǔn)及時更新、數(shù)據(jù)流向?qū)崟r顯示、數(shù)據(jù)加密傳輸、數(shù)據(jù)質(zhì)量報告定期反饋等。
通過分析CNKI上高校數(shù)據(jù)共享相關(guān)的文章[3],目前高校已基本建成或者正在建設(shè)校級數(shù)據(jù)基礎(chǔ)數(shù)據(jù)庫以及共享平臺,將學(xué)校管理中最基礎(chǔ)最核心的數(shù)據(jù)集成到數(shù)據(jù)中心,再對外共享數(shù)據(jù)。但對數(shù)據(jù)共享平臺的研究多集中在共享技術(shù)的分析和共享平臺功能的闡述上,少部分高校在建設(shè)數(shù)據(jù)共享平臺的過程中考慮到數(shù)據(jù)采集標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全等問題[13-15],但未形成統(tǒng)一的、通用的框架。
大部分共享平臺的建設(shè)路徑,遵循下面的模式:確定數(shù)據(jù)源系統(tǒng)-通過ETL工具或者接口將數(shù)據(jù)采集到?;A(chǔ)數(shù)據(jù)庫-對外共享數(shù)據(jù)[3]。這種建設(shè)模式解決了以往由各業(yè)務(wù)各自開發(fā)接口對外提供數(shù)據(jù)時遇到的職權(quán)不清,接口維護(hù)成本日益增大的問題。但是在實際工作中凸顯很多問題:
(1)大部分系統(tǒng)共享意愿不高[16-18]。若沒有明確的組織機(jī)制保障,一般數(shù)據(jù)共享平臺的建設(shè)由校網(wǎng)絡(luò)中心負(fù)責(zé),在集成各個部門數(shù)據(jù)的時候困難重重。①數(shù)據(jù)共享平臺的建設(shè)改變了傳統(tǒng)數(shù)據(jù)共享方式;②在享受到數(shù)據(jù)共享平臺帶來便利前,集成數(shù)據(jù)時帶來的數(shù)據(jù)清洗、轉(zhuǎn)換工作,確實給業(yè)務(wù)系統(tǒng)增加了日常工作量;③很多部門擔(dān)心數(shù)據(jù)對外共享帶來的安全問題。
(2)數(shù)據(jù)標(biāo)準(zhǔn)缺失或不符合學(xué)校實際情況[8]。沒有數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)共享過程涉及基礎(chǔ)數(shù)據(jù)庫的建設(shè)無據(jù)可依。部分高校依據(jù)教育部2012年發(fā)布的《教育管理信息教育管理基礎(chǔ)代碼》[19]發(fā)布了數(shù)據(jù)標(biāo)準(zhǔn),但缺乏專門的更新、管理機(jī)制,導(dǎo)致數(shù)據(jù)標(biāo)準(zhǔn)不符合學(xué)校實際情況,在使用過程中形同虛設(shè)[8]。
(3)權(quán)威數(shù)據(jù)源部門定義不夠細(xì)致[3]。數(shù)據(jù)共享中定義了某類信息歸屬部門,但沒有細(xì)化到字段,在集成過程中就會出現(xiàn)數(shù)據(jù)不一致,一字段多源的情況。
(4)數(shù)據(jù)共享缺乏流程管理[3]。數(shù)據(jù)共享中兩大主體為:源數(shù)據(jù)部門、數(shù)據(jù)需求部門。沒有流程管理,源數(shù)據(jù)部門對自己數(shù)據(jù)何時流向何處不清楚,數(shù)據(jù)需求部門不知如何申請數(shù)據(jù),造成數(shù)據(jù)共享程度不高。
(5)數(shù)據(jù)共享中數(shù)據(jù)安全性問題沒有受到重視[3]。目前數(shù)據(jù)共享大部分采用數(shù)據(jù)推送或者是提供服務(wù)接口的方式,均是明文傳輸,數(shù)據(jù)流出去后,也沒有對應(yīng)的審計手段。
(6)無法提升數(shù)據(jù)質(zhì)量[3]。數(shù)據(jù)共享缺乏反饋機(jī)制,雖然數(shù)據(jù)共享平臺初步解決了“數(shù)據(jù)孤島”的問題,但目前的建設(shè)模式并沒有把提升數(shù)據(jù)質(zhì)量放在重要的位置,導(dǎo)致數(shù)據(jù)質(zhì)量仍然是一個很大的問題,而數(shù)據(jù)質(zhì)量出現(xiàn)問題,導(dǎo)致很多系統(tǒng)又會重復(fù)采集一些基礎(chǔ)數(shù)據(jù),導(dǎo)致數(shù)據(jù)共享程度降低,無法形成良性循環(huán)。
為解決以上問題,必須在數(shù)據(jù)治理的背景下,提出高校數(shù)據(jù)共享的共享框架,解決高校數(shù)據(jù)共享中遇到的組織制度不完善、流程管理欠缺、數(shù)據(jù)標(biāo)準(zhǔn)不符合實際、數(shù)據(jù)集成不全、數(shù)據(jù)安全問題不夠重視、數(shù)據(jù)質(zhì)量不高的問題。
為了解決當(dāng)前高校數(shù)據(jù)共享面臨的問題,提升數(shù)據(jù)質(zhì)量,挖掘數(shù)據(jù)價值,不僅要解決技術(shù)實現(xiàn)的問題,還需要構(gòu)建學(xué)校層面的數(shù)據(jù)共享框架,如圖1所示。由組織建設(shè)、流程管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、數(shù)據(jù)集成共享、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量7部分組成。這7個部分既有機(jī)結(jié)合,又相互支撐。
組織建設(shè)是數(shù)據(jù)共享的基礎(chǔ)。①應(yīng)根據(jù)高校各部門管理職責(zé)的實際情況,確定各類數(shù)據(jù)的權(quán)威管理和產(chǎn)生部門[19];②應(yīng)有專門的組織協(xié)調(diào)機(jī)構(gòu),注重發(fā)揮其作用,一般由高校的網(wǎng)絡(luò)與信息化管理部門承擔(dān);最后,還應(yīng)有專門負(fù)責(zé)數(shù)據(jù)共享實施的技術(shù)部門,如校網(wǎng)絡(luò)中心、信息中心等,所有的技術(shù)實現(xiàn)都由該部門完成。為保證數(shù)據(jù)不被隨意共享,數(shù)據(jù)共享應(yīng)有完整的審批流程,由數(shù)據(jù)的權(quán)威產(chǎn)生部門按照“最少可用”的原則,對數(shù)據(jù)共享的申請進(jìn)行嚴(yán)格審批。權(quán)威數(shù)據(jù)源確定后,數(shù)據(jù)共享有兩種模式,一種是直接從各個部門的系統(tǒng)將數(shù)據(jù)共享出去,但這加重了業(yè)務(wù)系統(tǒng)的維護(hù)成本,且在實際工作中,各個部門管理人員往往缺乏技術(shù)能力,無法依靠內(nèi)部人員來實現(xiàn),如果依靠第三方公司,又有數(shù)據(jù)泄漏的風(fēng)險,故應(yīng)采用第二種方式,建立學(xué)校的基礎(chǔ)數(shù)據(jù)庫,由學(xué)校專門的技術(shù)部門將各類基礎(chǔ)數(shù)據(jù)按照數(shù)據(jù)標(biāo)準(zhǔn)采集到?;A(chǔ)數(shù)據(jù)庫,再經(jīng)基礎(chǔ)數(shù)據(jù)庫統(tǒng)一共享出去,這就需要建立數(shù)據(jù)標(biāo)準(zhǔn)和對元數(shù)據(jù)進(jìn)行管理。在整個數(shù)據(jù)采集和數(shù)據(jù)共享的過程中,要保障數(shù)據(jù)安全和數(shù)據(jù)質(zhì)量。
數(shù)據(jù)共享工作的有效開展離不開組織建設(shè)[20],這也是數(shù)據(jù)共享工作的基礎(chǔ)。如圖2所示,整個數(shù)據(jù)共享工作應(yīng)該由校信息化領(lǐng)導(dǎo)小組牽頭,協(xié)調(diào)各個部門,使得數(shù)據(jù)共享工作在整個學(xué)校內(nèi)獲得支持。由校網(wǎng)絡(luò)與信息化辦公室制定具體的管理辦法,包括確定數(shù)據(jù)共享的范圍(確定哪些是需要共享的基礎(chǔ)數(shù)據(jù))、如何建立數(shù)據(jù)標(biāo)準(zhǔn)、確定共享數(shù)據(jù)的權(quán)威數(shù)據(jù)源、確定共享的模式等核心內(nèi)容。各個業(yè)務(wù)部門配合校網(wǎng)絡(luò)與信息化辦公室進(jìn)行各自系統(tǒng)數(shù)據(jù)的梳理,按照數(shù)據(jù)標(biāo)準(zhǔn)提供和申請數(shù)據(jù)。整個數(shù)據(jù)共享過程的技術(shù)實施由專門的校網(wǎng)絡(luò)中心技術(shù)部門負(fù)責(zé),保證共享過程的安全性和效率。經(jīng)過數(shù)據(jù)共享過程中的組織建設(shè),從校領(lǐng)導(dǎo)到各業(yè)務(wù)部門都對學(xué)校和各自業(yè)務(wù)部門的數(shù)據(jù)有了深入的認(rèn)識和理解,也明確了各自的職責(zé)和工作。
數(shù)據(jù)共享涉及多個環(huán)節(jié)和多個部門,需要申請數(shù)據(jù)時,會遇到以下問題,按什么原則申請數(shù)據(jù)?向誰申請數(shù)據(jù)?由誰來審批?由誰來執(zhí)行等,可通過流程的建設(shè)來解決這些問題。
通過組織建設(shè),明確了各項數(shù)據(jù)的權(quán)威數(shù)據(jù)源,業(yè)務(wù)部門在申請數(shù)據(jù)共享時,應(yīng)按照“最少可用”的原則,首先應(yīng)將數(shù)據(jù)共享申請按字段向所屬部門提交申請,字段所屬各部門對申請進(jìn)行審批,最后意見匯總到校網(wǎng)絡(luò)中心技術(shù)部門數(shù)據(jù)操作人員節(jié)點上,由該人員進(jìn)行實際的數(shù)據(jù)共享實施,保證數(shù)據(jù)共享過程有流程有據(jù)可依。整個數(shù)據(jù)共享的流程如圖3所示。整個流程涉及申請人、各業(yè)務(wù)部門信息化聯(lián)絡(luò)員、各業(yè)務(wù)部門主要負(fù)責(zé)人、校網(wǎng)絡(luò)中心操作人員、校網(wǎng)絡(luò)中心數(shù)據(jù)復(fù)合人員等,各類人員各司其職,所申請的字段經(jīng)過層層核查,最大程度避免數(shù)據(jù)濫用。每個流程節(jié)點人員的職責(zé)如表1所示。
表1 數(shù)據(jù)共享流程各節(jié)點人員職責(zé)角色
數(shù)據(jù)標(biāo)準(zhǔn)是整個數(shù)據(jù)治理下數(shù)據(jù)共享的基礎(chǔ)和首要環(huán)節(jié)[21]。數(shù)據(jù)共享的實施離不開數(shù)據(jù)標(biāo)準(zhǔn)建設(shè)。數(shù)據(jù)共享涉及兩個關(guān)鍵流程:數(shù)據(jù)采集和數(shù)據(jù)共享。傳統(tǒng)的數(shù)據(jù)采集是根據(jù)數(shù)據(jù)源本身的結(jié)構(gòu)把數(shù)據(jù)采集到學(xué)?;A(chǔ)數(shù)據(jù)庫,但是隨著對接的系統(tǒng)越來越多,每個系統(tǒng)數(shù)據(jù)結(jié)構(gòu)規(guī)范會有很大差異,基礎(chǔ)數(shù)據(jù)庫就會變得雜亂無章,不好管理。所以要進(jìn)行標(biāo)準(zhǔn)化的采集。而將數(shù)據(jù)共享出去時不應(yīng)是按照業(yè)務(wù)方的數(shù)據(jù)結(jié)構(gòu)需求把數(shù)據(jù)提供過去,這樣會使相同的數(shù)據(jù)項可能由于對方需要結(jié)構(gòu)的不同需要反復(fù)開發(fā)接口,維護(hù)會變得非常困難,所以在數(shù)據(jù)治理背景下,一定要進(jìn)行標(biāo)準(zhǔn)化地采集和共享,總的原則是:按照學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)建立學(xué)校基礎(chǔ)數(shù)據(jù)庫,按基礎(chǔ)數(shù)據(jù)庫的結(jié)構(gòu)對數(shù)據(jù)源頭的數(shù)據(jù)進(jìn)行轉(zhuǎn)化后采集,數(shù)據(jù)共享時,按照基礎(chǔ)庫的結(jié)構(gòu)提供數(shù)據(jù),方便數(shù)據(jù)共享接口的復(fù)用和維護(hù)。
為實現(xiàn)上述目標(biāo),首先就要建立數(shù)據(jù)標(biāo)準(zhǔn)。教育部在2012年發(fā)布了《教育管理信息教育管理基礎(chǔ)代碼》[22],其中對高校管理所涉及所有表信息和相關(guān)的代碼標(biāo)準(zhǔn)都做出了定義,也對高校管理中需要參考的國家標(biāo)準(zhǔn)和行業(yè)標(biāo)準(zhǔn)也做了詳細(xì)說明。但是每個學(xué)校的信息化程度和實際辦學(xué)情況有所差異,需要結(jié)合學(xué)校的實際情況來建立學(xué)校的數(shù)據(jù)標(biāo)準(zhǔn)。綜上,高校數(shù)據(jù)標(biāo)準(zhǔn)的構(gòu)成如圖4所示。
整個數(shù)據(jù)標(biāo)準(zhǔn)包括3個部分:
(1)基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)。按照高校管理的實際情況,將所有的數(shù)據(jù)按子集分類,并定義每個子集內(nèi)基礎(chǔ)數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)的體系結(jié)構(gòu)見圖5[22]。
(2)代碼標(biāo)準(zhǔn)。定義基礎(chǔ)數(shù)據(jù)中所涉及到的代碼信息,其中需要參考國標(biāo)、行業(yè)標(biāo)準(zhǔn)(簡稱行標(biāo))、通用標(biāo)準(zhǔn)、校標(biāo)。
(3)編碼標(biāo)準(zhǔn)。根據(jù)學(xué)校的實際情況,對機(jī)構(gòu)或者人員等的編碼規(guī)則。
在梳理確定好數(shù)據(jù)標(biāo)準(zhǔn)后,需要建立專門的數(shù)據(jù)標(biāo)準(zhǔn)管理平臺,數(shù)據(jù)標(biāo)準(zhǔn)管理平臺的功能包括標(biāo)準(zhǔn)管理、發(fā)布、更新等功能,讓業(yè)務(wù)系統(tǒng)在建立之初就參考數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行建設(shè),方便后期的數(shù)據(jù)治理工作。
元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)[16]。在數(shù)據(jù)共享的數(shù)據(jù)采集環(huán)節(jié),要確定從業(yè)務(wù)系統(tǒng)的什么表中去采集什么字段,需要對業(yè)務(wù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行全面摸底調(diào)研,采集各個業(yè)務(wù)系統(tǒng)的元數(shù)據(jù)信息,再參考學(xué)校定義的數(shù)據(jù)標(biāo)準(zhǔn),對涉及的所有元數(shù)據(jù)進(jìn)行統(tǒng)一管理。
元數(shù)據(jù)管理的體系結(jié)構(gòu)如圖6所示,元數(shù)據(jù)管理與數(shù)據(jù)標(biāo)準(zhǔn)管理密不可分,數(shù)據(jù)標(biāo)準(zhǔn)是元數(shù)據(jù)管理的基礎(chǔ),通過元數(shù)據(jù)管理平臺對全校數(shù)據(jù)資源進(jìn)行集中定義、統(tǒng)一管理,通過建設(shè)該平臺幫助管理人員掌握學(xué)校資源,對于數(shù)據(jù)的全生命周期的掌握更加全面。對于數(shù)據(jù)從哪來、到哪里去,一清二楚,同時也能夠更加方便知道數(shù)據(jù)在哪,促進(jìn)高校數(shù)據(jù)標(biāo)準(zhǔn)不斷完善通過建設(shè)元數(shù)據(jù)管理平臺,采用集中式管理模式進(jìn)行元數(shù)據(jù)管理,全校元數(shù)據(jù)邏輯集中,即元數(shù)據(jù)管理模塊作為學(xué)校元數(shù)據(jù)的統(tǒng)一發(fā)布源,集中管理元數(shù)據(jù),提供元數(shù)據(jù)集中創(chuàng)建、維護(hù)、查詢功能。平臺具備管理、開發(fā)、共享、使用等能力,通過自動、自助、智能化的大數(shù)據(jù)治理,實現(xiàn)對數(shù)據(jù)的找、供、用、治。
數(shù)據(jù)集成是數(shù)據(jù)共享的必備環(huán)節(jié),經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)梳理和元數(shù)據(jù)管理,已經(jīng)解決了數(shù)據(jù)集成的數(shù)據(jù)從哪里拿,按什么結(jié)構(gòu)拿的問題。接下來就是按照標(biāo)準(zhǔn)對原始數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)化,通過專門的數(shù)據(jù)交換平臺,采用定時或者實時的方式將數(shù)據(jù)采集到基礎(chǔ)數(shù)據(jù)庫。一般數(shù)據(jù)的清洗和轉(zhuǎn)化采用在業(yè)務(wù)系統(tǒng)編寫視圖的方式,代碼數(shù)據(jù)的轉(zhuǎn)化可以在數(shù)據(jù)采集的過程中進(jìn)行動態(tài)的轉(zhuǎn)化。整個采集過程如圖7所示。
為防止數(shù)據(jù)集成對業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫的影響,采用從業(yè)務(wù)系統(tǒng)中間庫集成數(shù)據(jù)的方式,其中業(yè)務(wù)系統(tǒng)中間庫由業(yè)務(wù)部門自己維護(hù),從業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫到中間庫的數(shù)據(jù)同步由業(yè)務(wù)系統(tǒng)根據(jù)系統(tǒng)的實際情況選擇同步方式。
數(shù)據(jù)交換平臺提供兩種數(shù)據(jù)交換的方式:定時和實時。定時一般采用ETL工具實現(xiàn),實時交換一般基于數(shù)據(jù)庫的日志實現(xiàn)源端數(shù)據(jù)到目標(biāo)端數(shù)據(jù)復(fù)制。
此外,為了讓數(shù)據(jù)集成工作有規(guī)章可依,網(wǎng)絡(luò)與信息化辦公室可以在項目的驗收環(huán)節(jié),增加數(shù)據(jù)集成的步驟,從制度上就保障了數(shù)據(jù)的集成。
數(shù)據(jù)安全是數(shù)據(jù)共享中是必須要解決的問題[23]。保障數(shù)據(jù)安全可以從管理和技術(shù)上著手。
在數(shù)據(jù)共享中,整個安全保障體系如圖8所示。
在管理方式上,可以通過以下手段提升數(shù)據(jù)安全:
(1)各類基礎(chǔ)數(shù)據(jù)共享的權(quán)限分別分配給各數(shù)據(jù)源部門,當(dāng)數(shù)據(jù)需求方在線上提交數(shù)據(jù)共享申請后,由各個數(shù)據(jù)源部門按照“最少可用”的原則對每個字段進(jìn)行審批,①保障數(shù)據(jù)共享的范圍最小化,避免敏感數(shù)據(jù)外發(fā);②共享出去的每個字段都是經(jīng)過層層審批,在發(fā)生安全問題時,可以快速定位被泄漏的字段曾經(jīng)共享給哪些系統(tǒng),找出可能存在泄漏的系統(tǒng)。
(2)由校網(wǎng)絡(luò)與信息化辦公室定明確的規(guī)章制度,要求在業(yè)務(wù)系統(tǒng)的開發(fā)過程中正式數(shù)據(jù)庫服務(wù)器和測試數(shù)據(jù)庫服務(wù)器分開,系統(tǒng)上線前經(jīng)過嚴(yán)格的安全掃描,在系統(tǒng)通過安全掃描前,只能往測試數(shù)據(jù)庫服務(wù)器上同步測試數(shù)據(jù),正式上線后,再向正式數(shù)據(jù)庫服務(wù)器同步正式數(shù)據(jù)。
(3)對數(shù)據(jù)庫服務(wù)器的訪問統(tǒng)一采用堡壘機(jī)的方式,保證對數(shù)據(jù)庫服務(wù)器的所有操作都能完整記錄下來,避免數(shù)據(jù)泄露。
整個數(shù)據(jù)共享分為兩種方式:定時推送、開放接口。在同步技術(shù)上,通過以下手段提升數(shù)據(jù)安全:
(1)定時推送采用中間庫的方式。中間庫“專庫專用”,所有的數(shù)據(jù)共享均通過統(tǒng)一的數(shù)據(jù)共享平臺按照數(shù)據(jù)標(biāo)準(zhǔn)來推送數(shù)據(jù),保障數(shù)據(jù)的可用性、完整性。部署數(shù)據(jù)庫安全網(wǎng)關(guān),對數(shù)據(jù)從中間庫流向業(yè)務(wù)庫的過程進(jìn)行監(jiān)控,對異常的訪問和導(dǎo)出及時向管理員發(fā)送告警。
(2)通過開放接口RESTFUL類型接口共享數(shù)據(jù)時,采用加密技術(shù)對數(shù)據(jù)加密,保證傳輸安全,采用數(shù)字簽名技術(shù),保證數(shù)據(jù)完整性。
(3)建立數(shù)據(jù)同步監(jiān)控平臺,對定時推送和開放接口的同步情況進(jìn)行監(jiān)控,發(fā)現(xiàn)異常的情況立即告警。
數(shù)據(jù)共享推動數(shù)據(jù)在流動、在使用的過程中不斷完善,提升數(shù)據(jù)質(zhì)量。
當(dāng)數(shù)據(jù)僅存在各自業(yè)務(wù)系統(tǒng)中時,業(yè)務(wù)部門提升數(shù)據(jù)質(zhì)量沒有驅(qū)動力,大部分系統(tǒng)僅僅滿足在功能可用的階段。只有當(dāng)數(shù)據(jù)通過共享流動起來時候,才能暴露數(shù)據(jù)的問題,在使用中不斷修正。
在數(shù)據(jù)共享的過程中提升數(shù)據(jù)質(zhì)量,主要從管理和技術(shù)兩個方面來實現(xiàn)。在管理層面,通過在數(shù)據(jù)共享前對權(quán)威數(shù)據(jù)源的認(rèn)定,讓各個系統(tǒng)在建設(shè)的時候,盡量不自己搜集數(shù)據(jù),每類數(shù)據(jù)僅有一個權(quán)威數(shù)據(jù)源,發(fā)現(xiàn)問題向權(quán)威數(shù)據(jù)源反饋并解決,權(quán)威數(shù)據(jù)源一旦修正后,所有共享數(shù)據(jù)的系統(tǒng)的相關(guān)數(shù)據(jù)質(zhì)量均得到提升;對于已經(jīng)建成的系統(tǒng),在數(shù)據(jù)集成到基礎(chǔ)數(shù)據(jù)庫時按照數(shù)據(jù)標(biāo)準(zhǔn)對原始數(shù)據(jù)進(jìn)行清洗轉(zhuǎn)化,保證數(shù)據(jù)在共享出去前盡量標(biāo)準(zhǔn)、規(guī)范,提升基礎(chǔ)數(shù)據(jù)的質(zhì)量。在技術(shù)層面,建立質(zhì)量管理平臺,對共享的數(shù)據(jù)進(jìn)行質(zhì)量檢測,定期給數(shù)據(jù)權(quán)威部門發(fā)送質(zhì)量報告。
在數(shù)據(jù)共享的基礎(chǔ)上建立“一張表”應(yīng)用系統(tǒng)[24],教師在查看核對自己數(shù)據(jù)的過程中進(jìn)一步完善數(shù)據(jù),提升數(shù)據(jù)質(zhì)量。
本框架以組織建設(shè)為基礎(chǔ),梳理數(shù)據(jù)共享中的流程,詳細(xì)定義整個流程中涉及角色的定義和責(zé)任,建設(shè)數(shù)據(jù)標(biāo)準(zhǔn)管理平臺,對外發(fā)布符合高校實際情況的數(shù)據(jù)標(biāo)準(zhǔn)并按標(biāo)準(zhǔn)采集和共享數(shù)據(jù),在整個過程中保障數(shù)據(jù)流動安全,監(jiān)測數(shù)據(jù)質(zhì)量。
按照上述框架,我校目前的數(shù)據(jù)共享取得了顯著成效。在組織機(jī)構(gòu)建設(shè)上,形成了以校信息化領(lǐng)導(dǎo)小組牽頭,校網(wǎng)絡(luò)與信息化辦公室具體協(xié)調(diào)各個業(yè)務(wù)部門的信息化工作,指定相關(guān)的政策文件和管理辦法,校網(wǎng)絡(luò)中心專人負(fù)責(zé)具體的技術(shù)實現(xiàn)和數(shù)據(jù)共享工作的管理結(jié)構(gòu);在流程管理上,整個數(shù)據(jù)共享流程在網(wǎng)上辦事大廳實現(xiàn),保證數(shù)據(jù)共享的整個審批實現(xiàn)都“有據(jù)可查”,通過流程的管理,明確數(shù)據(jù)都流向了哪里,如圖9所示。
在數(shù)據(jù)標(biāo)準(zhǔn)上,整個?;A(chǔ)數(shù)據(jù)庫的建設(shè)參考國標(biāo)、教標(biāo)、行標(biāo)并結(jié)合學(xué)校管理的實際情況,并初步建成了數(shù)據(jù)標(biāo)準(zhǔn)管理模塊;在元數(shù)據(jù)管理上,參考教標(biāo)中的管理子集,將學(xué)校管理中最核心的、需要共享的數(shù)據(jù)劃分成了八大數(shù)據(jù)子集,并初步建成了元數(shù)據(jù)管理模塊;在數(shù)據(jù)集成與共享上,按照校數(shù)據(jù)標(biāo)準(zhǔn),累積集成了32個業(yè)務(wù)系統(tǒng),涉及24個業(yè)務(wù)部門,累計集成數(shù)據(jù)3 300萬余條數(shù)據(jù),日均共享數(shù)據(jù)約3億條,實際效果如圖10和11所示。
在數(shù)據(jù)安全上,數(shù)據(jù)庫的正式庫和測試庫分離,測試庫僅同步測試數(shù)據(jù),系統(tǒng)經(jīng)過安全檢測上線后才在正式數(shù)據(jù)庫服務(wù)器上同步正式數(shù)據(jù),且對數(shù)據(jù)庫的訪問權(quán)限有嚴(yán)格控制,所有對服務(wù)器的操作均通過堡壘機(jī)進(jìn)行,所有的操作均有記錄,數(shù)據(jù)共享中嚴(yán)格采用“最小夠用”原則進(jìn)行共享,且在數(shù)據(jù)傳輸中對敏感數(shù)據(jù)進(jìn)行加密;在數(shù)據(jù)質(zhì)量上,所有的字段都有唯一的權(quán)威數(shù)據(jù)源,每個字段都僅從權(quán)威系統(tǒng)采集,發(fā)現(xiàn)問題時,反饋給數(shù)據(jù)權(quán)威部門修正,在數(shù)據(jù)集成時,盡量按標(biāo)準(zhǔn)進(jìn)行清洗轉(zhuǎn)換,保證學(xué)?;A(chǔ)數(shù)據(jù)庫的數(shù)據(jù)質(zhì)量,并建成了“教職工業(yè)績考核系統(tǒng)”,其中數(shù)據(jù)按有系統(tǒng)管理的數(shù)據(jù),不自行搜集的原則,大部分?jǐn)?shù)據(jù)來自?;A(chǔ)數(shù)據(jù)庫,讓基礎(chǔ)數(shù)據(jù)真正用起來,在使用中不斷提升基礎(chǔ)數(shù)據(jù)的質(zhì)量,此外,建設(shè)了數(shù)據(jù)質(zhì)量管理系統(tǒng),對基礎(chǔ)數(shù)據(jù)庫的數(shù)據(jù)定期進(jìn)行質(zhì)量檢測,發(fā)現(xiàn)問題及時反饋給權(quán)威數(shù)據(jù)源部門修正,日常質(zhì)量監(jiān)控見圖12。
按照提出的數(shù)據(jù)共享框架,在實際工作中厘清了數(shù)據(jù)的實際情況,參照數(shù)據(jù)標(biāo)準(zhǔn),建成了校基礎(chǔ)數(shù)據(jù)庫,其中包含了學(xué)生、教工、教學(xué)、科研等八大數(shù)據(jù)子集,根據(jù)實際需要,為85個業(yè)務(wù)系統(tǒng)提供基礎(chǔ)數(shù)據(jù),為數(shù)據(jù)治理工作打下堅實基礎(chǔ)。
數(shù)據(jù)治理背景下建設(shè)數(shù)據(jù)共享框架,從高校數(shù)據(jù)共享中普遍面臨的“組織制度不完善、流程管理缺失、數(shù)據(jù)標(biāo)準(zhǔn)難落地和數(shù)據(jù)共享不安全”出發(fā),由組織建設(shè)、流程管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、元數(shù)據(jù)管理、數(shù)據(jù)集成共享、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量七部分構(gòu)建,不僅可以解決高校面臨的數(shù)據(jù)孤島的問題,幫助高校數(shù)據(jù)共享實踐人員更全面深刻地理解高校數(shù)據(jù)共享的內(nèi)涵,全方位提升數(shù)據(jù)共享水平、數(shù)據(jù)治理水平。但不可否認(rèn)的是,目前的數(shù)據(jù)共享框架仍然存在開放程度不高、業(yè)務(wù)部門參與不強(qiáng)、數(shù)據(jù)共享監(jiān)控粒度過粗等問題,在今后的數(shù)據(jù)治理工作中,要進(jìn)一步研究解決各業(yè)務(wù)部門數(shù)據(jù)資源目錄開放程度不夠、業(yè)務(wù)部門無法參與、各大數(shù)據(jù)管理平臺分散、字段級別的數(shù)據(jù)溯源圖譜缺乏等問題,提升數(shù)據(jù)治理的深度和廣度。