關(guān)鍵詞:智慧大腦;諾蘭模型;ETL工具;數(shù)據(jù)倉庫分層;數(shù)據(jù)孤島
0 引言
黨的二十大報告提出:“推進教育數(shù)字化,建設(shè)全民終身學(xué)習(xí)的學(xué)習(xí)型社會、學(xué)習(xí)型大國。”這是“推進教育數(shù)字化”首次被寫入黨代會報告,標(biāo)志著教育數(shù)字化轉(zhuǎn)型進入了新的歷史階段。為貫徹落實國家教育數(shù)字化戰(zhàn)略行動,進一步推進全國職業(yè)院校數(shù)字校園建設(shè)工作,教育部發(fā)布了《全國職業(yè)教育智慧大腦院校中臺(高職/中職)數(shù)據(jù)標(biāo)準(zhǔn)及接口規(guī)范(試行)》和《全國職業(yè)院校大數(shù)據(jù)中心建設(shè)指南》,為職業(yè)院校數(shù)字化轉(zhuǎn)型提供了新要求、新標(biāo)準(zhǔn)、新思路[1]。在人工智能、云計算、機器學(xué)習(xí)等新一代信息技術(shù)的推動下,海量教育數(shù)據(jù)不斷涌現(xiàn),教育數(shù)字化轉(zhuǎn)型已成為必然趨勢[2]。然而,當(dāng)前高職院校在數(shù)據(jù)管理方面仍面臨著數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)質(zhì)量參差不齊、數(shù)據(jù)匯聚整合困難、數(shù)據(jù)共享缺乏管控等問題,嚴(yán)重制約著學(xué)校數(shù)字化轉(zhuǎn)型的進程。
為破解高職院校數(shù)據(jù)治理難題,本文以常州紡織服裝職業(yè)技術(shù)學(xué)院為例,探索構(gòu)建基于教育部智慧大腦中臺的校本數(shù)據(jù)智能采集與推送平臺,為職業(yè)院校數(shù)據(jù)治理提供參考和借鑒。
1 數(shù)據(jù)管理現(xiàn)狀與問題分析
1.1 數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)質(zhì)量參差不齊
在信息化建設(shè)初期,高職院校普遍缺乏頂層設(shè)計和統(tǒng)籌規(guī)劃,導(dǎo)致各類業(yè)務(wù)管理系統(tǒng)各自為政,形成了典型的“煙囪式”架構(gòu)。由于各個系統(tǒng)的數(shù)據(jù)存儲結(jié)構(gòu)不一致,缺乏統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)[3],導(dǎo)致數(shù)據(jù)難以關(guān)聯(lián)匯總和分析,形成“數(shù)據(jù)孤島”現(xiàn)象。此外,由于功能缺陷、管理缺位、操作不當(dāng)?shù)仍?,?shù)據(jù)缺失、格式不統(tǒng)一等數(shù)據(jù)質(zhì)量問題普遍存在[4],例如學(xué)生籍貫信息填寫不規(guī)范等。這種參差不齊的數(shù)據(jù)質(zhì)量狀況,嚴(yán)重影響了學(xué)?;跀?shù)據(jù)的科學(xué)決策和管理效率,給教學(xué)質(zhì)量評估、資源配置等工作造成困擾[5]。
1.2 數(shù)據(jù)匯聚整合困難、數(shù)據(jù)共享缺乏管控
各部門獨立運作的信息系統(tǒng)在數(shù)據(jù)格式、接口標(biāo)準(zhǔn)和存儲方式上存在差異,導(dǎo)致學(xué)校數(shù)據(jù)難以互聯(lián)互通,需要進行復(fù)雜的數(shù)據(jù)轉(zhuǎn)換和適配工作。同時,由于缺乏明確的數(shù)據(jù)共享政策和規(guī)范,數(shù)據(jù)共享存在較大的隨意性和風(fēng)險性,容易造成學(xué)生個人隱私信息、學(xué)校財務(wù)信息等敏感數(shù)據(jù)泄露和濫用。此外,數(shù)據(jù)共享缺乏有效的監(jiān)督和評估機制,共享過程中的不當(dāng)行為難以及時發(fā)現(xiàn)和糾正。
2 教育部智慧中臺的研究分析
2.1 頂層設(shè)計先行
數(shù)據(jù)是重要的戰(zhàn)略資產(chǎn)和生產(chǎn)要素,高職院校應(yīng)高度重視數(shù)據(jù)治理工作,將其作為一項系統(tǒng)工程來抓。在數(shù)據(jù)治理過程中,要堅持頂層設(shè)計先行,制定科學(xué)合理的數(shù)據(jù)戰(zhàn)略、構(gòu)建完善的數(shù)據(jù)治理體系、建立健全的數(shù)據(jù)全生命周期管理機制。具體而言,在數(shù)據(jù)戰(zhàn)略方面,院校需要明確數(shù)據(jù)在學(xué)校發(fā)展中的定位和作用,確定長期的數(shù)據(jù)發(fā)展目標(biāo)和方向,并將其納入學(xué)校整體發(fā)展規(guī)劃。在數(shù)據(jù)治理體系方面,要明確各部門在數(shù)據(jù)管理中的職責(zé)和權(quán)限,制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范,建立數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)安全保障機制。在數(shù)據(jù)全生命周期管理機制方面,要涵蓋數(shù)據(jù)的產(chǎn)生、采集、存儲、處理、分析、應(yīng)用和銷毀等各個環(huán)節(jié),確保數(shù)據(jù)在各個環(huán)節(jié)的安全性和合規(guī)性。
2.2 數(shù)據(jù)標(biāo)準(zhǔn)與數(shù)據(jù)架構(gòu)設(shè)計
數(shù)據(jù)標(biāo)準(zhǔn)是數(shù)據(jù)治理的基礎(chǔ),統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)是實現(xiàn)數(shù)據(jù)共享和互操作的前提。高職院校應(yīng)在參考國家和行業(yè)標(biāo)準(zhǔn)的基礎(chǔ)上,結(jié)合學(xué)校實際情況,制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),包括數(shù)據(jù)元、參考數(shù)據(jù)、主數(shù)據(jù)、指標(biāo)數(shù)據(jù)等。
數(shù)據(jù)架構(gòu)設(shè)計是數(shù)據(jù)治理的藍(lán)圖,合理的架構(gòu)設(shè)計能夠有效地組織和管理數(shù)據(jù),提高數(shù)據(jù)的可用性和價值。在數(shù)據(jù)架構(gòu)設(shè)計方面,可以參考教育部智慧大腦中臺的架構(gòu)設(shè)計理念,構(gòu)建以數(shù)據(jù)倉庫為核心的數(shù)據(jù)管理平臺。數(shù)據(jù)倉庫可以集中存儲學(xué)校各個業(yè)務(wù)系統(tǒng)的數(shù)據(jù),并對數(shù)據(jù)進行清洗、轉(zhuǎn)換、整合,為學(xué)校提供統(tǒng)一的數(shù)據(jù)服務(wù)[6]。
2.3 數(shù)據(jù)安全與隱私保護
在數(shù)據(jù)治理過程中,要高度重視數(shù)據(jù)安全和隱私保護,建立健全數(shù)據(jù)安全管理制度,明確數(shù)據(jù)安全責(zé)任,加強數(shù)據(jù)安全技術(shù)防護,防止數(shù)據(jù)泄露、篡改和濫用。要嚴(yán)格遵守國家有關(guān)法律法規(guī),加強對學(xué)生個人信息的保護,明確數(shù)據(jù)收集、使用、存儲、傳輸?shù)拳h(huán)節(jié)的安全要求,建立數(shù)據(jù)安全應(yīng)急預(yù)案,定期開展數(shù)據(jù)安全風(fēng)險評估和安全審計工作,確保學(xué)校數(shù)據(jù)安全。
3 校本數(shù)據(jù)智能采集與推送平臺
3.1 功能概述
諾蘭模型[7]是描述信息系統(tǒng)發(fā)展階段的抽象化模型,它將信息系統(tǒng)的成長過程劃分為起步、擴展、控制、集成、數(shù)據(jù)管理、成熟6個階段。參照諾蘭模型的成長階段,職業(yè)院校信息化建設(shè)過程可劃分為煙囪式建設(shè)初期、集成式建設(shè)中期和數(shù)據(jù)管理與智能應(yīng)用后期,如圖1所示。
參照諾蘭模型,職業(yè)院校信息化建設(shè)已進入“數(shù)據(jù)管理與智能應(yīng)用”階段。面對數(shù)據(jù)孤島、數(shù)據(jù)共享困難等問題,該校第一時間組織梳理數(shù)據(jù)資產(chǎn),厘清全校業(yè)務(wù)系統(tǒng),分析整合現(xiàn)有數(shù)據(jù)資源,以ETL工具為數(shù)據(jù)抽取底座,采用數(shù)據(jù)倉庫分層設(shè)計思路搭建校本數(shù)據(jù)智能采集與推送平臺。
該平臺協(xié)助該校完成與教育部全國職業(yè)教育智慧大腦院校中臺85張表的數(shù)據(jù)對接工作,形成常態(tài)化數(shù)據(jù)治理機制,助推學(xué)校高質(zhì)量發(fā)展。
3.2 數(shù)據(jù)采集
1) 界面化填報。針對學(xué)生畢業(yè)升學(xué)、就業(yè)、未就業(yè)等暫無系統(tǒng)對接的業(yè)務(wù)情景,該平臺利用低代碼表單引擎靈活定制文本、下拉、日期等格式的數(shù)據(jù)字段,依據(jù)推送要求,完成設(shè)置字段是否為必填項,在表單界面完成數(shù)據(jù)錄入后,通過流程審批的方式對數(shù)據(jù)層層把關(guān),有效保證填報質(zhì)量。該采集方式解決了無數(shù)據(jù)源對接的難題,但填報時效性差。
2) 模板匯總導(dǎo)入。對于產(chǎn)學(xué)合作類等暫無系統(tǒng)對接且涉及產(chǎn)教處、教務(wù)處等多部門協(xié)作的業(yè)務(wù)情況,該平臺提供采集模板進行數(shù)據(jù)收集,標(biāo)準(zhǔn)引用代碼在模板中為下拉項。數(shù)據(jù)歸口部門負(fù)責(zé)數(shù)據(jù)收集工作,協(xié)作部門配合提供相關(guān)數(shù)據(jù)。這種采集方式提高了部門之間的合作意愿,一定程度上解決了因部門數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一導(dǎo)致的數(shù)據(jù)質(zhì)量偏低問題。但是,采集時效性較差,數(shù)據(jù)質(zhì)量受人為因素影響較大。
3) 數(shù)據(jù)對接。對于教學(xué)、科研、服務(wù)管理類等可進行數(shù)據(jù)對接的業(yè)務(wù)情景,該平臺利用開源KETTLE[8]工具從關(guān)系型數(shù)據(jù)庫、文件、非關(guān)系型數(shù)據(jù)庫等數(shù)據(jù)源抽取源數(shù)據(jù),參照數(shù)據(jù)集標(biāo)準(zhǔn),對源數(shù)據(jù)進行數(shù)據(jù)清洗、聚合、格式轉(zhuǎn)換、字段映射以及加解密,最后完成數(shù)據(jù)裝載,實現(xiàn)全流程自動化數(shù)據(jù)傳輸,具體工作原理如圖2所示。
數(shù)據(jù)對接方式顯著提高了采集效率,降低了數(shù)據(jù)質(zhì)量受人為因素的影響,但學(xué)習(xí)成本高,技術(shù)難度大,對接過程容易造成數(shù)據(jù)泄露等安全隱患。
3.3 數(shù)據(jù)同步
數(shù)據(jù)同步分為全量同步和增量同步兩種模式。全量同步將數(shù)據(jù)源中的全部數(shù)據(jù)一次性傳輸至數(shù)據(jù)集。增量同步傳輸自上次同步后新增或者修改的數(shù)據(jù)。全量同步操作簡單,數(shù)據(jù)不易丟失,但同步時間較長。反之,增量同步耗時短,適用于數(shù)據(jù)實時性要求較高的場景。
該同步模塊采用B/S 架構(gòu),通過SpringBoot+Vue 實現(xiàn)前后端分離。后端采用基于MVVM 模型的SpringBoot 框架搭配RabbitMQ消息隊列的方式保證同步任務(wù)有序執(zhí)行。前端使用Vue+Element-UI的方式開發(fā)管理界面,實現(xiàn)可視化配置數(shù)據(jù)源連接信息與計劃任務(wù)功能。
該校使用“首次全量+永久增量”的同步策略。在初次同步時使用全量同步建立基準(zhǔn)數(shù)據(jù),然后使用增量同步進行日常的數(shù)據(jù)更新和變化跟蹤。這種混合策略確保了數(shù)據(jù)一致性、提高了同步效率、降低了資源消耗。
3.4 數(shù)據(jù)推送
數(shù)據(jù)推送模塊包含表字段映射、推送規(guī)則設(shè)置、數(shù)據(jù)校驗、數(shù)據(jù)推送、結(jié)果查詢等功能,覆蓋了數(shù)據(jù)推送的全生命周期。
推送平臺對推送表結(jié)構(gòu)與清洗轉(zhuǎn)換后的表結(jié)構(gòu)進行字段映射,根據(jù)預(yù)先配置的計劃任務(wù)同步85張表數(shù)據(jù)集合,對待推送數(shù)據(jù)集進行數(shù)據(jù)內(nèi)容與關(guān)聯(lián)性校驗,最后依據(jù)推送規(guī)則上報合規(guī)數(shù)據(jù)。
在數(shù)據(jù)上報過程中,為規(guī)避全量數(shù)據(jù)上報耗時長、能耗大等弊端,該校采用比對特征值的方式增量上報變更數(shù)據(jù),特征值計算方法如式(1) 所示:
式中:tzz表示特征值,valuei表示數(shù)據(jù)子類表中第i 個數(shù)據(jù)項值,md5[9]對數(shù)據(jù)項集合進行哈希計算,輸出32位長度數(shù)值,利用tzz校驗數(shù)據(jù)完整性,當(dāng)tzz變化時表明數(shù)據(jù)有變更,tzz不變時表明數(shù)據(jù)未發(fā)生更新,平臺上報tzz變化的數(shù)據(jù)集合。
3.5 數(shù)據(jù)看板
數(shù)據(jù)看板通過FineReport技術(shù)搭建而成,主要包含數(shù)據(jù)質(zhì)量監(jiān)控、數(shù)據(jù)分析報表、數(shù)據(jù)預(yù)警等模塊,對多維度數(shù)據(jù)進行分析展示,直觀反映學(xué)校發(fā)展現(xiàn)狀,助力院校實現(xiàn)數(shù)據(jù)驅(qū)動的管理和決策。
數(shù)據(jù)質(zhì)量監(jiān)控模塊對照八大數(shù)據(jù)集指標(biāo)項對每日推送數(shù)據(jù)進行質(zhì)量監(jiān)測,采用柱狀圖、條形圖、餅圖等圖表方式展示歷史數(shù)據(jù)推送質(zhì)量。
同時,參照教育部職教大腦監(jiān)測大屏,深刻理解各數(shù)據(jù)指標(biāo)計算公式,搭建校本數(shù)據(jù)分析報表,實時呈現(xiàn)數(shù)據(jù)上報狀況。
數(shù)據(jù)預(yù)警模塊對異常數(shù)據(jù)進行告警。對在上報周期前尚未完成數(shù)據(jù)準(zhǔn)備的部門進行消息提醒,提高了數(shù)據(jù)上報的時效性。通過列表方式展示推送失敗數(shù)據(jù)集合,方便數(shù)據(jù)歸口部門直觀發(fā)現(xiàn)并修正錯誤數(shù)據(jù)。
3.6 平臺設(shè)計架構(gòu)
1) 數(shù)據(jù)倉庫分層設(shè)計??紤]到院校數(shù)據(jù)復(fù)雜多變、安全性要求高等特點,建立與業(yè)務(wù)需求、組織結(jié)構(gòu)以及管理流程匹配的數(shù)據(jù)模型尤為重要。為了提高數(shù)據(jù)的采集、管理、流轉(zhuǎn)和使用,實現(xiàn)對數(shù)據(jù)從接入、存儲、開發(fā)、輸出到展示的全生命周期管理,該平臺采用數(shù)據(jù)倉庫分層模型[10],如圖3所示。
該模型將數(shù)據(jù)倉庫劃分為ODS、DWD、DWS、ADS 四個層次。其中ODS即操作數(shù)據(jù)存儲層,用于存儲從學(xué)校各業(yè)務(wù)系統(tǒng)實時或定期抽取最細(xì)顆粒度的原始數(shù)據(jù),包括學(xué)生信息、課程信息、教學(xué)活動數(shù)據(jù)等,形成數(shù)據(jù)湖;DWD即數(shù)據(jù)倉庫明細(xì)層,對ODS層的數(shù)據(jù)進行清洗、轉(zhuǎn)換、規(guī)范化、關(guān)聯(lián)整合等處理,構(gòu)建出更清晰、準(zhǔn)確、一致的明細(xì)數(shù)據(jù);DWS即數(shù)據(jù)倉庫匯總層,在DWD層基礎(chǔ)上進行一定程度的聚合和匯總,形成主題相關(guān)的、具有一定概括性的數(shù)據(jù)集合。例如,從學(xué)年、專業(yè)等維度對學(xué)生升學(xué)與就業(yè)情況進行匯總。ADS即應(yīng)用數(shù)據(jù)存儲層,對DWS層數(shù)據(jù)進一步加工和定制,以直接支持院校特定的業(yè)務(wù)功能和數(shù)據(jù)分析場景。
2) 調(diào)度中心。該平臺搭建任務(wù)調(diào)度中心[11],統(tǒng)一管理數(shù)據(jù)同步、數(shù)據(jù)集成、數(shù)據(jù)推送等作業(yè)計劃。
調(diào)度中心從各數(shù)據(jù)源抽取教學(xué)、科研、黨建類校本數(shù)據(jù)至本平臺,形成數(shù)據(jù)湖,統(tǒng)一調(diào)度數(shù)據(jù)處理計劃任務(wù),將清洗轉(zhuǎn)換后的數(shù)據(jù)裝載至目標(biāo)庫,依據(jù)字段映射計劃任務(wù)將處理后的數(shù)據(jù)集合映射至推送平臺目標(biāo)表,最后依據(jù)推送規(guī)則統(tǒng)籌調(diào)配資源完成數(shù)據(jù)推送作業(yè)。
該調(diào)度中心實時記錄所有計劃任務(wù)的執(zhí)行狀態(tài),當(dāng)任務(wù)執(zhí)行失敗時能夠?qū)︻A(yù)先設(shè)定的郵箱發(fā)送告警信息,以便管理員及時知曉任務(wù)執(zhí)行狀況。同時,能夠在線修改生效cron表達式,在異常作業(yè)修復(fù)后可快速進行二次執(zhí)行,顯著提高了運行效率。
該調(diào)度中心合理分配系統(tǒng)資源,確保計劃任務(wù)運行穩(wěn)定,同時具備可視化監(jiān)控與管理功能,能夠?qū)崟r查看任務(wù)列表、任務(wù)狀態(tài)、執(zhí)行日志等信息,實現(xiàn)了對定時任務(wù)的統(tǒng)一管理。
4 結(jié)束語
在深刻剖析教育部智慧大腦中臺建設(shè)內(nèi)容的基礎(chǔ)上,構(gòu)建出以數(shù)據(jù)倉庫分層為核心的校本數(shù)據(jù)智能采集與推送平臺。該平臺解耦數(shù)據(jù)收集與數(shù)據(jù)推送功能,提高了數(shù)據(jù)處理效能。但是,平臺使用的KETTLE工具學(xué)習(xí)成本高,難以采集非結(jié)構(gòu)化數(shù)據(jù)。如何利用AI技術(shù)采集非結(jié)構(gòu)化數(shù)據(jù)將是下一步的研究方向,比如利用教室監(jiān)控收集學(xué)生簽到率與認(rèn)真聽課率;對招聘網(wǎng)站進行爬蟲,計算課程專業(yè)市場匹配度;對教學(xué)云平臺學(xué)生作業(yè)進行AI評估,智能分析學(xué)生知識薄弱點等。