張曉慧
(浙江財(cái)經(jīng)大學(xué) 黨校辦,浙江 杭州 310018)
在信息爆炸時(shí)代,人們?cè)絹?lái)越多地用“大數(shù)據(jù)(Big data[1])”來(lái)定義和描述工作、學(xué)習(xí)和生活等過(guò)程中產(chǎn)生的海量數(shù)據(jù).隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,大數(shù)據(jù)已滲透入各行各業(yè),價(jià)值逐日凸顯,國(guó)家試圖通過(guò)大數(shù)據(jù)來(lái)推動(dòng)社會(huì)變革[2],把其列為國(guó)家戰(zhàn)略[3].在我國(guó),大數(shù)據(jù)也早已被列為國(guó)家發(fā)展戰(zhàn)略,對(duì)于學(xué)校而言,由于受地域、經(jīng)濟(jì)等因素的影響,各地各校信息化發(fā)展不一致,但大多已從基于服務(wù)器、網(wǎng)絡(luò)等硬件設(shè)備的MIS系統(tǒng),轉(zhuǎn)變?yōu)榛谔摂M化、專用數(shù)據(jù)中心機(jī)房等硬件設(shè)備的一站式信息服務(wù)平臺(tái).信息化過(guò)程中產(chǎn)生了結(jié)構(gòu)化的常規(guī)業(yè)務(wù)管理數(shù)據(jù)、非結(jié)構(gòu)化的多媒體教學(xué)資源數(shù)據(jù)、以及位置追蹤數(shù)據(jù)等多維度、大體量的教育數(shù)據(jù).“當(dāng)今社會(huì)所獨(dú)有的一種新型的能力:以一未有的方式,通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行分析,獲大價(jià)值的產(chǎn)品和服務(wù),或深刻的洞見(jiàn)”[4].因此,數(shù)據(jù)問(wèn)題限制了智慧能夠達(dá)到的高度,如何更好地建立大數(shù)據(jù)思維[5],分析教育大數(shù)據(jù)治理的現(xiàn)狀和瓶頸,合理規(guī)劃應(yīng)對(duì)之策,著重攻克教育大數(shù)據(jù)治理中的技術(shù)難點(diǎn),是教育大數(shù)據(jù)建設(shè)的必然趨勢(shì)和努力方向.
首先,從數(shù)據(jù)治理基礎(chǔ)來(lái)看,現(xiàn)有數(shù)據(jù)范圍不足,在質(zhì)量上也有困擾.不同于互聯(lián)網(wǎng)企業(yè)基于盈利導(dǎo)向的數(shù)據(jù)處理方式,金字塔結(jié)構(gòu)、高效執(zhí)行的數(shù)據(jù)底層結(jié)構(gòu),主動(dòng)全面收集用戶數(shù)據(jù)甚至收購(gòu)公司補(bǔ)充數(shù)據(jù)形成的數(shù)據(jù)基礎(chǔ)強(qiáng)的局面,學(xué)校數(shù)據(jù)處理基礎(chǔ)是非盈利的,基于煙囪式系統(tǒng)建設(shè),各塊業(yè)務(wù)呈現(xiàn)割裂狀態(tài),不可避免地產(chǎn)生了“信息孤島”[6]:一方面,在信息化發(fā)展的起步階段,學(xué)校綜合考慮各個(gè)部門之間的業(yè)務(wù)關(guān)聯(lián)意識(shí)淡薄,沒(méi)有站在學(xué)校發(fā)展的立場(chǎng)完成頂層設(shè)計(jì)的理念[7];另一方面,整體上未具有數(shù)據(jù)規(guī)范和數(shù)據(jù)化管理思維,隨著信息技術(shù)的不斷升級(jí),各個(gè)系統(tǒng)之間的差別逐漸顯現(xiàn)出來(lái),所采用的信息編碼標(biāo)準(zhǔn)不統(tǒng)一,資源分類方式不規(guī)范,信息儲(chǔ)存格式不一致[8],數(shù)據(jù)底層薄.在進(jìn)行數(shù)據(jù)治理時(shí),現(xiàn)有的數(shù)據(jù)范圍明顯不足以滿足需求,即便是已有的數(shù)據(jù),也無(wú)法便捷地對(duì)其進(jìn)行挖掘和分析.
第二,從數(shù)據(jù)治理現(xiàn)狀看,需求日益強(qiáng)烈,底層計(jì)算組件無(wú)法有效融合,在實(shí)施時(shí)有困難.隨著學(xué)校建成的信息管理系統(tǒng)越來(lái)越多,跨部門、跨系統(tǒng)、跨數(shù)據(jù)庫(kù)的數(shù)據(jù)需求越來(lái)越強(qiáng)烈,大家都希望能以靈活便捷的方式對(duì)數(shù)據(jù)進(jìn)行收集、分析,獲取其中蘊(yùn)含的巨大價(jià)值[9].其中,多維數(shù)據(jù)分析挖掘、一站式服務(wù)應(yīng)用、各類數(shù)據(jù)上報(bào)業(yè)務(wù)(高基表、人才狀態(tài)數(shù)據(jù)等)已成為當(dāng)前及未來(lái)主要數(shù)據(jù)消費(fèi)場(chǎng)景,“分析型、服務(wù)型”應(yīng)用對(duì)于數(shù)據(jù)提出了更高的要求.使用需求越來(lái)越強(qiáng)烈,但事實(shí)上,底層計(jì)算組件無(wú)法有效融合給數(shù)據(jù)治理帶來(lái)了極大的資源浪費(fèi)和運(yùn)維困難,各已有的應(yīng)用系統(tǒng)數(shù)據(jù)只存不用,能夠使用表數(shù)據(jù)表個(gè)數(shù)、貢獻(xiàn)表數(shù)據(jù)表個(gè)數(shù)非常少.
第三,從數(shù)據(jù)治理發(fā)展來(lái)看,數(shù)據(jù)治理成果無(wú)法便捷復(fù)用,數(shù)據(jù)對(duì)接耗時(shí)耗力,每負(fù)責(zé)一個(gè)項(xiàng)目就像“掉了層皮”.應(yīng)對(duì)當(dāng)前數(shù)據(jù)消費(fèi)的強(qiáng)烈需求,部分高校已建成了相當(dāng)數(shù)量的數(shù)據(jù)應(yīng)用平臺(tái),然而數(shù)據(jù)治理成果無(wú)法便捷復(fù)用是困擾當(dāng)前學(xué)校數(shù)據(jù)治理的最大的因素.一是各校建設(shè)大數(shù)據(jù)分析項(xiàng)目,引入了不同廠商,結(jié)果數(shù)據(jù)集成對(duì)接工作復(fù)雜,且項(xiàng)目建設(shè)期間廠商底層環(huán)境不同,各自部署了不同的數(shù)據(jù)集群;二是在數(shù)據(jù)治理整個(gè)項(xiàng)目周期中,前期人工實(shí)施占據(jù)80%左右的時(shí)間,所有過(guò)程都在線下或人的腦海里,導(dǎo)致項(xiàng)目驗(yàn)收后無(wú)法將數(shù)據(jù)治理體系傳承下來(lái),無(wú)法保證數(shù)據(jù)的持續(xù)擴(kuò)充,工作量大且無(wú)經(jīng)驗(yàn)可循.數(shù)據(jù)對(duì)接耗時(shí)耗力,每負(fù)責(zé)一個(gè)項(xiàng)目就像“掉了層皮”.
教育大數(shù)據(jù)的現(xiàn)狀和瓶頸決定了大數(shù)據(jù)治理之路不會(huì)一帆風(fēng)順,需要從數(shù)據(jù)底層結(jié)構(gòu)、系統(tǒng)設(shè)計(jì)等方面進(jìn)行總體規(guī)劃、分步實(shí)施,著重攻克數(shù)據(jù)挖掘、學(xué)習(xí)分析、測(cè)評(píng)分析等技術(shù)難點(diǎn)[10],任重道遠(yuǎn).
傳統(tǒng)數(shù)據(jù)治理范圍僅對(duì)中心庫(kù)(或稱主數(shù)據(jù)庫(kù))內(nèi)容進(jìn)行數(shù)據(jù)治理,無(wú)法覆蓋全量的學(xué)校數(shù)據(jù),包括學(xué)校歸檔數(shù)據(jù),歷史版本數(shù)據(jù)等.數(shù)據(jù)治理與共享交換平臺(tái)是以“統(tǒng)一標(biāo)準(zhǔn)”“統(tǒng)一處理”“統(tǒng)一交換”[11]“保證質(zhì)量”“透明開放”的方式,允許全量數(shù)據(jù)(第三方系統(tǒng)數(shù)據(jù)源)在平臺(tái)進(jìn)行注冊(cè),并納入到數(shù)據(jù)服務(wù)體系的治理流程中,為各類數(shù)據(jù)格式、數(shù)據(jù)庫(kù)、底層架構(gòu)和業(yè)務(wù)系統(tǒng)之間提供數(shù)據(jù)交換與共享服務(wù)的平臺(tái),重新梳理數(shù)據(jù)資產(chǎn),實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)管理、標(biāo)準(zhǔn)調(diào)研、導(dǎo)入、交換、形成報(bào)表等功能,同時(shí)常態(tài)化監(jiān)控學(xué)?,F(xiàn)有數(shù)據(jù)情況.
2.1.1 數(shù)據(jù)量
教育大數(shù)據(jù)的單位通常為TB、PB,乃至EB[12],數(shù)據(jù)量大并不代表有效數(shù)據(jù)量大,因此,在數(shù)據(jù)分析之前必須對(duì)其進(jìn)行數(shù)據(jù)清洗,通過(guò)合理應(yīng)用數(shù)據(jù)挖掘算法,提取其中的有效數(shù)據(jù).
2.1.2 特征維度
創(chuàng)建適用的算法,如基于列存儲(chǔ)的大數(shù)據(jù)分析系統(tǒng)物化策略、MapReduce并行連接算法等,應(yīng)對(duì)可能出現(xiàn)的因數(shù)據(jù)對(duì)象屬性矩陣中的屬性、對(duì)象數(shù)量龐大而導(dǎo)致的維度災(zāi)難.
2.1.3 數(shù)據(jù)關(guān)系
通過(guò)設(shè)置關(guān)聯(lián)條件、屬性等方法,有效揭示分散于不同數(shù)據(jù)源中的關(guān)聯(lián)信息與知識(shí).
2.1.4 算法性能
應(yīng)充分考慮算法的實(shí)時(shí)性、伸縮性、擴(kuò)展性等性能,選擇最優(yōu)算法.
數(shù)據(jù)治理與共享交換平臺(tái)提供各業(yè)務(wù)系統(tǒng)數(shù)據(jù)接入的接口,實(shí)現(xiàn)數(shù)據(jù)交換平臺(tái)和各信息系統(tǒng)的有機(jī)結(jié)合[13],以統(tǒng)一的數(shù)據(jù)模型、接口規(guī)范和質(zhì)量標(biāo)準(zhǔn),實(shí)現(xiàn)數(shù)據(jù)自動(dòng)提取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)校驗(yàn)、數(shù)據(jù)審核等功能,支持?jǐn)?shù)據(jù)同步、歷史數(shù)據(jù)遷移等,在此基礎(chǔ)上可設(shè)計(jì)實(shí)際運(yùn)行的分析與測(cè)評(píng)模型[14],實(shí)現(xiàn)動(dòng)態(tài)鉆取.
2.2.1 相關(guān)分析
通過(guò)挖掘數(shù)據(jù)中的關(guān)聯(lián)規(guī)則和序列模式,從學(xué)習(xí)到的數(shù)據(jù)中挖掘出相關(guān)的規(guī)則,揭示某種規(guī)律.
2.2.2 模式識(shí)別
通過(guò)應(yīng)用仿真模擬、拓?fù)浞治?、?shù)據(jù)建模等模式識(shí)別技術(shù),實(shí)現(xiàn)智能化的自動(dòng)處理和判讀,使學(xué)習(xí)到的圖像、語(yǔ)音等數(shù)據(jù)發(fā)揮其真正的作用.
2.2.3 預(yù)測(cè)分析
通過(guò)應(yīng)用時(shí)序分析、決策樹、回歸分析等預(yù)測(cè)分析技術(shù),預(yù)測(cè)學(xué)習(xí)到的圖像、語(yǔ)音等數(shù)據(jù)的發(fā)展結(jié)果.
2.2.4 文本分析
通過(guò)應(yīng)用概念挖掘、文檔摘要、文本聚類等文本分析技術(shù),發(fā)現(xiàn)學(xué)習(xí)到的文本中隱含的信息.
根據(jù)不同系統(tǒng)用戶的類型、賬號(hào)、組織信息和角色,為其分配不同級(jí)別的訪問(wèn)權(quán)限,并可以對(duì)按不同業(yè)務(wù)主題建立的信息集中的數(shù)據(jù)內(nèi)容進(jìn)行管理,包括數(shù)據(jù)內(nèi)容的訪問(wèn)權(quán)限以及系統(tǒng)元數(shù)據(jù)的訪問(wèn)權(quán)限進(jìn)行控制,修改增加新的業(yè)務(wù)數(shù)據(jù)集,查看數(shù)據(jù)詳細(xì)內(nèi)容,并且可以實(shí)現(xiàn)數(shù)據(jù)的導(dǎo)入與導(dǎo)出.同時(shí),數(shù)據(jù)治理與共享交換平臺(tái)使用分布式技術(shù),將數(shù)據(jù)統(tǒng)一集成在一套任務(wù)流程下,通過(guò)任務(wù)監(jiān)控可以清晰看到數(shù)據(jù)從采集、ETL、供數(shù)等環(huán)節(jié)的執(zhí)行情況,實(shí)現(xiàn)全流程監(jiān)控.
數(shù)據(jù)治理與共享交換平臺(tái)的連接方式依托數(shù)據(jù)項(xiàng)的組合進(jìn)行資源目錄的發(fā)布,實(shí)現(xiàn)任意兩點(diǎn)的數(shù)據(jù)同步,并在同步過(guò)程中執(zhí)行治理,實(shí)現(xiàn)的數(shù)據(jù)聯(lián)動(dòng),快速反應(yīng),為實(shí)時(shí)、可靠查詢提供可能.
1)實(shí)現(xiàn)高綜報(bào)表、學(xué)科報(bào)表、專項(xiàng)報(bào)表等服務(wù),支持報(bào)表的歷史管理、日志管理、數(shù)據(jù)調(diào)整和校對(duì).
2)提供各類信息查詢服務(wù).
目前市場(chǎng)上,很多廠商提供的數(shù)據(jù)治理或者共享數(shù)據(jù)交換平臺(tái),以O(shè)DI和Kettle工具居多,隨著任務(wù)量增多,就容易出現(xiàn)瓶頸,數(shù)據(jù)治理出現(xiàn)誤差,工作效率降低.因此,數(shù)據(jù)服務(wù)平臺(tái)將學(xué)校信息資源依據(jù)規(guī)范的數(shù)據(jù)描述,按照一定的分類方法進(jìn)行排序的一組信息[15],用以描述學(xué)校各個(gè)信息資源的特征,以便于對(duì)全校信息資源的檢索、定位與獲取,為學(xué)校數(shù)據(jù)共享提供支持與指導(dǎo),同時(shí)具有良好的擴(kuò)展性,支持對(duì)各類服務(wù)進(jìn)行分布式部署和注冊(cè),支持設(shè)定應(yīng)用管理員.
應(yīng)對(duì)數(shù)據(jù)治理的現(xiàn)狀和瓶頸,可以通過(guò)建設(shè)“大中臺(tái)、小前臺(tái)”的智慧校園架構(gòu)(見(jiàn)圖1),自下而上地封裝底層計(jì)算組件,可視化計(jì)算任務(wù)調(diào)度,自上而下地統(tǒng)一應(yīng)用編程接口(簡(jiǎn)稱API),給數(shù)據(jù)中心插上海量數(shù)據(jù)“存儲(chǔ)”和“計(jì)算”翅膀,實(shí)現(xiàn)應(yīng)用與數(shù)據(jù)“解耦”,通過(guò)接口“屏蔽”底層,提升數(shù)據(jù)可“復(fù)用”性,讓數(shù)據(jù)管控變得“簡(jiǎn)單”.
圖1 大中臺(tái)、小前臺(tái)的智慧校園架構(gòu)(基于數(shù)據(jù)角度)
建立關(guān)系型/非關(guān)系型數(shù)據(jù)統(tǒng)一匯聚端的數(shù)據(jù)平臺(tái),融會(huì)貫通關(guān)系型數(shù)據(jù)庫(kù)(Oracle、MySQL、SQLServer、Postgress……)、非關(guān)系型數(shù)據(jù)庫(kù)(HDFS、MongoDB、Hive、ElasticSearch……)和擴(kuò)展支持?jǐn)?shù)據(jù)庫(kù)(第三方WebService、Redis、Kafka……)的各類數(shù)據(jù),實(shí)現(xiàn)全量數(shù)據(jù)兼容[16].
標(biāo)準(zhǔn)化設(shè)置校內(nèi)全量數(shù)據(jù)的統(tǒng)一資源目錄[17],預(yù)置全量標(biāo)準(zhǔn)數(shù)據(jù)集,建立清晰明了的數(shù)據(jù)資源目錄結(jié)構(gòu),依托數(shù)據(jù)項(xiàng)的組合進(jìn)行資源目錄的發(fā)布,實(shí)現(xiàn)任意兩點(diǎn)的數(shù)據(jù)同步,并在同步中執(zhí)行治理,同時(shí)構(gòu)建統(tǒng)一的數(shù)據(jù)返回格式.
構(gòu)建統(tǒng)一的API數(shù)據(jù)服務(wù),只要能夠獲取到數(shù)據(jù)表/視圖,便支持封裝為API發(fā)布(兼容任何廠商);實(shí)現(xiàn)無(wú)編碼化操作、可視化配置,1分鐘內(nèi)發(fā)布一個(gè)數(shù)據(jù)API;支持跨庫(kù)、多表關(guān)聯(lián)發(fā)布為API,實(shí)現(xiàn)一次治理,多次復(fù)用.
通過(guò)數(shù)據(jù)項(xiàng)與資源目錄管理,建立連接開發(fā)商、校內(nèi)核心數(shù)據(jù)、信息中心的統(tǒng)一渠道,將數(shù)據(jù)治理與數(shù)據(jù)交換融合打通,極大限度地降低數(shù)據(jù)對(duì)接和共享的門檻,一套流程,完成在線數(shù)據(jù)調(diào)用體系建設(shè),實(shí)現(xiàn)全面盤活數(shù)據(jù)資產(chǎn)的最終目的[18].
通過(guò)屏蔽底層組件的復(fù)雜性,提供高性能計(jì)算服務(wù),如復(fù)雜數(shù)據(jù)計(jì)算處理、分析模型構(gòu)建管理能力、調(diào)度能力的統(tǒng)一支撐和下放等;改變當(dāng)前大數(shù)據(jù)應(yīng)用開發(fā)方式,分析應(yīng)用只需要考慮前端頁(yè)面邏輯和展現(xiàn);支持多種語(yǔ)言,并提供自動(dòng)化調(diào)度功能.
本文分析了大數(shù)據(jù)時(shí)代教育數(shù)據(jù)治理的現(xiàn)狀和瓶頸,認(rèn)為在教育大數(shù)據(jù)治理時(shí)應(yīng)將分散在教、學(xué)、研、管多層面的有效數(shù)據(jù)整合起來(lái),建立大中臺(tái)、小前臺(tái)的智慧校園架構(gòu),融合底層計(jì)算組件,復(fù)用數(shù)據(jù)治理成果,總體規(guī)劃、合理設(shè)計(jì)教育數(shù)據(jù)治理中的關(guān)鍵技術(shù)點(diǎn),使教育大數(shù)據(jù)治理得到本質(zhì)上的提升,最大限度地發(fā)揮數(shù)據(jù)本身蘊(yùn)含的巨大價(jià)值,更好地為學(xué)習(xí)者、教師、管理者提供服務(wù).