盤(pán)錦職業(yè)技術(shù)學(xué)院 王菊 鄭黎明 魏孔鵬
隨著職業(yè)院校信息化的不斷發(fā)展,職業(yè)院校數(shù)據(jù)呈現(xiàn)更多元化的狀態(tài),傳統(tǒng)的業(yè)務(wù)系統(tǒng)建設(shè)模式已不足以滿(mǎn)足職業(yè)院校當(dāng)下對(duì)于數(shù)據(jù)深層次挖掘利用需求,同時(shí)在大數(shù)據(jù)的背景下,數(shù)據(jù)的隱私和安全也是需要核心保障的。而對(duì)于以上兩點(diǎn)的需求,傳統(tǒng)的主數(shù)據(jù)平臺(tái)(數(shù)據(jù)中心)建設(shè)模式無(wú)論是從能夠容納的數(shù)據(jù)體量以及數(shù)據(jù)供給的模式均無(wú)法滿(mǎn)足需求。有鑒于此,針對(duì)職業(yè)院校信息化的特點(diǎn),有針對(duì)性地提出了職業(yè)院校數(shù)據(jù)中臺(tái)的建設(shè)模式,解決數(shù)據(jù)的存儲(chǔ)、連通、使用三類(lèi)核心問(wèn)題。
職業(yè)院校在數(shù)據(jù)治理方面區(qū)別于本科院校的地方在于,一是信息化技術(shù)基礎(chǔ)比較薄弱[1],信息化技術(shù)人員的經(jīng)驗(yàn)和能力較為欠缺,二是職業(yè)院校雖然師生人數(shù)、辦學(xué)水平等比如本科院校,但是由于職業(yè)院?;谌瞬艑?shí)踐能力的培養(yǎng),在實(shí)驗(yàn)實(shí)訓(xùn)方面的建設(shè)[2]要優(yōu)于本科院校,與之相對(duì)于的是對(duì)實(shí)驗(yàn)實(shí)訓(xùn)方面的信息化建設(shè)平臺(tái)、軟件和架構(gòu)是本科院校沒(méi)有的?;谝陨蟽牲c(diǎn),職業(yè)院校進(jìn)行數(shù)據(jù)治理所面臨的場(chǎng)景更復(fù)雜,遇到的困難更多。有鑒于此,構(gòu)建適合職業(yè)院校的數(shù)據(jù)治理模型,需要更扎實(shí)的研究和實(shí)踐,以期解決數(shù)據(jù)孤島、數(shù)據(jù)協(xié)調(diào)、數(shù)據(jù)來(lái)源、數(shù)據(jù)發(fā)布和數(shù)據(jù)質(zhì)量這5類(lèi)問(wèn)題,以及數(shù)據(jù)治理過(guò)程中遇到的數(shù)據(jù)采集、治理數(shù)據(jù)、發(fā)布數(shù)據(jù)、管理數(shù)據(jù)和分析數(shù)據(jù)這5類(lèi)問(wèn)題,最后形成以下5個(gè)體系:數(shù)據(jù)標(biāo)準(zhǔn)體系、數(shù)據(jù)資產(chǎn)體系、知識(shí)庫(kù)體系、數(shù)據(jù)處理分析體系、制度規(guī)范體系。
職業(yè)院校數(shù)據(jù)治理框架的設(shè)計(jì)面臨兩種情況:一種情況是職業(yè)院校的信息化建設(shè)剛剛開(kāi)始,這樣可以從基礎(chǔ)上構(gòu)建一套可適應(yīng)未來(lái)的數(shù)據(jù)治理框架,另一種是職業(yè)院校經(jīng)過(guò)多年的信息化建設(shè),已經(jīng)自主開(kāi)發(fā)或者購(gòu)置多套信息化系統(tǒng),積累了分屬不同系統(tǒng)的數(shù)據(jù)。第一種情況對(duì)于設(shè)計(jì)數(shù)據(jù)治理框架相對(duì)簡(jiǎn)單,因?yàn)椴淮嬖诘诙N情況的數(shù)據(jù)孤島、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)來(lái)源不一致的問(wèn)題?,F(xiàn)在從技術(shù)角度出發(fā),數(shù)據(jù)中臺(tái)是比較適合職業(yè)院校數(shù)據(jù)治理框架的平臺(tái)和標(biāo)準(zhǔn)。
具體而說(shuō),數(shù)據(jù)中臺(tái)并不是一個(gè)跨時(shí)代的全新理念,其建設(shè)的基礎(chǔ)還是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)中心,在數(shù)倉(cāng)模型的設(shè)計(jì)上也是一脈傳承,但在傳統(tǒng)的建設(shè)模式上升級(jí)了底層架構(gòu),并通過(guò)配套的工具進(jìn)行組合,形成數(shù)據(jù)從采集、存儲(chǔ)、計(jì)算、使用、管理等環(huán)節(jié)的閉環(huán),進(jìn)一步降低數(shù)據(jù)的使用門(mén)檻。
數(shù)據(jù)中臺(tái)安裝從底層到高層的逐層設(shè)計(jì),依次為數(shù)據(jù)源層、數(shù)據(jù)采集處理層、數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)層、數(shù)據(jù)應(yīng)用層。
數(shù)據(jù)源層包括MIS系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)、外部數(shù)據(jù)、日志數(shù)據(jù)、線(xiàn)下表格數(shù)據(jù)等。其中MIS系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)來(lái)源于職業(yè)院校前期建設(shè)(自主研發(fā)或者購(gòu)買(mǎi))的各信息化系統(tǒng)的數(shù)據(jù),不同職業(yè)院校所擁有的信息系統(tǒng)不同,但是大體上包括以下全部或者部分系統(tǒng):教務(wù)系統(tǒng)[3]、學(xué)生工作管理系統(tǒng)、招生系統(tǒng)、校友系統(tǒng)、財(cái)務(wù)系統(tǒng)、OA系統(tǒng)、一卡通系統(tǒng)、資產(chǎn)系統(tǒng)、圖書(shū)館系統(tǒng)、人事系統(tǒng)、科研系統(tǒng)、就業(yè)系統(tǒng)、第二成績(jī)單系統(tǒng)、實(shí)驗(yàn)實(shí)訓(xùn)管理系統(tǒng)等。外部數(shù)據(jù)包括來(lái)自于Web、論壇、微博等的數(shù)據(jù)。日志數(shù)據(jù)[4]包括上網(wǎng)行為、無(wú)線(xiàn)WiFi、網(wǎng)絡(luò)安全、服務(wù)系統(tǒng)、上網(wǎng)認(rèn)證、數(shù)據(jù)庫(kù)等數(shù)據(jù)。線(xiàn)下表格數(shù)據(jù)是不同的信息化系統(tǒng)中導(dǎo)出的數(shù)據(jù),或者沒(méi)有被信息化系統(tǒng)覆蓋的各部門(mén)之間傳遞數(shù)據(jù),或者職業(yè)院校向上級(jí)主管部門(mén)體檢的Excel數(shù)據(jù)。
數(shù)據(jù)采集處理層包括數(shù)據(jù)治理工具和日志處理工具。數(shù)據(jù)源層的不同結(jié)構(gòu)的數(shù)據(jù)通過(guò)不同的處理方法被采集到數(shù)據(jù)采集處理層進(jìn)行處理,比如MIS系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)通過(guò)ETL工具[5]進(jìn)行采集,線(xiàn)下表格數(shù)據(jù)通過(guò)線(xiàn)下數(shù)據(jù)采集進(jìn)行采集、外部數(shù)據(jù)通過(guò)爬蟲(chóng)[6]進(jìn)行采集、日志數(shù)據(jù)通過(guò)Flume進(jìn)行采集。數(shù)據(jù)質(zhì)量工具包括:數(shù)據(jù)標(biāo)準(zhǔn)管理(制定數(shù)據(jù)標(biāo)準(zhǔn))、元數(shù)據(jù)管理(元數(shù)據(jù)采集)、數(shù)據(jù)任務(wù)監(jiān)控(盤(pán)點(diǎn)采集數(shù)據(jù))、主數(shù)據(jù)管理(數(shù)據(jù)分類(lèi)建模)、數(shù)據(jù)質(zhì)量管理(質(zhì)量檢查修正)、數(shù)據(jù)共享交換(主題數(shù)據(jù)入庫(kù))。日志處理工具包括:日志存儲(chǔ)、數(shù)據(jù)解析、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)透視、檢索計(jì)算、數(shù)據(jù)可視化。
數(shù)據(jù)采集處理層通過(guò)數(shù)據(jù)治理工具得到的數(shù)據(jù)治理輸出成果包括管理規(guī)范體系、數(shù)據(jù)標(biāo)準(zhǔn)體系和數(shù)據(jù)管理知識(shí)庫(kù)體系。其中管理規(guī)范體系包括數(shù)據(jù)標(biāo)準(zhǔn)遵從、標(biāo)準(zhǔn)內(nèi)容管理、標(biāo)準(zhǔn)發(fā)布更新、權(quán)威數(shù)據(jù)責(zé)任、數(shù)據(jù)質(zhì)量保障、數(shù)據(jù)安全職責(zé)、應(yīng)用開(kāi)發(fā)規(guī)范、交換共享規(guī)范。數(shù)據(jù)標(biāo)準(zhǔn)體系包括:元數(shù)據(jù)模型、標(biāo)準(zhǔn)代碼集、編碼規(guī)范、對(duì)象命名規(guī)范、接口交換標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)。數(shù)據(jù)管理知識(shí)庫(kù)體系包括:數(shù)據(jù)資產(chǎn)目錄、元數(shù)據(jù)庫(kù)、數(shù)據(jù)UC矩陣、數(shù)據(jù)血緣關(guān)系、質(zhì)量規(guī)則庫(kù)、數(shù)據(jù)質(zhì)量報(bào)告。
數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)層通過(guò)數(shù)據(jù)資產(chǎn)管理子系統(tǒng)構(gòu)建統(tǒng)一數(shù)據(jù)管理平臺(tái),從下到上包括關(guān)系型數(shù)據(jù)庫(kù)、大數(shù)據(jù)組件、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)管理和數(shù)據(jù)供給。關(guān)系型數(shù)據(jù)庫(kù)包括:Oracle、MySQL等,大數(shù)據(jù)組件包括分布式計(jì)算、分布式存儲(chǔ)、高速檢索、高速緩存、機(jī)器學(xué)習(xí)、NoSQL、流失計(jì)算、資源管理。數(shù)據(jù)倉(cāng)庫(kù)包括主題數(shù)據(jù)、派生數(shù)據(jù)、歷史數(shù)據(jù)。數(shù)據(jù)管理包括數(shù)據(jù)封裝、接口發(fā)布、數(shù)據(jù)授權(quán)、計(jì)算模型、數(shù)據(jù)模型、應(yīng)用管理、隱私加密和用戶(hù)管理。數(shù)據(jù)供給包括DB接口、API接口[7]、文件輸出。
數(shù)據(jù)應(yīng)用層包括統(tǒng)一數(shù)據(jù)應(yīng)用平臺(tái)和智慧校園應(yīng)用兩部分。數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)層通過(guò)數(shù)據(jù)供給的DB接口、API接口和文件輸出提供數(shù)據(jù)給數(shù)據(jù)應(yīng)用層的統(tǒng)一數(shù)據(jù)應(yīng)用平臺(tái)。統(tǒng)一數(shù)據(jù)應(yīng)用平臺(tái)從下到上包括應(yīng)用服務(wù)、應(yīng)用工具和應(yīng)用容器。應(yīng)用服務(wù)包括API對(duì)接、消息推送、定時(shí)任務(wù)、安全加密、多級(jí)緩存、運(yùn)維監(jiān)控。應(yīng)用工具包括可視化設(shè)計(jì)、計(jì)算編排、頁(yè)面生成。應(yīng)用容器包括統(tǒng)一UI、統(tǒng)一權(quán)限、統(tǒng)一體驗(yàn)。統(tǒng)一數(shù)據(jù)應(yīng)用平臺(tái)通過(guò)應(yīng)用容器開(kāi)發(fā)智慧校園應(yīng)用,包括數(shù)據(jù)可視化分析、學(xué)生個(gè)人數(shù)據(jù)中心、教師個(gè)人數(shù)據(jù)中心、綜合校情決策支持、一站式服務(wù)平臺(tái)[8]及其他應(yīng)用。
數(shù)據(jù)是一個(gè)組織唯一的、非耗竭的、無(wú)減損的長(zhǎng)期資產(chǎn)。數(shù)據(jù)治理是一種體系,從范圍來(lái)講,數(shù)據(jù)治理涵蓋了從前端事務(wù)處理系統(tǒng)、后端業(yè)務(wù)數(shù)據(jù)庫(kù)到終端的數(shù)據(jù)分析,從源頭到終端再回到源頭形成一個(gè)閉環(huán)負(fù)反饋系統(tǒng)(控制理論中趨穩(wěn)的系統(tǒng))。從目前來(lái)講,數(shù)據(jù)治理就是要對(duì)數(shù)據(jù)的獲取、處理、使用進(jìn)行有效管理,從發(fā)現(xiàn)、監(jiān)督、控制、溝通、整合等方面構(gòu)建組織數(shù)據(jù)資產(chǎn)。
“十三五”建設(shè)目標(biāo)中智慧校園[9]的高質(zhì)量運(yùn)行需要多維、完善、準(zhǔn)確的數(shù)據(jù)來(lái)支撐,而當(dāng)前職業(yè)院校的數(shù)據(jù)現(xiàn)狀與此要求相比,還存在很大的差距。主要表現(xiàn)在:數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)孤島普遍、數(shù)據(jù)治理不高、不夠完善、來(lái)源不清、管理發(fā)布共享困難等。本質(zhì)原因是傳統(tǒng)數(shù)字化校園建設(shè)中“重流程、輕數(shù)據(jù)、缺標(biāo)準(zhǔn)”的歷史狀況所致。學(xué)校作為數(shù)據(jù)的生產(chǎn)、持有和使用的主體,面對(duì)這些紛繁雜亂、若隱若現(xiàn)、捉摸不定的數(shù)據(jù),難以關(guān)聯(lián)、統(tǒng)計(jì)、分析、挖掘,更無(wú)法形成整體數(shù)據(jù)資源,數(shù)據(jù)的價(jià)值更加得不到充分高效的開(kāi)發(fā)利用,管理水平難以提升,重要決策難以支撐。這種情況下,“智慧校園”的推進(jìn)收效甚微。
針對(duì)職業(yè)院校普遍存在的“數(shù)據(jù)問(wèn)題”,探索研究了建立基于數(shù)據(jù)中臺(tái)建設(shè)的完整的數(shù)據(jù)治理解決方案。方案對(duì)職業(yè)院校內(nèi)外的全量數(shù)據(jù)進(jìn)行盤(pán)點(diǎn)、梳理、采集、整合、清洗和標(biāo)準(zhǔn)化,建立一個(gè)標(biāo)準(zhǔn)統(tǒng)一規(guī)范、來(lái)源權(quán)威穩(wěn)定、數(shù)據(jù)高度融合、數(shù)據(jù)治理可靠的全量數(shù)據(jù)平臺(tái),實(shí)現(xiàn)對(duì)數(shù)據(jù)的全面采集、規(guī)范建模、質(zhì)量提升、安全存儲(chǔ)、可控共享和充分應(yīng)用。
數(shù)據(jù)治理主要活動(dòng)包括設(shè)計(jì)職業(yè)院校校級(jí)數(shù)據(jù)標(biāo)準(zhǔn),全量采集各種管理業(yè)務(wù)數(shù)據(jù)、電子表格數(shù)據(jù)、日志數(shù)據(jù)等,并對(duì)數(shù)據(jù)質(zhì)量進(jìn)行驗(yàn)核,針對(duì)質(zhì)量問(wèn)題進(jìn)行清洗、轉(zhuǎn)換、去重、補(bǔ)漏、糾錯(cuò)等操作,再按照標(biāo)準(zhǔn)模型和標(biāo)準(zhǔn)代碼進(jìn)行統(tǒng)一建模存儲(chǔ),形成戰(zhàn)略級(jí)數(shù)據(jù)資產(chǎn),并由大數(shù)據(jù)平臺(tái)進(jìn)行承載和運(yùn)營(yíng)發(fā)布。
通過(guò)開(kāi)發(fā)數(shù)據(jù)治理工具軟件、表格數(shù)據(jù)處理軟件、日志數(shù)據(jù)處理軟件、大數(shù)據(jù)平臺(tái),可以使整個(gè)治理過(guò)程可靠、可控、可視化,降低了數(shù)據(jù)治理的技術(shù)難度,顯著提升了工作效率。同時(shí),通過(guò)提供管理咨詢(xún)服務(wù)和頂層架構(gòu)設(shè)計(jì),形成數(shù)據(jù)標(biāo)準(zhǔn)體系、數(shù)據(jù)工具體系、數(shù)據(jù)管理知識(shí)庫(kù)體系和數(shù)據(jù)管理流程[10]制度體系,使數(shù)據(jù)資產(chǎn)成果能夠長(zhǎng)期持續(xù)、可繼承、迭代和完善。
基于治理后形成的全量、標(biāo)準(zhǔn)化、高質(zhì)量的數(shù)據(jù)資產(chǎn),利用數(shù)據(jù)統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、人工智能等大數(shù)據(jù)相關(guān)技術(shù),實(shí)現(xiàn)各種微觀、中觀、宏觀尺度的統(tǒng)計(jì)、挖掘、分析、預(yù)測(cè),為廣大高職院校師生、各個(gè)業(yè)務(wù)部門(mén)、各級(jí)領(lǐng)導(dǎo)提供數(shù)據(jù)化、智能化的智慧校園服務(wù)。
數(shù)據(jù)治理是一個(gè)具有多個(gè)業(yè)務(wù)系統(tǒng)、復(fù)雜數(shù)據(jù)的組織解決數(shù)據(jù)問(wèn)題的唯一出路,對(duì)于高職院校,數(shù)據(jù)來(lái)源的獲得、數(shù)據(jù)標(biāo)準(zhǔn)的制定、數(shù)據(jù)治理的技術(shù)人員的招聘和培訓(xùn)等各方面都有難度,所以構(gòu)建一個(gè)適應(yīng)職業(yè)院校的數(shù)據(jù)治理架構(gòu)模型至關(guān)重要。在此之上才能打好職業(yè)院校信息化和智能化的基礎(chǔ)。