馬鴻健 張耘凡 王關(guān)祥 車路 王嬌
【摘 要】隨著高校信息化應(yīng)用范圍的逐步擴大,以及物聯(lián)網(wǎng)、云計算、移動互聯(lián)等新型信息技術(shù)的廣泛應(yīng)用,高校信息化建設(shè)逐漸進入了大數(shù)據(jù)時代。面對迅速增長的教育信息資源,海量信息的存儲和利用問題日益嚴(yán)峻,各大高校對于數(shù)據(jù)采集整合、集中管理、分析挖掘的需求日益明顯,都在探索和思考新的應(yīng)對策略。
【關(guān)鍵詞】數(shù)據(jù)管理;數(shù)據(jù)采集;數(shù)據(jù)分析
Thinking of University data management in the Big Data era
MA Hong-jian ZHANG Yun-fan WANG Guan-xiang CHE Lu WANG Jiao
(Shandong Agricultural University, Taian Shandong 271000, China)
【Abstract】The university information system is gradually entered the era of big data, with the widely application of information, as well as networking, cloud computing, mobile Internet and suchlike new information technology. Facing the rapid growth of educational information resources, the problems of storage and utilization of magnanimity information resources is becoming more seriously. With the urgent requirement in data collection, centralized management, analysis and data mining, all of them are thinking and exploration of the new strategies.
【Key words】Data management; Data collection; Data analysis
0 引言
自21世紀(jì)以來,我國高校數(shù)字化校園建設(shè)得到快速發(fā)展,大致經(jīng)歷了基礎(chǔ)設(shè)施建設(shè)階段、應(yīng)用系統(tǒng)建設(shè)階段和信息數(shù)據(jù)整合階段,提升了高校信息化的整體水平。如今,數(shù)據(jù)中心在承載著越來多和越來越重要的應(yīng)用與業(yè)務(wù)系統(tǒng)的同時,也積累了大量的數(shù)據(jù)資源,數(shù)據(jù)管理漸行漸近。
大數(shù)據(jù)技術(shù)的目的不在于掌握龐大的數(shù)據(jù)信息,而在于對這些蘊藏知識的數(shù)據(jù)進行專業(yè)化處理,通過分析得出大量額外的有價值信息和數(shù)據(jù)關(guān)系,幫助人們優(yōu)化自身的決策和行為方式[1]。高校中的數(shù)據(jù)是多源的、異構(gòu)的,需要利用大數(shù)據(jù)技術(shù)進行整合,挖掘數(shù)據(jù)潛在的價值,進而幫助學(xué)校進行決策分析及管理,大數(shù)據(jù)技術(shù)的應(yīng)用在高校教育信息化中起到越來越重要的地位。
1 數(shù)據(jù)管理
高校數(shù)據(jù)資源是高校各職能部門產(chǎn)生的業(yè)務(wù)數(shù)據(jù)及相關(guān)數(shù)據(jù),包括教學(xué)資源數(shù)據(jù)、網(wǎng)絡(luò)行為數(shù)據(jù)、無線認(rèn)證數(shù)據(jù)等,從數(shù)據(jù)來源上涵蓋教學(xué)、科研、人事、資產(chǎn)、財務(wù)等各個方面,從數(shù)據(jù)類型上有數(shù)據(jù)庫、圖像、報表、公文、音頻、視頻、日志等形式。
數(shù)據(jù)管理的概念最早提出于20世紀(jì)80年代,指利用先進的管理手段和計算機硬件、軟件,實現(xiàn)對數(shù)據(jù)資源進行規(guī)劃、設(shè)計、使用、維護與控制的全面管理,其目的在于充分有效地發(fā)揮數(shù)據(jù)的作用[2-5]。當(dāng)前高校數(shù)據(jù)管理的工作主要包括三個方面:
1.1 數(shù)據(jù)的管理及共享服務(wù)
根據(jù)高校應(yīng)用系統(tǒng)的數(shù)據(jù)需求,規(guī)劃數(shù)據(jù)庫結(jié)構(gòu)和內(nèi)容,將各種異構(gòu)數(shù)據(jù)源進行統(tǒng)一,對外提供統(tǒng)一的訪問接口和數(shù)據(jù)發(fā)現(xiàn)、檢索等服務(wù);建立統(tǒng)一數(shù)據(jù)庫平臺,存儲各應(yīng)用系統(tǒng)數(shù)據(jù)交換所需要的信息,并通過數(shù)據(jù)交換功能獲取應(yīng)用系統(tǒng)權(quán)威數(shù)據(jù),根據(jù)需求定期回寫到其他數(shù)據(jù)使用部門的應(yīng)用系統(tǒng),實現(xiàn)各個業(yè)務(wù)部門之間的數(shù)據(jù)共享。
1.2 制定相應(yīng)數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)規(guī)劃
建立高校數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,將學(xué)校各類數(shù)據(jù)資源集成,實現(xiàn)單一數(shù)據(jù)源管理和有授權(quán)的數(shù)據(jù)訪問,保證學(xué)校主數(shù)據(jù)庫中數(shù)據(jù)的實時性、準(zhǔn)確性、一致性;對全校范圍的數(shù)據(jù)資源進行統(tǒng)一規(guī)劃,確定各類數(shù)據(jù)對應(yīng)的權(quán)威數(shù)據(jù)生產(chǎn)部門,明確共享數(shù)據(jù)內(nèi)容。
1.3 數(shù)據(jù)統(tǒng)計分析與應(yīng)用
對集成的數(shù)據(jù)進行數(shù)據(jù)清理、數(shù)據(jù)分析及數(shù)據(jù)展示工作,除去冗余、重復(fù)的數(shù)據(jù),提高數(shù)據(jù)質(zhì)量;對高校教育大數(shù)據(jù)進行數(shù)據(jù)挖掘,發(fā)現(xiàn)數(shù)據(jù)中的價值,實現(xiàn)教學(xué)評估、學(xué)生個體分析、輿情預(yù)測等大數(shù)據(jù)分析與應(yīng)用。
2 數(shù)據(jù)采集
高校信息化建設(shè)過程中,各個部門根據(jù)自身的業(yè)務(wù)需求建立了各自的業(yè)務(wù)系統(tǒng),并收集了大量的、不同類型的數(shù)據(jù),如教學(xué)、人事、科研、財務(wù)等部門的基本業(yè)務(wù)數(shù)據(jù),教學(xué)課件、視頻等多媒體數(shù)據(jù),論壇、微博、微信等網(wǎng)絡(luò)行為數(shù)據(jù),校內(nèi)無線網(wǎng)感知的位置數(shù)據(jù)等,從數(shù)據(jù)類型上可分為應(yīng)用關(guān)系數(shù)據(jù)、文檔、操作日志、圖形數(shù)據(jù)、XML數(shù)據(jù)、流式數(shù)據(jù)等,這些數(shù)據(jù)在數(shù)據(jù)采集時可以分為兩類,即結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)采集架構(gòu)如圖1所示。
2.1 結(jié)構(gòu)化數(shù)據(jù)采集
結(jié)構(gòu)化數(shù)據(jù)采集即數(shù)據(jù)集成,將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)集成到一起。其實現(xiàn)方式是在各業(yè)務(wù)系統(tǒng)與數(shù)據(jù)中心之間做接口,并完成對接,實現(xiàn)抽取與推送數(shù)據(jù)的目的。根據(jù)實際應(yīng)用的需求,數(shù)據(jù)交換分為數(shù)據(jù)庫級數(shù)據(jù)交換和應(yīng)用級數(shù)據(jù)交換,數(shù)據(jù)庫級數(shù)據(jù)交換適合數(shù)據(jù)集實時要求高數(shù)據(jù)量不大的數(shù)據(jù);應(yīng)用級數(shù)據(jù)交換適合數(shù)據(jù)實時性要求不高但數(shù)據(jù)量較大的數(shù)據(jù)。高校中數(shù)據(jù)集成的部門和需要集成數(shù)據(jù)項名稱如表1所示。
2.2 非結(jié)構(gòu)化數(shù)據(jù)采集
高校產(chǎn)生的數(shù)據(jù)大多是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),在進行數(shù)據(jù)采集時,將存儲于數(shù)據(jù)庫以外的數(shù)據(jù)作為非結(jié)構(gòu)化數(shù)據(jù)進行研究。高校中,將各種不同類型和格式的數(shù)據(jù)進行集成時,需要使用與非結(jié)構(gòu)化的數(shù)據(jù)相關(guān)聯(lián)的鍵或者標(biāo)簽,這些非結(jié)構(gòu)化數(shù)據(jù)通常包含了與主數(shù)據(jù)相關(guān)的數(shù)據(jù)。通過分析包含了文本數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù),可以將非結(jié)構(gòu)化的數(shù)據(jù)進行關(guān)聯(lián)。如圖所示,存儲在數(shù)據(jù)庫外部的數(shù)據(jù),如文檔、音頻、視頻文件,可以通過教師、學(xué)生、課程或者其它主數(shù)據(jù)引用進行搜索,將主數(shù)據(jù)引用作為元數(shù)據(jù)標(biāo)簽附加到非結(jié)構(gòu)化數(shù)據(jù)上,在此基礎(chǔ)上實現(xiàn)與其它數(shù)據(jù)源和其它類型的數(shù)據(jù)進行集成。
3 數(shù)據(jù)分析
數(shù)據(jù)采集獲取到高校大數(shù)據(jù)之后,需要進行數(shù)據(jù)分析、挖掘工作。數(shù)據(jù)分析方式主要有兩種,一種是傳統(tǒng)的SPSS、SAS數(shù)據(jù)分析,另一種是采用大數(shù)據(jù)架構(gòu)及相關(guān)工具進行分析,如Hadoop、Spark。
大數(shù)分析技術(shù)可以應(yīng)用于高校大數(shù)據(jù)的各個方面,分析結(jié)論也可以應(yīng)用于教育、教學(xué)的多個方面。通過對學(xué)生成績數(shù)據(jù)、圖書借閱數(shù)據(jù)、課外活動數(shù)據(jù)、一卡通消費數(shù)據(jù)、體能測試數(shù)據(jù)進行分析,可以綜合性地分析學(xué)生的全面發(fā)展?fàn)顩r;在以上基礎(chǔ)上,增加學(xué)生興趣數(shù)據(jù)、科學(xué)研究及實踐數(shù)據(jù)、就業(yè)數(shù)據(jù),可以分析得出各類學(xué)生對就業(yè)的方向選擇及社會對學(xué)生的認(rèn)可程度,進而幫助學(xué)校在教學(xué)模式、培養(yǎng)方案上的優(yōu)化,更加準(zhǔn)確高效地培養(yǎng)出更多優(yōu)秀的、為社會服務(wù)的高水平人才。
4 數(shù)據(jù)管理思考
從高校數(shù)據(jù)的來源及匯聚方面,高校中的數(shù)據(jù)很大一部分來源于各職能部門,而高校內(nèi)部對于各職能部門間數(shù)據(jù)資源規(guī)劃缺位、缺乏共享共建意識,導(dǎo)致了各部門建設(shè)進度不同、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,增加了數(shù)據(jù)資源共享共用的壁壘。因此,大量的數(shù)據(jù)分布在各個互相獨立的系統(tǒng)中,無法有效流動形成規(guī)模效應(yīng),數(shù)據(jù)價值得不到有效挖掘。
從大數(shù)據(jù)時代的數(shù)據(jù)管理思想上,傳統(tǒng)的數(shù)據(jù)管理只是采集基本數(shù)據(jù),使用數(shù)據(jù)自身含義,沒有利用數(shù)據(jù)的附加價值;而大數(shù)據(jù)時代的數(shù)據(jù)管理更強調(diào)數(shù)據(jù)之間的關(guān)聯(lián)性,主要研究數(shù)據(jù)間的關(guān)系,以挖掘內(nèi)在關(guān)系及預(yù)測為核心思想,通過對海量數(shù)據(jù)進行分析,得到未來發(fā)展趨勢或者推斷將來的可能性,進而為高校決策提供數(shù)據(jù)支持。
從大數(shù)據(jù)時代的隱私保護上,多項案例表明,即使無害的數(shù)據(jù)被大量收集后,也會暴露個人隱私。高校大數(shù)據(jù)覆蓋高校、學(xué)科、教師、學(xué)生的方方面面,如學(xué)校課程體系、學(xué)科目錄、教師的工資收入,學(xué)生的生活習(xí)慣、閱讀習(xí)慣、檢索習(xí)慣等。因此,需要在大數(shù)據(jù)采集、分析、決策開展的同時,做好用戶隱私的保護。
5 結(jié)論
綜上所述,大數(shù)據(jù)的出現(xiàn),給高校的數(shù)據(jù)整合和數(shù)據(jù)管理提供了技術(shù)支持。利用大數(shù)據(jù)技術(shù)做好高校數(shù)據(jù)管理工作,讓數(shù)據(jù)更好的為教學(xué)、科研、學(xué)生管理等提供決策支持,是大數(shù)據(jù)時代高校數(shù)據(jù)管理發(fā)展的方向。
【參考文獻】
[1]趙玉潔.大數(shù)據(jù)在高校教育信息化中的應(yīng)用探究[J].中國教育信息化,2015,19:38-41.
[2]孫曼,王全.大數(shù)據(jù)及其處理架構(gòu)在高校中的應(yīng)用探究[J].現(xiàn)代經(jīng)濟信息,2015,12:96+98.
[3]石峻峰,周俐霞,樊澤恒,王麗.大數(shù)據(jù)時代高校數(shù)字檔案資源管理研究[J].現(xiàn)代教育技術(shù),2015,01:19-24.
[4]向禹.高校檔案資源異構(gòu)數(shù)據(jù)采集研究與實現(xiàn)[J].農(nóng)業(yè)圖書情報學(xué)刊,2015,06:18-21.
[5]曾凌靜.大數(shù)據(jù)系統(tǒng)架構(gòu)及技術(shù)發(fā)展研究[J].石家莊學(xué)院學(xué)報,2015,06:38-43.
[6]余水清,潘黎萍.大數(shù)據(jù)管理-數(shù)據(jù)集成的技術(shù)、方法與最佳實踐[M].機械工業(yè)出版社,2014∶2-9.
[7]王益.數(shù)據(jù)中心信息交換平臺的研究與設(shè)計[J].中國教育信息化,2010,21:16-17.
[8]鄧佳,詹華清.莫納什大學(xué)科研數(shù)據(jù)管理實踐及對我國機構(gòu)知識庫建設(shè)的啟示[J].情報理論與實踐,2014,05:136-139.
[9]趙亮.大數(shù)據(jù)在高校教育信息化中的應(yīng)用[J].黑龍江教育學(xué)院學(xué)報,2014,09:14-15.
[10]舒忠梅,屈瓊斐.大數(shù)據(jù)時代高校信息管理與決策機制研究[J].華南理工大學(xué)學(xué)報:社會科學(xué)版,2013,06:96-101.
[11]孫洪睿.高校數(shù)據(jù)信息平臺的研究與設(shè)計[J].應(yīng)用科技,2009,07:41-46.
[12]陳琴,耿植.構(gòu)建高校信息管理數(shù)據(jù)倉庫[J].福建電腦,2008,03:183+159.
[13]潘奇.基于Hadoop技術(shù)的高校學(xué)生行為分析系統(tǒng)研究與實現(xiàn)[D].北京郵電大學(xué),2015.
[責(zé)任編輯:楊玉潔]