張新紅,陸 璐,陳利國
(鄭州鐵路職業(yè)技術(shù)學(xué)院,河南 鄭州 451460)
基于大數(shù)據(jù)技術(shù)的高校信息化建設(shè)
張新紅,陸 璐,陳利國
(鄭州鐵路職業(yè)技術(shù)學(xué)院,河南 鄭州 451460)
大數(shù)據(jù)技術(shù)的出現(xiàn)推動了高校的信息化建設(shè)。在高校信息化建設(shè)中引入Hadoop系統(tǒng)及其工具集,將高校中的所有數(shù)據(jù)進(jìn)行采集、處理、分析和展示,實(shí)現(xiàn)預(yù)測功能,為管理人員提供決策的依據(jù)。分析高校數(shù)據(jù)應(yīng)用的現(xiàn)狀并提出基于大數(shù)據(jù)技術(shù)的解決方案,使體量龐大又紛繁復(fù)雜的各類數(shù)據(jù)在高校教學(xué)與管理中充分發(fā)揮作用。
大數(shù)據(jù);信息化建設(shè);數(shù)據(jù)應(yīng)用;數(shù)據(jù)挖掘
在云計算、物聯(lián)網(wǎng)大熱之后,大數(shù)據(jù)又成為了重點(diǎn)話題。大數(shù)據(jù)技術(shù)被人們用來處理在信息時代所產(chǎn)生的海量數(shù)據(jù),同時,與其相關(guān)的技術(shù)發(fā)展和創(chuàng)新也以大數(shù)據(jù)來命名。通過對信息時代產(chǎn)生的海量數(shù)據(jù)進(jìn)行高效的分析,可以使眾多的行業(yè)獲得意想不到的商業(yè)和社會價值,從而推動各行業(yè)的發(fā)展。
在高校信息化校園建設(shè)中,利用大數(shù)據(jù)技術(shù)對校園信息化設(shè)施展開大規(guī)模的數(shù)據(jù)抓取,并實(shí)施有效的深度數(shù)據(jù)分析,可為教育資源優(yōu)化、人才質(zhì)量提高提供科學(xué)的決策依據(jù)。透明的數(shù)據(jù)更能體現(xiàn)以學(xué)生為中心的教育思想,便于提前規(guī)劃專業(yè)學(xué)習(xí)方向,調(diào)解學(xué)生與教師之間的矛盾,緩解社會就業(yè)壓力[1]。
目前,大部分高校都已完成信息化建設(shè)。高校信息系統(tǒng),學(xué)生管理系統(tǒng),辦公自動化系統(tǒng),BlackBoard平臺,e-Learning系統(tǒng),教學(xué)資源庫,圖書管理系統(tǒng),遠(yuǎn)程教育系統(tǒng),教科研系統(tǒng),校園一卡通系統(tǒng),視頻監(jiān)控系統(tǒng),財務(wù)管理系統(tǒng),招生與就業(yè)系統(tǒng)等都已投入使用。這些系統(tǒng)各自獨(dú)立,教師和學(xué)生在使用時不得不根據(jù)需要登錄不同的系統(tǒng)進(jìn)行信息錄入和查詢。這就造成信息重復(fù)輸入,查詢結(jié)果不能合并等問題。
要解決上述問題,需要建立統(tǒng)一的用戶個人數(shù)據(jù)中心,并驅(qū)動用戶主動去維護(hù)、完善個人信息。通過統(tǒng)一的校級個人信息填報入口,將填報服務(wù)與管理流程分離,減少用戶重復(fù)填報信息的操作[2]。在此基礎(chǔ)上建立“個人—專業(yè)/部門—院系—學(xué)?!?一體化的校級數(shù)據(jù)中心,完善數(shù)據(jù)的錄入和管理。
大數(shù)據(jù)技術(shù)出現(xiàn)之后,為校園信息化建設(shè)帶來了機(jī)遇,大數(shù)據(jù)技術(shù)在高校中的應(yīng)用研究亦如星星之火正悄悄燃起。例如:北京航空航天大學(xué)在2012年9月成立了大數(shù)據(jù)科學(xué)與工程國際研究中心,并開創(chuàng)了國內(nèi)第一個“大數(shù)據(jù)科學(xué)與應(yīng)用”軟件工程碩士專業(yè);復(fù)旦大學(xué)應(yīng)用大數(shù)據(jù)技術(shù)建設(shè)智慧校園;華中科技大學(xué)構(gòu)建了基于大數(shù)據(jù)的就業(yè)工作系統(tǒng)。如何使大數(shù)據(jù)信息資源和技術(shù)服務(wù)于高校的教學(xué)和管理工作是大多數(shù)高校目前面臨的重要課題。
在高校信息化建設(shè)的過程中,更好地服務(wù)用戶是最終目標(biāo)。高校信息化管理者必須能夠及時發(fā)現(xiàn)和挖掘用戶對服務(wù)的新需求,并著力于滿足用戶合理的需求。當(dāng)前,許多高校都有其各自的學(xué)生信息管理系統(tǒng)、招生與就業(yè)系統(tǒng)、科研系統(tǒng)和財務(wù)系統(tǒng)等,并積累了大量的結(jié)構(gòu)化數(shù)據(jù),同時在校園網(wǎng)、預(yù)約系統(tǒng)、物聯(lián)網(wǎng)、校園一卡通系統(tǒng)、電子學(xué)習(xí)系統(tǒng)、網(wǎng)絡(luò)社交平臺、幕課、無線網(wǎng)、生活服務(wù)平臺等使用過程中產(chǎn)生了大量的數(shù)據(jù),其中大部分是非結(jié)構(gòu)化數(shù)據(jù),它們無法用常見的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)保存和處理。這些龐大、結(jié)構(gòu)復(fù)雜的各種數(shù)據(jù)看似零散、無關(guān)聯(lián),如何管理和充分利用這些數(shù)據(jù),如何在獲取全體數(shù)據(jù)之后進(jìn)行及時準(zhǔn)確的分析和整合,并提出精準(zhǔn)預(yù)測[3],才是高校信息化建設(shè)工作面臨的最大挑戰(zhàn)。
(一)大數(shù)據(jù)技術(shù)
大數(shù)據(jù)技術(shù)的出現(xiàn)解決了上述問題。以Hadoop為代表的開源分布式大數(shù)據(jù)處理架構(gòu)進(jìn)入了校園信息化視野。 Hadoop使用廉價的PC機(jī)取代高性能計算機(jī),大大節(jié)約了硬件成本;Hadoop屬于Apache軟件基金會的開源軟件體系,具有較強(qiáng)的靈活性,允許用戶自己修改代碼,擅長海量數(shù)據(jù)的存儲和計算服務(wù)。這些特點(diǎn)為Hadoop架構(gòu)應(yīng)用于校園信息化建設(shè)提供了條件。Hadoop項(xiàng)目的主要構(gòu)成為兩部分,HDFS分布式文件系統(tǒng)和Map-Reduce計算框架。此外,還提供了其他一些工具集,例如:構(gòu)建在Hadoop分布式文件系統(tǒng)和Map-Reduce計算框架之上的可擴(kuò)展的數(shù)據(jù)倉庫Hive,為SQL用戶訪問數(shù)據(jù)庫提供了方便;數(shù)據(jù)流高層語言Pig、結(jié)構(gòu)化數(shù)據(jù)庫KBase、數(shù)據(jù)挖掘工具M(jìn)ahout、日志收集工具Flume、關(guān)系數(shù)據(jù)ETL工具Swoop、高性能分布式協(xié)同服務(wù)ZooKeeper等豐富的工具集。圖1是Hadoop項(xiàng)目構(gòu)成圖。
圖1 Hadoop項(xiàng)目構(gòu)成圖
(二)大數(shù)據(jù)技術(shù)在高校信息化建設(shè)中的實(shí)施
在高校信息化建設(shè)和運(yùn)行中產(chǎn)生和積累了大量的數(shù)據(jù),這些數(shù)據(jù)需經(jīng)過處理才能更好地呈現(xiàn)給用戶。數(shù)據(jù)處理流程包括四個階段:數(shù)據(jù)采集階段,數(shù)據(jù)導(dǎo)入/預(yù)處理階段,統(tǒng)計/分析階段,數(shù)據(jù)挖掘/可視化階段。最終實(shí)現(xiàn)有效服務(wù)于學(xué)校和師生用戶。
1.數(shù)據(jù)采集階段
校園網(wǎng),尤其是無線網(wǎng)、物聯(lián)網(wǎng)是基礎(chǔ)設(shè)施。建設(shè)完善的無線網(wǎng)絡(luò)覆蓋,建立以RFID、無線AP、校園卡等為基礎(chǔ)的物聯(lián)網(wǎng)[2],為數(shù)據(jù)的捕獲提供硬件支持。師生通過手機(jī)、平板電腦和智能終端實(shí)現(xiàn)教學(xué)、科研、選課、借還書、吃飯刷卡等活動的同時產(chǎn)生的大量即時數(shù)據(jù)是大數(shù)據(jù)的主要來源。數(shù)據(jù)采集系統(tǒng)如圖2所示。
圖2 數(shù)據(jù)采集系統(tǒng)
數(shù)據(jù)采集以“個人”為核心,建立“個人—專業(yè)/部門—院系—學(xué)校”的金字塔模式,既可避免信息重復(fù)填報,又可減少“信息孤島”現(xiàn)象的存在,形成完善有條理的數(shù)據(jù)體系。
2.數(shù)據(jù)導(dǎo)入/預(yù)處理階段
由硬件系統(tǒng)和軟件系統(tǒng)產(chǎn)生的數(shù)據(jù)需要進(jìn)行抽取、集成,即導(dǎo)入/預(yù)處理,然后再進(jìn)行存儲。在數(shù)據(jù)抽取階段收集各種碎片化數(shù)據(jù),然后使用相應(yīng)的工具對大量雜亂無章的數(shù)據(jù)進(jìn)行過濾,提取其中有價值的數(shù)據(jù),最終將這些數(shù)據(jù)按照統(tǒng)一的格式存儲。
對于結(jié)構(gòu)化數(shù)據(jù),采用ETL(數(shù)據(jù)提取、轉(zhuǎn)換和加載)工具將數(shù)據(jù)抽取到Kbase數(shù)據(jù)庫中;對于非結(jié)構(gòu)化數(shù)據(jù),通過Butch進(jìn)行抓取,并使用Sole工具對數(shù)據(jù)進(jìn)行索引后存儲到Kbase數(shù)據(jù)庫中。
在數(shù)據(jù)存儲時要采用統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)及編碼系統(tǒng),合理應(yīng)用CAP定理。為了消除信息孤島,在數(shù)據(jù)存儲過程中要充分考慮數(shù)據(jù)的一致性、可用性、分區(qū)容忍性,最終目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)的有效存儲與使用。
3.統(tǒng)計/分析階段
在統(tǒng)計/分析階段,利用數(shù)據(jù)倉庫軟件(如Hive)對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行查詢和分析。Hive是一種類 SQL 查詢語言,建立在 Hadoop 上的數(shù)據(jù)倉庫基礎(chǔ)構(gòu)架上,稱為 HQL,它為熟練使用SQL 的用戶查詢數(shù)據(jù)提供了便利。對于熟悉 Map-Reduce 開發(fā)者來說,使用Hive開發(fā)自定義的 mapper 和 reducer 來處理復(fù)雜的分析工作更為便利。
數(shù)據(jù)分析分為簡單數(shù)據(jù)分析和復(fù)雜數(shù)據(jù)分析。簡單數(shù)據(jù)分析,如利用學(xué)生手機(jī)接入校園無線網(wǎng)絡(luò)的位置和時間跟蹤學(xué)生的動向。復(fù)雜數(shù)據(jù)分析,如對已經(jīng)就業(yè)的學(xué)生的成績、就業(yè)行業(yè)、參加社團(tuán)情況、實(shí)踐能力情況、參加競賽情況等數(shù)據(jù)進(jìn)行分析,得出成功就業(yè)和學(xué)生需要掌握的能力之間的關(guān)系。再將這種可以復(fù)制的分析模式應(yīng)用于在校大學(xué)生,幫助他們調(diào)整自己的學(xué)習(xí)、生活和實(shí)踐計劃,使其更好地認(rèn)識自我、科學(xué)定位、準(zhǔn)確規(guī)劃就業(yè)方向,實(shí)現(xiàn)成功就業(yè)。
數(shù)據(jù)分析是大數(shù)據(jù)利用的高級階段。這一階段主要研究不同數(shù)據(jù)維度的量化和相關(guān)性。在數(shù)據(jù)分析階段,利用大數(shù)據(jù)技術(shù)所獲得的研究成果將會給業(yè)務(wù)部門帶來價值,從而促進(jìn)業(yè)務(wù)的發(fā)展;另一方面業(yè)務(wù)部門將會對數(shù)據(jù)產(chǎn)生依賴。數(shù)據(jù)分析的成果將成為部門的核心資產(chǎn)和重要資源,影響著人們的決策。這一階段也是數(shù)據(jù)分析與處理技術(shù)得以廣泛應(yīng)用并成熟發(fā)展的重要階段。
4.數(shù)據(jù)挖掘/可視化階段
經(jīng)過分析與處理的數(shù)據(jù)可以提供一定程度的數(shù)據(jù)分享、校園信息檢索、深度數(shù)據(jù)挖掘與數(shù)據(jù)展示等功能。學(xué)校的公共信息可定向推送給相關(guān)人員,也可供學(xué)生和教職工查閱和檢索。數(shù)據(jù)挖掘的結(jié)果是給機(jī)器看的, 數(shù)據(jù)挖掘可以讓分析員更好地理解數(shù)據(jù),而數(shù)據(jù)展示即可視化是給人看的。
數(shù)據(jù)挖掘是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計算,進(jìn)而實(shí)現(xiàn)預(yù)測,并能滿足一些高級別數(shù)據(jù)分析的需求。主要使用的工具有Hadoop的Mahout等。
數(shù)據(jù)分析得到的分析結(jié)果,需要以直觀的可理解的方式呈現(xiàn)給全體師生,這一過程即數(shù)據(jù)的可視化。對于展示數(shù)據(jù)而言,主要是利用變化曲線、多維疊加或者三維空間坐標(biāo)等方式把分析和處理數(shù)據(jù)的結(jié)果向用戶呈現(xiàn)[3]。可借助Tableau軟件將分析的結(jié)果進(jìn)行可視化的展示。Tableau Desktop 是基于斯坦福大學(xué)突破性技術(shù)的軟件應(yīng)用程序,它能生動地分析實(shí)際存在的任何結(jié)構(gòu)化數(shù)據(jù),可以在幾分鐘內(nèi)生成美觀的圖表、坐標(biāo)圖、儀表盤與報告。利用 Tabpeau 簡便的拖放式界面,可以自定義視圖、布局、形狀、顏色等等,展現(xiàn)特定的數(shù)據(jù)視角。數(shù)據(jù)的可視化階段向?qū)W生、教師及職能部門提供了預(yù)設(shè)主題或者自定義的查詢和展示功能。
(三)大數(shù)據(jù)技術(shù)在高校的作用
大數(shù)據(jù)技術(shù)在高校信息資源共享、教學(xué)質(zhì)量評估、預(yù)測與校園輿情分析等方面起著重要的作用。
1.信息資源共享
在原有數(shù)字校園建設(shè)的基礎(chǔ)上,制定統(tǒng)一信息標(biāo)準(zhǔn),形成信息規(guī)范體系,集成各類管理系統(tǒng),構(gòu)建大數(shù)據(jù)交換共享平臺,實(shí)現(xiàn)業(yè)務(wù)系統(tǒng)之間數(shù)據(jù)的準(zhǔn)確同步交換,可最大程度實(shí)現(xiàn)校園信息資源共享。
2.教學(xué)質(zhì)量評估
教學(xué)質(zhì)量評估是每個高校定期要進(jìn)行的項(xiàng)目,分為校內(nèi)自評和接受主管部門評估兩部分。在教學(xué)質(zhì)量評估過程中引入大數(shù)據(jù)技術(shù),可以提高教育管理的科學(xué)性,增強(qiáng)高校信息化建設(shè)的實(shí)效性。在數(shù)據(jù)挖掘和分析過程中所得到的有價值的信息將作為評估的重要依據(jù),為評估專家和教學(xué)管理提供決策支持。
3.預(yù)測與輿情分析
大數(shù)據(jù)的核心就是預(yù)測。利用大數(shù)據(jù)技術(shù)進(jìn)行可視化分析和數(shù)據(jù)挖掘所獲得的結(jié)果可以被管理者用來作為預(yù)測的依據(jù)。對于高校管理人員來說,獲取全體數(shù)據(jù)之后進(jìn)行及時準(zhǔn)確的分析和整合,并提出精準(zhǔn)預(yù)測才是重中之重。例如:通過線上反饋與咨詢預(yù)測高校未來一年的招生生源情況;通過學(xué)生在校學(xué)習(xí)情況和興趣特長預(yù)測就業(yè)方向、就業(yè)率等。
大數(shù)據(jù)技術(shù)在高校的管理和科研中發(fā)揮著重要的作用。例如:在貧困生篩選過程中以學(xué)生校園一卡通消費(fèi)情況作為依據(jù);對學(xué)生手機(jī)和電腦接入校園網(wǎng)絡(luò)的時間、地點(diǎn)和訪問內(nèi)容進(jìn)行分析,勾畫學(xué)生的運(yùn)動和學(xué)習(xí)軌跡,用于考勤和學(xué)生學(xué)習(xí)行為的記錄。高校大數(shù)據(jù)平臺能夠?yàn)閹熒峁﹤€性化的學(xué)習(xí),還可以按照每個用戶的興趣愛好和特長,將相關(guān)領(lǐng)域的資訊、前沿技術(shù)、相關(guān)資源推送給用戶,甚至可以根據(jù)學(xué)生的興趣愛好規(guī)劃未來的職業(yè)發(fā)展。
復(fù)旦大學(xué)通過數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)了學(xué)生成績的好壞與是否按時吃早餐之間存在著一定的聯(lián)系。在對使用校園一卡通吃早餐的學(xué)生人群進(jìn)行成績分析時發(fā)現(xiàn),按時吃早餐的學(xué)生成績明顯高于不吃早餐或者不按時吃早餐的學(xué)生。按時吃早餐和學(xué)習(xí)成績之間貌似沒有相關(guān)性,但通過數(shù)據(jù)挖掘技術(shù)卻得到了它們之間確實(shí)存在著某種必然聯(lián)系。這一有趣的發(fā)現(xiàn)得到了學(xué)生管理者的充分重視,對于改進(jìn)學(xué)生管理方法,提高教學(xué)質(zhì)量起到了推動作用。
網(wǎng)絡(luò)時代,高校師生通過QQ群、微博、BBS論壇、微信、校園網(wǎng)留言板、聊天室等工具進(jìn)行交流。在某個熱點(diǎn)事件發(fā)生之后,廣大師生通過上述工具了解事情的真相,參與各種評論或聚在群里聲討,形成網(wǎng)絡(luò)輿情。當(dāng)一種論調(diào)得到大家的認(rèn)同后,輿情甚至可以對事件的走向產(chǎn)生重大的影響[4],對高校的思想政治工作和穩(wěn)定意義重大。
在“個人—專業(yè)/部門—院系—學(xué)?!苯鹱炙降臄?shù)據(jù)采集過程中,大數(shù)據(jù)分析的數(shù)據(jù)基礎(chǔ)必然建立在獲取更多的個人和部門信息之上,而且通過分析還可以使數(shù)據(jù)之間產(chǎn)生關(guān)聯(lián)關(guān)系,進(jìn)而揭示更多的隱私。校園個人用戶和部門重要信息的隱私保護(hù)是大數(shù)據(jù)技術(shù)下管理人員面臨的問題。解決方法如下:在數(shù)據(jù)庫中利用角色管理功能將數(shù)據(jù)開發(fā)者和管理者劃分為不同的角色,并根據(jù)最小權(quán)限原則賦予上述用戶相應(yīng)的權(quán)限;對于需要通過可視化技術(shù)呈現(xiàn)給用戶的數(shù)據(jù)需消除隱私后再進(jìn)行數(shù)據(jù)共享,所有數(shù)據(jù)由技術(shù)部門統(tǒng)一管理和維護(hù);對瀏覽器進(jìn)行相應(yīng)的設(shè)置,確保在用戶使用后徹底清除瀏覽歷史記錄;在數(shù)據(jù)存儲和傳輸過程中使用數(shù)據(jù)加密技術(shù),保證用戶信息的安全;對于個人用戶應(yīng)盡量避免使用公共計算機(jī)瀏覽機(jī)密文件和敏感信息,不隨意點(diǎn)擊登錄來源不明的網(wǎng)站和不明鏈接,增加密碼強(qiáng)度防止暴力破解,以防止個人信息的泄漏。以上措施需要綜合應(yīng)用,我們常說的木桶理論同樣適合于評估用戶信息隱私保護(hù)的效果,任何一項(xiàng)的缺失都會影響信息的安全和隱私保護(hù)的效果。
綜上所述,在高校信息化建設(shè)中,利用大數(shù)據(jù)技術(shù)進(jìn)行數(shù)據(jù)采集、處理、分析、挖掘/可視化,以便從大量數(shù)據(jù)中發(fā)掘更有價值的信息是我們的最終目標(biāo)。同時,大數(shù)據(jù)技術(shù)的應(yīng)用對于提高信息資源共享度,為教學(xué)質(zhì)量評估提供更完備的參考發(fā)揮著重要作用。大數(shù)據(jù)在給學(xué)生、教師、科研人員、管理人員帶來方便的同時也對他們提出了更高的要求。要使大數(shù)據(jù)技術(shù)在高校中發(fā)揮作用,產(chǎn)生充分的應(yīng)用價值必須在校內(nèi)建立持久運(yùn)作的數(shù)據(jù)收集、分析系統(tǒng),并將分析結(jié)果用于教育決策。大數(shù)據(jù)技術(shù)在高校信息化建設(shè)中發(fā)揮著重要的作用,值得在全國高校推廣和應(yīng)用。
[1]姚琪.大數(shù)據(jù)在“智慧校園”中的價值研究[J].南京工業(yè)職業(yè)技術(shù)學(xué)院學(xué)報,2013,13(4)36-38.
[2]宓詠,趙澤宇.大數(shù)據(jù)創(chuàng)新智慧校園服務(wù)[J].中國教育信息化,2014(24):3-7.
[3]張超,盛紹頂,汪曉華.淺談大數(shù)據(jù)在高校教學(xué)中的應(yīng)用[J].安徽化工, 2015,41(2):97-99.
[4]桑慶兵. 大數(shù)據(jù)在高校的應(yīng)用與思考[J].南通紡織職業(yè)技術(shù)學(xué)院學(xué)報,2013,13(2):84-87.
[責(zé)任編輯:趙 偉]
College's Information Construction Based on the Big Data Technology
ZHANG Xinhong,LU Lu, CHEN Liguo
(Zhengzhou Railway Vocational and Technical College , Zhengzhou 451460 , China)
The big data technology improves the college's information construction. On the other hand, Hadoop system and the sets of tools can be used to do data collection、processing、analysis and showing in order to do prediction, the results are the foundation of decisions for managers. Analyzing the present situation of the application data of colleges and putting forward solutions based on the big data technology, making all kinds of large and complicated data gives full play to the role in the teaching and management.
big data; information construction; data application; data mining
2015-12-10
張新紅(1978—),女,河南鞏義人,鄭州鐵路職業(yè)技術(shù)學(xué)院講師,研究方向?yàn)榫W(wǎng)絡(luò)技術(shù)、信息安全、數(shù)據(jù)庫技術(shù)、大數(shù)據(jù)。 陸璐(1980—),女,河南鄭州人,鄭州鐵路職業(yè)技術(shù)學(xué)院講師,研究方向?yàn)橹悄芩惴?、?shù)據(jù)挖掘。 陳利國(1979—),男,河南洛陽人,鄭州鐵路職業(yè)技術(shù)學(xué)院講師,研究方向?yàn)榫W(wǎng)絡(luò)技術(shù)、信息安全。
G203
A
1008-6811(2017)01-0085-04