文/楊愛華
在“互聯(lián)網(wǎng)+教育”的時(shí)代背景下,應(yīng)當(dāng)深入挖掘高校信息的大數(shù)據(jù)的“金山銀庫(kù)”,充分發(fā)揮高校信息管理大數(shù)據(jù)開發(fā)應(yīng)用的效益。但現(xiàn)階段高校教育中,各系統(tǒng)產(chǎn)生的數(shù)據(jù)分散保存在不同的數(shù)據(jù)庫(kù)中,存在嚴(yán)重的“信息孤島”,同時(shí)互聯(lián)網(wǎng)教育數(shù)據(jù)和第三方部門數(shù)據(jù)未能得到充分利用,無(wú)法為教育提供全面的數(shù)據(jù)支撐。大數(shù)據(jù)挖掘技術(shù)可以很好地解決這個(gè)問(wèn)題。例如,大數(shù)據(jù)可以通過(guò)分析學(xué)生的一卡通中的就餐情況,給學(xué)生提供科學(xué)配餐的建議。大數(shù)據(jù)可關(guān)注學(xué)生的消費(fèi)情況,選定貧困生并給與幫助的建議??梢姡鶕?jù)高校信息構(gòu)建一個(gè)大數(shù)據(jù)挖掘系統(tǒng),對(duì)高校實(shí)行統(tǒng)籌管理是大有必要的。
基于大數(shù)據(jù)高校信息系統(tǒng)是一個(gè)大數(shù)據(jù)離線分析的系統(tǒng),將集合數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)的技術(shù),通過(guò)建立數(shù)據(jù)分析模型,利用機(jī)器學(xué)習(xí)以及數(shù)據(jù)統(tǒng)計(jì)的分析方法,對(duì)海量數(shù)據(jù)進(jìn)行挖掘分析,從中發(fā)現(xiàn)隱藏的數(shù)據(jù)以及背后隱藏的運(yùn)行規(guī)則,并將挖掘結(jié)果進(jìn)行可視化展示,為數(shù)據(jù)分析人員提供一個(gè)良好的交互式分析系統(tǒng)。
根據(jù)現(xiàn)狀調(diào)研與需求分析情況,結(jié)合高校對(duì)數(shù)據(jù)分析的需求,設(shè)計(jì)高校信息大數(shù)據(jù)挖掘分析系統(tǒng)。技術(shù)系統(tǒng)應(yīng)考慮從架構(gòu)設(shè)計(jì)、功能要求、運(yùn)行環(huán)境要求、性能要求、配置要求、集成要求、系統(tǒng)安全要求、擴(kuò)展性要求、易用性要求等方面進(jìn)行分析并以此設(shè)計(jì)系統(tǒng)的具體工作。
基于大數(shù)據(jù)高校信息系統(tǒng)功能框架的子系統(tǒng)應(yīng)具備的功能組成,包括數(shù)據(jù)預(yù)處理、大數(shù)據(jù)挖掘、大數(shù)據(jù)存儲(chǔ)、算法管理、任務(wù)管理、任務(wù)執(zhí)行調(diào)度、數(shù)據(jù)展示與分析、模型評(píng)估、角色管理等。
1.1.1 數(shù)據(jù)預(yù)處理
現(xiàn)實(shí)中的數(shù)據(jù)大多數(shù)是“臟”數(shù)據(jù),即信息不完整數(shù)據(jù),僅僅包含聚集數(shù)據(jù)或者缺少屬性值的數(shù)據(jù),含噪音數(shù)據(jù),存在偏離期望的離群值或者包含明顯數(shù)據(jù)錯(cuò)誤,比如 age=“-8”;還有編碼和名字不一致的“臟”數(shù)據(jù),如果要精準(zhǔn)預(yù)測(cè)和計(jì)算出結(jié)果,需要一致性、準(zhǔn)確性、完整性、可信性高的數(shù)據(jù)。但由于獲得的數(shù)據(jù)大,難免會(huì)出現(xiàn)數(shù)據(jù)的不完整、冗余度高、雜亂的狀況。
數(shù)據(jù)預(yù)處理為大數(shù)據(jù)挖掘準(zhǔn)備的有價(jià)值的數(shù)據(jù),提供大數(shù)據(jù)分析需要的數(shù)據(jù)集,包括數(shù)據(jù)的加載、數(shù)據(jù)的抽取、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的清洗、數(shù)據(jù)的聚合等。數(shù)據(jù)加載支持從諸如HDFS等大數(shù)據(jù)存儲(chǔ)設(shè)備中加載數(shù)據(jù),加載的數(shù)據(jù)內(nèi)容最好支持Avro數(shù)據(jù)格式。根據(jù)大數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)的需要,對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的處理,最后生成滿足分析要求的數(shù)據(jù)集。
1.1.2 大數(shù)據(jù)挖掘
大數(shù)據(jù)挖掘利用機(jī)器學(xué)習(xí)算法,對(duì)預(yù)處理產(chǎn)生的數(shù)據(jù)集進(jìn)行挖掘分析。通過(guò)聚類、分類、統(tǒng)計(jì)、關(guān)聯(lián)分析、回歸、聚合分析等各種機(jī)器學(xué)習(xí)算法,對(duì)數(shù)據(jù)集進(jìn)行分組統(tǒng)計(jì)、排重統(tǒng)計(jì)、頻度分析等各種挖掘分析,形成數(shù)據(jù)分析結(jié)果。
圖1:算法管理頁(yè)面
1.1.3 大數(shù)據(jù)存儲(chǔ)
大數(shù)據(jù)存儲(chǔ)對(duì)大數(shù)據(jù)挖掘形成的分析結(jié)果,存儲(chǔ)到大數(shù)據(jù)環(huán)境中,支持存儲(chǔ)到HDFS環(huán)境中存儲(chǔ)。此系統(tǒng)采用數(shù)據(jù)存儲(chǔ)部分集成大數(shù)據(jù)hadoop的生態(tài)環(huán)境,集成HDFS,挖掘計(jì)算的結(jié)果存儲(chǔ)HDFS,系統(tǒng)通用功能存儲(chǔ)使用關(guān)系數(shù)據(jù)庫(kù)。
1.1.4 算法管理
大數(shù)據(jù)挖掘中,算法是精髓。系統(tǒng)用到的數(shù)據(jù)挖掘算法有決策樹、K-均值聚類、Apriori算法、AdaBoost算法、K-近鄰算法、樸素貝葉斯等經(jīng)典算法。實(shí)際上隨便拿出一種來(lái)都可以稱得上是經(jīng)典算法,它們?cè)跀?shù)據(jù)挖掘領(lǐng)域都產(chǎn)生了極為深遠(yuǎn)的影響。
在系統(tǒng)中設(shè)置算法管理功能。所謂算法管理,即將機(jī)器學(xué)習(xí)算法統(tǒng)一進(jìn)行配置和管理。在此,可以進(jìn)行算法的插裝和算法參數(shù)的定義。插裝的算法可以在挖掘分析中使用。算法可升級(jí),在hadoop集群環(huán)境下,在hdfs指定的目錄下,替換算法插件包。
算法管理是用于對(duì)數(shù)據(jù)挖掘分析中所需算法信息以及算法參數(shù)的管理,方便用戶對(duì)數(shù)據(jù)挖掘分析中所用到的算法進(jìn)行管理。
(1)支持算法的添加:算法基本信息、類型、算法參數(shù)的名稱、默認(rèn)值、展示形式等;
(2)支持算法基本信息及算法參數(shù)的修改、刪除;
(3)支持算法基本信息、算法的搜索以及參數(shù)的查看。
算法管理頁(yè)面內(nèi)容如圖1所示。
1.1.5 任務(wù)管理與監(jiān)控系統(tǒng)
系統(tǒng)中數(shù)據(jù)計(jì)算集成大數(shù)據(jù)計(jì)算環(huán)境,利用Spark的計(jì)算集群進(jìn)行數(shù)據(jù)的計(jì)算,利用web框架管理與應(yīng)用框架管理的功能,對(duì)計(jì)算的任務(wù)進(jìn)行管理與調(diào)度。其任務(wù)管理是對(duì)大數(shù)據(jù)計(jì)算與分析的任務(wù)進(jìn)行管理,包括任務(wù)的配置、任務(wù)的提交、結(jié)算結(jié)果的查看等功能。監(jiān)控系統(tǒng),對(duì)任務(wù)的提交以及任務(wù)計(jì)算進(jìn)行管理??刹榭慈蝿?wù)依賴關(guān)系及運(yùn)行狀態(tài),查看任務(wù)運(yùn)行狀態(tài)及運(yùn)行日志。
1.1.6 數(shù)據(jù)展示與數(shù)據(jù)分析
數(shù)據(jù)展示對(duì)計(jì)算分析的結(jié)果進(jìn)行展示,并提供對(duì)計(jì)算結(jié)果進(jìn)行交互分析的界面。分析的結(jié)果以圖表化的方式直觀的展現(xiàn)給用戶。大數(shù)據(jù)可視化具有直觀性的優(yōu)點(diǎn),可以直觀展示高校各項(xiàng)工作指標(biāo)和變化趨勢(shì),讓高校教育決策有“數(shù)”可依。
最后,我們需要對(duì)建立的模型進(jìn)行評(píng)估。模型評(píng)估將使用統(tǒng)計(jì)分析的方法對(duì)模型指標(biāo)進(jìn)行統(tǒng)計(jì)計(jì)算,基于歷史數(shù)據(jù)計(jì)算出模型指標(biāo)值的均值、方差、標(biāo)準(zhǔn)差等參數(shù)的實(shí)際閾值與歷史閾值進(jìn)行比較,通過(guò)閾值偏離度來(lái)評(píng)估模型是否有效,當(dāng)模型指標(biāo)計(jì)算需要的指標(biāo)元數(shù)據(jù)為空、模型指標(biāo)偏離度超過(guò)預(yù)設(shè)偏離度時(shí)將給出預(yù)警信息,便于用戶對(duì)模型指標(biāo)進(jìn)行跟蹤分析。
模型評(píng)估任務(wù),盡量支持批量評(píng)估任務(wù)跟蹤執(zhí)行情況統(tǒng)計(jì);支持評(píng)估任務(wù)運(yùn)行進(jìn)度、任務(wù)狀態(tài)的實(shí)時(shí)跟蹤;支持評(píng)估任務(wù)運(yùn)行中被終止等。模型評(píng)估預(yù)警 ,盡量支持評(píng)估預(yù)警結(jié)果詳情查看,支持評(píng)估預(yù)警報(bào)告導(dǎo)出,支持模型指標(biāo)閾值、偏離度重置。
基于大數(shù)據(jù)高校信息系統(tǒng)的作用是毋容置疑的,教師信息、教務(wù)系統(tǒng)、學(xué)生考試系統(tǒng)等各種數(shù)據(jù)信息價(jià)值是非常大的,但如果這些數(shù)據(jù)未能被進(jìn)行有效保護(hù),同樣帶來(lái)很大的安全隱患。若系統(tǒng)運(yùn)行中被黑客攻擊,重要數(shù)據(jù)被篡改,考試信息數(shù)據(jù)被竊取,系統(tǒng)密碼被獲取,后果不堪設(shè)想,需加強(qiáng)系統(tǒng)的安全建設(shè)。所以要整個(gè)系統(tǒng)的生命周期都要注重系統(tǒng)安全問(wèn)題,定期對(duì)開發(fā)團(tuán)隊(duì)進(jìn)行安全培訓(xùn),并聘請(qǐng)滲透測(cè)試專家對(duì)系統(tǒng)進(jìn)行漏洞掃描并及時(shí)進(jìn)行漏洞的修復(fù),讓安全問(wèn)題消失在萌芽狀態(tài)。
大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)上升至國(guó)家戰(zhàn)略的高度,滲透到社會(huì)生活和經(jīng)濟(jì)發(fā)展的各個(gè)方面。“大數(shù)據(jù)”這個(gè)名詞已經(jīng)根植在我們的大腦里。但如何有效利用大數(shù)據(jù)還是個(gè)正在探索的過(guò)程。高校信息管理是一項(xiàng)龐大、繁瑣的工作,需要用大數(shù)據(jù)技術(shù)挖掘有效數(shù)據(jù),并為管理工作提供量化決策依據(jù)。根據(jù)調(diào)研高校信息管理的現(xiàn)狀,在大數(shù)據(jù)環(huán)境下采用Hadoop與Spark結(jié)合的方式初步勾畫出一個(gè)可行的高校信息系統(tǒng)設(shè)計(jì)方案。并對(duì)系統(tǒng)在開發(fā)中預(yù)計(jì)出現(xiàn)的風(fēng)險(xiǎn)給出相應(yīng)的風(fēng)險(xiǎn)控制措施建議。