文/孫其偉 陸春
大數(shù)據(jù)在高校中的應用研究
文/孫其偉 陸春
移動互聯(lián)、MOOC等技術的不斷興起給高校的發(fā)展帶來了極大的挑戰(zhàn),為了應對這種挑戰(zhàn),高校應當充分發(fā)揮大數(shù)據(jù)在其中的支撐作用。
高校中匯聚著大量的信息,從學生角度來看,包括聯(lián)系方式等基本信息,食堂消費、住宿晚歸等生活信息,選課、課后作業(yè)、借閱圖書、成績等學習信息,參與的社團、競賽、講座等第二課堂信息;從教師角度來看,包含教學任務、課件等教學信息,論文著作、科學研究數(shù)據(jù)等科研信息;從管理者的角度來看,包含學校的資產(chǎn)信息、師資信息、招生就業(yè)信息等。同時隨著移動互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)等新技術的興起,學校師生主動產(chǎn)生和由設備自動收集的信息越來越多,如微博、微信等社交信息,各類搜索點擊記錄信息等。上述信息存在著數(shù)據(jù)量大、結(jié)構(gòu)復雜、產(chǎn)生頻率快的特點。這導致利用常用軟件工具捕獲、管理和處理此類數(shù)據(jù)所耗費時間超過了可容忍的時間。
大數(shù)據(jù)的處理流程與一般數(shù)據(jù)的處理過程類似,可以定義為在合適工具的輔助下對廣泛異構(gòu)的數(shù)據(jù)源進行抽取和集成,將結(jié)果按照一定的標準統(tǒng)一存儲,利用合適的數(shù)據(jù)分析技術對存儲的數(shù)據(jù)進行分析從中提取有益的知識,并利用恰當?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶。具體來說可以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析和數(shù)據(jù)展示。
數(shù)據(jù)抽取與集成
大數(shù)據(jù)的數(shù)據(jù)來源非常廣泛,既包括傳統(tǒng)的關系型數(shù)據(jù)庫,也包括XML等半結(jié)構(gòu)化數(shù)據(jù),以及以視頻、音頻、文本和其他形式存在的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)抽取和集成要解決的主要問題就是收集各種碎片化的數(shù)據(jù),對數(shù)據(jù)進行清洗,保證數(shù)據(jù)質(zhì)量,同時根據(jù)時間演進不斷更新數(shù)據(jù)模式,確定數(shù)據(jù)實體及其之間的關系,最終將數(shù)據(jù)按照統(tǒng)一的格式進行存儲,以便提供給上層用來進行數(shù)據(jù)分析。
目前高校已經(jīng)基本建立了完備的管理信息系統(tǒng)、學習管理系統(tǒng)等,在統(tǒng)一數(shù)據(jù)中心中積累了大量的結(jié)構(gòu)化數(shù)據(jù);同時各類系統(tǒng)中還散布著大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)經(jīng)過一定處理后,可以轉(zhuǎn)化為更容易分析使用的結(jié)構(gòu)化數(shù)據(jù)。
數(shù)據(jù)分析
經(jīng)過抽取和集成得到的數(shù)據(jù),需要經(jīng)過分析挖掘其潛在的價值。
圖1 就業(yè)分析模型
經(jīng)過抽取和集成得到的數(shù)據(jù),需要經(jīng)過分析挖掘其潛在的價值。傳統(tǒng)的數(shù)據(jù)挖掘、機器學習、統(tǒng)計分析等方法仍然可以用來對數(shù)據(jù)進行分析,只是需要根據(jù)大數(shù)據(jù)的特征進行調(diào)整。首先,為了實現(xiàn)對海量數(shù)據(jù)的分析,需要依據(jù)Map/Reduce模型,將數(shù)據(jù)拆分處理,然后再將結(jié)果匯總,一個完整的分析可能會經(jīng)過多層類似的處理過程;其次,大數(shù)據(jù)的應用通常具有實時性的特點,數(shù)據(jù)的價值會隨著時間的流逝而遞減,因此分析方法需要平衡處理的效率和準確率;最后,大數(shù)據(jù)一般構(gòu)建在云計算平臺之上,分析方法需要考慮與云計算平臺的集成或做為一種云服務。
數(shù)據(jù)展示
數(shù)據(jù)分析得到的分析結(jié)果,需要以直觀可理解的方式呈獻給最終用戶,在大數(shù)據(jù)時代,數(shù)據(jù)分析產(chǎn)生的結(jié)果有可能也是非常大量的,且結(jié)果之間的關聯(lián)關系復雜、數(shù)據(jù)維度更多,數(shù)據(jù)可視化技術通過更加適合人類思維的圖形化的方式展示數(shù)據(jù)分析結(jié)果,已經(jīng)被證明是展示數(shù)據(jù)分析結(jié)果非常有效的方法。常見的可視化方法有:多維疊加式數(shù)據(jù)可視化、數(shù)據(jù)在空間、時間坐標中的變化和對比等,當然要將枯燥的信息轉(zhuǎn)換為美麗的、令人印象深刻的圖形,需要較高的技術素養(yǎng)和藝術素養(yǎng)。
很多高校正在使用大數(shù)據(jù)分析技術解決遇到的實際問題,如美國德克薩斯大學利用大數(shù)據(jù)技術分析學校用戶IT使用行為產(chǎn)生的數(shù)據(jù),確定用戶行為異常,審計IT基礎環(huán)境,制定安全防護措施。其他的一些應用場景包括分析學生參與網(wǎng)絡課堂產(chǎn)生的數(shù)據(jù),進而確定如何改進課程講述方式,達到因材施教的教育目標。
高校可以在就業(yè)情況分析、學習行為分析、學科規(guī)劃、心理咨詢、校友聯(lián)絡等方面借助大數(shù)據(jù)分析技術,挖掘數(shù)據(jù)中潛在的價值。
就業(yè)情況分析
當前市場經(jīng)濟高速發(fā)展、高校不斷擴招、就業(yè)制度改革不斷深化和畢業(yè)生數(shù)量逐年增加、社會整體就業(yè)形勢日益嚴峻,大學生就業(yè)問題己經(jīng)越來越成為目前大家共同關心的話題,研究大學生就業(yè)問題具有緊迫性和重要性。本文提出在大數(shù)據(jù)分析框架下的就業(yè)問題分析思路。
圖2 數(shù)據(jù)抽取方式
1.數(shù)據(jù)來源
傳統(tǒng)的就業(yè)分析一般從就業(yè)單位、就業(yè)地區(qū)、所在院系專業(yè)、性別、簽約類別、就業(yè)年份等維度來分析,得到的只是一般意義上的統(tǒng)計結(jié)果,對于指導單個學生的就業(yè)以及預測未來的就業(yè)情況發(fā)揮的作用比較有限。應用大數(shù)據(jù)分析技術,就可以將學生就業(yè)模型涉及到的學習情況、社團信息、生活信息、校外實習、參加的競賽及獲獎情況、所投公司當年的招聘計劃、歷屆學生在所投公司的表現(xiàn)等眾多的信息進行收集。以上海財經(jīng)大學為例,可以從圖1所示的各類系統(tǒng)中抽取學生的各類信息,構(gòu)成就業(yè)分析模型所需的各類數(shù)據(jù)。
2.數(shù)據(jù)抽取與存儲
針對數(shù)據(jù)來源的不同,我們采取不同的數(shù)據(jù)抽取方式,對于結(jié)構(gòu)良好的各信息系統(tǒng)的數(shù)據(jù),我們采用ETL工具如InformaticaPowercenter、Kettle將數(shù)據(jù)抽取到HBase數(shù)據(jù)庫中;對于Web網(wǎng)頁這類非結(jié)構(gòu)化數(shù)據(jù),通過Nutch進行抓取,Solr對數(shù)據(jù)進行索引后存儲到Hbase數(shù)據(jù)庫中,示意圖如圖2所示。Hbase數(shù)據(jù)庫是一個開源的高可靠性、高性能、可伸縮、并非建立在關系模型基礎上的分布式數(shù)據(jù)庫,用以存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù)。
3.數(shù)據(jù)分析
將就業(yè)分析模型所需的數(shù)據(jù)存儲在Hbase數(shù)據(jù)庫后,可以利用Hive對Hbase中的數(shù)據(jù)進行查詢和分析。Hive提供了一種簡單的類SQL查詢語言,十分適合數(shù)據(jù)倉庫的統(tǒng)計分析。通過Hive我們可以實現(xiàn)傳統(tǒng)數(shù)據(jù)倉庫所實現(xiàn)的對就業(yè)數(shù)據(jù)的匯總統(tǒng)計分析,而且可以容易的擴展其存儲能力和計算能力。
圖3 就業(yè)數(shù)據(jù)分析
除了數(shù)據(jù)統(tǒng)計分析之外,我們還可以利用Mahout這個機器學習工具對數(shù)據(jù)進行監(jiān)督學習和無監(jiān)督學習。監(jiān)督學習使用先驗知識對數(shù)據(jù)進行分類;無監(jiān)督學習則由計算機自己學習處理數(shù)據(jù),并在做出判斷后給予一定的激勵或懲罰。在進行就業(yè)分析時,我們可以使用Mahout已經(jīng)實現(xiàn)的具體方法。首先是協(xié)作篩選,通過分析已就業(yè)學生的成績、參加的社團活動、關注的行業(yè)、性格特點、就業(yè)單位、就業(yè)崗位等,計算學生之間的相似度,為即將畢業(yè)的學生推薦適合的就業(yè)單位和崗位,提供個性化的服務;其次是聚類,這是一種無監(jiān)督的機器學習方法,我們可以通過不同的維度將未能及時就業(yè)的學生進行分析,從中找出其共同的特點,再通過比較在校學生的相關屬性,及時對學生給出預警,以便其在后續(xù)的學習和生活中加以改進,如圖3所示。
4.數(shù)據(jù)展示
在數(shù)據(jù)展示層,我們可以使用Tableau軟件將分析的結(jié)果進行可視化的展示,Tableau將數(shù)據(jù)與美觀的圖表完美地結(jié)合在一起,它包含非常多的預定義的圖表格式,同時還可以將時間、地圖等多種維度在單一的圖表中進行展示。
學習行為分析
為了支持學生的自主學習,高校一般都有自己的學習管理系統(tǒng)如Blackboard、Sakai等。這些學習管理系統(tǒng)為學生、教師提供了課程學習和交流的空間。美國教育部教育技術辦公室認為教育數(shù)據(jù)分為鍵擊層(keystroke level)、回答層(answer level)、學期層(session level)、學生層(student level)、教室層(classroom level)、教師層(teacher level)和學校層(school level),數(shù)據(jù)就寓居在這些不同的層之中。一般高校每年的開課數(shù)在數(shù)千門,學生數(shù)在數(shù)萬人,產(chǎn)生的數(shù)據(jù)量非常大。應用大數(shù)據(jù)分析技術使得監(jiān)控學生的每一個學習行為變?yōu)榱丝赡?,學生在回答一個問題時用了多長時間,哪些問題被跳過了,為了回答問題而作的研究工作等都可以獲得,用這些學生學習的行為檔案創(chuàng)造適應性的學習系統(tǒng)能夠提高學生的學習效果。
學科規(guī)劃
促進學科交叉融合發(fā)展,構(gòu)筑有生命力的學科生態(tài),打造凸顯核心競爭力的高水平學科是學校學科規(guī)劃的重要任務。借助大數(shù)據(jù)分析技術,充分收集各學科的教學狀態(tài)數(shù)據(jù)、科研項目數(shù)據(jù)、前沿發(fā)展動態(tài)等信息,從而分析學科建設存在的不足,確定學科未來發(fā)展的方向,發(fā)掘出潛在的具有國際視野的學科帶頭人。
心理咨詢
論壇、微博等平臺上每天都會產(chǎn)生由評論、帖子、留言等數(shù)據(jù),這些數(shù)據(jù)集反映了師生的思想情況、情感走向和行為動態(tài),對這些數(shù)據(jù)進行科學的存儲、管理并使用大數(shù)據(jù)技術進行有效的分析利用,建立師生思想情感模型,對掌握師生心理健康程度,有針對性地加強對師生的心理輔導有著重要的意義。
校友聯(lián)絡
校友資源猶如一座座寶藏,對高校的發(fā)展建設有著不可替代的重要作用,是高校工作的重要組成部分。有效地把校友聯(lián)絡起來、團結(jié)起來,對學校的建設和發(fā)展具有重要意義。利用傳統(tǒng)的管理方法,僅校友信息收集就要耗費大量的時間和精力。利用大數(shù)據(jù)技術,收集各類社交網(wǎng)站上的非結(jié)構(gòu)化數(shù)據(jù),通過分類、聚類等數(shù)據(jù)挖掘方法,確定校友身份并收集其聯(lián)系方式、參加的活動信息等,可以大大提高校友數(shù)據(jù)收集的效率,為以后利用校友資源提供良好的基礎。
大數(shù)據(jù)在高校應用的美好前景令人神往,但目前大數(shù)據(jù)的應用還存在很多應用難點,主要有數(shù)據(jù)集成困難、數(shù)據(jù)分析方法有待改進和數(shù)據(jù)隱私問題。
數(shù)據(jù)集成
在很多高校中,因為管理信息系統(tǒng)設計時未考慮到對一些過程數(shù)據(jù)的收集,導致在分析時缺乏必要的數(shù)據(jù)來源,需要對應用系統(tǒng)進行擴展;同時對于定義良好的結(jié)構(gòu)化數(shù)據(jù)很多高校也尚未很好的集成。在大數(shù)據(jù)時代,異構(gòu)的數(shù)據(jù)類型、廣泛存在的數(shù)據(jù)來源、參差不齊的數(shù)據(jù)質(zhì)量給數(shù)據(jù)集成帶來了新的挑戰(zhàn)。高校應該探索融合結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一模型,同時提高數(shù)據(jù)采集的質(zhì)量,強化數(shù)據(jù)文化。
數(shù)據(jù)分析方法
半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的迅猛增長,給傳統(tǒng)的聚類、關聯(lián)分析等數(shù)據(jù)挖掘技術帶來了巨大的沖擊和挑戰(zhàn)。一方面,很多應用場景要求數(shù)據(jù)的實時分析;另一方面缺乏對半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的先驗知識,難以構(gòu)建其間的關聯(lián)關系。高校需要緊密跟蹤業(yè)界對大數(shù)據(jù)分析方法的研究動態(tài),同時通過高校間的協(xié)作溝通探索新型的數(shù)據(jù)分析方法。
數(shù)據(jù)隱私
大數(shù)據(jù)分析的數(shù)據(jù)基礎必然建立在獲取更多個人信息之上,而且通過分析還可以使數(shù)據(jù)之間產(chǎn)生關聯(lián)關系,進而揭示更多的個人隱私。然而為了保護隱私就將所有數(shù)據(jù)加以隱藏,那么數(shù)據(jù)的價值就無法體現(xiàn)。這種矛盾在相當長的時間內(nèi)必將一直存在,需要通過技術和制度的完善逐步解決。
移動互聯(lián)、MOOC等技術的不斷興起給高校的發(fā)展帶來了極大的挑戰(zhàn),為了應對這種挑戰(zhàn),高校應當充分發(fā)揮大數(shù)據(jù)在其中的支撐作用。在人才培養(yǎng)、科學研究和管理等方面廣泛收集過程數(shù)據(jù),結(jié)合可視化技術充分分析和挖掘蘊含在數(shù)據(jù)之中的豐富價值。同時我們需要在高校內(nèi)倡導和強化數(shù)據(jù)文化,建立持久運作的收集、分析數(shù)據(jù)并將分析結(jié)果轉(zhuǎn)換為教育決策和實踐的體系,真正發(fā)揮大數(shù)據(jù)在高校發(fā)展中的價值。
(作者單位為上海財經(jīng)大學信息化辦公室)