文/李奇濤 管 佳
高校教育創(chuàng)新如何應用大數(shù)據(jù)
文/李奇濤1管 佳2
高校的大數(shù)據(jù)創(chuàng)新(應用)大多是一種倒逼式的創(chuàng)新,即大數(shù)據(jù)技術成熟促使互聯(lián)網(wǎng)教育企業(yè)采取創(chuàng)新模式來改變學習方式(大多以營利為目的),這種方式在社會上引起關注,最終被高校關注,并應用到高校教育創(chuàng)新中。
無論是在科技文獻、論文還是技術演講、討論中,提到大數(shù)據(jù),通常會聽到兩種解釋,一是數(shù)據(jù)本身,即海量、高增長率、多樣化和真實的數(shù)據(jù),本身無法使用傳統(tǒng)工具或流程處理或分析,是一種有價值的數(shù)據(jù)資產(chǎn);二是大數(shù)據(jù)分析及應用技術,指通過數(shù)據(jù)挖掘、云計算、分布式存儲等技術對具有價值的海量真實數(shù)據(jù)進行處理,從中獲得數(shù)據(jù)中隱含的聯(lián)系、規(guī)律、價值。這里有必要闡明,以區(qū)分數(shù)據(jù)和數(shù)據(jù)處理技術。本文中提到的大數(shù)據(jù),多指大數(shù)據(jù)分析及應用技術。
大數(shù)據(jù)分析在一些領域取得了不錯成績而且技術也比較成熟,如互聯(lián)網(wǎng)、銷售、人口遷移等,2014、2015年央視和百度聯(lián)合推出的“百度遷徙”,更是將大數(shù)據(jù)推向了風口浪尖。大數(shù)據(jù)分析在教育領域的應用可以說是鳳毛麟角,相對較少,大多是在互聯(lián)網(wǎng)教育領域,在高校中的應用鮮有出色且技術儲備也不充足。而部分發(fā)達國家已經(jīng)將大數(shù)據(jù)提升到國家戰(zhàn)略層面,并投入巨資對大數(shù)據(jù)相關核心技術進行研究,尤其是在教育層面,2012年美國教育部發(fā)表《通過教育數(shù)據(jù)挖掘和學習分析促進教與學》報告及2014年美國政府發(fā)布的《大數(shù)據(jù)》白皮書,指出大數(shù)據(jù)將變革生活中的每一個領域,教育領域已經(jīng)進入了一個“數(shù)據(jù)驅動學校,分析變革教育”的大數(shù)據(jù)時代,大數(shù)據(jù)必將改變傳統(tǒng)教育的面貌。
數(shù)據(jù)來源
大數(shù)據(jù)的來源種類繁多,格式不一,常見的來源包括物聯(lián)網(wǎng)應用中的傳感數(shù)據(jù);用戶上網(wǎng)瀏覽網(wǎng)頁產(chǎn)生的瀏覽記錄;玩游戲、聊天產(chǎn)生等社交網(wǎng)絡應用產(chǎn)生的交互數(shù)據(jù);消費者網(wǎng)絡或者實體的消費記錄等等。教育大數(shù)據(jù)有自己獨特的特點,如數(shù)據(jù)產(chǎn)生范圍比較集中;數(shù)據(jù)量達到一定規(guī)模,但不是特別大;數(shù)據(jù)格式不一,多為半結構化數(shù)據(jù)等。類型大致可分為以下幾類:一是教育教學中課程資料及對應的各種文本、音頻、視頻資料;二是老師、學生在線學習中產(chǎn)生的交互記錄、瀏覽資料產(chǎn)生的行為記錄;三是高校等教育機構的師資、學生資料;四是師生上網(wǎng)行為資料及網(wǎng)絡社交行為資料;五是消費資料尤其是校園一卡通的消費記錄;六是學校的固定資產(chǎn)資料;七是圖書館的書籍資料及用戶的借閱資料等等。其中,最主要的來源是師生在學習、生活和工作過程中留下的大量數(shù)字化足跡碎片,如在線學習和網(wǎng)絡社交行為、一卡通的使用等。
這些資料有的增長、變動快慢不一。有的變動較慢如師資、學生資料,固定資產(chǎn)資料等;有些資料變動較快,如各種課程資料,圖書館的書籍資料等,這些都成為教育大數(shù)據(jù)分析中的輔助資料;有些資料則呈指數(shù)級增長,如各種文本、音視頻資料,師生的交互資料、社交資料、消費資料、圖書借閱資料等等,這些則是數(shù)據(jù)分析中最有價值的信息,也是分析的重點。
大數(shù)據(jù)的應用場景多發(fā)生在互聯(lián)網(wǎng)、銷售等領域,如沃爾瑪超市利用銷售大數(shù)據(jù)調(diào)整商品擺放排列提高銷售額度。
大數(shù)據(jù)分析相關技術概述
1.數(shù)據(jù)采集及處理
目前,常用的數(shù)據(jù)采集技術稱為ETL,既抽取(Extract)、轉換(Transform)和加載(Load)3個步驟。常用的ETL工具包括Informatica、Datastage、OWB、微軟DTS及開源的eclipse插件cloveretl。ETL工具負責將網(wǎng)頁上的,分布式或者關系數(shù)據(jù)庫中結構化、半結構或者非結構化的數(shù)據(jù)抽取到臨時中間層后進行一系列處理,包括清洗、轉換、集成,最后加載到核心數(shù)據(jù)庫中,成為后續(xù)分析處理、數(shù)據(jù)挖掘的基礎。
常用的網(wǎng)絡爬蟲工具種類繁多,既包括通用型的爬蟲VietSpider、Heritrix、Nutch、MetaSeeker、Nagios等,也包括專題型的爬蟲BaiduSpider、Yahoo Slurp、Googlebot等。這些工具大多是開源的,采用Java語言編寫,具有很高的擴展性和適用性,方便根據(jù)不同的網(wǎng)頁類型采取不同的抽取規(guī)則,采集的數(shù)據(jù)更加規(guī)范。
常用的數(shù)據(jù)處理工具包括一些常見的Java中間件,如SSH工具,即Spring + Struts + Hibernate。還包括一些成熟的框架結構如Hadoop、Tableau等,在此基礎上基于Map-Reduce機制做數(shù)據(jù)清洗和分析。通過這些工具可以將不同數(shù)據(jù)庫中不同格式的數(shù)據(jù)進行整理、分析、提取,最終形成格式統(tǒng)一的有價值的初步數(shù)據(jù)。
2.數(shù)據(jù)存儲
數(shù)據(jù)存儲技術的發(fā)展,經(jīng)歷了關系數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫,分布式存儲、云存儲等技術。不同的數(shù)據(jù)類型、數(shù)據(jù)量對數(shù)據(jù)存儲技術的要求也不同。大數(shù)據(jù)分析技術要求對各類數(shù)據(jù)進行整理、交叉分析、比對,對數(shù)據(jù)進行深度挖掘,實現(xiàn)對非結構化數(shù)據(jù)的特征提取,以及半結構化數(shù)據(jù)的內(nèi)容檢索、理解等。
常見的大數(shù)據(jù)存儲技術包括基于Hadoop環(huán)境下的各種NoSQL技術,分布式云存儲技術等。
3.數(shù)據(jù)分析
數(shù)據(jù)分析技術主要是基于各種算法對存儲于分布式數(shù)據(jù)庫或者分布式計算集群中的海量數(shù)據(jù)進行計算、分析和分類匯總,以滿足大多數(shù)常見的分析需求或者實現(xiàn)一些高級別數(shù)據(jù)分析的需求。
常用數(shù)據(jù)分析工具包括EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數(shù)據(jù)的需求可以使用Hadoop。
4.數(shù)據(jù)可視化
數(shù)據(jù)可視化是對數(shù)據(jù)分析結果的最終呈現(xiàn)方式,信息只有展示出來,呈現(xiàn)給最終用戶才能顯示其價值。而且這種可視化、直觀展示給用戶的是一種“信息地圖”,使用戶能夠更好地理解數(shù)據(jù)分析結果,使結果得到更好利用。
常用的數(shù)據(jù)可視化工具繁多,既包括常用的入門級工具如Excel、XCEl、JSON,也包括一些在線的數(shù)據(jù)可視化工具如Google Chart API、Flot、D3,還包括GUI(互動圖形用戶界面)控制工具如Crossfilter、Tangle,其他的還包括地圖工具、一些高級進階工具如OpenLayers、Processing等。
圖1 數(shù)據(jù)分析流程
場景分析
大數(shù)據(jù)的應用場景多發(fā)生在互聯(lián)網(wǎng)、銷售等領域,如沃爾瑪超市利用銷售大數(shù)據(jù)調(diào)整商品擺放排列提高銷售額度。2014、2015年春節(jié)期間,中央電視臺和百度聯(lián)合推出的“百度遷徙”,利用基于地理位置服務的大數(shù)據(jù)進行計算分析,在PC和移動客戶端提供可視化的呈現(xiàn)方式,實現(xiàn)了全程、動態(tài)、即時、直觀地展現(xiàn)中國春節(jié)前后人口大遷徙的軌跡與特征。這是大數(shù)據(jù)首次在國家層面直觀應用,更是將大數(shù)據(jù)推向了全國數(shù)億用戶,是大數(shù)據(jù)的一次成功應用案例。
大數(shù)據(jù)應用場景頗多,但教育領域相對較少,卻頗有創(chuàng)新,大多發(fā)生在互聯(lián)網(wǎng)教育領域,高校、教育事業(yè)單位應用不多。而且高校的這種創(chuàng)新(應用)大多是一種倒逼式的創(chuàng)新,即大數(shù)據(jù)技術成熟促使互聯(lián)網(wǎng)教育企業(yè)采取創(chuàng)新模式來改變學習方式(大多以營利為目的),這種方式在社會上引起關注,最終被高校關注(實際是被高校中活躍人士關注,這部分人往往占少數(shù),但卻是高校領域引領教育創(chuàng)新最活躍的一群人),并應用到高校教育創(chuàng)新中。MOOC模式在國內(nèi)的大熱就是技術倒逼教育創(chuàng)新的最典型案例。
教育企業(yè)應用
教育企業(yè)中大數(shù)據(jù)應用大多應用在課程定制、課程設計、學員在線學習行為分析以及由此產(chǎn)生的課程推薦、后續(xù)營銷等。數(shù)據(jù)來源既包括網(wǎng)絡中的文本、音視頻資源,也包括學員學習過程中瀏覽記錄,課上課下的交互記錄等。通過網(wǎng)絡采集、數(shù)據(jù)存數(shù)、分布式計算等技術,對這些數(shù)據(jù)進行分析,發(fā)掘其中關聯(lián)項,以用作課程改進或者后續(xù)課程開發(fā)。
教育企業(yè)大數(shù)據(jù)應用的另一個方向就是數(shù)據(jù)本身的買賣(需要在保證用戶隱私的前提下,但往往無法保證)。企業(yè)通過一些技術手段或者通過較低的成本從數(shù)據(jù)產(chǎn)生企業(yè)(這些企業(yè)往往缺乏數(shù)據(jù)分析能力)購得海量數(shù)據(jù),通過運用自身技術優(yōu)勢對這些數(shù)據(jù)進行整理,發(fā)掘其中的規(guī)律,如用戶的行為習慣,常用的學習模板,有效的交互方式等,然后再把這些有價值的信息賣給其他用戶甚至是原本數(shù)據(jù)生產(chǎn)企業(yè)。大數(shù)據(jù)分析技術催生教育資源信息買賣。
高校應用
高校大數(shù)據(jù)應用多是圍繞教學、學生開展的,但也有部分應用涉及教育政策制定、行政領域改革。常見的創(chuàng)新應用包括教學類,如個性化課程分析、個性化教育、學科規(guī)劃、學術研究趨勢分析等;助學類,如學習行為分析、學習策略探討、輟學行為預測、助學需求預測、就業(yè)分析、心理咨詢等;輔助類,如智慧圖書館、智慧后勤、數(shù)字保衛(wèi)、信息公開、校友聯(lián)絡等。
教學類應用主要通過對歷年來某一門課或某幾門課甚至某一學科課程教學過程中選課人數(shù)、教學方式、完成作業(yè)情況、課下交流、考試成績、未來就業(yè)情況、工作應用情況等數(shù)據(jù)資料進行搜集整理,分析其中課程受歡迎程度、學習成績差異原因,工作待遇差別等,找出影響這些差異的原因,同時分析學科間、課程間關聯(lián),以便在未來個性化課程開發(fā)、學科規(guī)劃等方面有所創(chuàng)新。
助學類應用更加廣泛,是目前高校教育創(chuàng)新核心,主要是通過對歷屆學生日常生活、學習、工作中產(chǎn)生的海量數(shù)據(jù)進行匯總分析,這些數(shù)據(jù)可以是課程選擇、學習成績、參加的競賽及獲獎情況、社團活動、實習情況等學習信息,性格特點、消費狀況、在線社交,課外活動,論壇發(fā)帖、婚戀狀況等生活信息,以及就業(yè)單位、就業(yè)崗位、工作福利待遇、晉升狀況等工作信息。通過綜合分析這些信息,可以找出歷屆學生輟學、就業(yè)等行為共同特點,再通過比較在校學生的相關屬性,分析發(fā)現(xiàn)是否存在面臨輟學、需要補助或者心理輔導學生,及時對學生和班主任老師給出預警,以便其在后續(xù)的學習和生活中加以關注。同時也可以計算出學生之間(往屆和應屆)在就業(yè)方面相似度,為即將畢業(yè)的學生推薦適合的就業(yè)單位和崗位,提供個性化的服務。
輔助類應用相對較少,主要是針對改善高校行政管理,方便師生學習、生活和工作等。如通過分析圖書館圖書借閱數(shù)據(jù),可以為后期圖書購買,書籍分類,優(yōu)化擺放等提供依據(jù);通過分析高校食堂、超市等一卡通消費信息,可以幫助高校在更新菜肴、商品,每日飯菜制作量,商品購買量等方面更加合理。
建立學生多元評價體系,打造學生第二張成績單
目前,高校學生評價體系,多以成績?yōu)橹?,例如獎學金評定、優(yōu)干評定等,而我們收集的成績信息,并不總是正確的信息,即便正確,信息的數(shù)量也遠遠不足,缺乏一套有效的多元化評價體系。學生在大學中的成長經(jīng)歷,往往缺乏有效記錄,造成信息缺失。大數(shù)據(jù)技術的發(fā)展,為全面評價學生的成長提供了技術翅膀。利用大數(shù)據(jù)技術,南方某高校開發(fā)了一套記錄大學生在校期間所有活動的第二課堂評價平臺。其中既包括學生參加的通識類、思想教育類課程記錄,也包括學生參加的社會實踐、志愿服務,校內(nèi)外實習等社會活動類記錄,還包括學生參加的各種比賽及其獲得的獎項,發(fā)表的論文、專利等成績類記錄。通過不斷累積學生在校期間的成長軌跡記錄,利用大數(shù)據(jù)技術分析這些鮮活、真實數(shù)據(jù)中包含的有價值信息,一方面為學生以后工作提供第二張多元化的成績單,另一方面為學校人才培養(yǎng)模式改革提供重要的參考依據(jù)。
擁抱大數(shù)據(jù)時代,一卡通掌握師生生活
在高校校園里,幾乎所有學校都采用一卡通方式來維持學校的日常運行,每天這些卡片都產(chǎn)生大量數(shù)據(jù),然而這些校園卡所積累的數(shù)據(jù)卻很少得到利用,上海某高校在這方面進行了嘗試。小小一卡通雖然體積很小,但是它包含的信息確實不少,幾乎涉及學校的方方面面。師生的圖書借閱信息,食堂、超市、浴室、水果店的消費記錄,醫(yī)院的看病記錄,樓宇的出入記錄等等。數(shù)據(jù)時時不停地產(chǎn)生,每天都會生成大量的記錄,每個人都會對應產(chǎn)生自己的數(shù)據(jù)資料庫。通過對這些資料庫分析,既可以分析出某人在消費等方面的變化,從而針對性地對其做出預警提示;也可以把這些資料庫綜合起來,分析出某一方面將來變化趨勢。如通過對數(shù)據(jù)分析,該校成功建立起對高校在校生的全面助學預警模型,當某個學生在一段時間內(nèi)消費記錄或者看病記錄有異常波動,就可以啟動預警機制,判斷其是否需要幫助,彰顯校方對學生的關愛。
整合校內(nèi)外信息資源,提升學生競爭力
通過對學生在校積累的大量數(shù)據(jù)進行個性化分析,有助于學生了解自身學習狀況進行完善,學校也可由此隨時了解學生學習狀況,并結合校內(nèi)外資源為學生提供個性化指導,提升學生職場競爭力。臺灣某高校利用大數(shù)據(jù)技術全方位整合學工、教務、科研、后勤等多方面校務信息,通過對海量數(shù)據(jù)分析,有針對性開發(fā)學工、教務等智能化運行的各項應用系統(tǒng)。同時深化與企業(yè)合作,開發(fā)學生學業(yè)發(fā)展指導、學習成效長期追蹤分析等應用系統(tǒng),協(xié)助建立校內(nèi)大數(shù)據(jù)相關課程、人才培訓和實習機制,使學生自入學就開始不斷提升其未來職場所需的關鍵競爭力,進一步促進高等教育學用合一,縮小學校教育與企業(yè)需求之間的差距。大數(shù)據(jù)的高校創(chuàng)新應用案例還有很多,如智能實驗室管理,智慧圖書館,招生與就業(yè)情況預測,教育質(zhì)量以及輿情的分析等。
大數(shù)據(jù)分析技術在電子商務、物流、醫(yī)療、能源、通信等領域取得了巨大成功,在教育領域也取得了一些成績。但是,在高校教育創(chuàng)新應用中,還存在一些困難和挑戰(zhàn),如技術挑戰(zhàn)、組織體制挑戰(zhàn)、隱私和倫理道德限制等。目前的創(chuàng)新應用還多限制在具體應用層面,真正涉及教學改革、教學政策制定等宏觀層面的應用較少。這些都是在后續(xù)的教育創(chuàng)新應用中需要注意的問題。
(作者單位:1為對外經(jīng)濟貿(mào)易大學信息化管理處,2為中央電化教育館資源綜合部)