開展大數(shù)據(jù)的研究已經(jīng)成為我們國家今后創(chuàng)新驅(qū)動的一個重大的戰(zhàn)略舉措。數(shù)據(jù)的積累已經(jīng)從量變發(fā)展到了質(zhì)變。另外一方面計算機(jī)超強(qiáng)的計算能力也為處理大數(shù)據(jù)提供了強(qiáng)大的技術(shù)支撐,這兩者的結(jié)合使得大數(shù)據(jù)的智能分析成為我們現(xiàn)實可能。分析各個領(lǐng)域的大數(shù)據(jù)也正是各個領(lǐng)域各個行業(yè)的新的重大需求,擁有大數(shù)據(jù)成為我們這個時代的特征,分析大數(shù)據(jù)自然也成為我們這個時代最鮮明的任務(wù),應(yīng)用大數(shù)據(jù)也是我們把握商機(jī)把握研究機(jī)會的重要機(jī)遇。
研究和應(yīng)用面臨三大挑戰(zhàn)
我們根本目的是從大數(shù)據(jù)中挖掘出價值。從政府角度來說,要進(jìn)行大數(shù)據(jù)的有效管理,制定包括安全在內(nèi)的各種公共政策,這就是政府要作為,從數(shù)據(jù)的獲取、標(biāo)準(zhǔn)、規(guī)范、安全、保障等等方面研究。作為高校和科研院所來說,最核心的是要進(jìn)行大數(shù)據(jù)的分析和處理,也就是智能化的挖掘、關(guān)聯(lián)、融合、算法分析這些核心技術(shù)的探索和研究。作為企業(yè)界來說,要結(jié)合各自的領(lǐng)域,開展大數(shù)據(jù)的應(yīng)用挖掘以及融合應(yīng)用。所以說我們要形成一個數(shù)據(jù)是基礎(chǔ)、平臺是支撐、分析挖掘是核心,最根本的是要實現(xiàn)目標(biāo)導(dǎo)向、問題驅(qū)動,實現(xiàn)效率的提升和經(jīng)濟(jì)效益社會效益的挖掘和發(fā)揮。
世界頂級大國都把大數(shù)據(jù)核心技術(shù)的研究作為未來搶占大數(shù)據(jù)產(chǎn)業(yè)自主知識產(chǎn)權(quán)的一個核心制高點來探索研究。第一從理論和技術(shù)角度來看,傳統(tǒng)的計算理論和傳統(tǒng)的數(shù)據(jù)處理分析技術(shù)難以完全適用。一方面是大數(shù)據(jù)和傳統(tǒng)的中小規(guī)模的數(shù)據(jù)有本質(zhì)的特征上的差別。第二在傳統(tǒng)的計算平臺計算范式方面也有根本性的轉(zhuǎn)折。我們知道傳統(tǒng)的數(shù)據(jù)量是中小規(guī)模,現(xiàn)在都是ZB級,10的18次方超大規(guī)模的數(shù)據(jù)量。從數(shù)據(jù)的結(jié)構(gòu)來說,從傳統(tǒng)的結(jié)構(gòu)化朝大量的非結(jié)構(gòu)化方向發(fā)展,從過去以靜態(tài)為主朝著流數(shù)據(jù)發(fā)展,從單一的數(shù)據(jù)源朝著多元異構(gòu)的方向發(fā)展,從多媒體朝著跨媒體融合的方向發(fā)展。這些數(shù)據(jù)特征的變化使得我們傳統(tǒng)計算理論難以適應(yīng)。從計算平臺和計算范式來說,從過去的集中存儲向現(xiàn)在的各地多數(shù)據(jù)中心的分布式存儲方向發(fā)展,從多線程并行朝著多機(jī)協(xié)同的方向發(fā)展,從存儲和計算相分離朝著數(shù)據(jù)和計算緊密深度融合的方向發(fā)展,從計算密集型或者數(shù)據(jù)密集型朝著兩者混合的密集型方向發(fā)展,從靜態(tài)全量計算朝著動態(tài)流式計算的方向發(fā)展,這些變化都是大數(shù)據(jù)分析中將要面臨的理論和計算方面的挑戰(zhàn)。在大數(shù)據(jù)分析與處理方面核心技術(shù)嚴(yán)重缺乏,我們熟悉的大數(shù)據(jù)處理核心技術(shù)的底層的核心軟件、核心系統(tǒng),像Spark、Hadood、Hbase這些著名的開源商用軟件幾乎全是被國外壟斷,我們國家在這個領(lǐng)域缺乏自己的自主知識產(chǎn)權(quán)。第三,難以適配工程化應(yīng)用的需求,比如大數(shù)據(jù)算法在工程化技術(shù)方面還處于基本空白狀態(tài)。我們雖然有很多好的大數(shù)據(jù)算法和核心技術(shù),但是應(yīng)用到實際當(dāng)中工程方面的適配還處于空白或者盲點。另外缺乏適用于大數(shù)據(jù)分析的工程化工具和快速的部署手段,核心技術(shù)與產(chǎn)業(yè)需求存在縫隙,缺乏面向行業(yè)的智能大數(shù)據(jù)決策支持工具和成熟的工程化解決方案,這些方面都是我們今后研究的重點和難點。
西安交通大學(xué)申請到了大數(shù)據(jù)分析技術(shù)國家工程實驗室,在大數(shù)據(jù)的基礎(chǔ)算法、核心技術(shù)、數(shù)據(jù)產(chǎn)品研制、行業(yè)工程應(yīng)用特別是高端人才培養(yǎng)方面打造國內(nèi)一流的科研和人才培養(yǎng)的平臺。
教育大數(shù)據(jù)的研究應(yīng)用
下面介紹一下國家工程實驗室過去幾年在教育領(lǐng)域大數(shù)據(jù)的研究應(yīng)用方面所做的工作。
第一,陜西省高等教育大數(shù)據(jù)平臺的研究與應(yīng)用。西安交通大學(xué)為全省建立了高等教育大數(shù)據(jù)的匯聚分析和應(yīng)用的數(shù)據(jù)中心,可以把全省所有高校的辦學(xué)狀態(tài)數(shù)據(jù)、政府管理部門的各方面的教育統(tǒng)計數(shù)據(jù)以及互聯(lián)網(wǎng)上發(fā)布的有關(guān)教育的數(shù)據(jù)匯聚到一起。在這個平臺上不僅有辦學(xué)的管理狀態(tài)數(shù)據(jù),而且有各類慕課課程資源以及師生的信息管理平臺,還有大量的互聯(lián)網(wǎng)開放數(shù)據(jù)聚集在這個平臺中。在這個平臺上我們面向教育主管部門、高校開放為用戶提供各種各樣的學(xué)習(xí)、管理、質(zhì)詢、統(tǒng)計分析等應(yīng)用。這個平臺的數(shù)據(jù)還可以跟教育部評估中心、教育部規(guī)劃司、財務(wù)司、學(xué)生司等相關(guān)司局進(jìn)行互聯(lián)互通,打通了數(shù)據(jù)之間的壁壘問題。在這個基礎(chǔ)上,我們實現(xiàn)了全省高等教育數(shù)據(jù)的匯聚,從而打破了各高校數(shù)據(jù)的孤島。另外可以建立橫向關(guān)聯(lián)比較分析、縱向自我歷史比較分析,提供高校、政府管理部門、社會科學(xué)精準(zhǔn)的數(shù)據(jù)服務(wù),以及為他們的科學(xué)服務(wù)提供分析。
在這個平臺上,我們開展了四項典型應(yīng)用。第一,為全省本科高校進(jìn)行教學(xué)質(zhì)量的審核評估工作,運用互聯(lián)網(wǎng)+大數(shù)據(jù)技術(shù)建成了覆蓋全省高等職業(yè)教育、本科教育和研究生教育,包含辦學(xué)條件、師資隊伍、學(xué)科專業(yè)、課程教學(xué)、畢業(yè)就業(yè)等全方位一體化的質(zhì)量監(jiān)測網(wǎng)絡(luò),省級高等教育監(jiān)測的大數(shù)據(jù)平臺,開展了用數(shù)據(jù)和事實說話的省級學(xué)校兩級高等教育的質(zhì)量常態(tài)監(jiān)控。第二,服務(wù)陜西省“一流專業(yè)”申報、評審與評估等方面的基礎(chǔ)工作,這個工作現(xiàn)在把全省的教學(xué)狀態(tài)的數(shù)據(jù)全部收集到這個系統(tǒng)里。第三,開展陜西省教育經(jīng)費績效分析與評估,這項工作我們已經(jīng)進(jìn)行了三年,對各個大學(xué)辦學(xué)的基本績效以及辦學(xué)的成效進(jìn)行實時在線的科學(xué)精準(zhǔn)的統(tǒng)計分析,為政府決策績效獎勵提供支撐服務(wù)。第四,畢業(yè)生就業(yè)質(zhì)量的跟蹤和評價。已經(jīng)建成了全省就業(yè)質(zhì)量大數(shù)據(jù)分析應(yīng)用服務(wù),并且以這個系統(tǒng)為基礎(chǔ),發(fā)布高校畢業(yè)生就業(yè)狀況的報告,過去需要大量的人工工作,現(xiàn)在基本上在這套系統(tǒng)上自動生成就業(yè)質(zhì)量報告。
另外,MOOC中國平臺在現(xiàn)實上的應(yīng)用也是我們的重要努力方向。我們的目標(biāo)和理念是做政府想做社會愿做但是單一高校做不了的事情,根本目的是打造互聯(lián)網(wǎng)教育公共服務(wù)體系的2.0版本。目前這個聯(lián)盟已經(jīng)有117所高校加盟,超過10000門視頻課程,超過10000注冊用戶,300經(jīng)營講師,收集客戶端下載量超過900萬。MOOC中國這個平臺正在為服務(wù)國家“一帶一路”的人才培養(yǎng)提供服務(wù),我們在MOOC中國的平臺基礎(chǔ)上成立了由中國工程院和聯(lián)合國教科文組織授予我們的國際工程科學(xué)支持的培訓(xùn),在泰國建立東盟中心,面向“一帶一路”開展包含中國文化、語言、教育、技術(shù)等特色資源,在這個特色資源中我們特別構(gòu)建了六大主題數(shù)據(jù)庫,為中國的企業(yè)走向“一帶一路”提供各種服務(wù)。
通過互動交流、實踐應(yīng)用等多種形式對絲路國家來華留學(xué)的留學(xué)生以及中國企業(yè)走向“一帶一路”國家發(fā)展的工程技術(shù)人才培養(yǎng)各種各樣的技術(shù)人才。這個平臺在技術(shù)方面突破了知識地圖導(dǎo)航學(xué)習(xí)、知識匯聚核心關(guān)鍵技術(shù),為用戶提供可視化的知識聲音導(dǎo)向的個性化資源推薦和服務(wù)。
課堂教學(xué)質(zhì)量監(jiān)測大數(shù)據(jù)平臺。我們通過把課堂教學(xué)質(zhì)量的實時各類數(shù)據(jù),包括學(xué)生評價的數(shù)據(jù)、督導(dǎo)評價的數(shù)據(jù)等實時錄入這個大數(shù)據(jù)平臺。在這個平臺上我們可以實現(xiàn)過去對課堂教學(xué)質(zhì)量模糊宏觀的評價,到通過大數(shù)據(jù)的精準(zhǔn)分析實現(xiàn)量化精準(zhǔn)的評價;從過去部分隨機(jī)抽查課堂教學(xué)變成全面覆蓋,從過去期中期末兩次監(jiān)測變成實時、常態(tài)、持續(xù)的監(jiān)測,從過去的事后評價變?yōu)閷崟r、動態(tài)的在線評價。在這樣的基礎(chǔ)上,我們一方面可以挖掘一些教學(xué)質(zhì)量好、受學(xué)生歡迎的老師,也可以對不負(fù)責(zé)任、課堂教學(xué)質(zhì)量不高的老師提出懲戒,實現(xiàn)精準(zhǔn)督導(dǎo)。
課堂教學(xué)已經(jīng)實現(xiàn)了基于物聯(lián)網(wǎng)+云計算的技術(shù)智慧管理,解決了數(shù)據(jù)的精準(zhǔn)采集,實現(xiàn)了教學(xué)秩序的嚴(yán)肅規(guī)范,讓老師和學(xué)生一起共同敬畏課堂。在這個平臺上我們可以及時發(fā)現(xiàn)問題課堂,實現(xiàn)精準(zhǔn)督導(dǎo),為專家評價、學(xué)生評教、到課率、課堂現(xiàn)場提供有效的數(shù)據(jù)支撐。正是在這樣的平臺支撐下,西安交通大約的本科教學(xué)質(zhì)量在全面大幅度提升。
(本文根據(jù)鄭慶華在2017大數(shù)據(jù)產(chǎn)業(yè)峰會上的演講整理,未經(jīng)本人確認(rèn)。)