袁慶祝
中博信息技術(shù)研究院有限公司
教育大數(shù)據(jù)是指在整個教育活動過程中所產(chǎn)生的以及根據(jù)教育需要采集到的、一切用于教育發(fā)展并可創(chuàng)造巨大潛在價(jià)值的數(shù)據(jù)集合,中國政府高度重視教育大數(shù)據(jù)及研究應(yīng)用,提出“探索發(fā)揮大數(shù)據(jù)對變革教育方式、促進(jìn)教育公平、提升教育質(zhì)量的支撐作用”。
中國教育資源雖豐富但數(shù)據(jù)分散、數(shù)據(jù)收集與分析手段落后,為此,本文研究了教育大數(shù)據(jù)智能分析平臺及關(guān)鍵技術(shù),搭建教育大數(shù)據(jù)智能分析平臺。研究結(jié)果可為后續(xù)教育質(zhì)量綜合分析、教育質(zhì)量預(yù)警和教育決策支持等提供參考,從而推進(jìn)教育現(xiàn)代化發(fā)展。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,國內(nèi)已有較多學(xué)者針對教育大數(shù)據(jù)展開了廣泛研究,祝智庭與楊現(xiàn)民等從教育大數(shù)據(jù)的文化意蘊(yùn)及教育大數(shù)據(jù)的應(yīng)用模式等方面展開了討論,提出了構(gòu)建大數(shù)據(jù)的策略框架與相應(yīng)政策建議。吳南中等討論了教育大數(shù)據(jù)范式與建模策略的問題。在教育大數(shù)據(jù)應(yīng)用方面,從個性化資源的推送服務(wù)、資源開發(fā)范式、學(xué)習(xí)分析方法、教育數(shù)據(jù)挖掘等方面展開研究。然而這些研究中,未將大數(shù)據(jù)、互聯(lián)網(wǎng)技術(shù)與教育中的痛點(diǎn)相結(jié)合,形成規(guī)范、體系的教育大數(shù)據(jù)系統(tǒng)。
本文經(jīng)過實(shí)地調(diào)研及向相關(guān)工作在教育一線的專家請教,發(fā)現(xiàn)目前教育中存在以下痛點(diǎn):(1)教育資源分布不均。目前學(xué)區(qū)劃分多是按照人工劃分,并未結(jié)合新生兒數(shù)量、適齡兒童數(shù)量,尤其是這兩者未來兩三年內(nèi)的變化,導(dǎo)致教育資源不平衡。(2)學(xué)位信息缺少預(yù)警機(jī)制。對于適齡學(xué)生和學(xué)位未進(jìn)行比對,對教育資源緊張區(qū)域沒有預(yù)警。(3)控輟保學(xué)缺乏分析機(jī)制。對輟學(xué)的學(xué)生,沒有有效的手段進(jìn)行整合、分析,并采取相應(yīng)的措施進(jìn)行干預(yù)。(4)數(shù)據(jù)分散,存在孤島現(xiàn)象,無法實(shí)現(xiàn)數(shù)據(jù)資源統(tǒng)一,建設(shè)統(tǒng)一分享。
本文針對教育大數(shù)據(jù)現(xiàn)存的問題,利用大數(shù)據(jù)采集分析、機(jī)器學(xué)習(xí)等先進(jìn)技術(shù)手段,研究基于互聯(lián)網(wǎng)的異構(gòu)系統(tǒng)數(shù)據(jù)采集、融合、深度預(yù)測分析等,解決數(shù)據(jù)分散、教育資源分布不均勻等問題,按照數(shù)據(jù)源、關(guān)鍵技術(shù)、平臺建設(shè)的思路進(jìn)行研究,技術(shù)架構(gòu)路線如圖1所示。
圖1 技術(shù)架構(gòu)路線
基于互聯(lián)網(wǎng)+大數(shù)據(jù)的智慧教育平臺關(guān)鍵難點(diǎn)是數(shù)據(jù)采集問題,平臺的底層數(shù)據(jù)來源均來自不同學(xué)?;虻貐^(qū)的內(nèi)部系統(tǒng),如何利用互聯(lián)網(wǎng)技術(shù)從異構(gòu)系統(tǒng)中獲取統(tǒng)一數(shù)據(jù)源是本文所要解決的關(guān)鍵問題。如圖2所示。
圖2 異構(gòu)數(shù)據(jù)采集技術(shù)方案
針對這一難點(diǎn),本文設(shè)計(jì)了一種多模態(tài)數(shù)據(jù)融合與交互共享技術(shù),面向大規(guī)模結(jié)構(gòu)或非結(jié)構(gòu)化、異構(gòu)文本數(shù)據(jù)的特征信息提取方法,以及基于文本描述數(shù)據(jù)集成的關(guān)聯(lián),實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的融合與交互共享。不同來源的數(shù)據(jù),其特征在現(xiàn)實(shí)中都具有其意義,在特征表示學(xué)習(xí)方法的基礎(chǔ)上,結(jié)合其語義關(guān)系進(jìn)一步處理后,形成數(shù)據(jù)集,通過模型融合來實(shí)現(xiàn)多任務(wù)集成的深度學(xué)習(xí),并同時(shí)完成決策融合,輸出數(shù)據(jù)融合結(jié)果。
最后基于自主設(shè)計(jì)的服務(wù)集成中間件平臺及流數(shù)據(jù)實(shí)時(shí)處理技術(shù),兼容多方數(shù)據(jù)的對接模式,實(shí)現(xiàn)多方數(shù)據(jù)的采集。
2.3.1 低負(fù)載數(shù)據(jù)索引技術(shù)
互聯(lián)網(wǎng)大數(shù)據(jù)多樣復(fù)雜且動態(tài)性高,使得傳統(tǒng)索引方法不能適用。本文定義檢索算法,針對性地研究面向大規(guī)模非結(jié)構(gòu)化異構(gòu)文本數(shù)據(jù)的用戶行為主題、情景、情感的理解方法,提取相關(guān)特征信息,基于預(yù)編碼的符號化方法對其有效表征;在數(shù)據(jù)庫層設(shè)計(jì)一套內(nèi)容語義、情景特征敏感的壓縮感知、多模態(tài)低負(fù)載索引和基于CPU/GPU的處理機(jī)制,支持各種個性化分析及典型查詢的快速處理。
2.3.2 用戶特征分析與畫像構(gòu)建技術(shù)
針對用戶在異質(zhì)空間的行為數(shù)據(jù),本文設(shè)計(jì)一種大數(shù)據(jù)驅(qū)動的、基于特征挖掘技術(shù)的用戶細(xì)分方法,通過知識圖譜技術(shù)構(gòu)建必要的知識,從不同維度提取用戶基本特征,支持基于網(wǎng)絡(luò)空間數(shù)據(jù)輸入自動生成用戶個性化空間。
2.3.3 個性化的推薦技術(shù)
本文基于分布式環(huán)境下的推薦算法,提出了面向精準(zhǔn)推薦的特征選擇與特征向量相似性度量模型,結(jié)合社交網(wǎng)絡(luò)關(guān)聯(lián)、時(shí)空特征關(guān)聯(lián)等信息,實(shí)現(xiàn)對缺失行為信息的用戶進(jìn)行特征填補(bǔ)。這樣的一個推薦模型充分考慮本項(xiàng)目的數(shù)據(jù)特征、應(yīng)用約束與復(fù)合優(yōu)化指標(biāo)。
2.3.4 大數(shù)據(jù)應(yīng)用基礎(chǔ)技術(shù)
(1)大數(shù)據(jù)基礎(chǔ)環(huán)境
Hadoop是一個開發(fā)和運(yùn)行處理大規(guī)模數(shù)據(jù)的軟件平臺,在大量計(jì)算機(jī)組成的集群中對海量數(shù)據(jù)進(jìn)行分布式計(jì)算。Hadoop框架中最核心設(shè)計(jì)就是:HDFS和MapReduce。HDFS提供了海量數(shù)據(jù)的存儲,MapReduce提供了對數(shù)據(jù)的計(jì)算。本項(xiàng)目基礎(chǔ)元數(shù)據(jù)存儲在基于HDFS分布式文件系統(tǒng)的HBase中。而對于數(shù)據(jù)的ETL過程以及模型計(jì)算分析過程都將基于Hadoop生態(tài)圈組件進(jìn)行。
(2)批處理引擎實(shí)時(shí)分析技術(shù)
Spark擁有Hadoop MapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce算法。本項(xiàng)目采用spark進(jìn)行模型的實(shí)時(shí)計(jì)算與分析。為教育政務(wù)信息決策系統(tǒng)的各個應(yīng)用提供數(shù)據(jù)分析結(jié)果。
(3)數(shù)據(jù)流實(shí)時(shí)分析技術(shù)
數(shù)據(jù)流實(shí)時(shí)分析技術(shù),實(shí)時(shí)處理采集進(jìn)來的教育數(shù)據(jù),保證數(shù)據(jù)分析的實(shí)時(shí)性和準(zhǔn)確性。本文將采用Spark Streaming技術(shù),把Spark Streaming的輸入數(shù)據(jù)按照batch size分成一段一段的數(shù)據(jù),每一段數(shù)據(jù)都轉(zhuǎn)換成Spark中的RDD(Resilient Distributed Dataset),然后將Spark Streaming中對DStream的Transformation操作變?yōu)獒槍park中對RDD的Transformation操作,將RDD經(jīng)過操作變成中間結(jié)果保存在內(nèi)存中。
本文基于各方數(shù)據(jù)源信息,基于當(dāng)前主流的大數(shù)據(jù)技術(shù),搭建大數(shù)據(jù)平臺,建立數(shù)據(jù)集市中心,結(jié)合人工智能分析算法,建立智慧教育平臺。
系統(tǒng)架構(gòu)設(shè)計(jì)圖如圖3所示。
圖3 系統(tǒng)架構(gòu)設(shè)計(jì)
(1)數(shù)據(jù)采集層
主要包括以下采集內(nèi)容:學(xué)生、教師、教育廳門戶、普通高中等信息數(shù)據(jù),外部數(shù)據(jù)采集包括社保、醫(yī)療、交通車管、房產(chǎn)等數(shù)據(jù)。
平臺提供可視化ETL平臺,根據(jù)采集工具及數(shù)據(jù)源類型,定制采集方式,采集頻率等,使用拖拽的方式定義數(shù)據(jù)源、適配器、入庫等配置,并監(jiān)控執(zhí)行狀態(tài)。
(2)數(shù)據(jù)集市中心
數(shù)據(jù)集市基于大數(shù)據(jù)平臺創(chuàng)建,用于不同業(yè)務(wù)部門的需求和不同分析應(yīng)用的分析數(shù)據(jù)的存儲,數(shù)據(jù)集市模型也按主題組織,可以采用星型模型或雪花型模型進(jìn)行組織,是基于不同部門、不同人員的分析需求而組織的。
(3)數(shù)據(jù)分析工具
本文基于Spark Streaming實(shí)時(shí)流計(jì)算框架以及storm流處理技術(shù),結(jié)合算法框架搭建的數(shù)據(jù)分析子系統(tǒng),具有實(shí)時(shí)流處理功能,并且具有批處理和事件兩種處理模式。并搭配NOSQL數(shù)據(jù)庫等離線計(jì)算集群,使得集群同時(shí)具備海量數(shù)據(jù)處理和實(shí)時(shí)計(jì)算的能力。
平臺提供統(tǒng)一的門戶,支持WEB、移動APP等多種方式訪問。面向用戶端,涉及教育規(guī)劃、教育扶貧、控輟保學(xué)、綜合查詢等應(yīng)用。面向管理端,提供采集配置、數(shù)據(jù)庫配置、權(quán)限管理等多種系統(tǒng)配置管理功能,支持系統(tǒng)個性化設(shè)置。如圖4所示。
圖4 功能架構(gòu)圖
4.2.1 教育規(guī)劃應(yīng)用
在傳統(tǒng)的學(xué)校服務(wù)區(qū)劃分過程中,大多數(shù)教育的管理者只考慮了行政邊界上的劃分,很少從空間上、學(xué)生上學(xué)距離遠(yuǎn)近的角度進(jìn)行分析。應(yīng)用GIS技術(shù),從空間分布的角度研究學(xué)校的服務(wù)范圍,利用空間分析和Voronoi多邊形,劃分空間上學(xué)校教育服務(wù)區(qū),使得每個學(xué)生上學(xué)比較近,結(jié)合學(xué)校資源和規(guī)模,幫助教育廳更好地配置資源,給教育資源可達(dá)性評價(jià)分析提供決策支持作用。
4.2.2 學(xué)位預(yù)警分析
從各官網(wǎng)、新聞媒體音視頻、圖像等渠道采集學(xué)校學(xué)位、師資力量、人口數(shù)等各類數(shù)據(jù),提取其特征、語義等信息,進(jìn)行數(shù)據(jù)融合,計(jì)算得出每個學(xué)校的教育容量和教育規(guī)模,與同期服務(wù)區(qū)內(nèi)的人口進(jìn)行對比,計(jì)算出服務(wù)區(qū)內(nèi)教育資源過剩和不足的學(xué)校;通過教育服務(wù)區(qū)的劃分和可達(dá)性評價(jià)計(jì)算,得出該地區(qū)基礎(chǔ)教育資源相對較好的地區(qū)和教育資源不足的薄弱地區(qū),從而優(yōu)化教育資源。
對于適齡學(xué)生和學(xué)位進(jìn)行比對,并進(jìn)行學(xué)位預(yù)警和生成報(bào)告,根據(jù)適齡人口及區(qū)域內(nèi)學(xué)位分析,對教育資源緊張區(qū)域進(jìn)行特殊預(yù)警,為教育資源規(guī)劃及利用提供決策服務(wù)。如圖5所示。
4.2.3 教育扶貧應(yīng)用
利用異構(gòu)數(shù)據(jù)采集技術(shù)對貧困戶的主要勞動力信息、銀行存款信息、房產(chǎn)信息、社保信息等數(shù)據(jù)進(jìn)行采集,實(shí)現(xiàn)貧困戶集中管理分析。根據(jù)扶貧對象的基礎(chǔ)信息、指標(biāo)數(shù)據(jù),設(shè)立預(yù)警閾值,當(dāng)相關(guān)數(shù)據(jù)超過閾值,系統(tǒng)自動發(fā)出預(yù)警,提醒相關(guān)人員進(jìn)行特別關(guān)注。
4.2.4 “控輟保學(xué)”應(yīng)用
(1)“控輟”分析
通過獲取公安部門戶籍人口信息,以及對各學(xué)校信息的采集獲取,對各學(xué)區(qū)內(nèi)所有適齡兒童、少年入學(xué)、輟學(xué)等情況進(jìn)行全面的統(tǒng)計(jì)分析,建立義務(wù)教育階段兒童、少年管理檔案,做到底數(shù)清楚,為控輟提供準(zhǔn)確的情況。
(2)貧困生輟學(xué)分析
針對在扶貧管理功能中建檔立卡的貧困學(xué)生進(jìn)行跟蹤分析,以及輟學(xué)率的統(tǒng)計(jì)分析,避免學(xué)生因經(jīng)濟(jì)情況導(dǎo)致輟學(xué)。
4.2.5 學(xué)生/教師行為畫像
基于用戶特征分析與畫像構(gòu)建技術(shù),對學(xué)生及教師進(jìn)行行為畫像。
學(xué)生行為畫像包含:學(xué)生基本信息、學(xué)生個人簡歷、考試成績、獎懲情況、家庭基本情況等。并在此基礎(chǔ)之上將不同維度的信息關(guān)聯(lián)分析,深度挖掘?qū)W生的興趣愛好、優(yōu)缺點(diǎn)等,實(shí)時(shí)展現(xiàn)學(xué)生的動態(tài)情況,為學(xué)生學(xué)業(yè)狀態(tài)及行為軌跡分析提供支撐,有利于加強(qiáng)對學(xué)生的管理。
教師行為畫像包含:教師基本信息、結(jié)合專業(yè)技能、科研成果、獎勵榮譽(yù)、培訓(xùn)進(jìn)修等幾個方面特征樣本,進(jìn)行教師畫像的標(biāo)簽化展示。實(shí)現(xiàn)以教師為主體的數(shù)據(jù)挖掘,對教師個體及群體進(jìn)行精準(zhǔn)刻畫,服務(wù)于高校人事、科研管理。
教育大數(shù)據(jù)分布在包括教育教學(xué)、資源、教學(xué)評估等在內(nèi)綜合教育系統(tǒng)的始末。大數(shù)據(jù)的思維和理念可以為優(yōu)化教育政策、創(chuàng)新教育教學(xué)模式、變革教育測量與評價(jià)方法等理論研究提供客觀依據(jù)以及新的研究視角,能夠更好地推動教育領(lǐng)域的變革。
圖5 各市縣適齡人口及學(xué)位情況
本文基于海南省教育現(xiàn)狀,整合現(xiàn)有海南省教育廳政務(wù)信息系統(tǒng)的數(shù)據(jù),按照標(biāo)準(zhǔn)規(guī)范進(jìn)行數(shù)據(jù)治理,建立海南省政務(wù)大數(shù)據(jù)中心,將大數(shù)據(jù)技術(shù)應(yīng)用于教育規(guī)劃、教育扶貧、控輟保學(xué)、綜合查詢、人物畫像等方面,完善教育信息管理服務(wù)能力,推動全省教育信息化的全面發(fā)展,幫助教育廳解決部分業(yè)務(wù)、管理、領(lǐng)導(dǎo)決策的需要;通過數(shù)據(jù)輔助決策,提供學(xué)位資源預(yù)警,為合理規(guī)劃教育資源、分配師資資源提供數(shù)據(jù)依據(jù)。未來一方面將大數(shù)據(jù)有效植入了教、學(xué)、管、評、研的方方面面,力爭促進(jìn)教學(xué)質(zhì)量提升、管理水平提升;另一方面將區(qū)塊鏈技術(shù)引入教育大數(shù)據(jù),為用戶數(shù)據(jù)安全隱私保駕護(hù)航。