廖志平
(湖南環(huán)境生物職業(yè)技術(shù)學(xué)院,湖南 衡陽 421005)
大數(shù)據(jù)技術(shù)是科學(xué)家研究的熱點[1]。云計算是在計算機(jī)中使用編程模型(Mapreduce)來工作的,包括根據(jù)相關(guān)計算進(jìn)行數(shù)理分析,將數(shù)據(jù)來源歸入各族群、利用各種數(shù)據(jù)來源測量數(shù)據(jù)的相似度和繪制數(shù)據(jù),大規(guī)模數(shù)據(jù)分析與云計算有關(guān)。
目前,教育數(shù)據(jù)冗雜,信息量大,大數(shù)據(jù)技術(shù)在教育實踐中十分重要。教育數(shù)據(jù)可為教師、學(xué)生、教育管理者、父母和教育研究人員提供以下服務(wù)。1)提供直接數(shù)據(jù)服務(wù),例如基本信息、考試成績和課堂情況等,通過分析數(shù)據(jù),可以掌握學(xué)生的特征與學(xué)習(xí)需求,從而對不同學(xué)生進(jìn)行個性化教學(xué),通過統(tǒng)計數(shù)據(jù)發(fā)現(xiàn)學(xué)生在學(xué)習(xí)中存在的問題,從而改進(jìn)教育方法,提升教師的教學(xué)水平,達(dá)到更好的教學(xué)效果。2)提供間接數(shù)據(jù)服務(wù),包括成績排名、及格率和優(yōu)良率等。在教學(xué)活動的全過程中,教育大數(shù)據(jù)是提高教育質(zhì)量和教育管理能力的關(guān)鍵。
由于大數(shù)據(jù)技術(shù)的應(yīng)用越來越廣泛,其含義也越來越豐富,因此無法精確地界定大數(shù)據(jù)[2]。大數(shù)據(jù)并不必然包括大量的數(shù)據(jù),但是它們之間存在關(guān)聯(lián)。當(dāng)前大數(shù)據(jù)的4V概念已經(jīng)得到了普遍認(rèn)可,4V主要包括以下4個方面的內(nèi)容。1)數(shù)據(jù)真實性(Veracity),品質(zhì)。2)數(shù)據(jù)容量(Volume),根據(jù)資料數(shù)量和可能的資訊而定。3)數(shù)據(jù)種類(Variety),數(shù)據(jù)不同類型。4)傳輸速度(Velocity),獲得數(shù)據(jù)的速度。
教育數(shù)據(jù)來源各異,因此,對其進(jìn)行深入研究與發(fā)掘不僅需要專業(yè)的資料分析人員,更需要教師主動介入[3],本研究目的是挖掘資料數(shù)據(jù)。雙方經(jīng)過溝通,明確挖掘?qū)ο?,提供有針對性的挖掘服?wù)。研究主要包括抽樣選取、評估指標(biāo)、整理有關(guān)因子、篩選樣本資料、檢驗并整理符合條件的發(fā)掘需求、嘗試發(fā)掘(運用回歸、分類、聚類和關(guān)聯(lián)等)和發(fā)掘其他內(nèi)在屬性的性質(zhì)[4]。將研究結(jié)果以可視化的方式呈現(xiàn),并說明其意義,方便未來評估與介入,教育傳播大數(shù)據(jù)可視化流程如圖1所示。分析和挖掘數(shù)據(jù)是一個不斷重復(fù)的過程,以便從中挖掘新的需求。
圖1 教育傳播大數(shù)據(jù)可視化流程圖
1.2.1 FCM聚類算法
FCM聚類算法(Fuzzy-c-Means algorithm,F(xiàn)CM)[5]的基本原理是模糊理論,這種理論從客觀事實出發(fā),處理模糊不確定的實物,又稱為模糊C均值算法。
FCM將n個用戶數(shù)據(jù)作為n個向量Xi,其中涉及隸屬關(guān)系,為一種表示模糊集合的方式。FCM模糊隸屬程度的取值范圍為[0,1],在數(shù)學(xué)上可以將模糊隸屬程度進(jìn)行分類,構(gòu)建相應(yīng)矩陣,表示其聚類情況。采用FCM 聚類算法構(gòu)建模糊矩陣U,在矩陣中每個要素都是各矢量的模糊隸屬度,值的范圍在[0,1],歸類后的每個元素的模糊隸屬度之和均為1。
FCM聚類算法如公式(1)所示。
FCM聚類算法的目標(biāo)函數(shù)如公式(2)、公式(3)所示。
式中:uij的取值范圍為[0,1];ci為模糊類I的聚類中心;dij為第I個聚類中心到第j個向量之間的歐式距離;m為加權(quán)指數(shù),其取值范圍為[1,∞]。
為使目標(biāo)函數(shù)取得最小值,進(jìn)行以下改進(jìn),如公式(4)所示。
式中:λj為n個約束式的拉格朗日因子。
目標(biāo)函數(shù)取得最小值需要前提,表明其必要條件,如公式(5)所示。
FCM聚類算法包括以下4個步驟(如圖2所示)。1)求解各矢量的模糊隸屬關(guān)系,構(gòu)造1個[0,1]的初始模糊矩陣U,保證各類別矢量的隸屬性和等于1。2)確定聚類的簇集中心。3)對該設(shè)計進(jìn)行優(yōu)化,確定優(yōu)化后的算法。4)求得1個新的矩陣U。判斷目標(biāo)函數(shù)是否小于固定闕值,如果未達(dá)到,那么返回步驟二,反復(fù)循環(huán),直至達(dá)到要求。
圖2 FCM聚類算法的流程圖
1.2.2 特征選擇算法
特征選擇(Feature Selection)是用相關(guān)特征來描述一個應(yīng)用領(lǐng)域的方法[6]。在數(shù)學(xué)形式上,特征選擇可定義為從N個原始特征中選擇一個包括M(M≤N)個相關(guān)特征的最小子集,使包括M個特征的子集中不同類別的概率分布值接近N個原始特征。如果FN為原始特征集,F(xiàn)M為選出的特征子集,則可能的類別C,條件概率P(C|FM=fM)應(yīng)當(dāng)與P(C|FN=fN)接近,其中fM和fN為相應(yīng)的特征矢量FM和FN的值矢量。在樣本數(shù)量較多的情況下,采用高效的特征選擇方法可以降低樣本的維數(shù),為后續(xù)的數(shù)據(jù)分析提供方便。
1.2.3 mRMR算法
最大相關(guān)最小冗余算法(Maximum Relevance Minimum Redundancy,mRMR)根據(jù)互信息極大化原則,在選取屬性后,盡量保存大部分分類信息,同時降低各屬性間的相關(guān)性。從原始特征集合{t1,t2,t3,...,tn}中選擇一個特征子集{t'1,t'2,t'3,...,t'n}構(gòu)成新的特征空間,并提出新的特征子集,在該子集上,各屬性和各屬性間的相關(guān)系數(shù)均盡量變小。特征的相關(guān)性用互信息I衡量,如公式(6)所示。
式中:I(x,y)為特征相關(guān)性;xi、yj為隨機(jī)變量;p(xi,yi)為概率密度函數(shù);p(xi)為xi的概率密度函數(shù);p(yj)為yj的概率密度函數(shù)。
首先,利用互信息計算I(x,y),I(x,y)越大,它們之間的關(guān)聯(lián)度就越大。先找出包括m{xi}個特征的特征子集S,使m個特征和類別C的相關(guān)性最大,即與c關(guān)系最密切的m個特征。其中,D為特征與目標(biāo)的互信息值,|S|為特征集合中特征的個數(shù),S為m個平均互信息最大的集合。maxD,D為特征與目標(biāo)的互信息最大化,如公式(7)所示。
其次,消除m個特征之間的冗余,其中,R為特征之間的互信息值,minR,R為特征之間的互信息最小化,如公式(8)所示。
求得最大相關(guān)度—最小冗余度maxΔMID,ΔMID,如公式(9)所示。
通過上述運算,可以得到ΔMID值的特性,根據(jù)這些數(shù)值來分類這些特性,達(dá)到篩選目的。
教育大數(shù)據(jù)可視化系統(tǒng)的目標(biāo)是在時間短、成本低的前提下,分析并展示在線平臺的數(shù)據(jù),側(cè)重點為數(shù)據(jù)的可視化,但是這種可視化平臺已經(jīng)有豐富的商業(yè)產(chǎn)品和眾多圖表展示,系統(tǒng)可以自定義定制要實現(xiàn)的功能點和數(shù)據(jù)分析維度,系統(tǒng)使用大數(shù)據(jù)組件開源技術(shù),搭建單節(jié)點Hadoop集群,使用MapReduce分析數(shù)據(jù),由于市面上大屏可視化系統(tǒng)需要收費,因此用ECharts技術(shù)展示數(shù)據(jù)圖表,降低經(jīng)濟(jì)成本。
登錄注冊功能。用戶進(jìn)入登錄頁,沒有注冊的用戶可以進(jìn)行注冊,已有賬號的用戶登錄后系統(tǒng)顯示已登錄用戶名,點擊注銷用戶可以退出登錄。
數(shù)據(jù)預(yù)處理功能。將數(shù)據(jù)通過開源工具導(dǎo)入分布式基礎(chǔ)架構(gòu)(Hadoop)中的分布式文件系統(tǒng)(HDFS),使用MapReduce處理數(shù)據(jù),并將處理好的數(shù)據(jù)保存至開源數(shù)據(jù)庫(HBase)中。
每日登錄人數(shù)分析。讀取HBase中的登錄數(shù)據(jù),頁面可以顯示每月登錄人數(shù)和不同月份的登錄人數(shù)對比。
平均學(xué)習(xí)時長和學(xué)習(xí)行為次數(shù)分析。讀取HBase中的相關(guān)數(shù)據(jù),頁面顯示不同日期對應(yīng)的學(xué)習(xí)時長和學(xué)習(xí)次數(shù)。
每日活躍情況分析??捎弥鶢顖D顯示每日活躍學(xué)生人數(shù),設(shè)定每日至少進(jìn)行3次學(xué)習(xí)行為的用戶為活躍用戶。
分時段學(xué)習(xí)人數(shù)分析??捎脽崃D顯示學(xué)生在什么時間段愛學(xué)習(xí)。
數(shù)據(jù)處理部分是開發(fā)MapReduce,用戶只需利用Mapper類和Reducer類封裝Map和Reduce函數(shù),由客戶端調(diào)用,即可實現(xiàn)分布式計算。
當(dāng)在瀏覽器中輸入系統(tǒng)地址時,系統(tǒng)會驗證是否有用戶已登錄,如果沒有則跳轉(zhuǎn)登錄頁面,有則直接跳轉(zhuǎn)首頁。登錄頁面的動畫效果是手寫的echarts圖標(biāo)效果,有驗證用戶名和密碼的步驟并提示信息。
大屏可視化界面使用阿里云DataV數(shù)據(jù)可視化平臺,點擊每日、每周和每月按鈕,對應(yīng)的折線圖和柱狀圖會聯(lián)動顯示數(shù)據(jù)。地圖顯示學(xué)生的地區(qū)分布人數(shù)。氣泡圖顯示不同時間段的學(xué)習(xí)人數(shù)。使用DataV數(shù)據(jù)可視化平臺,數(shù)據(jù)展示效果更好。系統(tǒng)能夠幫助非專業(yè)的工程師搭建專業(yè)水準(zhǔn)的可視化界面,滿足多種業(yè)務(wù)的展示需求。
綜上所述,教育大數(shù)據(jù)可視化系統(tǒng)是對在在線教育平臺中的學(xué)生上課、做作業(yè)和提問等多方面、多層次的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)展示。教育大數(shù)據(jù)能夠清晰地反映學(xué)生的學(xué)習(xí)能力、優(yōu)勢學(xué)科以及特長,教師能夠有針對性地制定教學(xué)計劃,為學(xué)生提供個性化的指導(dǎo),幫助學(xué)生對自己的學(xué)習(xí)狀況有一個全面的認(rèn)識,并適當(dāng)安排學(xué)習(xí)重點。通過分析大數(shù)據(jù),教師能夠得知每位學(xué)生的潛能與需要,針對不同的學(xué)生選擇不同的教學(xué)內(nèi)容,采用不同的教學(xué)方法,提供不同的教學(xué)服務(wù);父母能夠了解自己的子女在學(xué)校的學(xué)習(xí)和心理健康情況;教育管理者能夠了解學(xué)生的優(yōu)缺點,發(fā)現(xiàn)學(xué)生的問題,及時提供關(guān)懷與指導(dǎo),還可以預(yù)測他們的職業(yè)發(fā)展情況,進(jìn)行有目的的訓(xùn)練;研究人員能夠了解目前的現(xiàn)狀和問題,利用大數(shù)據(jù)推動教育決策由粗放型向精細(xì)化、智能化的方向發(fā)展。