教育傳播大數(shù)據(jù)可視化分析

2024-05-07 02:49廖志平

中國新技術(shù)新產(chǎn)品 2024年6期

廖志平

（湖南環(huán)境生物職業(yè)技術(shù)學(xué)院，湖南衡陽 421005）

大數(shù)據(jù)技術(shù)是科學(xué)家研究的熱點[1]。云計算是在計算機(jī)中使用編程模型（Mapreduce）來工作的，包括根據(jù)相關(guān)計算進(jìn)行數(shù)理分析，將數(shù)據(jù)來源歸入各族群、利用各種數(shù)據(jù)來源測量數(shù)據(jù)的相似度和繪制數(shù)據(jù)，大規(guī)模數(shù)據(jù)分析與云計算有關(guān)。

目前，教育數(shù)據(jù)冗雜，信息量大，大數(shù)據(jù)技術(shù)在教育實踐中十分重要。教育數(shù)據(jù)可為教師、學(xué)生、教育管理者、父母和教育研究人員提供以下服務(wù)。1）提供直接數(shù)據(jù)服務(wù)，例如基本信息、考試成績和課堂情況等，通過分析數(shù)據(jù)，可以掌握學(xué)生的特征與學(xué)習(xí)需求，從而對不同學(xué)生進(jìn)行個性化教學(xué)，通過統(tǒng)計數(shù)據(jù)發(fā)現(xiàn)學(xué)生在學(xué)習(xí)中存在的問題，從而改進(jìn)教育方法，提升教師的教學(xué)水平，達(dá)到更好的教學(xué)效果。2）提供間接數(shù)據(jù)服務(wù)，包括成績排名、及格率和優(yōu)良率等。在教學(xué)活動的全過程中，教育大數(shù)據(jù)是提高教育質(zhì)量和教育管理能力的關(guān)鍵。

1 教育傳播大數(shù)據(jù)可視化流程以及算法

由于大數(shù)據(jù)技術(shù)的應(yīng)用越來越廣泛，其含義也越來越豐富，因此無法精確地界定大數(shù)據(jù)[2]。大數(shù)據(jù)并不必然包括大量的數(shù)據(jù)，但是它們之間存在關(guān)聯(lián)。當(dāng)前大數(shù)據(jù)的4V概念已經(jīng)得到了普遍認(rèn)可，4V主要包括以下4個方面的內(nèi)容。1）數(shù)據(jù)真實性（Veracity），品質(zhì)。2）數(shù)據(jù)容量（Volume），根據(jù)資料數(shù)量和可能的資訊而定。3）數(shù)據(jù)種類（Variety），數(shù)據(jù)不同類型。4）傳輸速度（Velocity），獲得數(shù)據(jù)的速度。

1.1 教育傳播大數(shù)據(jù)可視化流程

教育數(shù)據(jù)來源各異，因此，對其進(jìn)行深入研究與發(fā)掘不僅需要專業(yè)的資料分析人員，更需要教師主動介入[3]，本研究目的是挖掘資料數(shù)據(jù)。雙方經(jīng)過溝通，明確挖掘?qū)ο?，提供有針對性的挖掘服?wù)。研究主要包括抽樣選取、評估指標(biāo)、整理有關(guān)因子、篩選樣本資料、檢驗并整理符合條件的發(fā)掘需求、嘗試發(fā)掘（運用回歸、分類、聚類和關(guān)聯(lián)等）和發(fā)掘其他內(nèi)在屬性的性質(zhì)[4]。將研究結(jié)果以可視化的方式呈現(xiàn)，并說明其意義，方便未來評估與介入，教育傳播大數(shù)據(jù)可視化流程如圖1所示。分析和挖掘數(shù)據(jù)是一個不斷重復(fù)的過程，以便從中挖掘新的需求。

圖1 教育傳播大數(shù)據(jù)可視化流程圖

1.2 教育傳播大數(shù)據(jù)可視化相關(guān)算法

1.2.1 FCM聚類算法

FCM聚類算法（Fuzzy-c-Means algorithm，F(xiàn)CM）[5]的基本原理是模糊理論，這種理論從客觀事實出發(fā)，處理模糊不確定的實物，又稱為模糊C均值算法。

FCM將n個用戶數(shù)據(jù)作為n個向量Xi，其中涉及隸屬關(guān)系，為一種表示模糊集合的方式。FCM模糊隸屬程度的取值范圍為[0，1]，在數(shù)學(xué)上可以將模糊隸屬程度進(jìn)行分類，構(gòu)建相應(yīng)矩陣，表示其聚類情況。采用FCM 聚類算法構(gòu)建模糊矩陣U，在矩陣中每個要素都是各矢量的模糊隸屬度，值的范圍在[0，1]，歸類后的每個元素的模糊隸屬度之和均為1。

FCM聚類算法如公式（1）所示。

FCM聚類算法的目標(biāo)函數(shù)如公式（2）、公式（3）所示。

式中：uij的取值范圍為[0，1]；ci為模糊類I的聚類中心；dij為第I個聚類中心到第j個向量之間的歐式距離；m為加權(quán)指數(shù)，其取值范圍為[1，∞]。

為使目標(biāo)函數(shù)取得最小值，進(jìn)行以下改進(jìn)，如公式（4）所示。

式中：λj為n個約束式的拉格朗日因子。

目標(biāo)函數(shù)取得最小值需要前提，表明其必要條件，如公式（5）所示。

FCM聚類算法包括以下4個步驟（如圖2所示）。1）求解各矢量的模糊隸屬關(guān)系，構(gòu)造1個[0，1]的初始模糊矩陣U，保證各類別矢量的隸屬性和等于1。2）確定聚類的簇集中心。3）對該設(shè)計進(jìn)行優(yōu)化，確定優(yōu)化后的算法。4）求得1個新的矩陣U。判斷目標(biāo)函數(shù)是否小于固定闕值，如果未達(dá)到，那么返回步驟二，反復(fù)循環(huán)，直至達(dá)到要求。

圖2 FCM聚類算法的流程圖

1.2.2 特征選擇算法

特征選擇（Feature Selection）是用相關(guān)特征來描述一個應(yīng)用領(lǐng)域的方法[6]。在數(shù)學(xué)形式上，特征選擇可定義為從N個原始特征中選擇一個包括M（M≤N）個相關(guān)特征的最小子集，使包括M個特征的子集中不同類別的概率分布值接近N個原始特征。如果FN為原始特征集，F(xiàn)M為選出的特征子集，則可能的類別C，條件概率P（C|FM=fM）應(yīng)當(dāng)與P（C|FN=fN）接近，其中fM和fN為相應(yīng)的特征矢量FM和FN的值矢量。在樣本數(shù)量較多的情況下，采用高效的特征選擇方法可以降低樣本的維數(shù)，為后續(xù)的數(shù)據(jù)分析提供方便。

1.2.3 mRMR算法

最大相關(guān)最小冗余算法（Maximum Relevance Minimum Redundancy，mRMR）根據(jù)互信息極大化原則，在選取屬性后，盡量保存大部分分類信息，同時降低各屬性間的相關(guān)性。從原始特征集合{t1，t2，t3，...，tn}中選擇一個特征子集{t'1，t'2，t'3，...，t'n}構(gòu)成新的特征空間，并提出新的特征子集，在該子集上，各屬性和各屬性間的相關(guān)系數(shù)均盡量變小。特征的相關(guān)性用互信息I衡量，如公式（6）所示。

式中：I（x，y）為特征相關(guān)性；xi、yj為隨機(jī)變量；p（xi，yi）為概率密度函數(shù)；p（xi）為xi的概率密度函數(shù)；p（yj）為yj的概率密度函數(shù)。

首先，利用互信息計算I（x，y），I（x，y）越大，它們之間的關(guān)聯(lián)度就越大。先找出包括m{xi}個特征的特征子集S，使m個特征和類別C的相關(guān)性最大，即與c關(guān)系最密切的m個特征。其中，D為特征與目標(biāo)的互信息值，|S|為特征集合中特征的個數(shù)，S為m個平均互信息最大的集合。maxD，D為特征與目標(biāo)的互信息最大化，如公式（7）所示。

其次，消除m個特征之間的冗余，其中，R為特征之間的互信息值，minR，R為特征之間的互信息最小化，如公式（8）所示。

求得最大相關(guān)度—最小冗余度maxΔMID，ΔMID，如公式（9）所示。

通過上述運算，可以得到ΔMID值的特性，根據(jù)這些數(shù)值來分類這些特性，達(dá)到篩選目的。

2 教育傳播大數(shù)據(jù)可視化

2.1 設(shè)計目標(biāo)

教育大數(shù)據(jù)可視化系統(tǒng)的目標(biāo)是在時間短、成本低的前提下，分析并展示在線平臺的數(shù)據(jù)，側(cè)重點為數(shù)據(jù)的可視化，但是這種可視化平臺已經(jīng)有豐富的商業(yè)產(chǎn)品和眾多圖表展示，系統(tǒng)可以自定義定制要實現(xiàn)的功能點和數(shù)據(jù)分析維度，系統(tǒng)使用大數(shù)據(jù)組件開源技術(shù)，搭建單節(jié)點Hadoop集群，使用MapReduce分析數(shù)據(jù)，由于市面上大屏可視化系統(tǒng)需要收費，因此用ECharts技術(shù)展示數(shù)據(jù)圖表，降低經(jīng)濟(jì)成本。

2.2 功能設(shè)計

登錄注冊功能。用戶進(jìn)入登錄頁，沒有注冊的用戶可以進(jìn)行注冊，已有賬號的用戶登錄后系統(tǒng)顯示已登錄用戶名，點擊注銷用戶可以退出登錄。

數(shù)據(jù)預(yù)處理功能。將數(shù)據(jù)通過開源工具導(dǎo)入分布式基礎(chǔ)架構(gòu)（Hadoop）中的分布式文件系統(tǒng)（HDFS），使用MapReduce處理數(shù)據(jù)，并將處理好的數(shù)據(jù)保存至開源數(shù)據(jù)庫（HBase）中。

每日登錄人數(shù)分析。讀取HBase中的登錄數(shù)據(jù)，頁面可以顯示每月登錄人數(shù)和不同月份的登錄人數(shù)對比。

平均學(xué)習(xí)時長和學(xué)習(xí)行為次數(shù)分析。讀取HBase中的相關(guān)數(shù)據(jù)，頁面顯示不同日期對應(yīng)的學(xué)習(xí)時長和學(xué)習(xí)次數(shù)。

每日活躍情況分析?？捎弥鶢顖D顯示每日活躍學(xué)生人數(shù)，設(shè)定每日至少進(jìn)行3次學(xué)習(xí)行為的用戶為活躍用戶。

分時段學(xué)習(xí)人數(shù)分析?？捎脽崃D顯示學(xué)生在什么時間段愛學(xué)習(xí)。

2.3 數(shù)據(jù)處理

數(shù)據(jù)處理部分是開發(fā)MapReduce，用戶只需利用Mapper類和Reducer類封裝Map和Reduce函數(shù)，由客戶端調(diào)用，即可實現(xiàn)分布式計算。

2.4 系統(tǒng)實現(xiàn)

當(dāng)在瀏覽器中輸入系統(tǒng)地址時，系統(tǒng)會驗證是否有用戶已登錄，如果沒有則跳轉(zhuǎn)登錄頁面，有則直接跳轉(zhuǎn)首頁。登錄頁面的動畫效果是手寫的echarts圖標(biāo)效果，有驗證用戶名和密碼的步驟并提示信息。

大屏可視化界面使用阿里云DataV數(shù)據(jù)可視化平臺，點擊每日、每周和每月按鈕，對應(yīng)的折線圖和柱狀圖會聯(lián)動顯示數(shù)據(jù)。地圖顯示學(xué)生的地區(qū)分布人數(shù)。氣泡圖顯示不同時間段的學(xué)習(xí)人數(shù)。使用DataV數(shù)據(jù)可視化平臺，數(shù)據(jù)展示效果更好。系統(tǒng)能夠幫助非專業(yè)的工程師搭建專業(yè)水準(zhǔn)的可視化界面，滿足多種業(yè)務(wù)的展示需求。

3 結(jié)論

綜上所述，教育大數(shù)據(jù)可視化系統(tǒng)是對在在線教育平臺中的學(xué)生上課、做作業(yè)和提問等多方面、多層次的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)展示。教育大數(shù)據(jù)能夠清晰地反映學(xué)生的學(xué)習(xí)能力、優(yōu)勢學(xué)科以及特長，教師能夠有針對性地制定教學(xué)計劃，為學(xué)生提供個性化的指導(dǎo)，幫助學(xué)生對自己的學(xué)習(xí)狀況有一個全面的認(rèn)識，并適當(dāng)安排學(xué)習(xí)重點。通過分析大數(shù)據(jù)，教師能夠得知每位學(xué)生的潛能與需要，針對不同的學(xué)生選擇不同的教學(xué)內(nèi)容，采用不同的教學(xué)方法，提供不同的教學(xué)服務(wù)；父母能夠了解自己的子女在學(xué)校的學(xué)習(xí)和心理健康情況；教育管理者能夠了解學(xué)生的優(yōu)缺點，發(fā)現(xiàn)學(xué)生的問題，及時提供關(guān)懷與指導(dǎo)，還可以預(yù)測他們的職業(yè)發(fā)展情況，進(jìn)行有目的的訓(xùn)練；研究人員能夠了解目前的現(xiàn)狀和問題，利用大數(shù)據(jù)推動教育決策由粗放型向精細(xì)化、智能化的方向發(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡