黃金晶 黃黎
摘 要: 在網(wǎng)絡(luò)課程教學(xué)中對學(xué)生進(jìn)行分類,教師能為不同類別的學(xué)生制定相應(yīng)的教學(xué)策略,提高教學(xué)質(zhì)量。文章將信息熵理論運用于學(xué)生分類,在預(yù)處理之后的數(shù)據(jù)上,采用ID3算法構(gòu)建了基于信息增益的決策樹,生成相應(yīng)的決策規(guī)則,為新的輸入數(shù)據(jù)提供了分類依據(jù)。
關(guān)鍵詞: 網(wǎng)絡(luò)課程; 信息熵; 決策樹; 信息增益
中圖分類號: TP 393 文獻(xiàn)標(biāo)志碼: A 文章編號: 1671-2153(2016)05-0084-03
0 引 言
網(wǎng)絡(luò)課程[1]教學(xué)是信息時代下課程新的表現(xiàn)形式,它以學(xué)生為主體,利用現(xiàn)代網(wǎng)絡(luò)技術(shù),為學(xué)生提供多方面的學(xué)習(xí)素材,如文檔、視頻等;同時也支持多種形式的師生互動,如在線答疑、討論,使學(xué)生在任何時間任何地點都可以身臨其境的學(xué)習(xí)。此外,在線測試也提供了對學(xué)生學(xué)習(xí)效果的檢測。
隨著網(wǎng)絡(luò)學(xué)習(xí)人群的增加,網(wǎng)絡(luò)教學(xué)平臺中留下了大量的數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)[2]可以從中獲取有用的信息。登錄網(wǎng)絡(luò)教學(xué)平臺學(xué)生的基礎(chǔ)數(shù)據(jù)不同,如訪問時長、論壇活躍度、學(xué)習(xí)能力等。若對學(xué)生進(jìn)行分類,對不同的類別的學(xué)生采取適合其特點的教學(xué)策略,這為個性化學(xué)習(xí)、因材施教提供了可能。本文主要探討數(shù)據(jù)挖掘技術(shù)中的信息熵[3]在學(xué)生分類模型中的應(yīng)用,通過對已知樣本的學(xué)習(xí),預(yù)測未知類別學(xué)生的分類。
1 學(xué)生分類數(shù)據(jù)挖掘流程
學(xué)生登錄網(wǎng)絡(luò)教學(xué)平臺后,留下了大量的訪問數(shù)據(jù),比如學(xué)號、訪問資源、訪問時長等,在這些數(shù)據(jù)中用人工的方式提取有價值的數(shù)據(jù)是一件非常困難的事,因而可以借助數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進(jìn)行分析,整體流程如圖1所示。
圖1中,整個流程分為數(shù)據(jù)采集與預(yù)處理、模式發(fā)現(xiàn)、規(guī)則分析。原始數(shù)據(jù)中包含了大量帶有噪聲的和冗余的信息,這些數(shù)據(jù)的存在會對分析的結(jié)果造成干擾,所以必須對其進(jìn)行過濾和清洗,并將其變成高質(zhì)量的數(shù)據(jù)。在模式發(fā)現(xiàn)階段,使用決策樹[4]的分類算法對數(shù)據(jù)集進(jìn)行分析,獲得不同的分類規(guī)則,規(guī)則1、規(guī)則2…規(guī)則n,當(dāng)新的學(xué)生數(shù)據(jù)進(jìn)來后,根據(jù)已有的規(guī)則進(jìn)行匹配,獲得新數(shù)據(jù)所在的類別,即對新數(shù)據(jù)進(jìn)行預(yù)測。
2 分類模型構(gòu)建與分析
2.1 學(xué)生分類模型構(gòu)建
分類模型的構(gòu)建有多種方法,本文使用ID3算法[5]進(jìn)行分類的構(gòu)建。構(gòu)建學(xué)生的分類模型,首先要獲得參與決策的相關(guān)屬性,為每個屬性計算信息增益[6],選擇最大信息增益的屬性進(jìn)行劃分。
表1為學(xué)生學(xué)習(xí)記錄表,從該表中可以獲得影響決策的屬性,如學(xué)習(xí)總時間、提問次數(shù)、資料下載次數(shù)以及測試成績。利用聚類算法[7]對預(yù)處理后的訓(xùn)練數(shù)據(jù)進(jìn)行聚類,得到數(shù)據(jù)集對應(yīng)的分類,優(yōu)、良、中、差4個類別,如表2所示。
根據(jù)訓(xùn)練樣本數(shù)據(jù)計算各屬性的信息熵。表2中部分屬性以數(shù)值的方式呈現(xiàn),比如學(xué)習(xí)總時間,可以對其進(jìn)行相應(yīng)轉(zhuǎn)換,轉(zhuǎn)換規(guī)則:≥180為學(xué)習(xí)時間長,100~179學(xué)習(xí)時間中等,小于100為學(xué)習(xí)時間短。其他屬性可以做同樣的轉(zhuǎn)換。以前10條記錄為例進(jìn)行分類模型構(gòu)建,數(shù)據(jù)如表3所示。
在屬性“學(xué)習(xí)總時間”上的信息增益:Gain(S,A)=lnfo(S)-lnfo(S,A)=1.295-0.59=0.705位。
同理,為剩余的每個屬性計算信息增益,選擇最大信息增益的屬性進(jìn)行劃分。
Gain(S,“提問次數(shù)”)=0.345位;Gain(S,“資料下載次數(shù)”)=0.81位;Gain(S,“作業(yè)成績”)=0.97位。因而選擇作業(yè)成績作為決策樹根節(jié)點的劃分屬性。而后,按照相同的方法進(jìn)行遞歸選擇,直到數(shù)據(jù)不能進(jìn)一步劃分為止,最終的決策樹如圖2所示。
2.2 分類規(guī)則描述
根據(jù)最終構(gòu)建的決策樹,可以描述相應(yīng)的規(guī)則,以此作為新數(shù)據(jù)分類的依據(jù)。圖2所示的決策樹,規(guī)則如下:
(1)作業(yè)成績?yōu)锳,類別為優(yōu);
(2)作業(yè)成績?yōu)锽,類別為良;
(3)作業(yè)成績?yōu)镃,且學(xué)習(xí)時長為短,類別為中;
(4)作業(yè)成績?yōu)镃,學(xué)習(xí)時長為中,且提問次數(shù)為中,類別為良。
(5)作業(yè)成績?yōu)镃,學(xué)習(xí)時長為中,且提問次數(shù)為少,類別為中。
當(dāng)有新的學(xué)生數(shù)據(jù)時,可以根據(jù)相關(guān)的規(guī)則推斷學(xué)生所屬的類別。比如一個新的學(xué)生數(shù)據(jù),學(xué)習(xí)時長200 min,提問次數(shù)3次,資料下載8次,作業(yè)成績A,根據(jù)分類得出的規(guī)則,該生的作業(yè)成績?yōu)锳,類別為優(yōu)。以上結(jié)論是由例子中的10條訓(xùn)練數(shù)據(jù)得出的,當(dāng)訓(xùn)練樣本數(shù)據(jù)達(dá)到一定數(shù)據(jù)量,所得的規(guī)則是有意義和有價值的,可以用來預(yù)測新數(shù)據(jù)所屬的類別。
3 結(jié)束語
網(wǎng)絡(luò)遠(yuǎn)程教育是建立在現(xiàn)代信息技術(shù)平臺上的一種教學(xué)模式,是傳統(tǒng)教育的補充。隨著計算機技術(shù)、網(wǎng)絡(luò)技術(shù)等的不斷發(fā)展,網(wǎng)絡(luò)教育也逐漸展現(xiàn)了它的優(yōu)勢。將信息熵理論用于網(wǎng)絡(luò)教學(xué)的學(xué)生分類,可以幫助教師為每個群組學(xué)生制定不同教學(xué)策略,因材施教。
參考文獻(xiàn):
[1] 李青,劉洪沛. 網(wǎng)絡(luò)課程的設(shè)計模式[J]. 北京郵電大學(xué)學(xué)報(社會科學(xué)版),2009,11(1):96-100.
[2] SOMAN K P,SHYAM D,AJAY V. Insight into Data Mining Theory and Practice[M]. 北京:機械工業(yè)出版社,2009:4-23.
[3] HU Q H,GUO M Z,YU D R,et al. Information entropy for ordinal classification[J]. 2010,53(6):1188-1200.
[4] Potharst R,Bioch J C. Decision trees for ordinal classification[J]. Intell Data Anal,2000,4:97-111.
[5] 劉紅巖,陳劍,陳國青. 數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述[J]. 清華大學(xué)學(xué)報(自然科學(xué)版),2002,42(6):727-730.
[6] BRESLOW L A,AHA W. Dayid simplifying decision tree:a survey[J]. KnowledgeEngineering Review,1997,12(1):1-40.
[7] 呂曉鈴,謝邦昌. 數(shù)據(jù)挖掘方法與應(yīng)用[M]. 北京:中國人民大學(xué)出版社,2009:77-86.
Abstract: According to the students classification in the network courses teaching, teachers can make corresponding teaching strategies for different kind of students and improve teaching quality. The paper classifies students based on the information entropy theory, constructs decision tree based on information gain by using ID3 algorithm on thedata after preprocessing and generate the corresponding decision rules, which are the basis for the new input data.
Keywords: network course; information entropy; decision tree; information gain
(責(zé)任編輯:徐興華)