張鸰
摘要:隨著信息化教學手段的普及,高等院校越來越重視網(wǎng)絡教學平臺的建設,在智慧校園的建設中都加大了線上教學的投入力度。但隨著也帶來了以往在線下教學過程中沒有遇到的一些問題,比如教學管理實施等,其中最突出的問題就是如何來進行網(wǎng)絡教學評價。與傳統(tǒng)的線下授課不同,網(wǎng)絡教學無法實現(xiàn)如組織集中聽課等課堂評課等常規(guī)的評價方式,教學行為發(fā)生的對象變成了屏幕鼠標鍵盤,而不再直接展現(xiàn)給教學評價人員,因此評價手段也必須由信息化的方式來進行分析。本文利用數(shù)據(jù)挖掘技術對線上教學方式的隱含影響因素做深層的分析,探索教育各關鍵要素之間的關聯(lián),初步構建出實現(xiàn)網(wǎng)絡教學評價的相關流程,從而為教育教學管理和決策提供有效支持。
關鍵詞: 數(shù)據(jù)挖掘;分類回歸樹算法;線上教學;教學評價
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2018)29-0006-03
1 數(shù)據(jù)挖掘技術簡析
數(shù)據(jù)挖掘(Data Mining)一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程,通常會利用計算機技術、機器學習、統(tǒng)計學技術、情報分析和模式識別等技術來實現(xiàn)。[1]。數(shù)據(jù)挖掘?qū)崿F(xiàn)過程主要有三步:數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果的解和評估。簡單來說數(shù)據(jù)挖掘技術是指從大量紛繁錯雜的信息中獲取有效的數(shù)據(jù),幫助使用者制定決策的一種技術手段。數(shù)據(jù)挖掘接觸多樣化的數(shù)據(jù)結(jié)構和類型,因此對接了包括:普通的事務數(shù)據(jù)、關系數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù),以及現(xiàn)在流行的流媒體數(shù)據(jù)、超文本數(shù)據(jù)、時空及序列數(shù)據(jù)、網(wǎng)格數(shù)據(jù)等等。數(shù)據(jù)挖掘技術發(fā)展到現(xiàn)在,在很多的專業(yè)學科領域都得到了應用,并隨之催生出了很多新的數(shù)據(jù)挖掘技術。當下在教育教學方面數(shù)據(jù)挖掘技術也廣泛的深入,常見的有:被用于對線上學習效果與學習行為關聯(lián)性進行分析的關聯(lián)和相關性挖掘算法;通過對采集信息進行分析聚類出具有特定相似性的群體的聚類分析算法;可以實現(xiàn)對線上教學留言板、論壇、聊天室的評論的交流數(shù)據(jù)進行分析的文本挖掘技術;通過對采集到的學生基本信息既可以實現(xiàn)對學生成績進行預測的決策樹算法;常被用于進行線上教育教學研究的統(tǒng)計分析挖掘算法等??梢愿鶕?jù)不同的應用場合和項目,選擇適合特定任務的數(shù)據(jù)挖掘技術。本文根據(jù)需求采用了決策樹算法中的分類和回歸樹算法。
2 分類回歸樹算法
在數(shù)據(jù)挖掘中,決策樹通過對不同屬性節(jié)點的劃分,把一個新的樣本經(jīng)過層層判斷劃分到不同的類別當中。決策樹算法根據(jù)選擇劃分節(jié)點的不同方式主要分為ID3、C4.5、CART三種算法。ID3是決策樹算法中很常用的一種方法,其主要思想是通過信息增益來進行決策樹的劃分屬性選擇,而C4.5算法可以看成是對ID3算法的一個改進。ID3、C4.5算法主要用于分類問題,它們均是基于信息熵來進行劃分節(jié)點選取的。
分類回歸樹算法(CART,Classification And Regression Tree)是一種決策樹分類方法,它采用一種二分遞歸分割的技術,從名稱可知它包括了分類樹和回歸樹兩種決策樹。CART和前面兩種算法的差異主要是在每一次節(jié)點做判斷時,只考慮二分類的情況,即使征能夠取到多個值(比如屬性顏色有紅、黃、藍三種取值,ID3和C4.5直接就劃分為紅、黃、藍三個子類,而CART只能在一次劃分時劃分為是不是紅(黃、藍)然后再進行判斷。)
2.1 CART分類過程
2. 3 CART剪枝
為什么要對決策樹進行剪枝?這樣做的原因是為了避免出現(xiàn)過擬合的情況。觀察通過前面的算法生成的決策樹,會發(fā)現(xiàn)這個決策樹是非常詳細,分支量大,分支層數(shù)多,對每個屬性進行詳細的分析。利用這種決策樹實施的訓練樣本的分類,可以達到非常低的錯誤率,可以對原訓練樣本集進行正確的樣品分類。
剪枝的方法包括兩種:預先剪枝(Pre-Pruning)和生成后剪枝(Post-Pruning):Pre-Prune是指在決策樹子節(jié)點的產(chǎn)生階段,利用剪枝算法去判別是否需要產(chǎn)生該子節(jié)點。而Post Prune就是指利用剪枝算法對于已生成過擬合的原始決策樹實施分析和處理,將冗余和偏離較大的子節(jié)點去掉的方式。
3 數(shù)據(jù)分析流程
前面完成了數(shù)據(jù)挖掘技術的選型,下面結(jié)合線上教學環(huán)節(jié)對數(shù)據(jù)分析流程簡單梳理。對于線上教學的考核評估第一個要素就是要明確所分析的對象。本文擬從線上課程的各個教學模塊、任課教師和該課程學生的測試成績等三方面內(nèi)容展開分析,利用數(shù)據(jù)挖掘技術來評估線上教學的效果。
使用者的學習過程存儲在線上平臺的學習行為數(shù)據(jù)庫內(nèi),同時線上系統(tǒng)的日志管理機制又準確記錄了學習者在各個線上學習模塊的學習行為。另一方面,通過數(shù)據(jù)接口對接能夠得到教學管理系統(tǒng)的成績數(shù)據(jù)。然后將采集到的數(shù)據(jù)按照數(shù)據(jù)處理的相關流程確定主外鍵、關聯(lián)度、位置,最終形成學習者的學習行為統(tǒng)計報表。例如教師T開設了線上課程K,學生S 在課程的線上學習時長為30個小時,在線答疑模塊訪問9次、完成線下作業(yè)5次等等。
完成了數(shù)據(jù)的采集以后,接下來就是利用數(shù)據(jù)挖掘算法進行分析??梢詫φ麄€數(shù)據(jù)分析流程總結(jié)如下圖1:
其中:施教者對所開發(fā)各教學模塊使用過程中的定性對比結(jié)果構成分類樹;學習者對各學習模塊訪問數(shù)量具體對比形成回歸樹。通過對學生學習行為和教師開發(fā)教學模塊之間的因果分析判斷,結(jié)合算法原理以及實現(xiàn)過程形成了CART算法的基本模型。
4 分類回歸樹算法應用
關鍵因素分析:
① 教學管理人員:制定線上平臺教學考核標準,提供接口實現(xiàn)數(shù)據(jù)挖掘系統(tǒng)與教務系統(tǒng)之間的對接;
② 后臺技術人員:針對特定線上課程,分析其中的學生行為和考試成績關系,判斷其對網(wǎng)上教學課程的教學效果評估是否達到有效地實現(xiàn)。
前導要素:技術人員按時更新學生行為數(shù)據(jù)庫,教學管理人員提供考試成績,技術人員按時通過CART算法建立分類回歸樹進行分析,結(jié)果提交給教學管理人員。后繼要素:隨著線上教學平臺數(shù)據(jù)量的積累量,系統(tǒng)將進入良性發(fā)展,利用CART算法構建的模型也會越來越準確,更加能夠真實地反映出線上教學平臺的教學效果。具體流程如圖2所示。
5 結(jié)束語
通過以決策樹算法對學生的在平臺的行為和考試成績進行分析,就可以得出了比較直觀和具有說服力的規(guī)則分析,找出了在網(wǎng)絡教學平臺中相對有效的教學方式,以及在特定教學方式中實現(xiàn)了優(yōu)秀教學效果的任課教師,達成了對網(wǎng)絡教學的教學效果進行評估參考的效果。
參考文獻:
[1] 李雄飛,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2003.
[2] 許海洋,汪國安,王萬森.模糊聚類分析在數(shù)據(jù)挖掘中的應用研究[J]. 計算機工程與應用,2005(17).
[3] 田欣.決策樹算法的研究綜述[J]. 現(xiàn)代營銷,2015(5).
[4] 高海燕.數(shù)據(jù)挖掘技術及應用淺析[J]. 中國科技博覽,2012(6).
【通聯(lián)編輯:唐一東】