姜賽達
(商丘職業(yè)技術學院計算機系,河南商丘 476000)
數(shù)據(jù)挖掘技術,可以從大量數(shù)據(jù)中找到有價值的信息,為相關機構的決策提供客觀依據(jù)。在許多領域,尤其是遠程教育領域,隨著教育信息系統(tǒng)中教育數(shù)據(jù)的持續(xù)增長,數(shù)據(jù)挖掘技術的應用日益成為在線教育模式或相關行政部門決策的必要條件。在這項研究中,作為中國規(guī)模最大的在線教育平臺的中國大學MOOC 平臺,其向大眾提供中國知名高校的MOOC 課程,MOOC的教學質量越來越受到關注。MOOC 有一套類似于線下課程的作業(yè)評估體系和考核方式以評估教學質量。為了檢驗課程的教學改效果,應設計基于數(shù)據(jù)挖掘原理和技術的有效考試數(shù)據(jù)分析方法,以處理MOOC 課程實踐教學考試數(shù)據(jù)。分析結果應揭示考試數(shù)據(jù)的內在變化,體現(xiàn)MOOC教學的效果,可以成為評估MOOC 教學效果的客觀依據(jù)。
聚類分析作為重要數(shù)據(jù)分析工具,適用于無監(jiān)督的學習過程,可以完全根據(jù)數(shù)據(jù)本身發(fā)現(xiàn)隱藏在大量數(shù)據(jù)中的有價值信息。它根據(jù)特定的聚類算法原理自動將數(shù)據(jù)分類為聚類,以最大化聚類間距離,并最小化聚類內距離。數(shù)據(jù)聚類和異常值,作為聚類算法的分析結果可以揭示數(shù)據(jù)分布信息,可以服務于指定的社交應用程序。經典聚類算法主要包括劃分方法,分層方法,基于密度的方法,基于網格的方法和基于模型的方法。
到目前為止,在將聚類技術應用于學生成績分析方面,進行了多項研究,武森[1]應用K-means聚類算法分析分專業(yè)前的大學生成績與專業(yè)及分專業(yè)后課程學習之間可能存在的潛在關系??偨Y其特點,指導學生的專業(yè)劃分。專業(yè)化后根據(jù)每個集群的成就表現(xiàn)選擇。茆漢國[2]利用校園網服務器存儲的海量用戶訪問日志數(shù)據(jù),應用K均值算法結合AGNES 算法分析行為,研究學生成績與校園網絡之間的關系。Robles[3]基于聚類分析學生的學習成果,以提供個性化和智能化的學習建議。Liu[4]將SPA 模糊聚類和DS 粗糙集分析應用于計算機文化基礎測試系統(tǒng),幫助教師對學生的成績進行理性判斷。
顯然,像K-means 這樣的聚類算法經常被用來分析學生的成績。在本研究中,基于層次的聚類算法被選為,中國大學MOOC 平臺課程成績數(shù)據(jù)的分析方法,主要是由于這種方法不需要預先設定聚類數(shù),兩個數(shù)據(jù)元完全根據(jù)數(shù)據(jù)本身的差異,在每個循環(huán)中聚集在一起,具有準確的分類結果。能有效地檢測異常值,更容易找到形狀不同的簇。當數(shù)據(jù)量不太大,希望得到相對準確的結果時,選擇這種方法進行數(shù)據(jù)分析是合理的。
課程成績數(shù)據(jù)由中國大學MOOC 平臺課程開設團隊提供,包括計算機應用基礎堯Java Web應用程序開發(fā)等6 門課程的課程編號堯課程名稱堯成績評定辦法堯開課時間堯學時安排和MOOC成績堯試卷成績。
成績評定辦法解釋:MOOC 有一套類似于線下課程的作業(yè)評估體系和考核方式。每門課程定期開課,整個學習過程包括多個環(huán)節(jié):觀看視頻堯參與討論堯提交作業(yè),穿插課程的提問和終極考試。
下圖是MOOC 課程基于層次聚類的成績數(shù)據(jù)分析方法流程圖。包括兩個步驟,首先輸入同一課程采用傳統(tǒng)課堂教學的成績數(shù)據(jù)和采用MOOC 教學的成績數(shù)據(jù),將兩種數(shù)據(jù)進行聚類處理,確定相應的最小集群間距離,以便對傳統(tǒng)課堂教學的成績數(shù)據(jù)與MOOC 教學的成績數(shù)據(jù)進行比較研究。其次在兩種教學模式的測試成績設置相同的收斂條件的前提下,將最小簇間距離設置為循環(huán)的終止條件,然后使用分層聚類算法處理檢查數(shù)據(jù),分別輸出聚類結果。
表2 課程考試數(shù)據(jù)分析指標
這種設計的優(yōu)點在于:
充分利用層次聚類適用無監(jiān)督學習的特點,可以設置適合于傳統(tǒng)課堂教學模式和MOOC 教學模式的成績數(shù)據(jù)的循環(huán)統(tǒng)一終止條件,從而可以得到聚類結果的比較研究。可以揭示變化的紀律。
可以總結集群特征以制定相應的改革措施,以控制或調整五個統(tǒng)計指標的變化。
異常檢測有助于在兩種教學模式中發(fā)現(xiàn)異常情況。
基于層次聚類的成績數(shù)據(jù)分析方法流程圖
對于每個教學課程成績,要聚集的對象是各開設的課程,設置是1 到n 的整數(shù),n 是開設課程編號。并且每個開設課程的屬性是上面提到的五個統(tǒng)計指標,可以表示為Xik,k 是從1 到6 的整數(shù)。課程元素Xi和Xj之間的距離是dij 可由公式(1)得到。
基本距離矩陣是初始課程元素之間的歐幾里得距離。dbasic 可以從dii 矩陣計算出來,公式(2)。
這里,平均距離用作簇間距離,用于克服算法在聚類形成過程中存在的聚類錯誤和對異常值敏感等問題,具體描述如下。在聚類過程中產生聚類R 和聚類S,聚類R 包括班級元素XRa,這里a 是從1 到p 的整數(shù)值,p 是聚類R 中的班級元素數(shù),聚類S 包括學生元素Xsb,b 是從1 到q的另一個整數(shù)值,q 是簇S 中的班級元素數(shù),簇R 和簇S 之間的距離是dRS可由公式(3)得到。
同時,簇間距離矩陣可以描述為等式(4)。
建立簇間距離矩陣的優(yōu)點是可以通過初始課程元素距離的求和操作完全計算新簇之間的距離。循環(huán)過程中省去了平方運算,提高了算法的效率。
基于層次聚類的檢驗數(shù)據(jù)分析算法關鍵部分的偽代碼描述如下。
第一步:在傳統(tǒng)課堂教學或MOOC 教學后輸入課程成績數(shù)據(jù)。
第二步:將每個課程作為基本元素,計算dij,根據(jù)每個課程元素的五個屬性建立dbasic,找到最近的兩個元素,為第一個聚類做好準備。
第三步:循環(huán)開始,因為我是從1 到n-1,這里n-1 是聚合時間形成一個完整的樹形圖,它是學生元素數(shù)減去1。
將最近的兩個聚類融合,形成一個新的聚類,其標簽為當前聚類數(shù)加1,計算dRS,建立dcluster,更新原始數(shù)據(jù)集的聚類標簽。
從新的集合中找到最近的兩個簇。
結束循環(huán);
第四步:根據(jù)兩個集群每次收斂的時間和距離,輸出樹形圖。
表3 給出了基于層次聚類的數(shù)據(jù)分析方法產生的課程成績數(shù)據(jù)的聚類結果,包括6 個課程中采用傳統(tǒng)課堂教學的成績數(shù)據(jù)和采用MOOC教學的成績數(shù)據(jù)的詳細信息。課程名稱以計算機網絡基礎為例說明分析結果,采用傳統(tǒng)課堂教學模式班級數(shù)為47,采用MOOC 教學模式的班級數(shù)為46,統(tǒng)一最小群集距離,確定為40豫作為循環(huán)的終止條件。在采用傳統(tǒng)課堂教學模式下,聚類結果是一個聚類和兩個異常值,在采用MOOC教學模式下,聚類結果是兩個聚類。可以分別總結群集特征以進行比較。
表3 基于層次聚類的數(shù)據(jù)分析方法產生的聚類結果
研究采用傳統(tǒng)課堂教學的成績數(shù)據(jù)分布和采用MOOC 教學的成績數(shù)據(jù)分布,從而表明采用MOOC 教學模式進行教學的效果。在這種情況下,采用傳統(tǒng)課堂教學的第一組與采用MOOC教學的第一組進行比較,每個組中的元素數(shù)比例和參加課程的班級數(shù)量足夠大,幾乎可以代表采用傳統(tǒng)課堂教學的成績數(shù)據(jù)和采用MOOC 教學的成績數(shù)據(jù)分布情況。比較結果表明,采用MOOC 教學的實際測試率堯合格率與期末考試合格率,相較于采用傳統(tǒng)課堂教學模式沒有實際顯著的提高,結果表明了采用MOOC 教學模式的有效性。同時,由于采用MOOC 教學模式線上教學的對象差異性,表現(xiàn)出了輟學率的顯著差異。在班級教學中采用MOOC 教學與采用傳統(tǒng)課堂教學的輟學率沒有明顯差異。在非班級教學中采用MOOC 教學的輟學率顯著提高。
筆者提出了一種基于層次聚類的成績數(shù)據(jù)分析方法,用于處理中國大學MOOC 中教學課程成績數(shù)據(jù)。在方法設計方面,充分利用層次聚類的適用無監(jiān)督學習,準確分類,對異常值不敏感的優(yōu)點。為了對采用傳統(tǒng)課堂教學和采用MOOC 教學成績數(shù)據(jù)分布進行比較研究,提出了兩種聚類模式,以確定適合于傳統(tǒng)課堂教學和MOOC 教學成績數(shù)據(jù)的統(tǒng)一最小簇間距離。在方法實現(xiàn)方面,群集之間的平均距離用于使得方法對異常值不敏感,并且通過建立群集之間的距離矩陣,可以僅通過求和操作從原始元素的基本距離矩陣計算,從而提高逼近效率。