基于協(xié)同過濾算法的在線學(xué)習(xí)結(jié)果預(yù)測

2018-01-31 08:31徐丹路永于化龍

科技視界 2018年30期

徐丹　路永　于化龍

【摘要】隨著在線教育平臺的發(fā)展，在學(xué)生和在線平臺的交互過程中產(chǎn)生了大量的學(xué)習(xí)數(shù)據(jù)，為教育數(shù)據(jù)挖掘提供了數(shù)據(jù)基礎(chǔ)。本文以KDD Cup 2010提供的在線學(xué)習(xí)數(shù)據(jù)為研究對象，利用協(xié)同過濾算法找到待預(yù)測學(xué)生的K近鄰，進而對該學(xué)生的答題結(jié)果進行預(yù)測，取得了理想的效果。

【關(guān)鍵詞】協(xié)同過濾；教育數(shù)據(jù)挖掘；學(xué)習(xí)結(jié)果預(yù)測

中圖分類號： TP391.3 文獻標識碼： A 文章編號： 2095-2457（2018）30-0052-004

DOI：10.19694/j.cnki.issn2095-2457.2018.30.022

Student Performance Prediction based on Collaborative Filtering Algorithm

XU Dan1 LU Yong2 YU Hua-long1

（1.School of Computer Science，Jiangsu University of Science and Technology，Zhenjiang Jiangsu 212003；

2.Department of Technology and Informationization，Public Security Bureau of Xuzhou，Xuzhou Jiangsu 221000）

【Abstract】A large amount of learning data is generated during the interactive between the students and online study platforms.The data is captured and stored and consequently used for educational data mining.In this paper，we utilize the collaborative filtering algorithm to find the K nearest neighbours of the test student.The performance of the student will be predicted according to its K nearest neighbours.The experiment is executed on KDD Cup 2010 data set and shows expected results.

【Key words】Collaborative filtering algorithm；Educational data mining；Student performance prediction

0 引言

近年來，隨著慕課、edex等在線教育平臺的出現(xiàn)和普及，在學(xué)生和在線平臺的交互過程中產(chǎn)生了大量的學(xué)習(xí)數(shù)據(jù)，教育大數(shù)據(jù)的概念隨之興起。在此基礎(chǔ)上產(chǎn)生了教育數(shù)據(jù)挖掘和學(xué)習(xí)分析兩種相互關(guān)聯(lián)又互有不同的研究領(lǐng)域[1]。

國際教育數(shù)據(jù)挖掘?qū)W會認為教育數(shù)據(jù)挖掘的主要目的為：利用數(shù)據(jù)挖掘的方法探索教育數(shù)據(jù)，幫助更好的理解學(xué)生以及學(xué)生的學(xué)習(xí)環(huán)境和背景，進而預(yù)測學(xué)習(xí)者群體的學(xué)習(xí)效果[2]。學(xué)習(xí)分析則通過搜集教與學(xué)過程中的行為數(shù)據(jù)，并應(yīng)用機器學(xué)習(xí)和數(shù)據(jù)挖掘的方法和模型，從多個維度深度挖掘有價值的數(shù)據(jù)信息，揭示其中隱藏的學(xué)習(xí)行為模式，預(yù)測學(xué)習(xí)者的學(xué)習(xí)結(jié)果，從系統(tǒng)角度出發(fā)幫助學(xué)生、導(dǎo)師和教育管理者做學(xué)習(xí)和教學(xué)決策[3，4]。二者的關(guān)鍵不同在于教育數(shù)據(jù)挖掘側(cè)重于全自動方法發(fā)現(xiàn)教育數(shù)據(jù)隱藏信息，更多的用于結(jié)果預(yù)測；學(xué)習(xí)分析則偏向于采用人為主導(dǎo)的方法分析教育數(shù)據(jù)，更多的用于為學(xué)習(xí)行為和現(xiàn)象尋找可解釋和可理解的模型[5]。

教育數(shù)據(jù)挖掘中的主要任務(wù)之一是學(xué)習(xí)結(jié)果預(yù)測。通過對學(xué)生學(xué)習(xí)行為和學(xué)習(xí)過程的分析預(yù)測未來的結(jié)果事件，例如哪些學(xué)生可能存在輟學(xué)的風險。也可對不能直接采集的數(shù)據(jù)屬性進行預(yù)測，如學(xué)生的學(xué)習(xí)成績。在[6]中，等人開發(fā)的Purdue Signals project項目即是采用預(yù)測模型進行學(xué)生學(xué)習(xí)結(jié)果預(yù)測的典型案例，實踐證明該系統(tǒng)能夠明顯的改善教學(xué)效果。

本文的主要工作是通過協(xié)同過濾算法對在線教育數(shù)據(jù)進行挖掘，探尋數(shù)據(jù)之間存在的關(guān)聯(lián)模式，對學(xué)習(xí)結(jié)果進行預(yù)測。因此本文的研究重點在于數(shù)據(jù)的獲取和分析以及數(shù)據(jù)挖掘算法在教育數(shù)據(jù)中的應(yīng)用。

1 協(xié)同過濾算法

協(xié)同過濾算法在電子商務(wù)和推薦系統(tǒng)中被廣泛應(yīng)用[7]。其基本思想是，通過對用戶歷史行為數(shù)據(jù)的挖掘發(fā)現(xiàn)用戶的偏好，基于不同的偏好對用戶進行群組劃分并推薦類別相似的商品。協(xié)同過濾算法根據(jù)其主體不同可分為兩類：基于用戶的協(xié)同過濾算法和基于商品的協(xié)同過濾算法。

本文將協(xié)同過濾算法用于學(xué)生學(xué)習(xí)結(jié)果預(yù)測，將學(xué)生看作用戶，將學(xué)生的學(xué)習(xí)表現(xiàn)看作項目，采用以學(xué)生為主體的協(xié)同過濾算法，尋找與目標學(xué)生距離最近的K個學(xué)生，根據(jù)這K個學(xué)生的學(xué)習(xí)結(jié)果來預(yù)測目標學(xué)生的學(xué)習(xí)結(jié)果。

如圖1所示，本文算法流程主要包括三個部分，首先計算待分類數(shù)據(jù)和已知數(shù)據(jù)之間的相似性，其次根據(jù)相似性生成待分類數(shù)據(jù)的K近鄰集合，最后根據(jù)K近鄰中學(xué)生的答題結(jié)果預(yù)測待分類學(xué)生的答題結(jié)果。

2 學(xué)習(xí)結(jié)果預(yù)測

教育數(shù)據(jù)挖掘產(chǎn)生的主要原因之一是不斷增加的、可分析的教育數(shù)據(jù)的出現(xiàn)。當學(xué)習(xí)者通過電子設(shè)備與在線學(xué)習(xí)平臺交互時，學(xué)習(xí)數(shù)據(jù)便被獲取并存儲起來以備后用。比較有代表性的教育數(shù)據(jù)來源于卡耐基梅隆大學(xué)的Datashop，其提供了多個與教育相關(guān)的公開和私有數(shù)據(jù)集[8]。另一個具有代表性的數(shù)據(jù)集是KDD（Data Mining and Knowledge Discovery）Cup 2010提供的關(guān)于學(xué)生通過在線輔助教學(xué)平臺學(xué)習(xí)情況的公開數(shù)據(jù)集[9]。KDD Cup 2010是為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)競賽而設(shè)置的數(shù)據(jù)集，有明確的訓(xùn)練集和測試集，其目的是用于學(xué)生學(xué)習(xí)結(jié)果的預(yù)測。因此，在本文中選用KDD CUP 2010作為我們的實驗數(shù)據(jù)集。

KDD CUP 2010一共有5個數(shù)據(jù)集，包括3個發(fā)展數(shù)據(jù)集和2個挑戰(zhàn)數(shù)據(jù)集。兩個數(shù)據(jù)集最大的不同是，發(fā)展數(shù)據(jù)集用于參賽算法的測試，其測試集提供真值數(shù)據(jù)，而挑戰(zhàn)數(shù)據(jù)集用于比賽，其測試集不提供真值數(shù)據(jù)。我們選擇發(fā)展數(shù)據(jù)集中的Algebar I 2005-2006數(shù)據(jù)集用于實驗。通過575名學(xué)生在數(shù)學(xué)學(xué)習(xí)過程中和計算機輔助教學(xué)系統(tǒng)之間的交互數(shù)據(jù)預(yù)測學(xué)生最終的答題結(jié)果。學(xué)生通過計算機輔助教學(xué)系統(tǒng)答題，在答題過程中與輔助教學(xué)系統(tǒng)之間的交互可分為兩種：一是遇到困難可以向輔助教學(xué)系統(tǒng)提問，二是答題結(jié)束后提交最終答案，學(xué)生和教學(xué)系統(tǒng)的每次交互稱為一個transaction。在學(xué)生學(xué)習(xí)過程中，有四個基本概念，分別為問題、步驟、知識點和學(xué)習(xí)機會數(shù)。其中，問題是學(xué)生要解決的基本任務(wù)，也可稱為練習(xí)，通常包括多個步驟，有的步驟可用于解決不同的問題。每個步驟可能包括多個知識點，當然，不同的步驟可以涉及相同的知識點。學(xué)習(xí)機會數(shù)是指學(xué)生學(xué)習(xí)某個知識點的次數(shù)，當學(xué)生在解題過程中遇到某一知識點，則該知識點的機會數(shù)加1。數(shù)據(jù)集中的特征如表1所示。

導(dǎo)入之后得到的數(shù)據(jù)示例如表2所示，需要注意的是，為了方便顯示我們省略了一些屬性。另外，KC是關(guān)于知識點的詳細描述，所占篇幅較長，我們僅以SkillRule代替。

訓(xùn)練數(shù)據(jù)集中有19種特征，其中特征7-13、15-17的值在測試數(shù)據(jù)集中被隱藏，特征14 （Correct First Attempt）為需要預(yù)測的分類特征。因此，在訓(xùn)練過程中也排除了特征7-13和特征15-17。我們將剩下的8種非類別特征分為三類，一是與學(xué)生相關(guān)的特征，即特征2；二是與題目相關(guān)的特征，即特征3-6；第三類是與知識點相關(guān)的特證，即特征18和19。在對數(shù)據(jù)樣本進行距離度量過程中采用協(xié)同過濾算法，把學(xué)生當做主體，即協(xié)同過濾算法中的客戶，將題目和知識點看作與客戶相關(guān)的項目。

2.1 相似性度量

距離度量也分為三個部分，學(xué)生本身的相似性度量、學(xué)習(xí)-題目相似性度量和學(xué)生-知識點相似性度量。

學(xué)生本身的相似性度量，給定訓(xùn)練集Dtr，sp為訓(xùn)練樣本中的學(xué)生標識號，sq為待分類樣本中的學(xué)生標識號，則學(xué)生自身的相似度為：

學(xué)生-題目相似性度量，記學(xué)生sp，sq所做的步驟集合分別為Isp，Isq，其做過的相同步驟的集合可表示為，則學(xué)生-題目相似度可用Pearson相似性度量[10]方法表示如下：

式中，I是學(xué)生sp，sq做過相同步驟的數(shù)量，是學(xué)生sp提交的第i個步驟的結(jié)果，是學(xué)生sp在相同步驟上的提交結(jié)果的均值。

學(xué)生-知識點相似性度量，記學(xué)生sp，sq所做的步驟涉及的知識點集合分別為Ksp，Ksq，則相同的知識點集合可表示為，則學(xué)生-題目相似度可表示為：

式中，表示學(xué)生sp的第k個知識點出現(xiàn)次數(shù)。該公式前一項給出了兩個學(xué)生知識點的交集和并集中知識點數(shù)量的比值，后一項給出了對于相同的知識點，其出現(xiàn)次數(shù)的差距的倒數(shù)。

因此，以學(xué)生為主體的兩個數(shù)據(jù)樣本之間的相似度可以用公式（4）表示，并將最終的相似性度量進行歸一化。

2.2 結(jié)果預(yù)測

對于待分類的數(shù)據(jù)記錄，計算其和已知數(shù)據(jù)記錄的相似性度量，獲取和待分類記錄中相似度最高的K個記錄，并且按照相似度從大到小的順序降序排列。

確定待分類記錄的最近鄰后，即可預(yù)測其對應(yīng)的的答題結(jié)果。這里我們采用加權(quán)平均的方法，即取該記錄的最近鄰中K個學(xué)生的答題結(jié)果的均值，若均值大于0.5，則認為待分類記錄的學(xué)生的答題結(jié)果為1，否則為0。

本文采用均方根誤差值RMSE（Root Mean Square Error）評估預(yù)測值和真實值之間的差異。記i為一問題步驟，s為學(xué)生，則esi表示學(xué)生s對于步驟i的答題結(jié)果的預(yù)測值，gsi表示學(xué)生s對于步驟i的答題結(jié)果的真實值。RMSE值越小，則預(yù)測值與真實值越接近，算法的分類正確率越高。

預(yù)測算法在測試數(shù)據(jù)集Dt上的RMSE可用下式計算：

在測試數(shù)據(jù)集上的分類正確率和RMSE如圖2所示。圖中K是表示待測試數(shù)據(jù)的最近鄰數(shù)量，分別取5，10和15。從圖中可知，當K=10時，其RMSE和預(yù)測正確率明顯高于K=5時的性能；但相較于K=10，K=15時的RMSE和正確率指標略有改進，但幅度不大。

3 結(jié)語

本文首先對KDD Cup 2010提供的數(shù)據(jù)集進行了詳細的分析，在此基礎(chǔ)上探討了協(xié)同過濾算法在學(xué)生學(xué)習(xí)結(jié)果預(yù)測中的應(yīng)用，并取得了理想的預(yù)測結(jié)果。下一步工作重點在于構(gòu)建針對本校學(xué)生的學(xué)習(xí)數(shù)據(jù)集，進行學(xué)習(xí)結(jié)果分析與預(yù)測，據(jù)此進行個性化的干預(yù)和指導(dǎo)。

【參考文獻】

[1]蔣卓軒，張巖，李曉明.基于MOOC數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J].計算機研究與發(fā)展，2014：1.

[2]Baker RS，Inventado PS.Educational data mining and learning analytics[M]//Learning analytics.Springer，New York，NY，2014：61-75.

[3]Pe a-Ayala A.Educational data mining：A survey and a data mining-based analysis of recent works[J].Expert systems with applications，2014，41（4）：1432-1462.

[4]賀超凱，吳蒙.edX 平臺教育大數(shù)據(jù)的學(xué)習(xí)行為分析與預(yù)測[J].中國遠程教育，2016（6）：54-59.

[5]Siemens G，d Baker R S J.Learning analytics and educational data mining：towards communication and collaboration[C]//Proceedings of the 2nd international conference on learning analytics and knowledge.ACM，2012：252-254.

[6]Arnold K E.Signals：Applying academic analytics[J].Educause Quarterly，2010，33（1）：1-10.

[7]榮輝桂，火生旭，胡春華，等.基于用戶相似度的協(xié)同過濾推薦算法[J].通信學(xué)報，2017，35（2）：16-24.

[8]Koedinger K R，Baker R S J，Cunningham K，et al.A data repository for the EDM community：The PSLC DataShop[J]. Handbook of educational data mining，2010，43：43-56.

[9]Stamper J，Pardos Z A.The 2010 KDD Cup Competition Dataset：Engaging the machine learning community in predictive learning analytics[J].Journal of Learning Analytics，2016，3（2）：312-316.

[10]劉翠翠.協(xié)同過濾算法在教育數(shù)據(jù)挖掘中學(xué)生成績預(yù)測的研究[D].昆明理工大學(xué)，2016.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于協(xié)同過濾算法的在線學(xué)習(xí)結(jié)果預(yù)測