馮楚生 杜曉明
摘? 要 在高校管理系統(tǒng)中,學生信息數(shù)據(jù)量眾多,但對信息的利用率低,無法為學生提供完善的課程推薦服務(wù)。提出利用數(shù)據(jù)挖掘技術(shù)構(gòu)建學生個性化的選課推薦系統(tǒng),首先,分析學生行為特征,提取學生的個性特征并構(gòu)建學生的用戶畫像;其次,根據(jù)Apriori算法對課程信息進行關(guān)聯(lián)分析,挖掘課程之間的關(guān)聯(lián)性,優(yōu)化選課推薦集。通過個性化推薦選課服務(wù),促進學生個性化學習,使學生更好地利用學校資源。
關(guān)鍵詞 數(shù)據(jù)挖掘;選課推薦系統(tǒng);用戶畫像;關(guān)聯(lián)規(guī)則;Apriori算法
中圖分類號:G642? ? 文獻標識碼:B
文章編號:1671-489X(2020)16-0012-03
Design of Course Selection Recommendation System based on Data Mining//FENG Chusheng, DU Xiaoming
Abstract For todays college management systems, there is a lotof student information data, but the interest rate of the school for?information is low, and it cannot provide students with comprehen-sive student course management and course recommendation ser-vices. This paper proposes to use data mining technology to con-struct a personalized recommendation system for students. We ana-lyze the behavioral characteristics of students, extract the personalitycharacteristics of students and construct student portraits of students, recommend courses based on the characteristics of student portraits, and then use the Apriori algorithm to conduct course information. Association analysis, mining the correlation between courses, and optimizing the set of recommended courses. Through personalized recommendation course selection service, students personalized?learning can be improved, students learning dynamics can be under-stood, students can make better use of school resources, further im-prove the schools teaching services, and improve the schools tea-ching quality.
Key words data mining; course selection recommendation system; association rules; Apriori algorithm
1 引言
隨著信息技術(shù)的發(fā)展,數(shù)據(jù)產(chǎn)生的渠道也在迅猛增多,隨之而來的數(shù)據(jù)庫中包含的數(shù)據(jù)量也在呈指數(shù)增加趨勢,從收集到的數(shù)據(jù)中找到有用信息的方法就變得尤為重要。數(shù)據(jù)挖掘是其中非常關(guān)鍵的技術(shù)之一,它能使數(shù)學算法與大數(shù)據(jù)有機地結(jié)合起來,并應(yīng)用于實際工作中[1]。
數(shù)據(jù)挖掘技術(shù)的研究如今已經(jīng)在生活中的各個領(lǐng)域得到廣泛應(yīng)用,在國外很早之前就有學者提出要將數(shù)據(jù)挖掘技術(shù)應(yīng)用到教育領(lǐng)域。隨著現(xiàn)如今高校教育的改革,就選課功能而言,學生培養(yǎng)計劃中的大部分課程由學校制定為必修課,小部分課程為學生自主選擇研究方向后選擇的專業(yè)選修課和公共選修課[2]。就必修課程而言,每學期安排的必修課程之間的前后關(guān)聯(lián)順序安排是學校教學需要討論的重點。對于剛?cè)雽W的新生,在基礎(chǔ)課程未學習掌握時,一般會對后期成績產(chǎn)生部分影響。每學期的時間是固定的,那么每學期安排多少課程,對學生學習和掌握知識會產(chǎn)生影響。同樣,對于選修課而言,存在公共選修課種類眾多而專業(yè)選修課的專業(yè)方向不明確等諸如此類的問題,然而學生在面對未知的課程時,只能根據(jù)課程名稱來選擇自己選修的課程,往往無法選到真正對自己專業(yè)方向有幫助或是自己感興趣的課程。
如今在高校管理信息系統(tǒng)中,存在往年眾多的信息數(shù)據(jù),但是學校對于信息的利用大部分停留在簡單的增加、刪除、修改、查找的階段,甚至有些高校為減少內(nèi)存的占用,定期將部分信息從學生信息系統(tǒng)中刪除。對教學數(shù)據(jù)進行科學使用并深入挖掘分析,可以幫助教務(wù)部門合理安排課程,并對一些不合理的課程進行調(diào)整,從而適應(yīng)學生個性化發(fā)展的需要,合理分配教學資源,幫助學生找到學習目標,提高高校的教學水平和學生的整體素質(zhì)[3]。
2 相關(guān)研究
數(shù)據(jù)挖掘是從隨機的、大量的、模糊的、不完全的、有噪聲的數(shù)據(jù)中,運用統(tǒng)計學、機器學習、人工智能等科學方法挖掘出隱含在其中的未知的、但有潛在價值的信息和知識的過程[4]。通過對數(shù)據(jù)的挖掘來獲得未知的模式與規(guī)律。本文運用用戶畫像、關(guān)聯(lián)規(guī)則技術(shù)對學生基本信息、課程成績信息進行挖掘分析,挖掘出學生與課程之間的規(guī)律,并利用規(guī)律實現(xiàn)對課程的個性化推薦。
用戶畫像? 在20世紀90年代,Alan Cooper就提出用戶畫像是真實用戶的虛擬表示,是利用一系列真實數(shù)據(jù)對用戶進行建模表示的產(chǎn)物[5]。用戶畫像是通過搜集和分析用戶個人屬性、行為偏好、心理狀態(tài)等數(shù)據(jù),將用戶信息行為抽象化展示[6]。通常以可視化的形式進行表示,用一系列的用戶標簽對用戶的行為特征信息進行描述[7]。用戶標簽表示用戶的興趣愛好、行為習慣、心理狀態(tài)等,對每個標簽賦予不同的權(quán)重來表示標簽特征的需求程度,從而實現(xiàn)量化用戶特征的目的[8]。對于高校信息化教育建設(shè)而言,用戶畫像就是指面向高校學生,通過收集學生各種信息數(shù)據(jù),如個人信息、消費數(shù)據(jù)、圖書借閱數(shù)據(jù)等,進行深度分析,建立起一個以標簽形式為主的學生用戶模型。
關(guān)聯(lián)規(guī)則? R.Agrawal等人在1993年提出關(guān)聯(lián)規(guī)則,現(xiàn)在成為數(shù)據(jù)挖掘領(lǐng)域的一個重要研究方向[9]。它通常應(yīng)用在銷售事務(wù)數(shù)據(jù)庫中,通過找到已售商品之間的聯(lián)系,挖掘其隱藏的客觀規(guī)律,并利用該規(guī)律合理安排商品的擺放和搭配,從而獲得更高經(jīng)濟效益。Agrawal和Srikant(1994)在頻繁的k-項目集中觀察到一個有趣的向下閉包性質(zhì),稱為Apriori:只有當k-項目集的所有子項目集都是頻繁的時,它才是頻繁的[10]。本文使用關(guān)聯(lián)分析的方法分析學生課程之間的關(guān)聯(lián),這種關(guān)聯(lián)分析對教學管理很有幫助,可以了解學生先通過學習哪些公選課獲得知識,而后繼續(xù)學習其他的公選課。本文使用經(jīng)典的Apriori算法對選修的課程進行關(guān)聯(lián)分析。
3 個性化課程推薦系統(tǒng)設(shè)計
推薦系統(tǒng)通常是內(nèi)嵌于的系統(tǒng)或網(wǎng)站中,在系統(tǒng)或網(wǎng)站運行過程中發(fā)揮向用戶提供個性化推薦的功能。它通過統(tǒng)計和分析用戶的行為習慣、用戶特征等,構(gòu)建用戶畫像,預(yù)測用戶興趣偏好,向用戶推薦可能喜歡的物品。最常被使用的推薦算法是協(xié)同過濾算法,可以共用他人經(jīng)驗,避免內(nèi)容分析的不確定性。當然,它也存在冷啟動、稀疏性的缺點,此時需要根據(jù)具體的應(yīng)用環(huán)境,選擇合適的推薦算法。而課程推薦不同于商品推薦,學生選課時往往會受到朋友和同學的影響,課程推薦具有群體性。同時,課程應(yīng)該是有先后順序的“商品”,前一個課程的學習會對之后的課程產(chǎn)生影響,若只推薦熱門課程容易造成“馬太效應(yīng)”。
在學生信息中心存在大量數(shù)據(jù),包括學生的學籍信息、一卡通消費數(shù)據(jù)、圖書借閱數(shù)據(jù)、考勤數(shù)據(jù)等,這些數(shù)據(jù)都相對獨立地存在于各個系統(tǒng)中,尚未被有效利用和指導學生學習,本文介紹如何利用這些數(shù)據(jù)信息指導學生選課服務(wù)。各個系統(tǒng)中存在不同類型的學生數(shù)據(jù),反映學生不同的特征。首先收集這些信息,對這些信息進行整理建模,構(gòu)建學生用戶畫像,將學生信息標簽化,尋找學生選課偏好和親密學生興趣偏好;其次,預(yù)選課程成績受到眾多因素影響,通過貝葉斯網(wǎng)絡(luò)對預(yù)選課程進行預(yù)測,優(yōu)化推薦集。對于已選部分課程的學生,對課程進行關(guān)聯(lián)分析,通過已選課程推薦下一個課程。
構(gòu)建學生用戶畫像? 構(gòu)建用戶畫像的基本技術(shù)流程是采集原始數(shù)據(jù)、標準化清洗、建立數(shù)據(jù)模型、數(shù)據(jù)運算分析、可視化呈現(xiàn)[11]。在實際操作過程中,根據(jù)實際的工作需要,建立相關(guān)的數(shù)據(jù)模型,對學生標簽賦予不同的權(quán)重,構(gòu)建不同的用戶畫像。本文是構(gòu)建學生用戶畫像,所以從學生的行為習慣、親密關(guān)系等方面來構(gòu)建學生的用戶畫像。收集各個系統(tǒng)的數(shù)據(jù),對系統(tǒng)中的數(shù)據(jù)簡單進行統(tǒng)計分析,建立標簽?zāi)P?,而后利用這些標簽?zāi)P瓦M行個性化推薦服務(wù)。具體流程如圖1所示。
1)興趣偏好推薦模型。通過圖書館數(shù)據(jù)和考勤數(shù)據(jù)統(tǒng)計學生的閱讀時間和訪問行為,構(gòu)建學生的行為畫像,反映學生的努力程度。若學生出勤率低,反映學生不愿去教室上課,可優(yōu)先向其推薦網(wǎng)絡(luò)課程,方便學生隨時學習。對學生的早起情況進行分析,可以通過學生的刷卡時間和課程實際情況判斷學生是否有早起習慣,若學生無早起習慣,則優(yōu)先向其推薦下午或者晚上的選修課程或者無時間要求的網(wǎng)課。按照圖書分類的方法對圖書借閱數(shù)據(jù)進行分析,對學生借閱情況進行歸類統(tǒng)計分析,找出學生最感興趣的圖書類別,作為推薦的方向。最終通過學生的上課偏好、早起習慣、圖書偏好進行個性化推薦選修課程。
2)親密度推薦模型。在實際選課時,朋友或者同學會影響學生的選課情況,他們傾向于選擇那些與他們關(guān)系比較親密的同學的相同或相似的課程。從學生的一卡通刷卡記錄中,統(tǒng)計所有學生與目標學生在兩分鐘內(nèi)共同參與某件事件的次數(shù),如進出宿舍、吃飯、考勤、進出圖書館等,然后根據(jù)相關(guān)公式計算學生親密度,尋找出親密度較高的學生,根據(jù)這些學生的選課情況,對目標學生進行課程推薦[12]。
3)預(yù)選課程成績預(yù)測模型。學生成績與多重要素相關(guān),系統(tǒng)中存在大量數(shù)據(jù),將其分成直接相關(guān)數(shù)據(jù)和間接相關(guān)數(shù)據(jù)。以往的考試成績、對基礎(chǔ)知識掌握程度等構(gòu)成直接相關(guān)數(shù)據(jù),反映學生直接的學習狀態(tài)。學生的行為習慣等數(shù)據(jù)是間接相關(guān)數(shù)據(jù),學習成績與良好的行為習慣呈正相關(guān)。這些行為習慣數(shù)據(jù)包括就餐規(guī)律、打水規(guī)律、圖書館進出頻次、圖書借閱記錄、宿舍門禁進出規(guī)律、校園購物頻次及金額等。通過貝葉斯網(wǎng)絡(luò),依據(jù)直接相關(guān)數(shù)據(jù)和間接相關(guān)數(shù)據(jù),對預(yù)選課程成績進行預(yù)測。
關(guān)聯(lián)推薦模型? 課程之間具有高度關(guān)聯(lián)性。通過運用Apriori關(guān)聯(lián)算法對課程關(guān)系進行挖掘,生成關(guān)聯(lián)課程推薦集。對于已選修部分課程的學生,可通過關(guān)聯(lián)課程推薦集進行推薦,同時結(jié)合學業(yè)計劃要求和已選課程情況進行調(diào)整。若已選修兩學分的自然創(chuàng)新類,而學業(yè)計劃中要求選修六學分的人文類課程,四學分的自然創(chuàng)新類課程,則需要減少自然創(chuàng)新類課程的推薦。
4 系統(tǒng)評價
收集某高校2014—2018級所有學生數(shù)據(jù),并運用這些數(shù)據(jù)對本文推薦算法與熱門課程推薦算法、協(xié)同過濾算法進行比較分析,主要從推薦課程的精確率、召回率、覆蓋率方面對算法進行比較分析[13],結(jié)果表1所示。
從實驗結(jié)果可以看出,本文所用的推薦算法準確度達到18%,大幅提高了選課系統(tǒng)的精度;在召回率和覆蓋率上都明顯優(yōu)于熱門課程推薦算法和協(xié)同過濾算法。這說明一些傳統(tǒng)的推薦算法可能適用于其他系統(tǒng),但不適用于選課推薦系統(tǒng),不能做到有效的課程推薦。所以需要實事求是,具體問題具體分析,分析學生群體特點,抓住學生的行為特征,并基于這些特征對課程進行推薦。同時,傳統(tǒng)的選課推薦算法無法解決新生選課的冷啟動問題,容易造成課程的“馬太效應(yīng)”,導致學校資源的浪費,不能真正提供選課的個性化推薦服務(wù)。本文提出的算法充分考慮學生的行為習慣和閱讀興趣,從而實現(xiàn)真正的課程個性化推薦。
5 結(jié)語
高校選課系統(tǒng)應(yīng)當從學生角度出發(fā),結(jié)合學生興趣、需求、性格、特長等方面因素,擇優(yōu)推薦相應(yīng)的課程。而目前高校的選課系統(tǒng)效率低,未能充分利用學生信息,不能提供課程的個性化推薦。本文提出一種新的推薦算法,并利用該算法對課程進行推薦,有助于學生更好地融入學習生活,尋找到適合自己的方向并提高學生的學習效率,幫助學校及時調(diào)整學習資源,將學習資源合理化運行,減少學校資源的浪費。后續(xù)將對用戶畫像刻畫維度進一步深化,對標簽體系進一步完善,考慮學生的心理因素等,使得課程推薦更為準確,更好地為學校和學生服務(wù)。
參考文獻
[1]張建平.數(shù)據(jù)挖掘技術(shù)分析與研究[J].消費電子,2013(4):65.
[2]Agrawal R, Imielinski T, Swami A. Mining associa-tion rules between sets of items in large databases[J].ACM SIGMOD Record,1993,22(2):207-216.
[3]張志友.數(shù)據(jù)挖掘技術(shù)在選課系統(tǒng)中的應(yīng)用[J].實驗室科學,2007(3):94-96.
[4]Fayyad U M, Piatetsky-Shapiro G, Smyth P, et al. Advances in knowledge discovery and data mining[M].Cambridge: AAAI Press/The MIT Press,1996.
[5]Brickey J, Walczak S, Burgess T. Comparing semi-automated clustering methods for persona development[M].California: IEEE Transactions on Software Engi-neering,2012:38.
[6]亓叢,吳俊.用戶畫像概念溯源與應(yīng)用場景研究[J].重慶交通大學學報(社會科學版),2017(5):82-87.
[7]何躍,馬麗霞,騰格爾.基于用戶訪問興趣的Web日志挖掘[J].系統(tǒng)工程理論與實踐,2012(6):1353-1361.
[8]關(guān)梓驁.基于大數(shù)據(jù)技術(shù)的用戶畫像系統(tǒng)的設(shè)計與研究:以“心發(fā)現(xiàn)”平臺為例[D].北京:北京郵電大學,2018.
[9]郭曉玉.基于Weka平臺的關(guān)聯(lián)分析算法研究[D].杭州:浙江工業(yè)大學,2015.
[10]Liu H, Guo R, Jiang H. Research and Improvement?of Apriori Algorithm for Mining Association Rules[J].Computer Applications and Software,2009(1):146-149.
[11]葛曉濱.基于畫像技術(shù)對學生實現(xiàn)精準分析和服務(wù)[J].安徽建筑大學學報,2019(3):99-104.
[12]陳敬洋.基于行為分析的選課推薦系統(tǒng)[D].武漢:華中師范大學,2019.
[13]宋雅婷.基于協(xié)同過濾改進算法的個性化選課推薦的研究[D].昆明:云南師范大學,2013.
*資助項目:全國教育科學“十三五”規(guī)劃課題(課題編號:ECA180463);江蘇省教育科學“十三五”規(guī)劃課題(課題編號:B-b/2018/01/38);江蘇科技大學本科生創(chuàng)新計劃課題。
作者:馮楚生,江蘇科技大學蘇州理工學院,研究方向為信息管理;杜曉明,江蘇科技大學,助理研究員,博士,研究方向為信息管理(215600)。