齊 婷,佟國香,2
(1.上海理工大學 光電信息與計算機工程學院,上?!?00093;2.上海市現(xiàn)代光學系統(tǒng)重點實驗室,上海 200093)
基于改進的混合模式個性化選課推薦技術(shù)研究
齊婷1,佟國香1,2
(1.上海理工大學 光電信息與計算機工程學院,上海200093;2.上海市現(xiàn)代光學系統(tǒng)重點實驗室,上海200093)
摘要針對高等學校學生選課系統(tǒng)中存在的缺乏個性化課程推薦、選課效率較低的問題,通過對個性化推薦技術(shù)的分析研究,提出了基于內(nèi)容、項目及用戶屬性的改進混合模式算法,并將該算法應(yīng)用到選課系統(tǒng)中,用MACE數(shù)據(jù)集對算法進行驗證。結(jié)果表明,該算法解決了個性化推薦技術(shù)中的冷啟動問題,相關(guān)指標有明顯提高,實現(xiàn)了課程與新課程的個性化推薦,并減少了選課的盲目性。
關(guān)鍵詞個性化推薦;混合模式;相似度;用戶聚類
Research on Improved Personalized Courses Recommendation Technology Based on Mixed Mode
QI Ting1,TONG Guoxiang1,2
(1.School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,
Shanghai 200093,China;2.Shanghai Key Laboratory of Modern Optical Systems,Shanghai 200093,China)
AbstractProblems of lacking in individualized curriculum recommendations and inefficiency exist in current course selection systems of institutions of higher education.In allusion to these limitations,this paper presents a improved mixed model algorithm based on the content,project and user attribute-value through analysis and study of personalized recommendation technology.The proposed algorithm has been successfully applied to the elective system.Experimental results indicate that the proposed approach can solve cold-start technology in personalized recommendation algorithm,improve the related indicators significantly,achieve a personalized recommendation and new courses recommendation and reduce the blindness by the MACE data sets.
Keywordspersonalized recommendation;mixed mode;similarity;user clustering
隨著學生在教學過程中主體地位的突出,學生選課已成為學生個體化發(fā)展的重要途徑,而多數(shù)高校在選課制度實施過程中普遍存在課程結(jié)構(gòu)設(shè)置不合理、選課方式不完善、選課指導體系不健全等問題[1]。學生不能結(jié)合自身的專業(yè)和興趣進行選課,選課缺乏目的性和針對性;選課制度不利于學生的個性發(fā)展,也不能為學生以后的工作帶來良好的指導,從而出現(xiàn)了專業(yè)與職位不對口的現(xiàn)象[2]。有鑒于此,本文將個性化推薦技術(shù)應(yīng)用于選課系統(tǒng)中,根據(jù)學生自身的狀況、學習需求、興趣偏好以及職業(yè)規(guī)劃等,為學生提供個性化課程推薦平臺,從而避免學生選課的盲目性和跟風現(xiàn)象,提高了課程資源的利用率和選課質(zhì)量。
1推薦技術(shù)
個性化推薦系統(tǒng)(Personalized Recommendation Systems)是根據(jù)用戶的興趣愛好和特點,向用戶推薦感興趣的信息[3]。其原理是根據(jù)用戶模型尋找與用戶模型匹配的有用信息,或?qū)ふ揖哂邢嘟d趣的用戶群然后相互推薦瀏覽過的信息。簡單而言,個性化推薦實質(zhì)是一種“信息找人”的服務(wù)模式,可減少用戶尋找感興趣信息的時間,提高用戶瀏覽的效率[4]。
當下普遍流行的課程推薦算法主要包括基于用戶和項目的協(xié)同過濾推薦、注重本體基本屬性的內(nèi)容推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于貝葉斯網(wǎng)絡(luò)和機器學習的推薦[5-7]。以上推薦算法均存在一定的問題,本文給出了一種綜合考慮內(nèi)容和協(xié)同過濾的改進混合模式個性化推薦方法。
2相關(guān)算法
混合模型是一種統(tǒng)籌兼顧的做法,混合的思路主要是推薦結(jié)果混合和推薦算法混合[8],算法混合的方法主要有加權(quán)型、合并型、特征組合型[9]。
本文的混合是以協(xié)同過濾為主要框架,混合內(nèi)容過濾。首先是建模型,根據(jù)已有的個人信息、歷史選課記錄,評分記錄、檢索的關(guān)鍵字等對用戶進行興趣建模,并計算相似度,完成聚類;根據(jù)課程屬性,評分記錄等完成課程建模。然后完善用戶—課程評分矩陣,對于無評分值的項,可根據(jù)內(nèi)容過濾的推薦預(yù)測評分,填滿矩陣的空缺。最后根據(jù)協(xié)同過濾的最近鄰居推薦課程集。因此混合推薦技術(shù),使用基于內(nèi)容的過濾技術(shù),對用戶相似度和項目相似度分別進行計算,一方面可對原始的用戶-課程矩陣進行預(yù)處理,增加矩陣的評分豐富度,解決協(xié)同過濾的稀疏性問題;另一方面,可通過結(jié)合基于項目的協(xié)同過濾推薦來解決新課程冷啟動問題,結(jié)合基于用戶的協(xié)同過濾技術(shù)解決新用戶的冷啟動問題。
興趣模型主要是反映用戶在一段期間內(nèi)對某些知識信息的興趣需求,主要包括特征數(shù)據(jù)的提取,興趣愛好的表現(xiàn)方法,模型的更新[10]。
(1)特征數(shù)據(jù)的提取。本文中構(gòu)建興趣模型所用的用戶特征數(shù)據(jù)主要是對學生屬性的描述,包括學生的基本信息、數(shù)據(jù)庫中記錄的對課程的歷史評分記錄、選課系統(tǒng)中搜索課程使用的關(guān)鍵字3個部分;
(2)興趣愛好的表示方法。當前的用戶興趣模型表示方法包括基于向量空間模型表示方法、基于神經(jīng)網(wǎng)絡(luò)的表示方法、基于粗細興趣粒度的表示法、基于本體論的表示法、基于用戶—項目評分矩陣以及基于關(guān)鍵字的表示方法[10];
1)基于向量空間的用戶興趣模型。向量空間模型是根據(jù)學生用戶的背景信息將用戶愛好表示成向量,每個向量包括屬性和對應(yīng)的權(quán)重,權(quán)重用TF-IDF計算。學生選課系統(tǒng)中注冊用戶屬性集{性別,年齡,年級,專業(yè),特長,愛好},對應(yīng)的權(quán)重用Wi表示,其中1≤k (1) 其中,wk是第k個關(guān)鍵詞分項對應(yīng)的權(quán)值,q1k和q2k分別是x,y用戶的第k個關(guān)鍵詞的取值; 2)基于用戶—課程評分矩陣的用戶興趣模型。用戶評分矩陣記錄了用戶對課程的喜好程度,本文中喜好程度用數(shù)字1~5表示,數(shù)值越大表示學生對課程的喜歡程度越高。根據(jù)該矩陣計算用戶的相似度 (2) 3)基于關(guān)鍵字的用戶興趣模型。學生瀏覽選課系統(tǒng)課程時,會以關(guān)鍵字進行搜索,搜索關(guān)鍵字的次數(shù)表示用戶對課程的關(guān)注程度,將次數(shù)最多的4個關(guān)鍵字組成集合,表示用戶的興趣偏好。此外,學生查找的關(guān)鍵字沒有固定標準,統(tǒng)一用課程概念來表示。若學生用戶x和y的關(guān)鍵字集分別為x={cx1,cx2,cx3,cx4},y={cy1,cy2,cy3,cy4},兩者的相似度如式(3) (3) 其中,sim(cxi,cyi)為關(guān)鍵字之間的概念相似度。 在傳統(tǒng)的選課系統(tǒng)中,學生對教師的評價較多,但是單單對課程的評價較少,這使得整個推薦系統(tǒng)形成的用戶-項目矩陣稀疏,計算出的用戶間相似度不夠準確,得到的鄰居用戶不可靠,因而推薦結(jié)果不準確;在本系統(tǒng)中先根據(jù)課程的特征值計算課程間的相似度,預(yù)測用戶對未評分課程的評分。矩陣填充前期包括一系列的準備工作:提取課程特征、計算相似度和預(yù)測缺失評分。 (1)課程特征的提取。課程特征就是對課程屬性的描述,根據(jù)課程特征可區(qū)分不同課程實例; (2)課程相似度計算。根據(jù)上述的課程概念層次模型,每門課程均可視為一個概念的實例,課程相似度便可用概念相似度表示,包括課程所屬概念的相似度和課程屬性間的相似度,因此課程相似度為課程數(shù)概念相似度與屬性間相似度加和; (3)預(yù)測缺失評分。假設(shè)目標用戶為U,目標課程為P,根據(jù)上述的兩個步驟的計算,可得到與目標課程P相似度值最高的前n個項目,然后通過目標用戶U對這些相似項目的評分來預(yù)測U對目標項目P的評分。 3個性化推薦的選課系統(tǒng) 本系統(tǒng)主要采用SQL Server 2008進行數(shù)據(jù)的存儲,根據(jù)選課的數(shù)據(jù)結(jié)構(gòu)模型,在系統(tǒng)的數(shù)據(jù)庫中設(shè)計3個基本表:學生表(Student)、教師表(Teacher)和課程表(Course);主要功能模塊包括:最近鄰?fù)扑]模塊,新課程推薦模塊,新課程推薦模塊。 4實驗結(jié)果及分析 本文使用的是MACE數(shù)據(jù)集(Metadata for Architectural Contents in Europe)[11-12],該數(shù)據(jù)集來源于2009年9月到2010年9月的MACE項目,包括1 148個學生的12 000條記錄;將這些記錄等分成 5 組,隨機選4組為實驗數(shù)據(jù)集以產(chǎn)生推薦,剩下1組作為對照數(shù)據(jù)集以檢驗推薦質(zhì)量。 對于推薦系統(tǒng)的評價,精確度(Precision)率和召回率(Recall)無疑是最受歡迎和最流行的指標,其已被用于各種研究;精準度是準確性的量度,召回率是完整性的量度,MAE是預(yù)測精準性的量度。實驗主要從推薦系統(tǒng)的推薦質(zhì)量指標來進行比較,主要包括算法的 MAE 值、準確率、召回率、覆蓋率;還有其他指標,如推薦算法的效率、魯棒性、可解釋性、信任度、健壯性等[13]。實驗先將本文的改進算法與當前流行的課程推薦算法進行比較。結(jié)果如表1所示。 表1 算法比較 實驗加入隨機項目和熱門項目,主要是起到對比作用,突出表明高校選課存在盲目性和跟風行為,需要一個有效算法使學生的選課變的更加合理準確,更有指導性和針對性。其余4種算法的對比表明綜合考慮用戶屬性和項目屬性的混合推薦改進算法的準確率/召回率要比其他算法相對較高。 本文還計算MAE值分析預(yù)測評分和真實評分的差異比較,主要是與基于用戶的協(xié)同過濾算法進行比較。針對這兩種算法,以相似用戶數(shù)分別為 2,4,8和12 時,各進行10次試驗,以平均值作為相應(yīng)算法的推薦誤差,試驗結(jié)果如下。 表2 基于用戶推薦的協(xié)同過濾推薦MAE值 表3 改進的混合推薦MAE值 圖1 兩種算法的MAE值直觀圖 由柱狀圖可看出,改進的混合推薦算法的MAE值整體趨勢平穩(wěn),波動較小,表明其推薦的質(zhì)量受相似用戶數(shù)量的影響較小,混合推薦的結(jié)果準確。此外,用戶數(shù)是4和8時,協(xié)同過濾的MAE值突增,明顯比改進的混合模式效果差。 實驗進一步比較兩種算法的用戶相似度。目標用戶來源于實驗集中相似用戶數(shù)量合適用戶,分別計算兩種算法的目標用戶與兩類實驗中的相同鄰居用戶相似度,結(jié)果如圖2所示。 圖2 兩種算法的平均相似度對比 由圖4可知,改進的混合算法的用戶相似度總體水平上高于協(xié)同過濾,主要是該算法對沒有被學生選擇的課程和沒有評分的課程做了預(yù)測處理,這使得計算結(jié)果更加準確和穩(wěn)定,而協(xié)同過濾算法中新課程,新用戶的冷啟動問題使得對相似度的計算易受到鄰居用戶的干擾,穩(wěn)定性較差。綜上,改進的混合模式推薦算法比傳統(tǒng)的推薦算法更加精確,產(chǎn)生的推薦質(zhì)量更高。 5結(jié)束語 針對多數(shù)高校選課系統(tǒng)課程結(jié)構(gòu)設(shè)置不合理、選課方式不完善、不考慮學生興趣等缺陷,本文綜合考慮學生屬性,課程屬性以及多種算法的優(yōu)缺點,設(shè)計了一個改進的混合模式推薦的個性化課程推薦系統(tǒng),該算法解決了個性化推薦技術(shù)中的冷啟動問題,相關(guān)指標有明顯提高,實現(xiàn)了課程的個性化推薦和新課程的推薦;同時,減少學生選課的盲目性,提高選課效率和學生選課的滿意度。本文尚未對選課系統(tǒng)中的數(shù)據(jù)安全性、用戶長時短時興趣的區(qū)分以及模型的更新作進一步的研究,這些內(nèi)容將在下一步的研究中進行探討。 參考文獻 [1]柏美屹,羅穎.中部地區(qū)高校選課制實施現(xiàn)狀研究——以三所“211工程”大學為例[J].科技致富向?qū)?2013(11):55,104. [2]吳迪,周利娟,林鴻飛.基于隨機游走的就業(yè)推薦系統(tǒng)研究與實現(xiàn)[J].廣西師范大學學報:自然科學版,2011(1):179-185. [3]Resniek and Varian.Recommender systems[J].Communications of the ACM,1997,40(3):56-58. [4]姚志霞.基于混合推薦的個性化信息服務(wù)系統(tǒng)的研究與應(yīng)用[D].北京:北京交通大學,2012. [5]奉和國,梁曉婷.協(xié)同過濾研究綜述[J].圖書情報工作,2011,55(16):126-130. [6]王艷,劉雙紅,李玲玲.基于加權(quán)關(guān)聯(lián)規(guī)則的選課推薦系統(tǒng)的構(gòu)建[J].鄭州輕工業(yè)學院學報:自然科學版,2009(5):44-47. [7]朱彥松.基于貝葉斯網(wǎng)絡(luò)推薦模型的教務(wù)選課系統(tǒng)應(yīng)用研究[D].鄭州:鄭州大學,2011. [8]王國霞,劉賀平.個性化推薦系統(tǒng)綜述[J].計算機工程與應(yīng)用,2012(7):66-76. [9]Robin Burke.Hybrid recommender systems:survey and experiments[J].User Modeling and User-Adapted Interaction November,2002,12(4):319-330. [10]楊晶.用戶興趣模型及實時個性化推薦算法研究[D].南京:南京郵電大學,2013. [11]Mojtaba Salehi,Mohammad Pourzaferani,Seyed Amir Razavi.Hybrid attribute-based recommender system for learning material using genetic algorithm and a multidimensional information model[J].Egyptian Informatics Journal,2013(14):67-78. [12]Sarwar B.Application of dimensionality reduction in recommender system-a case study[M].MA USA:ACM Webkdd Workshop,2000. [13]朱郁筱,呂琳媛.推薦系統(tǒng)評價指標綜述[J].電子科技大學學報,2012(2):163-175. 作者簡介:齊婷(1990—),女,碩士研究生。研究方向:個性化推薦技術(shù)。佟國香(1968—),女,副教授,碩士生導師。研究方向:計算機控制應(yīng)用等。 基金項目:上海市教育委員會科研創(chuàng)新重點基金資助項目(10ZZ94;12YZ094) 收稿日期:2015- 06- 25 中圖分類號TP18 文獻標識碼A 文章編號1007-7820(2016)01-152-04 doi:10.16180/j.cnki.issn1007-7820.2016.01.0412.3 填寫用戶—課程評價矩陣
4.1 數(shù)據(jù)介紹
4.2 實驗結(jié)果及分析