赫少華 尹四清 景志宇 王文杰
(1.中北大學軟件學院 太原 030051)(2.北方自動控制技術研究所 太原 030006)
在線教育資源的增多,引發(fā)教育資源“信息過載”,針對此問題,研究者把推薦技術引入到教育資源領域。
目前推薦算法有協(xié)同過濾推薦算法、基于內(nèi)容的推薦算法、混合推薦算法等。協(xié)同過濾算法是目前在推薦領域最成熟的算法[1~2]。其中,溫會平和陳俊杰為了解決計算相似度不準確的問題提出一種基于用戶模糊聚類的個性化推薦算法,提高了推薦準確性[3];Li等在深度學習框架下引入矩陣分解提出一種新的推薦方法[4];Lei等在協(xié)同過濾算法中引入標簽權重,提出一種基于標簽權重相似度量方法的協(xié)同過濾推薦算法提高了推薦效果[5]。
教育資源推薦領域,Wang結合學習者興趣模型提出了一種改進的協(xié)同過濾算法[6];Ding等提出融合學習者社交網(wǎng)絡的協(xié)同過濾學習資源推薦[7]。
上述算法中,傳統(tǒng)協(xié)同過濾的算法存在計算特征單一、計算量大的問題,結合教育資源的特點,教育資源推薦領域不僅要考慮用戶對教育資源評分的相似度,同時也要考慮用戶的學習水平和學習能力相似度。本文以教育資源為目標,工作如下:
1)新用戶,使用深度學習方法自動抽取用戶的關鍵信息然后進行分類,找到對應的類別,然后根據(jù)興趣類別進行計算和推薦。
2)老用戶,提取用戶歷史信息確定用戶的興趣類型,使用學習者模型類內(nèi)計算相似度,然后增加對目標用戶的學習水平以及課程難度的計算。
LSTM模型是對循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)改進的一種新型網(wǎng)絡模型[8],LSTM對RNN起到了擴展的作用[9]。由于RNN存在無法處理處理長時間序列問題的缺陷[10]。研究人員提出RNN的改進模型LSTM,LSTM在捕獲長期時間依賴性方面既通用又有效[11~12]。LSTM通過“門”控制結構來實現(xiàn)對信息的篩選,輸入門決定保留多少個有效的輸入信息,輸出門決定當前時刻輸出多少個有效的單元狀態(tài),遺忘門決定是否保留上一個狀態(tài)輸出的信息[13]。網(wǎng)絡結構如圖1。
圖1 LSTM網(wǎng)絡結構圖
協(xié)同過濾(Collaborative Filtering,CF)算法是目前智能推薦系統(tǒng)中使用最成熟的算法[14]。其核心思想是從用戶或項目角度出發(fā),計算用戶或項目之間的相似度,根據(jù)相似度由高到低排列取出前N個作為鄰居,從而進行推薦。
協(xié)同過濾算法在應用中僅考慮用戶對項目的打分特征,未考慮用戶固有的特征和行為,忽略了用戶自身的客觀信息,并且隨著用戶數(shù)量的增多計算復雜度也會相應的增加[15]。教育資源推薦領域,使用協(xié)同過濾算法,不僅要計算用戶評分相似度,同時仍需考慮目標用戶的學習水平等特征?;诖朔治觯疚慕Y合傳統(tǒng)的協(xié)同過濾算法提出了一種基于學習者模型的混合推薦算法用于教育資源推薦。
構建學習者模型有兩部分:學習者行為特征收集、學習者模型構建。
1)學習者行為特征收集:模型包括學習者個人信息特征和學習者的學習特征兩大類特征,如表1所示。
2)學習者模型構建:以表1中的用戶特征作為學習者的基本特征進行建模。以圖2為例,U為學習者,用戶偏好為C同時映射為用戶興趣類型也為C,C={1,2,3,…},學習課程為K={K1,K2,K3…Kn},學習能力為l,學習時間為h、學習經(jīng)驗為e、學習得分為s、學習進度為p、作業(yè)提交次數(shù)為z、課程評分為S core。
表1 學習者特征
圖2 學習者模型圖
用戶基本信息反映用戶興趣較少,如果對用戶的個人簡要說明數(shù)據(jù)挖掘和分析可以更為準確地獲取用戶興趣。解決文獻[16]中,人工對學習者分類的問題,緩解新用戶冷啟動問題。
學習者模型整體結構如圖3,主要包括兩部分:
圖3 學習者模型整體流程圖
1)新用戶。使用神經(jīng)網(wǎng)絡自動抽取用戶興趣的方法緩解冷啟動,通過用戶興趣得到用戶喜歡的課程類別,然后類內(nèi)計算用戶間學習能力相似度得到相似用戶,進行推薦;
2)老用戶。通過用戶歷史信息確定用戶類別,引入學習者學習行為特征和學習能力相似度類內(nèi)計算,得到模型相似度分數(shù),在此基礎上計算類內(nèi)用戶評分相似度,最后,融合計算模型相似度分數(shù)和評分相似度分數(shù)得到最終用戶集合進行推薦。
針對推薦系統(tǒng)冷啟動問題,利用LSTM文本分類方法對新用戶進行分類。
4.2.1 基于LSTM_Maxpooling實現(xiàn)文本分類
本文使用如圖4的LSTM分類模型,該網(wǎng)絡模型單元由5層組成,第一層為embedding層用于完成分詞及向量化操作;第二層為spatial_dropout1d提高特征之間的獨立性;第三層為LSTM層,其中包含100個神經(jīng)元,輸入、輸出激活函數(shù)使用tanh,“門”激活函數(shù)使用sigmoid;第四層使用MaxPooling,以獲取到最顯著特征;第五層為使用SoftMax進行分類。為防止過擬合現(xiàn)象的產(chǎn)生,訓練過程中使用dropout,并提升模型的泛化能力。模型工作流程如下:
圖4 LSTM-Maxpooling分類模型圖
Step1:句子分詞及向量化;
Step2:輸入詞向量,經(jīng)LSTM層處理輸出n個時刻的向量h1,h2,…h(huán)n;
Step3:輸入上層輸出的向量進行最大池化操作得到特征向量h;
Step4:將上層的特征向量h經(jīng)SoftMax層處理完成文本信息分類。
4.2.2 計算用戶學習能力相似度
定義:C為用戶偏好同時映射為資源類別,C∈{1,2,3,…},根據(jù)課程類別映射出用戶的興趣類別;l∈{1,2,3}表示學習者的學習能力水平,其中1,2,3分別對應初級、中級和高級;U表示全體用戶,UCj表示第j個類別為C的用戶,UCt表示目標用戶。對于新用戶類內(nèi)相似度計算,計算學習水平相似可以使用標準高斯分布,其表達式如式(1)所示:
式(1)中UCt,UCj分別表示目標用戶和同類別下的其他用戶,UCtL,UCjL分別表示兩個用戶的學習水平。sim(UCt,UCjlevel)的值越大兩個用戶的相似度越大,反之相似度越小。
4.3.1 提取用戶的興趣標簽
使用統(tǒng)計方法對用戶的歷史學習信息進行統(tǒng)計得到用戶的興趣標簽,其計算方式如式(2)所示:
式(2)中Uthci表示用戶Ut歷史信息中學習第i類課程的次數(shù),Uth表示用戶的學習的總次數(shù)。
4.3.2 類內(nèi)計算
根據(jù)上一步提取到的用戶興趣標簽在用戶興趣類別中進行計算,具體過程如下:
1)使用表1中老用戶的學習特征計算學習特征相似度。
U表示全體用戶,Uci,t表示目標用戶Uci,j表示同一個類別下其他用戶,其中t∈U,j∈U。使用兩個用戶對同一個課程的行為特征做計算,Uci,t→K表示用戶Uci,t對課程K的行為特征,Uci,j→K表示用戶Uci,j對課程K的行為特征,K為兩個用戶共同學過的課程,用戶對課程的行為使用行向量表示,如式(3)所示:
式(3)中kh,ke,ks,kp,kz分別表示學習者學習課程的時間、獲得的經(jīng)驗、得到的分數(shù)、學習的進度以及作業(yè)提交次數(shù)。為了得到兩個用戶共同課程的相似度使用式(4)進行計算:
式(4)中l(wèi)表示兩個用戶之間共同學習的課程l∈{1,2,3,…,n},n表示兩個用戶共同學習過的課程的總數(shù)。結合式(4)和式(1)計算學習者模型相似度,其表達式如式(5)所示:
2)用戶資源評分相似度計算
結合式(2)計算出目標用戶歷史信息中目標用戶感興趣的類別,找到與目標用戶興趣相同其他用戶,使用用戶ID為行索引,課程ID為列索引,構建“用戶-評分”表,評分表中每一行表示一個用戶對所有課程的評分信息,每一列表示一個課程所得到的用戶的評分,表中數(shù)據(jù)表示具體的評分,其“用戶-評分”表的結果如表2所示。
表2 用戶-評分表
最后,將學習者模型相似度和評分相似度進行相加,具體如式(7)所示:
根據(jù)式(7)的計算結果,由高到低進行排序,取其前N個作為鄰居集合。
3)產(chǎn)生推薦
通過上述評分計算得出直接鄰居,預測最終鄰居用戶中目標用戶沒有產(chǎn)生評分的課程的分數(shù),選取預測分數(shù)最高的前N個課程進行推薦,計算表達式如式(8)所示:
本文實驗環(huán)境設置如下:
硬件環(huán)境:Intel(R)Core(TM)i5-3210M CPU@2.50GHz、8G RAM
軟件環(huán)境:Python 3.7、Tensorflow 2.0
實驗采用采集自某教育網(wǎng)站的教育資源數(shù)據(jù)集,包含1000個用戶的個人注冊信息和10類別的課程資源,實驗流程如下:
Step1:數(shù)據(jù)進行預處理,去除停用詞;
Step2:分詞并完成分詞數(shù)據(jù)向量化;
Step3:將類別標簽向量化;
Step4:劃分訓練和測試數(shù)據(jù)集;
Step5:構建LSTM_Maxpooling進行實驗。
實驗使用本文模型分別與CNN、GRU、LSTM三種網(wǎng)絡模型進行對比實驗,結果如表3,在測試集和訓練集劃分為1∶4的時候的訓練和測試的Accuracy如圖6,Loss如圖7所示。
表3 實驗結果
圖6 Ours_Loss圖
由表3和圖5可以看出,隨著訓練數(shù)據(jù)的增加,本文的模型效果越好。間接證明對于分析新用戶注冊信息定位新用戶的興趣,本文模型較其他3種算法(CNN、GRU、LSTM)準確率更高,應用到教育資源推薦領域,可以緩解冷啟動問題。
圖5 Ours_Accuracy圖
實驗使用處理后的某教育網(wǎng)站數(shù)據(jù)集,其中包括50000個用戶和861門課程,該數(shù)據(jù)集中包括用戶對課程的顯性行為信息和隱性行為信息,將實驗數(shù)據(jù)隨機化劃分為訓練集和測試集進行實驗,實驗流程如下:
Step1:分析用戶的歷史信息得到用戶的歷史興趣標簽;
Step2:根據(jù)興趣標簽,找到與之對應的相同用戶的集合;
Step3:通過式(1)和式(4)分別得到用戶學習能力水平相似度分數(shù)和用戶的學習特征相似度分數(shù),并結合式(5)得到最終模型相似度分數(shù);
Step4:由step1得到用戶集合,構成“用戶-課程”評分表,使用式(6)計算評分相似度;
Step5:根據(jù)式(7)得到用戶間最終的相似度分數(shù),進而得到相似用戶集合;
Step6:使用式(8)對用戶集合中目標用戶未評分項目進行預測,輸出推薦結果。
為了分析模型的有效性,本文從準確率、新穎性和F1綜合指標3方面進行定量分析。其具體形式如式(9)~式(11)所示:
式(9)中R(u)表示通過學習者模型算法推薦給用戶u的課程,T(u)表示測試集上的用戶u喜歡的課程。
式(10)中Kc表示課程的流行度,為了防止冷門課程的流行度為0導致分母為0所以在分母為位置加1,pop為新穎度,pop越大說明推薦的新穎度越高。
式(11)中,p表示準確率,r表示召回率。
根據(jù)圖7的結果可以看到,在數(shù)據(jù)比較少的情況下本文模型由于過濾掉的條件太多,很難找到與目標用戶有太多交集的用戶所以導致推薦的準確率較低,但是隨著數(shù)據(jù)的不斷增多,本文的在一定程度上優(yōu)于傳統(tǒng)的協(xié)同過濾算法。
圖7 學習者模型推薦算法準確率圖
根據(jù)圖8可以看出,隨著數(shù)據(jù)量的增加,學習者模型推薦方法的新穎度逐漸高于傳統(tǒng)協(xié)同過濾算法的推薦新穎度,由此證明本文的模型在大數(shù)據(jù)場景下相比于傳統(tǒng)協(xié)同過濾在推薦新穎性方面更具有優(yōu)勢。
圖8 學習者模型推薦算法準確率新穎度圖
根據(jù)圖9可以看出F1指標在整體上呈上升趨勢,并且隨著數(shù)據(jù)量的增加,學習者模型推薦方法的F1score的變化曲線高于傳統(tǒng)的協(xié)同過濾算法點變化曲線,由此證明,本文模型更適合數(shù)據(jù)較大的場景。
圖9 學習者模型推薦算法F1綜合指標圖
基于以上分析,本文提出的基于學習者模型的推薦方法取得了較為顯著的效果,緩解了新用戶冷啟動問題,同時對于老用戶該模型使用學習者存在的客觀特征進行計算,解決了傳統(tǒng)協(xié)同過濾單一評分計算的問題。
本文提出的模型共分為兩大部分,第一部分通過神經(jīng)網(wǎng)絡對用戶進行預先分類,然后類內(nèi)進行計算和推薦,緩解冷啟動問題;第二部分對老用戶類內(nèi)多特征計算,解決了傳統(tǒng)協(xié)同過濾單一評分特征計算的不足。經(jīng)實驗論證分析,本文模型可以較好地適用于數(shù)據(jù)量較大的場景。因此,學習者模型在大數(shù)據(jù)環(huán)境下教育資源推薦領域有一定的現(xiàn)實意義。