王磊 陸瑞雪
摘要:針對電商平臺考研資料推薦問題,提出采用項目評分預測的協(xié)同過濾推薦方法,即采用余弦相似度計算項目的相似度,在此基礎上通過TOP-N方法確定相似的圖書資料集合,最終預測未知圖書的評分,產(chǎn)生推薦?;贛ovielens數(shù)據(jù)集的數(shù)據(jù)實驗驗證了本文方法的有效性。
關鍵詞:項目評分;協(xié)同過濾;考研資料;推薦
1 引言
隨著考研熱的到來,各類電商平臺考研復習資料的種類日益龐大,相同種類的復習資料也有多種不同作者編寫的版本,考生們在面臨如此繁多的考研復習資料時,通常很難選擇[1]。
本文在個性化推薦的研究背景下,運用目前最為流行的協(xié)同過濾推薦技術開展考研資料推薦研究[2]。在一個考研資料電商平臺,系統(tǒng)中的用戶數(shù)量會不斷增長,使得評分矩陣更加稀疏,但是考研資料數(shù)量相對穩(wěn)定,因此本文基于項目評分預測,采用基于項目(物品)的協(xié)同過濾算法,以應對考研資料推薦問題,為考生在考研的各個階段提供較為可靠的考研資料的選擇的參考。
2 推薦方法
基于項目的協(xié)同過濾算法是于2001年被提出,其基本思想是根據(jù)用戶的歷史興趣偏好記錄向用戶推薦與用戶所偏好的物品相似的物品。該算法的一個假設前提是:用戶一般情況下都會更喜歡與他之前所購買物品相似的物品[3]。
在一個考研資料推薦系統(tǒng)中,用戶數(shù)量不斷增長。如果采用基于相似用戶的推薦方法,將導致系統(tǒng)在每次推薦時需要重新在線的計算用戶之間的相似度,這樣就使得推薦方法的時間復雜度和計算復雜度變高。而物品的變化相比較而言是比較穩(wěn)定的,所以在實際的應用中,基于項目的協(xié)同過濾中項目間相似度的計算可以離線進行,節(jié)省了產(chǎn)生推薦的時間,提高了推薦效率[4-5]。
用戶對于考研資料的類型有非常明確的要求,由于基于項目的協(xié)同過濾會為用戶推薦同類型的物品,因此,基于項目的協(xié)同過濾算法在考研資料推薦系統(tǒng)中會有較好的推薦效果?;陧椖康膮f(xié)同過濾在本系統(tǒng)中的原理是:根據(jù)用戶的評分記錄建立評分矩陣,計算目標圖書(考研資料)與其他圖書之間的相似度,找到目標圖書的最近鄰居集合,最后根據(jù)目標用戶對最近鄰居集合中的圖書的歷史評分數(shù)據(jù),預測目標用戶對目標圖書的評分。最后,將預測值進行降序排列,并將對應的圖書推薦給目標用戶。
設i和j分別表示圖書i和圖書j在對象空間上的評分向量,在考研資料推薦系統(tǒng)中,本文采用余弦相似度方法進行項目間的相似度計算:
(1)
公式(1)中,分子為兩種圖書的評分向量的內(nèi)積,分母為向量的模的乘積。
在此基礎上,采用Top-N法,將得到的圖書的相似度數(shù)據(jù)進行從大到小的降序排列后選擇前N個圖書作為目標圖書的鄰居參與后續(xù)的推薦工作。
獲取目標圖書的鄰居后,將目標圖書i的鄰居集合設為NBSi,目標用戶為用戶a。則用戶a根據(jù)目標圖書的鄰居的評分記錄計算預測評分,最后將得出的預測結果按照從高到低的降序排列把對應的圖書(考研資料)推薦給用戶a。預測評分的計算如下:
(2)
在公式(2)中,Pa,i為用戶a對于目標圖書i的預測評分,n為圖書i的鄰居,、分別為目標圖書i和鄰居n的評分的算數(shù)平均值,為圖書i與鄰居n的相似度,Ra,n為目標用戶a對于目標圖書n的評分。
3 實驗分析
本文對傳統(tǒng)的基于用戶的協(xié)同過濾與基于項目評分預測的協(xié)同過濾的推薦質(zhì)量進行實驗對比。其中傳統(tǒng)的基于用戶的協(xié)同過濾中用戶間相似度計算方法選擇了余弦相似度和Pearson相關系數(shù)作為對照組,基于項目評分預測的協(xié)同過濾方法作為實驗組,本實驗的目的是調(diào)查不同推薦方法的性能。本實驗開發(fā)環(huán)境的硬件配置的CPU為Intel(R)Core(TM)i5 2.40GHZ,內(nèi)存為4.00GB,軟件配置中操作系統(tǒng)為Windows10,編程語言為Java。
本實驗采用公開可用的Movielens數(shù)據(jù)集。本文從MovieLens數(shù)據(jù)集中隨機選擇部分數(shù)據(jù),開展實驗,其中包括100個用戶和100部電影。在評分矩陣中非零元素為2691個,零元素為7309個,數(shù)據(jù)集的稀疏度為26.91%。為了方便進行實驗,將矩陣中用戶未評分電影的分值預設為零。將整個數(shù)據(jù)集的90%用作訓練集,10%用作測試集。
本文采用平均絕對誤差MAE(Mean Absolute Error)和均方根誤差RMSE(Root Mean Square Error)來考慮推薦精度。平均絕對偏差公式如下:
(3)
其中,pi為預測出的用戶評分,qi為用戶的實際評分,N為實際值和預測值的數(shù)量。
均方根誤差的計算方法為:
(4)
其中,pi為預測出的用戶評分,qi為用戶的實際評分,N為實際值和預測值的數(shù)量。
本文與傳統(tǒng)的基于用戶的協(xié)同過濾中的余弦相似度和Pearson相關系數(shù)方法進行比較,其中,本文的方法鄰居數(shù)量N值設定為40。計算三種算法的平均絕對偏差MAE,RMSE,鄰居個數(shù)從4增加至20,間隔為4,并對結果進行比較。
由圖1可見,在各個鄰居數(shù)量的實驗條件下,與傳統(tǒng)的協(xié)同過濾推薦算法相比,基于項目評分預測的協(xié)同過濾算法均具有最小的MAE和RMSE值,即推薦結果更準確。
4 總結
本文基于協(xié)同過濾方法,采用余弦相似度計算物品的相似度,在此技術上,設計了基于項目項目評分預測的推薦方法。實驗結果驗證了本文方法的有效性。本文所提出的方法能夠拓展個性化推薦技術的運用范圍,對圖書銷售類電商網(wǎng)站具有參考價值。
參考文獻:
[1]章偉.基于協(xié)同過渡算法的學習資源個性化推薦系統(tǒng)設計與實現(xiàn)[D].天津師范大學,2017.
[2]Tewari A S,Barman A G.Collaborative book recommendation system using trust based social network and association rule mining[C]//International Conference on Contemporary Computing and Informatics.IEEE,2017:85-88.
[3]鄧愛林,朱揚勇,施伯樂.基于項目評分預測的協(xié)同過濾推薦算法[J].軟件學報,2003,14 (9):1621-1628.
[4]劉玲.基于Topsis思想的內(nèi)容推薦算法研究[J].數(shù)學的實踐與認識,2012,42 (16):113-119.
[5]李娜.基于混合協(xié)同過濾的用戶在線學習資源系統(tǒng)個性化推薦方法研究[J].計算機光盤軟件與應用,2015,18 (02):1-2.