于金明,孟 軍,吳秋峰
(1.東北農(nóng)業(yè)大學(xué) 工程學(xué)院,哈爾濱 150030; 2.東北農(nóng)業(yè)大學(xué) 理學(xué)院,哈爾濱 150030)
基于改進(jìn)相似性度量的項(xiàng)目協(xié)同過濾推薦算法
于金明1,孟 軍2*,吳秋峰2
(1.東北農(nóng)業(yè)大學(xué) 工程學(xué)院,哈爾濱 150030; 2.東北農(nóng)業(yè)大學(xué) 理學(xué)院,哈爾濱 150030)
(*通信作者電子郵箱15204677362@163.com)
針對傳統(tǒng)協(xié)同過濾推薦算法遇到冷啟動(dòng)情況效果不佳的問題,提出一種基于項(xiàng)目相似性度量方法(IPSS)的項(xiàng)目協(xié)同過濾推薦算法(ICF_IPSS),其核心是一種新的項(xiàng)目相似性度量方法,該方法由評分相似性和結(jié)構(gòu)相似性兩部分構(gòu)成:評分相似性部分充分考慮兩個(gè)項(xiàng)目評分之間的評分差、項(xiàng)目評分與評分中值之差,以及項(xiàng)目評分與其他評分平均值之差;結(jié)構(gòu)相似性部分定義了共同評分項(xiàng)目占所有項(xiàng)目比重, 并懲罰活躍用戶的逆項(xiàng)目頻率(IIF)系數(shù)。在Movie Lens和Jester數(shù)據(jù)集下測試算法準(zhǔn)確率。在Movie Lens數(shù)據(jù)集下,當(dāng)近鄰數(shù)量為10時(shí), ICF_IPSS的平均絕對偏差(MAE)和均方根誤差(RMSE)分別比基于Jaccard系數(shù)的均方差異系數(shù)的項(xiàng)目協(xié)同過濾算法(ICF_JMSD)低3.06%和1.20%;當(dāng)推薦項(xiàng)目數(shù)量為10時(shí),ICF_IPSS的準(zhǔn)確率和召回率分別比ICF_JMSD提升67.79%和67.86%。實(shí)驗(yàn)結(jié)果表明,基于IPSS的項(xiàng)目協(xié)同過濾算法在預(yù)測準(zhǔn)確率和分類準(zhǔn)確率方面均優(yōu)于基于傳統(tǒng)相似性度量的項(xiàng)目協(xié)同過濾算法,如ICF_JMSD等。
協(xié)同過濾;推薦算法;相似性度量;評分相似性;結(jié)構(gòu)相似性;冷啟動(dòng)
個(gè)性化推薦系統(tǒng)是一種基于大規(guī)模數(shù)據(jù)挖掘的智能平臺,可以為用戶提供完整的個(gè)性化決策支持和信息服務(wù)。其主流算法包括:協(xié)同過濾推薦、基于內(nèi)容推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識推薦、組合推薦等[1]。
協(xié)同過濾推薦算法是個(gè)性化推薦系統(tǒng)中應(yīng)用最早和最為成功的算法之一。協(xié)同過濾推薦算法主要有兩類:基于用戶的協(xié)同過濾推薦算法和基于項(xiàng)目的協(xié)同過濾推薦算法。協(xié)同過濾推薦算法主要通過獲取用戶的偏好信息,計(jì)算用戶間(或項(xiàng)目間)的相似性和根據(jù)相似度預(yù)測目標(biāo)用戶對目標(biāo)項(xiàng)目的評分來實(shí)現(xiàn)[2]。
協(xié)同過濾推薦算法的關(guān)鍵步驟是計(jì)算用戶間(或項(xiàng)目間)的相似性。國內(nèi)外學(xué)者圍繞協(xié)同過濾算法中相似性度量方面開展了一系列的研究。如Ahn[3]提出修正余弦相似性度量方法(Ajusted Cosine Correlation, ACC),部分改進(jìn)了余弦相似性的缺陷; Shardanand等[4]考慮到評分的正負(fù)性,提出了約束皮爾遜相關(guān)系數(shù)(Constrained Pearson Correlation Coefficient, CPCC); Herlocker等[5]提出了權(quán)重皮爾遜相關(guān)系數(shù)(Weighted Pearson Correlation Coefficient, WPCC),將共同評分項(xiàng)目數(shù)量考慮在內(nèi); Jamali等[6]提出了將傳統(tǒng)的皮爾遜相關(guān)系數(shù)與Sigmoid函數(shù)相結(jié)合形成一種基于Sigmoid函數(shù)的相似性度量方法(Sigmoid-based Pearson Correlation Coefficient, SPCC)能減弱共同評分項(xiàng)目少的用戶(或項(xiàng)目)之間的相似性; Bobadilla等[7]提出了將均值平方差異函數(shù)(Mean Square Difference, MSD)與Jaccard系數(shù)結(jié)合形成基于Jaccard系數(shù)的均方差異系數(shù)(Jaccard-based Mean Square Difference, JMSD)。上述方法遇到冷啟動(dòng)問題(即新用戶和新項(xiàng)目的評分信息少的情況)時(shí),其準(zhǔn)確性受到影響。
本文僅圍繞協(xié)同過濾推薦算法中項(xiàng)目相似性度量進(jìn)行分析與改進(jìn),提出一種新的項(xiàng)目相似性度量方法,該度量方法能夠解決冷啟動(dòng)問題。該項(xiàng)目相似性度量方法由評分相似性和結(jié)構(gòu)相似性兩部分構(gòu)成,其中,評分相似性部分充分考慮兩個(gè)項(xiàng)目評分之間的評分差(用Proximity記,詳見1.3節(jié) )、項(xiàng)目評分與評分中值之差(用Significance記,詳見1.3節(jié)),以及項(xiàng)目評分與其他評分平均值之差(用Singularity記,詳見1.3節(jié));結(jié)構(gòu)相似性部分定義共同評分項(xiàng)目占所有項(xiàng)目比重并懲罰活躍用戶的IIF(Inverse Item Frequency)系數(shù),形成一種新的項(xiàng)目相似性度量方法(IIF-based Proximity-Significance-Singularity, IPSS)。將IPSS度量方法融入到基于項(xiàng)目的協(xié)同過濾推薦算法,提出基于IPSS-ITEM的協(xié)同過濾推薦算法(IPSS-based Item Collaborative Filtering, ICF_IPSS)。為了驗(yàn)證該協(xié)同過濾推薦算法的有效性,在Movie Lens和Jester等2個(gè)數(shù)據(jù)集測試,該算法在預(yù)測準(zhǔn)確率和分類準(zhǔn)確率方面面對冷啟動(dòng)情況時(shí)均表現(xiàn)出較好效果。
1.1 基于項(xiàng)目的協(xié)同過濾推薦算法
基于項(xiàng)目的協(xié)同過濾推薦算法是基于此類假設(shè):若大多數(shù)喜歡項(xiàng)目i的用戶也喜歡項(xiàng)目j,則i和j就有較高相似度。算法步驟[8]如下:
步驟1 目標(biāo)項(xiàng)目最近鄰搜尋。在計(jì)算項(xiàng)目之間的相似性基礎(chǔ)上,根據(jù)相似性由高到低找出目標(biāo)項(xiàng)目i的前k個(gè)最近項(xiàng)目構(gòu)成最近鄰集合。
步驟2 產(chǎn)生推薦。根據(jù)目標(biāo)用戶對目標(biāo)項(xiàng)目的最近鄰項(xiàng)目的評分及其之間相似性加權(quán)計(jì)算預(yù)測評分(式(1)),以此構(gòu)建Top-N推薦列表。
假設(shè)項(xiàng)目i有k個(gè)最近項(xiàng)目,S是最近鄰集合,融合項(xiàng)目間相似性sim(i,j)計(jì)算目標(biāo)用戶u對目標(biāo)項(xiàng)目i的預(yù)測評分:
(1)
其中:sim(i,j)代表項(xiàng)目i和最近項(xiàng)目j的相似度,Ruj代表用戶u對項(xiàng)目j的評分。
1.2 傳統(tǒng)項(xiàng)目相似性度量方法分析
用于度量項(xiàng)目間相似性的方法有很多,這些方法多是從余弦相關(guān)性(Cosine Correlation, CC)和皮爾遜相關(guān)性(Pearson Correlation Coefficient, PCC)方法變形而來,本文以這兩種最傳統(tǒng)的相似性度量方法為例,分析其缺點(diǎn)。
1)余弦相關(guān)性(CC)。
將n個(gè)用戶對項(xiàng)目i和項(xiàng)目j的評分視為n維向量,項(xiàng)目i和項(xiàng)目j的相似性即為相應(yīng)兩個(gè)n維向量的夾角余弦,定義[9]為:
(2)
其中Rui代表用戶u對項(xiàng)目i的評分。
2)皮爾遜相關(guān)性(PCC)。
該方法通過計(jì)算兩個(gè)項(xiàng)目之間的皮爾遜相關(guān)系數(shù)來確定項(xiàng)目間相似性,定義為:
(3)
在實(shí)際推薦系統(tǒng)中,會(huì)出現(xiàn)冷啟動(dòng)情況,即共同評分過項(xiàng)目i與項(xiàng)目j的用戶量很少甚至沒有,因此,傳統(tǒng)項(xiàng)目間相似性度量方法存在一定的弊端。如果共同評分過項(xiàng)目i與項(xiàng)目j的用戶數(shù)量為1,不管該用戶對項(xiàng)目i與項(xiàng)目j的評分值為多少,用式(2)計(jì)算的結(jié)果總為1,擴(kuò)大了項(xiàng)目間的相似性(即本來相似性較低的兩個(gè)項(xiàng)目的相似性度量結(jié)果較高)。而對于式(3),分子分母總為0,公式?jīng)]有意義,不能計(jì)算項(xiàng)目間相似性。傳統(tǒng)的相似性度量方法在計(jì)算項(xiàng)目相關(guān)性時(shí)都會(huì)存在一定的誤差,計(jì)算結(jié)果可能會(huì)擴(kuò)大或縮小項(xiàng)目間相關(guān)性(即本來相似性較高的兩個(gè)項(xiàng)目的相似性度量結(jié)果較低)。
1.3 IPSS的項(xiàng)目相似性度量方法
基于項(xiàng)目的協(xié)同過濾推薦算法的關(guān)鍵步驟是計(jì)算項(xiàng)目間相似性,以此搜索目標(biāo)項(xiàng)目的k個(gè)最近項(xiàng)目。本文提出了一種新的項(xiàng)目相似性度量方法(IPSS),能夠有效解決其他協(xié)同過濾推薦算法遇到冷啟動(dòng)情況效果不佳的問題。
IPSS相似性度量方法由評分相似性和結(jié)構(gòu)相似性兩部分構(gòu)成,其中,評分相似性部分充分考慮兩個(gè)項(xiàng)目評分之間的評分差、項(xiàng)目評分與評分中值之差,以及項(xiàng)目評分與其他評分平均值之差;結(jié)構(gòu)相似性部分定義共同評分項(xiàng)目占所有項(xiàng)目比重并懲罰活躍用戶的IIF系數(shù),形成一種新的項(xiàng)目相似性度量方法。
在評分相似性部分,融合了兩個(gè)項(xiàng)目評分之間的評分差(Proximity)、項(xiàng)目評分與評分中值之差(Singularity),以及項(xiàng)目評分與其他評分平均值之差(Significance)等3個(gè)因素,項(xiàng)目i和j間的評分相似性PSS(i,j)定義為:
(4)
其中:Uij為所有評價(jià)過項(xiàng)目i和j用戶的集合。PSSu(Rui,Ruj)為用戶u對項(xiàng)目i和j間的評分相似性。
用戶u對項(xiàng)目i和j間的評分相似性PSSu(Rui,Ruj)定義為:
PSSu(Rui,Ruj)=Proximity(Rui,Ruj)·
Significance(Rui,Ruj)·Singularity(Rui,Ruj)
(5)
其中:Proximity(Rui,Ruj)反映兩個(gè)項(xiàng)目評分之間的評分差,其定義為:
(6)
Significance(Rui,Ruj)反映項(xiàng)目評分與評分中值之差,其定義為:
Significance(Rui,Ruj) =
(7)
其中:Rmed代表評分范圍的評分中值,若評分范圍為{1,2,3,4,5},則Rmed=3。
Singularity(Rui,Ruj)反映用戶u對項(xiàng)目i和j的評分平均值與用戶u對所有項(xiàng)目評分平均值之差,其定義為:
Singularity(Rui,Ruj)=
(8)
IIF系數(shù)定義為:
(9)
其中:Nu(i,j)代表既評價(jià)過項(xiàng)目i又評價(jià)過項(xiàng)目j的用戶數(shù),N(i)和N(j)分別代表評價(jià)過項(xiàng)目i和項(xiàng)目j的用戶數(shù)。
IPSS相似性度量函數(shù)是由評分相似性和結(jié)構(gòu)相似性組成,由式(4)和式(9)共同定義IPSS相似性度量函數(shù)為:
IPSS(i,j)=PSS(i,j)·IIF(i,j)
(10)
1.4 基于IPSS-ITEM的協(xié)同過濾推薦算法
基于IPSS-ITEM的協(xié)同過濾推薦算法步驟如下:
輸入 用戶-項(xiàng)目-評分?jǐn)?shù)據(jù)集;
輸出 預(yù)測評分矩陣,推薦列表。
步驟1 將用戶-項(xiàng)目-評分?jǐn)?shù)據(jù)集轉(zhuǎn)換為用戶-項(xiàng)目評分矩陣Rm×n,其中m為用戶數(shù)量,n為項(xiàng)目數(shù)量;
步驟2 在評分矩陣R上計(jì)算項(xiàng)目i和項(xiàng)目j的評分相似性PSS(i,j)(見式(4)),結(jié)構(gòu)相似性IIF(i,j)(見式(9)),將PSS(i,j)和IIF(i,j)結(jié)合形成項(xiàng)目i和項(xiàng)目j的相似性(見式(10)),以此產(chǎn)生項(xiàng)目相似性矩陣Sim_Matrixn×n;
步驟3 對于目標(biāo)項(xiàng)目,根據(jù)相似性大小選取相似性最高的前k個(gè)項(xiàng)目作為最近鄰集,用式(1)計(jì)算目標(biāo)用戶對目標(biāo)項(xiàng)目的預(yù)測評分,并得出推薦列表。
該算法計(jì)算項(xiàng)目間相似性時(shí),以Sigmoid函數(shù)作為基礎(chǔ)進(jìn)行項(xiàng)目間相似性的計(jì)算,能夠有效解決冷啟動(dòng)情況下,傳統(tǒng)的相似性度量方法在計(jì)算項(xiàng)目間相似性時(shí)計(jì)算結(jié)果可能會(huì)擴(kuò)大(即本來相似性較低的兩個(gè)項(xiàng)目的相似性度量結(jié)果較高)或縮小(即本來相似性較高的兩個(gè)項(xiàng)目的相似性度量結(jié)果較低)項(xiàng)目間相似性的問題。該算法需要計(jì)算所有n個(gè)項(xiàng)目間的相似度,每對項(xiàng)目相似度的計(jì)算又需要在維度為用戶數(shù)m的向量之間計(jì)算,所以時(shí)間復(fù)雜度為O(m×n),而m和n的數(shù)量級相同,所以時(shí)間復(fù)雜度為O(n2)。
為了評估IPSS相似性度量方法對協(xié)同過濾推薦算法的影響,本文在Movie Lens和Jester數(shù)據(jù)集上比較基于IPSS-ITEM的協(xié)同過濾推薦算法(ICF_IPSS)和基于其他相似性度量函數(shù)的協(xié)同過濾推薦算法(如基于余弦相關(guān)性的項(xiàng)目協(xié)同過濾算法(Cosine Correlation-based Item Collaborative Filtering, ICF_CC)[9]、基于皮爾遜相關(guān)性的項(xiàng)目協(xié)同過濾算法(Pearson Correlation Coefficient-based Item Collaborative Filtering, ICF_PCC)[10]、基于修正余弦相關(guān)性的項(xiàng)目協(xié)同過濾算法(Adjusted Cosine Correlation-based Item Collaborative Filtering, ICF_ACC)[3]、基于約束皮爾遜相關(guān)性的項(xiàng)目協(xié)同過濾算法(Constrained Pearson Correlation-based Item Collaborative Filtering, ICF_CPCC)[4]、基于加權(quán)皮爾遜相關(guān)性的項(xiàng)目協(xié)同過濾算法(Weighted Pearson Correlation-based Item Collaborative Filtering, ICF_WPCC)[5]、基于Sigmoid函數(shù)的相關(guān)性的項(xiàng)目協(xié)同過濾算法(Sigmoid-based Pearson Correlation-based Item Collaborative Filtering, ICF_SPCC)[6]、基于Jaccard系數(shù)的均方差異系數(shù)的項(xiàng)目協(xié)同過濾算法(Jaccard-based Mean Square Difference-based Item Collaborative Filtering, ICF_JMSD)[7])的預(yù)測準(zhǔn)確率和分類準(zhǔn)確率,以此驗(yàn)證IPSS相似性度量方法的有效性。
2.1 實(shí)驗(yàn)數(shù)據(jù)集和性能評價(jià)指標(biāo)
本文比較ICF_IPSS與其他協(xié)同過濾推薦算法在Movie Lens(http://www.grouplens.org)和Jester(http://eigentaste.berkeley.edu/dataset/)兩個(gè)數(shù)據(jù)集進(jìn)行測試,以此評估ICF_IPSS的性能。Movie Lens和Jester數(shù)據(jù)集的概述見表1。
表1 Movie Lens和Jester數(shù)據(jù)集概述Tab. 1 Movie Lens and Jester data sets overview
一般地,評估協(xié)同過濾推薦算法的性能,主要采用預(yù)測準(zhǔn)確率和分類準(zhǔn)確率兩個(gè)指標(biāo)。預(yù)測準(zhǔn)確率分為平均絕對偏差(Mean Absolute Error, MAE)和均方根誤差(Root Mean Square Error, RMSE),MAE和RMSE的值越小,預(yù)測的準(zhǔn)確率越高。通常情況下網(wǎng)站會(huì)為用戶返回一個(gè)推薦列表,叫作Top-N推薦[12]。Top-N推薦的分類準(zhǔn)確率經(jīng)常用兩個(gè)常用的指標(biāo)衡量:準(zhǔn)確率和召回率[13],見表2。
表2 性能評估指標(biāo)表Tab. 2 Performance evaluation indicators
2.2 實(shí)驗(yàn)結(jié)果與討論
2.2.1 預(yù)測準(zhǔn)確率
預(yù)測準(zhǔn)確率反映算法對于未評分項(xiàng)目的預(yù)測結(jié)果的準(zhǔn)確程度,最近鄰居數(shù)量的不同會(huì)導(dǎo)致預(yù)測準(zhǔn)確率存在一定差異,將最近鄰數(shù)量K作為自變量,分析基于不同相似性度量方法的協(xié)同過濾算法的推薦效果。實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)的協(xié)同過濾推薦算法比較,ICF_IPSS可以顯著提高推薦的有效性。
圖1給出了在Movie Lens數(shù)據(jù)集下,不同鄰居數(shù)情況下,基于各種相似性度量方法(圖例中各算法名稱中的“ICF_”省略)的協(xié)同過濾的推薦準(zhǔn)確度比較。
圖1 Movie Lens數(shù)據(jù)集下不同相似性度量方法對應(yīng)的MAE和RMSEFig. 1 MAE and RMSE values of different similarity measures under Movie Lens data set
在圖1中, MAE和RMSE的值隨著K的增多而減少??梢钥闯?,ICF_IPSS的MAE值比其他基于經(jīng)典相似性度量方法的協(xié)同過濾推薦的MAE值低,在K=10時(shí),ICF_IPSS的MAE值分別比ICF_CC,ICF_PCC,ICF_ACC, ICF_CPCC,ICF_WPCC, ICF_SPCC, ICF_JMSD低10.83%,14.24%,7.20%,1.39%,1.94%,15.52%,3.06%。ICF_IPSS的RMSE值比大多數(shù)基于經(jīng)典相似性度量方法的協(xié)同過濾推薦的RMSE值低,只有當(dāng)最近鄰個(gè)數(shù)大于等于10以后,ICF_IPSS的RMSE值略大于ICF_CPCC的RMSE值(K=10時(shí),RMSEIPSS=1.098 5,RMSECPCC=1.096 5)。在K=10時(shí),ICF_IPSS的RMSE值分別比 ICF_CC,ICF_PCC, ICF_ACC,ICF_CPCC,ICF_WPCC,ICF_SPCC,ICF_JMSD低7.37%,9.42%,4.90%,-0.18%,1.12%,10.51%,1.20%。
圖2給出了在Jester數(shù)據(jù)集下預(yù)測準(zhǔn)確率的實(shí)驗(yàn)效果??梢钥闯鲈卩従訑?shù)量從5到50的情況下,基于傳統(tǒng)相似性度量的推薦算法的MAE≥3.628 7,RMSE≥4.575 8,相比之下,ICF_IPSS的MAE和RMSE值(MAE≥3.483 9,RMSE≥4.497 4)明顯小于傳統(tǒng)方法。在K=10時(shí),ICF_IPSS的MAE值分別比ICF_CC,ICF_PCC,ICF_ACC,ICF_CPCC, ICF_WPCC,ICF_SPCC,ICF_JMSD低11.01%,5.26%,6.97%,10.93%,5.26%,5.26%,17.07%。在K=10時(shí),ICF_IPSS的RMSE值分別比ICF_CC,ICF_PCC,ICF_ACC, ICF_CPCC, ICF_WPCC, ICF_SPCC,ICF_JMSD低9.42%,3.76%,4.00%,9.33%,3.76%,3.76%,13.80%。
圖2 Jester數(shù)據(jù)集下不同相似性度量方法對應(yīng)的MAE和RMSEFig. 2 MAE and RMSE values of different similarity measures under Jester data set
2.2.2 分類準(zhǔn)確率
在Top-N推薦中,不同的推薦數(shù)量會(huì)有不同的推薦效果。將推薦項(xiàng)目數(shù)量N作為自變量,分析基于不同相似性度量方法的協(xié)同過濾算法的推薦效果。
圖3顯示了Movie Lens數(shù)據(jù)集下不同推薦項(xiàng)目數(shù)量對應(yīng)的準(zhǔn)確率和召回率。從圖3中可以看出,ICF_IPSS可以得到最好的推薦分類準(zhǔn)確率,而且與其他方法相比效果非常明顯; 此外,可以看出,準(zhǔn)確率將會(huì)隨著推薦數(shù)量的增加而下降。ICF_WPCC和ICF_JMSD是推薦效果最好的兩種傳統(tǒng)方法,然而,與ICF_JMSD相比,當(dāng)N=10時(shí),ICF_IPSS的準(zhǔn)確率提升67.79%; 召回率會(huì)隨著推薦數(shù)量的增加而上升,與ICF_JMSD相比,當(dāng)N=10時(shí),ICF_IPSS的召回率提升67.86%。
圖4顯示了在Jester數(shù)據(jù)集下不同推薦項(xiàng)目數(shù)量對應(yīng)的準(zhǔn)確率和召回率,同樣地,基于ICF_IPSS能夠得到最好的推薦效果。從圖中可以看出,ICF_ACC是ICF_IPSS的有力競爭者,然而,與ICF_ACC相比,當(dāng)N=10時(shí),ICF_IPSS的準(zhǔn)確率提升7.46%,召回率提升7.45%。可以看出,ICF_IPSS可以比其他經(jīng)典方法得到更好的推薦效果。
圖3 Movie Lens數(shù)據(jù)集下不同推薦項(xiàng)目數(shù)量對應(yīng)的準(zhǔn)確率和召回率Fig. 3 Precision and recall values of different recommendation items under Movie Lens data set
圖4 Jester數(shù)據(jù)集下不同推薦項(xiàng)目數(shù)量對應(yīng)的準(zhǔn)確率和召回率Fig. 4 Precision and recall values of different recommendation items under Jester data set
協(xié)同過濾推薦算法是個(gè)性化推薦系統(tǒng)中應(yīng)用最廣泛、效果最好的算法之一,但傳統(tǒng)協(xié)同過濾推薦算法遇到冷啟動(dòng)情況效果不佳。有效地改進(jìn)與修正項(xiàng)目間相似性度量方法,能夠有效解決冷啟動(dòng)情況下項(xiàng)目協(xié)同過濾算法的效果不佳問題。本文提出一種新的項(xiàng)目相似性度量方法。該項(xiàng)目相似性度量方法由評分相似性和結(jié)構(gòu)相似性兩部分構(gòu)成,其中,評分相似性部分充分考慮兩個(gè)項(xiàng)目評分之間的評分差、項(xiàng)目評分與評分中值之差,以及項(xiàng)目評分與其他評分平均值之差;結(jié)構(gòu)相似性部分定義了評分項(xiàng)目占所有項(xiàng)目比重并懲罰活躍用戶的IIF系數(shù),形成一種新的項(xiàng)目相似性度量方法——IPSS度量方法。將IPSS度量方融合在項(xiàng)目協(xié)同過濾推薦算法,提出基于IPSS的項(xiàng)目協(xié)同過濾算法(ICF_IPSS),其在冷啟動(dòng)情況下具有較好的表現(xiàn)。在Movie Lens和Jester數(shù)據(jù)集的測試實(shí)驗(yàn)結(jié)果表明基于IPSS的項(xiàng)目協(xié)同過濾算法在預(yù)測準(zhǔn)確率和分類準(zhǔn)確率方面均優(yōu)于基于其他相似性度量的項(xiàng)目協(xié)同過濾算法(如ICF_CC、ICF_PCC、ICF_ACC、ICF_CPCC、ICF_WPCC、ICF_SPCC、ICF_JMSD)。算法的時(shí)間復(fù)雜度為O(n2)。如何有效提高算法復(fù)雜度將是今后研究的重點(diǎn)。
References)
[1] RESNICK P, VARIAN H R. Recommender systems[J]. Communications of the ACM, 1997, 40(3): 56-58.
[2] BOBADILLA J, ORTEGA F, GUTIRREZ A. Recommender systems survey[J] .Knowledge-Based System, 2013,46(1): 109-132.
[3] AHN H J. A new similarity measure for collaborative filtering to alleviate the new user cold-starting problem[J]. Information Science, 2008, 178(1): 37-51.
[4] SHARDANAND U, MAES P. Social information filtering: algorithms for automating "word of mouth"[C]// Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence Agent Technology. New York: ACM, 2009:548-551.
[5] HERLOCKER J L, KONSTAN J A, BORCHERS A. An algorithmic framework for performing collaborative filtering[C]// Proceedings of the Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1999: 230-237.
[6] JAMALI M, ESTER M. TrustWalker: a random walk model for combing trust-based and item-based recommendation[C]// Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2009:397-406.
[7] BOBADILLA J, HEMANDO A, ORTEQA F, et al. Collaborative filtering based on significances[J]. Information Sciences, 2012,185(1): 1-17.
[8] SARWAR B, KARPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]// Proceedings of the 10th International Conference on World Wide Web. New York: ACM, 2001:285-295.
[9] SALTON G, MCGILL M J. Introduction to Modern Information Retrieval[M]. New York: McGraw-Hill, 1983: 305-306.
[10] SCHAFER J B, DAN F, HERLOCKER J, et al. Collaborative filtering recommender systems[J]. ACM Transactions on Information Systems, 2004, 22(1):5-53.
[11] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[C]// Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. San Francisco, CA: Morgan Kaufmann Publishers, 2013:43-52.
[12] DESHPANDE M, KARYPIS G. Item-based top-Nrecommendation algorithms[J]. ACM Transactions on Information System, 2014, 22(1):143-177.
[13] BOBADILLA J, HEMANDO A, ORTEQA F. A framework for collaborative filtering recommender systems[J]. Expert Systems with Applications, 2011,38(12): 14609-14623.
This work is partially supported by the Public Welfare Industry (Agriculture) Scientific Research Special Projects Level-2 (201503116-04-06), the Postdoctoral Foundation of Heilongjiang Province (LBH-Z15020), the National Science and Technology Support Plan Thematic Mandate (2014BAD12B01-1-3), the Key Laboratory Open Fund of Agricultural Water Resources Efficient Utilization in Ministry of Agriculture (2015004), the Philosophical and Social Science Research Plan Annual Project of Heilongjiang Province (16YB17).
YU Jinming, born in 1992, M. S. candidate. Her research interests include data mining, machine learning.
MENG Jun, born in 1965, Ph. D., professor. His research interests include data mining, machine learning.
WU Qiufeng, born in 1979, Ph. D., associate professor. His research interests include data mining, machine learning.
Item collaborative filtering recommendation algorithm based on improved similarity measure
YU Jinming1, MENG Jun2*, WU Qiufeng2
(1.CollegeofEngineering,NortheastAgriculturalUniversity,HarbinHeilongjiang150030,China;2.CollegeofScience,NortheastAgriculturalUniversity,HarbinHeilongjiang150030,China)
Traditional collaborative filtering algorithm can not perform well under the condition of cold start. To solve this problem, IPSS-based (Inverse Item Frequence-based Proximity-Significance-Singularity) Item Collaborative Filtering (ICF_IPSS) was proposed, whose core was a novel similarity measure. The measure was composed of the rating similarity and the structure similarity. The difference between the ratings of two items, the difference between the item rating and the median value, and the difference between the rating value and the average rating value of other items were taken into account in the rating similarity. The structure similarity defined the IIF (Inverse Item Frequence) coefficient which fully reflected common-rating ratio and punished active users. Experiments were executed on Movie Lens and Jester data sets to testify the accuracy of the ICF_IPSS. In Movie Lens data set, when the nearest neighbor number was 10, the Mean Absolute Error (MAE) and Root Mean Square Error (RMSE) was 3.06%, 1.20% lower than ICF_JMSD (Jaccard-based Mean Square Difference-based Item Collaborative Filtering) respectively. When the recommendation item number was 10, the precision and recall was 67.79%, 67.86% higher than ICF_JMSD respectively. The experimental results show that ICF_IPSS is superior to other traditional collaborative filtering algorithms, such as ICF_JMSD.
Collaborative Filtering (CF); recommendation algorithm; similarity measure; rating similarity; structure similarity; cold start
2016-10-08;
2016-11-28。 基金項(xiàng)目:公益性行業(yè)(農(nóng)業(yè))科研專項(xiàng)二級任務(wù)(201503116-04-06); 黑龍江省博士后基金資助項(xiàng)目(LBH-Z15020); 國家科技支撐計(jì)劃專題任務(wù)(2014BAD12B01-1-3); 農(nóng)業(yè)部農(nóng)業(yè)水資源高效利用重點(diǎn)實(shí)驗(yàn)室開放基金資助項(xiàng)目(2015004); 黑龍江省哲學(xué)社會(huì)科學(xué)研究規(guī)劃年度項(xiàng)目(16YB17)。
于金明(1992—),女,黑龍江牡丹江人,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí); 孟軍(1965—),男,黑龍江哈爾濱人,教授,博士,主要研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí); 吳秋峰(1979—),男,黑龍江雙鴨山人,副教授,博士,CCF會(huì)員,主要研究方向:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)。
1001-9081(2017)05-1387-05
10.11772/j.issn.1001-9081.2017.05.1387
TP391
A