国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于協(xié)同訓(xùn)練與Boosting的協(xié)同過濾算法

2023-10-21 08:37:02楊曉菡郝國生張謝華楊子豪
計(jì)算機(jī)應(yīng)用 2023年10期
關(guān)鍵詞:集上協(xié)同樣本

楊曉菡,郝國生,張謝華,楊子豪

基于協(xié)同訓(xùn)練與Boosting的協(xié)同過濾算法

楊曉菡,郝國生,張謝華*,楊子豪

(江蘇師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)( ? 通信作者電子郵箱6019980030@jsnu.edu.cn)

協(xié)同過濾(CF)算法基于物品之間或用戶之間的相似度能實(shí)現(xiàn)個(gè)性化推薦,然而CF算法普遍存在數(shù)據(jù)稀疏性的問題。針對用戶?物品評(píng)分稀疏問題,為使預(yù)測更加準(zhǔn)確,提出一種基于協(xié)同訓(xùn)練與Boosting的協(xié)同過濾算法(CFCTB)。首先,利用協(xié)同訓(xùn)練將兩種CF集成于一個(gè)框架,兩種CF互相添加置信度高的偽標(biāo)記樣本到對方的訓(xùn)練集中,并利用Boosting加權(quán)訓(xùn)練數(shù)據(jù)輔助協(xié)同訓(xùn)練;其次,采用加權(quán)集成預(yù)測最終的用戶評(píng)分,有效避免偽標(biāo)記樣本所產(chǎn)生的噪聲累加,進(jìn)一步提高推薦性能。實(shí)驗(yàn)結(jié)果表明,在4個(gè)公開數(shù)據(jù)集上,所提算法的準(zhǔn)確率優(yōu)于單模型;在稀疏度最高的CiaoDVD數(shù)據(jù)集上,與面向推薦系統(tǒng)的全局和局部核(GLocal-K)相比,所提算法的平均絕對誤差(MAE)降低了4.737%;與ECoRec(Ensemble of Co-trained Recommenders)算法相比,所提算法的均方根誤差(RMSE)降低了7.421%。以上結(jié)果驗(yàn)證了所提算法的有效性。

推薦算法;協(xié)同過濾;數(shù)據(jù)稀疏;協(xié)同訓(xùn)練;Boosting

0 引言

面對網(wǎng)絡(luò)中的海量信息,推薦系統(tǒng)能夠幫助用戶過濾信息,實(shí)現(xiàn)個(gè)性化推薦。協(xié)同過濾(Collaborative Filtering, CF)是構(gòu)建個(gè)性化推薦系統(tǒng)的關(guān)鍵技術(shù),它基于用戶與物品的歷史交互信息(包括顯式的和隱式的)向用戶推薦偏好物品。

在實(shí)際應(yīng)用中,用戶與物品的交互信息矩陣數(shù)據(jù)稀疏,改善數(shù)據(jù)稀疏性問題是推薦系統(tǒng)的一個(gè)重要內(nèi)容。改善數(shù)據(jù)稀疏的方法主要有3種方法:偏好數(shù)據(jù)填補(bǔ)、基于多源信息的偏好預(yù)測和基于分歧的半監(jiān)督學(xué)習(xí)。Ren等[1]提出自適應(yīng)插補(bǔ)屬于第一種方法,該方法結(jié)合多種相似性度量方法,如皮爾遜相關(guān)系數(shù)和余弦相似性。理論上,基于偏好數(shù)據(jù)填補(bǔ)的CF優(yōu)于基于鄰域的CF[2]。

利用多源信息的偏好預(yù)測改善稀疏問題是第二種方法?;趦?nèi)容信息和上下文信息,Gong等[3]通過圖卷積網(wǎng)絡(luò)學(xué)習(xí)實(shí)體的表示與推薦。Rashed等[4]提出了非線性共嵌入模型GraphRec(Graph-based features Recommender),它通過用戶?項(xiàng)目共現(xiàn)圖的拉普拉斯算子構(gòu)造通用內(nèi)部屬性,以優(yōu)化評(píng)分預(yù)測任務(wù)。利用用戶行為、項(xiàng)目屬性等多源信息,Zhu等[5]提出了一種基于用戶行為軌跡的情感感知移動(dòng)應(yīng)用推薦方法。此外,從特定的場景中獲取的知識(shí)圖偏好注意力網(wǎng)絡(luò)[6]、文本評(píng)論[7]和視覺信息[8]等多源數(shù)據(jù),也有助于改善數(shù)據(jù)稀疏。

基于分歧的半監(jiān)督學(xué)習(xí)[9]是改善數(shù)據(jù)稀疏的第三種方法。da Costa等[10]提出了一種基于多推薦器協(xié)同訓(xùn)練方法的集成方案ECoRec(Ensemble of Co-trained Recommenders),該方案驅(qū)動(dòng)多個(gè)推薦器評(píng)價(jià)填補(bǔ)數(shù)據(jù),從而提高推薦的準(zhǔn)確率。進(jìn)一步,Nan等[11]提出推薦模型加權(quán)混合集成,提高了推薦準(zhǔn)確性。Wu等[12]提出了一種利用多模型半監(jiān)督集成過濾(Semi-Supervised Ensemble Filtering, SSEF)方法,通過分析對已標(biāo)記樣本的影響,選擇填補(bǔ)樣本。

雖然上述方法有效改善了協(xié)同過濾中的數(shù)據(jù)稀疏問題,但是文獻(xiàn)[10-12]方法在數(shù)據(jù)層面未通過改變數(shù)據(jù)集樣本的分布平衡數(shù)據(jù)集,在算法層面未考慮加權(quán)集成迭代過程中的所有模型;而且文獻(xiàn)[10]中協(xié)同訓(xùn)練過程中偽標(biāo)記樣本的添加會(huì)產(chǎn)生噪聲累加,影響模型性能。

針對上述不足,本文提出基于協(xié)同訓(xùn)練與Boosting的協(xié)同過濾算法(CF algorithm based on Collaborative Training and Boosting, CFCTB)。該算法屬于第三種方法,它將Boosting與協(xié)同訓(xùn)練相結(jié)合,實(shí)例化兩個(gè)基推薦模型,通過加權(quán)訓(xùn)練數(shù)據(jù)改進(jìn)協(xié)同訓(xùn)練方法。首先,兩個(gè)模型在初始權(quán)重相同的同一個(gè)訓(xùn)練集上訓(xùn)練,對預(yù)測誤差小的訓(xùn)練樣本賦予更大的權(quán)重,重新采樣。其次,用協(xié)同訓(xùn)練方法將置信度較高的偽標(biāo)記樣本放到對方模型的訓(xùn)練數(shù)據(jù)集中,用新的訓(xùn)練集重新訓(xùn)練兩個(gè)模型。為了減少噪聲影響,偽標(biāo)記數(shù)據(jù)在迭代過程中不會(huì)累加,訓(xùn)練結(jié)束則刪除偽標(biāo)記樣本。最后,集成迭代生成的所有模型,進(jìn)行精準(zhǔn)預(yù)測。

本文的主要工作如下:

1)提出改善數(shù)據(jù)稀疏的算法,使得兩個(gè)模型的準(zhǔn)確率均有所提升。

2)利用Boosting更新樣本權(quán)重,加權(quán)集成協(xié)同訓(xùn)練迭代過程中的所有模型。

3)為了避免偽標(biāo)記數(shù)據(jù)的噪聲疊加,使用偽標(biāo)簽作為訓(xùn)練樣本,在模型迭代過程中不保留至下一輪,避免噪聲疊加。本文算法集成結(jié)果優(yōu)于單模型的準(zhǔn)確率,可以應(yīng)用于多種CF的推薦模型。

1 相關(guān)工作

1.1 基于模型的協(xié)同過濾

協(xié)同過濾推薦算法可分為基于記憶的協(xié)同過濾、基于模型的協(xié)同過濾和混合協(xié)同過濾[13]。本文主要研究基于模型的協(xié)同過濾,該算法利用機(jī)器學(xué)習(xí)算法,在數(shù)據(jù)中找出模式,并將用戶與物品間的評(píng)分模式化,其中線性模型和矩陣分解是最常用的兩種方法。

協(xié)同過濾中傳統(tǒng)的矩陣分解方法要求矩陣是稠密的。為了避開缺失值的問題,F(xiàn)unk[15]提出只考慮已有評(píng)分記錄的隱語義模型的矩陣分解方法。該方法將評(píng)分矩陣分解成兩個(gè)矩陣,即

SVD(Singular Value Decomposition for recommender systems)[16]是在此基礎(chǔ)上的改進(jìn)版之一,它在隱語義模型的矩陣分解方法上引入了偏置項(xiàng)特征。綜上,可以將預(yù)測評(píng)分看作偏置部分加上用戶對物品的喜好部分。

SVD++(Singular Value Decomposition Plus Plus)[17]在SVD算法的基礎(chǔ)上改進(jìn),在用戶向量部分引入隱性反饋信息:

上述這些經(jīng)典的協(xié)同過濾算法需要大量的用戶?物品交互信息,容易遇到數(shù)據(jù)稀疏問題。本文算法通過互相添加偽標(biāo)記樣本,降低數(shù)據(jù)稀疏度,提高了協(xié)同過濾算法的有效性。

1.2 半監(jiān)督學(xué)習(xí)

在半監(jiān)督學(xué)習(xí)中,協(xié)同訓(xùn)練是一種基于分歧的雙視圖半監(jiān)督算法[8]。與常見的單視角相比,它關(guān)注用兩個(gè)獨(dú)立且冗余的數(shù)據(jù)視圖同時(shí)訓(xùn)練兩個(gè)模型,從這些冗余的視角可以訓(xùn)練多個(gè)具有差異性的弱學(xué)習(xí)器。HRSM(Hybrid Recommendation approach based on deep Sentiment analysis of user reviews and Multi-view collaborative fusion)[18]基于協(xié)同訓(xùn)練融合多個(gè)推薦視圖,實(shí)現(xiàn)了對稀疏的用戶評(píng)分矩陣的循環(huán)填充和修正,顯著提高預(yù)測精度;但是該算法提取、處理和加工評(píng)論文本和物品的內(nèi)容描述信息的計(jì)算成本較高,影響算法效率。Matuszyk等[19]提出基于流的半監(jiān)督推薦框架,利用協(xié)同訓(xùn)練方法,使用大量的未標(biāo)記信息提高推薦質(zhì)量;但是該框架依賴于矩陣分解算法,不適用于各種不同的推薦算法。

本文算法不需要其他額外信息,僅使用評(píng)分?jǐn)?shù)據(jù)。此外,本文算法允許在協(xié)同訓(xùn)練中使用不同的推薦算法,從而消除了上述限制。

1.3 Boosting

作為Boosting的代表,Adaboost(Adaptive Boost)[20]的基本原理是結(jié)合多個(gè)弱分類器,成為一個(gè)強(qiáng)分類器。在推薦系統(tǒng)中,運(yùn)用Boosting的研究工作較少。Schclar等[21]介紹了一種用于推薦任務(wù)的AdaBoost同質(zhì)集成算法,它采用了一種簡單有效的回歸算法,通過求解誤差代價(jià)函數(shù)的梯度最小化預(yù)測誤差。Bar等[22]提出將幾種集成方法改進(jìn)后用于協(xié)同過濾算法,采用幾種單一模型生成協(xié)同過濾模型的同質(zhì)集合。

本文算法與上述方法的區(qū)別是本文算法基于異質(zhì)集成,結(jié)合了不同推薦模型的預(yù)測結(jié)果,而且通過協(xié)同訓(xùn)練方法在不同預(yù)測模型之間進(jìn)行信息交互,使得預(yù)測結(jié)果更加準(zhǔn)確。

2 本文算法

本文提出基于協(xié)同訓(xùn)練與Boosting的協(xié)同過濾算法(CFCTB)的總體框架如圖1所示。首先,初始化基預(yù)測模型,通過不同的CF從標(biāo)記的樣本中獨(dú)立生成兩個(gè)預(yù)測模型;其次,兩個(gè)預(yù)測模型在不同的訓(xùn)練集上訓(xùn)練,分別預(yù)測未標(biāo)記數(shù)據(jù)集;再次,將新標(biāo)記的數(shù)據(jù)集放到對方模型的訓(xùn)練數(shù)據(jù)集中,更新訓(xùn)練樣本權(quán)重,用新的訓(xùn)練集重新訓(xùn)練兩個(gè)模型;最后,集成迭代過程生成的所有模型,得到最終的預(yù)測結(jié)果。

圖1 CFCTB的總體框架

2.1 訓(xùn)練預(yù)測模型

首先,初始化訓(xùn)練數(shù)據(jù)的權(quán)值分布:

2.2 協(xié)同訓(xùn)練

雖然加入大量偽標(biāo)記樣本改善了數(shù)據(jù)稀疏性,但是可能引入了噪聲和偏差。本文在次迭代后,將訓(xùn)練集重置為初始狀態(tài),以減少偽標(biāo)記樣本產(chǎn)生的噪聲影響,更新集合如下:

2.3 加權(quán)集成

因?yàn)镽MSE和MAE這兩個(gè)指標(biāo)與準(zhǔn)確率成反比,故兩個(gè)預(yù)測模型的加權(quán)集成公式如下:

2.4 算法框架

本文算法(CFCTB)的偽代碼如算法1所示。

算法1 CFCTB。

forfrom 1 to

for=1,2

else

退出迭代

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集

為了評(píng)估本文算法的性能,使用4個(gè)常用的數(shù)據(jù)集:ML-100K[24]、ml-latest-small[25]、Filmtrust[26]和CiaoDVD[27]。表1給出了以上數(shù)據(jù)集的統(tǒng)計(jì)信息,評(píng)分稀疏度范圍為93.695%~99.974%,涵蓋了評(píng)級(jí)預(yù)測任務(wù)的廣泛數(shù)據(jù)稀疏水平。

評(píng)分稀疏度的公式如下:

表1 數(shù)據(jù)集評(píng)分?jǐn)?shù)據(jù)統(tǒng)計(jì)

3.2 評(píng)價(jià)指標(biāo)

個(gè)性化推薦系統(tǒng)的主要任務(wù)是預(yù)測評(píng)分并依據(jù)評(píng)分推薦,對于預(yù)測評(píng)分準(zhǔn)確性的評(píng)價(jià),一般采用測試集上的均方根誤差(RMSE)和平均絕對誤差(MAE)[23],計(jì)算公式為:

3.3 實(shí)驗(yàn)設(shè)置

評(píng)分?jǐn)?shù)據(jù)隨機(jī)分為訓(xùn)練集(90%)和測試集(10%)?;扑]模型選擇線性模型近鄰(-Nearest Neighbor,NN)Baseline(NNBaseline)[28]和矩陣分解模型SVD[16]、SVD++[17],評(píng)測由這3種基推薦模型兩兩組成的3種組合算法,實(shí)驗(yàn)結(jié)果用不同的隨機(jī)種子重復(fù)5次,并記錄測試集的RMSE和MAE的均值和標(biāo)準(zhǔn)差。

3.4 對比實(shí)驗(yàn)

將CFCTB與7個(gè)協(xié)同過濾算法進(jìn)行比較,包括SVD[16]、SVD++[17]、NNBaseline[28]、GraphRec[4]、ECoRec[10]、SSEF[12]和面向推薦系統(tǒng)的全局和局部核(Global and Local Kernels for recommender systems, GLocal-K)[29]。相應(yīng)的關(guān)于RMSE和MAE的定量結(jié)果列于表2~5。

從表2~4可以看出,CFCTB在兩種指標(biāo)上的標(biāo)準(zhǔn)差集中在0.002 6~0.010 4,不同隨機(jī)種子的結(jié)果較穩(wěn)定。在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),CFCTB在所有數(shù)據(jù)集上的性能均優(yōu)于原推薦算法,尤其在MAE上優(yōu)勢更加明顯,驗(yàn)證了將多個(gè)協(xié)同過濾模型組合用于推薦任務(wù)的有效性。

從表2~4中可以看出,SVD與SVD++組合的推薦性能最優(yōu),原因可能是CFCTB利用式(10)重點(diǎn)將置信度高的樣本放入對方的訓(xùn)練集,因此需要兩個(gè)基預(yù)測模型之間的預(yù)測結(jié)果差異較大;同時(shí)利用式(15)加權(quán)集成兩個(gè)基預(yù)測模型,最終預(yù)測結(jié)果受基預(yù)測模型本身在2個(gè)指標(biāo)上的表現(xiàn)的影響。在稀疏度最高的CiaoDVD數(shù)據(jù)集上,相較于SVD++,CFCTB在RMSE和MAE指標(biāo)上降低了1.626%、2.494%,這可能得益于迭代過程沒有噪聲疊加,表明CFCTB利用偽標(biāo)記樣本,降低噪聲影響,有助于減小預(yù)測誤差。綜上,本文使用SVD與SVD++組合模型協(xié)同訓(xùn)練。

表2 SVD與SVD++組合下3種推薦算法的性能比較

表3 SVD與KNNBaseline組合下3種推薦算法的性能比較

在表5中,將CFCTB與4種協(xié)同過濾算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果總體穩(wěn)定,尤其在CiaoDVD數(shù)據(jù)集上CFCTB表現(xiàn)顯著。在RMSE指標(biāo)上,CFCTB在2個(gè)數(shù)據(jù)集上表現(xiàn)最優(yōu),在1個(gè)數(shù)據(jù)集上表現(xiàn)次優(yōu),在CiaoDVD上優(yōu)勢最明顯,比次優(yōu)的對比算法降低1.384%,與ECoRec相比,降低了7.421%;可能的原因是CFCTB通過兩個(gè)模型在無標(biāo)記樣本上的預(yù)測的差值選擇可靠的偽標(biāo)記樣本,并應(yīng)用了Boosting加權(quán)訓(xùn)練數(shù)據(jù),有助于發(fā)現(xiàn)更多的數(shù)據(jù)分布特征,從而充分體現(xiàn)結(jié)合協(xié)同訓(xùn)練與Boosting的效果。在MAE指標(biāo)上,CFCTB在3個(gè)數(shù)據(jù)集上都得到了最優(yōu)結(jié)果。在CiaoDVD數(shù)據(jù)集上,相較于GLocal-K,降低了4.737%,相較于半監(jiān)督算法ECoRec和SSEF,本文算法通過式(12)在改善了數(shù)稀疏的情況下沒有造成噪聲疊加,同時(shí)利用對方預(yù)測模型的訓(xùn)練集作為驗(yàn)證集判斷模型是否退化,使算法適時(shí)收斂。

表4 SVD++與KNNBaseline組合下3種推薦算法的性能比較

表5 本文算法與半監(jiān)督集成的推薦算法的性能比較

3.5 參數(shù)調(diào)節(jié)實(shí)驗(yàn)

圖2 ml-latest-small上的超參數(shù)實(shí)驗(yàn)結(jié)果

圖3 CiaoDVD上的超參數(shù)實(shí)驗(yàn)結(jié)果

4 結(jié)語

本文提出了基于協(xié)同訓(xùn)練與Boosting的協(xié)同過濾算法,該算法將兩種流行的協(xié)同過濾推薦算法集成在一個(gè)協(xié)同過濾框架中提高推薦算法性能。將本文算法與多種協(xié)同過濾的推薦模型對比,實(shí)驗(yàn)結(jié)果表明,本文算法優(yōu)于單模型的準(zhǔn)確率;與其他包括半監(jiān)督的、集成的協(xié)同過濾的方法相比實(shí)驗(yàn)結(jié)果也驗(yàn)證了本文算法的有效性。未來可以引入更多的模型,從集成學(xué)習(xí)的角度,更多的模型意味著更好的穩(wěn)定性,也意味著需要耗費(fèi)更多的額外訓(xùn)練以換取更好的性能。此外,本文算法可以繼續(xù)集成基于輔助信息的推薦方法,以期獲得更好的推薦效果。

[1] REN Y, LI G, ZHANG J, et al. The efficient imputation method for neighborhood-based collaborative filtering[C]// Proceedings of the 21st ACM International Conference on Information and Knowledge Management. New York: ACM, 2012: 684-693.

[2] BREESE J S, HECKERMAN D, KADIE C. Empirical analysis of predictive algorithms for collaborative filtering[C]// Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers Inc., 1998: 43-52.

[3] GONG J, WANG S, WANG J, et al. Attentional graph convolutional networks for knowledge concept recommendation in MOOCs in a heterogeneous view[C]// Proceedings of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2020: 79-88.

[4] RASHED A, GRABOCKA J, SCHMIDT-THIEME L. Attribute-aware non-linear co-embeddings of graph features[C]// Proceedings of the 13th ACM Conference on Recommender Systems. New York: ACM, 2019: 314-321.

[5] ZHU K, XIAO Y, ZHENG W, et al. A novel context-aware mobile application recommendation approach based on users behavior trajectories[J]. IEEE Access, 2021, 9: 1362-1375.

[6] 顧軍華,樊帥,李寧寧,等. 基于知識(shí)圖偏好注意力網(wǎng)絡(luò)的長短期推薦模型及其更新方法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(4): 1079-1086.(GU J H, FAN S, LI N N, et al. Long- and short-term recommendation model and updating method based on knowledge graph preference attention network[J]. Journal of Computer Applications, 2022, 42(4): 1079-1086.)

[7] BEN KHARRAT F, ELKHLEIFI A, FAIZ R. Recommendation system based contextual analysis of Facebook comment[C]// Proceedings of the IEEE/ACS 13th International Conference of Computer Systems and Applications. Piscataway: IEEE, 2016: 1-6.

[8] LIN Y R, SU W H, LIN C H, et al. Clothing recommendation system based on visual information analytics[C]// Proceedings of the 2019 International Automatic Control Conference. Piscataway: IEEE, 2019: 1-6.

[9] ENGELEN J E van, HOOS H H. A survey on semi-supervised learning[J]. Machine Learning, 2020, 109(2): 373-440.

[10] DA COSTA A F, MANZATO M G, CAMPELLO R J G B. Boosting collaborative filtering with an ensemble of co-trained recommenders[J]. Expert Systems with Applications, 2019, 115: 427-441.

[11] NAN Z H, ZHAO F. Research on semi-supervised recommendation algorithm based on hybrid model[C]// Proceedings of the 2nd International Conference on Machine Learning, Big Data and Business Intelligence. Piscataway: IEEE, 2020: 344-348.

[12] WU J, SANG X, CUI W. Semi-supervised collaborative filtering ensemble[J]. World Wide Web, 2021, 24(2): 657-673.

[13] SU X, KHOSHGOFTAAR T M. A survey of collaborative filtering techniques[J]. Advances in Artificial Intelligence, 2009, 2009: No.421425.

[14] KOREN Y. Factor in the neighbors: scalable and accurate collaborative filtering[J]. ACM Transactions on Knowledge Discovery from Data, 2010, 4(1): No.1.

[15] FUNK S. Netflix update: try this at home [EB/OL]. (2006-12-11) [2022-09-01].https://sifter.org/simon/journal/20061211.html.

[16] KOREN Y, BELL R, VOLINSKY C. Matrix factorization techniques for recommender systems[J]. Computer, 2009, 42(8): 30-37.

[17] SHI W, WANG L, QIN J. User embedding for rating prediction in SVD++-based collaborative filtering[J]. Symmetry, 2020, 12(1): No.121.

[18] 張宜浩,朱小飛,徐傳運(yùn),等. 基于用戶評(píng)論的深度情感分析和多視圖協(xié)同融合的混合推薦方法[J]. 計(jì)算機(jī)學(xué)報(bào), 2019, 42(6): 1318-1333.(ZHANG Y H, ZHU X F, XU C Y, et al. Hybrid recommendation approach based on deep sentiment analysis of user reviews and multi-view collaborative fusion[J]. Chinese Journal of Computers, 2019, 42(6): 1318-1333.)

[19] MATUSZYK P, SPILIOPOULOU M. Stream-based semi-supervised learning for recommender systems[J]. Machine Learning, 2017, 106(6): 771-798.

[20] FREUND Y, SCHAPIRE R E. A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55(1): 119-139.

[21] SCHCLAR A, TSIKINOVSKY A, ROKACH L, et al. Ensemble methods for improving the performance of neighborhood-based collaborative filtering[C]// Proceedings of the 3rd ACM Conference on Recommender Systems. New York: ACM, 2009: 261-264.

[22] BAR A, ROKACH L, SHANI G, et al. Improving simple collaborative filtering models using ensemble methods[C]// Proceedings of the 2013 International Workshop on Multiple Classifier Systems, LNCS 7872. Berlin: Springer, 2013: 1-12.

[23] HERLOCKER J L, KONSTAN J A, TERVEEN L G, et al. Evaluating collaborative filtering recommender systems[J]. ACM Transactions on Information Systems, 2004, 22(1): 5-53.

[24] HARPER F M, KONSTAN J A. The MovieLens datasets: history and context[J]. ACM Transactions on Interactive Intelligent Systems, 2015, 5(4): No.19.

[25] AHN H J. A new similarity measure for collaborative filtering to alleviate the new user cold-starting problem[J]. Information Sciences, 2008, 178(1): 37-51.

[26] LIU H, HU Z, MIAN A, et al. A new user similarity model to improve the accuracy of collaborative filtering[J]. Knowledge-Based Systems, 2014, 56: 156-166.

[27] HIMABINDU T V R, PADMANABHAN V, PUJARI A K. Conformal matrix factorization based recommender system[J]. Information Sciences, 2018, 467: 685-707.

[28] 楊凱欣,李雅瑋. 基于協(xié)同過濾算法的移動(dòng)智能學(xué)習(xí)平臺(tái)的開發(fā)與設(shè)計(jì)[J]. 軟件工程與應(yīng)用, 2019, 8(3): 104-114.(YANG K X, LI Y W. Development and design of mobile intelligent learning platform on collaborative filtering[J]. Software Engineering and Applications, 2019, 8(3): 104-114.)

[29] HAN S C, LIM T, LONG S, et al. GLocal-K: global and local kernels for recommender systems[C]// Proceedings of the 30th ACM International Conference on Information and Knowledge Management. New York: ACM, 2021: 3063-3067.

Collaborative filtering algorithm based on collaborative training and Boosting

YANG Xiaohan, HAO Guosheng, ZHANG Xiehua*, YANG Zihao

(,,221116,)

Collaborative Filtering (CF) algorithm can realize personalized recommendation on the basis of the similarity between items or users. However, data sparsity has always been one of the challenges faced by CF algorithm. In order to improve the prediction accuracy, a CF algorithm based on Collaborative Training and Boosting (CFCTB) was proposed to solve the problem of sparse user-item scores. First, two CFs were integrated into a framework by using collaborative training, pseudo-labeled samples with high confidence were added to each other’s training set by the two CFs, and Boosting weighted training data were used to assist the collaborative training. Then, the weighted integration was used to predict the final user scores, and the accumulation of noise generated by pseudo-labeled samples was avoided effectively, thereby further improving the recommendation performance. Experimental results show that the accuracy of the proposed algorithm is better than that of the single models on four open datasets. On CiaoDVD dataset with the highest sparsity, compared with Global and Local Kernels for recommender systems (GLocal-K), the proposed algorithm has the Mean Absolute Error (MAE) reduced by 4.737%. Compared with ECoRec (Ensemble of Co-trained Recommenders) algorithm, the proposed algorithm has the Root Mean Squared Error (RMSE) decreased by 7.421%. The above rasults verify the effectiveness of the proposed algorithm.

recommendation algorithm; Collaborative Filtering (CF); data sparsity; collaborative training; Boosting

This work is partially supported by National Natural Science Foundation of China (62277030), Postgraduate Scientific Research and Practical Innovation Program of Jiangsu Normal University (2022XKT1536).

1001-9081(2023)10-3136-06

10.11772/j.issn.1001-9081.2022101489

2022?10?11;

2023?01?13;

國家自然科學(xué)基金資助項(xiàng)目(62277030);江蘇師范大學(xué)研究生科研與實(shí)踐創(chuàng)新計(jì)劃項(xiàng)目(2022XKT1536)。

楊曉菡(1995—),女,江蘇徐州人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、推薦系統(tǒng); 郝國生(1972—),男,河北萬全人,教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、進(jìn)化計(jì)算、個(gè)性化學(xué)習(xí); 張謝華(1977—),女,安徽宿松人,副教授,博士,主要研究方向:機(jī)器學(xué)習(xí)、運(yùn)動(dòng)目標(biāo)檢測與跟蹤; 楊子豪(1998—),男,陜西咸陽人,碩士研究生,主要研究方向:機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺。

TP181

A

2023?01?16。

YANG Xiaohan, born in 1995, M. S. candidate. Her research interests include machine learning, recommender system.

HAO Guosheng, born in 1972, Ph. D., professor. His research interests include machine learning, evolutionary computation, personalized learning.

ZHANG Xiehua, born in 1977, Ph. D., associate professor. Her research interests include machine learning, moving target detection and tracking.

YANG Zihao, born in 1998, M. S. candidate. His research interests include machine learning, computer vision.

猜你喜歡
集上協(xié)同樣本
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
蜀道難:車與路的協(xié)同進(jìn)化
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
推動(dòng)醫(yī)改的“直銷樣本”
復(fù)扇形指標(biāo)集上的分布混沌
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
村企共贏的樣本
剑河县| 裕民县| 阳城县| 盈江县| 余干县| 秦安县| 舞阳县| 合作市| 木兰县| 铜梁县| 关岭| 温州市| 奉节县| 贡嘎县| 山丹县| 中西区| 英吉沙县| 德州市| 泰宁县| 乌拉特前旗| 太和县| 金坛市| 探索| 万宁市| 东安县| 盘山县| 留坝县| 灯塔市| 峨眉山市| 双牌县| 时尚| 原阳县| 定日县| 津南区| 沂南县| 广州市| 砚山县| 唐海县| 翼城县| 白沙| 永胜县|