国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶和項(xiàng)目的協(xié)同過濾算法的比較研究

2023-02-08 12:54:50潔,王
關(guān)鍵詞:項(xiàng)目數(shù)用戶數(shù)協(xié)同

羅 潔,王 力

(1 貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽 550025;2 畢節(jié)工業(yè)職業(yè)技術(shù)學(xué)院,貴州 畢節(jié) 551700;3 貴州工程應(yīng)用技術(shù)學(xué)院 信息工程學(xué)院,貴州 畢節(jié) 551700)

0 引言

隨著時(shí)代發(fā)展,信息量極大膨脹。用戶在面對(duì)海量信息時(shí),不能快速從中獲取自己有用的信息。針對(duì)這種現(xiàn)象,智能算法應(yīng)運(yùn)而生。近年來有關(guān)個(gè)性推薦算法的應(yīng)用越來越廣泛,根據(jù)用戶的歷史行為,對(duì)用戶的喜好和目標(biāo)行為,為用戶推送信息,極具商業(yè)價(jià)值和挖掘價(jià)值。協(xié)同過濾算法最大的優(yōu)點(diǎn)在于對(duì)推薦的對(duì)象沒有特殊要求;能夠有效處理非結(jié)構(gòu)化的復(fù)雜的對(duì)象,避免了內(nèi)容的分析不完全性和不精確性,根據(jù)用戶的歷史行為推薦個(gè)性化的信息。目前有很多學(xué)者對(duì)協(xié)同過濾算法進(jìn)行改進(jìn)并應(yīng)用,孫傳明等[1]針對(duì)數(shù)據(jù)稀疏性和推薦范圍問題,提出了一種混合協(xié)同過濾推薦算法;榮以平等[2]針對(duì)電力大用戶選擇交易對(duì)象的問題,提出了基于用戶協(xié)同過濾的購電推薦算法;孟晗等[3]針對(duì)對(duì)惡意用戶進(jìn)行區(qū)分的問題,提出了一種改進(jìn)的新型信任關(guān)系度量的推薦算法;夏景明等[4]針對(duì)數(shù)據(jù)稀疏導(dǎo)致的推薦不準(zhǔn)確問題,提出了一種基于用戶和商品屬性挖掘的協(xié)同過濾算法。

本文針對(duì)協(xié)同過濾算法的兩種不同對(duì)象,基于用戶和基于項(xiàng)目,對(duì)其進(jìn)行比較分析,從用戶數(shù)大于項(xiàng)目數(shù)和用戶數(shù)小于項(xiàng)目數(shù)兩方面進(jìn)行實(shí)驗(yàn),驗(yàn)證了兩種不同對(duì)象的協(xié)同過濾算法的特性。

1 相關(guān)知識(shí)

協(xié)同過濾算法由3 個(gè)部分組成:通過用戶評(píng)分行為得到用戶—項(xiàng)目評(píng)分矩陣、計(jì)算相似度、根據(jù)相似度進(jìn)行推薦。

1.1 用戶評(píng)分行為

用戶評(píng)分行為是通過用戶對(duì)項(xiàng)目的打分,構(gòu)成用戶—項(xiàng)目評(píng)分矩陣R,式(1)所示,行向量表示用戶對(duì)項(xiàng)目的評(píng)分,列向量表示某個(gè)項(xiàng)目得到用戶的評(píng)分。

其中m表示用戶;n表示項(xiàng)目;mu表示第u個(gè)用戶;nv表示第v個(gè)項(xiàng)目;Rmunv表示第u個(gè)用戶對(duì)第v個(gè)項(xiàng)目的評(píng)分,其數(shù)值的大小表示用戶對(duì)項(xiàng)目的興趣程度。

1.2 相似度計(jì)算

采用余弦相似度找到與目標(biāo)用戶興趣相似的用戶集合,利用不同用戶對(duì)項(xiàng)目評(píng)分?jǐn)?shù)的相似度計(jì)算出用戶的興趣相似度。余弦相似度是用戶向量i和用戶向量j之間的向量夾角大小,夾角越小,余弦相似度越大,兩個(gè)用戶越相似。余弦相似度公式為

其中,Rm,i表示用戶i對(duì)項(xiàng)目的評(píng)分,Rm,j表示用戶j對(duì)項(xiàng)目的評(píng)分。

相似度越高則用戶間的喜好相似性越高。公式(2)中的分子代表評(píng)價(jià)向量,分母代表評(píng)分值?;陧?xiàng)目的協(xié)同過濾算法同樣采用余弦算法計(jì)算項(xiàng)目間相似度。

1.3 推薦

利用k 最近鄰算法思想,找到相似度最高的前k個(gè)用戶,通過這些用戶的相似度權(quán)重以及其對(duì)項(xiàng)目的偏好,計(jì)算得到一個(gè)項(xiàng)目排序列表進(jìn)行預(yù)測(cè)推薦。用戶u對(duì)項(xiàng)目i的預(yù)測(cè)評(píng)分,為式(3)

其中,k是相似度最接近的向量的集合;i是任意一個(gè)用戶;sim(mu,mi)表示最近鄰i和用戶u的相似度乘上最近鄰i對(duì)項(xiàng)目v的評(píng)分。

與基于用戶的協(xié)同過濾算法相似,基于項(xiàng)目的協(xié)同過濾算法是通過項(xiàng)目的相似度矩陣乘上評(píng)分矩陣得到推薦列表,來為用戶推薦其有興趣但還未涉及的項(xiàng)目。

2 基于用戶的協(xié)同過濾

采用不同用戶對(duì)項(xiàng)目的評(píng)分作為用戶-項(xiàng)目評(píng)分矩陣,以此計(jì)算用戶的相似度,根據(jù)相似度給用戶推薦和其興趣一致的用戶的其他項(xiàng)目。其過程如圖1 所示。

圖1 基于用戶的協(xié)同過濾過程Fig.1 The process of user-based collaborative filtering

該算法利用了用戶和用戶間的相似性來為用戶推薦其感興趣的信息,通過評(píng)分達(dá)到篩選信息的目的,但是這個(gè)算法存在兩個(gè)難解決的問題:

(1)稀疏性,即:用戶評(píng)價(jià)信息量少,很難發(fā)現(xiàn)用戶行為的相似性;

(2)隨著項(xiàng)目和用戶數(shù)量的增多,可擴(kuò)展性變差。針對(duì)這兩個(gè)問題,一方面可以通過改進(jìn)相似度計(jì)算方法來改善數(shù)據(jù)稀疏性;另一方面,可以采用分布式編程來提高算法的可擴(kuò)展性。

3 基于項(xiàng)目的協(xié)同過濾

將用戶對(duì)不同項(xiàng)目的評(píng)分行為用矩陣來表示,以此計(jì)算項(xiàng)目之間的相似度,根據(jù)相似度排序?yàn)橛脩敉扑]與用戶偏好相似度高的項(xiàng)目。每個(gè)用戶操作獨(dú)立,有獨(dú)立的特征向量,不受相鄰用戶的偏好影響,可以為目標(biāo)用戶推薦其感興趣的、新的、冷門的項(xiàng)目,使算法不受冷啟動(dòng)和稀疏性問題的影響,過程如圖2 所示。

圖2 基于項(xiàng)目的協(xié)同過濾過程Fig.2 Project-based collaborative filtering process

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境為:Inter(R)Core(TM)i5-2410M CPU@ 2.30 GHz;8 GB 內(nèi)存;操作系統(tǒng)是Winsdow10 64 位,利用Jupyter Notebook 進(jìn)行編程。實(shí)驗(yàn)數(shù)據(jù)集從MovieLens(https://grouplens.org/datasets/movielens/)中抽取。電影的評(píng)分范圍為[1,5]區(qū)間所有整數(shù)值,用戶對(duì)電影的喜好程度由1 到5 逐漸遞增,數(shù)值越大,喜歡程度越深。實(shí)驗(yàn)數(shù)據(jù)集包含了用戶信息,評(píng)分信息,電影信息。

4.2 評(píng)價(jià)指標(biāo)

4.2.1 召回率(Recall)

召回率(Recall)又稱為查全率,表示樣本中正例被預(yù)測(cè)正確的比例,召回率為

其中,TP表示預(yù)測(cè)結(jié)果為正,實(shí)際結(jié)果為正;FN表示預(yù)測(cè)結(jié)果為負(fù),實(shí)際結(jié)果為正;TP +FN表示實(shí)際結(jié)果為正的樣例。

4.2.2 精確率(Precision)

精確率(Precision)又稱為查準(zhǔn)率。表示預(yù)測(cè)為正的樣本中正樣本的比例,精確率為

其中,TP表示預(yù)測(cè)結(jié)果為正,實(shí)際結(jié)果為正;FP表示預(yù)測(cè)結(jié)果為正,實(shí)際結(jié)果為負(fù);TP +FP表示預(yù)測(cè)結(jié)果為正的樣例。

4.2.3 覆蓋率(coverage)

覆蓋率(coverage)是度量測(cè)試完整性的手段,覆蓋率為

4.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)1用戶數(shù)大于項(xiàng)目數(shù)

將兩種算法對(duì)同一數(shù)據(jù)集,6 040 個(gè)用戶對(duì)3 925部電影共1 000 209條評(píng)論信息進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表1。實(shí)驗(yàn)證明基于項(xiàng)目的協(xié)同過濾算法準(zhǔn)確率更高,而基于用戶的算法召回率、覆蓋率更高,從時(shí)間上看基于用戶的算法效率更高。

表1 用戶數(shù)大于項(xiàng)目數(shù)Tab.1 The number of users is greater than the number of items

實(shí)驗(yàn)2用戶數(shù)小于項(xiàng)目數(shù)

將兩種算法對(duì)同一數(shù)據(jù)集,610 個(gè)用戶對(duì)9 742部電影的評(píng)論信息進(jìn)行實(shí)驗(yàn),結(jié)果見表2。實(shí)驗(yàn)證明基于項(xiàng)目的協(xié)同過濾算法精準(zhǔn)率、覆蓋率更高,而基于用戶的算法召回率更高,從時(shí)間上看基于用戶的算法效率更高。

表2 用戶數(shù)小于項(xiàng)目數(shù)Tab.2 The number of users is less than the number of items

結(jié)論:

(1)從精確率來說,基于項(xiàng)目的協(xié)同過濾算法質(zhì)量更高。

(2)從時(shí)間成本來說,基于用戶的協(xié)同過濾算法效率更高。

5 結(jié)束語

信息大爆炸時(shí)代,面對(duì)如此龐大數(shù)量的信息,如何有效篩選有用信息是個(gè)性化推薦算法的主要目的,也極具商業(yè)價(jià)值。本文就協(xié)同過濾算法的選擇對(duì)象不同,對(duì)基于項(xiàng)目和基于用戶的協(xié)同過濾算法進(jìn)行了比較分析研究,實(shí)驗(yàn)表明兩種算法各具其特色,從精確率角度,基于項(xiàng)目的協(xié)同過濾算法質(zhì)量更高;從時(shí)間成本角度,基于用戶的協(xié)同過濾算法效率更高,應(yīng)該在適宜的情況下,用相應(yīng)的算法。當(dāng)考慮精確率時(shí),就使用基于項(xiàng)目的協(xié)同過濾算法,當(dāng)考慮時(shí)間成本時(shí),就使用基于用戶的協(xié)同過濾算法。

猜你喜歡
項(xiàng)目數(shù)用戶數(shù)協(xié)同
蜀道難:車與路的協(xié)同進(jìn)化
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
“中國PPP大數(shù)據(jù)” 之全國PPP綜合信息平臺(tái)項(xiàng)目管理庫2017年報(bào)
三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
基于VBS實(shí)現(xiàn)BRAS在線用戶數(shù)的自動(dòng)提取
協(xié)同進(jìn)化
2016年6月電話用戶分省情況
2013年12月電話用戶分省情況
2013年4月電話用戶分省情況
我校 46個(gè)項(xiàng)目獲得 2010年度國家自然科學(xué)基金批準(zhǔn)立項(xiàng)
临朐县| 绥棱县| 马山县| 白沙| 盈江县| 翁源县| 临清市| 永德县| 诸暨市| 惠东县| 潞城市| 德庆县| 迭部县| 寻甸| 精河县| 成武县| 江油市| 长沙市| 宁德市| 射阳县| 固镇县| 虞城县| 东山县| 和龙市| 克山县| 喀什市| 银川市| 丹凤县| 垦利县| 安康市| 铜鼓县| 皮山县| 南溪县| 栾城县| 尉氏县| 石屏县| 科技| 福建省| 乌拉特后旗| 蓬安县| 镇远县|