摘 ?要 ?電子商務(wù)的快速發(fā)展為企業(yè)帶來了新的契機(jī),同時(shí)由于網(wǎng)站物品種類的增多,基數(shù)變得龐大,尋求需求物品信息變得麻煩且費(fèi)時(shí)。電子商務(wù)中對(duì)用戶商品的推薦就是利用資源信息進(jìn)行整合過后向用戶推薦的過程。協(xié)同過濾算法的優(yōu)越性使它成為目前最成功的方法。Memory-based協(xié)同過濾算法有User-based以及Item-based兩種協(xié)同過濾算法。在實(shí)際的電子商務(wù)中,用戶對(duì)商品的使用或者評(píng)分評(píng)價(jià)總量不超過所有總量的百分之一,其影響了“用戶-項(xiàng)目評(píng)分?jǐn)?shù)據(jù)集”的缺失,影響了推薦精度,對(duì)此本文針對(duì)用戶信任以及項(xiàng)目偏好的融合進(jìn)行了協(xié)同過濾算法的研究。
關(guān)鍵詞 ?協(xié)同過濾 ?信息融合 ?推薦系統(tǒng) ?模糊聚類
引言:
Memory-based協(xié)同過濾算法最核心的要點(diǎn)就是用戶對(duì)某一商品的評(píng)價(jià)。系統(tǒng)通過數(shù)據(jù)的整合統(tǒng)計(jì)對(duì)用戶進(jìn)行分組,在研究中稱之為鄰居,他們的偏好和目標(biāo)用戶偏好之間具有較高的一致性。這種評(píng)價(jià)數(shù)據(jù)由于商品的總占比很低而造成了稀疏性,因此引起了用戶組合定位的不精準(zhǔn)。Item-based系統(tǒng)過濾算法的缺陷是因?yàn)橹荒芡ㄟ^用戶已購買商品進(jìn)行推薦,用戶的興趣無法提前挖掘,進(jìn)行“跨類型”推薦[1]。
一、協(xié)同過濾相關(guān)工作
不管是User-based還是Item-based,兩者都是利用了用戶對(duì)商品評(píng)價(jià)的數(shù)據(jù)來對(duì)目標(biāo)用戶實(shí)現(xiàn)目標(biāo)推薦。其中User-based算法在進(jìn)行運(yùn)算時(shí)并沒有充分進(jìn)行興趣與購買商品關(guān)系的調(diào)整。Item-based算法則沒有充分做好鄰居的興趣項(xiàng)目與目標(biāo)用戶之間關(guān)系的調(diào)整[2]。
本文針對(duì)用戶信任和項(xiàng)目偏好相融合的協(xié)同過濾算法的研究整合了User-based以及Item-based的基本算法理論。結(jié)合了模糊聚類算法,利用相關(guān)算法實(shí)現(xiàn)相近項(xiàng)目以及用戶之間的類聚[3]。
這種評(píng)價(jià)的數(shù)據(jù)算法在電子商務(wù)中體現(xiàn)為通過以往用戶群對(duì)某一種商品進(jìn)行評(píng)價(jià)來使目標(biāo)用戶對(duì)該商品關(guān)注點(diǎn)進(jìn)行預(yù)測的過濾過程。通過矩陣R(m,n)來體現(xiàn)該數(shù)據(jù),用戶以及項(xiàng)目在該矩陣中分別用行列表示;也可以利用行向量R來表示“用戶-項(xiàng)目”評(píng)分?jǐn)?shù)據(jù)R=[u1,u2,……,um]T,UK=[RK1,RK2,……,RKn]T,k=1,2,……,m或者列向量R=[t1,t2,……,tn],tl=[R1l,R2l,……,Rml],l=1,2,……,n。其中表示某用戶UK對(duì)某項(xiàng)目tl的評(píng)分。
User-based算法,就是依據(jù)最接近的鄰居對(duì)商品的評(píng)價(jià)數(shù)據(jù)進(jìn)行目標(biāo)客戶的商品推薦過程。這種算法最中心的要點(diǎn)就是尋找一個(gè)精準(zhǔn)的鄰居集(鄰集的選擇可以使用K近鄰法和閾值的設(shè)立,后者要注意在進(jìn)行閾值設(shè)立的過程中應(yīng)嚴(yán)格控制好數(shù)值的高低,太高或者太低會(huì)造成項(xiàng)目的缺少和無篩選意義)。相似鄰居查找準(zhǔn)確度以及效率定位了User-based算法的有效性。鄰居相似度度量計(jì)算中的相關(guān)性計(jì)量sim(x,y)表示為
其中Rxs和Rys分別代表用戶x和用戶y對(duì)項(xiàng)目s的評(píng)分;Rx和Ry表示用戶x、y對(duì)項(xiàng)目的平均評(píng)分;Sxy表示用戶x、y的交集。
沒有進(jìn)行評(píng)分評(píng)價(jià)的項(xiàng)目預(yù)測表達(dá)式如下:
其中x、p、lu分別表示項(xiàng)目、用戶、相似用戶數(shù)。
“Item-based協(xié)同過濾算法”與“User-based協(xié)同過濾算法”的要點(diǎn)具有一定的相似性,其中只是對(duì)“歷史評(píng)分?jǐn)?shù)據(jù)集”的相識(shí)度計(jì)算進(jìn)行了“用戶相似度”的替換。
項(xiàng)目進(jìn)行相似度計(jì)算過后相似項(xiàng)目集選取的公式如下
評(píng)分Pus中u、s、lt、sim(s,d)表示預(yù)測用戶,未平項(xiàng)目,相識(shí)項(xiàng)目數(shù),項(xiàng)目相似度。
協(xié)同過濾的算法過程如圖2-3
協(xié)同過濾的過程中,矩陣m×n目的是進(jìn)行相似用戶的尋找,如果對(duì)某一種商品越有興趣,在矩陣中體現(xiàn)為評(píng)價(jià)分?jǐn)?shù)越高,在進(jìn)行推薦前要進(jìn)行預(yù)測以及最終的推薦。如果用戶沒有進(jìn)行商品集合,但是在相同商品的學(xué)者用戶中對(duì)物品集合有著較高的評(píng)價(jià),就會(huì)按照預(yù)測評(píng)分對(duì)目標(biāo)用戶進(jìn)行相應(yīng)推薦。
二、用戶信任和項(xiàng)目偏好相融合的協(xié)同過濾算法
要充分實(shí)現(xiàn)用戶信任以及項(xiàng)目偏好之間互相通過的協(xié)同過濾算法的最基本思想就是用戶進(jìn)行商品評(píng)價(jià)數(shù)據(jù)以及商品屬性的充分利用來實(shí)現(xiàn)目標(biāo)用戶的商品推薦。項(xiàng)目協(xié)同過濾法的評(píng)分?jǐn)?shù)據(jù)極為稀疏,相似用戶的集合難以準(zhǔn)確定位[4]。
研究過程主要分為三步:第一步,模糊聚類,對(duì)象是用戶對(duì)商品的評(píng)價(jià)數(shù)集;第二步,進(jìn)行沒有評(píng)價(jià)項(xiàng)目的初始預(yù)測,并且將預(yù)測的數(shù)據(jù)填充于評(píng)分?jǐn)?shù)據(jù)集中;第三步,通過計(jì)算所擁有的數(shù)據(jù),算出相似用戶集,完成所有項(xiàng)目的評(píng)分以及預(yù)測評(píng)分。
(一)未評(píng)分項(xiàng)目的初始預(yù)測
把評(píng)分?jǐn)?shù)據(jù)接近的項(xiàng)目進(jìn)行一個(gè)簇的聚集叫做聚類分析,在一個(gè)簇中利用協(xié)同過濾法進(jìn)行沒有評(píng)分項(xiàng)目的用戶預(yù)測評(píng)分,通過該手段可以降低評(píng)分?jǐn)?shù)據(jù)稀疏性和計(jì)算維度[5]。
第一步,把“模糊c-均值算法”運(yùn)用到用戶對(duì)商品評(píng)價(jià)數(shù)據(jù)的矩陣R中,并進(jìn)行劃分,R1,R2,R3,……,Rc,其中R1∪R2∪R3……∪Rg=R,Ri∩Rj=φ。
第二步,進(jìn)行ua和Ruata所屬類的查找,如果Ruata∈Ri,,則Ri中的項(xiàng)目可以作為沒有評(píng)分項(xiàng)目的鄰居。
第三步,在類似Ri中利用相關(guān)相似性作為度量函數(shù)的計(jì)算,未評(píng)分項(xiàng)目ta與鄰居項(xiàng)目tb相似度關(guān)系為:
第四步,進(jìn)行ua對(duì)ta的評(píng)分P的預(yù)測以及評(píng)價(jià)數(shù)據(jù)矩陣的填充,P的表達(dá)式為:
(二)未評(píng)分項(xiàng)目的評(píng)分預(yù)測
進(jìn)行預(yù)測填充的用戶對(duì)商品評(píng)價(jià)數(shù)據(jù)矩陣通過模糊c-均值聚類法進(jìn)行興趣相近的用戶分配,利用簇中的相關(guān)用戶進(jìn)行商品的預(yù)測評(píng)價(jià)[6]。具體計(jì)算步驟如下:
第一步,使用模糊c-均值算法與用戶對(duì)商品評(píng)價(jià)數(shù)據(jù)矩陣A中,將其分為g類:A1,A2,A3,A4,……,Ag,其中A1∪A2∪A3……∪Ag=A,Ai∩Aj=φ。
第二步進(jìn)行Ua鄰居的確定,Ua∈Ai則Ai中的用戶即為Ua的鄰居。
第三步,計(jì)算Ua的與Ua的一致程度,查找Ai中目標(biāo)用戶與其他用戶在初始評(píng)分?jǐn)?shù)矩陣中項(xiàng)目并集S,其中沒有進(jìn)行評(píng)分的項(xiàng)目通過(一)中步驟進(jìn)行填充,在S中利用相關(guān)相似性度量的方法進(jìn)行相似度計(jì)算。
第四步,在Ai中,將沒有進(jìn)行評(píng)價(jià)的項(xiàng)目實(shí)現(xiàn)預(yù)測評(píng)分。
三、實(shí)驗(yàn)以及結(jié)果分析
利用Minnesota GroupLens Research的MovieLens數(shù)據(jù)集進(jìn)行了一個(gè)實(shí)驗(yàn),在MovieLens數(shù)據(jù)集中對(duì)200個(gè)用戶的800部電影評(píng)分?jǐn)?shù)據(jù)進(jìn)行截取,然后進(jìn)行訓(xùn)練集和測試集的劃分,其比例為0.8,并在所測試的對(duì)象中選擇五個(gè)評(píng)價(jià)作為透明。
采用MEA(Mean Absolute Error)來進(jìn)行上述幾種算法的科學(xué)性和準(zhǔn)確性測量,最終得到的MAE值的大小表明了對(duì)應(yīng)算法效果的優(yōu)劣與推薦商品精準(zhǔn)性的高低。測試集中項(xiàng)目評(píng)分和用戶的MAE表示為
該式子中Pxs、Rxs、L分別代表用戶x對(duì)項(xiàng)目s的評(píng)分值預(yù)測、x對(duì)s的實(shí)際評(píng)分、測試集合基數(shù)。
實(shí)驗(yàn)將基于“用戶的協(xié)同過濾算法”、“用戶聚類的協(xié)同過濾算法”進(jìn)行協(xié)同參照,計(jì)算出每個(gè)絕對(duì)值偏差MAE,通過MAE比較來進(jìn)行推薦算法的質(zhì)量比較。最終的實(shí)驗(yàn)結(jié)果為:“用戶的協(xié)同過濾算法”、“用戶聚類的協(xié)同過濾算法”MAE分別為0.7824、0.8205,而融合了用戶以及項(xiàng)目信息的協(xié)同過濾法MAE為0.7621。該實(shí)驗(yàn)結(jié)果表明在三種方法中本文所探究的計(jì)算方法所算出的MAE最小,同時(shí)也驗(yàn)證了該種算法所進(jìn)行推薦商品的質(zhì)量最高。
四、結(jié)束語
我們通過研究發(fā)現(xiàn),基于用戶的協(xié)同算法的計(jì)算的復(fù)雜度是遠(yuǎn)高于基于條目的復(fù)雜度,所以在不同的使用場景我們需要根據(jù)產(chǎn)品和用戶需求,以及使用環(huán)境來選擇合適的算法。
基于用戶信任和項(xiàng)目偏好相融合的協(xié)同過濾算法擁有自己強(qiáng)大的優(yōu)勢,首先我們可以看出利用用戶相似度矩陣給出的推薦一般在多樣性上都是會(huì)有比較好的結(jié)果,但是用戶的收藏不一定相似,其實(shí)這樣反而給用戶的收藏補(bǔ)充了新的內(nèi)容,這樣可能也會(huì)存在一些沒有用的噪聲,但是他也能給用戶帶來不一樣的驚喜。 基于用戶信任和項(xiàng)目偏好相融合的協(xié)同過濾算法也有自己明顯的缺點(diǎn),當(dāng)我們把他運(yùn)用到大規(guī)模的系統(tǒng)中的時(shí)候,系統(tǒng)的計(jì)算量會(huì)明顯劇增,非常大,對(duì)硬件要求比較高。同事用戶沒有新的內(nèi)容收藏,這個(gè)時(shí)候就不會(huì)有先的內(nèi)容推薦。如果用戶相似度比較小,這時(shí)為用戶計(jì)算相似用戶難度就比較大,這也是基于用戶信任和項(xiàng)目偏好相融合的協(xié)同過濾算法的缺點(diǎn)。
在基于用戶信任和項(xiàng)目偏好相融合的協(xié)同過濾算法中,充分進(jìn)行了用戶對(duì)商品評(píng)價(jià)數(shù)據(jù)相關(guān)信息的利用,極大程度地降低了數(shù)據(jù)的稀疏性,提高了項(xiàng)目預(yù)算結(jié)構(gòu)的精準(zhǔn)性。同時(shí)引入了模糊聚類的算法思想,減小了維度以及計(jì)算量,提高了預(yù)算速率。該方法在用戶信任、相似性以及屬性多個(gè)方面進(jìn)行了傳統(tǒng)算法的改進(jìn),相關(guān)的實(shí)驗(yàn)結(jié)果也給予了肯定,但是評(píng)分時(shí)間的納入、云散復(fù)雜度的減小依然需要進(jìn)一步探討和研究。
參考文獻(xiàn):
[1]王艷. 融合信任關(guān)系的協(xié)同過濾算法改進(jìn)研究[D]. 北京交通大學(xué), 2017.
[2]楊秀梅, 孫詠, 王丹妮,等. 融合用戶信任模型的協(xié)同過濾推薦算法[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用, 2016, 25(7):165-170.
[3]何明, 孫望, 肖潤,等. 一種融合聚類與用戶興趣偏好的協(xié)同過濾推薦算法[J]. 計(jì)算機(jī)科學(xué), 2017, 44(b11):391-396.
[4]鄭潔, 錢育蓉, 楊興耀,等. 基于信任和項(xiàng)目偏好的協(xié)調(diào)過濾算法[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(10):2784-2788.
[5]朱愛云, 任曉軍. 基于社會(huì)信任和隱式項(xiàng)目的協(xié)同過濾推薦算法的研究[J]. 現(xiàn)代計(jì)算機(jī)(專業(yè)版), 2018(5).
[6]王明佳, 韓景倜. 基于用戶對(duì)項(xiàng)目屬性偏好的協(xié)同過濾算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2017, 53(6):106-110.
作者簡介:楊俊芳,對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)高級(jí)研修班。