国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于協(xié)同過濾的多維度電影推薦方法研究

2019-04-25 07:52:16張家鑫劉志勇張琳張倩莎仁
關(guān)鍵詞:多維度協(xié)同預(yù)測

張家鑫,劉志勇,2,張琳,張倩,莎仁

(1.東北師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,長春 130117;2.東北師范大學(xué) 教育部數(shù)字化學(xué)習(xí)支撐技術(shù)工程研究中心,長春 130117;3.吉林大學(xué) 軟件學(xué)院,長春 130012)

隨著互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè)的不斷優(yōu)化升級,移動(dòng)端智能設(shè)備的不斷普及,用戶瀏覽互聯(lián)網(wǎng)的體驗(yàn)有了巨大的提升,人們對互聯(lián)網(wǎng)的需求日益增多,互聯(lián)網(wǎng)已經(jīng)完全融入了人們的生活,成為了與之密不可分的重要組成部分[1]。用戶如何從大量數(shù)據(jù)中快速便捷選擇出有效信息的需求日益增加,搜索引擎的出現(xiàn)初步解決了這一問題。但是,隨著信息的爆發(fā)式增長,用戶的需求往往較為模糊[2],所以如何通過用戶的個(gè)人信息、瀏覽記錄等為用戶進(jìn)行信息推送,減少因用戶的模糊需求影響信息獲取的效率,推薦系統(tǒng)的出現(xiàn)較好的解決了這一問題[3]。

推薦系統(tǒng)在1997年由Resnick和Varian提出,其中協(xié)同過濾推薦方法出現(xiàn)較早并且應(yīng)用廣泛,是推薦系統(tǒng)中最重要的推薦方法之一[4]。推薦系統(tǒng)廣泛應(yīng)用電子商務(wù)、電影和視頻、音樂、社交網(wǎng)絡(luò)、個(gè)性化閱讀、個(gè)性化郵件、基于位置的服等領(lǐng)域,其中較為典型的包括Amazon、Netflix等。據(jù)Amazon統(tǒng)計(jì),推薦系統(tǒng)的應(yīng)用使平臺(tái)的銷量增加35%。Netflix公司曾在2006年舉辦Netflix Prize大賽,該大賽為了獎(jiǎng)勵(lì)可以提升Netflix平臺(tái)的影片推薦效率[5]。推薦系統(tǒng)發(fā)展至今,由于用戶的個(gè)人狀態(tài)以及所處環(huán)境的差異,使得進(jìn)行推薦的情景也不斷增加,在視頻和音樂推薦領(lǐng)域顯得較為突出。以電影推薦為例,傳統(tǒng)的協(xié)同過濾推薦方法在進(jìn)行推薦時(shí),只考慮了用戶和項(xiàng)目的二維關(guān)系,忽略了包括環(huán)境因素、影片信息、觀影感受等多維度影響因素,這會(huì)導(dǎo)致與用戶的實(shí)際傾向存在一定的偏差[6],針對這種情況,本文提出了基于協(xié)同過濾的多維度電影推薦方法,主要改進(jìn)如下:以電影推薦為例,首先通過回歸模型確定有效的多維度因素以及維度內(nèi)的屬性,接下來通過進(jìn)一步確定各維度屬性對于預(yù)測評分的影響程度和權(quán)重,獲得多維度預(yù)測模型,最后將多維度評分模型與傳統(tǒng)協(xié)同過濾推薦模型結(jié)合,通過實(shí)驗(yàn)的方法,確定結(jié)合后的模型,驗(yàn)證模型推薦準(zhǔn)確率。

1 相關(guān)研究

為提升協(xié)同過濾推薦方法的推薦效率,許多研究者在傳統(tǒng)協(xié)同過濾推薦方法的基礎(chǔ)上進(jìn)行了改進(jìn),例如:牛常勇等[7]通過SVD方法緩解數(shù)據(jù)集的稀疏與冷啟動(dòng)問題。王茜等[8]通過引入時(shí)間遺忘函數(shù)、拈度函數(shù)、用戶特征向量,對協(xié)同過濾算法尋找用戶的最近部居集合過程進(jìn)行了改進(jìn),提高推薦的準(zhǔn)確度。王曉軍[9]構(gòu)建基于分布式的混合協(xié)同過濾方法,緩解稀疏矩陣問題,改善推薦精度。邢哲等[10]提出了多維度自適應(yīng)協(xié)同過濾推薦方法,該方法融合了基于項(xiàng)目、用戶、評論的協(xié)同過濾模型,實(shí)現(xiàn)精準(zhǔn)預(yù)測。張世顯[11]等提出了引入時(shí)間維模型作為評分權(quán)重,解決了興趣遷移的問題。

本文提出的改進(jìn)方法與上述方法不同,通過引入對推薦結(jié)果可能有影響的多維度因素,利用回歸分析的手段進(jìn)行多維屬性因素選取并構(gòu)建多維度評分模型,最終與基于用戶的協(xié)同過濾模型有機(jī)結(jié)合,構(gòu)建基于協(xié)同過濾的多維度推薦模型。

1.1 協(xié)同過濾推薦方法

協(xié)同過濾推薦方法的主要思想是利用他人的歷史記錄或項(xiàng)目評分為目標(biāo)用戶進(jìn)行產(chǎn)品推薦或項(xiàng)目評分[12]。協(xié)同過濾推薦方法由以下三個(gè)步驟組成,包括構(gòu)建用戶-項(xiàng)目評分矩陣、尋找相似目標(biāo)、預(yù)測評分進(jìn)行推薦。

其中尋找向目標(biāo)的方法為計(jì)算用戶相似度計(jì)算,根據(jù)計(jì)算用戶-項(xiàng)目評分矩陣(表1所示)尋找當(dāng)前與用戶Ui的最近鄰相似用戶。

表1 用戶-項(xiàng)目評分矩陣

用戶相似度的計(jì)算方式主要包括余弦相似度計(jì)算(Cosine-Based Similarity)、皮爾森相關(guān)系數(shù)(Pearson-Correlation Coefficient)、杰拉德系數(shù)(Jaccard),本文采用皮爾森相關(guān)系數(shù)。

設(shè)Iuv為用戶u和用戶v共同評分過的項(xiàng)目集合,則用戶u和用戶v的相似度度量方法如式1所示:

基于目標(biāo)用戶u與其他用戶v的相似度,對其他用戶相似度進(jìn)行排序,取前k個(gè)為當(dāng)前用戶u的最近鄰集合KNN-u,根據(jù)該集合預(yù)測用戶u對項(xiàng)目i的評分,計(jì)算方式如式2所式:

式中,Ru.i和Rv.i分別表示用戶u對項(xiàng)目i的評分和用戶v對項(xiàng)目i的評分,分別表示用戶u和用戶v的平均評分,KNN-u代表目標(biāo)用戶u的最近鄰集合。

1.2 線性回歸

線性利用數(shù)理統(tǒng)計(jì)中的回歸分析來確定兩種或兩種以上變量之間相互依賴的關(guān)系,運(yùn)用廣泛[13]。本文選取多元回歸模型進(jìn)行維度確定,多元回歸模型的一般形式如3所式:

式中,ε為隨機(jī)誤差,E(ε)=0。β0,β1,β2,…,βn為回歸系數(shù),若回歸系數(shù)為正數(shù),則表示y隨著x的增大而增大,且x對y的影響程度與|β|成正比。

1.3 多維度推薦

傳統(tǒng)的推薦系統(tǒng)是基于用戶-項(xiàng)目二維度量空間,未考慮情感信息、環(huán)境信息等相關(guān)信息,忽略了隱式反饋信息對預(yù)測評分的重要性,然而用戶對項(xiàng)目的評分是由多個(gè)因素共同決定的,所以多維度推薦方法對推薦準(zhǔn)確率能有一定的提高。

可以認(rèn)為多維度推薦預(yù)測評分由用戶與多維因素共同決定,故定義用戶-多維度評分矩陣如式4所示:

定義d為多維度內(nèi)的因素屬性,dnm為維度Dn中的屬性m,(dn1,dn2…dnm)∈Dn。

2 多維因素分析與選取

本文進(jìn)行的多維因素分析是以視頻推薦為背景,通過用戶觀看電影的多維信息因素進(jìn)行數(shù)學(xué)模型的建立,最終確定哪些因素會(huì)影響用戶對電影的評分。其中,多維度影響因素周邊環(huán)境、觀影時(shí)的心情、觀影時(shí)的身體狀況等相關(guān)信息組成。

2.1 構(gòu)建回歸模型

對數(shù)據(jù)中可能影響評分的多維屬性構(gòu)建回歸模型,將選取線性回歸(Linear Regression)方式進(jìn)行函數(shù)擬合,最終獲得對評分影響較大的屬性因素。線性回歸模型通過RapidMiner工具進(jìn)行模型構(gòu)建,步驟如下:

(1)數(shù)據(jù)預(yù)處理,在讀取數(shù)據(jù)后,利用Shuffle算子將樣本隨機(jī)打亂,并將原始數(shù)據(jù)分為兩份,訓(xùn)練集用于建模,測試集用于模型評估。

(2)進(jìn)行建模,將預(yù)測評分屬性設(shè)為標(biāo)簽屬性,利用Linear Regression、Apply model算子進(jìn)行模型構(gòu)建,Performance算子進(jìn)行模型評價(jià)。

(3)獲取線性回歸模型結(jié)果,利用評價(jià)指標(biāo)對模型表現(xiàn)進(jìn)行評估,抽取對預(yù)測結(jié)果影響較大的屬性。

2.2 多維評分模型構(gòu)建

通過初步回歸分析,獲得了有效的多維影響因素,接下來對已抽取的影響因素進(jìn)一步回歸分析,進(jìn)而確定多維因素屬性的權(quán)重。

假設(shè)獲取有效的屬性因素k個(gè),記錄各影響因素屬性相關(guān)系數(shù)為β1,β2,…,βn,定義各屬性因素權(quán)重為β1,β2,…,βn,因此定義各屬性維度評分模型如式5所示:

式中,K為屬性集合,rf表示屬性因素f的屬性值,βf為屬性f的權(quán)重,ru,i,f為用戶u對于項(xiàng)目i在屬性f在下的預(yù)測評分。

定義多維度評分模型如式6所示:

可化簡為式7:

式中,Ru,i,multi為用戶u對于項(xiàng)目i的多維度預(yù)測評分。

3 多維度協(xié)同過濾評分模型提出

個(gè)性化推薦中最為關(guān)鍵的環(huán)節(jié)是通過推薦模型計(jì)算出用戶對未評分的項(xiàng)目進(jìn)行評分預(yù)測。傳統(tǒng)的協(xié)同過濾方法在進(jìn)行評分預(yù)測時(shí),僅僅考慮了用戶和項(xiàng)目兩個(gè)維度。為了將多維度影響因素添加到評分預(yù)測中,本文在原有協(xié)同過濾推薦方法的基礎(chǔ)上提出了基于協(xié)同過濾的多維度推薦方法。

3.1 傳統(tǒng)協(xié)同過濾評分模型

本文選取基于用戶的協(xié)同過濾推薦方法進(jìn)行實(shí)驗(yàn)比較,具體步驟如下:

(1)數(shù)據(jù)輸入,獲取用戶評分矩陣M(u,i),根據(jù)矩陣計(jì)算用戶相似度,得到與用戶u相似的用戶集合U。

(2)對于?u∈U,找到與用戶u相似的最高的k個(gè)最近鄰v,最近鄰用戶集合為KNN(u,v,k)。

(3)選擇出KNN集合中的商品,除去用戶u已評分的商品,通過評分模型進(jìn)行分?jǐn)?shù)預(yù)測。

(4)數(shù)據(jù)輸出,獲取用戶u對商品i的預(yù)測評分,按照預(yù)測值降序進(jìn)行TOP-N推薦。

3.2 多維度協(xié)同過濾評分模型

在傳統(tǒng)的協(xié)同過推薦中,只考慮了相似用戶對項(xiàng)目的評分從而計(jì)算目標(biāo)用戶的預(yù)測評分,該方法存在著預(yù)測評分獲取單一、易受主觀因素影響等問題,因此提出多維度協(xié)同過評分模型,在傳統(tǒng)協(xié)同過濾方法的基礎(chǔ)上添加多維度信息,充分考慮主客觀因素,涵蓋顯式反饋信息與隱式反饋信息,使預(yù)測評分變得更加合理。舉個(gè)簡單的例子,假設(shè)用戶u對影片a、b、c均進(jìn)行了評分,其中對影片a、b評分略高于影片c,考慮到用戶在觀看影片c時(shí)的環(huán)境因素不同于觀看影片a、b時(shí),所以簡單的認(rèn)為用戶u對影片a、b的喜好程度大于影片c的觀點(diǎn)是片面的,不同用戶的評分依據(jù)除了對影片本身的喜好程度之外也包含著用戶的觀影環(huán)境、觀影心情等種因素影響,為解決這一問題,故提出了基于協(xié)同過濾的多維度電影推薦方法,在已知用戶對影片評分的基礎(chǔ)上進(jìn)一步考慮多維度因素對于用戶評分的重要程度。

通過將2.2中定義的多維度評分模型與基于用戶的協(xié)同過濾評分模型進(jìn)行擬合,構(gòu)建基于協(xié)同過濾的多維度評分模型,定義模型如式8所示:

式中,R代表多維度協(xié)同過濾評分模型的預(yù)測評分,α為模型擬合系數(shù),α∈(0,1)。

構(gòu)建該評分模型的流程圖如圖1所示:

圖1 基于協(xié)同過濾的多維度推薦方法流程圖

4 實(shí)驗(yàn)數(shù)據(jù)與結(jié)果分析

本節(jié)主要是將本文提出的基于協(xié)同過濾的多維度推薦方法與傳統(tǒng)的協(xié)同過濾推薦方法進(jìn)行實(shí)驗(yàn)對比分析,以驗(yàn)證多維度推薦方法的有效性。分別通過數(shù)據(jù)集中的實(shí)驗(yàn)集和測試集來計(jì)算出兩種推薦方法的推薦準(zhǔn)確率,通過比較準(zhǔn)確率驗(yàn)證改進(jìn)方法的適用性。

4.1 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境

本文選取的數(shù)據(jù)集為LDOS-CoMoDa,其中包含了121個(gè)用戶對1232部電影的2296條評分記錄。LDOS-CoMoDa數(shù)據(jù)包含了用戶信息、影片信息、環(huán)境信息、評分信息等30個(gè)屬性因素,通過回歸分析后,最終選擇出對預(yù)測評分影響較大的7個(gè)有效屬性因素,并且根據(jù)有效屬性定義了5個(gè)不同維度。具體定義維度-屬性表如表2所示。

實(shí)驗(yàn)環(huán)境為:Windows 7操作系統(tǒng),8GB內(nèi)存,Intel(R) Core(TM) i7-6700HQ CPU 2.60GHz,實(shí)驗(yàn)程序使用Rapid Miner Studio 9.0開發(fā)。

4.2 評價(jià)標(biāo)準(zhǔn)

推薦系統(tǒng)評價(jià)是驗(yàn)證推薦系統(tǒng)是否合格的重要環(huán)節(jié)之一,常用指標(biāo)包括準(zhǔn)確度與決策支持精度[14],本文主要使用統(tǒng)計(jì)精度度量中的平均絕對誤差(Mean Absolute Error)來進(jìn)行模型評價(jià)。

平均絕對誤差(MAE)的評價(jià)方式為計(jì)算預(yù)測評分與實(shí)際評分二者的絕對平均誤差,MAE越小,代表預(yù)測結(jié)果更趨近于真實(shí)值,即推薦結(jié)果較優(yōu)。MAE評價(jià)公式如式9所示:

式中,| Test|為測試集合,pi表示用戶對集合中各項(xiàng)目的實(shí)際評分,qi表示預(yù)測得分。

4.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果

表2 多維度數(shù)據(jù)集維度-屬性表

為了使測試結(jié)果更加準(zhǔn)確,在進(jìn)行基于用戶的協(xié)同過濾方法與基于協(xié)同過濾的多維度推薦方法實(shí)驗(yàn)時(shí),將數(shù)據(jù)集隨機(jī)分為10份,輪流將其中9份作為訓(xùn)練集,1份作為測試集進(jìn)行實(shí)驗(yàn)。

4.3.1 傳統(tǒng)協(xié)同過濾實(shí)驗(yàn)

本文選取基于用戶的協(xié)同過濾方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中設(shè)定近鄰數(shù)量k的取值范圍為[5,100],采用區(qū)間漸進(jìn)的方法,間隔為5,通過調(diào)整k值來觀察實(shí)驗(yàn)結(jié)果。由圖1可以看出,傳統(tǒng)協(xié)同過濾推薦方法的MAE值在(0.92,0.99)范圍內(nèi)波動(dòng),當(dāng)k=50時(shí),MAE取最小值,MAE=0.921,此時(shí)該方法推薦效率最高。

圖2 基于用戶的協(xié)同過濾方法MAE

4.3.2 多維度協(xié)同過濾推薦實(shí)驗(yàn)

通過回歸分析,首先選擇出對預(yù)測評分影響較大的7個(gè)有效屬性因素及屬性權(quán)重(詳見表2),進(jìn)一步基于已選擇的影響因素構(gòu)建多維度評分模型,再通過式8,可構(gòu)建基于協(xié)同過濾的多維度推薦模型。由于式8中的α未知,下面將通過實(shí)驗(yàn)的方法選取較優(yōu)的α值使改進(jìn)方法的MAE取值降至最低。

圖3 基于協(xié)同過濾的多維度推薦方法MAE

通過圖2所示,傳統(tǒng)協(xié)同過濾方法在k=50時(shí),MAE取值降至最低,故默認(rèn)改進(jìn)方法中協(xié)同過濾算法的k值保持不變。

實(shí)驗(yàn)中,設(shè)定改進(jìn)的推薦方法中α取值范圍為[0,1],采用區(qū)間漸進(jìn)法,間隔為0.1,通過調(diào)整α取值,獲得不同的改進(jìn)方法MAE取值,實(shí)驗(yàn)結(jié)果如圖3所示??梢钥闯觯趨f(xié)同過濾的多維度推薦方法的MAE取值范圍在(0.86,1.04)波動(dòng),當(dāng)α取值為0.9時(shí),MAE獲得最小值,此時(shí)MAE=0.867,推薦效果最優(yōu)。

推薦模型可以定義為如式10所示:

4.3.3 結(jié)果對比分析

通過上述實(shí)驗(yàn),獲得了傳統(tǒng)協(xié)同過濾推薦方法與基于協(xié)同過濾的多維度推薦方法的實(shí)驗(yàn)結(jié)果,將實(shí)驗(yàn)結(jié)果匯總到圖4中。選取實(shí)驗(yàn)結(jié)果中的MAE最優(yōu)值和MAE平均值進(jìn)行兩種推薦方法的比較。在傳統(tǒng)協(xié)同過濾推薦方法中,當(dāng)最近鄰k=50時(shí),MAE值為0.921,此時(shí)該推薦效果最優(yōu)。在基于協(xié)同過濾的多位推薦方法中,當(dāng)擬合系數(shù)α=0.9時(shí),MAE值為0.867,此時(shí)該推薦方法效果最優(yōu)。

圖4 平均絕對誤差對比

在MAE均值方面,傳統(tǒng)的協(xié)同過濾推薦方法中,最近鄰k的取值范圍為[5,100],在取不同k值情況下,該方法的MAE均值為0.932。基于協(xié)同過濾的多維推薦方法中,擬合系數(shù)α的取值范圍[0,1],在取不同α值的情況下,該方法的MAE均值為0.919。

對比上述兩種推薦方法,基于協(xié)同過濾的多維度推薦方法相比傳統(tǒng)協(xié)同過濾推薦方法的推薦效果有一定的提升,其中最優(yōu)MAE取值下降了約6%,MAE均值下降了約2%。

5 結(jié)論

本文在傳統(tǒng)協(xié)同過濾推薦方法的基礎(chǔ)上通過線性回歸確定了多維度影響因素及權(quán)重,并將多維度評分模型與傳統(tǒng)協(xié)同過濾推薦方法相結(jié)合,提出了基于協(xié)同過濾的多維度電影推薦模型,最后通過LDOS-CoMoDa數(shù)據(jù)集進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文提出的基于協(xié)同過濾的多維度電影推薦方法優(yōu)于傳統(tǒng)的協(xié)同過濾推薦,其中基于協(xié)同過濾的多維度電影推薦方法的最優(yōu)MAE取值相比于傳統(tǒng)方法下降了6%,MAE均值下降了約2%,說明合理引入多維影響因素會(huì)對推薦效果有一定的提高,從而側(cè)面反應(yīng)了影響用戶的預(yù)測評分是受多種因素影響的,單一維度的預(yù)測方式不足以應(yīng)對復(fù)雜的推薦場景。但是,本文提出的基于協(xié)同過濾的多維度電影推薦方法也存在著不足之處,回歸分析采用的方法為線性回歸,在應(yīng)對離散數(shù)據(jù)時(shí)擬合效果較差,其次是場景選擇是針對視頻的推薦,在面對其他應(yīng)用場景進(jìn)行推薦時(shí)有一定的局限性。下一步將對以上問題進(jìn)行總結(jié),在未來的研究中將重點(diǎn)改善回歸分析模型的選擇適用性以及應(yīng)用場景的豐富性。

猜你喜歡
多維度協(xié)同預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
蜀道難:車與路的協(xié)同進(jìn)化
“多維度評改”方法初探
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
多維度市南
商周刊(2017年7期)2017-08-22 03:36:22
不必預(yù)測未來,只需把握現(xiàn)在
三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
協(xié)同進(jìn)化
南陵县| 平阴县| 仙居县| 巴中市| 攀枝花市| 确山县| 海门市| 瑞安市| 奉节县| 庄河市| 孝感市| 沙雅县| 镇沅| 彩票| 呼和浩特市| 临洮县| 顺义区| 二手房| 华池县| 青河县| 昆明市| 开远市| 青州市| 五大连池市| 余干县| 尼玛县| 林州市| 馆陶县| 合山市| 环江| 田林县| 瓦房店市| 静宁县| 云南省| 府谷县| 巨鹿县| 赤峰市| 长乐市| 铁岭县| 托里县| 贵州省|