国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分布式符號數(shù)據(jù)的混合推薦算法研究

2021-11-17 04:01王仲君
計算機(jī)仿真 2021年3期
關(guān)鍵詞:分布式符號混合

鐘 乾,王仲君

(武漢理工大學(xué)理學(xué)院,湖北 武漢 430070 )

1 引言

近年來,隨著云計算,大數(shù)據(jù),物聯(lián)網(wǎng)等技術(shù)的迅猛發(fā)展,在為顧客提供越來越多選擇的同時,網(wǎng)絡(luò)數(shù)據(jù)的規(guī)模也呈爆發(fā)式增長。顧客在復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)面前往往需要瀏覽大量的不必要信息來尋找自己喜好的物品,這就是所謂的“網(wǎng)絡(luò)信息過載”。針對這個問題,個性化推薦技術(shù)能夠快速的從紛繁復(fù)雜的數(shù)據(jù)中為用戶獲取有價值的信息,從而受到越來越多人的青睞。一些大型的電子商務(wù)網(wǎng)站,如Amazon、eBay、Netflix等都將推薦系統(tǒng)作為網(wǎng)站的核心技術(shù)。

關(guān)注度的提高使得國內(nèi)外眾多學(xué)者對推薦算法展開了大量研究,個性化混合推薦憑借著可以綜合各種推薦算法的優(yōu)勢而備受矚目[1-3]。劉沛文,陳華鋒[4]針對傳統(tǒng)的推薦算法存在評分矩陣稀疏性的問題,提出了基于用戶行為特征的動態(tài)權(quán)重混合推薦,在數(shù)據(jù)預(yù)處理時,計算出了用戶對于不同物品的個性化行為特征指數(shù),并與協(xié)同過濾混合以提高推薦精度。楊衛(wèi)芳,李學(xué)明[5]將基于熱傳導(dǎo)和基于物質(zhì)擴(kuò)散的兩種方法混合進(jìn)行推薦,并引入用戶活躍度的概念進(jìn)行調(diào)節(jié),實現(xiàn)了資源的重新分配,從而獲得了更好的效果。傳統(tǒng)推薦算法中存在著用戶興趣描述過大的問題,基于此,任磊[6]提出了一種增量學(xué)習(xí)的混合推薦算法。此外,于波[7]等人通過計算項目間屬性的相似性,并與基于項目的協(xié)同過濾算法中的相似性動態(tài)結(jié)合,解決了混合推薦中了推薦精度差,效率低下的問題。為更全面地反映用戶偏好,提高推薦的準(zhǔn)確度,冀振燕[8]提出了融合多源異構(gòu)數(shù)據(jù)的混合推薦模型,該模型綜合考慮了用戶社交關(guān)系和用戶評論對用戶評分的影響,從評論中提取主題信息作為用戶的特征,結(jié)合機(jī)器學(xué)習(xí)方法建立模型,實現(xiàn)推薦。宋文君[9]基于用戶的近期行為能夠更好的反映潛在興趣偏好的思想,提出了基于有限時間窗口的改進(jìn)混合推薦算法,該算法在標(biāo)準(zhǔn)數(shù)據(jù)集上的結(jié)果證實了用戶近期的歷史記錄可以提高算法的推薦精度。Jian Wei[10]等人利用降噪自編碼器挖掘出項目內(nèi)容的特征信息,并結(jié)合到了改進(jìn)的時序矩陣分解算法中,有效的解決了推薦算法中的完全冷啟動和不完全冷啟動的問題。王全民[11]提出了一種基于特征偏好分析的改進(jìn)混合推薦算法,該方法將用戶特征偏好和物品特征相結(jié)合,再使用傳統(tǒng)的協(xié)同過濾思想,將最優(yōu)評分對象推薦給用戶等。

上述的個性化混合推薦模型均是針對點數(shù)據(jù)構(gòu)建出來的,即數(shù)據(jù)是數(shù)值型的。在實際中,由于數(shù)據(jù)的來源渠道不同,數(shù)據(jù)的類型多種多樣,點數(shù)據(jù)模型不可避免的存在著信息丟失,無法精確建模的問題。而符號數(shù)據(jù)分析(Symbolic Data Analysis,SDA)可以處理多類型的數(shù)據(jù),有效的彌補(bǔ)了點數(shù)據(jù)建模時的不足??紤]到符號數(shù)據(jù)的優(yōu)勢,Bezerra[12-14]等人將符號數(shù)據(jù)引入到了個性化推薦算法中,提出了基于符號數(shù)據(jù)的內(nèi)容過濾,協(xié)同過濾和混合過濾三種方法,提高了推薦算法的效率,但降低了推薦算法的精度。Queiroz[15]等人最先將符號數(shù)據(jù)引入到了群體推薦算法中,有效的表征了用戶群體的模型。郭均鵬[16-18]等人基于文獻(xiàn)[12]的思想利用模態(tài)型,區(qū)間型,分布式符號數(shù)據(jù)分別為用戶進(jìn)行建模,進(jìn)而預(yù)測產(chǎn)生推薦,實驗結(jié)果表明符號數(shù)據(jù)比點數(shù)據(jù)更能刻畫用戶的興趣偏好,構(gòu)建出理想的用戶模型,為用戶推薦出滿意度高的項目。

為能夠?qū)⒎枖?shù)據(jù)與傳統(tǒng)的個性化混合推薦算法的優(yōu)勢結(jié)合起來,本文提出了基于分布式符號數(shù)據(jù)的混合推薦算法。該算法利用分布式符號數(shù)據(jù)表征項目內(nèi)容,將項目內(nèi)容量化。在利用項目內(nèi)容構(gòu)建出用戶的不同偏好子模型后,改進(jìn)的符號數(shù)據(jù)的距離度量被用來計算它們之間的相似度。最后結(jié)合傳統(tǒng)的協(xié)同過濾算法完成推薦預(yù)測。該算法與傳統(tǒng)的推薦算法在電影評分?jǐn)?shù)據(jù)集上進(jìn)行實證分析,并比較它們之間的優(yōu)劣。

2 符號數(shù)據(jù)

符號數(shù)據(jù)分析是一種研究如何從海量數(shù)據(jù)中挖掘系統(tǒng)知識的理論和方法,其運用“數(shù)據(jù)打包”技術(shù),不僅能處理類型復(fù)雜,規(guī)模巨大的數(shù)據(jù),實現(xiàn)對龐大的樣本空間的降維處理,更可以從全局上把握數(shù)據(jù)對象的內(nèi)在結(jié)構(gòu)特征,有利于解釋隱含在數(shù)據(jù)內(nèi)部的規(guī)律。一般而言,符號數(shù)據(jù)有定性數(shù)據(jù)和定量數(shù)據(jù)兩種,而每一種都有多種表現(xiàn)形式。常用的符號數(shù)據(jù)類型有1)分布式變量,例如X=({2,4,6}(0.2,0.5,0.3))表示X以(0.2,0.5,0.3)概率分布取值(2,4,6)。2)區(qū)間變量,Y=[a,b]={x:a

3 基于分布式符號數(shù)據(jù)的混合推薦算法

3.1 構(gòu)建用戶積極子模型和消極子模型

本節(jié)以電影推薦領(lǐng)域為例,闡述本文模型的構(gòu)建過程。在電影推薦領(lǐng)域中,用戶對電影的偏好表示為一個評分矩陣R。其中行Ui表示用戶,列Ij表示項目(電影),矩陣中的元素rij是用戶對項目的評分,取{1,2,3,4,5}上的任意值,1分表示用戶對該電影的興趣偏好很消極,5分表示用戶很偏好該部電影??杖钡牟糠直硎居脩魧﹄娪拔催M(jìn)行評價,需要去做預(yù)測推薦,見表1。

表1 用戶項目原始評價矩陣R

實際的電影數(shù)據(jù)中還可以得到有關(guān)電影的一些內(nèi)容描述,例如電影的演員表(Cast),導(dǎo)演(Director),以及電影歸屬的流派(Genre)信息等,見表2。

表2 電影項目I4的內(nèi)容描述

(1)

對于表1中項目的內(nèi)容,依據(jù)上面的方法均可以得到對應(yīng)的分布式描述,見表3(為了使下文的計算更加簡便,這里用字母代替元素,例如G3代表的是Science,P2代表的是導(dǎo)演Nalan)。

表3 電影項目的分布式內(nèi)容描述

本文利用表3中電影的分布式內(nèi)容描述來構(gòu)建用戶模型。在電影推薦領(lǐng)域中,由于用戶評價過的項目中包含著他所喜歡的項目(評分為4和5)和不喜歡的項目(評分為1和2),因此可以為每一個用戶構(gòu)建兩個偏好模型,積極子模型和消極子模型。令u+代表用戶u的積極子模型,它是由用戶u所評價過的項目中評分為4和5的項目的分布式內(nèi)容描述所構(gòu)成的。同理用u-來代表用戶u的消極子模型,它是由用戶u所評價過的項目中評分為1和2的項目的分布式內(nèi)容描述所構(gòu)成的(在文獻(xiàn)[14]構(gòu)建用戶模型的過程中,認(rèn)為3分是一個中性評價,對應(yīng)項目無法合理地表述用戶偏好,因此被忽略,本文同理)。

(2)

m∈Sj(uσ)是領(lǐng)域Dj上的一個元素,那么它的權(quán)重W(m)∈qj(uσ)的計算公式如下

(3)

這里|uδ|表示屬于模型uσ的電影項目數(shù)量。例如用戶U1,他的I2和I5的評分較高,所以用表3中I2和I5的分布式內(nèi)容描述來構(gòu)建用戶U1的積極子模型U1+。I1和I3的評分較低,所以可以用來構(gòu)建用戶U1的消極子模型U1-。此外,在用戶模型的構(gòu)建過程中,不同的評分理應(yīng)擁有不同的權(quán)重。評分為5(1)比評分為4(2)更能說明用戶喜歡(討厭)該項目,這一點在文獻(xiàn)[14]中已經(jīng)指出,解決方法是W(m)計算時評分為5(1)的項目重復(fù)3次,評分為4(2)的項目重復(fù)兩次。本文同理用該種方法進(jìn)行計算,得到U1的最終模型見表4。

表4 用戶U1的偏好模型

同理,還可以得到用戶U2基于分布式

符號數(shù)據(jù)的模型見表5。

表5 用戶U2的偏好模型

3.2 計算用戶之間的相似度

(4)

(5)

分析式(5)中的φ,p代表模型中特征的數(shù)量,φs是計算分布式符號數(shù)據(jù)集合S的差異度函數(shù),φwh是計算集合S對應(yīng)的權(quán)重q的差異度函數(shù)。φs的定義如下

(6)

例如集合Scast(U1+)={A2,A3,A6,A7,A8,A9}和集合Scast(U2+)={A1,A3,A5,A6,A7,A8},依據(jù)式(6)計算,它們之間的差異度為0.5。φwh的計算要復(fù)雜一些。①當(dāng)φs=0時,即兩個集合元素完全相同。φwh的計算為集合中對應(yīng)元素權(quán)重差的絕對值之和。②當(dāng)φs≠0時,需要考慮集合間不同元素的權(quán)重和所占比例的大小。由四部分構(gòu)成,計算兩個集合間相同元素的權(quán)重和α和β,以及計算兩個集合之間不同元素的權(quán)重和γ和δ,如下所示

(7)

對于集合Scast(U1+)和Scast(U2+),因為φs≠0,且其對應(yīng)的權(quán)重為(320,110,1/4,110,14,3/20)和(320,110,320,14,1/4,1/10),那么α,β,γ,δ的計算過程如下

Scast(U1+)∩Scast(U2+)={A3,A6,A7,A8}

(8)

基于式(7)中的φwh,能夠計算出集合Scast(U1+)和Scast(U2+)的權(quán)重差異度為

φwh(qcast(U1+),qcast(U2+))

(9)

這個值表明在屬性Cast(演員)下,用戶U1和用戶U2的積極子模型之間權(quán)重大約相差46.2%。由于集合間相差了50%,因此在屬性Cast下,用戶U1和用戶U2積極子模型間的總差異度為0.5*(0.462+0.5)=0.481。同樣的計算還應(yīng)該作用在用戶子模型的屬性Director(導(dǎo)演)和屬性Genre(流派上)上,最終U1與U2的積極子模型間的總差異度為

0.462+2/3+0.75)≈0.561

(10)

同理,還可以計算出U1與U2的消極子模型之間的總差異度為(注意,此時Φs=0)

(11)

基于式(5)中的φ,得到用戶U1和用戶U2的混合相似度為

(12)

同理,可以計算出表中所有用戶間的相似度。

3.3 生成推薦預(yù)測

(13)

4 實驗研究與算法評價

4.1 算法的評估標(biāo)準(zhǔn)

(14)

其中|T|表示測試數(shù)據(jù)集中評分的數(shù)量。RMSE值越低,算法的推薦精度越高。

4.2 實驗數(shù)據(jù)集的來源

為了驗證本文基于分布式符號數(shù)據(jù)的混合推薦算法(BSHR)在個體推薦上的功效性,選取了經(jīng)典的movielens數(shù)據(jù)集作為實驗數(shù)據(jù)集。Movielens網(wǎng)站(http:∥www.movi-elens,.org)擁有三種不同量集的數(shù)據(jù)集,這里選擇了943個用戶對1682部電影的約10萬條評分的數(shù)據(jù)集,其中每個用戶至少評價過20部電影。該數(shù)據(jù)集中包含了電影的流派(Genre)信息,因此本文從IMDB網(wǎng)站(https:∥www.imdb.com)上只收集了有關(guān)電影的演員和導(dǎo)演信息,并將其整理為了內(nèi)容字段Cast和Director。用戶對電影的評分取集合{1,2,3,4,5}上的值,同樣數(shù)值越高表明用戶越喜好該部電影。此外,隨機(jī)選擇了80%的評分作為訓(xùn)練數(shù)據(jù)集和20%的評分作為測試數(shù)據(jù)集。實驗過程中,首先根據(jù)訓(xùn)練集中用戶評分的電影內(nèi)容建立用戶的積極子模型和消極子模型,然后計算用戶間的相似度,根據(jù)最近鄰思想預(yù)測用戶對未知項目的評分值,最后與測試數(shù)據(jù)集進(jìn)行對比檢驗。

4.3 對比算法

選取兩種推薦算法作為本文算法的對比算法。一種是傳統(tǒng)的基于點數(shù)據(jù)的混合推薦算法(BPHR),主要思想是利用用戶的評分算出電影的評分相似度,利用電影的內(nèi)容算出電影的內(nèi)容相似度,將兩種相似度混合,采取最近鄰思想預(yù)測推薦。另一種是基于符號數(shù)據(jù)的協(xié)同過濾推薦算法(BSCR),算法的主要思想是根據(jù)用戶的評分生成用戶評分權(quán)重模型,利用模型間的相似度函數(shù)計算出用戶間的相似度,最后采取最近鄰方法實現(xiàn)推薦[18]。

4.4 實驗過程與結(jié)果分析

4.4.1 用戶評分的稀疏性對實驗結(jié)果的影響

本節(jié)首先探討了三種算法中,用戶評分的稀疏性對實驗結(jié)果的影響。將訓(xùn)練數(shù)據(jù)集中的用戶按照其所評價過的項目的數(shù)量分為了5組,數(shù)量在[20-50]的用戶為一組,[50-150]為一組,[150-250]為一組,[250-400]為一組,以及400以上為一組。固定近鄰個數(shù)為50后,三種算法分別在5個組中獨立進(jìn)行實驗,計算每一個組中的RMSE,并進(jìn)行比較。得的實驗結(jié)果見表6。

表6 數(shù)據(jù)集的稀疏程度對實驗結(jié)果的影響

從表6整體來看,三種算法在用戶評分?jǐn)?shù)量的增加下,RMSE都呈現(xiàn)下降的趨勢。這說明隨著數(shù)據(jù)集評分矩陣的稀疏性降低,各種算法的推薦質(zhì)量會逐漸提高。其中以本文提出的算法下降的程度最為明顯(0.12>0.09>0.08),表明了基于符號數(shù)據(jù)的混合推薦算法受數(shù)據(jù)集稀疏性的影響較大。分析其原因,認(rèn)為這主要是由于用戶的的積極子模型與消極子模型的構(gòu)建基于用戶所評價過項目,評價的項目越多,越能代表用戶的偏好,構(gòu)建的模型也會更加精確。當(dāng)用戶評分?jǐn)?shù)量較少時([20-50]和[50-150]),本文算法得到的模型較粗糙,因此最終精度也要差于基于點數(shù)據(jù)的混合推薦算法(0.9528>0.948,0.9370>0.9320)。

從推薦精度來看,本文算法在評分矩陣稀疏性低([150-250],[250-400]和400以上)的情況下得到的實驗結(jié)果要優(yōu)于其它兩種算法,而基于符號數(shù)據(jù)的協(xié)同過濾推薦算法整體上的實驗結(jié)果要差于其它兩種算法。分析其原因,認(rèn)為基于符號數(shù)據(jù)的協(xié)同過濾算法并沒有將電影的內(nèi)容考慮進(jìn)去,用戶模型的構(gòu)建僅僅依賴于歷史的評分,因為信息沒有充分利用,導(dǎo)致推薦精度的降低。

4.4.2 近鄰個數(shù)對實驗結(jié)果的影響

本節(jié)旨在探討數(shù)據(jù)集稀疏性穩(wěn)定的情況下,算法近鄰個數(shù)的增加對實驗結(jié)果的影響,這里選擇用戶評分?jǐn)?shù)量在[150-250]區(qū)間內(nèi)的組。各種算法初始的近鄰個數(shù)設(shè)置為10,每次實驗近鄰個數(shù)遞增10個,一共進(jìn)行5次對比實驗,得到的實驗結(jié)果如圖1。

圖1 各種算法近鄰數(shù)量h對實驗結(jié)果的影響

通過分析圖1,可以得到如下的結(jié)論:

1)最初三種算法隨近鄰個數(shù)的增加,RMSE都在下降(h=10,20,30),即推薦精度呈上升的趨勢。這一時間段,近鄰個數(shù)對各種算法實驗結(jié)果的影響較為顯著。當(dāng)近鄰個數(shù)達(dá)到一定程度的時候,RMSE會趨向于一個定值,表明近鄰個數(shù)的增加對實驗結(jié)果的影響將會越來越小。

2)此外,還可以得到,在[150-250]區(qū)間內(nèi),固定近鄰個數(shù)的情況下,本文算法的最終推薦精度要高于另外兩種算法,基于符號數(shù)據(jù)的協(xié)同過濾推薦算法的最終精確度卻低于其它的兩種算法。

在這里同樣給出其它評分子集下,近鄰個數(shù)h對三種推薦算法精度的影響,如圖2。分析圖2可以發(fā)現(xiàn)結(jié)論1)的成立,但也注意到,在用戶評分?jǐn)?shù)量較少時,固定近鄰個數(shù)的情況下,本文算法的最終精度不一定高于基于點數(shù)據(jù)的混合推薦算法

圖2 不同評分?jǐn)?shù)量下h對推薦精度的影響

4.4.3 不同算法的推薦效率

衡量一個算法的好壞不僅看推薦精度,還需考慮推薦效率,即時間的長短。同樣的條件下,所需時間越短,表明了該算法的推薦效率越高。這里給出特定條件下,基于符號數(shù)據(jù)的混合推薦算法與基于點數(shù)據(jù)的混合推薦算法完成推薦的時長,見表7,8。

表7 基于點數(shù)據(jù)的混合推薦算法的完成時間

表8 基于符號數(shù)據(jù)的混合推薦算法的完成時間

由于基于符號數(shù)據(jù)的協(xié)同過濾推薦算法沒有利用到內(nèi)容信息,推薦時間自然較短,所以不再將它列出??紤]到不同組內(nèi)測試集中用戶數(shù)量的不同,對于模型的構(gòu)建,推薦的時間會造成一定的影響,表格中數(shù)據(jù)因此無法橫向?qū)Ρ?。從?,8列來看,即在固定稀疏度與近鄰數(shù)量的情況下,本文的推薦算法所耗費的時長大多數(shù)情況下高于點數(shù)據(jù)推薦,推薦效率較低。分析其原因,認(rèn)為本文算法為了更加精確的表征用戶模型,利用到了符號數(shù)據(jù)中的集合和權(quán)重,模型的構(gòu)建上花費了較多的時間,因此效率要低于點數(shù)據(jù)推薦,相反帶來的益處是計算出的用戶相似度會更加精確,在評分矩陣稀疏性較低的情況下,推薦精度更高。因此,本文算法在數(shù)據(jù)量大,推薦實時性要求不高的場景下較為適用。

5 結(jié)論

為了能夠處理多源異構(gòu)數(shù)據(jù),本文將分布式符號變量引入到了傳統(tǒng)的混合推薦算法中,利用其表征用戶,構(gòu)建偏好模型,預(yù)測實現(xiàn)推薦。將本文的算法與傳統(tǒng)的推薦算法進(jìn)行對比實驗,表明基于分布式符號數(shù)據(jù)的混合推薦算法在推薦精度上更優(yōu),但效率上較差,因此適用于推薦實時性要求不高的領(lǐng)域中。由于目前基于分布式符號數(shù)據(jù)的混合推薦算法仍然是一個全新的領(lǐng)域,不可避免面臨著冷啟動的問題,此外,如何用分步

式符號變量量化用戶的隱式評分,也將會是

未來的研究方向。

猜你喜歡
分布式符號混合
混合宅
多四旋翼無人機(jī)系統(tǒng)分布式分層編隊合圍控制
統(tǒng)計學(xué)符號使用的說明
讓閱讀更方便的小符號
居民分布式儲能系統(tǒng)對電網(wǎng)削峰填谷效果分析
基于Paxos的分布式一致性算法的實現(xiàn)與優(yōu)化
混合運算大篷車
草繩和奇怪的符號
中國符號,太美了!