国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合用戶興趣和評論文本主題挖掘的推薦算法研究

2022-07-27 01:45:52麗,方
關(guān)鍵詞:文本算法用戶

丁 麗,方 曉

(亳州職業(yè)技術(shù)學(xué)院 信息工程系,安徽 亳州 236800)

1 引言

隨著大數(shù)據(jù)技術(shù)在各領(lǐng)域中的應(yīng)用,尤其是互聯(lián)網(wǎng)企業(yè)對數(shù)據(jù)利用程度越來越高,數(shù)據(jù)在企業(yè)生產(chǎn)中的作用不可替代,數(shù)據(jù)效用和價(jià)值得到充分的提升.項(xiàng)目推薦是大數(shù)據(jù)技術(shù)應(yīng)用的主要領(lǐng)域,也是促進(jìn)推薦算法研究與發(fā)展的動(dòng)力.傳統(tǒng)推薦算法思想則是根據(jù)歷史數(shù)據(jù)對用戶-項(xiàng)目二維關(guān)系進(jìn)行評分,計(jì)算用戶與項(xiàng)目興趣度,推薦商品和服務(wù).推薦系統(tǒng)中的數(shù)據(jù)稀疏性[1]和冷啟動(dòng)兩大問題是本領(lǐng)域研究困難所在,協(xié)同過濾算法的并沒有解決好這兩大問題.

LFM是目前協(xié)同過濾推薦算法最常用的,LFM算法思想是通過矩陣分解(MF)和奇異值(SVD)方法降維來獲得隱性數(shù)據(jù)特征,精確并提高用戶對項(xiàng)目的評分,但推薦精度不是很理想.目前傳統(tǒng)的信息推薦模型很難解決兩個(gè)問題,一是用戶的偏好是動(dòng)態(tài)變化的,而用戶模型很難改變;二是對異常數(shù)據(jù)的處理能力不足,例如錯(cuò)誤偏好、惡意評價(jià)、特殊用戶和物品.通過增加用戶-項(xiàng)目的邊緣信息方法優(yōu)化信息推行模型,提升了模型對用戶-項(xiàng)目的數(shù)據(jù)抽象能力,提高推薦的多樣性.

用戶行為數(shù)據(jù)作為推薦依據(jù),用戶喜好來自用戶行為數(shù)據(jù)的分析計(jì)算,用戶的喜好能夠反映用戶的興趣特征.因此得到許多研究者的關(guān)注,用戶的喜好主要在用戶源標(biāo)簽和評論文本上體現(xiàn),再之評論文本是解決評分?jǐn)?shù)據(jù)稀疏的有效方法.因此挖掘用戶產(chǎn)生的文本數(shù)據(jù)來提高推薦系統(tǒng)的精確性具有理論意義和應(yīng)用價(jià)值,然而對用戶產(chǎn)生評論文本的建模和有效融合評分矩陣是該類推算法的難點(diǎn)問題.

因此,本文提出一種用戶興趣特征算法,融合用戶源興趣標(biāo)簽和文本評論興趣.本文主要的貢獻(xiàn)如下:

(1)總結(jié)了傳統(tǒng)的協(xié)同過濾算法的核心思想,對基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法的評分機(jī)制進(jìn)行了數(shù)學(xué)表達(dá).

(2)提出了基于用戶興趣特征的推薦算法UICTM,從構(gòu)建用戶興趣特征集出發(fā),用戶興趣分為用戶標(biāo)簽興趣和文本評論興趣,利用TransR模型計(jì)算用戶標(biāo)簽興趣的相似度,而評論文本興趣TMF分為用戶評論文本興趣和項(xiàng)目評論文本興趣.UIFT是對用戶行為產(chǎn)生的文件進(jìn)行LDA分析,挖掘潛在主題,并且與矩陣分解的潛在因子相關(guān)聯(lián),并求解相關(guān)參數(shù).

(3)優(yōu)化了UIFT模型,引入了時(shí)間的因素,通過窗口期機(jī)制對評論文本實(shí)行不同的權(quán)重分配,得到UIFT+模型.

2 相關(guān)工作

2.1 推薦系統(tǒng)的形式化描述

在一個(gè)推薦系統(tǒng)中,項(xiàng)目集合I={i1,i2,…,in}和用戶集合U={u1,u2,…,um},公式F計(jì)算用戶ub∈U對于一個(gè)項(xiàng)目i∈I的偏好程度,即F:U×I→R,其中R為推薦的項(xiàng)目集合.目標(biāo)是對于任意用戶ub∈U,通過推薦算法得到推薦項(xiàng)目集合R(ub),如式(1):

(1)

2.2 協(xié)同過濾算法CF

協(xié)同過濾算法核心思想是:利用用戶在系統(tǒng)中的歷史行為數(shù)據(jù),運(yùn)用模型計(jì)算用戶或項(xiàng)目的相似集合,將其項(xiàng)目推薦給用戶.假設(shè)目標(biāo)用戶ub,利用用戶的歷史行為數(shù)據(jù)即用戶對項(xiàng)目的評分矩陣,通過模型找到Top-n個(gè)相似度最高的項(xiàng)目推薦給用戶ub.CF包括UBCF和IBCF兩種協(xié)同過濾算法[2-5].

2.2.1 基于用戶的協(xié)同過濾算法UBCF

UBCF算法原理是:在評分矩陣的基礎(chǔ)上,找到與用戶ub相近的用戶集合Nub,用戶相似度越高,表示兩用戶越相近.用戶相似度計(jì)算方法有三種,表示如下:

(1)通過余弦求解用戶ub與ud的相似度sim(ub,ud)[6],如公式(2):

(2)

其中:αub,αud分別表示m維對象空間上的評分向量.

(2)通過相關(guān)性求解用戶ub與ud的相似度sim(ub,ud),如公式(3):

(3)

(3)在式(3)求解用戶ub和用戶ud之間的相似度時(shí),沒有統(tǒng)一的評分標(biāo)準(zhǔn),導(dǎo)致喜好程度相同評分值不同的現(xiàn)象,為了修正缺陷,對用戶的相似度進(jìn)行微調(diào),如式(4)[7]:

(4)

其中Iub和Iud分別為用戶ub和用戶ud評分的項(xiàng)目.

計(jì)算用戶相似度來求解得到用戶ub相鄰的用戶集合Nub,則用戶ub對項(xiàng)目ik的預(yù)測評分Pub,ik可表示為式(5):

(5)

利用上述式(4)和式(5),對用戶ub的未評分項(xiàng)目進(jìn)行評分.依據(jù)評分的高低,從而找出Top-n推薦項(xiàng)目集.

2.2.2 基于項(xiàng)目的協(xié)同過濾算法IBCF

IBCF與UBCF相似,IBCF的核心思想是在用戶對項(xiàng)目評分矩陣的基礎(chǔ)上,找到項(xiàng)目it的相似項(xiàng)目集合Nit[8],然后計(jì)算當(dāng)前用戶ub對項(xiàng)目it的預(yù)測評分,找到Top-n的推薦項(xiàng)目集合[8-9].

用戶ub對項(xiàng)目it的預(yù)測評分pub,it如式(6)

(6)

綜上可以得到,傳統(tǒng)的協(xié)同過濾算法適合與復(fù)雜非結(jié)構(gòu)化的項(xiàng)目推薦;對內(nèi)容異構(gòu)度高的項(xiàng)目有很好的適應(yīng)性,善于發(fā)現(xiàn)新的興趣點(diǎn),但是在數(shù)據(jù)稀疏和冷啟動(dòng)問題上沒有很好解決.用戶-項(xiàng)目評分矩陣是協(xié)同過濾算法的基礎(chǔ),數(shù)據(jù)稀疏以及新用戶加入時(shí),導(dǎo)致沒有評分?jǐn)?shù)據(jù)情況下,利用推薦算法得到的項(xiàng)目集是不精確的.

3 基于興趣特征的推薦算法

3.1 算法的思想

用戶是有興趣特征即用戶的偏好,而項(xiàng)目有它的屬性特征.當(dāng)用戶的興趣特征與項(xiàng)目的屬性特征相匹配時(shí),用戶對此項(xiàng)目的偏好就會(huì)加強(qiáng).在一個(gè)推薦系統(tǒng)中,用戶的興趣特征是由標(biāo)簽興趣和評價(jià)文本的潛在興趣特征所組成的.項(xiàng)目的屬性特征是由描述項(xiàng)目的文檔所表示,并在不同的上下文中,表示的語義不同.如何獲取用戶的潛在興趣特征和項(xiàng)目的潛在屬性特征是關(guān)鍵問題[10].

融合用戶興趣和評論文本主題挖掘的推薦算法UICTM分成三個(gè)步驟:

Setp1:利用TransR從用戶的標(biāo)簽興趣分析用戶核心興趣.

Setp2:對評論文本的主題挖掘并映射到評分矩陣中,然后進(jìn)行預(yù)測評分.

Setp3:將預(yù)測評分與用戶核心興趣相組合,得到Top-n的推薦集合.

先定義數(shù)學(xué)符號(hào),如表1所示:

表1 模型數(shù)學(xué)符號(hào)定義

3.2 算法的模型

詳細(xì)介紹本文提出的模型UICTM.算法包括用戶標(biāo)簽興趣提取網(wǎng)絡(luò)Nut和用戶評論提取網(wǎng)絡(luò)Nuc以及用戶興趣特征網(wǎng)絡(luò)Nut-uc,Nut和Nuc分別負(fù)責(zé)對用戶標(biāo)簽興趣和用戶評論文本特征進(jìn)行提取.而Nut-uc是對Nut和Nuc的融合.

在一般的推薦系統(tǒng)中,用戶在使用系統(tǒng)之前,需進(jìn)行注冊用戶信息,標(biāo)注用戶在本系統(tǒng)中各個(gè)應(yīng)用域的興趣點(diǎn),本文中稱為源標(biāo)簽興趣RIP.源標(biāo)簽興趣RIP不一定能夠反映用戶的核心標(biāo)簽興趣CIP,其主要原因有:

(1)推薦系統(tǒng)中給出的興趣點(diǎn)細(xì)分隸屬度不夠.導(dǎo)致用戶的RIP和CIP的相關(guān)度R(RIP,CIP)不強(qiáng).

(2)推薦系統(tǒng)中隨時(shí)間變化,用戶的CIP得到遷移,即NIP.使得R(CIP,NIP)的值變大.

用戶標(biāo)簽興趣提取網(wǎng)絡(luò)Nut模型的數(shù)學(xué)表達(dá):

(7)

3.2.1 用戶標(biāo)簽興趣提取Nut模型

由于三元組有很強(qiáng)的表達(dá)能力,但是在數(shù)據(jù)稀疏、魯棒性等問題中表現(xiàn)不足.因此我們將關(guān)系三元組用低維稠密的向量表示,從而語義相近的實(shí)體可以用向量表示,即可在低維度進(jìn)行實(shí)體相似度計(jì)算.

利用TransR模型對三元的RIP和CIP用n維向量表示為VRIP和VCIP,關(guān)系用m維向量表示為VRrip,cip.對于三元組G={RIP,Rrip,cip,CIP},首先將n維度的VRIPVCIP運(yùn)用投射矩陣Tn×m投影到m維空間,得到關(guān)系空間的m維實(shí)體VRIPm和VCIPm,.通過TransR模型得到公式:

VRIPm=VRIP×Tn×m

(8)

VCIPm=VCIP×Tn×m

(9)

同時(shí)得到他們的相似度:

f(VRIPm,VCIPm)=‖VRIPm+VRrip,cip-VCIPm‖

(10)

3.2.2 文本評論興趣提取Nuc模型

(1)LDA模型

文本分析中概率生成模型LDA的核心思想是一種實(shí)現(xiàn)降維的技術(shù)算法,在高維空間中,對每個(gè)文本評論實(shí)現(xiàn)投影,出現(xiàn)許多重復(fù)的區(qū)域.通過標(biāo)注來實(shí)現(xiàn)降維,減少重復(fù)區(qū)域,增加各類別內(nèi)部的聚合,減少類別之間的距離和區(qū)分[11].

結(jié)合本文,設(shè)定在S維空間中,文本評論數(shù)據(jù)d實(shí)現(xiàn)降維,降維到L(S>L)維中,L為文本評論的主題數(shù),利用概論方法計(jì)算文本評論數(shù)據(jù)d的l維主題分布,把文本評論數(shù)據(jù)集d視為由Nd各詞w組成的序列[12-14].具體算法步驟為:

Setp1:計(jì)算每個(gè)主題的分布φl,即表示主題單詞φl屬于主題l的可能性.

Setp2:計(jì)算文檔d中每個(gè)單詞w在l上的分布主題Zd,l.

Step3:計(jì)算文檔d在主題l上的主題分布φd,l.

Setp4:計(jì)算文本評論數(shù)據(jù)集D在主題l上的分布ρl(D/θ,φ),參見式(11):

(11)

(2)TMF模型

文本評論分為融合用戶文本評論和融合項(xiàng)目文本評論,F(xiàn)TC是把某一個(gè)項(xiàng)目的所有文本評論組合一個(gè)文檔,并作為主題發(fā)現(xiàn)模型的文本集[11],從中發(fā)現(xiàn)項(xiàng)目屬性特征的分布.TMF模型把一個(gè)用戶的所有評論組合一個(gè)文本集合,進(jìn)行挖掘分析潛在主題分布δ,并與pi或qj映射.我們從文獻(xiàn)[11]中分析得到,評分矩陣潛在因子數(shù)目與評論文本的因子數(shù)目相同,假設(shè)為L,并且潛在因子間的權(quán)重相同時(shí),評分矩陣的潛在因子與文本評論的主題具有相關(guān)性參見式(12).

(12)

式(12)中,δi,l表示項(xiàng)目i潛在特征l上的主題,pi,l表示項(xiàng)目i潛在因子向量在特征l上的值,α為兩者相關(guān)性控制系數(shù).

(13)

其中:θi和θj分別為用戶和項(xiàng)目的偏置量,pi和qj分別為用戶i和項(xiàng)目j在l維潛在的特征向量,θg為全局偏置量.

TMF模型中式(12)是評分矩陣的潛在因子與文本評論主題的對應(yīng)關(guān)系,TMF模型不需要對參數(shù)δ和p進(jìn)行同時(shí)擬合,TMF優(yōu)化的目標(biāo)函數(shù)參見式(14):

(14)

(3)UIFT模型

(15)

(16)

(17)

(18)

(19)

將式(17),(18)代入式(19)得到最小目標(biāo)函數(shù)公式(20).

(20)

其中:Ω={χ,θi,θj,pi,qj},Θ={δ,δ′,s′,s}表示共同訓(xùn)練參數(shù)集Ω和Θ.在式(20)中無法求解Ω和Θ,運(yùn)用梯度下降法對式(18)進(jìn)行變換得到公式(21):

(21)

(4)UIFT+模型

用戶的興趣隨時(shí)間變化發(fā)生改變,從一個(gè)時(shí)間窗口期分析,興趣是穩(wěn)定的.用戶當(dāng)前評論和打分能夠反映當(dāng)前時(shí)間窗口期的興趣和愛好,間隔期越長,用戶的評論反應(yīng)當(dāng)前的興趣程度越低.

本文設(shè)置wu用戶文本評論主題的正則項(xiàng)權(quán)重,wI項(xiàng)目文本評論的主題的正則項(xiàng)權(quán)重.用戶的評分受到兩個(gè)因素的制約,一個(gè)是項(xiàng)目的歷史評價(jià)的影響,另一個(gè)用戶自身偏好影響.wu權(quán)重和時(shí)間窗口期是相關(guān)的,因此用戶文本評價(jià)集合Cu按照時(shí)間的窗口期T={t1,t2…tl}.Cu的分割長度為l,最小為1,即ti(t1,t2,…tl),設(shè)窗口期大小2l-1,可表示為

win(ti)={ti-l+1,…,ti-1,ti,ti+1,…ti+l-1}

(22)

當(dāng)i=1和i=l時(shí)可得

win(ti)={ti,ti+1…ti+l-1}

(23)

win(ti)={ti-l+1,…ti-1,ti}

(24)

由式(23)和(24).將用戶文本評價(jià)集合動(dòng)態(tài)劃分為Cu={Ci-l+1,…,Ci,…,Ci+l-1},通過LDA主題分析得到各窗口期的用戶文本評價(jià)集合權(quán)重分別表示為wu={wu1,wu2…wuL},并對式(18)加以改進(jìn)可得:

(25)

wu是由式(24)計(jì)算得到:

(26)

Lo(Cu,t)、Cu,t、Nc,u分別表示用戶u在時(shí)間窗口期t的位置和評價(jià)文本以及文本數(shù).?為調(diào)節(jié)系數(shù).

同理由式(17)得到:

(27)

用戶評論文本數(shù)目Nc,u和項(xiàng)目評論文本數(shù)目Nc′,i與設(shè)置閾值a的關(guān)系如式(28):

(28)

3.3 UICTM算法分析

UICTM模型是融合了用戶興趣提取模型Nut和評論文本模型Nuc的雙模態(tài)推薦算法,數(shù)學(xué)表達(dá)式為:

ηi=(1-k)ηNut+kηNuc

(29)

其中:ηNut為用戶興趣標(biāo)簽主題的相似度,ηNuc為評論文本主題的相似度,則文本評論與主題相似概率為pi,c,公式如下:

(30)

w為引入的權(quán)重,分別將公式(10)和公式(27)代入可得公式(31)

(31)

雙模態(tài)推薦模型融合的關(guān)鍵是對不同模態(tài)的推薦結(jié)果賦予各自的權(quán)重,按照一定的規(guī)則標(biāo)準(zhǔn)計(jì)算各自的權(quán)重,權(quán)重來自輸入數(shù)據(jù)與推薦結(jié)果的相關(guān)性.根據(jù)上述分析,按照以下步驟確定權(quán)重w.

步驟一:確定加權(quán)矩陣

(32)

其中:pi,j是第i模態(tài)推薦模型對第j個(gè)文本主題的相似概率,c為文本主題數(shù).因此得到加權(quán)矩陣為:

(33)

其中:wi是第i中模態(tài)推薦模型的加權(quán)矩陣.

(34)

步驟三:依據(jù)最大值規(guī)則選取第k各文本主題為最終推薦概率,公式(35)所示:

(35)

其中:L為文本主題數(shù)目.

4 仿真實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

通過python爬取亞馬遜商品信息作為數(shù)據(jù)集,詳細(xì)數(shù)據(jù)如表2所示,數(shù)據(jù)集80%為訓(xùn)練數(shù)據(jù)集,20%為測試數(shù)據(jù)集.

表2 實(shí)驗(yàn)數(shù)據(jù)集明細(xì)

數(shù)據(jù)集中包括字段有:商品標(biāo)識(shí)、商品名稱、時(shí)間、價(jià)格、用戶標(biāo)識(shí)、用戶名、評論文本、興趣標(biāo)簽詞、評分、評論標(biāo)題.

4.2 評估方法

推薦系統(tǒng)的常用評估方法是均方誤差(MSE),在相關(guān)文獻(xiàn)中還有均方根誤差(RMSE)、平均絕對值誤差(MAE),通過公式分析三種方法的評估結(jié)果具有同向性[12-14].均方誤差(MSE)計(jì)算如式(36):

(36)

其中:Ω為測試樣本集合,|Ω|為測試樣本容量.

MSE反映推薦系統(tǒng)的質(zhì)量,MSE值越小推薦質(zhì)量越優(yōu).

預(yù)測評分與實(shí)際評分的一致的數(shù)目也是反映推薦系統(tǒng)質(zhì)量的重要指標(biāo).作為本實(shí)驗(yàn)室的第二指標(biāo).定義推薦系統(tǒng)的準(zhǔn)確度ACC計(jì)算如式(37)

(37)

其中:|Ω′|為測試樣本中預(yù)測評分與實(shí)際評分一致性值,|Ω|為測試樣本容量.

4.3 模型對比分析

下面對本文的FTC+模型與傳統(tǒng)的推薦模型進(jìn)行對比分析:

(1)CF推薦,是傳統(tǒng)的協(xié)同過濾算法,計(jì)算用戶的相似度或者是物品的相似度,對相似度的排序找到Top-n的相似對象,依據(jù)對象的喜好,推薦給相似對象的方法.

(2)TMF推薦,是本文中提出,將用戶所有文本評論組合一個(gè)文檔,得到主題建模和矩陣分解的潛在因子,構(gòu)建推薦模型.

(3)UITF推薦,是本文提出,將項(xiàng)目文本評論和用戶文本評論分別進(jìn)行主題建模和矩陣分解的潛在因子,并進(jìn)行相融合再進(jìn)行構(gòu)建推薦模型.

(4)UITF+模型推薦,是在UTF的基礎(chǔ)上,參考時(shí)間因素,引入權(quán)重因子,進(jìn)行構(gòu)建推薦模型.

4.4 參數(shù)選擇與實(shí)驗(yàn)分析

在給定的條件下,文本主題數(shù)L選取不同的值(L=6,L=12,L=24等).觀察MSE和ACC的變化,如表3和表4:

表3 各算法在不同主題數(shù)下的均方誤差MSE

4.4.1 實(shí)驗(yàn)1推薦準(zhǔn)確度

表4統(tǒng)計(jì)出4個(gè)推薦算法在不同數(shù)目主題下ACC值.分析得到如下結(jié)論:

表4 各算法在不同主題數(shù)下的準(zhǔn)確率ACC(%)

(1)UICTM極大地提高推薦質(zhì)量,與TMF相比平均值減少9.79%,UITF+與UITF相比平均值減少2.72%.

(2)主題數(shù)在L=24和L=48下各推薦算法MSE值有明顯增大,TMF變化-6.82%,UICTM變化-0.92%.

(3)基于項(xiàng)目評論文本融合用戶評論文本的推薦模型UITF推薦質(zhì)量優(yōu)于基于用戶評論文本的推薦模型TMF,且融合文本的推薦模型UITF和TMF兩個(gè)模型都優(yōu)于傳統(tǒng)的CF模型.

(4)表5是各推薦模型在8類數(shù)據(jù)子集上的準(zhǔn)確度ACC和MSE(L=6).

表5 8組數(shù)據(jù)子集下的預(yù)測準(zhǔn)確度ACC和均方誤差MSE(L=6)

統(tǒng)計(jì)得到,各推薦模型在母嬰數(shù)據(jù)子集準(zhǔn)確度最高且穩(wěn)定.融合文本評論和用戶興趣的UICTM推薦模型在8類數(shù)據(jù)子集上最優(yōu).

4.4.2 實(shí)驗(yàn)2各推薦模型訓(xùn)練時(shí)間分析

本實(shí)驗(yàn)隨機(jī)選擇了母嬰產(chǎn)品子類數(shù)據(jù)集作為各推薦模型的輸入,分別得到TMF、UITF、UITF+和UICTM模型訓(xùn)練時(shí)間,如圖1所示,其中L(L=6,L=12,L=24)表示潛在因子數(shù)量.

圖1 母嬰數(shù)據(jù)子集各模型訓(xùn)練時(shí)間

圖1隨著潛在因子數(shù)量L的增加,各模型訓(xùn)練時(shí)間都明顯增長,各個(gè)模型訓(xùn)練時(shí)間趨勢線指數(shù)增長明顯,在實(shí)驗(yàn)1中各模型在母嬰數(shù)據(jù)集上的推薦準(zhǔn)確度較穩(wěn)定,所以實(shí)驗(yàn)2選擇L=6.UIMF和UIMF+在訓(xùn)練時(shí)間成本上比TMF更多,從實(shí)驗(yàn)1的結(jié)果可知,UIMF和UIMF+的推薦準(zhǔn)確度高于TMF.融合文本評論和用戶興趣的UICTM模型訓(xùn)練時(shí)間成本最多,模型訓(xùn)練是系統(tǒng)應(yīng)用的離線處理過程.因此,將UICTM模型應(yīng)用在推薦系統(tǒng)中是可行的.

4.4.3 實(shí)驗(yàn)3 UICIM模型實(shí)驗(yàn)分析

本實(shí)驗(yàn)選取母嬰產(chǎn)品數(shù)據(jù)子集作為輸入,分別對式(31)中調(diào)節(jié)參數(shù)w取不同的值,觀察UICTM(MSE)和UICTM(ACC)發(fā)生的變化.如圖2和圖3所示:

圖2 母嬰產(chǎn)品數(shù)據(jù)子集上MSE和ACC指標(biāo)分析1

圖3 母嬰產(chǎn)品數(shù)據(jù)子集上MSE和ACC指標(biāo)分析2

從圖2得到在MSE和ACC指標(biāo)UICTM上相對與UITF+分別降低0.006152和0.034341.

從圖3得到在MSE指標(biāo)UICTM上相對與UITF+降低0.012355,在ACC指標(biāo)上UICTM相對與UITF+提升0.034341.

4.5 相關(guān)討論

(1)數(shù)據(jù)集有8個(gè)數(shù)據(jù)子集,考慮到不同種類數(shù)據(jù)集屬性對模型的推薦指標(biāo)的影響,分別分析了各類數(shù)據(jù)集ACC和MSE在文本分類主題L=6條件下的變化.結(jié)果表明各模型在服裝產(chǎn)品數(shù)據(jù)子集上推薦質(zhì)量較低(見圖4和圖5),ACC和MSE的平均值分別為0.33875和0.36925.UICTM模型在書籍、音樂、食物和手機(jī)產(chǎn)品四個(gè)數(shù)據(jù)子集中推薦準(zhǔn)確度ACC分別為0.683、0.674、0.524和0.769,整體表現(xiàn)優(yōu)于其他推薦算法模型.

圖4 四個(gè)子集上MSE變化

圖5 四個(gè)子集上ACC變化

(2)評論文本的主題分析,從項(xiàng)目和用戶兩個(gè)維度進(jìn)行LDA主題建模.

用UITF 算法模型將兩者進(jìn)行融合.考慮到時(shí)間因素對推薦質(zhì)量的影響.把時(shí)間序列加入其中,改進(jìn)UITF模型即UITF+模型.評論文本主題數(shù)L分別取值不同(L=6、L=12、L=24、L=48、L=96)時(shí),UITF+在UITF模型基礎(chǔ)上推薦度ACC分別提升0.87%,1.66%,-9.09%,1.52%和3.56%,UITF+整體上優(yōu)于UITF;UICTM是在UITF+上融合用戶興趣Nut模型,UICTM在UITF+模型基礎(chǔ)上推薦度ACC分別提升2.40%,5.07%,12.72%,2.71%和-12.17%,UICTM整體上優(yōu)于UITF+.

5 總結(jié)

本文提出基于評論文本分析的推薦模型UITF和UITF+,UITF是將用戶評論文本和項(xiàng)目評論文本同時(shí)與矩陣分解潛在因子相融合,UITF+是將時(shí)間因素引入推薦模型中,UICTM是進(jìn)一步融合用戶興趣,對其語義上相似度進(jìn)行計(jì)算,將結(jié)果引入推薦模型UITF+中.從實(shí)驗(yàn)中,模型對比結(jié)果表明UITF、UITF+和UICTM整體由于TMF和MSE指標(biāo)上減少0.058、0.0829和0.0892,ACC指標(biāo)上提升0.0741、0.0382和0.0634.并且對各類實(shí)驗(yàn)數(shù)據(jù)子集進(jìn)行比較,整體表現(xiàn)良好,局部不穩(wěn)定.

本文是針對用戶行為中的評論文本和興趣進(jìn)行分析建立推薦模型的,今后的研究要考慮到用戶的社交關(guān)系以及用戶的特征分析.將上下文評論中情感因素考慮其中,提升推薦模型質(zhì)量.

猜你喜歡
文本算法用戶
基于MapReduce的改進(jìn)Eclat算法
在808DA上文本顯示的改善
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
一種改進(jìn)的整周模糊度去相關(guān)算法
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
平顶山市| 涟水县| 宁河县| 弥渡县| 康保县| 镇安县| 如皋市| 西充县| 九台市| 防城港市| 酒泉市| 海林市| 龙陵县| 佛学| 西贡区| 浮山县| 武安市| 大厂| 澄城县| 习水县| 太湖县| 和田市| 郯城县| 偏关县| 永平县| 绥棱县| 额济纳旗| 区。| 新邵县| 马边| 岳阳县| 扎囊县| 左云县| 民县| 镇雄县| 东阳市| 南阳市| 柳江县| 湛江市| 清流县| 东乌|