融合用戶興趣和評論文本主題挖掘的推薦算法研究

2022-07-27 01:45:52丁麗，方曉

青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年1期

丁麗，方曉

(亳州職業(yè)技術(shù)學(xué)院信息工程系，安徽亳州 236800)

1 引言

隨著大數(shù)據(jù)技術(shù)在各領(lǐng)域中的應(yīng)用，尤其是互聯(lián)網(wǎng)企業(yè)對數(shù)據(jù)利用程度越來越高，數(shù)據(jù)在企業(yè)生產(chǎn)中的作用不可替代，數(shù)據(jù)效用和價(jià)值得到充分的提升.項(xiàng)目推薦是大數(shù)據(jù)技術(shù)應(yīng)用的主要領(lǐng)域，也是促進(jìn)推薦算法研究與發(fā)展的動(dòng)力.傳統(tǒng)推薦算法思想則是根據(jù)歷史數(shù)據(jù)對用戶-項(xiàng)目二維關(guān)系進(jìn)行評分，計(jì)算用戶與項(xiàng)目興趣度，推薦商品和服務(wù).推薦系統(tǒng)中的數(shù)據(jù)稀疏性[1]和冷啟動(dòng)兩大問題是本領(lǐng)域研究困難所在，協(xié)同過濾算法的并沒有解決好這兩大問題.

LFM是目前協(xié)同過濾推薦算法最常用的，LFM算法思想是通過矩陣分解(MF)和奇異值(SVD)方法降維來獲得隱性數(shù)據(jù)特征，精確并提高用戶對項(xiàng)目的評分，但推薦精度不是很理想.目前傳統(tǒng)的信息推薦模型很難解決兩個(gè)問題，一是用戶的偏好是動(dòng)態(tài)變化的，而用戶模型很難改變；二是對異常數(shù)據(jù)的處理能力不足，例如錯(cuò)誤偏好、惡意評價(jià)、特殊用戶和物品.通過增加用戶-項(xiàng)目的邊緣信息方法優(yōu)化信息推行模型，提升了模型對用戶-項(xiàng)目的數(shù)據(jù)抽象能力，提高推薦的多樣性.

用戶行為數(shù)據(jù)作為推薦依據(jù)，用戶喜好來自用戶行為數(shù)據(jù)的分析計(jì)算，用戶的喜好能夠反映用戶的興趣特征.因此得到許多研究者的關(guān)注，用戶的喜好主要在用戶源標(biāo)簽和評論文本上體現(xiàn)，再之評論文本是解決評分?jǐn)?shù)據(jù)稀疏的有效方法.因此挖掘用戶產(chǎn)生的文本數(shù)據(jù)來提高推薦系統(tǒng)的精確性具有理論意義和應(yīng)用價(jià)值，然而對用戶產(chǎn)生評論文本的建模和有效融合評分矩陣是該類推算法的難點(diǎn)問題.

因此，本文提出一種用戶興趣特征算法，融合用戶源興趣標(biāo)簽和文本評論興趣.本文主要的貢獻(xiàn)如下：

(1)總結(jié)了傳統(tǒng)的協(xié)同過濾算法的核心思想，對基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法的評分機(jī)制進(jìn)行了數(shù)學(xué)表達(dá).

(2)提出了基于用戶興趣特征的推薦算法UICTM，從構(gòu)建用戶興趣特征集出發(fā)，用戶興趣分為用戶標(biāo)簽興趣和文本評論興趣，利用TransR模型計(jì)算用戶標(biāo)簽興趣的相似度，而評論文本興趣TMF分為用戶評論文本興趣和項(xiàng)目評論文本興趣.UIFT是對用戶行為產(chǎn)生的文件進(jìn)行LDA分析，挖掘潛在主題，并且與矩陣分解的潛在因子相關(guān)聯(lián)，并求解相關(guān)參數(shù).

(3)優(yōu)化了UIFT模型，引入了時(shí)間的因素，通過窗口期機(jī)制對評論文本實(shí)行不同的權(quán)重分配，得到UIFT+模型.

2 相關(guān)工作

2.1 推薦系統(tǒng)的形式化描述

在一個(gè)推薦系統(tǒng)中，項(xiàng)目集合I={i1，i2，…，in}和用戶集合U={u1，u2，…，um}，公式F計(jì)算用戶ub∈U對于一個(gè)項(xiàng)目i∈I的偏好程度，即F：U×I→R，其中R為推薦的項(xiàng)目集合.目標(biāo)是對于任意用戶ub∈U，通過推薦算法得到推薦項(xiàng)目集合R(ub)，如式(1)：

(1)

2.2 協(xié)同過濾算法CF

協(xié)同過濾算法核心思想是：利用用戶在系統(tǒng)中的歷史行為數(shù)據(jù)，運(yùn)用模型計(jì)算用戶或項(xiàng)目的相似集合，將其項(xiàng)目推薦給用戶.假設(shè)目標(biāo)用戶ub，利用用戶的歷史行為數(shù)據(jù)即用戶對項(xiàng)目的評分矩陣，通過模型找到Top-n個(gè)相似度最高的項(xiàng)目推薦給用戶ub.CF包括UBCF和IBCF兩種協(xié)同過濾算法[2-5].

2.2.1 基于用戶的協(xié)同過濾算法UBCF

UBCF算法原理是：在評分矩陣的基礎(chǔ)上，找到與用戶ub相近的用戶集合Nub，用戶相似度越高，表示兩用戶越相近.用戶相似度計(jì)算方法有三種，表示如下：

(1)通過余弦求解用戶ub與ud的相似度sim(ub，ud)[6]，如公式(2)：

(2)

其中：αub，αud分別表示m維對象空間上的評分向量.

(2)通過相關(guān)性求解用戶ub與ud的相似度sim(ub，ud)，如公式(3)：

(3)

(3)在式(3)求解用戶ub和用戶ud之間的相似度時(shí)，沒有統(tǒng)一的評分標(biāo)準(zhǔn)，導(dǎo)致喜好程度相同評分值不同的現(xiàn)象，為了修正缺陷，對用戶的相似度進(jìn)行微調(diào)，如式(4)[7]：

(4)

其中Iub和Iud分別為用戶ub和用戶ud評分的項(xiàng)目.

計(jì)算用戶相似度來求解得到用戶ub相鄰的用戶集合Nub，則用戶ub對項(xiàng)目ik的預(yù)測評分Pub，ik可表示為式(5)：

(5)

利用上述式(4)和式(5)，對用戶ub的未評分項(xiàng)目進(jìn)行評分.依據(jù)評分的高低，從而找出Top-n推薦項(xiàng)目集.

2.2.2 基于項(xiàng)目的協(xié)同過濾算法IBCF

IBCF與UBCF相似，IBCF的核心思想是在用戶對項(xiàng)目評分矩陣的基礎(chǔ)上，找到項(xiàng)目it的相似項(xiàng)目集合Nit[8]，然后計(jì)算當(dāng)前用戶ub對項(xiàng)目it的預(yù)測評分，找到Top-n的推薦項(xiàng)目集合[8-9].

用戶ub對項(xiàng)目it的預(yù)測評分pub，it如式(6)

(6)

綜上可以得到，傳統(tǒng)的協(xié)同過濾算法適合與復(fù)雜非結(jié)構(gòu)化的項(xiàng)目推薦；對內(nèi)容異構(gòu)度高的項(xiàng)目有很好的適應(yīng)性，善于發(fā)現(xiàn)新的興趣點(diǎn)，但是在數(shù)據(jù)稀疏和冷啟動(dòng)問題上沒有很好解決.用戶-項(xiàng)目評分矩陣是協(xié)同過濾算法的基礎(chǔ)，數(shù)據(jù)稀疏以及新用戶加入時(shí)，導(dǎo)致沒有評分?jǐn)?shù)據(jù)情況下，利用推薦算法得到的項(xiàng)目集是不精確的.

3 基于興趣特征的推薦算法

3.1 算法的思想

用戶是有興趣特征即用戶的偏好，而項(xiàng)目有它的屬性特征.當(dāng)用戶的興趣特征與項(xiàng)目的屬性特征相匹配時(shí)，用戶對此項(xiàng)目的偏好就會(huì)加強(qiáng).在一個(gè)推薦系統(tǒng)中，用戶的興趣特征是由標(biāo)簽興趣和評價(jià)文本的潛在興趣特征所組成的.項(xiàng)目的屬性特征是由描述項(xiàng)目的文檔所表示，并在不同的上下文中，表示的語義不同.如何獲取用戶的潛在興趣特征和項(xiàng)目的潛在屬性特征是關(guān)鍵問題[10].

融合用戶興趣和評論文本主題挖掘的推薦算法UICTM分成三個(gè)步驟：

Setp1：利用TransR從用戶的標(biāo)簽興趣分析用戶核心興趣.

Setp2：對評論文本的主題挖掘并映射到評分矩陣中，然后進(jìn)行預(yù)測評分.

Setp3：將預(yù)測評分與用戶核心興趣相組合，得到Top-n的推薦集合.

先定義數(shù)學(xué)符號(hào)，如表1所示：

表1 模型數(shù)學(xué)符號(hào)定義

3.2 算法的模型

詳細(xì)介紹本文提出的模型UICTM.算法包括用戶標(biāo)簽興趣提取網(wǎng)絡(luò)Nut和用戶評論提取網(wǎng)絡(luò)Nuc以及用戶興趣特征網(wǎng)絡(luò)Nut-uc，Nut和Nuc分別負(fù)責(zé)對用戶標(biāo)簽興趣和用戶評論文本特征進(jìn)行提取.而Nut-uc是對Nut和Nuc的融合.

在一般的推薦系統(tǒng)中，用戶在使用系統(tǒng)之前，需進(jìn)行注冊用戶信息，標(biāo)注用戶在本系統(tǒng)中各個(gè)應(yīng)用域的興趣點(diǎn)，本文中稱為源標(biāo)簽興趣RIP.源標(biāo)簽興趣RIP不一定能夠反映用戶的核心標(biāo)簽興趣CIP，其主要原因有：

(1)推薦系統(tǒng)中給出的興趣點(diǎn)細(xì)分隸屬度不夠.導(dǎo)致用戶的RIP和CIP的相關(guān)度R(RIP，CIP)不強(qiáng).

(2)推薦系統(tǒng)中隨時(shí)間變化，用戶的CIP得到遷移，即NIP.使得R(CIP，NIP)的值變大.

用戶標(biāo)簽興趣提取網(wǎng)絡(luò)Nut模型的數(shù)學(xué)表達(dá)：

(7)

3.2.1 用戶標(biāo)簽興趣提取Nut模型

由于三元組有很強(qiáng)的表達(dá)能力，但是在數(shù)據(jù)稀疏、魯棒性等問題中表現(xiàn)不足.因此我們將關(guān)系三元組用低維稠密的向量表示，從而語義相近的實(shí)體可以用向量表示，即可在低維度進(jìn)行實(shí)體相似度計(jì)算.

利用TransR模型對三元的RIP和CIP用n維向量表示為VRIP和VCIP，關(guān)系用m維向量表示為VRrip，cip．對于三元組G={RIP，Rrip，cip，CIP}，首先將n維度的VRIPVCIP運(yùn)用投射矩陣Tn×m投影到m維空間，得到關(guān)系空間的m維實(shí)體VRIPm和VCIPm，.通過TransR模型得到公式：

VRIPm=VRIP×Tn×m

(8)

VCIPm=VCIP×Tn×m

(9)

同時(shí)得到他們的相似度：

f(VRIPm，VCIPm)=‖VRIPm+VRrip，cip-VCIPm‖

(10)

3.2.2 文本評論興趣提取Nuc模型

(1)LDA模型

文本分析中概率生成模型LDA的核心思想是一種實(shí)現(xiàn)降維的技術(shù)算法，在高維空間中，對每個(gè)文本評論實(shí)現(xiàn)投影，出現(xiàn)許多重復(fù)的區(qū)域.通過標(biāo)注來實(shí)現(xiàn)降維，減少重復(fù)區(qū)域，增加各類別內(nèi)部的聚合，減少類別之間的距離和區(qū)分[11].

結(jié)合本文，設(shè)定在S維空間中，文本評論數(shù)據(jù)d實(shí)現(xiàn)降維，降維到L(S>L)維中，L為文本評論的主題數(shù)，利用概論方法計(jì)算文本評論數(shù)據(jù)d的l維主題分布，把文本評論數(shù)據(jù)集d視為由Nd各詞w組成的序列[12-14].具體算法步驟為：

Setp1：計(jì)算每個(gè)主題的分布φl，即表示主題單詞φl屬于主題l的可能性.

Setp2：計(jì)算文檔d中每個(gè)單詞w在l上的分布主題Zd，l.

Step3：計(jì)算文檔d在主題l上的主題分布φd，l.

Setp4：計(jì)算文本評論數(shù)據(jù)集D在主題l上的分布ρl(D/θ，φ)，參見式(11)：

(11)

(2)TMF模型

文本評論分為融合用戶文本評論和融合項(xiàng)目文本評論，F(xiàn)TC是把某一個(gè)項(xiàng)目的所有文本評論組合一個(gè)文檔，并作為主題發(fā)現(xiàn)模型的文本集[11]，從中發(fā)現(xiàn)項(xiàng)目屬性特征的分布.TMF模型把一個(gè)用戶的所有評論組合一個(gè)文本集合，進(jìn)行挖掘分析潛在主題分布δ，并與pi或qj映射.我們從文獻(xiàn)[11]中分析得到，評分矩陣潛在因子數(shù)目與評論文本的因子數(shù)目相同，假設(shè)為L，并且潛在因子間的權(quán)重相同時(shí)，評分矩陣的潛在因子與文本評論的主題具有相關(guān)性參見式(12).

(12)

式(12)中，δi，l表示項(xiàng)目i潛在特征l上的主題，pi，l表示項(xiàng)目i潛在因子向量在特征l上的值，α為兩者相關(guān)性控制系數(shù).

(13)

其中：θi和θj分別為用戶和項(xiàng)目的偏置量，pi和qj分別為用戶i和項(xiàng)目j在l維潛在的特征向量，θg為全局偏置量.

TMF模型中式(12)是評分矩陣的潛在因子與文本評論主題的對應(yīng)關(guān)系，TMF模型不需要對參數(shù)δ和p進(jìn)行同時(shí)擬合，TMF優(yōu)化的目標(biāo)函數(shù)參見式(14)：

(14)

(3)UIFT模型

(15)

(16)

(17)

(18)

(19)

將式(17)，(18)代入式(19)得到最小目標(biāo)函數(shù)公式(20).

(20)

其中：Ω={χ，θi，θj，pi，qj}，Θ={δ，δ′，s′，s}表示共同訓(xùn)練參數(shù)集Ω和Θ.在式(20)中無法求解Ω和Θ，運(yùn)用梯度下降法對式(18)進(jìn)行變換得到公式(21)：

(21)

(4)UIFT+模型

用戶的興趣隨時(shí)間變化發(fā)生改變，從一個(gè)時(shí)間窗口期分析，興趣是穩(wěn)定的.用戶當(dāng)前評論和打分能夠反映當(dāng)前時(shí)間窗口期的興趣和愛好，間隔期越長，用戶的評論反應(yīng)當(dāng)前的興趣程度越低.

本文設(shè)置wu用戶文本評論主題的正則項(xiàng)權(quán)重，wI項(xiàng)目文本評論的主題的正則項(xiàng)權(quán)重.用戶的評分受到兩個(gè)因素的制約，一個(gè)是項(xiàng)目的歷史評價(jià)的影響，另一個(gè)用戶自身偏好影響.wu權(quán)重和時(shí)間窗口期是相關(guān)的，因此用戶文本評價(jià)集合Cu按照時(shí)間的窗口期T={t1，t2…tl}.Cu的分割長度為l，最小為1,即ti(t1，t2，…tl)，設(shè)窗口期大小2l-1，可表示為

win(ti)={ti-l+1，…，ti-1，ti，ti+1，…ti+l-1}

(22)

當(dāng)i=1和i=l時(shí)可得

win(ti)={ti，ti+1…ti+l-1}

(23)

win(ti)={ti-l+1，…ti-1，ti}

(24)

由式(23)和(24).將用戶文本評價(jià)集合動(dòng)態(tài)劃分為Cu={Ci-l+1，…,Ci，…,Ci+l-1}，通過LDA主題分析得到各窗口期的用戶文本評價(jià)集合權(quán)重分別表示為wu={wu1，wu2…wuL}，并對式(18)加以改進(jìn)可得：

(25)

wu是由式(24)計(jì)算得到：

(26)

Lo(Cu，t)、Cu，t、Nc，u分別表示用戶u在時(shí)間窗口期t的位置和評價(jià)文本以及文本數(shù).?為調(diào)節(jié)系數(shù).

同理由式(17)得到：

(27)

用戶評論文本數(shù)目Nc，u和項(xiàng)目評論文本數(shù)目Nc′，i與設(shè)置閾值a的關(guān)系如式(28)：

(28)

3.3 UICTM算法分析

UICTM模型是融合了用戶興趣提取模型Nut和評論文本模型Nuc的雙模態(tài)推薦算法，數(shù)學(xué)表達(dá)式為：

ηi=(1-k)ηNut+kηNuc

(29)

其中：ηNut為用戶興趣標(biāo)簽主題的相似度，ηNuc為評論文本主題的相似度，則文本評論與主題相似概率為pi，c，公式如下：

(30)

w為引入的權(quán)重，分別將公式(10)和公式(27)代入可得公式(31)

(31)

雙模態(tài)推薦模型融合的關(guān)鍵是對不同模態(tài)的推薦結(jié)果賦予各自的權(quán)重，按照一定的規(guī)則標(biāo)準(zhǔn)計(jì)算各自的權(quán)重，權(quán)重來自輸入數(shù)據(jù)與推薦結(jié)果的相關(guān)性.根據(jù)上述分析，按照以下步驟確定權(quán)重w.

步驟一：確定加權(quán)矩陣

(32)

其中：pi，j是第i模態(tài)推薦模型對第j個(gè)文本主題的相似概率，c為文本主題數(shù).因此得到加權(quán)矩陣為：

(33)

其中：wi是第i中模態(tài)推薦模型的加權(quán)矩陣.

(34)

步驟三：依據(jù)最大值規(guī)則選取第k各文本主題為最終推薦概率，公式(35)所示：

(35)

其中：L為文本主題數(shù)目.

4 仿真實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

通過python爬取亞馬遜商品信息作為數(shù)據(jù)集，詳細(xì)數(shù)據(jù)如表2所示，數(shù)據(jù)集80%為訓(xùn)練數(shù)據(jù)集，20%為測試數(shù)據(jù)集.

表2 實(shí)驗(yàn)數(shù)據(jù)集明細(xì)

數(shù)據(jù)集中包括字段有：商品標(biāo)識(shí)、商品名稱、時(shí)間、價(jià)格、用戶標(biāo)識(shí)、用戶名、評論文本、興趣標(biāo)簽詞、評分、評論標(biāo)題.

4.2 評估方法

推薦系統(tǒng)的常用評估方法是均方誤差(MSE)，在相關(guān)文獻(xiàn)中還有均方根誤差(RMSE)、平均絕對值誤差(MAE)，通過公式分析三種方法的評估結(jié)果具有同向性[12-14].均方誤差(MSE)計(jì)算如式(36)：

(36)

其中:Ω為測試樣本集合，|Ω|為測試樣本容量.

MSE反映推薦系統(tǒng)的質(zhì)量，MSE值越小推薦質(zhì)量越優(yōu).

預(yù)測評分與實(shí)際評分的一致的數(shù)目也是反映推薦系統(tǒng)質(zhì)量的重要指標(biāo).作為本實(shí)驗(yàn)室的第二指標(biāo).定義推薦系統(tǒng)的準(zhǔn)確度ACC計(jì)算如式(37)

(37)

其中：|Ω′|為測試樣本中預(yù)測評分與實(shí)際評分一致性值，|Ω|為測試樣本容量.

4.3 模型對比分析

下面對本文的FTC+模型與傳統(tǒng)的推薦模型進(jìn)行對比分析：

(1)CF推薦，是傳統(tǒng)的協(xié)同過濾算法，計(jì)算用戶的相似度或者是物品的相似度，對相似度的排序找到Top-n的相似對象，依據(jù)對象的喜好，推薦給相似對象的方法.

(2)TMF推薦，是本文中提出,將用戶所有文本評論組合一個(gè)文檔，得到主題建模和矩陣分解的潛在因子，構(gòu)建推薦模型.

(3)UITF推薦，是本文提出,將項(xiàng)目文本評論和用戶文本評論分別進(jìn)行主題建模和矩陣分解的潛在因子，并進(jìn)行相融合再進(jìn)行構(gòu)建推薦模型.

(4)UITF+模型推薦，是在UTF的基礎(chǔ)上，參考時(shí)間因素，引入權(quán)重因子，進(jìn)行構(gòu)建推薦模型.

4.4 參數(shù)選擇與實(shí)驗(yàn)分析

在給定的條件下，文本主題數(shù)L選取不同的值(L=6，L=12，L=24等).觀察MSE和ACC的變化，如表3和表4：

表3 各算法在不同主題數(shù)下的均方誤差MSE

4.4.1 實(shí)驗(yàn)1推薦準(zhǔn)確度

表4統(tǒng)計(jì)出4個(gè)推薦算法在不同數(shù)目主題下ACC值.分析得到如下結(jié)論：

表4 各算法在不同主題數(shù)下的準(zhǔn)確率ACC(%)

(1)UICTM極大地提高推薦質(zhì)量，與TMF相比平均值減少9.79%，UITF+與UITF相比平均值減少2.72%.

(2)主題數(shù)在L=24和L=48下各推薦算法MSE值有明顯增大，TMF變化-6.82%，UICTM變化-0.92%.

(3)基于項(xiàng)目評論文本融合用戶評論文本的推薦模型UITF推薦質(zhì)量優(yōu)于基于用戶評論文本的推薦模型TMF，且融合文本的推薦模型UITF和TMF兩個(gè)模型都優(yōu)于傳統(tǒng)的CF模型.

(4)表5是各推薦模型在8類數(shù)據(jù)子集上的準(zhǔn)確度ACC和MSE(L=6).

表5 8組數(shù)據(jù)子集下的預(yù)測準(zhǔn)確度ACC和均方誤差MSE(L=6)

統(tǒng)計(jì)得到，各推薦模型在母嬰數(shù)據(jù)子集準(zhǔn)確度最高且穩(wěn)定.融合文本評論和用戶興趣的UICTM推薦模型在8類數(shù)據(jù)子集上最優(yōu).

4.4.2 實(shí)驗(yàn)2各推薦模型訓(xùn)練時(shí)間分析

本實(shí)驗(yàn)隨機(jī)選擇了母嬰產(chǎn)品子類數(shù)據(jù)集作為各推薦模型的輸入，分別得到TMF、UITF、UITF+和UICTM模型訓(xùn)練時(shí)間，如圖1所示，其中L(L=6，L=12，L=24)表示潛在因子數(shù)量.

圖1 母嬰數(shù)據(jù)子集各模型訓(xùn)練時(shí)間

圖1隨著潛在因子數(shù)量L的增加，各模型訓(xùn)練時(shí)間都明顯增長，各個(gè)模型訓(xùn)練時(shí)間趨勢線指數(shù)增長明顯，在實(shí)驗(yàn)1中各模型在母嬰數(shù)據(jù)集上的推薦準(zhǔn)確度較穩(wěn)定，所以實(shí)驗(yàn)2選擇L=6.UIMF和UIMF+在訓(xùn)練時(shí)間成本上比TMF更多，從實(shí)驗(yàn)1的結(jié)果可知，UIMF和UIMF+的推薦準(zhǔn)確度高于TMF.融合文本評論和用戶興趣的UICTM模型訓(xùn)練時(shí)間成本最多，模型訓(xùn)練是系統(tǒng)應(yīng)用的離線處理過程.因此，將UICTM模型應(yīng)用在推薦系統(tǒng)中是可行的.

4.4.3 實(shí)驗(yàn)3 UICIM模型實(shí)驗(yàn)分析

本實(shí)驗(yàn)選取母嬰產(chǎn)品數(shù)據(jù)子集作為輸入，分別對式(31)中調(diào)節(jié)參數(shù)w取不同的值，觀察UICTM(MSE)和UICTM(ACC)發(fā)生的變化.如圖2和圖3所示：

圖2 母嬰產(chǎn)品數(shù)據(jù)子集上MSE和ACC指標(biāo)分析1

圖3 母嬰產(chǎn)品數(shù)據(jù)子集上MSE和ACC指標(biāo)分析2

從圖2得到在MSE和ACC指標(biāo)UICTM上相對與UITF+分別降低0.006152和0.034341.

從圖3得到在MSE指標(biāo)UICTM上相對與UITF+降低0.012355，在ACC指標(biāo)上UICTM相對與UITF+提升0.034341.

4.5 相關(guān)討論

(1)數(shù)據(jù)集有8個(gè)數(shù)據(jù)子集，考慮到不同種類數(shù)據(jù)集屬性對模型的推薦指標(biāo)的影響，分別分析了各類數(shù)據(jù)集ACC和MSE在文本分類主題L=6條件下的變化.結(jié)果表明各模型在服裝產(chǎn)品數(shù)據(jù)子集上推薦質(zhì)量較低(見圖4和圖5)，ACC和MSE的平均值分別為0.33875和0.36925.UICTM模型在書籍、音樂、食物和手機(jī)產(chǎn)品四個(gè)數(shù)據(jù)子集中推薦準(zhǔn)確度ACC分別為0.683、0.674、0.524和0.769，整體表現(xiàn)優(yōu)于其他推薦算法模型.

圖4 四個(gè)子集上MSE變化

圖5 四個(gè)子集上ACC變化

(2)評論文本的主題分析，從項(xiàng)目和用戶兩個(gè)維度進(jìn)行LDA主題建模.

用UITF 算法模型將兩者進(jìn)行融合.考慮到時(shí)間因素對推薦質(zhì)量的影響.把時(shí)間序列加入其中，改進(jìn)UITF模型即UITF+模型.評論文本主題數(shù)L分別取值不同(L=6、L=12、L=24、L=48、L=96)時(shí)，UITF+在UITF模型基礎(chǔ)上推薦度ACC分別提升0.87%，1.66%，-9.09%，1.52%和3.56%，UITF+整體上優(yōu)于UITF；UICTM是在UITF+上融合用戶興趣Nut模型，UICTM在UITF+模型基礎(chǔ)上推薦度ACC分別提升2.40%，5.07%，12.72%，2.71%和-12.17%，UICTM整體上優(yōu)于UITF+.

5 總結(jié)

本文提出基于評論文本分析的推薦模型UITF和UITF+，UITF是將用戶評論文本和項(xiàng)目評論文本同時(shí)與矩陣分解潛在因子相融合，UITF+是將時(shí)間因素引入推薦模型中，UICTM是進(jìn)一步融合用戶興趣，對其語義上相似度進(jìn)行計(jì)算，將結(jié)果引入推薦模型UITF+中.從實(shí)驗(yàn)中，模型對比結(jié)果表明UITF、UITF+和UICTM整體由于TMF和MSE指標(biāo)上減少0.058、0.0829和0.0892，ACC指標(biāo)上提升0.0741、0.0382和0.0634.并且對各類實(shí)驗(yàn)數(shù)據(jù)子集進(jìn)行比較，整體表現(xiàn)良好，局部不穩(wěn)定.

本文是針對用戶行為中的評論文本和興趣進(jìn)行分析建立推薦模型的，今后的研究要考慮到用戶的社交關(guān)系以及用戶的特征分析.將上下文評論中情感因素考慮其中，提升推薦模型質(zhì)量.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡