丁 麗,方 曉
(亳州職業(yè)技術(shù)學(xué)院 信息工程系,安徽 亳州 236800)
隨著大數(shù)據(jù)技術(shù)在各領(lǐng)域中的應(yīng)用,尤其是互聯(lián)網(wǎng)企業(yè)對數(shù)據(jù)利用程度越來越高,數(shù)據(jù)在企業(yè)生產(chǎn)中的作用不可替代,數(shù)據(jù)效用和價(jià)值得到充分的提升.項(xiàng)目推薦是大數(shù)據(jù)技術(shù)應(yīng)用的主要領(lǐng)域,也是促進(jìn)推薦算法研究與發(fā)展的動(dòng)力.傳統(tǒng)推薦算法思想則是根據(jù)歷史數(shù)據(jù)對用戶-項(xiàng)目二維關(guān)系進(jìn)行評分,計(jì)算用戶與項(xiàng)目興趣度,推薦商品和服務(wù).推薦系統(tǒng)中的數(shù)據(jù)稀疏性[1]和冷啟動(dòng)兩大問題是本領(lǐng)域研究困難所在,協(xié)同過濾算法的并沒有解決好這兩大問題.
LFM是目前協(xié)同過濾推薦算法最常用的,LFM算法思想是通過矩陣分解(MF)和奇異值(SVD)方法降維來獲得隱性數(shù)據(jù)特征,精確并提高用戶對項(xiàng)目的評分,但推薦精度不是很理想.目前傳統(tǒng)的信息推薦模型很難解決兩個(gè)問題,一是用戶的偏好是動(dòng)態(tài)變化的,而用戶模型很難改變;二是對異常數(shù)據(jù)的處理能力不足,例如錯(cuò)誤偏好、惡意評價(jià)、特殊用戶和物品.通過增加用戶-項(xiàng)目的邊緣信息方法優(yōu)化信息推行模型,提升了模型對用戶-項(xiàng)目的數(shù)據(jù)抽象能力,提高推薦的多樣性.
用戶行為數(shù)據(jù)作為推薦依據(jù),用戶喜好來自用戶行為數(shù)據(jù)的分析計(jì)算,用戶的喜好能夠反映用戶的興趣特征.因此得到許多研究者的關(guān)注,用戶的喜好主要在用戶源標(biāo)簽和評論文本上體現(xiàn),再之評論文本是解決評分?jǐn)?shù)據(jù)稀疏的有效方法.因此挖掘用戶產(chǎn)生的文本數(shù)據(jù)來提高推薦系統(tǒng)的精確性具有理論意義和應(yīng)用價(jià)值,然而對用戶產(chǎn)生評論文本的建模和有效融合評分矩陣是該類推算法的難點(diǎn)問題.
因此,本文提出一種用戶興趣特征算法,融合用戶源興趣標(biāo)簽和文本評論興趣.本文主要的貢獻(xiàn)如下:
(1)總結(jié)了傳統(tǒng)的協(xié)同過濾算法的核心思想,對基于用戶的協(xié)同過濾算法和基于項(xiàng)目的協(xié)同過濾算法的評分機(jī)制進(jìn)行了數(shù)學(xué)表達(dá).
(2)提出了基于用戶興趣特征的推薦算法UICTM,從構(gòu)建用戶興趣特征集出發(fā),用戶興趣分為用戶標(biāo)簽興趣和文本評論興趣,利用TransR模型計(jì)算用戶標(biāo)簽興趣的相似度,而評論文本興趣TMF分為用戶評論文本興趣和項(xiàng)目評論文本興趣.UIFT是對用戶行為產(chǎn)生的文件進(jìn)行LDA分析,挖掘潛在主題,并且與矩陣分解的潛在因子相關(guān)聯(lián),并求解相關(guān)參數(shù).
(3)優(yōu)化了UIFT模型,引入了時(shí)間的因素,通過窗口期機(jī)制對評論文本實(shí)行不同的權(quán)重分配,得到UIFT+模型.
在一個(gè)推薦系統(tǒng)中,項(xiàng)目集合I={i1,i2,…,in}和用戶集合U={u1,u2,…,um},公式F計(jì)算用戶ub∈U對于一個(gè)項(xiàng)目i∈I的偏好程度,即F:U×I→R,其中R為推薦的項(xiàng)目集合.目標(biāo)是對于任意用戶ub∈U,通過推薦算法得到推薦項(xiàng)目集合R(ub),如式(1):
(1)
協(xié)同過濾算法核心思想是:利用用戶在系統(tǒng)中的歷史行為數(shù)據(jù),運(yùn)用模型計(jì)算用戶或項(xiàng)目的相似集合,將其項(xiàng)目推薦給用戶.假設(shè)目標(biāo)用戶ub,利用用戶的歷史行為數(shù)據(jù)即用戶對項(xiàng)目的評分矩陣,通過模型找到Top-n個(gè)相似度最高的項(xiàng)目推薦給用戶ub.CF包括UBCF和IBCF兩種協(xié)同過濾算法[2-5].
2.2.1 基于用戶的協(xié)同過濾算法UBCF
UBCF算法原理是:在評分矩陣的基礎(chǔ)上,找到與用戶ub相近的用戶集合Nub,用戶相似度越高,表示兩用戶越相近.用戶相似度計(jì)算方法有三種,表示如下:
(1)通過余弦求解用戶ub與ud的相似度sim(ub,ud)[6],如公式(2):
(2)
其中:αub,αud分別表示m維對象空間上的評分向量.
(2)通過相關(guān)性求解用戶ub與ud的相似度sim(ub,ud),如公式(3):
(3)
(3)在式(3)求解用戶ub和用戶ud之間的相似度時(shí),沒有統(tǒng)一的評分標(biāo)準(zhǔn),導(dǎo)致喜好程度相同評分值不同的現(xiàn)象,為了修正缺陷,對用戶的相似度進(jìn)行微調(diào),如式(4)[7]:
(4)
其中Iub和Iud分別為用戶ub和用戶ud評分的項(xiàng)目.
計(jì)算用戶相似度來求解得到用戶ub相鄰的用戶集合Nub,則用戶ub對項(xiàng)目ik的預(yù)測評分Pub,ik可表示為式(5):
(5)
利用上述式(4)和式(5),對用戶ub的未評分項(xiàng)目進(jìn)行評分.依據(jù)評分的高低,從而找出Top-n推薦項(xiàng)目集.
2.2.2 基于項(xiàng)目的協(xié)同過濾算法IBCF
IBCF與UBCF相似,IBCF的核心思想是在用戶對項(xiàng)目評分矩陣的基礎(chǔ)上,找到項(xiàng)目it的相似項(xiàng)目集合Nit[8],然后計(jì)算當(dāng)前用戶ub對項(xiàng)目it的預(yù)測評分,找到Top-n的推薦項(xiàng)目集合[8-9].
用戶ub對項(xiàng)目it的預(yù)測評分pub,it如式(6)
(6)
綜上可以得到,傳統(tǒng)的協(xié)同過濾算法適合與復(fù)雜非結(jié)構(gòu)化的項(xiàng)目推薦;對內(nèi)容異構(gòu)度高的項(xiàng)目有很好的適應(yīng)性,善于發(fā)現(xiàn)新的興趣點(diǎn),但是在數(shù)據(jù)稀疏和冷啟動(dòng)問題上沒有很好解決.用戶-項(xiàng)目評分矩陣是協(xié)同過濾算法的基礎(chǔ),數(shù)據(jù)稀疏以及新用戶加入時(shí),導(dǎo)致沒有評分?jǐn)?shù)據(jù)情況下,利用推薦算法得到的項(xiàng)目集是不精確的.
用戶是有興趣特征即用戶的偏好,而項(xiàng)目有它的屬性特征.當(dāng)用戶的興趣特征與項(xiàng)目的屬性特征相匹配時(shí),用戶對此項(xiàng)目的偏好就會(huì)加強(qiáng).在一個(gè)推薦系統(tǒng)中,用戶的興趣特征是由標(biāo)簽興趣和評價(jià)文本的潛在興趣特征所組成的.項(xiàng)目的屬性特征是由描述項(xiàng)目的文檔所表示,并在不同的上下文中,表示的語義不同.如何獲取用戶的潛在興趣特征和項(xiàng)目的潛在屬性特征是關(guān)鍵問題[10].
融合用戶興趣和評論文本主題挖掘的推薦算法UICTM分成三個(gè)步驟:
Setp1:利用TransR從用戶的標(biāo)簽興趣分析用戶核心興趣.
Setp2:對評論文本的主題挖掘并映射到評分矩陣中,然后進(jìn)行預(yù)測評分.
Setp3:將預(yù)測評分與用戶核心興趣相組合,得到Top-n的推薦集合.
先定義數(shù)學(xué)符號(hào),如表1所示:
表1 模型數(shù)學(xué)符號(hào)定義
詳細(xì)介紹本文提出的模型UICTM.算法包括用戶標(biāo)簽興趣提取網(wǎng)絡(luò)Nut和用戶評論提取網(wǎng)絡(luò)Nuc以及用戶興趣特征網(wǎng)絡(luò)Nut-uc,Nut和Nuc分別負(fù)責(zé)對用戶標(biāo)簽興趣和用戶評論文本特征進(jìn)行提取.而Nut-uc是對Nut和Nuc的融合.
在一般的推薦系統(tǒng)中,用戶在使用系統(tǒng)之前,需進(jìn)行注冊用戶信息,標(biāo)注用戶在本系統(tǒng)中各個(gè)應(yīng)用域的興趣點(diǎn),本文中稱為源標(biāo)簽興趣RIP.源標(biāo)簽興趣RIP不一定能夠反映用戶的核心標(biāo)簽興趣CIP,其主要原因有:
(1)推薦系統(tǒng)中給出的興趣點(diǎn)細(xì)分隸屬度不夠.導(dǎo)致用戶的RIP和CIP的相關(guān)度R(RIP,CIP)不強(qiáng).
(2)推薦系統(tǒng)中隨時(shí)間變化,用戶的CIP得到遷移,即NIP.使得R(CIP,NIP)的值變大.
用戶標(biāo)簽興趣提取網(wǎng)絡(luò)Nut模型的數(shù)學(xué)表達(dá):
(7)
3.2.1 用戶標(biāo)簽興趣提取Nut模型
由于三元組有很強(qiáng)的表達(dá)能力,但是在數(shù)據(jù)稀疏、魯棒性等問題中表現(xiàn)不足.因此我們將關(guān)系三元組用低維稠密的向量表示,從而語義相近的實(shí)體可以用向量表示,即可在低維度進(jìn)行實(shí)體相似度計(jì)算.
利用TransR模型對三元的RIP和CIP用n維向量表示為VRIP和VCIP,關(guān)系用m維向量表示為VRrip,cip.對于三元組G={RIP,Rrip,cip,CIP},首先將n維度的VRIPVCIP運(yùn)用投射矩陣Tn×m投影到m維空間,得到關(guān)系空間的m維實(shí)體VRIPm和VCIPm,.通過TransR模型得到公式:
VRIPm=VRIP×Tn×m
(8)
VCIPm=VCIP×Tn×m
(9)
同時(shí)得到他們的相似度:
f(VRIPm,VCIPm)=‖VRIPm+VRrip,cip-VCIPm‖
(10)
3.2.2 文本評論興趣提取Nuc模型
(1)LDA模型
文本分析中概率生成模型LDA的核心思想是一種實(shí)現(xiàn)降維的技術(shù)算法,在高維空間中,對每個(gè)文本評論實(shí)現(xiàn)投影,出現(xiàn)許多重復(fù)的區(qū)域.通過標(biāo)注來實(shí)現(xiàn)降維,減少重復(fù)區(qū)域,增加各類別內(nèi)部的聚合,減少類別之間的距離和區(qū)分[11].
結(jié)合本文,設(shè)定在S維空間中,文本評論數(shù)據(jù)d實(shí)現(xiàn)降維,降維到L(S>L)維中,L為文本評論的主題數(shù),利用概論方法計(jì)算文本評論數(shù)據(jù)d的l維主題分布,把文本評論數(shù)據(jù)集d視為由Nd各詞w組成的序列[12-14].具體算法步驟為:
Setp1:計(jì)算每個(gè)主題的分布φl,即表示主題單詞φl屬于主題l的可能性.
Setp2:計(jì)算文檔d中每個(gè)單詞w在l上的分布主題Zd,l.
Step3:計(jì)算文檔d在主題l上的主題分布φd,l.
Setp4:計(jì)算文本評論數(shù)據(jù)集D在主題l上的分布ρl(D/θ,φ),參見式(11):
(11)
(2)TMF模型
文本評論分為融合用戶文本評論和融合項(xiàng)目文本評論,F(xiàn)TC是把某一個(gè)項(xiàng)目的所有文本評論組合一個(gè)文檔,并作為主題發(fā)現(xiàn)模型的文本集[11],從中發(fā)現(xiàn)項(xiàng)目屬性特征的分布.TMF模型把一個(gè)用戶的所有評論組合一個(gè)文本集合,進(jìn)行挖掘分析潛在主題分布δ,并與pi或qj映射.我們從文獻(xiàn)[11]中分析得到,評分矩陣潛在因子數(shù)目與評論文本的因子數(shù)目相同,假設(shè)為L,并且潛在因子間的權(quán)重相同時(shí),評分矩陣的潛在因子與文本評論的主題具有相關(guān)性參見式(12).
(12)
式(12)中,δi,l表示項(xiàng)目i潛在特征l上的主題,pi,l表示項(xiàng)目i潛在因子向量在特征l上的值,α為兩者相關(guān)性控制系數(shù).
(13)
其中:θi和θj分別為用戶和項(xiàng)目的偏置量,pi和qj分別為用戶i和項(xiàng)目j在l維潛在的特征向量,θg為全局偏置量.
TMF模型中式(12)是評分矩陣的潛在因子與文本評論主題的對應(yīng)關(guān)系,TMF模型不需要對參數(shù)δ和p進(jìn)行同時(shí)擬合,TMF優(yōu)化的目標(biāo)函數(shù)參見式(14):
(14)
(3)UIFT模型
(15)
(16)
(17)
(18)
(19)
將式(17),(18)代入式(19)得到最小目標(biāo)函數(shù)公式(20).
(20)
其中:Ω={χ,θi,θj,pi,qj},Θ={δ,δ′,s′,s}表示共同訓(xùn)練參數(shù)集Ω和Θ.在式(20)中無法求解Ω和Θ,運(yùn)用梯度下降法對式(18)進(jìn)行變換得到公式(21):
(21)
(4)UIFT+模型
用戶的興趣隨時(shí)間變化發(fā)生改變,從一個(gè)時(shí)間窗口期分析,興趣是穩(wěn)定的.用戶當(dāng)前評論和打分能夠反映當(dāng)前時(shí)間窗口期的興趣和愛好,間隔期越長,用戶的評論反應(yīng)當(dāng)前的興趣程度越低.
本文設(shè)置wu用戶文本評論主題的正則項(xiàng)權(quán)重,wI項(xiàng)目文本評論的主題的正則項(xiàng)權(quán)重.用戶的評分受到兩個(gè)因素的制約,一個(gè)是項(xiàng)目的歷史評價(jià)的影響,另一個(gè)用戶自身偏好影響.wu權(quán)重和時(shí)間窗口期是相關(guān)的,因此用戶文本評價(jià)集合Cu按照時(shí)間的窗口期T={t1,t2…tl}.Cu的分割長度為l,最小為1,即ti(t1,t2,…tl),設(shè)窗口期大小2l-1,可表示為
win(ti)={ti-l+1,…,ti-1,ti,ti+1,…ti+l-1}
(22)
當(dāng)i=1和i=l時(shí)可得
win(ti)={ti,ti+1…ti+l-1}
(23)
win(ti)={ti-l+1,…ti-1,ti}
(24)
由式(23)和(24).將用戶文本評價(jià)集合動(dòng)態(tài)劃分為Cu={Ci-l+1,…,Ci,…,Ci+l-1},通過LDA主題分析得到各窗口期的用戶文本評價(jià)集合權(quán)重分別表示為wu={wu1,wu2…wuL},并對式(18)加以改進(jìn)可得:
(25)
wu是由式(24)計(jì)算得到:
(26)
Lo(Cu,t)、Cu,t、Nc,u分別表示用戶u在時(shí)間窗口期t的位置和評價(jià)文本以及文本數(shù).?為調(diào)節(jié)系數(shù).
同理由式(17)得到:
(27)
用戶評論文本數(shù)目Nc,u和項(xiàng)目評論文本數(shù)目Nc′,i與設(shè)置閾值a的關(guān)系如式(28):
(28)
UICTM模型是融合了用戶興趣提取模型Nut和評論文本模型Nuc的雙模態(tài)推薦算法,數(shù)學(xué)表達(dá)式為:
ηi=(1-k)ηNut+kηNuc
(29)
其中:ηNut為用戶興趣標(biāo)簽主題的相似度,ηNuc為評論文本主題的相似度,則文本評論與主題相似概率為pi,c,公式如下:
(30)
w為引入的權(quán)重,分別將公式(10)和公式(27)代入可得公式(31)
(31)
雙模態(tài)推薦模型融合的關(guān)鍵是對不同模態(tài)的推薦結(jié)果賦予各自的權(quán)重,按照一定的規(guī)則標(biāo)準(zhǔn)計(jì)算各自的權(quán)重,權(quán)重來自輸入數(shù)據(jù)與推薦結(jié)果的相關(guān)性.根據(jù)上述分析,按照以下步驟確定權(quán)重w.
步驟一:確定加權(quán)矩陣
(32)
其中:pi,j是第i模態(tài)推薦模型對第j個(gè)文本主題的相似概率,c為文本主題數(shù).因此得到加權(quán)矩陣為:
(33)
其中:wi是第i中模態(tài)推薦模型的加權(quán)矩陣.
(34)
步驟三:依據(jù)最大值規(guī)則選取第k各文本主題為最終推薦概率,公式(35)所示:
(35)
其中:L為文本主題數(shù)目.
通過python爬取亞馬遜商品信息作為數(shù)據(jù)集,詳細(xì)數(shù)據(jù)如表2所示,數(shù)據(jù)集80%為訓(xùn)練數(shù)據(jù)集,20%為測試數(shù)據(jù)集.
表2 實(shí)驗(yàn)數(shù)據(jù)集明細(xì)
數(shù)據(jù)集中包括字段有:商品標(biāo)識(shí)、商品名稱、時(shí)間、價(jià)格、用戶標(biāo)識(shí)、用戶名、評論文本、興趣標(biāo)簽詞、評分、評論標(biāo)題.
推薦系統(tǒng)的常用評估方法是均方誤差(MSE),在相關(guān)文獻(xiàn)中還有均方根誤差(RMSE)、平均絕對值誤差(MAE),通過公式分析三種方法的評估結(jié)果具有同向性[12-14].均方誤差(MSE)計(jì)算如式(36):
(36)
其中:Ω為測試樣本集合,|Ω|為測試樣本容量.
MSE反映推薦系統(tǒng)的質(zhì)量,MSE值越小推薦質(zhì)量越優(yōu).
預(yù)測評分與實(shí)際評分的一致的數(shù)目也是反映推薦系統(tǒng)質(zhì)量的重要指標(biāo).作為本實(shí)驗(yàn)室的第二指標(biāo).定義推薦系統(tǒng)的準(zhǔn)確度ACC計(jì)算如式(37)
(37)
其中:|Ω′|為測試樣本中預(yù)測評分與實(shí)際評分一致性值,|Ω|為測試樣本容量.
下面對本文的FTC+模型與傳統(tǒng)的推薦模型進(jìn)行對比分析:
(1)CF推薦,是傳統(tǒng)的協(xié)同過濾算法,計(jì)算用戶的相似度或者是物品的相似度,對相似度的排序找到Top-n的相似對象,依據(jù)對象的喜好,推薦給相似對象的方法.
(2)TMF推薦,是本文中提出,將用戶所有文本評論組合一個(gè)文檔,得到主題建模和矩陣分解的潛在因子,構(gòu)建推薦模型.
(3)UITF推薦,是本文提出,將項(xiàng)目文本評論和用戶文本評論分別進(jìn)行主題建模和矩陣分解的潛在因子,并進(jìn)行相融合再進(jìn)行構(gòu)建推薦模型.
(4)UITF+模型推薦,是在UTF的基礎(chǔ)上,參考時(shí)間因素,引入權(quán)重因子,進(jìn)行構(gòu)建推薦模型.
在給定的條件下,文本主題數(shù)L選取不同的值(L=6,L=12,L=24等).觀察MSE和ACC的變化,如表3和表4:
表3 各算法在不同主題數(shù)下的均方誤差MSE
4.4.1 實(shí)驗(yàn)1推薦準(zhǔn)確度
表4統(tǒng)計(jì)出4個(gè)推薦算法在不同數(shù)目主題下ACC值.分析得到如下結(jié)論:
表4 各算法在不同主題數(shù)下的準(zhǔn)確率ACC(%)
(1)UICTM極大地提高推薦質(zhì)量,與TMF相比平均值減少9.79%,UITF+與UITF相比平均值減少2.72%.
(2)主題數(shù)在L=24和L=48下各推薦算法MSE值有明顯增大,TMF變化-6.82%,UICTM變化-0.92%.
(3)基于項(xiàng)目評論文本融合用戶評論文本的推薦模型UITF推薦質(zhì)量優(yōu)于基于用戶評論文本的推薦模型TMF,且融合文本的推薦模型UITF和TMF兩個(gè)模型都優(yōu)于傳統(tǒng)的CF模型.
(4)表5是各推薦模型在8類數(shù)據(jù)子集上的準(zhǔn)確度ACC和MSE(L=6).
表5 8組數(shù)據(jù)子集下的預(yù)測準(zhǔn)確度ACC和均方誤差MSE(L=6)
統(tǒng)計(jì)得到,各推薦模型在母嬰數(shù)據(jù)子集準(zhǔn)確度最高且穩(wěn)定.融合文本評論和用戶興趣的UICTM推薦模型在8類數(shù)據(jù)子集上最優(yōu).
4.4.2 實(shí)驗(yàn)2各推薦模型訓(xùn)練時(shí)間分析
本實(shí)驗(yàn)隨機(jī)選擇了母嬰產(chǎn)品子類數(shù)據(jù)集作為各推薦模型的輸入,分別得到TMF、UITF、UITF+和UICTM模型訓(xùn)練時(shí)間,如圖1所示,其中L(L=6,L=12,L=24)表示潛在因子數(shù)量.
圖1 母嬰數(shù)據(jù)子集各模型訓(xùn)練時(shí)間
圖1隨著潛在因子數(shù)量L的增加,各模型訓(xùn)練時(shí)間都明顯增長,各個(gè)模型訓(xùn)練時(shí)間趨勢線指數(shù)增長明顯,在實(shí)驗(yàn)1中各模型在母嬰數(shù)據(jù)集上的推薦準(zhǔn)確度較穩(wěn)定,所以實(shí)驗(yàn)2選擇L=6.UIMF和UIMF+在訓(xùn)練時(shí)間成本上比TMF更多,從實(shí)驗(yàn)1的結(jié)果可知,UIMF和UIMF+的推薦準(zhǔn)確度高于TMF.融合文本評論和用戶興趣的UICTM模型訓(xùn)練時(shí)間成本最多,模型訓(xùn)練是系統(tǒng)應(yīng)用的離線處理過程.因此,將UICTM模型應(yīng)用在推薦系統(tǒng)中是可行的.
4.4.3 實(shí)驗(yàn)3 UICIM模型實(shí)驗(yàn)分析
本實(shí)驗(yàn)選取母嬰產(chǎn)品數(shù)據(jù)子集作為輸入,分別對式(31)中調(diào)節(jié)參數(shù)w取不同的值,觀察UICTM(MSE)和UICTM(ACC)發(fā)生的變化.如圖2和圖3所示:
圖2 母嬰產(chǎn)品數(shù)據(jù)子集上MSE和ACC指標(biāo)分析1
圖3 母嬰產(chǎn)品數(shù)據(jù)子集上MSE和ACC指標(biāo)分析2
從圖2得到在MSE和ACC指標(biāo)UICTM上相對與UITF+分別降低0.006152和0.034341.
從圖3得到在MSE指標(biāo)UICTM上相對與UITF+降低0.012355,在ACC指標(biāo)上UICTM相對與UITF+提升0.034341.
(1)數(shù)據(jù)集有8個(gè)數(shù)據(jù)子集,考慮到不同種類數(shù)據(jù)集屬性對模型的推薦指標(biāo)的影響,分別分析了各類數(shù)據(jù)集ACC和MSE在文本分類主題L=6條件下的變化.結(jié)果表明各模型在服裝產(chǎn)品數(shù)據(jù)子集上推薦質(zhì)量較低(見圖4和圖5),ACC和MSE的平均值分別為0.33875和0.36925.UICTM模型在書籍、音樂、食物和手機(jī)產(chǎn)品四個(gè)數(shù)據(jù)子集中推薦準(zhǔn)確度ACC分別為0.683、0.674、0.524和0.769,整體表現(xiàn)優(yōu)于其他推薦算法模型.
圖4 四個(gè)子集上MSE變化
圖5 四個(gè)子集上ACC變化
(2)評論文本的主題分析,從項(xiàng)目和用戶兩個(gè)維度進(jìn)行LDA主題建模.
用UITF 算法模型將兩者進(jìn)行融合.考慮到時(shí)間因素對推薦質(zhì)量的影響.把時(shí)間序列加入其中,改進(jìn)UITF模型即UITF+模型.評論文本主題數(shù)L分別取值不同(L=6、L=12、L=24、L=48、L=96)時(shí),UITF+在UITF模型基礎(chǔ)上推薦度ACC分別提升0.87%,1.66%,-9.09%,1.52%和3.56%,UITF+整體上優(yōu)于UITF;UICTM是在UITF+上融合用戶興趣Nut模型,UICTM在UITF+模型基礎(chǔ)上推薦度ACC分別提升2.40%,5.07%,12.72%,2.71%和-12.17%,UICTM整體上優(yōu)于UITF+.
本文提出基于評論文本分析的推薦模型UITF和UITF+,UITF是將用戶評論文本和項(xiàng)目評論文本同時(shí)與矩陣分解潛在因子相融合,UITF+是將時(shí)間因素引入推薦模型中,UICTM是進(jìn)一步融合用戶興趣,對其語義上相似度進(jìn)行計(jì)算,將結(jié)果引入推薦模型UITF+中.從實(shí)驗(yàn)中,模型對比結(jié)果表明UITF、UITF+和UICTM整體由于TMF和MSE指標(biāo)上減少0.058、0.0829和0.0892,ACC指標(biāo)上提升0.0741、0.0382和0.0634.并且對各類實(shí)驗(yàn)數(shù)據(jù)子集進(jìn)行比較,整體表現(xiàn)良好,局部不穩(wěn)定.
本文是針對用戶行為中的評論文本和興趣進(jìn)行分析建立推薦模型的,今后的研究要考慮到用戶的社交關(guān)系以及用戶的特征分析.將上下文評論中情感因素考慮其中,提升推薦模型質(zhì)量.
青海師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年1期