一種基于用戶交易行為的隱語義模型推薦算法*

2017-11-20 01:50:51梁婧文蔣朝惠

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2017年21期

關(guān)鍵詞：準(zhǔn)確度語義交易

梁婧文，蔣朝惠

(貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，貴州貴陽 550025)

一種基于用戶交易行為的隱語義模型推薦算法*

梁婧文，蔣朝惠

(貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，貴州貴陽550025)

通過分析目前推薦技術(shù)在電子商務(wù)系統(tǒng)中的應(yīng)用優(yōu)勢，并針對(duì)當(dāng)前產(chǎn)品交易系統(tǒng)的無評(píng)分、產(chǎn)品量大和難以分類等現(xiàn)狀與問題，設(shè)計(jì)了一種基于用戶交易行為的隱語義模型推薦算法。該算法從用戶的隱式交易行為出發(fā)，采用隱語義模型推薦算法，構(gòu)建用戶-產(chǎn)品興趣模型，并加入K均值算法劃分隱式特征聚類。實(shí)驗(yàn)驗(yàn)證表明，該算法在滿足用戶的個(gè)性化需求的同時(shí)，可提高電子商務(wù)系統(tǒng)的產(chǎn)品推薦效率。

推薦算法；用戶交易行為；隱語義模型；K均值算法

0 引言

電子商務(wù)網(wǎng)站是個(gè)性化推薦系統(tǒng)的一個(gè)重要應(yīng)用領(lǐng)域，各種著名的電子商務(wù)網(wǎng)站，例如亞馬遜、淘寶、Netflix、京東等，都在各個(gè)方面使用到了個(gè)性化推薦，是個(gè)性化推薦技術(shù)最積極的應(yīng)用者和推廣者。

在主流的電子商務(wù)系統(tǒng)中大都采用協(xié)同過濾(Collaborative Filtering，CF)推薦算法[1]，該算法是基于用戶行為數(shù)據(jù)分析設(shè)計(jì)的，并且基于一種假設(shè)：用戶過去喜歡的在未來也同樣喜歡。最廣泛使用的協(xié)同過濾算法有：(1)基于鄰域(Neighborhood-based)的方法，包括基于用戶(User-based)和基于產(chǎn)品(Item-CF)的，通過分析與用戶之前喜好相似的產(chǎn)品或者推薦給用戶與他喜好相似的用戶所關(guān)注的產(chǎn)品來構(gòu)成推薦模型；(2)隱語義模型(Latent Factor Model，LFM)，使用某些隱含特征來關(guān)聯(lián)用戶興趣和產(chǎn)品，并據(jù)此構(gòu)建推薦模型。

對(duì)于電子商務(wù)推薦系統(tǒng)來說，如何建立用戶的偏好模型是首要問題，但當(dāng)前產(chǎn)品交易系統(tǒng)存在無評(píng)分、產(chǎn)品量大、難以分類等問題，同時(shí)對(duì)協(xié)同過濾算法中隱式反饋方面的研究也越來越廣泛。因此本文從用戶的隱式交易行為出發(fā)，設(shè)計(jì)了一種基于用戶交易行為的隱語義模型推薦算法(User Transaction Behavior for Latent Factor Model，UTB-LFM)。

1 相關(guān)工作

自Netflix Prize推薦系統(tǒng)大賽之后，研究者對(duì)隱式反饋信息和隱語義模型越來越關(guān)注，近幾年人們對(duì)LFM的應(yīng)用與研究也越來越深入。2014年，YIN F L、CHAI J P[2]等人在數(shù)字電視節(jié)目的推薦中使用了隱式特征模型，通過對(duì)觀眾行為進(jìn)行分析，確定觀眾興趣與觀看電視節(jié)目之間的關(guān)系，并據(jù)此為觀眾建議節(jié)目類型。CHEN C、ZHENG L[3]等人在LFM中加入偏置項(xiàng)，證明推薦的準(zhǔn)確度較原始的LFM推薦模型有所提高。2015年，張玉連[4]等人提出了一種通過建立隱語義模型，分析用戶和論文的特征向量進(jìn)行科技論文的推薦，獲得了較好的準(zhǔn)確度。2016年，文獻(xiàn)[5]將用戶的某些屬性信息融合到LFM上，即使用戶歷史行為數(shù)據(jù)稀疏，也可根據(jù)用戶屬性來尋找鄰域用戶，解決了稀疏問題。

上述研究都涉及到用戶的隱式行為，隱式獲取用戶信息的方式主要包括：訪問用戶日志和挖掘、跟蹤用戶行為兩個(gè)方面。同時(shí)，隱語義模型以其基于用戶隱式行為設(shè)計(jì)的優(yōu)勢，通過收集用戶隱式反饋信息來獲取用戶偏好的方式，已是目前信息提供服務(wù)領(lǐng)域關(guān)注的熱點(diǎn)之一，為推薦技術(shù)的發(fā)展奠定了理論基礎(chǔ)。因此，將隱語義模型推薦算法與電子商務(wù)系統(tǒng)結(jié)合，通過獲取用戶隱式的交易行為產(chǎn)生推薦，更加具有研究和應(yīng)用前景。

2 基于用戶交易行為的隱語義模型

2.1隱語義模型

2006年，Koren提出了隱語義模型，簡稱LFM。從矩陣分解方法出發(fā)，假設(shè)用戶u對(duì)產(chǎn)品i的評(píng)分矩陣R可以分解為用戶特征矩陣P、產(chǎn)品特征矩陣Q，兩矩陣的乘積表示用戶-產(chǎn)品評(píng)分矩陣，如式(1)所示：

(1)

其中P∈Rf×m和Q∈Rf×n是兩個(gè)低維度矩陣。預(yù)測評(píng)分通過式(2)計(jì)算得到，其中puf=P(u,f)，qif=Q(i,f)：

(2)

為了求解該模型中各參數(shù)值，定義了損失函數(shù)如式(3)所示：

(3)

通過對(duì)上述損失函數(shù)求偏導(dǎo)數(shù)得到式(4)、式(5)，利用隨機(jī)梯度下降法不斷迭代[4]，即最小化損失函數(shù)求出P、Q中的參數(shù)，得遞推公式(6)和式(7)：

(4)

(5)

puf=puf+α(qif-λpuf)

(6)

qif=qif+α(puf-λqif)

(7)

其中涉及的重要參數(shù)包括：α表示學(xué)習(xí)速率，λ表示正則化參數(shù)。迭代次數(shù)根據(jù)實(shí)際誤差情況進(jìn)行調(diào)整。

由于實(shí)際的推薦系統(tǒng)有很多固定屬性與用戶、產(chǎn)品無關(guān)，而上述隱語義模型并沒有考慮這種影響，因此，又進(jìn)一步得到另一種LFM模型的預(yù)測公式(8)：

(8)

其中μ+bu+bi稱為偏置項(xiàng)，μ是訓(xùn)練數(shù)據(jù)集中全部評(píng)分值的全局平均數(shù)，描述系統(tǒng)屬性對(duì)用戶的影響；bu是用戶偏置項(xiàng)，描述和產(chǎn)品無關(guān)的用戶習(xí)慣；bi是產(chǎn)品偏置項(xiàng)，描述與用戶無關(guān)的產(chǎn)品屬性。再根據(jù)隨機(jī)梯度下降法，得到式(9)～式(12)的遞推公式：

bu=bu+α(eui-λbu)

(9)

bi=bi+α(eui-λbi)

(10)

puk=puk+α(qik×eui-λpuk)

(11)

qik=qik+α(puk×eui-λqik)

(12)

2.2基于用戶交易行為的隱語義模型

構(gòu)建用戶興趣模型的輸入數(shù)據(jù)總體分為用戶數(shù)據(jù)和產(chǎn)品數(shù)據(jù)，用戶數(shù)據(jù)又包括用戶自身的屬性數(shù)據(jù)、評(píng)分?jǐn)?shù)據(jù)、行為模式數(shù)據(jù)等，用戶在產(chǎn)品交易時(shí)，有一些常見的情況，比如用戶不希望通過對(duì)產(chǎn)品評(píng)分來表達(dá)個(gè)人的喜好，或者該系統(tǒng)并沒有提供評(píng)分的功能，系統(tǒng)能夠獲得的僅僅是用戶的交易行為。此外，一個(gè)系統(tǒng)擁有的產(chǎn)品數(shù)量非常巨大，難以通過人為手段對(duì)產(chǎn)品進(jìn)行分類，直接計(jì)算相似性效率較低，且推薦不夠準(zhǔn)確。

針對(duì)上述問題，本文首先在交易數(shù)據(jù)中提取用戶有過購買行為的數(shù)據(jù)，“1”表示推測用戶喜歡該產(chǎn)品，“0”表示推測用戶不喜歡該產(chǎn)品或不知道該產(chǎn)品，使用二進(jìn)制反饋數(shù)據(jù)，也可以說是表示為0-1數(shù)據(jù)[6]，構(gòu)建初始化的用戶-產(chǎn)品興趣度矩陣。

然后根據(jù)隱語義模型的思想，把用戶-產(chǎn)品興趣度矩陣分解為兩個(gè)低維度的矩陣P和Q，P是用戶-隱式特征矩陣，表示用戶對(duì)隱類的偏好程度，Q是隱式特征-產(chǎn)品矩陣，表示每個(gè)產(chǎn)品屬于隱類的概率，用P和Q兩個(gè)矩陣的乘積表示實(shí)際評(píng)分，這樣得到的預(yù)測評(píng)分會(huì)更接近實(shí)際評(píng)分。最后，利用式(3)、式(6)、式(7)得到P、Q特征矩陣。

采用上述方法構(gòu)建基于用戶交易行為的隱語義模型，既解決人為分類產(chǎn)品導(dǎo)致的推薦不準(zhǔn)確問題，又通過隱語義模型達(dá)到對(duì)用戶交易行為矩陣降維的目的。

3 算法設(shè)計(jì)

基于用戶交易行為的隱語義模型推薦算法(UTB-LFM)的流程如圖1所示。

圖1 UTB-LFM算法流程圖

UTB-LFM的具體流程如下：

(1)基于用戶交易記錄，有過購買行為的產(chǎn)品選為正樣本，設(shè)興趣度Rui=1，采集同等數(shù)量的負(fù)樣本，設(shè)興趣度為Rui=0，使用0、1初始化用戶-產(chǎn)品矩陣R；

(2)利用式(3)、式(6)、式(7)對(duì)矩陣R進(jìn)行分解，得到針對(duì)隱類的用戶特征矩陣P和產(chǎn)品特征矩陣Q；

(3)對(duì)產(chǎn)品特征矩陣Q使用K均值聚類算法[7]進(jìn)行聚類，得到K個(gè)小規(guī)模的產(chǎn)品特征矩陣；

(4)根據(jù)目標(biāo)用戶的交易記錄，找到已購產(chǎn)品所屬類別，在相應(yīng)類別中，根據(jù)產(chǎn)品的特征權(quán)值，計(jì)算產(chǎn)品之間的相似性，其中相似度計(jì)算使用余弦相似性度量方法，如式(13)所示[8]。產(chǎn)品i與產(chǎn)品j的相似度公式中的Ri,f和Rj,f分別表示產(chǎn)品i屬于f個(gè)隱式特征的權(quán)值和產(chǎn)品j屬于f個(gè)隱式特征的權(quán)值，選取的隱式特征個(gè)數(shù)用F表示。

(13)

(14)

4 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析

4.1實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

實(shí)驗(yàn)使用MovieLens數(shù)據(jù)集，其中包括943個(gè)用戶和1 682個(gè)電影資源組成的100 KB的評(píng)分?jǐn)?shù)據(jù)(1～5)。反復(fù)測試實(shí)驗(yàn)誤差，選擇80%的實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，20%的實(shí)驗(yàn)數(shù)據(jù)作為測試數(shù)據(jù)，表1是實(shí)驗(yàn)運(yùn)行環(huán)境。

表1 實(shí)驗(yàn)環(huán)境表

4.2評(píng)價(jià)指標(biāo)

推薦準(zhǔn)確度是評(píng)價(jià)推薦算法最基本的指標(biāo)之一，由于推薦系統(tǒng)的主要工作是根據(jù)用戶的偏好提供給他可能喜歡的產(chǎn)品，所以將準(zhǔn)確度看作是用戶對(duì)推薦結(jié)果的認(rèn)可程度。最常用的評(píng)價(jià)推薦準(zhǔn)確度的方法是均方根誤差(Root Mean Square Error，RMSE)[9]，準(zhǔn)確度越高則該值越小。因此，本文使用RMSE來衡量推薦算法的準(zhǔn)確度。此外，通過推薦運(yùn)行時(shí)間對(duì)使用K均值聚類縮小查找范圍的效率進(jìn)行評(píng)估。RMSE表達(dá)準(zhǔn)確度如式(15)，其中T為預(yù)測評(píng)分的總個(gè)數(shù)。

(15)

4.3結(jié)果分析

4.3.1推薦模型評(píng)估

采用RMSE比較本文設(shè)計(jì)的UTB-LFM、User-CF和Item-CF三種算法的預(yù)測準(zhǔn)確性；并比較隱式特征F的不同值對(duì)推薦模型效果的影響。

(1)不同隱式特征個(gè)數(shù)F對(duì)應(yīng)的RMSE

本文選擇α=0.006，λ=0.015進(jìn)行實(shí)驗(yàn)，在訓(xùn)練集上迭代14次，并且學(xué)習(xí)速率按照每次迭代縮減0.9倍的速度遞減。實(shí)驗(yàn)結(jié)果如圖2所示，其中User-CF算法選擇最優(yōu)的鄰居數(shù)為80個(gè)。

圖2 不同F(xiàn)值在各推薦模型下測試的RMSE值

通過實(shí)驗(yàn)發(fā)現(xiàn)，由于UTB-LFM中包括學(xué)習(xí)的過程，因此算法的RMSE較User-CF和Item-CF小，推薦的準(zhǔn)確度高。同時(shí)隨著隱式特征個(gè)數(shù)F值的增加，UTB-LFM算法的準(zhǔn)確度也隨之提高。而兩種基于鄰域的協(xié)同過濾推薦算法沒有引入隱式特征值，算法的準(zhǔn)確度不會(huì)變化。

(2)不同學(xué)習(xí)速率和迭代次數(shù)對(duì)RMSE的影響

選擇隱式特征F值為200，通過改變學(xué)習(xí)速率和迭代次數(shù)，保證基本相近的RMSE值，實(shí)驗(yàn)結(jié)果如表2所示。

表2 不同學(xué)習(xí)速率和迭代次數(shù)對(duì)RMSE值的影響

從表2得出，學(xué)習(xí)速率從0.005增加到0.01的過程中，保證準(zhǔn)確度的前提下，迭代次數(shù)逐漸減少，構(gòu)建模型時(shí)間變短。因此可以通過增加學(xué)習(xí)效率來減少算法迭代次數(shù)，提高效率。

4.3.2產(chǎn)生推薦時(shí)間評(píng)估

比較UTB-LFM、User-CF和Item-CF三種推薦算法的推薦運(yùn)行時(shí)間，并驗(yàn)證不同聚類數(shù)K值對(duì)UTB-LFM產(chǎn)生推薦運(yùn)行時(shí)間的影響，實(shí)驗(yàn)結(jié)果如圖3所示。

圖3 不同K值在各模型下的推薦運(yùn)行時(shí)間

通過實(shí)驗(yàn)比較發(fā)現(xiàn)，UTB-LFM算法的推薦時(shí)間比User-CF和Item-CF算法短，且隨著K值的增加推薦時(shí)間逐漸降低，提高了推薦效率。

5 結(jié)論

本文主要對(duì)隱語義模型推薦算法進(jìn)行研究，并針對(duì)當(dāng)前電子商務(wù)系統(tǒng)以及交易數(shù)據(jù)存在的問題，提出了一種基于用戶交易行為的隱語義模型推薦算法(UTB-LFM)，該算法能夠在電子商務(wù)系統(tǒng)中通過獲取用戶的隱式交易行為，為用戶提供產(chǎn)品推薦。通過與基于用戶的協(xié)同過濾推薦算法和基于產(chǎn)品的協(xié)同過濾推薦算法的比較實(shí)驗(yàn)，驗(yàn)證了算法的準(zhǔn)確性和推薦效率均有所提高。

[1] 馬小龍.基于協(xié)作過濾算法的電子商務(wù)個(gè)性化推薦系統(tǒng)的研究[J].微型機(jī)與應(yīng)用，2014，33(15):13-15.

[2] YIN F L，CHAI J P，LI N，et al.Digital TV program recommendation system based on latent factor model[J].Applied Mechanics & Materials，2014(513-517):1692-1695.

[3] CHEN C，ZHENG L，THOMO A，et al.Comparing the staples in latent factor models for recommender systems[C].ACM Symposium on Applied Computing.ACM，2014: 91-96.

[4] 張玉連，袁偉.隱語義模型下的科技論文推薦[J].計(jì)算機(jī)應(yīng)用與軟件，2015,32(2):37-40.

[5] 巫可.基于隱語義模型的個(gè)性化推薦算法的研究[D].廣州:廣東工業(yè)大學(xué)，2016.

[6] HAHSLER M.Recommenderlab: a framework for developing and testing recommendation algorithms[EB/OL].(2015-XX-XX)[2017-04-20].https://cran.r-project.org/web/packages/recommenderlab/vignettes/recommenderlab.pdf.

[7] 何佳知，謝穎華.基于密度的優(yōu)化初始聚類中心K-means算法研究[J].微型機(jī)與應(yīng)用，2015,34(19):17-19.

[8] 付芬，豆育升，韓鵬，等.基于隱式評(píng)分和相似度傳遞的學(xué)習(xí)資源推薦[J].計(jì)算機(jī)應(yīng)用研究,2017,34(12):1-8.

[9] 程超，楊力，陳嘉鑫.融合語義關(guān)聯(lián)挖掘的文本情感分析算法研究[J].硅谷，2013，56(13)：99-103.

Latent factor model recommendation algorithm based on user transaction behavior

Liang Jingwen，Jiang Chaohui

(College of Computer Science and Technology，Guizhou University，Guiyang 550025，China)

Through analysis of the application advantages of recommendation technology in e-commerce system，and in order to solve the present situation and problems of the product trading system without scoring，large volume of products and difficult classification，a latent factor model recommendation algorithm based on user transaction behavior was designed，which starts from the implicit user transaction behavior，and constructs the interest model between users and products，which uses latent factor model recommendation algorithm，and K-means algorithm is used to cluster implicit feature.The experimental results show that the algorithm meets the individual needs of users，and can improve the recommendation efficiency of e-commerce system.

recommendation algorithm; user transaction behavior; latent factor model; K-means algorithm

TP312

10.19358/j.issn.1674-7720.2017.21.005

梁婧文，蔣朝惠.一種基于用戶交易行為的隱語義模型推薦算法J.微型機(jī)與應(yīng)用，2017,36(21)：15-18，25.

貴州省基礎(chǔ)研究重大項(xiàng)目(黔科合JZ字[2014]2001-21)

2017-05-10)

梁婧文(1990-)，女，碩士研究生，主要研究方向：數(shù)據(jù)庫與軟件工程。

蔣朝惠(1965-)，通信作者，男，碩士，教授，主要研究方向：數(shù)據(jù)庫與軟件工程、網(wǎng)絡(luò)與信息安全。E-mail:jiangchaohui@126.com。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于用戶交易行為的隱語義模型推薦算法*

0 引言

1 相關(guān)工作

2 基于用戶交易行為的隱語義模型

3 算法設(shè)計(jì)

4 實(shí)驗(yàn)數(shù)據(jù)及結(jié)果分析

5 結(jié)論