基于深度學(xué)習(xí)的評(píng)分預(yù)測社交推薦

2022-09-28 09:17劉藝璇孫英娟李婉樺楊丹陽

東北師大學(xué)報(bào)（自然科學(xué)版） 2022年3期

劉藝璇，孫英娟，李婉樺，楊丹陽，劉乾

(長春師范大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，吉林長春 130032)

0 引言

推薦算法研究的目的就是針對(duì)海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘，獲取用戶感興趣的數(shù)據(jù)，把它們推薦給相關(guān)的用戶[1].而隨著數(shù)據(jù)規(guī)模增大和互聯(lián)網(wǎng)不斷發(fā)展，傳統(tǒng)的推薦算法模型已經(jīng)不能滿足人們的日常生活，研究者們想到把多種傳統(tǒng)的推薦算法結(jié)合起來，或者在深度學(xué)習(xí)的基礎(chǔ)上進(jìn)行研究，這些研究都取得了一些不錯(cuò)的效果.

國內(nèi)外的一些研究者們對(duì)基于深度學(xué)習(xí)推薦算法做了一些深層次的研究，Lin等[2]提出了GNN-DSR模型，該模型分別對(duì)用戶興趣和項(xiàng)目吸引力的短期動(dòng)態(tài)和長期靜態(tài)交互表示進(jìn)行建模，使用從多個(gè)角度獲取的特征來進(jìn)行評(píng)分預(yù)測；He等[3]提出的NeuMF模型，它采用了一種基于神經(jīng)網(wǎng)絡(luò)的矩陣分解模型，其初始實(shí)現(xiàn)是根據(jù)推薦排序的任務(wù)，將其損失調(diào)整為一個(gè)平均損失值來進(jìn)行評(píng)分；Wu等[4]通過將社交推薦重構(gòu)為具有社交網(wǎng)絡(luò)和興趣網(wǎng)絡(luò)的異質(zhì)圖來建模用戶影響擴(kuò)散和興趣擴(kuò)散；Cui等[5]所提出的LT算法，在模型中增加了使用者的信任信息，并將使用者的標(biāo)簽信息納入到模型中，以此為基礎(chǔ)，通過對(duì)用戶的標(biāo)記進(jìn)行分析，對(duì)用戶間的信任度進(jìn)行了評(píng)估，并將兩者相結(jié)合，進(jìn)行了預(yù)測.基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的推薦模型[6-8]，利用卷積神經(jīng)網(wǎng)絡(luò)研究了歌曲信息，獲得歌曲的潛在特征，并計(jì)算用戶潛在向量和歌曲潛在向量之間的相似性，從而緩解了新歌曲的冷啟動(dòng)問題.Gu等[9]將項(xiàng)目圖嵌入和情境社會(huì)建模納入推薦任務(wù)中，提高了推薦算法的性能.

雖然結(jié)合深度學(xué)習(xí)的融合算法很常見，但利用圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network，GNN)獲得用戶和物品之間的關(guān)聯(lián)，得到用戶和物品的潛在特征，再用AFM(Attention Factorization Machine)將這兩者結(jié)合起來，預(yù)測用戶對(duì)物品的評(píng)分，并將這些模型融合起來的方法卻很少，因此本文提出混合模型REC_AFM.

1 本文算法

1.1 相關(guān)模型

社交推薦算法中的數(shù)據(jù)可以表示為圖數(shù)據(jù).如圖1所示，左邊表示用戶之間的關(guān)系社交圖，連線代表彼此之間存在一定聯(lián)系，有時(shí)也會(huì)用數(shù)字標(biāo)注用戶之間的聯(lián)系緊密程度.右邊表示用戶和物品之間存在購買行為和評(píng)分的用戶物品圖，如圖1中某用戶對(duì)音頻產(chǎn)品評(píng)分為1，對(duì)筆記本電腦的評(píng)分為3，對(duì)書籍的評(píng)分為5.

圖1 社交推薦中的圖表數(shù)據(jù)圖

本文提出基于深度學(xué)習(xí)和AFM算法的混合模型REC_AFM，算法模型如圖2所示.該模型由三個(gè)部分組成：用戶建模模塊、物品建模模塊和評(píng)級(jí)預(yù)測模塊.第一部分是用戶建模(User Model)，利用圖神經(jīng)網(wǎng)絡(luò)從用戶物品圖和用戶社交圖獲得用戶的潛在特征；第二部分是物品建模(Item Model)，本模塊將用戶與物品的購買行為及打分結(jié)合起來，以了解物品的潛在特征；第三部分是評(píng)級(jí)預(yù)測模塊(Rating Prediction)，通過AFM將用戶和物品的潛在特征聯(lián)系起來，預(yù)測用戶對(duì)物品的評(píng)分.

圖2 REC_AFM算法模型

1.2 用戶建模模塊

1.2.1 物品聚合

(1)

其中：f為非線性激活函數(shù)；W表示權(quán)重；b表示偏差；Aggi是物品item的聚合函數(shù)；Oia表示用戶ui與物品Ij之間的評(píng)分感知交互的向量；C(i)是用戶物品圖(user-item)中用戶ui的鄰居.通過多層感知器(MLP)將評(píng)分感知交互進(jìn)行建模.bv可以表示為將交互信息與意見信息融合在一起.物品嵌入pa及其評(píng)分嵌入gr的串聯(lián)作為MLP輸入，MLP的輸出是Oia，它表示物品和評(píng)分之間交互，所以O(shè)ia可以用數(shù)學(xué)公式表示為

Oia=bv([pa?gr]).

(2)

Aggi是一種聚合函數(shù)，也叫作均值運(yùn)算符，在其中取向量元素的均值{Oia，?A∈C(i)}.所以，公式(1)可以化簡為

(3)

(4)

(5)

(6)

1.2.2 社交聚合

(7)

(8)

(9)

(10)

(11)

1.2.3 學(xué)習(xí)用戶潛在特征

(12)

d2=f·[W2·d1+b2]；

(13)

…

Gi=f·[Wl·dl-1+bl].

(14)

1.3 物品建模模塊

物品建模的目的是用來學(xué)習(xí)用戶聚合得到物品Ij的潛在特征，表示為Mj.本文使用了一種通過用戶聚合來學(xué)習(xí)空間物品潛在特征的方法.對(duì)于每個(gè)物品Ij，需要從與物品Ij交互的用戶集合中聚合信息，表示為B(j).引入一種用戶對(duì)物品的評(píng)分意見表示為Yjt，hu是通過MLP從基本用戶和評(píng)分embedding(qi，gr)得到的，hu用來融合交互信息和評(píng)分信息，Yjt可以定義為

Yjt=hu([gr?qi]).

(15)

為了學(xué)習(xí)物品潛在特征Mj，在B(j)中為物品Ij聚合用戶的評(píng)分意見交互表示.用戶聚合函數(shù)表示為Aggu，用于聚合用戶的評(píng)分交互，Mj表示為

Mj=f(W·Aggu({Yjt，?t∈B(j)})+b).

(16)

引入了一種注意力機(jī)制，以Yjt和物品信息的嵌入pa為輸入，通過兩層神經(jīng)注意網(wǎng)絡(luò)區(qū)分用戶的重要性權(quán)重τjt，物品潛在特征Mj可以用函數(shù)表示為：

(17)

(18)

(19)

1.4 評(píng)分預(yù)測模塊

使用AFM將用戶潛在特征Gi和物品潛在特征Mj結(jié)合起來，用來預(yù)測某用戶對(duì)未評(píng)分物品的評(píng)分.AFM的結(jié)構(gòu)劃分為5個(gè)部分：Sparse Input(輸入層)、Embedding Layer(嵌入層)、Pair-wise Interaction Layer(雙向交互層)、Attention-based Pooling(注意力聚合層)、Prediction Score(評(píng)分預(yù)測).AFM的Sparse Input和Embedding Layer都與FM相同，對(duì)輸入的特征用稀疏矩陣來表示.

Pair-wise Interaction Layer采用的是對(duì)Embedding向量進(jìn)行各個(gè)元素對(duì)應(yīng)相乘(element-wise product)交互，用函數(shù)表示為

fPI(ε)={(Gi⊙Mj)xixj}(i，j)∈Rx.

(20)

其中：⊙表示元素對(duì)應(yīng)相乘；Rx={(i，j)}i∈X，j∈x，j>i，這里的X是非零特征經(jīng)過embedding層之后得到的embedding集合；Gi∈Rk表示的是用戶潛在特征的嵌入向量；Mj∈Rk表示的是物品潛在特征的嵌入向量，k表示嵌入向量的大小.最終的預(yù)測值可以定義為

(21)

其中p∈Rk，b∈R分別表示預(yù)測層的權(quán)值和偏差.Attention-based Pooling Layer根據(jù)對(duì)預(yù)測結(jié)果的影響程度給其加上不同權(quán)重，允許它們做出不同的貢獻(xiàn).因此，提出采用特征交互的注意力機(jī)制，對(duì)交互向量進(jìn)行加權(quán)求和，用函數(shù)表示為

(22)

其中：aij表示為特征Gi⊙Mj的注意力分?jǐn)?shù)，表示該交互特征對(duì)于預(yù)測評(píng)分的重要性程度.為了解決泛化問題，本文使用了將注意力得分引入多層次感知器(MLP)參數(shù)化的方法，即注意力網(wǎng)絡(luò).用數(shù)學(xué)形式表示為：

(23)

(24)

(25)

1.5 模型訓(xùn)練

要對(duì)REC_AFM進(jìn)行模型參數(shù)的估算，必須要有一個(gè)可以進(jìn)行優(yōu)化的目標(biāo)函數(shù).因?yàn)槭窃u(píng)分預(yù)測，所以目標(biāo)函數(shù)公式為

(26)

其中：|O|是觀察評(píng)分的數(shù)量，Zij是由物品j的使用者u指定的基本真實(shí)評(píng)分.為了優(yōu)化目標(biāo)函數(shù)，在實(shí)驗(yàn)中采用RMSprop(Root Mean Square Prop，一種加快梯度下降算法)作為優(yōu)化器.模型中有3種嵌入，分別是物品嵌入pa、用戶嵌入qi和意見嵌入gr，在訓(xùn)練時(shí)隨機(jī)初始化開始學(xué)習(xí).意見嵌入矩陣e取決于系統(tǒng)的評(píng)分范圍.為了緩解過擬合問題，將dropout正則化方法用于該模型，即在訓(xùn)練過程中，將某些神經(jīng)元隨意丟棄.

通過MAE、RMSE來評(píng)估本文模型.為了評(píng)估推薦算法性能的好壞，使用了兩個(gè)常用的評(píng)估指標(biāo)，即：平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)，隨著 MAE、RMSE的降低，其預(yù)測準(zhǔn)確率也相應(yīng)地提高.MAE與RMSE的公式為(其中Rtest為測試集的評(píng)分矩陣)：

(27)

(28)

2 實(shí)驗(yàn)結(jié)果分析

2.1 數(shù)據(jù)集

本文采用的數(shù)據(jù)集是Ciao.它擁有7 317個(gè)用戶，104 975個(gè)物品，111 781個(gè)社交關(guān)系.它是一個(gè)在線消費(fèi)者購物網(wǎng)站，記錄用戶對(duì)帶有時(shí)間戳商品的評(píng)分，用戶還可以將其他人添加到好友列表中，并建立社交關(guān)系.因此，它們提供了大量的評(píng)分信息和社交信息.我們根據(jù)從1—5的評(píng)分，使用對(duì)應(yīng)的嵌入向量，來初始化數(shù)據(jù)集的評(píng)分embedding.該數(shù)據(jù)集如表1所示.

表1 采用的數(shù)據(jù)集

2.2 模型參數(shù)與模型性能對(duì)比

在本文的模型REC_AFM中，研究的數(shù)據(jù)集劃分為：訓(xùn)練數(shù)據(jù)集占80%，用于擬合本文模型；驗(yàn)證數(shù)據(jù)集占10%，用于調(diào)整超參數(shù)以避免過擬合；測試數(shù)據(jù)集占10%，用于評(píng)估模型在訓(xùn)練過程中對(duì)看不見數(shù)據(jù)的表現(xiàn).

如圖3所示，所提出的模型在Ciao數(shù)據(jù)集上的嵌入大小對(duì)推薦效果有影響.當(dāng)嵌入大小為256時(shí)，RMSE和MAE較大.然而，如果嵌入的長度太大，模型的復(fù)雜性也顯著增加.當(dāng)嵌入大小從8增加到64時(shí)，RMSE和MAE最小，因此嵌入大小為64最合適.其他設(shè)置的參數(shù)值如表2所示.

圖3 嵌入大小與RMSE、MAE的關(guān)系

表2 參數(shù)設(shè)置

將本文方法REC_AFM與PMF、SoReg、SocialMF、NeuMF方法進(jìn)行比較，結(jié)果如表3所示.PFM[11]：是一個(gè)基于概率矩陣分解的算法，該方法僅使用了用戶物品的評(píng)分矩陣，并運(yùn)用了高斯分布的方法來獲得用戶和物品的潛在特征.SoReg[12]：社交規(guī)則信息將社交網(wǎng)絡(luò)信息建模為正則化項(xiàng)，屬于一個(gè)約束矩陣分解的框架.SocialMF[13]：在推薦系統(tǒng)矩陣分解模型中，引入了信任信息，并討論了其傳播問題.NeuMF[3]：一種新的基于神經(jīng)網(wǎng)絡(luò)的矩陣分解模型，該算法首先考慮了推薦排序的問題，最后將其損失調(diào)整為平方損失進(jìn)行評(píng)分預(yù)測.

表3 不同推薦算法的性能比較

PMF是不包含社交網(wǎng)絡(luò)信息的純協(xié)同過濾模型，用于評(píng)分預(yù)測，其他模型均為社會(huì)推薦.SocialMF、SoReg的表現(xiàn)優(yōu)于PMF，SocialMF是利用評(píng)分和社交網(wǎng)絡(luò)信息進(jìn)行預(yù)測，SoReg將社交網(wǎng)絡(luò)信息建模為正則化項(xiàng)，而PMF只使用評(píng)分信息，這說明社交網(wǎng)絡(luò)信息是評(píng)分預(yù)測推薦算法中的一個(gè)較為重要因素.NeuMF在性能上略優(yōu)于PMF，兩個(gè)算法都僅采用了評(píng)分的信息，然而NeuMF是一種基于神經(jīng)網(wǎng)絡(luò)的推薦算法，這說明神經(jīng)網(wǎng)絡(luò)在推薦算法中能讓推薦性能更優(yōu)秀.綜上所述，對(duì)比結(jié)果表明：(1)社交網(wǎng)絡(luò)信息使推薦算法更準(zhǔn)確；(2)加入神經(jīng)網(wǎng)絡(luò)模型能提高推薦算法性能.

從表3可以看出，本文研究的結(jié)果比PMF、SoReg、SocialMF和NeuMF算法都要好.因?yàn)镸AE和RMSE值越小，表示預(yù)測準(zhǔn)確率越高，在表3中可以看出本文提出的模型與其他4種算法模型相比，MAE和RMSE都是最低的，MAE為0.803 6，RMSE為1.054 4.意味著推薦效果更好，預(yù)測的評(píng)分更準(zhǔn)確，本文方法REC_AFM優(yōu)于所有的對(duì)比算法.

3 結(jié)語

REC_AFM是用于評(píng)分預(yù)測推薦的一種方法，它是一種以深度學(xué)習(xí)為基礎(chǔ)的融合算法，該算法利用GNN，首先從用戶物品圖和用戶社交圖中學(xué)習(xí)用戶的潛在特征，再通過用戶聚合來獲得物品空間中物品的潛在特征，最后利用AFM算法將得到的兩個(gè)特征相結(jié)合，來預(yù)測用戶對(duì)未評(píng)分物品的評(píng)分，獲得了較好的推薦結(jié)果.通過對(duì)Ciao公共數(shù)據(jù)集的仿真試驗(yàn)，證明了該方法在一定程度上能有效提高推薦算法的性能.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡