鄭紹振 鄭東霞
摘 ?要:社交網(wǎng)絡(luò)發(fā)展迅猛,社會(huì)網(wǎng)絡(luò)環(huán)境下的信息量驟增,如何在大數(shù)據(jù)下向用戶(hù)推薦感興趣的項(xiàng)目是當(dāng)前研究的熱點(diǎn)問(wèn)題之一。目前的推薦系統(tǒng)在用戶(hù)反饋數(shù)據(jù)稀疏的情況下和向新用戶(hù)推薦中存在推薦不準(zhǔn)確的問(wèn)題,為了提高推薦質(zhì)量,提出了一種融合社會(huì)標(biāo)簽的聯(lián)合概率矩陣分解推薦模型TaSoRec,該模型運(yùn)用社交網(wǎng)絡(luò)的用戶(hù)、項(xiàng)目、標(biāo)簽三者信息進(jìn)行推薦,通過(guò)對(duì)訓(xùn)練模型參數(shù)優(yōu)化,從而提升推薦效果。
關(guān)鍵詞:社會(huì)標(biāo)簽;聯(lián)合概率矩陣;推薦方法;社交網(wǎng)絡(luò)
中圖分類(lèi)號(hào):TP181 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
Incorporating Social Tagging for Unified Probabilistic
Matrix Factorization Recommendation
ZHENG Shaozhen1, ZHENG Dongxia2
(1. Liaoning Jinyang Group Information Technology Co., Ltd., Dandong 118000, China;
2.School of Computer and Software, Dalian Neusoft University of Information, Dalian 116023, China)
94225621@qq.com; zhengdongxia@neusoft.edu.cn
Abstract: With the development of social network, the explosive growth of information makes a hot issue to recommend attractive resources to users based on big data. In order to improve the quality of recommendation, this paper proposes a joint probability matrix factorization recommendation model called TaSoRec (Tag Social Recommendation) which integrates social tags. The model uses information of users, resources and tags of social network, and optimizes the parameters of the training model to achieve better recommendation results.
Keywords: social tagging; unified probability matrix; recommendation method; social network
1 ? 引言(Introduction)
社交網(wǎng)絡(luò)發(fā)展迅猛,開(kāi)放的網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)在爆發(fā)式的增長(zhǎng),在海量的數(shù)據(jù)中,用戶(hù)通常很難找到自己感興趣的信息。Web 2.0時(shí)代允許用戶(hù)對(duì)網(wǎng)絡(luò)上的信息進(jìn)行標(biāo)注,比如對(duì)喜歡的電影、音樂(lè)等標(biāo)注,
本文主要研究社交網(wǎng)絡(luò)中的項(xiàng)目推薦問(wèn)題,向用戶(hù)推薦用戶(hù)可能感興趣的項(xiàng)目。現(xiàn)有的推薦方法在用戶(hù)顯示反饋數(shù)據(jù)稀疏的情況下,推薦準(zhǔn)確度下降;如果是新用戶(hù),沒(méi)有反饋數(shù)據(jù)時(shí),推薦效果不理想,即存在冷啟動(dòng)問(wèn)題。本文使用的是協(xié)同過(guò)濾推薦技術(shù),提出了一種融合社會(huì)標(biāo)簽的聯(lián)合概率矩陣分解推薦算法(TaSoRec),算法研究用戶(hù)、項(xiàng)目和標(biāo)簽的兩兩關(guān)系,并使用概率矩陣分解方法進(jìn)行求解,得到三個(gè)特征矩陣的隱含特征向量,進(jìn)而對(duì)項(xiàng)目進(jìn)行最優(yōu)推薦。
2 ? 相關(guān)工作分析(Related Work)
現(xiàn)有的協(xié)同過(guò)濾推薦方法很難解決在大數(shù)據(jù)環(huán)境下用戶(hù)給予較少反饋信息或無(wú)反饋信息情況下的推薦,為了解決這種數(shù)據(jù)稀疏問(wèn)題,文獻(xiàn)[1]中,Ruslan Salakhutdinov和Andriy Mnih提出的一種概率矩陣分解方法,這種方法將一個(gè)高維矩陣分解為兩個(gè)或多個(gè)低維度的矩陣,即用同一個(gè)空間的維度來(lái)描述推薦過(guò)程中兩個(gè)實(shí)體(用戶(hù)、項(xiàng)目)的隱語(yǔ)義的特征,這種算法目前被應(yīng)用于當(dāng)數(shù)據(jù)很少時(shí)對(duì)于缺失數(shù)據(jù)的預(yù)測(cè),以提高推薦質(zhì)量。文獻(xiàn)[2]提出了一種聯(lián)合概率矩陣分解算法(UMPF),傳統(tǒng)的概率矩陣分解算法結(jié)合兩個(gè)實(shí)體進(jìn)行兩維的矩陣分解,而聯(lián)合概率矩陣分解算法結(jié)合三方面的實(shí)體,考慮三者中的兩兩關(guān)系,進(jìn)行矩陣分解。文獻(xiàn)[3]提出一種AdRec框架模型,將聯(lián)合概率分解算法首次應(yīng)用于上下文廣告的推薦中,實(shí)驗(yàn)表明,推薦效果好于傳統(tǒng)的單一概率矩陣分解算法;但是這種方法并不能簡(jiǎn)單地應(yīng)用到社會(huì)網(wǎng)絡(luò)環(huán)境下,社交網(wǎng)絡(luò)中用戶(hù)與用戶(hù)之間存在關(guān)系,此方法并沒(méi)有考慮到用戶(hù)之間的聯(lián)系。以上使用概率矩陣分解方法或聯(lián)合概率矩陣的算法,對(duì)于社交網(wǎng)絡(luò)中用戶(hù)之間的聯(lián)系及項(xiàng)目標(biāo)簽沒(méi)有受到關(guān)注。文獻(xiàn)[4]中,在協(xié)同過(guò)濾推薦模型中使用了標(biāo)簽信息,通過(guò)標(biāo)簽信息正則化概率矩陣分解的矩陣分解過(guò)程。文獻(xiàn)[5]中通過(guò)標(biāo)簽選擇每個(gè)用戶(hù)的鄰居和每個(gè)項(xiàng)目的鄰居,然后在矩陣分解中為每個(gè)用戶(hù)和每個(gè)項(xiàng)目的潛在特征向量填加唯一的高斯分布,使相似的用戶(hù)或項(xiàng)目具有相似的潛在特征。
3 ? 問(wèn)題描述(Problem description)
3.1 ? 現(xiàn)存問(wèn)題
目前的推薦系統(tǒng)大部分只從用戶(hù)對(duì)項(xiàng)目的評(píng)分和用戶(hù)與用戶(hù)之間的信任關(guān)系兩個(gè)方面考慮來(lái)預(yù)測(cè)推薦,但是忽略了用戶(hù)對(duì)項(xiàng)目標(biāo)簽的使用問(wèn)題,比如用戶(hù)通常會(huì)對(duì)喜歡的項(xiàng)目加標(biāo)簽標(biāo)注,也會(huì)對(duì)自己加各種標(biāo)簽。將用戶(hù)對(duì)項(xiàng)目的評(píng)分,又考慮用戶(hù)對(duì)標(biāo)簽的使用,項(xiàng)目與標(biāo)簽的關(guān)系等融入推薦中,考慮兩兩關(guān)系勢(shì)必能增強(qiáng)推薦的準(zhǔn)確度。
目前大部分的推薦系統(tǒng)只考慮了用戶(hù)的顯式反饋信息,而忽略了用戶(hù)的隱式反饋信息,隱式反饋信息具有數(shù)據(jù)量大、易收集、應(yīng)用廣的特點(diǎn),放棄隱式反饋信息的推薦系統(tǒng)浪費(fèi)了寶貴的數(shù)據(jù)項(xiàng)目,隱式反饋信息雖然不直接表現(xiàn)出用戶(hù)的傾向,但是跟蹤用戶(hù)的隱式反饋信息,將隱式反饋信息融合到推薦系統(tǒng)中并不困難,用戶(hù)對(duì)項(xiàng)目進(jìn)行標(biāo)注標(biāo)簽,標(biāo)簽被標(biāo)注的次數(shù)能夠隱式地反饋出用戶(hù)對(duì)哪些項(xiàng)目的喜好程度。因此本文探討了一種融合社會(huì)標(biāo)簽的聯(lián)合概率矩陣分解的推薦算法。
3.2 ? 符號(hào)定義
本文結(jié)合用戶(hù)、項(xiàng)目、標(biāo)簽三個(gè)方面的信息進(jìn)行項(xiàng)目的推薦,主要是用戶(hù)對(duì)項(xiàng)目的評(píng)分信息和用戶(hù)對(duì)項(xiàng)目的隱式反饋信息,用戶(hù)使用社會(huì)標(biāo)簽的信息,項(xiàng)目與標(biāo)簽的關(guān)聯(lián)信息。當(dāng)用戶(hù)瀏覽網(wǎng)頁(yè),訪(fǎng)問(wèn)音樂(lè)項(xiàng)目時(shí),向目標(biāo)用戶(hù)推薦其可能感興趣的其他音樂(lè)項(xiàng)目。
假定一組有個(gè)用戶(hù)的用戶(hù)集合為,一組有個(gè)項(xiàng)目的項(xiàng)目集合為,一組有個(gè)標(biāo)簽的標(biāo)簽集合為,其中,維的用戶(hù)潛在特征矩陣用表示,維的項(xiàng)目潛在特征矩陣用表示,維的標(biāo)簽潛在特征矩陣用表示,用戶(hù)對(duì)項(xiàng)目的評(píng)分矩陣為,標(biāo)簽與用戶(hù)的關(guān)聯(lián)矩陣為,項(xiàng)目與標(biāo)簽的對(duì)應(yīng)矩陣為。
4 ?使用標(biāo)簽信息的聯(lián)合概率矩陣分解推薦模型(Unified probabilistic matrix factorization recommendation model ?incorporated social tagging)
本文提出一種使用社會(huì)標(biāo)簽的語(yǔ)義分析和概率矩陣分解的推薦方法。該方法根據(jù)用戶(hù)標(biāo)簽的歷史信息得到不同用戶(hù)間的相似性,然后建立用戶(hù)—標(biāo)簽、用戶(hù)—項(xiàng)目和標(biāo)簽—項(xiàng)目得分矩陣,最后計(jì)算獲得這些矩陣的隱含特征向量;其中在用戶(hù)—項(xiàng)目評(píng)分矩陣中加入了用戶(hù)相似性的正則化參數(shù),以避免過(guò)擬合;最后討論推薦方法的求解過(guò)程。
4.1 ? 用戶(hù)相似性計(jì)算
本文認(rèn)為具有相似標(biāo)簽標(biāo)注行為的用戶(hù),其興趣愛(ài)好在很大程度上是具有相似性的,因此通過(guò)用戶(hù)對(duì)項(xiàng)目進(jìn)行標(biāo)注的歷史行為得到標(biāo)簽矩陣,本文提出的模型是在矩陣的基礎(chǔ)上使用皮爾森相似性計(jì)算用戶(hù)的相似性。假設(shè)表示用戶(hù)和用戶(hù)對(duì)項(xiàng)目進(jìn)行標(biāo)注的標(biāo)簽指數(shù)集,兩個(gè)用戶(hù)間的皮爾森相關(guān)系數(shù)定義如式(1):
(1)
其中,。從而,皮爾森相似性定義如下:
。用戶(hù)相似性正則化參數(shù)的求解函數(shù)如式(2):
(2)
其中,是通過(guò)對(duì)用戶(hù)和用戶(hù)標(biāo)注的標(biāo)簽歷史記錄計(jì)算所得,并通過(guò)拉普拉斯矩陣,為對(duì)角矩陣,對(duì)角元素,表示矩陣的跡。
利用上面的方法計(jì)算用戶(hù)間的相似權(quán)重,進(jìn)一步獲得三個(gè)矩陣的特征向量。
4.2 ? 用戶(hù)—項(xiàng)目評(píng)分矩陣
假設(shè)={}表示個(gè)用戶(hù)給個(gè)項(xiàng)目打分,其中矩陣中各元素的值在[0,1]區(qū)間,即,可由式(3)計(jì)算得到:
(3)
其中,為邏輯斯蒂函數(shù),,用于將值映射在[0,1]的區(qū)間。表示用戶(hù)訪(fǎng)問(wèn)項(xiàng)目的次數(shù)。
如果相關(guān)用戶(hù)具有相似的標(biāo)簽歷史記錄,那么這些用戶(hù)的隱含特征向量極有可能具有相似性,在用戶(hù)—項(xiàng)目概率矩陣中,考慮了用戶(hù)間的相似性。假定用戶(hù)和項(xiàng)目的隱含特征向量為、,維數(shù)均為維。則用戶(hù)—項(xiàng)目評(píng)分概率矩陣的條件分布如式(4)所示。
(4)
其中,為概率密度函數(shù),滿(mǎn)足均值為,方差為的高斯分布;為指示函數(shù),當(dāng)用戶(hù)訪(fǎng)問(wèn)了項(xiàng)目,則=1;否則=0;為附加的正則化參數(shù)用來(lái)調(diào)整標(biāo)簽貢獻(xiàn)率。矩陣中假設(shè)用戶(hù)的特征向量、項(xiàng)目的特征向量均滿(mǎn)足均值為0的球形高斯先驗(yàn)分布,如式(5)和式(6)所示。
(5)
(6)
通過(guò)貝葉斯推理,可以得到式(7)。
(7)
在式(7)中,通過(guò)用戶(hù)對(duì)項(xiàng)目的訪(fǎng)問(wèn)來(lái)估算用戶(hù)對(duì)項(xiàng)目的興趣指數(shù),但這個(gè)過(guò)程未考慮項(xiàng)目被用戶(hù)所標(biāo)注的標(biāo)簽語(yǔ)義信息,下面進(jìn)一步討論用戶(hù)對(duì)感興趣項(xiàng)目標(biāo)注標(biāo)簽的概率,以提高推薦準(zhǔn)確率。
4.3 ? 用戶(hù)—標(biāo)簽概率矩陣
假設(shè)表示個(gè)用戶(hù)對(duì)個(gè)標(biāo)簽標(biāo)注的概率矩陣,其中矩陣中各元素的值為用戶(hù)對(duì)標(biāo)簽標(biāo)注的次數(shù),值在[0,1]區(qū)間,即。表示項(xiàng)目被用戶(hù)標(biāo)注的標(biāo)簽。如果用戶(hù)頻繁使用某類(lèi)標(biāo)簽,說(shuō)明用戶(hù)對(duì)這類(lèi)標(biāo)簽標(biāo)注的項(xiàng)目感興趣,可由式(8)計(jì)算得到。
(8)
其中,表示用戶(hù)使用標(biāo)簽的頻率。
用戶(hù)—標(biāo)簽關(guān)聯(lián)矩陣中,假設(shè)用戶(hù)的隱含特征向量為,假設(shè)標(biāo)簽的隱含特征向量為,維數(shù)均為維。則用戶(hù)—標(biāo)簽概率矩陣的條件分布如式(9)所示。
(9)
其中,為概率密度函數(shù),滿(mǎn)足均值為,方差為的高斯分布;為指示函數(shù),當(dāng)用戶(hù)使用了標(biāo)簽,則=1;否則=0。矩陣中假設(shè)用戶(hù)特征向量、標(biāo)簽特征向量均滿(mǎn)足均值為0的高斯先驗(yàn)分布如式(10)和式(11)。
(10)
(11)
通過(guò)貝葉斯推理,可以得到式(12)。
(12)
4.4 ? 項(xiàng)目—標(biāo)簽概率矩陣
假設(shè)表示個(gè)項(xiàng)目被標(biāo)注個(gè)標(biāo)簽的概率矩陣,其中矩陣中各元素的值為項(xiàng)目被標(biāo)注標(biāo)簽的次數(shù),值在[0,1]區(qū)間,即。表示用戶(hù)對(duì)項(xiàng)目標(biāo)注標(biāo)簽的次數(shù)概率,假設(shè)某個(gè)項(xiàng)目,用戶(hù)頻繁對(duì)其標(biāo)注標(biāo)簽,說(shuō)明這個(gè)項(xiàng)目受用戶(hù)的喜歡,可由式(13)計(jì)算得到:
(13)
其中,表示項(xiàng)目被用戶(hù)標(biāo)注標(biāo)簽的頻率。
項(xiàng)目—標(biāo)簽概率矩陣中,假定項(xiàng)目和標(biāo)簽的隱含特征向量為、,維數(shù)均為。則項(xiàng)目-標(biāo)簽概率矩陣的條件分布如(14)所示。
(14)
其中,為概率密度函數(shù),滿(mǎn)足均值為,方差為的高斯分布;為指示函數(shù),當(dāng)項(xiàng)目被標(biāo)注了標(biāo)簽,則=1;否則=0。矩陣中假設(shè)用戶(hù)特征向量、項(xiàng)目特征向量均滿(mǎn)足均值為0的球形高斯先驗(yàn)分布如式(15)和式(16):
(15)
(16)
通過(guò)貝葉斯推理,可以得到式(17)。
(17)
4.5 ? TaSoRec推薦模型
用戶(hù)給項(xiàng)目標(biāo)注標(biāo)簽的個(gè)數(shù),用戶(hù)使用某類(lèi)標(biāo)簽的頻率,項(xiàng)目與某類(lèi)標(biāo)簽的關(guān)聯(lián)程度,都是影響推薦的因素,這些因素由用戶(hù)直接行為顯示出來(lái)的,即用戶(hù)給出的顯示反饋信息。而用戶(hù)對(duì)項(xiàng)目的訪(fǎng)問(wèn)次數(shù)、轉(zhuǎn)發(fā)行為等不是用戶(hù)直接給出的傾向,但用戶(hù)的這些行為隱式的反饋了用戶(hù)的喜好程度。因此,將隱式反饋信息融入推薦模型中,對(duì)推薦準(zhǔn)確率的影響具有現(xiàn)實(shí)的積極意義。本文提出一種融合隱式反饋信息的TaSoRec模型,該模型通過(guò)聯(lián)合概率矩陣分解技術(shù)來(lái)進(jìn)行推薦。TaSoRec模型的圖形表示如圖1所示。
由圖1可得出LaSoRec推薦的后驗(yàn)分布函數(shù)的log函數(shù),如式(18)。
(18)
其中,C是常量,最大化公式(18)可看作無(wú)約束優(yōu)化問(wèn)題,最小化公式(19)等價(jià)于最大化公式(18):
(19)
其中,,,,,,應(yīng)用梯度下降法求出公式(19)的局部最小值。參數(shù)的梯度下降公式如式(20)所示。
(20)
的梯度下降公式如式(21)所示。
(21)
的梯度下降公式如式(22)所示。
(22)
5 ? 實(shí)驗(yàn)分析(Experiment analysis)
本文采用推薦系統(tǒng)常用的數(shù)據(jù)集合MovieLens,該數(shù)據(jù)中包括標(biāo)簽信息和評(píng)分信息,適用于我們提出的模型。實(shí)驗(yàn)選取MovieLens數(shù)據(jù)集大規(guī)模庫(kù)中的數(shù)據(jù)進(jìn)行試驗(yàn),有6040個(gè)獨(dú)立用戶(hù)對(duì)3900部電影作的大約100萬(wàn)次評(píng)分。本文采用RMSE指標(biāo)來(lái)評(píng)價(jià)本文提出模型的推薦效果。
為了驗(yàn)證本文提出模型TaSoRec的推薦效果,進(jìn)行了四組比較實(shí)驗(yàn),第一組、第二組、第三組、第四組的訓(xùn)練數(shù)據(jù)分別使用實(shí)驗(yàn)數(shù)據(jù)的90%、70%、20%、10%,分別對(duì)本文提出的TaSoRec模型、文獻(xiàn)[6]提出的推薦模型(TPR)、文獻(xiàn)[7]提出的MsRec進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果如表1和表2所示。
多次實(shí)驗(yàn)表明,設(shè)置特征維數(shù)為10和20,,,,,時(shí),實(shí)驗(yàn)效果最優(yōu)。
6 ? 結(jié)論(Conclusion)
本文提出的模型考慮了社會(huì)網(wǎng)絡(luò)環(huán)境下用戶(hù)與用戶(hù)之間的關(guān)系,并認(rèn)為具有相似行為的用戶(hù)之間存在相似性,通過(guò)分析用戶(hù)標(biāo)注的標(biāo)簽語(yǔ)義信息來(lái)識(shí)別相似用戶(hù),融合用戶(hù)相似度的情況下,利用聯(lián)合概率矩陣分解方法進(jìn)行推薦。經(jīng)過(guò)反復(fù)實(shí)驗(yàn)表明:本模型適用于數(shù)據(jù)稀少的情況及新用戶(hù)情況下的推薦,推薦效果具有很大優(yōu)勢(shì),能夠?qū)ι鐣?huì)網(wǎng)絡(luò)環(huán)境下的推薦提供算法支持。
參考文獻(xiàn)(References)
[1] Hernando A, Bobadilla J, Ortega F. A non negative matrix factorization for collaborative filtering recommender systems based on a Bayesian probabilistic model[J]. Knowledge-Based Systems, 2016, 97(C): 188-202.
[2] 王永貴,宋真真,肖成龍.基于改進(jìn)聚類(lèi)和矩陣分解的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)應(yīng)用,2018,038(004):1001-1006.
[3] 涂丹丹,舒承椿,余海燕.基于聯(lián)合概率矩陣分解的上下文廣告推薦算法[J].軟件學(xué)報(bào),2013,24(3):454-464.
[4] Zhen Y, Li W J, Yeung D Y. TagiCoFi: Tag informed collaborative filtering[C]. Proceedings of the 2009 ACM Conference on Recommender Systems, RecSys, 2009.
[5] Le Wu, Enhong Chen, Qi Liu, et al. Leveraging Tagging for Neighborhood-aware Probabilistic Matrix Factorization[C]. the 21st ACM Conference on Information and Knowledge Management(CIKM 2012), 2012.
[6] 吳燎原,蔣軍,王剛.科研社交網(wǎng)絡(luò)中基于聯(lián)合概率矩陣分解的科技論文推薦方法研究[J].計(jì)算機(jī)科學(xué),2016,43(9):213-217.
[7] 熊麗榮,劉堅(jiān),湯穎.基于聯(lián)合概率矩陣分解的移動(dòng)社會(huì)化推薦[J].計(jì)算機(jī)科學(xué),2016,43(009):255-260.
作者簡(jiǎn)介:
鄭紹振(1980-),男,本科,工程師.研究領(lǐng)域:智能交通,推薦系統(tǒng).
鄭東霞(1978-),女,碩士,副教授.研究領(lǐng)域:數(shù)據(jù)分析,推薦系統(tǒng).