高曉波 方獻梅
摘要:在微博社交網(wǎng)絡(luò)中,微博用戶每天針對熱門新聞、事件等生成眾多微博內(nèi)容,導(dǎo)致用戶在大量內(nèi)容中找到自己真正感興趣的信息非常困難。因此,系統(tǒng)向用戶推薦其感興趣的微博,是改善用戶體驗的重要途徑。提出一種新的模型因子分解機FM,以及綜合考慮用戶興趣與信任因素的預(yù)測方法ITFM,以提高個性化微博推薦質(zhì)量。通過在真實的數(shù)據(jù)集上進行模擬實驗,結(jié)果表明,所提出的微博推薦方法在一定程度上提高了微博推薦準(zhǔn)確度。ITFM方法能夠有效解決信息過載問題,對改善用戶體驗具有較好的理論和實際意義。
關(guān)鍵詞:微博推薦;信任;ITFM
DOIDOI:10.11907/rjdk.181608
中圖分類號:TP301
文獻標(biāo)識碼:A 文章編號文章編號:1672-7800(2018)008-0049-04
英文摘要Abstract:Microblog users generate numerous microblog contents based on breaking news and latest events every day.However,it is difficult to find information of interest from these contents.Recommending interesting microblogs from the Microblog system is an important way to improve user experience.In this light,we build a model called ITFM,which combines factorization machines together with user interests and trust factors to improve the quality of personalized microblogging recommendations.Through simulations on real data sets,results show that the proposed Microblog recommendation approach improves the accuracy to some extent.ITFM can effectively deal with the information overload problem,and our work has better theoretical and practical significance for improving user experience.
英文關(guān)鍵詞Key Words:Microblog recommendation;trust;ITFM
0 引言
第41次中國互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告顯示,截至2017年12月,中國網(wǎng)民規(guī)模已達7.72億,微博用戶規(guī)模為3.16億。數(shù)據(jù)表明,社交網(wǎng)絡(luò)已成為互聯(lián)網(wǎng)用戶生活中不可缺少的一部分,微博如Twitter、新浪微博等,已成為人們獲取和實時分享信息的重要途徑。微博是一個基于用戶關(guān)系的信息分享、傳播及獲取平臺,以140字左右的文字記錄,實現(xiàn)即時分享。由于微博數(shù)量眾多,容易產(chǎn)生信息過載,用戶需要花費大量時間及精力去尋找自己感興趣的微博。從海量微博中挖掘出用戶感興趣的微博內(nèi)容并進行個性化推薦,已成為當(dāng)今的研究熱點。
常見的微博推薦有好友推薦[1]、散列標(biāo)簽推薦[2]、熱門話題推薦[3]、新聞推薦[4]等。推薦算法中比較成功的是協(xié)同過濾推薦算法[5],該算法側(cè)重研究與用戶偏好最相似的用戶群體對目標(biāo)用戶的影響,但對目標(biāo)用戶的個體興趣挖掘不夠充分。Kim 等[6]提出基于PLSI算法[7]的微博用戶受關(guān)注者影響推薦算法;Duan等[8]利用learning to rank框架實現(xiàn)微博推薦;Chen等 [9]融合用戶微博主題與待推薦微博內(nèi)容特征,向用戶提供個性化微博推薦;Shen等[10]提出一種基于用戶社交關(guān)系的推薦方法,利用用戶間的關(guān)系圖進行計算與推薦;Lo 等[11]提出一種基于社交網(wǎng)絡(luò)圖的推薦算法。微博內(nèi)容雖然簡短,但包含了大量信息,反映了用戶興趣,因而可對用戶發(fā)布、轉(zhuǎn)發(fā)與評論的微博文本內(nèi)容進行挖掘,以發(fā)現(xiàn)用戶興趣。此外,用戶關(guān)系擴展是社交網(wǎng)絡(luò)發(fā)展中的主要問題之一,可對微博服務(wù)中的用戶節(jié)點結(jié)構(gòu)進行研究與分析,充分考慮用戶間的關(guān)系進行微博推薦。本文提出的模型ITFM對特征進行權(quán)重處理,使用因子分解機模型,綜合考慮用戶興趣及用戶信任進行推薦。不同信任度的用戶在推薦過程中擁有不同的可信度,不同用戶對各個主題也具有不同的興趣度。通過在真實數(shù)據(jù)集上進行模擬實驗,驗證了本文算法的有效性。
1 用戶信任
考慮社交網(wǎng)絡(luò)的實際情況,人們總是對身邊越熟悉的人越信任,因而考慮用戶間的信任關(guān)系能提高推薦準(zhǔn)確率。構(gòu)建一個社會網(wǎng)絡(luò)有向無權(quán)圖,圖中各節(jié)點代表用戶,圖中的邊代表用戶間的關(guān)注關(guān)系。
2 用戶主題興趣
用戶興趣表示是個性化推薦中的一個重要環(huán)節(jié),直接關(guān)系到推薦質(zhì)量。用戶微博蘊含了用戶興趣,因而用戶微博所屬主題能夠反映用戶興趣傾向。本文使用主題興趣度表示用戶興趣。
為了更好地提取用戶微博主題興趣,首先去除用戶微博信息中的噪聲與垃圾信息。用戶轉(zhuǎn)發(fā)及評論的微博通常也是用戶感興趣的內(nèi)容,因此將用戶發(fā)布、轉(zhuǎn)發(fā)及評論的微博結(jié)合為一篇文檔,不僅可以擴充用戶微博信息,降低文本空間維度,還有利于挖掘微博用戶興趣,本文使用AT模型[12]進行處理。
2.1 AT模型
AT模型認(rèn)為文檔是由詞組成的,而忽略了詞在文檔中出現(xiàn)的位置和詞與詞間的語法關(guān)聯(lián)。對于每篇文檔d,已知作者列表ad,單詞w。每個作者對應(yīng)一個在主題上的多項分布,用θ表示,每個主題又對應(yīng)一個單詞上的多項分布,用表示。θ和 分別依賴于對稱的狄利克雷先驗α和β 。圖1中 A 表示數(shù)據(jù)集中的作者總數(shù),T為主題個數(shù)。對于一篇文檔 d 中的每個單詞,從 ad中抽出一個作者 x ,然后根據(jù)該作者的分布隨機抽出一個主題 z ,最后根據(jù) z 在詞上的多項分布,隨機抽出一個單詞。反復(fù)抽樣 Nd(文檔 d 中單詞個數(shù))次生成文檔 d 。每篇文檔均重復(fù)上述過程,生成數(shù)據(jù)集 D。
3.2 融合用戶興趣與信任的因子分解機模型ITFM
如圖2所示數(shù)據(jù)集中,用戶集U有3位用戶,項目集I有4個項目,分屬于5個主題。用戶U0對各主題的興趣度分別為0.5、0.1、0.2、0.1、0.1,用戶U0對用戶U1 、U2的信任度分別為0.3、0.5。利用文獻[15]將數(shù)據(jù)轉(zhuǎn)換為LibFM的輸入格式。
3.3 學(xué)習(xí)算法
目前,F(xiàn)M的學(xué)習(xí)算法主要有隨機梯度下降法(SGD)、交替最小二乘法(ALS)、馬爾科夫鏈蒙特卡羅法(MCMC)3種,本文采用MCMC方法作為學(xué)習(xí)算法。
MCMC比SGD正則化集成更加容易,并且沒有學(xué)習(xí)率。MCMC唯一的超參數(shù)采用標(biāo)準(zhǔn)偏差進行初始化,正確的偏差選擇能加速采樣收斂。
4 實驗
4.1 數(shù)據(jù)集
本文實驗采用KDD CUP在2012年發(fā)布的數(shù)據(jù)集,該數(shù)據(jù)集記錄了騰訊微博用戶在某個時間段內(nèi)對某些推薦對象的評分信息(是否接受某個推薦對象)。用戶間的信任關(guān)系由他們在微博中的Follow關(guān)系,即兩個對象之間的關(guān)注關(guān)系得到。為了更好地突出問題本身,本文抽取該數(shù)據(jù)集中的評分信息、對象數(shù)據(jù)信息、用戶間的社會關(guān)系信息和用戶關(guān)鍵字?jǐn)?shù)據(jù)信息作為主要數(shù)據(jù)來源。對象數(shù)據(jù)包含了對象所屬類別及關(guān)鍵字信息;用戶間的社會關(guān)系信息包含用戶間的Follow關(guān)系,由此可繪制社會網(wǎng)絡(luò)圖,得到用戶的社會關(guān)系,計算用戶間的信任度;用戶關(guān)鍵字?jǐn)?shù)據(jù)信息是從用戶發(fā)布、轉(zhuǎn)發(fā)和評論的微博中提取的關(guān)鍵字,能表征用戶興趣。
4.2 實驗結(jié)果
為了驗證用戶興趣和用戶間信任關(guān)系在推薦過程中起到的作用以及對推薦結(jié)果產(chǎn)生的影響,在實驗中比較了傳統(tǒng)協(xié)同過濾方法(CF)及本文提出的融合用戶興趣與用戶信任關(guān)系的因子分解方法(ITFM)在測試數(shù)據(jù)集上的推薦效果。實驗結(jié)果如圖3所示。
實驗結(jié)果表明,本文提出的基于因子分解機的微博推薦方法由于包含了用戶和微博的一些輔助信息,在準(zhǔn)確率指標(biāo)上相較于傳統(tǒng)協(xié)同過濾方法(CF),取得了更好的推薦結(jié)果。
5 結(jié)語
本文提出一種融合用戶興趣與用戶信任關(guān)系的微博推薦方法,該方法在推薦過程中充分考慮了用戶主題興趣、用戶間社會關(guān)系、推薦對象類別以及用戶評分矩陣等信息。實驗結(jié)果表明,用戶興趣與用戶信任度在推薦過程中具有重要作用,是用戶選擇推薦結(jié)果的重要依據(jù)之一。然而,本文忽略了用戶與推薦對象的其它信息對推薦結(jié)果的影響,如用戶所處位置、用戶行為等。在未來工作中將會把更多上下文信息加入推薦算法中,以期進一步提高推薦效果。
參考文獻:
[1] 石磊,張聰,衛(wèi)琳.引入活躍指數(shù)的微博用戶排名機制[J].小型微型計算機系統(tǒng),2012(1):110-114.
[2] ZANGERLE E,GASSLER W,SPECHT G,et al.Using tag recommendations to homogenize folksonomies in microblogging environments[M].Berlin:Springer Heidelberg,2011.
[3] PENG F,QIAN X,MENG H,et al.Research on algorithm of extracting micro-blog's hot topics[C]. International Conference onElectronics,Communications and Control ,2011:986-989.
[4] PHELAN O,MCCARTHY K,BENNET T M,et al.Terms of a feather:content-based news recommendation and discovery using twitter[C].European Conference on Advances in Information Retrieval.Springer-Verlag,2011:448-459.
[5] RICCI F,ROKACH L,SHAPIR A B.Introduction to recommender systems handbook[J].ACM Transactions on Information Systems,2004,22(1):1-4.
[6] KIM Y,SHIM K.TWIROB I:a recommendation system for twitter using probabilistic modeling[C].2013 IEEE 13th International Conference on Data Mining IEEE,2011,340-349.
[7] HOFMANN T.Probabilisticlatent semantic indexing[C].Proceedings of Annual Acm Conference on Research & Development in Information Retrieval Berkeley California ,1999,42(1):56-73.
[8] DUAN Y,JIANG L,QIN T,et al.An empirical study on learning to rank of tweets[C].Proceedings of the 23rd International Conference on Computational Linguistics,2010:295-303.
[9] CHEN K,CHEN T,ZHENG G,et al.Collaborative personalize tweet recommendation[C].Proceedings of the 35th International ACM SIGIR Conference on Research and Development in Information Retrieval,2012:661-670.
[10] SHEN Q,WANG S,WANG R,et al.A friend recommendation algorithm based on the user relationship[C].Proceedings of International Conference on Materials Engineering,Manufacturing Technology and Control,2016.
[11] LO S,LIN C.WIR-A graph-based algorithm for friend recommendation[C].Proceedings of the 5th Atlantic Web Intelligence Conference ,2007:223-229.
[12] ROSEN-ZVI M,GRIFFITHS T L,STEYVERS M,et al.The author-topic model for authors and documents[C].Proceedings of the 20th Conference on Uncertainty in Artificial Intelligence,2004.
[13] 王永貴,張旭,劉憲國.基于AT模型的微博用戶興趣挖掘研究[J].計算機工程與應(yīng)用,2015(13):126-130,144.
[14] RENDLE S.Factorization machines with libFM[J].ACM Transactions on Intelligent Systems & Technology,2012,3(3):219-224.
[15] RENDLE S.Factorization machines[C].International Conference on Data Mining.IEEE,2011:995-1000.
(責(zé)任編輯:黃 ?。?/p>