摘 要:隨著社交媒體的發(fā)展,微博為人們提供的服務(wù)正在極大地改變著人們使用互聯(lián)網(wǎng)的習慣,然而微博上用戶發(fā)表的大量信息,以及高頻率的信息更新,使得用戶面臨信息過載的問題而無法快速獲取他感興趣的信息。推薦系統(tǒng)是解決此問題的一種很好的方法,它是通過研究用戶已有數(shù)據(jù)來發(fā)掘用戶興趣,從而為用戶推薦可能感興趣的對象,如產(chǎn)品、網(wǎng)頁、微博等。本文介紹了一種基于張量分解技術(shù)的微博推薦算法來預測用戶對微博的興趣度,同時考慮用戶與微博、用戶與微博發(fā)布者影響因素,以及微博與微博發(fā)布者的影響因素,提高了已有算法的準確度。
關(guān)鍵詞:微博推薦;矩陣分解;張量分解
中圖分類號:TP391 文獻標識碼:A
Abstract:With the development of social media,the services in micro-blog have significantly changed the way people use the Internet.However,as the large amount of information posted by users and the highly frequent update on micro-blogs,users often face the problem of information overload and miss out the content they are interested in.The recommendation system,which recommends items(such as products,web pages,micro-blogs,etc.)to users based on their interests,is an effective solution to this problem.The paper introduces a micro-blog recommendation algorithm based on the tensor factorization technology to predict the user's interest degree on certain micro-blog.The experimental results on real dataset show that the proposed model achieves desirable performance in characterizing the user's interest and the preprocessing of data on micro-blog.Finally,the paper presents the experimental results which show that the method significantly outperforms the baseline method.
Keywords:micro-blog recommendation;matrix factorization;tensor factorization
1 引言(Introduction)
目前,一些微博推薦算法在發(fā)掘用戶在社交媒體中的興趣和行為中表現(xiàn)出了一定的優(yōu)越性,例如基于內(nèi)容的推薦算法,但是目前大多數(shù)方法都通過內(nèi)容等顯性因素來預測用戶的興趣度而沒有考慮一些內(nèi)在的隱性因素。然而社交網(wǎng)絡(luò)中的信息是豐富且復雜的,只通過一些顯性因素來預測用戶興趣度是不夠的。因子分解模型最初被用于推薦系統(tǒng)中來對用戶感興趣的商品進行推薦[1]。為了更好地對用戶行為建模,一些研究使用隱因子模型對用戶的興趣度進行預測,而這些無法直接獲取的隱性因素是影響用戶興趣度的主要因素。這些方法使用矩陣分解算法分別考慮用戶和微博主題,用戶和微博發(fā)布者之間的社會關(guān)系,以及微博發(fā)布者與微博主題之間的隱性因素,通過兩兩之間關(guān)系來預測用戶對微博的興趣度。然而,同樣內(nèi)容的微博被不同的發(fā)布者發(fā)布的話,用戶的興趣度是不同的,因此我們應(yīng)綜合考慮用戶與微博,以及微博發(fā)布者它們之間的隱性因素共同對微博興趣度的影響。
張量是對向量和矩陣的擴展[2],因此它可以表示多元數(shù)據(jù),已有的矩陣分解方法丟失了用戶與微博,以及微博發(fā)布者三者之間在三維空間上對用戶興趣度的影響而張量分解模型很好地解決推薦系統(tǒng)中存在的多元影響因素[3]。而現(xiàn)實生活中的數(shù)據(jù)一般都具有多元特征,相對復雜,因此張量模型很好地模擬了推薦系統(tǒng)中數(shù)據(jù)的多元影響關(guān)系。
2 微博排序優(yōu)化準則(Optimizing ranking criterion
for weibo recommendation)
3 基于張量的分解模型(Tensor factorization model)
本文需要同時考慮用戶、微博、微博發(fā)布者這三個因素來預測用戶對微博的興趣度,即將二維矩陣拓展為三維張量來表示影響興趣度的隱性因素,也就是分解用戶—微博—發(fā)布者張量來預測用戶對微博的喜好度。
為了和大多數(shù)的基于矩陣分解的推薦系統(tǒng)中的方法對比,我們可以將三維張量理解為在傳統(tǒng)二維矩陣的基礎(chǔ)上增加一個維度,即一種典型的張量分解方法Tucker分解,該分解模型產(chǎn)生的類似于SVD的左右奇異矩陣子結(jié)構(gòu)方便與已有算法SVD進行實驗結(jié)果對比[5,6]。Tucker分解把原張量分解為一個核心張量與一系列矩陣的乘積。這里我們以對三維張量的分解為例說明Tucker的具體分解過程,詳見公式(5):
4 實驗(Experiment)
4.1 數(shù)據(jù)來源
本文數(shù)據(jù)來源于新浪微博,使用爬蟲系統(tǒng)根據(jù)本文需求爬取相關(guān)數(shù)據(jù)[7]。網(wǎng)絡(luò)爬蟲作為一種自動提取網(wǎng)頁信息的計算機程序或者自動化腳本[8],它是搜索引擎的核心技術(shù)。本文先隨機選取一個微博用戶以發(fā)射狀不斷爬取該用戶的關(guān)注者的數(shù)據(jù),以及關(guān)注者的關(guān)注者的數(shù)據(jù),然后從這些數(shù)據(jù)中選出1024個微博用戶的主頁信息,但這些用戶的關(guān)注者人數(shù)需超過15。endprint
4.2 評價標準
本文通過平均準確率評估預測結(jié)果的準確度。本文推薦模型的結(jié)果是微博的排序,同時微博的排序位置還關(guān)聯(lián)了準確度使得推薦模型能得到更準確的評估,即微博成功推薦,如果它的排序越靠前那么平均準確率就越高。如果系成功推薦的微博個數(shù)為0那么準確率為0。評估公式見式(16):
4.3 實驗結(jié)果
為了驗證算法的有效性,本文增加其他幾種方法來對比實驗結(jié)果,包括按照時間排序的方法、按相似度排序的方法、矩陣分解模型算法SVD[9]。張量分解算法(TF)綜合考慮用戶、微博和微博發(fā)布者三者之間的關(guān)系,較SVD更加準確地評估對用戶興趣度的影響。張量分解算法使用隨機梯度算法來估計實驗參數(shù),矩陣分解過程中K值取30準確率最高。
5 結(jié)論(Conclusion)
時間排序的推薦方法由于依賴用戶的登錄時間而對登錄時間前后的微博轉(zhuǎn)發(fā)的概率大,因此預測的準確度很低。相似度排序的算法只通過關(guān)鍵詞計算微博表面相似度來預測而忽略了內(nèi)在的語義。SVD只考慮用戶、微博與微博發(fā)布者兩兩之間的關(guān)系,忽略三者之間的共同作用沒有反映數(shù)據(jù)的真實信息而準確度低于TF方法。
參考文獻(References)
[1] Lu J,et al.Recommender system application developments:a survey[J].Decision Support Systems,2015,74:12-32.
[2]Jain P,Oh S.Provable tensor factorization with missing data[C].Advances in Neural Information Processing Systems,2014:1431-1439.
[3] Ding G,Guo Y,Zhou J.Collective matrix factorization hashing for multimodal data[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:2075-2082.
[4] 冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術(shù)綜述[J].模式識別與人工智能,2014,27(8):720-734.
[5] Rendle S.Factorization machines[A].The IEEE International Conference on Data Mining.Sydney:2010:995-1000.
[6] Cao Y.,et al.Adapting ranking SVM to document retrieval[C].The 29th Annual International SIGIR Conference.Seattle,WA:2006:186-193.
[7] 孫立偉,何國輝,吳禮發(fā).網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].電腦知識與技術(shù),2010,6(15):4112-4115.
[8] 高建煌.個性化推薦系統(tǒng)技術(shù)與成用[D].中國科學技術(shù)大學,
2010.
[9] 秦曉暉.基于協(xié)同過濾的個性化微博推薦算法研究[J].軟件工程,2017,20(3):14-17.
作者簡介:
秦曉暉(1987-),女,碩士,助教.研究領(lǐng)域:中文信息處理,人工智能.endprint