代晨旭++周熙晨
摘要:互聯(lián)網的飛速發(fā)展產生了"信息過載"問題,新聞數量的爆炸性增長使得讀者受到“信息迷航”問題的困擾。為解決這一問題新聞推薦系統(tǒng)應運而生。文章針對該系統(tǒng)的關鍵部分即新聞特征值提取和用戶畫像做了深入的研究。采用了TFIDF進行新聞分詞及特征值提取,將新聞用空間向量模型表示并利用PU Learning來解決用戶畫像時負反饋數據難以得到的問題。最后以實例證明了該方法的可行性。
關鍵詞:推薦系統(tǒng);詞頻-逆文檔概率;用戶畫像;負反饋數據;PU學習
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2015)25-0036-03
An Instance of a Content-based News Recommendation System
DAI Chen-xu, ZHOU Xi-chen
(School of Information Engineering, North China University of Science and Technology, Tangshan 063009, China)
Abstract: The development of the Internet is always followed by several issues, such as Information overload and ‘information lost. Those issues bother Internet users among daily lives due to huge numbers of information, as so called ‘information explosion. In order to solve the problem, news recommendation system appeared. It makes a deep research on the key parts, extract of News feature value and User portrait, of the system. TFIDF is used to extract news words and feature extraction, using spatial vector model of news, and Learning PU is used to solve the problem of negative feedback data is difficult to be obtained in user portrait. Finally, the feasibility of the method is demonstrated by an example.
Key words: recommended system; TF-IDF; user portrait ; negative feedback data ; PU learning
隨著網絡信息量的爆炸性增長,推薦系統(tǒng)成為研究熱點,個性化新聞推薦得到了人們的重視,個性化新聞推薦系統(tǒng)紛紛出現(xiàn)。目前比較主流推薦算法有基于協(xié)同過濾的推薦和基于內容的推薦[1]等。由于協(xié)同過濾是根據用戶對新聞的訪問記錄來進行推薦的,只有被閱讀過的新聞才能被推薦,然而新聞的生命周期十分短暫,用戶的訪問矩陣會相當稀疏,這對于時效性要求比較高的新聞推薦系統(tǒng)是相當嚴重缺陷,所以采用基于內容的推薦。
基于內容推薦,對分別對新聞和用戶建模,然后把與用戶歷史上閱讀的新聞相似的新聞推薦給用戶。一般來說新聞和用戶建模有兩種方式:向量空間模型和淺層語義模型。向量空間模型有詞袋模型和詞頻-逆文檔概率TFIDF (Term Frequency Invert Document Frequency),淺層語義模型有概率潛在語義索引PLSI (Probabilistic Latent Semantic Indexing)和潛在狄利克雷分布LDA(Latent Dirichlet Allocation)。
1 關鍵技術
基于內容的推薦方法一般包括以下三步:
1)新聞特征提?。涸谛侣劦膬热葜谐槿∫恍┨卣?,用于結構化表示新聞;
2)用戶畫像:即用戶建模,利用一個用戶過去喜歡(及不喜歡)的新聞的特征數據,來學習出此用戶的喜好特征;
3)推薦生成:通過計算前面得到的用戶畫像與候選新聞的特征相似度,為此用戶推薦一組用戶喜好最相近的新聞。
新聞系統(tǒng)流程如圖1所示:
1.1 新聞特征提取
大多數的基于內容的推薦系統(tǒng)在處理文字類item特征時,都會嘗試將一篇文章映射到量空間模型VSM(Vector Space Model),在模型中,每一篇文章都被表示為一個n維的向量,每一維都對應詞典中的一個詞,這時文章會被表示成為一個包含每個詞的權重的向量。新聞特征向量生成流程如圖2所示。
圖2 新聞特征向量生成流程
為了得到新聞的特征值,首先要對新聞進行分詞處理,將其劃分成若干詞條的組合。將新聞表示為向量空間模型帶來了兩個問題,即每個詞的權重和向量之間的相似度計算,詞頻-逆文檔概率TFIDF[2] 被普遍用在處理各種自然語言的應用中來解決這個問題。
1.2 用戶畫像學習
學習一個用戶畫像就是為用戶建模,在這里它可以被看作一個二值分類過程,每一個文本都被分類為喜歡和不喜歡。因此,我們有了一個分類記號[C={c+,c-}] ,其中[c+]表示的是正例文本類,[c-]表示的是負例文本類。我們利用用戶對新聞的歷史數據對新聞畫像。
如果我們擁有用戶的顯式反饋,那傳統(tǒng)的監(jiān)督學習方法就能應付,但是往往用戶不會提供很多顯示反饋,如何使用隱式反饋來做推薦是基于內容的推薦系統(tǒng)的難題,半監(jiān)督學習在被Bing Liu等[4]發(fā)明出來用以在僅有隱式反饋時對數據進行訓練。
PU Learning是一系列的概率推導,首先要生成合理的負數據,然后用這些負數據進行分類。有很多生成負數據的方法,如從無標注數據中隨機的選取一些作為負數據,基于此構建分類器,如果負數據選擇的足夠隨機,得到的效果往往都不錯。其中最有名的方法是SPY間諜算法,該方法將正數據中的很小一部分當作負數據來做分類,在這樣的數據上應用一些常見的分類器,將無標注的數據進行分類。最后通過比較設定閾值來得到負數據,本系統(tǒng)采用SPY算法。
1.3 推薦生成
推薦是應用用戶畫像中得到的分類器應用到未知新聞的過程。通過將用戶興趣預測值高于某一閾值的新聞推薦給用戶就可以達到很好的效果。
2 系統(tǒng)設計
2.1 系統(tǒng)架構
為了讓新聞推薦系統(tǒng)處理其復雜的流程,本系統(tǒng)需要被設計成多個子模塊用于處理不同的事務。主要分為三個模塊,訓練模塊、推薦模塊和服務器模塊。系統(tǒng)的模塊化架構如圖3所示。
為了便于實現(xiàn),首先我們需要獲取訓練新聞資源,并將其存放到新聞服務器端。然后,訓練模塊從新聞服務器端獲取訓練指令,開始其訓練周期。訓練中需要調用內部的新聞訓練模塊和用戶訓練模塊。
新聞訓練模塊需要將讀取新聞串,構建新聞字典,完成對新聞的分詞,轉化到詞袋模型,利用TFIDF轉化到TagSpace,最后利用SVD 矩陣分解完成特征向量轉化。用戶訓練模塊需要將用戶的數據根據歷史瀏覽新聞數據構建出用戶矩陣。根據用戶矩陣進行訓練,構建出分類器,該分類器被用于推薦模塊給用戶進行推薦。
推薦模塊需要及時和新聞服務器進行交互,與服務器的交互模塊利用的是socket編程,為推薦模塊和訓練模塊分別創(chuàng)建一個socket,等待新聞服務器與其通信。
新聞服務器將采集的待推薦新聞交遞給推薦模塊。推薦模塊利用訓練模塊準備好的分類器對用戶進行推薦并把推薦結果存放到Redis數據庫,Redis數據庫將推薦結構反饋到新聞服務器端,新聞服務器端根據此給客戶端以反饋。
2.2 推薦結果
推薦模塊需要從新聞服務器那里獲取數據,訓練模塊那里獲取分類器,使用分類器對新聞數據進行預測。在該模塊中需要處理的問題是將訓練結果的矩陣數據轉化成新聞服務器可用的推薦結果。
用系統(tǒng)實現(xiàn)將用戶興趣度大于閾值0.7的新聞推薦給用戶,推薦結果如圖4:
3 結束語
本系統(tǒng)以Cent OS 5.5為運行平臺,使用Python實現(xiàn)系統(tǒng)。除此之外,為了提高系統(tǒng)的實時性,我們使用的redis內存數據庫實現(xiàn)數據存儲。
系統(tǒng)對基于內容的新聞推薦系統(tǒng)的關鍵技術及系統(tǒng)架構進行研究,并以Cent OS 5.5為運行平臺,使用Python語言實現(xiàn)了一種新的基于內容的新聞推薦系統(tǒng)實例,證明了該方案的可靠性。為新聞推薦系統(tǒng)的研究工作,提供了一定的幫助。
參考文獻:
[1] 張宜浩. 基于半監(jiān)督學習的個性化推薦研究[D]. 重慶: 重慶大學, 2014.
[2] Juan Ramos. Using TF-IDF to Determine Word Relevance in Documents Queries[M]. Industrial Practice and Experience, 2001: 1-16.
[3] Salton G, McGill M J. Introduction to Modern Information Retrieval[M].NewYork: McGraw Hill, 1983: 147.
[4] Bing Liu. Web Data Mining, Exploring Hyperlinks, Contents, and Usage Data[M].2nd ed. Springer, 2010: 56-321.