江濤
摘 要:對網(wǎng)絡上龐大的新聞資訊,如何發(fā)展一個個性化的新聞推薦系統(tǒng),自動地推薦使用者感興趣的新聞,是一個備受重視的課題。文章提出一個個性化新聞推薦系統(tǒng),此系統(tǒng)將建立一個新聞本體,并通過深度學習計算使用者偏好,以此達到推薦個性化新聞的目的。此新聞本體以分析新聞的詞匯為基礎,并參考專家的分類。其中,每個類別包含特定數(shù)量的代表性詞匯,而這些詞匯以時事新聞進行TF-IDF統(tǒng)計而得。對每一則新聞,系統(tǒng)將計算該則新聞所包含的詞匯與新聞本體中代表性詞匯的相似度,定義為新聞的特征向量,并將此特征向量輸入多層次類神經(jīng)網(wǎng)絡進行深度學習計算得出新聞推薦值。實驗結果顯示,相較于隨機推薦,文章所提出的方法可以較大地提升推薦成功的比率,神經(jīng)網(wǎng)絡將由推薦值來判斷是否推薦給使用者,若是使用者未點擊閱讀此新聞,判斷為使用者不喜歡此篇新聞,神經(jīng)網(wǎng)絡將會進行修正,使之越來越接近真實的使用者偏好。
關鍵詞:使用者偏好;新聞推薦;深度學習;TF-IDF
0 引言
在網(wǎng)絡新聞普及的今天,大量的新聞網(wǎng)站如騰訊新聞、網(wǎng)易新聞、中國青年電子報等眾多媒體平臺的普及,配合智能手機、平板與5G網(wǎng)絡技術的發(fā)展,人們也越來越依賴智能型設備在任何時間、地點,通過網(wǎng)絡來從事各式各樣的活動,例如:可以使用手機瀏覽器閱讀網(wǎng)絡新聞,部分新聞媒體也推出專屬手機 APP 以供閱讀,新聞的即時性已然與過去的一日一報大不相同。也就是在這新聞資訊爆炸的時代,人們有太多新聞可以瀏覽閱讀,因此一個好的個性化新聞推薦系統(tǒng),對大多數(shù)使用者將是非常有用的。
本文將以詞匯相似度為基礎結合深度學習推薦個性化新聞:首先,參考專家分類,將新聞分為多個類別,并將其對應的時事新聞進行分析,取出其中的代表性詞匯,加入其對應的類別,以此作為新聞本體。之后,由網(wǎng)絡爬蟲獲取新聞,利用中文斷詞系統(tǒng)將該新聞的詞匯取出,然后利用TF-IDF(Term Frequency-Inverse Document Frequency)方法來計算出本文代表性的詞匯,再將這些詞匯與新聞本體中的代表性詞匯進行 NGD(Normalized Google Distance) 相似度計算,其結果定義為此新聞的特征向量。最后,將新聞的特征向量輸入多層次類神經(jīng)網(wǎng)絡進行深度學習計算,依據(jù)使用者真實的點擊記錄修正各層神經(jīng)元傳導路徑的權重值以及神經(jīng)元偏權值,從而由神經(jīng)網(wǎng)絡判斷是否推薦給使用者。
1 相關研究
1.1? 新聞本體
“本體”源自于哲學,是一個探討物體存在的哲學分? ? ? ?支[1]。在信息科學中,本體論的觀念被應用在知識表達上,也就是對特定領域之中某套概念及其相互之間關系的形式化表達,通過描述一項事物與其他詞匯的從屬關系來代表該事物。在本研究中所建立的新聞本體由數(shù)個類別組成,各類別下又具有特定數(shù)量的代表性詞匯,這些代表性詞匯是通過TF-IDF統(tǒng)計方法計算而得。
1.2? Term Frequency–Inverse Document Frequency (TF-IDF)TF-IDF是一種用來評價詞匯與文章關聯(lián)程度的統(tǒng)計方法[2]。詞匯的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。
單一詞匯ti的詞頻(Term Frequency, TF),可由式(1)計算得知,其中ni,j,nk,j分別表示詞匯ti,tk在文件dj出現(xiàn)的次數(shù),分母即為文件dj中所有詞匯出現(xiàn)次數(shù)之總和。
逆向文件頻率(Inverse Document Frequency,IDF)是一個計算詞匯重要性的方法。某一特定詞匯的IDF,可以由(2)式得到,其中∣D∣是語料庫中的文件總數(shù),表示包含詞匯ti的文件數(shù)目。
1.3? Normalized Google Distance(NGD)NGD是一種詞匯相似度的計算方式,利用搜索引擎搜尋詞匯后,回報的搜尋結果數(shù)來計算兩個詞匯之間的相關度。兩個相似的詞匯會有較小的NGD值,而較不相關的詞匯會有較大的NGD值。NGD的計算公式如下:
(4)
其中x,y是欲計算相似度的兩個詞匯,f(x)是詞匯x的搜索結果,f(x,y)是合并詞匯“x”“y”搜尋的結果數(shù),N是Google 搜尋引擎的總索引數(shù)。
2? ? 關鍵問題
2.1? 系統(tǒng)架構
新聞推薦系統(tǒng)架構如圖1所示,推薦系統(tǒng)主要分為兩部分:新聞分析系統(tǒng)及深度學習。
2.2? 新聞分析系統(tǒng)
2.2.1 網(wǎng)絡爬蟲
網(wǎng)絡爬蟲是一種自動瀏覽探索網(wǎng)絡的程序,被廣泛用于網(wǎng)際網(wǎng)絡搜尋引擎或其他類似網(wǎng)站,以取得或更新這些網(wǎng)站的內(nèi)容和檢索方式。它們可以自動采集所有其能夠存取到的頁面內(nèi)容,以供搜尋引擎做進一步處理,而使得用戶能更快地檢索到他們需要的信息。本研究利用爬蟲快速地搜集新聞數(shù)據(jù),用以建立新聞本體以及深度學習訓練。
2.2.2? 斷詞系統(tǒng)
斷詞系統(tǒng)是一種將一句話或一段文章分成詞匯以便后續(xù)處理的系統(tǒng)。通過斷詞系統(tǒng)可以將前述網(wǎng)絡爬蟲所獲得的新聞數(shù)據(jù),使用TF-IDF統(tǒng)計方法取出該篇新聞的代表性詞匯[3]。
3? ? 深度學習
本研究采用深度神經(jīng)網(wǎng)絡,使用反向傳播算法進行學習訓練,以新聞的特征向量作為輸入,隱藏層的激活函數(shù)是采用線性整流函數(shù)(Rectified Linear Unit),ReLU相較于其他激活函數(shù)能更快收斂,也可以有效處理梯度消失的問題,并依據(jù)使用者真實的點擊記錄修正各層神經(jīng)元傳導路徑的權重值以及神經(jīng)元偏權計算,以得出使用者是否對一篇新聞有興趣。
4? ? 建立新聞本體
參照搜索引擎新聞分類的方式,系統(tǒng)先用網(wǎng)絡爬蟲從固定的幾個中文網(wǎng)絡新聞平臺擷取相關類別的新聞。另外,在參考Google新聞平臺的建議詞匯及百度搜尋熱門詞匯后,發(fā)現(xiàn)大部分詞匯都屬于名詞,因此收集完新聞文章,利用斷詞系統(tǒng)斷詞后,將只取名詞詞類來進行下一步計算。利用TF-IDF把該類別中最常出現(xiàn)的多個代表性詞匯記錄下來,與原本的類別連接,建構新聞本體。如:假設旅游類別的新聞中最常出現(xiàn)的詞匯是“故宮”“廬山”“九寨溝”,則將其定為旅游類別下的3個代表性詞匯。
5? ? 計算新聞特征向量
在建立了新聞類別與代表性詞匯之間關系的新聞本體之后,假設所建立的新聞本體中有n個類別(如旅游、體育等),其分別以C1,C2,…,Cn表示,而每個類別有m個代表性詞匯,并以TCi,j,1≦i≦n,1≦j≦m表示第i個類別的第j個代表性詞匯。對某一新聞N,假設經(jīng)過斷詞分析后,得到其內(nèi)含有s個代表性詞匯(以TNh,1≦h≦s來表示),目標是利用這些詞匯來得出此新聞N與新聞本體每個類別C1,C2,…,Cn的相似度,因為NGD值代表詞匯之間的相似度,所以可以通過新聞N中所有詞匯(TNh,1≦h≦s)與某類別Ci中的所有代表性詞匯(TCi,j,1≦j≦m)任兩者間的NGD值,來計算出新聞N與Ci的相似度,其公式定義如下:
經(jīng)由(2)的計算可得出一新聞N與本體中所有類別Ci(1≦i≦n)之間的相似度,這些值可以用來定義新聞N的特征向量,亦即假設U代表新聞N的特征向量,則
6? ? 進行深度學習訓練
由(5)式可以得到一篇新聞的特征向量,以此特征向量代表新聞,并取數(shù)則新聞分批作為深度學習的訓練數(shù)據(jù)輸入神經(jīng)網(wǎng)絡,然后依每次通過神經(jīng)網(wǎng)絡所輸出結果,由反向傳播算法計算其值與真實使用者選擇之間的誤差有多少,來修正神經(jīng)元路徑權重值以及神經(jīng)元偏權,經(jīng)過不斷訓練來學習使用者興趣。
7? ? 試驗以及評估
表1為實驗初步訓練成果,實驗采用3層隱藏層。
準確率計算如(7)式,計算結果為85%,由此可以看出深度學習具有較好的推薦效果。
(7)
8? ? 結語
本文考察了現(xiàn)今新聞平臺多數(shù)區(qū)分類別的特性,并建立新聞本體,新聞本體能夠將新聞內(nèi)容的抽象概念具體化,再通過NGD計算新聞詞匯與新聞本體的相似度,來建立一則新聞的特征向量,讓計算機可通過數(shù)值化的新聞來進行深度學習訓練,從而計算新聞推薦值,并依照推薦值進行推薦,由于深度神經(jīng)網(wǎng)絡是可以不斷訓練的,本系統(tǒng)可以不斷進行學習,根據(jù)實驗證明,采用深度學習,已具備不錯的推薦效果,未來研究也將進一步調(diào)整深度學習網(wǎng)絡的各項參數(shù),使新聞推薦系統(tǒng)推薦出更符合使用者偏好的新聞。
[參考文獻]
[1]黃立威,江碧濤,呂守業(yè),等.基于深度學習的推薦系統(tǒng)研究綜述[J].計算機學報,2018(7):1619-1647.
[2]彭菲菲,錢旭.基于用戶關注度的個性化新聞推薦系統(tǒng)[J].計算機應用研究,2012(3):1005-1007.
[3]鄧存彬,虞慧群,范貴生.融合動態(tài)協(xié)同過濾和深度學習的推薦算法[J].計算機科學,2019(8):28-34.
(編輯 王永超)