基于深度學習和詞匯相似度的個性化新聞推薦系統(tǒng)設計

2021-09-10 19:36江濤

無線互聯(lián)科技 2021年7期

江濤

摘要：對網(wǎng)絡上龐大的新聞資訊，如何發(fā)展一個個性化的新聞推薦系統(tǒng)，自動地推薦使用者感興趣的新聞，是一個備受重視的課題。文章提出一個個性化新聞推薦系統(tǒng)，此系統(tǒng)將建立一個新聞本體，并通過深度學習計算使用者偏好，以此達到推薦個性化新聞的目的。此新聞本體以分析新聞的詞匯為基礎，并參考專家的分類。其中，每個類別包含特定數(shù)量的代表性詞匯，而這些詞匯以時事新聞進行TF-IDF統(tǒng)計而得。對每一則新聞，系統(tǒng)將計算該則新聞所包含的詞匯與新聞本體中代表性詞匯的相似度，定義為新聞的特征向量，并將此特征向量輸入多層次類神經(jīng)網(wǎng)絡進行深度學習計算得出新聞推薦值。實驗結果顯示，相較于隨機推薦，文章所提出的方法可以較大地提升推薦成功的比率，神經(jīng)網(wǎng)絡將由推薦值來判斷是否推薦給使用者，若是使用者未點擊閱讀此新聞，判斷為使用者不喜歡此篇新聞，神經(jīng)網(wǎng)絡將會進行修正，使之越來越接近真實的使用者偏好。

關鍵詞：使用者偏好;新聞推薦;深度學習;TF-IDF

0 引言

在網(wǎng)絡新聞普及的今天，大量的新聞網(wǎng)站如騰訊新聞、網(wǎng)易新聞、中國青年電子報等眾多媒體平臺的普及，配合智能手機、平板與5G網(wǎng)絡技術的發(fā)展，人們也越來越依賴智能型設備在任何時間、地點，通過網(wǎng)絡來從事各式各樣的活動，例如：可以使用手機瀏覽器閱讀網(wǎng)絡新聞，部分新聞媒體也推出專屬手機 APP 以供閱讀，新聞的即時性已然與過去的一日一報大不相同。也就是在這新聞資訊爆炸的時代，人們有太多新聞可以瀏覽閱讀，因此一個好的個性化新聞推薦系統(tǒng)，對大多數(shù)使用者將是非常有用的。

本文將以詞匯相似度為基礎結合深度學習推薦個性化新聞：首先，參考專家分類，將新聞分為多個類別，并將其對應的時事新聞進行分析，取出其中的代表性詞匯，加入其對應的類別，以此作為新聞本體。之后，由網(wǎng)絡爬蟲獲取新聞，利用中文斷詞系統(tǒng)將該新聞的詞匯取出，然后利用TF-IDF（Term Frequency-Inverse Document Frequency）方法來計算出本文代表性的詞匯，再將這些詞匯與新聞本體中的代表性詞匯進行 NGD（Normalized Google Distance）相似度計算，其結果定義為此新聞的特征向量。最后，將新聞的特征向量輸入多層次類神經(jīng)網(wǎng)絡進行深度學習計算，依據(jù)使用者真實的點擊記錄修正各層神經(jīng)元傳導路徑的權重值以及神經(jīng)元偏權值，從而由神經(jīng)網(wǎng)絡判斷是否推薦給使用者。

1 相關研究

1.1? 新聞本體

“本體”源自于哲學，是一個探討物體存在的哲學分? ? ? ?支[1]。在信息科學中，本體論的觀念被應用在知識表達上，也就是對特定領域之中某套概念及其相互之間關系的形式化表達，通過描述一項事物與其他詞匯的從屬關系來代表該事物。在本研究中所建立的新聞本體由數(shù)個類別組成，各類別下又具有特定數(shù)量的代表性詞匯，這些代表性詞匯是通過TF-IDF統(tǒng)計方法計算而得。

1.2? Term Frequency–Inverse Document Frequency （TF-IDF）TF-IDF是一種用來評價詞匯與文章關聯(lián)程度的統(tǒng)計方法[2]。詞匯的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加，但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

單一詞匯ti的詞頻（Term Frequency， TF），可由式（1）計算得知，其中ni，j，nk，j分別表示詞匯ti，tk在文件dj出現(xiàn)的次數(shù)，分母即為文件dj中所有詞匯出現(xiàn)次數(shù)之總和。

逆向文件頻率（Inverse Document Frequency，IDF）是一個計算詞匯重要性的方法。某一特定詞匯的IDF，可以由（2）式得到，其中∣D∣是語料庫中的文件總數(shù)，表示包含詞匯ti的文件數(shù)目。

1.3? Normalized Google Distance（NGD）NGD是一種詞匯相似度的計算方式，利用搜索引擎搜尋詞匯后，回報的搜尋結果數(shù)來計算兩個詞匯之間的相關度。兩個相似的詞匯會有較小的NGD值，而較不相關的詞匯會有較大的NGD值。NGD的計算公式如下：

（4）

其中x，y是欲計算相似度的兩個詞匯，f（x）是詞匯x的搜索結果，f（x，y）是合并詞匯“x”“y”搜尋的結果數(shù)，N是Google 搜尋引擎的總索引數(shù)。

2? ? 關鍵問題

2.1? 系統(tǒng)架構

新聞推薦系統(tǒng)架構如圖1所示，推薦系統(tǒng)主要分為兩部分：新聞分析系統(tǒng)及深度學習。

2.2? 新聞分析系統(tǒng)

2.2.1 網(wǎng)絡爬蟲

網(wǎng)絡爬蟲是一種自動瀏覽探索網(wǎng)絡的程序，被廣泛用于網(wǎng)際網(wǎng)絡搜尋引擎或其他類似網(wǎng)站，以取得或更新這些網(wǎng)站的內(nèi)容和檢索方式。它們可以自動采集所有其能夠存取到的頁面內(nèi)容，以供搜尋引擎做進一步處理，而使得用戶能更快地檢索到他們需要的信息。本研究利用爬蟲快速地搜集新聞數(shù)據(jù)，用以建立新聞本體以及深度學習訓練。

2.2.2? 斷詞系統(tǒng)

斷詞系統(tǒng)是一種將一句話或一段文章分成詞匯以便后續(xù)處理的系統(tǒng)。通過斷詞系統(tǒng)可以將前述網(wǎng)絡爬蟲所獲得的新聞數(shù)據(jù)，使用TF-IDF統(tǒng)計方法取出該篇新聞的代表性詞匯[3]。

3? ? 深度學習

本研究采用深度神經(jīng)網(wǎng)絡，使用反向傳播算法進行學習訓練，以新聞的特征向量作為輸入，隱藏層的激活函數(shù)是采用線性整流函數(shù)（Rectified Linear Unit），ReLU相較于其他激活函數(shù)能更快收斂，也可以有效處理梯度消失的問題，并依據(jù)使用者真實的點擊記錄修正各層神經(jīng)元傳導路徑的權重值以及神經(jīng)元偏權計算，以得出使用者是否對一篇新聞有興趣。

4? ? 建立新聞本體

參照搜索引擎新聞分類的方式，系統(tǒng)先用網(wǎng)絡爬蟲從固定的幾個中文網(wǎng)絡新聞平臺擷取相關類別的新聞。另外，在參考Google新聞平臺的建議詞匯及百度搜尋熱門詞匯后，發(fā)現(xiàn)大部分詞匯都屬于名詞，因此收集完新聞文章，利用斷詞系統(tǒng)斷詞后，將只取名詞詞類來進行下一步計算。利用TF-IDF把該類別中最常出現(xiàn)的多個代表性詞匯記錄下來，與原本的類別連接，建構新聞本體。如：假設旅游類別的新聞中最常出現(xiàn)的詞匯是“故宮”“廬山”“九寨溝”，則將其定為旅游類別下的3個代表性詞匯。

5? ? 計算新聞特征向量

在建立了新聞類別與代表性詞匯之間關系的新聞本體之后，假設所建立的新聞本體中有n個類別（如旅游、體育等），其分別以C1，C2，…，Cn表示，而每個類別有m個代表性詞匯，并以TCi，j，1≦i≦n，1≦j≦m表示第i個類別的第j個代表性詞匯。對某一新聞N，假設經(jīng)過斷詞分析后，得到其內(nèi)含有s個代表性詞匯（以TNh，1≦h≦s來表示），目標是利用這些詞匯來得出此新聞N與新聞本體每個類別C1，C2，…，Cn的相似度，因為NGD值代表詞匯之間的相似度，所以可以通過新聞N中所有詞匯（TNh，1≦h≦s）與某類別Ci中的所有代表性詞匯（TCi，j，1≦j≦m）任兩者間的NGD值，來計算出新聞N與Ci的相似度，其公式定義如下：

經(jīng)由（2）的計算可得出一新聞N與本體中所有類別Ci（1≦i≦n）之間的相似度，這些值可以用來定義新聞N的特征向量，亦即假設U代表新聞N的特征向量，則

6? ? 進行深度學習訓練

由（5）式可以得到一篇新聞的特征向量，以此特征向量代表新聞，并取數(shù)則新聞分批作為深度學習的訓練數(shù)據(jù)輸入神經(jīng)網(wǎng)絡，然后依每次通過神經(jīng)網(wǎng)絡所輸出結果，由反向傳播算法計算其值與真實使用者選擇之間的誤差有多少，來修正神經(jīng)元路徑權重值以及神經(jīng)元偏權，經(jīng)過不斷訓練來學習使用者興趣。

7? ? 試驗以及評估

表1為實驗初步訓練成果，實驗采用3層隱藏層。

準確率計算如（7）式，計算結果為85%，由此可以看出深度學習具有較好的推薦效果。

（7）

8? ? 結語

本文考察了現(xiàn)今新聞平臺多數(shù)區(qū)分類別的特性，并建立新聞本體，新聞本體能夠將新聞內(nèi)容的抽象概念具體化，再通過NGD計算新聞詞匯與新聞本體的相似度，來建立一則新聞的特征向量，讓計算機可通過數(shù)值化的新聞來進行深度學習訓練，從而計算新聞推薦值，并依照推薦值進行推薦，由于深度神經(jīng)網(wǎng)絡是可以不斷訓練的，本系統(tǒng)可以不斷進行學習，根據(jù)實驗證明，采用深度學習，已具備不錯的推薦效果，未來研究也將進一步調(diào)整深度學習網(wǎng)絡的各項參數(shù)，使新聞推薦系統(tǒng)推薦出更符合使用者偏好的新聞。

[參考文獻]

[1]黃立威，江碧濤，呂守業(yè)，等.基于深度學習的推薦系統(tǒng)研究綜述[J].計算機學報，2018（7）：1619-1647.

[2]彭菲菲，錢旭.基于用戶關注度的個性化新聞推薦系統(tǒng)[J].計算機應用研究，2012（3）：1005-1007.

[3]鄧存彬，虞慧群，范貴生.融合動態(tài)協(xié)同過濾和深度學習的推薦算法[J].計算機科學，2019（8）：28-34.

（編輯王永超）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學習和詞匯相似度的個性化新聞推薦系統(tǒng)設計