熊文武 張守震
摘 要:通過一種基于RNN神經(jīng)網(wǎng)絡模型的推薦方法,對該模型進行深入研究,該模型的目標就是通過對非線性網(wǎng)絡的深層學習,從而創(chuàng)建一個網(wǎng)絡結構,利用此網(wǎng)絡結構去獲取到用戶和項目之間的深層次特征信息,進而預測其評分,進行用戶的推薦。注意力交互網(wǎng)絡在信息推薦中的作用。包括三個功能模塊——注意力模型、交互中心模塊和用戶/項目中心模塊。注意力模型主要是學習文本中上下文作用的重要性。交互中心模型這是注重上下文中每個文本和用戶、項目之間的交互,同時去捕獲上下對用戶個項目的作用。最后,用戶/項目中心模塊的作用獲得上下文感知的用戶表示和項目表示。
關鍵詞:智能推薦系統(tǒng);貝葉斯網(wǎng);深度神經(jīng)網(wǎng)絡
一、數(shù)據(jù)特征提取和預處理
在特征提取的階段,不同物品的描述會被提取出來。盡管可以使用任意的一種表示,例如多維數(shù)據(jù)表示,但最常見的方法是從底層數(shù)據(jù)中提取關鍵詞。做出這種選擇是因為非結構化文本描述通常在各種領域中廣泛使用,并且它們?nèi)匀皇亲钭匀坏拿枋鑫锲返姆绞?。在很多情況下,可以用多個字段來描述物品的各個方面。特征表示和清洗此過程在使用非結構化表示時顯得尤為重要。特征提取階段能夠從產(chǎn)品或者網(wǎng)頁的非結構化的描述中得到一系列單詞。
過從物品的描述中提取的大部分文本將包含許多與物品相關性不強的常用詞,詞干提取等步驟后,關鍵詞被轉(zhuǎn)換為向量空間表示。每個單詞也稱為項。在向量空間表示中,文檔被表示為一組單詞及它們出現(xiàn)的頻率。盡管使用單詞出現(xiàn)的原始頻率可能是誘人的想法,但這通常不可取。因為經(jīng)常出現(xiàn)的詞通常在統(tǒng)計學上差異較小,所以這些詞經(jīng)常被降低權重。這與停用詞的原理相似,只不過采用的是“軟”的權重打折的方式,而不是完全剔除。
二、RNN神經(jīng)網(wǎng)絡的推薦模型
提出的架構部分受到最近在自動回答(QA)場景中提出的基于 LSTMs的模型的啟發(fā)。選擇基于一個簡單的洞察力:在QA中,如果給出一個問題,基于可用事實提供答案,推薦系統(tǒng)可以根據(jù)用戶的個人資料對可用項的描述提供建議。因此,我們決定利用在問題和用戶配置文件之間進行類比設計以下架構。該體系結構實現(xiàn)了基于內(nèi)容的推薦系統(tǒng),其能夠預測分數(shù),并定義了用戶和一個特定的項目。簡而言之,本章的方法基于兩個不同的模塊,它們共同學習每個用戶的連續(xù)矢量表示和產(chǎn)生偏好估計分類器的每個項目。
通過相關實驗,我們評估了利用 MSE 和 RMSE 為評價指標的推薦任務中,上述深度神經(jīng)網(wǎng)絡架構相比幾個基線的有效性。首先,我們將其與基于(淺層)神經(jīng)網(wǎng)絡的其他模型進行了比較,然后,我們根據(jù)最先進的技術,如矩陣分解算法、用戶-用戶和項目-項目協(xié)同過濾,對其進行了評估。針對數(shù)據(jù)集收集的方法描述如下圖1所示。
對該表的快速分析顯示,兩個數(shù)據(jù)集之間差異很大。ML1M 數(shù)據(jù)集的規(guī)模不管是在用戶、項目和評分的數(shù)量上都比Amazon數(shù)據(jù)集小很多,ML1M 數(shù)據(jù)集的稀疏性較小,因此更適合于基于協(xié)同過濾的算法。另一方面,Amazon 數(shù)據(jù)集更稀疏,這使得推薦任務非常具有挑戰(zhàn)性。
深度神經(jīng)網(wǎng)絡DNN:利用深度神經(jīng)網(wǎng)絡去處理大規(guī)模數(shù)據(jù)問題,把深度網(wǎng)絡應用到推薦模型中,用來訓練大規(guī)模數(shù)據(jù),利用訓練結果去預估未來,從而做出推薦。遞歸推薦網(wǎng)絡RRN:通過賦予用戶和長短時記憶 LSTM 自回歸模型實現(xiàn),用來捕獲動態(tài),以及更傳統(tǒng)的低秩分解。該模型不學習潛在狀態(tài),而只需要學習狀態(tài)轉(zhuǎn)換函數(shù)。從而提高預測精度。
三、基于CNN的深度建模推薦方法
一種融合CNN卷積神經(jīng)網(wǎng)絡和雙層注意力機制的深度建模的推薦方法,該方法基于深度學習的多交互的推薦模型,使用詞向量嵌入技術對評價文本進行表示,基于Attention注意力機制的方法進一步對輸入信息進行優(yōu)化。使用Attention注意力機制方式改進用戶、項目和評價文本的嵌入,利用深度神經(jīng)網(wǎng)絡結構,充分挖掘評價文本中的隱含特征,并分別和用戶、項目進行交互,得到交互的嵌入表示。
(一)基于文本的深度特征提取
深度神經(jīng)網(wǎng)絡自動學習特征的能力很強。同時,深度神經(jīng)網(wǎng)絡也能自動對非線性結構進行學習。并且針對各種復雜場景,深度神經(jīng)網(wǎng)絡能夠從中學習更深層次的特征并實現(xiàn)深層次的數(shù)據(jù)特征表示。設計評論文本的深度特征提取的建模方法,該方法的基礎是深度協(xié)作神經(jīng)網(wǎng)絡模型(DeepCoNN),在這基礎上對其DeepCoNN模型進行了改進,并在把該模型作為本章對比實驗模型,從而根據(jù)對比結果來驗證本章設計模型的有效性。
(二)基于圖卷積神經(jīng)網(wǎng)絡的神經(jīng)協(xié)同推薦算法
基于圖卷積神經(jīng)協(xié)同推薦算法可以將用戶的歷史行為記錄與候選物品的高階隱藏信息挖掘出來,彌補了協(xié)同過濾推薦算法無法利用項目對用戶的高階隱藏有用信息,有效解決傳統(tǒng)協(xié)同過濾算法面臨的反饋數(shù)據(jù)稀疏和推薦結果解釋性差的問題,提升推薦算法的性能。
傳統(tǒng)的協(xié)同過濾算法是根據(jù)用戶對物品的歷史交互記錄進行推薦,忽略了很多高階有用的信息但是其具有方便快捷可快速部署的優(yōu)點。圖神經(jīng)網(wǎng)絡輔助的推薦算法可以通過鏈路預測的方式聚合本地化高階信息,但卻存在聚合效率慢和無法收斂的情況。圖卷積神經(jīng)網(wǎng)絡輔助的推薦算法繼承了圖神經(jīng)網(wǎng)絡的優(yōu)點,并改進了聚合方式,因其自身需要全圖迭代的特性因此對于無監(jiān)督任務的效果不佳。為了改善上述問題本文提出基于自適應圖卷積注意力神經(jīng)協(xié)同推薦算法,本算法通過添加自適應填充矩陣和注意力機制重新分配權重在一定程度上能緩解稀疏程度,并通過自適應聚合系數(shù)的迭代方式有效優(yōu)化了圖卷積神經(jīng)網(wǎng)絡對于無監(jiān)督任務的特征處理方式。
四、總結
深度學習可以從海量的數(shù)據(jù)集中挖掘出數(shù)據(jù)的本質(zhì)特征,并且可以通過多源異構數(shù)據(jù)中進行自特征學習。將深度學習與推薦算法進行融合,并且利用多源異構數(shù)據(jù),去緩解數(shù)據(jù)稀疏性的問題。在這個方向進行研究后發(fā)現(xiàn),利用深度學習的方法去分析上下文信息,可以有效的緩解數(shù)據(jù)稀疏問題,并提高推薦的準確度。
參考文獻:
[1]任悅,閆仁武.基于大數(shù)據(jù)的UserBased推薦算法的研究[J].計算機與數(shù)字工程,2022,50(01):75-79.
[2]杜雨晅,王巍,張闖,鄭小麗,蘇嘉濤,王楊洋.基于自適應圖卷積注意力神經(jīng)協(xié)同推薦算法[J/OL].計算機應用研究:1-9[2022-03-18]..
[3]李增暉. 融合深度學習與矩陣分解的推薦算法研究與應用[D].河北工程大學,2021.DOI:10.27104/d.cnki.ghbjy.2021.000547.
[4]王磊. 基于深度學習的推薦算法與系統(tǒng)研究[D].北京郵電大學,2021.DOI:10.26969/d.cnki.gbydu.2021.000946.