王 成,李千目
(南京理工大學 1.信息化建設與管理處;2.計算機科學與工程學院,江蘇 南京 210094)
互聯(lián)網相關應用迅猛發(fā)展給用戶帶來了各種便捷服務,同時也積累了巨量用戶交易行為數(shù)據(jù),隨之而來的“信息過載”使得用戶對于有價值的信息選擇變得困難,推動個性化推薦算法研究走向深入,通過推薦算法解決信息過載問題具有較強的實用價值,各類推薦算法如協(xié)同過濾算法、基于規(guī)則推薦和基于內容推薦等得到廣泛使用[1]。目前推薦算法普遍存在數(shù)據(jù)稀疏、冷啟動等難題。針對數(shù)據(jù)稀疏難題,主要采用建立有效的用戶評分模型完善數(shù)據(jù)填充,以緩解用戶數(shù)據(jù)的稀疏性[2];或者基于用戶評分信息,采用機器學習,通過矩陣分解、聚類等算法對用戶評分數(shù)據(jù)進行預處理[3],這些方法也取得了一定效果。
Hinton[4]首先提出的受限玻爾茲曼機(Restricted Boltzmann machine,RBM)模型因其推薦準確度較高,在諸多推薦算法中受到較多關注,是一種較為成功的神經網絡模型,從現(xiàn)有研究結果來看,在傳統(tǒng)推薦算法中有著較好的表現(xiàn)[5]。為進一步提高玻爾茲曼機推薦算法準確度,目前國內外學者提出了較多優(yōu)化研究。Salakhutdinov等[5]首次提出雙層受限玻爾茲曼機模型,協(xié)同過濾算法中引入深度學習算法,模型將用戶的評分作為可見層,把用戶信息作為隱藏層,構建應用概率模型預測評分。Tran等[6]則把幾個不同玻爾茲曼機進行整合,著重分析評分序列參數(shù),這些改進取得了不錯的推薦效果。Georgiev等[7]進一步將評分值直接應用于受限玻爾茲曼機的可見層,何潔月等[8]也用同樣思路將評分用于可見層,提出基于實值的玻爾茲曼機,這些改進降低了算法的復雜度,但存在可解釋性相對較差的問題?;羰缛A等[9]提出基于項目的推薦模型,張光榮等[10]提出用戶標簽至實值條件加入受限玻爾茲曼機,這些方法一定程度上緩解稀疏問題。
近年來基于受限玻爾茲曼機的混合推薦算法研究較多,沈學利等[11]提出了受限玻爾茲曼機結合加權的Slope One的混合推薦算法;He等[12]提出基于受限玻爾茲曼機和協(xié)同過濾算法的混合算法,在RBM的推薦中引入了最近鄰算法的最近鄰興趣相似度;王衛(wèi)兵等[13]提出受限玻爾茲曼機算法和LFM模型的混合推薦算法,利用RBM生成預測候選集并進行評分,利用LFM模型對結果進行排序;Chen等[14]提出受限玻爾茲曼機和基于鄰域因子分解混合推薦算法,利用基于鄰域因子分解方法進行用戶評分數(shù)據(jù)建模,利用受限玻爾茲曼機推薦top-k;Kuo等[15]提出基于聚類的受限玻爾茲曼機和差分進化算法混合推薦算法。此外,為進一步優(yōu)化受限玻爾茲曼機推薦,胡春華等[16]分析社交行為數(shù)據(jù),測量用戶之間信任與不信任關系,通過構造信任-不信任監(jiān)督機制,應用于優(yōu)化受限玻爾茲曼機推薦;Siddiqui等[17]提出受限玻爾茲曼機的無向圖形模型和加權方案,利用競爭性編碼推薦引擎生成的概率來進行預測,通過機器學習能在大數(shù)據(jù)環(huán)境下進行推薦。
雖然受限玻爾茲曼機算法經過改進,但仍然存在數(shù)據(jù)稀疏性、容易弱化個體用戶的需求和抗過擬合能力較差的問題,而將兩種協(xié)同過濾算法進行融合已成為一個重要的研究方向[18],通過將受限玻爾茲曼機融合特定算法有助于進一步提升推薦準確率,緩解已存在的問題。由于詞頻-逆向文件頻率(Term frequency-inverse document frequency,TF-IDF)算法優(yōu)勢在于提取主題詞、分析特征詞詞頻與類別之間的關系、對不同的文檔能給出較好區(qū)分度的推薦結果集[19],因此本文試圖對這兩種算法加以融合,提出融合詞頻-逆向文件頻率的受限玻爾茲曼機推薦算法,可以較好地將用戶、項目等特征融入到模型中,并在實驗中驗證融合推薦算法準確度。
融合詞頻-逆向文件頻率的受限玻爾茲曼機推薦算法(Restricted Boltzmann machine & term frequency-inverse document frequency fusion algorithm,RBM-TFIDF)利用受限玻爾茲曼機建構用戶評分二維矩陣,實現(xiàn)緩解普遍存在的稀疏問題,并得出玻爾茲曼機預測結果集。利用TF-IDF算法處理交易數(shù)據(jù)中的物品屬性信息、生成評分信息,最終將兩者評分融合最終生成推薦集。
受限玻爾茲曼機主要由可見層v、隱藏層h、權重w、對應偏置單元a和b所組成??梢妼觱用于接受輸入參數(shù),隱藏層h用于輸出訓練結果,偏置單元表示受歡迎程度,同層之間各節(jié)點相互獨立,可見單元和隱藏單元之間節(jié)點全部一一相連,其結構如圖1所示。其中可見單元和隱藏單元都為二元變量,狀態(tài)取值一般為{0,1}。
圖1 RBM結構圖
RBM模型的權重矩陣為wi,j,指定了可見層單元vi和隱層單元hj之間邊的權重。對每個可見層單元vi設有偏置ai,對每個隱層單元hj設有偏置bj,每個單元的能量函數(shù)(v,h)[20],如式(1)所示。
(1)
在RBM模型中,可見層、隱藏層間的能量函數(shù)聯(lián)合概率分布為
(2)
式中:Z為配分函數(shù),可以使節(jié)點集合的所有可能狀態(tài)下e-E(v,h)的和為1;同理,對全部隱藏層配置求和,得到可見層的取值邊緣分布為
(3)
RBM的層內節(jié)點沒有相連的邊,可見層節(jié)點取值情況決定了隱藏層激活狀態(tài),可見層v對隱藏層h的條件概率為
(4)
每節(jié)點的激活概率表示見式(5)和式(6),其中可見層節(jié)點數(shù)為m和隱藏層節(jié)點數(shù)為n
(5)
(6)
式中:σ代表邏輯函數(shù)。
利用對比散度(Contrastive divergence,CD)算法訓練RBM,期望獲得最優(yōu)化權重矩陣。通常CD-k算法中,進行吉布斯采樣一次即可,k表示需要采樣次數(shù),在可見層樣本數(shù)據(jù)已知的情況下,隨機初始化Wij,對樣本循環(huán)下面的計算過程:
(1)通過可視層vi求出隱藏層hj,設Wij的正向梯度為:pos(wij)=vihj。
(2)由隱藏層hj再來反向計算vi,此時算出的vi和hj已經變化,Wij的負向梯度neg(wij)=vihj。
(3)更新權重wij=wij+a*(pos(wij)-neg(wij)),其中α為學習率。定義epochs訓練次數(shù),循環(huán)執(zhí)行上述描述過程,循環(huán)迭代,直到收斂,即vi和hj很接近。
本文使用TF-IDF算法來計算預測結果。TF-IDF算法主要由兩個因素組成,即詞頻(Term frequency,TF)和逆文檔頻率(Inverse document frequency,IDF),詞頻即某詞語的頻率。為防止詞頻偏向長的文件,需要進行歸一化處理,一般是詞頻除總詞數(shù),如式(7)所示
(7)
式中:mti表示在文檔i中的詞語t出現(xiàn)次數(shù),M表示所有詞語在文檔中出現(xiàn)次數(shù)的總和。
逆文檔頻率用于衡量字詞在文檔中的普遍程度,字詞在文檔中出現(xiàn)越少,則字詞的區(qū)分度越高,重要性也就越高。逆文檔頻率由文檔總數(shù)除以包含特定字詞的文檔數(shù),再取對數(shù)而獲得,其計算公式如下
(8)
式中:D為文檔總數(shù),mt為包含詞語t的文檔數(shù)。TF-IDF由TF值與IDF值相乘而得到結果,通過過濾掉常見字詞,留下重要的字詞。字詞重要性與在文檔中出現(xiàn)的頻率成正比,但與出現(xiàn)的文檔數(shù)增加成反比。其計算公式如式(9)所示
(9)
以下計算預測評分[21]。項目綜合相似度sim(a,u)計算,最近鄰集合U由排名前K的鄰居組成,則特定用戶a的推薦初始評分如公式(10)所示
(10)
本文實驗數(shù)據(jù)采用GroupLens Research[22]的MovieLens 1M用戶電影評分數(shù)據(jù),MovieLens網站收集了大量的用戶電影評價數(shù)據(jù),適合進行推薦算法實驗和對比分析。文中采用Python編碼,服務器為AMD處理器3.60 GHz,內存8.0 GB,Windows10 64位操作系統(tǒng)的計算機上運行。
數(shù)據(jù)集主要由用戶、評分、電影等幾個方面的信息所構成,是目前推薦算法常用的數(shù)據(jù)集之一,其中ratings.dat文件包含實驗所必需的用戶評分信息,Movies.dat文件為電影信息,users.dat文件為用戶信息,上述文件記錄有6 039名用戶關于3 882部電影的評分記錄,共有1百多萬條。
數(shù)據(jù)稀疏度即評分矩陣中空值所占比例,用戶評分數(shù)據(jù)相對比較稀疏,訓練集的稀疏度約為95.734%。本節(jié)驗證相關算法的推薦質量,以及RBM-TFIDF算法的參數(shù)對推薦結果的影響。
為評價推薦結果質量,采用平均絕對誤差(Mean absolute error,MAE)和均方根誤差(Root mean square error,RMSE)作為評價指標。
(1)平均絕對誤差。平均絕對誤差定義為真實值和預測值之間誤差絕對值的平均值。設用戶對于n個項目的實際評分為{r1,r2,…,rn},推薦算法給出的預測評分為{p1,p2,…,pn},那么此用戶的MAE值如式(11)所示,MAE值越小則推薦的準確度越高。
(11)
(2)均方根誤差。均方根誤差對評價較大或較小誤差敏感,能較好地反映測量的精密度,其評價指標為預測值、真實值之差取平方和,并取評估次數(shù)比值的平方根,均方根誤差公式定義如下所示
(12)
上述兩個評價指標數(shù)值越小則推薦結果越好,一般情況下MAE數(shù)值相對較小,但在誤差離散度高、或者存在異常值的情況下,由于RMSE對偏差做一次平方,RMSE數(shù)值隨之放大,有助于發(fā)現(xiàn)是否存在異常值情況。
為驗證算法的有效性,本文把RBM-TFIDF算法和經典推薦算法進行比較,選擇了RBM模型為基礎的混合推薦模型IC-CRBMF[23]、UI-RBM[24]、IR-RBM-WSO[11]和DE-based CRBM[15]。
實驗的訓練數(shù)據(jù)集為MovieLens中的ratings數(shù)據(jù),通過隨機產生的評分集合,實驗中對參數(shù)進行不斷更新,盡量把誤差縮小到一定范圍,考察了模型對比散度算法迭代次數(shù)對于模型推薦效果的影響,迭代次數(shù)起始值為3次,最高為60 次;同時考察了模型中TF-IDF候選結果集對推薦結果集的影響;最后針對參數(shù)調優(yōu)情況與常見的推薦算法和混合推薦算法進行比較,發(fā)現(xiàn)參數(shù)設置相同的情況下,本文算法的推薦效果最優(yōu)。
2.4.1 設置模型參數(shù)
本文算法的RBM部分,通過TensorFlow構建RBM,首先確定隱藏層中的神經元數(shù)量hiddenNodes為22,設置可見層偏差bias參數(shù)、隱藏層hiddenBias參數(shù)、連接可見層visibleBias參數(shù)和隱藏層的權重。因為隱藏層中的每個神經元最終都會學習一個特征,利用TensorFlow sigmoid 和relu實現(xiàn)RBM模型所需要的非線性激活功能。設置學習率為alpha=1.0,創(chuàng)建梯度更新權重和偏差函數(shù),并計算平均絕對誤差。
考察對比散度算法在不同訓練epochs參數(shù)下對推薦準確度的影響,設置3、5、10、15、20、25、30、45、60 個epochs,每個epochs使用10個批次,尺寸為100,訓練結束繪出epochs與MAE關系圖,橫坐標為epochs數(shù),縱坐標為MAE值,從圖2 RBM不同epochs訓練與推薦準確度MAE關系圖中可以發(fā)現(xiàn),在epochs值等于20時,模型趨于穩(wěn)定,超過30后,MAE值雖有下降,但下降幅度不大,對推薦效果幫助不明顯。
圖2 RBM不同epochs訓練對推薦結果MAE影響
考察模型中TF-IDF候選結果集大小對推薦結果MAE影響。設置模型的RBM訓練次數(shù)epochs=15,TF-IDF候選集為20、60、100、140、180、220、260、300、340、380時,各模型的MAE情況如圖3所示。由實驗結果可看出:在其它參數(shù)保持不變的情況下,隨著候選集變大,推薦準確度有所上升,單計算所耗時間也有增加。當候選集為220時候,推薦效果趨于較優(yōu)。
圖3 TF-IDF候選結果集大小對推薦結果MAE影響
2.4.2 本文相關算法對比實驗
本實驗將建立在模型的epochs為15情況下,對本文推薦模型與RBM算法進行比較,兩者均使用相同RBM算法構建評分矩陣,RBM算法首先給出推薦結果作為參考,RBM-TFIDF不斷調整候選集參數(shù),得到不同候選集下的最終推薦結果。實驗結果如表1所示,對比結果如圖4 所示。從表1和圖4可得以下結論:本模型在推薦準確度上優(yōu)于原始RBM算法,MAE與RMSE值分別較后者提升了3.22%與6.06%,通過融合TF-IDF算法提升評分數(shù)據(jù)質量,進一步緩解RBM算法數(shù)據(jù)稀疏,獲得相對較好的推薦效果。
表1 RBM-TFIDF與RBM推薦試驗結果
圖4 RBM-TFIDF與RBM推薦對比圖
2.4.3 消融實驗
為了驗證模型RBM和TF-IDF對融合算法RBM-TFIDF的作用,在MovieLen數(shù)據(jù)集上進行消融實驗,結果如表2所示。RBM和TF-IDF兩種算法效果相近;從測試集中不同用戶的MAE、RMSE指標分布來看,RBM在提取用戶特征向量方面表現(xiàn)較好,推薦結果相對平穩(wěn),具有較高可靠性;而TF-IDF整體推薦效果較好,但是存在推薦集與測試集匹配度不穩(wěn)定的問題,表現(xiàn)為個人MAE、RMSE評分跳躍性較大;RBM-TFIDF推薦結果MAE、RMSE整體較優(yōu)且推薦評分平滑度較好,相比于RBM推薦算法,MAE、RMSE分別提升了2.5%、5.2%,同時能避免TF-IDF的推薦結果跳躍性過大問題。
表2 消融實驗評價結果
2.4.4 混合推薦算法對比實驗
與以RBM模型為基礎的混合推薦算法推薦對比。為進一步驗證推薦算法性能,選取了近幾年提出的基于RBM算法的混合推薦模型IC-CRBMF、UI-RBM、IR-RBM-WSO和DE-based CRBM,經過實驗,其MAE值分別為0.71、0.72、0.69和0.686,而本文算法RBM-TFIDF的MAE為0.60,與IC-CBMF、UI-RBM、IR-RBM-WSO和DE-based CRBM相比,分別提高了15.4%、16.6%、13.0%和12.5%,具體MAE對比結果如圖5所示。
圖5 基于RBM的混合算法推薦對比
本文提出的融合詞頻-逆向文件頻率的受限玻爾茲曼機推薦算法,其推薦準確率要高于RBM推薦算法,也優(yōu)于參與比對實驗的其它基于RBM算法的混合推薦算法。RBM-TFIDF算法首先利用受限玻爾茲曼機生成用戶評分矩陣,緩解數(shù)據(jù)的稀疏問題;其次進行余弦相似度計算得出候選集評分;利用TF-IDF算法獲得帶評分的候選集,通過融合兩者評分給出最終推薦集,并給出Top-N推薦。利用不同算法相似度,能進一步表達項目內關系,并得到較為理想的推薦效果。