朱昆 劉姜 倪楓 朱佳怡
摘?要:
針對(duì)傳統(tǒng)的上下文電影推薦模型只采用文本數(shù)據(jù),從單模態(tài)數(shù)據(jù)獲取的信息有限,無法充分解決數(shù)據(jù)稀疏性帶來的問題,提出了一種融合文本和圖像數(shù)據(jù)的多模態(tài)電影推薦模型(VLPMF)。首先,VLPMF集成了長短期記憶網(wǎng)絡(luò)(LSTM)和概率矩陣分解(PMF)。其次,將VGG16提取的圖像特征以概率的角度結(jié)合到PMF中并構(gòu)建融合層,將文本特征和圖像特征融合后得出預(yù)測(cè)評(píng)分。最后,在Movielens\|1M、Movielens\|10M和亞馬孫AIV數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明,VLPMF模型的均方根誤差比對(duì)比實(shí)驗(yàn)中最優(yōu)模型的均方根誤差分別降低了1.26百分點(diǎn)、1.51百分點(diǎn)和4.30百分點(diǎn)。
關(guān)鍵詞:推薦系統(tǒng);圖像內(nèi)容;深度卷積神經(jīng)網(wǎng)絡(luò);概率矩陣分解模型
中圖分類號(hào):TP391??文獻(xiàn)標(biāo)志碼:A
0?引言(Introduction)
在互聯(lián)網(wǎng)時(shí)代,為了有效地為用戶挖掘有用的信息,推薦系統(tǒng)被普遍應(yīng)用在多個(gè)領(lǐng)域[1\|4],同時(shí)也成為緩解信息過載問題的研究熱點(diǎn)。由于數(shù)據(jù)稀疏,傳統(tǒng)推薦算法的性能受到很大的限制[5]。因此,解決評(píng)分?jǐn)?shù)據(jù)稀疏性問題對(duì)于提高推薦系統(tǒng)的性能具有重要意義。
傳統(tǒng)的推薦算法通常只考慮評(píng)分,若評(píng)分矩陣稀疏,則會(huì)對(duì)算法的性能造成負(fù)面影響[6]。為了提高推薦算法的性能,部分研究在推薦系統(tǒng)的推薦模型中使用電影屬性、電影評(píng)論等輔助信息[7]。但是,單模態(tài)文本數(shù)據(jù)所含信息有限,無法有效應(yīng)對(duì)數(shù)據(jù)稀疏帶來的問題。
實(shí)際上,圖像信息對(duì)于用戶偏好具有巨大的影響力,對(duì)于推薦系統(tǒng)的性能提升起著至關(guān)重要的作用。本文提出的VLPMF,將文本和圖像特征進(jìn)行了充分融合,為推薦系統(tǒng)準(zhǔn)確度的提升帶來了顯著的效果。
1?相關(guān)研究(Related?research)
隨著深度學(xué)習(xí)的迅速發(fā)展,深度學(xué)習(xí)算法可以有效獲取輔助信息的深度表示,提高推薦評(píng)分預(yù)測(cè)的準(zhǔn)確率,因此被廣泛應(yīng)用于推薦系統(tǒng)[8]。WANG等[9]提出一種利用協(xié)同主題建模的方法(Collaborative?Topic?Regression,CTR),利用文本信息和評(píng)分信息對(duì)傳統(tǒng)的矩陣分解模型(Probabilistic?Matrix?Factorization,PMF)[10]進(jìn)行改進(jìn),有效地提高了推薦的精度和覆蓋率。WANG等[11]提出了一種基于協(xié)同深度學(xué)習(xí)的推薦模型(Collaborative?Deep?Learning,?CDL),采用多層神經(jīng)網(wǎng)絡(luò)對(duì)用戶和物品的特征進(jìn)行建模,將PMF與堆疊去噪自編碼器SDAE結(jié)合起來提高推薦性能。KIM等[12]提出了卷積矩陣因子分解模型ConvMF?(Convolution?Matrix?Factorization),將CNN(Convolutional?Neural?Network)和PMF相結(jié)合,以提取文本的上下文信息特征,從而解決了CNN無法直接應(yīng)用于推薦算法的問題。然而,上述上下文感知推薦算法只能實(shí)現(xiàn)有限的性能改進(jìn),因?yàn)樗鼈冎豢紤]了文本信息。
深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域(Computer?Vision,?CV)的快速發(fā)展,解決了圖像和電影視覺特征提取的問題,利用CNN可以從圖像和電影視覺中提取深度特征,例如經(jīng)典的深度網(wǎng)絡(luò)模型AlexNet、VGG等。因此,本文提出一種基于概率矩陣分解的推薦算法模型VLPMF,分別利用LSTM和VGG16對(duì)電影描述文本和電影海報(bào)進(jìn)行特征提取,然后基于PMF模型將提取的文本和視覺特征融合到推薦系統(tǒng)中,提高評(píng)分預(yù)測(cè)精度。然后,在3個(gè)真實(shí)的數(shù)據(jù)集上以均方根平均誤差為指標(biāo),驗(yàn)證了VLPMF模型的性能。結(jié)果表明,VLPMF在評(píng)分預(yù)測(cè)精度方面明顯優(yōu)于CDL、ConvMF等模型,并且信息越稀疏,模型的優(yōu)勢(shì)越明顯。因此,本文的研究為電影推薦系統(tǒng)中利用視覺內(nèi)容信息提升推薦性能提供了一種有效的方案。
2?多模態(tài)推薦模型設(shè)計(jì)(Multimodal?recommendation?model?design)
2.1?LPMF文本提取模型
本文提出的矩陣分解方法LPMF模型(圖1),采用了用于文本分類的LSTM模型進(jìn)行文本特征提取,為了獲得更完整的文本上下文信息,將結(jié)構(gòu)整合到卷積層中,進(jìn)一步提高詞表示的質(zhì)量。提取的特征作為項(xiàng)目潛在模型中高斯分布均值的一部分,綜合了LSTM和PMF的優(yōu)點(diǎn)。
在LPMF模型中,LSTM結(jié)構(gòu)是在項(xiàng)目的描述文檔中生成項(xiàng)目的特征隱向量。項(xiàng)目描述文檔先經(jīng)過詞嵌入模型如Glove預(yù)處理,將其轉(zhuǎn)變?yōu)樵~向量矩陣。將項(xiàng)目描述文檔的長度看作l,用向量維度為p的不同向量表示每個(gè)單詞。這樣,描述文檔矩陣[WTHX]D[WTBX]=Euclid?Math?TwoRA@
p×l可以用不同的單詞向量拼接得到:
把嵌入層的描述文檔矩陣[WTHX]D[WTBX]當(dāng)作輸入,經(jīng)過LSTM后得到上下文特征信息,i時(shí)刻的上下文特征信息ci的提取公式如下:
其中:wi是i時(shí)刻的輸入,b是偏置項(xiàng)。描述文檔的特征向量可由[WTHX]C[WTBX]表示:
首先經(jīng)過連接層輸出:
其次接入Dropot層對(duì)部分神經(jīng)單元的輸出進(jìn)行丟棄處理,最后得到輸出y,經(jīng)過輸出層后得到項(xiàng)目的隱語義特征向量[WTHX]v:
其中:Wv為輸出層權(quán)重,bv為偏置值。最終經(jīng)過LSTM結(jié)構(gòu)將項(xiàng)目描述文檔轉(zhuǎn)化為每個(gè)項(xiàng)目文檔的隱向量,對(duì)于文本特征提取,LSTM體系結(jié)構(gòu)可以表示如下:
其中:W表示所有權(quán)重,Xj是項(xiàng)目j的描述文檔,φj是電影j的文檔隱向量。
2.2?LPMF的概率模型
本文提出的LPMF的概率模型通過連接LSTM和PMF可以充分利用項(xiàng)目描述文檔和進(jìn)行評(píng)分,從概率的角度看,觀測(cè)得分矩陣的條件分布如下:
其中:?X[WTBZ]為電影的描述文檔集(如用戶評(píng)論或電影描述),LSTM網(wǎng)絡(luò)將在?X[WTBZ]中提取到的文檔隱向量替換PMF中高斯分布的均值,Xj代表電影j的描述。
2.3?視覺特征提取
本文采用VGG16模型進(jìn)行海報(bào)的視覺特征提取。VGG16模型由13個(gè)卷積層、5個(gè)池化層、3個(gè)全連接層和1個(gè)Softmax層組成,?VGG16模型的架構(gòu)如圖2所示。
為了提高視覺特征提取的性能,采用遷移學(xué)習(xí)技術(shù)將VGG16模型應(yīng)用在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,將其訓(xùn)練得到的原始參數(shù)應(yīng)用到海報(bào)的視覺特征提取中。為了將視覺特征應(yīng)用于本文研究的電影推薦問題中,將這些特征納入電影推薦系統(tǒng)中,以提高推薦系統(tǒng)的準(zhǔn)確性和推薦效果。本文將VGG16模型提取的視覺特征歸納為
其中:Yj表示電影j的圖像(海報(bào)),j表示電影j的視覺特征。
2.4?VLPMF模型
為了進(jìn)一步提高推薦算法的性能,本文提出VLPMF模型,旨在融合文本類型和圖像類型的數(shù)據(jù),該模型包括3個(gè)核心部分:LSTM文本提取模塊、基于VGG16模型的圖像提取模塊及PMF模塊。VLPMF模型在LPMF模型的基礎(chǔ)上結(jié)合了圖像特征提取模塊,其模型框架如圖3所示。
在上述模塊中,分別介紹了文本特征和視覺特征的提取,VLPMF模型將電影的文本特征和相應(yīng)的視覺特征分別融合為綜合特征,并通過投影層將綜合特征投射到特定的維度,隨后采用一種概率角度的方法將綜合特征向量連接到PMF中,從而得到項(xiàng)目特征向量的條件分布。具體來說,在PMF的基礎(chǔ)上,針對(duì)項(xiàng)目特征向量的條件分布,通過以下方法強(qiáng)化條件分布。
3?實(shí)驗(yàn)分析(Experimental?analysis)
3.1?數(shù)據(jù)集
為了驗(yàn)證本文提出的推薦系統(tǒng)模型的性能,在常用的Movielens\|1M(ML\|1M)、Movielens\|10M(ML\|10M)和亞馬孫AIV數(shù)據(jù)集上對(duì)其進(jìn)行了實(shí)驗(yàn)。由于這些數(shù)據(jù)集缺乏輔助信息,因此本文在IMBD網(wǎng)站利用網(wǎng)絡(luò)爬蟲分別獲取Movielens的電影描述文檔、AIV的用戶評(píng)論和對(duì)應(yīng)的電影海報(bào)。表1給出了數(shù)據(jù)集的具體情況,表明每個(gè)數(shù)據(jù)集的稀疏性問題都是極其嚴(yán)重的。
3.2?實(shí)驗(yàn)設(shè)置
在文本特征提取方面,首先采用先前訓(xùn)練完畢的Glove預(yù)訓(xùn)練詞向量模型,設(shè)置其詞嵌入維度為200,為了避免過擬合,將Dropout設(shè)置為0.5時(shí),效果較佳。在視覺特征提取方面,將VGG16模型應(yīng)用在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。將預(yù)訓(xùn)練中批量大小和丟失率分別設(shè)置為128和0.5。其次將VGG16提取的圖像數(shù)據(jù)特征與獲得的文本特征向量進(jìn)行融合,因此每部電影j的綜合特征都是由文本特征和視覺特征組成的。最后將綜合特征向量放入投影層,并將其維數(shù)固定為50,再選擇維數(shù)相同的用戶潛在向量。使用網(wǎng)格搜尋法求出每個(gè)模型的超參數(shù)(λ?U[WTBX],λ?V[WTBZ])的最佳值,表2展示了在ML\|1M、ML\|10M和AIV數(shù)據(jù)集上,在不同模型性能最優(yōu)時(shí)參數(shù)λ?U[WTBX]和λ?V[WTBZ]的取值。
3.3?評(píng)估標(biāo)準(zhǔn)
為了評(píng)估本文提出模型在不同數(shù)據(jù)集上的表現(xiàn),隨機(jī)將3個(gè)數(shù)據(jù)集劃分為3個(gè)部分:80%的訓(xùn)練集、10%的驗(yàn)證集和10%的測(cè)試集,使用測(cè)試集評(píng)估模型的性能和泛化能力,并計(jì)算測(cè)試集上的均方根誤差(RMSE),將其作為模型性能的最終評(píng)估指標(biāo)。
3.4?對(duì)比實(shí)驗(yàn)
為了驗(yàn)證實(shí)驗(yàn)?zāi)P偷耐扑]性能,本文選用以下模型進(jìn)行性能對(duì)比。
(1)PMF[10]:一種基于概率模型的推薦算法,只應(yīng)用到評(píng)分?jǐn)?shù)據(jù),通過分解用戶\|物品評(píng)分矩陣為兩個(gè)低維度潛在特征向量,學(xué)習(xí)用戶和物品的潛在特征向量,并通過最大似然估計(jì)方法優(yōu)化模型的參數(shù)。
(2)CTR[9]:一種利用協(xié)同主題建模的方法,采用文本信息和評(píng)分信息對(duì)PMF進(jìn)行改進(jìn),有效地提高模型的推薦精度和覆蓋率。
(3)CDL[11]:一種基于協(xié)同深度學(xué)習(xí)的推薦算法,采用多層神經(jīng)網(wǎng)絡(luò)對(duì)用戶和物品的特征進(jìn)行建模,將PMF與堆疊去噪自編碼器SDAE結(jié)合。
(4)ConvMF[12]:一種基于卷積神經(jīng)網(wǎng)絡(luò)的推薦算法,采用CNN學(xué)習(xí)用戶和物品的特征表示,同時(shí)將特征表示集成到PMF中進(jìn)行推薦。
(5)LPMF:本文提出的一種結(jié)合長短期記憶網(wǎng)絡(luò)LSTM和概率矩陣分解PMF的模型,能夠深度提取文本隱語義特征。
(6)VLPMF:本文提出的一種基于概率矩陣分解的推薦算法模型,分別利用LSTM和CNN對(duì)描述文本和海報(bào)進(jìn)行特征提取,然后基于PMF模型將提取的文本和多級(jí)視覺特征融合到推薦系統(tǒng)中,提高了評(píng)分預(yù)測(cè)精度。
3.5?實(shí)驗(yàn)結(jié)果及分析
3.5.1?模型性能分析
表3顯示了LPMF、VLPMF和其他對(duì)比模型在3個(gè)測(cè)試集上的RMSE。從表3中可以看出,相比最優(yōu)基準(zhǔn)模型ConvMF,結(jié)合了文本和圖像特征的VLPMF,其RMSE指標(biāo)在ML\|1M數(shù)據(jù)集上提高了1.26百分點(diǎn)、在ML\|10M數(shù)據(jù)集上提高了1.51百分點(diǎn),在AIV數(shù)據(jù)集上提高了4.30百分點(diǎn)。
通過進(jìn)一步觀察可以得到,在評(píng)分?jǐn)?shù)據(jù)相對(duì)密集的ML\|1M數(shù)據(jù)集(密度為4.641?0%)上,相比于僅利用評(píng)分?jǐn)?shù)據(jù)的PMF,CTR和CDL模型的RMSE提升效果并不明顯,然而與使用CNN結(jié)構(gòu)提取上下文信息的ConvMF模型相比,RMSE大幅降低,說明在評(píng)分?jǐn)?shù)據(jù)密集的情況下,能夠提升上下文信息的捕獲性能,就能大幅提升推薦的精確度。
隨后,通過將LPMF和ConvMF對(duì)比可知,LPMF的性能表現(xiàn)更加優(yōu)異,說明LSTM模型在文本信息提取方面更有效。從LPMF和VLPMF模型的實(shí)驗(yàn)結(jié)果來看,由于VLPMF考慮了視覺特征,豐富了核心信息,因此表現(xiàn)出更優(yōu)越的性能,表明將視覺特征集成到推薦系統(tǒng)中,可以在上下文推薦方面發(fā)揮積極作用。
3.5.2?稀疏度分析
在評(píng)價(jià)評(píng)分?jǐn)?shù)據(jù)集時(shí),數(shù)據(jù)密度是一個(gè)很重要的指標(biāo)。本文研究了密度較小的AIV數(shù)據(jù)集(密度為0.030?0%)上VLPMF模型的改進(jìn)結(jié)果,發(fā)現(xiàn)其優(yōu)于在ML\|1M和ML\|10M數(shù)據(jù)集上的表現(xiàn)。此外,數(shù)據(jù)密度越小,VLPMF模型性能提升效果越明顯,說明VLPMF模型結(jié)合了文本特征和視覺特征,有效緩解了數(shù)據(jù)稀疏的問題。為了進(jìn)一步驗(yàn)證VLPMF模型在不同的數(shù)據(jù)稀疏情況下的優(yōu)越性,以ML\|1M數(shù)據(jù)集為例,將其隨機(jī)劃分為不同稀疏度的訓(xùn)練集做進(jìn)一步的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。
從表4中可以得出,VLPMF模型在不同的數(shù)據(jù)稀疏度條件下的表現(xiàn)均優(yōu)于其他模型,特別是當(dāng)數(shù)據(jù)稀疏度從3.98%下降到0.95%的過程中,VLPMF模型相比于最優(yōu)基準(zhǔn)模型ConvMF,性能提升率從1.2%提升到2.97%,表明數(shù)據(jù)特別稀疏時(shí),能同時(shí)提取文檔信息和圖像信息的VLPMF模型的均方根誤差比僅提取文本信息的ConvMF模型要小。此外,數(shù)據(jù)越稀疏,VLPMF模型的性能提升越大。圖4展現(xiàn)出不同模型在不同的數(shù)據(jù)稀疏度條件下的實(shí)驗(yàn)結(jié)果。
4?結(jié)論(Conclusion)
本文通過結(jié)合文本信息和圖片信息提高推薦數(shù)算法的穩(wěn)定性,探究了如何在保持推薦精度的前提下,利用描述文本信息(例如評(píng)論、電影描述等)和海報(bào)信息解決數(shù)據(jù)稀疏的問題,提出了基于概率矩陣分解的推薦模型VLPMF。該模型利用LSTM結(jié)構(gòu)捕獲文本模態(tài)信息的上下文的語義信息;對(duì)于圖像數(shù)據(jù),使用VGG16模型對(duì)電影海報(bào)進(jìn)行特征提取,然后將兩個(gè)模塊中所獲得的特征信息統(tǒng)一為綜合特征向量,并從概率的角度將其應(yīng)用到概率矩陣分解模型PMF中。在3種常用數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),VLPMF的RMSR優(yōu)于對(duì)比模型,并且數(shù)據(jù)越稀疏,模型的優(yōu)越性更突出。
參考文獻(xiàn)(References)
[1]?賈凡,康舒雅,江為強(qiáng),等.?基于相似性的多用戶漏洞推薦算法[J].?清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,63(9):1399\|1407.
[2]?李樹青,黃金旺,馬丹丹,等.?基于顯隱式信息融合和單類協(xié)同過濾方法的主題詞推薦[J].?圖書情報(bào)工作,2023,67(3):72\|84.
[3]?HWANGBO?H,KIM?Y?S,CHA?K?J.?Recommendation?system?development?for?fashion?retail?e\|commerce[J].?Electronic?commerce?research?and?applications,2018,28(C):94\|101.
[4]?張明星,張驍雄,劉姍姍,等.?利用知識(shí)圖譜的推薦系統(tǒng)研究綜述[J].?計(jì)算機(jī)工程與應(yīng)用,2023,59(4):30\|42.
[5]?劉會(huì),張璇,楊兵,等.?用于社交推薦的增強(qiáng)影響擴(kuò)散模型[J].?計(jì)算機(jī)學(xué)報(bào),2023,46(3):626\|642.
[6]?趙夢(mèng)媛,黃曉雯,?;w,等.?對(duì)話推薦算法研究綜述[J].?軟件學(xué)報(bào),2022,33(12):4616\|4643.
[7]?WANG?J?Z,HUANG?P?P,ZHAO?H,et?al.?Billion\|scale?commodity?embedding?for?E\|commerce?recommendation?in?alibaba[C]∥GUO?Y,F(xiàn)AROOQ?F.?Proceedings?of?the?24th?ACM?SIGKDD?International?Conference?on?Knowledge?Discovery?&?Data?Mining.?New?York:ACM,2018:839\|848.
[8]?李浩君,呂韻,汪旭輝,等.?融入情感分析的多層交互深度推薦模型研究[J].?數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023,7(3):43\|57.
[9]?WANG?C,BLEI?D?M.?Collaborative?topic?modeling?for?recommending?scientific?articles[C]∥APTE?C,GHOSH?J,SMYTH?P.?Proceedings?of?the?17th?ACM?SIGKDD?International?Conference?on?Knowledge?Discovery?and?Data?Mining.?New?York:ACM,2011:448\|456.
[10]?SALAKHUTDINOV?R,MNIH?A.?Probabilistic?matrix?factorization[C]∥PLATT?J?C,KOLLER?D,SINGER?Y,ROWEIS?S?T.?Proceedings?of?the?20th?International?Conference?on?Neural?Information?Processing?Systems.?New?York:ACM,2008:1257\|1264.
[11]?WANG?H,WANG?N,YEUNG?D.?Collaborative?deep?learning?for?recommender?systems[C]∥CAO?L?B,ZHANG?C?Q.?Proceedings?of?the?21th?ACM?SIGKDD?International?Conference?on?Knowledge?Discovery?and?Data?Mining.?New?York:ACM,2015:1235\|1244.
[12]?KIM?D,PARK?C,OH?J,et?al.?Convolutional?matrix?factorization?for?document?context\|aware?recommendation[C]∥SEN?S,GEYER?W.?Proceedings?of?the?10th?ACM?Conference?on?Recommender?Systems.?New?York:ACM,2016:233\|240.
作者簡介:
朱?昆(1997\|),男,碩士。研究領(lǐng)域:推薦系統(tǒng),深度學(xué)習(xí)。
劉?姜(1983\|),女,博士。副教授,研究領(lǐng)域:符號(hào)計(jì)算,機(jī)器學(xué)習(xí)。
倪?楓(1982\|),男,博士。副教授,研究領(lǐng)域:系統(tǒng)分析與集成。
朱佳怡(2000\|),女,本科生。研究領(lǐng)域:機(jī)器學(xué)習(xí)。