国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于對比學習的圖書推薦系統(tǒng)冷啟動研究

2023-02-28 16:10董昊燁樊重俊
智能計算機與應用 2023年11期
關鍵詞:冷啟動協(xié)作框架

董昊燁,樊重俊

(上海理工大學管理學院,上海 200093)

0 引 言

近幾年,隨著大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、5G 的蓬勃發(fā)展,互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)也與日俱增,在面對海量數(shù)據(jù)的情況下,人類無法迅速精準地找到有價值的信息。 為了解決數(shù)據(jù)過載的問題,推薦系統(tǒng)應運而生,可以從海量的互聯(lián)網(wǎng)數(shù)據(jù)中挖掘出用戶可能感興趣的商品,做出個性化推薦,有效降低了人們在互聯(lián)網(wǎng)上尋找自己感興趣信息時所消耗的時間。 隨著相關研究的逐漸成熟,推薦系統(tǒng)通過強大的信息過濾技術為很多領域的發(fā)展都提供了強有力的幫助,比如,電商領域天貓、亞馬遜等平臺的應用,娛樂領域快手短視頻、qq 音樂等App 的普及,都通過推薦系統(tǒng)大大提升了軟件的使用頻率和用戶數(shù)量。

作為大家日常生活中放松、學習、自我提升的重要工具,圖書依然是人們不可或缺的精神食糧。 在《2021年中國圖書市場研究報告》中顯示,圖書行業(yè)正在逐步加入新的商業(yè)模式中,網(wǎng)上書店就是新模式下的產(chǎn)物,且已形成了規(guī)模,并逐步占有大部分市場份額,因此線上圖書推薦系統(tǒng)的應用必要性也日益凸顯。 線上圖書推薦系統(tǒng)可以根據(jù)每個用戶與電子圖書的交互數(shù)據(jù),分析挖掘用戶行為,實現(xiàn)智能化的圖書精準推薦。

但與此同時,對于圖書推薦系統(tǒng)而言,冷啟動的問題也不容忽視。 平臺中并非所有圖書都有充足的可用歷史數(shù)據(jù),隨著新書籍的不斷上架,系統(tǒng)內部沒有充足的數(shù)據(jù)支撐,經(jīng)典的協(xié)同過濾等方案無法利用協(xié)同相似度來推斷用戶對這些圖書的偏好,很大程度上降低了推薦準確性。 從而導致用戶信賴度降低,失去用戶粘性,最終用戶數(shù)量減少,對企業(yè)造成了極大影響,因此,解決推薦系統(tǒng)冷啟動問題迫在眉睫。

針對上述問題,論文提出了一種基于對比學習的冷啟動推薦框架,可以顯著提高圖書冷啟動情況下的推薦準確性,對此問題的研究具有迫切的意義。

1 相關工作

1.1 對比學習

對比學習作為自監(jiān)督學習的代表性算法,目前已經(jīng)廣泛應用于計算機視覺[1-7]和自然語言處理[5-6]領域。 就是通過從一些負樣本對中識別出正對,最大化了不同表示之間的互信息,從而發(fā)現(xiàn)不同視圖之間共享的語義信息。 為此,Oord 等學者[8]提出了一種概率對比損失以最大限度地保留觀測和上下文信號之間的互信息。 對于推薦系統(tǒng),一些模型[9]采用對比學習來優(yōu)化用戶和項目的表示。 然而,這些方法更側重于協(xié)作或內容空間的表示。

相比之下,將協(xié)作嵌入和特征表示視為2 個不同的方面,并最大化彼此間的互信息,以便于從內容信息中捕捉協(xié)作信號。

1.2 推薦系統(tǒng)冷啟動

解決推薦系統(tǒng)冷啟動問題的常見方法是利用輔助信息和上下文信息[10],以及來自其他領域的信息[11]來推薦物品,但是隨著《通用數(shù)據(jù)保護條例》的頒布,數(shù)據(jù)在政策的限制下分散在不同的平臺中,可獲取的信息越來越少。 傳統(tǒng)的基于內容推薦的方法使用用戶特征和項目特征來擴充數(shù)據(jù),雖然提高了推薦的準確率,但會造成很明顯的“長尾效應”。 文獻[12]提出了一種局部集體嵌入學習方法,通過項目的屬性和過去的用戶偏好進行矩陣分解,在新聞推薦領域得到了很好的效果,但在其他領域推薦精度亟待提高。 Gao 等[13]提出了一種融合CNN 和GAN 模型的基于Deep Q-Network 的推薦框架,在DRCGR 中還提供了一種將卷積序列嵌入的推薦模型,以捕獲用戶正反饋的序列偏好。 Feng 等學者[14]使用奇異值分解模型對未評級項目進行預處理,以增加顯式反饋數(shù)據(jù)的密度,再將提取的特征進行融合,得到最終的用戶特征矩陣和產(chǎn)品特征矩陣。 本文將通過最大化互信息來明確顯示的建模內容與協(xié)同過濾信息之間的相關性。

2 對比學習冷啟動框架

研究提出了一個基于對比學習的冷啟動推薦框架。 如圖1 所示。 該框架主要由3 部分組成:對比對組織、對比嵌入網(wǎng)絡、對比優(yōu)化。 在下文中,將詳細介紹每一部分的設計內容。

圖1 對比學習推薦系統(tǒng)框架示意圖Fig. 1 The framework diagram of comparative learning recommendation system

2.1 對比對組織

對比學習的核心思想是構造正負樣本,將語義相似的實例所組成的正樣本從語義不相似的實例所組成的負樣本中識別出來,并將正樣本和負樣本在特征空間中進行對比,學習樣本的特征表示。 因此,在圖書推薦系統(tǒng)中,將用戶和圖書組成U - B和M - N對比對進行學習研究。

2.1.1U - B對比對

研究中從歷史數(shù)據(jù)中進行尋找,將觀察到的用戶(user) —書籍(book) 對視為正樣本,如圖2 所示。 同時,隨機抽取K項尚未被用戶U購買的書籍,如(c1,c2,c3,…,ck),并與用戶配對以建立負樣本對。 形式上,可以將正U - B和負U - B對定義為:

圖2 U-B 部分框架Fig. 2 U-B part frame

與負樣本對相比,正樣本對包含相似的協(xié)同信號,因此,這樣更有助于發(fā)現(xiàn)由交互動作所傳遞的協(xié)作信號。

2.1.2M - N對比對

與U - B對比對不同,M - N對比對采用了自判別任務來最大化項目的2 種不同表示的相互信息。 如圖2 所示,為了構建配對b將其設為錨點,并將其與自身連接作為正對,這揭示了同一項目b的2 個表示之間的語義相似性。

相反,錨點與其他項目組織的否定對在語義上是不相似的。 由圖1 看到,將項目配對在一起從而獲得M - N對比對:

其中,(b,b) 是正對,其他為負對。

2.2 對比嵌入網(wǎng)絡

基于對比學習樣本,設計了U - B、M - N對比嵌入網(wǎng)絡來表示用戶和書籍,并定義了關系密度函數(shù)來計算每個樣本對的相關性。

2.2.1U - B對比嵌入網(wǎng)絡

為了對用戶-圖書交互矩陣進行建模,從由參數(shù)矩陣定義的查找表中獲取對應的id 嵌入(如eu,eb):

然后,通過一個共享的CF 編碼器來學習用戶-圖書的協(xié)作嵌入(見圖2),可以通過各種模型來實現(xiàn),例如基于MF[15-17]模型、基于圖神經(jīng)網(wǎng)絡[18-20]模型等。 在此項工作中,運用了簡單且有效的實現(xiàn)方法,基于LightGCN[18]和MF[16],將其表述為:

其中,ε是將id嵌入(eb,eu) 作為輸入的CF編碼器;Nu表示用戶u已經(jīng)購買的圖書集合;Nb表示與圖書b進行過交互的用戶集合。 在獲得了用戶-圖書對(即zu和zb)的協(xié)作嵌入后,定義了關系密度函數(shù)p(zu,zb) 來衡量其相關性:

其中,τ為溫度系數(shù)[1],用內積來計算相關性,將其他非負函數(shù)的探索留在未來的工作中。

2.2.2M - N對比嵌入網(wǎng)絡

此嵌入網(wǎng)絡用于對圖書協(xié)作信號和內容信息兩個方面之間的相關性進行評分。M - N部分框架如圖3 所示,即由2 塊區(qū)域構成:分別對圖書的特征表示和協(xié)同嵌入進行建模。 其中,協(xié)同嵌入的方式與2.2.1 節(jié)U - B對比嵌入網(wǎng)絡中的方法相同。

圖3 M-N 部分框架Fig. 3 M-N part frame

為了表示圖書的內容信息,應用了一個預先訓練好的深度學習模型進行特征提?。?1],獲得M - N對比對中圖書c的特征向量xc,再運用多層感知器進行特征編碼獲得hc:

其中,W(.)表示編碼器的可訓練矩陣;b(.)表示編碼器的偏置向量;hc是圖書的期望特征表示,提取了內容特征且最大限度地保留了與協(xié)作信號相關的信息。 在這種特征表示下,可以計算用戶和冷啟動項目之間的相關性。

在通過上述方法獲得hc與zb后,使用以下關系密度函數(shù)對其相關性進行評分:

20世紀以來,現(xiàn)代科學研究逐漸呈現(xiàn)出學科高度綜合化的特征,跨學科研究已經(jīng)演變成為科學研究實踐的重要形式之一[6]。創(chuàng)業(yè)研究也不例外,由此我們可以判別每篇跨學科研究文獻涉及的學科領域,圖中節(jié)點大小反映的是該節(jié)點所代表的學科發(fā)文量的多少,節(jié)點之間的連線反映了節(jié)點共現(xiàn)關系,也即是說明具有共現(xiàn)關系的這些節(jié)點所代表的學科在同一篇文獻中出現(xiàn),這篇文獻進行了相應的跨學科研究。統(tǒng)計發(fā)現(xiàn),160種學科共產(chǎn)生了5147種學科共現(xiàn)關系。

為了保持內容信息的完整,可將向量進行歸一化處理,測量單位空間中的比值。

2.3 最終目標函數(shù)

為了使交互信息最大化,運用對比學習的方法來優(yōu)化模型的參數(shù),結合定義的關系密度函數(shù),得到最終的目標函數(shù):

3 實驗與結果

在本節(jié)中,首先介紹了用于本次實驗的數(shù)據(jù)集,并描述了實驗設計。 然后,為了評估本文提出對比學習冷啟動推薦框架的準確性,將提出的方法與熱啟動、冷啟動和所有項目的真實數(shù)據(jù)中的樣本進行了比較,得到了最終的實驗結果。

3.1 實驗設置

3.1.1 數(shù)據(jù)集

為了評估本文提出“圖書冷啟動推薦系統(tǒng)”的有效性,分別在2 個真實的數(shù)據(jù)集中進行了廣泛的實驗,包括由弗萊堡大學Cai-Nicolas Ziegler 發(fā)布的Book-Crossing Dataset 和由Amazon product 中提供的一些用戶—圖書的購買數(shù)據(jù),信息見表1。

表1 數(shù)據(jù)集摘要Tab. 1 Data set summary

對于每個數(shù)據(jù)集,隨機抽取了一些圖書作為冷啟動項目,并按照1 ∶1 的比例分為冷啟動條件下的驗證集和測試集。 此外,將其他的圖書交互數(shù)據(jù)按照8 ∶1 ∶1 的比例分為訓練集、熱啟動驗證集、熱啟動測試集。 結合所有的驗證集對目標函數(shù)的超參數(shù)進行優(yōu)化,并通過測試集對最終模型的性能進行評估。

3.1.2 對比參照

(1)DropoutNet[22]。 該方法改變了模型訓練方式,在訓練過程中加入了dropout 的機制,使得模型不過度依賴ID embedding,而是其他內容特征。 從而減小了不好的ID embedding 的影響。

(2)Heater[23]。 該方法使用誤差平方和損失(SSE) 來對內容信息中的協(xié)作嵌入進行建模,同時利用隨機訓練的方法來提升有效性。

(3)DUIF[24]。 與基于CF 的模型不同,這種方法在不對CF 信號建模的情況下學習用戶對項目特征的應用,從根本上避免了冷啟動問題。

(4)MF-BPR[17]。 該方法根據(jù)過去的交互學習潛在向量(即協(xié)作嵌入)來表示用戶和項目,并通過測量所學習的表示之間的相似性來預測其相似性。

(5)LightGCN[18]。 基于圖卷積網(wǎng)絡[25-26],學習高階CF 信號,并將其注入到協(xié)作嵌入中,優(yōu)化推薦。

3.1.3 度量標準

分別對2 個數(shù)據(jù)集中的熱啟動項、冷啟動項和所有項目(熱啟動項與冷啟動項相結合)進行評估,采用廣泛應用于推薦系統(tǒng)領域的評價指標:召回率(recall@K) 以及歸一化折損累計增益(NDCG@K)。 默認情況下,設置K =10。

3.1.4 參數(shù)設置

為了公平起見,將所有模型的協(xié)同嵌入維數(shù)設置為64。 在超參數(shù)方面,使用網(wǎng)格搜索的方法[27-28]:學習率在{0.000 1,0.001,0.01,0.1} 中調整,正則化權重在{0.000 1,0.001,0.1} 中搜索。此外,采用提前停止策略[27],如果在驗證集上連續(xù)10 次迭代recall@10 沒有增加,則停止訓練。

3.2 結論

3.2.1 關于目標函數(shù)的性能比較

在本文中,提出了一個基于對學習方法的目標函數(shù),并運用了一個具有靈活編碼器的通用框架。為了證明目標函數(shù)的合理性,將配備了基于MF和基于GCN的CF編碼器(CENMF和CENGCN)與MF - BPR和LightGCN進行比較,通過BPR損失函數(shù)進行優(yōu)化。 分析實驗結果見表2、表3,得到結論為:

CENMF和CENGCN無論在冷啟動、還是熱啟動情況下均顯著優(yōu)于MF - BPR和LightGCN,因此本文所提出的目標函數(shù)能夠有效地對協(xié)作嵌入進行建模,并提取與協(xié)作信號相關的特征。

3.2.2 關于冷啟動的建議

分析實驗結果,得到以下結論:

分析表3,在recall@10 和NDCG@10 的結果中,對于訓練集中未出現(xiàn)過的圖書(即冷啟動項目),DUIF的性能大大優(yōu)于其他方法。 因為基于內容的模型中,用戶是通過細化其交互的圖書特征來表示的,這些特征通過與未觀察到的圖書相關聯(lián),因此是合理的。 然而在基于內容過濾的模型中,用戶的協(xié)作嵌入和圖書的特征表示之間存在差距。

通過分析表2 的結果,可以發(fā)現(xiàn)針對冷啟動設計的方法(DropoutNET、Heater)在冷啟動的場景中優(yōu)于MF - BPR和LightGCN,這些方法均從圖書特征中捕捉到了協(xié)作信號,有助于預測用戶與冷啟動圖書之間的交互。

本文提出的圖書冷啟動推薦框架在所有情況下(冷啟動、 熱啟動、 冷啟動與熱啟動相結合)recall@10 和NDCG@10 均是優(yōu)于上述最強性能的。 其中,recall@10 在2 個數(shù)據(jù)集上比最強基線分別提高了109.72%、58.21%,NDCG@10 分別比基線提高了51.25%、115.29%。 可以歸因于以下2個方面:

(1)具有U - B對比學習方法的圖書冷啟動推薦框架有助于協(xié)同嵌入的建模。

(2)M - N互信息保留了更多與協(xié)作信號相關信息的特征表示。

3.3 深入分析

為了進一步探索本文提出的方法如何優(yōu)化推薦,還進行了額外的實驗來研究訓練過程的梯度幅度。 不同數(shù)量的對比負對中測試所提出的方法,并計算等式中的梯度幅度。 記錄了每個時期的梯度幅度狀態(tài),并在圖4 中展示了在Book-Crossing 數(shù)據(jù)集Recall@10 的相關學習曲線。

圖4 在Book-Crossing 數(shù)據(jù)集Recall@10 的相關學習曲線Fig. 4 Related learning curve in the Book-Crossing dataset Recall@10

通過分析平均梯度和性能,研究發(fā)現(xiàn)本文提出的方法比MF-BPR 獲得了更大的梯度幅度,性能也隨著負對的增加而提高。

4 結束語

本文專注于圖書冷啟動推薦問題,在對比學習的基礎上制定了一個新的目標函數(shù)來最大化U - B和M - N兩種互信息,從而進一步設計了一個由對比對、對比嵌入網(wǎng)絡、對比優(yōu)化三部分組成的冷啟動推薦框架。 本文在2 個數(shù)據(jù)集上進行了廣泛的實驗,實驗結果驗證了方法的有效性,無論在冷啟動、還是暖啟動方面推薦準確度均有較大的提升。 該方法不僅提供了一種解決冷啟動的方法,也在運用對比學習解決冷啟動的方向上帶來了一定的啟發(fā)。 此外,未來會進一步研究互信息最大化在其它領域的有效應用。

猜你喜歡
冷啟動協(xié)作框架
輕型汽油車實際行駛排放試驗中冷啟動排放的評估
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
框架
基于學習興趣的冷啟動推薦模型
廣義框架的不相交性
團結協(xié)作成功易
協(xié)作
WTO框架下
協(xié)作
一種基于OpenStack的云應用開發(fā)框架