国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識感知采樣的神經協同過濾

2022-07-14 09:01:24鐘裔靈
電視技術 2022年6期
關鍵詞:正例采樣器損失

鐘裔靈,朵 琳

(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)

0 引言

作為緩解信息過載的有效手段,推薦系統在電商、音樂及短視頻等領域得到了廣泛應用。傳統的推薦方法包括基于協同過濾的推薦、基于內容的推薦以及混合推薦方法?;趨f同過濾的推薦利用用戶對項目的評分數據,通過相似度計算或建模的方式來進行推薦。由于依賴于評分數據,往往存在數據稀疏和冷啟動問題?;趦热莸耐扑]利用用戶生成內容(評論、標簽等),通過計算內容相似度來進行推薦。由于未使用評分數據,所以不存在數據稀疏的問題,但依舊存在新用戶冷啟動的問題。目前,對于推薦系統的研究主要致力于如何使用不同的數據進行混合推薦,來緩解數據稀疏和冷啟動問題,以提高推薦的準確性。通過使用深度學習模型代替?zhèn)鹘y的簡單模型,提供非線性建模能力和有效的內容特征提取能力,往往能獲得更好的推薦性能。然而,這些研究大多忽略了自然噪聲的影響。

用戶與項目沒有發(fā)生交互行為(用戶對項目的點擊、瀏覽、收藏等行為),存在兩種可能:一種可能是用戶知道但不喜歡該項目,另一種可能是用戶不知道該項目的存在。這種項目的曝光偏差使得數據無法完全表達用戶的真實想法,為推薦模型的訓練引入了自然噪聲,影響了推薦的準確性。大多數的研究工作通過執(zhí)行負采樣來緩解這個問題。隨機采樣[1]是按照一定的采樣比從沒有觀察到交互行為的項目中隨機均勻地進行采樣。基于項目流行度的采樣[2]是根據項目的流行度來進行隨機非均勻地采樣。這種隨機的采樣策略,可能把用戶知道但不喜歡的項目篩選出來,而排除了用戶不知道但可能喜歡的項目。雖然執(zhí)行了負采樣,但對推薦性能的提升非常有限。一些研究者利用其他的輔助數據來改進采樣器,如查看但未點擊和點擊但未購買[3]的數據。但由于這類數據規(guī)模有限,對推薦性能的提升效果不佳,甚至比上述隨機的采樣策略效果更差。有研究者利用采樣器和推薦器之間的對抗訓練[4]來獲取高質量的負樣本,在參數優(yōu)化上表現出比隨機采樣更好的性能,但該方法的缺陷在于可能把正例誤認為是高質量的負例。

基于知識圖譜的負采樣策略[5]利用項目與項目之間共同的知識實體,尋找高質量的負例來與正例匹配,從而提升推薦模型的性能。該方法能夠有效緩解誤采樣問題,通過確保采樣負例的真實性,從而提高推薦的準確性,獲得了比上述方法更好的性能表現。但是,為了減小算法的時間復雜度,該方法在確定候選負例集后,選擇了候選負例集中的最后一個元素作為負例來優(yōu)化推薦模型。然而,最后一個候選負例并不一定是最佳負例,通過改進采樣策略,可以進一步提升推薦性能。為了簡化整個模型,該方法使用了推薦領域最為經典和簡單的矩陣分解模型作為推薦器。然而,簡單的線性建模無法有效地擬合用戶與項目之間復雜的交互關系,通過使用更加優(yōu)秀的推薦模型作為推薦器,可以進一步提升推薦質量。此外,僅采樣一個負例與正例匹配,通過成對損失來優(yōu)化推薦模型,這種固定的采樣比也限制了推薦模型的性能。

本文的研究工作圍繞基于知識圖譜的負采樣策略展開,從3 個方面對該方法做了改進。

(1)設計了一個獎勵函數,對候選負例集中的元素評分,根據評分高低選擇與正例匹配的最佳負例,然后通過最大化累積獎勵函數期望來優(yōu)化采樣器。目的是尋找更真實的負例來訓練推薦器,提升推薦性能。

(2)使用神經協同過濾作為推薦器,以取代矩陣分解模型。神經協同過濾是一個雙通道推薦模型,一個通道在矩陣分解的基礎上引入邏輯函數作為激活函數,將輸出結果限制在[0,1]的范圍內,賦予了模型概率學解釋。另一個通道利用多層感知機學習用戶和項目之間復雜的交互關系,代替了矩陣分解中的內積,提高了非線性建模能力。通過線性與非線性的結合,獲得了比矩陣分解更好的推薦性能。

(3)為了能靈活地控制采樣比,用逐點損失代替成對損失來優(yōu)化推薦器,以獲得更好的推薦性能。在真實數據集上進行了廣泛實驗,以驗證所提方法的有效性。

1 推薦框架

本文提出一種新的推薦框架——基于知識感知采樣的神經協同過濾(Neural Collaborative Filtering Based on Knowledge-Aware Sampling,NCFKAS),框架包括一個推薦器和一個采樣器。總體而言,采樣器負責尋找高質量的負例作為訓練數據,推薦器負責訓練推薦模型,同時將預測分數反饋給采樣器作為獎勵來強化學習。

1.1 推薦器

推薦器的任務是利用用戶正例和采樣得到的負例來訓練推薦模型。文獻[5]使用的是矩陣分解模型,該模型用用戶潛在特征向量和項目潛在特征向量的內積來表示用戶與項目之間的交互關系。由于矩陣分解模型屬于線性建模,而線性建模無法擬合用戶與項目之間的非線性交互關系。于是,本文采用神經協同過濾作為推薦器。

神經協同過濾是一個雙通道推薦模型。一個通道是廣義矩陣分解(Generalized Matrix Factorization,GMF),在矩陣分解的基礎上增加一個邏輯函數作為激活函數,將輸出限制在[0,1]的范圍內,賦予了模型概率學解釋。具體公式如下:

式中:pu,qi分別是用戶和項目潛在特征向量,hT是連接權重,aout是激活函數,為邏輯函數。

另一個通道是多層感知機(Multilayer Perceptron,MLP),低層的輸出作為高層的輸入,任務是學習一個復雜的非線性函數來擬合用戶與項目之間的交互關系,具體公式如下:

式中:Wx,ax,bx分別是x層感知機的權重矩陣、激活函數、偏置向量,σ也是激活函數,這里的激活函數統一使用ReLU。

神經協同過濾的最終輸出為:

通過線性與非線性的結合,神經協同過濾極大地提升了推薦的性能。

文獻[5]采用成對損失優(yōu)化推薦模型,該方法存在的缺陷在于僅采樣一個負例與正例匹配,無法靈活地控制采樣比來進一步提升推薦性能。于是,本文通過最小化逐點損失來優(yōu)化推薦模型,損失函數如下:

1.2 采樣器

1.2.1 構建知識圖譜

本文利用用戶對項目的隱式反饋和項目的知識信息來構建知識圖譜。圖譜中的每一個節(jié)點e代表一個用戶u、項目i或知識實體k,圖譜中的每一條邊代表用戶u與項目i存在交互行為或項目i具有某個知識實體k。利用多個圖卷積層來更新每個節(jié)點e的表示形式,在第l個圖卷積層中,以節(jié)點e為起始節(jié)點接收其相鄰節(jié)點的信息并更新其向量表示。更新公式如下:

1.2.2 知識感知采樣

將知識圖譜作為采樣環(huán)境,將采樣作為馬爾科夫決策過程M={S,A,P,R},其中S={s}是探索狀態(tài),A={a}是探索動作,P是狀態(tài)轉移矩陣,R是獎勵函數。在第t步探索操作中,st=(u,et)表示用戶u當前的狀態(tài),即用戶u訪問節(jié)點et。at=(et→→et+1)表示從項目et經過知識實體到達項目et+1的兩跳路徑。給定狀態(tài)st下的動作at,則向st+1的狀態(tài)轉移為:p(st+1=(u,et+1)|st=(u,et),at=(et→→et+1))=1。探索過程可以形式化為{s0,a1,s1,…,at,st},其中s0=(u,i)表示用戶u的初始狀態(tài)。

經過t次探索操作之后,確定了一個候選負例集C={e1,e1,…,et},其中et表示第t個探索操作找到的候選負例。原來的采樣策略[5]將最后一個探索操作找到的候選負例作為正式負例,然而,最后一個候選負例并不一定是最佳負例。有的正例經過一個探索操作就找到了最佳負例,有的負例經過多個探索操作才能找到最佳負例。由于并沒有相關的理論依據來證明哪一個候選負例就是最佳負例,為了確保采樣的真實性,進一步提升推薦的準確性,本文設計了一個獎勵函數,來評價每一個候選負例的質量。獎勵函數如下:

式中:R(e?)表示候選負例e?的得分,f(u,j)表示用戶u對負例j的預測評分,g(i,j)表示正例i和負例j的相似度。

預測評分的計算公式如下:

相似度的計算公式如下:

式中:n(i),n(j)分別表示項目i,j具有的知識實體數量,n(i∩j)表示項目i,j同時具有的知識實體數量。

預測評分衡量了用戶與負例之間的匹配度。預測評分越高,用戶與負例的匹配度就越高。質量越高的負例促使推薦模型為其產生更高的預測評分。通過這樣一種反饋機制,來衡量負例的質量。相似度衡量了正例與負例之間的匹配度,相似度越高,正例與負例的匹配度就越高。類似于基于項目的協同過濾推薦,為目標用戶推薦偏好項目的相似項目。

此外,考慮到僅選取得分最高的一個候選負例作為正式負例來優(yōu)化推薦模型,不符合一個正例存在多個負例的實際情況,制約了推薦性能的發(fā)揮,因此,本文允許選擇得分最高的n個候選負例作為正式負例,來與正例匹配,用逐點損失代替原來的成對損失來優(yōu)化推薦模型,并評估n對推薦性能的影響。通過最大化累積獎勵函數期望,來優(yōu)化采樣器參數Θs,如下:

2 實 驗

2.1 實驗設置

2.1.1 數據集描述

本文利用網上公開的Amazon-book 數據集來進行NCF-KAS 算法的驗證實驗。Amazon-book 是亞馬遜電商平臺上關于書籍的電商數據,其中包含了70 679 個用戶對24 985 個項目的847 733 條交互數據。使用的用戶輔助信息為年齡、性別、職業(yè)等,項目輔助信息為作者、類別、出版社等。

2.1.2 基準線

由于文獻[5]已經通過大量實驗證明了其方法的優(yōu)越性,而本文的研究工作是針對該方法在采樣器、推薦器、損失函數三方面的改進,因此本文采用控制變量的原則來進行對比實驗。即在推薦器、損失函數相同的情況下,僅對比不同采樣器下的推薦性能,以此類推,以驗證本文所提的每一處改進都有其意義。參與對比的采樣器為知識圖譜策略網絡[5](KGpolicy)和知識感知采樣(KAS),參與對比的推薦器為矩陣分解[5](MF)和神經協同過濾(NCF),參與對比的損失函數為成對損失[5](BPR)和逐點損失(CEL)。

2.1.3 性能指標

評價推薦質量的性能指標為召回率(recall@K)和歸一化折扣累積增益(ndcg@K)。在沒有特別說明的情況下,本文將K設置為10。對于測試集中的每一個用戶,觀察所有的正例項目,并評估推薦器在整個項目空間中對正例項目進行排名的性能,報告每個測試集中所有用戶的平均指標。

2.1.4 參數設置

將所有推薦器和采樣器的嵌入大小固定為64,用Adam 來優(yōu)化模型,使用Xavier 初始化采樣器參數。本文使用經過預訓練的MF 和NCF 來與采樣器匹配,從而加速模型訓練。對于超參數,本文進行網格搜索以找到每個模型的最佳設置,根據搜索推薦器和采樣器的學習率,以L2 正則系數搜索;用兩個圖卷積層來進行圖形學習,即式(8)、式(9)中的l=2。將負例的個數n設置為1 到10 的整數,并在3.2.3 節(jié)報告其性能。

2.2 性能比較

2.2.1 知識圖譜策略網絡與知識感知采樣的性能對比

在這組實驗中,統一使用神經協同過濾作為推薦器,用逐點損失作為損失函數,比較了在知識圖譜策略網絡、知識感知采樣下的推薦性能。記錄了在數據集上獲得的最佳性能,如表2 所示。

表1 不同采樣策略對比

實驗結果表明,本文提出的知識感知采樣相比于原來的知識圖譜策略網絡,在數據集上的所有性能指標都有明顯提升。對于Amazon-book 數據集,recall@10 提升了3.47%,ndcg@10 提升了4.52%。本文將這種改進歸因于以下兩個方面:

(1)通過利用知識圖譜中項目與知識實體間豐富的關系,特別是高階連通性,使得知識感知采樣能有效地避免誤采樣問題,從而找到更高質量的負例;

(2)通過獎勵函數對候選負例的進一步篩選,使得負例與正例在內容和評分兩個方面都具有較高的相似度,為推薦器的訓練提供了較大的梯度貢獻。

總體而言,實驗驗證了本文所提的采樣策略對于提升推薦性能的有效性。

2.2.2 矩陣分解與神經協同過濾的性能對比

在這組實驗中,統一使用知識感知采樣作為采樣器,用逐點損失作為損失函數,比較了在矩陣分解和神經協同過濾下的推薦性能。記錄了在數據集上獲得的最佳性能,如表2 所示。

表2 不同推薦策略對比

實驗結果表明,神經協同過濾相比于矩陣分解,在數據集上的所有性能指標都有明顯提升。對于Amazon-book 數據集,recall@10 提升了2.31%,ndcg@10 提升了3.13%。本文將這種改進歸因于以下兩個方面:

(1)非線性建模比線性建模更有效地擬合用戶與項目之間復雜的交互關系;

(2)神經協同過濾通過線性與非線性的結合,進一步提升了推薦性能。

總體而言,實驗驗證了本文使用神經協同過濾作為推薦器對于提升推薦性能的有效性。

2.2.3 成對損失與逐點損失的性能對比

在這組實驗中,統一使用知識感知采樣作為采樣器,神經協同過濾作為推薦器,比較了在成對損失和逐點損失下的推薦性能。記錄了負例數從1 到10 的推薦性能,實驗結果如圖1 所示。

圖1 不同損失函數對比

實驗結果表明,在所有性能指標上,逐點損失在優(yōu)化推薦模型上表現出比成對損失更好的性能。本文將這種改進歸因于以下兩個方面:

(1)成對損失利用一個正例與一個負例匹配來優(yōu)化推薦器,這種固定的采樣比限制了推薦性能的發(fā)揮;

(2)逐點損失可以靈活地控制采樣比,更加符合一個正例對應多個負例的真實情況,從而提升推薦性能。

此外注意到,Amazon-book 數據集在4 個負例的情況下達到最佳性能。這就意味著,采樣比并不是越大越好。達到最佳性能后,繼續(xù)增大采樣比,將導致推薦性能下降,這是由于后面的采樣引入了低價值的負例??傮w而言,實驗驗證了本文利用逐點損失作為損失函數對于提升推薦性能的有效性。

3 結語

本文提出了一種新的推薦框架——基于知識感知采樣的神經協同過濾。在知識圖譜策略網絡的基礎之上,對采樣器、推薦器、損失函數做了改進:設計了一個獎勵函數來衡量候選負例的質量,從而更有效地獲取高質量的負例;使用神經協同過濾作為推薦器,通過結合線性建模和非線性建模來提升推薦性能;利用逐點損失作為損失函數,突破了成對損失的固定采樣比對于推薦性能的限制。在三個真實數據集上的廣泛實驗驗證了所提方法的有效性。

基于深度學習的推薦方法不僅能夠挖掘用戶和項目深層次本質特征,還能有效融合多源異構數據。在后續(xù)的工作中,將嘗試引入其他輔助信息,如用戶評論、時間信息等,以進一步提升推薦質量。另外,對于用戶而言,實時性可能是比準確性更加重要的性能指標,為此,將進一步探索實現實時推薦的方法。

猜你喜歡
正例采樣器損失
小學生舉例表現與概念理解的相關性研究
少問一句,損失千金
胖胖損失了多少元
粉塵采樣器檢定和校準證書中不確定度區(qū)別
基于概念形成的教學研究
玉米抽穗前倒伏怎么辦?怎么減少損失?
高中數學概率教學中的誤區(qū)與應對策略分析
一般自由碰撞的最大動能損失
PM2.5小流量采樣器數據采集與導出系統優(yōu)化研究
機械工程師(2015年9期)2015-02-26 08:38:20
基于VB的PM2.5采樣器數據處理軟件的研究
機械工程師(2015年9期)2015-02-26 08:38:15
米林县| 南靖县| 安丘市| 垫江县| 郯城县| 常州市| 苗栗县| 囊谦县| 恩平市| 栾城县| 永春县| 施秉县| 芷江| 宾阳县| 景宁| 乌拉特中旗| 车致| 镶黄旗| 乐陵市| 炎陵县| 绩溪县| 彩票| 甘孜| 长顺县| 于田县| 且末县| 册亨县| 淅川县| 巴彦淖尔市| 邯郸市| 镇安县| 封丘县| 玉田县| 丹江口市| 磴口县| 平顶山市| 山东| 安国市| 东乌珠穆沁旗| 景德镇市| 海南省|