国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合用戶興趣度的基于自注意力的序列推薦模型

2022-03-15 00:39:56貝天石成衛(wèi)青
關(guān)鍵詞:正則間隔注意力

貝天石,成衛(wèi)青

(南京郵電大學(xué)計算機學(xué)院,江蘇 南京 210023)

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)上的資源信息呈爆炸式的增長。雖滿足了人們對信息的需求,但同時也增加了選擇的困難性。此時推薦技術(shù)成為有效解決這個問題的方法之一。目前電子商務(wù)、視頻、新聞等網(wǎng)站都需要推薦技術(shù),它們一般會對用戶行為進(jìn)行建模,挖掘用戶背后的交互行為進(jìn)行推薦。挖掘用戶交互歷史行為的推薦可以分為時間推薦[1-3]和序列推薦。

時間推薦建模的是絕對時間戳,它可以捕獲用戶和項目的時間動態(tài)。例如在一個用戶歷史物品點擊列表中,物品流行度會隨著時間的推移不斷下降,用戶對物品的興趣也會隨時間推移而動態(tài)地減少,因而如果把時間因素建模到推薦模型中,則可以獲得更好的推薦性能。序列推薦是按照交互的時間戳對項目進(jìn)行排序,在順序模式下預(yù)測下一個可能性大的交互項目。傳統(tǒng)的馬爾科夫鏈[4-6]假設(shè)下一個動作只取決于前一個(或者前幾項)動作,并被成功應(yīng)用到短期項目的推薦。在高度稀疏的情況下,通過做出合理的簡化假設(shè)而表現(xiàn)得非常好,但隨著模型變得復(fù)雜則可能會無法準(zhǔn)確捕獲動態(tài),從而效果變差。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)也被用于序列推薦[7-9],擁有較好的推薦性能,但它需要大量的數(shù)據(jù)(特別是密集的數(shù)據(jù))。為了解決馬爾科夫鏈模型和遞歸神經(jīng)網(wǎng)絡(luò)模型的不足,受到機器翻譯中Transformer[10]模型的啟發(fā),Kang 等[11]提出將自注意力機制應(yīng)用于序列推薦問題,實驗結(jié)果顯示基于自注意力機制的模型優(yōu)于最新的基于馬爾科夫鏈和遞歸神經(jīng)網(wǎng)絡(luò)的序列推薦方法。Li等[12]認(rèn)為常規(guī)的序列推薦模型對項目的處理方式是將項目按照時間排序,排序完便丟棄了時間戳。隱含意思是序列中所有相鄰的項目之間的時間間隔是一致的,對預(yù)測下一項產(chǎn)生的影響則只有前一項的位置和標(biāo)識,但實際上最近的且時間間隔較小項一般會對推薦的結(jié)果影響較大。Li等經(jīng)過試驗驗證發(fā)現(xiàn)利用時間戳得到時間間隔,用它來建模序列中項的關(guān)系得到的結(jié)果是優(yōu)于丟棄了時間戳的模型的。

由于用戶的興趣度是隨時間遷移動態(tài)變化的,若用戶在一段時間內(nèi)對項目的興趣度沒有發(fā)生較大變化,即整體偏好是相對一致的;若發(fā)生較大變化,則整體偏好和局部偏好存在較大差異。因此把用戶整體和局部偏好納入到序列建模中也是非常有必要的。隨之帶來一個問題,大量嵌入可能會導(dǎo)致過度匹配。例如在深度學(xué)習(xí)中,若模型中參數(shù)比數(shù)據(jù)量多會導(dǎo)致過度訓(xùn)練數(shù)據(jù),比如對于復(fù)雜模型SASRec,當(dāng)數(shù)據(jù)集是Ml?1m時會產(chǎn)生多個自注意力塊和大量的參數(shù)層[11]。盡管目前存在許多正則化技術(shù),但當(dāng)面對這些海量數(shù)據(jù)和復(fù)雜模型時,原有技術(shù)處理后結(jié)果可能并不是最優(yōu)的。Wu等[13]提出一種稱為隨機共享嵌入(Stochastic Shared Embedding,SSE)的正則化技術(shù),可以進(jìn)一步優(yōu)化這個問題,它基于數(shù)據(jù)驅(qū)動的方法規(guī)范嵌入層,在 Stochastic Gradient Descent(SGD)期間隨機替換另一個嵌入層內(nèi)容。

對上述的問題,本文認(rèn)為用戶交互序列可以被建模成考慮整體偏好和局部偏好且擁有不同時間間隔的序列。既能考慮數(shù)據(jù)高度密集和稀疏的情況,也能將用戶興趣隨時間遷移而發(fā)生變化的因素考慮進(jìn)去,增強推薦效果。因此本文將自注意力機制分為學(xué)習(xí)整體偏好和局部偏好兩部分,通過一致性感知門控網(wǎng)絡(luò)分配不同的權(quán)重進(jìn)行結(jié)合來預(yù)測,最后提出了融合用戶對項目的整體和局部興趣度的基于時間間隔自注意力的序列推薦模型(TiSeqRec)。該模型考慮項目的絕對位置(按照時間戳的順序排序),同時也考慮了任意兩個項目的相對時間間隔,并且加入隨機共享嵌入的正則化技術(shù)。實驗結(jié)果表明,本文模型在稀疏和稠密的數(shù)據(jù)集上都優(yōu)于最先進(jìn)的算法。本文的貢獻(xiàn)總結(jié)如下:

(1)在將不同時間間隔建模為用戶的任意兩個交互之間的關(guān)系的基礎(chǔ)上,引入學(xué)習(xí)整體偏好和局部偏好的時間間隔自注意力模型,以適應(yīng)用戶興趣可能隨時間遷移而動態(tài)變化的情況;

(2)通過一致性感知門控網(wǎng)絡(luò)智能分配權(quán)重來融合整體偏好和局部偏好模型,以優(yōu)化項目預(yù)測結(jié)果;

(3)由于大量嵌入會導(dǎo)致匹配過度,為了進(jìn)一步減少過擬合,減少訓(xùn)練和測試時的誤差,加入隨機共享嵌入正則化技術(shù)以達(dá)到更好的推薦效果;

(4)在控制變量不變的情況下進(jìn)行消融研究,探究模型中不同組件對TiSeqRec性能的影響,證明在NDCG@10和Hit@10兩個排名指標(biāo)方面優(yōu)于最先進(jìn)的基線。

1 相關(guān)工作

1.1 序列推薦

序列推薦目的是將用戶的連續(xù)行為、用戶偏好、物品流行度以及用戶和項目之間的交互動作進(jìn)行建模,為用戶定制化出推薦內(nèi)容。傳統(tǒng)的序列推薦典型代表是基于馬爾科夫鏈[4-6]的推薦,對用戶?項目的交互轉(zhuǎn)換進(jìn)行建模來預(yù)測下一次交互。隱式的序列推薦是學(xué)習(xí)每個用戶和商品的潛在表示,使用學(xué)習(xí)得到的表示來預(yù)測接下來的用戶商品交互。典型代表是基于因子分解機[14]的序列推薦,通常利用矩陣分解或張量分解將觀察到的用戶?項目交互分解為用戶和項目的潛在因子;還有基于RNN的推薦,對整個用戶序列進(jìn)行建模[8-9]。這些方法在密集數(shù)據(jù)集上表現(xiàn)良好,但在稀疏數(shù)據(jù)集上表現(xiàn)較差。

1.2 注意力機制

注意力機制最早是在視覺圖像領(lǐng)域提出的,在文獻(xiàn)[15]中對RNN模型使用注意力機制來進(jìn)行圖像分類,隨后又將注意力機制用到神經(jīng)網(wǎng)絡(luò)機器翻譯任務(wù)中[16]。如今注意力機制已被證明在多種任務(wù)中是有效的,通常注意力機制背后的理念是輸出依賴于相關(guān)輸入的特定部分,這樣的機制可以計算輸入的權(quán)重使模型更具可解釋性。Google機器翻譯大量使用自注意力機制來學(xué)習(xí)文本表示,2017年Google機器翻譯研究團(tuán)隊提出的Transformer模型是一種純粹基于注意力的序列到序列的方法[10]。Transformer中注意力機制被定義為

Transformer的自注意力模塊已經(jīng)被應(yīng)用在推薦系統(tǒng)[11]里面,并取得了顯著的效果。其中自注意力模塊是不含任何循環(huán)或者卷積模塊的,這將導(dǎo)致不知道前面項目位置的情況。一種解決方法是在輸入時添加位置編碼,可以是確定性的函數(shù)或者可學(xué)習(xí)的位置嵌入[10]。另一種解決方法是相對位置表示,將兩個輸入元素之間的相對位置建模為成對關(guān)系[17]。由于用戶整體偏好和局部偏好也會隨時間變化而產(chǎn)生動態(tài)差異,因此要把這種差異性考慮進(jìn)去,所以本文將絕對位置和相對位置結(jié)合起來,設(shè)計融合用戶興趣度變化的時間間隔自注意力機制序列推薦,將物品序列的絕對位置和相對時間間隔建模。

1.3 正則化技術(shù)

正則化技術(shù)指的是在模型中引入一些約束,在一定程度上限制模型的擬合能力,減緩收斂速度,從而緩解過擬合現(xiàn)象的方法。常見的正則化技術(shù)包括L1、L2 正則化[18]和 Dropout[19]等。L2 正則化技術(shù)是被使用最為廣泛的,被大量使用在矩陣分解模型中,L1是當(dāng)數(shù)據(jù)集稀疏時使用,其中Dropout是在實際中最有效的。2012年文獻(xiàn)[19]首次提出Dropout,在每一步的訓(xùn)練中,所有神經(jīng)單元是存在一定概率被忽略的。每一步訓(xùn)練都有一部分單元缺失,使得每個單元都有機會在本次訓(xùn)練中具備一定的重要性,從而使得各個單元可以更好地訓(xùn)練,整個網(wǎng)絡(luò)在工作中更具有彈性。Wu等[13]提出的SSE正則化技術(shù)是基于數(shù)據(jù)驅(qū)動的且它本質(zhì)上也是隨機的,這使得模型也可以達(dá)到類似于使用Dropout的結(jié)果。

2 TiSeqRec模型設(shè)計

本節(jié)提出融合用戶對項目的整體和局部興趣度的基于時間間隔自注意力的序列推薦模型(TiSeqRec),其簡化框架如圖1所示,模型包含輸入、嵌入層、時間感知整體?局部自注意力層、一致性門控網(wǎng)絡(luò)和預(yù)測層。

圖1 簡化的模型框架圖

2.1 問題描述

2.2 嵌入層

其中兩個相對時間間隔嵌入矩陣都是對角矩陣且主對角上的元素都是零。

2.3 基于時間間隔感知的整體?局部自注意力模型

文獻(xiàn)[12]使用用戶序列中項的時間間隔和絕對位置進(jìn)行建模,存在這樣一個問題,若用戶興趣度在一段時間內(nèi)發(fā)生了變化,僅考慮時間間隔和絕對位置則無法準(zhǔn)確判斷下一個興趣點可能是什么。因此也要考慮用戶的興趣度隨時間動態(tài)變化的情況。受用戶生成項目一致性推薦[20]的啟發(fā),本文將原先的時間間隔感知模型細(xì)分為用戶整體偏好和局部偏好兩個模型。

由于整體偏好模型和局部偏好模型是基于自注意力層的,本文利用注意力網(wǎng)絡(luò)[10]來聚合,注意力網(wǎng)絡(luò)定義為

式中,aij為權(quán)重系數(shù),qj表示查詢 Query,kj表示鍵Keys,vj表示值 Values。

2.4 一致性感知門控網(wǎng)絡(luò)

整體偏好模型是為用戶興趣度高度一致的序列設(shè)計的,而局部偏好模型是為用戶興趣度關(guān)聯(lián)不是很大的序列設(shè)計的。由于用戶興趣度的不同,對應(yīng)序列經(jīng)過整體和局部這兩個模型處理后得到的結(jié)果也是不同的。因此最后問題歸結(jié)于如何處理序列結(jié)果的異質(zhì)性,其中一個常規(guī)方法是考慮序列一致性的程度。

若序列整體偏好變化不是很大,序列本身就已經(jīng)包含大量信息,可以用一個自注意力網(wǎng)絡(luò)作為門控網(wǎng)絡(luò)嵌入

式中,aL∈?d,WK∈ ?d×d為門控網(wǎng)絡(luò)中將msi映射到鍵空間的投影,h∈?d為msi的可學(xué)習(xí)向量。

對于序列中偏好發(fā)生變化較大的情況,文獻(xiàn)[21]提出利用列表中所有項目之間的成對相似性的平均值來衡量相似性,因此本文利用最近項目與之前各項之間的相似性的平均值作為衡量序列中的用戶興趣度的一致性。與之前各項比較后,用戶興趣度高的,則相似平均值也高,反之則較低。具體方法是使用最后一個項目來表示最近的項目,那么得到的一致性為

最終輸入由aC和aL組成:a=aC+aL,其中aC∈?d。門控網(wǎng)絡(luò)是具有softmax層的輸入的線性變換,門控值T(a)定義為

式中,T(a)=[T(aC),T(aL)]∈?2,WG∈?2×d為變換矩陣。最后將以上兩種基于自注意力的用戶偏好模型經(jīng)過一致性感知門控網(wǎng)絡(luò)通過加權(quán)求和自適應(yīng)地融合在一起。

式中,zi∈?d為嵌入編碼的最終列表,具有整體和局部用戶偏好。

點式前饋網(wǎng)絡(luò):采用一個ReLU激活函數(shù)賦予模型非線性[12]

式中,W1,W2∈ ?d×d,b1,b2∈ ?d。

2.5 隨機共享嵌入正則化技術(shù)

模型如果僅包含上面操作,會出現(xiàn)很多問題。例如過擬合、訓(xùn)練過程不穩(wěn)定、梯度消失等問題。TiSASRec[12]模型中采用了層規(guī)范化[22]、殘差連接[23]和Dropout正則化技術(shù)來解決,執(zhí)行如下操作

式中,?為按元素的乘積;μ,σ分別為x的平均值和方差;α,β為可學(xué)習(xí)的因子。

在如今眾多神經(jīng)網(wǎng)絡(luò)中,Embedding層里面的參數(shù)在神經(jīng)網(wǎng)絡(luò)參數(shù)中占據(jù)了很大比例。比如在推薦系統(tǒng)中,用戶和物品的維度正常在50到100維左右,其系統(tǒng)中用戶和物品的數(shù)量往往能達(dá)到數(shù)億。若只采用傳統(tǒng)的技術(shù)面對這些海量數(shù)據(jù),以上這些問題不一定能夠得到很好的解決。

Wu等[13]提出了一種基于數(shù)據(jù)驅(qū)動的Embedding正則化技術(shù)SSE,能夠很好地和SGD算法結(jié)合,使用形式簡單能夠適用于許多現(xiàn)有的網(wǎng)絡(luò),并且對SGD算法的改動幅度也很小。

水文地質(zhì)條件,垃圾場的基礎(chǔ)應(yīng)建設(shè)在地下水主要補給區(qū)范圍之外,地下水富水性以貧乏~極貧乏為宜,場址不應(yīng)直接選擇在滲透性強的地層之上,應(yīng)位于含水層的地下水水力坡度平緩地段,滲透性系數(shù)最好能達(dá)到10-7 m/s以下,含水層以上最好有5 m以上隔水層,地下水化學(xué)類型以重碳酸鈣型水為宜,不宜選擇強酸性(PH<4)、Cl-、SO4 2-含量大于200 mg/L,避免地下水對場地基礎(chǔ)產(chǎn)生腐蝕。此外,場地內(nèi)地下水的主流向應(yīng)背向地表水域,地下水徑流途徑應(yīng)比較短,最好具有較好的天然屏障,避免或減少地下水對周圍水域的污染。

SSE的具體操作則是在訓(xùn)練時隨機地對兩個Embedding進(jìn)行替換,而在測試時則關(guān)閉該操作,從而使Embedding層具有正則化的效果。SSE定義為[13]

其中,Sn為優(yōu)化目標(biāo),下標(biāo)i表示第i個訓(xùn)練樣本,j和k為 Embedding層的索引。p(ji,k|Φ)為使用Embedding層k替換Embedding層j的概率,Φ為兩個Embedding層之間的替換概率參數(shù),E[k]表示取出Embedding層k的操作,l則代表與目標(biāo)任務(wù)相關(guān)的損失函數(shù),Θ包含所有可訓(xùn)練參數(shù)。

該方法與之前的許多正則化技術(shù)也是有關(guān)聯(lián)的,比如由于SSE本質(zhì)上是隨機的,因此也可以獲得與Dropout一樣的隨機性的優(yōu)勢,這點在文獻(xiàn)[13]已經(jīng)經(jīng)過實驗驗證。由于SSE是在原有模型上加的一種正則化機制,目的是進(jìn)一步解決當(dāng)參數(shù)過多時,模型出現(xiàn)過擬合、訓(xùn)練不穩(wěn)定甚至?xí)r間過多的問題。因此在實驗部分,對此部分采用消融研究,判斷在其余條件相同時,有無SSE時哪一個會獲得更好的結(jié)果。

2.6 預(yù)測層和損失函數(shù)

在經(jīng)過自注意力塊堆疊后,用戶的行為信息得到有效提取。為了預(yù)測下一項,使用一個潛在因素模型來計算用戶對項目i的偏好得分[12]

3 實驗結(jié)果與分析

本文在 4 個數(shù)據(jù)集(Ml?1m、Beauty、CDs & Vinyl和 Movies & TV)上,使用評價指標(biāo) Hit,Rate@10 和NDCG@10評估本文提出的TiSeqRec方法,并將其與Pop、BPR、FPM等基線方法進(jìn)行對比,將從以下4個方面進(jìn)行對比:

問題1。對于序列推薦任務(wù),本文所提出的方法能否超過最先進(jìn)的基線?

問題2。模型設(shè)計分為整體偏好模型和局部偏好模型對序列推薦有什么影響?一致性感知門控網(wǎng)絡(luò)是否可以有效融合上述兩個模型?

問題3。模型加入隨機共享嵌入正則化技術(shù)對實驗結(jié)果是否有提高?

問題4。不同的超參數(shù)對實驗結(jié)果有何影響?

3.1 數(shù)據(jù)集

本文的4個數(shù)據(jù)集來自兩個現(xiàn)實世界的應(yīng)用程序:

(1)MovieLens。廣泛使用的基準(zhǔn)數(shù)據(jù)集,常用于評估協(xié)同過濾算法。本文使用的版本(Ml?1m)包含了100萬用戶評分。

(2)Amazon。從亞馬遜抓取的大量產(chǎn)品評論語料庫[24],分為 3 類,“CDs & Vinyl”、“Movies & TV”和“Beauty”,這3類數(shù)據(jù)集都非常稀疏。

這4個數(shù)據(jù)集都包含交互的時間戳。本文遵循文獻(xiàn)[4,6-7]中的過程進(jìn)行預(yù)處理,對于所有數(shù)據(jù)集,將審查或評級的出現(xiàn)視為隱式反饋(例如用戶與項目交互),并按時間戳對項目排序。對于所有用戶,在它們自己的序列中減去最小的時間戳,讓時間戳從0開始,并且過濾掉冷啟動用戶和少于5個動作的項目。按照文獻(xiàn)[11]本文使用最近的項進(jìn)行測試,第二個最近的項進(jìn)行驗證,其余的項用于訓(xùn)練。數(shù)據(jù)集統(tǒng)計信息如表1所示。Ml?1m是最密集的數(shù)據(jù)集,擁有最長的平均動作和最少的用戶和條目,Beauty是每個用戶操作最少的數(shù)據(jù)集。

表1 數(shù)據(jù)集分析

3.2 評價指標(biāo)

本文采用兩個常見的Top?N指標(biāo)Hit Rate@10和NDCG@10來評價推薦性能。Hit@10計算出前10個項目中真實項目的比率。NDCG@10按級別分類,返回的結(jié)果是相關(guān)度級別越高則越好,把權(quán)重高的分給靠前的。按照文獻(xiàn)[25],對于每個用戶u,隨機抽樣100負(fù)樣本將這些項與實際情況排序。依據(jù)項目排序的結(jié)果來計算Hit@10和NDCG@10。

3.3 比較方法

本文將TiSeqRec與以下方法進(jìn)行比較。

(1)POP:所有的項目都按照它們在所有用戶的訓(xùn)練集中的受歡迎程度進(jìn)行排序,受歡迎程度通過計算動作的數(shù)量得到。

(2) BPR[26]:貝葉斯個性化排序是項目推薦的經(jīng)典方法,此方法中提出了矩陣分解。

(3) FPMC[6]:該方法結(jié)合矩陣分解和一階馬爾可夫鏈,分別捕捉長期偏好和動態(tài)變遷。

(4) TransRec[4]:該方法將每個用戶建模為一個項到項的關(guān)聯(lián)向量。

(5) GRU4Rec+[8]:該方法建模用戶的動作序列,是基于用戶會話的推薦。

(6) Caser[27]:在時間和潛在空間中嵌入一系列最近的物品到一個“圖像”中。該方法考慮了L個最新項,可以捕獲高階馬爾可夫鏈。

(7) MARank[28]:該方法考慮了最近的商品,并應(yīng)用多順序注意來捕獲單個和統(tǒng)一層次的商品依賴。

(8) SASRec[11]:該方法首次將 Transformer 中Attention用于序列推薦,看作是一種只考慮絕對位置的方法。

(9) TiSASRec[12]:該方法利用了注意力機制,根據(jù)不同的項目的絕對位置和時間間隔進(jìn)行序列建模從而進(jìn)行推薦。

由于本文是對TiSASRec模型進(jìn)行優(yōu)化,加入了隨機共享嵌入正則化技術(shù),并把模型細(xì)分為考慮整體偏好和局部偏好的時間間隔自注意力模型。為了公平比較,所有實驗參數(shù)跟TiSASRec模型保持一致,在{10,20,30,40,50}中搜索潛在維度,在{10-1,10-2,…,10-4}中搜索學(xué)習(xí)率。使用驗證集調(diào)優(yōu)超參數(shù),若性能在20個迭代周期內(nèi)沒有改善則終止訓(xùn)練。

3.4 實現(xiàn)細(xì)節(jié)

在驗證集上使用Tensorflow和微調(diào)超參數(shù)來實現(xiàn)TiSeqRec,并在嵌入層和預(yù)測層中學(xué)習(xí)了位置和時間間隔嵌入以及共享項嵌入。所有數(shù)據(jù)集的learning rate為 0.001,batch size大小為 128,dropout rate為0.2,其余的參數(shù)設(shè)置如表2所示。所有實驗都是在兩個GTX?2080 Ti GPU上進(jìn)行的。

表2 參數(shù)設(shè)計

3.5 實驗結(jié)果的比較

表3顯示了所有的方法在4個數(shù)據(jù)集上的實驗結(jié)果,最終的結(jié)果顯示TiSeqRec模型在兩個常見的Top?N指標(biāo) Hit Rate@10和 NDCG@10中結(jié)果都是最好的(結(jié)果最好的模型被加粗,排第2的加了下劃線,其中所有的基線方法的結(jié)果均來自文獻(xiàn)[12])。在所有的基線方法中,TiSASRec擁有最好的結(jié)果,該方法利用了注意力機制,根據(jù)不同項目的絕對位置和時間間隔來建模,而之前的模型(比如SASRec)是忽略序列中項目之間的時間間隔的。其余基線方法的介紹參考文獻(xiàn)[12],本文不再贅述。

表3 實驗結(jié)果

TiSeqRec模型得到了最好的結(jié)果,它優(yōu)化了TiSASRec模型,將自注意力機制分為學(xué)習(xí)整體偏好和局部偏好,并通過一致性感知門控網(wǎng)絡(luò)分配不同的權(quán)重將它們相結(jié)合,然后預(yù)測。該模型考慮項目的絕對位置(按照時間戳的順序排序),同時也考慮了任意兩個項目的相對時間間隔,并且加入隨機共享嵌入的正則化技術(shù)。實驗結(jié)果表明,在稀疏和密集的數(shù)據(jù)集上都優(yōu)于最先進(jìn)的算法,使得推薦性能得到進(jìn)一步提升。下面研究各組件的影響。

3.6 不同偏好模型影響

為了驗證整體偏好模型和局部偏好模型對序列推薦的影響,對TiSeqRec模型,分別設(shè)計了去掉整體偏好(No GPM)、去掉局部偏好(No CPM)和去掉一致性感知門控網(wǎng)絡(luò)(No Gate)的模型進(jìn)行實驗。

圖2的消融研究顯示,在其他條件不變的情況下,具有全部部件的TiSeqRec的實驗結(jié)果相對優(yōu)于所有去掉某一部件的模型的結(jié)果。例如對于M1?1m數(shù)據(jù)集,No CPM模型的實驗結(jié)果與最好結(jié)果相比存在較大的差距。No GPM模型在Beauty數(shù)據(jù)集上的實驗結(jié)果也與最好結(jié)果存在較大差距。No Gate模型的實驗結(jié)果較優(yōu),但還是略弱于TiSeqRec的結(jié)果。表1顯示4個數(shù)據(jù)集的密集程度是不一樣的,平均動作、用戶和物品數(shù)都有很大不同,圖2的消融研究顯示去掉任一部件的模型都不能相對最優(yōu)地適用于各種數(shù)據(jù)集。因此只有綜合考慮整體和局部偏好后的模型,再通過一致性門控網(wǎng)絡(luò)智能結(jié)合才可以得到較好的結(jié)果。

圖2 消融研究結(jié)果

3.7 隨機共享嵌入正則化技術(shù)

TiSASRec雖采用了一定的正則化技術(shù),為了使推薦效果更高,本文在Emedding層又加入隨機共享嵌入正則化技術(shù),實驗結(jié)果如表4所示。

在保持其他條件不變的情況下,本文去掉了隨機共享嵌入正則化技術(shù)(No SSE),又使用4個數(shù)據(jù)集分別進(jìn)行了實驗。表4顯示與No SSE模型相比,TiSeqRec只在數(shù)據(jù)集CDs & Vinyl上的NDCG@10結(jié)果沒有提升,但相差很小,其余都增加了,說明本模型中加入的隨機共享正則化技術(shù)對于大多數(shù)數(shù)據(jù)集是有效的。

表4 有無SSE的實驗結(jié)果(NDCG@10)

3.8 超參數(shù)的影響

本節(jié)分析潛在維度d、最大序列長度n和最大時間間隔k這些參數(shù)對實驗結(jié)果的影響。

潛在維度d的影響:圖3顯示了在其他最優(yōu)超參數(shù)不變的情況下,維數(shù)d在10到50的NDGG@10結(jié)果。折線圖顯示隨著d增大,模型性能也在增加;不同的數(shù)據(jù)集變化幅度不一樣,Beauty數(shù)據(jù)集變化較小,其余增加明顯,其中本文的模型的結(jié)果總是優(yōu)于最先進(jìn)的基線結(jié)果。

圖3 潛在維度d的影響(NDCG@10)

最大序列長度n的影響:圖4顯示了在保持其他最優(yōu)超參數(shù)不變的情況下,最大長度從10到50的NDCG@10。分析Ml?1m 和CDs & Vinyl這兩個數(shù)據(jù)集的結(jié)果發(fā)現(xiàn)設(shè)置較長的序列時,性能都會提高且最終會收斂;同時發(fā)現(xiàn)對于平均序列長度較大的數(shù)據(jù)集(如 Ml?1m),TiSeqRec的收斂速度較TiSASRec的慢。

圖4 最大序列長度n的影響(NDCG@10)

最大時間間隔k的影響:圖5顯示了在保持其他最優(yōu)超參數(shù)不變的情況下,隨著k增大實驗結(jié)果NDCG@10總體呈現(xiàn)上升趨勢,但是也存在波動。選擇合適時間間隔k值,對實現(xiàn)結(jié)果尤為重要,例如對于Ml?1m,k取值256實驗結(jié)果最優(yōu)。

圖5 最大時間間隔k的影響(NDCG@10)

3.9 不同Top?N的實驗對比

本文采用兩個常見的Top?N指標(biāo)Hit Rate@10和NDCG@10來評價推薦性能。為了進(jìn)一步驗證算法的有效性,本節(jié)增加實驗把評價指標(biāo)拓展為NDCG@k和 Hit Rate@k中的 k分別取值5,10,15來驗證算法的魯棒性。

圖6顯示了隨著k取值的增大,推薦性能呈上升趨勢且k取值為5~10的部分增加幅度大于取值為10~15的部分。由于要與不同的基線模型進(jìn)行比較且基線模型k取值為10,因此本文最終將k為10的結(jié)果保留。以上實驗步驟說明本文提出的算法具有較好的魯棒性和有效性。

圖6 不同評價指標(biāo)k的影響(NDCG@k和Hit Rate@k)

4 結(jié)束語

本文提出了融合用戶興趣度的基于時間間隔自注意力的序列推薦模型,考慮用戶交互序列中項目的時間間隔不一致以及用戶興趣度可能會隨著時間的推移而變化。相比于其他方法,本文所提的TiSeqRec具有兩個明顯的優(yōu)勢:(1)對數(shù)據(jù)集稀疏度不敏感,能夠免受不同數(shù)據(jù)集稀疏或密集帶來的干擾;(2)把用戶整體偏好、局部偏好和交互物品的時間間隔納入建模的范圍中,通過一致性感知門控網(wǎng)絡(luò)智能結(jié)合整體偏好和局部偏好,還加入了隨機共享嵌入正則化技術(shù)進(jìn)一步優(yōu)化實驗結(jié)果。最終實驗結(jié)果表明,TiSeqRec能夠處理用戶興趣度不一致的情形,且能進(jìn)一步提升基于時間間隔自注意力的序列推薦的性能。

猜你喜歡
正則間隔注意力
讓注意力“飛”回來
間隔問題
間隔之謎
剩余有限Minimax可解群的4階正則自同構(gòu)
類似于VNL環(huán)的環(huán)
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
有限秩的可解群的正則自同構(gòu)
上樓梯的學(xué)問
頭夾球接力
彰化县| 丰顺县| 和林格尔县| 忻城县| 威海市| 津南区| 古浪县| 淮滨县| 清水县| 宁海县| 安达市| 茂名市| 康乐县| 安平县| 双城市| 磐安县| 东兴市| 噶尔县| 紫阳县| 吴忠市| 特克斯县| 安徽省| 建宁县| 万载县| 鸡东县| 石台县| 安新县| 嘉义县| 金门县| 迁安市| 定安县| 正蓝旗| 祁东县| 亚东县| 出国| 阿坝| 肥城市| 大足县| 井研县| 谢通门县| 交城县|