国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自注意力機(jī)制的TransNet推薦模型

2023-07-14 09:24:44馬宏爽劉其成牟春曉
關(guān)鍵詞:注意力卷積矩陣

馬宏爽,劉其成,牟春曉

(煙臺(tái)大學(xué)計(jì)算機(jī)與控制工程學(xué)院,山東 煙臺(tái) 264005)

互聯(lián)網(wǎng)的迅速發(fā)展?jié)M足了用戶對(duì)信息的需求,但用戶在面對(duì)海量的信息時(shí),找到真正有用的信息非常困難,由此推薦系統(tǒng)[1]應(yīng)運(yùn)而生。推薦系統(tǒng)可以從海量的信息中挑選出有價(jià)值的信息,為用戶提供個(gè)性化服務(wù),從而提升用戶獲取信息的效率[2]。傳統(tǒng)的協(xié)同過濾(Collaborative Filtering,CF)和基于內(nèi)容的推薦算法雖簡(jiǎn)單有效[3-4],卻存在冷啟動(dòng)和評(píng)分矩陣稀疏的問題[5],使得推薦性能下降。

隨著深度學(xué)習(xí)的發(fā)展,一些研究工作將協(xié)同過濾算法和深度學(xué)習(xí)進(jìn)行融合,文獻(xiàn)[6]提出的WRMF模型,考慮了用戶的隱形反饋建模的問題,對(duì)每個(gè)訓(xùn)練樣本都加一個(gè)權(quán)重,來表征用戶對(duì)物品偏好的置信度。文獻(xiàn)[7]把自編碼器應(yīng)用到協(xié)同過濾算法中,提出了AutoRec模型,將用戶對(duì)所有物品的評(píng)分向量輸入到自編碼器中,預(yù)測(cè)用戶物品矩陣中缺失的評(píng)分值。針對(duì)用戶偏好的Top-N推薦問題,文獻(xiàn)[8]提出了一種協(xié)同去噪自動(dòng)編碼器CDAE,通過去噪自動(dòng)編碼器形成用戶項(xiàng)目反饋數(shù)據(jù),學(xué)習(xí)用戶和項(xiàng)目的分布式表示。由于傳統(tǒng)的CF無法學(xué)習(xí)到用戶之間、項(xiàng)目之間的相似度,文獻(xiàn)[9]將CF與度量學(xué)習(xí)相結(jié)合提出一種CML模型來幫助解決數(shù)據(jù)間的重要關(guān)系。文獻(xiàn)[10]提出將自編碼器應(yīng)用于基于隱式反饋的協(xié)同過濾推薦任務(wù),通過非線性概率模型克服線性因子模型的局限,提出了VAECF模型。這些研究在協(xié)同過濾推薦算法基礎(chǔ)上進(jìn)行了改進(jìn),雖然在協(xié)同過濾中使用深度學(xué)習(xí),但是并沒有涉及富含用戶偏好和項(xiàng)目信息的評(píng)論文本,推薦系統(tǒng)的可解釋方面存在不足。

相比改進(jìn)協(xié)同過濾算法,使用評(píng)論文本來預(yù)測(cè)評(píng)分可以提升推薦系統(tǒng)的推薦可解釋性。評(píng)論文本可以解釋給出評(píng)分高低的原因,而且評(píng)論中隱含的用戶偏好和項(xiàng)目特征可以為推薦模型建模提供豐富的信息,彌補(bǔ)有效信息不足的缺點(diǎn)[11]。深度學(xué)習(xí)不斷發(fā)展使得推薦系統(tǒng)使用神經(jīng)網(wǎng)絡(luò)處理評(píng)論文本成為了可能,文獻(xiàn)[12]提出的DeepCoNN模型利用兩個(gè)并行的卷積結(jié)構(gòu)分別對(duì)用戶和商品的評(píng)論文檔建模,最后使用了因子分解機(jī)[13]做評(píng)分預(yù)測(cè)。文獻(xiàn)[14]指出DeepCoNN模型只有測(cè)試樣本中包含目標(biāo)用戶對(duì)目標(biāo)項(xiàng)目的評(píng)論時(shí),才能獲得最好的表現(xiàn)效果,在此基礎(chǔ)上提出了一個(gè)TransNet模型,該模型擴(kuò)展一個(gè)Transform層,可以將用戶和項(xiàng)目評(píng)論的潛在特征轉(zhuǎn)換為目標(biāo)評(píng)論的近似表示。最后使用因子分解機(jī)做評(píng)分預(yù)測(cè),從而構(gòu)建出新的推薦模型。文獻(xiàn)[15]提出的CARL 模型利用卷積運(yùn)算和注意力機(jī)制從評(píng)論中學(xué)習(xí)潛在特征,然后將潛在特征與潛在評(píng)分嵌入合并,輸入到因子分解機(jī)模型中以得出缺失的分?jǐn)?shù)。但是DeepCoNN、 TransNet和CARL等推薦模型使用因子分解機(jī)處理交叉特征時(shí),對(duì)每個(gè)特征的選擇權(quán)重相同,而無用的特征會(huì)引入噪聲,影響模型推薦效果。

注意力機(jī)制自提出以來,最先應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域,一些敏銳的學(xué)者意識(shí)到在推薦系統(tǒng)中應(yīng)用注意力機(jī)制具有重要意義,隨后注意力機(jī)制在推薦領(lǐng)域廣泛應(yīng)用。文獻(xiàn)[16]在因子分解機(jī)的基礎(chǔ)上使用注意力機(jī)制,提出一種注意力機(jī)制因子分解機(jī),通過注意力機(jī)制學(xué)習(xí)交叉特征的權(quán)重,改善了因子分解機(jī)的性能。為了從項(xiàng)目的詞序列中學(xué)習(xí)隱藏表示,文獻(xiàn)[17]應(yīng)用了區(qū)分信息詞的詞注意模塊,提出了TARMF模型,更好地理解商品的內(nèi)容。文獻(xiàn)[18]提出了一個(gè)新的深度學(xué)習(xí)推薦模型GATE,通過優(yōu)化矩陣分解和基于注意力機(jī)制的GRU網(wǎng)絡(luò),從評(píng)分和評(píng)論中聯(lián)合學(xué)習(xí)用戶和項(xiàng)目的信息,提高了模型的可解釋性。為了增強(qiáng)推薦模型的可解釋性和推薦的多樣性,文獻(xiàn)[19]使用注意力機(jī)制提取有用的評(píng)論,提出一種TAFA模型,該模型學(xué)習(xí)用戶評(píng)論和隱式反饋,進(jìn)一步了解用戶偏好,為推薦提供可解釋性。因此,通過注意力技術(shù)對(duì)每個(gè)特征的重要性進(jìn)行區(qū)分,捕捉更深層的特征信息,以提高模型的可解釋性。然而注意力機(jī)制的權(quán)重參數(shù)是固定的,因此可以考慮使用自注意力機(jī)制來改善這一問題。自注意力機(jī)制是注意力機(jī)制的改進(jìn),自注意力機(jī)制通過輸入特征內(nèi)部的依賴來決定需要關(guān)注的特征,對(duì)每個(gè)輸入特征分配的權(quán)重取決于輸入特征之間的相互作用,因此減少了對(duì)外部信息的依賴,數(shù)據(jù)或特征的內(nèi)部相關(guān)性表達(dá)更加準(zhǔn)確。

在這種背景下,本文采用深度學(xué)習(xí)的方法,使用卷積神經(jīng)網(wǎng)絡(luò)提取項(xiàng)目和用戶評(píng)論的特征,利用融合自注意力網(wǎng)絡(luò)幫助推薦模型處理特征并預(yù)測(cè)評(píng)分。自注意力網(wǎng)絡(luò)根據(jù)特征內(nèi)部的關(guān)系自動(dòng)分配權(quán)重,可以加強(qiáng)特征之間的聯(lián)系,捕捉特征內(nèi)部的相關(guān)性,提升模型精確度。自注意力機(jī)制技術(shù)自動(dòng)學(xué)習(xí)不同特征的重要性,通過給予特征不同的權(quán)重以區(qū)分特征的重要性??紤]到自注意力機(jī)制技術(shù)的眾多優(yōu)點(diǎn),本文將自注意力技術(shù)與真實(shí)推薦模型相結(jié)合,提出一種改進(jìn)的SATransNet(TransNet Recommendation Model via Self-Attention Mechanism)推薦模型。

1 相關(guān)知識(shí)

本節(jié)主要介紹卷積神經(jīng)網(wǎng)絡(luò)和TransNet推薦模型,并且將這些概念引入SATransNet推薦模型中。

1.1 卷積神經(jīng)網(wǎng)絡(luò)

評(píng)論文本包含復(fù)雜的用戶偏好和項(xiàng)目特征,一般使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)對(duì)評(píng)論進(jìn)行特征提取,避免人工提取的特征精確度不足的問題,而且CNN各個(gè)網(wǎng)絡(luò)層參數(shù)共享可以減少計(jì)算量[20]。以下將詳細(xì)介紹CNN的各個(gè)組成部分。

1.1.1 嵌入層 CNN模型的嵌入層將包含用戶或者項(xiàng)目評(píng)論信息映射為一個(gè)n×Dk的矩陣M,其中,n為一條評(píng)論中的單詞數(shù)量,Dk為每個(gè)單詞的詞向量維度。模型的評(píng)論文本向量化是通過詞嵌入工具實(shí)現(xiàn),通過詞嵌入工具將詞匯信息映射到語義空間。

1.1.2 卷積層 卷積層的目的是對(duì)詞嵌入矩陣進(jìn)行特征提取。卷積核的多次有規(guī)律的卷積,能夠增強(qiáng)有效特征,減少無用特征[21]。設(shè)卷積核的寬度是Dk,高度是h,對(duì)輸入層得到的矩陣的卷積操作可以用公式(1)表示:

ci=f(w·M[i:i+h-1]+b),

(1)

其中,ci是第i個(gè)特征,i=1, 2, …,n-h+1,M[i:i+h-1]表示詞嵌入矩陣M的第i行到第i+h-1行所組成的窗口,大小為h×Dk。w是h×Dk維的權(quán)重矩陣,b是偏置,f是激活函數(shù),表示為f(x)=max{0,x}。由公式(1)可知矩陣M可卷積得到n-h+1個(gè)特征。不同的窗口值,可以提取出不同的特征,這些不同的向量構(gòu)成CNN卷積層的輸出。

1.1.3 池化層 卷積層提取的特征將會(huì)傳輸?shù)匠鼗瘜?最大池化使卷積核一維滑動(dòng)過程中,篩選出一個(gè)最大的特征,其表示形式定義為

(2)

其中,oj是卷積核滑動(dòng)產(chǎn)生的第j個(gè)最大特征,池化層的最終輸出O是來自其m個(gè)卷積核的輸出的連接,由下式表示:

O=[o1,o2, …,om]。

(3)

最大池化可以保證特征的位置與旋轉(zhuǎn)不變性,同時(shí)減少模型參數(shù)的數(shù)量,降低了模型的擬合性[22]。

1.1.4 全連接層 全連接層主要作用是對(duì)卷積層和池化層提取的特征進(jìn)行非線性組合,減少特征信息的丟失。全連接層由權(quán)重矩陣和偏置矩陣組成,它將輸入池化層的O最終表示為:

X=f(WO+g),

(4)

其中,W是權(quán)重矩陣,W∈m×n,g是偏置矩陣,g∈n。評(píng)論文本通過CNN的特征提取,得到評(píng)論句子的特征矩陣X。

1.2 TransNet 推薦模型

TransNet推薦模型是一個(gè)利用評(píng)論信息來改善推薦性能的神經(jīng)網(wǎng)絡(luò)推薦模型,該模型將用戶和項(xiàng)目的潛在特征轉(zhuǎn)換為目標(biāo)評(píng)論的近似表示并使用因子分解機(jī)做評(píng)分預(yù)測(cè)[14]。

現(xiàn)實(shí)生活中,推薦的常識(shí)是一個(gè)用戶在購買一個(gè)商品之前,把商品推薦給他,而此時(shí)他還未對(duì)該商品進(jìn)行評(píng)價(jià),故預(yù)測(cè)時(shí)不能利用還未作出的評(píng)論作為輸入。TransNet 推薦模型就證明了用戶對(duì)目標(biāo)項(xiàng)目的評(píng)論具有很高的預(yù)測(cè)價(jià)值,這些評(píng)論應(yīng)當(dāng)只在訓(xùn)練時(shí)生效而在測(cè)試時(shí)不可用。因此,TransNet 模型設(shè)計(jì)了目標(biāo)網(wǎng)絡(luò)和源網(wǎng)絡(luò)。其中目標(biāo)網(wǎng)絡(luò)來單獨(dú)處理目標(biāo)評(píng)論用戶A對(duì)項(xiàng)目B寫過的評(píng)論revAB。源網(wǎng)絡(luò)包含兩部分,一部分處理不包含revAB的用戶A的評(píng)論,另一部分處理不包含revAB的項(xiàng)目B的評(píng)論。源網(wǎng)絡(luò)包含兩個(gè)CNN,分別處理不包含revAB用戶評(píng)論和項(xiàng)目評(píng)論,另外有一個(gè)額外的Transform層。Transform層是一個(gè)L層非線性全連接網(wǎng)絡(luò),作用是把用戶評(píng)論文本和項(xiàng)目文本轉(zhuǎn)換成目標(biāo)評(píng)論的近似表示[14],用于后面的因子分解機(jī)評(píng)分預(yù)測(cè)。

2 基于自注意力機(jī)制的推薦模型SA-TransNet

本節(jié)主要對(duì)SATransNet推薦模型實(shí)現(xiàn)、推薦模型的網(wǎng)絡(luò)結(jié)構(gòu)以及模型的訓(xùn)練過程進(jìn)行詳細(xì)說明。

2.1 SATransNet模型

在現(xiàn)實(shí)世界當(dāng)中,不同的特征往往起到不同的影響,對(duì)于一個(gè)固定的特征而言,并不是所有特征選擇時(shí)都有用,這些無用的特征會(huì)引入噪聲造成干擾,而自注意力機(jī)制可以對(duì)于那些影響不高的特征進(jìn)行降權(quán),對(duì)重要性高的特征進(jìn)行自動(dòng)升權(quán)。因此可以考慮在TransNet推薦模型的基礎(chǔ)上,通過自注意力神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)特征的重要性。

為了更好表達(dá)數(shù)據(jù)和特征的內(nèi)部相關(guān)性,SATransNet推薦模型在卷積神經(jīng)網(wǎng)絡(luò)處理評(píng)論文本后,在得到的包含用戶偏好和項(xiàng)目信息的特征中引入了自注意力機(jī)制。自注意力機(jī)制在對(duì)t位置特征進(jìn)行特征選擇時(shí),可以同時(shí)關(guān)注前t-1和后t+1位置的特征[23],進(jìn)而學(xué)習(xí)特征內(nèi)部的依賴關(guān)系使預(yù)測(cè)結(jié)果更加準(zhǔn)確。

使用自注意力機(jī)制處理特征矩陣的運(yùn)算過程可分為兩步:計(jì)算輸入的特征矩陣的注意力分布;根據(jù)注意力分布計(jì)算特征矩陣的加權(quán)平均。

2.1.1 計(jì)算特征矩陣注意力分布 對(duì)于N個(gè)向量{x1,x2, …,xN},為了體現(xiàn)特征的重要性,需要計(jì)算每個(gè)輸入向量的權(quán)重。自注意力機(jī)制將CNN提取的特征矩陣X={x1,x2, …,xN}線性映射到三個(gè)不同空間,分別得到查詢矩陣Q、鍵矩陣K和值矩陣V:

Q=WqX,K=WkX,V=WvX,

(5)

其中,Wq、Wk、Wv是可訓(xùn)練權(quán)重矩陣,表示對(duì)特征矩陣X不同的權(quán)重選擇,因此Q、K、V利用公式(5)線性變換的參數(shù)W是不一樣的。 相比于注意力機(jī)制的權(quán)重參數(shù)是一個(gè)全局可學(xué)習(xí)的參數(shù),對(duì)于模型來說是固定的。 而自注意力機(jī)制的權(quán)重參數(shù)是由輸入決定,故對(duì)于同一個(gè)模型不同的輸入有不同的權(quán)重參數(shù)。

(6)

(7)

SATransNet推薦模型在處理特征時(shí),自注意力機(jī)制通過將特征矩陣分為鍵矩陣、查詢矩陣和值矩陣,提供了一種捕捉上下文特征的建模方式[25],減少外部信息的依賴,對(duì)數(shù)據(jù)的表達(dá)也更為準(zhǔn)確。引入自注意力機(jī)制推薦模型通過自注意力網(wǎng)絡(luò)更好學(xué)習(xí)特征內(nèi)部相關(guān)性,使預(yù)測(cè)結(jié)果更為準(zhǔn)確,以此提高推薦準(zhǔn)確率。SATransNet推薦模型包含兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu),分別為目標(biāo)網(wǎng)絡(luò)和源網(wǎng)絡(luò),模型框架如圖1所示。

源網(wǎng)絡(luò)包含兩個(gè)CNN文本處理層,分別處理不包含revAB的用戶A和項(xiàng)目B的評(píng)論,經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的映射,輸出詞嵌入矩陣MA和MB,經(jīng)過公式(1)—(4)卷積處理得到源網(wǎng)絡(luò)的特征矩陣XA,XB。

Z0=[XAXB],

(8)

其中,XA,XB是不包含revAB的用戶或項(xiàng)目評(píng)論特征矩陣,使用公式(8)將兩個(gè)特征矩陣XA和XB按照維數(shù)橫向拼接起來,得到一個(gè)新的矩陣Z0。

源網(wǎng)絡(luò)中還有一個(gè)Transform層,作用為將Z0轉(zhuǎn)化成目標(biāo)網(wǎng)絡(luò)評(píng)論矩陣XT近似。Transform層是一個(gè)L層非線性全連接網(wǎng)絡(luò),每一層都有一個(gè)權(quán)重矩陣Gl和偏置gl,權(quán)重矩陣初始服從均值為0、標(biāo)準(zhǔn)差為0.1的截?cái)嗾龖B(tài)分布,所有偏置初始化為0.1。Z0作為Transform第一層的輸入,第l-1層到l層的傳遞公式為

Zl=max(0,Zl-1Gl+gl),

(9)

其中,Zl為Transform層的第l層輸出,Gl∈n×n,gl∈n。在訓(xùn)練中,使源網(wǎng)絡(luò)輸出的Zl逼近目標(biāo)網(wǎng)絡(luò)卷積輸出XT。對(duì)源網(wǎng)絡(luò)中Zl使用自注意力機(jī)制線性映射處理,得到源網(wǎng)絡(luò)的查詢矩陣QS、鍵矩陣KS和值矩陣VS, 根據(jù)公式(6)計(jì)算注意力分布,得到源網(wǎng)絡(luò)的注意力分布矩陣對(duì)源網(wǎng)絡(luò)注意力分布使用公式(7)得到預(yù)測(cè)評(píng)分

SATransNet推薦模型使用評(píng)論文本反映用戶偏好和項(xiàng)目的特征信息,并利用自注意力機(jī)制學(xué)習(xí)了評(píng)論特征內(nèi)部相關(guān)性,從而提升了推薦質(zhì)量。SATransNet推薦模型可以幫助用戶來尋找與用戶所寫內(nèi)容最相似的評(píng)論,最相似的評(píng)論又反過來幫助用戶做出明智的決定。在現(xiàn)實(shí)的推薦場(chǎng)景中,想知道用戶A對(duì)一個(gè)未知項(xiàng)目P的喜好程度,在使用SATransNet推薦模型進(jìn)行推薦時(shí),首先使用來自用戶A和項(xiàng)目P評(píng)論文本來構(gòu)建Zl,Zl是用戶項(xiàng)目實(shí)際聯(lián)合評(píng)論的近似表示。然后使用目標(biāo)網(wǎng)絡(luò)分別來處理其他用戶為項(xiàng)目P編寫的所有評(píng)論,以獲得XT。如果目標(biāo)網(wǎng)絡(luò)處理的用戶評(píng)論中,有一個(gè)用戶所寫的評(píng)論與用戶A和項(xiàng)目P構(gòu)建的潛在表示最相似,那么這個(gè)用戶寫的評(píng)論就可以幫助用戶A是否推薦項(xiàng)目P。

2.2 SATransNet模型的訓(xùn)練

模型的訓(xùn)練可以采用不同種類的損失函數(shù),如最小絕對(duì)值偏差(L1范數(shù))、最小平方誤差(L2范數(shù))、邏輯損失等。在SATransNet模型訓(xùn)練過程中,目標(biāo)網(wǎng)絡(luò)和源網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)使用L1范數(shù),模型損失函數(shù)定義為

(10)

SATransNet模型的訓(xùn)練分為2個(gè)步驟:

(11)

losstrans=∑‖Zl-XT‖2

(12)

(13)

算法1:SATransNet推薦模型訓(xùn)練

輸入:用戶項(xiàng)目評(píng)論文本TextA、TextB,用戶A對(duì)項(xiàng)目B的評(píng)論revAB,用戶A對(duì)項(xiàng)目B的評(píng)分rAB。

源網(wǎng)絡(luò)的訓(xùn)練1 XA←conv(TextA-revAB) XB←conv(TextB-revAB)2 Z0←[XAXB]3 Transform-input(Z0)4 For lay l∈L do Zl←max(0,Zl-1Gl+gl) Return Zl5 losstrans←‖Zl-XT‖26 更新最小的losstrans,輸出Zl7 QS←WqZl,KS←WkZl,VS←WvZl8 X︵S←Softmax(KTSQSDk)9 r︵S←w0+∑ni=1wixi+∑ni=1viSx︵iS10 lossS←∑|rAB-r︵S|11 更新最小的lossS目標(biāo)網(wǎng)絡(luò)的訓(xùn)練1 XT←conv(revAB)2 QT←WqXT,KT←WkXT,VT←WvXT3 X︵T←Softmax(KTT QTDk)4 r︵T←w0+∑ni=1wixi+∑ni=1viTx︵iT5 lossT←∑|rAB-r︵T|6 更新最小的lossT

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)采集

本文選用Amazon數(shù)據(jù)集(http://jmcauley.ucsd.edu/data/amazon/)進(jìn)行推薦模型的實(shí)驗(yàn)評(píng)估。該數(shù)據(jù)集主要收集的是Amazon網(wǎng)站1996年5月至2014年7月的數(shù)據(jù)信息,包含用戶和項(xiàng)目的評(píng)論和評(píng)分,總共有1.428億條評(píng)論,1到5的整數(shù)評(píng)分范圍。

本文在Amazon數(shù)據(jù)集中選擇CDs and Vinyl、Video Games、Grocery and Gourmet Food數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。首先對(duì)數(shù)據(jù)進(jìn)行稠密度的預(yù)處理,使用Skip-gram[26]模型保留用戶和項(xiàng)目評(píng)論數(shù)據(jù)中的50 000個(gè)最高詞頻的詞,并把預(yù)訓(xùn)練出來的詞輸入到64維詞嵌入向量中,從而將詞匯信息映射到語義空間。其次對(duì)評(píng)論文本進(jìn)行分詞,對(duì)停用詞(the、and、is等)和無用的標(biāo)點(diǎn)符號(hào)進(jìn)行保留,然后再對(duì)這些詞進(jìn)行詞形的還原等處理。在深度學(xué)習(xí)領(lǐng)域,合理劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集是很重要的,實(shí)驗(yàn)過程中參照文獻(xiàn)[14]、[19]將實(shí)驗(yàn)數(shù)據(jù)按80%、10%、10%的比例劃分成訓(xùn)練集、驗(yàn)證集和測(cè)試集。數(shù)據(jù)集的統(tǒng)計(jì)信息和劃分信息如表1、2所示。

表1 數(shù)據(jù)集統(tǒng)計(jì)信息

表2 數(shù)據(jù)集劃分信息

3.2 評(píng)價(jià)指標(biāo)

由于Amazon數(shù)據(jù)集都是用戶對(duì)于物品的顯式評(píng)分?jǐn)?shù)據(jù),在評(píng)分預(yù)測(cè)類的推薦系統(tǒng)中,常用的評(píng)測(cè)指標(biāo)有均方誤差(Mean Square Error, MSE),本文使用均方誤差作為評(píng)測(cè)推薦系統(tǒng)的指標(biāo),計(jì)算方法如下:

(14)

為了衡量模型的推薦結(jié)果相關(guān)程度,本文還采用歸一化折損累計(jì)增益(Normalized Discounted Cumulative Gain,NDCG)作為評(píng)價(jià)指標(biāo),NDCG取值范圍為[0,1],NDCG越大代表推薦相關(guān)程度越高。計(jì)算方法如下:

(15)

其中,reli表示處于位置i的推薦結(jié)果的相關(guān)性分?jǐn)?shù),IDCG表示推薦系統(tǒng)為某一用戶返回的最好推薦結(jié)果列表,p表示要考察推薦列表的長(zhǎng)度。

3.3 實(shí)驗(yàn)設(shè)置

在實(shí)驗(yàn)環(huán)節(jié),對(duì)輸入的所有評(píng)論文本使用自然語言處理工具包[27]對(duì)評(píng)論進(jìn)行處理,然后對(duì)其進(jìn)行降級(jí)。評(píng)論中的停止詞以及標(biāo)點(diǎn)符號(hào)被視為單獨(dú)的標(biāo)記,并被保留。模型的評(píng)論文本向量化是通過詞嵌入工具[28]實(shí)現(xiàn)的,通過詞嵌入工具將詞匯信息映射到語義空間,最終獲得一個(gè)詞向量模型。對(duì)于模型的訓(xùn)練優(yōu)化器使用自適應(yīng)估計(jì)Adam(Adaptive moment Estimation) 進(jìn)行優(yōu)化[29]。

實(shí)驗(yàn)表明不同的超參數(shù)取值對(duì)推薦模型的訓(xùn)練造成不同的影響,進(jìn)而影響推薦效果。表3對(duì)本文所使用到的超參數(shù)進(jìn)行了說明。

表3 超參數(shù)取值

學(xué)習(xí)率為模型訓(xùn)練重要的超參數(shù),學(xué)習(xí)率可以控制模型學(xué)習(xí)的速度,控制分配錯(cuò)誤的數(shù)量[30]。在每批訓(xùn)練實(shí)例結(jié)束時(shí),模型的權(quán)重都會(huì)更新。通常,較大的學(xué)習(xí)率允許模型更快地學(xué)習(xí),代價(jià)是會(huì)達(dá)到次優(yōu)的最終權(quán)重集。較小的學(xué)習(xí)速率可以允許模型學(xué)習(xí)更優(yōu)化或甚至全局最佳的權(quán)重集,但是可能花費(fèi)更長(zhǎng)的時(shí)間來訓(xùn)練[31]。因此,在訓(xùn)練數(shù)據(jù)集上為模型找到合適的學(xué)習(xí)率非常重要。我們?cè)贏mazon的Home and Kitchen數(shù)據(jù)集上測(cè)試了不同學(xué)習(xí)率對(duì)SATransNet模型訓(xùn)練的均方誤差的影響,發(fā)現(xiàn)學(xué)習(xí)率在0.014時(shí)模型具有更好的性能,但為了縮短模型訓(xùn)練的時(shí)間,同時(shí)控制錯(cuò)誤分配的數(shù)量,在SATransNet模型和其對(duì)照模型訓(xùn)練時(shí)學(xué)習(xí)率設(shè)置都為0.008。

3.4 結(jié)果與分析

本文通過與真實(shí)的推薦模型進(jìn)行實(shí)驗(yàn)對(duì)比來驗(yàn)證融入自注意力機(jī)制的推薦模型的有效性,實(shí)驗(yàn)選取亞馬遜的三個(gè)類別的數(shù)據(jù)集,分別對(duì)比了SATransNet、TransNet[14]和TAFA[19]模型的預(yù)測(cè)評(píng)分均方誤差,如表4所示。同時(shí),為了衡量推薦模型的與真實(shí)場(chǎng)景的推薦相關(guān)程度,在三個(gè)數(shù)據(jù)集上比較了SATransNet、TransNet[14]和TAFA[19]模型的歸一化折損累計(jì)增益,在參數(shù)相同的情況下進(jìn)行了多次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

表4 推薦模型的MSE效果

表5 推薦模型的NDCG效果

由實(shí)驗(yàn)結(jié)果可知,SATransNet推薦模型在不同的數(shù)據(jù)集上均方誤差效果和歸一化折損累計(jì)增益效果總體呈優(yōu)。因此,由自注意力網(wǎng)絡(luò)去獲得更多的特征相關(guān)性,SATransNet推薦模型可以有較好的預(yù)測(cè)評(píng)分效果和獲得更多的推薦相關(guān)性。

4 結(jié) 論

本文在真實(shí)的推薦模型的基礎(chǔ)上,提出了一種適于內(nèi)容表達(dá)的SATransNet推薦模型。該模型引入自注意力機(jī)制,通過自注意力網(wǎng)絡(luò)學(xué)習(xí)輸入特征之間的相互作用,并為其分配權(quán)重。實(shí)驗(yàn)結(jié)果表明,在真實(shí)數(shù)據(jù)集上,SATransNet模型能夠取得較好的推薦相關(guān)性和預(yù)測(cè)評(píng)分結(jié)果,推薦準(zhǔn)確率具有明顯優(yōu)勢(shì),驗(yàn)證了融合自注意力機(jī)制因子分解的推薦模型有效性。

另外,由于實(shí)驗(yàn)用到的評(píng)論文本數(shù)據(jù)蘊(yùn)含信息較大,模型在訓(xùn)練時(shí)耗費(fèi)時(shí)間較長(zhǎng),效率較低,因此可以探索如何將SATransNet的訓(xùn)練模式適配并行的系統(tǒng),以便并行地利用GPU集群去處理大量數(shù)據(jù)。

猜你喜歡
注意力卷積矩陣
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
初等行變換與初等列變換并用求逆矩陣
矩陣
南都周刊(2015年1期)2015-09-10 07:22:44
矩陣
南都周刊(2015年3期)2015-09-10 07:22:44
矩陣
南都周刊(2015年4期)2015-09-10 07:22:44
宁强县| 遵义县| 贡山| 河间市| 林芝县| 柳州市| 大洼县| 昌江| 南宁市| 夏河县| 万宁市| 莆田市| 台湾省| 永年县| 云和县| 益阳市| 酉阳| 定州市| 嘉祥县| 留坝县| 历史| 昔阳县| 屏边| 延川县| 新竹县| 辉县市| 中阳县| 疏勒县| 广宁县| 隆尧县| 濮阳县| 曲周县| 永修县| 黔东| 阿鲁科尔沁旗| 洪洞县| 卓尼县| 前郭尔| 渭南市| 泸州市| 阳朔县|