国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多維度興趣注意力和用戶長短期偏好的新聞推薦

2022-11-07 10:12:14劉樹棟
中文信息學(xué)報 2022年9期
關(guān)鍵詞:多維度注意力建模

劉樹棟,張 可,陳 旭

(1.中南財經(jīng)政法大學(xué) 人工智能法商應(yīng)用研究中心,湖北 武漢 430073;2.中南財經(jīng)政法大學(xué) 信息與安全工程學(xué)院,湖北 武漢 430073)

0 引言

為了緩解信息過載,滿足用戶閱讀的需要,許多新聞平臺,例如,谷歌新聞[1-2]應(yīng)用推薦系統(tǒng)技術(shù)進(jìn)行新聞推薦,為用戶推送個性化的文章內(nèi)容,能顯著提高用戶的文章點(diǎn)擊率與閱讀滿意度,改善用戶體驗(yàn)。新聞推薦帶來的潛在價值是多方面的,除了直觀地增加用戶點(diǎn)擊率、閱覽概率,推薦系統(tǒng)能夠通過不斷滿足用戶偏好的需求,增加用戶黏性,為媒體平臺培養(yǎng)用戶忠誠度。與其他推薦系統(tǒng)相比,新聞推薦除了會受到冷啟動、數(shù)據(jù)稀疏等問題的影響外,還面對著該領(lǐng)域獨(dú)有的問題,如新聞內(nèi)容的快速迭代、新聞文本產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)、新聞的熱度不均衡問題等。因此,研究者需要對癥下藥,針對新聞推薦領(lǐng)域?qū)嶋H存在的問題提出有效的解決辦法[3]。

本文關(guān)注新聞推薦中的新聞熱度不均衡所造成的一種頭部領(lǐng)域問題,即處于頭部的少數(shù)熱點(diǎn)新聞容易獲得大量用戶的閱讀,因而更容易獲得大量的用戶反饋,在推薦系統(tǒng)學(xué)習(xí)了這些用戶偏好后,更容易傾向于把熱點(diǎn)新聞推薦給用戶,忽略處于尾部的冷門新聞。然而,處于尾部的冷門新聞雖然閱讀數(shù)量較少,但加起來的總和卻可能超過熱門新聞,這種現(xiàn)象被稱作“長尾效應(yīng)”[4]。圖1展示了Adressa新聞數(shù)據(jù)集一周內(nèi)新聞分類的閱讀數(shù)統(tǒng)計(jì),其分布符合長尾分布?;ヂ?lián)網(wǎng)的發(fā)展也在一定程度上加重了長尾效應(yīng)的影響,在一般的新聞推薦系統(tǒng)中,往往會出現(xiàn)熱門類別的新聞被大量推薦給用戶而忽略了小眾文章的現(xiàn)象。

圖1 新聞分類閱讀數(shù)統(tǒng)計(jì)

針對上述問題,本文在處理用戶長期閱讀歷史時,將用戶的興趣分為多個維度進(jìn)行學(xué)習(xí),結(jié)合用戶自身的屬性信息,利用注意力機(jī)制區(qū)分各個維度的影響,以此提取用戶在較長一段時間的閱讀歷史中不同維度上的興趣作為用戶的長期偏好。除此之外,本文利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[5]與注意力網(wǎng)絡(luò)[6]構(gòu)成的新聞表示模型學(xué)習(xí)進(jìn)行新聞建模,利用門控循環(huán)單元(Gate Recurrent Unit,GRU)[7]從用戶的近段時間內(nèi)的新聞閱讀序列中學(xué)習(xí)用戶的短期偏好,將長短期偏好進(jìn)行融合形成完整的用戶表示。據(jù)此,本文提出了一種基于多維度興趣注意力的用戶長短期偏好的新聞推薦模型,從多維度興趣的基礎(chǔ)上進(jìn)行召回,從一定程度上緩解頭部與尾部不均衡的問題,盡可能將冷門新聞準(zhǔn)確地推薦給所需用戶。

本文的主要貢獻(xiàn)包括3個方面:

(1)在對用戶長期偏好建模時,根據(jù)新聞的不同屬性特征,引入多維度的興趣偏好,以從不同角度探索用戶的興趣,減緩頭部熱點(diǎn)新聞的影響,讓尾部冷門新聞更有機(jī)會受到推薦。

(2)對于多維度興趣的處理,引入注意力機(jī)制,結(jié)合用戶本身信息作為查詢向量,使長期偏好建模能夠區(qū)分不同維度興趣的重要性,使用戶處于尾部的興趣偏好也能得到相應(yīng)的關(guān)注,提高了模型挖掘用戶興趣的能力。

(3)結(jié)合用戶長短期偏好建模,提出了本文的基于多維度興趣的新聞推薦方法,使模型能夠同時學(xué)習(xí)到用戶對新聞的穩(wěn)定長期偏好與易變的短期偏好,獲得信息更豐富的用戶表示模型,以此提高新聞推薦的準(zhǔn)確度。

1 相關(guān)工作

1.1 新聞推薦

早期的新聞推薦大多使用的是推薦領(lǐng)域中常見的方法,大體可以被分為基于內(nèi)容的推薦[8]和基于協(xié)同過濾的推薦[9]。近幾年隨著深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,許多學(xué)者也開始將相關(guān)技術(shù)應(yīng)用于新聞推薦領(lǐng)域。文獻(xiàn)[10]提出了一種通過深度知識感知網(wǎng)絡(luò)來預(yù)測新聞點(diǎn)擊率,利用知識圖譜來改進(jìn)新聞表示學(xué)習(xí)方法。文獻(xiàn)[11]提出了一種深度強(qiáng)化學(xué)習(xí)框架,能夠動態(tài)地完成新聞與用戶的建模,在保證推薦精度的同時提高新聞推薦的多樣性。文獻(xiàn)[12]提出了一種結(jié)合注意力機(jī)制的深度神經(jīng)網(wǎng)絡(luò)模型來完成新聞推薦任務(wù),模型包含了三個提取器,分別學(xué)習(xí)新聞表示、序列信息特征與用戶興趣,有效提高了新聞匹配的準(zhǔn)確度。文獻(xiàn)[13-14]分別提出了基于個性化注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)新聞推薦模型和基于注意力多視圖的神經(jīng)網(wǎng)絡(luò)新聞推薦方法,前者側(cè)重于通過應(yīng)用注意力機(jī)制挖掘新聞在詞語級、文檔級對用戶的影響,而后者側(cè)重于融合多視圖的新聞推薦方法挖掘不同類型的新聞信息,從而更好地進(jìn)行新聞推薦??梢?目前在新聞推薦領(lǐng)域主流的方法大多基于神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的相關(guān)技術(shù),在未來一段時間內(nèi),神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)都是該領(lǐng)域的重要方向。

新聞推薦存在以下幾種特質(zhì)[3]:①用戶對新聞的偏好與用戶當(dāng)前上下文信息密切相關(guān);②用戶的社交網(wǎng)絡(luò)關(guān)系容易對用戶偏好造成影響;③新聞熱度的不同導(dǎo)致熱點(diǎn)新聞與冷門新聞用戶反饋差異較大;④新聞更新迭代非???對時間更加敏感;⑤新聞數(shù)據(jù)量龐大,而且增加速度快;⑥新聞和用戶交互大多都是非結(jié)構(gòu)化數(shù)據(jù)。不少文獻(xiàn)從上述特質(zhì)的角度提出針對性的解決方法。例如,文獻(xiàn)[15]提出一種二分圖表示學(xué)習(xí)的新聞推薦系統(tǒng),在用戶偏好建模方面,不僅考慮用戶的新聞點(diǎn)擊行為,還考慮網(wǎng)絡(luò)中近鄰用戶的偏好表示。文獻(xiàn)[16]提出了一個基于內(nèi)容與協(xié)同過濾的混合推薦模型,在新聞閱讀社區(qū)中探索用戶之間的潛在社交網(wǎng)絡(luò)關(guān)系,通過挖掘出相對專業(yè)的評論來為擁有較少閱讀歷史的用戶提供閱讀推薦,從而在一定程度上能緩解新聞推薦冷啟動問題。文獻(xiàn)[17]針對實(shí)時推薦中數(shù)據(jù)量大、更新迭代速度快的問題,提出了一個基于表示的端到端新聞推薦方法,先使用變種降噪自編碼器學(xué)習(xí)文章的分布式表示,然后通過RNN 學(xué)習(xí)用戶的瀏覽歷史序列作為用戶表示,最后通過內(nèi)積計(jì)算用戶與新聞的匹配概率,該方法在擁有大流量的實(shí)際系統(tǒng)中仍能夠發(fā)揮效用,并在文獻(xiàn)發(fā)表時已投入了使用。

1.2 長短期興趣模型與多興趣融合

用戶偏好的提取是新聞推薦研究中十分重要的一個環(huán)節(jié),這部分的工作會直接影響到推薦結(jié)果的好壞[3]。以前的新聞推薦更多依賴于特征工程來提取用戶偏好[18],目前更多的研究是通過基于深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)來自動抽取特征。本文目的在于融合多興趣維度與用戶長短期興趣的方法來進(jìn)行新聞推薦。在新聞推薦中,對用戶進(jìn)行興趣表示是十分重要的,而長短期興趣的分開建模意味著用戶特征建模的細(xì)化,對用戶相對長久穩(wěn)定的偏好和短期內(nèi)容易變化的偏好分別進(jìn)行建模,從而提取到更完整的用戶表示。

長短期偏好建模常見的流程可以概括為:首先學(xué)習(xí)用戶的短期交互歷史,獲得短期偏好;然后學(xué)習(xí)用戶的長期交互歷史與用戶檔案信息,獲得長期偏好;最后通過直接拼接或其他方式融合長短期偏好進(jìn)行推薦。文獻(xiàn)[19]提出了一個基于長短期用戶偏好的模型進(jìn)行下一興趣點(diǎn)推薦,分別通過一個上下文感知的非局部網(wǎng)絡(luò)和一個地理擴(kuò)張的長短期記憶網(wǎng)絡(luò)對長期和短期興趣建模。文獻(xiàn)[20]提出了一個基于四元數(shù)與自注意力的長短期用戶興趣建模的推薦方法,利用四元數(shù)門控機(jī)制來將長期與短期偏好融合,同時提出了一種基于四元數(shù)與對抗攻擊的貝葉斯個性化排序損失函數(shù)來增加該方法的魯棒性。文獻(xiàn)[21]提出了一個基于注意力機(jī)制的方法捕捉用戶當(dāng)前查詢的長短期用戶偏好,從而推測用戶的搜索意圖來個性化搜索結(jié)果。目前,雖然已有少量文獻(xiàn)使用了長短期偏好融合進(jìn)行新聞推薦,但將相關(guān)領(lǐng)域的研究還有待補(bǔ)充。文獻(xiàn)[18]將用戶興趣拆分成長期興趣與短期興趣,并分別使用用戶ID 序列和用戶短期新聞瀏覽歷史對長短期興趣進(jìn)行表征,最后將兩種興趣融合進(jìn)行推薦。文獻(xiàn)[22]提出了一種異構(gòu)圖結(jié)構(gòu),通過圖神經(jīng)網(wǎng)絡(luò)對用戶長期興趣進(jìn)行建模,從而挖掘圖中高階信息結(jié)構(gòu)所隱含的用戶長期興趣,然后再與短期興趣相結(jié)合獲得新聞的推薦結(jié)果。

多興趣融合本質(zhì)上也是在建模過程中對用戶興趣進(jìn)行一定程度的區(qū)分,而其與長短期興趣分別建模的不同之處在于,在對用戶偏好建模的過程中,模型通過篩選、分類或者聚類的方法將用戶興趣分成不同的維度或類別再融合進(jìn)行推薦,這種方法的好處在于用戶的弱勢興趣也能得到體現(xiàn)。在長尾效應(yīng)出現(xiàn)的情況下,減少頭部新聞的優(yōu)勢問題,能夠在一定程度上增加推薦的多樣性。文獻(xiàn)[23]使用膠囊網(wǎng)絡(luò)構(gòu)建多興趣提取網(wǎng)絡(luò)層,結(jié)合標(biāo)簽感知的注意力層來建立一個深度神經(jīng)網(wǎng)絡(luò)完成個性化推薦任務(wù)。文獻(xiàn)[24]在進(jìn)行長期用戶興趣建模時,結(jié)合注意力網(wǎng)絡(luò)對用戶歷史購買中多種商品屬性的潛在興趣進(jìn)行挖掘,完成對用戶長期偏好的建模。文獻(xiàn)[25]針對用戶興趣遵從的層級模式,提出了一種層級式的注意力網(wǎng)絡(luò)結(jié)構(gòu),分別從物品級別和屬性級別來對用戶興趣進(jìn)行建模,將得到的多個興趣表示向量進(jìn)行拼接,得到最終的用戶興趣特征表示。目前,新聞推薦領(lǐng)域鮮有研究應(yīng)用多興趣融合進(jìn)行表示學(xué)習(xí),而這種方法能夠?qū)τ脩舻亩喾N興趣進(jìn)行挖掘,在一定程度上改進(jìn)推薦的精度,并豐富推薦結(jié)果,增加推薦序列的多樣性。

2 基于多維度興趣注意力和用戶長短期偏好新聞推薦方法

本文提出的新聞推薦模型框架如圖2所示。首先,右側(cè)虛線框內(nèi)表示當(dāng)前候選新聞,以新聞各項(xiàng)信息作為輸入,獲得候選新聞的表示作為輸出。其次,左側(cè)與中間虛線框內(nèi)分別表示用戶長期與短期閱讀歷史,前者以用戶完整的長期閱讀歷史作為輸入,輸出用戶長期偏好表示;后者以用戶當(dāng)前短期閱讀記錄作為輸入,輸出用戶短期偏好表示。兩者通過拼接獲得最終的用戶表示,即結(jié)合了用戶長短期興趣的用戶表示。最后,左側(cè)獲得的候選新聞表示與完整的用戶表示進(jìn)行點(diǎn)乘,產(chǎn)生最終的預(yù)測得分,預(yù)測得分越高,意味著用戶對該候選新聞的興趣度越高。

圖2 新聞推薦模型框架

2.1 新聞建模

對于一篇新聞來說,新聞標(biāo)題、新聞分類、新聞內(nèi)容的關(guān)鍵詞可以覆蓋新聞的大部分信息,而且用戶也往往是根據(jù)標(biāo)題與分類判斷自己是否感興趣,根據(jù)新聞內(nèi)容判斷是否值得閱讀。因此,對于新聞建模部分,本文采用新聞標(biāo)題、新聞分類和子分類、內(nèi)容關(guān)鍵詞這幾個字段進(jìn)行建模,完成新聞模型的建立。

對于新聞標(biāo)題的建模,本文使用預(yù)訓(xùn)練好的挪威語Skip-gram 詞嵌入模型[26]獲得標(biāo)題詞語序列的詞嵌入矩陣,記為V=[v1,v2,…,vM],其中,M

為新聞標(biāo)題的長度。為了更好地保留詞語序列的信息,本文使用卷積神經(jīng)網(wǎng)絡(luò)CNN 捕獲文本中的局部相關(guān)性,可得到詞語序列的上下文信息。將窗口大小設(shè)置為h,v[i-h:i+h]表示從v[i-h]到v[i+h]總共2h個詞向量,Wc和bc為CNN 過濾器的兩個參數(shù),詞語序列的特征向量為C=[c1,c2,…,cM],計(jì)算方式如式(1)所示。

得到包含上下文信息的詞語序列特征向量C后,還需要關(guān)注標(biāo)題文本中關(guān)于“注意力”的變化。標(biāo)題文本中更重要的詞語可能會得到用戶更多的關(guān)注,為了減少不相干的單詞造成的誤差,增加重要單詞的影響力,通過引入注意力機(jī)制來解決這個問題。awi表示第i個單詞的注意力權(quán)重,Wq和bq為投影參數(shù),q為注意力網(wǎng)絡(luò)中的查詢向量,如式(2)、式(3)所示。

新聞標(biāo)題的最終表示dt根據(jù)詞語序列的特征向量與注意力權(quán)重的加權(quán)和計(jì)算得出:

對于新聞分類、子分類、關(guān)鍵詞的建模,由于這些字段由非連續(xù)的幾個單詞組成,我們根據(jù)詞嵌入模型學(xué)習(xí)它們的表示,分別得到dtp、dtps、dk作為新聞分類、子分類與關(guān)鍵詞的表示向量。四種表示向量的拼接d=concat(dtp,dtps,dk)作為新聞的最終表示向量。

2.2 基于多維度興趣注意力的用戶長期偏好建模

用戶閱覽新聞時往往會傾向于選擇某一類型的新聞,這種較穩(wěn)定的選擇偏好,被視為用戶的長期興趣。這種長期興趣往往可從某位用戶一段較長的瀏覽歷史中觀察得出。例如,某一位用戶總是偏向閱讀體育類別的新聞,又或者,某一位用戶總會被某一種關(guān)鍵詞吸引。而這些不同類型的興趣對于一個用戶的重要程度也可能有所不同。除此之外,長期興趣還可以體現(xiàn)在擁有相同屬性的用戶群體上的偏好,如處于某個地區(qū)的用戶會優(yōu)先選擇當(dāng)?shù)匦侣勥M(jìn)行閱讀。

如圖2所示,在對用戶長期興趣建模的過程中,將新聞類別、子類別、內(nèi)容關(guān)鍵詞,用戶所在城市、地區(qū)等屬性納入考量,通過用戶長時間產(chǎn)生的歷史閱讀序列,對用戶多維度上的興趣進(jìn)行挖掘。在挖掘用戶多維度興趣的過程中,為了平衡用戶不同種類的偏好造成的影響,如用戶處于頭部領(lǐng)域的閱讀偏好可能會在推薦中占據(jù)主導(dǎo),從而更難挖掘出用戶小眾的偏好,因此,我們加入注意力機(jī)制以更有效地捕捉用戶不同種類的興趣偏好。假設(shè)一段用戶的長期閱讀歷史表示為H=(Hid,Htp,Htps,Hk),Hj∈H表示閱讀歷史中某一種屬性的集合,ek∈Hj表示集合中通過詞嵌入模型產(chǎn)生的向量。Hid、Htp、Htps、Hk四種屬性分別代表新聞的唯一編號ID、新聞類別、子類別、新聞內(nèi)容的關(guān)鍵詞,其中,新聞的分類與內(nèi)容關(guān)鍵詞是一篇新聞的“門面”,用戶瀏覽新聞時往往不止關(guān)注文章本身,還會傾向于選擇特定的新聞類別或者關(guān)鍵詞,這種選擇傾向通常與用戶的長期偏好有關(guān)。用戶個人屬性信息,如用戶ID、所在地區(qū)等,將屬性編碼通過一個變換矩陣Wd轉(zhuǎn)換成稠密向量pd,將pd作為注意力機(jī)制中的查詢向量來計(jì)算每個興趣維度的注意力權(quán)重ak與興趣表示yj,如式(5)、式(6)所示。

將每個維度的興趣表示拼接,作為一個全連接神經(jīng)網(wǎng)絡(luò)的輸入,得到結(jié)果ulong為用戶長期興趣表示,如式(7)、式(8)所示。

2.3 用戶長短期偏好融合

用戶的短期興趣是動態(tài)的、多變的,通常我們從用戶近段時間內(nèi)的新聞閱讀歷史中學(xué)習(xí)用戶的短期偏好。為了捕獲用戶閱讀歷史中的序列信息,我們使用GRU 網(wǎng)絡(luò)來學(xué)習(xí)用戶的短期興趣表示。從2.1節(jié)可知,我們對新聞建模所得的新聞表示向量為d,用戶短期閱讀歷史序列的表示向量可表示為{d1,d2,…,dN},N為短期序列的長度,則GRU 網(wǎng)絡(luò)計(jì)算用戶短期興趣表示如式(9)~式(13)所示。

其中,“?”表示hadamard乘積,Wr、Wz、Wh~是GRU 網(wǎng)絡(luò)中需要學(xué)習(xí)的參數(shù),最后一個輸出的隱藏狀態(tài)記為用戶的短期興趣表示ushort。

最終,我們將用戶的長期興趣表示與短期興趣表示拼接,得到用戶完整的興趣偏好表示,如式(14)所示。

2.4 模型預(yù)測與訓(xùn)練

對于用戶與新聞的評分預(yù)測,我們采用簡單的點(diǎn)積來高效率地計(jì)算用戶與新聞的匹配得分,即score=uTd。

我們采用負(fù)采樣技術(shù)[18]進(jìn)行模型訓(xùn)練。對于每一個正樣本,即用戶點(diǎn)擊過的新聞,我們都隨機(jī)選取K個沒有被點(diǎn)擊的新聞作為負(fù)樣本,以此將原本復(fù)雜的預(yù)測問題轉(zhuǎn)變成K+1個二分類問題,以此簡化訓(xùn)練過程,提高計(jì)算效率。此條件下,每個正樣本被點(diǎn)擊的后驗(yàn)概率可表示如式(15)所示。

其中,P代表正樣本的數(shù)量,dPi表示第i個正樣本,dNi,j表示第i個正樣本的第j個負(fù)樣本,取所有正樣本點(diǎn)擊率的負(fù)似然對數(shù)之和作為模型的損失函數(shù),即:

3 實(shí)驗(yàn)與結(jié)果

3.1 評價指標(biāo)

為了驗(yàn)證本文提出的推薦方法的效果,我們采用以下幾種推薦系統(tǒng)常見的評價指標(biāo)來衡量方法的效果。

AUC該指標(biāo)指的是ROC 曲線與坐標(biāo)軸圍成的面積,其主要用來評價二分類模型的準(zhǔn)確度,在推薦場景中能夠反映模型對項(xiàng)目推薦效果的好壞。假設(shè)M、N分別為正負(fù)樣本的個數(shù),ranki為第i個正樣本的預(yù)測概率值的排序,AUC 的計(jì)算定義如式(17)所示。

MRR該指標(biāo)指的是多個推薦列表中項(xiàng)目排名的倒數(shù)平均值,它能夠反映第一個相關(guān)項(xiàng)目在推薦列表中的位置。假設(shè)Q為推薦列表的個數(shù),ranki為第i個推薦列表中第一個相關(guān)項(xiàng)目的排名,MRR 的計(jì)算定義如式(18)所示。

NDCG@K該指標(biāo)指的是歸一化折損累計(jì)增益,它能夠反映推薦中排序結(jié)果的準(zhǔn)確度和整個排序列表次序的質(zhì)量。其中,DCG@K 表示折損累計(jì)增益,它在計(jì)算中能夠使實(shí)際排名靠前的項(xiàng)目增益更高,對實(shí)際排名較后的項(xiàng)目進(jìn)行折損,K表示排序列表的長度,假設(shè)r(i)表示列表中第i個物品是否相關(guān),只有0和1兩種取值,DCG@K 的計(jì)算定義如式(19)所示。

使用DCG@K可對一個推薦列表進(jìn)行評價,但是每一位用戶的推薦列表長度可能不一致,因此需要將DCG 歸一化。假設(shè)Krel表示實(shí)際的排序列表中相關(guān)性最高的Krel個項(xiàng)目,計(jì)算理想的折損累計(jì)增益然后取DCG@K與IDCG@K的比值作為最終結(jié)果,即:

3.2 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

本文在公開的Adressa新聞數(shù)據(jù)集[27]上驗(yàn)證方法的有效性,該數(shù)據(jù)集是挪威當(dāng)?shù)匦侣劰九c挪威科技大學(xué)共同發(fā)表的一個大型真實(shí)新聞數(shù)據(jù)集,完整的數(shù)據(jù)集中包含了將近2 000萬條頁面瀏覽記錄。本文使用的是Adressa一周內(nèi)的數(shù)據(jù)集,數(shù)據(jù)集具體信息如表1所示。

表1 Adressa數(shù)據(jù)集統(tǒng)計(jì)信息

采取前五天數(shù)據(jù)作為訓(xùn)練集,后兩天數(shù)據(jù)作為測試集進(jìn)行實(shí)驗(yàn)。數(shù)據(jù)集涉及的新聞文本為挪威語,本文使用預(yù)訓(xùn)練好的Skip-gram 詞嵌入模型對新聞標(biāo)題、關(guān)鍵詞等字段進(jìn)行處理,詞嵌入維度為100。新聞標(biāo)題最大長度與歷史序列最大長度皆設(shè)置為50。CNN 卷積核個數(shù)設(shè)置為400,窗口大小為3,GRU 單元數(shù)設(shè)置為400。為了防止過擬合,增加了Dropout層[28]并將其比率設(shè)置為0.2。模型選擇Adam[29]作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 1,訓(xùn)練批次大小為32,負(fù)采樣中的K設(shè)置為4。

3.3 對比方法

本文選用了七個基線模型與本文提出的模型進(jìn)行比較。

DeepFM[30]Deep FM 是一個結(jié)合了因子分解機(jī)與深度神經(jīng)網(wǎng)絡(luò)的方法。本文使用新聞標(biāo)題、分類、關(guān)鍵詞的詞嵌入作為新聞特征,使用用戶閱讀歷史中的標(biāo)題序列結(jié)合用戶自身屬性作為用戶特征進(jìn)行實(shí)驗(yàn)。

Wide&Deep[31]Wide&Deep是一個融合了深層和淺層模型進(jìn)行聯(lián)合訓(xùn)練的方法,結(jié)合兩種模型各自的優(yōu)點(diǎn)提升了模型的性能。實(shí)驗(yàn)所使用的特征與Deep FM 方法相同。

A2SVD[32]A2SVD 是在異步SVD[33]的基礎(chǔ)上添加了注意力機(jī)制的方法。實(shí)驗(yàn)使用的特征同樣與Deep FM 方法相同。

Caser[34]Caser是一個基于卷積核的Top N序列推薦模型,模型的輸入采用用戶的歷史閱讀序列。

GRU4Rec[35]通過GRU 網(wǎng)絡(luò)進(jìn)行用戶表示學(xué)習(xí),預(yù)測接下來用戶可能點(diǎn)擊的項(xiàng)目,模型同Caser一樣采用用戶的歷史閱讀序列作為輸入。

Sli-Rec[32]Sli-Rec是一個基于深度學(xué)習(xí)的序列推薦模型,其目標(biāo)是捕捉用戶的長期與短期興趣進(jìn)行推薦。

LSTUR[18]LSTUR 分別使用用戶ID 與用戶閱讀歷史挖掘用戶的長期與短期興趣,從而進(jìn)行新聞推薦。

MDIA-LSTUP本文提出的方法,結(jié)合了注意力機(jī)制對多維度興趣進(jìn)行學(xué)習(xí),融合用戶的長短期偏好進(jìn)行新聞推薦。

3.4 實(shí)驗(yàn)結(jié)果與分析

我們將本文提出MDIA-LSTUP方法與另外七個基線模型在Adressa數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果如表2所示。

表2 本文方法與基線模型效果對比

結(jié)合各項(xiàng)指標(biāo)總體來看,除了MRR 指標(biāo)以外,在AUC、NDCG@5、NDCG@10幾個指標(biāo)上,本文方法都優(yōu)于其他基線模型。其中,MRR 與NDCG是對推薦系統(tǒng)具有排序意義的度量指標(biāo),在3.1節(jié)有所介紹,MRR 關(guān)注的是列表中最相關(guān)的一個項(xiàng)目的次序,只能反映一個項(xiàng)目在列表中的推薦效果,因此對于整個推薦列表的好壞無法準(zhǔn)確地反映,而NDCG 關(guān)注的是整個排序列表的質(zhì)量。本文所提出的MDIA-LSTUP方法雖然在MRR 指標(biāo)上低于GRU4Rec與Sli-Rec模型,但是在NDCG 指標(biāo)上都遠(yuǎn)高于這兩個模型,證明本文方法在推薦整個新聞列表的場景中是優(yōu)于GRU4Rec與Sli-Rec模型的。除此之外,本文的方法在MRR 指標(biāo)上低于這兩個模型的原因可能在于,考慮到長尾效應(yīng)的存在,方法融合了多個興趣維度,在推薦結(jié)果的新聞匹配列表中,有可能包含更多用戶不同維度興趣上的匹配新聞,提高了推薦的多樣性,但是與用戶最相關(guān)的新聞次序卻不一定能夠排在最前面,因而降低了MRR指標(biāo)。

其次,從表2還可看出,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí)的方法(如Sli-Rec、GRU4Rec、Caser)的表現(xiàn)都要優(yōu)于利用特征工程進(jìn)行特征抽取的方法(如Deep FM、Wide&Deep),這是因?yàn)樘卣鞴こ绦枰蕾嚾斯みM(jìn)行特征的選取,而表示學(xué)習(xí)是利用模型自動地對特征進(jìn)行學(xué)習(xí),能夠抽取出更利于模型匹配的特征。另外,我們還發(fā)現(xiàn)基于序列推薦的模型(如Sli-Rec、GRU4Rec、Caser)要優(yōu)于其他幾類非序列推薦的模型,這可能是因?yàn)樵诒疚乃褂玫臄?shù)據(jù)集中用戶與新聞的交互擁有嚴(yán)格的時間順序上的關(guān)系,序列推薦相關(guān)的模型能夠考慮到用戶與新聞的交互歷史中的順序依賴性,從而捕獲到更準(zhǔn)確的用戶偏好,因此在接下來預(yù)測用戶可能進(jìn)行交互的新聞時,推薦結(jié)果會比沒有考慮順序性的模型更加準(zhǔn)確。

在幾個方法中,本文提出的方法MDIA-LSTUP與LSTUR、Sli-Rec兩個模型都對用戶的長短期興趣進(jìn)行了挖掘,而且這三個方法都比沒有學(xué)習(xí)用戶長短期興趣的方法效果更好。這一定程度上可以證明,對用戶的長期興趣與短期興趣分別建立模型,學(xué)習(xí)長短期偏好的表示,是能夠提高新聞推薦的預(yù)測結(jié)果的。而且,本文方法的實(shí)驗(yàn)結(jié)果比LSTUR 模型略有提升,這可能是因?yàn)?本文模型在進(jìn)行長期興趣表征時學(xué)習(xí)了用戶閱讀歷史中多維度的興趣表示,并通過注意力機(jī)制調(diào)整了不同維度興趣的影響力,而LSTUR 僅使用用戶ID 進(jìn)行長期興趣表示,缺少對用戶興趣的挖掘,因此本文提出的方法效果要更好一些。

最后,我們對用戶長期偏好建模中各部分的效果進(jìn)行了對比,結(jié)果如圖3、圖4所示。圖3展示了長期偏好建模中是否使用注意力機(jī)制的不同效果,其中,“平均權(quán)重”指的是在進(jìn)行興趣維度的拼接時,使用平均值而不是注意力權(quán)重來合成長期興趣表示。而使用注意力機(jī)制的方法明顯要比平均權(quán)重的方法表現(xiàn)得更好,可見用戶不同興趣維度對用戶整體長期偏好建模的重要性有所不同,因此需要注意力機(jī)制捕捉不同興趣對用戶的影響力,從而建立更準(zhǔn)確的長期偏好表示。

圖3 長期偏好建模中注意力機(jī)制與平均權(quán)重的效果對比

圖4 長期偏好建模中不同屬性的效果對比

圖4展示了長期偏好建模中使用不同屬性時的結(jié)果,比如“僅類別”指的是在建立長期偏好表示的過程中,只使用新聞ID 與新聞類別屬性,其余以此類推。從圖中可以看出,僅加入關(guān)鍵詞屬性的方法表現(xiàn)最好,僅加入子類別的方法表現(xiàn)次之,而僅加入類別時模型準(zhǔn)確率最低,這大概是因?yàn)槿甙男畔⒘坎灰粯印jP(guān)鍵詞屬性所包含的信息量最豐富,因此單獨(dú)對關(guān)鍵詞建模時模型效果已經(jīng)令人較為滿意,子類別包含的信息雖然不如關(guān)鍵詞豐富,但也比類別屬性好一些。最后,使用全部屬性的時候模型效果最好,可證明選擇融合這幾種屬性對用戶長期興趣建模是有效的。

4 總結(jié)

本文提出了一種基于多維度興趣注意力的用戶長短期偏好模型進(jìn)行新聞推薦。針對新聞推薦數(shù)據(jù)集中長尾效應(yīng)的現(xiàn)象,本文的模型在進(jìn)行長期用戶偏好學(xué)習(xí)時,結(jié)合注意力機(jī)制對用戶多維度興趣進(jìn)行挖掘,得到含有多種興趣維度信息的長期偏好建模。除此之外,本文方法使用基于CNN 與注意力網(wǎng)絡(luò)的方法對新聞標(biāo)題、分類、關(guān)鍵詞進(jìn)行建模,然后結(jié)合GRU 網(wǎng)絡(luò)從用戶的近期閱讀歷史中學(xué)習(xí)用戶的短期偏好,再與上述學(xué)習(xí)到的長期偏好相融合進(jìn)行新聞推薦。本文在一個大型的真實(shí)新聞數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),通過與其他基線模型相對比,證實(shí)了本文方法的有效性。

猜你喜歡
多維度注意力建模
讓注意力“飛”回來
聯(lián)想等效,拓展建?!浴皫щ娦∏蛟诘刃鲋凶鰣A周運(yùn)動”為例
“多維度評改”方法初探
基于PSS/E的風(fēng)電場建模與動態(tài)分析
電子制作(2018年17期)2018-09-28 01:56:44
不對稱半橋變換器的建模與仿真
多維度市南
商周刊(2017年7期)2017-08-22 03:36:22
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
三元組輻射場的建模與仿真
多維度巧設(shè)聽課評價表 促進(jìn)聽評課的務(wù)實(shí)有效
體育師友(2012年4期)2012-03-20 15:30:10
乡宁县| 昌平区| 蓬溪县| 博野县| 曲阳县| 昭平县| 利辛县| 丰镇市| 会同县| 孝义市| 登封市| 湟中县| 青浦区| 万盛区| 沙雅县| 黄山市| 正安县| 黄平县| 贡嘎县| 揭阳市| 宁南县| 手游| 永济市| 新沂市| 南投市| 神木县| 永顺县| 太仆寺旗| 门头沟区| 麻栗坡县| 河源市| 常熟市| 宁南县| 乌海市| 东莞市| 塘沽区| 衡山县| 松滋市| 武鸣县| 潮州市| 福鼎市|