国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

利用知識圖譜的推薦系統(tǒng)研究綜述

2023-02-28 09:19張明星張驍雄劉姍姍楊琴琴
關(guān)鍵詞:圖譜實(shí)體利用

張明星,張驍雄,劉姍姍,田 昊,3,楊琴琴,3

1.南京信息工程大學(xué) 電子與信息工程學(xué)院,南京 210044

2.國防科技大學(xué) 第六十三研究所,南京 210007

3.南京信息工程大學(xué) 計(jì)算機(jī)學(xué)院、軟件學(xué)院、網(wǎng)絡(luò)空間安全學(xué)院,南京 210044

互聯(lián)網(wǎng)的快速發(fā)展給人們的生活帶來便利的同時也引起了信息過載[1],用戶很難從海量信息中獲取真正感興趣的內(nèi)容。為了增強(qiáng)用戶體驗(yàn),推薦系統(tǒng)被廣泛應(yīng)用于視頻[2]、音樂[3]、新聞[4]、商品[5]等各種推薦場景。

推薦系統(tǒng)旨在為用戶篩選可能感興趣的項(xiàng)目,傳統(tǒng)的協(xié)同過濾算法的實(shí)現(xiàn)需要利用用戶和項(xiàng)目之間的交互信息。在現(xiàn)實(shí)生活中,這些交互信息相對于海量的用戶、項(xiàng)目數(shù)據(jù)是相當(dāng)匱乏的,尤其是電商領(lǐng)域,這給推薦系統(tǒng)帶來了數(shù)據(jù)稀疏問題。此外,傳統(tǒng)推薦算法對新用戶或新項(xiàng)目進(jìn)行推薦時很難達(dá)到理想效果,即存在冷啟動問題。

研究者通過引入輔助信息來解決推薦系統(tǒng)中普遍存在的數(shù)據(jù)稀疏和冷啟動問題,例如文本[6]、圖像[7]、標(biāo)簽[8]、知識圖譜(knowledge graph,KG)[9]等。在這些輔助信息中,知識圖譜不僅能夠緩解以上問題,同時能夠增強(qiáng)推薦的整體性能。具體地,利用知識圖譜的推薦系統(tǒng)研究意義如下:

(1)建立目標(biāo)項(xiàng)目與KG 中實(shí)體的聯(lián)系,從而緩解傳統(tǒng)算法中的數(shù)據(jù)稀疏和冷啟動問題;

(2)利用KG 中不同項(xiàng)目間的語義相關(guān)性,挖掘項(xiàng)目間的潛在聯(lián)系,提高推薦結(jié)果的準(zhǔn)確性;

(3)挖掘KG 項(xiàng)目的屬性對用戶的潛在興趣建模,更全面地理解用戶需求,豐富推薦內(nèi)容的多樣性;

(4)利用KG中關(guān)系路徑連接用戶的歷史興趣和推薦項(xiàng)目,增強(qiáng)用戶對推薦結(jié)果的滿意度。

鑒于知識圖譜對推薦系統(tǒng)具有重要意義,而傳統(tǒng)綜述工作[10-11]缺乏對最新算法性能的比較,本文對該領(lǐng)域最新研究進(jìn)展進(jìn)行綜述。其特點(diǎn)主要體現(xiàn)在:分析研究現(xiàn)狀時,討論不同類型技術(shù)存在的問題和挑戰(zhàn),并總結(jié)現(xiàn)有的改進(jìn)方案,最后采用定量的方法進(jìn)行性能比較;介紹應(yīng)用場景時,總結(jié)相關(guān)數(shù)據(jù)集,針對不同推薦場景的特點(diǎn)討論其對應(yīng)的算法方案,并對比不同算法在應(yīng)用過程中的優(yōu)缺點(diǎn)。

1 研究概述

本文首先從推薦系統(tǒng)和知識圖譜兩方面進(jìn)行背景介紹,通過闡述傳統(tǒng)推薦算法存在的問題,進(jìn)一步說明知識圖譜引入到推薦系統(tǒng)中的重要性,隨后給出利用知識圖譜的推薦系統(tǒng)問題定義。

1.1 推薦系統(tǒng)

推薦系統(tǒng)是一種篩選信息的方法,通過用戶-項(xiàng)目的歷史交互信息理解項(xiàng)目屬性和用戶偏好,并基于捕獲的用戶偏好為用戶推薦可能感興趣的項(xiàng)目。按照不同的算法分類,可以將推薦系統(tǒng)分為基于內(nèi)容的推薦、基于協(xié)同過濾的推薦以及混合推薦[12]。

基于內(nèi)容的推薦算法從項(xiàng)目的輔助信息中提取屬性,并通過用戶歷史興趣項(xiàng)目的特征獲取用戶表示。該方法通過計(jì)算項(xiàng)目之間的相似性,可以為用戶推薦與曾經(jīng)喜歡過的項(xiàng)目相似的新項(xiàng)目,但存在新用戶的冷啟動問題。此外提取項(xiàng)目屬性是一個復(fù)雜的過程,并直接影響推薦結(jié)果的準(zhǔn)確性[10];推薦項(xiàng)目之間相似性較高,缺乏多樣性,很難達(dá)到讓用戶滿意的效果。

基于協(xié)同過濾的推薦算法主要包含了兩類技術(shù),即基于內(nèi)存的協(xié)同過濾和基于模型的協(xié)同過濾[13]?;趦?nèi)存的協(xié)同過濾利用用戶-項(xiàng)目交互信息學(xué)習(xí)不同用戶之間的相似性,并向目標(biāo)用戶推薦與其相似的用戶所喜歡的項(xiàng)目。此外,一些方法考慮學(xué)習(xí)項(xiàng)目之間的相似性,并根據(jù)用戶的歷史偏好為用戶推薦相似項(xiàng)目?;趦?nèi)存的協(xié)同過濾方法避免了項(xiàng)目特征的提取過程,但所利用的用戶-項(xiàng)目的交互信息在現(xiàn)實(shí)環(huán)境中非常稀疏?;谀P偷膮f(xié)同過濾方法利用機(jī)器學(xué)習(xí)的思想建立推理模型,從而預(yù)測用戶對項(xiàng)目的評分,例如矩陣分解模型[14]將用戶-項(xiàng)目的交互矩陣分解成用戶矩陣和項(xiàng)目矩陣,通過矩陣乘法運(yùn)算預(yù)測每個用戶對不同項(xiàng)目的評分。這類方法通過少量交互信息構(gòu)建推薦系統(tǒng)模型,從而有效緩解數(shù)據(jù)稀疏問題。

混合推薦算法一方面可以融合多種技術(shù),例如文獻(xiàn)[15]將深度學(xué)習(xí)應(yīng)用于混合推薦,將深度學(xué)習(xí)與機(jī)器學(xué)習(xí)模型相結(jié)合,從多個角度學(xué)習(xí)用戶和項(xiàng)目之間的交互,從而更全面地理解用戶偏好,增強(qiáng)模型的泛化能力;另一方面可以融合多方面信息,文獻(xiàn)[16]通過將知識圖譜中結(jié)構(gòu)化信息與文本信息結(jié)合來豐富項(xiàng)目的語義表示,構(gòu)建了一個高效的混合推薦系統(tǒng)?;旌贤扑]系統(tǒng)彌補(bǔ)了不同技術(shù)的缺點(diǎn),增強(qiáng)用戶、項(xiàng)目的特征表示,能夠有效緩解傳統(tǒng)推薦算法中普遍存在的數(shù)據(jù)稀疏和冷啟動問題。

1.2 知識圖譜

知識圖譜的本質(zhì)是對知識的結(jié)構(gòu)化表示,其概念最早由Google 公司提出,目的在于提升搜索引擎的搜索質(zhì)量,增強(qiáng)用戶搜索體驗(yàn)[11]。知識圖譜由節(jié)點(diǎn)和邊組成,其中節(jié)點(diǎn)表示實(shí)體或概念,邊表示屬性或關(guān)系。知識圖譜通常以三元組<頭實(shí)體-關(guān)系-尾實(shí)體>的形式存儲,可以最直觀地表述客觀事實(shí)和實(shí)體間的關(guān)系。例如<戰(zhàn)狼-導(dǎo)演-吳京>表示“吳京”和電影“戰(zhàn)狼”之間存在“導(dǎo)演”關(guān)系。隨著互聯(lián)網(wǎng)的快速發(fā)展,知識圖譜被廣泛應(yīng)用到搜索引擎、推薦系統(tǒng)、智能問答等領(lǐng)域。

用于推薦任務(wù)的知識圖譜可以分為兩類,其中最普遍的一種如文獻(xiàn)[17-18]等構(gòu)建的項(xiàng)目知識圖譜(item knowledge graph,IKG)。此外,文獻(xiàn)[19-20]等將用戶-項(xiàng)目間存在的不同交互類型視為多種關(guān)系,從而構(gòu)建用戶-項(xiàng)目交互的知識圖譜,并與項(xiàng)目知識圖譜集成為統(tǒng)一的協(xié)同知識圖譜(collaborative knowledge graph,CKG)進(jìn)行推薦。

將知識圖譜引入到推薦系統(tǒng)作為一種混合推薦方法能夠彌補(bǔ)傳統(tǒng)算法的不足。如圖1,利用知識圖譜中提供的電影“長津湖”“戰(zhàn)狼”的屬性信息,可以緩解傳統(tǒng)算法中的數(shù)據(jù)稀疏和冷啟動問題。利用額外的屬性信息,學(xué)習(xí)項(xiàng)目之間的相似性,提高推薦結(jié)果的準(zhǔn)確性。同時,根據(jù)“長津湖”的屬性信息,可以為喜歡“長津湖”的用戶推薦“陳凱歌”導(dǎo)演或“吳京”主演的其他影視作品,豐富推薦內(nèi)容的多樣性。此外,“吳京”同時出演了“長津湖”和“戰(zhàn)狼”,且兩部電影都屬于戰(zhàn)爭片,因此推薦“戰(zhàn)狼”給喜歡“長津湖”的用戶更容易滿足用戶需求。

圖1 知識圖譜示例Fig.1 Knowledge graph example

1.3 問題定義

一種典型的利用知識圖譜的推薦系統(tǒng)定義如下:U={u1,u2,…}和I={i1,i2,…}分別表示用戶和項(xiàng)目的集合,利用用戶的反饋信息構(gòu)建用戶-項(xiàng)目的交互矩陣Y,其中yui表示用戶u和項(xiàng)目i之間存在交互。此外,V和R分別表示知識圖譜中的實(shí)體集合和關(guān)系集合,知識圖譜G={(h,r,t)|h,t∈V,r∈R}表示為三元組的集合,每一個三元組表示頭實(shí)體h與尾實(shí)體t之間存在關(guān)系r。推薦系統(tǒng)的目標(biāo)是通過定義的交互矩陣Y和知識圖譜G,預(yù)測目標(biāo)用戶與目標(biāo)項(xiàng)目交互的概率。圖2為利用知識圖譜的推薦系統(tǒng)示意圖。根據(jù)已知的用戶-項(xiàng)目交互數(shù)據(jù)和項(xiàng)目知識圖譜預(yù)測未知的用戶-項(xiàng)目交互的概率得分,其中每個項(xiàng)目都能夠在知識圖譜中找到對應(yīng)的項(xiàng)目實(shí)體和屬性信息,從而進(jìn)行合理推薦。

圖2 利用知識圖譜的推薦系統(tǒng)示意圖Fig.2 Recommendation example based on knowledge graph

2 研究現(xiàn)狀

現(xiàn)有利用知識圖譜的推薦系統(tǒng)主要依賴三種核心技術(shù),即知識圖譜嵌入、路徑實(shí)例挖掘以及高階信息聚合。為了方便閱讀和查詢,表1對部分相關(guān)文獻(xiàn)進(jìn)行了整理,其主要來源于推薦系統(tǒng)領(lǐng)域的頂級會議和期刊。

表1 相關(guān)文獻(xiàn)分類表Table 1 Classification of relevant references

2.1 知識圖譜嵌入

知識圖譜嵌入利用圖嵌入技術(shù)獲取用戶和項(xiàng)目表示。文獻(xiàn)[53]提出將知識圖譜嵌入技術(shù)分為兩類,基于距離的翻譯嵌入(translational distance models)和基于語義匹配的嵌入(semantic matching models)。

2.1.1 基本理論與方法

基于距離的翻譯模型將實(shí)體和關(guān)系表示為連續(xù)的向量空間,并計(jì)算兩個實(shí)體之間的距離來衡量一個三元組表述事實(shí)的合理性。在基于距離的翻譯模型中,Trans系列算法如TransE[54]、TransH[55]、TransR[56]、TransD[57]被廣泛應(yīng)用。例如,文獻(xiàn)[21]利用改進(jìn)后的TransR算法學(xué)習(xí)項(xiàng)目實(shí)體的嵌入向量,通過結(jié)合知識圖譜嵌入和協(xié)同過濾算法的損失函數(shù)獲得最終的實(shí)體嵌入表示,相較于基線模型,在MovieLens-1M 和Amazon-Book 數(shù)據(jù)集上recall@50分別提高2.46%和7.66%。KTUP(knowledgeenhanced translation-based user preference)模型[22]利用知識圖譜中的關(guān)系為用戶的偏好建模,使用TransH 算法更新用戶和項(xiàng)目的表示,最后將推薦任務(wù)和知識圖譜補(bǔ)全結(jié)合,同時提高這兩個任務(wù)的性能。此外,基于距離的翻譯嵌入還包括高斯嵌入KG2E[58]、TransG[59]等。

基于語義匹配模型通過向量空間中實(shí)體和關(guān)系的潛在語義表示計(jì)算相似性評分,來衡量三元組表述事實(shí)的合理性[53]。DKRL(description-embodied knowledge representation learning)[23]利用DistMult[60]算法,將每個關(guān)系編碼為一個對角矩陣,并考慮實(shí)體的潛在特征和關(guān)系表示的成對交互,以計(jì)算三元組的合理性。MSAKR(multi-task feature learning approach for social relationship and knowledge graph enhanced recommendation)模型[24]將基于語義匹配的知識圖譜學(xué)習(xí)模型與用戶社交關(guān)系融合,實(shí)現(xiàn)在豆瓣電影數(shù)據(jù)集上較融合社交關(guān)系的模型[61]AUC(area under curve)及Acc(accuracy)指標(biāo)分別提升5.80%和2.10%。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,一些新的語義匹配模型SME(semantic matching energy)[62]、MLP(multilayer perceptron)[63]被廣泛應(yīng)用。

2.1.2 現(xiàn)有挑戰(zhàn)與改進(jìn)

傳統(tǒng)的基于知識圖譜嵌入的推薦方法[18,20]將圖嵌入模塊和推薦模塊視為兩個單獨(dú)的部分,首先通過圖嵌入模塊學(xué)習(xí)知識圖譜中實(shí)體和關(guān)系的向量表示,再將預(yù)先訓(xùn)練的實(shí)體表示輸入到推薦模塊進(jìn)行預(yù)測。這種低耦合的依次訓(xùn)練方式更適合知識圖譜內(nèi)部的任務(wù),如知識圖譜補(bǔ)全、關(guān)系預(yù)測等。為了更好地結(jié)合兩個模塊,文獻(xiàn)[17,25]將圖嵌入模塊的損失結(jié)合到推薦算法的目標(biāo)函數(shù)中,進(jìn)行聯(lián)合訓(xùn)練。通過聯(lián)合學(xué)習(xí)的方式,推薦模塊能夠?qū)D嵌入模塊提供反饋,從而更利于實(shí)體的特征學(xué)習(xí),提升推薦系統(tǒng)的整體性能。文獻(xiàn)[26-27]采用多任務(wù)學(xué)習(xí)的框架,利用知識圖譜嵌入任務(wù)來輔助推薦任務(wù)構(gòu)成交替訓(xùn)練方式。兩個任務(wù)通過中間的交叉壓縮單元關(guān)聯(lián),明確建模項(xiàng)目和實(shí)體特征之間的高階交互,并自動共享潛在特征。通過交叉壓縮單元,項(xiàng)目和實(shí)體的表示可以相互補(bǔ)充,進(jìn)而避免過擬合并提高模型泛化能力。

另一方面,知識圖譜嵌入方法不能充分利用知識圖譜中的高階信息。因此通常需要引入語義信息豐富推薦系統(tǒng)中的項(xiàng)目表示。例如,文獻(xiàn)[28]結(jié)合圖嵌入和上下文的單詞表示進(jìn)行混合推薦,首先基于TransE 和TransH獲得知識圖譜中的實(shí)體和關(guān)系的結(jié)構(gòu)化表示,然后使用BERT(bidirectional encoder representation from transformers)[64]文本編碼策略獲得實(shí)體的語義信息,最后學(xué)習(xí)基于圖譜和單詞嵌入的用戶和項(xiàng)目的混合表示,并通過預(yù)測用戶對項(xiàng)目的興趣來進(jìn)行合理的推薦。文獻(xiàn)[29]提出融合標(biāo)簽與知識圖譜的方法,并融合注意力和自注意力機(jī)制,通過標(biāo)簽和實(shí)體為物品特征分配混合注意力權(quán)重,從而實(shí)現(xiàn)推薦準(zhǔn)確性的提升。文獻(xiàn)[30]整合知識圖譜與項(xiàng)目共現(xiàn)數(shù)據(jù)(例如item1、item2、co-buy)進(jìn)行推薦,其中共現(xiàn)數(shù)據(jù)包含了豐富的項(xiàng)目-項(xiàng)目相似性信息,從而彌補(bǔ)知識圖譜中有向關(guān)系無法揭示的潛在關(guān)系,使得模型HR(hit ratio)@20指標(biāo)在電影數(shù)據(jù)集上提升3.96%。

2.2 路徑實(shí)例挖掘

路徑實(shí)例挖掘方法利用知識圖譜中關(guān)系信息連接用戶和目標(biāo)項(xiàng)目來增強(qiáng)推薦,通常需要手動設(shè)置元路徑以便進(jìn)一步挖掘用戶-項(xiàng)目之間的路徑實(shí)例。

2.2.1 基本理論與方法

PER(personalized entity recommendation)模型[31]構(gòu)建user-item-*-item 的元路徑形式,然后沿著不同的元路徑擴(kuò)散用戶偏好,為用戶和項(xiàng)目生成潛在特征。文獻(xiàn)[32]提出MG-HIF(multi-graph heterogeneous interaction fusion)模型,融合交互信息和用戶社交網(wǎng)絡(luò),利用元路徑生成多個不同頂點(diǎn)的序列,最后通過互相關(guān)方法學(xué)習(xí)用戶-項(xiàng)目的表示。文獻(xiàn)[33]基于元路徑的隨機(jī)游走生成能夠捕獲不同類型節(jié)點(diǎn)之間的語義和結(jié)構(gòu)相關(guān)性路徑??紤]到隨機(jī)游走策略生成的路徑實(shí)例可能帶來干擾信息,MCRec(meta-path based context for recommendation)模型[34]使用基于優(yōu)先級的采樣技術(shù)來選擇高質(zhì)量的路徑實(shí)例,并通過SVDFeature(singular value decomposition)[65]在圖上訓(xùn)練每個節(jié)點(diǎn)的表達(dá),計(jì)算當(dāng)前節(jié)點(diǎn)到下一個候選節(jié)點(diǎn)的相似度作為優(yōu)先度。最后,根據(jù)優(yōu)先度得分對所有候選路徑實(shí)例進(jìn)行排序,在MovieLens 數(shù)據(jù)集上NDCG@10 指標(biāo)達(dá)到0.69,提高了推薦系統(tǒng)的有效性和可解釋性。

知識圖譜中的路徑實(shí)例包含用戶-項(xiàng)目之間的遠(yuǎn)程語義連接,使得推薦系統(tǒng)具有較強(qiáng)的可解釋性。文獻(xiàn)[35]利用強(qiáng)化學(xué)習(xí)方法,根據(jù)用戶的歷史偏好信息,有效地推理高質(zhì)量路徑進(jìn)行推薦。文獻(xiàn)[36]提出了時間元路徑引導(dǎo)的可解釋推薦,它考慮了用戶在序列感知推薦的全局知識圖譜上行為的動態(tài)性,并通過注意力機(jī)制來探索用戶-項(xiàng)目和項(xiàng)目-項(xiàng)目的元路徑進(jìn)行可解釋的推薦,提高了用戶對推薦結(jié)果的滿意程度。

2.2.2 現(xiàn)有挑戰(zhàn)與改進(jìn)

基于元路徑的推薦算法的性能非常依賴元路徑的質(zhì)量,因此通常需要借助領(lǐng)域?qū)I(yè)知識進(jìn)行輔助推薦。此外,每個提取的路徑都是獨(dú)立建模的,不能充分利用知識圖譜隱含的結(jié)構(gòu)信息。文獻(xiàn)[37]引入元圖的概念,首先計(jì)算元圖引導(dǎo)下用戶和項(xiàng)目之間的相似度,然后利用無監(jiān)督的矩陣分解技術(shù)獲得用戶和項(xiàng)目的潛在向量,最后使用因子分解機(jī)[14]技術(shù)整合從不同元圖中計(jì)算出的用戶和項(xiàng)目向量集,從而進(jìn)行推薦。相較于基于元路徑的HeteRec(heterogeneous information network approach for recommendation)[31]模型,在Yelp數(shù)據(jù)集上均方根誤差下降4.20%。與元路徑方法不同,元圖只需考慮目標(biāo)用戶和推薦項(xiàng)目,而不限制兩個節(jié)點(diǎn)之間的實(shí)體性質(zhì),因此在預(yù)測過程中加入了更復(fù)雜的語義以增強(qiáng)推薦系統(tǒng)的整體性能。

元圖的概念在文獻(xiàn)[38-39]中也被稱為元結(jié)構(gòu)。其中文獻(xiàn)[38]考慮到元結(jié)構(gòu)的數(shù)量隨著其大小和節(jié)點(diǎn)類型的數(shù)量呈指數(shù)增長,因此采用遺傳算法來自動搜索元結(jié)構(gòu),并設(shè)計(jì)基于注意力機(jī)制的多視圖圖卷積網(wǎng)絡(luò)模塊來動態(tài)地融合來自不同元結(jié)構(gòu)的信息。相較于手動設(shè)置元路徑的基線模型,利用優(yōu)化后的元結(jié)構(gòu)進(jìn)行推薦在大多數(shù)評估指標(biāo)上實(shí)現(xiàn)了超過6%的性能提升。

2.3 高階信息聚合

基于知識圖譜高階信息聚合的推薦方法將嵌入的語義信息與知識圖譜中的路徑結(jié)合起來,通過多個鄰居豐富用戶和項(xiàng)目的表示。

2.3.1 基本理論與方法

RippleNet 模型[40]認(rèn)為用戶歷史交互過的項(xiàng)目能夠在一定程度上表示用戶偏好,將用戶歷史興趣集與知識圖譜中的實(shí)體對齊,視為KG 中的種子集合,然后沿著KG 鏈接迭代地?cái)U(kuò)展用戶興趣,捕捉高階語義信息以構(gòu)建用戶的向量表示。文獻(xiàn)[41]在該模型的基礎(chǔ)上引入注意力機(jī)制,使得節(jié)點(diǎn)聚合的過程中更關(guān)注相似度高的節(jié)點(diǎn),得到更準(zhǔn)確的用戶向量加權(quán)表示,與RippleNet模型相比,在電影、圖書、音樂數(shù)據(jù)集上準(zhǔn)確率分別提升1.9%、0.8%和5.8%。

文獻(xiàn)[42]受到圖卷積網(wǎng)絡(luò)的啟發(fā),提出了知識圖譜卷積網(wǎng)絡(luò)(knowledge graph convolutional networks,KGCN)。具體的,KGCN 首先設(shè)計(jì)了一種注意力機(jī)制用于描述關(guān)系對用戶的重要性得分,為給定的用戶識別重要關(guān)系信息;隨后,將知識圖譜轉(zhuǎn)換為用戶特定的加權(quán)圖,通過注意力得分加權(quán)得到目標(biāo)項(xiàng)目的鄰域表示;最后,通過傳播和聚合鄰域信息來計(jì)算項(xiàng)目節(jié)點(diǎn)的嵌入表示進(jìn)行推薦。KGCN-LS[43]針對KGCN中容易出現(xiàn)過擬合的問題增加標(biāo)簽平滑(label smoothness,LS)機(jī)制,將標(biāo)簽平滑度作為附加的正則化來指導(dǎo)學(xué)習(xí)過程,實(shí)現(xiàn)更好的泛化。

CKAN(collaborative knowledge-aware attentive network)模型[44]采用RippleNet 的思想,利用用戶-項(xiàng)目的交互信息為用戶和項(xiàng)目分別構(gòu)建初始實(shí)體集,利用KG聚合高階關(guān)系獲得用戶項(xiàng)目的鄰域表示。考慮到初始實(shí)體集與用戶和項(xiàng)目有很強(qiáng)的聯(lián)系,用戶和項(xiàng)目最終表示還需要結(jié)合初始集的實(shí)體表示,特別的,項(xiàng)目表示考慮其實(shí)體本身的原始表示。CKAN 采用的傳播策略對交互信息和KG進(jìn)行編碼,使得用戶和項(xiàng)目的表示都能充分利用兩部分信息,在四個數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了比其他基于高階信息聚合模型的優(yōu)越性。

2.3.2 現(xiàn)有挑戰(zhàn)與改進(jìn)

現(xiàn)有的高階信息聚合方案大多是基于節(jié)點(diǎn)的,即從相鄰節(jié)點(diǎn)收集信息,而不區(qū)分信息來自哪些路徑,因此不足以捕獲關(guān)系之間的相互作用。與以上基于節(jié)點(diǎn)聚合的機(jī)制不同,KGIN(knowledge graph-based intent network)模型[45]將關(guān)系路徑視為一個信息通道,并將每個通道嵌入到一個表示向量中。首先利用KG 關(guān)系的注意組合來建立用戶選擇項(xiàng)目的意圖集合,因此目標(biāo)用戶可以表示為不同意圖的加權(quán)和。然后結(jié)合相連實(shí)體的關(guān)系感知信息來生成項(xiàng)目表示。這種表示反映了關(guān)系之間的相互作用,并保留了路徑的整體語義。

知識圖譜中的一個實(shí)體通常存在于多個三元組中,因此該類方法[19,44]在聚合高階的信息時,隨著跳數(shù)增加,計(jì)算量呈指數(shù)型增長。一些模型[40,42]通過固定采樣大小來減少計(jì)算開銷,通過隨機(jī)選取樣本的方式選擇性聚合鄰域信息。這種采樣方式無法區(qū)分鄰居實(shí)體的重要性,此外,將采樣過程和推薦過程分離限制了模型端到端的訓(xùn)練方式。文獻(xiàn)[66]強(qiáng)調(diào)在抽樣過程中關(guān)系的重要性,基于關(guān)系計(jì)算目標(biāo)項(xiàng)目和鄰居實(shí)體的相關(guān)性分?jǐn)?shù),按照相關(guān)性得分選擇k個最相關(guān)的鄰居實(shí)體,并將采樣過程和推薦過程進(jìn)行聯(lián)合優(yōu)化,因此模型可以正確地選擇有價值的信息進(jìn)行聚合,在聚合8個鄰居的情況下獲得最佳性能。文獻(xiàn)[46]使用優(yōu)化的圖卷積網(wǎng)絡(luò),去除特征轉(zhuǎn)換和非線性激活模塊,模型在不影響性能的情況下,時間復(fù)雜度優(yōu)化了56%左右。

另一方面,聚合知識圖譜中與推薦無關(guān)的信息(稱為噪聲)給模型性能帶來了干擾。AKUPM(attentionenhanced knowledge-aware user preference model)模型[47]為了過濾掉噪聲,利用知識圖譜中用戶的點(diǎn)擊歷史傳播,這樣每個合并的實(shí)體都與用戶相關(guān)。ATBRG(adaptive target behavior relational graph)模型[5]根據(jù)用戶歷史行為和目標(biāo)項(xiàng)目進(jìn)行連接和剪枝操作來提取目標(biāo)-行為關(guān)系圖,所提取的關(guān)系子圖自適應(yīng)地保留連接用戶行為和目標(biāo)項(xiàng)目的有用信息,推動模型提供更有效的推薦。KGCL(knowledge graph contrastive learning)模型[48]將對比學(xué)習(xí)方法應(yīng)用到知識圖譜表示學(xué)習(xí)中,首先在項(xiàng)目知識圖譜上采用隨機(jī)數(shù)據(jù)增強(qiáng)方案生成兩個相關(guān)的數(shù)據(jù)視圖,并推導(dǎo)項(xiàng)目在不同視圖上表示的一致性,以反映該項(xiàng)目對噪聲擾動的不變性。在信息聚合模塊中選擇一致性得分越高的項(xiàng)目,則受噪聲影響越小,對用戶真實(shí)興趣的建模貢獻(xiàn)越大。類似地,MCCLK(multi-level cross-view contrastive learning)模型[49]將用戶-項(xiàng)目-實(shí)體圖拆分為用戶-項(xiàng)目和項(xiàng)目-實(shí)體兩個子圖,通過子圖之間以及子圖與全局視圖間的交叉對比學(xué)習(xí),在三個數(shù)據(jù)集上相較于最優(yōu)的KGIN 模型[45],AUC指標(biāo)提升1.61%~3.11%。

2.4 實(shí)驗(yàn)對比

為了進(jìn)一步對比不同方法的性能和復(fù)雜度,本節(jié)基于Recbole 框架[67],在MovieLens-100k 數(shù)據(jù)集上對常見的幾種基線模型的實(shí)驗(yàn)結(jié)果進(jìn)行討論。如表2,利用召回率(Recall)和準(zhǔn)確率(Precision)對前10項(xiàng)推薦結(jié)果進(jìn)行評估。

表2 常見的幾種基線模型對比Table 2 Comparison of several common baseline models

ItemKNN(itemK-nearest neighbor)[68]是基于k近鄰和項(xiàng)目相似度的傳統(tǒng)協(xié)同過濾方法,將它作為基線模型與基于KG的方法進(jìn)行對比。從實(shí)驗(yàn)結(jié)果來看,大多數(shù)基于KG 的模型在Recall@10 和Precision@10 指標(biāo)上都能超過傳統(tǒng)的協(xié)同過濾。然而,對知識圖譜中實(shí)體信息的學(xué)習(xí)需要花費(fèi)額外的時間,尤其是對高階信息進(jìn)行聚合時,訓(xùn)練時間呈指數(shù)形式增長。另外,利用知識圖譜嵌入技術(shù)的KTUP 模型[22]和MKR(multi-task learning for recommendation)模型[27]的性能提升并不明顯,這是因?yàn)槟P蜎]有充分利用知識圖譜的知識,同時知識圖譜中可能存在與推薦無關(guān)的干擾信息,而現(xiàn)有模型對噪聲信息的處理缺乏更深入的研究。

相比于利用知識圖譜嵌入的推薦方法,高階信息聚合方法RippleNet[40]、KGCN[42]、KGAT(knowledge graph attention network)[19]、KGIN[45]通過對項(xiàng)目鄰居節(jié)點(diǎn)的聚合,能夠有效地提升推薦性能,尤其是后三者通過注意力機(jī)制識別項(xiàng)目周圍實(shí)體的重要性,相比于RippleNet模型的隨機(jī)選擇鄰居方式更具有優(yōu)勢。

此外,為了探討知識圖譜高階信息對推薦結(jié)果的影響,在RippleNet 模型和KGIN 模型上進(jìn)行對比實(shí)驗(yàn)。RippleNet-2hop中通過將項(xiàng)目周圍的二階實(shí)體也進(jìn)行聚合,從而提高了召回率和準(zhǔn)確率。而在KGIN模型中由于實(shí)體數(shù)量隨著階數(shù)的增加呈指數(shù)形式增長,同時帶來更多的噪聲信息,不僅耗費(fèi)更長的訓(xùn)練時間,模型性能也受到一定影響。在實(shí)際應(yīng)用中,需要同時兼顧模型性能和訓(xùn)練時間,因此,高階信息聚合的方法通常設(shè)置1-2階的信息聚合即可。

2.5 研究現(xiàn)狀總結(jié)

雖然利用知識圖譜的推薦系統(tǒng)存在準(zhǔn)確性高、可解釋性強(qiáng)等優(yōu)點(diǎn),但在實(shí)際應(yīng)用時,應(yīng)結(jié)合推薦模型的復(fù)雜度和不同算法的性能效果等因素進(jìn)行模型選擇。為方便研究者對比和選擇模型,如圖3,對三類方法之間的區(qū)別和聯(lián)系進(jìn)行總結(jié)。

圖3 不同類型方法之間的聯(lián)系Fig.3 Connections between different types of methods

CKE(collaborative knowledge base embedding)[17]是一種結(jié)合KG、文本和圖像信息,通過KG嵌入任務(wù)和推薦任務(wù)依次訓(xùn)練的模型。KTUP[22]、MKR[27]等模型從訓(xùn)練方式上對模型進(jìn)行改進(jìn),使兩個任務(wù)能夠更好地融合。DKN(deep knowledge-aware network)[18]、UGRec(undirected relations for recommendation)[30]、CTK(combining tag and knowledge graph for recommendation)[29]等模型引入額外的信息與KG結(jié)合,從而緩解數(shù)據(jù)稀疏問題。DKRL[23]模型使用語義匹配的嵌入方式進(jìn)行推薦,MSAKR[24]模型將這種嵌入方式和推薦任務(wù)統(tǒng)一到多任務(wù)學(xué)習(xí)框架中,增強(qiáng)推薦性能。

PER[31]是基于元路徑的推薦方法,通過元路徑下的隨機(jī)游走連接用戶和項(xiàng)目進(jìn)行推薦,提升推薦結(jié)果的可解釋性。為獲取高質(zhì)量的路徑,McRec[34]模型通過注意力機(jī)制進(jìn)行采樣。PGPR(policy-guided path reasoning)[35]、TMER(temporal meta-path guided explainable recommendation)[36]模型利用強(qiáng)化學(xué)習(xí)在決策任務(wù)中的優(yōu)勢,將強(qiáng)化學(xué)習(xí)和深度游走策略用在路徑選擇上,進(jìn)一步提高路徑采樣的效率和質(zhì)量。GEMS(genetic meta-structure search)[38]和FMG(factorization machines on graph)[39]將元路徑擴(kuò)展到元圖,避免繁雜的元路徑設(shè)置過程,其中GEMS利用遺傳算法在元圖中搜索并優(yōu)化元路徑,實(shí)現(xiàn)超過6%的性能收益。

基于高階信息聚合的方法加強(qiáng)了對知識圖譜中高階信息的利用,同時避免了手動設(shè)置元路徑操作。RippleNet[40]是較早期的研究,利用KG 中項(xiàng)目屬性和關(guān)系捕獲用戶的興趣表示。KGCN[42]、CKAN[44]等模型利用類似思想來豐富目標(biāo)項(xiàng)目表示。為區(qū)分用戶、項(xiàng)目周圍實(shí)體的重要性,KGAT[19]模型引入了注意力機(jī)制,但信息聚合的過程中仍引入干擾信息。KGCL[48]、KCAN[50]分別利用對比學(xué)習(xí)機(jī)制和子圖提取方法來緩解KG 中噪聲干擾問題。AKTUP[47]模型沿用RippleNet模型的節(jié)點(diǎn)聚合機(jī)制挖掘用戶偏好,該方法缺乏用戶和目標(biāo)項(xiàng)目之間的路徑連接,KGIN[45]模型從關(guān)系路徑聚合的思路進(jìn)行改進(jìn),并細(xì)粒度地挖掘用戶與項(xiàng)目交互背后的意圖,提升推薦結(jié)果可解釋性。

針對不同類型的推薦算法的優(yōu)點(diǎn)、存在的問題與挑戰(zhàn)以及現(xiàn)有解決方案進(jìn)行總結(jié)。知識圖譜嵌入方法具有靈活性,方便模型在多種場景下的遷移使用。推薦系統(tǒng)的運(yùn)算速度快,整體效率高,但缺乏對高階信息的利用,實(shí)體的表示受限。路徑實(shí)例挖掘方法建立用戶-項(xiàng)目之間的路徑連接,增強(qiáng)了推薦結(jié)果的可解釋性。但該方法需要手動設(shè)置元路徑,同時挖掘出的路徑實(shí)例質(zhì)量嚴(yán)重影響最終的推薦結(jié)果。高階信息聚合的方法充分結(jié)合前兩者的優(yōu)勢,但不可避免地帶來了計(jì)算成本過高、噪聲干擾等問題?,F(xiàn)有研究雖然通過固定采樣大小、提取相關(guān)子圖等方法進(jìn)行改善,但效果并不理想,如何設(shè)置優(yōu)先級采樣方法進(jìn)行信息聚合需要進(jìn)一步探索。

3 應(yīng)用場景

近年來,隨著人工智能技術(shù)的不斷發(fā)展,知識圖譜的相關(guān)技術(shù)成為當(dāng)下研究的熱點(diǎn)。一系列大規(guī)模的通用知識圖譜,例如DBpedia[69]、Freebase[70]、YAGO[71]等已被廣泛應(yīng)用。研究者可以通過不同領(lǐng)域的推薦項(xiàng)目與知識圖譜中的實(shí)體匹配,從而進(jìn)行推薦。例如,文獻(xiàn)[72]利用項(xiàng)目標(biāo)題匹配的方式從公開知識圖譜Freebase[70]中構(gòu)建Last.FM[73]和Amazon-Book[74]的知識圖譜。

鑒于不同的應(yīng)用場景存在不同的特點(diǎn),本文對主要應(yīng)用場景進(jìn)行分析,并總結(jié)不同領(lǐng)域的相關(guān)數(shù)據(jù)集和對應(yīng)的推薦方案。

3.1 視頻、音樂、圖書等推薦

電影、音樂、圖書等推薦是最常見的推薦任務(wù)?,F(xiàn)有的電影相關(guān)數(shù)據(jù)集主要有MovieLens[75]和Douban-Movie[76]兩個數(shù)據(jù)集。音樂推薦可以基于Last.FM[73]實(shí)現(xiàn)。圖書相關(guān)的數(shù)據(jù)集主要包括Intent Book[17]、DBbook[22]、Amazon-Book[74]、Book-Crossing[77]等。

這類任務(wù)的共同特點(diǎn)在于用戶的興趣不會在短時間內(nèi)發(fā)生變化。因此,如何建模用戶的長期興趣偏好至關(guān)重要。傳統(tǒng)的思路通過用戶和項(xiàng)目的歷史交互信息學(xué)習(xí)用戶興趣。例如,文獻(xiàn)[22]將知識圖譜中關(guān)系視為用戶選擇項(xiàng)目的不同原因,但不同關(guān)系表示的用戶興趣往往是獨(dú)立的,模型缺乏對用戶興趣的內(nèi)在聯(lián)系進(jìn)行建模。文獻(xiàn)[45]融合知識圖譜中的不同關(guān)系構(gòu)建用戶的意圖網(wǎng)絡(luò),從而利用不同的意圖加權(quán)表示用戶的整體興趣。該方法依賴于用戶項(xiàng)目交互數(shù)據(jù)的豐富監(jiān)督信號,在數(shù)據(jù)稀疏的情況下,用戶偏好建模受限。近年來,會話推薦系統(tǒng)引起了研究者的廣泛關(guān)注。會話推薦系統(tǒng)通過自然語言對話學(xué)習(xí)用戶的興趣偏好,進(jìn)而為用戶提供高質(zhì)量的推薦[78]。文獻(xiàn)[79]利用基于知識圖譜的語義融合技術(shù)改進(jìn)會話推薦系統(tǒng)。首先構(gòu)建了一個面向單詞的概念知識圖譜和一個用于推薦的項(xiàng)目知識圖譜,然后利用圖神經(jīng)網(wǎng)絡(luò)分別學(xué)習(xí)兩個KG的節(jié)點(diǎn)嵌入,最后利用最大互信息方法[80]彌補(bǔ)兩個KG 的語義差異,從而在項(xiàng)目推薦和話語生成方面獲得更好的性能。

3.2 新聞推薦

新聞推薦不同于上述幾種常見的推薦任務(wù),通常需要考慮新聞信息的濃縮性和時效性。新聞推薦可以使用Bing-News[18]、MIND(Microsoft news dataset)[81]兩個數(shù)據(jù)集。其中MIND 是由微軟新聞的用戶點(diǎn)擊日志構(gòu)建的大規(guī)模公開數(shù)據(jù)集,每一篇新聞都有豐富的標(biāo)題、摘要、正文等文本內(nèi)容。

新聞文本具有準(zhǔn)確簡潔等特點(diǎn),因此結(jié)合知識圖譜的新聞推薦通常需要和自然語言處理技術(shù)結(jié)合起來生成高質(zhì)量的文本表示。例如,文獻(xiàn)[51]首先利用知識圖譜注意網(wǎng)絡(luò)(KGAT)[19]的思想聚合鄰域信息來豐富知識圖譜中的實(shí)體嵌入,然后從文檔中提取實(shí)體的位置、頻率、類別等信息用于豐富實(shí)體表示,最后在原始文檔表示的指導(dǎo)下利用注意力機(jī)制對實(shí)體嵌入進(jìn)行聚合,得到新的文檔向量用于新聞推薦。該模型增強(qiáng)新聞文章的表示能力,從而提升推薦系統(tǒng)準(zhǔn)確性。但該模型忽視了新聞的時效性,用戶的興趣可能隨著新聞熱點(diǎn)不斷發(fā)生變化。文獻(xiàn)[82]結(jié)合個性化匹配評分和新聞流行度評分對候選新聞進(jìn)行排名。因此模型能夠同時捕捉到新聞熱點(diǎn)和用戶興趣來緩解個性化新聞推薦的冷啟動和多樣性問題。在真實(shí)的應(yīng)用場景下,由于好奇心理,用戶可能受新聞標(biāo)題的影響隨意點(diǎn)擊新聞,影響模型對用戶興趣建模。文獻(xiàn)[52]通過知識剪枝操作將與用戶歷史興趣無關(guān)的實(shí)體刪除,并采用圖注意網(wǎng)絡(luò)[83]的思想進(jìn)行圖卷積,增強(qiáng)具有相關(guān)關(guān)系的種子實(shí)體。因此,可以根據(jù)用戶在長期和短期內(nèi)的歷史點(diǎn)擊推導(dǎo)出用戶的長期和短期興趣表示。

3.3 商品推薦

商品推薦作為另一種特殊的應(yīng)用場景,需要考慮用戶的需求變化。商品推薦的數(shù)據(jù)集主要來自于電商網(wǎng)站Amazon。此外,文獻(xiàn)[84]利用Alibaba-iFashion[85]進(jìn)行研究,收集了來自在線購物系統(tǒng)的時尚服裝數(shù)據(jù)。相比于其他推薦場景,商品數(shù)據(jù)集具有數(shù)據(jù)量大和數(shù)據(jù)稀疏的特點(diǎn)。

從實(shí)際情況考慮,用戶傾向于短期內(nèi)購買互補(bǔ)的物品而不是替代品,如圖4,當(dāng)獲取到用戶購買手機(jī)1的信息后,短期內(nèi)應(yīng)傾向于推薦互補(bǔ)商品耳機(jī)或充電器,而不是另一款相似的手機(jī)2。序列化推薦任務(wù)將用戶-項(xiàng)目之間的交互信息建模為動態(tài)的序列,從而捕捉用戶的需求變化。文獻(xiàn)[86]通過對基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的推薦方法進(jìn)行分析和改進(jìn),提出混合神經(jīng)網(wǎng)絡(luò)與知識圖譜的序列推薦,相比基于RNN的算法加入KG和注意力機(jī)制,雖然提高了推薦的準(zhǔn)確率,但需要較長的訓(xùn)練時間和更昂貴的硬件設(shè)備支持。文獻(xiàn)[87]提出一種動態(tài)建模的方式,針對互補(bǔ)商品和替代商品設(shè)計(jì)兩種不同的時間核函數(shù),從而根據(jù)歷史序列中是否存在同類項(xiàng)目以及所經(jīng)過的時間來滿足不同時期的推薦需求,然而不同商品(例如生活用品和電子設(shè)備)的使用時間存在較大差異,無法使用統(tǒng)一的核函數(shù)進(jìn)行處理。

圖4 商品推薦示例Fig.4 Illustration of commodity recommendation

3.4 POI推薦

POI(point of interest)推薦即興趣點(diǎn)推薦,旨在為用戶推薦可能感興趣的地點(diǎn),例如餐廳、影院、酒店等[10]。Yelp Challenge[88]數(shù)據(jù)集包含了POI 的種類、位置等信息,以及用戶對歷史去過POI的評論、評分等數(shù)據(jù)。

與商品推薦類似,POI推薦也存在數(shù)據(jù)稀疏和用戶冷啟動問題。此外,POI推薦需要考慮時間因素和位置因素。例如,用戶在中午可能選擇附近的餐廳就餐,而晚上更傾向于去酒店休息。一般情況下,用戶會優(yōu)先考慮附近的興趣點(diǎn)而不是更遠(yuǎn)距離的場所。為解決上述問題,文獻(xiàn)[89]設(shè)計(jì)了一種時間感知的POI嵌入方法,并通過注意力機(jī)制動態(tài)地選擇時間信息,從而實(shí)現(xiàn)在目標(biāo)時間點(diǎn)為用戶提供更精準(zhǔn)的POI推薦,但該方法忽視了位置因素對用戶選擇的影響。文獻(xiàn)[90]提出融合地理位置影響的區(qū)域感知的POI推薦系統(tǒng),使用語義空間圖來建模POI之間的關(guān)系。其中,語義層面同時考慮興趣點(diǎn)的屬性特征和類別相似性,空間層面主要考慮不同POI的地理關(guān)系,因此模型能夠捕獲用戶興趣隨地理位置的動態(tài)變化。

3.5 應(yīng)用場景總結(jié)

現(xiàn)階段推薦系統(tǒng)已被應(yīng)用到各行各業(yè),從視頻、音樂等娛樂活動,再到餐飲、購物等日常生活[11]。為了方便讀者能夠更全面地了解利用知識圖譜的推薦系統(tǒng)的應(yīng)用場景,表3對相關(guān)文獻(xiàn)和數(shù)據(jù)集進(jìn)行了概括總結(jié)。

表3 不同應(yīng)用場景的數(shù)據(jù)集Table 3 Datasets for different application scenarios

4 未來展望

本文介紹了現(xiàn)有的利用知識圖譜的推薦方法和應(yīng)用場景。此外,強(qiáng)化學(xué)習(xí)[35,92]、對比學(xué)習(xí)[48-49]等先進(jìn)技術(shù)也開始在推薦系統(tǒng)中廣泛應(yīng)用。下面對利用知識圖譜的推薦系統(tǒng)未來發(fā)展進(jìn)行展望。

4.1 領(lǐng)域知識圖譜構(gòu)建

自從知識圖譜概念被提出以來,大規(guī)模的通用知識圖譜正逐漸完善并廣泛應(yīng)用[69-71]。然而,推薦任務(wù)往往面向具體領(lǐng)域,如影視、電商等。現(xiàn)有推薦系統(tǒng)需要將原始數(shù)據(jù)集中的項(xiàng)目與公開的通用圖譜中的實(shí)體進(jìn)行對齊,從而抽取需要的小規(guī)模知識圖譜。文獻(xiàn)[93]對該過程進(jìn)行規(guī)范,完成了Last.FM[73]、Amazon-Book[74]、MovieLens[75]三個常用數(shù)據(jù)集與Freebase[70]知識圖譜的連接操作。但從通用知識圖譜中抽取的子圖通常存在大量干擾信息,影響推薦算法的準(zhǔn)確性。

為進(jìn)一步提高推薦性能,領(lǐng)域知識圖譜的構(gòu)建和應(yīng)用至關(guān)重要?,F(xiàn)有的醫(yī)療、金融等領(lǐng)域知識圖譜通常用于搜索問答、業(yè)務(wù)管理等需求,無法直接用來完成推薦任務(wù)。因此,需要考慮從推薦任務(wù)的需求出發(fā),對現(xiàn)有領(lǐng)域圖譜進(jìn)行剪枝或補(bǔ)全,構(gòu)建適應(yīng)具體推薦場景的領(lǐng)域知識圖譜。

4.2 噪聲數(shù)據(jù)處理

利用知識圖譜的推薦系統(tǒng)依賴于稠密的交互信息數(shù)據(jù)和高質(zhì)量的知識圖譜,兩種數(shù)據(jù)普遍存在干擾噪聲。推薦系統(tǒng)根據(jù)用戶的反饋數(shù)據(jù)建模用戶偏好,由于評分類的顯示數(shù)據(jù)難以獲取,現(xiàn)有模型通?;陔[式反饋數(shù)據(jù)(如購買、瀏覽等)進(jìn)行建模。用戶容易受到項(xiàng)目的外在特征(如標(biāo)題、圖片等)欺騙與項(xiàng)目之間產(chǎn)生交互[94],這種隱式交互數(shù)據(jù)并不能反映用戶的真實(shí)偏好,甚至降低用戶對推薦系統(tǒng)的信任程度。因此,如何在用戶畫像過程中降低噪聲數(shù)據(jù)的影響值得進(jìn)一步研究。

知識圖譜中的噪聲信息主要來源于與推薦任務(wù)無關(guān)的實(shí)體和關(guān)系。這些信息對用戶和項(xiàng)目的表示存在負(fù)面影響,并且為推薦系統(tǒng)帶來額外的計(jì)算需求。現(xiàn)有方法在模型訓(xùn)練過程中降低噪聲信息權(quán)重,但并沒有降低算法的復(fù)雜度。如何處理噪聲數(shù)據(jù),減少計(jì)算開銷應(yīng)是未來研究的重要方向。

4.3 用戶隱私信息保護(hù)

推薦系統(tǒng)為用戶帶來便利的同時增加了隱私信息泄露的風(fēng)險。在傳統(tǒng)推薦算法中,用戶的交互數(shù)據(jù)隱私保護(hù)已取得一些進(jìn)展[95]。而部分研究者將用戶行為數(shù)據(jù)和項(xiàng)目屬性結(jié)合構(gòu)建協(xié)同知識圖譜進(jìn)行推薦,現(xiàn)有研究對于該類數(shù)據(jù)的隱私保護(hù)問題關(guān)注度較低,尤其是利用知識圖譜進(jìn)行跨域推薦的過程中,借助源域中的數(shù)據(jù)在目標(biāo)域中完成推薦任務(wù),容易造成源域隱私信息泄露。

文獻(xiàn)[96]指出現(xiàn)有模型大多數(shù)假設(shè)信息可以直接遷移,而忽略了隱私保護(hù)問題。因此,如何在隱私保護(hù)的基礎(chǔ)上建立利用知識圖譜的推薦系統(tǒng)成為一個緊迫的研究問題。

4.4 評估指標(biāo)多樣化

目前,推薦算法性能大多從準(zhǔn)確性進(jìn)行評估,然而不斷地提高推薦結(jié)果的準(zhǔn)確性,可能導(dǎo)致“信息繭房”效應(yīng)。真正好的推薦系統(tǒng)應(yīng)該同時兼顧多種評估指標(biāo)。雖然知識圖譜為推薦系統(tǒng)帶來了多樣性、可解釋性等方面性能提升,但現(xiàn)有研究卻很少從這些性能上進(jìn)行評估。文獻(xiàn)[97]首次將利用知識圖譜的推薦系統(tǒng)與多目標(biāo)優(yōu)化算法結(jié)合,同時優(yōu)化推薦的精度、多樣性和可解釋性,為后續(xù)實(shí)驗(yàn)評估提供新的研究思路。

此外,學(xué)術(shù)界推薦系統(tǒng)通常更注重用戶的滿意度,而工業(yè)界推薦系統(tǒng)需要兼顧用戶體驗(yàn)和經(jīng)濟(jì)效益的轉(zhuǎn)化,使得平臺和用戶都能從推薦系統(tǒng)受益。評估推薦系統(tǒng)的好壞可以從穩(wěn)定性、多樣性、內(nèi)容新穎性、用戶滿意度、平臺收益等多方面進(jìn)行。

5 結(jié)束語

將知識圖譜作為輔助信息引入到推薦系統(tǒng),不僅能夠有效緩解傳統(tǒng)推薦算法普遍存在的冷啟動、數(shù)據(jù)稀疏問題,同時能夠增強(qiáng)推薦結(jié)果的整體性能。本文通過對近年來利用知識圖譜的推薦系統(tǒng)的相關(guān)論文進(jìn)行調(diào)研,較為全面地總結(jié)了該領(lǐng)域的研究現(xiàn)狀及應(yīng)用場景,最后討論了未來發(fā)展的幾個研究方向,希望能夠幫助讀者更好地理解該領(lǐng)域的研究工作。

猜你喜歡
圖譜實(shí)體利用
利用min{a,b}的積分表示解決一類絕對值不等式
繪一張成長圖譜
利用一半進(jìn)行移多補(bǔ)少
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
利用數(shù)的分解來思考
Roommate is necessary when far away from home
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
大冶市| 兴仁县| 陵川县| 临沂市| 睢宁县| 运城市| 凤庆县| 成武县| 武功县| 临安市| 眉山市| 甘谷县| 鄂尔多斯市| 五家渠市| 沂南县| 石渠县| 秦安县| 博客| 南和县| 连江县| 东阳市| 福鼎市| 姜堰市| 鄂托克前旗| 徐汇区| 乌苏市| 酒泉市| 大足县| 巴林右旗| 永宁县| 江津市| 连南| 桐柏县| 宣化县| 济源市| 宣武区| 天门市| 韩城市| 德江县| 罗山县| 黄山市|