朱志國,李偉玥,姜 盼,周沛瑤
東北財經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,遼寧 大連 116025
推薦系統(tǒng)旨在幫助用戶從紛繁復(fù)雜的數(shù)據(jù)中提取出感興趣的信息,在提高效率的同時,也有助于提升用戶滿意度與平臺效益。近十年來推薦系統(tǒng)技術(shù)得到了長足發(fā)展,不僅成為學(xué)術(shù)界的研究熱點之一,也已經(jīng)成功地運用在電商、新聞和音樂推薦等多個場景中[1]。其中,會話推薦(包括基于會話的推薦與會話感知推薦,但不包括普通序列推薦)旨在以用戶當(dāng)前的項目交互序列為主,以歷史會話數(shù)據(jù)、場景、知識圖譜等信息為輔,重在通過各種方式捕捉用戶的當(dāng)前興趣,如圖1所示。
圖1 普通序列、基于會話和會話感知推薦的概念區(qū)分Fig.1 Concept distinction of recommendation among sequence-based,session-based and session-aware
此前,會話推薦領(lǐng)域的相關(guān)工作大多基于多種循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),或采用RNN結(jié)合多種注意力機制,亦或是基于純注意力機制和復(fù)雜結(jié)構(gòu)的多層感知機(multi-layer perceptron,MLP),同時結(jié)合豐富的輔助信息來捕獲項目間的依賴關(guān)系。雖然這些會話推薦系統(tǒng)能夠捕捉到項目間的順次轉(zhuǎn)換關(guān)系,但是在當(dāng)前會話中捕捉項目間遠(yuǎn)距離的非嚴(yán)格時序轉(zhuǎn)換關(guān)系,或在全局會話環(huán)境中捕捉項目間多對多的復(fù)雜關(guān)聯(lián)關(guān)系時,其性能有待提升[2]。
圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)是可從非歐式數(shù)據(jù)的圖結(jié)構(gòu)數(shù)據(jù)中,根據(jù)目標(biāo)節(jié)點的鄰域信息學(xué)習(xí)特征的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。近些年來GNN的發(fā)展十分迅速,并已在生物醫(yī)學(xué)工程[3]、自然語言處理[4]、社交定位[5]、計算機視覺[6]、金融預(yù)測[7]等領(lǐng)域得到了一定研究。由于用戶社交關(guān)系、用戶或項目知識圖譜等信息可直接表示為圖,并且用戶-項目交互關(guān)系和原始會話序列等信息可以轉(zhuǎn)換為圖,同時GNN提供了可融合多種信息的統(tǒng)一框架,學(xué)者們提出了基于多種圖神經(jīng)網(wǎng)絡(luò)的會話推薦系統(tǒng)[8-10],旨在根據(jù)多種信息源學(xué)習(xí),得到融合了豐富特征的目標(biāo)節(jié)點向量,實現(xiàn)基于用戶特征的個性化精準(zhǔn)推薦。
目前,已經(jīng)有學(xué)者以不同的分類標(biāo)準(zhǔn),對基于GNN的推薦系統(tǒng)進(jìn)行了對比分析[1,11],但是其中鮮有對會話推薦相關(guān)工作的最新工作進(jìn)展評述。因此,本文將從問題定義和會話推薦中需要考慮的因素出發(fā),然后根據(jù)模型的不同算法原理,將諸多基于GNN的會話推薦系統(tǒng)進(jìn)一步細(xì)分為:基于圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)、門控圖神經(jīng)網(wǎng)絡(luò)(gated graph neural network,GGNN)和圖注意力網(wǎng)絡(luò)(graph attention networks,GAT)及其他結(jié)構(gòu)的會話推薦系統(tǒng)共四大類進(jìn)行評述。隨后根據(jù)各工作的實驗部分展開綜合對比討論,力圖展現(xiàn)出GNN在會話推薦系統(tǒng)中的應(yīng)用與研究前沿進(jìn)展概貌。最后,提出了對該領(lǐng)域未來研究的一些思考和展望。
總結(jié)起來,如圖2所示,會話推薦任務(wù)中需要考慮的因素大體可分為如下三類:用戶因素、項目因素和情景因素。
圖2 會話推薦任務(wù)中的因素Fig.2 Factors in session recommendation task
(1)用戶因素:如果能獲取到用戶的信息,則可以根據(jù)其人口統(tǒng)計學(xué)特征、設(shè)備、社交關(guān)系和收入水平等信息來推斷出該用戶的興趣偏好。
(2)項目因素:主要包括相對穩(wěn)定的靜態(tài)特征和隨時間變動較為明顯的動態(tài)特征。靜態(tài)特征主要包括項目參數(shù)(如尺碼、價格等)、所屬類別(即項目對應(yīng)的分類信息)、發(fā)行者信息(如商品對應(yīng)的生產(chǎn)商、新聞對應(yīng)的記者等);動態(tài)特征主要指該項目的熱度高低,比如近期熱門新聞或爆火的網(wǎng)紅商品可認(rèn)為是流行項目。
(3)情景因素:主要包括用戶所處環(huán)境、近期熱點事件、季節(jié)與時間、當(dāng)前流行項目特征(如當(dāng)季流行配色與款式等)。這些情景因素可能會對項目因素產(chǎn)生較大影響,并且場景因素也會在一定程度上影響到用戶的長短期興趣[12-13]。
對于基于GNN的會話推薦系統(tǒng)而言,如何將原始的會話序列高效地轉(zhuǎn)換為相應(yīng)的會話圖,是首要且重要的問題。如圖3所示,SR-GNN模型[8]首次提出將會話序列轉(zhuǎn)換為會話圖進(jìn)行處理,即以會話中的項目為節(jié)點、以項目間的鄰接順次轉(zhuǎn)換關(guān)系為邊、以歸一化鄰接矩陣中的值為邊權(quán)重構(gòu)圖。
圖3 SR-GNN模型的經(jīng)典構(gòu)圖方式示例Fig.3 Traditional graph constructing method in SR-GNN
這種經(jīng)典的構(gòu)圖方式實現(xiàn)了序列式數(shù)據(jù)到圖數(shù)據(jù)的轉(zhuǎn)換,使得全局項目間的依賴關(guān)系更為直觀和易于捕捉。此后,一些學(xué)者將用戶節(jié)點、項目所屬類別、用戶行為類別(如點擊、購買、分享)等多種類型的節(jié)點加入圖中或單獨構(gòu)圖,同時引入了豐富類型的邊,使模型可以直接學(xué)習(xí)到多元節(jié)點間的豐富交互關(guān)系,隨后可將各類信息與項目特征相融合,以獲得更為豐富的項目表示。如圖4(a)所示,SE-Frame模型[14]在構(gòu)造會話圖時,考慮到了用戶節(jié)點,從而在圖學(xué)習(xí)時可直接捕捉到用戶與項目的豐富交互信息;SR-HetGNN模型[15]則進(jìn)一步將會話作為節(jié)點加入異構(gòu)圖中,使模型能夠從全新角度學(xué)習(xí)整個會話的特征表示。圖4(b)所示的GNNH模型[16]異構(gòu)圖將用戶的不同交互行為視為邊特征,并分別應(yīng)用于項目圖和類別圖,使得模型能夠?qū)W習(xí)到包含多種用戶交互行為特征的項目及其所屬類別的表示向量。
圖4 包含多種節(jié)點與邊的復(fù)雜異構(gòu)圖Fig.4 Complex heterogeneous graph with diverse nodes and edges
一些學(xué)者為了更加充分地挖掘項目間的上下文關(guān)系而去除了邊的方向信息,提出了DSGNN模型[17]、TAGNN模型[18]中的無向加權(quán)項目圖,此類會話圖可以將全局項目間轉(zhuǎn)換關(guān)系更加明晰地顯示出來。
還有一些學(xué)者提出了更加具有創(chuàng)意的會話圖構(gòu)造方式,例如SGNN-HN模型[19]中的星型圖、DHCN模型[20]中的超圖及其對應(yīng)線圖等,如圖5(a)和(b)所示。星型圖中的不相鄰節(jié)點可通過中心節(jié)點以兩跳的方式相連,使得模型更易捕捉到遠(yuǎn)程項目的關(guān)聯(lián)關(guān)系;而超圖則直接忽略了項目間的順次連接關(guān)系,從會話的層面探索項目間的相關(guān)關(guān)系,線圖則映了超圖的連通性,可直接越過項目級,從更高層面上探索會話間的關(guān)系。
針對部分基于GNN的會話推薦模型中存在的有損會話編碼和難以捕捉項目間遠(yuǎn)距離依賴關(guān)系的問題,LESSR模型[21]在將會話序列轉(zhuǎn)換為會話圖的過程中,加入了邊順序信息,從而避免了時序信息丟失問題;并在原始會話圖的基礎(chǔ)上提出了快速連接圖,其中新加入遠(yuǎn)距離項目間的邊使模型得以更加全面地捕獲項目間的遠(yuǎn)距離依賴關(guān)系,如圖5(c)所示。而SR-LSG模型[22]也提出了一種類似于LESSR模型中保持邊順序的會話圖,如圖5(d)所示。兩者的區(qū)別在于LESSR模型圖中的邊編號由指向目標(biāo)節(jié)點不同邊的順序確定,而SR-LSG模型圖中的邊編號由會話項目順序確定。
圖5 部分新型的會話圖結(jié)構(gòu)Fig.5 Some creative session graph structure
在優(yōu)化邊權(quán)重的相關(guān)工作中,除了根據(jù)近鄰矩陣或進(jìn)一步將數(shù)值歸一化后設(shè)置邊權(quán)重的經(jīng)典方法外,SR-HGNN模型[23]通過累乘原始未加權(quán)的近鄰矩陣來構(gòu)造不同階數(shù)的高階近鄰矩陣,以直接捕捉項目間的高階關(guān)系;Disen-GNN模型[24]將項目分解為因子級表示,并由此提出了因子級相似性矩陣。另外,一些基于GAT或注意力增強的GGNN的會話推薦系統(tǒng)也可通過動態(tài)更新邊權(quán)重捕捉用戶不斷變化的興趣。
總的來說,SR-GNN式的會話圖構(gòu)造方式使得GNN能夠間接處理序列式的會話數(shù)據(jù)。隨后,各學(xué)者受此啟發(fā),從節(jié)點類型、鏈接屬性等方面基于經(jīng)典會話圖進(jìn)行優(yōu)化。在此過程中,豐富的用戶側(cè)和項目側(cè)邊信息(side-information)以及多種圖結(jié)構(gòu)變換極大地豐富了原始會話圖中的數(shù)據(jù),使得GNN有機會學(xué)習(xí)到包含更多信息的項目特征表示,從而提升了推薦結(jié)果的精準(zhǔn)性。然而,優(yōu)化會話圖的方式可能會帶來更多噪聲信息。因此,可以嘗試采用多種形式的注意力機制對特征提取結(jié)果進(jìn)行去噪,以減輕非關(guān)鍵信息對特征提取的負(fù)面影響。
基于GNN的會話推薦系統(tǒng)大多首先將會話序列轉(zhuǎn)換為會話圖,并將多個會話圖合并為全局會話圖;然后通過圖神經(jīng)網(wǎng)絡(luò)中的多種架構(gòu)形式(如:GCN、GGNN、GAT等)聚合目標(biāo)節(jié)點的近鄰節(jié)點信息,從而精準(zhǔn)捕獲到n跳(n∈Z+)的鄰域信息。隨后,結(jié)合項目本身的信息、項目間的復(fù)雜轉(zhuǎn)換關(guān)系和用戶與項目的交互信息生成包含多種豐富信息的項目表示,進(jìn)而基于注意力機制、循環(huán)神經(jīng)網(wǎng)絡(luò)等模塊生成較為精確的會話表示。最后綜合用戶表示、會話表示和項目表示等特征計算各候選項目的推薦得分,實現(xiàn)精準(zhǔn)推薦。
與完全基于循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等結(jié)構(gòu)的會話推薦系統(tǒng)不同,圖數(shù)據(jù)結(jié)構(gòu)具有良好的可擴展性,能將多種性質(zhì)的節(jié)點與邊融入會話圖中,這極大地豐富了會話圖中的信息。因此,本章將基于GNN的會話推薦系統(tǒng)進(jìn)一步劃分為基于GCN、GAT、GGNN及其他GNN架構(gòu)的四類模型,并分別對各算法原理下的相關(guān)工作展開梳理、評述與總結(jié)。
GCN將傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)對二維網(wǎng)格型數(shù)據(jù)的卷積運算推廣至圖數(shù)據(jù),其基本思想是通過對基于圖的拉普拉斯矩陣進(jìn)行一階特征分解,聚合目標(biāo)節(jié)點自身和近鄰節(jié)點的特征,從而得到目標(biāo)節(jié)點表示。圖6(a)表示二維卷積網(wǎng)絡(luò)對網(wǎng)格型數(shù)據(jù)的處理,即通過一定算法聚合目標(biāo)節(jié)點及其周圍八個相鄰節(jié)點的特征。以生成節(jié)點表示。由于過濾器的大小固定不變,因此近鄰節(jié)點的個數(shù)也是固定不變的。而圖6(b)展示的GCN雖然也是根據(jù)一定方法聚合目標(biāo)節(jié)點的近鄰節(jié)點特征以生成節(jié)點表示,但由于不依賴于固定尺寸的過濾器,即不要求近鄰節(jié)點的個數(shù)恒定,因此該算法更為靈活。
圖6 傳統(tǒng)二維卷積與圖卷積的區(qū)別Fig.6 Difference between traditional 2D convolution and graph convolution
基于GCN的會話推薦系統(tǒng)大多基于線性變換和非線性變換結(jié)合的消息傳遞機制,根據(jù)目標(biāo)節(jié)點的鄰域信息學(xué)習(xí)其特征表示,如公式(1)所示:
其中,H(l)為第l層的節(jié)點隱狀態(tài)矩陣,ψ(·)為復(fù)雜的非線性函數(shù),例如MLP、加性注意力機制等。A為鄰接矩陣,為了在信息傳播和聚合過程中考慮到節(jié)點自身信息,因此令對應(yīng)的度矩陣,且有
從多關(guān)系項目圖中學(xué)習(xí)項目特征表示時,MGNNSPred模型[25]和GNNH模型[16]首先根據(jù)目標(biāo)行為和輔助行為及前后項目的兩兩組合得到四類節(jié)點集合,并分別使用均值池化方式聚合每個集合中的節(jié)點,最后采用加和池化的方式進(jìn)行聚合。其中,MGNN-SPred模型通過正則累加和門控聚合的方式通過目標(biāo)行為序列和輔助行為序列直接得到了會話表示向量;而GNNH模型還在多關(guān)系特征圖上進(jìn)行了類似的GCN操作,并獲得了在會話中用戶對不同特征的興趣。
DGTN模型[26]在更新會話圖節(jié)點信息時,去除了非線性激活函數(shù),并將權(quán)重矩陣進(jìn)行折疊,僅根據(jù)規(guī)范化后的近鄰節(jié)點向量對會話內(nèi)和會話間的項目節(jié)點信息進(jìn)行特征學(xué)習(xí)。而DHCN模型[20]使用新穎的超圖及其線圖對會話序列進(jìn)行建模,并基于超圖卷積對項目節(jié)點特征進(jìn)行學(xué)習(xí)。COTREC框架[27]采用了與DHCN模型類似的聚合算法,兩者區(qū)別在于該框架使用項目視圖和會話視圖的概念取代了DHCN模型中的超圖概念。
GCN作為一種有效的局部特征提取算法,可對目標(biāo)節(jié)點的數(shù)個K階近鄰節(jié)點的信息進(jìn)行聚合來獲得目標(biāo)節(jié)點的最終表示?,F(xiàn)根據(jù)GCN在會話推薦系統(tǒng)中的作用,將部分代表工作進(jìn)行分類,如表1所示。
從表1中可以看出,GCN的主要作用是學(xué)習(xí)會話圖中各項目節(jié)點的特征表示,并根據(jù)后續(xù)模型任務(wù),通過多種讀出函數(shù)生成局部或全局會話表示。由于GCN難以捕捉項目間的時序依賴關(guān)系,因此在學(xué)習(xí)用戶長短期興趣時,還會引入GRU[28-29]和多種注意力機制[9,16,20,27,29,31,33]。為了更好地學(xué)習(xí)項目間的遠(yuǎn)距離近鄰上下文特征,大多數(shù)模型采用了堆疊GNN的方式,然而這會帶來非常嚴(yán)重的過度平滑問題。一些模型[29-31]通過修改GCN的消息傳遞算法,有效地解決了此類問題。此外,由于經(jīng)典的監(jiān)督任務(wù)欠缺實踐價值,不少相關(guān)工作引入對比學(xué)習(xí)[20]、多任務(wù)學(xué)習(xí)[33]等自監(jiān)督訓(xùn)練方式,通過挖掘不同角度下的自監(jiān)督信號,實現(xiàn)對特征的自適應(yīng)學(xué)習(xí);還有部分工作[32]從提升模型實時學(xué)習(xí)能力的角度進(jìn)行優(yōu)化。
表1 GCN架構(gòu)在各會話推薦系統(tǒng)中的作用Table 1 Role of GCN among session recommendation system
當(dāng)從短會話中推斷用戶的興趣偏好時,基于GCN的會話推薦系統(tǒng)性能尚可,但是當(dāng)會話序列較長時,此類模型的性能往往有待提升。其主要原因是在長會話中學(xué)習(xí)各項目的特征表示時,需要更多的鄰域信息,因此在堆疊GNN的過程中帶來了嚴(yán)重的過度平滑問題。此外,每當(dāng)會話圖中添加新的節(jié)點時都需要重新進(jìn)行圖推理,而不是采用增量方式計算,因此部分基于GCN的會話推薦系統(tǒng)的可擴展性還有待提升。
總體上,基于GCN的會話推薦系統(tǒng)立足于會話圖結(jié)構(gòu),通過多種圖卷積算法學(xué)習(xí)各節(jié)點的特征表示。相關(guān)工作主要以在線購物場景為主,向在線音樂、短視頻、興趣點等場景進(jìn)行延伸,在多個場景下保持著較高的推薦精準(zhǔn)度。根據(jù)相關(guān)工作的實驗報告,GNN-GNF模型[31]在電商數(shù)據(jù)集Yoochoose 1/64上的點擊率Top-20預(yù)測任務(wù)中,精準(zhǔn)度高達(dá)70.59%,DGTN模型[26]的召回率更是高達(dá)71.18%,充分地體現(xiàn)了此類會話推薦系統(tǒng)的優(yōu)越性。
門控圖神經(jīng)網(wǎng)絡(luò)是一種以循環(huán)神經(jīng)網(wǎng)絡(luò)作為消息傳遞算法的GNN。在會話推薦領(lǐng)域,GGNN采用均值池化算法聚合會話序列中的項目節(jié)點信息,并采用門控遞歸單元(gated recurrent unit,GRU)作為遞歸函數(shù)來集成近鄰節(jié)點和目標(biāo)節(jié)點的信息。相比于GCN不做區(qū)分地聚集目標(biāo)節(jié)點及其近鄰節(jié)點的信息,GGNN中的門控機制可幫助模型判斷應(yīng)當(dāng)保留和丟棄哪些信息;同時GGNN對節(jié)點的出邊與入邊進(jìn)行了區(qū)分,即其鄰接矩陣并非GCN中的對稱陣,而是由出度矩陣與入度矩陣拼接得到,如圖7所示。理論上,GGNN還可通過拼接節(jié)點間不同類型邊對應(yīng)鄰接矩陣的方式融合節(jié)點間的多元關(guān)系。
圖7 GGNN示例Fig.7 Example of GGNN
Wu等人[8]提出SR-GNN模型首次將GGNN用于會話推薦系統(tǒng),該模型在將會話序列轉(zhuǎn)換為會話圖的同時,對各項目進(jìn)行了嵌入編碼,并將相應(yīng)的向量矩陣作為GGNN的初始輸入,然后基于GRU實現(xiàn)節(jié)點間的消息傳遞,如公式(2)、(3)所示:
其中,As表示有向圖的節(jié)點連接信息,可由經(jīng)過歸一化處理后的出度矩陣Aosut與入度矩陣Aisn拼接得到;W和b均為可學(xué)習(xí)參數(shù);k為GGNN的堆疊層數(shù)。雖然不難發(fā)現(xiàn)GGNN和GRU的公式除了輸入數(shù)據(jù)不同之外,其余部分基本相同,但是要明確兩種算法的目的和意義存在差別。GGNN是以會話圖的鄰接矩陣作為輸入,處理的信息實質(zhì)上是節(jié)點之間的連接關(guān)系,其目的在于學(xué)習(xí)包含近鄰上下文信息的節(jié)點表示;而GRU是以會話序列的項目表示向量為輸入,實質(zhì)上是在學(xué)習(xí)項目間的順序依賴關(guān)系。為了便于評述,在接下來的章節(jié)中稱這種形式的GGNN為經(jīng)典GGNN結(jié)構(gòu)。
SR-GNN是第一個將GNN引入會話推薦系統(tǒng)的模型,具有開創(chuàng)性價值和里程碑意義,然而該模型存在著一定的局限之處。該模型僅學(xué)習(xí)了項目間的上下文依賴關(guān)系,忽略了項目間的時序特征。同時,由于該模型未能考慮到用戶的個人信息,因此它并非個性化的推薦系統(tǒng)。此后,學(xué)者們大多圍繞SR-GNN模型中的經(jīng)典會話圖構(gòu)造方法和GGNN架構(gòu)進(jìn)行優(yōu)化。
GC-SAN模型[34]與SR-GNN模型較為相似,但是在對通過GGNN學(xué)習(xí)到的各項目表示進(jìn)行處理時,相比于后者的加性注意力算法,GC-SAN模型堆疊由自注意力層、MLP層和殘差學(xué)習(xí)層組成的自注意力塊提取用戶的長期興趣,并從不同高度的塊中捕捉不同層次的特征。此外,相比于SR-GNN模型采用拼接用戶長短期興趣并進(jìn)行線性投影的方式獲得會話表示,GC-SAN模型采用了線性插值的方式處理用戶的長短期興趣。
CIE-GNN模型[35]借鑒了GC-SAN模型的部分結(jié)構(gòu),但是該模型將位置信息加入項目表示中,并將其作為經(jīng)典GGNN的初始輸出以捕捉項目間的時序關(guān)系。相比于GC-SAN模型簡單定義局部會話興趣,CIE-GNN模型使用多頭自注意力層建模局部會話向量表示,從而自適應(yīng)地捕獲用戶的動態(tài)當(dāng)前興趣。
不同于CIE-GNN模型將項目表示向量輸入經(jīng)典GGNN進(jìn)行處理之前就將位置向量與項目向量相加的操作,AMGNN模型[36]先將項目向量通過經(jīng)典GGNN處理后,再采用拼接的方式將學(xué)習(xí)到的項目向量與位置向量聚合,并采用多頭注意力與加性注意力相結(jié)合的方式學(xué)習(xí)會話的全局表示向量。
項目間的時序相關(guān)關(guān)系不僅能根據(jù)順次轉(zhuǎn)換記錄學(xué)習(xí),TAGNN模型[37]在為用戶進(jìn)行推薦時,更注重從用戶歷史交互記錄中提取其對同類商品的喜好。具體來說,該模型采用注意力機制計算指定目標(biāo)項目下的會話表示向量,并且會話向量可在用戶對新的目標(biāo)項目感興趣時動態(tài)變化,從而有效應(yīng)對了用戶興趣漂移的問題。
總的來說,各學(xué)者主要從表2所示的五個方向?qū)R-GNN進(jìn)行優(yōu)化。例如學(xué)者們已嘗試通過堆疊的注意力機制從融入豐富輔助信息的項目表示中,提取用戶的長短期興趣,通過將用戶、類別等信息融入經(jīng)典GGNN的初始輸入,或是直接改變模型架構(gòu)。此外,也有學(xué)者采用多路并行、優(yōu)化會話圖和修改整體機制的方法增強模型的性能。然而,相關(guān)研究工作均存在不同程度的局限性,其中不少工作僅考慮到了項目間的上下文依賴關(guān)系,而忽略了重要的時序相關(guān)關(guān)系。同時,部分工作簡單地將用戶的最后一個交互項目視為短期興趣,使模型很容易受到用戶興趣漂移的影響。
表2 基于SR-GNN的優(yōu)化方式及代表模型Table 2 Each optimization mode with corresponding representative models based on SR-GNN
由于GGNN需要在所有節(jié)點上多次計算遞歸函數(shù),即需要存儲所有節(jié)點的隱狀態(tài),故該方法對內(nèi)存的需求較大,因此將GGNN應(yīng)用于多個節(jié)點和多條邊的大型圖上時,可能會導(dǎo)致性能變差。其次,經(jīng)典的GGNN在節(jié)點間進(jìn)行消息傳遞的過程中,僅使用不同時間步下的狀態(tài)隱向量,這有可能會導(dǎo)致梯度消失和底層信息丟失的問題;并且它沒有對目標(biāo)節(jié)點的各近鄰節(jié)點進(jìn)行權(quán)重分配,因此可能會在更新節(jié)點表示的過程中受到噪聲數(shù)據(jù)的干擾。雖然部分學(xué)者提出了相應(yīng)的方法進(jìn)行優(yōu)化[22,53],但是從實驗結(jié)果來看,模型性能仍然有待提高。
在實踐方面,基于GGNN的會話推薦系統(tǒng)可有效完成不同場景下的精準(zhǔn)推薦任務(wù),相關(guān)工作涵蓋了在線購物、在線音樂、招聘求職等多個場景。在電商購物推薦任務(wù)中,TAGNN模型[37]在電商數(shù)據(jù)集Yoochoose 1/64上的點擊率Top-20預(yù)測任務(wù)中,精準(zhǔn)度高達(dá)71.02%;在音樂推薦任務(wù)中,TA-GNN模型[47]和SDE-GNN模型[51]分別在Nowplaying數(shù)據(jù)集的Top-20推薦任務(wù)中取得了15.74%和19.01%的召回率和精準(zhǔn)率;在招聘求職推薦任務(wù)中,A-PGNN模型[49]和DSGNN模型[17]分別在Xing數(shù)據(jù)集的Top-10推薦任務(wù)中取得了17.06%和24.48%的召回率和命中率。彰顯了GGNN在會話推薦中的強大特征提取能力。
GAT認(rèn)為不同近鄰節(jié)點對目標(biāo)節(jié)點的影響不同,因此基于多種注意力機制為各近鄰節(jié)點分配權(quán)重,以衡量其對目標(biāo)節(jié)點的不同影響程度,并通過聚合函數(shù)動態(tài)更新每個節(jié)點的表示向量。值得注意的是,GCN為目標(biāo)節(jié)點的近鄰節(jié)點分配的權(quán)重是根據(jù)圖結(jié)構(gòu)預(yù)先確定的;而GAT為目標(biāo)節(jié)點的近鄰節(jié)點分配的權(quán)重,是根據(jù)消息傳播算法計算不同時間步下的節(jié)點隱狀態(tài),并由此動態(tài)更新得到的,如圖8所示。因此,相比于GCN靜態(tài)的參數(shù)化權(quán)重,GAT動態(tài)的可學(xué)習(xí)權(quán)重更為靈活,也更能精準(zhǔn)捕獲到會話圖中的復(fù)雜交互信息。
圖8 GCN與GAT的權(quán)重分配方式區(qū)別Fig.8 Difference in weighting between GCN and GAT
基于GAT的會話推薦系統(tǒng)通過計算目標(biāo)節(jié)點和各近鄰節(jié)點間的注意力權(quán)重區(qū)分不同近鄰節(jié)點的重要程度,并通過多種加權(quán)聚合方式更新目標(biāo)節(jié)點向量,如公式(4)、(5)所示:
其中,αij為目標(biāo)節(jié)點i與其近鄰節(jié)點j的注意力權(quán)重,f(·)可為多種注意力得分計算函數(shù),如點積、加性注意力等。N(i)為目標(biāo)節(jié)點i的近鄰節(jié)點集合,為目標(biāo)節(jié)點i在第l層的特征向量。ξ(·)和δ(·)為提高模型擬合能力的線性或非線性變換函數(shù)。
考慮到RNN有助于學(xué)習(xí)項目間的時序關(guān)聯(lián)關(guān)系,部分學(xué)者采用長短期記憶網(wǎng)絡(luò)(long-short term networks,LSTM)對模型進(jìn)行增強。Song等人[10]提出的DGRec模型首先使用LSTM捕捉目標(biāo)用戶及其朋友在各自會話中的動態(tài)興趣,然后結(jié)合用戶的社交網(wǎng)絡(luò)探索其朋友的喜好對該用戶的影響。DYAGNN模型[54]首先構(gòu)造以項目為節(jié)點的有向加權(quán)圖,然后通過堆疊多層的GAT計算各邊權(quán)重和節(jié)點向量,并通過LSTM進(jìn)一步捕捉項目間的時序關(guān)系。
多路并行的模型架構(gòu)有助于從多個角度聯(lián)合捕捉用戶興趣,其中MSGIFSR模型[55]以不同長度的子會話為節(jié)點、以子會話間的聯(lián)系為邊建立有向加權(quán)的多粒度異構(gòu)會話圖,并使用基于多頭注意力的雙向GAT學(xué)習(xí)各粒度下不同子會話單元的表示。SHARE模型[56]也采用了類似于MSGIFSR模型的并行GAT思想,其不同之處在于該模型基于超圖分別學(xué)習(xí)節(jié)點到超邊和超邊到節(jié)點的信息傳播,并通過疊加多層GAT學(xué)習(xí)包含豐富上下文信息的項目表示來精確反映會話中的用戶意圖。
為了更加直觀地對相關(guān)模型框架進(jìn)行比較,表3整理了部分具有代表性的GAT會話推薦系統(tǒng)。經(jīng)分析,大多數(shù)相關(guān)工作在計算節(jié)點間的注意力時,主要采用加性注意力機制計算注意力分?jǐn)?shù),然后基于Soft max函數(shù)進(jìn)行歸一化處理,部分工作[10,56]使用基于內(nèi)積的算法計算注意力分?jǐn)?shù)。在聚合近鄰節(jié)點特征時,部分工作采用普通加權(quán)和的方式[10,59],一些工作[55,57]引入了可學(xué)習(xí)參數(shù)矩陣增強模型的學(xué)習(xí)能力,還有不少工作[54,58,60-62]在此基礎(chǔ)上引入了激活函數(shù),以提高模型的非線性擬合能力??偟膩碚f,基于GAT的會話推薦系統(tǒng)相關(guān)工作相對較少,還存在著較大的研究空間。
表3 基于GAT架構(gòu)的會話推薦系統(tǒng)分類Table 3 Classification of session recommendation system based on GAT architecture
注意力機制的強大去噪能力使得基于GAT的會話推薦系統(tǒng)得以從包含多元信息的異構(gòu)圖中挖掘用戶興趣,多頭機制更是提升了此類推薦系統(tǒng)的特征提取能力,從而使模型能夠更為精準(zhǔn)地推斷用戶偏好。GAT雖然能通過分配注意力權(quán)重的方式,區(qū)分鄰域節(jié)點的相對重要性,但是由于忽略了圖中的結(jié)構(gòu)信息,其在聚合多跳范圍內(nèi)的鄰域信息時,很容易出現(xiàn)嚴(yán)重的過度平滑問題[63]。此外,GAT對參數(shù)的初始化策略十分敏感,模型的性能波動較大[64]。因此,在使用GAT時仍然需要結(jié)合一些相應(yīng)措施來緩解可能出現(xiàn)的性能問題,例如應(yīng)用更加穩(wěn)健的參數(shù)初始化策略,或嘗試NISER框架[53]和SRLSG模型[22]中的優(yōu)化策略。
在實踐方面,基于GAT的會話推薦系統(tǒng)仍以在線購物為主,同時涉足更為廣泛,除了音樂、興趣點和招聘推薦之外,還涵蓋電影、書簽等娛樂場景下的推薦。由于GAT本身可基于注意力機制對鄰域信息分配權(quán)重,因此具有更為強大的去噪能力和特征提取能力。例如MGCNet模型[57]在電商數(shù)據(jù)集Yoochoose 1/64上的購買率Top-20預(yù)測任務(wù)中,召回率達(dá)到了驚人的92.38%;在音樂推薦任務(wù)中,GCE-GNN模型[59]在Nowplaying數(shù)據(jù)集的Top-20推薦任務(wù)中取得22.37%的精準(zhǔn)率。刷新了基于GCN和GGNN的會話推薦系統(tǒng)的相應(yīng)最高記錄。
正如前文所述,雖然GCN、GGNN和GAT的性能強大,但是也各有不足之處。因此,部分學(xué)者提出了基于混合機制的GNN會話推薦系統(tǒng),并結(jié)合多種注意力機制、位置編碼或殘差學(xué)習(xí)等技術(shù)進(jìn)行更為精準(zhǔn)的推薦。此外,不少學(xué)者通過在原有結(jié)構(gòu)的基礎(chǔ)上融入新元素或替換的方式進(jìn)行優(yōu)化,也在一定程度上提升了模型性能。
根據(jù)各工作的實驗結(jié)論,將注意力機制與GGNN相結(jié)合有助于增強模型對噪聲數(shù)據(jù)的過濾能力,從而更加精準(zhǔn)地學(xué)習(xí)項目特征表示。PA-GGAN模型[65]、TPA-GNN模型[18]、NA-GNN模型[66]和LESSR模型[21]均將注意力機制與GGNN相結(jié)合,其區(qū)別在于NA-GNN模型先通過GGNN獲得項目節(jié)點的初步表示,再通過自注意力機制進(jìn)一步更新節(jié)點向量;TPA-GNN模型先通過多頭注意力機制更新邊權(quán)重,再通過GGNN更新項目表示向量;而PA-GGAN模型先通過注意力機制為各項目分配向量,然后通過GGNN獲得節(jié)點向量初步表示,再通過多頭機制增強注意力機制,并使用殘差學(xué)習(xí)和MLP防止模型在學(xué)習(xí)過程中丟失底層信息和增強模型的非線性擬合能力;LESSR模型使用GGNN與GAT形成交叉堆疊的結(jié)構(gòu)交替進(jìn)行節(jié)點信息和邊權(quán)重的更新。然而,相關(guān)工作大多僅對項目的上下文近鄰特征進(jìn)行了較為充分的學(xué)習(xí),不同程度上地忽略了項目間重要的時序特征關(guān)系。
引入豐富的邊信息開可有效提升會話推薦系統(tǒng)的推薦精度,將這些邊信息融入異構(gòu)圖更是有助于學(xué)習(xí)到多種交互下的項目特征。SE-Frame框架[14]將用戶的社交關(guān)系加入會話推薦任務(wù)中,并以簡單線性方式分別根據(jù)用戶間的聯(lián)系與用戶和項目間的交互計算用戶節(jié)點的社會影響和用戶偏好,然后使用注意力機制分別融合兩種信息。而HG-GNN模型[67]則采用均值池化與MLP結(jié)合的方式從基于包含用戶節(jié)點與項目節(jié)點的異構(gòu)全局會話圖中學(xué)習(xí)多種類型的邊權(quán)重,然后使用門控機制聚合經(jīng)過加性注意力機制分別學(xué)習(xí)到的用戶長短期偏好。然而,邊信息的引入也帶來了更多的噪聲,如何設(shè)計有效的去噪機制,是此類會話推薦系統(tǒng)面臨的重大挑戰(zhàn)之一。此外,多樣化的信息來源也導(dǎo)致推薦結(jié)果的可解釋性更差。目前,元學(xué)習(xí)和基于邊信息的注意力機制是應(yīng)對此類挑戰(zhàn)的有效方式,通過學(xué)習(xí)元路徑和為不同的項目屬性分配權(quán)重,可更加精準(zhǔn)地推斷用戶意圖,同時具備了良好的可解釋性。
受到變分推理的啟發(fā),一些學(xué)者將該思想與會話推薦相融合,將用戶興趣視為復(fù)雜的分布函數(shù),并采用自動編碼器進(jìn)行學(xué)習(xí)。例如HybridGNN-SR模型[68]將變分推理的思想融入GNN,并結(jié)合無監(jiān)督和有監(jiān)督的圖學(xué)習(xí)來學(xué)習(xí)會話中的項目轉(zhuǎn)換關(guān)系。該工作所采用的方式在一定程度上解決了有監(jiān)督學(xué)習(xí)方法忽略圖結(jié)構(gòu)信息和無監(jiān)督方法忽略用戶偏好的問題,使得推薦結(jié)果更為精準(zhǔn)全面。然而,用戶的真實興趣不僅復(fù)雜,而且多變,變分推理難以在無法獲取足夠多用戶交互歷史的情況下,捕捉到動態(tài)變化的用戶興趣。因此,此類思想更適合于根據(jù)用戶的長期行為推斷其意圖的推薦場景。
雖然GRU4Rec模型奠定了GRU在會話推薦領(lǐng)域的地位,不少學(xué)者仍然嘗試基于LSTM進(jìn)行會話推薦。SR-MNN模型[69]在聚合項目節(jié)點向量的過程中,首次采用基于LSTM的GNN學(xué)習(xí)目標(biāo)節(jié)點及其近鄰的信息,隨后使用GRU捕捉會話中的項目時序關(guān)系。此外,該模型還將目標(biāo)會話中首個交互項目加入會話向量表示中,以捕捉用戶初始興趣對整個會話興趣的影響。SR-HetGNN模型[15]則更進(jìn)一步根據(jù)用戶節(jié)點、會話節(jié)點與項目節(jié)點形成了復(fù)雜的異質(zhì)圖,然后采用DeepWalk算法[70]和Word2Vec算法[71]學(xué)習(xí)各類型節(jié)點的初始化向量,并通過基于重啟的隨機游走與雙向LSTM獲得包含多元信息的項目表示。雖然根據(jù)相關(guān)工作的實驗報告,此類會話推薦系統(tǒng)取得了較高的推薦精度。然而,模型的復(fù)雜度會隨著數(shù)據(jù)體量的增加而快速提升,此類模型的可擴展性還有待優(yōu)化。
綜上所述,基于混合架構(gòu)GNN的會話推薦系統(tǒng)大多仍圍繞GGNN展開。值得注意的是,GGNN和GRU的公式除了輸入信息有所差異,其他部分基本一致。因此,基于GGNN的會話推薦系統(tǒng)也可以仿照此前基于RNN的會話推薦系統(tǒng)的相關(guān)工作,將不同類型的注意力加入門控機制中,形成門控注意力圖神經(jīng)網(wǎng)絡(luò)。在實踐方面,相關(guān)工作仍然可以有效應(yīng)對不同場景下的精準(zhǔn)推薦任務(wù),同樣以在線購物推薦為主,以音樂推薦、興趣點推薦為輔,此外還有其他娛樂場景下的推薦應(yīng)用。部分工作在興趣點推薦任務(wù)上的表現(xiàn)較為出色,例如,LESSR模型[21]在Gowalla數(shù)據(jù)集的Top-20推薦任務(wù)中,取得了51.34%的召回率;基于SE-Frame框架[14]實例化的SE-Rec模型,在FourSquare數(shù)據(jù)集的Top-20推薦任務(wù)中,取得了70.05%的召回率。
由于混合模型引入了多種神經(jīng)網(wǎng)絡(luò),如何設(shè)計整體模型框架,實現(xiàn)各模塊間良好的統(tǒng)籌協(xié)調(diào),成為此類模型需要應(yīng)對的重大挑戰(zhàn)。此外,模型整體深度和寬度的增加也會導(dǎo)致待訓(xùn)練參數(shù)量快速增長,如何在控制參數(shù)量的同時,提升推薦的準(zhǔn)確度,值得未來進(jìn)一步研究。
本章將依據(jù)各基于GNN的會話推薦工作的實驗部分進(jìn)行分析,由于損失函數(shù)、數(shù)據(jù)集和性能評估指標(biāo)的選取對模型性能影響較大,因此重點關(guān)注了各工作中的相應(yīng)信息。為了更加直觀地展示出損失函數(shù)、所選取的數(shù)據(jù)集和模型性能指標(biāo)的使用情況,現(xiàn)將統(tǒng)計結(jié)果進(jìn)行展示,如表4所示。
根據(jù)表4(a)的統(tǒng)計結(jié)果,大多數(shù)基于GNN的會話推薦系統(tǒng)使用了帶交叉熵的損失函數(shù),即模型的學(xué)習(xí)目標(biāo)是最小化模型學(xué)習(xí)到的數(shù)據(jù)分布與真實數(shù)據(jù)分布的差異。相比于復(fù)雜形式的損失函數(shù),交叉熵?fù)p失函數(shù)可以大幅提升模型在訓(xùn)練過程中的權(quán)重矩陣更新速度,使損失值快速收斂,有助于縮短訓(xùn)練時長。然而,當(dāng)面臨帶有噪聲標(biāo)簽的樣本時,即用戶并非對會話中的每個項目都感興趣時,使用交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練很可能會帶來嚴(yán)重的過擬合問題。此外,在點擊率預(yù)測或購買預(yù)測任務(wù)中(即多分類問題),大多數(shù)基于GNN的會話推薦模型會使用Softmax函數(shù)進(jìn)行處理,然而這種處理方式會使模型重點關(guān)注預(yù)測的準(zhǔn)確度,而忽略了其他非正確預(yù)測結(jié)果間的差異。因此,如何通過優(yōu)化正則項、提高數(shù)據(jù)質(zhì)量等方式緩解訓(xùn)練過程中的過擬合,或是通過修改非線性函數(shù)的方式提升軟分類精度,亦或是通過對比學(xué)習(xí)、蒸餾學(xué)習(xí)、強化學(xué)習(xí)等方式提升模型訓(xùn)練的效率,仍然值得進(jìn)一步探索。
根據(jù)表4(b)的統(tǒng)計結(jié)果,大多數(shù)基于GNN的會話推薦系統(tǒng)在實驗部分使用了電商類數(shù)據(jù)集,其中使用次數(shù)最高的Yoochoose數(shù)據(jù)集和Diginetica數(shù)據(jù)集均為會話推薦領(lǐng)域的基準(zhǔn)數(shù)據(jù)集。雖然兩個數(shù)據(jù)集提供了會話標(biāo)注字段,避免了人為切分會話降低數(shù)據(jù)質(zhì)量,但是并未提供更為豐富的用戶信息和交互信息。此前的文獻(xiàn)綜述已經(jīng)表明,合理引入豐富多元的邊信息,有利于提升推薦結(jié)果質(zhì)量。因此,未來的研究可以嘗試在包含多樣化信息的數(shù)據(jù)集上進(jìn)行實驗。
根據(jù)表4(c)的統(tǒng)計結(jié)果,大多數(shù)基于GNN的會話推薦系統(tǒng)使用了平均倒數(shù)排序(mean reciprocal rank,MRR)和準(zhǔn)確度(precision)指標(biāo),命中率(hit rate,HR)、召回率(recall)和標(biāo)準(zhǔn)化折現(xiàn)累積增益(normalized discounted cumulative gain,NDCG)也均反映了推薦結(jié)果的精準(zhǔn)度。雖然精準(zhǔn)度是衡量推薦結(jié)果質(zhì)量的重要指標(biāo),但并非唯一指標(biāo),未來的研究還應(yīng)適當(dāng)關(guān)注推薦結(jié)果的新穎度、驚喜度等,可引入DIV@K[72]、POP@K、EILD-RR@K[13]、ESI-RR@K[13]等指標(biāo)對模型性能進(jìn)行評測。
表4 損失函數(shù)、數(shù)據(jù)集和評估指標(biāo)統(tǒng)計Table 4 Statistics of loss functions,datasets and metrics(a)損失函數(shù)類別統(tǒng)計
總的來說,大部分基于GNN的會話推薦工作面向電商購物場景,并將推薦任務(wù)視為多分類任務(wù),更關(guān)注推薦結(jié)果的精準(zhǔn)性。
根據(jù)前文對基于GNN的會話推薦系統(tǒng)相關(guān)工作的評述,為了應(yīng)對精準(zhǔn)會話推薦的挑戰(zhàn),各工作主要從學(xué)習(xí)項目間的時序特征、引入豐富多元的邊信息、創(chuàng)新GNN算法、優(yōu)化模型訓(xùn)練方式四個角度進(jìn)行了突破,如表5所示。下面將對不同角度下的相關(guān)工作進(jìn)行綜合討論分析。
表5 應(yīng)對精準(zhǔn)會話推薦的策略分析Table 5 Analysis of strategies to deal with accurate session recommendation
5.1.1 學(xué)習(xí)項目間的時序特征
具有開創(chuàng)性的SR-GNN式經(jīng)典構(gòu)圖提供了一種樸素的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換思路,使GNN能間接處理序列式的原始會話信息。然而,這種構(gòu)圖方法存在一定局限,例如丟失了項目間的順序轉(zhuǎn)換信息和忽略鏈接屬性。
雖然部分研究工作[20,27-28,51,56]意識到了時序特征的重要性,并從多個角度出發(fā)進(jìn)行創(chuàng)新,但各方法仍存在不足之處。將時序信息作為鏈接屬性加入會話圖可以在一定程度上保留原始時序信息,然而此類信息難以隨模型訓(xùn)練而優(yōu)化。因為項目間的原始順次轉(zhuǎn)換信息是客觀信息,不應(yīng)當(dāng)隨模型的訓(xùn)練而更改。此外,現(xiàn)有的研究工作大多采用單路串行的方式設(shè)計模型,其本質(zhì)是偏重時序信息或上下文信息,難以做到兩種信息的動態(tài)平衡。
5.1.2 引入多元的邊信息
經(jīng)典的會話推薦任務(wù)僅基于匿名用戶和項目的交互記錄進(jìn)行推薦,然而此類數(shù)據(jù)的信息量有限,推薦性能的理論上限較低。受到知識圖譜相關(guān)研究的啟發(fā),不少學(xué)者嘗試將更加多元的邊信息作為補充數(shù)據(jù)引入會話推薦任務(wù)中,大幅提升了會話推薦系統(tǒng)的精準(zhǔn)推薦能力??偟膩碚f,相關(guān)工作可根據(jù)信息來源渠道,分為基于用戶側(cè)邊信息的會話推薦系統(tǒng)[25,40,57]和基于項目側(cè)邊信息的會話推薦系統(tǒng)[42,58,73]。一些工作同時考慮到了用戶側(cè)和項目側(cè)的豐富的邊信息[16]。這些邊信息增強的會話推薦系統(tǒng)極大地提升了推薦精準(zhǔn)度,是相關(guān)領(lǐng)域具有較大研究潛力的方向之一。值得注意的是,引入更多信息的同時也會帶來更多的噪聲。因此,可以采用多種形式的注意力機制進(jìn)行去噪處理,以緩解噪聲信息對推薦性能的影響。
5.1.3 優(yōu)化模型結(jié)構(gòu)或輸入
優(yōu)化模型結(jié)構(gòu)最為明顯的特征是嘗試使用不同種類的神經(jīng)網(wǎng)絡(luò),或基于相應(yīng)經(jīng)典結(jié)構(gòu)進(jìn)行優(yōu)化,提高模型的推薦精準(zhǔn)度。由于GCN和GGNN模型難以處理隱藏在各種圖中的噪聲信息,因此部分學(xué)者嘗試在GNN前后引入注意力機制進(jìn)行去噪[9,34]。一些工作還采取多路并行的方式,從不同角度推斷用戶意圖[59-60]。
采用多路并行的架構(gòu)雖然有效,但是很容易導(dǎo)致模型的參數(shù)量增大,導(dǎo)致模型的訓(xùn)練時間大幅延長。因此,一些學(xué)者從提高模型輸入質(zhì)量的角度入手,將多種信息與項目的初始嵌入編碼相結(jié)合,從源頭提升特征編碼的質(zhì)量[23,49]。提高模型輸入質(zhì)量的另一個角度是對原始會話圖進(jìn)行優(yōu)化[19,24]。優(yōu)化模型輸入有助于GNN從不同角度學(xué)習(xí)隱藏在會話中的用戶興趣,但是這種方式的擴展性較差,當(dāng)需要從多個角度聯(lián)合推斷用戶偏好時,容易由于噪聲過多而難以提升推薦結(jié)果的精準(zhǔn)度。
5.1.4 優(yōu)化模型訓(xùn)練方式
大多數(shù)基于GNN的會話推薦系統(tǒng)將推薦視為有監(jiān)督的學(xué)習(xí),其本質(zhì)是假設(shè)訓(xùn)練集包含了所有項目。然而在實際應(yīng)用場景中,新項目會源源不斷地加入,導(dǎo)致基于監(jiān)督學(xué)習(xí)的GNN會話推薦系統(tǒng)性能不佳。為此,一些學(xué)者試圖基于自監(jiān)督學(xué)習(xí)訓(xùn)練模型[20]。大多此類模型假設(shè)用戶在會話中具有直接單一的興趣,因此不同角度下學(xué)習(xí)到的用戶特征應(yīng)當(dāng)相同。然而,部分工作[74]證實用戶在會話中的偏好可能復(fù)雜多變,因此僅基于無監(jiān)督學(xué)習(xí)的相關(guān)模型在短會話上具有較好的性能,而難以從長會話中挖掘出用戶的真實興趣。
無論是有監(jiān)督學(xué)習(xí)還是自監(jiān)督學(xué)習(xí),都存在一定缺陷。基于有監(jiān)督學(xué)習(xí)的相關(guān)模型難以有效應(yīng)對真實應(yīng)用場景下不斷涌現(xiàn)的新項目,而基于自監(jiān)督學(xué)習(xí)的相關(guān)模型往往無法收集到足夠多的自監(jiān)督信號。HybridGNN-SR模型[68]提供了一種應(yīng)對方式,即將無監(jiān)督和有監(jiān)督的圖學(xué)習(xí)相結(jié)合。此類方法在一定程度上解決了有監(jiān)督學(xué)習(xí)忽略圖結(jié)構(gòu)信息和無監(jiān)督學(xué)習(xí)忽略用戶復(fù)雜偏好的問題,使得推薦結(jié)果更為精準(zhǔn)全面。
基于前文從多個角度對GNN會話推薦系統(tǒng)相關(guān)工作的評述與分析,對該領(lǐng)域未來的工作進(jìn)行展望。
5.2.1 注重模型的可解釋性
基于GNN的會話推薦系統(tǒng)的可解釋性仍然欠佳,這可能是由于隱式反饋難以收集并高度抽象。然而,良好的解釋有助于增強用戶對推薦系統(tǒng)的信任,這樣用戶更有可能接受來自系統(tǒng)的推薦。目前,已經(jīng)有學(xué)者通過一些方式提升模型的可解釋性[60],相信這也是研究潛力較大的一個方向。
5.2.2 發(fā)掘用戶的個性化交互行為
由于基于GNN的推薦系統(tǒng)可有效學(xué)習(xí)項目間的近鄰上下文特征,因此理論上應(yīng)當(dāng)在捕捉用戶的重復(fù)交互、周期性交互等特殊信息方面有更為明顯的優(yōu)勢?;赗NN和注意力機制的RepeatNet模型[75]與基于異構(gòu)超圖注意網(wǎng)絡(luò)的MSGIFSR模型[55]已經(jīng)證明,捕捉用戶的重復(fù)交互行為有助于提升會話推薦的精準(zhǔn)度。因此,從用戶的特殊交互行為中學(xué)習(xí)其興趣偏好是值得探索的方向之一。
5.2.3 重視會話數(shù)據(jù)的質(zhì)量
由于目前的數(shù)據(jù)集大多沒有明確劃分會話,因此只能根據(jù)時間戳信息,并基于硬性規(guī)則進(jìn)行會話劃分。然而,都是人為設(shè)定的會話切分方式難免有所偏差。在未來的研究工作中,可以嘗試聯(lián)合多種方式切分會話,或根據(jù)用戶個人信息和歷史交互數(shù)據(jù)分布,使用自適應(yīng)的方式以獲得更為精準(zhǔn)的會話序列。同時,應(yīng)當(dāng)鼓勵研究人員在考慮豐富項目屬性和用戶信息的基礎(chǔ)上,收集攜帶會話標(biāo)識的數(shù)據(jù)集,以支撐相關(guān)領(lǐng)域的后續(xù)研究。
目前GNN已經(jīng)成為各領(lǐng)域的研究熱點之一,在過去的五年里,會話推薦領(lǐng)域涌現(xiàn)出不少重要的相關(guān)工作。因此,本文從推薦因素分析出發(fā),重點從算法原理與性能分析兩方面對數(shù)十篇基于GNN的會話推薦相關(guān)工作展開評述,旨在總結(jié)學(xué)者們在各方面所做出的貢獻(xiàn)。最后,根據(jù)前文對相關(guān)工作的分類評述對比,提出了對未來研究的展望。