基于時空Transformer的社交網(wǎng)絡(luò)信息傳播預(yù)測

2022-08-12 13:29范偉劉勇

計(jì)算機(jī)研究與發(fā)展 2022年8期

范偉劉勇

(黑龍江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院哈爾濱 150080)

隨著社交網(wǎng)絡(luò)應(yīng)用的日益普及，社交網(wǎng)絡(luò)分析已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的一個主要研究方向.目前，許多研究人員正通過對歷史信息傳播數(shù)據(jù)進(jìn)行建模來探索信息傳播機(jī)制，預(yù)測信息傳播過程.信息傳播過程預(yù)測在謠言檢測[1]、流行病學(xué)[2]、病毒式營銷[3]、媒體廣告[4]、新聞和模因[5]等領(lǐng)域具有廣泛的應(yīng)用.

傳統(tǒng)的信息傳播預(yù)測方法試圖從信息傳播數(shù)據(jù)中學(xué)習(xí)信息傳播模型.但這些方法通常依賴于網(wǎng)絡(luò)結(jié)構(gòu)、時間信息[6]、用戶特征[7]、信息內(nèi)容[8]和用戶間的交互[9]等顯式特征來構(gòu)建傳播模型.雖然這些特征工程方法能提高預(yù)測的性能，但它需要大量的人力和廣泛的領(lǐng)域知識，缺乏泛化性，在不同的社交網(wǎng)絡(luò)平臺中效果不穩(wěn)定.

近年來，隨著深度學(xué)習(xí)的快速發(fā)展，許多工作都試圖用神經(jīng)網(wǎng)絡(luò)來解決信息傳播預(yù)測問題，并取得了良好的效果[10-11].現(xiàn)有大部分研究或者利用信息傳播序列，或者利用社交網(wǎng)絡(luò)進(jìn)行信息傳播預(yù)測，傳播序列能反映信息傳播趨勢.基于這個觀點(diǎn)，許多研究(例如DeepDiffuse[10]，Topo-LSTM[11]，CYAN-RNN[12]和SNIDSA[13])學(xué)習(xí)信息傳播序列的鏈?zhǔn)浇Y(jié)構(gòu)，并使用RNN對生成的有向無環(huán)圖的傳播結(jié)構(gòu)進(jìn)行建模.社交關(guān)系能加速信息傳播過程，因?yàn)槿藗兤毡闀退麄兊呐笥延兄恢碌呐d趣愛好，并且人們會有更高的概率轉(zhuǎn)發(fā)或評論他們朋友所發(fā)布的消息.基于這個觀點(diǎn)，許多研究[7,14-15]利用用戶在社交網(wǎng)絡(luò)中的相互影響來預(yù)測信息傳播過程.

然而，現(xiàn)有工作仍存在3個方面問題：1)現(xiàn)有的研究要么僅利用信息傳播序列，要么僅利用社交網(wǎng)絡(luò)，很少同時利用這2個重要因素，導(dǎo)致難以捕獲傳播過程的復(fù)雜性；2)現(xiàn)有研究通常使用RNN或其變體來進(jìn)行信息傳播預(yù)測，但它們捕捉信息相關(guān)性的能力不強(qiáng)，導(dǎo)致預(yù)測準(zhǔn)確率不高；3)現(xiàn)有研究通常將時序特征和結(jié)構(gòu)特征進(jìn)行簡單拼接，難以對信息傳播過程中的時空特征進(jìn)行有效建模.

為解決上述問題，我們提出了一種基于時空Transformer(spatial-temporal transformer, STT)的社交網(wǎng)絡(luò)信息傳播預(yù)測模型.該模型能將信息的社交網(wǎng)絡(luò)圖和動態(tài)傳播圖結(jié)合起來進(jìn)行信息傳播預(yù)測.對于問題1，我們構(gòu)建了一個由社交網(wǎng)絡(luò)圖和動態(tài)傳播圖組成的異構(gòu)圖，然后使用GCN來獲取用戶的結(jié)構(gòu)特征；對于問題2，我們使用改善的Trans-former[16]模型來進(jìn)行序列任務(wù)預(yù)測，來改善捕捉信息相關(guān)性能力；對于問題3，我們將時序特征作為Transformer的Query集，將結(jié)構(gòu)特征作為Key和Value集來有效融合時序特征和結(jié)構(gòu)特征，從而捕獲用戶的時空特征.

此外，在實(shí)驗(yàn)中我們發(fā)現(xiàn)Transformer中原有的殘差網(wǎng)絡(luò)融合的效果并不理想，所以我們提出了一個新的殘差融合方法，進(jìn)一步融合用戶的時序特征和結(jié)構(gòu)特征，改善融合效果.

本文工作的主要貢獻(xiàn)有4個方面:

1) 提出了一種新的基于時空Transformer的神經(jīng)網(wǎng)絡(luò)(STT)用于社交信息傳播預(yù)測;

2) 使用由社交圖和傳播圖組成的異構(gòu)圖來聯(lián)合建模社交關(guān)系和信息傳播關(guān)系;

3) 將Transformer模型應(yīng)用到信息傳播預(yù)測領(lǐng)域，并提出了一種新的時空特征融合方式，用Transformer模型的Query，Key和Value集將時序特征和結(jié)構(gòu)特征進(jìn)行融合，同時提出了一個新的殘差融合方法來進(jìn)一步改善融合效果；

4) 在3個真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明：所提出的STT模型能顯著改善預(yù)測效果.

可以下載本文的源碼(1)https://github.com/DHGPNTM/STT.

1 相關(guān)工作

本節(jié)主要從2個方面介紹相關(guān)工作，1)信息傳播預(yù)測方法；2)Transformer及其應(yīng)用.

1.1 信息傳播預(yù)測

1.1.1 基于傳播序列的方法

基于傳播序列的方法根據(jù)觀察到的傳播序列來解釋用戶之間的影響.早期的一些工作假設(shè)在信息傳播過程中存在著一個先驗(yàn)傳播模型，如獨(dú)立級聯(lián)模型[17]或線性閾值模型[18].雖然這些模型[17-19]刻畫了用戶之間的隱式影響，但這些方法的有效性依賴于先驗(yàn)信息傳播模型的假設(shè)，而且這些假設(shè)很難驗(yàn)證.

隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展，一些研究[20-22]應(yīng)用深度學(xué)習(xí)從信息傳播序列中自動學(xué)習(xí)底層傳播序列的表示來進(jìn)行傳播預(yù)測.例如，Topo-LSTM[11]構(gòu)建了由傳播序列組成的動態(tài)有向無環(huán)圖(DAG)，并使用基于拓?fù)涓兄墓?jié)點(diǎn)嵌入擴(kuò)展了LSTM機(jī)制以學(xué)習(xí)有向無環(huán)圖的結(jié)構(gòu).CYAN-RNN[12]將傳播序列建模為樹型結(jié)構(gòu)，并采用了編碼器-解碼器框架來捕獲傳播序列中的交叉依賴.DeepDiffuse[10]為了能利用用戶轉(zhuǎn)發(fā)信息的時間戳，采用了注意力機(jī)制和嵌入方法，根據(jù)之前觀察到的傳播序列來預(yù)測何時以及何人將轉(zhuǎn)發(fā)信息.

大多數(shù)基于傳播序列的方法都將傳播預(yù)測問題視為一個序列預(yù)測任務(wù)，其目的是按順序預(yù)測傳播用戶，并根據(jù)歷史傳播序列來研究如何影響未來的傳播趨勢.這些方法在對傳播過程建模時往往忽略了用戶之間的社交關(guān)系及其相互作用.此外，這些方法也忽略了信息傳播的全局影響.因此，如果只考慮傳播序列很難準(zhǔn)確地預(yù)測信息傳播過程.

1.1.2 基于社交網(wǎng)絡(luò)的方法

人們和他們的朋友會有一些共同的興趣，如果他們的朋友轉(zhuǎn)發(fā)了一條推特或者微博，那么他們也會有很大的概率去轉(zhuǎn)發(fā)它.基于這種假設(shè)，最近的一些研究[14,23-24]利用社交網(wǎng)絡(luò)解釋人際關(guān)系對傳播預(yù)測的影響并且用來提高信息傳播預(yù)測的效果.例如，文獻(xiàn)[7]嘗試?yán)糜脩羯鐣巧g的相互作用及其對信息傳播的影響，提出了一種基于角色感知的信息傳播模型.該模型將社會角色識別和傳播序列預(yù)測結(jié)合到一個框架中.文獻(xiàn)[13]利用社交網(wǎng)絡(luò)中鄰居之間的結(jié)構(gòu)特征和具有順序性質(zhì)的局部結(jié)構(gòu)模式，并采用基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的框架對傳播序列進(jìn)行建模.文獻(xiàn)[15]提出多尺度信息傳播預(yù)測模型.在微觀視角下他們使用RNN和強(qiáng)化學(xué)習(xí)共同預(yù)測下一個轉(zhuǎn)發(fā)信息的用戶，在宏觀視角下使用基于多任務(wù)的學(xué)習(xí)框架在傳播序列中評估轉(zhuǎn)發(fā)信息用戶的總數(shù)量大小.

然而，大多數(shù)這些方法都過度關(guān)注于當(dāng)前的信息傳播序列，忽略了其他信息的傳播序列對當(dāng)前信息傳播的影響，這不能捕獲全局信息的轉(zhuǎn)發(fā)關(guān)系，所以它們不足以模擬信息傳播過程中的復(fù)雜關(guān)系.與只基于社交網(wǎng)絡(luò)的模型不同，我們通過構(gòu)建由社交網(wǎng)絡(luò)圖和動態(tài)傳播圖來共同學(xué)習(xí)信息傳播的全局結(jié)構(gòu)，可以顯著提高模型預(yù)測的準(zhǔn)確性.

1.2 Transformer

在Transformer出現(xiàn)之前，seq2seq任務(wù)主要做法是使用RNN及其變體或者CNN構(gòu)成的編碼器解碼器框架.但RNN具有無法并行運(yùn)算和計(jì)算復(fù)雜度高等缺點(diǎn)，因此自Transformer模型提出以來，很多NLP問題嘗試使用Transformer來解決.文獻(xiàn)[25]提出了Transformer-XL，通過遞歸機(jī)制和一種新型相對位置編碼方案來捕捉更長距離的上下文依賴，解決上下文碎片問題.文獻(xiàn)[26]提出了一個預(yù)訓(xùn)練的語言表征模型，不再采用傳統(tǒng)的單向語言模型進(jìn)行預(yù)訓(xùn)練，而是生成深度的雙向語言表征.Transformer在計(jì)算機(jī)視覺領(lǐng)域中也有很多的應(yīng)用.例如：文獻(xiàn)[27]盡可能使用原始Transformer結(jié)構(gòu)，用self-attention機(jī)制完全替代CNN，對于輸入圖像進(jìn)行切片，每個切片之間沒有重疊，將切片結(jié)果作為Transformer的序列輸入.

目前在信息傳播預(yù)測任務(wù)中，主要使用RNN及其變體LSTM[28]和GRU[29].RNN及其變體在訓(xùn)練時必須是對數(shù)據(jù)進(jìn)行順序處理即逐個用戶進(jìn)行處理，因此無法并行訓(xùn)練.此外RNN及其變體對用戶的編碼僅在下一個時間步被保留，這意味著當(dāng)前用戶的編碼僅強(qiáng)烈影響下一個用戶的表示，在幾個時間步長之后其影響很快消失. 而Transformer模型可以避免遞歸，允許并行計(jì)算減少訓(xùn)練時間，并減少由于長期依賴性而導(dǎo)致的性能下降，而且相對于RNN及變體，其結(jié)構(gòu)靈活性和通用性更強(qiáng)，可以捕捉信息相關(guān)性的范圍更廣.此外，在NLP領(lǐng)域中Transformer對句子的處理是非順序的，句子是整體處理的，而不是逐字處理.Transformer不依賴于過去的隱藏狀態(tài)來捕獲對先前單詞的依賴性，而是整體上處理一個句子，所以不存在丟失或忘記過去信息的風(fēng)險.基于以上諸多優(yōu)勢，本文嘗試將Transformer應(yīng)用到信息傳播預(yù)測任務(wù)中.

2 問題定義

本節(jié)我們將要介紹用到的符號，并闡述要解決的信息傳播預(yù)測任務(wù).

定義1.靜態(tài)社交圖.靜態(tài)社交圖定義為有向圖G=(V,E)，其中V和E分別表示用戶集和邊集.如果用戶u關(guān)注了用戶v，那么eu,v=1.

定義2.信息傳播序列.信息i的傳播序列被表示為一系列的帶有時間戳的轉(zhuǎn)發(fā)行為，即xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)}，其中(vi,j,ti,j)元組表示用戶vi,j在第i個信息傳播過程中在時間ti,j轉(zhuǎn)發(fā)信息，Nc表示信息被轉(zhuǎn)發(fā)的最大數(shù)量.轉(zhuǎn)發(fā)信息的用戶通常按照時間進(jìn)行排序，因此ti,j-1

定義3.動態(tài)傳播圖.信息i的有向動態(tài)傳播圖表示為Gxi=(Vxi,Exi)，其中Vxi?V表示轉(zhuǎn)發(fā)或評論信息i的所有用戶.如果用戶u轉(zhuǎn)發(fā)或評論了用戶v發(fā)布的信息，則ev,u=1.給定一個信息級聯(lián)集合X={x1,x2,…,xM}，對應(yīng)的動態(tài)傳播圖集合表示為GX={Gx1,Gx2,…,GxM}.

本文研究問題定義：給定信息i的傳播序列xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)}，預(yù)測下一個轉(zhuǎn)發(fā)信息的用戶vi,Nc+1.具體來說，根據(jù)觀測到的歷史信息傳播序列集合，學(xué)習(xí)一個信息傳播預(yù)測模型Ψ.當(dāng)遇到一個新的傳播序列xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)}時，使用模型Ψ計(jì)算下一時刻每個用戶u轉(zhuǎn)發(fā)信息的條件概率P(u|{(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)}).

3 基于時空Transformer的社交網(wǎng)絡(luò)信息傳播預(yù)測模型

本節(jié)我們詳細(xì)描述所提出的STT模型.該模型的框架如圖1所示.首先，我們構(gòu)造了一個由社交圖和動態(tài)傳播圖構(gòu)成的異構(gòu)圖；然后使用GCN從異構(gòu)圖上學(xué)習(xí)用戶的結(jié)構(gòu)特征；再將用戶的時序特征和結(jié)構(gòu)特征分別添加位置嵌入，把添加位置嵌入后的時序特征作為Transformer的Query集，把添加位置嵌入后的結(jié)構(gòu)特征分別作為Transformer的Key和Value集；最后用Transformer預(yù)測下一個轉(zhuǎn)發(fā)信息的用戶.

Fig. 1 The structure of spatial-temporal Transformer neural network圖1 時空Transformer神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)

實(shí)驗(yàn)中我們發(fā)現(xiàn)Transformer原有的殘差網(wǎng)絡(luò)融合效果并不理想，所以提出了一個新的殘差融合方式，能夠有效融合用戶的時序特征和結(jié)構(gòu)特征.

3.1 異構(gòu)圖構(gòu)建

異構(gòu)圖的構(gòu)建過程如圖2所示.我們利用用戶之間的社交關(guān)系來構(gòu)建一個用戶社交圖G=(V,E)，這是一個有向無權(quán)圖.同時使用信息傳播級聯(lián)集合X={x1,x2,…,xM}對應(yīng)的動態(tài)傳播圖集合GX={Gx1,Gx2,…,GxM}，這是一個有向圖集合.我們將動態(tài)異構(gòu)圖定義為GH=(V,EH)，其中EH=E∪EX，EX為動態(tài)傳播圖集合GX的邊集.

在構(gòu)建動態(tài)異構(gòu)圖GH的過程中，不同的動態(tài)傳播圖之間可能存在著相同的邊.例如：在圖2中，在消息1的動態(tài)傳播圖中有邊v2→v3，在消息M的動態(tài)傳播圖中也有邊v2→v3.在異構(gòu)圖中，我們需要為每條邊分配相應(yīng)的權(quán)重.我們用傳播圖中某條邊出現(xiàn)的次數(shù)作為異構(gòu)圖中該邊的權(quán)重.例如：在圖2的異構(gòu)圖中，邊v2→v3的權(quán)重為2.

Fig. 2 The construction process of dynamic heterogeneous graph圖2 動態(tài)異構(gòu)圖的構(gòu)建過程

3.2 異構(gòu)圖神經(jīng)網(wǎng)絡(luò)

如圖1右下角所示，異構(gòu)圖有2種類型的邊關(guān)系：關(guān)聯(lián)關(guān)系和轉(zhuǎn)發(fā)關(guān)系.我們利用用戶節(jié)點(diǎn)和2種邊關(guān)系構(gòu)造鄰接矩陣D∈|V|×|V|，|V|表示用戶的數(shù)量.我們使用圖卷積網(wǎng)絡(luò)(GCN)從異構(gòu)圖中學(xué)習(xí)用戶節(jié)點(diǎn)的表示.GCN對鄰居節(jié)點(diǎn)信息聚合方式定義為

H(l+1)=σ(DH(l)W(l)),

(1)

其中，H(0)∈|V|×d是通過正態(tài)分布隨機(jī)初始化的用戶嵌入，W(l)∈d×d是可學(xué)習(xí)的參數(shù)，d是用戶嵌入的維度，l是GCN的層數(shù)，σ(·)是一個激活函數(shù).

設(shè)圖卷積網(wǎng)絡(luò)的層數(shù)為L，則使用GCN學(xué)習(xí)到的節(jié)點(diǎn)表示HL隱含包括了節(jié)點(diǎn)的結(jié)構(gòu)特征.

3.3 時空Transformer神經(jīng)網(wǎng)絡(luò)

通過異構(gòu)圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后，我們獲得了異構(gòu)圖中所有節(jié)點(diǎn)的結(jié)構(gòu)特征表示HL.因此我們可以利用HL直接獲取消息i中每個用戶的結(jié)構(gòu)特征Hi={hi,1,hi,2,…,hi,Nc}∈NC×d，其中Nc表示所有消息中被轉(zhuǎn)發(fā)的最大數(shù)量，hi,j∈d是第i個消息中第j個用戶的結(jié)構(gòu)特征表示.如果某個消息轉(zhuǎn)發(fā)數(shù)量小于Nc，則用零向量補(bǔ)齊.

值得注意的是，在不同消息中出現(xiàn)的相同用戶，他們的結(jié)構(gòu)特征也相同.例如：如果某個用戶是第2個轉(zhuǎn)發(fā)消息1的用戶，同時也是第3個轉(zhuǎn)發(fā)消息2的用戶，那么該用戶在不同消息中的結(jié)構(gòu)特征表示h1,2和h2,3也是相同的.因此，不相同的結(jié)構(gòu)特征數(shù)量最多是全體用戶數(shù).通過這種方式，我們獲取到的結(jié)構(gòu)特征是用戶全局的結(jié)構(gòu)特征，可以捕獲用戶全局的轉(zhuǎn)發(fā)行為.

因?yàn)橛脩艮D(zhuǎn)發(fā)或評論消息的時間戳對預(yù)測效果也起著至關(guān)重要的作用，所以我們也需要獲取用戶的時序特征.為了方便表示用戶的時序特征，我們把整個時間分成n個時間間隔，把每個用戶轉(zhuǎn)發(fā)消息的時間戳映射到這n個時間間隔中的一個，就可以得到消息i中每個用戶的時序特征Ti={ti,1,ti,2,…,ti,Nc}∈NC×d，其中ti,j∈d表示第i個消息中第j個用戶的時序特征表示.

值得注意的是，如果兩用戶之間的轉(zhuǎn)發(fā)或評論時間很接近，那么這2個用戶很可能被劃分到同一個時間間隔中，則他們的時序特征也是相同的.因此，在用戶時序特征T中只有n個不相同的時序特征.

因?yàn)橄鄬ξ恢眯畔⒖梢苑从秤脩艮D(zhuǎn)發(fā)或評論消息的先后順序, 所以在得到用戶的時序特征和結(jié)構(gòu)特征表示之后，我們使用位置嵌入分別與時序特征和結(jié)構(gòu)特征進(jìn)行結(jié)合.具體地來，我們?yōu)橄⒌拿總€位置j定義一個位置嵌入pj，pj∈d是可學(xué)習(xí)的參數(shù), 用來表示相對位置信息.結(jié)構(gòu)特征hij添加位置嵌入后變?yōu)闀r序特征tij添加位置嵌入后變?yōu)樵O(shè)為消息i中用戶結(jié)構(gòu)特征添加位置嵌入后所得到的用戶結(jié)構(gòu)特征，為消息i中用戶時序特征添加位置嵌入后所得到的時序特征.顯然，我們有Nc×d.

Transformer 中的decoder層如圖3所示.我們將N個decoder層進(jìn)行疊加，來進(jìn)行最后的序列任務(wù)預(yù)測，其中帶有掩碼的多頭注意力層定義為

Fig. 3 Transformer decoder layer圖3 Transformer中的decoder層

(2)

Ai=[ai,1:ai,2:…:ai,Head]WQ,

(3)

在經(jīng)過多頭注意力層之后，會使用殘差網(wǎng)絡(luò)來強(qiáng)化用戶特征，但是原有的殘差網(wǎng)絡(luò)連接在實(shí)驗(yàn)中效果并不理想，因?yàn)樗皇菍?個特征進(jìn)行簡單的相加.所以我們提出了一個新的特征融合方式來代替原有的殘差網(wǎng)絡(luò)連接，能夠有選擇性地集成用戶的時序特征和結(jié)構(gòu)特征，同時摒棄掉冗余的信息.然后我們將時空特征跟時序特征進(jìn)行殘差融合，再進(jìn)入層歸一化，緊接著進(jìn)入2層全連接網(wǎng)絡(luò)，之后再進(jìn)行殘差連接跟層歸一化，詳細(xì)過程定義為

(4)

(5)

Outputi=LayerNorm(Fusion(FFNi,Fi)),

(6)

其中，W1,W2∈Nc×d都是可學(xué)習(xí)的權(quán)重參數(shù)，F(xiàn)i,FFNi,Outputi∈Nc×d，LayerNorm(·)是層歸一化函數(shù)，Relu(·)是一個激活函數(shù)，F(xiàn)usion(·)函數(shù)是我們新提出的殘差融合方式，能夠有選擇性地集成用戶的時序特征和結(jié)構(gòu)特征，具體定義為

Fusion(f1,f2)=g⊙f1+(1-g)⊙f2,

(7)

(8)

3.4 信息傳播預(yù)測

在獲得消息i中每個用戶最后的特征表示Outputi∈Nc×d之后，使用2層全連接網(wǎng)絡(luò)和Softmax函數(shù)來計(jì)算消息i中每個節(jié)點(diǎn)被激活的概率

(9)

我們使用交叉熵?fù)p失函數(shù)作為消息i的損失函數(shù)，具體定義為

最后，使用所有消息的損失函數(shù)作為模型總的損失函數(shù)，具體定義為

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

根據(jù)文獻(xiàn)[13,15]的研究，我們在3個公共可用的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對提出的模型進(jìn)行評估.詳細(xì)的統(tǒng)計(jì)數(shù)據(jù)如表1所示.#Users表示社交網(wǎng)絡(luò)中用戶數(shù)量，#Links表示社交網(wǎng)絡(luò)中用戶之間關(guān)聯(lián)關(guān)系的數(shù)量，#Cascades表示數(shù)據(jù)集中信息傳播序列的數(shù)量，Avg.Length表示信息傳播序列的平均長度.

Table 1 Datasets Statistics表1 實(shí)驗(yàn)數(shù)據(jù)描述

1) Twitter數(shù)據(jù)集[30]記錄了2010年10月期間包含URL的所有推文，每個URL都被解釋為一個在用戶之間傳播的信息項(xiàng).

2) Douban數(shù)據(jù)集[31]是從豆瓣的社交網(wǎng)站上收集的，用戶可以更新他們的圖書閱讀狀態(tài)，并可以關(guān)注其他用戶的狀態(tài).每本書或電影都被認(rèn)為是一個信息項(xiàng)，如果2個用戶參與同一討論超過20次，他們將被視為朋友.

3) Memetracker數(shù)據(jù)集[5]是從在線網(wǎng)站上收集的數(shù)百萬篇新聞和博客文章，并追蹤最常見的引用和短語即模因，以分析模因在人們之間的遷移.每個模因被視為一個信息項(xiàng)，每個網(wǎng)站的URL被視為一個用戶.值得注意的是，這個數(shù)據(jù)集沒有潛在的社交圖.

按照之前的研究[13,15]，我們隨機(jī)抽取80%的數(shù)據(jù)進(jìn)行訓(xùn)練，10%用于驗(yàn)證，剩余10%用于測試.

4.2 對比方法

為了驗(yàn)證提出的STT效果，我們與最新的信息傳播預(yù)測深度學(xué)習(xí)方法進(jìn)行比較，具體方法為：

1) Topo-LSTM[11].將信息傳播序列建模為動態(tài)有向無環(huán)圖，并擴(kuò)展標(biāo)準(zhǔn)的LSTM模型，學(xué)習(xí)具有拓?fù)涓兄挠脩羟度脒M(jìn)行信息傳播預(yù)測.

2) DeepDiffuse[10].使用嵌入技術(shù)和注意力機(jī)制處理轉(zhuǎn)發(fā)時間戳信息.該模型可以根據(jù)之前觀察到的級聯(lián)序列來預(yù)測社交網(wǎng)絡(luò)中何時及何人將轉(zhuǎn)發(fā)信息.

3) NDM[22].建立一個基于自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的微觀級聯(lián)模型，可以緩解長期依賴問題.

4) SNIDSA[13].是一個對信息傳播具有結(jié)構(gòu)關(guān)注的序列神經(jīng)網(wǎng)絡(luò).采用遞歸神經(jīng)網(wǎng)絡(luò)框架對序列信息進(jìn)行建模，結(jié)合注意力機(jī)制來捕獲用戶之間的結(jié)構(gòu)依賴關(guān)系，并開發(fā)一種門控機(jī)制來整合序列和結(jié)構(gòu)信息.

5) FOREST[15].是一種基于強(qiáng)化學(xué)習(xí)的多尺度信息傳播預(yù)測模型.該模型將宏觀傳播范圍信息納入了基于RNN的微觀傳播模型中，它是最新的序列模型并取得了較好的實(shí)驗(yàn)效果.

6) DyHGCN[32].利用動態(tài)異構(gòu)圖卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制來獲得用戶表示.據(jù)我們所知，該模型目前在信息傳播預(yù)測方面取得了最好的實(shí)驗(yàn)效果.

4.3 評價指標(biāo)和參數(shù)設(shè)置

根據(jù)觀察到的信息傳播序列來評估下一個轉(zhuǎn)發(fā)用戶，這個預(yù)測任務(wù)通常被認(rèn)為是一個檢索問題，在所有用戶的輸出概率中，下一個實(shí)際轉(zhuǎn)發(fā)信息的用戶將得到更高的概率.我們利用2個廣泛使用的排名指標(biāo)Map@k和Hits@k進(jìn)行評估.

對比方法的超參數(shù)與原論文中的設(shè)置相同.我們的模型是由PyTorch實(shí)現(xiàn)的，這些參數(shù)由Adam優(yōu)化器進(jìn)行更新，學(xué)習(xí)速率設(shè)置為1E-3，批處理大小batch=16，用戶的各個特征維度大小d=64，Transfomer中的decoder層數(shù)N=2，時間間隔n=8，最后將Transfomer中多頭注意力的頭數(shù)Head=8.

4.4 實(shí)驗(yàn)結(jié)果

我們在3個公共數(shù)據(jù)集上比較了STT模型與基線模型，實(shí)驗(yàn)結(jié)果如表2～4所示.我們提出的STT模型在3個數(shù)據(jù)集上的指標(biāo)Map@k和Hits@k均優(yōu)于所有基線模型.值得注意的是粗體字體表示最高數(shù)值，由于Memetracker數(shù)據(jù)集中缺乏社交關(guān)系，因此我們在Memetracker數(shù)據(jù)集中沒有給出Topo-LSTM和SNIDSA模型的實(shí)現(xiàn)結(jié)果.

Table 3 Result of Douban Dataset Information Diffusion Prediction表3 Douban數(shù)據(jù)集信息傳播預(yù)測結(jié)果

Table 4 Result of Memetracker Dataset Information Diffusion Prediction表4 Memetracker數(shù)據(jù)信息集傳播預(yù)測結(jié)果

STT模型與Topo-LSTM，DeepDiffuse和NDM相比，在Map@k和Hits@k指標(biāo)上取得了明顯的優(yōu)勢.這些基線方法只將傳播路徑建模為一個序列，它們不使用社交網(wǎng)絡(luò)，然而社交網(wǎng)絡(luò)可以反映用戶間的關(guān)聯(lián)關(guān)系，促進(jìn)用戶間的信息流動.實(shí)驗(yàn)結(jié)果表明，用戶間的社交網(wǎng)絡(luò)對信息傳播預(yù)測有著重要的影響.

STT模型與SNIDSA和FOREST相比，在Map@k和Hits@k方面也有著較大的改進(jìn).雖然SNIDSA和FOREST利用用戶之間的社交關(guān)系來預(yù)測信息的傳播，但它們只將傳播路徑視為一個序列，而沒有考慮傳播路徑中所包含的結(jié)構(gòu)信息.因此SNIDSA和FOREST不能充分建模信息傳播過程導(dǎo)致性能較差.STT模型不僅利用社交網(wǎng)絡(luò)信息，而且還利用傳播圖來建模信息傳播行為，顯著提高了預(yù)測性能.

STT模型與DyHGCN模型相比也有明顯的改善.為了量化改善的程度，我們計(jì)算了STT模型相對于DyHGCN模型改善的百分比，如表5所示.從表5可以看出，STT模型在Douban數(shù)據(jù)集的Map@k指標(biāo)上均提高超過20%，由此可看出STT模型的有效性.雖然DyHGCN同時使用社交網(wǎng)絡(luò)圖和傳播圖來建模傳播行為，但它沒有有效地利用用戶的時序特征和結(jié)構(gòu)特征.因此DyHGCN將在一定程度上降低信息傳播預(yù)測的性能.在STT模型中，我們使用Transformer模型把用戶時序特征和結(jié)構(gòu)特征進(jìn)行有效結(jié)合來獲取用戶時空特征，同時我們使用新提出的殘差融合方式來替代Transformer中原有的殘差融合方式來進(jìn)一步改善融合效果.因此STT模型在Map@k和Hits@k方面都優(yōu)于DyHGCN.

Table 5 Percentage Increase of STT Model Compared with DyHGCN Model表5 與DyHGCN模型相比STT模型提高的百分比 %

4.5 消融實(shí)驗(yàn)

為了研究STT模型中各個組成部分所起的作用，我們對模型的不同組成部分進(jìn)行了一系列的消融實(shí)驗(yàn).消融實(shí)驗(yàn)結(jié)果如表6和表7所示，我們沒有給出Memetracker數(shù)據(jù)集的消融實(shí)驗(yàn)，因?yàn)檫@個數(shù)據(jù)集沒有社交網(wǎng)絡(luò).STT模型及其變體模型定義為：

Table 6 Ablation Study on Twitter Dataset表6 在Twitter數(shù)據(jù)集上的消融實(shí)驗(yàn)

Table 7 Ablation Study on Douban Dataset表7 在Douban數(shù)據(jù)集上的消融實(shí)驗(yàn)

1) STT-S.這個模型移除掉了社交網(wǎng)絡(luò)圖.

2) STT-D.這個模型移除掉了信息傳播圖.

3) STT-H.這個模型移除掉了動態(tài)異構(gòu)圖，并且隨機(jī)初始化用戶的特征表示.

4) STT-T.這個模型移除掉了用戶的時序特征，Transformer中Query集用用戶的結(jié)構(gòu)特征代替.

5) STT-TRM.這個模型移除掉了Transformer，并用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN代替.

6) STT-F.這個模型移除掉了Transformer中新提出的殘差融合方式，用原有的殘差連接方式代替.

從表6和表7可以看出，當(dāng)移除掉社交網(wǎng)絡(luò)圖時，與STT模型相比，實(shí)驗(yàn)效果有所下降.而當(dāng)移除掉信息傳播圖時，也可以看到相同的現(xiàn)象.實(shí)驗(yàn)結(jié)果表明，STT模型中社交關(guān)系和轉(zhuǎn)發(fā)關(guān)系對信息傳播預(yù)測都是十分重要的.

當(dāng)移除掉動態(tài)異構(gòu)圖時，與移除了社交網(wǎng)絡(luò)圖或信息傳播圖相比，預(yù)測效果進(jìn)一步降低.實(shí)驗(yàn)結(jié)果表明，這2種信息特征可以互補(bǔ)，將它們聯(lián)合使用有助于提高預(yù)測效果.

當(dāng)移除掉用戶的時序特征時，與STT模型相比.實(shí)驗(yàn)效果有很大程度的下降.實(shí)驗(yàn)結(jié)果表明，時序特征對信息傳播預(yù)測起著至關(guān)重要的作用.將時序特征和結(jié)構(gòu)特征進(jìn)行有效結(jié)合，獲取到用戶的時空特征對信息傳播預(yù)測有著積極的作用.

當(dāng)移除掉Transformer模型，并用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN代替時，與STT模型相比，實(shí)驗(yàn)效果有很大程度的下降，特別是在Twitter數(shù)據(jù)集上效果下降更為嚴(yán)重.實(shí)驗(yàn)結(jié)果表明，Transformer模型應(yīng)用到信息傳播預(yù)測領(lǐng)域效果非常顯著，這說明Transformer模型內(nèi)部的多頭注意力可以大大提升實(shí)驗(yàn)效果.

當(dāng)移除掉Transformer模型中新提出的殘差融合方式，用原有的殘差連接方式代替時，與STT模型相比，實(shí)驗(yàn)效果有很大程度的下降.實(shí)驗(yàn)結(jié)果表明，我們提出的新殘差融合方式比原有的殘差連接方式更有效，這是因?yàn)樾碌臍埐钊诤戏绞讲捎昧巳诤祥T的機(jī)制，能夠有選擇性地集成用戶的時序特征和結(jié)構(gòu)特征.

4.6 參數(shù)分析

我們在Twitter數(shù)據(jù)集上進(jìn)行了一些超參數(shù)敏感性實(shí)驗(yàn)，研究了超參數(shù)的不同選擇對模型性能的影響.

1) 時間間隔n.時間間隔n從{1，2，4，8，16}中選擇，其不同值的選擇在Twitter數(shù)據(jù)集上的表現(xiàn)如表8所示.隨著時間間隔n的增加，STT模型的效果逐漸提高，但是當(dāng)時間間隔n>8時Map@k和Hits@k沒有進(jìn)一步改進(jìn)反而下降.這是因?yàn)殡S著時間間隔n的增加，用戶的時序特征表示越準(zhǔn)確，而增加到一定數(shù)值時, 學(xué)習(xí)的時序特征過多容易導(dǎo)致過擬合反而會使實(shí)驗(yàn)效果下降.因此，我們在本文中將時間間隔n=8.

Table 8 Effect of Time Interval n on Twitter Dataset表8 時間間隔n在Twitter數(shù)據(jù)集上的影響

2) Transfomer中decoder層數(shù)N.層數(shù)N從{1，2，3，4，5，6}中選擇，其不同值的選擇在Twitter數(shù)據(jù)集上的表現(xiàn)如表9所示.從表9中的數(shù)據(jù)可以看出，當(dāng)層數(shù)N=2時，實(shí)驗(yàn)的效果達(dá)到最優(yōu)，并且隨著層數(shù)N的增加，實(shí)驗(yàn)效果在逐漸下降.這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)的層數(shù)增加到一定數(shù)值時，學(xué)習(xí)的信息過多導(dǎo)致過擬合反而會使實(shí)驗(yàn)效果下降.因此，我們在本文中將Transfomer中decoder的層數(shù)N=2.

Table 9 Effect of the Number of Decoder Layers N on Twitter Dataset表9 decoder的層數(shù)N在Twitter數(shù)據(jù)集上的影響

3) 多頭注意力的頭數(shù)Head.頭數(shù)Head從{1，2，4，8，16}中選擇，其不同值的選擇在Twitter數(shù)據(jù)集上的表現(xiàn)如表10所示.從表10中的數(shù)據(jù)可以看出，隨著多頭注意力的頭數(shù)Head增加，實(shí)驗(yàn)效果在逐漸變好，當(dāng)Head=8時實(shí)驗(yàn)效果達(dá)到最優(yōu)，當(dāng)Head繼續(xù)增加時效果有些下降.這是因?yàn)殡S著多頭注意力的頭數(shù)Head增加，學(xué)到的不同空間維度信息也就越多，而增加到一定數(shù)值時學(xué)習(xí)的冗余信息過多將會導(dǎo)致實(shí)驗(yàn)效果下降.因此，我們在本文中將多頭注意力的頭數(shù)Head=8.

Table 10 Effect of the Number of Heads of Multi-head Attention Head on Twitter Dataset表10 多頭注意力的頭數(shù)Head在Twitter數(shù)據(jù)集上的影響

4) 用戶特征表示的維度d.維度d從{16，32，64，128，256}中選擇，其不同值的選擇在Twitter數(shù)據(jù)集上的表現(xiàn)如表11所示.從表11中的數(shù)據(jù)可以看出，隨著維度d的增加，實(shí)驗(yàn)效果逐漸變好，但是當(dāng)維度d超過64時，實(shí)驗(yàn)效果開始下降.這是因?yàn)殡S著用戶特征表示的維度d增加，用戶特征所蘊(yùn)含的信息也就越多，而增加到一定數(shù)值時用戶特征蘊(yùn)含的冗余信息過多將會導(dǎo)致實(shí)驗(yàn)效果下降.因此，我們在本文中將用戶特征表示的維度d=64.

Table 11 Effect of Dimension Size of User Embedding d on Twitter Dataset表11 用戶嵌入維度d在Twitter數(shù)據(jù)集上的影響

5 結(jié) 論

本文研究了信息傳播預(yù)測問題，提出了一種基于時空Transformer神經(jīng)網(wǎng)絡(luò)的模型STT來預(yù)測傳播過程.在STT模型中，我們通過由社交圖和動態(tài)傳播圖組成的動態(tài)異構(gòu)圖來學(xué)習(xí)用戶的結(jié)構(gòu)特征，然后利用Transformer模型將用戶的時序特征和結(jié)構(gòu)特征相結(jié)合來學(xué)習(xí)用戶的時空特征，并設(shè)計(jì)了一個新的殘差融合方式來進(jìn)一步改善融合效果.在3個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，我們提出的模型STT顯著優(yōu)于基線模型.未來我們準(zhǔn)備加入用戶屬性特征和消息文本特征來嘗試改善預(yù)測性能.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡