范 偉 劉 勇
(黑龍江大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 哈爾濱 150080)
隨著社交網(wǎng)絡(luò)應(yīng)用的日益普及,社交網(wǎng)絡(luò)分析已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的一個主要研究方向.目前,許多研究人員正通過對歷史信息傳播數(shù)據(jù)進(jìn)行建模來探索信息傳播機(jī)制,預(yù)測信息傳播過程.信息傳播過程預(yù)測在謠言檢測[1]、流行病學(xué)[2]、病毒式營銷[3]、媒體廣告[4]、新聞和模因[5]等領(lǐng)域具有廣泛的應(yīng)用.
傳統(tǒng)的信息傳播預(yù)測方法試圖從信息傳播數(shù)據(jù)中學(xué)習(xí)信息傳播模型.但這些方法通常依賴于網(wǎng)絡(luò)結(jié)構(gòu)、時間信息[6]、用戶特征[7]、信息內(nèi)容[8]和用戶間的交互[9]等顯式特征來構(gòu)建傳播模型.雖然這些特征工程方法能提高預(yù)測的性能,但它需要大量的人力和廣泛的領(lǐng)域知識,缺乏泛化性,在不同的社交網(wǎng)絡(luò)平臺中效果不穩(wěn)定.
近年來,隨著深度學(xué)習(xí)的快速發(fā)展,許多工作都試圖用神經(jīng)網(wǎng)絡(luò)來解決信息傳播預(yù)測問題,并取得了良好的效果[10-11].現(xiàn)有大部分研究或者利用信息傳播序列,或者利用社交網(wǎng)絡(luò)進(jìn)行信息傳播預(yù)測,傳播序列能反映信息傳播趨勢.基于這個觀點(diǎn),許多研究(例如DeepDiffuse[10],Topo-LSTM[11],CYAN-RNN[12]和SNIDSA[13])學(xué)習(xí)信息傳播序列的鏈?zhǔn)浇Y(jié)構(gòu),并使用RNN對生成的有向無環(huán)圖的傳播結(jié)構(gòu)進(jìn)行建模.社交關(guān)系能加速信息傳播過程,因?yàn)槿藗兤毡闀退麄兊呐笥延兄恢碌呐d趣愛好,并且人們會有更高的概率轉(zhuǎn)發(fā)或評論他們朋友所發(fā)布的消息.基于這個觀點(diǎn),許多研究[7,14-15]利用用戶在社交網(wǎng)絡(luò)中的相互影響來預(yù)測信息傳播過程.
然而,現(xiàn)有工作仍存在3個方面問題:1)現(xiàn)有的研究要么僅利用信息傳播序列,要么僅利用社交網(wǎng)絡(luò),很少同時利用這2個重要因素,導(dǎo)致難以捕獲傳播過程的復(fù)雜性;2)現(xiàn)有研究通常使用RNN或其變體來進(jìn)行信息傳播預(yù)測,但它們捕捉信息相關(guān)性的能力不強(qiáng),導(dǎo)致預(yù)測準(zhǔn)確率不高;3)現(xiàn)有研究通常將時序特征和結(jié)構(gòu)特征進(jìn)行簡單拼接,難以對信息傳播過程中的時空特征進(jìn)行有效建模.
為解決上述問題,我們提出了一種基于時空Transformer(spatial-temporal transformer, STT)的社交網(wǎng)絡(luò)信息傳播預(yù)測模型.該模型能將信息的社交網(wǎng)絡(luò)圖和動態(tài)傳播圖結(jié)合起來進(jìn)行信息傳播預(yù)測.對于問題1,我們構(gòu)建了一個由社交網(wǎng)絡(luò)圖和動態(tài)傳播圖組成的異構(gòu)圖,然后使用GCN來獲取用戶的結(jié)構(gòu)特征;對于問題2,我們使用改善的Trans-former[16]模型來進(jìn)行序列任務(wù)預(yù)測,來改善捕捉信息相關(guān)性能力;對于問題3,我們將時序特征作為Transformer的Query集,將結(jié)構(gòu)特征作為Key和Value集來有效融合時序特征和結(jié)構(gòu)特征,從而捕獲用戶的時空特征.
此外,在實(shí)驗(yàn)中我們發(fā)現(xiàn)Transformer中原有的殘差網(wǎng)絡(luò)融合的效果并不理想,所以我們提出了一個新的殘差融合方法,進(jìn)一步融合用戶的時序特征和結(jié)構(gòu)特征,改善融合效果.
本文工作的主要貢獻(xiàn)有4個方面:
1) 提出了一種新的基于時空Transformer的神經(jīng)網(wǎng)絡(luò)(STT)用于社交信息傳播預(yù)測;
2) 使用由社交圖和傳播圖組成的異構(gòu)圖來聯(lián)合建模社交關(guān)系和信息傳播關(guān)系;
3) 將Transformer模型應(yīng)用到信息傳播預(yù)測領(lǐng)域,并提出了一種新的時空特征融合方式,用Transformer模型的Query,Key和Value集將時序特征和結(jié)構(gòu)特征進(jìn)行融合,同時提出了一個新的殘差融合方法來進(jìn)一步改善融合效果;
4) 在3個真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明:所提出的STT模型能顯著改善預(yù)測效果.
可以下載本文的源碼(1)https://github.com/DHGPNTM/STT.
本節(jié)主要從2個方面介紹相關(guān)工作,1)信息傳播預(yù)測方法;2)Transformer及其應(yīng)用.
1.1.1 基于傳播序列的方法
基于傳播序列的方法根據(jù)觀察到的傳播序列來解釋用戶之間的影響.早期的一些工作假設(shè)在信息傳播過程中存在著一個先驗(yàn)傳播模型,如獨(dú)立級聯(lián)模型[17]或線性閾值模型[18].雖然這些模型[17-19]刻畫了用戶之間的隱式影響,但這些方法的有效性依賴于先驗(yàn)信息傳播模型的假設(shè),而且這些假設(shè)很難驗(yàn)證.
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,一些研究[20-22]應(yīng)用深度學(xué)習(xí)從信息傳播序列中自動學(xué)習(xí)底層傳播序列的表示來進(jìn)行傳播預(yù)測.例如,Topo-LSTM[11]構(gòu)建了由傳播序列組成的動態(tài)有向無環(huán)圖(DAG),并使用基于拓?fù)涓兄墓?jié)點(diǎn)嵌入擴(kuò)展了LSTM機(jī)制以學(xué)習(xí)有向無環(huán)圖的結(jié)構(gòu).CYAN-RNN[12]將傳播序列建模為樹型結(jié)構(gòu),并采用了編碼器-解碼器框架來捕獲傳播序列中的交叉依賴.DeepDiffuse[10]為了能利用用戶轉(zhuǎn)發(fā)信息的時間戳,采用了注意力機(jī)制和嵌入方法,根據(jù)之前觀察到的傳播序列來預(yù)測何時以及何人將轉(zhuǎn)發(fā)信息.
大多數(shù)基于傳播序列的方法都將傳播預(yù)測問題視為一個序列預(yù)測任務(wù),其目的是按順序預(yù)測傳播用戶,并根據(jù)歷史傳播序列來研究如何影響未來的傳播趨勢.這些方法在對傳播過程建模時往往忽略了用戶之間的社交關(guān)系及其相互作用.此外,這些方法也忽略了信息傳播的全局影響.因此,如果只考慮傳播序列很難準(zhǔn)確地預(yù)測信息傳播過程.
1.1.2 基于社交網(wǎng)絡(luò)的方法
人們和他們的朋友會有一些共同的興趣,如果他們的朋友轉(zhuǎn)發(fā)了一條推特或者微博,那么他們也會有很大的概率去轉(zhuǎn)發(fā)它.基于這種假設(shè),最近的一些研究[14,23-24]利用社交網(wǎng)絡(luò)解釋人際關(guān)系對傳播預(yù)測的影響并且用來提高信息傳播預(yù)測的效果.例如,文獻(xiàn)[7]嘗試?yán)糜脩羯鐣巧g的相互作用及其對信息傳播的影響,提出了一種基于角色感知的信息傳播模型.該模型將社會角色識別和傳播序列預(yù)測結(jié)合到一個框架中.文獻(xiàn)[13]利用社交網(wǎng)絡(luò)中鄰居之間的結(jié)構(gòu)特征和具有順序性質(zhì)的局部結(jié)構(gòu)模式,并采用基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的框架對傳播序列進(jìn)行建模.文獻(xiàn)[15]提出多尺度信息傳播預(yù)測模型.在微觀視角下他們使用RNN和強(qiáng)化學(xué)習(xí)共同預(yù)測下一個轉(zhuǎn)發(fā)信息的用戶,在宏觀視角下使用基于多任務(wù)的學(xué)習(xí)框架在傳播序列中評估轉(zhuǎn)發(fā)信息用戶的總數(shù)量大小.
然而,大多數(shù)這些方法都過度關(guān)注于當(dāng)前的信息傳播序列,忽略了其他信息的傳播序列對當(dāng)前信息傳播的影響,這不能捕獲全局信息的轉(zhuǎn)發(fā)關(guān)系,所以它們不足以模擬信息傳播過程中的復(fù)雜關(guān)系.與只基于社交網(wǎng)絡(luò)的模型不同,我們通過構(gòu)建由社交網(wǎng)絡(luò)圖和動態(tài)傳播圖來共同學(xué)習(xí)信息傳播的全局結(jié)構(gòu),可以顯著提高模型預(yù)測的準(zhǔn)確性.
在Transformer出現(xiàn)之前,seq2seq任務(wù)主要做法是使用RNN及其變體或者CNN構(gòu)成的編碼器解碼器框架.但RNN具有無法并行運(yùn)算和計(jì)算復(fù)雜度高等缺點(diǎn),因此自Transformer模型提出以來,很多NLP問題嘗試使用Transformer來解決.文獻(xiàn)[25]提出了Transformer-XL,通過遞歸機(jī)制和一種新型相對位置編碼方案來捕捉更長距離的上下文依賴,解決上下文碎片問題.文獻(xiàn)[26]提出了一個預(yù)訓(xùn)練的語言表征模型,不再采用傳統(tǒng)的單向語言模型進(jìn)行預(yù)訓(xùn)練,而是生成深度的雙向語言表征.Transformer在計(jì)算機(jī)視覺領(lǐng)域中也有很多的應(yīng)用.例如:文獻(xiàn)[27]盡可能使用原始Transformer結(jié)構(gòu),用self-attention機(jī)制完全替代CNN,對于輸入圖像進(jìn)行切片,每個切片之間沒有重疊,將切片結(jié)果作為Transformer的序列輸入.
目前在信息傳播預(yù)測任務(wù)中,主要使用RNN及其變體LSTM[28]和GRU[29].RNN及其變體在訓(xùn)練時必須是對數(shù)據(jù)進(jìn)行順序處理即逐個用戶進(jìn)行處理,因此無法并行訓(xùn)練.此外RNN及其變體對用戶的編碼僅在下一個時間步被保留,這意味著當(dāng)前用戶的編碼僅強(qiáng)烈影響下一個用戶的表示,在幾個時間步長之后其影響很快消失. 而Transformer模型可以避免遞歸,允許并行計(jì)算減少訓(xùn)練時間,并減少由于長期依賴性而導(dǎo)致的性能下降,而且相對于RNN及變體,其結(jié)構(gòu)靈活性和通用性更強(qiáng),可以捕捉信息相關(guān)性的范圍更廣.此外,在NLP領(lǐng)域中Transformer對句子的處理是非順序的,句子是整體處理的,而不是逐字處理.Transformer不依賴于過去的隱藏狀態(tài)來捕獲對先前單詞的依賴性,而是整體上處理一個句子,所以不存在丟失或忘記過去信息的風(fēng)險.基于以上諸多優(yōu)勢,本文嘗試將Transformer應(yīng)用到信息傳播預(yù)測任務(wù)中.
本節(jié)我們將要介紹用到的符號,并闡述要解決的信息傳播預(yù)測任務(wù).
定義1.靜態(tài)社交圖.靜態(tài)社交圖定義為有向圖G=(V,E),其中V和E分別表示用戶集和邊集.如果用戶u關(guān)注了用戶v,那么eu,v=1.
定義2.信息傳播序列.信息i的傳播序列被表示為一系列的帶有時間戳的轉(zhuǎn)發(fā)行為,即xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)},其中(vi,j,ti,j)元組表示用戶vi,j在第i個信息傳播過程中在時間ti,j轉(zhuǎn)發(fā)信息,Nc表示信息被轉(zhuǎn)發(fā)的最大數(shù)量.轉(zhuǎn)發(fā)信息的用戶通常按照時間進(jìn)行排序,因此ti,j-1 定義3.動態(tài)傳播圖.信息i的有向動態(tài)傳播圖表示為Gxi=(Vxi,Exi),其中Vxi?V表示轉(zhuǎn)發(fā)或評論信息i的所有用戶.如果用戶u轉(zhuǎn)發(fā)或評論了用戶v發(fā)布的信息,則ev,u=1.給定一個信息級聯(lián)集合X={x1,x2,…,xM},對應(yīng)的動態(tài)傳播圖集合表示為GX={Gx1,Gx2,…,GxM}. 本文研究問題定義:給定信息i的傳播序列xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)},預(yù)測下一個轉(zhuǎn)發(fā)信息的用戶vi,Nc+1.具體來說,根據(jù)觀測到的歷史信息傳播序列集合,學(xué)習(xí)一個信息傳播預(yù)測模型Ψ.當(dāng)遇到一個新的傳播序列xi={(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)}時,使用模型Ψ計(jì)算下一時刻每個用戶u轉(zhuǎn)發(fā)信息的條件概率P(u|{(vi,1,ti,1),(vi,2,ti,2),…,(vi,Nc,ti,Nc)}). 本節(jié)我們詳細(xì)描述所提出的STT模型.該模型的框架如圖1所示.首先,我們構(gòu)造了一個由社交圖和動態(tài)傳播圖構(gòu)成的異構(gòu)圖;然后使用GCN從異構(gòu)圖上學(xué)習(xí)用戶的結(jié)構(gòu)特征;再將用戶的時序特征和結(jié)構(gòu)特征分別添加位置嵌入,把添加位置嵌入后的時序特征作為Transformer的Query集,把添加位置嵌入后的結(jié)構(gòu)特征分別作為Transformer的Key和Value集;最后用Transformer預(yù)測下一個轉(zhuǎn)發(fā)信息的用戶. Fig. 1 The structure of spatial-temporal Transformer neural network圖1 時空Transformer神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu) 實(shí)驗(yàn)中我們發(fā)現(xiàn)Transformer原有的殘差網(wǎng)絡(luò)融合效果并不理想,所以提出了一個新的殘差融合方式,能夠有效融合用戶的時序特征和結(jié)構(gòu)特征. 異構(gòu)圖的構(gòu)建過程如圖2所示.我們利用用戶之間的社交關(guān)系來構(gòu)建一個用戶社交圖G=(V,E),這是一個有向無權(quán)圖.同時使用信息傳播級聯(lián)集合X={x1,x2,…,xM}對應(yīng)的動態(tài)傳播圖集合GX={Gx1,Gx2,…,GxM},這是一個有向圖集合.我們將動態(tài)異構(gòu)圖定義為GH=(V,EH),其中EH=E∪EX,EX為動態(tài)傳播圖集合GX的邊集. 在構(gòu)建動態(tài)異構(gòu)圖GH的過程中,不同的動態(tài)傳播圖之間可能存在著相同的邊.例如:在圖2中,在消息1的動態(tài)傳播圖中有邊v2→v3,在消息M的動態(tài)傳播圖中也有邊v2→v3.在異構(gòu)圖中,我們需要為每條邊分配相應(yīng)的權(quán)重.我們用傳播圖中某條邊出現(xiàn)的次數(shù)作為異構(gòu)圖中該邊的權(quán)重.例如:在圖2的異構(gòu)圖中,邊v2→v3的權(quán)重為2. Fig. 2 The construction process of dynamic heterogeneous graph圖2 動態(tài)異構(gòu)圖的構(gòu)建過程 如圖1右下角所示,異構(gòu)圖有2種類型的邊關(guān)系:關(guān)聯(lián)關(guān)系和轉(zhuǎn)發(fā)關(guān)系.我們利用用戶節(jié)點(diǎn)和2種邊關(guān)系構(gòu)造鄰接矩陣D∈|V|×|V|,|V|表示用戶的數(shù)量.我們使用圖卷積網(wǎng)絡(luò)(GCN)從異構(gòu)圖中學(xué)習(xí)用戶節(jié)點(diǎn)的表示.GCN對鄰居節(jié)點(diǎn)信息聚合方式定義為 H(l+1)=σ(DH(l)W(l)), (1) 其中,H(0)∈|V|×d是通過正態(tài)分布隨機(jī)初始化的用戶嵌入,W(l)∈d×d是可學(xué)習(xí)的參數(shù),d是用戶嵌入的維度,l是GCN的層數(shù),σ(·)是一個激活函數(shù). 設(shè)圖卷積網(wǎng)絡(luò)的層數(shù)為L,則使用GCN學(xué)習(xí)到的節(jié)點(diǎn)表示HL隱含包括了節(jié)點(diǎn)的結(jié)構(gòu)特征. 通過異構(gòu)圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)后,我們獲得了異構(gòu)圖中所有節(jié)點(diǎn)的結(jié)構(gòu)特征表示HL.因此我們可以利用HL直接獲取消息i中每個用戶的結(jié)構(gòu)特征Hi={hi,1,hi,2,…,hi,Nc}∈NC×d,其中Nc表示所有消息中被轉(zhuǎn)發(fā)的最大數(shù)量,hi,j∈d是第i個消息中第j個用戶的結(jié)構(gòu)特征表示.如果某個消息轉(zhuǎn)發(fā)數(shù)量小于Nc,則用零向量補(bǔ)齊. 值得注意的是,在不同消息中出現(xiàn)的相同用戶,他們的結(jié)構(gòu)特征也相同.例如:如果某個用戶是第2個轉(zhuǎn)發(fā)消息1的用戶,同時也是第3個轉(zhuǎn)發(fā)消息2的用戶,那么該用戶在不同消息中的結(jié)構(gòu)特征表示h1,2和h2,3也是相同的.因此,不相同的結(jié)構(gòu)特征數(shù)量最多是全體用戶數(shù).通過這種方式,我們獲取到的結(jié)構(gòu)特征是用戶全局的結(jié)構(gòu)特征,可以捕獲用戶全局的轉(zhuǎn)發(fā)行為. 因?yàn)橛脩艮D(zhuǎn)發(fā)或評論消息的時間戳對預(yù)測效果也起著至關(guān)重要的作用,所以我們也需要獲取用戶的時序特征.為了方便表示用戶的時序特征,我們把整個時間分成n個時間間隔,把每個用戶轉(zhuǎn)發(fā)消息的時間戳映射到這n個時間間隔中的一個,就可以得到消息i中每個用戶的時序特征Ti={ti,1,ti,2,…,ti,Nc}∈NC×d,其中ti,j∈d表示第i個消息中第j個用戶的時序特征表示. 值得注意的是,如果兩用戶之間的轉(zhuǎn)發(fā)或評論時間很接近,那么這2個用戶很可能被劃分到同一個時間間隔中,則他們的時序特征也是相同的.因此,在用戶時序特征T中只有n個不相同的時序特征. 因?yàn)橄鄬ξ恢眯畔⒖梢苑从秤脩艮D(zhuǎn)發(fā)或評論消息的先后順序, 所以在得到用戶的時序特征和結(jié)構(gòu)特征表示之后,我們使用位置嵌入分別與時序特征和結(jié)構(gòu)特征進(jìn)行結(jié)合.具體地來,我們?yōu)橄⒌拿總€位置j定義一個位置嵌入pj,pj∈d是可學(xué)習(xí)的參數(shù), 用來表示相對位置信息.結(jié)構(gòu)特征hij添加位置嵌入后變?yōu)闀r序特征tij添加位置嵌入后變?yōu)樵O(shè)為消息i中用戶結(jié)構(gòu)特征添加位置嵌入后所得到的用戶結(jié)構(gòu)特征,為消息i中用戶時序特征添加位置嵌入后所得到的時序特征.顯然,我們有Nc×d. Transformer 中的decoder層如圖3所示.我們將N個decoder層進(jìn)行疊加,來進(jìn)行最后的序列任務(wù)預(yù)測,其中帶有掩碼的多頭注意力層定義為 Fig. 3 Transformer decoder layer圖3 Transformer中的decoder層 (2) Ai=[ai,1:ai,2:…:ai,Head]WQ, (3) 在經(jīng)過多頭注意力層之后,會使用殘差網(wǎng)絡(luò)來強(qiáng)化用戶特征,但是原有的殘差網(wǎng)絡(luò)連接在實(shí)驗(yàn)中效果并不理想,因?yàn)樗皇菍?個特征進(jìn)行簡單的相加.所以我們提出了一個新的特征融合方式來代替原有的殘差網(wǎng)絡(luò)連接,能夠有選擇性地集成用戶的時序特征和結(jié)構(gòu)特征,同時摒棄掉冗余的信息.然后我們將時空特征跟時序特征進(jìn)行殘差融合,再進(jìn)入層歸一化,緊接著進(jìn)入2層全連接網(wǎng)絡(luò),之后再進(jìn)行殘差連接跟層歸一化,詳細(xì)過程定義為 (4) (5) Outputi=LayerNorm(Fusion(FFNi,Fi)), (6) 其中,W1,W2∈Nc×d都是可學(xué)習(xí)的權(quán)重參數(shù),F(xiàn)i,FFNi,Outputi∈Nc×d,LayerNorm(·)是層歸一化函數(shù),Relu(·)是一個激活函數(shù),F(xiàn)usion(·)函數(shù)是我們新提出的殘差融合方式,能夠有選擇性地集成用戶的時序特征和結(jié)構(gòu)特征,具體定義為 Fusion(f1,f2)=g⊙f1+(1-g)⊙f2, (7) (8) 在獲得消息i中每個用戶最后的特征表示Outputi∈Nc×d之后,使用2層全連接網(wǎng)絡(luò)和Softmax函數(shù)來計(jì)算消息i中每個節(jié)點(diǎn)被激活的概率 (9) 我們使用交叉熵?fù)p失函數(shù)作為消息i的損失函數(shù),具體定義為 最后,使用所有消息的損失函數(shù)作為模型總的損失函數(shù),具體定義為 根據(jù)文獻(xiàn)[13,15]的研究,我們在3個公共可用的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對提出的模型進(jìn)行評估.詳細(xì)的統(tǒng)計(jì)數(shù)據(jù)如表1所示.#Users表示社交網(wǎng)絡(luò)中用戶數(shù)量,#Links表示社交網(wǎng)絡(luò)中用戶之間關(guān)聯(lián)關(guān)系的數(shù)量,#Cascades表示數(shù)據(jù)集中信息傳播序列的數(shù)量,Avg.Length表示信息傳播序列的平均長度. Table 1 Datasets Statistics表1 實(shí)驗(yàn)數(shù)據(jù)描述 1) Twitter數(shù)據(jù)集[30]記錄了2010年10月期間包含URL的所有推文,每個URL都被解釋為一個在用戶之間傳播的信息項(xiàng). 2) Douban數(shù)據(jù)集[31]是從豆瓣的社交網(wǎng)站上收集的,用戶可以更新他們的圖書閱讀狀態(tài),并可以關(guān)注其他用戶的狀態(tài).每本書或電影都被認(rèn)為是一個信息項(xiàng),如果2個用戶參與同一討論超過20次,他們將被視為朋友. 3) Memetracker數(shù)據(jù)集[5]是從在線網(wǎng)站上收集的數(shù)百萬篇新聞和博客文章,并追蹤最常見的引用和短語即模因,以分析模因在人們之間的遷移.每個模因被視為一個信息項(xiàng),每個網(wǎng)站的URL被視為一個用戶.值得注意的是,這個數(shù)據(jù)集沒有潛在的社交圖. 按照之前的研究[13,15],我們隨機(jī)抽取80%的數(shù)據(jù)進(jìn)行訓(xùn)練,10%用于驗(yàn)證,剩余10%用于測試. 為了驗(yàn)證提出的STT效果,我們與最新的信息傳播預(yù)測深度學(xué)習(xí)方法進(jìn)行比較,具體方法為: 1) Topo-LSTM[11].將信息傳播序列建模為動態(tài)有向無環(huán)圖,并擴(kuò)展標(biāo)準(zhǔn)的LSTM模型,學(xué)習(xí)具有拓?fù)涓兄挠脩羟度脒M(jìn)行信息傳播預(yù)測. 2) DeepDiffuse[10].使用嵌入技術(shù)和注意力機(jī)制處理轉(zhuǎn)發(fā)時間戳信息.該模型可以根據(jù)之前觀察到的級聯(lián)序列來預(yù)測社交網(wǎng)絡(luò)中何時及何人將轉(zhuǎn)發(fā)信息. 3) NDM[22].建立一個基于自注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的微觀級聯(lián)模型,可以緩解長期依賴問題. 4) SNIDSA[13].是一個對信息傳播具有結(jié)構(gòu)關(guān)注的序列神經(jīng)網(wǎng)絡(luò).采用遞歸神經(jīng)網(wǎng)絡(luò)框架對序列信息進(jìn)行建模,結(jié)合注意力機(jī)制來捕獲用戶之間的結(jié)構(gòu)依賴關(guān)系,并開發(fā)一種門控機(jī)制來整合序列和結(jié)構(gòu)信息. 5) FOREST[15].是一種基于強(qiáng)化學(xué)習(xí)的多尺度信息傳播預(yù)測模型.該模型將宏觀傳播范圍信息納入了基于RNN的微觀傳播模型中,它是最新的序列模型并取得了較好的實(shí)驗(yàn)效果. 6) DyHGCN[32].利用動態(tài)異構(gòu)圖卷積神經(jīng)網(wǎng)絡(luò)和自注意力機(jī)制來獲得用戶表示.據(jù)我們所知,該模型目前在信息傳播預(yù)測方面取得了最好的實(shí)驗(yàn)效果. 根據(jù)觀察到的信息傳播序列來評估下一個轉(zhuǎn)發(fā)用戶,這個預(yù)測任務(wù)通常被認(rèn)為是一個檢索問題,在所有用戶的輸出概率中,下一個實(shí)際轉(zhuǎn)發(fā)信息的用戶將得到更高的概率.我們利用2個廣泛使用的排名指標(biāo)Map@k和Hits@k進(jìn)行評估. 對比方法的超參數(shù)與原論文中的設(shè)置相同.我們的模型是由PyTorch實(shí)現(xiàn)的,這些參數(shù)由Adam優(yōu)化器進(jìn)行更新,學(xué)習(xí)速率設(shè)置為1E-3,批處理大小batch=16,用戶的各個特征維度大小d=64,Transfomer中的decoder層數(shù)N=2,時間間隔n=8,最后將Transfomer中多頭注意力的頭數(shù)Head=8. 我們在3個公共數(shù)據(jù)集上比較了STT模型與基線模型,實(shí)驗(yàn)結(jié)果如表2~4所示.我們提出的STT模型在3個數(shù)據(jù)集上的指標(biāo)Map@k和Hits@k均優(yōu)于所有基線模型.值得注意的是粗體字體表示最高數(shù)值,由于Memetracker數(shù)據(jù)集中缺乏社交關(guān)系,因此我們在Memetracker數(shù)據(jù)集中沒有給出Topo-LSTM和SNIDSA模型的實(shí)現(xiàn)結(jié)果. Table 3 Result of Douban Dataset Information Diffusion Prediction表3 Douban數(shù)據(jù)集信息傳播預(yù)測結(jié)果 Table 4 Result of Memetracker Dataset Information Diffusion Prediction表4 Memetracker數(shù)據(jù)信息集傳播預(yù)測結(jié)果 STT模型與Topo-LSTM,DeepDiffuse和NDM相比,在Map@k和Hits@k指標(biāo)上取得了明顯的優(yōu)勢.這些基線方法只將傳播路徑建模為一個序列,它們不使用社交網(wǎng)絡(luò),然而社交網(wǎng)絡(luò)可以反映用戶間的關(guān)聯(lián)關(guān)系,促進(jìn)用戶間的信息流動.實(shí)驗(yàn)結(jié)果表明,用戶間的社交網(wǎng)絡(luò)對信息傳播預(yù)測有著重要的影響. STT模型與SNIDSA和FOREST相比,在Map@k和Hits@k方面也有著較大的改進(jìn).雖然SNIDSA和FOREST利用用戶之間的社交關(guān)系來預(yù)測信息的傳播,但它們只將傳播路徑視為一個序列,而沒有考慮傳播路徑中所包含的結(jié)構(gòu)信息.因此SNIDSA和FOREST不能充分建模信息傳播過程導(dǎo)致性能較差.STT模型不僅利用社交網(wǎng)絡(luò)信息,而且還利用傳播圖來建模信息傳播行為,顯著提高了預(yù)測性能. STT模型與DyHGCN模型相比也有明顯的改善.為了量化改善的程度,我們計(jì)算了STT模型相對于DyHGCN模型改善的百分比,如表5所示.從表5可以看出,STT模型在Douban數(shù)據(jù)集的Map@k指標(biāo)上均提高超過20%,由此可看出STT模型的有效性.雖然DyHGCN同時使用社交網(wǎng)絡(luò)圖和傳播圖來建模傳播行為,但它沒有有效地利用用戶的時序特征和結(jié)構(gòu)特征.因此DyHGCN將在一定程度上降低信息傳播預(yù)測的性能.在STT模型中,我們使用Transformer模型把用戶時序特征和結(jié)構(gòu)特征進(jìn)行有效結(jié)合來獲取用戶時空特征,同時我們使用新提出的殘差融合方式來替代Transformer中原有的殘差融合方式來進(jìn)一步改善融合效果.因此STT模型在Map@k和Hits@k方面都優(yōu)于DyHGCN. Table 5 Percentage Increase of STT Model Compared with DyHGCN Model表5 與DyHGCN模型相比STT模型提高的百分比 % 為了研究STT模型中各個組成部分所起的作用,我們對模型的不同組成部分進(jìn)行了一系列的消融實(shí)驗(yàn).消融實(shí)驗(yàn)結(jié)果如表6和表7所示,我們沒有給出Memetracker數(shù)據(jù)集的消融實(shí)驗(yàn),因?yàn)檫@個數(shù)據(jù)集沒有社交網(wǎng)絡(luò).STT模型及其變體模型定義為: Table 6 Ablation Study on Twitter Dataset表6 在Twitter數(shù)據(jù)集上的消融實(shí)驗(yàn) Table 7 Ablation Study on Douban Dataset表7 在Douban數(shù)據(jù)集上的消融實(shí)驗(yàn) 1) STT-S.這個模型移除掉了社交網(wǎng)絡(luò)圖. 2) STT-D.這個模型移除掉了信息傳播圖. 3) STT-H.這個模型移除掉了動態(tài)異構(gòu)圖,并且隨機(jī)初始化用戶的特征表示. 4) STT-T.這個模型移除掉了用戶的時序特征,Transformer中Query集用用戶的結(jié)構(gòu)特征代替. 5) STT-TRM.這個模型移除掉了Transformer,并用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN代替. 6) STT-F.這個模型移除掉了Transformer中新提出的殘差融合方式,用原有的殘差連接方式代替. 從表6和表7可以看出,當(dāng)移除掉社交網(wǎng)絡(luò)圖時,與STT模型相比,實(shí)驗(yàn)效果有所下降.而當(dāng)移除掉信息傳播圖時,也可以看到相同的現(xiàn)象.實(shí)驗(yàn)結(jié)果表明,STT模型中社交關(guān)系和轉(zhuǎn)發(fā)關(guān)系對信息傳播預(yù)測都是十分重要的. 當(dāng)移除掉動態(tài)異構(gòu)圖時,與移除了社交網(wǎng)絡(luò)圖或信息傳播圖相比,預(yù)測效果進(jìn)一步降低.實(shí)驗(yàn)結(jié)果表明,這2種信息特征可以互補(bǔ),將它們聯(lián)合使用有助于提高預(yù)測效果. 當(dāng)移除掉用戶的時序特征時,與STT模型相比.實(shí)驗(yàn)效果有很大程度的下降.實(shí)驗(yàn)結(jié)果表明,時序特征對信息傳播預(yù)測起著至關(guān)重要的作用.將時序特征和結(jié)構(gòu)特征進(jìn)行有效結(jié)合,獲取到用戶的時空特征對信息傳播預(yù)測有著積極的作用. 當(dāng)移除掉Transformer模型,并用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN代替時,與STT模型相比,實(shí)驗(yàn)效果有很大程度的下降,特別是在Twitter數(shù)據(jù)集上效果下降更為嚴(yán)重.實(shí)驗(yàn)結(jié)果表明,Transformer模型應(yīng)用到信息傳播預(yù)測領(lǐng)域效果非常顯著,這說明Transformer模型內(nèi)部的多頭注意力可以大大提升實(shí)驗(yàn)效果. 當(dāng)移除掉Transformer模型中新提出的殘差融合方式,用原有的殘差連接方式代替時,與STT模型相比,實(shí)驗(yàn)效果有很大程度的下降.實(shí)驗(yàn)結(jié)果表明,我們提出的新殘差融合方式比原有的殘差連接方式更有效,這是因?yàn)樾碌臍埐钊诤戏绞讲捎昧巳诤祥T的機(jī)制,能夠有選擇性地集成用戶的時序特征和結(jié)構(gòu)特征. 我們在Twitter數(shù)據(jù)集上進(jìn)行了一些超參數(shù)敏感性實(shí)驗(yàn),研究了超參數(shù)的不同選擇對模型性能的影響. 1) 時間間隔n.時間間隔n從{1,2,4,8,16}中選擇,其不同值的選擇在Twitter數(shù)據(jù)集上的表現(xiàn)如表8所示.隨著時間間隔n的增加,STT模型的效果逐漸提高,但是當(dāng)時間間隔n>8時Map@k和Hits@k沒有進(jìn)一步改進(jìn)反而下降.這是因?yàn)殡S著時間間隔n的增加,用戶的時序特征表示越準(zhǔn)確,而增加到一定數(shù)值時, 學(xué)習(xí)的時序特征過多容易導(dǎo)致過擬合反而會使實(shí)驗(yàn)效果下降.因此,我們在本文中將時間間隔n=8. Table 8 Effect of Time Interval n on Twitter Dataset表8 時間間隔n在Twitter數(shù)據(jù)集上的影響 2) Transfomer中decoder層數(shù)N.層數(shù)N從{1,2,3,4,5,6}中選擇,其不同值的選擇在Twitter數(shù)據(jù)集上的表現(xiàn)如表9所示.從表9中的數(shù)據(jù)可以看出,當(dāng)層數(shù)N=2時,實(shí)驗(yàn)的效果達(dá)到最優(yōu),并且隨著層數(shù)N的增加,實(shí)驗(yàn)效果在逐漸下降.這是因?yàn)樯窠?jīng)網(wǎng)絡(luò)的層數(shù)增加到一定數(shù)值時,學(xué)習(xí)的信息過多導(dǎo)致過擬合反而會使實(shí)驗(yàn)效果下降.因此,我們在本文中將Transfomer中decoder的層數(shù)N=2. Table 9 Effect of the Number of Decoder Layers N on Twitter Dataset表9 decoder的層數(shù)N在Twitter數(shù)據(jù)集上的影響 3) 多頭注意力的頭數(shù)Head.頭數(shù)Head從{1,2,4,8,16}中選擇,其不同值的選擇在Twitter數(shù)據(jù)集上的表現(xiàn)如表10所示.從表10中的數(shù)據(jù)可以看出,隨著多頭注意力的頭數(shù)Head增加,實(shí)驗(yàn)效果在逐漸變好,當(dāng)Head=8時實(shí)驗(yàn)效果達(dá)到最優(yōu),當(dāng)Head繼續(xù)增加時效果有些下降.這是因?yàn)殡S著多頭注意力的頭數(shù)Head增加,學(xué)到的不同空間維度信息也就越多,而增加到一定數(shù)值時學(xué)習(xí)的冗余信息過多將會導(dǎo)致實(shí)驗(yàn)效果下降.因此,我們在本文中將多頭注意力的頭數(shù)Head=8. Table 10 Effect of the Number of Heads of Multi-head Attention Head on Twitter Dataset表10 多頭注意力的頭數(shù)Head在Twitter數(shù)據(jù)集上的影響 4) 用戶特征表示的維度d.維度d從{16,32,64,128,256}中選擇,其不同值的選擇在Twitter數(shù)據(jù)集上的表現(xiàn)如表11所示.從表11中的數(shù)據(jù)可以看出,隨著維度d的增加,實(shí)驗(yàn)效果逐漸變好,但是當(dāng)維度d超過64時,實(shí)驗(yàn)效果開始下降.這是因?yàn)殡S著用戶特征表示的維度d增加,用戶特征所蘊(yùn)含的信息也就越多,而增加到一定數(shù)值時用戶特征蘊(yùn)含的冗余信息過多將會導(dǎo)致實(shí)驗(yàn)效果下降.因此,我們在本文中將用戶特征表示的維度d=64. Table 11 Effect of Dimension Size of User Embedding d on Twitter Dataset表11 用戶嵌入維度d在Twitter數(shù)據(jù)集上的影響 本文研究了信息傳播預(yù)測問題,提出了一種基于時空Transformer神經(jīng)網(wǎng)絡(luò)的模型STT來預(yù)測傳播過程.在STT模型中,我們通過由社交圖和動態(tài)傳播圖組成的動態(tài)異構(gòu)圖來學(xué)習(xí)用戶的結(jié)構(gòu)特征,然后利用Transformer模型將用戶的時序特征和結(jié)構(gòu)特征相結(jié)合來學(xué)習(xí)用戶的時空特征,并設(shè)計(jì)了一個新的殘差融合方式來進(jìn)一步改善融合效果.在3個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,我們提出的模型STT顯著優(yōu)于基線模型.未來我們準(zhǔn)備加入用戶屬性特征和消息文本特征來嘗試改善預(yù)測性能.3 基于時空Transformer的社交網(wǎng)絡(luò)信息傳播預(yù)測模型
3.1 異構(gòu)圖構(gòu)建
3.2 異構(gòu)圖神經(jīng)網(wǎng)絡(luò)
3.3 時空Transformer神經(jīng)網(wǎng)絡(luò)
3.4 信息傳播預(yù)測
4 實(shí)驗(yàn)結(jié)果及分析
4.1 實(shí)驗(yàn)數(shù)據(jù)
4.2 對比方法
4.3 評價指標(biāo)和參數(shù)設(shè)置
4.4 實(shí)驗(yàn)結(jié)果
4.5 消融實(shí)驗(yàn)
4.6 參數(shù)分析
5 結(jié) 論