国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合時序文本與高階交互拓撲的在線抗議預測

2020-12-15 04:55:58羅森林李東超吳舟婷潘麗敏吳倩
北京理工大學學報 2020年11期
關鍵詞:高階時序抗議

羅森林,李東超,吳舟婷,潘麗敏, 吳倩

(1.北京理工大學 信息與電子學院,北京 100081; 2.國家計算機網絡應急技術處理協調中心,北京 100094)

隨著互聯網的快速發(fā)展,推特、微博等社交媒體成為公眾集中表達個人觀點與情緒的主流媒介. 同時由于社交媒體具備平臺開放性、資訊時效性且傳播快速等特點,社交媒體容易被不法分子利用,嚴重危害國家政治安全和用戶信息安全[1].

基于社交媒體的在線抗議預測任務包括抗議活動發(fā)生的時間、地點的預測以及用戶抗議傾向的預測. 目前對抗議活動發(fā)生的時間地點的預測通常利用社交媒體產生的文本內容及時間戳[2]、hashtag[3]等結構化信息預測抗議活動發(fā)生的時間或地點,如EMBERS系統(tǒng)[3]. 通過預測抗議活動當天用戶推文的抗議傾向性,能夠幫助安全監(jiān)管部門提前預知抗議活動參與者的規(guī)模,做出相應級別的預防措施.

社會學研究表明通過信息的流通,能夠讓那些本來就享有共同偏好的用戶匯聚在一起,同時還改變了那些社會運動潛在參與者的偏好,讓他們走出沉默,通過話語或行動表達訴求[4]. 如果用戶在過去發(fā)表過抗議相關推文,那么用戶將更有可能參與抗議活動,同時如果用戶被抗議相關的推文@,該用戶則更具備抗議傾向性[5];另外如果用戶感興趣的人發(fā)表了抗議相關推文,那么該用戶的抗議傾向性就會得到加強[6]. 所以用戶抗議傾向性既與用戶發(fā)表推文內容及交互推文內容相關,也受用戶的交互拓撲影響.

當前用戶抗議傾向預測的方法主要利用用戶發(fā)表推文內容及交互推文內容預測用戶下一條推文狀態(tài)[7-9],沒有考慮用戶間高階交互拓撲對用戶屬性建模的影響. 因此引入網絡嵌入方法對用戶間高階交互拓撲進行建模,網絡嵌入是一種通過編碼節(jié)點拓撲結構建模節(jié)點屬性的方法,其中通過融合節(jié)點文本內容與交互拓撲的算法可提高節(jié)點分類效果. 然而,網絡嵌入方法尚未用于抗議傾向預測任務. 同時,由于社交媒體信息迭代快,用戶屬性變化頻率高,同一個用戶的行為特點在一定時間段內會發(fā)生多次變化,用戶屬性的分析結果往往具有一定的時效性[10],所以用戶推文信息的時序性對用戶抗議傾向性也有重要的影響.

早期基于社交媒體的研究多集中于利用文本信息進行事件預測. Williams等[11]利用Facebook數據對美國總統(tǒng)大選中的候選人支持率進行預測. Bollen等[12]基于Twitter數據,分析用戶集體情緒狀態(tài),預測美國道瓊斯工業(yè)平均指數. Balanco等[13]從Twitter數據中抽取有價值的用戶信息,預測世界杯錦標賽的比賽結果.

在線抗議預測是根據社交媒體信息,對未來發(fā)生的抗議活動的時間、地點或人物抗議傾向進行預測. 在線抗議預測近年來逐漸引起研究者的重視. Kallus[2]利用事件抽取技術從Twitter文本中抽取事件、實體、時間等特征,用于預測一段時間內發(fā)生抗議活動的概率. Muthiah等[3]基于新聞和社交媒體的文本信息,利用關鍵詞過濾等技術提取抗議活動的關鍵信息,提出了一個可以預測抗議活動發(fā)生的時間、地點的EMBERS系統(tǒng). Korolov等[13]提出用戶參與抗議活動的狀態(tài)變化分為四個階段,并利用邏輯回歸算法預測發(fā)生抗議活動的概率. Qiao等[14]基于隱馬爾可夫算法提出了一個預測抗議活動是否發(fā)生的模型. Wu等[15]證實了抗議活動的發(fā)生與推文的數量變化有顯著相關性. 這些對抗議活動發(fā)生的時間、地點進行預測的方法已經取得了不錯的效果. 對人物抗議傾向性的研究也取得一定進展,Godin等[5]通過模擬用戶之前發(fā)表推文的主題來預測用戶下一條推文的特征. Kywe等[4]使用協同過濾的方法,將相似用戶的推文內容結合,用以預測用戶下一條推文的特點. Ma等[16]將用戶的推文、時間信息與候選用戶間的推文交互相結合,預測該用戶下一條推文的狀態(tài). Ranganath等[6]基于幾何布朗運動,建模用戶發(fā)表的推文信息與交互推文信息對用戶狀態(tài)的影響,預測用戶的下一條推文是否在宣稱抗議.

交互拓撲信息是表示用戶社交關系的重要特征,隨著網絡嵌入技術的發(fā)展,利用網絡嵌入技術對交互拓撲中的用戶節(jié)點進行向量化表示,成為獲取用戶交互拓撲信息的重要手段. Belkin等[17]提出利用歐氏距離度量兩個節(jié)點的距離,并假設相連的節(jié)點距離相近,構建了Laplace特征表;Chen等[18]通過將不同節(jié)點的損失權重差異化,進一步改進了Laplace特征表方法. 隨著神經網絡技術的進步,深度學習技術也被引入到網絡表示學習中來. Perozzi等[19]DeepWalk算法,充分利用隨機游走序列的信息,應用Skip-gram模型學習節(jié)點的分布式表示;Tang等[20]提出大規(guī)模信息網絡嵌入(large-scale information network embedding,LINE)算法,旨在處理節(jié)點間關系建模過程中的一階稀疏問題,通過非直接相連節(jié)點的共同鄰居刻畫這兩個節(jié)點的二階相似度,挖掘了用戶之間的深層次連接,豐富了交互拓撲. Tu等[21]提出上下文感知網絡嵌入(context-aware network embedding,CANE)算法,在LINE算法基礎上引入文本信息,并利用注意力機制關注用戶間交互推文信息特征,生成用戶向量表示. 當前算法只關注于用戶之間交互推文的特征,缺失對用戶本身文本時序差異性的關注,忽視了用戶不同時間段產生的不同主題性文本內容對用戶屬性刻畫的貢獻度不一.

針對當前在線抗議預測對用戶個人屬性利用不充分的問題,提出一種融合時序文本與高階交互拓撲的在線抗議預測方法,利用自注意力機制關注用戶本身內容時序差異性對用戶表征的影響,結合用戶間交互推文信息特征建模用戶文本向量表示,同時融合用戶高階交互拓撲信息,對用戶節(jié)點進行向量化表示,并對其下一條推文的抗議傾向性進行預測.

1 融合時序文本與高階交互拓撲的在線抗議人物預測方法

1.1 原理框架

方法原理圖如圖1所示,通過關鍵詞篩選和專家判斷,對用戶最新一條推文進行抗議傾向性標注,得到正負樣本用戶集;利用用戶推文信息和用戶間交互拓撲構建用戶表示向量. 文本信息的處理方式通過定義目標函數Lt(e),既關注用戶自身推文的時序差異性,也學習了用戶間交互推文信息特征對用戶表征的影響;另外基于用戶間交互拓撲結構,學習用戶間高階交互拓撲特征,構建目標函數Ls(e);結合Lt(e)和Ls(e),用戶表示向量學習的目標函數構建如式(1)所示為

L(e)=Lt(e)+Ls(e).

(1)

對于用戶u,經過模型訓練得到用戶文本表示向量ut和用戶交互表示向量us,結合兩種向量表示構成用戶表示向量u. 基于用戶表示向量,構建分類器,預測用戶的下一條推文是否在宣稱抗議.

1.2 時序文本表示建模

社交媒體話題種類豐富,更新迭代速度快,用戶不同時間段發(fā)表的推文對于用戶當前狀態(tài)的判定會出現不同程度的影響,所以關注用戶自身發(fā)表推文的時序差異性對于用戶抗議傾向判定的影響十分必要.

自注意力機制在模型訓練過程中通過學習用戶推文的時序差異性,對不同時間發(fā)表的不同重要程度內容賦予不同權重信息[24]. 時序文本建模基于自注意力機制對用戶推文內容進行處理,通過構建自注意權重矩陣,關注用戶自身推文由于內容發(fā)表時序差異性對用戶向量表示所帶來的影響.

首先利用卷積神經網絡(convolutional neural network, CNN)單元處理原始推文文本S=(w1,w2,…,wn),wi代表單詞文本,利用looking-up層操作將wi表示成單詞向量wi,得到推文文本序列S=[w1w2…wn]. 然后將文本序列輸入到卷積層和池化層中,得到推文表示向量T′=[r1r2…rn]T,其中ri∈Rd,d為詞向量維度,n為文本長度.

基于自注意力機制思想學習帶有時序權重信息的推文文本表示,構建時序矩陣Aself∈Rd×d. 對用戶推文內容T′進行處理,關注用戶個人文本信息,學習用戶推文內容的時序差異性,最終得到用戶時序權重推文表示T,如式(2)所示.

(2)

通過時序文本建模方式對用戶推文進行處理,得到每個用戶k的文本表示向量Tk∈Rn×d,其中n是文本長度,即單詞數量,d是詞向量維度.

用戶之間會根據交互對象的不同而產生不同的文本,所以需要建模用戶間的交互推文信息特征. 首先構建注意力矩陣A∈Rd×d,對于一對用戶u和v,根據時序文本建模方法得到對應的文本表示Tu和Tv,計算得到用戶間的關聯矩陣F∈Rn×n,如式(3)所示為

(3)

F矩陣的每一個元素代表著用戶間文本單詞與單詞的交互權重分值,通過行池化和列池化操作得到Au和Av向量,如式(4)(5)所示為

(4)

(5)

(6)

最終,得到用戶文本表示向量u′t和v′t,如式(7)(8)所示為

u′t=Tuau.

(7)

v′t=Tvav.

(8)

1.3 高階交互拓撲建模

用戶的社交網絡包含豐富的特征信息,用戶之間的一階顯性聯系容易統(tǒng)計得到,但是用戶之間的高階隱性關聯需要通過算法進行挖掘. 如圖2所示,圖中實線代表顯性聯系,虛線代表隱性聯系,當用戶與兩個團體均有同等程度聯系時,通過非顯性連接用戶之間的鄰居用戶構建隱性連接,分析該用戶的隱含社交關系,從而判斷該用戶與抗議團體聯系更緊密,與非抗議團體關聯相對較弱. 通過使用LINE算法,對用戶的隱含社交關系進行挖掘,通過保持用戶之間的二階相似性,構建高階交互拓撲,得到用戶的交互特征向量表示.

圖中顯性關系定義為一階相似性,對于由邊(u,v)連接的每對頂點,該邊緣的權重wu,v表示u和v之間的一階相似性,如果頂點之間沒有觀察到邊緣,他們的一階相似性為0. 對于每個無向邊(u,v),定義頂點u和v的聯合概率分布為

(9)

(10)

圖中的隱性關系定義為二階相似性,二階相似性指的是在網絡中一對頂點之間的接近程度是其鄰域網絡結構之間的相似性. 二階相似性假定與其他頂點共享鄰居頂點的兩個點彼此相似.

數學上,讓pk=[wk,1…wk,|V|]表示k與附近所有其它頂點的一階相似性,那么k和h之間的二階相似性由pk和ph之間的相似性來決定. 如果沒有一個頂點同時與k與h連接,那么k和h的二階相似性是0. 對于每個有向邊(u,v),定義頂點v是頂點u的鄰居的概率:

(11)

式中:|V|表示頂點集合;v′和v″分別為表示頂點本身和其他頂點的鄰居時的向量.

另外,二階相似性的目標函數為

(12)

1.4 目標函數

根據前面所述,定義優(yōu)化目標函數如下

L(e)=Lt(e)+Ls(e).

(13)

Ls(e)=wu,vlnp2(v′s|u′s).

(14)

Lt(e)=αLtt(e)+βLts(e)+γLst(e).

(15)

Ltt(e)=wu,vlnp2(v′t|u′t).

(16)

Lts(e)=wu,vln p2(v′t|u′s).

(17)

Lst(e)=wu,vlnp2(v′s|u′t).

(18)

模型的目標是通過最大化以上目標函數L(e),獲得用戶u基于文本的向量表示u′t和基于交互拓撲的向量表示u′s,然后將兩種向量表示結合作為用戶節(jié)點向量表示為

u=u′t+u′s.

(19)

但是直接優(yōu)化以上目標函數的代價太高,會消耗大量的計算資源,所以實驗過程中采用負采樣的方法對目標函數進行了修改,如式(20)所示,

(20)

利用訓練得到的用戶表示向量u進行抗議傾向性預測,判斷用戶是否為抗議人物. 利用公式(21)計算得到用戶抗議性傾向預測值y′,與真實標簽進行對比,計算預測準確率.

y′=softmax(wu+b).

(21)

2 實驗分析

2.1 實驗數據

數據來源于Apollo Social Sensing Toolkit提供的開放數據,數據集中包括大約1 800萬條推文,包含172 388位用戶.

數據集收集于2011年1月31號到2011年2月18號的埃及革命期間,該時段埃及爆發(fā)了一系列的街頭示威、游行、集會、罷工等抗議活動. 社會學研究表明,埃及革命抗議活動期間,社交媒體起到了積極的推動作用,埃及革命也被稱為“推特革命”[23-24]. 該數據集包含了用戶在埃及革命期間發(fā)表的推文,同時數據集中包含了大量用戶相互@的信息,能夠還原抗議期間用戶之間的社交聯系.

實驗過程中,選取5 d作為一個用戶的狀態(tài)持續(xù)時間,比如使用1月31號到2月5號期間的推文,根據設定的關鍵詞對用戶該時段的最新一條推文進行初步篩選,再通過人工判斷該用戶的最新一條推文是否在表達抗議,最終完成數據集的標注處理,數據處理流程如圖3所示.

最終,實驗過程中使用到的數據情況如表1所示,其中正樣本代表有抗議傾向的用戶樣本,負樣本代表沒有抗議傾向的用戶樣本.

表1 實驗數據Tab.1 Experimental datasets

2.2 評價方法

實驗采用準確率(Rac)對結果進行評價與比較,準確率是實驗過程中常用的評價標準,該評價方法綜合考慮了實驗過程把正類和負類分對的情況,具體計算方法如公式(22)所示.

(22)

式中:NTP為將正類預測為正類的樣本數目;NTN為將負類預測為負類的樣本數目;NFP為將負類預測為正類的樣本數目;NFN為將正類預測為負類的樣本數目.

2.3 抗議傾向性預測

為了驗證引入融合時序文本與高階交互拓撲的方法對抗議預測的實驗結果帶來的積極影響,與當前先進算法進行對比. 同時為了證明算法的普適性,分別在不同時間段的數據集上進行對比實驗. 選用5 d為時間窗口,該時段內的信息量能夠代表用戶的最近狀態(tài). 利用時間窗口,將原始數據集切分為8個子數據集,以數據集內最新一條推文對用戶進行標注,以80%的數據作為訓練集,10%作為驗證集,10%作為測試集. 為了公平,所有對比算法在實驗過程中均設置用戶表示向量的維度為200,實驗結果如表2所示.

表2 用戶抗議傾向預測準確率Tab.2 User protest tendency prediction accuracy

由實驗結果可以看出,在多數數據集上,融合時序文本與高階交互拓撲的在線抗議預測方法取得了良好的實驗效果,優(yōu)于當前先進算法. 實驗結果說明,通過時序文本建模方法對用戶個人推文信息進行表示,能夠學習到用戶推文時序差異性對用戶屬性建模的影響,同時通過融合高階交互拓撲信息,能夠還原用戶真實社交情況,有利于用戶屬性建模,能夠提高抗議人物預測準確率. 另外,隨著時間推移,預測的準確率總體呈下降趨勢. 原因是在抗議活動的尾聲,用戶對抗議活動的關注度減弱,推特對抗議活動的話題討論不再集中,使得推特中的推文信息噪聲增多,導致預測準確率下降.

2.4 維度特征實驗

為了評估不同維度用戶表示向量對在線抗議預測性能的影響,利用算法訓練不同維度的用戶表示向量,對用戶的抗議傾向進行預測,并在前4組數據集上進行實驗,實驗結果如圖4所示.

由實驗結果可以看出,當用戶表示向量的維度設置為200時,預測準確率最高. 特征維度設定為300時,預測結果波動較小,設定為400時,整體波動較大. 同時,由實驗結果圖可以看出,當維度設置小于400維時,特征維度不同造成的最終結果差異不大,準確率最多相差一個百分點.

2.5 抗議規(guī)模預測

為了表明本文提出的方法對抗議活動規(guī)模預測具有直觀的借鑒意義,利用本文提出的方法對抗議活動各時段用戶的推文狀態(tài)進行判斷,并統(tǒng)計預測的抗議用戶數量和Twitter中明確宣稱抗議的用戶數量,結果如圖5所示.

由實驗結果可以看出,本文提出的方法預測的抗議規(guī)模與線上真實抗議規(guī)模有很高的契合度,在第二組實驗中,線上真實抗議規(guī)模和預測抗議規(guī)模都達到頂峰,這與現實世界中該時段集中爆發(fā)抗議活動的表現一致. 同時,從圖中可以觀察到,隨著抗議活動接近尾聲,抗議分子的數量也在規(guī)律性的下降,說明隨著時間推移,民眾的抗議情緒也在消退. 所以本文提出的方法能夠協助安全監(jiān)管部門感知、預測、預警未來抗議活動的規(guī)模狀況,主動作出相應級別的決策反應,顯著提高社會治理能力,保障國家安全.

2.6 案例分析

為了更好地說明算法的有效性,選取數據集中的正樣本用戶Indiffirent,分析其在抗議活動期間的交互情況和推文內容. 該用戶在抗議活動期間的交互情況如表3所示,交互用戶users代表用戶Indiffirent@過的用戶們,用戶標簽代表其中一個用戶u的標簽屬性,1代表正樣本,0代表負樣本,交互次數是用戶Indiffirent與各個用戶u互相@的次數,比如Indiffirent和marwame 之間相互@了1次.u與正樣本用戶交互次數代表用戶u的交互過程中,正樣本用戶所占的次數.

表3 正樣本用戶Indiffirent交互情況說明Tab.3 Positive sample user Indiffirent interaction description

從表3中可以看出,正樣本用戶Indiffirent在抗議活動期間直接交互的用戶多數正樣本用戶,這是該用戶的一階拓撲特性. 另外,所有交互用戶users的互動過程中,正樣本的比例遠高于負樣本的比例,這是用戶Indiffirent的高階拓撲特性. 從現實世界的交互情況可以看出,算法構建的高階拓撲結構能夠深度構建用戶交往圈,完善用戶屬性建模.

用戶Indiffirent在抗議活動期間發(fā)表的推文內容如表4所示,從推文內容可以看出,該用戶在抗議活動初期只是關注于抗議活動進展,隨著時間推移,該用戶開始在推文中出現煽動網絡用戶去參加抗議的內容. 所以,在抗議活動初期,該用戶并不具備抗議傾向,但是在預測的節(jié)點,該用戶已經變成了具有抗議傾向的抗議分子,所以用戶推文內容的時間差異性對用戶抗議屬性的判斷起著重要的作用.

表4 用戶Indiffirent推文內容Tab.4 User Indiffirent tweet content

3 結 論

針對在線抗議預測中缺少對用戶自身推文時序差異性及交互拓撲的關注,從而影響抗議預測準確率的問題,提出了一種融合時序文本與高階交互拓撲的在線抗議預測方法. 該方法考慮用戶自身推文時序差異性對用戶屬性建模的影響,通過引入自注意力機制,學習用戶自身推文內容時序差異性的權重矩陣,建模用戶時序推文表示,再結合用戶間交互推文信息特征構成用戶文本表示向量,然后融合用戶高階交互特征向量共同構建用戶特征向量,最后基于用戶特征向量預測其下一條推文是否在宣稱抗議. 實驗結果表明,在多組實驗數據集中,實驗效果優(yōu)于當前先進算法,準確率最高能達到93.9%. 該方法融合時序文本與高階交互拓撲,能夠有效提升在線抗議預測的準確率,對抗議規(guī)模的預測有直觀的借鑒意義. 將來的研究可以在以下三方面進行:①在線抗議中心人物判斷;②在多地區(qū)數據集上證明本方法的適用性;③線上抗議活動演變趨勢預測.

猜你喜歡
高階時序抗議
時序坐標
基于Sentinel-2時序NDVI的麥冬識別研究
有限圖上高階Yamabe型方程的非平凡解
高階各向異性Cahn-Hilliard-Navier-Stokes系統(tǒng)的弱解
滾動軸承壽命高階計算與應用
哈爾濱軸承(2020年1期)2020-11-03 09:16:02
“藝”心抗議
南風(2020年8期)2020-08-06 10:25:56
抗議之歌
一種毫米波放大器時序直流電源的設計
電子制作(2016年15期)2017-01-15 13:39:08
縫線抗議
基于Bernstein多項式的配點法解高階常微分方程
区。| 榆林市| 孝昌县| 罗平县| 洛扎县| 安塞县| 新乡市| 长治市| 古交市| 新余市| 千阳县| 合江县| 武强县| 苍溪县| 东丰县| 万州区| 南开区| 托克托县| 嘉义市| 海盐县| 封丘县| 定远县| 莱西市| 东平县| 兖州市| 于都县| 五常市| 克拉玛依市| 宝丰县| 朝阳县| 正镶白旗| 青龙| 乐业县| 南雄市| 长海县| 叙永县| 家居| 长葛市| 布拖县| 新化县| 连州市|