李倩 趙中英
摘要 面向社會(huì)化媒體數(shù)據(jù)信息的傳播及預(yù)測(cè),是當(dāng)前研究熱點(diǎn)。提出基于邏輯回歸的用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)模型,采用Fmeasure和ROC曲線(xiàn)作為評(píng)價(jià)標(biāo)準(zhǔn)驗(yàn)證了該模型的有效性。在Twitter數(shù)據(jù)集上的結(jié)果表明,所提模型能夠很好地預(yù)測(cè)用戶(hù)的信息轉(zhuǎn)發(fā)行為。
關(guān)鍵詞 信息傳播;社交媒體;邏輯回歸;信息轉(zhuǎn)發(fā)預(yù)測(cè)
DOI DOI: 10.11907/rjdk.162439
中圖分類(lèi)號(hào): TP302
文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào) 文章編號(hào): 16727800(2017)002000403
0 引言
互聯(lián)網(wǎng)的發(fā)展及移動(dòng)智能終端的普及,對(duì)人們的生產(chǎn)生活產(chǎn)生了重大影響,越來(lái)越多的人選擇通過(guò)網(wǎng)絡(luò)渠道表達(dá)自身的利益訴求和對(duì)社會(huì)事件的意見(jiàn)與看法。因此,以網(wǎng)絡(luò)為媒介的網(wǎng)絡(luò)輿論成為公眾輿論的主要形式之一。研究社交網(wǎng)絡(luò)中的信息傳播機(jī)制,有助于各級(jí)政府部門(mén)更好地了解與把握社情民意,對(duì)有效引導(dǎo)和管理社會(huì)輿論、化解輿情危機(jī)具有重要意義,因而受到眾多學(xué)者的廣泛關(guān)注。
已有諸多學(xué)者從事在線(xiàn)社交網(wǎng)絡(luò)的信息傳播分析與建模。曹玖新等[1]以新浪微博為研究對(duì)象,對(duì)各種可能影響用戶(hù)轉(zhuǎn)發(fā)行為的因素進(jìn)行統(tǒng)計(jì)、分析,并建立數(shù)學(xué)模型?;谖⒉┚W(wǎng)關(guān)注關(guān)系拓?fù)?,利用概率?jí)聯(lián)模型對(duì)給定微博的轉(zhuǎn)發(fā)路徑進(jìn)行預(yù)測(cè),為預(yù)測(cè)微博的影響范圍提供依據(jù)。周東浩等[2]結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)、節(jié)點(diǎn)內(nèi)容屬性、歷史傳播數(shù)據(jù)等信息,提出了一個(gè)基于隨機(jī)游走模型的傳播能力排序算法DiffRank,選擇傳播能力最強(qiáng)的topk個(gè)節(jié)點(diǎn)作為觀察節(jié)點(diǎn)來(lái)檢測(cè)網(wǎng)絡(luò)中可能出現(xiàn)的信息傳播。劉繼等[3]對(duì)網(wǎng)絡(luò)輿情傳播模式中單關(guān)鍵點(diǎn)型、多關(guān)鍵點(diǎn)型、鏈?zhǔn)叫蛡鞑ツJ竭M(jìn)行分析,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)中的強(qiáng)勢(shì)節(jié)點(diǎn)和橋節(jié)點(diǎn)的作用進(jìn)行了討論。李洋等[4]介紹了微博信息的傳播過(guò)程,通過(guò)介紹微博信息傳播的定性研究工作,揭示微博信息傳播的特點(diǎn);并從3個(gè)不同的角度(以信息為中心、以用戶(hù)為中心、以信息和用戶(hù)為中心)對(duì)微博信息傳播工作進(jìn)行探索,最后展望了微博信息傳播預(yù)測(cè)研究的問(wèn)題與挑戰(zhàn)。韓佳等[5]針對(duì)在線(xiàn)社交網(wǎng)絡(luò)中信息傳播模式的形式特點(diǎn),結(jié)合傳染病動(dòng)力學(xué)原理,提出了在線(xiàn)社交網(wǎng)絡(luò)中的信息傳播模型,分析了不同類(lèi)型的用戶(hù)在網(wǎng)絡(luò)中的行為特征以及影響信息傳播的主要因素。王超等[6]結(jié)合傳染病動(dòng)力學(xué)的SEIR模型,建立了適用于社交網(wǎng)絡(luò)的信息傳播模型。該模型基于社交網(wǎng)絡(luò)用戶(hù)的行為特征,分析了社交網(wǎng)絡(luò)的傳播機(jī)理和網(wǎng)絡(luò)參數(shù)對(duì)信息傳播過(guò)程的影響,得出了動(dòng)力學(xué)演化方程組,揭示了信息傳播隨時(shí)間的演化規(guī)律。郭海霞[7]針對(duì)新型社交網(wǎng)絡(luò)開(kāi)放平臺(tái)來(lái)研究社交網(wǎng)絡(luò)中信息傳播問(wèn)題,就其傳播方式、傳播行為、傳播路徑和傳播特點(diǎn) 進(jìn)行了分析研究,同時(shí)以新浪微博為例,在分析大量實(shí)例的基礎(chǔ)上,討論了信息傳播的幾種主要模型及特點(diǎn)。其他學(xué)者[810]也進(jìn)行了相關(guān)研究工作。
本文提出基于邏輯回歸的用戶(hù)轉(zhuǎn)發(fā)行為預(yù)測(cè)模型,并在Twitter數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析與評(píng)價(jià)。相關(guān)研究結(jié)果表明,該模型能夠較好地預(yù)測(cè)用戶(hù)的信息轉(zhuǎn)發(fā)行為,幫助政府各部門(mén)了解并控制網(wǎng)絡(luò)輿論,同時(shí)為相關(guān)研究領(lǐng)域提供參考。
1 基于邏輯回歸的信息轉(zhuǎn)發(fā)預(yù)測(cè)模型
1.1 邏輯回歸模型構(gòu)建
邏輯回歸模型是一種預(yù)測(cè)分類(lèi)模型,假設(shè)訓(xùn)練集為T(mén)rain,測(cè)試集為T(mén)est,對(duì)于數(shù)據(jù)集Train中的每個(gè)記錄,分類(lèi)結(jié)果是y=1或y=0,其中,y=1表示用戶(hù)轉(zhuǎn)發(fā)某篇推文,y=0表示用戶(hù)未轉(zhuǎn)發(fā)某篇推文。邏輯回歸模型可以對(duì)測(cè)試集Test的每一個(gè)記錄進(jìn)行預(yù)測(cè),判斷其是否轉(zhuǎn)發(fā)某篇推文。因此運(yùn)用邏輯回歸模型解決問(wèn)題時(shí),首先運(yùn)用訓(xùn)練集構(gòu)建邏輯回歸模型,然后針對(duì)測(cè)試集對(duì)分類(lèi)結(jié)果進(jìn)行預(yù)測(cè)。邏輯回歸方程如式(1):
2 實(shí)驗(yàn)與分析
2.1 實(shí)驗(yàn)數(shù)據(jù)
本文所用的數(shù)據(jù)為T(mén)witter中某篇推文在2012年7月1日到7月7日之間的傳播數(shù)據(jù),數(shù)據(jù)包括4個(gè)部分:轉(zhuǎn)發(fā)網(wǎng)絡(luò)(Retweet Network)、回復(fù)網(wǎng)絡(luò)(Reply Network)、提及網(wǎng)絡(luò)(Mention Network)、關(guān)注網(wǎng)絡(luò)(FollowingFollower Network),數(shù)據(jù)描述如表1所示。
2.2 評(píng)價(jià)指標(biāo)
運(yùn)用Fmeasure和ROC曲線(xiàn)來(lái)評(píng)價(jià)邏輯回歸模型。式(6)中α是調(diào)節(jié)系數(shù),準(zhǔn)確率(precision)和召回率(recall)可通過(guò)混淆矩陣計(jì)算得出。
F1= 1+α 2×recall×precision α2×recall+precision (6)
ROC曲線(xiàn)是以靈敏度TPR為縱坐標(biāo),以特異度FPR為橫坐標(biāo),繪制成曲線(xiàn)形式。ROC關(guān)注的兩個(gè)指標(biāo)可用式(7)、式(8)計(jì)算得到。TPR= TP TP+FN (7)
FPR= FP FP+TN (8)
其中,TP表示預(yù)測(cè)轉(zhuǎn)發(fā)并且實(shí)際轉(zhuǎn)發(fā),F(xiàn)N表示預(yù)測(cè)未轉(zhuǎn)發(fā)但是實(shí)際轉(zhuǎn)發(fā),F(xiàn)P表示預(yù)測(cè)轉(zhuǎn)發(fā)但是實(shí)際未轉(zhuǎn)發(fā),TN表示預(yù)測(cè)未轉(zhuǎn)發(fā)并且實(shí)際未轉(zhuǎn)發(fā)。
AUC值是ROC曲線(xiàn)下方面積的大小,其取值范圍介于0.5~1.0,AUC值越大表示模型判斷力越強(qiáng)。如果模型較好,則其ROC曲線(xiàn)呈凸形,即AUC大于0.5;否則若為凹形,說(shuō)明模型分類(lèi)結(jié)果不理想。
2.3 實(shí)驗(yàn)結(jié)果與分析
運(yùn)用邏輯回歸模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),然后對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。以0.5為界限劃分結(jié)果,當(dāng)概率Pi>=0.5,認(rèn)為該節(jié)點(diǎn)轉(zhuǎn)發(fā)推文,當(dāng)概率Pi<0.5,認(rèn)為該節(jié)點(diǎn)未轉(zhuǎn)發(fā)推文。試驗(yàn)中測(cè)試了不同的α值對(duì)評(píng)價(jià)結(jié)果的影響,如圖1所示。
3 結(jié)語(yǔ)
本文構(gòu)建了基于邏輯回歸的信息轉(zhuǎn)發(fā)預(yù)測(cè)模型并實(shí)現(xiàn)了模型參數(shù)求解,提出了基于邏輯回歸的信息轉(zhuǎn)發(fā)預(yù)測(cè)算法。運(yùn)用Fmeasure和ROC曲線(xiàn)對(duì)邏輯回歸模型進(jìn)行評(píng)價(jià),同時(shí)將該模型應(yīng)用在Twitter數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析,相關(guān)結(jié)果表明,本文設(shè)計(jì)的邏輯回歸模型能夠很好地預(yù)測(cè)用戶(hù)的轉(zhuǎn)發(fā)行為。
參考文獻(xiàn) 參考文獻(xiàn):
[1] 曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2014(4):779790.
[2] 周東浩,韓文報(bào).DiffRank:一種新型社會(huì)網(wǎng)絡(luò)信息傳播檢測(cè)算法[J].計(jì)算機(jī)學(xué)報(bào),2014(4):884893.
[3] 劉繼,李磊.基于微博用戶(hù)轉(zhuǎn)發(fā)行為的輿情信息傳播模式分析[J].情報(bào)雜志,2013(7):7477.
[4] 李洋,陳毅恒,劉挺.微博信息傳播預(yù)測(cè)研究綜述[J].軟件學(xué)報(bào),2016,27(2):247263.
[5] 韓佳,肖如良,胡耀,等.在線(xiàn)社交網(wǎng)絡(luò)中信息傳播模式的特征分析[J].計(jì)算機(jī)應(yīng)用,2013,33(1):105107.
[6] 王超,楊旭穎,徐珂,等.基于SEIR的社交網(wǎng)絡(luò)信息傳播模型[J].電子學(xué)報(bào),2014(11):23252330.
[7] 郭海霞.新型社交網(wǎng)絡(luò)信息傳播特點(diǎn)和模型分析[J].現(xiàn)代情報(bào),2012,32(1):5659.
[8] ZHANG J,TANG J,LI J,et al.Who influenced you? predicting retweet via social influence locality[J].ACM Transactions on Knowledge Discovery from Data,2015,9(3):126.
[9] TAHANI M,HEMMATYAR A M A,RABIEE H R,et al.Inferring dynamic diffusion networks in online media[J].ACM Transactions on Knowledge Discovery from Data,2016,10(4):122.
[10] SAITO K,KIMURA M,OHARA K,et al.Detecting changes in information diffusion patterns over social networks[J].ACM Transactions on Intelligent Systems & Technology,2013,4(3):325352.
(責(zé)任編輯:孫 娟)