陳 江,劉 瑋,巢文涵,王麗宏
(1.北京航空航天大學(xué)計算機學(xué)院,北京100191;2.國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京100029;3.中國科學(xué)院計算技術(shù)研究所,北京100190;4.中國科學(xué)院大學(xué),北京100049)
微博是一個基于用戶關(guān)系的信息分享、傳播以及獲取平臺[1]。微博從2009年發(fā)布至今,迅速以其內(nèi)容簡潔、交互簡便和快速傳播等特點,發(fā)展成為人們表達(dá)觀點、抒發(fā)情緒、傳遞信息的重要社會媒體。根據(jù)2015年7月《CNNIC:2015年第36次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》,截止2015年6月,我國微博用戶規(guī)模為2.04億,其中手機微博用戶數(shù)為1.62億,使用率為27.3%,用戶之間通過關(guān)注形成復(fù)雜的關(guān)系網(wǎng)絡(luò)。
在微博平臺中,用戶之間通過關(guān)注關(guān)系構(gòu)成錯綜復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),用戶通過轉(zhuǎn)發(fā)微博傳播信息,這種傳播方式具有傳播快、覆蓋廣的特點,使得某些微博能夠在短時間內(nèi)形成極大的關(guān)注和影響。因此,微博轉(zhuǎn)發(fā)研究對話題檢測、熱點跟蹤、輿情監(jiān)控以及商業(yè)營銷具有重要價值。
目前針對微博轉(zhuǎn)發(fā)的研究主要基于網(wǎng)絡(luò)結(jié)構(gòu)或基于微博特征,前者通過分析微博網(wǎng)絡(luò)中信息傳播的特點,研究微博轉(zhuǎn)發(fā)問題,但該方法局限于微博網(wǎng)絡(luò)復(fù)雜而龐大,難以獲得完整的網(wǎng)絡(luò)結(jié)構(gòu),而基于部分網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)往往造成較大的偏差。后者通過分析影響微博轉(zhuǎn)發(fā)的因素,構(gòu)建微博轉(zhuǎn)發(fā)模型,該類主要針對用戶靜態(tài)屬性或消息特征來預(yù)測消息是否會被轉(zhuǎn)發(fā),沒有充分考慮待預(yù)測用戶的個體差異和背景知識對轉(zhuǎn)發(fā)決策的影響。
事實上,用戶閱讀到一條微博時,會根據(jù)自己已有知識對微博價值和新穎性進行判斷,然后決定是否轉(zhuǎn)發(fā)。微博是否會被轉(zhuǎn)發(fā)與用戶個體行為和用戶對微博的背景知識具有緊密相關(guān)性,用戶所掌握的微博背景知識一方面由歷史微博獲取,一方面由用戶對微博內(nèi)容的綜合認(rèn)知程度決定,而用戶對微博內(nèi)容的綜合認(rèn)知程度受多種復(fù)雜因素影響,社會上發(fā)生的熱點話題信息是其中重要的影響因素。
本文以此為出發(fā)點,研究融合背景熱點話題的用戶轉(zhuǎn)發(fā)行為預(yù)測方法。本文提出融合熱點話題的微博轉(zhuǎn)發(fā)預(yù)測方法,對背景熱點話題內(nèi)容和傳播趨勢對用戶轉(zhuǎn)發(fā)行為的影響進行量化分析,提出了融合背景熱點信息的轉(zhuǎn)發(fā)興趣、轉(zhuǎn)發(fā)活躍度、行為模式等特征,并基于分類算法建立了面向熱點話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測模型。在真實數(shù)據(jù)上的實驗結(jié)果表明,本文方法的預(yù)測準(zhǔn)確性達(dá)到96.6%,提升幅度最高達(dá)到12.14%。
本文的組織結(jié)構(gòu)如下:引言部分介紹問題背景和研究現(xiàn)狀;第二節(jié)介紹相關(guān)工作;第三節(jié)介紹問題描述;第四節(jié)介紹熱點話題對用戶轉(zhuǎn)發(fā)的相關(guān)性問題;第五節(jié)介紹融合熱點話題的特征分析方法;第六節(jié)實驗結(jié)果和分析;第七節(jié)是總結(jié)和下一步工作。
微博轉(zhuǎn)發(fā)研究工作主要集中在提取轉(zhuǎn)發(fā)和非轉(zhuǎn)發(fā)行為區(qū)分度高的特征。Petrovic S[2]等人研究Twitter平臺的轉(zhuǎn)發(fā)預(yù)測問題,考慮了tweet用戶相關(guān)特征,如粉絲數(shù)、關(guān)注數(shù)、tweet發(fā)布量等,以及tweet本身特征,如標(biāo)簽、URL、tweet長短等,基于機器學(xué)習(xí)方法構(gòu)建轉(zhuǎn)發(fā)預(yù)測模型。Galuba W等人[3]研究了用戶URL提及頻繁程度,通過追蹤URL傳播的方式,研究Twitter平臺中URL的傳播規(guī)律,構(gòu)建基于用戶提及URL的預(yù)測模型。李英樂[4]和曹玖新[5]等人通過微博客中用戶特征和微博內(nèi)容特征來研究微博轉(zhuǎn)發(fā)及其預(yù)測問題,但方法過于依賴微博內(nèi)容對微博轉(zhuǎn)發(fā)的影響。Kanavos A[6]等人構(gòu)建微博情緒模型,基于tweet內(nèi)容特征的情感傾向研究tweet傳播的廣度和深度。文獻(xiàn)[7-9]將微博是否會被轉(zhuǎn)發(fā)轉(zhuǎn)化成一個二分類問題,基于機器學(xué)習(xí)方法構(gòu)建分類模型進行微博轉(zhuǎn)發(fā)預(yù)測。
轉(zhuǎn)發(fā)行為是促使微博在微博網(wǎng)絡(luò)中病毒式傳播[10-11]的關(guān)鍵問題,轉(zhuǎn)發(fā)特征的研究主要分布在用戶轉(zhuǎn)發(fā)行為的研究[12-14]和微博轉(zhuǎn)發(fā)規(guī)模預(yù)測的研究中[15-16],Zhang Y等人[19]研究不同特征對轉(zhuǎn)發(fā)行為影響的差異性,從而構(gòu)建基于特征加權(quán)的轉(zhuǎn)發(fā)預(yù)測模型。Petrovic S等人[2]基于passive-aggressive算法預(yù)測微博是否會被轉(zhuǎn)發(fā),他們的研究發(fā)現(xiàn)微博博主是否認(rèn)證及其粉絲數(shù)等會影響微博是否會被轉(zhuǎn)發(fā)。Bandari R等人[17]將微博轉(zhuǎn)發(fā)數(shù)量按不同等級劃分(1-20,20-100,100-2400),構(gòu)建多分類模型來預(yù)測微博轉(zhuǎn)發(fā)規(guī)模。Ma Z[18]等人提取tweet的特征,基于機器學(xué)習(xí)方法,構(gòu)建了標(biāo)簽的流行度預(yù)測模型對轉(zhuǎn)發(fā)規(guī)模進行預(yù)測。
社交網(wǎng)絡(luò)具有復(fù)雜網(wǎng)絡(luò)特性,也有學(xué)者基于社交網(wǎng)絡(luò)結(jié)構(gòu)研究微博傳播規(guī)律。這方面的研究主要基于社交網(wǎng)絡(luò)的結(jié)構(gòu)特征,構(gòu)建社交網(wǎng)絡(luò)拓?fù)鋱D,在此基礎(chǔ)上研究信息傳播規(guī)律。Szabo G[19]等人研究在線內(nèi)容的流行度問題,并構(gòu)建流行度預(yù)測模型,但他們的研究具有平臺局限性,可推廣性差。Yang J[20]等基于傳播關(guān)系網(wǎng)絡(luò),通過信息已經(jīng)流過的節(jié)點,構(gòu)建線性影響模型,預(yù)測信息傳播的實時動態(tài)。
綜上所述,現(xiàn)有的研究者主要基于微博特征或基于網(wǎng)絡(luò)結(jié)構(gòu)特征,研究微博轉(zhuǎn)發(fā)預(yù)測問題,這些研究工作將微博平臺視作一個獨立系統(tǒng),不受其他渠道信息影響。事實上,Yang Z[14]等人的研究工作表明,當(dāng)有突發(fā)話題發(fā)生時,微博傳播很大程度上會收到外界信息的影響。微博是否會被轉(zhuǎn)發(fā)與用戶個體行為和用戶對微博的知識背景具有緊密相關(guān)性。用戶所掌握的微博背景知識一方面由歷史微博獲取,一方面由用戶對微博內(nèi)容的綜合認(rèn)知程度決定,而用戶對微博內(nèi)容的綜合認(rèn)知程度會受到多種復(fù)雜因素影響。其次,通過微博內(nèi)容與用戶興趣相似度判斷用戶轉(zhuǎn)發(fā)的方法,往往因為微博內(nèi)容非常短,所含內(nèi)容特征有限,使得微博與用戶興趣之間的相似度計算準(zhǔn)確性低,轉(zhuǎn)發(fā)行為預(yù)測準(zhǔn)確性低。
針對上述問題,本文研究融合背景熱點話題的用戶轉(zhuǎn)發(fā)行為預(yù)測方法。首先,提出話題背景知識獲取和特征向量計算方法,用于表示用戶對熱點話題的綜合認(rèn)知程度,并將直接判斷用戶對微博的感興趣程度問題轉(zhuǎn)換成判斷用戶對微博所屬熱點話題的感興趣程度問題,能夠避免因用戶歷史微博內(nèi)容局限性而導(dǎo)致的預(yù)測準(zhǔn)確性低的問題。其次,提出利用用戶歷史轉(zhuǎn)發(fā)行為趨勢特征及其與熱點話題傳播趨勢一致性的計算方法,以此代表用戶對熱點話題的關(guān)注程度,進而表示該用戶對熱點話題微博的感興趣程度,避免直接通過計算單條微博與用戶興趣相似程度所帶來的不準(zhǔn)確性問題。最后,基于分類算法建立面向熱點話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測模型,在真實數(shù)據(jù)上開展實驗驗證。
融合背景熱點話題的微博轉(zhuǎn)發(fā)預(yù)測問題可以描述為F=f(U,W,H),其中:U表示用戶特征,W表示微博特征,H表示當(dāng)前網(wǎng)絡(luò)上正在發(fā)生的熱點話題特征,本文稱為背景熱點話題,F(xiàn)表示用戶行為,即用戶u對微博w的動作,F(xiàn)∈{1,-1},F(xiàn)=1表示用戶u轉(zhuǎn)發(fā)了微博w,F(xiàn)=-1表示用戶u沒有轉(zhuǎn)發(fā)微博w,用戶u是否轉(zhuǎn)發(fā)微博w的轉(zhuǎn)發(fā)預(yù)測問題可以轉(zhuǎn)化為二分類問題。
現(xiàn)有方法僅基于微博本身的用戶特征和微博特征,無法綜合利用背景熱點話題特征對用戶轉(zhuǎn)發(fā)行為進行預(yù)測。本文基于百度新聞搜索獲取熱點話題數(shù)據(jù),作為背景熱點話題內(nèi)容,研究背景熱點話題對微博轉(zhuǎn)發(fā)行為的影響。在傳統(tǒng)分類模型基礎(chǔ)上,引入熱點話題特征擴展特征空間,提高預(yù)測準(zhǔn)確性。背景熱點話題對轉(zhuǎn)發(fā)行為的影響主要考慮熱點話題內(nèi)容和傳播趨勢兩方面因素,相關(guān)定義如下。
定義1 背景熱點話題內(nèi)容,指從新聞網(wǎng)站獲取的熱點話題數(shù)據(jù),經(jīng)過預(yù)處理后表示為熱點話題關(guān)鍵詞向量,以此表示用戶能夠從其他渠道獲知的微博內(nèi)容相關(guān)的背景知識。
定義2 背景熱點話題傳播趨勢,指熱點話題相關(guān)報告的熱度分布,以此表示熱點話題熱度傳播趨勢。
基于微博自身屬性的微博轉(zhuǎn)發(fā)預(yù)測研究大多假設(shè)用戶轉(zhuǎn)發(fā)行為不受微博之外的因素影響。然而,用戶具有社會屬性,接收信息渠道具有多元化特點,轉(zhuǎn)發(fā)行為會受到微博數(shù)據(jù)以外的多種因素影響。熱點話題能在一定程度上吸引用戶更多地參與到相關(guān)微博話題的討論中,提高話題相關(guān)微博的轉(zhuǎn)發(fā)量。
以“世界杯”熱點話題為例,我們爬取新浪微博2014年4月12日—9月13日期間數(shù)據(jù),統(tǒng)計微博總量變化趨勢和話題相關(guān)微博總量的變化趨勢。如圖1所示,熱點話題期間微博空間的微博總量和話題相關(guān)的微博總量都呈現(xiàn)出明顯的增長趨勢,表明用戶轉(zhuǎn)發(fā)行為會受到熱點話題的影響。
圖1 熱點話題期間微博轉(zhuǎn)發(fā)量變化趨勢
進一步,我們研究熱點話題對微博用戶轉(zhuǎn)發(fā)行為的影響。我們針對2014年4月12日—9月13日期間微博用戶,根據(jù)用戶在熱點話題期間是否發(fā)表過與之相關(guān)的微博判斷用戶是否與熱點話題相關(guān),將用戶分為與熱點話題相關(guān)和不相關(guān)兩類,分別對用戶轉(zhuǎn)發(fā)量趨勢進行統(tǒng)計。結(jié)果如圖2所示,三條曲線分別表示所有用戶(all users)、與熱點話題相關(guān)的用戶(users prefer soccer)、及與熱點話題不相關(guān)的用戶(other users)所轉(zhuǎn)發(fā)的與熱點話題相關(guān)的微博量的變化趨勢。我們可以看出在話題傳播周期內(nèi),熱點話題對各類用戶的轉(zhuǎn)發(fā)量都有明顯的提升,與熱點話題相關(guān)用戶的轉(zhuǎn)發(fā)量提升幅度較大。同時,歷史上與熱點話題不相關(guān)的用戶也在熱點話題期間增加了對熱點話題相關(guān)微博的轉(zhuǎn)發(fā)量,表明僅基于用戶歷史微博計算的用戶興趣難以有效預(yù)測在新的熱點話題下的用戶轉(zhuǎn)發(fā)行為,用戶的轉(zhuǎn)發(fā)行為會受到當(dāng)前社會熱點話題的影響。
圖2 熱點話題對各類用戶微博轉(zhuǎn)發(fā)量的影響
興趣是人們對事物喜好或關(guān)切的情緒,它表現(xiàn)為人們對某件事物、某項活動的選擇性態(tài)度和積極的情緒反應(yīng)[21]。微博用戶的興趣部分通過用戶的轉(zhuǎn)發(fā)行為體現(xiàn)出來,我們稱之為用戶轉(zhuǎn)發(fā)興趣。用戶的轉(zhuǎn)發(fā)行為受用戶對微博的綜合認(rèn)知程度影響,而用戶對微博的綜合認(rèn)知程度受多種復(fù)雜因素影響,用戶轉(zhuǎn)發(fā)興趣及背景熱點話題也是影響因素之一。興趣作為用戶的情緒反映,是用戶個體行為一種相對穩(wěn)定表現(xiàn)的形式。而在做轉(zhuǎn)發(fā)決策時,個人興趣、微博內(nèi)容及當(dāng)前發(fā)生的熱點話題共同影響著用戶轉(zhuǎn)發(fā)決策。
從第四節(jié)的分析,我們可以看出用戶興趣與熱點話題越相關(guān),越容易在熱點話題期間進行大量的轉(zhuǎn)發(fā),我們提出融合熱點話題的用戶轉(zhuǎn)發(fā)興趣特征,來計算用戶轉(zhuǎn)發(fā)興趣與熱點話題的匹配程度。
熱點話題內(nèi)容表示:背景熱點話題文檔級別的表示D_topic={d1,d2,…,dn},根據(jù)表示背景熱點話題的文檔集合,提取關(guān)鍵詞,獲得背景熱點話題詞語級別的表示S_topic={w1,w2,…,wm}。
用戶轉(zhuǎn)發(fā)興趣表示:通過用戶歷史轉(zhuǎn)發(fā)微博內(nèi)容來表示用戶轉(zhuǎn)發(fā)興趣。用戶歷史轉(zhuǎn)發(fā)微博表示為D_user={d1,d2,…,dn},對用戶微博進行分詞,去除停用詞后,形成用戶轉(zhuǎn)發(fā)興趣的詞語級別的表示為I_user={w1,w2,…,wm}。
融合熱點話題的用戶轉(zhuǎn)發(fā)興趣特征計算,定義為用戶轉(zhuǎn)發(fā)興趣與背景熱點的匹配程度,計算方法如式(1)所示。
我們計算了轉(zhuǎn)發(fā)微博數(shù)量對應(yīng)用戶轉(zhuǎn)發(fā)興趣特征的變化關(guān)系。如圖3所示,橫坐標(biāo)表示融合熱點話題的用戶轉(zhuǎn)發(fā)興趣,縱坐標(biāo)表示與背景熱點話題相關(guān)的微博轉(zhuǎn)發(fā)量。圖3反映了用戶轉(zhuǎn)發(fā)行為與融合背景熱點話題的用戶轉(zhuǎn)發(fā)興趣之間的關(guān)系。由圖中可以看出,用戶轉(zhuǎn)發(fā)興趣與背景熱點話題之間的匹配程度越高(CO越大),則用戶所轉(zhuǎn)發(fā)與背景熱點話題相關(guān)微博的數(shù)量越多,表明融合背景熱點話題的用戶轉(zhuǎn)發(fā)興趣能夠有效預(yù)測用戶的轉(zhuǎn)發(fā)行為。
圖3 微博轉(zhuǎn)發(fā)量對應(yīng)融合背景熱點話題的用戶轉(zhuǎn)發(fā)興趣的關(guān)系圖
1.融合背景熱點話題的用戶活躍度
轉(zhuǎn)發(fā)行為活躍度通過用戶在熱點話題期間的累積轉(zhuǎn)發(fā)量表示,融合背景熱點話題的用戶轉(zhuǎn)發(fā)活躍度通過熱點話題期間與熱點話題相關(guān)的微博的累積轉(zhuǎn)發(fā)量表示,該特征能夠表明用戶對熱點話題的感興趣程度。計算公式如式(2)所示。
用戶在一段時間t內(nèi)轉(zhuǎn)發(fā)的與熱點話題相關(guān)的微博的頻繁程度:
其中:mti表示用戶在時間t內(nèi)發(fā)布的微博i,S表示對應(yīng)熱點話題的詞語級表示,τ是微博是否與熱點話題相關(guān)的閾值。
2.融合背景熱點話題的用戶行為一致性
第四節(jié)從內(nèi)容上考慮影響用戶轉(zhuǎn)發(fā)行為的因素,從圖3我們還可以看出,由于微博長度短且用戶通常利用碎片時間登錄微博進行瀏覽和轉(zhuǎn)發(fā),大部分用戶轉(zhuǎn)發(fā)量在0~100條之間,轉(zhuǎn)發(fā)興趣關(guān)鍵詞集中在0~150之間,僅從興趣內(nèi)容和累積轉(zhuǎn)發(fā)量上很難全面刻畫用戶對熱點話題的關(guān)注程度。用戶轉(zhuǎn)發(fā)微博的行為具有差異性,有的用戶登錄頻繁且興趣廣泛,從累積的轉(zhuǎn)發(fā)活躍度和興趣特征上都表現(xiàn)出較高的轉(zhuǎn)發(fā)概率,但是這類用戶對熱點話題相關(guān)微博的轉(zhuǎn)發(fā)行為具有突發(fā)性和隨機性特點。而有的用戶轉(zhuǎn)發(fā)活躍度較低,只是在自己持續(xù)關(guān)注的某些領(lǐng)域進行轉(zhuǎn)發(fā),這類用戶未來轉(zhuǎn)發(fā)熱點相關(guān)微博的概率更大。所以考慮用戶對熱點話題相關(guān)微博的持續(xù)關(guān)注程度,能夠有效檢測用戶是否是該熱點話題的黏性用戶,黏性用戶未來轉(zhuǎn)發(fā)熱點話題相關(guān)微博的概率較高。
一段時間內(nèi)用戶轉(zhuǎn)發(fā)微博數(shù)量的變化趨勢可以看做是時間軸上的一個概率分布P_user;我們以一定時間內(nèi)新聞報道數(shù)量變化來衡量背景熱點話題的熱度變化趨勢,也可以看作是時間軸上的一個概率分布P_topic。我們通過計算兩個分布之間的相似度來計算用戶行為與熱點話題傳播趨勢的一致性特征。
試驗第9 d和10 d,第79 d和80 d,于晨飼前對試驗牛進行稱重,并計算每頭牛平均體重[16]。
計算分布相似度,我們采用KL(Kullback-Leiber divergence)散度又稱相對熵(relative entropy)方法,該方法是用來描述兩個概率分布之間差異性的一種方法[22],KL距離越小表示兩個分布越相似,KL距離等于0時表示兩個分布完全一樣。我們用KL距離來反映概率分布P_user和概率分布P_topic之間的關(guān)系。
考慮到KL距離的非對稱性,我們以式(5)
來計算概率分布之間的關(guān)系。通過上述計算方法我們計算了轉(zhuǎn)發(fā)微博與行為一致性之間的對應(yīng)關(guān)系。
如圖4所示,當(dāng)KL距離增大時,分布之間差異變大,說明用戶轉(zhuǎn)發(fā)行為與背景熱點話題發(fā)展趨勢之間相關(guān)性較小,轉(zhuǎn)發(fā)行為具有隨機性和非持續(xù)性,用戶轉(zhuǎn)發(fā)的與背景熱點話題相關(guān)的微博較少;當(dāng)KL距離減小時,分布差異較小,說明用戶轉(zhuǎn)發(fā)行為與背景熱點話題發(fā)展趨勢之間相關(guān)性較大,轉(zhuǎn)發(fā)行為和熱點話題趨勢具有較高的一致性,用戶對該熱點話題進行了持續(xù)關(guān)注,用戶轉(zhuǎn)發(fā)與背景熱點話題相關(guān)微博較多。這說明,持續(xù)關(guān)注某一背景熱點話題的微博用戶對該背景熱點話題具有更高的轉(zhuǎn)發(fā)興趣,融合背景熱點話題的用戶行為一致性特征能夠有效檢測出熱點話題的持續(xù)關(guān)注用戶,同時避免因其總發(fā)帖量不高而被忽略的問題。
圖4 微博轉(zhuǎn)發(fā)量對應(yīng)行為一致性特征的關(guān)系圖
本節(jié)針對待預(yù)測微博內(nèi)容來分析熱點話題對微博轉(zhuǎn)發(fā)的影響??紤]到微博內(nèi)容與熱點話題越相關(guān),得到轉(zhuǎn)發(fā)的概率就越大,我們提出融合熱點話題的微博內(nèi)容特征,同樣,我們用詞集合S_topic={w1,w2,…,wm}來表示背景熱點話題內(nèi)容。我們對微博進行分詞、去除停用詞的預(yù)處理之后,將微博表示成一個詞語級別的集合:M_mes={w1,w2,…,wm}。由于微博內(nèi)容很短且都是特征詞語,我們用Jaccard相似系數(shù)來表示微博內(nèi)容與背景熱點話題之間的相似性,即融合熱點話題的微博內(nèi)容特征,如式(6)所示。
我們對融合熱點話題的微博內(nèi)容特征值不同的微博獲得的轉(zhuǎn)發(fā)總量及平均值進行了統(tǒng)計分析。如圖5所示,橫坐標(biāo)為JSM值,縱坐標(biāo)分別對應(yīng)微博所獲得的平均轉(zhuǎn)發(fā)量和轉(zhuǎn)發(fā)總量。從圖中可以看出,以右側(cè)坐標(biāo)軸為標(biāo)示的綠色曲線表明微博轉(zhuǎn)發(fā)總量隨微博內(nèi)容與背景熱點話題相似性的增大而減少,這是因為大部分微博內(nèi)容簡短,所含內(nèi)容特征較少,高相似性的微博數(shù)量大量減少,導(dǎo)致轉(zhuǎn)發(fā)總量降低。以左側(cè)坐標(biāo)軸為標(biāo)示的藍(lán)色曲線表明,微博獲得的平均轉(zhuǎn)發(fā)量隨微博內(nèi)容與背景熱點話題相似性的增大而提高,表明微博內(nèi)容與熱點話題越相似,越容易受到轉(zhuǎn)發(fā),融合熱點話題的微博內(nèi)容特征能夠有效區(qū)分微博轉(zhuǎn)發(fā)行為。
圖5 微博轉(zhuǎn)發(fā)對應(yīng)融合熱點話題的微博內(nèi)容特征對的關(guān)系圖
在微博數(shù)據(jù)集的基礎(chǔ)上構(gòu)造矩陣:
其中:n表示用戶個數(shù),m表示微博個數(shù),aij∈F。標(biāo)記后的數(shù)據(jù)集元素為一個三元組<ui,mj,aij>,當(dāng)aij=0或1時表示用戶ui轉(zhuǎn)發(fā)微博mj,當(dāng)aij=-1時表示用戶ui沒有轉(zhuǎn)發(fā)微博mj。
分類特征選擇本文所提出的融合熱點話題的用戶轉(zhuǎn)發(fā)興趣特征、用戶活躍度、用戶行為一致性、微博內(nèi)容特征,如表1所示(特征1—4)。
本文采用李英樂[4]等人的方法作為對比試驗,該方法使用特征較全面且預(yù)測準(zhǔn)確性較高,在特征可計算條件下,選擇用戶影響力、用戶轉(zhuǎn)發(fā)活躍度、用戶發(fā)布活躍度、用戶興趣與微博相似度作為對比特征,如表1所示(特征5—8)。
表1 特征選取
本文采用SVM、樸素貝葉斯、貝葉斯信念網(wǎng)絡(luò)、決策樹等分類算法,來測試所選分類特征應(yīng)用于轉(zhuǎn)發(fā)預(yù)測時的效果。
評價方法采用準(zhǔn)確率(Precision)、召回率(Recall)和綜合評價指標(biāo)(F-Measure)。
我們將特征分為三組,分別在四種分類器上進行了對比試驗。Baseline方法是對比的基準(zhǔn)方法,僅采用了用戶和微博自身特征,Ours表示本文所提特征,即融合了熱點話題的轉(zhuǎn)發(fā)特征,Combine表示將用戶和微博自身特征與融合熱點話題的轉(zhuǎn)發(fā)特征相結(jié)合,進行了綜合測試。如表2所示,在多個分類器上的測試結(jié)果表明本文所提出的融合熱點話題的用戶轉(zhuǎn)發(fā)興趣特征、用戶活躍度、用戶行為一致性、微博內(nèi)容特征能夠有效提升轉(zhuǎn)發(fā)預(yù)測準(zhǔn)確性,與傳統(tǒng)用戶和微博自身特征相結(jié)合后,能夠進一步提升效果,其中,采用C4.5分類器時的預(yù)測效果最好,達(dá)到96.6%,對基于SVM分類器的預(yù)測模型提升效果最高,達(dá)到14.12%,采用NaiveBayes分類器的實驗中,ours的實驗效果略差于baseline,這是因為我們選取的特征不完全滿足樸素貝葉斯的條件獨立性假設(shè),導(dǎo)致其在分類準(zhǔn)確率上有一定的犧牲,但是從數(shù)據(jù)上可以看出,本文所提特征在與baseline特征結(jié)合后能夠提升分類準(zhǔn)確率。引入外部熱點話題并融合其內(nèi)容和傳播趨勢對用戶轉(zhuǎn)發(fā)行為的影響因素,能夠有效提升轉(zhuǎn)發(fā)行為的預(yù)測準(zhǔn)確性。本文的訓(xùn)練集和測試集按照時間先后相互獨立,預(yù)測準(zhǔn)確性的提高也表明了本文所提特征能夠很好地刻畫用戶轉(zhuǎn)發(fā)行為模式,具有較好的長期預(yù)測效果。
表2 實驗結(jié)果對比
微博轉(zhuǎn)發(fā)行為是實現(xiàn)信息傳播的重要方式,微博轉(zhuǎn)發(fā)預(yù)測對微博影響力分析、微博話題分析具有重要價值?,F(xiàn)有微博轉(zhuǎn)發(fā)預(yù)測研究大多圍繞消息屬性、用戶屬性等微博自身特征。本文融合背景熱點話題研究了外部熱點話題對用戶轉(zhuǎn)發(fā)行為的影響,并對影響因素進行量化分析,提出了融合背景熱點信息的轉(zhuǎn)發(fā)興趣、轉(zhuǎn)發(fā)活躍度、行為模式等特征。根據(jù)熱點話題前期用戶的轉(zhuǎn)發(fā)行為,預(yù)測用戶是否會轉(zhuǎn)發(fā)熱點話題相關(guān)的微博。并基于分類算法建立了面向熱點話題相關(guān)微博的轉(zhuǎn)發(fā)預(yù)測模型,在真實數(shù)據(jù)上的實驗結(jié)果表明,本文方法的預(yù)測準(zhǔn)確性達(dá)到96.6%,提升幅度最高達(dá)到12.14%。通過引入背景熱點話題內(nèi)容和傳播趨勢特征,能夠有效提升用戶轉(zhuǎn)發(fā)行為預(yù)測準(zhǔn)確性。在未來工作中,可以進一步改進熱點話題內(nèi)容表示方法,以及熱點話題內(nèi)容和用戶興趣相似性度量方法,進一步提高預(yù)測效果。
[1] KortLou.微博(微型博客).百度百科.http://baike.baidu.com/link?url=Qsdt8nZWb5Q_iTpNaS41Wl-K2ZxMJeaUC8g9cuHWpK2V01Grlj6wiUx7C4170CT-m2988GAfKuQoMHuWdmq1V65C0zVgKyuU1qMYl-Z44yMBe_,2015-11-29
[2] Petrovic S,Osborne M,Lavrenko V.RT to Win!Predicting Message Propagation in Twitter[C]//Proceedings of the ICWSM.2011.
[3] Galuba W,Aberer K,Chakraborty D,et al.Outtweeting the twitterers-predicting information cascades in microblogs[C]//Proceedings of the 3rd conference on Online social networks.2010,39(12):3aAS3.
[4] 李英樂,于洪濤,劉力雄.基于SVM的微博轉(zhuǎn)發(fā)規(guī)模預(yù)測方法[J].計算機應(yīng)用研究,2013,30(9):2594-2597.
[5] 曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測[J].計算機學(xué)報,2014,37(4):779-790.
[6] Kanavos A,Perikos I,Vikatos P,et al.Modeling ReTweet Diffusion Using Emotional Content[M].Artificial Intelligence Applications and Innovations.Springer Berlin Heidelberg,2014:101-110.
[7] Ma H,Qian W,Xia F,et al.Towards modeling popularity of microblogs[J].Frontiers of Computer Science Selected Publications from Chinese Universities,2013,7(2):171-184.
[8] Ying-Le L I,Hong-Tao Y U,Liu L X.Predict algorithm of micro-blog retweet scale based on SVM[J].Application Research of Computers,2013,30(9):2594-2597.
[9] Zhang Y,Rong L U,Yang Q.Predicting Retweeting in Microblogs[J].Journal of Chinese Information Processing,2012,26(4):109-108.
[10] Pastor-Satorras R,Vespignani A.Epidemic dynamics and endemic states in complex networks[J].Phys.rev.e,2001,63(6):138-158.
[11] Pastor-Satorras R,Vespignani A.Epidemic spreading in scale-free networks.[J].Physical Review Letters,2001,86(14):3200-3203.
[12] Boyd D,Golder S,Lotan G.Tweet,Tweet,Retweet:Conversational Aspects of Retweeting on Twitter[C]//Proceedings of the Hawaii International Conference on.IEEE,2010:1-10.
[13] Suh B,Hong L,Pirolli P,et al.Want to be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C]//Proceedings of the 2010IEEE Second International Conference on.IEEE,2010:177-184.
[14] Yang Z,Guo J,Cai K,et al.Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th ACM International fConference on Informa-tion and Knowledge Management.ACM,2010:1633-1636.
[15] Jiang Y,Counts S.Predicting the Speed,Scale,and Range of Information Diffusion in Twitter[J].ICWSM,2010,10:355-358.
[16] Hong L,Dan O,Davison B D.Predicting popular messages in twitter[C]//Proceedings of the 20th international conference companion on World wide web.ACM,2011:57-58.
[17] Bandari R,Asur S,Huberman B A.The Pulse of News in Social Media:Forecasting Popularity[J].Sixth International Aaai Conference on Weblogs &Social Media,2012.
[18] Ma Z,Sun A,Cong G.On predicting the popularity of newly emerging hashtags in twitter[J].Journal of the American Society for Information Science and Technology,2013,64(7):1399-1410.
[19] Szabo G,Huberman B A.Predicting the popularity of online content[J].Communications of the ACM,2010,53(8):80-88.
[20] Yang J,Leskovec J.Modeling information diffusion in implicit networks[C]//Proceedings of the 2010 IEEE 10th International Conference on.IEEE,2010:599-608.
[21] Music0007.興趣.百度百科.http://baike.baidu.com/subview/45281/8045345.htm#viewPageContent,2015-11-30.
[22] 宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2008.