蘭 天, 郭躬德
1(福建師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福州 350007)2(福建師范大學(xué) 網(wǎng)絡(luò)安全與密碼技術(shù)福建省重點(diǎn)實(shí)驗(yàn)室, 福州 350007)3(龍巖學(xué)院 網(wǎng)絡(luò)信息中心, 龍巖 364012)
特定話題傳播網(wǎng)絡(luò)中的意見領(lǐng)袖檢測(cè)方法①
蘭 天1,2,3, 郭躬德1,2
1(福建師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福州 350007)2(福建師范大學(xué) 網(wǎng)絡(luò)安全與密碼技術(shù)福建省重點(diǎn)實(shí)驗(yàn)室, 福州 350007)3(龍巖學(xué)院 網(wǎng)絡(luò)信息中心, 龍巖 364012)
針對(duì)中文微博目前已有的意見領(lǐng)袖識(shí)別模型存在的不足, 提出一種特定話題轉(zhuǎn)播網(wǎng)絡(luò)中的意見領(lǐng)袖檢測(cè)方法. 識(shí)別模型通過轉(zhuǎn)發(fā)關(guān)系建立信息傳播網(wǎng)絡(luò), 以用戶自身權(quán)威值和轉(zhuǎn)發(fā)用戶的支持力來評(píng)價(jià)用戶的影響力. 通過對(duì)微博兩周以來特定話題下意見領(lǐng)袖的檢測(cè)實(shí)驗(yàn), 結(jié)果表明該方法能夠有效地識(shí)別特定話題下的意見領(lǐng)袖.
意見領(lǐng)袖; 輿情監(jiān)控; 傳播網(wǎng)絡(luò); 識(shí)別模型
在web 2.0時(shí)代對(duì)互聯(lián)網(wǎng)發(fā)展的極大推動(dòng)下, “數(shù)據(jù)網(wǎng)絡(luò)”這一概念普遍深入人心, 人們的日常生活和互聯(lián)網(wǎng)相結(jié)合已經(jīng)成為這個(gè)時(shí)代的明顯特征. 在《第34次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]中顯示, 截止2014年6月, 中國(guó)網(wǎng)民用戶群已達(dá)6.32億, 其中手機(jī)用戶群已達(dá)5.27億. 國(guó)際上, twitter平臺(tái)在2006年興起并不斷流行和推廣, 該平臺(tái)已成為訪問量最大的網(wǎng)站之一. 國(guó)內(nèi)與之對(duì)應(yīng)的新浪微博一枝獨(dú)秀, 而微博客這一信息即時(shí)傳播、用戶關(guān)系分享的社交網(wǎng)絡(luò)平臺(tái), 已成為中國(guó)網(wǎng)民上網(wǎng)的主要活動(dòng)之一. 同時(shí)新浪微博也應(yīng)用了很多策略來達(dá)到他的領(lǐng)袖地位, 例如邀請(qǐng)了政府組織、媒體機(jī)構(gòu)、名人名流等地加入, 使得重大信息的發(fā)布都變得尤其迅速. 據(jù)2015年微博發(fā)布的第三季度財(cái)報(bào)中顯示, 截止2015年9月30日, 微博月活躍用戶數(shù)已經(jīng)達(dá)到2.12億人. 同時(shí), 微博也已經(jīng)成為社會(huì)輿論傳播、社會(huì)風(fēng)氣導(dǎo)向的重要地點(diǎn), 因此微博輿情監(jiān)控便成為國(guó)家政府和網(wǎng)絡(luò)監(jiān)管部門面前的一個(gè)大課題.
微博輿情監(jiān)控的主要手段是找到輿論傳播中的“意見領(lǐng)袖”. “意見領(lǐng)袖”這一概念最早由美國(guó)傳播學(xué)者Lazarsfeld[2]在1948年提出, 他認(rèn)為意見領(lǐng)袖在信息傳播中扮演著對(duì)他人傳遞信息并施加影響的作用. 而后Rogers[3]在研究中表示, 意見領(lǐng)袖同時(shí)具有“信息中間人”和“有影響力的人”兩種角色. 在消息流通如此迅速的社交網(wǎng)站中, 意見領(lǐng)袖更是扮演著舉足輕重的作用. 近幾年, 國(guó)內(nèi)對(duì)意見領(lǐng)袖的研究逐漸升溫, 主要研究領(lǐng)域在于論壇、博客、學(xué)術(shù)論文、微博等. 隨著新浪微博成為社交領(lǐng)域的領(lǐng)頭地位, 意見領(lǐng)袖的研究已成為一大課題.
微博中用戶通常針對(duì)某一主題發(fā)布微博, 表達(dá)自己的見解和看法. 而其他用戶可以通過轉(zhuǎn)發(fā)行為來進(jìn)行信息的擴(kuò)散, 并通過轉(zhuǎn)發(fā)關(guān)系構(gòu)建了一個(gè)信息網(wǎng)絡(luò).隨著消息網(wǎng)絡(luò)中的用戶逐漸提高形成了輿論群體, 其中部分用戶成為意見領(lǐng)袖, 引導(dǎo)著輿論的發(fā)展方向和傳播速度. 因此本文通過特定主題下的轉(zhuǎn)發(fā)關(guān)系, 結(jié)合網(wǎng)頁(yè)排序算法來識(shí)別消息網(wǎng)絡(luò)中的意見領(lǐng)袖, 同時(shí)驗(yàn)證該算法的有效性.
目前應(yīng)用于微博意見領(lǐng)袖識(shí)別的方法主要有: ①基于網(wǎng)頁(yè)排序算法進(jìn)行改進(jìn), 使其適用于微博消息網(wǎng)絡(luò)中對(duì)用戶影響力的排序; ②基于用戶特征提取影響力指標(biāo), 建立評(píng)分模型; ③基于消息轉(zhuǎn)播網(wǎng)絡(luò), 對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行分析評(píng)價(jià).
基于網(wǎng)頁(yè)排序算法, 主要是對(duì)網(wǎng)頁(yè)排序中傳統(tǒng)的PageRank[4]和HITS[5]算法進(jìn)行改進(jìn). Weng[6]根據(jù)twitter中的用戶結(jié)構(gòu)和微博主題之間的相似度, 提出了TwitterRank算法, 使PageRank算法有效地移植到twitter中. Xiao[7]根據(jù)中文微博特定結(jié)構(gòu), 構(gòu)建了收聽網(wǎng)絡(luò)和信息轉(zhuǎn)發(fā)網(wǎng)絡(luò), 并根據(jù)傳播行為特征提出了類PageRank的WeiboRank算法. Yuang[8]利用被關(guān)注度替代粉絲數(shù)來消除微博中虛假粉絲數(shù)的影響, 重新定義影響因子, 并結(jié)合PageRank對(duì)用戶影響力進(jìn)行評(píng)價(jià). Lu[9]根據(jù)特定話題下的用戶個(gè)體特征和轉(zhuǎn)發(fā)特征, 引入時(shí)間衰減函數(shù), 提出了PageRank的改進(jìn)意見領(lǐng)袖模型(IOLM). Xiong[10]根據(jù)微博信息轉(zhuǎn)發(fā)關(guān)系, 構(gòu)建了意見領(lǐng)袖網(wǎng), 將HITS算法應(yīng)用于用戶權(quán)威值和中心值計(jì)算, 提出了HITS-BOWR算法.
在評(píng)分模型構(gòu)建方面, 主要分析影響力相關(guān)屬性,對(duì)特定參數(shù)進(jìn)行提取. Liu[11]從用戶影響力和用戶活躍度兩個(gè)角度考慮, 提出了使用層次分析法和粗糙集決策分析法對(duì)意見領(lǐng)袖特征進(jìn)行識(shí)別, 并提取決策規(guī)則,最后在研究中發(fā)現(xiàn)意見領(lǐng)袖是主題依賴的. Wang[12]在研究中得出用戶的關(guān)注量、粉絲量、身份認(rèn)證和發(fā)布的微博量這四個(gè)方面是意見領(lǐng)袖識(shí)別的關(guān)鍵, 并以這四個(gè)方面作為參數(shù)建立了意見領(lǐng)袖識(shí)別模型. Li[13]提出以活躍度、傳播力和覆蓋度三個(gè)指標(biāo)來評(píng)估微博意見領(lǐng)袖的影響力, 構(gòu)建評(píng)估指標(biāo)體系, 并利用層次分析法和屬性特征權(quán)重排序得到影響力的最終值. Ding[14]綜合考慮了轉(zhuǎn)發(fā)關(guān)系、回復(fù)關(guān)系、復(fù)制關(guān)系、閱讀關(guān)系, 提出了基于多關(guān)系網(wǎng)絡(luò)的隨機(jī)游走模型MultiRank, 并將用戶分為“多話題層次影響力個(gè)體”和“單話題層次影響力個(gè)體”. Wang[15]根據(jù)意見領(lǐng)袖在信息傳播中難以量化表示的問題, 提出了一種基于消息傳播的微博意見領(lǐng)袖影響力建模與測(cè)量分析方法, 可以定量地對(duì)傳播過程的初始影響力、影響力衰減指數(shù)及其影響力持續(xù)時(shí)間等指標(biāo)進(jìn)行評(píng)價(jià).
在基于消息轉(zhuǎn)播網(wǎng)絡(luò)的研究中, 主要在轉(zhuǎn)發(fā)關(guān)系的基礎(chǔ)上進(jìn)行研究, 分析節(jié)點(diǎn)的影響力. Zhao[16]根據(jù)影響力擴(kuò)散模型(IDM)存在的缺陷, 引入了有效關(guān)鍵詞語概念, 并對(duì)信息設(shè)置影響因子, 提出了一種新的影響力擴(kuò)散概率模型(IDPM), 更加有效地評(píng)價(jià)影響力. Zhou[17]針對(duì)傳統(tǒng)意見交互模型的構(gòu)建環(huán)境是封閉的社交網(wǎng)絡(luò), 提出一種基于意見領(lǐng)袖引導(dǎo)作用的網(wǎng)絡(luò)輿論演化分析方法. Zhang[18]根據(jù)區(qū)分微博中用戶的轉(zhuǎn)發(fā)行為分為“主題相關(guān)轉(zhuǎn)發(fā)”和“跟隨轉(zhuǎn)發(fā)”兩種關(guān)系, 指出被轉(zhuǎn)發(fā)概率高而具有高影響力的用戶不一定是專家,提出了一種基于主題模型的概率生成模型.
PageRank[4]是一種根據(jù)網(wǎng)頁(yè)之間的超鏈接關(guān)系進(jìn)行評(píng)級(jí)的網(wǎng)頁(yè)排名算法. 該算法基于“從許多優(yōu)質(zhì)的網(wǎng)頁(yè)鏈接過來的網(wǎng)頁(yè), 必定還是優(yōu)質(zhì)網(wǎng)頁(yè)”的回歸關(guān)系, 來判定網(wǎng)頁(yè)的重要性. 該算法認(rèn)為一個(gè)網(wǎng)頁(yè)A對(duì)于另一個(gè)網(wǎng)頁(yè)B的鏈接可以認(rèn)為是網(wǎng)頁(yè)A對(duì)網(wǎng)頁(yè)B進(jìn)行了一次支持性投票, 根據(jù)每個(gè)網(wǎng)頁(yè)獲得的票數(shù)來代表自己的重要性. PageRank同時(shí)還考慮各網(wǎng)頁(yè)本身的特性, 越重要的頁(yè)面對(duì)支持的頁(yè)面將給予較高的PageRank值. PageRank算法應(yīng)用需要滿足: ①網(wǎng)頁(yè)之間必須是強(qiáng)連通的; ②網(wǎng)頁(yè)鏈接不能指向自身.
圖1 PageRank網(wǎng)頁(yè)鏈接示意圖
如圖1所示為網(wǎng)頁(yè)之間通過超鏈接關(guān)系形成的鏈接網(wǎng)絡(luò), 網(wǎng)頁(yè)B和網(wǎng)頁(yè)C鏈接到網(wǎng)頁(yè)A, 表示網(wǎng)頁(yè)B和網(wǎng)頁(yè)C對(duì)網(wǎng)頁(yè)A支持. PageRank值(PR值)的計(jì)算公式如下:
公式(1)中, PR(A)為網(wǎng)頁(yè)A的PageRank值, 即網(wǎng)頁(yè)重要性評(píng)分. i表示鏈接到網(wǎng)頁(yè)A的網(wǎng)頁(yè), 在圖1中有網(wǎng)頁(yè)B和網(wǎng)頁(yè)C. C(Ti)表示網(wǎng)頁(yè)i鏈接到其他網(wǎng)頁(yè)的數(shù)量, 當(dāng)一個(gè)網(wǎng)頁(yè)的鏈出頁(yè)面越多, 支持力越低. d表示網(wǎng)頁(yè)轉(zhuǎn)移概率, 即用戶關(guān)閉當(dāng)前頁(yè)面隨機(jī)瀏覽另一個(gè)頁(yè)面的概率.
Wang[12]于2011年的研究中對(duì)中文微博和意見領(lǐng)袖特征進(jìn)行分析, 得出關(guān)注用戶數(shù)量、粉絲數(shù)量、是否被驗(yàn)證身份和發(fā)布的微博數(shù)量這四個(gè)方面是意見領(lǐng)袖識(shí)別的關(guān)鍵. 在文獻(xiàn)11中提出了微博客用戶重要性評(píng)分模型(原始模型):
公式(2)中4個(gè)乘法因子分別對(duì)應(yīng)于關(guān)注用戶數(shù)量、發(fā)布的微博數(shù)量、粉絲數(shù)量和是否被驗(yàn)證身份, 并進(jìn)行規(guī)范化.
Lu[9]在2015年的研究中對(duì)原始模型進(jìn)行修正, 在研究中表明用戶之間的轉(zhuǎn)發(fā)關(guān)系不可忽略, 因?yàn)榉劢z數(shù)少的用戶的某條微博也可能受到很多關(guān)注, 同時(shí)得到大量的轉(zhuǎn)發(fā), 在某一話題下, 該用戶的影響力也是可以很高的. 針對(duì)轉(zhuǎn)發(fā)關(guān)系, Lu在研究中結(jié)合了PageRank算法的基本思想, 根據(jù)用戶的轉(zhuǎn)發(fā)行為構(gòu)建了一個(gè)關(guān)系網(wǎng)絡(luò), 并考慮了影響力的時(shí)間衰減. 在文獻(xiàn)[8]中提出了意見領(lǐng)袖識(shí)別模型(IOLM):
公式(4)中, S(Tt)表示主題T下用戶t的影響力, 與公式(2)的計(jì)算方法相同. C(Ti)表示用戶i轉(zhuǎn)載微博的總量, 參數(shù)γ作為權(quán)重參數(shù). 公式(5)中, day表示未發(fā)表微博的天數(shù).
以上學(xué)者提出的三種意見領(lǐng)袖的檢測(cè)算法仍然存在各自的缺點(diǎn), 本文結(jié)合三種算法的優(yōu)點(diǎn), 以特定主題下的微博轉(zhuǎn)發(fā)關(guān)系構(gòu)建信息傳播網(wǎng)絡(luò), 提出一種在特定話題轉(zhuǎn)發(fā)網(wǎng)絡(luò)下的意見領(lǐng)袖檢測(cè)方法.
基于Twitter的研究表明: 在信息傳播過程中, 用戶影響力與其粉絲數(shù)量呈弱相關(guān)[19], 粉絲數(shù)量只是意見領(lǐng)袖的必要條件. 而草根用戶在特定話題下的傳播中更容易獲得用戶的關(guān)注而提升影響力[6]. 由于微博中具有許多社會(huì)名人、網(wǎng)絡(luò)紅人等, 他們本身具有大量的粉絲, 使得他們發(fā)布的信息更容易傳播出去, 但在某些話題下他們更加傾向于對(duì)事件進(jìn)行傳播而不具有權(quán)威性. 傳統(tǒng)意見領(lǐng)袖檢測(cè)方法往往將影響力和傳播力等價(jià)關(guān)聯(lián), 這樣導(dǎo)致粉絲數(shù)較少的草根用戶的影響力被社會(huì)名人等粉絲大戶淹沒. HITS-BOWR算法[10]中明確地計(jì)算了用戶的權(quán)威值和中心值, 但是該算法僅僅考慮了轉(zhuǎn)發(fā)關(guān)系, 忽略了用戶本身發(fā)布的微博內(nèi)容產(chǎn)生的其他影響, 經(jīng)過多次迭代后仍然容易使同一用戶的權(quán)威值和中心值較為接近.
Liu在2011年研究中提出, 意見領(lǐng)袖是主題依賴的[11], 因此用戶的影響力往往隨話題的領(lǐng)域性而發(fā)生變化權(quán)威性變化. 同樣地, 傳統(tǒng)意見領(lǐng)袖檢測(cè)方法缺少對(duì)主題進(jìn)行區(qū)分, 由于不同主題的影響力是相互獨(dú)立的, 用戶過去的發(fā)布的熱門話題微博影響力不能或者只能部分影響到新發(fā)布的微博. 因此在考慮用戶當(dāng)前話題影響力時(shí), 以往發(fā)布話題微博的影響力只能作為用戶活躍度的一部分.
在話題微博生存期方面, 意見領(lǐng)袖的話題影響力并不是簡(jiǎn)單地隨時(shí)間的推移進(jìn)行衰減, 因?yàn)槲⒉┲黝}本身具有一定的生存期, 在主題的熱度也隨時(shí)間而下降, 但是早期的意見領(lǐng)袖對(duì)該主題造成的影響不并隨著時(shí)間而下降, 相反地, 有可能因?yàn)榉劢z數(shù)的轉(zhuǎn)發(fā)關(guān)系而是影響力繼續(xù)上升. 因此本文針對(duì)傳統(tǒng)意見領(lǐng)袖存在的以上三個(gè)方面的缺點(diǎn)進(jìn)行改進(jìn), 使得算法能更加較有效地檢測(cè)出具有主題相關(guān)性和話題權(quán)威性的意見領(lǐng)袖.
4.1 用戶影響力計(jì)算方法
本文將權(quán)威性的評(píng)分指標(biāo)分為用戶本身在該話題下具有的權(quán)威性和其他用戶通過轉(zhuǎn)發(fā)關(guān)系貢獻(xiàn)的支持力. 特定話題的微博消息轉(zhuǎn)發(fā)網(wǎng)絡(luò)中, 用戶具有的權(quán)威性衡量指標(biāo)分為: ①參與用戶發(fā)布特定話題的微博的用戶數(shù)(取代用戶粉絲數(shù)); ②用戶發(fā)布的微博在消息網(wǎng)絡(luò)傳播中的節(jié)點(diǎn)熱度; ③其他用戶對(duì)該話題微博的專注度. 轉(zhuǎn)發(fā)網(wǎng)絡(luò)中, 轉(zhuǎn)發(fā)用戶對(duì)某一微博的支持力主要體現(xiàn)在當(dāng)日內(nèi)該微博得到用戶的重視程度.
定義1. 特定話題下發(fā)布的微博的用戶具有的權(quán)威性評(píng)價(jià)公式:
公式(5)中, A函數(shù)對(duì)用戶特定話題下的轉(zhuǎn)發(fā)量進(jìn)行評(píng)價(jià), K函數(shù)對(duì)話題在信息傳播網(wǎng)中的推動(dòng)力進(jìn)行評(píng)價(jià), P函數(shù)對(duì)用戶的話題專注度進(jìn)行評(píng)價(jià), 在數(shù)據(jù)預(yù)處理階段對(duì)同一屬性的數(shù)據(jù)進(jìn)行最大最小值規(guī)范化處理. 并且使三個(gè)函數(shù)的最大值控制在2以下.
定義2. 特定話題下用戶發(fā)布的微博轉(zhuǎn)發(fā)量評(píng)價(jià)函數(shù)
公式(6)中, Forwardu表示用戶u在特定話題i下發(fā)表的微博得到的轉(zhuǎn)發(fā)量.n表示意見領(lǐng)袖參考數(shù)量, 由于微博轉(zhuǎn)發(fā)數(shù)量呈現(xiàn)長(zhǎng)尾效應(yīng)(在下一節(jié)實(shí)驗(yàn)部分證明), 極大部分微博只有很少的轉(zhuǎn)發(fā)量, 因此傳播網(wǎng)絡(luò)中的總體轉(zhuǎn)發(fā)量均值很低, 只需要研究轉(zhuǎn)發(fā)量排名前n個(gè)的用戶, 在研究中n取60. Top(n)表示轉(zhuǎn)發(fā)量前n名的用戶的標(biāo)簽. Max()為取最大值函數(shù). 轉(zhuǎn)發(fā)量可以較好地表征用戶對(duì)微博的興趣程度, 因此該公式可以評(píng)價(jià)出微博受到的關(guān)注程度. 由于轉(zhuǎn)發(fā)量的長(zhǎng)尾現(xiàn)象,導(dǎo)致大部分用戶的值為負(fù)數(shù), 因此在這里最小值都設(shè)為0.001.
圖2 最小二乘法計(jì)算擬合曲線斜率
定義3. 用戶對(duì)話題的專注度
公式(8)中, TNumu表示用戶在發(fā)布特定話題當(dāng)日的轉(zhuǎn)發(fā)其他話題微博的數(shù)量.
圖3 話題微博信息傳播樹狀圖
在微博消息傳播網(wǎng)絡(luò)中, 用戶通過轉(zhuǎn)發(fā)關(guān)系對(duì)微博信息進(jìn)行擴(kuò)展, 同時(shí)微博與轉(zhuǎn)發(fā)微博之間滿足一對(duì)多關(guān)系, 因此特定話題微博的消息傳播網(wǎng)絡(luò)可以以樹狀圖的形式展示. 如圖3所示, 在信息傳播的樹狀圖中有明顯的層次關(guān)系, 第i層的微博與第i+1層的微博有一對(duì)多的轉(zhuǎn)發(fā)關(guān)系, 與i-1層有一對(duì)一的轉(zhuǎn)發(fā)關(guān)系,相鄰兩層之間有直接的轉(zhuǎn)發(fā)關(guān)系. 并且由于影響力的支持直接影響上一層微博, 相隔層數(shù)越多, 支持力越弱, 因此可以通過迭代關(guān)系進(jìn)行計(jì)算支持力.
定義4. 特定主題的意見領(lǐng)袖識(shí)別模型(TOLM):公式(9)中, TScore(u)即為特定主題的意見領(lǐng)袖識(shí)別模型中用戶U的影響力評(píng)分. γ為權(quán)重參數(shù), 實(shí)驗(yàn)中取0.8, l表示具有通過轉(zhuǎn)發(fā)關(guān)系相連接的用戶, 通過迭代關(guān)系可知, 相鄰層數(shù)越多的用戶, 具有的權(quán)重越低.
4.2 數(shù)據(jù)收集和模型檢測(cè)框架
研究中所分析的數(shù)據(jù)都來自于新浪微博中熱點(diǎn)話題下用戶的信息轉(zhuǎn)發(fā)網(wǎng)絡(luò). 當(dāng)前流行的數(shù)據(jù)獲取方法主要有兩種: 1)由新浪微博開放平臺(tái)提供的應(yīng)用程序編程接口(簡(jiǎn)稱微博API); 2)網(wǎng)絡(luò)爬蟲程序?qū)崟r(shí)抓取.一方面, 由于微博API對(duì)接口開放的限制, 部分接口為高級(jí)權(quán)限接口, 需要申請(qǐng)才可以調(diào)用, 不利于數(shù)據(jù)收集的全面性; 另一方面, 由于微博API數(shù)據(jù)搜索返回的數(shù)量限制, 不利于數(shù)據(jù)收集的完整性. 因此在研究中主要還是通過設(shè)計(jì)爬蟲腳本來抓取微博數(shù)據(jù).
研究中的模型框架如圖4所示, 第一步中需要人工輸入需要檢測(cè)的話題關(guān)鍵詞信息, 或者通過詞共現(xiàn)聚類方法找出特定話題下的熱點(diǎn)詞匯, 關(guān)鍵詞信息直接關(guān)系著后續(xù)微博的話題類別. 微博信息分析階段,主要是提取三部分內(nèi)容: ①用戶(近期微博發(fā)布情況);②話題微博(轉(zhuǎn)發(fā)數(shù), 轉(zhuǎn)發(fā)用戶, 時(shí)間); ③粉絲(參與轉(zhuǎn)發(fā)的用戶信息). 在數(shù)據(jù)庫(kù)信息反饋階段, 由于話題的輿論走向和意見領(lǐng)袖的影響力與日發(fā)生變化, 需要定時(shí)更新話題熱點(diǎn)詞匯以及用戶的影響力. 在同一話題下, 原創(chuàng)微博之間具有相互獨(dú)立性, 并且都以樹狀網(wǎng)絡(luò)的傳播方式呈現(xiàn); 總體上相同話題下的多個(gè)原創(chuàng)微博信息傳播呈現(xiàn)出森林結(jié)構(gòu).
圖4 模型檢測(cè)框架
本實(shí)驗(yàn)通過網(wǎng)絡(luò)爬蟲軟件, 于2016年3月2日至3月18日對(duì)新浪微博熱門話題下的微博信息進(jìn)行抓取,并存入數(shù)據(jù)庫(kù). 如表1所示, 在研究中提取了三個(gè)話題類別, 并剔除重復(fù)微博和干擾用戶(包括廣告用戶、話題無關(guān)用戶、僵尸用戶等).
表1 研究中的話題微博內(nèi)容
實(shí)驗(yàn)一. 微博話題生存期變化情況
圖5 話題微博生存期數(shù)量變化示意圖
圖6 兩周內(nèi)話題微博日發(fā)布量和總量變化示意圖
圖7 兩周內(nèi)用戶日參與量變化示意圖
由圖5中“人機(jī)圍棋大戰(zhàn)”、“唐安琪燒傷”和“張怡寧 福原愛”三個(gè)話題下的微博可以看出, 熱門話題下的微博發(fā)布情況, 遵循從潛伏期到爆發(fā)期, 再?gòu)谋l(fā)期到冷淡期這一規(guī)律, 并且潛伏期到爆發(fā)期的過程較短. 由圖6和圖7可以看出, 在話題的爆發(fā)期間內(nèi), 用戶的參與度達(dá)到頂峰, 并且微博發(fā)布量也隨之達(dá)到頂峰, 最后微博發(fā)布總量趨向于平緩, 也表示著話題的生存期結(jié)束. 因此可以認(rèn)為, 意見領(lǐng)袖的檢測(cè)關(guān)鍵時(shí)間就在潛伏期到爆發(fā)期這一階段, 這一階段微博發(fā)布量大,用戶參與度高; 而爆發(fā)期到冷淡期, 隨著用戶參與量的降低, 話題熱度的下降, 用戶影響力難以擴(kuò)散. 因此,引證了意見領(lǐng)袖的出現(xiàn)具有時(shí)效性這一特點(diǎn). 同樣, 話題潛伏期到爆發(fā)期這一階段的微博發(fā)布量變化曲線的斜率突增, 有利于對(duì)事件的發(fā)展進(jìn)行判斷.
實(shí)驗(yàn)二. 轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的長(zhǎng)尾現(xiàn)象
圖8 用戶相同話題下的微博轉(zhuǎn)發(fā)量呈長(zhǎng)尾現(xiàn)象
圖9 用戶在相同話題下的微博發(fā)布量呈長(zhǎng)尾現(xiàn)象
圖10 轉(zhuǎn)發(fā)關(guān)系樹狀圖中轉(zhuǎn)發(fā)層次的微博數(shù)量呈長(zhǎng)尾現(xiàn)象
用戶對(duì)于某話題的關(guān)注行為, 主要體現(xiàn)在發(fā)布與話題相關(guān)的微博, 或者轉(zhuǎn)發(fā)話題相關(guān)的微博. 在圖8和圖9中我們可以看出, 用戶們普遍對(duì)某話題的關(guān)注行為不會(huì)超過兩次, 因此在用戶影響力評(píng)估時(shí), 不需要像傳統(tǒng)意見檢測(cè)那樣對(duì)關(guān)注行為的數(shù)量耗費(fèi)太多資源. 在話題“人機(jī)圍棋大戰(zhàn)”的數(shù)據(jù)庫(kù)中, 微博轉(zhuǎn)發(fā)量超過100的原創(chuàng)微博數(shù)量共有60篇, 研究中對(duì)這60篇微博分別建立轉(zhuǎn)發(fā)關(guān)系樹狀, 對(duì)轉(zhuǎn)發(fā)層次的平均數(shù)進(jìn)行分析, 同樣發(fā)現(xiàn)樹狀圖中的轉(zhuǎn)發(fā)層次與微博數(shù)量呈長(zhǎng)尾現(xiàn)象, 如圖10. 由于用戶轉(zhuǎn)發(fā)關(guān)系共現(xiàn)的支持力以層次關(guān)系迭代運(yùn)算, 為了節(jié)約成本提高實(shí)時(shí)性方面, 可以對(duì)迭代次數(shù)進(jìn)行控制, 一般控制在5以內(nèi).
實(shí)驗(yàn)三. 意見領(lǐng)袖的排名
表2 不同指標(biāo)下的意見領(lǐng)袖排名
在表2列出了不同指標(biāo)下的意見領(lǐng)袖排名情況,可以用戶自身權(quán)威值的評(píng)價(jià)可以很好地突出草根用戶,轉(zhuǎn)發(fā)量的評(píng)價(jià)可以表示出用戶對(duì)其他用戶的影響力,而粉絲量與用戶的影響力只是呈現(xiàn)弱相關(guān)關(guān)系, 因此用戶自身權(quán)威值加支持力來評(píng)價(jià)一個(gè)用戶的影響力能更加貼近實(shí)際情況. 在表3中列出了前12名意見領(lǐng)袖的詳細(xì)信息, 可以發(fā)現(xiàn)在3月9日這一天的意見領(lǐng)袖數(shù)量較多, 因?yàn)樵撛掝}在這一天的消息傳播最為迅速,話題的推動(dòng)力較強(qiáng), 因此用戶的影響力更容易擴(kuò)散,同時(shí)通過粉絲數(shù)和轉(zhuǎn)發(fā)量排名的比較, 更能模型中通過話題參與用戶來取代粉絲量的有效性.
表3 模型評(píng)分前12名意見領(lǐng)袖信息
研究中提出的基于PageRank的意見領(lǐng)袖檢測(cè)方法主要以Wang和Lu提出的基本模型為基礎(chǔ), 通過轉(zhuǎn)發(fā)關(guān)系建立了信息傳播網(wǎng)絡(luò), 結(jié)合PageRank的影響力評(píng)價(jià)方法來對(duì)特定話題下的意見領(lǐng)袖進(jìn)行識(shí)別, 提出了特定主題的意見領(lǐng)袖識(shí)別模型(TOLM). 未來工作中將進(jìn)一步結(jié)合話題微博下的情感信息這一屬性來評(píng)價(jià)意見領(lǐng)袖的影響, 同時(shí)加強(qiáng)話題信息傳播網(wǎng)絡(luò)的完整性.
1 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.第34次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告.互聯(lián)網(wǎng)天地,2014,(7).
2 Lazarsfeld PF, Berelson B, Gaudet H. The people’s choice. Eco-Architecture: Harmonisation between Architecture and Nature, 1944, 18(Jan): 154.
3 Rogers EM, Shoemaker FF. Communication of innovations; a cross-cultural approach. Man, 1971, 9(2): 476.
4 Brin BS, Page L. The anatomy of a large scale hypertextual Web search engine. Computer Networks and ISDN Systems, 2012.
5 Jon M, Kleinberg. Authoritative sources in a hyperlinked environment. Journal of the Acm, 1998, 46(5): 604–632.
6 Weng J, Lim EP, Jiang J, et al. TwitterRank: Finding topic-sensitive influential twitterers. Proc. of the Third International Conference on Web Search and Web Data Mining, WSDM 2010. New York, NY, USA. February 4–6, 2010. 261–270.
7肖宇,許煒,商召璽.微博用戶區(qū)域影響力識(shí)別算法及分析.計(jì)算機(jī)科學(xué),2012,39(9):38–42.
8 原福永,馮靜,符茜落.微博用戶的影響力指數(shù)模型.現(xiàn)代圖書情報(bào)技術(shù),2012,(6):60–64.
9 盧偉勝,郭躬德.基于特定話題的微博意見領(lǐng)袖在線檢測(cè)方法.計(jì)算機(jī)應(yīng)用與軟件,2015,32(5):70–74.
10 熊濤,何躍.微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中意見領(lǐng)袖的識(shí)別與分析.現(xiàn)代圖書情報(bào)技術(shù),2013,(6):55–62.
11劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識(shí)別及分析.系統(tǒng)工程,2011,(6):8–16.
12 王君澤,王雅蕾,禹航,等.微博客意見領(lǐng)袖識(shí)別模型研究.新聞與傳播研究,2011,(6):81–88.
13 李玉貞,胡勇,熊熙,等.微博意見領(lǐng)袖的評(píng)估模型.信息安全與通信保密,2013,(2):79–81.
14 丁兆云,周斌,賈焰,等.微博中基于多關(guān)系網(wǎng)絡(luò)的話題層次影響力分析.計(jì)算機(jī)研究與發(fā)展,2013,50(10):2155–2175.
15 王晨旭,管曉宏,秦濤,等.微博消息傳播中意見領(lǐng)袖影響力建模研究.軟件學(xué)報(bào),2015,26(6):1473–1485.
16 趙靜.影響力擴(kuò)散概率模型及其用于意見領(lǐng)袖發(fā)現(xiàn)研究[碩士學(xué)位論文].重慶:重慶郵電大學(xué),2013.
17 周而重,鐘寧,黃佳進(jìn).基于意見領(lǐng)袖引導(dǎo)作用的網(wǎng)絡(luò)輿論演化研究.計(jì)算機(jī)科學(xué),2013,40(11):287–290.
18 張臘梅,黃威靖,陳薇,等.EMTM:微博中與主題相關(guān)的專家挖掘方法.計(jì)算機(jī)研究與發(fā)展,2015,52(11):2517–2526.
19 Asur S, Huberman BA, Szabo G, et al. Trends in social media: Persistence and decay. Ssrn Electronic Journal, 2011.
Opinion Leader Detection Method in the Communication Network of the Specific Topic
LAN Tian1,2,3, GUO Gong-De1,212
(School of Mathematics and Computer Science, Fujian Normal University, Fuzhou 350007, China) (Network Security and Cryptography Key Laboratory of Fujian Province, Fujian Normal University, Fuzhou 350007, China)3(Information and Network Center, Longyan University, Longyan 364012, China)
For the problems of the deficiency of existing recognition model of the Chinese weibo opinion leaders, one detection method of opinion leaders in a dissemination network of the specific topic is proposed. A recognition model based on the forward relations on the basis of information dissemination network is proposed in this paper, and the influence of users comes from their own authority and the support of forwarding user. An experiment of weibo opinion leader detection for about two weeks which is concentrated in a certain topic verifies that this method can effectively detect the opinion leader of the specific topic.
opinion leader; public opinion monitoring; communication network; recognition model
2016-03-26;收到修改稿時(shí)間:2016-04-29
10.15888/j.cnki.csa.005485