周 杰,潘偉民,張海軍
(新疆師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830001)
微博隨著互聯(lián)網(wǎng)的快速發(fā)展成為對(duì)輿情相關(guān)研究的重要對(duì)象。微博話題下的一些用戶在熱點(diǎn)話題下成為了中心點(diǎn),被稱為該話題下的重點(diǎn)受眾群體,由于網(wǎng)紅效應(yīng)成為明星,在輿情下產(chǎn)生巨大作用。重點(diǎn)受眾人群形成的傳播對(duì)社會(huì)的輿論導(dǎo)向存在重大影響,因此對(duì)重點(diǎn)受眾人群的準(zhǔn)確定位,掌握這些人群會(huì)對(duì)輿論進(jìn)行積極方向的引導(dǎo),及時(shí)準(zhǔn)確分析輿情發(fā)展動(dòng)態(tài)具有重要的作用。
文獻(xiàn)[1]通過對(duì)LeaderRank算法的改進(jìn),考慮到其活躍性并且減少了其中惡意注冊(cè)用戶的影響,提取了排名前20的重點(diǎn)受眾人群,結(jié)果表明影響用戶的覆蓋率更廣泛。文獻(xiàn)[2]針對(duì)微博平臺(tái)加入了LDA主題模型并運(yùn)用了隨機(jī)森林的算法優(yōu)點(diǎn),對(duì)面向主題的重點(diǎn)受眾群體建立領(lǐng)袖預(yù)測(cè)模型,為輿情控制增加了精確化算法。文獻(xiàn)[3?5]把用戶的情感傾向性加入到重點(diǎn)受眾人群的識(shí)別中去。其中,文獻(xiàn)[3]考慮其綜合傾向,對(duì)只考慮節(jié)點(diǎn)權(quán)重的傳統(tǒng)方法進(jìn)行改進(jìn),提高算法效率。
根據(jù)現(xiàn)有研究現(xiàn)狀,有以下兩個(gè)方面的問題需要深入分析:
1)受眾群體的基礎(chǔ)屬性特征簡(jiǎn)單,應(yīng)加入傳播網(wǎng)絡(luò)信息的過程中個(gè)人情感因素來提高重點(diǎn)受眾人群的識(shí)別準(zhǔn)確率;
2)在對(duì)影響力最大化計(jì)算時(shí)加入受眾群體的交互行為與潛在影響力多個(gè)因素,可以更大程度提高影響力算法準(zhǔn)確度。
針對(duì)上述問題,為了提高微博受眾用戶的影響力計(jì)算,在用戶基本屬性上考慮到對(duì)用戶交互行為以及博文內(nèi)容的情感[6?7],對(duì)輿情網(wǎng)絡(luò)傳播影響力進(jìn)行計(jì)算。通過百度開源的深度學(xué)習(xí)平臺(tái)PaddlePaddle[8],設(shè)計(jì)博文情感分析神經(jīng)網(wǎng)絡(luò)LSTM,結(jié)合改進(jìn)的IKAG(Identification of Key Audience Groups Rank)算法,建立了一種基于情感傾向性的微博輿論事件重點(diǎn)受眾群體預(yù)測(cè)模型。
微博話題中受眾群體繁多,其中關(guān)鍵的受眾用戶影響力原因復(fù)雜。在考慮受眾用戶的特征時(shí),如果對(duì)其情感的傾向以及其互動(dòng)行為進(jìn)行忽略,會(huì)影響最后重點(diǎn)受眾用戶的排序結(jié)果。
本文算法的基本流程為:
1)爬取微博話題下受眾用戶的基本特征,如粉絲量、歷史微博數(shù)、話題微博中的回復(fù)數(shù)和轉(zhuǎn)發(fā)數(shù)等,計(jì)算受眾用戶的初始影響力值。
2)算出受眾用戶的情感傾向構(gòu)出受眾情感值矩陣。
3)通過受眾群體之間的互動(dòng)行為得出受眾用戶的最大影響力值。
4)與受眾用戶潛在影響力值相結(jié)合得出最終的重點(diǎn)受眾人群。重點(diǎn)受眾人群算法計(jì)算圖如圖1所示。
本文根據(jù)RNN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行LSTM模型改進(jìn)。在情緒傾向性的識(shí)別中,聯(lián)系句子的整個(gè)語境進(jìn)行判斷,能夠建立前后時(shí)刻輸入的聯(lián)系,綜合前后信息識(shí)別受眾群體的情緒傾向,如圖2所示。圖2中,H為信息的詞向量,O為輸出向量值,S為隱含層的向量值,U為權(quán)值的矩陣,W為隱含層前后輸入值的矩陣,V為隱含層到輸出層的權(quán)重矩陣。其中St由Xt與前一段的隱含層中的值決定,用來構(gòu)建特征向量之間的關(guān)系。從圖2中可以看出,各個(gè)時(shí)刻權(quán)值矩陣都會(huì)共享,因而可以減少訓(xùn)練的次數(shù),并可以把不同的特征向量放到隱含網(wǎng)絡(luò)層中進(jìn)行相同的訓(xùn)練操作。
圖2 RNN模型展開圖
本文利用博文語句前后聯(lián)系和微博情感詞語極性得出句子情感值并對(duì)其構(gòu)出矩陣。利用受眾群體情感基本屬性,以排查特征較弱的短句,如式(1),b為句子特征,a為b的情感客、主觀c1,c2的互動(dòng)量,如果結(jié)果高于f提出a。當(dāng)句子基本特征提取結(jié)束,運(yùn)用LSTM對(duì)其進(jìn)行博文傾向分類。
通過NII(Node Information Interaction)的短句情感傾向算法,在語料中用基礎(chǔ)詞與現(xiàn)有詞的重復(fù)比率計(jì)算感情的傾向性。兩兩詞性值計(jì)算如下:
式中:I(V),I(V′)為詞V,V′出現(xiàn)的重復(fù)次數(shù);I(V&V′)為V,V′同時(shí)出現(xiàn)的概率。設(shè)正向基礎(chǔ)詞為word1={word11,…,word1n},負(fù)向基礎(chǔ)詞為word2={word21,…,word2n},新出現(xiàn)的newword的情感值計(jì)算為:
通過詞句情感傾向算法計(jì)算基礎(chǔ)詞與新型詞的相似度,得出新型詞句的情感性。設(shè)V,V′有k,l個(gè)基本結(jié)論,其中各自的總集合為{D11,D12,…,D1n}與{D21,D22,…,D2n},則newword的公式為:
式中sim(V,V′)表示V,V′之間的相近程度。
博文情感公式為式(6)。其中,RP(vi)為詞句vi的感情值,b,n為數(shù)量,對(duì)其進(jìn)行分化,在[-2,2]當(dāng)中。
博文互動(dòng)的受眾群體量較大,受眾群體p,l的計(jì)算與互動(dòng)來往的次數(shù)權(quán)重相關(guān),其中p對(duì)l的主動(dòng)情感傾向?yàn)椋?/p>
式中:rpl為p,l之間的情感互動(dòng)權(quán)重之和;npl為博文互動(dòng)中p,l之間的交互數(shù)。
微博在進(jìn)行信息傳播的過程中,意見領(lǐng)袖影響力在整個(gè)傳播過程中起到很大的影響。影響力的計(jì)算構(gòu)成指標(biāo)需要考慮到多個(gè)因素,不能忽視受眾用戶的潛在影響力,它是受眾用戶的靜態(tài)影響力。受眾用戶的潛在影響力包括用戶的粉絲、關(guān)注以及歷史博文數(shù)目,用戶影響力是潛在影響力與博文影響力的綜合。
1.2.1 初始影響力計(jì)算
在本文IKAGR算法計(jì)算中,需要輸入初始受眾用戶的影響力值進(jìn)行迭代,在計(jì)算之前要對(duì)實(shí)時(shí)微博的因素進(jìn)行分析,由于采集的特征數(shù)據(jù)跨度較大,如一些明星大V用戶的粉絲很多,然而作為受眾用戶在某一熱點(diǎn)話題下所產(chǎn)生的影響力并不一定比普通用戶高。為了削減因受眾用戶個(gè)別指標(biāo)過于突出而使綜合結(jié)果偏高,因此需要使用變異系數(shù)法對(duì)各個(gè)基本屬性的權(quán)重比進(jìn)行計(jì)算,各項(xiàng)指標(biāo)的變異系數(shù)為:
式中:M t是第t項(xiàng)指標(biāo)的變異系數(shù);σt是第t項(xiàng)指標(biāo)的標(biāo)準(zhǔn)差;yt是第t項(xiàng)指標(biāo)的平均值。各項(xiàng)特征屬性指標(biāo)的權(quán)重為式(9),通過計(jì)算綜合評(píng)分進(jìn)行排序如式(10),在得到總分之后歸一化,方法采用max?min歸一化如式(11)所示。
在進(jìn)行實(shí)時(shí)博文初始影響力計(jì)算時(shí),其特征屬性考慮到轉(zhuǎn)發(fā)、評(píng)論以及點(diǎn)贊數(shù)。定義以式(12)計(jì)算用戶u的自身影響力值。
式中:Z值為用戶u的初始影響力值;B1,B2,B3分別為點(diǎn)贊數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù);O1,O2,O3分別為上述的權(quán)重系數(shù)。
本文三個(gè)特征通過上述算法進(jìn)行權(quán)重賦值得出結(jié)果如表1所示。
表1 受眾用戶交互屬性權(quán)重
1.2.2 潛在影響力計(jì)算
本文采用變異系數(shù)法計(jì)算權(quán)重,確定受眾用戶潛在影響力和實(shí)時(shí)博文影響力的權(quán)重賦值。先計(jì)算每個(gè)指標(biāo)的所有平均值、標(biāo)準(zhǔn)差;然后計(jì)算每個(gè)指標(biāo)的變異系數(shù);接著計(jì)算每個(gè)指標(biāo)的權(quán)重,以及每個(gè)部落的總分,對(duì)總分進(jìn)行max?min歸一化,將總分值映射成0~100之間的分?jǐn)?shù)作為部落的熱度值;最后對(duì)所有熱度值從大到小排序。根據(jù)式(8)~式(11)和式(13),得出α權(quán)重因子,用來調(diào)節(jié)用戶的潛在影響力Pb和博文影響力Pc各自所占的權(quán)重比值,其計(jì)算結(jié)果見表2。
表2 受眾用戶影響力Pa的權(quán)重指標(biāo)
本文在PageRank算法的基礎(chǔ)上改進(jìn)了重點(diǎn)受眾群體的發(fā)現(xiàn)算法并加入了受眾群體之間的情感特征以及初始影響力和潛在影響力等,簡(jiǎn)稱IKAGR算法,基本思想為:
1)如果受眾人博文內(nèi)容的回復(fù)為本人,那就不建立連接點(diǎn);
2)如果受眾人博文內(nèi)容沒有人回復(fù),或僅自己則取消連接點(diǎn);
3)如果博文內(nèi)容只為連接或表情符號(hào),則取消連接點(diǎn);
4)如果受眾人a評(píng)論受眾人b,則建立指向關(guān)系,其中的權(quán)值為b對(duì)a的情感值Rab和本博文的互動(dòng)量,具體如式(15),式(16)所示。受眾用戶的迭代結(jié)果為IR(u)。算法通過用戶之間的交互特點(diǎn)設(shè)置阻尼值d為0.7。HRu表示與用戶被轉(zhuǎn)發(fā)、點(diǎn)贊、評(píng)論的用戶集合。G(u,v)表示用戶u在用戶v的交互集合中占的比重。HEv表示與用戶v交互的人的集合。把用戶u的基礎(chǔ)影響力設(shè)為ZI(u),傳播概率設(shè)為FITE(u),Ovu和Ovk為評(píng)論的受眾v對(duì)u和k的情感數(shù)值的計(jì)算,可由式(7)得出。相比傳統(tǒng)算法,本文考慮到了初始影響力值ZI(u)的計(jì)算,以及用戶之間的交互行為HEv和受眾群體之間的情感交互Ovu和Ovk。IKAGR算法考慮較為綜合,得出的結(jié)果更為客觀。
本文將主要與UIRank算法做對(duì)比,檢驗(yàn)本文算法的效果。UIRank[9]基于隨機(jī)游走理論及改進(jìn)PageRank算法,以新浪微博為實(shí)驗(yàn)平臺(tái),考慮到了用戶轉(zhuǎn)發(fā)影響力和信息傳播能力,是一種基于用戶跟隨關(guān)系圖模型的數(shù)學(xué)算法。其中,F(xiàn)ollowers(u)是u跟隨的用戶集合;a是衰減因子。UIRank排名方程定義為:
針對(duì)本文IKAGR算法,假設(shè)微博網(wǎng)絡(luò)中發(fā)表博文的用戶為N,其中M為指向N的用戶,ZI作為當(dāng)前用戶的初始影響力。設(shè)置判斷條件a值為0.01,表示每個(gè)個(gè)體前后的影響力值差,即當(dāng)前IR(u)值和上一次迭代結(jié)果IR(u)old值的差值閾。代碼滿足迭代結(jié)束的條件后得出最終IR(u)值,返回maxlist集合為IR(u)值的逆序排序。具體如算法1。
算法1:IKAGR算法
該算法在實(shí)際操作中需要對(duì)輸入值進(jìn)行預(yù)處理,其阻尼因子、迭代次數(shù)等條件并不唯一,可以進(jìn)行調(diào)試,通過對(duì)比結(jié)果的F1值確定設(shè)置的參數(shù);構(gòu)造有向圖模型,可以根據(jù)實(shí)際需求設(shè)定M值為從零開始的n+序列。綜上所述,本文改進(jìn)的IKAGR算法適用于微博受眾用戶的影響力計(jì)算,可收斂。
本文先選取UIRank[9]算法的原始數(shù)據(jù)集與之相比較,其次本文把疫情期間的新浪微博作為數(shù)據(jù)源,在新的數(shù)據(jù)集上再進(jìn)行比較,更能得出本文算法的實(shí)際效果。對(duì)數(shù)據(jù)集依據(jù)與“新冠肺炎”相關(guān)的10個(gè)主題關(guān)鍵詞進(jìn)行數(shù)據(jù)采集,抓取了2020年2月10日—20日期間共計(jì)33 641條微博數(shù)據(jù),為了減少不必要的計(jì)算,把爬取到的數(shù)據(jù)中粉絲、歷史發(fā)博、關(guān)注量低于15的刪掉,如表3所示。
表3 數(shù)據(jù)集概要
經(jīng)過上述處理,提取33 641條待評(píng)估的微博樣本。首先對(duì)這些微博的博文內(nèi)容用jieba分詞和哈工大停用詞表進(jìn)行數(shù)據(jù)預(yù)處理,并寫入csv文件對(duì)應(yīng)ID的clearntext列。然后對(duì)該列使用本文情感傾向性分類模型,得到含有12 451條持有肯定態(tài)度的集合K1,11 812條持有否定態(tài)度的集合K2,得到9 378條中立態(tài)度的集合K3。
本文選擇了目前大眾認(rèn)可的重點(diǎn)受眾人群影響力算法與IKAGR算法進(jìn)行實(shí)驗(yàn)對(duì)比。如UIRank[9]算法,該算法通過受眾用戶之間的交互關(guān)系以及情感傾向的取舍對(duì)重點(diǎn)受眾人群進(jìn)行計(jì)算。其次選取的是PageRank算法,該算法是基于用戶基本屬性的迭代,計(jì)算出用戶排名,本文IKAGR算法是基于該算法的改進(jìn),通過對(duì)比更能體現(xiàn)出本文算法的優(yōu)點(diǎn)。最后是基于微博用戶粉絲數(shù)對(duì)用戶影響力的排名算法。
僅通過粉絲數(shù)、轉(zhuǎn)發(fā)數(shù)判定重點(diǎn)受眾群體是不準(zhǔn)確的,所以參照文獻(xiàn)[10]定義的算法F1值來評(píng)估各個(gè)算法的效果。
式中:A1代表各個(gè)算法總的博主排名集合;AIKAGR,AUIRank,APageRank,AFans分別表示本文、UIRank、PageRank以及粉絲排名下的重點(diǎn)受眾博主的集合。
算法評(píng)估的準(zhǔn)確率、召回率和F1值計(jì)算公式如式(18)~式(20)所示。
由圖3可以看出,在準(zhǔn)確度的對(duì)比中雖然個(gè)別算法有波動(dòng),但是總體而言都是隨著排名人數(shù)的增加其準(zhǔn)確率在提高,在排名100時(shí)UIRank算法高于本文IKAGR算法,但在實(shí)際考量中影響不大。
圖3 不同算法的準(zhǔn)確率對(duì)比
從圖4召回率的對(duì)比結(jié)果可以看出,在用戶排名為100時(shí),IKAGR算法與UIRank算法相持平,PageRank算法與Fans算法相持平??傮w而言,IKAGR算法的召回率效果還是不錯(cuò)的。
圖4 不同算法的召回率對(duì)比
在圖5的F1值對(duì)比上,本文用戶IKAGR算法總體取得了不錯(cuò)的效果。由于用戶在某個(gè)領(lǐng)域和話題中的交互性較低,活躍度不高,所以Fans算法實(shí)際的影響力并不高。
圖5 不同算法的F1值對(duì)比
本文針對(duì)微博熱點(diǎn)話題“校園保安打狗”這一實(shí)例數(shù)據(jù)進(jìn)行處理,得出了表4,表5的處理結(jié)果,列出了其中的用戶粉絲數(shù)排名,以及PageRank算法、UIRank算法和本文的IKAGR算法中用戶影響力的前10名用戶。
表4 IKAGR算法和UIRank算法的受眾用戶影響力
從表4,表5可以看出,這些算法計(jì)算出來的重點(diǎn)受眾群體偏向于娛樂、大V、還有像張繼科這樣的體育明星。說明了微博中的普通受眾用戶對(duì)這些群體的關(guān)注度比較高,這些重點(diǎn)受眾群體在微博的信息擴(kuò)散和輿論引導(dǎo)、廣告投放等方面都有著重要的作用。從粉絲排名來看,得出的結(jié)果和前兩種的用戶重合度不是很大,雖然粉絲數(shù)目較多,但是這些用戶的活躍度不是很大,與自己的粉絲交互較少,因此僅僅靠粉絲數(shù)目來計(jì)算影響力大小是不準(zhǔn)確的。本文前兩種的重合度較大,因?yàn)閁IRank算法重視用戶之間的交互程度,因此挖掘出來的都是近期博文更新頗為頻繁的用戶,而PageRank僅僅考慮到用戶的基本屬性值,所以與粉絲排名重合度較高,而本文提出的IKAGR算法考慮到了情感的因素,一些正能量的東西往往點(diǎn)贊數(shù)目多,其影響效果其實(shí)并不突出,而一些消極、負(fù)能量的東西,其轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)相對(duì)較少,因?yàn)槠渲袃?nèi)容的爭(zhēng)議性,評(píng)論內(nèi)容和被@的次數(shù)較多,因此本文模型考慮到的問題更為全面。
表5 PageRank算法和Fans排名的受眾用戶影響力
本文引入覆蓋率作為評(píng)估指標(biāo),用來估量重點(diǎn)受眾群體算法的影響力廣度,直接或間接影響其他用戶的覆蓋范圍比,如式(21)所示。
式中:H(i)為topi個(gè)用戶的覆蓋率;M為數(shù)據(jù)集中所有受眾用戶;P(i)為重點(diǎn)受眾人群影響的節(jié)點(diǎn)。
圖6中,本文的IKAGR算法在23 446個(gè)受眾用戶構(gòu)成的微博交互網(wǎng)絡(luò)中達(dá)成最高的67%覆蓋率。
圖6 不同算法的覆蓋率對(duì)比
由結(jié)果可以看出,微博中重點(diǎn)受眾人群關(guān)乎到博文內(nèi)容的情感傾向,比如雖然有一些消極的博文其轉(zhuǎn)發(fā)和點(diǎn)贊遠(yuǎn)遠(yuǎn)不如一些正常的微博內(nèi)容,但其評(píng)論中的爭(zhēng)論較多,其影響效果更大。因此不能單一的只考慮用戶的粉絲、博文常規(guī)屬性特征,也要考慮到博文的內(nèi)容性質(zhì)以及博文的潛在影響力。
基于長(zhǎng)短時(shí)記憶(LSTM)神經(jīng)網(wǎng)絡(luò),本文將情感傾向性因素加入到了微博重點(diǎn)受眾群體的識(shí)別模型中,考慮到了微博用戶的潛在影響力,并提出了改進(jìn)后的IKAGR算法。該算法考慮到了更廣的微博特征屬性以及屬性之間的權(quán)重賦值,其F1值和覆蓋率等都較為良好。然而微博中往往存在大量的“水軍”,如果能排除“水軍”的干擾因素,并考慮到時(shí)間的因素,加入微博話題的周期性,摸清發(fā)博轉(zhuǎn)博的時(shí)間變化趨勢(shì),得出的最終結(jié)果會(huì)更加客觀。