一種基于FA-SVM的熱門微博特征選擇及預測方法研究

2018-12-13 09:06周劍峰

計算機應用與軟件 2018年12期

周劍峰

(廣東外語外貿大學圖書館廣東廣州 510420)

0 引言

據(jù)新浪微博數(shù)據(jù)中心的《2017微博用戶發(fā)展報告》顯示，截至2017年9月，新浪微博月活躍用戶共3.76億，相對2016年增長了27%，其中移動端比例達到了92%。2017年中的“#杭州保姆縱火案件#、#校園欺凌#、#厲害了我的國#”等事件均凸顯了微博作為網絡新興媒體在社會輿情傳播中的重要地位及其對國家和社會穩(wěn)定的深遠影響力。相對普通微博，熱門微博更容易成為網絡輿情的發(fā)酵源，本文分析了熱門微博的影響因素，構建量化微博熱度評價指標體系，采用因子分析法進行特征選擇，最終結合SVM算法獲取熱門微博預測方法。研究對于網絡輿情監(jiān)控研究、企業(yè)營銷、政府輿情監(jiān)控具有重要意義。

1 研究現(xiàn)狀

目前國內外的微博輿情研究方法主要分為兩個方向：

1) 一類是對微博文本及其評論內容的研究，主要表現(xiàn)為基于微博文本內容的話題發(fā)現(xiàn)以及基于評論情感傾向及強度的熱點挖掘兩種。Puvipadaw等[1]針對Twitter中的文本特征，提出一種的突發(fā)新聞檢測、排列及跟蹤算法。楊亮等[2]提出情感分布語言模型ELM(emotion distribution language model)來發(fā)現(xiàn)微博中的熱點事件。吳青等[3]基于微博短文本特點，根據(jù)高頻微博詞實現(xiàn)微博聚類，并分析熱點話題的情感強度，跟蹤及預測微博輿情。葉成緒等[4]結合最長公共子串和維基百科知識，基于中文微博主題詞進行熱點話題發(fā)現(xiàn)研究。

2) 另一類主要基于微博傳播路徑中的用戶、轉發(fā)等因素進行分析研究。在文獻[5]中提出了一種基于地理空間信息的熱點事件檢測方法，但是該方法基于用戶的位置信息，在用戶不允許分享位置時容易失去效用。文獻[6-7]針對Twitter提出基于粉絲、轉發(fā)帖數(shù)、回復數(shù)、被轉發(fā)數(shù)等因素計算個人用戶的影響力，發(fā)現(xiàn)話題的關鍵用戶，為熱點話題發(fā)現(xiàn)提供參考。上述研究沒有針對單條微博熱度評價的研究，并且特征覆蓋并不全面，受到一定局限。

在單條熱門微博預測研究方面，鄭志蘊等[8]從微博內容特征、傳播特征、博主特征出發(fā)，利用信息增益算法對微博熱度進行度量結合神經網絡算法預測微博的傳播特征從而預測微博是否能成為熱門微博。陳夢秋等[9]結合微博博主特征、微博傳播特征，采用SVM模型進行熱門微博預測研究。其成果忽略了微博受眾特征，且沒有對特征進行進一步的選擇研究。

針對上述問題，本文提出一套多層級多維度可量化的微博熱度評指標體系,全面考慮熱門微博影響因素，采用因子分析法進行特征選擇研究，降低特征維度，消除噪聲，獲取公共因子；以公共因子作為向量特征，采用支持向量機算法訓練熱門微博預測模型，對單條微博是否能成為熱門進行預測，為微博輿情研究提供參考。

2 微博熱度評價指標體系

圖1 微博熱度評價指標體系

2.1 微博信息量(B1)

微博的吸引力主要來自于內容的信息量，據(jù)課題組對新浪熱門微博數(shù)據(jù)集的分析統(tǒng)計，熱門微博的文本平均長度達到了117個字，且長度與熱門程度呈正相關態(tài)勢，內容均含有圖片或者視頻，其中46%含有URL鏈接，61%含有話題標簽。同時情感詞的增多可以使文本內容更活潑更容易引起共鳴，基于大連理工情感本體庫進行統(tǒng)計，90%以上的熱門微博均包含情感詞。基于上述統(tǒng)計，課題擬定了一級指標微博信息量(B1),其特征選取依據(jù)主要為微博內容及其情感信息量的豐富程度。

文本信息量(C1)，文本即微博的核心內容，長度越大內容越豐富，才能完整清晰地傳達事情的全貌，因此以微博文本的長度即字符數(shù)作為特征。文本情感信息量(C2)，情感詞是文本情感分析的基礎，是文本情感信息量的代表，把文本中的情感詞詞頻作為分析指標。主題信息量(C3)，話題標簽是微博內容的縮影，對微博傳播有直接影響，因此把微博文本中標簽的個數(shù)作為分析指標。附加媒體信息量(C4)，圖片、視頻、URL鏈接均是對微博內容的補充，均有提高微博內容信息量及吸引力的能力，因此把圖片、視頻、鏈接的合計量作為分析指標。

2.2 微博傳播(B2)

一級指標微博傳播(B2)指微博的傳播特征，主要包括時間、方式、轉發(fā)數(shù)、評論數(shù)、表態(tài)數(shù)等，為了消除時間的累積效應，使其能夠在實際情況中評估微博的傳播能力，研究采用自微博發(fā)布時間起至被抓取的時間的統(tǒng)計數(shù)據(jù)均值作為指標，即：數(shù)量/每小時。

根據(jù)濮小燕等[10]研究，新浪微博在線人數(shù)和活躍度在每天的時間序列上呈現(xiàn)一定的規(guī)律，不同時間的活躍用戶數(shù)會對熱門微博的產生有直接的影響。課題組對熱門微博發(fā)表的時間進行了統(tǒng)計，發(fā)現(xiàn)熱門微博的發(fā)表時間集中于中午(午休)、傍晚(交通)、夜晚(文娛)三個時間段，即非工作時間段，用戶活躍度較高，根據(jù)統(tǒng)計結果對每日24個小時進行切分，將發(fā)表時間指標(C5)分為工作時段(7∶00-12∶00，14∶00-18∶00)、文娛時段(12∶00-13∶00，18∶00-23∶00)、睡眠時段(23∶00-7∶00)。

(1)

同時以平均轉發(fā)數(shù)(C6)，平均評論數(shù)(C7)，平均表態(tài)數(shù)(C8)作為傳播路徑上的分析指標。相對手機客戶端而言，PC端及第三方應用產生的微博發(fā)布步驟相對復雜，并且具有審核功能，具有更高的公信力，更容易產生社會輿情，因此將發(fā)布渠道(C9)，作為分析指標之一, 計算方式如公式所示:

(2)

2.3 微博博主(B3)

自媒體是以人為核心，通過公眾用戶自我傳播的。微博博主的影響力對微博的傳播、熱度有直接的影響?；谛吕宋⒉┎杉臄?shù)據(jù)，博主的屬性主要有認證、粉絲數(shù)、微博數(shù)等。其中認證代表著博主權威性指標(C10)，權威性越高則博主微博內容的可信度越高，越容易被受眾接受并傳播，已受到官方認證的博主權威性更高，量化計算方式如公式所示:

(3)

粉絲數(shù)指關注該博主的人數(shù)，粉絲越多，該博主的累積影響力越大，所發(fā)布的微博也容易被更多人閱讀及轉發(fā)，成為熱門微博，因此將粉絲數(shù)作為博主影響力指標(C11)。相對粉絲數(shù)而言，博主的近期微博數(shù)(C12)不僅反映了博主的活躍度，也反映博主的近期影響力。活躍度較高的博主更容易受到注意，并且對粉絲有更強的影響力。

2.4 微博受眾(B4)

微博是自媒體網絡社交平臺，在自媒體平臺上，人人皆可成為媒體，也可以稱為“個人媒體”，意味著微博的受眾，即微博信息的接受者和傳播者均成為了輿情傳播的重要環(huán)節(jié)。因此將微博受眾(B4)作為一級指標進行分析。

微博受眾與博主分析指標類似，主要計算其在傳播節(jié)點中的影響力，相對博主而言，受眾具有較為龐大的數(shù)量，為了平衡微博受眾間的數(shù)量及影響力差異，采用其平均數(shù)作為分析指標。

(4)

式中：C為指標Cn的統(tǒng)計數(shù)。

與博主指標類似，受眾權威度(C13)來自于其受眾博主的平均認證數(shù)，已認證的微博用戶對自己的言論更慎重，對自己所參與轉發(fā)、評論的微博也較為謹慎，其轉發(fā)、評論的微博會具有較高的可信度。微博受眾影響力(C14)來自于其微博受眾用戶的平均粉絲數(shù)量，反映傳播路徑上受眾的影響力及水平。傳播路徑上較活躍的節(jié)點具有更高的影響力，受眾活躍度(C15)則通過受眾用戶的平均微博數(shù)獲取，平均微博數(shù)越多路徑活躍度越高，其傳播節(jié)點也越大，也對微博傳播具有更深遠的影響力。受眾的平均情感信息量(C16)，根據(jù)文獻[2]的研究，人們往往對于能夠讓自身產生情感的事件更關注，熱門微博的回復評論當中，均呈現(xiàn)出大幅度的情感波動。因此當回復評論中出現(xiàn)大量情感波動時，則微博更容易成為熱門微博?；谏鲜隼碚摴P者基于研究小組提出的方法[11]計算回復及評論文本情感傾向，采用線性加和的方式計算總情感信息量。

3 熱門微博特征選擇及預測方法

微博熱度評價體系中的多維特征能夠覆蓋微博本身及其影響力所涉及的各項因素。但各項評價指標之間有差異性也存在一定的關聯(lián)性，其對微博熱度評價的結果都存在正向或負向影響力，其影響力程度也呈不同水平，直接采用原始評價指標作為特征有時難以反映真實情況，增加了數(shù)據(jù)處理的難度和計算復雜度，容易對評價結果產生負面影響。

為了減少特征中的噪聲，降低對熱門微博預測的負面影響，使其能有效地應用于海量的熱門微博識別中，本文采用因子分析法對指標進行降維處理，消除噪聲指標的影響力，獲取公共因子。

因子分析是一種能夠將原始變量轉化成幾個綜合變量的多元統(tǒng)計分析方法[12]，其通過研究眾多變量數(shù)據(jù)之間的信息關系，將相同本質的變量歸入同一個綜合變量，這幾個綜合變量被稱作“因子”，其代表了多個原始變量的信息及結構，既實現(xiàn)了指標歸總及特征降維，也有利于提高分類精確率及計算效率。

以公共因子作為特征向量，筆者擬采用支持向量機SVM訓練熱門微博預測模型。支持向量機[13]以統(tǒng)計學習理論的VC維理論和結構風險最小原理為基礎，根據(jù)有限的樣本信息在模型的復雜性和學習能力之間尋求最佳折中，是一種有監(jiān)督學習模型，它在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢，有較好的較好泛化性能?；赟VM的單條熱門微博預測模型就是將微博能否成為熱門微博的預測轉換為一個二分類問題，即將單條微博分為熱門微博及非熱門微博。

本文以新浪微博作為研究對象，以16個熱度評價指標作為輸入，獲取熱門微博分類結果及其評價作為期望輸出。研究框架如圖2所示。

圖2 FA-SVM熱門微博研究框架

4 實驗結果及分析

4.1 實驗數(shù)據(jù)及工具

本文采集了新浪微博共500條，其中包含來自新浪微博熱門排行榜的數(shù)據(jù)150條，其余350條為新浪微博熱度值較高，但又未入榜單的微博數(shù)據(jù)。數(shù)據(jù)集中共包含633 110條微博用戶數(shù)據(jù)以及702 135條評論數(shù)據(jù)。實驗中所使用的情感詞典來自于大連理工大學信息檢索研究室(DUTIR)的情感詞匯本體庫，共27 466條情感詞匯。

實驗中的原始指標數(shù)據(jù)生成工具由課題小組基于C#語言進行開發(fā)，同時使用SPSS 20進行數(shù)據(jù)標準化處理及因子分析研究。SVM預測模型則采用基于python語言的sklearn包進行構建。

4.2 因子分析實驗

本文采用IBM SPSS 軟件進行因子分析處理，其中因子提取方法為主成分分析法，因子旋轉采用最大方差法。獲取的KMO檢驗的結果為0.717，根據(jù)KMO度量標準(KMO值越接近于1，意味著變量間的相關性越強。通常認為的度量標準是：0.6～0.9，這意味此時運用因子分析法是適當?shù)摹?/p>

從公因子方差表中可以看到，因子可提取到的原始變量信息成分最低為0.58，其中博主影響力指標(C11)、博主的近期微博數(shù)(C12)、受眾活躍度(C15)均未超過0.6，即其在公因子中被提取的信息量均在60%以下；其中文本信息量(C1)、平均評論數(shù)(C7)、平均表態(tài)數(shù)(C8)、博主權威性指標(C10)等變量提取的信息成分均超過0.8，即公因子提取了該變量80%或以上信息量。平均信息提取量比例為70.9%，說明了即將產生的幾個主成分因子可提取到的原始變量信息的比例達到70%以上。

因子分析法共生成了16個公因子，基于因子分析理論，特征值大于1 的因子才能解釋所有數(shù)據(jù)的方差，因此提取前6個公因子作為分析對象，其貢獻率如表1所示。

表1 公因子累計貢獻率

由表1中顯示出前6個因子的累計方差貢獻率已經達到70.916%，說明了前6個公因子可以將原始指標中超過70.9%的信息保存了下來，其具有解釋原始指標的評價能力，可以反映原始指標的大部分信息。最終確定主成分個數(shù)為6個，將原來的16個指標進行壓縮后用6個因子特征來代替。

從成分得分系數(shù)矩陣可獲知，每個公因子中，不同指標均有不同的權重，權重值范圍為-1至1，代表著公因子中各指標所占重要程度。例如公因子F1的權重中C6-C8的權重均為負0.6以上，意味著在公因子F1中，這幾個指標所提供的信息量極少，而C12、C14指標的權重則均超過了0.5，意味著該指標在公因子F1中占比相對較高。而在其他公因子中，指標均呈現(xiàn)不同的權重。

從圖3可以看出，在各公因子中，C5-C9均占比較低，而C11-C14平均占比較高。證明在公因子中，主要信息量及影響力來自于后者，在熱度指標中，后者的重要程度更高。最終采用線性加權方法計算公因子特征值，如公式：

Fi=C1×wi1+C2×wi2+C3×wi3+…+C16×wi16

(5)

式中：Fi是第i個公因子的特征值，wi1是第i個公因子中C1的權重。實驗以該6個公因子特征作為下一步預測模型的輸入特征向量。

圖3 成分矩陣

4.3 基于SVM的熱門微博預測模型實驗

基于SVM的熱門微博預測研究即將預測問題轉為一個二分類問題，把微博分為熱門或非熱門類別，模型構建及評價流程如圖2所示。實驗因子分析的結果獲取公因子特征數(shù)據(jù)集，以公因子作為輸入向量，采用訓練數(shù)據(jù)集結合SVM算法訓練熱門微博預測模型(FA-SVM)，使用測試語料集來評價模型的效果。

為了有效地體現(xiàn)FA 特征選擇方法的有效性，實驗同時以16個原始指標作為特征向量，采用SVM算法訓練熱門微博預測模型(SVM)作為對比。實驗采用準確率、召回率對分類結果進行評價，得到結果如表2所示。

表2 熱門微博預測模型評價 %

從表2可以看出，本文提出的FA-SVM模型相對單純SVM方法而言有效地提高了分類準確率及召回率，證明因子分析法能夠有效地提取多個指標中的潛在信息，形成公因子特征，在降低特征維度的同時，能更準確地識別出單條熱門微博。從召回率來看，F(xiàn)A-SVM方法同時提高了熱門微博的召回率及非熱門微博的召回率，也意味著因子分析所提取的公因子特征中，不僅降低了特征維度，同時也消除了特征中的噪音，有效地提高了熱門微博的識別能力。

經實驗證明，F(xiàn)A-SVM方法結合微博熱度評價指標體系，能夠獲取熱門微博的共性特征，并應用于熱門微博預測研究領域。

5 結語

單條微博是微博輿情的起點，熱門微博預測研究有助于微博輿情監(jiān)控研究。本文以新浪微博為研究對象，從微博內容、微博博主、微博傳播、微博受眾四個方面提出一套可量化的微博熱度評價指標體系，采用因子分析法對指標進行分析，獲取其公共因子，并以公共因子作為特征，結合SVM算法訓練熱門微博預測模型。實驗表明該方法能有效地提取指標特征的共性因子，并提高熱門微博的預測概率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡