林 偉
(福建警察學院偵查系, 福建福州 350007)
中文微博輿情分類中一種改進的特征選擇方法
林 偉
(福建警察學院偵查系, 福建福州 350007)
通過微博情感分析掌握網絡輿情動態(tài)是網絡數據挖掘的研究熱點,特征選擇是基于內容的微博輿情分類的重要環(huán)節(jié)。為有效提取微博數據的特征,分析CHI特征選擇算法應用在微博輿情分類中的特點及不足,給出一種改進的特征評估函數,并進一步用基于蟻群聚類的方法消除微博特征間的冗余。實驗結果表明,改進的算法能夠有效提高微博輿情分類的效能。
中文微博; 微博輿情; 特征選擇; 蟻群聚類
隨著互聯網技術的快速發(fā)展,人們對現實生活中突發(fā)事件的關注度不斷提高,網民通過網絡發(fā)表情感鮮明的言論并相互影響滲透。網絡輿情是指網民在網絡虛擬社會空間領域通過網絡語言或其他方式,圍繞當前社會的熱點或普遍關注的話題所表達情感、態(tài)度和意見的集合[1]。而微博做為網民主要的社交平臺之一,具有自主性、即時性、互動性等特點深受網民青睞。截至2016年6月,根據中國互聯網絡信息中心發(fā)布的第38次《中國互聯網絡發(fā)展狀況統(tǒng)計報告》顯示,我國微博用戶規(guī)模2.42億,同比增長18.6%,在網民中的滲透率達34%,同比增長3.4個百分點。微博日活躍用戶增至1.05億,人均月使用次數達到了52次。微博在追蹤熱點、發(fā)表熱點評論、關注興趣話題等方面都是用戶的首選平臺[2]。為此,通過機器學習算法對微博進行輿情分類,掌握網絡輿情動態(tài),對微博上帶有惡意、煽動及攻擊性言論及時監(jiān)控是網絡數據挖掘的研究熱點[3]。
特征選擇是基于數據挖掘的微博輿情分類重要環(huán)節(jié),常用的特征選擇算法一般采用某種特征評估函數來計算特征與類的關聯度。本文分析特征選擇評估函數CHI在微博輿情分類中的特點及不足,給出一種改進的特征評估函數。然而評估函數只度量了特征與類的關系,并沒有考慮特征之間的關系,在實踐中發(fā)現,冗余特征同樣對微博輿情分類產生負面的影響。為此,進一步用基于蟻群聚類的方法消除微博特征間的冗余,以便更有效地提取微博訓練樣本集的特征。
1.1 微博預處理
微博是非結構化的字符文本,計算機無法直接計算,需用向量空間模型轉化為可處理的數據向量模式。一條微博(micro-blog)采用切詞分詞算法預處理后,用向量空間模型描述為:m=
1.2 特征選擇
基于內容的微博輿情分類構成微博的詞匯向量維數往往相當大,過大的向量維數不但會增加計算量,還會影響輿情分類的準確率,從原始的特征集合中按照一定的準則選出對分類貢獻最大的N個特征,即特征選擇。在文本分類領域中常用的特征選擇方法有文檔頻率(DF)、信息增益(IG)、互信息(MI)、χ2統(tǒng)計(CHI)等。文獻[5]對這種常見文檔分類中的特征選擇算法進行了詳細比較,文獻[6]對IG和CHI進行了改進,提出一種集合CHI和IG的特征選擇方法,下面分析CHI在微博輿情分類中存在的不足。
χ2統(tǒng)計就是計算特征詞t與類別的相關程度,如果一個特征詞t的χ2統(tǒng)計值越大,就表明該特征詞對分類的貢獻越大。如有N篇微博,情感類別分為“正面”與“負面”,假設有特征詞“坑爹”,其在微博樣本集中的出現情況如表1所示:
表1 特征詞“坑爹”在微博訓練集中的分布數
那么,計算特征詞“坑爹”(t)與類別“負面”(ci)的CHI值為:
(1)
χ2統(tǒng)計的缺點在于:只統(tǒng)計了微博特征詞的文檔頻率,而忽略了微博特征詞的詞頻。如假設有100篇微博,特征詞“坑爹”在99篇中都出現了10次以上,而特征詞“討厭”在100篇中都只各出現了一次,用χ2統(tǒng)計進行特征選擇時很有可能因為特征詞“坑爹”的計算值較小被篩掉,而保留特征詞“討厭”,這顯然有失科學。在本研究中采用詞頻的方法對這種情況進行修正。
如訓練微博樣本類別為ci,ci中的微博樣本集表示為Mi=
(2)
然而,由于微博表達的口語化及隨意性,一些分布高度不均勻的特征詞,如“748”(音譯詞“去死吧”)雖可能在“負面”情感類別的微博樣本中只少數出現,但其所表達的情感傾向明確,理應為“負面”情感類別的候選特征。基于χ2統(tǒng)計的特征選擇可能會因出現次數太少而被篩選掉,在本研究中用互信息量對分類貢獻大的特征詞給予權重修正。
在特征選擇中,互信息用來表示特征與類別的關聯程度,若特征“748”(t)在“負面”情感類別微博中的出現在概率高,而在“正面”情感類別微博中的出現概率低,那么該特征將獲得較高的互信息,計算公式為[7]:
MI(ti,cj)=H(ti)-H(ti|cj)
(3)
其中,
(4)
(5)
綜合以上分析新的χ2統(tǒng)計計算公式為:
NCHI=χ2(t,ci)×MI(t,ci)×γ
(6)
因這種評估函數在一定程度上只度量了特征和類之間的關系,忽略了特征之間依賴的關系,本研究進一步用基于蟻群聚類(Ant Algorithm Custering)方法消除特征間冗余。
聚類就是通過一定的算法按數據之間的相似度對數據進行歸類,使得數據類內具有較高的相似性,而類間具有較大程度的差異性。蟻群算法是一種源于大自然的仿生類算法,由意大利學者Dorigo最早提出,主要是通過模仿螞蟻群體之間的信息傳遞而達到在圖中尋找優(yōu)化路徑的隨機率型算法,是一種模擬進化算法[8]。蟻群聚類的基本思想是:將待聚類的物體隨機分散在一個二維網格上,在空間內虛擬螞蟻以隨機方式移動,當螞蟻遇到一個待聚類物體時,將物體拾起并繼續(xù)隨機移動,若運動路徑附近的物體與背負的物體相似時,將其放在該位置,然后繼續(xù)移動,最終堆積而成的大堆為聚類結果[8-9]。應用到微博特征聚類基本步驟如下:
(1)初始化相關參數(螞蟻個數、最大迭代次數、參數kp、kd、α)
(2)將特征隨機分布在網格上,每一個網格只容納一個特征。同時將一定數量的螞蟻也分配到網格上,螞蟻初始狀態(tài)為空載。
(3)計算群落相似性:計算特征對象ti與周圍特征對象之間的相似度f(ti),計算如下:
(7)
其中α表示群落的相似系數,反應了聚類簇的數量以及算法的收斂速度,s表示螞蟻鄰居周邊的半徑,d(ti,tj)表示兩個特征的相關性,其計算公式為[10]:
(8)
(4)計算拾起或放下。計算拾起:如果一只螞蟻在某一時刻的狀態(tài)為空載且在r位置上有特征對象ti根據公式(9)計算拾起特征對象的概率。
(9)
計算放下:如果一只螞蟻在某一時刻負載有特征對象ti且r位置上無特征對象,根據
公式(10)計算放下特征對象的概率。
(10)
(5)收斂:如果算法達到最大迭代次數,算法結束,相似的或相關的特征會聚集在一起。
3.1 實驗數據
實驗數據集來源分別為新浪開放平臺公開的API抓取的中文微博樣本集[7]和我們自己收集的部分私人微博,通過微博樣本的人工標注,實驗數據的樣本結構如表2所示。實驗結果采取10次交叉驗證方法,結果取平均值。從正面微博和負面微博中各取300條作為測試樣本,其余的作為訓練樣本。
3.2 評價指標
為了有效評價微博情感分類性能的好壞,我們選取常用F-SCORE作為性能評測指標 ,計算公式為:
(11)
表2 微博樣本結構
3.3 分類模型
用K最鄰近算法(K Nearest Neighbor,KNN)為微博輿情分類的分類器。計算待分類微博Mj與微博訓練集所有樣本Mi的情感相似度,用向量夾角余弦公式表示:
(12)
微博輿情分類的任務就是把待分類微博劃分到情感傾向隸屬度最大的類別。
3.4 實驗流程
實驗中切詞分詞工具選用中科院NLPIR漢語分詞系統(tǒng)(2013版),開發(fā)平臺為Visual Stdio.net 2015,用C++語言在Windows環(huán)境下實現,實驗流程如圖1所示:
圖1 微博輿情分類流程
3.5 實驗結果分析
3.5.1 NCHI與CHI特征選擇比較分析
按照圖1所示的實驗流程將實驗分為兩個階段。(1)訓練階段:首先用中科院NLPIR漢語分詞系統(tǒng)(2013版)對訓練微博樣本集分別進行去停用詞、切詞分詞等預處理工作得出微博的原始特征空間。然后從原始特征空間中采用傳統(tǒng)的CHI算法、加入詞頻及互信息的CHI算法(NCHI)分別選擇最優(yōu)的N個特征子集構成特征向量。(2)測試階段:對訓練微博樣本集進行預處理后,用特征子集構成特征向量空間模型并采用KNN算法對測試微博樣本集進行分類比較實驗。在不同特征數下的F值結果如表3所示,從表3可以看出,特征維數從500每次遞增500至特征數達3 500,在同樣的的特征維數下,NCHI相比CHI的F值各有2個百分點左右的提升。當特征維數為2 500時,NCHI的F值達到峰值85.55。實驗結果表明:(1)NCHI因針對微博的特點對CHI進行了修正,在相同的特征維數下,微博情感分類效果得到提高。(2)當特征維數達到一定數量時,不同的特征選擇算法在某一特征數F值會達到峰值,說明增加特征維數不僅會增加分類計算的復雜性,還會因為噪聲特征項的增加影響分類效果。
表3 NCHI與CHI特征選擇F值比較
3.5.2 經蟻群聚類NCHI-AAC與NCHI比較分析
實驗2按實驗1基本步驟重復。在訓練階段用NCHI算法進行特征選擇,篩選出原始特征空間的特征子集。由實驗1得出,特征數為2 500時NCHI的F值達到峰值,因此我們取特征數為2 500,為消除特征子集中特征可能存在的冗余,我們進一步用文中的蟻群聚類算法對特征子集空間進行特征聚類,實驗結果如表4所示。從表4可以看出,經NCHI特征選擇的特征子集空間經蟻群聚類特征維數從2 500約簡至1 975,雖然特征維數減少,但準確率和召回率確得到不同程度的提高,證實了冗余特征的存在及NCHI-AAC算法的有效性。
表4 NCHI-AAC與NCHI準確率、召回率比較
采用機器學習算法對微博的情感性進行分類,是微博輿情分類的有效方法,特征選擇是基于內容的微博輿情分類的重要環(huán)節(jié)。本文分析χ2統(tǒng)計應用在微博輿情分類中存在的不足,用詞頻和互信息的方法對其進行了修正,給出一種改進的特征評價函數。在此基礎之上進一步采用蟻群聚類消除特征之間的冗余。實驗結果表明,新的評價函數和經蟻群聚類算法特征選擇算法可以有效地改善特征子集的質量,提高微博輿情分類的效果。
[1] 曾潤喜,陳強,趙峰.網絡輿情在服務型政府建設中的影響與作用[J].圖書情報工作,2010(13):115-119.
[2] CNNIC. 中國互聯網發(fā)展狀況統(tǒng)計報告[EB/OL].(2016-10-12)[2017-03-25].http:∥www.idcps.com/news/20161012/92421.html.
[3] 單月光.基于微博的網絡輿情關鍵技術的研究與實現[D].成都:電子科技大學,2013.
[4] 林偉.基于多特征提取的中文微博輿情分類研究[J].中國人民公安大學學報,2016(4):53-56.
[5] YANG Y, PEDERSEN J O. A comparative study on feature selection in text categorization[C]∥Proceeding of the 14th International Conference on Machine Learning, 1997:412-420.
[6] 王光,邱云飛,史慶偉.集合CHI與IG的特征選擇方法[J].計算機應用研究,2012(7):2454-2456.
[7] 成衛(wèi)青,唐旋. 一種基于改進互信息和信息熵的文本特征選擇方法[J].南京郵電大學學報,2013(10):63.
[8] 張賽楠.蟻群文本聚類算法的研究與應用[D].長春:吉林大學,2013.
[9] 鄭方.蟻群文本聚類算法的研究與應用[D].西安:西安電子科技大學,2013.
[10] 王連喜,蔣盛益.一種基于特征聚類的特征選擇方法[J].計算機應用研究,2015(5):1305-1308.
[11] 張志琳,宗成慶.基于多樣化特征的中文微博情感分類方法研究[J].中文信息學報,2015(7):134-143.
(責任編輯 于瑞華)
福建省教育廳基金項目(JAT160561);2017年福建省高校杰出青年科研人才培育計劃資助項目。
林 偉(1983—),男,福建人,碩士,講師。研究方向為網絡安全、數據挖掘、信息化偵查。
D035.3