基于分類的微博情感分析算法研究及實現(xiàn)

2017-03-02 08:31:20楊艷霞

計算機與數(shù)字工程 2017年2期

關(guān)鍵詞：分詞貝葉斯詞語

楊艷霞

(武漢科技大學(xué)城市學(xué)院信息工程學(xué)部武漢 430083)

基于分類的微博情感分析算法研究及實現(xiàn)

楊艷霞

(武漢科技大學(xué)城市學(xué)院信息工程學(xué)部武漢 430083)

在當(dāng)今信息化時代的背景下,微博作為一種社交平臺獲得了飛速的發(fā)展。隨著微博信息的大量更新,為了避免用戶迷失在信息的海洋里,對微博情感分析研究變得迫切和重要。目前相關(guān)研究還處于起步階段,因此論文從微博信息出發(fā),研究基于貝葉斯分類和SVM分類算法的微博情感挖掘的實現(xiàn),通過分析實驗結(jié)果,兩種算法在處理速度和處理精度方面對兩種算法各有優(yōu)劣,對微博信息情感分析是有效的,有一定的參考價值。

貝葉斯分類; SVM; 機器學(xué)習(xí); 情感分析

Class Number TP391.1

1 引言

作為信息和社交相結(jié)合的平臺,微博平臺以其獨特的魅力吸引了大量用戶對微博信息進(jìn)行情感分析及情感轉(zhuǎn)移研究。及時掌握公眾對熱點事件的態(tài)度和看法,便于政府部門掌握事件發(fā)生后的社會群體心理,為管理者提供決策依據(jù),還可以實現(xiàn)微博營銷、品牌宣傳、客戶關(guān)系管理、輿情監(jiān)控等。情感分析主要是從文本中挖掘用戶表達(dá)的觀點以及情感極性判斷,即判斷一條微博信息表達(dá)情感的正、負(fù)、中性[1]。目前相關(guān)研究還處于起步階段,因此本文從微博客用戶信息出發(fā),研究基于分類方法的微博作者情感挖掘的算法和系統(tǒng)的實現(xiàn)。

2 相關(guān)工作

2.1 信息采集

使用微博開放平臺API挖掘數(shù)據(jù)是當(dāng)今較為流行的數(shù)據(jù)獲取方法,以新浪微博為例,新浪微博直接提供了SDK。在調(diào)用API之前,需要創(chuàng)建一個應(yīng)用來獲取app_key和app_secret完成用戶的認(rèn)證工作。然后,啟動這個程序就會得到一個URL鏈接,通過該鏈接,獲得其訪問權(quán)限。

第二種方法:網(wǎng)絡(luò)爬蟲又稱為網(wǎng)絡(luò)蜘蛛,以極快的速度無間斷地執(zhí)行某項任務(wù),以此收集信息。本文采用廣度優(yōu)先遍歷方式獲取用戶信息。

爬取的微博信息包括的字段有消息ID、用戶ID、用戶名、屏幕名、用戶頭像、轉(zhuǎn)發(fā)消息ID、消息內(nèi)容、消息URL、來源、圖片URL、音頻URL、轉(zhuǎn)發(fā)數(shù)、評論數(shù)等,信息完整可靠,便于開發(fā)者研究。

2.2 預(yù)處理

采用Lucene中文分詞技術(shù)實現(xiàn)中文分詞和關(guān)鍵詞提取。停用詞也稱為功能詞,在一般的文本中停用詞通常是一些介詞、代詞、虛詞等一些與情感無關(guān)的字符,如:的、我們、要、自己、之等。此外,大多數(shù)微博平臺都支持文本、圖片、表情、音頻、視頻等。因此,還需要處理一些在情感分析研究中沒有實際意義的無關(guān)符號[2]。

2.3 特征選擇

經(jīng)過文本分詞后,選擇哪些關(guān)鍵字作為文本的特征項主要考慮詞頻、區(qū)域位置和分詞距離位置因素。

詞頻:詞頻是最常用的一種參數(shù),它主要描述的是一個詞在文本中出現(xiàn)的次數(shù),一個詞的重要程度與這個詞在文本中出現(xiàn)的次數(shù)成正比,方法簡單,易于使用,把它作為測量尺度之一。

區(qū)域位置:由于在文本分類的過程中,發(fā)現(xiàn)一個詞出現(xiàn)在不同的位置對于文本所想表達(dá)的意思也存在一定的影響,例如同一個詞出現(xiàn)在標(biāo)題和文章段落所起的作用不同,出現(xiàn)在標(biāo)題的詞更能體現(xiàn)文本的主要內(nèi)容,所以區(qū)域位置作為另一個考慮因素。

分詞距離次序:一個詞在文本中出現(xiàn)次序的不同,其表達(dá)的思想可能就不會相同,因此選取將這一因素考慮在內(nèi),用于文本關(guān)鍵詞提取。

候選詞權(quán)重計算,選取的候選詞計算權(quán)重計算如式(1)所示:

weighti=α×tfi+β×loci+γ×disi

(1)

式(1)中weighti是候選詞wordi的權(quán)重;tfi是其詞頻因子;disi是其區(qū)域位置因子;disi是其距離次序因子;α,β,γ是三個因子的調(diào)節(jié)因子。

對于詞頻因子采用式(1)(其中,fi為文本中該候選詞的詞頻)來計算。記錄各個詞在文本中出現(xiàn)的位置,并對詞在文本中出現(xiàn)的不同位置進(jìn)行標(biāo)注。如果一個詞在文本中多次出現(xiàn),那么對其就選取最靠前的位置點。這樣在文本處理的過程中可以實現(xiàn)詞語權(quán)重的計算,計公式如下:

loci=(wi-1)/(wi+1)

(2)

式(2)中wi是候選詞在分詞中被標(biāo)記的位置值。通過實驗,通過一個線性函數(shù)來標(biāo)記分詞距離次序值(其中i表示詞語在文本中出現(xiàn)的次序;α,β均為可調(diào)節(jié)的常數(shù)因子)。

通過式(3)來計算距離次序權(quán)重:

disi=vali/lnvali

(3)

式(3)中vali該分詞第一次出現(xiàn)位置到文本開頭的距離。通過在子公式中引入對數(shù)函數(shù),可以更好地刻畫權(quán)重計算中特征項的非線性特點。

通過特征項的權(quán)重計算公式后,為了使文本分類達(dá)到良好的效果,需要考慮如何設(shè)定調(diào)整因子的值使得對于特征詞的提取效果達(dá)到最好。這里采取機器學(xué)習(xí)的方法,通過訓(xùn)練樣本來確定調(diào)整因子的值。采用最小均方誤差(LMS)訓(xùn)練法則訓(xùn)練公式的調(diào)整因子。

第一步給定調(diào)整因子的值,然后通過計算記錄各個詞語在文本中的權(quán)重,并將結(jié)果按其權(quán)重值由高到低排序。假設(shè)第i個文本在第k次計算各文本詞語權(quán)重并排序后的詞語集合為V(k,i),而該文本的訓(xùn)練詞語排序記為Vj。根據(jù)V(k,i)和Vj中詞語權(quán)重排序的差異性,設(shè)排序差值:

(4)

式(4)中,sort(k,i,j)為i個文本中的第j個分詞在訓(xùn)練排序集和第k次計算后的測試排序集中的排序次序。

接著,通過式(5)來調(diào)整各個調(diào)整因子(α,β,γ)的值:

w=w+η×diff×sec

(5)

式(5)中w為調(diào)整因子;diff是很小的常數(shù)因子;sec為當(dāng)前的測試因子的取值。

2.4 文本分類算法

貝葉斯算法:貝葉斯分類算法是源于數(shù)學(xué)上的統(tǒng)計學(xué),它是運用數(shù)學(xué)上概率統(tǒng)計知識進(jìn)行分類的一種算法。在很多方面,都能應(yīng)用到貝葉斯(Na?ve Bayes,NB)分類算法,此算法可以應(yīng)用在大型數(shù)據(jù)庫中,并且方法簡單、分類準(zhǔn)確率高、速度快。貝葉斯的思想基礎(chǔ)是:對于給出的待分類項,求解在此項出現(xiàn)的條件下各個類別出現(xiàn)的概率,哪類概率最大,就認(rèn)為此待分類項屬于哪個類別。

貝葉斯分類分為三個階段[3]:

第一階段——準(zhǔn)備工作階段。這個階段的任務(wù)是貝葉斯分類的必要準(zhǔn)備。這一階段主要是輸入所有待分類數(shù)據(jù),確定特征屬性并根據(jù)特征屬性進(jìn)行一系列的處理輸出訓(xùn)練樣本。準(zhǔn)備工作執(zhí)行質(zhì)量對整個過程都有著很重要的影響。

第二階段——分類器訓(xùn)練階段。這個階段的任務(wù)就是生成分類器,計算每個類別在訓(xùn)練樣本中的出現(xiàn)頻率和每種特征屬性劃分對每個類別的條件概率估計,并記錄其結(jié)果,根據(jù)分類結(jié)果確定所屬類別。其輸入是特征屬性和訓(xùn)練樣本,輸出是分類器。

第三階段——應(yīng)用階段。這個階段的任務(wù)是利用分類器對待分類項進(jìn)行分類。此階段主要是對前兩個步驟的一個整合,通過前兩步的處理,歸屬出樣本所屬類別,實現(xiàn)分類工作。其輸入是分類器和待分類項,輸出是待分類項與類別的映射關(guān)系。

另一種分類算法是支持向量機(SVM)算法,SVM是建立在統(tǒng)計學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的[4]。其基本思想是:通過將一個非線性的支持向量機映射將輸入到一個更高維空間中使之變成線性的支持向量機,然后在這個新的空間選取最優(yōu)的線性分類面,這種變換通常是利用定義適當(dāng)?shù)膬?nèi)積函數(shù)(即核函數(shù))來實現(xiàn)的,在訓(xùn)練集中以支持向量(Support Vector)為基礎(chǔ)。SVM算法具有扎實的理論基礎(chǔ),而且在文本分類的應(yīng)用上也取得了很好的分類效果[5,8]。

2.5 構(gòu)建情感詞匯本體

中文微博作為互聯(lián)網(wǎng)的產(chǎn)品,其文本信息形式多元化,用于表達(dá)傾向性的詞語在不斷變化,因此核心本體并不需要一次性構(gòu)建完成。所以,在這個階段的任務(wù)是收集能夠表達(dá)人們意見的核心概念和關(guān)系,建立基礎(chǔ)的情感詞典。本文構(gòu)建情感詞匯本體是為了更完備地表達(dá)情感詞匯所包含的語義信息,例如詞匯的情感傾向性和詞匯間的相似、轉(zhuǎn)折和遞進(jìn)關(guān)系等,方便情感詞的組織和共享,從而為公眾情感分析研究提供有力的分析依據(jù)[6]。

本文主要抽取中國知網(wǎng)HowNet公布的情感分析用詞集中的核心詞匯作為構(gòu)建詞典的信息來源。該詞匯集所包含的詞匯種類(中文)和數(shù)量以及本體中選用的情感詞匯的數(shù)量如表1所示[7]。

微博消息中使用大量的網(wǎng)絡(luò)用語,這些網(wǎng)絡(luò)上的非正式語言和傳統(tǒng)詞語有著很大區(qū)別,它們往往具有強烈的感情色彩[10]。有的是過去已經(jīng)存在的詞語,因為某個事件或某些熱門話題而演變成了帶有感情色彩的詞語[9],比如:“拜金女、鳳姐”。有的是過去沒有的,新出現(xiàn)的網(wǎng)絡(luò)新詞,大多為錯別字、諧音、字母縮寫、也有象形字詞,比如:“喜大普奔、JJWW、弓雖”。這些詞語在基礎(chǔ)情感詞匯本體中是不存在的,但在情感傾向判別過程中有著重要作用,因此針對微博構(gòu)建網(wǎng)絡(luò)情感詞本體是非常重要的[10]。網(wǎng)絡(luò)情感詞需要長時間的關(guān)注和搜集,現(xiàn)今還沒有現(xiàn)成可用的情感詞典,因此通過社交網(wǎng)絡(luò)、博客、BBS、評論、微博,將收集并標(biāo)注具有感情色彩的詞語加入微博情感詞匯本體之中是必要的補充。

表1 HowNet情感分析用詞數(shù)量及本體用詞數(shù)量

表2 部分否定詞、程度副詞和連詞集

3 系統(tǒng)實現(xiàn)

3.1 文本預(yù)處理

文本預(yù)處理過程是整個系統(tǒng)關(guān)鍵的一步,由于機器無法自動判斷整個文本的類別屬性,只有人工將中文文本數(shù)據(jù)處理為機器可以識別判斷的數(shù)據(jù),才能更好地處理數(shù)據(jù)。其實現(xiàn)過程如圖1所示。

圖1 微博文本預(yù)處理流程圖

3.2 情感分析算法實現(xiàn)

分析系統(tǒng)總體框架包含貝葉斯分類子系統(tǒng)和SVM分類子系統(tǒng)。

實現(xiàn)貝葉斯算法分為以下幾個步驟:

第一步:中文分詞,借助于Lucene來實現(xiàn)中文分詞;

第二步:關(guān)鍵詞提取,主要借助于IKAnalyzer來獲取關(guān)鍵字;

第三步:文本分類,判讀文章關(guān)鍵詞屬于某一類的概率,然后通過比較不同類別的概率,出現(xiàn)在最大概率的文本就直接歸類為該類。

貝葉斯分類子系統(tǒng)實現(xiàn)流程如圖2所示。

圖2 貝葉斯分類器流程圖

由于運算的數(shù)據(jù)量比較大,導(dǎo)致系統(tǒng)的運行時間很長,因此本文引入多線程和緩沖區(qū)技術(shù),即先將微博信息保存在緩沖區(qū)里面,然后開啟多個線程,分別計算某一條信息在給定的分類中的條件概率,計算出最可能的類別。各個線程互不影響。實驗證明引入多線程和緩沖區(qū)技術(shù)使得程序的運行效率得到了明顯的提高。

實現(xiàn)SVM分類算法主要借助LIBSVM的SVM模式識別和回歸模型,先將文本轉(zhuǎn)化為LIBSVM所需要的數(shù)字化矩陣,借助于SVM模型來判斷文本分類的結(jié)果和準(zhǔn)確性。SVM分類子系統(tǒng)實現(xiàn)流程如圖3所示。

圖3 SVM分類實現(xiàn)過程

通過構(gòu)建的情感詞典,將文本處理為LIBSVM所要實現(xiàn)的形式,本體的正、負(fù)極詞匯如圖4所示。

圖4 構(gòu)建用戶情感詞典圖

最終通過訓(xùn)練語庫的數(shù)字化矩陣生成分類界面,將待測試文本處理為同樣的數(shù)字化矩陣,通過前面生成的分類界面,讓機器自動判斷,微博所屬類別。文本信息處理的模型如圖5所示。

圖5 訓(xùn)練文本處理結(jié)果

4 實驗結(jié)果

4.1 實驗數(shù)據(jù)

數(shù)據(jù)包含兩個部分:測試數(shù)據(jù)語料庫和訓(xùn)練語料庫。其中訓(xùn)練語料庫包含998條情感分類數(shù)據(jù),用于進(jìn)行訓(xùn)練,作為待測數(shù)據(jù)的概率計算;待測試數(shù)據(jù)包含6626條微博數(shù)據(jù),通過樸素貝葉斯分類器和LIBSVM分類器進(jìn)行處理,最后完成分類統(tǒng)計工作。

4.2 貝葉斯模型測試結(jié)果

該測試結(jié)果包括文本總數(shù)以及正向情感,負(fù)向情感和中性情感。生成的文本分類柱狀圖如圖6所示。

圖6 貝葉斯文本分類結(jié)果

4.3 SVM模型測試結(jié)果

SVM算法實現(xiàn)文本分類結(jié)果包括輸出迭代次數(shù),二次規(guī)劃求解最小值(SVM問題的最佳目標(biāo)值),求解的常數(shù)項目標(biāo)值b以及訓(xùn)練數(shù)據(jù)個數(shù),支持的向量個數(shù)和最終的模型精確的比對結(jié)果。通過公式來計算實現(xiàn)文本分類,其分類結(jié)果如圖7所示。

實驗過程分析:貝葉斯算法實現(xiàn)過程,對于處理大量的文本信息需要耗費大量的時間,處理速度不夠;而SVM算法的實現(xiàn)處理速度相對較快,究其原因在于該算法最關(guān)鍵的是找到合理的函數(shù)將文本處理成為需要的文本特征數(shù)字矩陣,函數(shù)的優(yōu)劣決定結(jié)果的準(zhǔn)確性,因為其處理數(shù)據(jù)是數(shù)字不需要大量的分詞比較,所以在處理大量的文本情況下,SVM的效果更好。

圖7 基于SVM情感分類結(jié)果

實驗結(jié)果分析:論文選取同樣的測試文本,但實驗結(jié)果存在較大的差異。采用貝葉斯算法對于文本分類結(jié)果包括三種類型,即正向情感和負(fù)向情感和中性情感,文本中正向情感和中性情感所占比例較大;而采用SVM算法實現(xiàn)文本分類時,對于中性情感,算法自動將其直接歸類為正向情感,但同樣都是負(fù)向情感所占比例較小。顯然在分類準(zhǔn)確性上貝葉斯算法占有優(yōu)勢。

5 結(jié)語

本文以新浪微博信息為研究對象,利用新浪微博提供的API和網(wǎng)絡(luò)爬蟲兩種方法搜集數(shù)據(jù);對數(shù)據(jù)進(jìn)行預(yù)處理后,利用貝葉斯算法與SVM分類算法對數(shù)據(jù)進(jìn)行情感分析,最終經(jīng)過比較實驗過程和實驗結(jié)果,發(fā)現(xiàn)兩種算法在分類速度和精度上各有優(yōu)劣,兩種算法對微博信息情感分析是有效的。同時為了提高程序的運行效率,本文還在程序中引入了緩沖池和多線程技術(shù),使情感分析運行效率得到顯著提高。

[1] 謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報,2012,26(1):73-83. XIE Lixing, ZHOU Ming, SUN Maosong. Hierarchical Structure Based Hybrid Approach to Sentiment Analysis of Chinese MicroBlog and Its Feature Extraction[J]. Journal of Chinese Information Processing,2012,26(1):73-83.

[2] 周昆.基于改進(jìn)向量空間模型的中文文本分類研究[D].北京:北京理工大學(xué),2015. ZHOU Kun. Research of Chinese Text Classification based on Improved Vector Space Model[D]. Beijing: Beijing Institute of Technology,2015.

[3] 張鑫,馬勇,曹鵬.基于貝葉斯分類算法的木馬程序流量識別方法[C]//第27次全國計算機安全學(xué)術(shù)交流會,2012(8):115-117. ZHANG Xin, MA Yong, CAO Peng. Traffic Identifying Method for Trojan Detection upon Bayesian Classification Algorithm[C]//Netinfo Security,2012(8):115-117.

[4] 楊斌,路游.基于統(tǒng)計學(xué)習(xí)理論的支持向量機的分類方法[J].計算機技術(shù)與發(fā)展,2006(11):56-58. YANG Bin, LU You. Classification Method of Support Vector Machine Based on Statistical Learning Theory[J]. Computer Technology and Development,2006(11):56-58.

[5] 馬金娜,田大鋼.基于SVM的中文文本自動分類研究[J].計算機與現(xiàn)代化,2006(8):5-8. MA Jinna, TIAN Dagang. Research on Chinese-text Au-tomatic Classification Based on SVM[J]. Computer and Modernization,2006(8):5-8.

[6] K. T. Durant, M. D. Smith. Mining Sentiment Classification from Political Web Logs[C]//Proceedings of Workshop on Web Mining and Web Usage Analysis of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(WebKDD-2012), August,2012.

[7] Subject sentiment analysis research Based on ontology[EB/OL].http://www.docin.com/p-976811905.html.

[8] D. Gruhl, R. Guha, D. Liben-Nowell, et al. In-formation Diffusion Through Blogspace[C]//Proceedings of the 13th International Conference on World WideWeb,2013:491-501.

[9] 王曉東,王娟,張征.基于情感詞匯本體的主觀性句子傾向性計算[J].計算機應(yīng)用,2012,32(6):1678-1681. WANG Xiaodong, WANG Juan, ZHANG Zheng. Computation on orientation for subjective sentence based on sentiment words ontology[J]. Journal of Computer Applications,2012,32(6):1678-1681.

[10] J. Bar-llan. An Outsider’s View on ‘Topic-oriented’ Blogging [C]//Proceedings of the Alt. Papers Track of the 13th International Conference on World Wide Web, 28-34, May,2013.

Microblog Sentiment Analysis Algorithm Research and Implementation Based on Classification

YANG Yanxia

(Department of Information Engineering, Wuhan University of Science and Technology City College, Wuhan 430083)

Under the background of today’s information age, microblog obtains a rapid development. With the news on the microblog updating, in order to avoid the users getting lost in the ocean of information, emotion analysis of the information becomes urgent and important. Based on the implementation of microblog emotion mining of Bayesian classifier and SVM classification algorithm, making comparison through the analysis of the experimental results in processing speed and accuracy, has a reference value.

Naive Bayes classifier, SVM, machine learning, sentiment analysis

2016年8月3日,

2016年9月18日

國家自然科學(xué)基金(編號:61502356);湖北省教育廳科學(xué)技術(shù)研究計劃指導(dǎo)性項目:“基于Ontology的微博話題識別及傾向性研究”(編號:B2015360);湖北省教育廳人文社會科學(xué)研究計劃指導(dǎo)性項目:“基于微博情感分析的大學(xué)生心理健康校園預(yù)警系統(tǒng)的建設(shè)與管理”資助。

楊艷霞,女,碩士研究生,副教授,研究方向:機器學(xué)習(xí)與智能計算。

TP391.1

10.3969/j.issn.1672-9722.2017.02.001

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于分類的微博情感分析算法研究及實現(xiàn)

1 引言

2 相關(guān)工作

3 系統(tǒng)實現(xiàn)

4 實驗結(jié)果

5 結(jié)語