国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種級聯(lián)式微博情感分類器的構(gòu)建方法

2017-11-27 09:05:49張仰森孫曠怡杜翠蘭佟玲玲
中文信息學(xué)報 2017年5期
關(guān)鍵詞:表情符號博文語料

張仰森,孫曠怡,杜翠蘭,王 建,佟玲玲

(1. 北京信息科技大學(xué) 智能信息處理研究所,北京 100192;2. 國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100190)

一種級聯(lián)式微博情感分類器的構(gòu)建方法

張仰森1,孫曠怡2,杜翠蘭2,王 建1,佟玲玲2

(1. 北京信息科技大學(xué) 智能信息處理研究所,北京 100192;2. 國家計算機網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100190)

該文從統(tǒng)計學(xué)方法與機器學(xué)習(xí)的分類思想出發(fā),對中文微博文本的情感類別進行研究。針對微博文本的特點,提出了一種級聯(lián)式微博情感分類器模型,該模型首先構(gòu)建基于情感詞典和新浪表情符號詞典的微博情感初級分類模型;然后根據(jù)基準(zhǔn)詞構(gòu)建基于類別傾向相似度的二級分類模型,對初級模型未能確定情感類別的微博進行再次分類,并對初級模型的詞典進行更新;最后采用樸素貝葉斯分類器構(gòu)建三級分類模型,對以上還未確定情感類別的微博進行三級分類。通過與NLPCC2014微博情感分類評測參賽結(jié)果進行比較,說明了所提方法的有效性。

微博;情感詞典;基準(zhǔn)詞;樸素貝葉斯模型;級聯(lián)式分類器

1 引言

進入Web 2.0時代,互聯(lián)網(wǎng)得到大力的普及與傳播,虛擬社區(qū)[1]是基于互聯(lián)網(wǎng)的應(yīng)用而誕生的,它的形式由最早的博客、論壇到如今的微博。根據(jù)中國互聯(lián)網(wǎng)信息中心的報告[2],截至2014年6月,中國互聯(lián)網(wǎng)網(wǎng)民整體規(guī)模增至6.32億,在這個龐大的用戶群體中,微博為其提供了良好的交流溝通平臺。

微博,即微博客,是一個基于用戶關(guān)系的信息分享、傳播和獲取平臺,用戶可以通過Web、WAP等各種客戶端組件,以140字左右的文字更新信息,并實現(xiàn)即時分享。微博憑借其實時、簡潔、靈活、快捷的特點及多元化、平民化、迅速化的傳播特征,迅速成為網(wǎng)民發(fā)布與獲取社會信息的重要載體。微博強大的影響力越來越顯現(xiàn)出來,吸引了更多的用戶,覆蓋了社會的各個方面。

微博用戶在傳達信息時會隱含一些情緒狀態(tài),通過對微博用戶發(fā)表的微博文本進行情感分析,可以獲得微博用戶的情感傾向、觀點或態(tài)度[3]。對微博進行情感分析有助于完善互聯(lián)網(wǎng)的輿情監(jiān)控系統(tǒng),及時發(fā)現(xiàn)不良分子惡意散布的不健康或是危害國家利益的信息,并能夠?qū)ζ溥M行控制;豐富和拓展企業(yè)的營銷能力,用戶對一些企業(yè)名牌的評價或建議可以帶來巨大的商業(yè)價值;此外,還可以應(yīng)用于心理學(xué)、社會學(xué)和金融學(xué)等領(lǐng)域的研究。所以,對微博文本進行情感分類具有很重要的現(xiàn)實意義。

國內(nèi)外的許多學(xué)者目前都參與到對微博的研究之中。一般關(guān)于英文微博的研究主要是基于Twitter微博語料展開[4-5],但由于中英文文本的差異,針對英文微博的情感分析方法應(yīng)用到中文微博領(lǐng)域,可能還是存在一定的局限性[6]。對中文微博的研究近年來國內(nèi)許多學(xué)者開展得如火如荼,武漢大學(xué)的李婷婷等人通過抽取文本中的特征,分別在SVM 模型和CRF模型上進行實驗,達到了比較好的分類效果[6]。清華大學(xué)的謝麗星等人通過結(jié)合表情符號的規(guī)則方法、情感詞典的規(guī)則方法和SVM,提出一種微博情感分類的多策略方法,取得了較好的分類效果[7]。隨著深度學(xué)習(xí)受到越來越多的關(guān)注,一些學(xué)者把深度學(xué)習(xí)的方法用到中文微博的情感分析之中,例如,鄭州大學(xué)的梁軍等人利用深度學(xué)習(xí)中的遞歸神經(jīng)網(wǎng)絡(luò)來發(fā)現(xiàn)微博文本特征,并根據(jù)句子中詞語間前后的關(guān)聯(lián)性引入情感極性轉(zhuǎn)移模型,在不使用人工標(biāo)注語料的情況下,取得了較好的情感分析效果[8]。

2 相關(guān)工作

2.1微博文本的預(yù)處理

微博文本的預(yù)處理主要包括分詞、去停用詞和去標(biāo)點。在對微博文本進行分詞時,采用了中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)ICTCLAS[9],該系統(tǒng)的功能有: 中文分詞、詞性標(biāo)注、命名實體識別和未登錄詞識別,其中中文分詞的正確率高達97.58%。

微博文本分詞之后對其進行去停用詞處理。本文借助哈爾濱工業(yè)大學(xué)停用詞表[10]對其進行去停用詞。停用詞大致分為兩類,一類是人類語言中包含的普遍且沒有實際含義的功能詞,另一類是搜索引擎不能保證搜索結(jié)果的詞匯。表1展示了部分停用詞。

表1 部分停用詞

由于本文對微博情感進行分類時對標(biāo)點符號不做考慮,所以需要去除標(biāo)點符號。表2 是要從微博中去除的標(biāo)點符號集合。

表2 標(biāo)點符號集合

2.2 情感詞典的構(gòu)建

在微博情感分析研究中,大部分研究者將微博情感劃分為兩類(正、負)。但在日常生活中,若把情感只分為正面或負面,未免有些過于粗糙。在目前的情感分類研究中,大連理工大學(xué)的情感詞匯本體庫、臺灣大學(xué)的中文通用情感詞典NTUSD[11]及HowNet[12]的情感詞典應(yīng)用比較多。大連理工大學(xué)情感詞匯本體庫中包括了詞語的詞性種類、詞義數(shù)、詞義序號、情感分類、情感強度、極性等九個屬性,情感種類分為七大類21個小類;而臺灣大學(xué)的NTUSD及HowNet情感詞典中則只包含了正向情感詞語和負向情感詞語。若采用大連理工的詞匯本體,由于分類過細,并且屬性多,可能會影響情感傾向性分析的準(zhǔn)確性,而若采用臺灣大學(xué)的NTUSD或HowNet的情感詞典,則將微博的情感分為正向情感和負向情感兩類,且沒有情感強度的標(biāo)識,無法實現(xiàn)微博情感傾向性色彩的表示。為了細分微博文本的情感類別,并能對情感色彩進行量化度量,本文借鑒大連理工大學(xué)情感詞匯本體中(包含27 466個詞匯)的情感類別,結(jié)合臺灣大學(xué)中文通用情感詞典NTUSD(包含8 276個負面詞匯和2 810個正面詞匯)及HowNet的情感詞典(包含1 517個正面中文情感詞語、1 957個負面中文情感詞語)構(gòu)建自己的情感詞典。

所構(gòu)建的詞典含有29 625個情感詞,分為好(like)、樂(happy)、惡(disgust)、哀(sadness)、怒(anger)、懼(fear)和驚(surprise)等七個情感類別,情感強度分為1、3、5、7、9共五個級別,1表示情感最弱,9表示情感最強。為了提高詞典的訪問速度,按照七個類別,各個類別以一個文本文件的形式存儲,各個類別中的情感詞數(shù)分別為: 好—13 208、樂—2 477、惡—12 715、哀—2 850、怒—553、懼—1 451、驚 —290。這里要說明的是,有些詞匯可以歸到多個情感類別中,但在不同類別中的感情色彩強度可能不同。每個類別詞典的格式定義如下:

情感詞情感強度

表3是“樂(happy)”類詞典的部分情感詞匯及其強度。

表3 “樂(happy)”類詞典的部分詞匯

2.3 微博表情符號詞典的構(gòu)建

中文微博網(wǎng)站通常會提供一些表情符號,圖1為新浪微博提供的表情符號。

圖1 新浪微博提供的表情符號

用戶在發(fā)表微博時,可選擇微博網(wǎng)站提供的表情符號來表達自己的心情,這時表情符號就蘊含了發(fā)微博人的情感信息。表情符號在微博文本中的表示形式是被中括號括起來的文本[13-14],例如表情符號,對應(yīng)的文本元素為[哈哈],可采用正則表達式實現(xiàn)對微博文本中情感信息的提取。例如,要提取“[哈哈]你是個好人”中的“哈哈”,其對應(yīng)的正則表達式為[(.{1,10})]。這里,“[” 表示“[”,前面的“”為轉(zhuǎn)義符號;(.{1,10}) 表示取任意字符,長度范圍1~10個,“哈哈”在1~10個字符之間,表達式條件成立;“]”和前面類似,表示“]”,“”為轉(zhuǎn)義符。本文對常用的表情符號進行統(tǒng)計,并按照前述七種情感類別(樂、好、怒、哀、懼、惡和驚)進行預(yù)先分類并確定其強度,根據(jù)表情符號對應(yīng)的文本元素構(gòu)建表情符號詞典。

2.4 基準(zhǔn)詞的選取

基準(zhǔn)詞是具有明顯情感傾向的、感情強烈、代表性強的情感詞匯。基準(zhǔn)詞的選取須滿足以下條件: 情感強度大、代表性強、覆蓋面廣、不出現(xiàn)語義相同等因素。王素格[15]等人提出了一種基于類別區(qū)分能力與情感詞詞表相結(jié)合的基準(zhǔn)詞選取方法,本文借鑒其思想,首先為七類情感各選擇10個情感強度大且不存在輔助情感的情感詞作為基準(zhǔn)詞基礎(chǔ)(見表4),并在百度詞典上查找表4中每個詞的近義詞,然后通過HowNet將這些近義詞與基準(zhǔn)詞基礎(chǔ)表4中的詞進行比較,如果兩個詞的W_E和DEF部分描述相同,則認為它們是同義詞,將其并入基準(zhǔn)詞集合中,并為其賦值相應(yīng)的情感強度。

表4 為每個情感類別挑選的10個基準(zhǔn)詞

3 微博情感的級聯(lián)式分類器模型

在分析現(xiàn)有微博分類器的基礎(chǔ)上[13-16],本文提

出了基于情感詞典與表情詞典、詞袋模型及樸素貝葉斯模型的級聯(lián)式微博情感分類器。該分類以八類情感為分類結(jié)果: 樂(happiness)、好(like)、怒(anger)、哀(sadness)、懼(fear)、惡(disgust)、驚(surprise)和無情感(none)。其模型結(jié)構(gòu)如圖2所示。

圖2 級聯(lián)式微博情感分類模型結(jié)構(gòu)圖

該模型不僅可以對已有的微博進行分類,而且還可以對其他社交網(wǎng)站搜集的用戶發(fā)表的內(nèi)容進行情感分類。下面介紹該級聯(lián)式微博情感分類模型的工作原理。

3.1 基于情感和表情詞典的初級分類模型

情感詞是指帶有情感傾向的詞語。微博中情感詞的類別判別方法可分為基于情感詞典的方法和基于大規(guī)模語料庫的統(tǒng)計方法。本文采用融合情感詞典和表情符號詞典的方法對微博文本的情感類別進行首次判別。判別步驟如下:

step1: 構(gòu)建微博d的文本向量SW。設(shè)SW= {w1,w2,…,wn}, 其中wi表示預(yù)處理之后的微博文本中第i個詞(文本詞匯或是表情符號里的文本元素),n表示詞的個數(shù),1≤i≤n。

step2: 將微博文本向量中的詞與已構(gòu)建的情感詞典和表情符號詞典進行匹配。如果微博中包含多種類別的情感詞或表情符號,則最終將強度最大的情感詞或表情符號所屬的類別作為該條微博的情感類別。

假設(shè)情感詞wi的情感類別為Ci,情感強度為inty(wi),其在某條微博中出現(xiàn)的次數(shù)為freq(wi),則定義詞wi對微博情感傾向影響強度如式(1)所示。

emo_inty(wi)= inty(wi)× freq(wi)

(1)

我們?nèi)ξ⒉┣楦袃A向影響強度最大的詞的情感類型為微博d的情感類別如式(2)所示。

Ci={C|arg{emo_inty(wi)}

(2)

式(2)中,Ci表示微博文本的情感類別,C表示詞wi所屬的情感類別。即微博中情感傾向影響強度最大詞的情感類別即是微博的情感類別。

3.2 基于類別傾向相似度的二級分類模型

在使用初級分類模型時,如果微博文本中不包含情感詞典中的詞或表情符號詞典中的符號,則初級分類模型對于這樣的微博文本將無法分類,這時我們引入基于相似度計算的二級分類模型。該模型以詞袋模型的形式考慮微博中的詞匯,忽略微博中的詞序、語法和句法,將微博文本中的各個詞都看作是獨立的。通過計算初級分類模型中與情感、表情詞典匹配未成功的詞W與基準(zhǔn)詞集之間的相似度實現(xiàn)其類別歸類。計算方法如(3)式所示。

(3)

式(3)中,Orientationj(W)表示W(wǎng)與第j類基準(zhǔn)詞之間的類別傾向相似度(1≤i≤7),kj表示第j類基準(zhǔn)詞的個數(shù),keyji表示第j類基準(zhǔn)詞中的第i個基準(zhǔn)詞(1≤i≤kj),Simlarity(w1,w2)是詞與詞之間的語義相似度值,范圍為0到1。式(3)中的第一部分考慮了詞W與第j類基準(zhǔn)詞中的kj個基準(zhǔn)詞的相似度之和,而第二部分選擇了與W相似度最大的基準(zhǔn)詞keyji,其情感強度將決定W的情感強度。

由于類別傾向相似度Orientationj(W)是由詞W與第j類中的每個基準(zhǔn)詞的相似度之和,以及與某個最大相似度的加權(quán)構(gòu)成,因此,如果Orientationj(W)的值很小(小于某個閾值Δt),說明它和第j類基準(zhǔn)詞之間相似度很小,不能判定其歸于第j個類別。如果對于七個類別都有:

Orientationj(W)lt;Δt,j=1, 2, 3, … ,7

(4)

則采用3.3節(jié)樸素貝葉斯三級分類模型做進一步的分類。

如果類別傾向相似度Orientationj(W)不都小于Δt(j=1,2,…,7),則選擇Orientationj(W)最大的那個類別j,詞W應(yīng)與這個基準(zhǔn)詞屬于一個類別,且其情感強度與keyji的情感強度相同,實現(xiàn)對微博情感的再次分類,并將該詞添加到所屬類別的詞典,完成對詞典的更新。這里設(shè)定α、β為可調(diào)節(jié)參數(shù),因為第二部分決定了W與哪個詞的相似度最大,并確定它的情感強度,因此β的權(quán)重應(yīng)大于α,且α+β=1。

我們利用NLPCC2014訓(xùn)練語料與測試語料進行實驗,通過改變α、β的值來看分類的效果,當(dāng)α=0.2、β=0.8時,且閾值Δt取0.5時,可以達到較好的結(jié)果。

另外,式(3)中詞與詞之間的語義相似度計算,采用了知網(wǎng)知識庫系統(tǒng)提供的語義相似度計算API,其相應(yīng)的計算原理與公式參見文獻[11]。

3.3 基于樸素貝葉斯模型的三級分類模型

通過以上兩級分類模型,如果微博的情感類別還不能確定,則采用樸素貝葉斯分類器對待確定的微博進行第三次情感類別判別。樸素貝葉斯分類器由于其算法實現(xiàn)比較簡單,效率比較高,且在文本分類方面表現(xiàn)良好[16-17],因此,選擇該方法作為第三級判定模型。

本文將經(jīng)過前兩級分類后,對于類別傾向相似度滿足式(4)的詞匯,采用樸素貝葉斯分類器模型,對微博文本進行再分類。

定義微博文本dk={w1,w2,…,wn}的情感類別屬于C={Ch,Cl,Csa,Cf,Csu,Cd,Ca}中的某一類,這里,Ch表示“樂”類,Cl表示“好”類,Csa表示“哀”類,Cf表示“懼”類,Csu表示“驚”類,Cd表示“惡”類,Ca表示“怒”類。微博文本dk中的詞wi(1≤i≤n)若是非停用詞或標(biāo)點符號,則將其作為dk的特征。在特征相互獨立的情況下,假設(shè)微博文本dk所屬的情感類別為Cjk,則其計算方法如式(5)所示。

(5)

其中,P(Cj)是類別Cj的先驗概率,P(wi|Cj)是特征詞wi在類別Cj中的后驗概率,j的范圍為(h,l,sa,f,su,d,a),wtk(wi)是微博語料dk中詞wi的權(quán)值,可采用BOOL型函數(shù)來表示詞wi在微博文本dk中的權(quán)值,則如式(6)所示。

(6)

式(6)中freq(dk,wi)表示wi在dk中出現(xiàn)的頻次,SWset為停用詞集合,PTset為標(biāo)點符號集合。如果dk中的詞wi不屬于停用詞集合SWset和標(biāo)點符號集合PTset,則其權(quán)值為1,否則其權(quán)值為0。類別Cj的先驗概率P(Cj)的計算如式(7)所示,其中Num(Cj)是屬于類別Cj的微博數(shù)。

(7)

假設(shè)屬于情感類別Cj的微博文本數(shù)為m,后驗概率P(wi|Cj)則是詞wi在屬于情感類別Cj的所有m個微博文本中的權(quán)值之和與微博dk中所有詞在屬于情感類別Cj的m個微博文本中的權(quán)值之和的比值。P(wi|Cj)的計算如式(8)所示。

(8)

對于經(jīng)過以上三級分類后,還不能確定類別歸屬的微博,則將其類別標(biāo)為none。

3.4 級聯(lián)式微博情感分類模型的分類結(jié)果

微博文本經(jīng)過上述的級聯(lián)式微博情感分類模型進行分類后,分類結(jié)果的存儲格式為: 微博ID、是否包含情感標(biāo)志(Y/N)、情感類別(happy、like、sadness、fear、surprise、disgust、anger和none)。這里截取了17條微博的情感分類結(jié)果,如圖3所示。

圖3 分類結(jié)果

4 實驗與分析

4.1實驗數(shù)據(jù)與評價指標(biāo)

本文的實驗數(shù)據(jù)來源于NLPCC2014微博情感評測語料。該評測語料包括訓(xùn)練微博語料14000條,測試語料40000條。訓(xùn)練語料中,給出的類別分為八類,即happy、like、sadness、fear、surprise、disgust、anger和none,符合本文的分類模型的要求。

本文采用準(zhǔn)確率(Precision)、召回率(Recall)和F值作為評價指標(biāo),算式如式(9)~(11)所示。

4.2實驗結(jié)果與分析

NLPCC2014微博情感分類評測比賽共有17個小組報名參加,評測任務(wù)分為封閉式測試和開放式測試兩種。參加封閉式測試任務(wù)(task1)的前5名的成績?nèi)绫?所示。我們參加了NLPCC2014微博情感分類的封閉測試,所采用的方法為只使用情感詞典及表情符號詞典,分類的正確率為0.4349,召回率為0.3867,排名第四。我們對分類器模型按照本文的思路進行改進,在原來方法的基礎(chǔ)上又加入了第二級及第三級的判定,使中文微博分類的正確率提高到了0.6278,召回率為0.549,對比情況如表5所示。

表5 與NLPCC2014微博情感分析的結(jié)果對比

本文實驗所用的訓(xùn)練語料及測試語料與參加NLPCC2014的評測小組的語料相同,其他小組采用的分類方法未見報道,但我們實驗室參加評測時,只使用了情感詞典與表情符號詞典,測試成績并不理想,在采用本文介紹的級聯(lián)式模型后,由于采用了多級判別,提高了微博情感分類的正確率和召回率,證明了本文方法的有效性。

5 總結(jié)

本文提出了基于詞典匹配、基準(zhǔn)詞相似度及樸素貝葉斯模型相結(jié)合的級聯(lián)式微博情感分類器對中文微博情感進行分類。在結(jié)合微博文本自身特點的基礎(chǔ)上,將情感詞典、新浪微博表情符號、基準(zhǔn)詞和樸素貝葉斯分類器相結(jié)合,構(gòu)建級聯(lián)式微博分類器模型,實驗結(jié)果證明了所提方法的有效性。在今后的微博情感分類研究中,將考慮對特定領(lǐng)域的中文微博情感分類方法進行研究,尤其要考慮信息安全領(lǐng)域的微博的情感分析方法,以幫助相關(guān)的政府部門了解民情,預(yù)警一些不利于社會穩(wěn)定的事件,這也是我們開展本研究的目標(biāo)。

[1] Saaed V. Virtual community [J]. Index on Censorship, 2011,40(1): 133-137.

[2] 中國互聯(lián)網(wǎng)絡(luò)信息中心.第34次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R/OL].2014. http://www.cnnic.net.cn/.

[3] 周勝臣,瞿文婷, 石英子, 等.中文微博情感分析研究綜述[J]. 計算機應(yīng)用與軟件, 2013, 30(3): 161-164.

[4] JIANG L,YU M,ZHOU M,et al.Target-dependent twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies.Somerset: ACL, 2011: 151-160.

[5] PAK A,PAROUBEK P.Twitter as a corpus for sentiment analysis and opinion mining[C]//Proceedings of International Conference on Language Resources and Evaluation.Valletta, Malta: LREC, 2010: 1320-1326.

[6] 李婷婷, 姬東鴻. 基于 SVM 和 CRF 多特征組合的微博情感分析[J]. 計算機應(yīng)用研究, 2015, 32(4): 978-981.

[7] 謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報, 2012, 26(1): 73-83.

[8] 梁軍, 柴玉梅, 原慧斌, 等. 基于深度學(xué)習(xí)的微博情感分析[J]. 中文信息學(xué)報, 2014, 28(5): 155-161.

[9] 中國科學(xué)院計算技術(shù)研究所,ICTCLAS[EP/OL].2014. http://ictclas.nlpir.org/.

[10] 哈爾濱工業(yè)大學(xué),哈爾濱工業(yè)大學(xué)停用詞表[DB/OL].2014. http://download.csdn.net/detail/qq361277534/475580.

[11] 劉群,李素建. 基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學(xué)研討會.臺北,2002.

[12] HowNet[DB/OL]. 2014. http://www.keenage.com.

[13] 謝麗星.基于SVM的中文微博情感分析的研究[D].清華大學(xué)碩士學(xué)位論文,2011.

[14] 王文,王樹鋒,李洪華.基于文本語義和表情傾向的微博情感分析方法[J]. 南京理工大學(xué)學(xué)報 (自然科學(xué)版), 2014, 38(6): 733-738.

[15] 王素格,李德玉,魏英杰,等. 基于同義詞的詞匯情感傾向判別方法[J].中文信息學(xué)報,2009, 23(5): 68-74.

[16] 林江豪, 陽愛民, 周詠梅, 等. 一種基于樸素貝葉斯的微博情感分類[J]. 計算機工程與科學(xué), 2012, 34(9): 160-165.

[17] 桂斌,楊小平,朱建林,等.基于意群劃分的中文微博情感傾向分析研究[J].中文信息學(xué)報,2015, 29(3): 100-105.

張仰森(1962—),博士,教授,主要研究領(lǐng)域為中文信息處理、網(wǎng)絡(luò)內(nèi)容安全、人工智能。

E-mail: zys@bistu.edu.cn

孫曠怡(1984—),博士,工程師,主要研究領(lǐng)域為信息安全。

E-mail: 172519846@qq.com

佟玲玲(1985—),通信作者,博士,高級工程師,主要研究領(lǐng)域為自然語言處理,多媒體內(nèi)容分析與編碼。

E-mail: tongling300@sina.com

ACascadedConstructionofSentimentClassifierforMicro-blogs

ZHANG Yangsen1, SUN Kuangyi2, DU Cuilan2, WANG Jian1, TONG Lingling2

(1. Institute of Intelligent Information Processing, Beijing Information Science and Technology University, Beijing 100192, China;2. National Computer Network Emergency Response Technical Team/Coordination Center of China, Beijing 100190, China)

This paper proposes a cascaded classifier micro-blog sentiment analysis. The primary classifier is based on emotional dictionary and sina micro-blog emoticons dictionary. The secondary classifier is based on the orientation similarity, grouped by several key sentimental word. And the third-level classifier is built by using Na?ve Bayes. The micro-blogs are processed by the three classifiers in a pipeline style. The experimental results show that the method is effective compared against the NLPCC2014 micro-blog sentiment evaluation results.

micro-blog; sentiment dictionary; benchmark words; Na?ve Bayes model; cascade classifier

1003-0077(2017)05-0178-07

TP393.092

A

2015-11-04定稿日期2016-06-27

國家自然科學(xué)基金(61370139);北京市屬高等學(xué)校創(chuàng)新團隊建設(shè)與教師職業(yè)發(fā)展計劃項目(IDHT20130519)

猜你喜歡
表情符號博文語料
微信表情符號寫入判決:你發(fā)的每個表情都可能成為呈堂證供
消費電子(2022年6期)2022-08-25 09:43:52
第一次掙錢
世界表情符號日
誰和誰好
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
這個表情符號,你用對了嗎
大作文(2016年7期)2016-05-14 11:13:25
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
表情符號玩上癮 時尚愛嘗鮮
Coco薇(2015年10期)2015-10-19 01:01:58
打電話2
南平市| 白城市| 屏边| 铁力市| 平泉县| 尖扎县| 商南县| 黎平县| 富阳市| 广灵县| 固镇县| 宜宾县| 葫芦岛市| 遂溪县| 宾川县| 定州市| 石阡县| 迁安市| 红安县| 安康市| 泽普县| 永登县| 南溪县| 那坡县| 望城县| 宜丰县| 剑阁县| 永宁县| 绩溪县| 镇康县| 溧阳市| 新丰县| 深泽县| 遂平县| 买车| 诸城市| 西吉县| 辉南县| 临沂市| 伊川县| 衡南县|