李凌霄, 李紹滋,曹冬林
(1.廈門大學(xué) 智能科學(xué)與技術(shù)系,福建 廈門 361005; 2. 廈門大學(xué) 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361005)
?
基于多情緒源關(guān)聯(lián)模型的中文微博情感分析
李凌霄1, 2, 李紹滋1, 2,曹冬林1, 2
(1.廈門大學(xué) 智能科學(xué)與技術(shù)系,福建 廈門 361005; 2. 廈門大學(xué) 福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361005)
社交媒體信息的爆炸式增長,使得依據(jù)其對(duì)公眾輿論情感的分析受到越來越多的關(guān)注。與傳統(tǒng)文本不同,新浪微博中存在包括情感詞、表情、圖片和視頻等特征在內(nèi)的多情緒源,本文針對(duì)中文社交短文本情感分析中情感詞典時(shí)效性問題和多情緒源間的關(guān)聯(lián)性問題,提出了一種多情緒源關(guān)聯(lián)模型。該模型考慮微博中的情感詞和表情特征及其之間的關(guān)聯(lián)關(guān)系,在經(jīng)典的詞典規(guī)則投票方法基礎(chǔ)上,引入多情緒源以及關(guān)聯(lián)概率,通過概率建模的方式對(duì)情感詞和表情兩類情緒源建立關(guān)聯(lián)模型,實(shí)現(xiàn)對(duì)微博情感的判別。實(shí)驗(yàn)表明,在6 171條微博數(shù)據(jù)集中,多情緒源關(guān)聯(lián)模型分類準(zhǔn)確率達(dá)到了85.3%,強(qiáng)于包含情感詞和表情的傳統(tǒng)投票模型(83.4%)以及包含同類多特征的SVM方法(82.9%)。
多模態(tài)情感分析;多情緒源;社交媒體;關(guān)聯(lián)性
中文引用格式:李凌霄,李紹滋,曹冬林. 基于多情緒源關(guān)聯(lián)模型的中文微博情感分析[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(4): 546-553.
英文引用格式:LI Lingxiao, LI Shaozi, CAO Donglin. Emotional multi-source correlation model for chinese micro-blog sentiment analysis[J]. CAAI Transactions on Intelligent Systems, 2016, 11(4): 546-553.
時(shí)下,社交媒體正成為人們生活中不可或缺的一部分,通過微博、微信等工具,人們可以隨意發(fā)表對(duì)電影、商品的喜惡,對(duì)社會(huì)事件的個(gè)人觀點(diǎn),甚至對(duì)國家政策的看法。如何從包含這些信息的大規(guī)模數(shù)據(jù)中獲取諸如情感傾向在內(nèi)的潛在信息,對(duì)于產(chǎn)品導(dǎo)向、廣告精確投放、國家輿情控制等領(lǐng)域都具有重要意義,社交信息的數(shù)據(jù)挖掘與分析正成為研究者們關(guān)注的熱門課題。
對(duì)英文社交媒體(如Tweet)的情感分析已經(jīng)有很多進(jìn)展,分析的方法主要分為有監(jiān)督方法[1-5]和基于詞典或逐點(diǎn)互信息(PMI)[7]的無監(jiān)督方法。而類似針對(duì)中文社交媒體的情感分析工作則仍處于起步階段,所使用的方法大都源于英文情感分析方法,但由于社交媒體表現(xiàn)形式的多樣化和中文網(wǎng)絡(luò)語境多變性等原因,傳統(tǒng)分類方法仍存在很大改進(jìn)空間,本文針對(duì)目前存在的兩個(gè)問題進(jìn)行建模:
1)情感詞典時(shí)效性差,中文新詞的出現(xiàn)更為頻繁,基于統(tǒng)計(jì)的方法在短周期內(nèi)難以判斷其情感;
2)傳統(tǒng)方法未考慮多情緒源之間的關(guān)聯(lián)。
這里的多情緒源是指微博中可能出現(xiàn)的能夠體現(xiàn)其情感的多種異構(gòu)特征,如情感詞、表情符號(hào)、圖片和視頻等。并且這些情緒源之間存在以下在情感分析上可以進(jìn)行互補(bǔ)利用的關(guān)聯(lián)關(guān)系:
1)不同情緒源表達(dá)的情感強(qiáng)度可能不同,強(qiáng)情緒源可以對(duì)弱情緒源進(jìn)行極性加強(qiáng);
2)同一情緒下不同情緒源之間存在較強(qiáng)的關(guān)聯(lián)性,例如在“哈哈”表情下出現(xiàn)正情感詞的概率較大。
根據(jù)以上分析,我們提出了一種多情緒源關(guān)聯(lián)模型,該模型對(duì)微博中的情感詞和表情符號(hào)兩種情緒源及其之間的關(guān)聯(lián)進(jìn)行建模。我們的實(shí)驗(yàn)結(jié)果顯示,該模型在微博數(shù)據(jù)上優(yōu)于經(jīng)典分類算法,并且該模型具有拓展性,可以繼續(xù)加入諸如圖片和視頻在內(nèi)的其他情緒源。
文本情感分析近幾年逐漸成為熱門研究課題,其內(nèi)容主要包括情感極性分析和主客觀分析等,本文主要關(guān)注情感極性分析。目前情感極性分析的方法主要分為兩類:有監(jiān)督的分類器學(xué)習(xí)方法和無監(jiān)督的基于情感詞典或者PMI的方法。
1.1有監(jiān)督方法
有監(jiān)督方法大多通過機(jī)器學(xué)習(xí)技術(shù)從文本中選取合適的特征構(gòu)建分類器,包括樸素貝葉斯、最大熵和支持向量機(jī)等,進(jìn)而對(duì)不同情感進(jìn)行分類。
分類器選擇上,Pang等[1]用以上3種分類器將影評(píng)分為正、負(fù)兩類極性,引入了一元語法特征、二元語法特征、詞性特征和詞位置特征等8種組合特征,最終使用基于出現(xiàn)與否的一元語法特征SVM分類器效果最好,在其語料集中達(dá)到83%的準(zhǔn)確率。
特征選擇上,D.Kushal 等[2]對(duì)語法規(guī)則、n-gram特征進(jìn)行了分析;Hatzivassiloglou等[3]使用了情感詞作為特征,對(duì)句子級(jí)別的情感傾向進(jìn)行了分析;J.C.Na等[4]對(duì)指定詞語和否定短語特征進(jìn)行了分析。
這類機(jī)器學(xué)習(xí)方法,例如多特征SVM情感分類方法,并未考慮到不同特征之間的關(guān)聯(lián)關(guān)系。
1.2無監(jiān)督方法
無監(jiān)督方法利用文本中帶有情感的詞匯的情感傾向,綜合考慮文本的語法規(guī)則、句法構(gòu)成等要素對(duì)文本進(jìn)行情感極性的判別,通常采用投票的方法。在該類方法中,主要依靠文本分析,并未關(guān)注社交媒體信息中情緒源多并且不同情緒源之間存在關(guān)聯(lián)性的特點(diǎn)。
基于情感詞方法的基礎(chǔ)是判斷詞的情感,對(duì)詞匯的情感判斷方法包括:基于情感詞典、基于監(jiān)督學(xué)習(xí)[5]和基于種子詞[7-9]的方法等。
常用的中文情感詞典有知網(wǎng)情感分析用詞語集、臺(tái)灣大學(xué)中文情感極性詞典(NTUSD)和大連理工大學(xué)中文情感詞匯本體庫等?;谇楦性~典的方法主要缺陷在于覆蓋面窄、無法包含網(wǎng)絡(luò)新詞。
Wilson等[5]提出了一種二步分類的有監(jiān)督方法判斷短語的極性:1)判斷將短語分類為有極性和中性;2)將第1步中得出的有極性短語進(jìn)一步劃分為4類極性,每一步使用不同的特征進(jìn)行分類,分類器相同(BoosTexter AdaBoost.HM[6])。最終在其數(shù)據(jù)集上準(zhǔn)確率達(dá)到75.9%。
Turney[7]提出了一種判斷單詞情感的方法,通過在大規(guī)模語料集中分別計(jì)算目標(biāo)單詞與正負(fù)極性種子詞(正種子詞:excellent;負(fù)種子詞:pool)的逐點(diǎn)互信息,將兩個(gè)結(jié)果進(jìn)行對(duì)比得出目標(biāo)單詞的情感,最終在其數(shù)據(jù)集中達(dá)到82.8%的準(zhǔn)確率,缺點(diǎn)是需要大規(guī)模語料集,運(yùn)算量大。
此外,Xia H.等[9]研究了英文社交媒體中出現(xiàn)的情感標(biāo)記信號(hào)在無監(jiān)督情感分析中的應(yīng)用,取得了良好的效果。
1.3中文微博情感極性分析研究現(xiàn)狀
中文微博情感極性分析主要方法來源于上文提及的英文文本情感分析相關(guān)方法[10]。
目前,由中國中文信息學(xué)會(huì)(CIPS)主辦的中文傾向性分析評(píng)測(cè)(The Fifth Chinese Opinion Analysis Evaluation, COAE)聚集了該領(lǐng)域大量研究成果。COAE評(píng)測(cè)由2008年開始每年舉辦一次,發(fā)布中文傾向性分析的相關(guān)任務(wù),包括情感識(shí)別、新詞發(fā)現(xiàn)、觀點(diǎn)句提取和評(píng)價(jià)對(duì)象識(shí)別等。表1給出了COAE2013 http://ccir2013.sxu.edu.cn/COAE.aspx 任務(wù)1(基于否定句的句子級(jí)傾向性分析)的最佳評(píng)測(cè)結(jié)果。
表1 COAE2013任務(wù)1最佳評(píng)測(cè)宏平均結(jié)果
最佳結(jié)果[11]使用了集成學(xué)習(xí)的方法,通過多次欠采樣訓(xùn)練NB、ME、SVM基分類器,通過product rule融合多個(gè)基分類器。該方法針對(duì)標(biāo)注數(shù)據(jù)集較少的情況,提高了分類器的魯棒性和泛化能力。
在中文微博情感分析的多種方法中,SVM方法雖然引入了不同特征,但是認(rèn)為特征之間相互獨(dú)立;基于規(guī)則投票的方法主要依賴情感詞典和語法規(guī)則,也有引入表情符號(hào)等情緒源的方法,但未考慮不同情緒源之間的關(guān)聯(lián)。
此外,謝麗星等[12]提出了基于層次結(jié)構(gòu)的SVM分類方法,選取主題相關(guān)特征構(gòu)建分類器對(duì)微博情感進(jìn)行三分類。通過分句考慮了3類極性的句子數(shù)目以及首尾句情感極性,并且依據(jù)主題選取了多種特征訓(xùn)練分類器,在其數(shù)據(jù)集上達(dá)到67.283%的準(zhǔn)確率。但通過對(duì)我們的6171條微博進(jìn)行分析發(fā)現(xiàn),句子數(shù)目大于2的微博僅占12%,因此分句對(duì)情感分析效果不大。此外由于本文針對(duì)沒有主題標(biāo)簽的微博,因此最終在實(shí)驗(yàn)中選擇文獻(xiàn)[12]中與主題無關(guān)的不分句最佳特征SVM以及無關(guān)聯(lián)多情緒源模型作為對(duì)比方法。
多情緒源關(guān)聯(lián)模型受基于詞典投票的情感分析方法啟發(fā),對(duì)包括情感詞在內(nèi)的多情緒源及其間的關(guān)聯(lián)進(jìn)行建模(本文只考慮情感詞和表情兩種情緒源)。因此本章從基于詞典投票的分類模型,到加入表情特征進(jìn)行改進(jìn),近而引入后驗(yàn)概率聯(lián)合建模3個(gè)過程來介紹模型的產(chǎn)生原理,最后介紹多情緒源關(guān)聯(lián)模型的構(gòu)建方法(算法將微博分為負(fù)面、中性和正面3種情感)。
2.1原理框圖
圖1~3分別展示了3種情感分類模型的組成原理,可以看出相比其他兩類模型只考慮單一或者相互獨(dú)立的情緒源特征,本文提出的多情緒源關(guān)聯(lián)模型綜合考慮了不同情緒源及其之間的關(guān)聯(lián)進(jìn)行建模,并且在第2.4節(jié)的實(shí)驗(yàn)中證明了這種關(guān)聯(lián)對(duì)于情感分析的作用。
圖1 情感詞投票模型Fig.1 Word voting model
圖2 無關(guān)聯(lián)模型Fig.2 Uncorrelated model
圖3 多情緒源關(guān)聯(lián)模型Fig.3 Emotional multi-source correlation model
2.2基于詞典投票的情感分類模型
本節(jié)介紹了傳統(tǒng)方法中基于情感詞典投票的情感分類模型,并對(duì)其進(jìn)行了概率轉(zhuǎn)換,再依據(jù)否定詞和感嘆句對(duì)情感詞極性進(jìn)行了修正。
2.2.1情感詞典概率模型
基于情感詞典的分析方法將情感詞典中標(biāo)注為正負(fù)極性的情感詞作為特征,先對(duì)文本進(jìn)行分詞(本文中涉及的分詞工具使用了中科院計(jì)算所開發(fā)的ICTCLAS50分詞系統(tǒng) http://www.ictclas.org/),將正負(fù)情感詞在文本中出現(xiàn)次數(shù)的差值作為文本正負(fù)情感判斷的依據(jù)。根據(jù)式(1)進(jìn)行極性投票判斷。
(1)
如果將以上判斷方法用概率模型進(jìn)行表示,可以得到式(2)。
(2)
2.2.2否定詞和感嘆句分析
針對(duì)中文微博里存在否定詞、感嘆句等語法結(jié)構(gòu)的特點(diǎn),本文對(duì)情感詞的極性權(quán)值進(jìn)行了修正。
與文獻(xiàn)[12]中類似,模型對(duì)否定詞的出現(xiàn)進(jìn)行了處理,自定義了24個(gè)常用否定詞,如表2所示,將以否定詞為中心,大小為3窗口的中出現(xiàn)的情感詞極性反轉(zhuǎn)。
表2 自定義否定詞表
感嘆句通常起到的是加強(qiáng)語義的作用,而對(duì)于語句的情感影響也會(huì)起到類似的加強(qiáng)效果。我們認(rèn)為出現(xiàn)感嘆句的句子中,情感詞表達(dá)效果翻倍,因此使用了最為直接的處理方法,將感嘆句中的情感詞個(gè)數(shù)在原基礎(chǔ)上乘以2。
2.3無關(guān)聯(lián)的情感詞和表情模型
很多情況下,單獨(dú)使用情感詞難以判斷微博所表達(dá)的極性,因此可以通過引入其他情緒源來綜合判斷極性,我們考慮了表情符號(hào)作為聯(lián)合特征,因?yàn)楸砬楹颓楦性~在微博情感分析中具有如下優(yōu)勢(shì)互補(bǔ)的特性。
1)微博中情感詞分布廣泛,一條微博中往往包含多個(gè)情感詞。但僅利用情感詞進(jìn)行情感判別的缺點(diǎn)在于情感詞典時(shí)效性差:情感新詞出現(xiàn)較頻繁,但剛出現(xiàn)時(shí)數(shù)量少,使用基于統(tǒng)計(jì)的新詞極性判別方法在新詞出現(xiàn)初始周期內(nèi)難以對(duì)新詞進(jìn)行識(shí)別和判斷。
2)微博上表情符號(hào)的使用相對(duì)固定,但利用表情進(jìn)行情感判別的缺點(diǎn)在于一條微博中表情個(gè)數(shù)不多,同時(shí)并非所有微博都包含表情。
此外,經(jīng)過試驗(yàn)表明,微博表情特征的以下特點(diǎn)也能夠提升情感分類效果:
1)微博表情對(duì)情感的表達(dá)比文本更為直接和顯著;例如微博“終于通關(guān)了”,文本中并未出現(xiàn)情感詞,僅通過詞典將其判斷為中性情感,加入表情特征后判斷為正面情感。
因此我們對(duì)情感詞和表情符號(hào)聯(lián)合建模,以綜合利用二者在微博情感判斷中的互補(bǔ)優(yōu)勢(shì),和表情特征的自身判別優(yōu)點(diǎn),具體模型如式(3)~(5)所示:
(3)
(4)
(5)
2.4多情緒源關(guān)聯(lián)模型
2.3節(jié)模型認(rèn)為情感詞與表情之間是相互獨(dú)立的,沒有考慮情感詞和表情之間的關(guān)聯(lián)關(guān)系,以及這種關(guān)系對(duì)情感極性判斷的影響,因此這里引入了后驗(yàn)概率對(duì)其進(jìn)行修正。
表3給出了一個(gè)例子,在該例中,雖然出現(xiàn)的情感詞都為正極性,但表情符號(hào)卻只有負(fù)面表情,通過2.3模型進(jìn)行判斷,將這條微博錯(cuò)分成負(fù)極性。
表3 無轉(zhuǎn)折詞的轉(zhuǎn)折句實(shí)例
(6)
(7)
(8)
式中:normal為歸一化因子。
(9)
類似地
(10)
在表3所示的示例中,使用2.3節(jié)中的方法進(jìn)行極性判斷,結(jié)果如下:
Sp-Sn=0.14>0,最終結(jié)果為正性(本數(shù)據(jù)集下,取ωw=1,ωf=1.5)。分類正確的原因是通過“淚”與上述情感詞之間的關(guān)聯(lián)性,考慮了“淚”與上述情感詞出現(xiàn)情況下,分類為正極性的概率。
多情緒源關(guān)聯(lián)模型不限于情感詞和表情符號(hào)兩個(gè)情緒源,可以通過加入更多的情緒源,例如圖片、視頻等,來拓展關(guān)聯(lián)模型。
3.1實(shí)驗(yàn)數(shù)據(jù)及驗(yàn)證方法
上文中提及的COAE評(píng)測(cè)給出了公共數(shù)據(jù)集,但由于其數(shù)據(jù)集中所包含的有表情微博數(shù)量十分稀少,不適合測(cè)試本方法,因此本文通過新浪微博API爬取微博信息,并對(duì)爬取的6 171條微博進(jìn)行了人工標(biāo)注,經(jīng)過統(tǒng)計(jì),微博數(shù)據(jù)來自社會(huì)、電影、電視劇、美食、娛樂八卦、科技等多個(gè)領(lǐng)域。
所選擇數(shù)據(jù)集中正極性微博所占比例偏大,中極性比例偏小,并且含有表情的微博較多(主要分布于電影、電視劇、娛樂八卦和美食等領(lǐng)域),但用于比較的各個(gè)分類方法所用數(shù)據(jù)集相同,不會(huì)對(duì)結(jié)果比較造成影響。
我們所使用的情感詞典為大連理工大學(xué)中文情感詞匯本體庫http://ir.dlut.edu.cn/EmotionOntologyDownload.aspx?以及自定義的少量新詞(如坑爹、給力等),一共27 488個(gè)(正極性詞13 556個(gè),負(fù)極性詞13 932個(gè))。在分詞時(shí),使用ICTCLAS50自定義詞典接口,調(diào)用了情感詞典和否定詞典。
模型中,使用表情符號(hào)和情感詞進(jìn)行了聯(lián)合建模,表情符號(hào)選擇微博常用表情中默認(rèn)的50個(gè)表情符號(hào),如(正性)和(負(fù)性)。如表4。
表4 實(shí)驗(yàn)數(shù)據(jù)極性分布
3.2對(duì)比實(shí)驗(yàn)說明
對(duì)比實(shí)驗(yàn)1采用文獻(xiàn)[12]中一步三分類最佳特征組合(去除了情感短語和中文是否出現(xiàn)這兩個(gè)特征),此外因?yàn)楸疚臄?shù)據(jù)集中的微博包含的多句子情況少,因而不考慮分句的情況進(jìn)行第2次分類;同時(shí)本文的情感極性分析針對(duì)無主題標(biāo)簽的微博,因此不考慮主題特征。在文獻(xiàn)[12]所做的實(shí)驗(yàn)中,url特征與主客觀分類對(duì)最終效果有負(fù)面影響,因此也不將這兩個(gè)因素考慮在內(nèi)。此外,選用的情感詞典和表情符號(hào)、標(biāo)點(diǎn)符號(hào)也與之不同。最終使用的特征表示如表5所示,用詞袋模型(BOW)表示。其中否定詞采用與3.2.2中相同處理方法。對(duì)比實(shí)驗(yàn)二采用3.3節(jié)中方法。實(shí)驗(yàn)采用五折交叉驗(yàn)證。
表5 對(duì)比實(shí)驗(yàn)特征表示
3.3實(shí)驗(yàn)結(jié)果及分析
分類器說明:
1)關(guān)聯(lián)模型:多情緒源關(guān)聯(lián)模型(情感詞、表情關(guān)聯(lián)建模);
2)NB:樸素貝葉斯模型,所使用的特征與對(duì)比實(shí)驗(yàn)一的SVM方法相同,使用BOW表示特征;
3)傳統(tǒng)詞典:傳統(tǒng)的基于情感詞典以及規(guī)則進(jìn)行投票的方法(2.2中的方法);
4)詞典+表情:傳統(tǒng)基于情感詞典及規(guī)則進(jìn)行投票的方法,輔以表情特征(2.3中的方法)。
5)SVM:文獻(xiàn)[12]中一步三分類方法。
從表6的實(shí)驗(yàn)結(jié)果可以看出,本文提出的多情緒源關(guān)聯(lián)模型分類效果最佳,達(dá)到85.3%,比傳統(tǒng)基于情感詞加表情投票的方法高出了1.9%,比同類多特征SVM高出了2.4%。說明了對(duì)情緒源進(jìn)行關(guān)聯(lián)性建模,能夠有效提高情感分類效果,表明不同情緒源之間的關(guān)聯(lián)關(guān)系與情感極性也是相關(guān)的。缺點(diǎn)在于對(duì)情緒源單一的微博(例如無表情的微博)則主要依賴于傳統(tǒng)情感詞典分類方法。
表6 總體結(jié)果
注:P、R分別表示準(zhǔn)確率(Precision)和召回率(Recall)。
3.4 錯(cuò)誤分析
本節(jié)中對(duì)混合概率模型的錯(cuò)誤分類樣本進(jìn)行了分析,研究了造成分類錯(cuò)誤的原因,如表7所示。
表7 錯(cuò)誤類別及相關(guān)示例
實(shí)驗(yàn)結(jié)果表明,在缺乏表情符號(hào)特征的微博中分類效果較差,主要原因還是由于當(dāng)沒有表情特征時(shí),分類器只依賴于情感詞以及簡單規(guī)則進(jìn)行分類。此外,對(duì)轉(zhuǎn)折句、反諷句等句式的判斷存在不足,原因是微博中很多反諷句式的出現(xiàn)往往是伴隨著網(wǎng)絡(luò)新詞出現(xiàn)的,并且沒有明顯的句式標(biāo)識(shí)詞(例如,“這小偷真是太機(jī)智了”),使得對(duì)反諷句和轉(zhuǎn)折句的判斷比較困難。
4.4對(duì)比分析
通過在同一數(shù)據(jù)集上對(duì)不同模型的實(shí)驗(yàn)表明,多情緒源關(guān)聯(lián)模型能夠很好地解決基于情感詞判別方法時(shí)效性差的問題,并且在分類時(shí)綜合考慮了不同情緒源之間的關(guān)聯(lián)性,提高了分類效果。相對(duì)于對(duì)比實(shí)驗(yàn)2的普通情感詞和表情建模的方法,多情緒源關(guān)聯(lián)模型通過引入后驗(yàn)概率,利用情感詞與表情符號(hào)之間的關(guān)聯(lián)性,加強(qiáng)情感判斷性能。另外,使用對(duì)比實(shí)驗(yàn)1中的SVM分類器時(shí),雖然加入了包括表情、否定詞在內(nèi)的多特征,但認(rèn)為不同特征之間相互獨(dú)立。多情緒源關(guān)聯(lián)模型所能解決的一些錯(cuò)分類問題如表8所示。
表8 關(guān)聯(lián)模型分類正確樣本
新浪微博作為時(shí)下最為流行的社交網(wǎng)站之一,不僅是民眾鐘愛的社交工具,更是研究者挖掘數(shù)據(jù)的天堂,其商業(yè)價(jià)值和學(xué)術(shù)價(jià)值都不斷升溫。本文對(duì)微博數(shù)據(jù)挖掘領(lǐng)域的情感分析進(jìn)行了研究,提出多情緒源關(guān)聯(lián)模型,針對(duì)傳統(tǒng)基于詞典的方法重新進(jìn)行了關(guān)聯(lián)性建模,使得分類準(zhǔn)確率相比傳統(tǒng)模型(3.3節(jié)模型)提高了1.9%;相比多特征SVM提高了2.4%。但該方法仍是較為簡單的情感分析方法,就方法本身而言,也存在很大的提升空間,可以對(duì)以下幾個(gè)方面進(jìn)行改進(jìn):
1)拓展模型,引入更多情緒源,包括圖片和視頻等,使模型更適合于微博語境。
2)在概率模型中引入更加復(fù)雜的語法規(guī)則分析,例如祈使句式、多重否定、反諷句等;
3)挖掘微博用戶之間的社交網(wǎng)絡(luò)關(guān)系對(duì)情感分析的影響,通過有關(guān)聯(lián)用戶來參與判斷情感。
[1]PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2002, 10: 79-86.
[2]DAVE K, LAWRENCE S, PENNOCK D M. Mining the Peanut gallery: opinion extraction and semantic classification of product reviews[C]//Proceedings of the 12th International Conference on World Wide Web. Budapest, HU: ACM, 2003: 519-528.
[3]YU HONG, HATZIVASSILOGLOU V. Towards answering opinion questions: separating facts from opinions and identifying the polarity of opinion sentences[C]//Proceedings of the 2003 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2003: 129-136.
[4]NA J C, SUI H, KHOO C, et al. Effectiveness of simple linguistic processing in automatic sentiment classification of product reviews[C]//MCILWAINE I C. Knowledge Organization and the Global Information Society: Proceedings of the Eighth International ISKO Conference. Wurzburg, Germany: Ergon Verlag, 2004: 49-54.
[5]WILSON T, WIEBE J, HOFFMANN P. Recognizing contextual polarity in phrase-level sentiment analysis[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2005: 347-354.
[6]SCHAPIRE R E, SINGER Y. BoosTexter: a boosting-based system for text categorization[J]. Machine Learning, 2000, 39(2/3): 135-168.
[7]TURNEY P D. Thumbs up or thumbs down?: semantic orientation applied to unsupervised classification of reviews[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA, USA: ACM, 2002: 417-424.
[8]朱嫣嵐, 閔錦, 周雅倩, 等. 基于HowNet的詞匯語義傾向計(jì)算[J]. 中文信息學(xué)報(bào), 2006, 20(1): 14-20.
ZHU Yanlan, MIN Jin, ZHOU Yaqian, et al. Semantic orientation computing based on HowNet[J]. Journal of Chinese information processing, 2006, 20(1): 14-20.
[9]HU Xia, TANG Jiliang, GAO Huiji, et al. Unsupervised sentiment analysis with emotional signals[C]//Proceedings of the 22nd international conference on World Wide Web. Rio de Janeiro, Brazil: ACM, 2013: 607-618.
[10]趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8): 1834-1848.
ZHAO Yanyan, QIN Bing, LIU Ting. Sentiment analysis[J]. Journal of software, 2010, 21(8): 1834-1848.
[11] 魏現(xiàn)輝, 任巨偉, 何文譯, 等. DUTIR: 中文短文本傾向性分析及要素抽取方法研究[C]//第五屆中文傾向性分析評(píng)測(cè)研討會(huì)論文集. 太原, 2013: 116-129.
WEI Xianhui, REN Juwei, HE Wenyi, et al. DUTIR: method research of sentiment analysis and elements extraction of Chinese short text[C]//Proceedings of the Fifth Chinese Opinion Analysis Evaluation. Taiyuan, 2013: 116-129.
[12]謝麗星, 周明, 孫茂松. 基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J]. 中文信息學(xué)報(bào), 2012, 26(1): 73-83.
XIE Lixing, ZHOU Ming, SUN Maosong. Hierarchical structure based hybrid approach to sentiment analysis of Chinese micro blog and its feature extraction[J]. Journal of Chinese information processing, 2012, 26(1): 73-83.
李凌霄,男,1990 年生,碩士研究生,主要研究方向?yàn)榭缑襟w輿情分析。
曹冬林,男,1977 年生,博士,廈門大學(xué)智能科學(xué)與技術(shù)系助理教授,主要研究方向?yàn)樽匀徽Z言處理、信息檢索、跨媒體輿情分析、計(jì)算機(jī)視覺、模式識(shí)別。
李紹滋 ,男,1963年生,博士,教授,博士生導(dǎo)師,主要研究方向?yàn)槿斯ぶ悄芗捌鋺?yīng)用、計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)、運(yùn)動(dòng)目標(biāo)檢測(cè)與識(shí)別、跨媒體輿情分析等。主持過多項(xiàng)國家、省市級(jí)項(xiàng)目研究,獲得省科學(xué)技術(shù)三等獎(jiǎng)兩項(xiàng),發(fā)表學(xué)術(shù)論文200余篇,其中:27篇被SCI檢索、171篇EI檢索。
Emotional multi-source correlation model for chinese micro-blog sentiment analysis
LI Lingxiao1, 2, LI Shaozi1, 2, CAO Donglin1, 2
(1. Cognitive Science Department, Xiamen University, Xiamen 361005, China; 2. Fujian Key Laboratory of the Brain-like Intelligent Systems, Xiamen 361005, China)
With the explosion of social media information, sentiment analysis of public opinion is attracting more and more attention. Compared with traditional text, the Sina micro-blog contains a variety of emotional sources, including sentiment words, emoticons, pictures, etc. To solve the problem of the poor timeliness of lexicons in Chinese social short messages and to utilize the correlation between different emotional sources, an emotional multi-source correlation model (EMCM) is proposed to carry out sentiment analysis on a micro-blog. In particular, it takes advantage of the correlation between sentiment words and emoticons. It imports the multi-sources and correlation probabilities, and then builds a correlation model between the two emotional sources, emotional words and emoticons, based on a voting model using sentimental words. Experimental results show that this model achieved an accuracy of 85.3% in 6 171 micro-blogs, higher than either the traditional method based on voting (83.4%) or the SVM method based on similar multi-features (82.9%).
multi-modal sentiment analysis; emotional multi-sources; social media; correlation
10.11992/tis.201605019
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160808.0830.002.html
2016-05-19. 網(wǎng)絡(luò)出版日期:2016-08-08.
國家自然科學(xué)基金項(xiàng)目 (61202143, 61305061, 61402386,61572409);福建省自然科學(xué)基金項(xiàng)目 (2013J05100).
曹冬林. E-mail:another@xmu.edu.cn.
TP391
A
1673-4785(2016)04-0546-08