李天彩 王 波 毛二松 席耀一
(解放軍信息工程大學(xué) 河南 鄭州 450002)
?
基于Skip-gram模型的微博情感傾向性分析
李天彩王波毛二松席耀一
(解放軍信息工程大學(xué)河南 鄭州 450002)
摘要為了更好地對(duì)微博進(jìn)行表示,提高微博情感傾向性識(shí)別的準(zhǔn)確度,提出一種基于Skip-gram模型的微博情感傾向性分析方法。首先,使用Skip-gram模型在中文數(shù)據(jù)上進(jìn)行訓(xùn)練得到詞向量;然后,利用詞向量在詞語表示上的優(yōu)勢(shì),以及一定程度上滿足加法組合運(yùn)算的特性,通過向量相加獲得微博的向量表示以及正負(fù)情感向量;最后,通過計(jì)算微博向量和正負(fù)情感向量的相似度判斷微博的情感傾向。在NLP&CC2012數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,該方法能夠有效識(shí)別微博的情感傾向,較傳統(tǒng)的JST(Joint Sentiment/Topic model)和ASUM(Aspect and Sentiment Unication Model)平均F1值分別提高了23%和26%。
關(guān)鍵詞微博情感分析Skip-gram模型詞向量微博向量
0引言
微博的情感傾向性分析是指對(duì)微博消息所表示的情感進(jìn)行識(shí)別,判斷它的傾向性是正面還是負(fù)面。根據(jù)中國互聯(lián)網(wǎng)信息中心CNNIC(China Internet Network Information Center)2014年7月發(fā)布的全國互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告[1]指出,我國網(wǎng)民規(guī)模達(dá)6.32億,其中微博用戶2.75億,占整體網(wǎng)民的43.6%。雖然較2013年的微博用戶的數(shù)量略有下降,但是微博的平臺(tái)效應(yīng)更加明顯,內(nèi)容更加豐富,網(wǎng)民參與微博上的討論,發(fā)表意見和看法的活動(dòng)也越來越頻繁。因此,對(duì)微博中包含的情感進(jìn)行分析,獲得網(wǎng)民對(duì)熱點(diǎn)事件的情感傾向?qū)浨楸O(jiān)測(cè)、輔助決策等具有重要的意義。
目前,情感傾向性分析主要包括基于規(guī)則和基于統(tǒng)計(jì)兩類方法?;谝?guī)則的方法一般是通過情感詞典獲取詞的情感傾向性,然后通過句法規(guī)則對(duì)微博消息進(jìn)行處理,最后通過加權(quán)計(jì)算獲得微博消息的情感傾向性。2012年,馮時(shí)等人[2]提出了一種基于句法依存分析技術(shù)的博客文本情感傾向性分析算法SOAD(Sentiment Orientation Analysis Based on Syntactic Dependency)。通過分析句法依存樹得到含有情感詞的依存關(guān)系對(duì),然后依據(jù)設(shè)定的規(guī)則計(jì)算博客文本的情感傾向性。2013年,Guo等人[3]改進(jìn)了依存句法分析技術(shù),并將其用于微博的分析。該方法在句法樹中考慮了表情符號(hào)和標(biāo)點(diǎn)符號(hào)的影響,通過句法樹中詞語到核心情感詞的距離來計(jì)算詞語的情感傾向。基于規(guī)則的方法需要對(duì)文本進(jìn)行句法分析,但是微博消息一般比較簡短,存在著大量的集外詞,上下文存在交錯(cuò),往往不具有標(biāo)準(zhǔn)的句法結(jié)構(gòu),這使得基于規(guī)則的方法適用性受到了限制。
基于統(tǒng)計(jì)的方法分為有監(jiān)督的方法和無監(jiān)督的方法[4]。其中,有監(jiān)督的方法一般是通過有標(biāo)注的訓(xùn)練數(shù)據(jù)提取特征并訓(xùn)練分類器,再對(duì)測(cè)試數(shù)據(jù)進(jìn)行情感分析。2010年,Barbosa等人[5]利用已進(jìn)行情感分類的Twitter數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),使用得到的特征信息對(duì)Twitter進(jìn)行情感分類。2012年,謝麗星等人[6]使用了表情符號(hào)的規(guī)則方法、情感詞典的規(guī)則方法和基于SVM的層次結(jié)構(gòu)的多策略方法對(duì)微博的情感分析進(jìn)行了深入細(xì)致的研究,并指出與英文微博相比中文微博語義更加豐富,主題更加多樣。有監(jiān)督的方法一般可以得到較高的準(zhǔn)確度,但是其性能與訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量有很大的關(guān)系。由于很難獲得大規(guī)模高質(zhì)量的人工標(biāo)注數(shù)據(jù),有監(jiān)督方法的性能受到了限制;并且有監(jiān)督的方法存在領(lǐng)域可移植性較差的不足,在一個(gè)領(lǐng)域數(shù)據(jù)上訓(xùn)練得到的模型移植到新的領(lǐng)域時(shí)性能會(huì)明顯下降,需要在新的訓(xùn)練數(shù)據(jù)上重新進(jìn)行訓(xùn)練。無監(jiān)督的方法一般是通過對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,通過概率模型計(jì)算微博中的情感分布,然后進(jìn)行情感傾向性判斷。2009年,Lin等人[7]提出了一種基于LDA(Latent Dirichlet Allocation)模型改進(jìn)的模型,稱為JST模型。JST模型在LDA模型的文檔和主題之間加入了情感層,使其成為一個(gè)4層的概率模型,在采樣過程中對(duì)每個(gè)詞采樣主題標(biāo)簽和情感標(biāo)簽,通過統(tǒng)計(jì)主題標(biāo)簽和情感標(biāo)簽的對(duì)應(yīng)關(guān)系得到每個(gè)主題的情感分布。2011年,Jo等人[8]提出了ASUM模型。假設(shè)每個(gè)句子只有一個(gè)主題,在采樣過程中對(duì)每個(gè)句子采樣其主題標(biāo)簽和情感標(biāo)簽。2013年,Ding等人[9]提出了HDP-LDA(Hierarchical Dirichlet Process-Latent Dirichlet Allocation)模型。該模型利用了HDP模型可以自動(dòng)確定主題個(gè)數(shù)的優(yōu)勢(shì),挖掘短語級(jí)別的情感傾向,但是該方法需要通過詞性標(biāo)注識(shí)別短語對(duì),短語識(shí)別的準(zhǔn)確度會(huì)影響情感分析的結(jié)果,并且該模型中需要設(shè)定大量的參數(shù),降低了其領(lǐng)域可移植性?;谥黝}模型的情感傾向性分析取得了較傳統(tǒng)方法更準(zhǔn)確的結(jié)果,但是從大量的實(shí)驗(yàn)和實(shí)踐中發(fā)現(xiàn),LDA模型、PLSA(Probabilistic Latent Semantic Analysis)模型等主題模型并不適用于大規(guī)模數(shù)據(jù)的訓(xùn)練和處理。該類模型中都需要假設(shè)數(shù)據(jù)服從指數(shù)分布,但是真實(shí)環(huán)境下的數(shù)據(jù),尤其是互聯(lián)網(wǎng)上的數(shù)據(jù),服從的是長尾分布[10]。該類模型過于偏重從高頻數(shù)據(jù)中歸納語義,忽視了對(duì)低頻數(shù)據(jù)的處理,所以并不適用于描述長尾數(shù)據(jù)。
為了發(fā)揮無監(jiān)督方法可移植性好的優(yōu)勢(shì),同時(shí)結(jié)合微博數(shù)據(jù)量大,內(nèi)容多樣的特點(diǎn),本文提出了一種基于Skip-gram模型的微博情感傾向性分析方法。Skip-gram模型是Mikolov等人[11]提出的一種可以在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練的神經(jīng)網(wǎng)絡(luò)語言模型。本文使用Skip-gram模型在中文數(shù)據(jù)集上進(jìn)行訓(xùn)練,得到詞向量后,將其用于微博的情感傾向性分析。實(shí)驗(yàn)結(jié)果表明,本文提出的方法較傳統(tǒng)的無監(jiān)督的方法性能得到了有效提高。
1詞向量
詞向量的基本思想是將每個(gè)詞映射成一個(gè)k維實(shí)數(shù)向量,一般取1000維以下。Mikolov等人[11]指出相比于傳統(tǒng)的語言模型,基于神經(jīng)網(wǎng)絡(luò)語言模型[12]NNML(Neural Network Language Model)得到的詞向量對(duì)詞的表示更加準(zhǔn)確。Mikolov等人[13]提出的Skip-gram模型是對(duì)現(xiàn)有模型的改進(jìn),它可以快速地完成對(duì)數(shù)十億詞的大規(guī)模數(shù)據(jù)的訓(xùn)練,得到的詞向量在詞語表示上更加準(zhǔn)確。Skip-gram模型可以通過Hierarchical Softmax[14]和Negative Sampling[13]兩種框架構(gòu)造實(shí)現(xiàn)。本文使用的是基于Hierarchical Softmax構(gòu)造的Skip-gram模型。
目前對(duì)詞向量的研究主要是針對(duì)詞聚類、同義詞判斷和詞性分析等任務(wù),主要是利用詞向量對(duì)詞語進(jìn)行表示,通過向量計(jì)算詞與詞之間的相似程度。本文使用Mikolov等人[11]提出的Skip-gram(http://code.google.com/p/word2vec)模型在中文數(shù)據(jù)上進(jìn)行訓(xùn)練,對(duì)得到的詞向量進(jìn)行實(shí)驗(yàn)發(fā)現(xiàn),詞向量在中文詞語的表示上也表現(xiàn)出較好的性能。例如使用詞向量計(jì)算“北京”、“和諧”、“奸商”和“貪污”這4個(gè)詞語兩兩之間的相似度時(shí),“北京”與“和諧”、“奸商”與“貪污”的相似度明顯高于其他組合。
根據(jù)Mikolov等人[13]的研究,使用Skip-gram模型訓(xùn)練得到的詞向量除了用來計(jì)算詞與詞之間的相似度之外,一定程度上還滿足加法組合運(yùn)算。Mikolov等人在文獻(xiàn)[11,13]中都舉了例子對(duì)這點(diǎn)進(jìn)行說明:
vector(″Paris″)-vector(″France″)+vector(″Italy″)
≈vector(″Rome″)
(1)
vector(″King″)-vector(″Man″)+vector(″Woman″)
≈vector(″Queen″)
(2)
vector(″Russia″)+vector(″river″)≈vector(″Volga River″)
(3)
如式(1)、式(2)所示,“King”和“Man”的關(guān)系類似于“Queen”和“Woman”的關(guān)系,當(dāng)使用“King”和“Woman”的詞向量減去“Man”的詞向量得到的結(jié)果非常接近于“Queen”的詞向量?!癙aris”、“France”、“Italy”和“Rome”也滿足類似的關(guān)系。式(3)中“Russia”和“river”的詞向量的和與“Volga River”很相近,這說明對(duì)詞向量進(jìn)行加法運(yùn)算,得到的向量仍然是有意義的,而且其表示的語義與之前的詞都是相關(guān)的。在中文數(shù)據(jù)上進(jìn)行測(cè)試,也存在類似的關(guān)系:
vector(″中國″)-vector(″北京″)+vector(″華盛頓″)
≈vector(″美國″)
(4)
vector(″中國″)+vector(″男籃″)≈vector(″姚明″)
(5)
2微博情感傾向性分析
使用Skip-gram模型訓(xùn)練得到的詞向量不僅在詞語的表示上較傳統(tǒng)的方法更加準(zhǔn)確,而且能通過加法組合運(yùn)算挖掘詞與詞之間的語義關(guān)系。本文根據(jù)這些特點(diǎn)提出了一種新的微博情感傾向性分析方法。
在微博的情感分析中,由于微博長度較短,包含的詞語較少,使用向量空間模型進(jìn)行表示時(shí)會(huì)出現(xiàn)嚴(yán)重的特征稀疏。而且在微博中常常會(huì)有網(wǎng)絡(luò)語言和流行新詞出現(xiàn),基于知識(shí)庫的方法受到更新速度的限制,一般無法及時(shí)收錄這些詞語或是更新已有詞的新含義。因此本文方法中將微博表示成其包含詞的詞向量的集合,使用大量公開數(shù)據(jù)進(jìn)行訓(xùn)練得到詞向量用于挖掘詞語之間的語義關(guān)系。
wbm={v(w1),v(w2),v(w3),…,v(wNm)}
(6)
其中wbm表示序號(hào)為m的微博消息,v(wi)表示wbm中第i個(gè)詞的詞向量,Nm表示wbm中詞的個(gè)數(shù)。
Skip-gram模型訓(xùn)練得到的詞向量一定程度上滿足加法組合運(yùn)算,將多個(gè)詞的詞向量進(jìn)行相加得到的新向量仍然表示與這些詞相關(guān)的語義。因此本文提出關(guān)于微博向量的假設(shè)如下:
假設(shè)一條微博消息所包含詞的詞向量進(jìn)行相加得到的向量和仍然與這條微博的語義相關(guān),并且可以反映其情感傾向。微博向量的計(jì)算式如下所示:
(7)
其中v(wbm)表示wbm中所有詞的詞向量相加并進(jìn)行歸一化之后得到的向量,本文將其稱為微博向量。通過實(shí)驗(yàn)證明,這樣的假設(shè)是符合真實(shí)情況的,例如式(8)、式(9)所示:
vector(″英雄″)+vector(″出″)+vector(″少年″)
≈vector(″英勇″)
(8)
vector(″中國″)+vector(″需要″)+vector(″這樣″)+
vector(″人才″)≈vector(″真才實(shí)學(xué)″)
(9)
這兩條微博都來自NLP&CC2012微博情感分析測(cè)試數(shù)據(jù)中“90后當(dāng)教授”事件相關(guān)的微博中。從內(nèi)容來看,兩句都反映的是正面的情感,計(jì)算向量和之后得到的向量也與反映正面情感的詞相近,這說明可以使用微博向量對(duì)微博消息進(jìn)行表示。
本文還通過對(duì)情感詞典中的正負(fù)情感詞進(jìn)行詞向量相加定義了正面情感向量和負(fù)面情感向量的計(jì)算式如下:
(10)
(11)
其中,S+表示正面情感,S-表示負(fù)面情感,v(POS)和v(NEG)分別表示正面和負(fù)面情感向量。當(dāng)對(duì)一條微博消息進(jìn)行情感傾向性分析時(shí),通過式(12)的判別函數(shù)進(jìn)行判斷。
(12)
(13)
(14)
其中,S0表示中性,sim(v(wbm),v(POS))表示微博向量與正面情感向量的余弦相似度,sim(v(wbm),v(NEG))表示微博向量與負(fù)面情感向量的余弦相似度,t是判斷微博情感傾向的閾值。當(dāng)sim(v(wbm),v(POS))>t時(shí),說明wbm的情感與正面情感更相近,判斷wbm屬于正面微博;當(dāng)sim(v(wbm),v(NEG))>t時(shí),說明wbm的情感與負(fù)面情感更相近,判斷wbm屬于負(fù)面微博;當(dāng)微博與正負(fù)情感向量的相似度都較小時(shí),說明微博的正負(fù)傾向性都不明顯,判斷wbm是中性微博。
當(dāng)只需要進(jìn)行正負(fù)情感傾向性判斷時(shí),判別函數(shù)可以簡化如下:
(15)
3實(shí)驗(yàn)與結(jié)果分析
3.1實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)來源于“搜狗實(shí)驗(yàn)室”的“全網(wǎng)新聞數(shù)據(jù)”(http://www.sogou.com/labs/dl/ca.html),包含3.79億個(gè)詞。使用的情感詞典是通過合并HowNet情感詞典[15]、NTUSD詞典[16]、學(xué)生褒貶詞典[17]得到的。測(cè)試數(shù)據(jù)集來源于微博情感傾向性分析研究領(lǐng)域的通用數(shù)據(jù)NLP&&CC2012[18],包括20個(gè)話題,每個(gè)話題標(biāo)注大約100條微博,共記2023條微博。其中包含正面情感傾向微博307條,負(fù)面情感傾向微博1406條,以及310條中立傾向的微博。由于現(xiàn)有研究很多都沒有考慮中立傾向的微博,為了便于對(duì)比,本文實(shí)驗(yàn)只分析微博的正負(fù)面情感傾向性。
3.2評(píng)價(jià)方法
為了評(píng)價(jià)情感傾向性分析方法的性能,本文實(shí)驗(yàn)選取與NLP&&CC2012相同的評(píng)價(jià)方法,即準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值:
(16)
(17)
(18)
其中,S表示情感傾向,S={S+,S-},PS、RS和FS分別表示在對(duì)情感傾向?yàn)镾的類別進(jìn)行評(píng)價(jià)的準(zhǔn)確率、召回率和F1值。整體的情感傾向性的性能可以通過F1S值加權(quán)求和得到,公式如下:
(19)
其中,F(xiàn)avg表示正負(fù)面微博F1值的加權(quán)平均值,NS表示情感傾向?yàn)镾的微博消息的數(shù)量。
3.3實(shí)驗(yàn)設(shè)置與結(jié)果分析
為了驗(yàn)證該方法的有效性,本文選取文獻(xiàn)[7]提出的JST和文獻(xiàn)[8]提出的ASUM進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果分別記為JST和ASUM;本文方法結(jié)果記為MBV(Micro-Blog Vector)。JST和ASUM按照文獻(xiàn)[9]中的方法設(shè)置最優(yōu)參數(shù);MBV中Skip-gram模型的參數(shù)按照文獻(xiàn)[11]中設(shè)置。設(shè)置以下2組實(shí)驗(yàn):
(1) 綜合性能對(duì)比實(shí)驗(yàn)
分別利用上述3種方法進(jìn)行實(shí)驗(yàn),評(píng)估其綜合性能。其中,對(duì)JST、ASUM和MBV的結(jié)果取10次求平均作為其最終結(jié)果。其中,Ppos表示正面微博的準(zhǔn)確率,Rpos表示正面微博的召回率,F(xiàn)pos表示正面微博的F1值,Pneg表示負(fù)面微博的準(zhǔn)確率,Rneg表示負(fù)面微博的召回率,F(xiàn)neg表示負(fù)面微博的F1值,F(xiàn)avg表示正負(fù)面微博F1值的加權(quán)平均值。綜合性能對(duì)比情況如表1所示。
表1 不同方法的綜合性能對(duì)比實(shí)驗(yàn)
由表1可以看出,三種方法結(jié)果中MBV的Favg值為0.840,明顯高于JST的0.607和ASUM的0.574,而且MBV在正面微博和負(fù)面微博的情感傾向性分析中也都顯示了明顯的優(yōu)勢(shì)。三種方法的Fpos都較低,這是因?yàn)閷?shí)驗(yàn)數(shù)據(jù)不平衡,負(fù)面傾向的微博有1406條,遠(yuǎn)多于正面傾向的微博,將負(fù)面微博誤判為正面微博的數(shù)量更多,造成正面微博的準(zhǔn)確率相對(duì)較低。除此之外,因?yàn)镴ST和ASUM都是基于主題模型的方法,當(dāng)實(shí)驗(yàn)數(shù)據(jù)中正負(fù)面情感的微博數(shù)量不平衡時(shí),通過主題模型得到的主題中包含負(fù)面情感詞的概率較大,將微博判斷為負(fù)面的概率也隨之增大,這進(jìn)一步導(dǎo)致JST和ASUM的Rpos較低。與此同時(shí),這種情感判斷的傾向性會(huì)使得JST和ASUM的Pneg較高,但是Rneg較低,F(xiàn)neg也相對(duì)較低。ASUM的Fpos高于JST,這是因?yàn)锳SUM假設(shè)數(shù)據(jù)中正負(fù)面微博比例相當(dāng),導(dǎo)致相當(dāng)一部分負(fù)面微博誤識(shí)別為正面微博,使得Rpos較高,從而導(dǎo)致Fpos偏高,但是ASUM的這種假設(shè)會(huì)導(dǎo)致Fneg相應(yīng)偏小,整體性能低于JST。MBV中以詞語的詞向量表示為基礎(chǔ),訓(xùn)練過程中不需要對(duì)訓(xùn)練數(shù)據(jù)中正負(fù)面內(nèi)容的比例進(jìn)行規(guī)定。除此之外,通過情感詞的詞向量計(jì)算情感向量作為對(duì)正負(fù)面情感的表示也可以避免情感詞典不平衡和不完整對(duì)情感分析的影響??偟膩碚f,MBV使用微博向量對(duì)微博包含的語義信息進(jìn)行表示。通過計(jì)算微博向量與正負(fù)面情感的語義相似度進(jìn)行情感傾向性判斷,更符合對(duì)人類認(rèn)知內(nèi)容的過程,實(shí)驗(yàn)結(jié)果也表明該方法明顯優(yōu)于JST和ASUM。
本文提出的方法是在大規(guī)模無標(biāo)注的訓(xùn)練數(shù)據(jù)上進(jìn)行訓(xùn)練,具有良好的領(lǐng)域可移植性。為了驗(yàn)證本文提出的方法在單個(gè)微博事件的情感傾向性分析中的性能,本文對(duì)實(shí)驗(yàn)中使用的20個(gè)事件的情感傾向性分析結(jié)果進(jìn)行了單獨(dú)計(jì)算,得到的結(jié)果如表2所示。
表2 單個(gè)微博事件情感傾向性分析
從表2中可以看出,“皮鞋果凍”、“瘋狂的大蔥”、“名古屋市長否認(rèn)南京大屠殺”等事件對(duì)應(yīng)的Favg高于其他事件,這是因?yàn)榕c這些事件相關(guān)的微博中大部分都是表示譴責(zé)和批評(píng),使用了較多具有強(qiáng)烈的負(fù)面情感傾向的詞,使微博向量明顯的傾向于負(fù)面情感向量。而在“蘋果封殺360”、“國旗下討伐教育制度”等事件中,有較多的微博包含了支持一方反對(duì)另一方的內(nèi)容,如“他的勇氣實(shí)在令人佩服,這個(gè)社會(huì)就是黑暗的”等。由于本文的方法將微博內(nèi)容看成詞袋,無法區(qū)分評(píng)論的對(duì)象,當(dāng)包含多個(gè)對(duì)象多種情感時(shí)該方法的準(zhǔn)確性降低??傮w來說,本文提出的方法在大多數(shù)屬于不同領(lǐng)域的單個(gè)事件的情感傾向性分析中都取得了較好的結(jié)果,說明本文的方法具有良好的領(lǐng)域可移植性。
(2) 平衡數(shù)據(jù)上的對(duì)比實(shí)驗(yàn)
實(shí)驗(yàn)(1)中,由于實(shí)驗(yàn)數(shù)據(jù)中正負(fù)情感傾向的微博數(shù)量差別較大,數(shù)據(jù)存在不平衡。為了增強(qiáng)實(shí)驗(yàn)對(duì)比的可靠性,本文從實(shí)驗(yàn)數(shù)據(jù)中分別選取正負(fù)面微博各307條構(gòu)建了一份平衡數(shù)據(jù)用于進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如圖1所示。
圖1 平衡數(shù)據(jù)對(duì)比實(shí)驗(yàn)結(jié)果
由圖1可以看到,在平衡數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),MBV的Fpos和Fneg均明顯高于JST和ASUM。三種方法的Fpos都高于實(shí)驗(yàn)(1)的結(jié)果,這是因?yàn)樨?fù)面微博被錯(cuò)判為正面微博的數(shù)量減少,使Ppos得以提高,進(jìn)而提高了Fpos。JST和ASUM的Fneg都低于實(shí)驗(yàn)(1)中的結(jié)果,這符合之前的結(jié)果分析。除此之外,ASUM在平衡語料上的結(jié)果優(yōu)于JST,這是因?yàn)槠胶庹Z料符合ASUM正負(fù)面微博比例相當(dāng)?shù)募僭O(shè),ASUM表現(xiàn)更好。MBV對(duì)每條微博計(jì)算一個(gè)微博向量作為其表示,與正負(fù)面情感向量計(jì)算語義相似度進(jìn)行情感傾向性判斷。不同微博計(jì)算微博向量表示和進(jìn)行情感傾向性判斷的過程是相互獨(dú)立的,因此不會(huì)受到待測(cè)數(shù)據(jù)中正負(fù)面內(nèi)容的比例不同的影響。綜合實(shí)驗(yàn)(1)和實(shí)驗(yàn)(2)的結(jié)果,本文的方法具有良好的領(lǐng)域可移植性,在非平衡數(shù)據(jù)還是平衡數(shù)據(jù)上,性能均優(yōu)于傳統(tǒng)方法,這充分證明了本文方法的有效性和優(yōu)越性。
4結(jié)語
本文利用Skip-gram模型在中文數(shù)據(jù)上進(jìn)行訓(xùn)練,利用詞向量在詞語表示上的優(yōu)勢(shì),以及在一定程度上滿足加法組合運(yùn)算的特性,提出了一種使用微博向量對(duì)微博進(jìn)行表示,并將其用于微博情感傾向性分析的方法。通過在非平衡數(shù)據(jù)和平衡數(shù)據(jù)上分別進(jìn)行實(shí)驗(yàn),證明了本文提出的方法較傳統(tǒng)的JST模型和ASUM模型性能上有了很大的提高,并且具有良好的領(lǐng)域可移植性。本文的方法中是使用微博向量對(duì)一條微博進(jìn)行表示,該方法同樣可以適用于其他句子級(jí)的情感傾向性分析任務(wù)中。除此之外,Skip-gram模型對(duì)詞語表示的準(zhǔn)確度可以通過擴(kuò)大訓(xùn)練數(shù)據(jù)的規(guī)模和領(lǐng)域范圍進(jìn)行提高,所以本文方法的性能還有進(jìn)一步提高的空間。
本文的方法中還存在一些不足,主要包括以下兩個(gè)方面的問題:首先是沒有對(duì)微博中用詞不規(guī)范的情況進(jìn)行處理,在微博中經(jīng)常會(huì)出現(xiàn)錯(cuò)別字、散光字、火星文等,如“老白姓”、“弓雖”等,當(dāng)微博內(nèi)容較短時(shí)會(huì)影響結(jié)果;其次是本文雖然取得了較好的結(jié)果,但是構(gòu)造微博向量的方法較為簡單,沒有考慮詞語的前后順序及否定詞的影響。在下一步工作中,如何解決這兩個(gè)問題,將是研究的重要方向。
參考文獻(xiàn)
[1] 中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告(2014年7月)[R].北京:中國互聯(lián)網(wǎng)信息中心,2014.
[2] 馮時(shí),付永陳,陽鋒,等.基于依存句法的博文情感傾向性分析研究[J].計(jì)算機(jī)研究與發(fā)展,2012,49(11):2395-2406.
[3] Fuliang Guo,Gang Zhou.Research on micro-blog sentiment orientation analysis based on improved dependency parsing[C]//Proceedings of the 2013 3rd International Conference on Consumer Electronics,Communications and Networks,Xianning,China,2013:546-550.
[4] Bing Liu,Lei Zhang.A survey of opinion mining and sentiment analysis[M].New York:Springer US,2012:415-463.
[5] Barbosa L,Junlan Feng.Robust sentiment detection on twitter from biased and noisy data[C]//Proceedings of the 23rd International Conference on Computational Linguistics,Uppsala,Sweden,2010:36-44.
[6] 謝麗星,周明,孫茂松.基于層次結(jié)構(gòu)的多策略中文微博情感分析和特征抽取[J].中文信息學(xué)報(bào),2012,26(1):73-83.
[7] Chenghua Lin,Yulan He.Joint sentiment topic model for sentiment analysis[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management Hong Kong,China,2009:375-384.
[8] Jo Yohan,Oh Alice.Aspect and Sentiment Unification Model for Online Review Analysis[C]//Proc. of the fourth ACM international conference on Web search and data mining,2011:815-824.
[9] Wanying Ding,Xiaoli Song,Lifan Guo.A novel hybrid HDP-LDA model for sentiment analysis[C]//Proceedings of the 2013 IEEE/WIC/ACM International Joint Conferences on Web Intelligence (WI) and Intelligent Agent Technology,Atlanta,USA,2013,1(1):329-336.
[10] Kevin P Murphy.Machine Learning-A Probabilistic Perspective[M].Cambridge,Massachusetts London,England: The MIT Press,2012:2-3.
[11] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[C]//International Conference on Learning Representations,2013.
[12] Yoshua B,Rejean D,Pascal V,et al.A neural probabilistic language model[J].The Journal of Machine Learning Research,2003,3(6):1137-1155.
[13] Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and their Compositionality[C]//Neural Information Procesing Systems Foundation,2013.
[14] Frederic M,Yoshua B.Hierarchical probabilistic neural network language model[C]//Proceedings of the international workshop on artificial intelligence and statistics,2005.
[15] 董振東,董強(qiáng).HowNet情感詞典[EB/OL].[2013-07-28].http://www.keenage.com.
[16] Ku Lunwei,Lo Yongsheng,Chen Hsinhsi.Using Polarity Scores of Words for Sentence-level Opinion Extraction[C]//Proc.of NTCIR-6 workshop meeting,2007:316-322.
[17] 張偉,劉縉,郭先珍.學(xué)生褒貶義詞典[M].北京:中國大百科全書出版社,2004.
[18] 中國計(jì)算機(jī)學(xué)會(huì).微博情感分析評(píng)測(cè)數(shù)據(jù)[EB/OL].[2012-09-12].http://tcci.ccf.org.cn/conference/2012/.
收稿日期:2014-12-13。李天彩,碩士生,主研領(lǐng)域:情感分析,會(huì)話抽取。王波,副教授。毛二松,碩士生。席耀一,博士生。
中圖分類號(hào)TP391.4
文獻(xiàn)標(biāo)識(shí)碼A
DOI:10.3969/j.issn.1000-386x.2016.07.027
ANALYSING MICROBLOGGING SENTIMENT ORIENTATION BASED ON SKIP-GRAM MODEL
Li TiancaiWang BoMao ErsongXi Yaoyi
(ThePLAInformationEngineeringUniversity,Zhengzhou450002,Henan,China)
AbstractIn order to represent microblogs better and to improve the accuracy of microblogging sentiment orientation identification, we presented a Skip-gram model-based microblogging sentiment orientation analysis method. First, we used Skip-gram model in training on Chinese dataset to get word vector; then, we took use of the advantage of word vector on word representation and its feature of satisfying in certain extent the addition combinational operation to obtain the vector representation of microblogs and the positive and negative sentiment vectors by vectors addition; finally, we determined the microblogging sentiment orientation by computing the similarity between microblogging vectors and positive and negative sentiment vectors. Experiment was carried out on NLP&CC2012 data, the results showed that our method could effectively identify the sentiment orientation of microblogs, and improved the average F1-measure by 23% and 26% respectively compared with traditional JST and ASUM.
KeywordsMicrobloggingSentiment analysisSkip-gram modelWord vectorMicroblogging vector