蔣盛益,黃衛(wèi)堅(jiān),蔡茂麗,王連喜
(1.廣東外語(yǔ)外貿(mào)大學(xué)語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室,廣東廣州510006;2.廣東外語(yǔ)外貿(mào)大學(xué)信息學(xué)院,廣東廣州510006;3.廣東外語(yǔ)外貿(mào)大學(xué)圖書(shū)館,廣東廣州510420)
互聯(lián)網(wǎng)成為當(dāng)下中國(guó)社會(huì)非理性情緒的集散地,是社會(huì)情緒分析的重要數(shù)據(jù)來(lái)源。作為新型的網(wǎng)絡(luò)交流平臺(tái),微博不僅成為人們表達(dá)情感的重要載體,更是民眾討論社會(huì)熱點(diǎn)事件的重要場(chǎng)所,匯集了大眾對(duì)社會(huì)話題的情緒表達(dá)。研究面向微博的社會(huì)情緒分析方法具有重要的現(xiàn)實(shí)意義,一方面有利于政府或相關(guān)部門(mén)進(jìn)行輿情監(jiān)控和傳播引導(dǎo);另一方面對(duì)社會(huì)事件的情緒分析有助于危機(jī)公關(guān)處理、名人形象維護(hù)等。
文本情緒分析的本質(zhì)是對(duì)有情緒傾向的主觀文本進(jìn)行分析和處理的過(guò)程?,F(xiàn)有文本情緒分析方法,主要以基于詞典的匹配方法和基于機(jī)器學(xué)習(xí)的分類(lèi)方法為主[1]?;跈C(jī)器學(xué)習(xí)的分類(lèi)方法主要有樸素貝葉斯、支持向量機(jī)和最大信息熵等。由于基于機(jī)器學(xué)習(xí)的分類(lèi)方法易受訓(xùn)練語(yǔ)料影響,且部分算法涉及了復(fù)雜的參數(shù)設(shè)置,所以不便于建模。目前最常見(jiàn)的方法是構(gòu)建高質(zhì)量的情緒詞典,并將其應(yīng)用于文本情緒識(shí)別。由此可見(jiàn),構(gòu)建合理、覆蓋范圍寬泛的情緒詞典是基于詞典匹配方法的關(guān)鍵。
情緒詞典是文本情緒分析的重要輔助資源。情緒詞典的構(gòu)建往往需要結(jié)合人工標(biāo)注、語(yǔ)義詞典擴(kuò)展或基于語(yǔ)料庫(kù)抽取標(biāo)注等方法。英語(yǔ)中最重要的情緒詞典資源是WordNet-Affect,該詞典通過(guò)選擇和標(biāo)注代表情緒概念的WordNet中的同義詞集而獲得的Ekman六種基本情緒相關(guān)的詞語(yǔ),然后利用WordNet中定義的關(guān)系、情緒標(biāo)簽和領(lǐng)域標(biāo)簽進(jìn)行擴(kuò)展,找到情緒同義詞所在的Synset擴(kuò)展得到情緒詞典[2]。Zaher Salah等人通過(guò)兩種方法創(chuàng)建領(lǐng)域情緒詞典:1)從已標(biāo)注的語(yǔ)料中計(jì)算詞匯極性及程度,生成詞典;2)從已有詞典出發(fā),融合領(lǐng)域語(yǔ)料中的詞匯語(yǔ)義信息、上下文信息、關(guān)系信息,學(xué)習(xí)一個(gè)基于分類(lèi)器的擴(kuò)展領(lǐng)域詞典[3]。Suke等人[4]認(rèn)為具有相近或相同情感的觀點(diǎn)詞有更高的概率同時(shí)出現(xiàn),采用協(xié)同訓(xùn)練框架進(jìn)行半監(jiān)督的情緒分類(lèi)訓(xùn)練以擴(kuò)展情緒詞。
在中文情感詞典資源方面,HowNet是國(guó)內(nèi)較為全面的知識(shí)庫(kù)。借助于HowNet,不少學(xué)者嘗試構(gòu)建特定領(lǐng)域的情緒詞典。柳位平等在HowNet情緒詞集合的基礎(chǔ)上,利用HowNet的義原計(jì)算詞與詞間的相似度,并根據(jù)詞和正向、負(fù)向種子詞的平均相似度的差來(lái)判定詞的情緒傾向性,從而得到特定的情緒詞典[5]。常曉龍等將詞語(yǔ)間的語(yǔ)素關(guān)系融入到圖模型中、并結(jié)合詞語(yǔ)同義關(guān)系,提出一種構(gòu)建詞典的半監(jiān)督學(xué)習(xí)方法,形成了融合語(yǔ)素特征的中文褒貶詞典[6]。徐琳宏、林鴻飛等構(gòu)建了中文情緒詞匯本體庫(kù),將情緒分為七個(gè)基本大類(lèi)和21個(gè)小類(lèi),并利用相關(guān)情緒詞典和語(yǔ)義知識(shí)庫(kù)獲得候選情緒詞,再人工對(duì)部分種子詞語(yǔ)的情緒類(lèi)別和強(qiáng)度進(jìn)行標(biāo)注[7]。
本文的目的在于構(gòu)建一個(gè)規(guī)模大,覆蓋范圍廣的社會(huì)情緒詞典。首先,根據(jù)現(xiàn)有的社會(huì)情緒相關(guān)文獻(xiàn)和分析目標(biāo)確定社會(huì)情緒類(lèi)別,并整合已有情緒詞典,補(bǔ)充典型的微博情感詞,建立規(guī)模較小的基準(zhǔn)情緒詞典。然后采用深度學(xué)習(xí)工具Word2vec對(duì)微博平臺(tái)上的社會(huì)熱點(diǎn)事件微博及評(píng)論等語(yǔ)料進(jìn)行分析,以增量式的方式擴(kuò)展基準(zhǔn)詞典;接下來(lái),再輔以HowNet詞典和人工篩選,生成最終的情緒詞典。最后,利用所構(gòu)建的社會(huì)情緒詞典分析微博文本標(biāo)注語(yǔ)料的情緒傾向,并對(duì)比基于情緒詞典和基于SVM分類(lèi)的情緒分析結(jié)果以驗(yàn)證所構(gòu)建的詞典的有效性;與此同時(shí),利用所構(gòu)建的情緒詞典分析微博平臺(tái)的社會(huì)熱點(diǎn)事件呈現(xiàn)的社會(huì)情緒傾向,從側(cè)面驗(yàn)證本文構(gòu)建的情緒詞典的有效性。
情緒詞典的構(gòu)建流程如圖1所示。
圖1 社會(huì)情緒詞典構(gòu)建流程圖
社會(huì)情緒不同于個(gè)人情緒,個(gè)人情緒是指?jìng)€(gè)體對(duì)一系列主觀認(rèn)知經(jīng)驗(yàn)的通稱(chēng),是多種感覺(jué)、思想和行為綜合產(chǎn)生的心理和生理狀態(tài),其最基本的情緒有喜、憤、哀、懼、恐、愛(ài)等。當(dāng)然也存在不同的看法,美國(guó)著名的心理學(xué)家伊扎德提出了12種基本情緒:興趣、驚奇、痛苦、厭惡、愉快、憤怒、恐懼、悲傷、害羞、輕蔑和自罪感;社會(huì)情緒則側(cè)重于群體成員情緒之間的相互作用和影響,是建立在個(gè)體對(duì)社會(huì)的人和事的認(rèn)知、心理變化基礎(chǔ)上的社會(huì)反映。目前,國(guó)內(nèi)關(guān)于社會(huì)情緒的研究起步較晚,社會(huì)情緒分類(lèi)體系方面的研究相對(duì)缺乏??紤]到本文分析的目標(biāo)是微博平臺(tái)上社會(huì)大眾對(duì)特定新聞事件的情緒傾向,因此本文重點(diǎn)關(guān)注包括喜歡、愉快、憤怒、悲傷等社會(huì)大眾普遍存在并且廣泛關(guān)注的情緒類(lèi)別。結(jié)合目前社會(huì)情緒的研究成果,同時(shí)對(duì)已有文獻(xiàn)[8-9]和相關(guān)情緒詞典進(jìn)行梳理和歸納,最終將社會(huì)情緒類(lèi)別確定為八類(lèi),分別是:愉快、喜歡、同情、悲傷、焦慮、厭惡、憤怒、怨恨,并以此作為詞典擴(kuò)展以及情緒分析的依據(jù)。確定情緒詞典的類(lèi)別之后,依次建立每個(gè)類(lèi)別下所對(duì)應(yīng)的基本情緒詞,并以此構(gòu)成基準(zhǔn)情緒詞典。基本情緒詞是通過(guò)心理學(xué)、語(yǔ)言學(xué)和社會(huì)學(xué)專(zhuān)家從大連理工大學(xué)林鴻飛教授等建立的情緒詞典以及微博語(yǔ)料中為每個(gè)類(lèi)別挑選約40個(gè)詞語(yǔ)構(gòu)成。
本文實(shí)驗(yàn)的微博語(yǔ)料來(lái)自新浪微博平臺(tái)上社會(huì)熱點(diǎn)事件的微博文本及其轉(zhuǎn)發(fā)和評(píng)論的文本。通過(guò)模擬登錄的方式,對(duì)新浪微博平臺(tái)上的特定事件進(jìn)行爬取。首先獲取新浪微博媒體中粉絲數(shù)大于100 000的權(quán)威媒體的微博賬號(hào),然后針對(duì)某一特定社會(huì)公共事件,爬取這些微博賬號(hào)發(fā)表過(guò)的帶有該公共事件關(guān)鍵字的微博及其所有轉(zhuǎn)發(fā)與評(píng)論文本,最終由這些微博以及其轉(zhuǎn)發(fā)評(píng)論文本共同構(gòu)成該公共事件的語(yǔ)料集合。目前共獲取了200多個(gè)社會(huì)公共事件的微博語(yǔ)料,包括廈門(mén)縱火案、昆明火車(chē)站暴恐案、上海外灘踩踏事故等備受關(guān)注的事件。在獲取微博語(yǔ)料后,需要對(duì)語(yǔ)料進(jìn)行預(yù)處理,包括去除重復(fù)微博文本、去除停用詞和分詞等,為后續(xù)的分析提供有效的語(yǔ)料。
word2vec是谷歌一款基于Deep Learning的開(kāi)源學(xué)習(xí)工具,它通過(guò)有效的連續(xù)詞袋模型和skipgram語(yǔ)言模型實(shí)現(xiàn)了詞語(yǔ)的向量化,最大化地利用了詞的上下文信息以豐富詞語(yǔ)的語(yǔ)義信息,以文本向量空間的相似度來(lái)表示文本語(yǔ)義相似度。本文利用word2vec在大規(guī)模語(yǔ)料中計(jì)算詞語(yǔ)相似度,并將其應(yīng)用到情緒詞典的構(gòu)建過(guò)程中,然后通過(guò)迭代實(shí)現(xiàn)增量式的詞典擴(kuò)展。
word2vec提供了distance函數(shù),用以發(fā)現(xiàn)所查詢(xún)?cè)~語(yǔ)的相似詞語(yǔ)列表。根據(jù)初始構(gòu)建的基準(zhǔn)情緒詞典,依次輸入基準(zhǔn)詞典各個(gè)類(lèi)別下的詞語(yǔ),利用word2vec得到的詞向量進(jìn)行相似度計(jì)算,分析得出最為相關(guān)的詞語(yǔ)。實(shí)驗(yàn)設(shè)置如下:
1)迭代的次數(shù)為8,即將上一次迭代的輸出詞語(yǔ)作為下一次迭代的輸入詞語(yǔ),從而使輸入詞語(yǔ)的規(guī)模更大;
2)考慮到前后迭代詞語(yǔ)的重要性不同,給迭代前和迭代后的詞語(yǔ)賦予不同的權(quán)重。第一輪迭代后擴(kuò)展出來(lái)的詞語(yǔ)按照與情緒類(lèi)別相似度從高到低排列,取相似度最大的前10個(gè)詞語(yǔ)作為候選詞擴(kuò)充到詞典,原基準(zhǔn)詞語(yǔ)與新擴(kuò)充的候選詞作為下一輪的基準(zhǔn)詞語(yǔ);往后的迭代則取相似度最大的前兩個(gè)詞語(yǔ)擴(kuò)充到詞典。
3)迭代過(guò)程中,首先要去除停用詞,但是由于停用詞表具有一定的局限性,所以另外制定一些規(guī)則,過(guò)濾無(wú)意義的詞語(yǔ),包括:
a)純數(shù)字的詞語(yǔ);
b)非表情符的純標(biāo)點(diǎn)符號(hào)組成的字符串;
c)在前面迭代過(guò)程中已經(jīng)篩選掉的詞語(yǔ);
d)根據(jù)詞性去除一部分詞語(yǔ),保留名詞、動(dòng)詞、形容詞、副詞等。
由于微博語(yǔ)料是動(dòng)態(tài)獲取和擴(kuò)展的,因此構(gòu)建詞典時(shí)采用增量式的擴(kuò)充方式。具體的做法是將上一輪語(yǔ)料擴(kuò)展輸出的詞典用作下一輪擴(kuò)展的候選情緒詞典,同時(shí)加入新的微博語(yǔ)料以擴(kuò)展語(yǔ)料規(guī)模,進(jìn)一步有效地?cái)U(kuò)大詞典規(guī)模。
在語(yǔ)料規(guī)模不大的情況下,通過(guò)word2vec擴(kuò)展得到的詞語(yǔ)可能存在著準(zhǔn)確度不高的問(wèn)題,因此我們對(duì)擴(kuò)展后的詞典進(jìn)行基于HowNet詞典的自動(dòng)篩選和獨(dú)立的人工篩選。
借助HowNet詞典計(jì)算擴(kuò)展出來(lái)的詞語(yǔ)與基準(zhǔn)詞語(yǔ)的相似度,通過(guò)排序方式篩選相似度高的詞語(yǔ)。因?yàn)镠owNet里面的詞語(yǔ)更新具有一定的滯后性,HowNet中并不一定包括擴(kuò)充出來(lái)的詞語(yǔ),因此不能通過(guò)HowNet來(lái)計(jì)算該詞語(yǔ)與種子詞語(yǔ)的相似度來(lái)篩選候選詞,所以我們采用的方法是:如果HowNet詞典沒(méi)有包含某詞語(yǔ),則默認(rèn)其為新詞保留;如果HowNet詞典中包含該詞但相似度小于指定閾值,則剔除該詞。經(jīng)過(guò)篩選后,進(jìn)一步通過(guò)人工判斷其類(lèi)別。經(jīng)過(guò)外部詞典輔助篩選和人工篩選,最終得到包含6 887個(gè)詞語(yǔ)的基于微博語(yǔ)料的社會(huì)情緒詞典。本詞典的各個(gè)情緒類(lèi)別的情緒詞數(shù)量分布如表1所示。
表1 擴(kuò)展后的詞典
微博文本體現(xiàn)出來(lái)的情緒傾向可認(rèn)為是微博用戶對(duì)于某一社會(huì)事件發(fā)表的主觀看法,主要由兩個(gè)方面來(lái)體現(xiàn):情緒類(lèi)別及其強(qiáng)弱程度。情緒類(lèi)別即所構(gòu)建的情緒詞典定義的八個(gè)類(lèi)別中的一個(gè)或多個(gè);情緒類(lèi)別的程度由情緒詞的權(quán)值來(lái)體現(xiàn)。為驗(yàn)證本文所構(gòu)建社會(huì)情緒詞典的有效性,利用本詞典對(duì)微博平臺(tái)上的社會(huì)熱點(diǎn)事件進(jìn)行情緒分析。由于文本的情感強(qiáng)度更取決于句法結(jié)構(gòu)、語(yǔ)境等整體因素,為了減少單個(gè)詞語(yǔ)對(duì)整個(gè)文本情感強(qiáng)度的影響,本文對(duì)情緒詞典的每個(gè)詞語(yǔ)賦予1的權(quán)值,如果出現(xiàn)多個(gè)同類(lèi)別的詞語(yǔ),則將對(duì)應(yīng)的向量維度值進(jìn)行疊加或加權(quán)計(jì)算??紤]到情緒詞可能被特殊詞語(yǔ)(否定詞和程度副詞)修飾而改變情緒傾向,因此本文對(duì)這些特殊詞語(yǔ)做進(jìn)一步處理:一方面,被否定詞修飾的情緒詞通常會(huì)改變情緒傾向,所以考慮搜索并判斷情緒詞前后三個(gè)詞內(nèi)是不是含有否定詞。如果是,則將該情緒詞的權(quán)值乘以-1。另一方面,程度副詞使情緒傾向在強(qiáng)弱程度上發(fā)生變化,類(lèi)似于否定詞的處理,搜索并判斷情緒詞前面一個(gè)詞是不是程度副詞,將程度副詞的強(qiáng)度分為五個(gè)等級(jí)并賦予相應(yīng)的權(quán)值。
單條微博情緒分析方法具體描述如下:
1)文本預(yù)處理。首先過(guò)濾噪聲文本,如廣告、重復(fù)的文本等;然后使用中國(guó)科學(xué)院分詞系統(tǒng)導(dǎo)入本文構(gòu)建的情感詞典,對(duì)微博文本進(jìn)行分詞,去掉停用詞。由于word2vec是根據(jù)詞共現(xiàn)的原理計(jì)算兩個(gè)詞語(yǔ)之間的相似度,而預(yù)處理的過(guò)程中去掉的停用詞大部分為沒(méi)有實(shí)際意義的介詞,代詞等,所以去掉停用詞不會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生太大的影響;
2)情感特征詞提取。通過(guò)導(dǎo)入情感詞典對(duì)評(píng)論文本分詞后,選取出當(dāng)前情感詞典里面的詞作為該條評(píng)論的情感特征詞,利用情感特征詞構(gòu)建文本情感特征向量。
3)如果情感特征詞前有程度詞,則情感特征詞的權(quán)重應(yīng)該為程度詞與特征詞的權(quán)重之積(情感特征詞的權(quán)重設(shè)為1);
4)如果情感特征詞前有否定詞,則統(tǒng)計(jì)否定詞的個(gè)數(shù)N,每個(gè)否定詞的權(quán)重設(shè)為-1,最終情感特征詞的權(quán)重應(yīng)該是N個(gè)-1與特征詞權(quán)重之積;
5)通過(guò)計(jì)算該條評(píng)論文本屬于每一個(gè)情緒類(lèi)別的對(duì)應(yīng)情感特征詞的權(quán)值之和,選取權(quán)值最大的那個(gè)情緒作為該條評(píng)論的最終情緒類(lèi)別。
按照以上處理步驟得出每條微博文本的特征向量后,選取出權(quán)值最大的特征項(xiàng)作為該微博文本的情緒傾向,并與事先人工標(biāo)注的進(jìn)行對(duì)比評(píng)價(jià),分別計(jì)算出準(zhǔn)確率和召回率。
本文從廈門(mén)縱火案和呼格吉勒?qǐng)D冤案兩個(gè)熱點(diǎn)社會(huì)公共事件的微博語(yǔ)料中隨機(jī)抽取了10 000條微博文本進(jìn)行不同情緒類(lèi)別的人工標(biāo)注,最后確認(rèn)了7 629條有效微博文本作為實(shí)驗(yàn)的數(shù)據(jù)。實(shí)驗(yàn)結(jié)果如表2所示。
表2 基于情緒詞典的情緒分析結(jié)果
為了對(duì)比基于情緒詞典和基于SVM分類(lèi)的情緒分析,利用開(kāi)源工具liblinear對(duì)微博語(yǔ)料進(jìn)行情緒分類(lèi):
1)對(duì)于標(biāo)注了的7 629條微博文本,按2∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集。
2)對(duì)文本數(shù)據(jù)進(jìn)行文本預(yù)處理、特征表示和選擇,實(shí)現(xiàn)文本向量化。
a)去除重復(fù)文本和無(wú)意義的符號(hào),進(jìn)行中文分詞。
b)根據(jù)CHI公式計(jì)算詞語(yǔ)的特征權(quán)重。
首先,計(jì)算每個(gè)詞t與類(lèi)別c之間的相關(guān)程度(假設(shè)t和c之間符合具有一階自由度的CHI分布)。詞語(yǔ)t對(duì)于類(lèi)別c的CHI值由式(1)計(jì)算。
其中,N表示語(yǔ)料庫(kù)中微博文本的總數(shù)目;A表示包含詞語(yǔ)t且屬于類(lèi)別c類(lèi)的微博數(shù)目;B為包含詞語(yǔ)t但是不屬于類(lèi)別c的微博數(shù)目;C表示屬于類(lèi)別c但不包含詞語(yǔ)t的微博數(shù)目;D表示既不屬于類(lèi)別c也不包含詞語(yǔ)t的微博數(shù)目。
接著,根據(jù)式(2)計(jì)算特征詞語(yǔ)t對(duì)于整個(gè)語(yǔ)料的CHI值。
其中,m為情感類(lèi)別數(shù),X-max2(t)表示選取特征項(xiàng)與各情感類(lèi)別的CHI值中的最大值。
然后,對(duì)每個(gè)詞語(yǔ)t的CHI值進(jìn)行從大到小排序,選取CHI值大的前K個(gè)詞語(yǔ)集合作為特征項(xiàng)。
最后,通過(guò)公式(3)的詞語(yǔ)權(quán)重計(jì)算公式得到每個(gè)特征項(xiàng)的權(quán)值,用這些特征項(xiàng)權(quán)值組成的向量表示文本,將文本向量化。具體地,針對(duì)語(yǔ)料統(tǒng)計(jì)每個(gè)特征項(xiàng)在該文本數(shù)據(jù)中出現(xiàn)的個(gè)數(shù)m,記為詞頻TF;統(tǒng)計(jì)每個(gè)特征項(xiàng)在不同文檔中出現(xiàn)的次數(shù),記為文檔頻率DF,其逆文檔頻率log(DF)記為IDF。根據(jù)式(3)計(jì)算每個(gè)t的權(quán)重值。
3)利用開(kāi)源項(xiàng)目liblinear對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行建模,建立分類(lèi)器,參數(shù)設(shè)置為默認(rèn)值。
4)構(gòu)建分類(lèi)器后,在測(cè)試集上預(yù)測(cè)分類(lèi),并計(jì)算準(zhǔn)確率和召回率以評(píng)價(jià)分類(lèi)的結(jié)果(如表3所示)。
表3 基于SVM分類(lèi)的分析結(jié)果
續(xù)表
由表2所示結(jié)果可以看出,基于本文所構(gòu)建的情緒詞典的分類(lèi)器的平均準(zhǔn)確率為76.9%,平均召回率為61.4%;F值是0.694,而SVM分類(lèi)器的平均準(zhǔn)確率為63%,召回率為60%,F(xiàn)值是0.61。這初步驗(yàn)證了本文所構(gòu)建的面向微博的社會(huì)情緒詞典的性能,說(shuō)明該詞典能夠準(zhǔn)確且高效地反映微博文本中不同的情緒傾向。
進(jìn)一步,將本文所構(gòu)建的情緒詞典應(yīng)用到微博平臺(tái)上的社會(huì)公共事件的情緒分析,通過(guò)典型的社會(huì)事件例子從側(cè)面反映情緒詞典的有效性。對(duì)特定社會(huì)公共事件的語(yǔ)料進(jìn)行整體的情緒分析,以判斷該事件反映出來(lái)的公眾社會(huì)情緒傾向。本文選取受到廣泛關(guān)注的“廈門(mén)縱火案”事件和“呼格吉勒?qǐng)D冤案”事件。把同一個(gè)事件的微博語(yǔ)料當(dāng)成整體,通過(guò)分詞、情緒詞典匹配和特征權(quán)重計(jì)算,得到微博語(yǔ)料對(duì)應(yīng)的不同情緒傾向的比重。分析結(jié)果如圖2和圖3所示。
圖2 “廈門(mén)縱火案”事件分析結(jié)果
如圖2和圖3所示,不同的情緒傾向按照權(quán)值占比從高到低排序,可以直觀地觀察到占比排在前三(總和超過(guò)78%)的情緒傾向。對(duì)于“廈門(mén)縱火案”事件:厭惡,憤怒,焦慮三者的權(quán)值占比高,表明社會(huì)情緒偏向于厭惡、憤怒和焦慮;而對(duì)于“呼格吉勒?qǐng)D冤案”事件:憤怒、厭惡和悲傷權(quán)值占比高,表明社會(huì)情緒偏向于憤怒、厭惡和悲傷。針對(duì)這兩個(gè)事件,從社會(huì)民眾普遍的心理感知角度來(lái)看,符合上述提到的幾種情緒傾向,這在一定程度上也說(shuō)明本文構(gòu)建的情緒詞典和分析方法的有效性。
圖3 “呼格吉勒?qǐng)D冤案”事件情緒分析結(jié)果
本文基于微博平臺(tái)上社會(huì)熱點(diǎn)事件的微博語(yǔ)料,建立了面向微博的社會(huì)情緒詞典,該社會(huì)情緒詞典包括八個(gè)類(lèi)別共6 887個(gè)詞條。應(yīng)用該詞典對(duì)公共事件進(jìn)行社會(huì)情緒分析,并通過(guò)基于情緒詞典的微博情緒分析和基于SVM的情緒分析結(jié)果的對(duì)比,驗(yàn)證了本文構(gòu)建的情緒詞典及情緒分析方法的有效性。最后,通過(guò)對(duì)微博平臺(tái)上的社會(huì)熱點(diǎn)事件的整體情緒分析,從另一個(gè)側(cè)面表明所構(gòu)建的情緒詞典的有效性。
本文的研究工作還存在一些不足,后續(xù)將從以下幾個(gè)方面進(jìn)行深入研究:
1)邀請(qǐng)更多心理學(xué)、語(yǔ)言學(xué)等領(lǐng)域?qū)<业葘?duì)詞典進(jìn)行校驗(yàn),提高詞典的質(zhì)量。
2)獲取更多公共事件,擴(kuò)大語(yǔ)料庫(kù)規(guī)模,同時(shí)借助維基百科等外部數(shù)據(jù)源,融合多種詞語(yǔ)相似度計(jì)算方法,進(jìn)一步擴(kuò)大詞典規(guī)模。
3)在情緒詞典的應(yīng)用方面,增加微博評(píng)價(jià)對(duì)象識(shí)別,以更準(zhǔn)確反映公共事件的社會(huì)情緒。
致謝:在本文的研究過(guò)程中,鄭漫麗、陳麗云、陳東沂等同學(xué)作了大量探索性實(shí)驗(yàn),丘心穎、謝柏林、李霞等老師給出了一些建設(shè)性的建議。
[1] Zhang Jianfeng,Xia Yunqing,Yao Jianmin.A review towards microtext processing[J].Journal of Chinese Information Processing,2012,26(4):21-27.
[2] Carlo Strapparava,Alessandro Valitutti.WordNet-Affect:an Affective Extension of WordNet[J].ITC-irst,Istituto per la Ricerca Scientifica e Tecnologica I-38050Povo Trento Italy:1083-1086.
[3] Salah Z,Coenen F,Grossi D.Generating domain-specific sentiment lexicons for opinion mining[M].Advanced Data Mining and Applications.Springer Berlin Heidelberg,2013:13-24.
[4] Li S,Hao J,Jiang Y,et al.Exploiting Co-occurrence Opinion Words for Semi-supervised Sentiment Classification[C]//Advanced Data Mining and Applications.Springer Berlin Heidelberg,2013:36-47.
[5] 柳位平,朱艷輝,栗春亮等.中文基準(zhǔn)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009.10(29):2875-2877.
[6] 常曉龍,張暉.融合語(yǔ)素特征的中文褒貶詞典構(gòu)建[J].計(jì)算機(jī)應(yīng)用,2012,32(7):2033-2037.
[7] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報(bào)學(xué)報(bào),2008,27(2):180-185.
[8] 桂守才.基礎(chǔ)心理學(xué)[M].北京:人民教育出版社,2007.
[9] 林傳鼎.社會(huì)主義心理學(xué)中的情緒問(wèn)題[J].社會(huì)心理學(xué)科,2006,21(83):37-62.