董秦濤 蘇亞峰 屈志毅董秦濤 蘇亞峰 屈志毅
摘 要 對(duì)文本情感分析研究進(jìn)行總結(jié),從情感詞抽取、語料庫和情感詞典構(gòu)建、主觀分析三個(gè)方面對(duì)文本情感分析研究相關(guān)文獻(xiàn)進(jìn)行梳理、評(píng)述,最后介紹了實(shí)際應(yīng)用。
關(guān)鍵詞 情感分析 情感詞抽取 語料庫 情感詞典
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A
0引言
網(wǎng)絡(luò)已經(jīng)進(jìn)入到了“交互式網(wǎng)絡(luò)”時(shí)代。人們從網(wǎng)絡(luò)獲取信息的同時(shí),也直接在各種網(wǎng)絡(luò)平臺(tái)表達(dá)喜、怒、哀、樂等各種情感。這些主觀性文本每天以指數(shù)級(jí)的速度增長,僅靠人工進(jìn)行分析不僅需要消耗大量的人力和時(shí)間,還易造成信息遺漏。
因此采用計(jì)算機(jī)快速地進(jìn)行文本信息分類和情感信息的抽取,通過挖掘和分析文本中的立場、觀點(diǎn)、情緒等主觀信息,對(duì)文本情感傾向做出判斷,成為目前學(xué)術(shù)界研究的一個(gè)熱點(diǎn),即文本情感分析。
1文本情感分析概述
情感分析是指分析發(fā)表者在傳達(dá)信息時(shí)所隱含的情緒狀態(tài),對(duì)發(fā)表者的態(tài)度、意見進(jìn)行判斷或者評(píng)估。文本情感分析是自然語言理解領(lǐng)域的重要研究分支,涉及統(tǒng)計(jì)學(xué)、語言學(xué)、心理學(xué)、人工智能等領(lǐng)域的理論與方法。
文本情感分析的主要任務(wù)就是根據(jù)文本信息來判斷發(fā)表者的情感傾向,主要利用底層情感信息抽取的結(jié)果將情感文本單元分為若干類別本文將分別從情感詞抽取、語料庫和情感詞典構(gòu)建、主觀分析三個(gè)方面對(duì)文本情感分析研究相關(guān)文獻(xiàn)進(jìn)行梳理,最后介紹了實(shí)際應(yīng)用。
2情感詞抽取
情感詞又稱極性詞、評(píng)價(jià)詞語,特指帶有情感傾向性的詞語。評(píng)價(jià)詞語的抽取和判別,主要方法可分為基于大規(guī)模語料庫的統(tǒng)計(jì)方法 (表情符號(hào)可以視為情感詞的一種)、利用詞典計(jì)算相似度方法。
2.1基于語料庫的情感詞抽取和判別
利用大語料庫的統(tǒng)計(jì)特性,其最大優(yōu)點(diǎn)在于簡單易行;缺點(diǎn)是可利用的語料庫有限,評(píng)價(jià)詞語在大語料庫中的分布等現(xiàn)象并不容易歸納。Wilson T等人對(duì)主觀性文本進(jìn)行系統(tǒng)的分析研究,挖掘大量的主觀性文本形成主觀表達(dá)式庫,并基于此完成文本的主客觀分類和褒貶分類。RILOFF E等人用手工方法制定模板并以此選取種子情感詞,通過使用迭代的方法可以獲取名詞詞性的情感詞。
2.2基于詞典的情感詞抽取及判別方法
使用詞典中的詞語之間的詞義聯(lián)系挖掘評(píng)價(jià)詞語,其最大優(yōu)點(diǎn)是獲取情感詞全面、準(zhǔn)確,缺點(diǎn)是存在一詞多義現(xiàn)象。朱嫣嵐等人提出基于HowNet詞的語義相似度和語義相關(guān)的情感詞極性計(jì)算方法。Yang C等人使用PMI(Point wise Mutual Information),通過計(jì)算一個(gè)詞和已知極性的種子詞(或表情符號(hào))的點(diǎn)互信息量,推斷該詞是不是情感傾向詞。王昌厚等人基于模式的Bootstrapping方法,從微博語料中抽取情感評(píng)價(jià)詞,通過模式劃定新詞的邊界,跨過新詞識(shí)別的過程,直接進(jìn)行情感傾向詞的抽取。
3語料庫、情感詞典構(gòu)建
語料庫:WIEBE J等人建立多視角問答語料庫對(duì)535篇廣泛來源的新聞進(jìn)行了語句級(jí)人工標(biāo)注,而且對(duì)語句的低層進(jìn)行了標(biāo)注,標(biāo)出了情感文本的發(fā)表者、對(duì)象、極性、強(qiáng)度等要素。除了情感,還標(biāo)注了情緒、推斷、信念等。
情感詞典:STONE P等人收集了1915個(gè)褒義詞和2 293個(gè)貶義詞,并按照極性、強(qiáng)度、詞性等打上不同的標(biāo)簽,對(duì)于詞匯還列出不同的義項(xiàng),可以區(qū)別不同義項(xiàng)和詞性下的褒貶極性,也相當(dāng)于對(duì)每個(gè)單詞都構(gòu)建了一組語義消歧規(guī)則。HowNet評(píng)價(jià)詞詞典,包含9193個(gè)中文評(píng)價(jià)詞語,9142個(gè)英文評(píng)價(jià)詞語,并被分為褒貶兩類。
4主觀分析
在情感分析中,分析意見的屬性與語句上下文正確理解對(duì)判斷情感極性至關(guān)重要。屬性極性判定的步驟為:(1)對(duì)句子進(jìn)行詞性標(biāo)注;(2)提取句子中所有的名詞利用挖掘算法尋找頻繁項(xiàng)集;(3)對(duì)頻繁項(xiàng)集的項(xiàng)進(jìn)一步篩檢;(4)從文本中抽取出包含特征詞的句子(情感句);(5)通過對(duì)情感詞的極性定位結(jié)合句子中可能出現(xiàn)的程度副詞和否定詞做出抽取屬性的傾向性判定。
5文本情感分析應(yīng)用
(1)用戶評(píng)論分析與決策
在購買產(chǎn)品或者服務(wù)前,消費(fèi)者可以獲取相關(guān)的評(píng)論可以提供參考,提供者可以通過評(píng)論進(jìn)一步改進(jìn)產(chǎn)品或者服務(wù)質(zhì)量。LIU B等人研究并開發(fā)的產(chǎn)品信息反饋系統(tǒng),利用網(wǎng)絡(luò)上的顧客評(píng)論資源,提取并統(tǒng)計(jì)消費(fèi)者對(duì)產(chǎn)品特征的評(píng)價(jià),采用可視化方式顯示統(tǒng)計(jì)和比較結(jié)果。
(2)輿情監(jiān)控
政府機(jī)構(gòu)可以通過公眾對(duì)新聞事件或國家政策的看法來了解輿。朱元波在其碩士論文中設(shè)計(jì)了在線網(wǎng)絡(luò)挖掘系統(tǒng),對(duì)暴恐組織網(wǎng)上串聯(lián)進(jìn)行監(jiān)督。
6結(jié)語
本文就國內(nèi)外文本情感分析研究情況進(jìn)行了總結(jié)和梳理,重點(diǎn)介紹了文本情感分析研究中的幾個(gè)關(guān)鍵問題:情感詞抽取、語料庫和情感詞典構(gòu)建、主觀分析,最后文本情感分析實(shí)際應(yīng)用進(jìn)行了概括。文本情感分析,特別是中文文本情感分析是一個(gè)新興的研究方向,具有非常廣闊的應(yīng)用前景。
參考文獻(xiàn)
[1] 楊立公,朱儉,湯世平.文本情感分析綜述.計(jì)算機(jī)應(yīng)用,2013,33(6):1574-1578.
[2] 朱嫣嵐,閔錦,周雅倩等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.
[3] 王昌厚,王菲.使用基于模式的Bootstrapping方法抽取情感詞[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(1):127-129.
[4] 李思.基于合并模型的中文文本情感分析.第五屆全國信息檢索學(xué)術(shù)會(huì)議,2009,1( 1):322-328.