国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向話題的新聞評(píng)論的情感特征選取

2010-07-18 03:11:52陶富民王騰蛟
中文信息學(xué)報(bào) 2010年3期
關(guān)鍵詞:特征詞詞表詞典

陶富民,高 軍,王騰蛟,周 凱

(北京大學(xué)信息科學(xué)技術(shù)學(xué)院計(jì)算機(jī)系網(wǎng)絡(luò)與信息技術(shù)研究院,北京100871)

1 引言

隨著網(wǎng)絡(luò)的普及特別是Web2.0的興起和發(fā)展,網(wǎng)絡(luò)上用戶生成內(nèi)容(UGC)越來(lái)越多,比如博客、評(píng)論、論壇帖子等。這些用戶生成內(nèi)容在網(wǎng)絡(luò)中占據(jù)越來(lái)越重要的地位。它們包含大量的主觀性內(nèi)容,這些主觀性內(nèi)容含有很多潛在的有用信息,比如針對(duì)商品的評(píng)價(jià)會(huì)直接影響到用戶的購(gòu)買行為;政府機(jī)構(gòu)會(huì)關(guān)注發(fā)布的政策法規(guī)在網(wǎng)絡(luò)中的反響;關(guān)注網(wǎng)上的輿情信息,特別是熱點(diǎn)事件的輿情信息。

傳統(tǒng)的網(wǎng)絡(luò)信息處理主要針對(duì)基于事實(shí)性的文本,比如基于關(guān)鍵字的檢索,文本的分類,聚類等,這些處理忽略了其中的情感信息。情感分析主要針對(duì)用戶生成內(nèi)容來(lái)進(jìn)行情感信息的挖掘,其最重要的方面是情感傾向性分析。情感的特征選取不僅是影響情感傾向性分析結(jié)果好壞的重要因素,也是其主要難點(diǎn)。主要體現(xiàn)在1)僅僅通過(guò)詞頻或其他簡(jiǎn)單統(tǒng)計(jì)量很難或提取不出有效的情感特征;2)一些特征詞在不同的領(lǐng)域具有不同的情感傾向,比如“布什是中國(guó)人民的老朋友”和“老布什這個(gè)老不死的”這兩句話中,“老”這個(gè)詞在其出現(xiàn)的三個(gè)地方中有三種不同的情感特征。由于情感特征提取的特殊性,傳統(tǒng)文本分析方法不能滿足情感分析的要求。本文的目標(biāo)就是找出一個(gè)有效的情感特征提取方法。

在本文中,我們主要關(guān)注新聞?lì)I(lǐng)域中與政治相關(guān)評(píng)論的情感傾向。我們抓取搜狐一年的國(guó)內(nèi)、國(guó)際、社會(huì)相關(guān)的 67 190條新聞和對(duì)應(yīng)的 6 156 840條評(píng)論并進(jìn)行了簡(jiǎn)要的分析:1)對(duì)新聞進(jìn)行聚類,共聚集出15 190個(gè)類別。從圖1中可以看出聚類后的類別的新聞數(shù)目大致符合齊普夫定律(zipf's law[1]),表明熱點(diǎn)新聞是用戶的主要關(guān)注點(diǎn)。2)新聞的評(píng)論數(shù)目分布也大致符合齊普夫定律(見(jiàn)圖2),進(jìn)一步說(shuō)明用戶的關(guān)注度集中在熱點(diǎn)新聞中。從上面兩個(gè)結(jié)論說(shuō)明改善熱點(diǎn)新聞評(píng)論的情感分析效果具有重要的意義,可以通過(guò)提高它們的情感分析效果來(lái)提高整體情感分析效果。

圖1 聚類的新聞數(shù)目

圖2 新聞的評(píng)論數(shù)目

目前的情感特征提取的方法主要集中在電影、書籍、商品等評(píng)論上,針對(duì)新聞評(píng)論的情感特征提取則很少,而且相對(duì)更加困難。其困難之處在于新聞?lì)I(lǐng)域中的評(píng)論很難像文獻(xiàn)[2-3]中描述的那樣,可以比較容易地獲取高質(zhì)量評(píng)論或與所評(píng)論的內(nèi)容相關(guān)性較高的評(píng)論來(lái)進(jìn)行情感分析。此外新聞評(píng)論的情感特征提取的主要難點(diǎn)還在于:評(píng)論的內(nèi)容普遍較短(見(jiàn)圖3,圖4);評(píng)論的主題十分發(fā)散,評(píng)論容易偏離其所針對(duì)的主題;普通用戶評(píng)論用詞口語(yǔ)化、錯(cuò)字、別字、簡(jiǎn)寫、俚語(yǔ)較多;另外還有很多評(píng)論有很強(qiáng)的背景(比如“農(nóng)夫與蛇”這樣與典故相關(guān)的評(píng)論)。新聞評(píng)論中的這些特性使得我們需要在評(píng)論本身與評(píng)論所針對(duì)的對(duì)象之間進(jìn)行更多的分析處理。

圖3 評(píng)論長(zhǎng)度與數(shù)量的關(guān)系

圖4 隨機(jī)選取1000條評(píng)論長(zhǎng)度

2 相關(guān)術(shù)語(yǔ)定義和工作流程

1.對(duì)比新聞內(nèi)容和評(píng)論內(nèi)容得到的通用候選情感特征詞表,簡(jiǎn)稱通用候選特征表GC;

2.對(duì)通用候選特征進(jìn)行人工篩選和傾向性標(biāo)注得到新聞評(píng)論的情感種子特征詞表,稱之為基礎(chǔ)情感特征表BF;

3.在基礎(chǔ)特征詞表的基礎(chǔ)上進(jìn)行擴(kuò)充和驗(yàn)證得到擴(kuò)充的情感特征詞表,稱之為通用情感特征表GF;

4.根據(jù)新聞內(nèi)容對(duì)新聞進(jìn)行聚類,選取數(shù)目大于預(yù)定義數(shù)值的新聞?lì)惔?這些新聞?lì)惔胤Q為話題{T};

5.對(duì)比話題的評(píng)論和話題的新聞得到與話題相關(guān)的候選情感特征詞表,簡(jiǎn)稱話題候選特征表{TC};

6.在基礎(chǔ)情感特征詞表BF的基礎(chǔ)上,對(duì)話題候選特征詞表{TC}進(jìn)行驗(yàn)證得到與話題相關(guān)的情感詞表,稱之為話題情感特征表{TF}。

在得到上述的特征表和話題信息之后,我們用下列方式對(duì)新聞的評(píng)論進(jìn)行情感分析:

1.確定新聞N所在的話題t:首先查看新聞N是否屬于某個(gè)話題t中,如果不屬于任何一個(gè)話題,則根據(jù)新聞N與各個(gè)話題的相似關(guān)系判定新聞N是否能夠劃分到某個(gè)話題t中,如果沒(méi)有被劃入任何一個(gè)話題中,則令t為空話題nil。

2.根據(jù)新聞N所在的話題t確定對(duì)應(yīng)的情感特征表f:如果t為nil,則令情感特征表 f為通用情感詞表GF,否則根據(jù)t從{TF}中尋找對(duì)應(yīng)的情感特征表f。

3.對(duì)新聞N的每一個(gè)評(píng)論c,通過(guò)其情感特征表 f確定其情感傾向p。

3 基于話題的情感特征提取

3.1 獲取評(píng)論的通用候選特征和基礎(chǔ)情感特征

一般而言,評(píng)論除了包含情感特征詞之外,還包含許多與評(píng)論內(nèi)容相關(guān)的詞和高頻詞。直接采用詞頻等統(tǒng)計(jì)信息很難提取出有效的情感特征;同時(shí)Pang等人在文獻(xiàn)[3]中發(fā)現(xiàn)用統(tǒng)計(jì)的方法選取出的評(píng)論特征詞比人工直接選取的效果要好。這表明對(duì)評(píng)論進(jìn)行情感分析時(shí),評(píng)論的情感特征應(yīng)該從所分析的評(píng)論中取出。我們采取的方法是分步驟逐漸優(yōu)化提取情感特征。

首先我們采用公式:

對(duì)評(píng)論中出現(xiàn)的詞打分后進(jìn)行排序,選取得分較高的詞作為通用候選特征表GC。其中R_DF(Term)、N_DF(Term)、R_TF(Term)和 N_TF(Term)分別表示Term出現(xiàn)在所有不同評(píng)論中的次數(shù)、出現(xiàn)在所有不同新聞中的次數(shù)、在所有評(píng)論中出現(xiàn)的總次數(shù)和在所有新聞中出現(xiàn)的總次數(shù)。排序規(guī)則是先按Score1的得分排序,如果Score1的得分一樣,再按Score2的得分進(jìn)行排序。

利用上述公式可以使高頻詞和與新聞背景相關(guān)的詞(比如在講述中美關(guān)系的新聞中,“中國(guó)”,“美國(guó)”這樣的詞)得分降低。這樣一來(lái),這些詞就不容易出現(xiàn)在通用候選特征表GC中。

在通用候選特征表GC中存在著大量的噪音,比如不規(guī)范的用詞,錯(cuò)別字;評(píng)論中的廣告或其他垃圾信息,它們?cè)谠u(píng)論中出現(xiàn)頻率比較高,而在新聞中卻很少出現(xiàn),所以這些噪音的得分也會(huì)比較高,之外我們還需要明確那些與情感相關(guān)的候選特征詞的傾向性。因此需要進(jìn)行必要的人工篩選和傾向性標(biāo)注,通過(guò)篩選和標(biāo)注后得到基礎(chǔ)情感特征表BF。

3.2 構(gòu)建詞的同位關(guān)系對(duì)基礎(chǔ)情感特征詞表進(jìn)行擴(kuò)充和驗(yàn)證

雖然基礎(chǔ)情感特征詞表BF里面的情感詞都是經(jīng)過(guò)人工干預(yù)的,但考慮人工篩選和標(biāo)注的代價(jià)以及在獲取候選特征詞表中我們不能保證所有與情感相關(guān)的特征都能得到較高的分成為候選特征,需要對(duì)基礎(chǔ)情感特征詞表BF進(jìn)行自動(dòng)擴(kuò)充操作以增加召回率。

3.2.1 同位關(guān)系的構(gòu)建

定義1:同位關(guān)系如果兩個(gè)詞在意思表達(dá)可以替換或表示同一類事物時(shí),則稱這兩個(gè)詞存在同位關(guān)系。例如“豐田”和“寶馬”是同位關(guān)系。但“豐田”和“汽車”就不能看成同位關(guān)系。同理,“高興”和“悲傷”是同位關(guān)系,但“高興”和“情緒”就不是同位關(guān)系。

我們?cè)诖笠?guī)模語(yǔ)料中利用設(shè)定的模板模擬詞與詞之間的同位關(guān)系,如“(@x[、@y]*[和|與|以及]@z)”。@x和@z分別表示一個(gè)詞,{@y}表示包含0到多個(gè)詞的集合。該模板定義詞@x,詞@z和詞集{@y}中詞之間存在同位關(guān)系。我們利用自設(shè)的一些模板提取了近1 240萬(wàn)個(gè)模擬詞同位關(guān)系對(duì)。用匹配次數(shù)(M acthCnt)以及同位關(guān)系的置信度con fidence(term1,term2)=p(term1,term2)/p(term1)來(lái)衡量模擬詞的同位關(guān)系對(duì)的維度。

3.2.2 擴(kuò)充和驗(yàn)證

根據(jù)詞的同位關(guān)系,我們對(duì)基礎(chǔ)情感特征表BF中的所有特征詞按公式log(M acthCnt)×con fidence的結(jié)果大小順序找出k個(gè)同位詞(不足則全取)來(lái)進(jìn)行擴(kuò)充操作。把正向情感特征和相關(guān)擴(kuò)充特征稱為正向擴(kuò)充詞典,把負(fù)向情感特征和相關(guān)擴(kuò)充特征稱為負(fù)向擴(kuò)充詞典。由于我們所得到的同位關(guān)系只是模擬的同位關(guān)系,另外還存在處于同位關(guān)系的兩個(gè)特征詞具有不同的情感傾向性,所以需要對(duì)這些擴(kuò)充詞進(jìn)行驗(yàn)證來(lái)過(guò)濾引入的錯(cuò)誤的情感特征以及對(duì)擴(kuò)充詞進(jìn)行情感標(biāo)注。驗(yàn)證方法如下:

1)首先對(duì)每一個(gè)在擴(kuò)充階段得到的詞,找出其同位詞集,根據(jù)它們?cè)谡?fù)擴(kuò)充詞典的個(gè)數(shù)和比率進(jìn)行過(guò)濾。

個(gè)數(shù)過(guò)濾方法:如果正向擴(kuò)充詞在基礎(chǔ)情感特征詞表BF中的同位詞標(biāo)注為正向傾向的特征詞小于設(shè)定的最小個(gè)數(shù)min_cnt(設(shè)定為3)則將該詞過(guò)濾,負(fù)向擴(kuò)充詞同理。

比率過(guò)濾方法:通過(guò)隨機(jī)選取基礎(chǔ)情感詞表BF中的一些詞,并對(duì)它們的擴(kuò)充詞進(jìn)行人工標(biāo)注后,把過(guò)濾這些擴(kuò)充詞的最優(yōu)的參數(shù)值設(shè)定為閾值a。如果正負(fù)向同位詞的比率小于設(shè)定的閾值 a,則將該詞過(guò)濾。

2)經(jīng)過(guò)上一步過(guò)濾后,還存在一些正負(fù)擴(kuò)充詞典中共同包含的詞。采用比較其同位詞在正負(fù)向擴(kuò)充詞典的個(gè)數(shù)的方法來(lái)確定其情感傾向,即如果詞T同時(shí)出現(xiàn)在正負(fù)向擴(kuò)充詞典中,并且出現(xiàn)在正向擴(kuò)充詞典中的個(gè)數(shù)多,那么就認(rèn)為詞T的情感傾向?yàn)檎?將其從負(fù)向擴(kuò)充詞典中刪除。如果數(shù)目一樣,則同時(shí)刪除,否則將其從正向擴(kuò)充詞典刪除。

按上述方式進(jìn)行多次迭代過(guò)濾后就可以得到兩個(gè)過(guò)濾后的情感詞典。把這兩個(gè)詞典合并成一個(gè)帶情感傾向標(biāo)注的詞典就是我們定義的通用情感特征表GF。

3.3 話題構(gòu)建和話題情感特征的構(gòu)建

根據(jù)我們對(duì)搜狐的新聞對(duì)應(yīng)的評(píng)論數(shù)目,新聞聚類中對(duì)應(yīng)的新聞數(shù)目的分析,可以得出用戶評(píng)論主要集中在熱點(diǎn)新聞中的結(jié)論。因此可以把改善情感分析效果的重心放在熱點(diǎn)新聞?lì)悇e中。我們通過(guò)聚類將新聞劃分成多個(gè)話題,對(duì)每一個(gè)話題提取出與該話題相關(guān)的情感特征。通過(guò)這些話題相關(guān)的情感特征來(lái)提高話題中的新聞的情感分析效果,以達(dá)到提高整體的情感分析效果的目的。

3.3.1 構(gòu)建話題

我們利用CMU與UMASS的Lemur系統(tǒng)提供的索引和聚類工具對(duì)新聞進(jìn)行聚類。采用中心點(diǎn)(centroid)的聚類方法,用向量之間的余弦值(cosine similarity)計(jì)算新聞相似度,通過(guò)設(shè)置較高的相似度閾值來(lái)提高同一類簇中的新聞的內(nèi)聚性。把新聞數(shù)目大于等于10的類簇定義為話題。所有的話題的集合定義為話題{T}。

3.3.2 獲取話題的候選特征

與獲取評(píng)論的通用候選特征類似,采用公式:

對(duì)評(píng)論中出現(xiàn)的詞進(jìn)行打分排序。R_DF(t,term),N_DF(t,term),R_TF(t,term)和N_TF(t,term)分別表示term在話題t中出現(xiàn)在不同評(píng)論中的次數(shù)、出現(xiàn)在不同新聞中的次數(shù)、出現(xiàn)在評(píng)論中的總次數(shù)和在新聞中的出現(xiàn)總次數(shù)。排序規(guī)則也是先按Score1(t,term)的得分排序,在該分值一致的情況下再按Score2(t,term)的得分進(jìn)行排序。然后取得分較高的前k個(gè)特征詞作為話題候選特征。所有話題的候選特征的集合為話題候選特征表{TC}。

3.3.3 對(duì)話題的候選特征進(jìn)行驗(yàn)證

我們將基礎(chǔ)情感特征表BF和話題對(duì)應(yīng)的話題候選特征表tc一起作為話題的擴(kuò)充詞典,但只用模擬的同位關(guān)系去驗(yàn)證和過(guò)濾話題的候選特征詞,不做進(jìn)一步的迭代以達(dá)到在線處理的要求。

處理方式為:設(shè)置最小個(gè)數(shù)min_cnt和差別率a兩個(gè)閾值進(jìn)行過(guò)濾,令P為候選特征詞term的同位詞中正向情感特征數(shù),N為負(fù)向情感特征數(shù),如果同時(shí)滿足P>N,P>=min_cnt,P/(N+1)>=1+a三個(gè)條件,就保留term作為話題的正向情感特征。同理,如果同時(shí)滿足 N>P,N>=min_cnt,N/(P+1)>=1+a三個(gè)條件,就把term保留下來(lái)作為話題的負(fù)向情感特征。這樣就可以得到話題的情感特征表,所有話題的情感特征表構(gòu)成的集合為話題情感特征表{TF}。

4 實(shí)驗(yàn)結(jié)果和分析

4.1 實(shí)驗(yàn)說(shuō)明

我們從NTCIR-6的中文語(yǔ)料中抽取出帶有標(biāo)注信息的情感特征詞,僅僅使用這些情感特征詞進(jìn)行情感傾向性分析的召回率很低。為此我們?cè)O(shè)計(jì)了一個(gè)提供標(biāo)注評(píng)論的情感特征詞,情感傾向和標(biāo)注評(píng)論的情感傾向等功能的反饋系統(tǒng)。在本實(shí)驗(yàn)中,我們把從NTCIR-6中抽取的情感特征詞和用戶反饋的情感特征詞組成的情感詞典作為我們的基準(zhǔn)情感特征表NF。

我們一共標(biāo)注了419篇新聞的5 414條評(píng)論,其中3 528條負(fù)向評(píng)論,1 886條正向評(píng)論。從新聞的聚類結(jié)果中選取了3個(gè)新聞和評(píng)論數(shù)最高的話題(A,B,C)進(jìn)行了標(biāo)注,從話題A中選取了146條新聞,對(duì)其中的1 052條評(píng)論進(jìn)行了標(biāo)注,其中正負(fù)向評(píng)論分別為380條,672條;從話題B中選取了119篇新聞,對(duì)其中的671條評(píng)論進(jìn)行了標(biāo)注,其中正負(fù)向評(píng)論分別為179條,492條;從話題C選取了75篇新聞,對(duì)其中的1 106條評(píng)論進(jìn)行了標(biāo)注,其中正負(fù)向的評(píng)論分別為471條,635條。

4.2 基準(zhǔn)情感特征表NF和通用候選特征表GC的實(shí)驗(yàn)對(duì)比

在3.1節(jié)中選取的通用候選特征表GC時(shí),選取候選特征詞的前1 000個(gè)特征詞和基準(zhǔn)情感特征表NF進(jìn)行對(duì)比實(shí)驗(yàn):采用 Weka提供的 Na?ve Bayes和 Na?ve Bayes M ultinomial方法 ,用 10 折交叉驗(yàn)證方式的對(duì)結(jié)果進(jìn)行對(duì)比(見(jiàn)表1)。從實(shí)驗(yàn)結(jié)果中可以看出考慮特征詞是否出現(xiàn)和考慮其出現(xiàn)的次數(shù)之間差別很小。采用Na?ve BayesM u ltinomial方法的效果要好于Na?ve Bayes的方法。另外還可以發(fā)現(xiàn),盡管與評(píng)論相關(guān)的通用候選特征表GC的特征數(shù)目(1 000個(gè))比采用基準(zhǔn)情感特征表 NF的特征數(shù)目(1 914個(gè))要少近一半,但其召回?cái)?shù)目要高出16.4%,而準(zhǔn)確度(Accuracy)卻相差不大,特別是在較高的準(zhǔn)確的Na?ve Bayes Multinomial方法下只相差了不到1%的準(zhǔn)確度。

表1 通用候選特征表GC和基準(zhǔn)情感特征表NF在機(jī)器學(xué)習(xí)方法上的對(duì)比結(jié)果

4.3 基準(zhǔn)情感特征表NF和通用情感特征表GF的實(shí)驗(yàn)對(duì)比

我們從通用候選特征表GC中標(biāo)注了1 195個(gè)情感特征詞,利用這些特征詞進(jìn)行擴(kuò)充和驗(yàn)證得到通用情感特征表GF。采用的方法是利用詞的情感傾向特征結(jié)合句子的否定和轉(zhuǎn)折處理對(duì)評(píng)論進(jìn)行情感傾向性判定。從表2中可以看出,在構(gòu)造通用情感特征表GF時(shí)對(duì)每個(gè)情感特征詞選取20個(gè)以內(nèi)的同位詞(不足20個(gè)選取所有)進(jìn)行擴(kuò)充和驗(yàn)證時(shí),就能達(dá)到和基準(zhǔn)情感特征表NF相近的召回?cái)?shù)和準(zhǔn)確度。當(dāng)對(duì)每個(gè)情感特征詞選取100個(gè)以內(nèi)的同位詞進(jìn)行擴(kuò)充和驗(yàn)證時(shí),以降低約2%的準(zhǔn)確度為代價(jià)提高了11.4%~11.7%的召回?cái)?shù),相當(dāng)于在總體上提高了9%以上的準(zhǔn)確率。與采用機(jī)器學(xué)習(xí)的方法類似,考慮特征的出現(xiàn)與否的準(zhǔn)確率稍高于考慮特征的數(shù)目(約1%)。

表2 通用情感特征表GF和基準(zhǔn)情感特征表NF的情感分類的對(duì)比結(jié)果

對(duì)比表1和表2的結(jié)果發(fā)現(xiàn),采用詞的情感傾向特征結(jié)合句子的否定和轉(zhuǎn)折處理的情感分析方法,雖然在準(zhǔn)確度上有所下降(1%~2%)。但帶來(lái)了很大的召回?cái)?shù)目的提升(34.8%~40.9%)。

4.4 面向話題的情感分析實(shí)驗(yàn)對(duì)比

首先我們利用機(jī)器學(xué)習(xí)的方法比較使用通用候選特征表GC與采用話題候選特征表{TC}的效果差異。從表3中可以看出,盡管采用話題候選特征表{TC}在準(zhǔn)確度上有所下降(在效果較好的Na?ve Bayes M ultinomial方法分別為0.7%,4.7%和2.6%),但召回率卻分別高出91%,105%和98%。該結(jié)果說(shuō)明利用話題候選特征表{TC}能極大地改善情感分析的效果。

表3 通用候選特征表GC和話題候選特征表{TC}的機(jī)器學(xué)習(xí)方法上的對(duì)比結(jié)果

下面的實(shí)驗(yàn)是根據(jù)話題情感特征詞表{TF},利用詞的情感傾向特征結(jié)合句子的否定和轉(zhuǎn)折處理進(jìn)行情感傾向性判定。從實(shí)驗(yàn)結(jié)果中(見(jiàn)表4,5)可以看出使用話題情感特征詞表{TF}與通用情感特征表GF(對(duì)每個(gè)特征詞選取100個(gè)以內(nèi)的同位詞擴(kuò)展)相比,在召回率相近(70%左右)的情況下,其準(zhǔn)確度高出2%~5%。與使用基準(zhǔn)情感特征表 NF相比,召回率高5%~10%。

表4 基于話題情感特征詞表(TF)的情感分析結(jié)果

表5 召回率對(duì)比

5 相關(guān)工作

文本情感分析最常用的方法是情感分類。雖然在普通的文本分類里有許多經(jīng)典的特征提取方法[4-5],如DF,卡方檢驗(yàn),互信息,信息增益等。但這些方法不能直接應(yīng)用在情感分類中,比如“中美關(guān)系”是政治新聞中的一個(gè)重要特征,但不能作為情感分類的特征。

在早期的研究中[6],Pang等人用人工挑選情感特征詞和基于詞頻統(tǒng)計(jì)加人工檢驗(yàn)的方法比較時(shí)發(fā)現(xiàn),基于統(tǒng)計(jì)的方法在準(zhǔn)確度上有近5%到10%的提高。在文獻(xiàn)[7]中,Turney等利用兩個(gè)詞之間的逐點(diǎn)互信息量PM I(PointwiseM utual Information)定義詞的情感傾向SO(Semantic Orientation),在汽車、銀行等領(lǐng)域的情感分類能達(dá)到80%以上的準(zhǔn)確率,但使用搜索引擎計(jì)算SO值的開(kāi)銷比較大,不適用于大規(guī)模的快速分析。

還有一些研究[8]從一個(gè)核心的情感種子詞典出發(fā),利用WordNet定義的關(guān)系(如同義,近義)進(jìn)行傾向性判定來(lái)擴(kuò)充情感特征詞。Popescu[9]在其OPINE 系統(tǒng)中,使用“Relaxation Labeling”的方法,通過(guò)Support Function和迭代操作,同時(shí)標(biāo)識(shí)出產(chǎn)品的特征和用戶的情感觀點(diǎn)。與文獻(xiàn)[7]相比,以降低3%的召回率的代價(jià)提高了22%的精度。Kobayashi[10]通過(guò)層次的方法獲取情感特征改善情感分析效果,但需要在每一個(gè)層次進(jìn)行人工干預(yù)。

6 結(jié)論

本文的主要貢獻(xiàn)在下列幾個(gè)方面:

1)通過(guò)構(gòu)建詞的同位關(guān)系,對(duì)人工標(biāo)注的情感特征進(jìn)行擴(kuò)充,并對(duì)噪聲比較大的候選情感特征和擴(kuò)充情感特征進(jìn)行了驗(yàn)證。

2)構(gòu)建了一個(gè)面向話題的新聞評(píng)論的情感特征提取框架,通過(guò)對(duì)那些熱門話題構(gòu)造對(duì)應(yīng)的情感特征表來(lái)達(dá)到改善情感分析的效果。由于用戶的關(guān)注主要集中在熱門話題上,故該工作有重要的意義。

同時(shí)在我們的工作中還發(fā)現(xiàn)目前的情感分析方法對(duì)新聞評(píng)論中反語(yǔ)效果很差,如果能夠找到一種針對(duì)反語(yǔ)的處理方法,就可以有效的改善情感分析的效果。另外找出評(píng)論對(duì)象之間的關(guān)系以及和評(píng)論者之間的關(guān)系也是一個(gè)值得深入研究的課題。

[1] W entian Li.Random Tex ts Exhibit Zipf's-Law-Like W ord Frequency Distribution[J].IEEE Transactions on Information Theory 38 1992,6:1842-1845.

[2] J.Liu,Y.Cao,C.Y.Lin and et al.Low-quality product review detection in opinion summarization[C]//Proc.of EM NLP-CoNLL,2007:334-342.

[3] S.M.Kim,P.Pantel,T.Chklovski and M.Pennacchiotti.Automatically assessing review help fu lness[C]//Proc.of EM NLP,2006:423-430.

[4] Yim ing Yang and Jan O.Pedersen.A Comparative Study on Feature Selection in Text Categorization[C]//Proc.of ICM L,1997:412-420.

[5] G.Forman.An extensive empirical study of feature selection metrics for text classification[J].Journal of Machine Learning Research,2003,3:1289-1305.

[6] B.Pang,L.Lee,and S.Vaithyanathan.Thumbs up?Sentiment classification using machine learning techniques[C]//Proc.of EMNLP,2002:79-86.

[7] P.Turney.Thumbs up or thumbs dow n?Semantic orientation app lied to unsupervised classification of review s[C]//Proc.of ACL,2002:417-424.

[8] M.Hu and B.Liu.2004.M ining and summarizing customer reviews[C]//Proc.of ACM SIGKDD,2004:168-177.

[9] Ana-M.Popescu and O.Etzioni.Extracting product features and opinions from review s[C]//Proc.of H LT/EMNLP,2005:339-346.

[10] N.Kobayashi,K.Inui,Y.M atsumoto and et al.Collec ting evaluative exp ressions for opinion extraction[C]//Proc.of IJCNLP,2004:584-589.

猜你喜歡
特征詞詞表詞典
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會(huì)項(xiàng)目名稱漢英對(duì)照詞表
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
評(píng)《現(xiàn)代漢語(yǔ)詞典》(第6版)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
詞典例證翻譯標(biāo)準(zhǔn)探索
敘詞表與其他詞表的互操作標(biāo)準(zhǔn)
面向文本分類的特征詞選取方法研究與改進(jìn)
《胡言詞典》(合集版)刊行
國(guó)外敘詞表的應(yīng)用與發(fā)展趨勢(shì)探討*
瑞昌市| 平利县| 辽阳县| 京山县| 郓城县| 菏泽市| 芦溪县| 个旧市| 北票市| 平远县| 商洛市| 大埔区| 来安县| 台江县| 彰化县| 法库县| 卢龙县| 饶河县| 武夷山市| 个旧市| 米泉市| 洞头县| 珲春市| 分宜县| 涡阳县| 玉树县| 罗田县| 内丘县| 犍为县| 阳山县| 定襄县| 汉源县| 长汀县| 晋宁县| 桦甸市| 资阳市| 桃园县| 阿城市| 建湖县| 邻水| 通山县|