国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種擴(kuò)展式CRFs的短語(yǔ)情感傾向性分析方法研究

2015-04-25 09:57:36烏達(dá)巴拉汪增福
中文信息學(xué)報(bào) 2015年1期
關(guān)鍵詞:傾向性短語(yǔ)詞語(yǔ)

烏達(dá)巴拉,汪增福

(1. 中國(guó)科學(xué)技術(shù)大學(xué) 自動(dòng)化系,安徽 合肥 230027;2. 中國(guó)科學(xué)院 合肥智能機(jī)械研究所,安徽 合肥 230031)

?

一種擴(kuò)展式CRFs的短語(yǔ)情感傾向性分析方法研究

烏達(dá)巴拉1,2,汪增福1,2

(1. 中國(guó)科學(xué)技術(shù)大學(xué) 自動(dòng)化系,安徽 合肥 230027;2. 中國(guó)科學(xué)院 合肥智能機(jī)械研究所,安徽 合肥 230031)

短語(yǔ)情感傾向性分析是文本情感分析的重要研究?jī)?nèi)容。該文將短語(yǔ)情感傾向性分析問(wèn)題視作序列標(biāo)注問(wèn)題,利用條件隨機(jī)場(chǎng)模型實(shí)現(xiàn)短語(yǔ)的情感傾向性判斷。條件隨機(jī)場(chǎng)模型是利用序列特征處理序列標(biāo)注問(wèn)題的經(jīng)典方法,然而現(xiàn)有條件隨機(jī)場(chǎng)模型無(wú)法將詞語(yǔ)的情感傾向性分析與短語(yǔ)的情感傾向性分析相結(jié)合,從而造成準(zhǔn)確率不高。因此,該文提出一種擴(kuò)展式條件隨機(jī)場(chǎng)模型YACRFs。該模型在鏈?zhǔn)綏l件隨機(jī)場(chǎng)模型的基礎(chǔ)上進(jìn)行擴(kuò)充,將詞語(yǔ)情感傾向性分析與短語(yǔ)情感傾向性分析有效地結(jié)合起來(lái),引入了情感詞匯、短語(yǔ)規(guī)則模板以及詞性等特征。與傳統(tǒng)的規(guī)則方法和統(tǒng)計(jì)分類(lèi)方法進(jìn)行對(duì)比實(shí)驗(yàn),該文提出方法取得了最高準(zhǔn)確率81.07%。進(jìn)一步地,在應(yīng)用于句子情感傾向性分析的實(shí)驗(yàn)中得到了94.30%的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該文所提出的YACRFs模型能夠顯著提高短語(yǔ)情感傾向性判斷結(jié)果的準(zhǔn)確率。

短語(yǔ);情感傾向性分析;條件隨機(jī)場(chǎng)

1 引言

文本情感傾向性分析是對(duì)文本信息資源的情感分類(lèi)“支持、反對(duì)或中立”和情緒分類(lèi)“喜悅、憤怒、悲哀、恐懼、驚慌”等的合稱(chēng)。文本情感分析研究作為自然語(yǔ)言處理、人工智能、信息檢索以及數(shù)據(jù)挖掘等多個(gè)領(lǐng)域的重要研究?jī)?nèi)容,具有廣泛的應(yīng)用前景。例如,在商業(yè)領(lǐng)域,銷(xiāo)售方可以通過(guò)跟蹤用戶對(duì)產(chǎn)品的回饋意見(jiàn)來(lái)獲得改進(jìn)產(chǎn)品質(zhì)量的針對(duì)性意見(jiàn),消費(fèi)者也可以通過(guò)網(wǎng)上真實(shí)的產(chǎn)品評(píng)論信息來(lái)調(diào)整個(gè)人的購(gòu)買(mǎi)意向。

就情感分類(lèi)“支持、反對(duì)或中立”的研究而言,文本情感傾向性分析可分為詞語(yǔ)級(jí)、短語(yǔ)級(jí)、句子級(jí)以及文檔級(jí)的研究[1]。具體例子如表1所示。

表1 各級(jí)文本情感傾向性實(shí)例

早期的研究主要集中在詞語(yǔ)級(jí)的情感傾向性判斷,識(shí)別新的情感詞匯以及確定其語(yǔ)義傾向[2-9]。句子級(jí)和文檔級(jí)的情感傾向判斷研究是指將語(yǔ)句和篇章作為一個(gè)整體進(jìn)行情感傾向性的判斷[10-13]。然而無(wú)論是詞語(yǔ)級(jí)的、句子級(jí)的,還是文檔級(jí)的情感傾向性分析都存在一定的局限性。就詞語(yǔ)級(jí)的情感傾向性分析而言,由于自然語(yǔ)言本身的靈活性和復(fù)雜性,單個(gè)詞語(yǔ)的情感極性存在一定的歧義性[例如,句子“Polo車(chē)的性能較高,但是價(jià)格也較高?!敝械那耙粋€(gè)詞“高”表現(xiàn)出褒義(支持),但是后面的“高”則含有貶義(反對(duì))傾向];此外,隨著網(wǎng)絡(luò)語(yǔ)言的迅速演變,新詞、新詞義和錯(cuò)詞層出不窮,導(dǎo)致未登錄詞的比例和影響增大。至于句子級(jí)或文檔級(jí)的情感傾向性分析研究,一條句子或一篇文檔的情感傾向性并不能只靠所包含的情感詞匯決定。一個(gè)情感詞的極性會(huì)受到與它有一定上下文相關(guān)性的其他詞的影響而改變。例如,否定詞可以改變一個(gè)情感詞的極性(如“這款車(chē)的性能不好”),實(shí)詞之間相互聯(lián)系也可以改變其極性(如“該配方可扼殺細(xì)菌”)等。而且,真實(shí)文本往往包含多個(gè)對(duì)象,不同的對(duì)象所涉及到的觀點(diǎn)、態(tài)度等主觀信息是有差異的。相比而言,短語(yǔ)級(jí)的情感傾向性分析研究將詞語(yǔ)組,即由情感詞以及與該情感詞相關(guān)的詞,如修飾它的副詞、形容詞、連詞或它所修飾的目標(biāo)詞等組合而成,作為一個(gè)整體來(lái)考慮文本的情感極性和情感強(qiáng)度。不僅可以提高詞語(yǔ)級(jí)情感傾向性分析結(jié)果,還可以很方便地應(yīng)用到句子或文檔的情感傾向性判斷。

鑒于以上分析,本文研究基于短語(yǔ)的文本情感傾向性分析。然而截至目前,國(guó)內(nèi)外在短語(yǔ)級(jí)的情感傾向性分析方面的研究較少。目前的研究主要分為兩類(lèi): 一類(lèi)是利用預(yù)先定義的種子詞集、規(guī)則(例如,由褒義詞+中性詞的組合構(gòu)成的詞語(yǔ)組的情感傾向?yàn)榘x)以及預(yù)先定義的短語(yǔ)情感信息等來(lái)判斷,并未進(jìn)行更深入的算法分析[13]。并且這些研究也并非專(zhuān)門(mén)針對(duì)短語(yǔ)進(jìn)行分析,而只是將短語(yǔ)情感類(lèi)別信息作為句子或是文檔的情感傾向判斷分類(lèi)器的一類(lèi)特征;另一類(lèi)是采用有監(jiān)督的統(tǒng)計(jì)學(xué)習(xí)方法,如支持向量機(jī)(Support Vector Machine, SVM)和條件隨機(jī)場(chǎng)(Condition Random Fields, CRFs)等,對(duì)短語(yǔ)進(jìn)行情感類(lèi)別標(biāo)注[14-17]。盡管SVM或CRFs等統(tǒng)計(jì)模型可以挖掘真實(shí)文本中蘊(yùn)含的用戶提供的知識(shí),但是它們?cè)谕诰蚋鼮閺?fù)雜的、潛在的關(guān)聯(lián)任務(wù)(例如,詞語(yǔ)級(jí)情感傾向性判斷與短語(yǔ)級(jí)情感傾向性判斷的關(guān)聯(lián))時(shí)表現(xiàn)得力所不及。

據(jù)此,本文提出一種擴(kuò)展式的條件隨機(jī)場(chǎng)模型YACRFs (Yet Another Condition Random Fields) 對(duì)短語(yǔ)進(jìn)行情感傾向性分析。YACRFs是在CRFs模型的基礎(chǔ)上進(jìn)行擴(kuò)展,將詞語(yǔ)級(jí)與短語(yǔ)級(jí)的情感傾向性判斷問(wèn)題有效地關(guān)聯(lián)起來(lái),同步實(shí)現(xiàn)詞語(yǔ)級(jí)的傾向性判斷與短語(yǔ)情感傾向性判斷,通過(guò)詞語(yǔ)級(jí)情感傾向性對(duì)短語(yǔ)級(jí)情感傾向性產(chǎn)生的直接或間接影響提高短語(yǔ)情感傾向性判斷的結(jié)果。由于目前沒(méi)有公開(kāi)的短語(yǔ)情感傾向性標(biāo)注語(yǔ)料庫(kù),因此首先構(gòu)造小規(guī)模的短語(yǔ)情感傾向性類(lèi)別信息標(biāo)注語(yǔ)料庫(kù)。在此基礎(chǔ)上,對(duì)該語(yǔ)料進(jìn)行句法分析,獲取短語(yǔ)。本文所指短語(yǔ)亦由具有某種特定句法關(guān)系的連續(xù)或非連續(xù)的詞語(yǔ)組構(gòu)成。例如,表1例子中的句子“在一般情況下,官方發(fā)布消息講求準(zhǔn)確、真實(shí),因而在未弄清事實(shí)之前會(huì)惜墨如金”就由“在一般情況下”、“官方發(fā)布消息”、“講求準(zhǔn)確、真實(shí)”、“在未弄清事實(shí)之前”、“惜墨如金”等幾個(gè)短語(yǔ)構(gòu)成。進(jìn)而,本文將短語(yǔ)情感傾向性分視作對(duì)短語(yǔ)的情感傾向性類(lèi)別信息的標(biāo)注問(wèn)題,即給定任意一條短語(yǔ)NP或VP,判定它的情感傾向性為(0/-1/1)。本文采用了3類(lèi)特征,包括情感詞匯特征、規(guī)則模板特征、詞性特征。實(shí)驗(yàn)結(jié)果證明,本文提出方法有效提高了短語(yǔ)情感傾向性判斷的準(zhǔn)確率。相比傳統(tǒng)的情感傾向性分析方法取得了最高準(zhǔn)確率81.07%的值。模型中使用的3類(lèi)特征對(duì)提高短語(yǔ)情感傾向性的判斷具有顯著幫助。進(jìn)一步,將短語(yǔ)級(jí)的結(jié)果應(yīng)用于句子情感傾向性分析的實(shí)驗(yàn),得到了94.3%的準(zhǔn)確率,從而證明了本文提出方法的實(shí)際應(yīng)用價(jià)值。

本文的貢獻(xiàn)包含以下兩點(diǎn): (1)本文率先提出將短語(yǔ)情感傾向性分析問(wèn)題作為序列標(biāo)注問(wèn)題加以解決。由于短語(yǔ)情感傾向性的復(fù)雜性,單一地對(duì)短語(yǔ)進(jìn)行情感傾向性分析或是通過(guò)詞語(yǔ)的情感傾向性分析間接想得到短語(yǔ)的情感傾向性分析往往準(zhǔn)確率不高。而在條件隨機(jī)場(chǎng)模型的框架下我們可以方便地對(duì)其進(jìn)行擴(kuò)展,融合多種特征,實(shí)現(xiàn)多層級(jí)的情感傾向性的標(biāo)注,從而更好地解決短語(yǔ)情感傾向性的問(wèn)題;(2)本文人工構(gòu)造了小規(guī)模的短語(yǔ)情感傾向性標(biāo)注語(yǔ)料庫(kù)供實(shí)驗(yàn)所用,望該語(yǔ)料庫(kù)對(duì)后期實(shí)驗(yàn)有所貢獻(xiàn)。

2 模型

2.1 短語(yǔ)獲取

短語(yǔ)是由兩個(gè)或兩個(gè)以上的詞語(yǔ)組合構(gòu)成的。在計(jì)算語(yǔ)言學(xué)中,短語(yǔ)可以是具有一定句法關(guān)系的詞語(yǔ)組,也可以是不具有任何關(guān)系的連續(xù)詞語(yǔ)組。在短語(yǔ)識(shí)別及獲取的研究中,研究者多是針對(duì)具有一定句法關(guān)系的詞語(yǔ)組開(kāi)展相應(yīng)的研究。本文亦是針對(duì)具有一定句法關(guān)系的短語(yǔ),開(kāi)展情感傾向性的分析。本文采用Stanford Parser句法分析器*http://nlp.stanford.edu/software/lex-parser.shtml來(lái)獲取相應(yīng)的短語(yǔ)。如圖1所示為本文抽取的短語(yǔ)示例(樹(shù)狀表示) 。

圖1 短語(yǔ)表示示例(樹(shù)狀表示)

2.2 特征選取

本文在實(shí)現(xiàn)短語(yǔ)情感傾向性分析過(guò)程中,共使用了三類(lèi)特征。具體包括:

(1) 情感詞匯特征(Polarity): 情感詞匯特征是指由情感詞匯構(gòu)成的特征集。情感詞匯是指那些能夠表達(dá)支持/反對(duì)或者喜歡/厭惡等意見(jiàn)或情感傾向的詞。情感詞匯的極性包含正(即支持/喜歡)、負(fù)(即反對(duì)/厭惡)和中性等3種。以動(dòng)詞極性詞為例,高興、欣賞、快樂(lè)等詞的極性為正;而討厭、失敗、憎恨等詞的極性為負(fù);寫(xiě)、做、工作等詞的極性為中性。一般而言,除非包含改變一個(gè)詞或者短語(yǔ)情感極性的另外的詞,否則,包含情感極性詞的短語(yǔ)與該情感詞匯的極性一致。

由于目前情感詞匯詞典收錄有限,本文考慮將同義詞或同類(lèi)詞也納入到情感詞匯特征行列,即假設(shè)同義詞或同類(lèi)詞具有相同的情感傾向。在同義詞或同類(lèi)詞的計(jì)算中,許多學(xué)者利用WordNet等類(lèi)義詞典計(jì)算詞的語(yǔ)義相似度。最簡(jiǎn)單的一類(lèi)計(jì)算語(yǔ)義相似度的方法便是計(jì)算兩個(gè)詞在該樹(shù)狀結(jié)構(gòu)上的距離。簡(jiǎn)單地講,兩個(gè)詞之間的距離越短,則相似度越大。本文采用潛在語(yǔ)義分析(Latent Semantic Analysis, LSA)算法實(shí)現(xiàn)兩個(gè)詞之間的距離。

(2) 規(guī)則模板特征(Pattern)。規(guī)則模板特征是指由本文設(shè)計(jì)的具有一定句法關(guān)系的詞語(yǔ)組構(gòu)成的連續(xù)或非連續(xù)的模板構(gòu)成的特征集。因此,此處規(guī)則并非語(yǔ)言學(xué)意義上的規(guī)則,而是根據(jù)設(shè)計(jì)的具有一定的句法關(guān)系的模板抽取出大量的特征。初始設(shè)計(jì)的模板包含改變一個(gè)詞或者短語(yǔ)情感極性的另外的詞,即詞之間相互影響情感傾向性。比如由否定詞構(gòu)成的規(guī)則模板。因此,規(guī)則模板特征所表現(xiàn)的既是詞語(yǔ)之間的直接關(guān)聯(lián)關(guān)系,也是短語(yǔ)內(nèi)部詞語(yǔ)之間的隱含關(guān)系。

規(guī)則模板的構(gòu)造是在選取一定的產(chǎn)生情感傾向性改變?cè)~的基礎(chǔ)上,在指定的窗口內(nèi)與其具有一定的句法關(guān)系的詞構(gòu)成。

(3) 詞性特征(Part of Speech, POS): 詞性特征是指由詞語(yǔ)的詞性構(gòu)成的特征。詞性作為詞語(yǔ)本身固有的特性也將會(huì)影響一個(gè)詞語(yǔ)的情感傾向。比如,形容詞多為帶有情感色彩的詞語(yǔ),一般而言,形容詞的情感傾向不是正就是負(fù)。而且有些詞取不同的詞性時(shí)其情感傾向性不一樣,例如,“對(duì)”這個(gè)詞當(dāng)作為介詞時(shí)其情感傾向?yàn)橹行裕?dāng)作動(dòng)詞時(shí)其情感傾向?yàn)檎?。而詞語(yǔ)的情感傾向性是直接影響短語(yǔ)情感傾向性的一個(gè)重要因素。因此,在短語(yǔ)的情感傾向性判斷過(guò)程中詞語(yǔ)的詞性也是一個(gè)重要的特征之一。

2.3 情感傾向類(lèi)別標(biāo)注模型

本文將短語(yǔ)的情感傾向性判斷問(wèn)題轉(zhuǎn)化為序列標(biāo)注問(wèn)題。目前應(yīng)用于自動(dòng)標(biāo)注的模型有很多,例如,自動(dòng)轉(zhuǎn)換機(jī)、隱馬爾可夫模型、最大熵模型、支持向量機(jī)和條件隨機(jī)場(chǎng)模型等。條件隨機(jī)場(chǎng)模型在目前的應(yīng)用中得到了state-of-the-art的結(jié)果[18]。

CRFs是一個(gè)無(wú)向圖模型的框架,它能夠被用來(lái)定義在給定一組需要標(biāo)記的觀察序列的條件下,求解一個(gè)標(biāo)記序列的概率分布。

定義1 假設(shè)X={xt},Y={yt}(t=1,…,T) 分別表示需要標(biāo)記的觀察序列和它相應(yīng)的標(biāo)記序列的分布隨機(jī)變量,那么CRFs(X,Y)就是一個(gè)以觀察序列X為條件的無(wú)向圖模型。在給定觀察序列X的條件下, 標(biāo)記序列Y的概率分布如式(1)~(2)所示。

(1)

(2)

鏈?zhǔn)綏l件隨機(jī)場(chǎng)模型(Linear-Chain Condition Random Fields, LCRFs) 是目前在自然語(yǔ)言處理任務(wù)中比較常用的一種CRFs模型,可以說(shuō)是條件隨機(jī)場(chǎng)模型中的一個(gè)特例。但是目前的LCRFs模型無(wú)法同步實(shí)現(xiàn)詞語(yǔ)級(jí)的情感傾向性和短語(yǔ)的情感傾向性判斷任務(wù),而詞語(yǔ)級(jí)和短語(yǔ)級(jí)的情感傾向性存在復(fù)雜的關(guān)聯(lián)關(guān)系,相互影響其情感傾向性的判斷。為此,本文提出采用一種擴(kuò)展式的條件隨機(jī)場(chǎng)模(Yet Another Condition Random Fields, YACRFs) 來(lái)處理該問(wèn)題。圖2顯示了鏈?zhǔn)紺RFs與擴(kuò)展式CRFs的簡(jiǎn)單例子,圖2(a)為L(zhǎng)CRFs模型,圖2(b)為YACRFs模型。

圖2(a) LCRFs模型簡(jiǎn)單例子

定義2 設(shè)G=是一個(gè)線性鏈條件隨機(jī)場(chǎng)。X是序列觀測(cè)數(shù)據(jù)隨機(jī)變量,Y是狀態(tài)標(biāo)注序列隨機(jī)變量。YACRFs可定義為式(3)。

YACRFs仍是一個(gè)無(wú)向圖模型,圖中節(jié)點(diǎn)表示隨機(jī)變量,邊是節(jié)點(diǎn)與節(jié)點(diǎn)之間的某種概率依賴關(guān)系。如圖2(b)所示節(jié)點(diǎn)構(gòu)成了3個(gè)鏈?zhǔn)浇Y(jié)構(gòu),其中x鏈?zhǔn)强捎^察的詞語(yǔ)序列(xij表示第i個(gè)短語(yǔ)的第j個(gè)單詞),y鏈?zhǔn)窃~語(yǔ)的情感傾向類(lèi)別,z鏈為短語(yǔ)的情感傾向類(lèi)別。同時(shí),x,y,z之間又構(gòu)成了一個(gè)團(tuán)(Clique),即C為由這三個(gè)鏈中節(jié)點(diǎn)構(gòu)成的一個(gè)集合。而在LCRFs模型中xi表示第i個(gè)短語(yǔ),yi表示第i個(gè)短語(yǔ)的情感傾向類(lèi)別??梢钥闯?,YACRFs模型中短語(yǔ)的情感類(lèi)別信息被更細(xì)致化,在模型的構(gòu)建中考慮到了詞語(yǔ)的情感傾向性類(lèi)別信息對(duì)其產(chǎn)生的影響。詞語(yǔ)情感傾向類(lèi)別的值與特征fi以及yi-1相關(guān),而短語(yǔ)的情感傾向類(lèi)別zi的值與特征fi與yi有關(guān)。

2.4 參數(shù)估計(jì)與推理

進(jìn)一步對(duì)上述公式(4)求偏導(dǎo)數(shù),得到式(5)。

為了減少過(guò)度擬合造成的損失,往往通過(guò)減去一個(gè)估計(jì)量λk/σ2實(shí)現(xiàn)。利用L-BFGS(LimitedMemoryBFGS)算法可對(duì)參數(shù)訓(xùn)練過(guò)程進(jìn)行進(jìn)一步的優(yōu)化。

推理(Inference)過(guò)程也稱(chēng)為解碼(Decoding)過(guò)程,即根據(jù)已知訓(xùn)練模型,對(duì)未知變量的解釋或推理。在本文中,即根據(jù)已知訓(xùn)練模型,獲取短語(yǔ)的情感傾向類(lèi)別。本文采用Viterbi算法實(shí)現(xiàn)整個(gè)解碼過(guò)程。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

目前,尚未發(fā)現(xiàn)有可供公開(kāi)評(píng)測(cè)短語(yǔ)情感傾向性的語(yǔ)料庫(kù)。因此,本文首先需要構(gòu)造訓(xùn)練和測(cè)試的語(yǔ)料庫(kù)。本文采用的中文語(yǔ)料來(lái)源于網(wǎng)絡(luò)產(chǎn)品評(píng)論文本。

語(yǔ)料庫(kù)的構(gòu)造步驟包括: 首先整理評(píng)論文本語(yǔ)料,并對(duì)評(píng)論文本進(jìn)行預(yù)處理,包括去除語(yǔ)言不規(guī)范、繁體以及內(nèi)容重復(fù)的內(nèi)容;然后將篇章級(jí)的文檔轉(zhuǎn)換為句子級(jí)的文檔,以一句一行的格式存儲(chǔ);最后,利用句法分析器抽取短語(yǔ)。本文共抽取了28 000條短語(yǔ)。

短語(yǔ)情感傾向性標(biāo)注語(yǔ)料庫(kù)的構(gòu)造流程包括: (1)由兩名標(biāo)注者分別對(duì)抽取的短語(yǔ)進(jìn)行獨(dú)立標(biāo)注,每條短語(yǔ)被標(biāo)注為三個(gè)值{1,-1,0}(0:中性,1: 褒義/正,-1: 貶義/反);(2)計(jì)算兩名標(biāo)注者的一致性,通過(guò)計(jì)算Kappa值來(lái)選取結(jié)果,如果Kappa值超過(guò)0.8,則說(shuō)明兩者標(biāo)注結(jié)果的一致性很高,保留該短語(yǔ)的情感信息,否則去掉該短語(yǔ)。依照上述過(guò)程,本文共從上述候選的短語(yǔ)中得到25 000條短語(yǔ)。

本文采用的評(píng)價(jià)指標(biāo)僅為準(zhǔn)確率P。具體定義為P=|A∩B|/|A|。其中A表示分類(lèi)器識(shí)別為正例的數(shù)據(jù)集合,B表示人工標(biāo)注為正例的數(shù)據(jù)集合。

3.2 實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

本文實(shí)驗(yàn)包括3部分: (1)為驗(yàn)證本文提出方法的有效性,開(kāi)展了與傳統(tǒng)的情感傾向性分析方法的對(duì)比實(shí)驗(yàn);(2)為了驗(yàn)證本文提出統(tǒng)計(jì)分類(lèi)方法的有效性以及不同特征對(duì)統(tǒng)計(jì)模型產(chǎn)生的影響,開(kāi)展了幾類(lèi)統(tǒng)計(jì)計(jì)算模型以及在其基礎(chǔ)上加入不同特征的對(duì)比實(shí)驗(yàn);(3)將抽取得到的短語(yǔ)結(jié)果應(yīng)用到句子情感分析,以驗(yàn)證本文提出方法的實(shí)際應(yīng)用價(jià)值。

3.2.1 與傳統(tǒng)的情感傾向性分析方法的比較

本文實(shí)驗(yàn)共設(shè)計(jì)了三組模型供對(duì)比分析。(1) 分層模型(CascadedModel)。第一層是對(duì)詞語(yǔ)進(jìn)行情感傾向性判斷,首先根據(jù)HowNet情感詞匯庫(kù)中的詞為基本詞匯,去掉停用詞以及不常用的詞匯;第二層對(duì)短語(yǔ)進(jìn)行情感傾向性判斷,此時(shí)第一層的詞語(yǔ)情感傾向性判斷的結(jié)果是該層的輸入,會(huì)根據(jù)第一層的結(jié)果和相應(yīng)的規(guī)則,對(duì)短語(yǔ)進(jìn)行情感傾向性判斷;(2) 投票競(jìng)爭(zhēng)(Voting)模型。短語(yǔ)的情感傾向通過(guò)詞語(yǔ)的情感傾向性投票競(jìng)爭(zhēng)而產(chǎn)生。Voting模型需要設(shè)置Voting規(guī)則。本文簡(jiǎn)單設(shè)置了Voting規(guī)則,即包含1值的高則短語(yǔ)的傾向值取1,包含-1值的高則短語(yǔ)情感傾向值取-1,否則短語(yǔ)的情感傾向值為0;(3)統(tǒng)計(jì)分類(lèi)模型(StatisticalModel)。統(tǒng)計(jì)模型對(duì)數(shù)據(jù)進(jìn)行建模,可以挖掘真實(shí)文本中潛在的關(guān)聯(lián)模式。此處實(shí)驗(yàn)中采用的統(tǒng)計(jì)模型是本文提出的YACRFs模型,該模型采用的特征是本文設(shè)計(jì)的所有三類(lèi)特征。

之所以選擇以上三類(lèi)模型進(jìn)行對(duì)比實(shí)驗(yàn)是因?yàn)樗鼈兎謩e代表了不同的思想。首先本文設(shè)計(jì)的情感傾向性分析模型YACRFs的主旨思想是基于概率統(tǒng)計(jì)的思想,而且就目前而言,概率統(tǒng)計(jì)模型在自然語(yǔ)言處理、人工智能和模式識(shí)別等領(lǐng)域的應(yīng)用相當(dāng)廣泛;其次本文設(shè)計(jì)的分層模型Cascaded的主要思想是基于規(guī)則的方法,而基于規(guī)則的方法是基于語(yǔ)言學(xué)基礎(chǔ)的,在面向自然語(yǔ)言信息處理的研究過(guò)程中其份量仍然是不可小視;投票競(jìng)爭(zhēng)(Voting)模型是最為簡(jiǎn)單的方法,可以說(shuō)是一種折中的方法。利用詞語(yǔ)的情感傾向性結(jié)果,通過(guò)投票決定短語(yǔ)的情感傾向性。

表2 三組模型對(duì)比實(shí)驗(yàn)結(jié)果

從表2三組模型的對(duì)比實(shí)驗(yàn)結(jié)果可以看出以下結(jié)論: 本文設(shè)計(jì)的統(tǒng)計(jì)計(jì)算模型得到了最高的值,其次為Cascaded 模型,Voting模型的結(jié)果最為差。Cascaded 模型和Voting模型都較強(qiáng)地依賴情感詞典,首先通過(guò)搜尋情感詞匯判斷詞語(yǔ)的情感傾向性,而本文實(shí)驗(yàn)中設(shè)計(jì)的語(yǔ)料中26%的短語(yǔ)隱含情感詞匯,還有35%的短語(yǔ)中的情感詞匯屬于未登錄詞(Out of Vocabulary, OOV),因此在第一步得到的結(jié)果就可能達(dá)不到令人滿意的效果。在下一步Cascaded 模型將會(huì)根據(jù)本文設(shè)計(jì)的規(guī)則模板,最終確定短語(yǔ)的情感傾向,只要符合規(guī)則模板的詞語(yǔ)組將會(huì)得到正確的情感傾向。但是Voting模型完全是通過(guò)投票,即誰(shuí)的(正、負(fù)以及中性)投票結(jié)果多,短語(yǔ)的情感傾向性將會(huì)跟誰(shuí)一致。這樣的判斷不可以說(shuō)完全錯(cuò)誤,但是針對(duì)隱含情感詞匯的短語(yǔ)而言是無(wú)法得到正解的。例如,“坐不住”該短語(yǔ)的情感傾向性為“負(fù)”,但是投票過(guò)程中“坐”和“住”的情感傾向?yàn)椤爸行浴?,即便“不”的情感傾向?yàn)椤柏?fù)”,該短語(yǔ)的情感傾向仍為“中性”而不是“負(fù)”。統(tǒng)計(jì)模型之所以可以得到較好的結(jié)果,是因?yàn)樵谝欢ㄒ?guī)模的訓(xùn)練集內(nèi),對(duì)數(shù)據(jù)進(jìn)行建模,可以挖掘真實(shí)文本中隱含的信息。因此,針對(duì)具有隱含情感信息的詞匯以及未登錄詞匯的問(wèn)題,統(tǒng)計(jì)模型較之規(guī)則方法和投票競(jìng)爭(zhēng)的折中方法可以得到更好的效果。

3.2.2 與典型的幾類(lèi)統(tǒng)計(jì)計(jì)算模型以及在其基礎(chǔ)上分別加入不同的特征的對(duì)比

除了上述三種方法的對(duì)比實(shí)驗(yàn)之外,本文還分別采用四種統(tǒng)計(jì)計(jì)算模型進(jìn)行對(duì)比實(shí)驗(yàn): 隱馬爾可夫模型(Hidden Markov Model, HMM)、支持向量機(jī)(SVM*http://www.csie.ntu.edu.tw/~cjlin/libsvm/)、條件隨機(jī)場(chǎng)(CRFs*http://mallet.cs.umass.edu/grmm/index.php)以及一種擴(kuò)展式條件隨機(jī)場(chǎng)模型(YACRFs)。HMM是典型的產(chǎn)生式模型,而實(shí)驗(yàn)中采用的其他三個(gè)模型(SVM, CRFs, YACRFs)屬于判別式模型。同時(shí)為了驗(yàn)證不同特征對(duì)統(tǒng)計(jì)模型產(chǎn)生的影響,在實(shí)驗(yàn)中針對(duì)本文設(shè)計(jì)的三類(lèi)特征: 情感詞匯(Polarity)、規(guī)則模板 (Pattern)以及詞性類(lèi)別信息(POS)分別作了相應(yīng)的實(shí)驗(yàn)。之所以設(shè)計(jì)該實(shí)驗(yàn)首先是因?yàn)楸疚脑O(shè)計(jì)的情感傾向性分析模型的主旨思想是基于概率統(tǒng)計(jì)模型,為了驗(yàn)證本文提出方法的優(yōu)越性,與幾種典型的概率統(tǒng)計(jì)模型進(jìn)行了對(duì)比實(shí)驗(yàn)。其次是驗(yàn)證統(tǒng)計(jì)模型在采取不同特征時(shí)的不同效果以及本文選取特征的優(yōu)越性。實(shí)驗(yàn)結(jié)果如表3所示。

表3 四種統(tǒng)計(jì)模型對(duì)比實(shí)驗(yàn)結(jié)果

從表3四種統(tǒng)計(jì)模型對(duì)比實(shí)驗(yàn)結(jié)果可以得到如下的結(jié)果: (1) 本文設(shè)計(jì)的YACRFs模型的結(jié)果最好,HMM的效果比SVM的效果好,但是不及CRFs;(2)不同的特征對(duì)不同模型有不同的貢獻(xiàn)度。具體而言,HMM模型采用規(guī)則模板特征的效果要比引入情感詞匯特征的要高,但是判別式模型的結(jié)果卻是采用情感詞匯特征的效果要比利用規(guī)則模板特征的要高。從這一結(jié)果分析,判別式模型(SVM, CRFs, YACRFs)對(duì)粒度細(xì)致的特征有更好的效果;而產(chǎn)生式模型(HMM)可以能更好地抓住內(nèi)在聯(lián)系。從分別采用三類(lèi)特征的結(jié)果來(lái)看,判別式模型在采用情感詞匯特征時(shí)的效果最好,而產(chǎn)生式模型采用規(guī)則模板特征時(shí)的結(jié)果最好;從聯(lián)合使用三類(lèi)特征的結(jié)果來(lái)看,并非所有模型在使用三類(lèi)特征時(shí)都取得了較好的結(jié)果。從結(jié)果可以看到的一點(diǎn)是“情感詞匯特征”與“規(guī)則模板特征”的聯(lián)合使用并沒(méi)有得到預(yù)想的效果。HMM模型和SVM模型在此兩種特征的混合特征的情況下得到的結(jié)果都比分別采用的結(jié)果低。而CRFs和YACRFs模型在三類(lèi)特征混合的情況下都得到了最高值??梢哉f(shuō)明條件隨機(jī)場(chǎng)模型在特征使用過(guò)程中的優(yōu)越性。

3.2.3 應(yīng)用于句子情感傾向性分析中的實(shí)驗(yàn)

本文為了驗(yàn)證短語(yǔ)情感傾向性分析結(jié)果對(duì)句子情感傾向性分析過(guò)程中產(chǎn)生的影響,將詞語(yǔ)級(jí)(word)的結(jié)果對(duì)句子產(chǎn)生的影響以及短語(yǔ)級(jí)(phrase)的結(jié)果對(duì)句子產(chǎn)生的影響進(jìn)行了對(duì)比。本節(jié)采用的模型是Voting模型以及CRFs模型。本部分采用的句子級(jí)的測(cè)試數(shù)據(jù)包括2 000條句子,來(lái)源于構(gòu)造短語(yǔ)情感傾向性語(yǔ)料時(shí)用到的網(wǎng)絡(luò)產(chǎn)品評(píng)論文本的句子級(jí)結(jié)果。

表4 詞語(yǔ)級(jí)和短語(yǔ)級(jí)的結(jié)果對(duì)句子級(jí)的情感分析產(chǎn)生影響的對(duì)比實(shí)驗(yàn)

對(duì)表4實(shí)驗(yàn)結(jié)果縱向分析,CRFs的結(jié)果相差5.05%,而Voting系統(tǒng)的結(jié)果差異比較大,準(zhǔn)確率相差19.63%。很明顯,句子情感傾向分析結(jié)果由于短語(yǔ)級(jí)的應(yīng)用得到了更高的值。Voting系統(tǒng)是直接利用正、負(fù)或中性的個(gè)數(shù)競(jìng)爭(zhēng)來(lái)決定情感傾向。顯然,將句子劃分成幾個(gè)短語(yǔ),再通過(guò)短語(yǔ)的情感傾向判斷句子的情感傾向比以詞為單位通過(guò)單個(gè)詞顯示的情感信息判斷句子的情感傾向更有利;從橫向分析的話,就基于短語(yǔ)的系統(tǒng)(Voting和CRFs)之間的差異相比應(yīng)用詞語(yǔ)而言要小不少。說(shuō)明,短語(yǔ)級(jí)的情感傾向性分析對(duì)系統(tǒng)性能的提高都有一定的幫助,尤其是針對(duì)一些弱勢(shì)的系統(tǒng)。將句子投影到短語(yǔ)空間時(shí),可以說(shuō)是通過(guò)建立詞與詞之間的關(guān)系,再到詞與短語(yǔ)之間的關(guān)系,然后到短語(yǔ)與短語(yǔ)之間的關(guān)系,最后確定句子的情感傾向性。這樣的過(guò)程,可以解決詞與詞之間的相互關(guān)系改變其情感傾向的問(wèn)題,而將句子投影到詞與空間是無(wú)法做到這一步的。

4 結(jié)論

本文提出了一種擴(kuò)展式條件隨機(jī)場(chǎng)模型進(jìn)行短語(yǔ)的情感傾向性分析的研究。該模型擴(kuò)展了傳統(tǒng)的條件隨機(jī)場(chǎng)模型,解決了詞語(yǔ)和短語(yǔ)不能同步標(biāo)注的問(wèn)題,并綜合使用了3類(lèi)特征,即: 情感詞匯特征、規(guī)則模板特征以及詞性特征。實(shí)驗(yàn)結(jié)果表明,本文采用的情感傾向性類(lèi)別標(biāo)注模型和 3類(lèi)特征對(duì)于短語(yǔ)情感傾向性判斷都是有效的。進(jìn)一步地,應(yīng)用于句子級(jí)情感傾向性的實(shí)驗(yàn)證明了本文方法更具實(shí)際意義。

[1] Bo Pang, Lillian Lee. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008,2(1-2):1-135.

[2] Turney Peter. Thumbs up or thumbs down? Semantic orientation applied to unsupervised classi?cation of reviews[C]//Proceedings of 40th Meeting of the Association for Computational Linguistics, Philadelphia, PA.2002: 417-424.

[3] Jaap Kamps, Maarten Marx, Robert J Mokken, et al. Using wordnet to measure semantic orientation of adjectives[C]//Proceedings of the 4th International Conference on Language Resources and Evaluation (LREC 2004), 2004,4: 1115-1118.

[4] Amit Goyal, Hal Daum’e III. Generating Semantic Orientation Lexicon using Large Data and Thesaurus[C]//Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis, Portland, Oregon, USA, ACL-HLT 2011: 37-43.

[5] 朱嫣嵐,閔錦,周雅倩等. 基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1):14-20.

[6] 李純,喬保軍,曹元大,等.基于語(yǔ)義分析的詞匯傾向識(shí)別研究[J]. 模式識(shí)別與人工智能,2008,21(4) :482-487.

[7] 杜偉夫,譚松波,程學(xué)旗.一種新的情感詞匯語(yǔ)義傾向計(jì)算方法[J].計(jì)算機(jī)研究與發(fā)展.2009,46(10) : 1713-1720.

[8] Esuli Andrea, Fabrizio Sebastiani. SentiWordNet: A publicly available lexical resource for opinion mining[C]//Proceedings of 5th International Conference on Language Resources and Evaluation (LREC), Genoa. 2006: 417-422.

[9] Delip Rao, Deepak Ravichandran. Sem-Supervised Polarity Lexicon Induction[C]//Proceedings of EACL.2009: 675-682.

[10] Daisuke Ikeda, Hiroya Takamura, Lev-Arie Ratinov, et al. Learning to Shift the Polarity of Words for Sentiment Classification[C]//Proceedings of the 3rd International Joint Conference on Natural Language Processing,2008: 296-303.

[11] Shotaro Matsumoto, Hiroya Takamura, Manabu Okumura. Sentiment classification using word sub-sequences and dependency sub-trees[C]//Proceedings of PAKDD’05, Lecture Notes in Computer Science, 2005: 301-311.

[12] Ryan McDonald, Kerry Hannan, Tyler Neylon, et al. Structured Models for Fine-to-Coarse Sentiment Analysis[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, Prague, Czech Republic, 2007: 432-439.

[13] Tetsuji Nakagawa, Kentaro Inuiand Sadao Kurohashi. Dependency Tree-based Sentiment Classification using CRFs with Hidden[C]//Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the ACL, Los Angeles, California, 2010: 786-794.

[14] Theresa Wilson, Janyce Wiebe, Paul Hoffmann. Recognizing contextual polarity in phrase level sentiment analysis[C]//Proceedings of the 2005 Human Language Technology Conference and the Conference on Empirical Methods in Natural Language Processing (HLT/EMNLP-05), Vancouver, 2005: 347-354.

[15] Theresa Wilson, Janyce Wiebe, Paul Hoffmann. Recognizing Contextual Polarity: an exploration of features for phrase-level sentiment analysis[J]. Computational Linguistics. 2009,35(3): 347-354.

[16] Hiroya Takamura, Takashi Inui, Manabu Okumura. Latent Variables Models for Semantic Orientation of Phrases[C]//Proceedings of 11th Conference of the European Chapter of the Association for Computational Linguistics. 2006: 201-208.

[17] Hiroya Takamura, Takashi Inui. Extracting Semantic Orientations of Phrases from Dictionary[C]//Proceedings of NAACL HLT 2007, Rochester, NY, 2007: 292-299.

[18] Charles Sutton, Andrew McCallum, Khashayar Rohanimanesh. Dynamic Conditional Random Fields: Factorized Probabilistic Models for Labeling and Segmenting Sequence Data[J]. Journal of Machine Learning Research . 2007:693-723.

[19] 李本陽(yáng),關(guān)毅,董喜雙,等,基于單層標(biāo)注級(jí)聯(lián)模型的篇章情感傾向分析[J].中文信息學(xué)報(bào),2012,26(4):9-20.

烏達(dá)巴拉(1981—),碩士,助理研究員,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、情感分析、模式識(shí)別。E?mail:hwdbl@126.com汪增福(1960—),博士,研究員,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)橐暵?tīng)覺(jué)信息處理、模式識(shí)別、智能機(jī)器人。E?mail:zfwang@ustc.edu.cn

中國(guó)中文信息學(xué)會(huì)頒發(fā)2014年度“錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”“漢王青年創(chuàng)新獎(jiǎng)”及“拓爾思優(yōu)秀博士學(xué)位論文獎(jiǎng)”

2014年12月20—21日, 中國(guó)中文信息學(xué)會(huì)學(xué)術(shù)年會(huì)暨理事會(huì)在北京中國(guó)科技會(huì)堂隆重舉行,會(huì)上頒發(fā)了“錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”,“漢王青年創(chuàng)新獎(jiǎng)”,以及中國(guó)中文信息學(xué)會(huì)優(yōu)秀博士學(xué)位論文“拓爾思優(yōu)秀博士學(xué)位論文獎(jiǎng)”;邀請(qǐng)了6位專(zhuān)家進(jìn)行了學(xué)術(shù)報(bào)告。來(lái)自中國(guó)科協(xié)、民政部、教育部、國(guó)家自然科學(xué)基金委等部委的領(lǐng)導(dǎo)和中文信息處理領(lǐng)域的專(zhuān)家學(xué)者420余人參加了本次會(huì)議。

大會(huì)開(kāi)幕式由中國(guó)中文信息學(xué)會(huì)副理事長(zhǎng)兼秘書(shū)長(zhǎng)、中國(guó)科學(xué)院軟件研究所孫樂(lè)研究員主持。中國(guó)中文信息學(xué)會(huì)理事長(zhǎng)李生教授致歡迎詞,中國(guó)科協(xié)副主席、黨組副書(shū)記、書(shū)記處張勤書(shū)記,民政部民間組織管理局廖鴻局長(zhǎng),教育部語(yǔ)言文字信息管理司張浩明司長(zhǎng),基金委劉克處長(zhǎng)做了重要講話,肯定了學(xué)會(huì)工作所取得的成績(jī),從不同的角度分析了中文信息處理的應(yīng)用需求與戰(zhàn)略發(fā)展。廖鴻局長(zhǎng)還向?qū)W會(huì)頒發(fā)了學(xué)會(huì)在民政部2014年評(píng)估中獲得的4A等級(jí)證書(shū)。

“錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”是經(jīng)科技部批準(zhǔn)設(shè)立的中文信息處理領(lǐng)域的最高科學(xué)技術(shù)獎(jiǎng),主要授予該領(lǐng)域在基本方法或關(guān)鍵技術(shù)上有原始創(chuàng)新或重大突破,對(duì)推動(dòng)我國(guó)中文信息處理事業(yè)或行業(yè)進(jìn)步起到重要作用,創(chuàng)造出較大經(jīng)濟(jì)效益或社會(huì)效益的項(xiàng)目或個(gè)人。2014年評(píng)選產(chǎn)生了“錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)獎(jiǎng)”一等獎(jiǎng)兩項(xiàng)、二等獎(jiǎng)1項(xiàng),兩項(xiàng)一等獎(jiǎng)分別授予了中國(guó)科學(xué)院計(jì)算技術(shù)研究所程學(xué)旗、沈華偉等完成的“社會(huì)化媒體數(shù)據(jù)的分析與檢索”,中國(guó)科學(xué)院自動(dòng)化研究所宗成慶等完成的“多語(yǔ)種信息采集處理與分析系統(tǒng)”;二等獎(jiǎng)授予了西北民族大學(xué)于洪志等完成的“云環(huán)境的藏語(yǔ)遠(yuǎn)程教育系統(tǒng)”。

“漢王青年創(chuàng)新獎(jiǎng)”設(shè)立于2010年,主要授予在中文信息處理領(lǐng)域做出突出貢獻(xiàn)的青年學(xué)者。2014年該獎(jiǎng)項(xiàng)分別授予了清華大學(xué)計(jì)算機(jī)系的劉洋副研究員和中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室的劉康副研究員。

中國(guó)中文信息學(xué)會(huì)優(yōu)秀博士學(xué)位論文“拓爾思優(yōu)秀博士論文獎(jiǎng)”于今年首次頒發(fā),該獎(jiǎng)項(xiàng)專(zhuān)項(xiàng)基金由北京拓爾思信息技術(shù)股份有限公司捐資并設(shè)立,旨在鼓勵(lì)中文信息處理領(lǐng)域的博士研究生在讀博期間面向前沿方向、立足原始創(chuàng)新、開(kāi)拓進(jìn)取,勇創(chuàng)世界領(lǐng)先的研究成果。首屆優(yōu)秀博士論文獎(jiǎng)由清華大學(xué)計(jì)算機(jī)系布凡同學(xué)獲得,論文題目是《文本信息度量研究》;優(yōu)秀博士論文提名獎(jiǎng)分別由北京大學(xué)計(jì)算機(jī)學(xué)院的王泉和東北大學(xué)計(jì)算機(jī)學(xué)院的肖桐獲得,其論文題目分別為《正則化潛在語(yǔ)義索引: 一種新型大規(guī)模話題建模方法》和《樹(shù)到樹(shù)統(tǒng)計(jì)機(jī)器翻譯優(yōu)化學(xué)習(xí)及解碼方法研究》。

學(xué)術(shù)年會(huì)上6位國(guó)內(nèi)著名專(zhuān)家進(jìn)行學(xué)術(shù)報(bào)告,他們分別是上海交通大學(xué)副校長(zhǎng)梅宏院士、中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所沈家煊學(xué)部委員,中國(guó)科學(xué)院計(jì)算技術(shù)研究所倪光南院士、北京大學(xué)金芝教授、中山大學(xué)張軍教授以及百度公司沈抖博士,他們從不同角度闡述了中文信息處理領(lǐng)域的前沿動(dòng)態(tài)及未來(lái)趨勢(shì),深入分析了計(jì)算機(jī)、語(yǔ)言、認(rèn)知等學(xué)科的充分交叉與融合,有力地促進(jìn)了中文信息處理領(lǐng)域的理論創(chuàng)新、技術(shù)交流與產(chǎn)學(xué)研合作。

學(xué)術(shù)年會(huì)后,中國(guó)中文信息學(xué)會(huì)第7屆理事會(huì)第4次全體會(huì)議上,全體理事討論了2014年度工作報(bào)告,研討了學(xué)會(huì)工委會(huì)和專(zhuān)委會(huì)建設(shè),頒發(fā)了2014年度“學(xué)會(huì)工作優(yōu)秀獎(jiǎng)”,獲獎(jiǎng)?wù)邽橛嗾凉淌?,增選了周明研究員和李茹教授為學(xué)會(huì)常務(wù)理事。并就學(xué)會(huì)未來(lái)的工作思路開(kāi)展了討論。

Phrase-level Sentiment Analysis Approach Based on Yet Another CRFs

Odbal1,2, WANG Zengfu1,2

(1. Department of Automation, University of Science and Technology of China, Hefei, Anhui 230027, China;2. Institute of Intelligent Machines, Chinese Academy of Sciences, Hefei, Anhui 230031, China )

This paper treat the phrase-level sentiment analysis as a sequence annotation problem, and proposes an extension model of conditional random fields, YACRFs, to annotate sentiment orientation of phrases. In contrast to previous works focusing on linear-chain CRFs, which corresponds tonite-state machines wtih efficient exact inference algorithms,we wish to label sequence data in multiple interacting ways—for example, performing word based semantic orientations tagging and phrase-level sentiment analysis simultaneously, increasing joint accuracy by sharing information between them. The proposed model incorporates the word emotional orientation analysis process and the phrase analysis through the incorporation of the features of polarity words, phrase rules template as well as part of speech characteristics. Experiments shows the proposed model performs best with an accuracy of 81.07%. And applied the results in sentence-level sentiment analysis, it brings again the best accuracy of 94.30%.

phrase; sentiment analysis; condition random fields

1003-0077(2015)01-0155-08

2012-08-23 定稿日期: 2012-11-22

TP391

A

猜你喜歡
傾向性短語(yǔ)詞語(yǔ)
容易混淆的詞語(yǔ)
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
找詞語(yǔ)
詞語(yǔ)欣賞
關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
“沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
一枚詞語(yǔ)一門(mén)靜
一種面向博客群的主題傾向性分析模型
托克逊县| 岱山县| 彭山县| 泊头市| 南涧| 阿拉善盟| 昌都县| 沂南县| 晋州市| 桓台县| 清河县| 蓝山县| 屏东县| 广昌县| 师宗县| 河津市| 榆树市| 宜宾县| 淳化县| 温宿县| 尚义县| 贺兰县| 永德县| 天水市| 河东区| 辉南县| 隆子县| 桓台县| 江陵县| 巍山| 镇远县| 唐山市| 临沂市| 融水| 九江市| 沁源县| 广水市| 岚皋县| 西青区| 金昌市| 辛集市|