戴 敏,朱 珠,李壽山,周國棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語言處理實(shí)驗(yàn)室, 江蘇 蘇州 215006)
?
面向中文文本的情感信息抽取語料庫構(gòu)建
戴 敏,朱 珠,李壽山,周國棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語言處理實(shí)驗(yàn)室, 江蘇 蘇州 215006)
情感信息抽取是情感分析中的一個重要子任務(wù)。雖然該任務(wù)已經(jīng)開展有一段時間,但是面向中文文本的情感信息抽取任務(wù)研究才剛剛起步。目前中文文本的情感信息抽取面臨的首要困難在于現(xiàn)有的相關(guān)中文語料庫還非常有限。為了更好開展中文文本的情感信息抽取研究,該文重點(diǎn)研究了中文語料標(biāo)注體系,構(gòu)建一個規(guī)模較大、標(biāo)注類型豐富的中文情感信息抽取語料庫。除了常見語料庫標(biāo)注的情感傾向性、評價對象、情感詞等信息外,重點(diǎn)標(biāo)注了評價對象的省略、無情感詞情感句表達(dá)及極性轉(zhuǎn)移等情況。由語料信息統(tǒng)計(jì)可知,該文所指出的特殊現(xiàn)象(例如,評價對象的省略)在中文情感表達(dá)中是非常普遍的,開展這方面的研究很有必要。該文所構(gòu)建的中文文本語料庫將為中文情感信息抽取任務(wù)提供語料基礎(chǔ)。
情感分析;情感信息抽?。恢形恼Z料庫
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,愈來愈多的人們從被動接受信息轉(zhuǎn)變?yōu)橹鲃影l(fā)布信息?;ヂ?lián)網(wǎng)用戶可以通過處理這些富含情感色彩的文本來了解公眾對于某個產(chǎn)品或某個事件的看法、評價等。但是,隨著這類信息的迅速膨脹,單靠人工方法來處理無疑是非常困難的,情感分析便應(yīng)運(yùn)而生了[1-3]。情感分析又稱意見挖掘(Opinion Mining),是借助計(jì)算機(jī)幫助用戶快速獲取、整理和分析相關(guān)評價信息,對帶有情感色彩的主觀性文本進(jìn)行分析、處理、歸納和推理的過程。它包含了一系列的子任務(wù),如主客觀分類、情感傾向性分類、情感信息抽取、情感信息檢索、情感信息歸納等[2]。這些子任務(wù)的研究具有廣泛的應(yīng)用價值和理論研究價值。
情感信息抽取,作為情感分析的一個重要子任務(wù),旨在抽取情感文本中有價值的情感信息,是一種關(guān)于細(xì)粒度文本的情感分析。該任務(wù)在近年來受到了廣大學(xué)者的關(guān)注,相繼出現(xiàn)了大量的抽取方法[4-7]。而隨著基于監(jiān)督學(xué)習(xí)的情感信息抽取方法研究的開展,監(jiān)督學(xué)習(xí)方法表現(xiàn)出了其良好的任務(wù)獨(dú)立性和抽取性能[8-9]。因此,基于監(jiān)督學(xué)習(xí)的情感信息抽取方法是情感信息抽取方法研究的一種趨勢[10-11]。而基于監(jiān)督學(xué)習(xí)的情感信息抽取方法需要依靠大量的人工標(biāo)注語料作為基礎(chǔ),因此,語料庫建設(shè)問題也成為情感信息抽取任務(wù)中的一個重要研究方面。
隨著網(wǎng)絡(luò)在中國的普及,越來越多的中文評論文本的出現(xiàn),解決面向中文文本的情感信息抽取任務(wù)的需求日益增多。目前,面向中文文本的情感信息抽取任務(wù)的研究較少,相應(yīng)的語料資源較匱乏。因此,建設(shè)一個規(guī)模較大的、標(biāo)注類型豐富的中文情感信息抽取語料庫是目前中文情感信息抽取任務(wù)的一個重點(diǎn)。
此外,已有的中英文語料庫所標(biāo)注的信息都忽視了一些表達(dá)特點(diǎn),而這些情況本身也具有一定的研究價值。如以下例句:
例1 我很喜歡,很好看。
例2 這個電影,哎,都看的睡著了。
例3 前臺服務(wù)員態(tài)度不是很好。
三個例句都表達(dá)了評論作者的情感傾向,但是較以往處理的情感信息抽取問題有其特殊性。如例句1中,作者所表達(dá)的情感傾向是正面的,有著明顯的情感詞“喜歡”,“好看”,但評價對象在句中未有出現(xiàn);例句2中的評價對象為“這個電影”,雖然句子表示了這個電影不好看的含義,但并沒有情感詞出現(xiàn);例句3中由于否定詞“不”的出現(xiàn),整句話的情感傾向相對句中情感表述“好”所表達(dá)的情感傾向發(fā)生了翻轉(zhuǎn)。
本文分別稱這三種現(xiàn)象為評價對象的省略現(xiàn)象、隱含情感及情感極性轉(zhuǎn)移現(xiàn)象。這三種現(xiàn)象同情感信息抽取任務(wù)密切相關(guān),對情感信息抽取任務(wù)的完成造成了一定的影響。例如,現(xiàn)有的評價對象抽取方法部分依賴于評價對象與情感詞的關(guān)系來幫助抽取評價對象[9-10],若句中無情感詞,一些之前表現(xiàn)良好的特征便不適用了。情感極性轉(zhuǎn)移現(xiàn)象會使整句的情感傾向相對于情感詞的情感傾向發(fā)生反轉(zhuǎn)等。而其中評價對象的省略現(xiàn)象也是中文文本的一個非常特殊的表達(dá)現(xiàn)象。因此,在建設(shè)新的中文情感信息抽取語料庫時,考慮以上的現(xiàn)象是有必要的。本文將面向中文文本標(biāo)注一個用于情感信息抽取任務(wù)的大規(guī)模語料。該語料的特色在于,除了包括了一些傳統(tǒng)的情感信息,例如,評價對象、評價詞等,還包括了評價對象的省略現(xiàn)象、隱含情感及情感極性轉(zhuǎn)移現(xiàn)象的標(biāo)注。
本文結(jié)構(gòu)組織如下: 第二部分介紹現(xiàn)有的相關(guān)中英文語料庫;第三部分介紹本文提出的語料標(biāo)注體系;第四部分給出語料庫的部分統(tǒng)計(jì)信息;第五部分給出結(jié)論。
近年來,為了推動情感分析技術(shù)的發(fā)展,國內(nèi)外一些研究機(jī)構(gòu)組織了一些公共評測,為情感分析的方法研究提供統(tǒng)一的平臺。如國際文本檢索會議TREC Blog Track*http://trec.nist.gov/tracks.html任務(wù)、NTCIR*http://research.nii.ac.jp/ntcir/index-en.html的情感分析評測,國內(nèi)近期的COAE評測[12-14]等。此外,也有研究單位和個人提供了一定規(guī)模的語料,如麻省理工學(xué)院(Massachusetts Institute of Technology)的Barzilay等人構(gòu)建的多角度餐館評論語料等。下面分別介紹一些現(xiàn)有英文語料庫和中文語料庫的情況。
2.1 英文語料庫
DSRC語料是一個較著名的關(guān)于情感信息抽取的英文語料,來源于德國達(dá)姆施塔特工業(yè)大學(xué)(Technische Universit?t Darmstadt)的Ubiquitous Knowledge Processing(UKP)Lab,包含了services和universities兩個領(lǐng)域的234和256篇評論文本。該語料是對評論文本在句子級以及表達(dá)級(Expression Level)上的意見相關(guān)(Opinion Related)信息的較為詳細(xì)標(biāo)注,其中主觀句標(biāo)注了四種情感信息類別(觀點(diǎn)持有者、評價對象、修飾詞、評價詞)。文獻(xiàn)[15]詳細(xì)描述了DSRC語料的標(biāo)注規(guī)范。DSRC語料用MMAX2標(biāo)注工具標(biāo)注,組織成MMAX2的工程結(jié)構(gòu)。
此外,英文的情感抽取語料還包括Zhuang[7]的影評語料。該語料來源于IMDB,其中包含了對20個不同電影的評論,每個電影抓取了100條評論,共有2 000篇評論文本,去重后有1 829篇影評。相比于DSRC語料而言,該語料標(biāo)注體系較為簡單。語料以XML的格式組織,以句子為情感標(biāo)注單元。對于含有評價對象/觀點(diǎn)對(Feature/Opinion pair)的句子(主觀句)作標(biāo)注。在標(biāo)注結(jié)果中,標(biāo)注信息用一個四元組表示,分別代表評價對象、評價對象類別、評價詞語和評價的情感極性。
2.2 中文語料庫
相對于英文語料,有關(guān)中文情感信息抽取的語料標(biāo)注起步稍晚了一些。隨著近幾年的迅速發(fā)展,也相繼出現(xiàn)了一些標(biāo)注語料。
在近幾年的舉辦的COAE(Chinese Opinion Analysis Evaluation)評測[12]中,設(shè)置了關(guān)于“評價對象”識別的一項(xiàng)評測任務(wù),相應(yīng)有部分標(biāo)注語料。在2011發(fā)布的評測語料里面,共包含三個領(lǐng)域,分別是電子、娛樂和財經(jīng)。每個領(lǐng)域有2 000個文檔用于“評價對象”的識別,識別的結(jié)果用一個三元組表示,分別是句子中觀點(diǎn)的評價對象、評價短語和對該評價對象的觀點(diǎn)極性。而2012~2013年的評測[13-14]中設(shè)置了比較句的識別與要素抽取的任務(wù),此任務(wù)分為兩個部分,首先識別句子是否為比較句,然后在識別出的比較句中抽取出比較實(shí)體、實(shí)體要素及情感傾向性。COAE2012~2013發(fā)布的此項(xiàng)任務(wù)的評測語料均包含電子和汽車兩個領(lǐng)域,其中2013的評測語料中每個領(lǐng)域有約500句為比較句,并針對比較句標(biāo)注其中的比較對象、商品屬性、觀點(diǎn)傾向性等信息。2013年的評測中還加入了微博觀點(diǎn)句要素抽取任務(wù),語料規(guī)模為12 000篇,要求從中識別出觀點(diǎn)句,然后從識別出的句子中抽取相應(yīng)的評價對象,被評價的產(chǎn)品屬性以及相對應(yīng)的觀點(diǎn)傾向性。
此外,2012年舉辦的nlp&cc評測為中文微博情感分析任務(wù),評測的對象是面向中文微博的情感分析核心技術(shù),包括觀點(diǎn)句識別、情感傾向性分析和情感要素抽取,相應(yīng)的有部分標(biāo)注語料。其中任務(wù)三“情感要素抽取”要求找出微博中每條觀點(diǎn)句作者的評價對象,即情感對象,同時判斷針對情感對象的觀點(diǎn)極性。在2012年發(fā)布的評測語料中,包含了十個話題的中文微博語料,每個話題有100個標(biāo)注文檔。
另一個比較著名的語料是NTCIR 提供的標(biāo)準(zhǔn)測試集,其中中文簡體語料共包含255個文檔,4 877個句子,其中被標(biāo)為情感句的有1 102個,標(biāo)注的其他信息包括評價對象、觀點(diǎn)持有者、情感極性。
由此可見,可用于中文情感信息抽取的語料庫規(guī)模較小,且大多僅關(guān)注了情感傾向性、評價對象等信息,標(biāo)注情況簡單。本文將在考慮了前文所述的三種表達(dá)情況下,重點(diǎn)標(biāo)注評價對象的省略現(xiàn)象,構(gòu)建一個更完整的規(guī)模更大的中文情感信息抽取語料庫。
構(gòu)建好的情感信息抽取標(biāo)注語料是實(shí)現(xiàn)性能更佳的學(xué)習(xí)系統(tǒng)的基礎(chǔ)。因此,我們考慮構(gòu)建一個中文情感信息抽取語料庫。除了標(biāo)注句子的情感極性,句中出現(xiàn)的評價對象和情感詞,我們還考慮了以下幾種信息: 評價對象和情感詞的對應(yīng)關(guān)系;評價對象的省略現(xiàn)象;情感句中情感詞未出現(xiàn)的情況(隱含情感)及情感極性轉(zhuǎn)移現(xiàn)象。
本節(jié)將重點(diǎn)介紹標(biāo)注體系的設(shè)計(jì),分為標(biāo)簽設(shè)置和標(biāo)注過程兩個方面進(jìn)行闡述。
3.1 語料庫標(biāo)簽設(shè)置
本標(biāo)注體系共設(shè)置了四類標(biāo)簽來覆蓋上文所提到的標(biāo)注信息,以篇章為單位進(jìn)行語料標(biāo)注。示例文檔給出了一篇已標(biāo)注完成的語料,其中第二、三兩句分別存在評價對象的指代和省略現(xiàn)象,第四句中存在隱含情感的現(xiàn)象。下面將結(jié)合示例詳細(xì)闡述本標(biāo)注體系的標(biāo)簽設(shè)置。
示例文檔:
1.這次我們選擇住在了
第一類標(biāo)簽: 主要作用為標(biāo)注句子的情感傾向性。標(biāo)注位置在句首。標(biāo)簽表示方法及代表含義如表1所示。例如: 示例中第二、三兩句的情感極性為正面的,因此標(biāo)注為<+P>。
第二類標(biāo)簽: 標(biāo)注評價對象,并為文中出現(xiàn)的評價對象計(jì)數(shù), 便于省略和指代現(xiàn)象的表示。標(biāo)注位置為句中評價對象出現(xiàn)的位置。標(biāo)簽表示方法及代表含義如表2所示。
表1 句子情感極性標(biāo)簽的表示和說明
為了便于表示情感詞和評價對象的關(guān)系,及評價對象的省略與指代現(xiàn)象,需要對文檔中出現(xiàn)的評價對象依次計(jì)數(shù),以標(biāo)簽中的“tgtNUM”表示。因此表2中三個標(biāo)簽內(nèi)的“tgtNUM=n”均表明此評價對象為文中的第n+1個評價對象,如示例最后一句中的“早餐”是整個文本中出現(xiàn)的第三個評價對象,因此tgtNUM=2。而表中的
表2 評價對象標(biāo)簽的表示和說明
第三類標(biāo)簽: 作用是標(biāo)注情感詞,同時以編號指出此情感詞所評價的對象,當(dāng)評價對象沒有在本句中出現(xiàn)時,便發(fā)生了評價對象的省略情況。當(dāng)此句中無明顯情感詞時,便為隱含情感。標(biāo)注位置分別有在句中標(biāo)注和在句末標(biāo)注的兩種情況。標(biāo)簽表示方法及代表含義如表3所示。
這一類標(biāo)簽以
表3 情感詞標(biāo)簽的表示和說明
第四類標(biāo)簽: 標(biāo)注修飾詞。標(biāo)簽表示方法及代表含義如表4所示。其中標(biāo)簽
表4 修飾詞標(biāo)簽的表示和說明
以上內(nèi)容詳細(xì)介紹了本標(biāo)注體系設(shè)計(jì)的四類標(biāo)簽。標(biāo)簽可以表示的內(nèi)容充分覆蓋了本節(jié)開始所提到的計(jì)劃標(biāo)注的信息,并重點(diǎn)標(biāo)注了評價對象的省略情況,此標(biāo)注內(nèi)容也將作為接下來研究的重點(diǎn)。
3.2 語料庫標(biāo)注流程
本文構(gòu)建的中文情感信息抽取語料庫的標(biāo)注過程大致分為兩個部分: 首先進(jìn)行句子級別的情感傾向性標(biāo)注;然后對情感句進(jìn)行細(xì)粒度的標(biāo)注,先后標(biāo)注評價對象、情感詞和修飾詞。情感句的細(xì)粒度標(biāo)注是本標(biāo)注體系的重點(diǎn),標(biāo)注過程較為繁瑣,工作量大。為便于理解,圖1展示了其中評價對象和情感詞的標(biāo)注過程。
情感句的細(xì)粒度標(biāo)注過程中,首先需要標(biāo)注評價對象,第一步要判斷句中是否有評價對象。如果無評價對象出現(xiàn),則表明句中出現(xiàn)了省略現(xiàn)象,留待稍后標(biāo)注;若出現(xiàn)評價對象,則進(jìn)行下一步,關(guān)注評價對象是否為代詞,若為代詞則需要標(biāo)注出指代的評價對象實(shí)體。
然后標(biāo)注情感詞,同樣首先判斷句子中是否存在情感詞。如果句中含有情感詞,則進(jìn)一步尋找情感詞所評價的對象,關(guān)注是否存在評價對象的省略現(xiàn)象,以及省略的對象是否在上下文中出現(xiàn);如果句中不含有情感詞,即隱含情感現(xiàn)象,同樣也關(guān)注是否存在評價對象的省略現(xiàn)象,省略的對象是否在上下文中出現(xiàn)這些內(nèi)容,而標(biāo)注位置在句末。
以上是對本標(biāo)注體系的標(biāo)簽設(shè)計(jì)及標(biāo)注過程的詳細(xì)介紹。由此可以看出,此語料庫重點(diǎn)標(biāo)注了評價對象的省略,隱含情感及極性轉(zhuǎn)移等現(xiàn)象。這三種情況能夠影響情感信息抽取的結(jié)果,具有一定的研究價值,而其中的評價對象省略現(xiàn)象更是中文文本的一個特有表達(dá),是中文文本的評價對象抽取任務(wù)的一個難點(diǎn)。而本文所設(shè)計(jì)的標(biāo)注體系為今后的這一類問題提供了標(biāo)注方法,根據(jù)此體系標(biāo)注完成的語料庫能夠?yàn)橹形脑u價對象的省略現(xiàn)象的進(jìn)一步研究提供充分的語料資源。
圖1 評價對象和情感詞標(biāo)注流程
本節(jié)將重點(diǎn)給出本語料庫的相關(guān)統(tǒng)計(jì)數(shù)據(jù),以此說明本文提出的三類現(xiàn)象在情感文本中的發(fā)生比例,及本語料庫在未來中文情感信息抽取任務(wù)方面的應(yīng)用價值。
在標(biāo)注過程中,共有兩個標(biāo)注人員參與標(biāo)注,并且在標(biāo)注過程中不斷討論完善標(biāo)注標(biāo)準(zhǔn),盡量避免爭議較大的標(biāo)注。我們采用了Cohen’kappa[16]值作為衡量語料標(biāo)注一致性的指標(biāo),兩個標(biāo)注人員標(biāo)注結(jié)果的Kappa值為72.62%。
本文將所設(shè)計(jì)的語料體系應(yīng)用到三個領(lǐng)域的產(chǎn)品評論語料中,分別是筆記本、賓館和化妝品。為表述方便,將以NB、Hotel、Beauty分別代表筆記本、賓館和化妝品三個領(lǐng)域。標(biāo)注過程以文檔為單位,保留上下文信息。標(biāo)注內(nèi)容反映了以下情感信息:
1. 句子的情感傾向性;
2. 情感句中出現(xiàn)的評價對象;
3. 情感句中出現(xiàn)的情感詞;
4. 情感詞與評價對象的對應(yīng)關(guān)系;
5. 作為評價對象的代詞所指代的實(shí)體;
6. 情感句中未出現(xiàn)評價對象的現(xiàn)象,并指出了所省略的評價對象;
7. 情感句中未出現(xiàn)情感詞的現(xiàn)象;
8. 情感詞的修飾詞,重點(diǎn)反映了極性轉(zhuǎn)移現(xiàn)象。
表5為語料庫的情感傾向性信息統(tǒng)計(jì)。NB領(lǐng)域標(biāo)注了2 000篇文檔,其中褒義句和貶義句各2 015、2 038句;Hotel領(lǐng)域標(biāo)注了1 000篇文檔,其中褒義句和貶義句各1 171、2 587句;Beauty領(lǐng)域標(biāo)注了2 000篇文檔,其中褒義句和貶義句各1 518、1 157句。由數(shù)據(jù)可知,我們標(biāo)注的三個領(lǐng)域的語料含有豐富的帶有情感色彩的文本,這些標(biāo)注文本可以有效地幫助情感傾向性分類任務(wù)。
表5 情感傾向性信息統(tǒng)計(jì)
表6統(tǒng)計(jì)了評價對象和情感詞的信息。以NB領(lǐng)域?yàn)槔? 000個文本中共有5 167個評價對象,評價對象的平均長度為1.76詞/個,平均每個文檔中有2.85個評價對象;共有情感詞6 512個,平均每個文檔中有3.26個情感詞。由表6可以得到其他兩個領(lǐng)域的相關(guān)信息。鑒于目前已有的中文情感信息抽取語料庫的局限,這些大量標(biāo)注文本可以用于中文情感信息抽取任務(wù)的研究,尤其是基于監(jiān)督學(xué)習(xí)的評價對象抽取方法研究。
表6 評價對象及情感詞信息統(tǒng)計(jì)
表7反應(yīng)了本文中所重點(diǎn)提出的三類現(xiàn)象在語料中的出現(xiàn)情況。在NB領(lǐng)域中,含有省略評價對象的句子共1 082句,情感句中未出現(xiàn)情感詞的句子數(shù)為854,出現(xiàn)否定轉(zhuǎn)移的句子數(shù)為596句,分別占情感句總數(shù)的26.69%、21.07%和14.71%。由此可見,這三種情況在中文表達(dá)中較為常見,有值得進(jìn)一步研究的價值。而本語料庫重點(diǎn)標(biāo)注了這三種情況,是進(jìn)行下一步研究的良好的語料基礎(chǔ)。
表7 含有特殊表達(dá)的句子數(shù)
由以上統(tǒng)計(jì)數(shù)據(jù)可以看出,本文所構(gòu)建的中文情感信息抽取語料庫不僅能夠?yàn)橐恍┏R姷闹形那楦行畔⒊槿∽尤蝿?wù)如評價對象抽取、評價詞語抽取等提供豐富的語料支持,也為后續(xù)對本文所提到的評價對象的省略、隱含情感及情感極性轉(zhuǎn)移等現(xiàn)象的研究完成了語料準(zhǔn)備。
本文使用了一部分語料進(jìn)行了評價對象抽取任務(wù)的基本實(shí)驗(yàn)。采用Jakob等[9]的方法為模板,即將評價對象抽取建模成序列標(biāo)注問題,使用條件隨機(jī)場模型CRFs實(shí)現(xiàn)評價對象的抽取,實(shí)驗(yàn)對于特征部分僅采用詞形和詞性兩個基準(zhǔn)特征。其中詞形表示當(dāng)前單詞的字符串特征,詞性表示當(dāng)前單詞的詞性標(biāo)記特征。
在本實(shí)驗(yàn)中,條件隨機(jī)場模型的實(shí)現(xiàn)采用CRF++,使用默認(rèn)參數(shù),詞與詞性的窗口大小為3。評價指標(biāo)采用P(Precision)、R(Recall)、F1(F1-Measure)。訓(xùn)練集和測試集均為500個句子。表8為三個領(lǐng)域的評價對象抽取實(shí)驗(yàn)結(jié)果。
表8 評價對象抽取實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果顯示,本文所標(biāo)注的語料在評價對象抽取任務(wù)中已能達(dá)到較好的效果,如三個領(lǐng)域的評價對象抽取的Precision值均在70%左右,與英文語料采用相同特征與方法的結(jié)果[9]相比較好,可能是由于本文的標(biāo)注體系較英文語料更完善。
本文設(shè)計(jì)了一套中文情感信息抽取語料庫的標(biāo)注體系,除了標(biāo)注常見的句子情感極性、情感詞、評價對象等信息以外,還重點(diǎn)考慮了情感表達(dá)中的評價對象省略、隱含情感及極性轉(zhuǎn)移等現(xiàn)象。統(tǒng)計(jì)結(jié)果表明,這幾種情況在中文表達(dá)中較為常見,有值得研究的價值。本文通過對三個領(lǐng)域的產(chǎn)品評論語料的標(biāo)注,為下一步的基于監(jiān)督學(xué)習(xí)方法的中文信息抽取方法研究提供了一定的基礎(chǔ)。語料中所重點(diǎn)標(biāo)注的評價對象的省略現(xiàn)象等也將作為后續(xù)工作進(jìn)行進(jìn)一步的研究。*本文所述語料將在論文發(fā)表后在實(shí)驗(yàn)室網(wǎng)站公布
[1] Pang B, Lee L. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2) :1-135.
[2] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02. 2002: 79-86.
[3] 宗成慶. 統(tǒng)計(jì)自然語言處理[M]. 北京: 清華大學(xué)出版社,2008:1-475.
[4] Kim S, Hovy E. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text[C]//Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text. 2006: 1-8.
[5] Ku L, Liu I, Lee C, et al. H. Sentence-Level Opinion Analysis by CopeOpi in NTCIR-7[C]//Proceedings of NTCIR-7 Workshop. 2008.
[6] Hu M, Liu B. Mining Opinion Features in Customer Reviews[C]//Proceedings of AAAI-2004. 2004: 755-760.
[7] Zhuang L, Jing F, Zhu X. Movie review mining and summarization[C]//Proceedings of CIKM-2006. 2006: 43-50.
[8] Li B, Zhou L, Feng S, et al. A Unified Graph Model for Sentence-based Opinion Retrieval[C]//Proceedings of ACL. 2010:1367-1375.
[9] Jakob N, Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of EMNLP-2010. 2010: 1035-1045.
[10] 王榮洋,鞠久朋,李壽山,等. 基于CRFs的評價對象抽取特征研究. 中文信息學(xué)報[J],2012,26(2): 56-61.
[11] Li S, Wang R, Zhou G. Opinion Target Extraction using a Shallow Semantic Parsing Framework[C]//Proceedings of AAAI 2012. 2012:1671-1677.
[12] 趙軍,許洪波,黃萱菁,等. 中文傾向性分析評測技術(shù)報告[C]//Proceeding of COAE-2008.
[13] 劉康,王素格,廖祥文,等. 第四屆中文傾向性分析評測總體報告[C]//Proceeding of COAE-2012.
[14] 譚松波,王素格,廖祥文,等. 第五屆中文傾向性分析評測總體報告[C]//Proceeding of COAE-2013.
[15] Toprak C., Jakob N., and Gurevych I. Sentence and Expression Level Annotation of Opinions in User-Generated Discourse[C]//Proceedings of ACL-2010. 2010: 575-584.
[16] Cohen. A coefficient of agreement for nominal scales[J]. Educational and Psychological Measurement, 1960:37-46.
Corpus Construction on Opinion Information Extraction in Chinese
DAI Min, ZHU Zhu, LI Shoushan, ZHOU Guodong
(NLP Lab, School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006, China)
Opinion information extraction (OIE) is an important sub-task in the research on sentiment analysis. Currently, one pressing issue in Chinese OIE is that the Chinese corpus is not readily avalable. This paper focuses on the annotation framework for Chinese OIE, and constrcuts a Chinese corpus containing rich information. Specifically, in additions to the popular elements including sentiment orientation, opinion target and opinion keyword, our corpus contains the information of opinion target ellipsis, the expressing opinion without sentimental words and the sentimental polarity shifting. The statistics show the popularity and necessity of these special points (e.g., opinion target ellipsis) in Chinese texts.
sentiment analysis; opinion information extraction; Chinese corpus
戴敏(1989—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:dmin.mousse@gmail.com朱珠(1991—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:zhuzhu0020@gmail.com李壽山(1980—),博士后,教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:shoushan.li@gmail.com
1003-0077(2015)04-0067-07
2013-07-13 定稿日期: 2013-12-10
國家自然科學(xué)基金(61003155,60873150);模式識別國家重點(diǎn)實(shí)驗(yàn)室開發(fā)課題基金
TP391
A