基于句法特征的評(píng)價(jià)對(duì)象抽取方法研究

2014-02-28 04:51王榮洋李壽山周國棟

中文信息學(xué)報(bào) 2014年4期

戴敏，王榮洋，李壽山，朱珠，周國棟

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語言處理實(shí)驗(yàn)室, 江蘇蘇州 215006)

1 引言

進(jìn)入21世紀(jì)后，網(wǎng)絡(luò)在人們的日常生活中扮演著越來越重要的角色。在網(wǎng)絡(luò)里，人們廣泛進(jìn)行購物、交友等活動(dòng)，相應(yīng)產(chǎn)生了大量用戶參與的對(duì)于人和事、電影、產(chǎn)品等的評(píng)論文本。這些評(píng)論文本往往以商品評(píng)論、論壇評(píng)論和博客等多種形式存在。用戶會(huì)通過網(wǎng)絡(luò)上已有的評(píng)論文本來掌握某產(chǎn)品或電影的評(píng)價(jià)，但同時(shí)用戶會(huì)飽受迅速膨脹的評(píng)論信息量的困擾，僅靠人工方法很難對(duì)網(wǎng)上海量的帶有豐富意見的資源進(jìn)行收集和處理，因此給自動(dòng)化、智能化評(píng)論信息處理提出了新的要求和挑戰(zhàn)。情感分析(Sentiment Analysis)正是在這種背景下產(chǎn)生的[1-3]。目前，越來越多的研究者開始把目光轉(zhuǎn)向細(xì)粒度的[4](Fine-grained)情感分析任務(wù)。例如，評(píng)價(jià)對(duì)象抽取(Opinion Target Extraction)即是目前應(yīng)用最受關(guān)注的情感分析子任務(wù)之一。

評(píng)價(jià)對(duì)象是指某篇評(píng)論中表現(xiàn)的主題，即評(píng)論文本中評(píng)價(jià)詞語所修飾的對(duì)象。例如，在產(chǎn)品評(píng)論中關(guān)于一款手機(jī)屏幕、電池、按鍵、應(yīng)用軟件等，都可以作為評(píng)價(jià)手機(jī)的某一具體對(duì)象。評(píng)價(jià)對(duì)象抽取是細(xì)粒度的情感分析任務(wù)，評(píng)價(jià)對(duì)象是情感信息的一部分。這項(xiàng)研究的開展有助于為上層情感分析任務(wù)提供服務(wù)。本文的目標(biāo)就是提出新的方法或模型抽取評(píng)論文本中的評(píng)價(jià)對(duì)象。例如，

例句1Capella University has incredible faculty in the Harold Abel School of Psychology.

通過例句1可知，“faculty”被情感詞“incredible”所修飾，因此，“faculty”可以做為本句的評(píng)價(jià)對(duì)象。它們共同組成一個(gè)二元組(“faculty”，“incredible”)。我們通過情感詞“incredible”的極性可以很容易的判別出該主觀句對(duì)評(píng)價(jià)對(duì)象“faculty”的褒貶。

目前，主流的情感信息抽取方法分為兩個(gè)類型：基于非監(jiān)督學(xué)習(xí)的抽取方法和基于監(jiān)督學(xué)習(xí)的抽取方法。前一種方法一般采用一些啟發(fā)式規(guī)則識(shí)別可能的評(píng)價(jià)對(duì)象[5]；后一種方法則使用機(jī)器學(xué)習(xí)方法學(xué)習(xí)已標(biāo)注樣本構(gòu)建自動(dòng)識(shí)別系統(tǒng)[6]。雖然基于非監(jiān)督學(xué)習(xí)的抽取方法在該方向的研究初期占有主導(dǎo)地位，但是這種方法構(gòu)建啟發(fā)式規(guī)則比較復(fù)雜，而且由于很難控制多個(gè)規(guī)則之間的全局優(yōu)化，非監(jiān)督學(xué)習(xí)方法所獲得的抽取性能往往并不能滿足實(shí)際需要。相對(duì)而言，基于監(jiān)督學(xué)習(xí)方法的抽取性能會(huì)得到很好的改善?；诒O(jiān)督學(xué)習(xí)方法的關(guān)鍵問題是如何選擇有效的特征。雖然Jakob 和Gurevych[6]中提出的詞形、詞性及依存路徑已經(jīng)取得了一定的效果，但對(duì)于能夠很好描述情感詞和評(píng)價(jià)對(duì)象關(guān)系的結(jié)構(gòu)句法特征并沒有涉及。

本文基于監(jiān)督學(xué)習(xí)的抽取方法，使用Jakob和Gurevych[6]提出的序列標(biāo)注學(xué)習(xí)的模型。重點(diǎn)考察句法特征在監(jiān)督學(xué)習(xí)方法上面的表現(xiàn)。我們發(fā)現(xiàn)評(píng)價(jià)對(duì)象和情感詞之間的關(guān)系可以通過句法樹獲得，例如，評(píng)價(jià)對(duì)象和情感詞之間往往存在主謂關(guān)系。對(duì)于路徑“NNADJP>JJ”一般表示當(dāng)前詞為情感表達(dá)的主語，則當(dāng)前詞有可能是評(píng)價(jià)對(duì)象。因此，句法信息對(duì)評(píng)價(jià)對(duì)象的抽取有一定的指示作用。本文在條件隨機(jī)場模型的基礎(chǔ)上，引入句法特征用以提高評(píng)價(jià)對(duì)象抽取性能。

本文的其他內(nèi)容組織如下：第二部分介紹相關(guān)工作；第三部分介紹系統(tǒng)構(gòu)建、特征描述；第四部分介紹實(shí)驗(yàn)結(jié)果及分析；最后總結(jié)全文。

2 相關(guān)工作

評(píng)價(jià)對(duì)象抽取是抽取評(píng)論文本中情感表達(dá)所面向的對(duì)象。該任務(wù)是情感信息抽取任務(wù)中研究最為廣泛的一項(xiàng)任務(wù)，相繼出現(xiàn)了大量的抽取方法[6-8]，這些方法大致可以分為兩類：基于非監(jiān)督學(xué)習(xí)的抽取方法和監(jiān)督學(xué)習(xí)的抽取方法。

2.1 基于非監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法

Hu和Liu[5]最新提出評(píng)價(jià)對(duì)象抽取問題，認(rèn)為出現(xiàn)頻率較高的名詞往往是評(píng)價(jià)對(duì)象候選，相繼利用關(guān)聯(lián)規(guī)則挖掘評(píng)價(jià)對(duì)象。Li和Zhou[7]使用情感詞典和主題詞典抽取<情感詞，評(píng)價(jià)對(duì)象>二元組，與傳統(tǒng)的方法相比，他們通過抽取二元組可以捕獲情感詞和評(píng)價(jià)對(duì)象之間的關(guān)系。與以往的方法不一樣的是，該方法充分考慮了上下文信息，利用情感詞和評(píng)價(jià)對(duì)象的關(guān)系提高了抽取性能。Popescu和Nguyen[9]利用點(diǎn)互信息抽取產(chǎn)品的特征。同時(shí)，他們還根據(jù)情感詞將顯性特征進(jìn)行聚類，然后對(duì)每類標(biāo)明一個(gè)標(biāo)簽，用于省略評(píng)價(jià)對(duì)象的抽取。

2.2 基于監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法

相對(duì)于非監(jiān)督學(xué)習(xí)抽取方法，基于監(jiān)督學(xué)習(xí)的方法起步較晚。Zhuang等[10]針對(duì)意見描述—評(píng)價(jià)對(duì)象序偶的抽取提出了一種監(jiān)督學(xué)習(xí)的算法。該算法從一個(gè)標(biāo)注了的數(shù)據(jù)集中學(xué)習(xí)評(píng)價(jià)對(duì)象的候選結(jié)點(diǎn)，和與這些序偶相關(guān)的依存和詞類路徑的結(jié)合信息。文中的實(shí)驗(yàn)結(jié)果表明，基于監(jiān)督學(xué)習(xí)的這種方法在抽取效果方面遠(yuǎn)遠(yuǎn)優(yōu)于Hu和Liu[5]提出的基于規(guī)則的方法。Kessler和Nicolov[11]提出了基于機(jī)器學(xué)習(xí)分類方法的監(jiān)督學(xué)習(xí)方法，用于實(shí)現(xiàn)意見描述和評(píng)價(jià)對(duì)象的識(shí)別，得到了類似的結(jié)論。Jakob和Gurevych[6]將評(píng)價(jià)對(duì)象抽取問題建模成序列標(biāo)注問題，進(jìn)而使用條件隨機(jī)場模型(CRF)進(jìn)行學(xué)習(xí)，在同一領(lǐng)域里面獲得了比Zhuang[10]方法更佳的抽取效果。同時(shí)，實(shí)驗(yàn)結(jié)果還驗(yàn)證了基于序列標(biāo)注的模型同樣適合評(píng)價(jià)對(duì)象抽取的領(lǐng)域適應(yīng)問題。本文主要研究基于監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法，并采用條件隨機(jī)場模型進(jìn)行訓(xùn)練。Putthividhya和Hu[12]采用命名實(shí)體識(shí)別抽取產(chǎn)品屬性。

3 系統(tǒng)構(gòu)建

本節(jié)主要介紹系統(tǒng)架構(gòu)，特征概述等問題。

3.1 系統(tǒng)架構(gòu)圖

本文將評(píng)價(jià)對(duì)象抽取任務(wù)建模為序列標(biāo)注問題，實(shí)現(xiàn)基于CRFs的評(píng)價(jià)對(duì)象抽取系統(tǒng)。該系統(tǒng)可以分為兩部分，即訓(xùn)練和識(shí)別，如圖1所示。

原始語料經(jīng)過主觀性檢測、詞性標(biāo)注、依存分析等預(yù)處理后得到可用語料。其中主觀性檢測即識(shí)別出語料中的主觀句，這是由于我們的系統(tǒng)是在主觀句中進(jìn)行評(píng)價(jià)對(duì)象抽取的。訓(xùn)練部分利用特征模板，從可用語料中抽取特征，進(jìn)行訓(xùn)練得到識(shí)別模型。

圖1 基于CRF模型的評(píng)價(jià)對(duì)象抽取系統(tǒng)框架結(jié)構(gòu)

識(shí)別過程則是用訓(xùn)練得到的模型進(jìn)行評(píng)價(jià)對(duì)象識(shí)別，得到標(biāo)注結(jié)果。該過程是一個(gè)典型的有指導(dǎo)機(jī)器學(xué)習(xí)(Supervised Machine Learning)的過程。

3.2 特征概述

Jakob和Gurevych[6]采用了條件隨機(jī)場模型進(jìn)行評(píng)價(jià)對(duì)象的抽取，并抽取詞形、詞性、依存關(guān)系、詞距離等特征，取得了不錯(cuò)的效果。然而對(duì)于<評(píng)價(jià)對(duì)象，情感詞>二元組，僅靠這幾個(gè)特征并不能充分捕獲到它們之間的關(guān)系。我們通過語料發(fā)現(xiàn)，它們之間的關(guān)系可以通過句法樹獲得，例如，評(píng)價(jià)對(duì)象和情感詞之間往往存在主謂關(guān)系。路徑“NNADJP>JJ”一般表示當(dāng)前詞為情感表達(dá)的主語，則當(dāng)前詞有可能是評(píng)價(jià)對(duì)象。對(duì)于這樣的路徑“NNADJP>JJ”,當(dāng)前詞通常不作為評(píng)價(jià)對(duì)象，因此句法分析提供的路徑特征在評(píng)價(jià)對(duì)象的識(shí)別過程中起著非常重要的作用，它通常能夠決定某個(gè)詞是否可以作為評(píng)價(jià)對(duì)象。但是這種特征同時(shí)也存在著數(shù)據(jù)稀疏的問題，因此我們引入了精簡路徑，它將多個(gè)相鄰且類型一致的成分只保留一個(gè)，可以一定程度上解決數(shù)據(jù)稀疏的問題。

因此，本文引入句法分析結(jié)果提供的句法特征，主要是指句法的路徑特征，用于基于CRF模型的評(píng)價(jià)對(duì)象抽取任務(wù)。表1列出了本文中所用到的句法特征。(例句2對(duì)應(yīng)的句法樹如圖2所示，當(dāng)前待識(shí)別單詞為“film”)除了全局路徑外，特征P5和P6是從路徑特征衍生而來，它們能夠在一定程度上反映同情感詞之間的關(guān)系。

表1 各種句法特征概述

例句2This film made in the 1930’s is almost incomprehensible to me.

4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)主要介紹實(shí)驗(yàn)語料，實(shí)驗(yàn)設(shè)置，給出實(shí)驗(yàn)結(jié)果，并做相應(yīng)的結(jié)果分析。

4.1 語料概述

本文用到的語料來源于DSRC*http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/。DSRC語料包含Services和Universities兩個(gè)領(lǐng)域，文獻(xiàn)[13]給出了DSRC詳細(xì)的標(biāo)注規(guī)范及說明。各領(lǐng)域的原始語料規(guī)模統(tǒng)計(jì)如表2所示。

表2 語料相關(guān)統(tǒng)計(jì)說明

4.2 實(shí)驗(yàn)設(shè)置

在本實(shí)驗(yàn)中，條件隨機(jī)場模型的實(shí)現(xiàn)采用CRF++*http://crfpp.sourceforge.net/，使用默認(rèn)參數(shù)，詞與詞性的窗口大小為3，其余特征用當(dāng)前窗口，使用標(biāo)記的Bigram特征。

對(duì)于這些句法特征，我們采用貪婪式的特征選擇算法[12]進(jìn)行特征選擇。

我們首先將數(shù)據(jù)集按9∶1分成訓(xùn)練集和開發(fā)集進(jìn)行特征選擇，最后使用選擇出的最優(yōu)特征組合按10倍交叉驗(yàn)證的方法進(jìn)行測試，最終結(jié)果使用10次運(yùn)行的平均值。

我們采用的評(píng)價(jià)標(biāo)準(zhǔn)是平均準(zhǔn)確率、平均召回率、平均F1，分別記作P、R、F1。

4.3 實(shí)驗(yàn)結(jié)果與分析

本文中，我們以詞特征(Token)和詞性(POS)特征為基礎(chǔ)特征，然后加入其他的句法特征。表3顯示了分別加入單個(gè)句法特征的效果。

表3 加入單個(gè)句法特征的效果

從表3可以看出，加入單個(gè)句法特征之后，評(píng)價(jià)對(duì)象的抽取效果有非常明顯的提高，在加入路徑特征后，F(xiàn)1可以提高5—8個(gè)百分點(diǎn)。該結(jié)果驗(yàn)證了句法信息對(duì)評(píng)價(jià)對(duì)象抽取的重要性。對(duì)于路徑特征，某條路徑能夠直接反映當(dāng)前詞同情感詞之間的關(guān)系，例如，主謂關(guān)系等，因此路徑特征對(duì)評(píng)價(jià)對(duì)象的抽取起著非常關(guān)鍵的作用，而精簡路徑和部分路徑作為路徑特征的衍生，同樣起著比較重要的作用。當(dāng)情感詞作為動(dòng)詞時(shí)，評(píng)價(jià)對(duì)象通常位于情感詞的右側(cè)；當(dāng)情感詞作為形容詞時(shí)，評(píng)價(jià)對(duì)象通常位于情感詞的左側(cè)。因此位置特征對(duì)評(píng)價(jià)對(duì)象的抽取同樣起著非常重要的作用。在一句話中，評(píng)價(jià)對(duì)象同情感詞通常位于同一子句中，因此特征P7對(duì)評(píng)價(jià)對(duì)象的抽取能夠提供一定的信息量。

表4顯示了我們利用貪婪式的特征選擇算法所選擇的特征組合，由于采用的是貪婪式特征算法，即每次選擇貢獻(xiàn)度最大的特征，因此特征選擇是有先后順序的。通過此表可以看出，特征組合{P5,P3,P6,P7}可以達(dá)到最好的效果，我們并沒有采用其他的句法特征，因?yàn)榧由掀渌卣髦髮?duì)最后的抽取效果并無幫助。

表4 特征選擇的結(jié)果

圖3 Universities領(lǐng)域?qū)嶒?yàn)結(jié)果

圖4 Services領(lǐng)域?qū)嶒?yàn)結(jié)果

圖3和圖4分別顯示了在兩個(gè)領(lǐng)域中我們的方法同Jakob和Gurevych[6]的方法比較，在此實(shí)驗(yàn)中，我們采用了十倍交叉驗(yàn)證的方法。其中基準(zhǔn)系統(tǒng)代表只用詞形(Token)和詞性特征(POS)的結(jié)果，J和G(2010)代表Jakob和Gurevych[6]中使用的詞性、詞性、依存路徑和離情感詞距離為特征的抽取方法的結(jié)果。從圖3和圖4可以看出，當(dāng)采用句法特征之后，抽取結(jié)果的召回率有顯著提高。在Universities領(lǐng)域的R中，我們的方法比Jakob和Gurevych[6]的方法提高大約4.4個(gè)百分點(diǎn)，Services領(lǐng)域的R比Jakob和Gurevych[6]的方法提高大約7.5個(gè)百分點(diǎn)。整體性能方面，其中Universities領(lǐng)域的F比Jakob和Gurevych[6]的方法提高3.5個(gè)百分點(diǎn)，Services領(lǐng)域的F比Jakob和Gurevych[6]的方法提高大約6.4個(gè)百分點(diǎn)。說明句法結(jié)構(gòu)信息能夠充分反映評(píng)價(jià)對(duì)象和情感詞之間的關(guān)系。

5 結(jié)論

本文主要介紹了句法特征在評(píng)價(jià)對(duì)象抽取中的應(yīng)用，實(shí)驗(yàn)結(jié)果表明，句法特征對(duì)評(píng)價(jià)對(duì)象的抽取起著非常關(guān)鍵的作用，句法信息能夠充分捕捉情感詞和評(píng)價(jià)對(duì)象之間的關(guān)系?；诰浞ㄌ卣鞯腃RF模型遠(yuǎn)遠(yuǎn)優(yōu)于僅使用詞形和詞性特征的抽取方法，而且明顯優(yōu)于目前最好的基于依存句法的抽取方法，即Jakob和Gurevych[6]的方法。

在下一步的工作中，我們將繼續(xù)尋找其他的句法特征，進(jìn)一步提高和完善句法特征在評(píng)價(jià)對(duì)象抽取任務(wù)中的應(yīng)用。同時(shí)，將句法特征應(yīng)用到評(píng)價(jià)對(duì)象抽取的領(lǐng)域適應(yīng)問題中，考察句法特征在評(píng)價(jià)對(duì)象抽取領(lǐng)域適應(yīng)問題中的表現(xiàn)。

[1] Pang B， Lee L. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2) :1-135.

[2] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of the EMNLP 2002. 2002: 79-86.

[3] 趙妍妍，秦兵，劉挺．文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8):1834-1848.

[4] Kim S，Hovy E. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text[C]//Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text. 2006: 1-8.

[5] Hu M， Liu B. Mining Opinion Features in Customer Reviews[C]//Proceedings of the AAAI-2004. 2004: 755-760.

[6] Jakob N， Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of the EMNLP-2010. 2010: 1035-1045.

[7] Li B, Zhou L, Feng S, et al. A Unified Graph Model for Sentence-based Opinion Retrieval[C]//Proceedings of the ACL-2010. 2010:1367-1375.

[8] 王榮洋，鞠久鵬，李壽山，等. 基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J]. 中文信息學(xué)報(bào)，2012，26(2)： 56-61.

[9] Popescu A, Nguyen B, Etzioni O. OPINE: Extracting Product Features and Opinions from Reviews[C]//Proceedings of HLT/EMNLP-2005. 2005:32-33.

[10] Zhuang L, Jing F, Zhu X. Movie review mining and summarization[C]//Proceedings of the CIKM-2006. 2006: 43-50.

[11] Kessler J， Nicolov N. Targeting Sentiment Expressions through Supervised Ranking of Linguistic Configurations[C]//Proceedings of the Third International AAAI Conference on Weblogs and Social Media, San Jose, California, USA, May.2009: 90-97.

[12] Putthividhya D， Hu J. Bootstrapped Named Entity Recognition for Product Attribute Extraction[C]//Proceedings of the EMNLP-2011. 2011: 1557-1567.

[13] Toprak C, Jakob N, Gurevych I. Sentence and Expression Level Annotation of Opinions in User-Generated Discourse[C]//Proceedings of the ACL-2010. 2010: 575-584.

[14] Jiang Z， Ng H. Semantic Role Labeling of NomBank: A Maximum Entropy Approach[C]//Proceedings of the EMNLP-2006.2006:138-145.

[15] 宗成慶. 統(tǒng)計(jì)自然語言處理[M]. 北京：清華大學(xué)出版社，2008:1-475.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡