国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于句法特征的評(píng)價(jià)對(duì)象抽取方法研究

2014-02-28 04:51王榮洋李壽山周國棟
中文信息學(xué)報(bào) 2014年4期
關(guān)鍵詞:句法語料對(duì)象

戴 敏,王榮洋,李壽山,朱 珠,周國棟

(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語言處理實(shí)驗(yàn)室, 江蘇 蘇州 215006)

1 引言

進(jìn)入21世紀(jì)后,網(wǎng)絡(luò)在人們的日常生活中扮演著越來越重要的角色。在網(wǎng)絡(luò)里,人們廣泛進(jìn)行購物、交友等活動(dòng),相應(yīng)產(chǎn)生了大量用戶參與的對(duì)于人和事、電影、產(chǎn)品等的評(píng)論文本。這些評(píng)論文本往往以商品評(píng)論、論壇評(píng)論和博客等多種形式存在。用戶會(huì)通過網(wǎng)絡(luò)上已有的評(píng)論文本來掌握某產(chǎn)品或電影的評(píng)價(jià),但同時(shí)用戶會(huì)飽受迅速膨脹的評(píng)論信息量的困擾,僅靠人工方法很難對(duì)網(wǎng)上海量的帶有豐富意見的資源進(jìn)行收集和處理,因此給自動(dòng)化、智能化評(píng)論信息處理提出了新的要求和挑戰(zhàn)。情感分析(Sentiment Analysis)正是在這種背景下產(chǎn)生的[1-3]。目前,越來越多的研究者開始把目光轉(zhuǎn)向細(xì)粒度的[4](Fine-grained)情感分析任務(wù)。例如,評(píng)價(jià)對(duì)象抽取(Opinion Target Extraction)即是目前應(yīng)用最受關(guān)注的情感分析子任務(wù)之一。

評(píng)價(jià)對(duì)象是指某篇評(píng)論中表現(xiàn)的主題,即評(píng)論文本中評(píng)價(jià)詞語所修飾的對(duì)象。例如,在產(chǎn)品評(píng)論中關(guān)于一款手機(jī)屏幕、電池、按鍵、應(yīng)用軟件等,都可以作為評(píng)價(jià)手機(jī)的某一具體對(duì)象。評(píng)價(jià)對(duì)象抽取是細(xì)粒度的情感分析任務(wù),評(píng)價(jià)對(duì)象是情感信息的一部分。這項(xiàng)研究的開展有助于為上層情感分析任務(wù)提供服務(wù)。本文的目標(biāo)就是提出新的方法或模型抽取評(píng)論文本中的評(píng)價(jià)對(duì)象。例如,

例句1Capella University has incredible faculty in the Harold Abel School of Psychology.

通過例句1可知,“faculty”被情感詞“incredible”所修飾,因此,“faculty”可以做為本句的評(píng)價(jià)對(duì)象。它們共同組成一個(gè)二元組(“faculty”,“incredible”)。我們通過情感詞“incredible”的極性可以很容易的判別出該主觀句對(duì)評(píng)價(jià)對(duì)象“faculty”的褒貶。

目前,主流的情感信息抽取方法分為兩個(gè)類型: 基于非監(jiān)督學(xué)習(xí)的抽取方法和基于監(jiān)督學(xué)習(xí)的抽取方法。前一種方法一般采用一些啟發(fā)式規(guī)則識(shí)別可能的評(píng)價(jià)對(duì)象[5];后一種方法則使用機(jī)器學(xué)習(xí)方法學(xué)習(xí)已標(biāo)注樣本構(gòu)建自動(dòng)識(shí)別系統(tǒng)[6]。雖然基于非監(jiān)督學(xué)習(xí)的抽取方法在該方向的研究初期占有主導(dǎo)地位,但是這種方法構(gòu)建啟發(fā)式規(guī)則比較復(fù)雜,而且由于很難控制多個(gè)規(guī)則之間的全局優(yōu)化,非監(jiān)督學(xué)習(xí)方法所獲得的抽取性能往往并不能滿足實(shí)際需要。相對(duì)而言,基于監(jiān)督學(xué)習(xí)方法的抽取性能會(huì)得到很好的改善?;诒O(jiān)督學(xué)習(xí)方法的關(guān)鍵問題是如何選擇有效的特征。雖然Jakob 和Gurevych[6]中提出的詞形、詞性及依存路徑已經(jīng)取得了一定的效果,但對(duì)于能夠很好描述情感詞和評(píng)價(jià)對(duì)象關(guān)系的結(jié)構(gòu)句法特征并沒有涉及。

本文基于監(jiān)督學(xué)習(xí)的抽取方法,使用Jakob和Gurevych[6]提出的序列標(biāo)注學(xué)習(xí)的模型。重點(diǎn)考察句法特征在監(jiān)督學(xué)習(xí)方法上面的表現(xiàn)。我們發(fā)現(xiàn)評(píng)價(jià)對(duì)象和情感詞之間的關(guān)系可以通過句法樹獲得,例如,評(píng)價(jià)對(duì)象和情感詞之間往往存在主謂關(guān)系。對(duì)于路徑“NNADJP>JJ”一般表示當(dāng)前詞為情感表達(dá)的主語,則當(dāng)前詞有可能是評(píng)價(jià)對(duì)象。因此,句法信息對(duì)評(píng)價(jià)對(duì)象的抽取有一定的指示作用。本文在條件隨機(jī)場模型的基礎(chǔ)上,引入句法特征用以提高評(píng)價(jià)對(duì)象抽取性能。

本文的其他內(nèi)容組織如下: 第二部分介紹相關(guān)工作;第三部分介紹系統(tǒng)構(gòu)建、特征描述;第四部分介紹實(shí)驗(yàn)結(jié)果及分析;最后總結(jié)全文。

2 相關(guān)工作

評(píng)價(jià)對(duì)象抽取是抽取評(píng)論文本中情感表達(dá)所面向的對(duì)象。該任務(wù)是情感信息抽取任務(wù)中研究最為廣泛的一項(xiàng)任務(wù),相繼出現(xiàn)了大量的抽取方法[6-8],這些方法大致可以分為兩類: 基于非監(jiān)督學(xué)習(xí)的抽取方法和監(jiān)督學(xué)習(xí)的抽取方法。

2.1 基于非監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法

Hu和Liu[5]最新提出評(píng)價(jià)對(duì)象抽取問題,認(rèn)為出現(xiàn)頻率較高的名詞往往是評(píng)價(jià)對(duì)象候選,相繼利用關(guān)聯(lián)規(guī)則挖掘評(píng)價(jià)對(duì)象。Li和Zhou[7]使用情感詞典和主題詞典抽取<情感詞,評(píng)價(jià)對(duì)象>二元組,與傳統(tǒng)的方法相比,他們通過抽取二元組可以捕獲情感詞和評(píng)價(jià)對(duì)象之間的關(guān)系。與以往的方法不一樣的是,該方法充分考慮了上下文信息,利用情感詞和評(píng)價(jià)對(duì)象的關(guān)系提高了抽取性能。Popescu和Nguyen[9]利用點(diǎn)互信息抽取產(chǎn)品的特征。同時(shí),他們還根據(jù)情感詞將顯性特征進(jìn)行聚類,然后對(duì)每類標(biāo)明一個(gè)標(biāo)簽,用于省略評(píng)價(jià)對(duì)象的抽取。

2.2 基于監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法

相對(duì)于非監(jiān)督學(xué)習(xí)抽取方法,基于監(jiān)督學(xué)習(xí)的方法起步較晚。Zhuang等[10]針對(duì)意見描述—評(píng)價(jià)對(duì)象序偶的抽取提出了一種監(jiān)督學(xué)習(xí)的算法。該算法從一個(gè)標(biāo)注了的數(shù)據(jù)集中學(xué)習(xí)評(píng)價(jià)對(duì)象的候選結(jié)點(diǎn),和與這些序偶相關(guān)的依存和詞類路徑的結(jié)合信息。文中的實(shí)驗(yàn)結(jié)果表明,基于監(jiān)督學(xué)習(xí)的這種方法在抽取效果方面遠(yuǎn)遠(yuǎn)優(yōu)于Hu和Liu[5]提出的基于規(guī)則的方法。Kessler和Nicolov[11]提出了基于機(jī)器學(xué)習(xí)分類方法的監(jiān)督學(xué)習(xí)方法,用于實(shí)現(xiàn)意見描述和評(píng)價(jià)對(duì)象的識(shí)別,得到了類似的結(jié)論。Jakob和Gurevych[6]將評(píng)價(jià)對(duì)象抽取問題建模成序列標(biāo)注問題,進(jìn)而使用條件隨機(jī)場模型(CRF)進(jìn)行學(xué)習(xí),在同一領(lǐng)域里面獲得了比Zhuang[10]方法更佳的抽取效果。同時(shí),實(shí)驗(yàn)結(jié)果還驗(yàn)證了基于序列標(biāo)注的模型同樣適合評(píng)價(jià)對(duì)象抽取的領(lǐng)域適應(yīng)問題。本文主要研究基于監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法,并采用條件隨機(jī)場模型進(jìn)行訓(xùn)練。Putthividhya和Hu[12]采用命名實(shí)體識(shí)別抽取產(chǎn)品屬性。

3 系統(tǒng)構(gòu)建

本節(jié)主要介紹系統(tǒng)架構(gòu),特征概述等問題。

3.1 系統(tǒng)架構(gòu)圖

本文將評(píng)價(jià)對(duì)象抽取任務(wù)建模為序列標(biāo)注問題,實(shí)現(xiàn)基于CRFs的評(píng)價(jià)對(duì)象抽取系統(tǒng)。該系統(tǒng)可以分為兩部分,即訓(xùn)練和識(shí)別,如圖1所示。

原始語料經(jīng)過主觀性檢測、詞性標(biāo)注、依存分析等預(yù)處理后得到可用語料。其中主觀性檢測即識(shí)別出語料中的主觀句,這是由于我們的系統(tǒng)是在主觀句中進(jìn)行評(píng)價(jià)對(duì)象抽取的。訓(xùn)練部分利用特征模板,從可用語料中抽取特征,進(jìn)行訓(xùn)練得到識(shí)別模型。

圖1 基于CRF模型的評(píng)價(jià)對(duì)象抽取系統(tǒng)框架結(jié)構(gòu)

識(shí)別過程則是用訓(xùn)練得到的模型進(jìn)行評(píng)價(jià)對(duì)象識(shí)別,得到標(biāo)注結(jié)果。該過程是一個(gè)典型的有指導(dǎo)機(jī)器學(xué)習(xí)(Supervised Machine Learning)的過程。

3.2 特征概述

Jakob和Gurevych[6]采用了條件隨機(jī)場模型進(jìn)行評(píng)價(jià)對(duì)象的抽取,并抽取詞形、詞性、依存關(guān)系、詞距離等特征,取得了不錯(cuò)的效果。然而對(duì)于<評(píng)價(jià)對(duì)象,情感詞>二元組,僅靠這幾個(gè)特征并不能充分捕獲到它們之間的關(guān)系。我們通過語料發(fā)現(xiàn),它們之間的關(guān)系可以通過句法樹獲得,例如,評(píng)價(jià)對(duì)象和情感詞之間往往存在主謂關(guān)系。路徑“NNADJP>JJ”一般表示當(dāng)前詞為情感表達(dá)的主語,則當(dāng)前詞有可能是評(píng)價(jià)對(duì)象。對(duì)于這樣的路徑“NNADJP>JJ”,當(dāng)前詞通常不作為評(píng)價(jià)對(duì)象,因此句法分析提供的路徑特征在評(píng)價(jià)對(duì)象的識(shí)別過程中起著非常重要的作用,它通常能夠決定某個(gè)詞是否可以作為評(píng)價(jià)對(duì)象。但是這種特征同時(shí)也存在著數(shù)據(jù)稀疏的問題,因此我們引入了精簡路徑,它將多個(gè)相鄰且類型一致的成分只保留一個(gè),可以一定程度上解決數(shù)據(jù)稀疏的問題。

因此,本文引入句法分析結(jié)果提供的句法特征,主要是指句法的路徑特征,用于基于CRF模型的評(píng)價(jià)對(duì)象抽取任務(wù)。表1列出了本文中所用到的句法特征。(例句2對(duì)應(yīng)的句法樹如圖2所示,當(dāng)前待識(shí)別單詞為“film”)除了全局路徑外,特征P5和P6是從路徑特征衍生而來,它們能夠在一定程度上反映同情感詞之間的關(guān)系。

表1 各種句法特征概述

例句2This film made in the 1930’s is almost incomprehensible to me.

4 實(shí)驗(yàn)結(jié)果與分析

本節(jié)主要介紹實(shí)驗(yàn)語料,實(shí)驗(yàn)設(shè)置,給出實(shí)驗(yàn)結(jié)果,并做相應(yīng)的結(jié)果分析。

4.1 語料概述

本文用到的語料來源于DSRC*http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/。DSRC語料包含Services和Universities兩個(gè)領(lǐng)域,文獻(xiàn)[13]給出了DSRC詳細(xì)的標(biāo)注規(guī)范及說明。各領(lǐng)域的原始語料規(guī)模統(tǒng)計(jì)如表2所示。

表2 語料相關(guān)統(tǒng)計(jì)說明

4.2 實(shí)驗(yàn)設(shè)置

在本實(shí)驗(yàn)中,條件隨機(jī)場模型的實(shí)現(xiàn)采用CRF++*http://crfpp.sourceforge.net/,使用默認(rèn)參數(shù),詞與詞性的窗口大小為3,其余特征用當(dāng)前窗口,使用標(biāo)記的Bigram特征。

對(duì)于這些句法特征,我們采用貪婪式的特征選擇算法[12]進(jìn)行特征選擇。

我們首先將數(shù)據(jù)集按9∶1分成訓(xùn)練集和開發(fā)集進(jìn)行特征選擇,最后使用選擇出的最優(yōu)特征組合按10倍交叉驗(yàn)證的方法進(jìn)行測試,最終結(jié)果使用10次運(yùn)行的平均值。

我們采用的評(píng)價(jià)標(biāo)準(zhǔn)是平均準(zhǔn)確率、平均召回率、平均F1,分別記作P、R、F1。

4.3 實(shí)驗(yàn)結(jié)果與分析

本文中,我們以詞特征(Token)和詞性(POS)特征為基礎(chǔ)特征,然后加入其他的句法特征。表3顯示了分別加入單個(gè)句法特征的效果。

表3 加入單個(gè)句法特征的效果

從表3可以看出,加入單個(gè)句法特征之后,評(píng)價(jià)對(duì)象的抽取效果有非常明顯的提高,在加入路徑特征后,F(xiàn)1可以提高5—8個(gè)百分點(diǎn)。該結(jié)果驗(yàn)證了句法信息對(duì)評(píng)價(jià)對(duì)象抽取的重要性。對(duì)于路徑特征,某條路徑能夠直接反映當(dāng)前詞同情感詞之間的關(guān)系,例如,主謂關(guān)系等,因此路徑特征對(duì)評(píng)價(jià)對(duì)象的抽取起著非常關(guān)鍵的作用,而精簡路徑和部分路徑作為路徑特征的衍生,同樣起著比較重要的作用。當(dāng)情感詞作為動(dòng)詞時(shí),評(píng)價(jià)對(duì)象通常位于情感詞的右側(cè);當(dāng)情感詞作為形容詞時(shí),評(píng)價(jià)對(duì)象通常位于情感詞的左側(cè)。因此位置特征對(duì)評(píng)價(jià)對(duì)象的抽取同樣起著非常重要的作用。在一句話中,評(píng)價(jià)對(duì)象同情感詞通常位于同一子句中,因此特征P7對(duì)評(píng)價(jià)對(duì)象的抽取能夠提供一定的信息量。

表4顯示了我們利用貪婪式的特征選擇算法所選擇的特征組合,由于采用的是貪婪式特征算法,即每次選擇貢獻(xiàn)度最大的特征,因此特征選擇是有先后順序的。通過此表可以看出,特征組合{P5,P3,P6,P7}可以達(dá)到最好的效果,我們并沒有采用其他的句法特征,因?yàn)榧由掀渌卣髦髮?duì)最后的抽取效果并無幫助。

表4 特征選擇的結(jié)果

圖3 Universities領(lǐng)域?qū)嶒?yàn)結(jié)果

圖4 Services領(lǐng)域?qū)嶒?yàn)結(jié)果

圖3和圖4分別顯示了在兩個(gè)領(lǐng)域中我們的方法同Jakob和Gurevych[6]的方法比較,在此實(shí)驗(yàn)中,我們采用了十倍交叉驗(yàn)證的方法。其中基準(zhǔn)系統(tǒng)代表只用詞形(Token)和詞性特征(POS)的結(jié)果,J和G(2010)代表Jakob和Gurevych[6]中使用的詞性、詞性、依存路徑和離情感詞距離為特征的抽取方法的結(jié)果。從圖3和圖4可以看出,當(dāng)采用句法特征之后, 抽取結(jié)果的召回率有顯著提高。在Universities領(lǐng)域的R中,我們的方法比Jakob和Gurevych[6]的方法提高大約4.4個(gè)百分點(diǎn),Services領(lǐng)域的R比Jakob和Gurevych[6]的方法提高大約7.5個(gè)百分點(diǎn)。整體性能方面,其中Universities領(lǐng)域的F比Jakob和Gurevych[6]的方法提高3.5個(gè)百分點(diǎn),Services領(lǐng)域的F比Jakob和Gurevych[6]的方法提高大約6.4個(gè)百分點(diǎn)。說明句法結(jié)構(gòu)信息能夠充分反映評(píng)價(jià)對(duì)象和情感詞之間的關(guān)系。

5 結(jié)論

本文主要介紹了句法特征在評(píng)價(jià)對(duì)象抽取中的應(yīng)用,實(shí)驗(yàn)結(jié)果表明,句法特征對(duì)評(píng)價(jià)對(duì)象的抽取起著非常關(guān)鍵的作用,句法信息能夠充分捕捉情感詞和評(píng)價(jià)對(duì)象之間的關(guān)系?;诰浞ㄌ卣鞯腃RF模型遠(yuǎn)遠(yuǎn)優(yōu)于僅使用詞形和詞性特征的抽取方法,而且明顯優(yōu)于目前最好的基于依存句法的抽取方法,即Jakob和Gurevych[6]的方法。

在下一步的工作中,我們將繼續(xù)尋找其他的句法特征,進(jìn)一步提高和完善句法特征在評(píng)價(jià)對(duì)象抽取任務(wù)中的應(yīng)用。同時(shí),將句法特征應(yīng)用到評(píng)價(jià)對(duì)象抽取的領(lǐng)域適應(yīng)問題中,考察句法特征在評(píng)價(jià)對(duì)象抽取領(lǐng)域適應(yīng)問題中的表現(xiàn)。

[1] Pang B, Lee L. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2) :1-135.

[2] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of the EMNLP 2002. 2002: 79-86.

[3] 趙妍妍,秦兵,劉挺.文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8):1834-1848.

[4] Kim S,Hovy E. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text[C]//Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text. 2006: 1-8.

[5] Hu M, Liu B. Mining Opinion Features in Customer Reviews[C]//Proceedings of the AAAI-2004. 2004: 755-760.

[6] Jakob N, Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of the EMNLP-2010. 2010: 1035-1045.

[7] Li B, Zhou L, Feng S, et al. A Unified Graph Model for Sentence-based Opinion Retrieval[C]//Proceedings of the ACL-2010. 2010:1367-1375.

[8] 王榮洋,鞠久鵬,李壽山,等. 基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J]. 中文信息學(xué)報(bào),2012,26(2): 56-61.

[9] Popescu A, Nguyen B, Etzioni O. OPINE: Extracting Product Features and Opinions from Reviews[C]//Proceedings of HLT/EMNLP-2005. 2005:32-33.

[10] Zhuang L, Jing F, Zhu X. Movie review mining and summarization[C]//Proceedings of the CIKM-2006. 2006: 43-50.

[11] Kessler J, Nicolov N. Targeting Sentiment Expressions through Supervised Ranking of Linguistic Configurations[C]//Proceedings of the Third International AAAI Conference on Weblogs and Social Media, San Jose, California, USA, May.2009: 90-97.

[12] Putthividhya D, Hu J. Bootstrapped Named Entity Recognition for Product Attribute Extraction[C]//Proceedings of the EMNLP-2011. 2011: 1557-1567.

[13] Toprak C, Jakob N, Gurevych I. Sentence and Expression Level Annotation of Opinions in User-Generated Discourse[C]//Proceedings of the ACL-2010. 2010: 575-584.

[14] Jiang Z, Ng H. Semantic Role Labeling of NomBank: A Maximum Entropy Approach[C]//Proceedings of the EMNLP-2006.2006:138-145.

[15] 宗成慶. 統(tǒng)計(jì)自然語言處理[M]. 北京: 清華大學(xué)出版社,2008:1-475.

猜你喜歡
句法語料對(duì)象
基于歸一化點(diǎn)向互信息的低資源平行語料過濾方法*
涉稅刑事訴訟中的舉證責(zé)任——以納稅人舉證責(zé)任為考察對(duì)象
述謂結(jié)構(gòu)與英語句法配置
判斷電壓表測量對(duì)象有妙招
句法二題
詩詞聯(lián)句句法梳理
攻略對(duì)象的心思好難猜
對(duì)外漢語教學(xué)領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標(biāo)注及應(yīng)用研究為例
區(qū)間對(duì)象族的可鎮(zhèn)定性分析
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
平阳县| 治县。| 分宜县| 吉安市| 襄樊市| 哈巴河县| 土默特右旗| 大港区| 临沭县| 道孚县| 彩票| 海安县| 浏阳市| 荣昌县| 东辽县| 富裕县| 连山| 南宫市| 镶黄旗| 呼伦贝尔市| 福建省| 平潭县| 鄂伦春自治旗| 东台市| 台中县| 自贡市| 营口市| 保山市| 肇源县| 合江县| 蛟河市| 康定县| 隆尧县| 新郑市| 子长县| 金寨县| 深圳市| 中江县| 黔江区| 湖南省| 忻城县|