楊云
基于句法結(jié)構(gòu)的評價對象抽取方法研究
楊云
文本情感分析是自然語言處理領(lǐng)域的重要研究問題。本文主要對文本情感分析的底層任務(wù)——情感信息抽取中的評價對象抽取進(jìn)行研究,為情感分析的上層任務(wù)提供服務(wù)。對預(yù)處理后的結(jié)果進(jìn)行特征提取,再將特征提取的結(jié)果與相應(yīng)模板輸入CRF(Conditional Random Field)模型進(jìn)行訓(xùn)練與識別。在特征提取上,通過深入分析句法結(jié)構(gòu),在已有特征的基礎(chǔ)上加入了三種特征。在模板上,在多種窗口大小的模板上進(jìn)行了對比實(shí)驗(yàn),選取性能好的模板。實(shí)驗(yàn)結(jié)果驗(yàn)證了此方法的有效性、系統(tǒng)性能均優(yōu)于基線實(shí)驗(yàn)且能為準(zhǔn)確地抽取評價對象。
句法結(jié)構(gòu);情感分析;評價對象;CRF模型
文本情感分析亦稱意見挖掘,主要是對具有感情色彩的主觀性文本進(jìn)行分析、處理、歸納的過程,是一個重要且有應(yīng)用價值的研究課題[1]。文本情感分析主要有三項(xiàng)遞進(jìn)的研究任務(wù):情感信息抽取、情感信息分類和情感信息的檢索與歸納。情感信息抽取中的評價對象抽取是抽取出評論中所討論的主題,為情感分析任務(wù)提供幫助。
現(xiàn)有的評價對象抽取方法分為基于規(guī)則/模板和基于統(tǒng)計的方法?;谝?guī)則/模板有:H u和L i u[2]最先提出評價對象抽取的問題,使用關(guān)聯(lián)規(guī)則挖掘算法來抽取評價對象,認(rèn)為出現(xiàn)頻率較高的名詞是評價對象。Popescu[3]等人通過定義抽取規(guī)則和規(guī)則模板來抽取潛在產(chǎn)品特征,并判斷評價短語的極性。Zhuang[4]等人通過定義電影特征、相關(guān)特征的評價詞語和特征—評價短語對來挖掘電影評論中的顯性特征和部分符合定義規(guī)則的隱性特征。Scaffidi[5]等人通過抽取特征術(shù)語和排序產(chǎn)品特征來快速定位用戶所需的產(chǎn)品,從而完成產(chǎn)品特征—評價對象的抽取。趙妍妍[6]等人通過統(tǒng)計句中出現(xiàn)頻繁的句法路徑,并對句法路徑進(jìn)行進(jìn)一步泛化,使用基于句法路徑精確匹配和基于編輯距離的方法來識別情感評價單元。基于統(tǒng)計的方法主要有:Jakob和Gurevych[7]將評價對象抽取任務(wù)建模成序列標(biāo)記任務(wù),使用C R F模型[8]來標(biāo)記評價對象。L i u[9]等人使用基于詞的翻譯模型(Word-based Translation Model)的評價對象抽取方法,能夠捕獲大跨度的評價關(guān)系。L i u[10]等人在W T M方法的基礎(chǔ)上進(jìn)行了改進(jìn),提出了基于部分監(jiān)督詞對齊模型(PartiallySupervised Word Alignment Model, PSWAM)的評價對象抽取方法,選取置信度高的為最終的評價對象。Liu[11]等人在不同規(guī)模、語言和領(lǐng)域的數(shù)據(jù)集上驗(yàn)證了基于語義和基于詞對齊模型的評價對象抽取方法的性能,實(shí)驗(yàn)證明系統(tǒng)性能與語言和領(lǐng)域無關(guān),而與語料的規(guī)模有關(guān)。
已有的評價對象抽取方法存在不足之處?;谝?guī)則/模板的方法通用性不強(qiáng),有的規(guī)則是根據(jù)傳統(tǒng)算法、語料的特點(diǎn)和領(lǐng)域相關(guān)的詞語而制定,把這些規(guī)則移植到其他領(lǐng)域不會得到很好的效果;模板的限定范圍有限,不能準(zhǔn)確識別特殊的評價對象。而基于統(tǒng)計的方法往往忽略了句子間的內(nèi)部結(jié)構(gòu)信息,如句中的依存關(guān)系等信息,識別的效果有限。因此,本文將基于規(guī)則/模板的方法與基于統(tǒng)計模型的方法相結(jié)合,深入考慮句法結(jié)構(gòu)信息和詞與詞之間的依存關(guān)系,使用基于句法結(jié)構(gòu)的評價對象抽取研究方法,對分詞、詞性標(biāo)注和句法分析后的結(jié)果進(jìn)行特征提取,并借助C R F模型來標(biāo)記評價對象,實(shí)驗(yàn)證明能很好地識別評價對象且優(yōu)于基線實(shí)驗(yàn)方法。
本文提出了基于句法結(jié)構(gòu)的評價對象抽取方法,圖1給出了系統(tǒng)框圖。
在預(yù)處理階段對原始語料進(jìn)行分詞、詞性標(biāo)注和句法分析,使用S ta n f o rd的自然語言處理工具;在特征提取階段,充分考慮句法結(jié)構(gòu)信息,在已有特征的基礎(chǔ)上加入了三種特征;在特征模板的定義上,定義了兩種模板,用于驗(yàn)證不同大小的窗口對實(shí)驗(yàn)系統(tǒng)性能的影響;最后借助C R F模型來標(biāo)記評價對象。
圖1 基于句法結(jié)構(gòu)的評價對象抽取方法框圖
(一)特征描述
在選取已有特征[7]的基礎(chǔ)上,通過深入分析句法分析后的句法結(jié)構(gòu),加入三種特征。具體的特征描述如表1所示。
表1 特征描述
其中,編號1—編號5為已有特征,編號6—編號8為本文加入特征。情感詞是情感詞對挖掘的重要識別指標(biāo),考慮加入情感詞特征以提高實(shí)驗(yàn)性能;依存關(guān)系標(biāo)簽如“n su b j”等,通常連接著評價對象與評價短語,即連接著情感詞對;依存關(guān)系詞清晰地展現(xiàn)了與當(dāng)前詞有依存關(guān)系的詞。
將分詞后的句子:“Canon 的分辨率還是很清晰的,外觀也特別時尚。”輸入到StanfordParser 中,得到依存關(guān)系,assmod (分辨率-3,Canon-1) 、assm (Canon-1, 的-2) 、nsubj (清晰的-6, 分辨率-3)、advmod(清晰的-6, 還是-4)、advmod(清晰的-6, 很-5)、nsubj(時尚-11, 外觀-8)、advmod(時尚-11, 也-9)、amod(時尚-11, 特別-10)、dep(清晰的-6, 時尚-11)。其中,依存關(guān)系標(biāo)簽nsub 連接著情感詞對,nsubj (清晰的-6, 分辨率-3)和nsubj(時尚-11, 外觀-8)。
(二)模板定義
模板反映了每句評論句中詞間的上下文信息。模板選取的好壞,對于實(shí)驗(yàn)的特征選取起著關(guān)鍵作用。模板用于控制詞之間的窗口大小,窗口過小,所包含信息過少,特征利用不全面,導(dǎo)致系統(tǒng)性能降低;窗口過大,引入了過多的信息,降低了運(yùn)行效率,實(shí)驗(yàn)效果也未必提高。
本文模板定義選用的窗口大小定義的通式為:(w-n,w-(n-1),…,w0,…,w n-1,w n)。為選取性能最佳的模板,探討當(dāng)窗口大小為t m p1=(-1,0,1)與t m p2=(-2,-1,0,1,2)模板的系統(tǒng)性能。
(三)C R F模塊設(shè)計
在C R F模塊中,使用了十折交叉驗(yàn)證的方法,把特征提取的結(jié)果分成十份,隨機(jī)選取九份作為訓(xùn)練數(shù)據(jù),一份作為測試數(shù)據(jù);再將九份訓(xùn)練數(shù)據(jù)與相應(yīng)地模板輸入到C R F++中生成模型,再用生成的模型來訓(xùn)練一份測試數(shù)據(jù)并識別出評價對象。
(一)實(shí)驗(yàn)數(shù)據(jù)
本文模板定義選用的窗口大小定義的通式為:(w-n,w-(n-1),…,w0,…,wn-1,wn)。為選取性能最佳的模板,探討當(dāng)窗口大小為tmp1 = (-1,0,1)與tmp2 = (-2,-1,0,1,2)模板的系統(tǒng)性能。
表2 數(shù)據(jù)集規(guī)模統(tǒng)計
句子平均長度=單詞總數(shù)/句子總數(shù);評價對象平均長度=評價對象總數(shù)/主觀句總數(shù)。
(二)實(shí)驗(yàn)設(shè)置
本文選用已有的特征[8]作為基線實(shí)驗(yàn),并在多個模板上進(jìn)行了對比與分析。已有特征包括表1中的詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和是否是主觀句特征。并在不同窗口大小的模板上進(jìn)行了對比實(shí)驗(yàn)。
本文選用信息檢索領(lǐng)域常用的評價指標(biāo):準(zhǔn)確率P、召回率R和F值。
為測試系統(tǒng)性能的準(zhǔn)確性,選用十折交叉驗(yàn)證的方式,理論上折數(shù)越大測試的系統(tǒng)性能越準(zhǔn)確,當(dāng)折數(shù)達(dá)到十折,已足以讓系統(tǒng)性能取得最優(yōu)。具體地,將特征提取后的結(jié)果分為十份,隨機(jī)選取九份作為訓(xùn)練數(shù)據(jù)并與相應(yīng)的模板一起輸入到C R F模塊中訓(xùn)練成模型,用模型來標(biāo)識一份測試數(shù)據(jù),以上過程重復(fù)十次,取十次結(jié)果的平均值作為最終的評價結(jié)果。
(三)實(shí)驗(yàn)結(jié)果與分析
本部分選取相同的模板,在三個不同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),以驗(yàn)證特征與特征組合對系統(tǒng)性能的影響。表3是已有特征的詞特征、詞性特征及它們的特征組合的實(shí)驗(yàn)結(jié)果。
表3 基礎(chǔ)特征實(shí)驗(yàn)結(jié)果
編號1是詞特征,編號2是詞性特征,編號3是詞特征與詞性特征的組合,稱為基本特征。單獨(dú)使用編號1(詞特征)的效果要好于單獨(dú)使用編號2(詞性特征)的效果,二者的特征組合編號3 (基本特征)要優(yōu)于編號1與編號2。詞與詞性是組成句子的最基本特征,因而詞與詞性的組合特征更為有效。
編號4到編號9是在基本特征的基礎(chǔ)上,依次加入了最短依存路徑特征、最短詞距離特征、是否是主觀句特征、情感詞特征依存關(guān)系特征與依存關(guān)系詞特征;編號4到編號9的系統(tǒng)性能均優(yōu)于編號3基本特征的組合,且加入最短依存路徑特征(d L n)的效果最明顯,驗(yàn)證了深入分析句中的依存關(guān)系—句法結(jié)構(gòu)信息的必要性。
編號10是已有特征的組合;編號11是在已有特征的基礎(chǔ)上加入了情感詞特征;編號12與編號13是在編號11特征組合的基礎(chǔ)上依存加入了依存關(guān)系特征與依存關(guān)系詞特征;編號14是所有特征的組合。
編號10中已有特征的組合的性能要優(yōu)于編號1—編號9;編號11加入情感詞特征的系統(tǒng)性能要優(yōu)于已有特征,原因是情感詞是識別評價對象的重要指標(biāo),且最短依存路徑特征1與最短詞距離特征2間接依賴于情感詞特征;編號12與編號13在編號11的基礎(chǔ)上依次加入了依存關(guān)系特征與依存關(guān)系詞特征,依存關(guān)系標(biāo)簽是識別情感詞對的重要指標(biāo),實(shí)驗(yàn)性能要優(yōu)于編號11;編號14所有的特征組合取得了最佳的系統(tǒng)性能,驗(yàn)證了在已有特征的基礎(chǔ)上加入本文加入的特征是有效的,能夠在合適的窗口大小下識別評價對象?!半娪啊鳖I(lǐng)域原因是“電影”語料的規(guī)模較大,且電影評論更為規(guī)范,因此識別的評價對象更為準(zhǔn)確。
本文提出了一種基于句法結(jié)構(gòu)的評價對象抽取方法,通過深入分析句子的句法結(jié)構(gòu)信息,在已有特征的基礎(chǔ)上加入了情感詞特征、依存關(guān)系特征與依存關(guān)系詞特征,并在兩個不同的模板上驗(yàn)證了不同的窗口大小對實(shí)驗(yàn)性能的影響。經(jīng)實(shí)驗(yàn)驗(yàn)證了本文方法的有效性。
表4 基礎(chǔ)特征與單個特征組合實(shí)驗(yàn)結(jié)果
表5 特征組合實(shí)驗(yàn)結(jié)果
在未來的工作中,將繼續(xù)探索更為有效的特征以提高評價對象識別的精度,為情感分析的上層任務(wù)服務(wù)。評論中有些評價對象為代詞,考慮到評論句中代詞的影響,嘗試代詞“指代消解”方法加入到本文方法,以提高系統(tǒng)性能,識別出更為準(zhǔn)確的評價對象。
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010(21).
[2]Hu M,Liu B.Mining and Summarizing Cus -tomer Reviews [C].Proc.of the tenth ACMSIGKDD international conference on Knowledgediscovery and data mining.New York:ACM,2004.168-177.
[3]Popescu A,Nguyen B,Etzioni O.OPINE:Extracting Product Features and Opinions fromReviews [C].Proc.of HLT/EMNLP on InteractiveDemonstrations.USA:Association for ComputationalLinguistics,2005.32-33.
[4]Zhuang L,Jing F,Zhu X.Movie Review Miningand Summarization [C].Proc.of the 15th ACMinternational conference on Information andknowledge management (CIKM).USA:ACM,2006.43-50.
[5]Scaffidi C,Bierhoff K,Chang E,et al.RedOpal:Product feature Scoring from Reviews[C].Proc.of the 8th ACM conference on Electroniccommerce(EC).USA:ACM,2007.182–191.
[6]趙妍妍,秦兵,車萬翔,等.基于句法路徑的情感評價單元識別[J].軟件學(xué)報,2011,22(5).
[7]Jakob N,Gurevych I.Extracting Opinion Targetsin a Single and Cross-Domain Setting with Conditional Random Fields [C].Proc.of the 2010Conference on Empirical Methods in Natural LanguageProcessing (EMNLP).USA:Association forComputational Linguistics,2010.1035-1045.
[8]Lafferty J,McCallum A,Pereira F.ConditionalRandom Fields: Probabilistic Models for Segmentingand Labeling Sequence Data[C]. In Proceedingsof ICML. 2001: 282-289.
[9]Liu K,Xu L H,Zhao J.Opinion target extractionusing word-based translation model[C].Proc.ofthe 2012 Joint Conference on Empirical Methodsin Natural Language Processing and ComputationalNatural Language Learning (EMNLP).Associationfor Computational Linguistics.2012.1346-1356.
[10]Liu K,Xu L H,Zhao J.Opinion target extractionusing partially supervised word alignmentmodel [C].Proc.of the Twenty-Third InternationalJoint Conference on Artificial Intelligence.2013.
[11]Liu K,Xu L H,Zhao J.Syntactic Patterns versusWord Alignment:Extracting Opinion Targets fromOnline Reviews[C].Proc.of ACL.2013.
責(zé)任編輯:郭一鶴
T P391
A
1671-6531(2017)06-0067-05
楊云/長春教育學(xué)院信息技術(shù)教育部助教,碩士(吉林長春130061)。