林莉媛,王中卿,李壽山,周國棟
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
?
基于評論質量的多文檔文本情感摘要
林莉媛,王中卿,李壽山,周國棟
(蘇州大學 計算機科學與技術學院,江蘇 蘇州 215006)
文本情感摘要任務旨在對帶有情感的文本數(shù)據(jù)進行濃縮、提煉進而產(chǎn)生文本所表達的關于情感意見的摘要,用以幫助用戶更好地閱讀、理解情感文本的內容。該文主要研究多文檔的文本情感摘要問題, 重點針對網(wǎng)絡上存在的同一個產(chǎn)品的多個評論進行摘要抽取。在情感文本中,情感相關性是一個重要的特點,該文將充分考慮情感信息對文本情感摘要的重要影響。同時,對于評論語料,質量高的評論或者說可信度高的評論可以幫助用戶更好的了解評論中所評價的對象。因此,該文將充分考慮評論質量對文本情感摘要的影響。并且為了進行關于文本情感摘要的研究,該文收集并標注了一個基于產(chǎn)品評論的英文多文檔文本情感摘要語料庫。實驗證明,情感信息和評論質量能夠幫助多文檔文本情感摘要,提高摘要效果。
情感摘要;多文檔;評論質量
互聯(lián)網(wǎng)中包含了豐富的用戶對于各種事物的情感、觀點等信息,而產(chǎn)品評論是其中重要的一部分,如“I’mprobablygoingtoreturnthem,Ireallydislikethedesign.”、“Theyworkgreat,welovethem.”等。在網(wǎng)絡上撰寫評論是很普遍的行為,而人們在購買某個產(chǎn)品時也會先閱讀一下該產(chǎn)品的評論。但是當某個產(chǎn)品有大量的評論時,一次性閱讀完這些評論太費時、費力。文本摘要,尤其是文本情感摘要就可以很好地解決這個問題。
文本情感摘要(Opinion Summarization)可以在很大程度上幫助用戶更好地理解網(wǎng)絡上大量的情感信息,是自然語言處理的一個重要課題[1]。文本情感摘要可以應用在很多方面。例如,對搜索引擎返回結果的支持,對問答系統(tǒng)的支持,對話題檢測與跟蹤的支持等。由于人工的抽取文本情感摘要耗時耗力,因此自動的文本情感摘要就成了迫切需要解決的問題。
在評論文本中,句子間的主題與情感表達密切相關,他們之間的關系對摘要的產(chǎn)生有很大的影響。同時,由于缺乏編輯和質量控制,評論的質量差異很大。目前,部分電子商務網(wǎng)站已經(jīng)提供了用戶參與的評論質量評價機制,例如,Amazon*www.amazon.com購物網(wǎng)站允許用戶對評論是否有用(helpful)進行投票。如圖1顯示的是Amazon.com網(wǎng)站的評論, 圖1中有
“45,933 of 46,428 people found the following review helpful”。通過這種用戶參與的方式可以較準確的判斷評論的質量。Chen等[2]中發(fā)現(xiàn)通過“helpful”投票評價的評論會明確的影響產(chǎn)品的銷量。Kim等[3]和Hong等[4]中都使用“helpful”信息評價評論的質量的。
圖1 Amazon.com上關于評論質量的一條評論實例
因此,本文的主要研究情感和評論質量(“helpful”)對情感摘要的影響。在具體實現(xiàn)中,我們采用PageRank算法和HITS算法,同時利用情感信息和評論質量信息進行文本情感摘摘要的抽取。實驗結果表明,情感信息和評論質量信息對摘要的提高有很大的幫助。
本文其他部分的組織結構為: 第二部分介紹了摘要的相關工作;第三部分介紹了我們使用的語料;第四部分介紹了我們的方法;第五部分介紹了實驗結果;第六部分對本文進行了總結并提出了進一步的工作。
自動摘要的研究開始于1950年間[5]。自動摘要可分為: 基于統(tǒng)計的摘要(Extractive Summarization)[6-7]和基于自然語言理解的摘要(Abstractive Summarization)[8-9]。本文采用的是基于統(tǒng)計的摘要。
文本情感摘要是自動摘要和情感分析研究里面的一個基本問題。但是在早期的研究中,情感摘要主要集中在預測給定的文本的整體情感傾向(positive或negative)[10-12]。例如,Pang等[10]提出通過機器學習的方法對文本進行情感分類。Hu和Liu[11]一文中先識別出評論中的正、負類情感句子,再獲取正、負類摘要。Popescu 和 Etzioni[12]提出“OPINE”的方法預測評論中對產(chǎn)品屬性的評論的情感傾向。近幾年,情感摘要主要是對評論實體的某一屬性進行打分或摘要,例如,對MP3的評論中電池壽命: 1 stars,屏幕: 3.5 stars等[13-17]。這樣產(chǎn)生的摘要都很有用,也可以表達用戶對產(chǎn)品或產(chǎn)品屬性的情感傾向,但是這樣的摘要缺少對評論的整體把握,當用戶想要對評論有整體的了解時,還是需要閱讀更多的評論以進行了解。因此本文的多文檔文本情感摘要旨在將大量的評論進行濃縮、提煉,幫助用戶消化網(wǎng)絡上大量的觀點。本文的情感摘更能給讀者更全面的觀感,從整體上了解評論中大多數(shù)人對產(chǎn)品的看法。
然而,評論的質量參差不齊,質量高的評論更能獲得用戶的信賴。在現(xiàn)有的研究中,評論質量與摘要的關系的研究還比較少。Liu等[18]對低質量的產(chǎn)品評論進行檢測,用以幫助情感摘要,但該文中的摘要屬于對評論實體的某一屬性的摘要,與本文中的情感摘要不同。本文中利用Amazon.com網(wǎng)站用戶參與的評論質量評價機制(即評論是否“helpful”)研究評論質量與情感摘要的關系。
本文基于Amazon.com購物網(wǎng)中的評論資源展開實驗與分析。我們從網(wǎng)站中收集了30個主題(產(chǎn)品)的評論語料,其中包含了電子產(chǎn)品的評論、書籍的評論、影視的評論、生活用品的評論等。每個主題包含500篇評論,其中包含褒義評論和貶義評論,每條評論包含了用戶的投票信息(即有多少人認為該評論有用)。每個主題平均有3 318.1個句子,49 691.2個單詞。我們從每個主題的500篇評論中抽取最有代表性的句子作為每個主題的文本情感摘要。
為了抽取每個主題的產(chǎn)品評論的文本情感摘要,我們邀請三名標注者進行標注并且每名標注者的標注過程都是相互獨立的。表1中給出了三名標注者一致性的結果。
表1 人工標注的實驗結果
我們抽取的文本情感摘要的標準是選擇觀點和內容在整個評論中出現(xiàn)頻率較高,且覆蓋面較廣的評論語句。每個主題的摘要的單詞總數(shù)在120個單詞左右。平均壓縮比為7.5%。下面將給出關于“Breville BJE200XL Compact Juice Fountain 700-Watt Juice Extractor”的其中一個人工標注的結果。
“Thisjuiceriseasytouse,andnothardtokeepclean.Themotoronthisthingisverypowerful.Theonlydownsideiswherethejuicecomesout,thereisasmalllipthatisnearimpossibletoclean...soit’skindagross.Goodqualityconstruction,workswell,mightbenefitfromaslowerspeedtoextractmorejuicebutgenerallyverysatisfied.Icannotbelievethatforsuchareasonableprice,IwasabletogetsuchaFANTASTICjuicer.Thisissosimpletoclean...andit’sverypowerful...andwe’rereallyenjoyingmakingupourownjuices!Thismachinehaslotsofpower,cleansupeasily,issolidlybuilt,andlooksgood”.
本文中我們把文本情感摘要看成是基于主題的句子排序任務。為了研究情感信息和評論質量對文本情感摘要的影響,我們使用PageRank算法和HITS算法。
4.1 基于情感信息和評論質量的PageRank模型
PageRank是一種常見的隨機游走(Random Walk)模型[19-21]。本文中采用一種融合情感信息和句子的評論質量信息的三層圖模型的PageRank框架做摘要。在該模型中,中間層為基礎PageRank模型,上層為句子間的情感聯(lián)系,下層為句子的質量信息關系。圖2描述了三層圖模型的PageRank框架。
圖2 基于情感信息和評論質量的PageRank模型
在文本摘要中,PageRank模型首先構建一張有向圖G=〈Vs,Ess〉,其中頂點集VS是集合S(某個主題中所有句子的集合)中的句子,即每個句子為一個節(jié)點,邊Ess是句子之間的關系。用節(jié)點i到節(jié)點j的轉移概率p(i→j)定義兩節(jié)點之間的邊的權重。表示為式(1)。
(1)
其中f(i→j)為節(jié)點i和節(jié)點j之間的相似度,本文中使用余弦相似度(Cosine)[23]作為相似度算法,如式(2)所示。
(2)
若兩節(jié)點間存在關系,則兩節(jié)點間的轉移概率大于0,即兩節(jié)點之間存在關系。令f(i→i)=0,用于避免自身之間的轉移,并且一般情況下p(i→j)不一定等于p(j→i)。
以圖2為基礎,句子i的打分Score(si)可以由其他和i有關聯(lián)的句子推導出,在PageRank算法中它可以以遞歸的方式表現(xiàn)出來如式(3)所示。
(3)
式(3)中μ是一個阻尼因子,在計算過程中一般設置為0.85[19]。所有句子的初始值都設為1,算法采用迭代的方式直至收斂[20]。
在圖2的模型中,本文將兩個句子i和j的相似度修訂為f(i→j,θij,φij),θij為兩個句子間的情感關系,φij為句子間的質量關系。通過為情感句加入情感信息的特征和評論質量信息的特征可以使兩個帶有情感的句子或者評論質量高的句子聯(lián)系更加緊密,使兩個句子i和j的相似度也隨之增大。
本文中采用Unigram構建特征向量。為了利用情感信息,首先判斷每個句子是否帶有情感,如果帶有情感則為該句的特征向量加入一個“OPINION”特征,其特征值λ1大于0。在判斷句子是否帶情感時: 首先,本文采用最大熵分類器對語料進行正負分類,具體實現(xiàn)是借助MALLET*http://mallet.cs.umass.edu/機器學習工具包,分類過程中,所有參數(shù)都設置為它們的默認值;其次,當分為正負類的概率大于0.7時,本文認為句子是帶情感的。本文使用的訓練語料包含書籍(Book)、DVD、電子產(chǎn)品(Electronic)、和廚房用品(Kitchen)*The data is from multi-domain sentiment dataset v2.0. http://www.seas.upenn.edu/~mdredze/datasets/sentiment/.四個領域的評論。
本文采用如下的方法利用評論質量信息。首先,與Hong等[4]提及的一樣,“有用率”h(當“933of1 000peoplefoundthefollowingreviewhelpful”,則“有用率”h=933/1 000)大于0.6的評論文本認為是質量高的評論;其次,給質量高的評論加入一個“HELPFUL”的特征,其特征值λ3大于0;同時加入“單詞+#”的特征,其特征值λ4大于0。
當?shù)Y束,所有句子的打分被確定后,打分高的句子被認為具有較高的信息量和與主題相關度高,并選擇這樣的句子作為構建摘要。
4.2 基于情感信息和評論質量的HITS模型
本文中引入的另一個句子排序算法為HITS算法[20]。HITS算法有兩個重要概念:hub(中心節(jié)點)和authority(權威節(jié)點)。一個好的中心節(jié)點(hub)應該指向很多好的權威性節(jié)點(authority),而一個好的權威性節(jié)點(authority)應該被很多好的中心性節(jié)點(hub)所指向。用遞歸循環(huán)計算出hub值和authority值。
在文本摘要中HITS模型被廣泛地應用[20-21]。本文采用基于單詞的HITS算法,算法中將單詞作為權威節(jié)點authority,句子作為中心節(jié)點hub,如圖3的第二層和第三層。通過HITS算法對句子進行排序,獲取排序值大的句子作為摘要。
(4)
(5)
(6)
(7)
句子的中心節(jié)點初始值和單詞的權威節(jié)點初始值都設置為1。算法結束后,得到所有句子的打分Score(si)=Hub(si),選擇打分高的句子構建摘要。
本文采用如圖3的模型將情感信息和評論的質量信息融入到HITS模型中。與PageRank類似,為質量高的評論加入“HELPFUL”特征和“單詞+#”特征作為利用評論質量信息的方式。而與PageRank有所不同的是,在利用情感信息時本文將句子中的詞與情感詞詞典*情感詞詞典: http://www.cs.pitt.edu/mpqa/#subj_lexicon對照,找出情感詞,加入“情感詞+*”的特征,其特征值λ2大于0。這樣做主要是因為PageRank更注重句子與句子之間的關系,加入“OPINION”特征比加入“情感詞+*”的特征空間更密集,可以更有效地聯(lián)系兩個句子。而本文采用基于單詞的HITS算法,“情感詞+*”的特征能更有效的突出句子的情感特性。
圖3 基于情感信息和評論質量的HITS模型
在圖3的模型中,擴展層為情感信息和評論質量信息層,中間層為句子層,底層為單詞層。通過該模型我們將authority值和hub值的計算方式修訂為式(8)~(11)。
(8)
(9)
(10)
(11)
這一節(jié)中,將給出本文的實驗設置、實驗結果及分析。
5.1 實驗設置
本文收集了30個主題的產(chǎn)品評論,每個主題有500篇評論,并由三人對其進行標注。語料中的每一個語句用基于詞的Unigram特征構建相應的特征向量表示。人工標注的結果作為評價標準,評測的工具是ROUGE-1.5.5[24]。該工具被廣泛用于自動摘要的評價。它通過計算參考標準與候選摘要之間的重疊單元(如:n-gram、單詞序列、單詞對等)來評價摘要的質量。其中ROUGE-N為n-gram的召回率,計算方法如式(12)所示。
ROUGE-N=
(12)
式(12)中,n表示n-gram的長度,Countmatch(n-gram)指的是一個候選摘要和參考摘要集中共同出現(xiàn)n-gram的個數(shù)。ROUGE的結果中給出了1-gram、2-gram、3-gram、和4-gram,以及最長公共子序列的值。在這些數(shù)值中unigram(ROUGE-1)最常被使用。在我們的實驗中我們給出了ROUGE-1、ROUGE-2、ROUGE-3、ROUGE-L(最長公共子序列的值)和ROUGE-W(加權最長公共子序列的值,加權值為1.2)的結果。在對語料進行情感傾向分類時我們使用的是最大熵工具。
5.2 實驗結果及分析
情感是評論語料的一個重要特征,情感摘要就是要體現(xiàn)用戶的情感。而評論質量的好壞會影響讀者的閱讀,好的評論如Amazon.com購物網(wǎng)上“有用率”高的評論會明顯影響潛在用戶是否購買產(chǎn)品。而情感摘要正是為了給用戶在購買產(chǎn)品時提供幫助,體現(xiàn)大部分人的觀點。因此基于這些想法,我們提出基于情感信息和評論質量的情感摘要,表2和表3將分別給出PageRank和HITS的實驗結果。在實驗過程中,實驗結果會隨著特征權值的改變而改變。根據(jù)實驗結果,我們進行了交叉驗證。進行PageRank實驗時,最終選定“OPINION”特征的權值為5。質量高的評論的“單詞+#”特征和“HELPFUL”特征的權值都為2×h×log(評論總人數(shù))。
在進行HITS實驗時,“情感詞+*”特征的權值為10。質量高的評論的“單詞+#”特征和"HELPFUL"特征的權值為2×h×log(評論總人數(shù))。
表2和表3中PageRank和HITS表示的是傳統(tǒng)的PageRank和HITS算法的實驗結果, “+opinion”表示添加情感信息的結果, "+quality"表示
表2 PageRank的實驗結果
表3 HITS的實驗結果
利用評論質量信息的結果,"Our Approach"表示同時使用情感信息和評論質量信息的結果,而"Human"表示人工標注交叉驗證的結果。
由表2和表3中的實驗結果我們可以看出(ROUGE-1): 加入情感信息后,PageRank提高了3個百分點,HITS提高了4.4個百分點,這表明“情感”作為評論文本的一個重要特征,對情感摘要有重要的作用;加入評論質量信息后,PageRank提高了2.5個百分點,HITS提高了2.6個百分點,這顯示出高質量的情感文本具有更高的可信度,對情感摘要的形成有積極的作用;當情感信息和評論質量信息同時使用時,PageRank提高了4個百分點,HITS提高了將近6個百分點,這表明情感信息和評論質量對情感摘要的重要性,并且兩者有相輔相成的作用。表2和表3中除了ROUGE-1有明顯提升,加入了情感信息和評論質量信息后,摘要的各個指標也都有明顯的提升,這說明在意思上也更接近人工摘要意思。雖然同時使用情感信息和評論質量信息的效果沒有比單獨使用情感信息的效果高很多,但是還是有一定的提升的,這主要是因為兩種信息在一定程度上有重疊。
表2和表3中加入評論質量信息的效果沒有加入情感信息的效果明顯,這是因為,擁有情感信息的句子比擁有評論質量信息的句子的數(shù)量多,即情感信息的影響比質量信息的影響高。
本文研究了評論質量和情感信息對情感摘要的影響并結合PageRank算法和HITS算法將這兩種信息同時應用于英文的多文檔文本情感摘要任務。實驗結果表明評論質量與情感信息對情感摘要有重要的影響,能夠有效地提高自動情感摘要的準確率。在接下來的工作中我們將收集更多其他領域的評論語料用于驗證本文提出的方法。同時,我們將考慮如何更有效地利用評論質量信息和情感信息,尋找更好的評價評論質量的方法,使自動情感摘要的效果有進一步提升。
[1] Ganesan K, C Zhai, J Han. Opinosis: A Graph-Based Approach to Abstractive Summarization of Highly Redundant Opinions[C]//Proceeding of Coling-2008,2008.
[2] Chen P, Dhanasobhon S, Smith M. All Reviews Are Not Created Equal: The Disaggregate Impact of Reviews on Sales on Amazon.com[J]//Carnegie Mellon University.
[3] Soo-Min Kim, Patrick Pantel, Tim Chklovski, et al. Automatically Assessing Re-view Helpfulness[C]//Proceeding of EMNLP-2006, 2006.
[4] Hong Y, J Lu, J Yao, et al. What reviews are satisfactory: novel features for automatic helpfulness voting[C]//Proceeding of SIGIR-2012.
[5] Luhn H P. The Automatic Creation of Literature Abstracts[C]//Proceedings of the IRE National Convention.
[6] Lin C. Training a Selection Function for Extraction[C]//Proceedings of CIKM-1999.
[7] Radev D, H Jing, M Stys, et al. Centroid-based Summarization of Multiple Documents[J]. Information Processing and Management.2004,919-938.
[8] Radev DR, K McKe-own. Generating natural language summaries from multiple on-line sources[J]. Computational Linguistics,1998,24(3):1-31.
[9] Celikyilmaz A, D Hakkani-Tur. Discovery of Topically Coherent Sentences for Extractive Summarization[C]//Proceeding of ACL-2011.
[10] Pang B, Lillian L S. Vaithyanathan. Thumbs up sentiment classification using machine learning techniques[C]//Proceeding of EMNLP-2002.
[11] Hu M, B Liu. Mining and summarizing customer reviews[C]//Proceeding of KDD -2004.
[12] Ana-Maria Popescu, O Etzioni. Extracting product features and opinions from reviews[C]//Proceeding of HLT-EMNLP-2005.
[13] Snyder B, R Barzilay. Multiple aspect ranking using the good grief algorithm[C]//Proceeding of HLT-NAACL-2007.
[14] Lu Yue, ChengXiang Zhai, Neel Sundaresan. Rated aspect summarization of short comments[C]//Proceeding of WWW-2009.
[15] Lerman, Kevin, Sasha Blair-Goldensohn, et al. Sentiment summarization: Evaluating and learning user preferences[C]//Proceeding of EACL-2009.
[16] Ivan Titov R. Mcdonald. A joint model of text and aspect ratings for sentiment summarization[C]//Proceeding of ACL-2008.
[17] Wang H, Y Lu, C Zhai. Latent aspect rating analysis on review text data: a rating regression approach[C]//Proceeding of KDD-2010.
[18] Liu J, Cao Y, Lin C Y, et al. Low-quality product review detection in opinion summarization[C]//Proceeding of EMNLP-Coling- 2007.
[19] Page L, Brin S, Motwani R, et al. The PageRank Citation Ranking: Bringing Order to the Web[R]. Technical report, Stanford Digital Libraries.
[20] Wan X, Yang J. Multi-document Summarization using Cluster-based Link Analysis[C]//Proceeding of SIGIR-2008.
[21] Li F, Tang Y, Huang M, et al. Answering Opinion Questions with Random Walks on Graphs[C]//Proceeding of ACL-2010.
[22] Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrival[M]. ACM Press and Addison Wesley.
[23] Kleinberg M. Authoritative Sources in a Hyperlinked Environment.[C]//Proceeding of the ACM-SLAM.
[24] Lin C. ROUGE: a Package for Automatic Evaluation of Summaries[C]//Proceeding of ACL-2004.
[25] 宗成慶,統(tǒng)計自然語言處理[M],清華大學出版社, 2008.5.
[26] 張瑾,王小磊,許洪波,自動文摘評價方法綜述[J],中文信息學報,2008,22(3):81-88.
[27] 秦兵,劉挺,李生,多文檔自動文摘綜述[J],中文信息學報,2005,19(6):13-20.
[28] 苗家,馬軍,陳竹敏,一種基于HITS算法的Blog文摘方法[J],中文信息學報,2011,25(1):104-109.
Quality-based Multi-document Opinion Summarization
LIN Liyuan, WANG Zhongqing, LI Shoushan, ZHOU Guodong
(School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China)
Opinion summarization aims to concentrate and refine the text data so as to generate a summary of the text regarding the expressed opinion. It helps users reading and understanding the content of the opinion text. This study focuses on multi-document opinion summarization where the main task is to generate a summary given amounts of reviews towards the same product. Opinion relevance is an important feature for opinion text, which is considered in our opinion summarization method. Meanwhile,users can better understand the objects that mentioned in the reviews by the help of high quality reviews or high credibility reviews, which is also considered in our method. We further collect and annotate an English multi-document corpus on product reviews. Empirical studies on the corpus demonstrate that incorporating opinion and quality information is effective for multi -document opinion summarization.
opinion summarization; multi-document; reviews quality
林莉媛(1987—),碩士,主要研究領域為文本情感摘要。E-mail:scarecrowlly@gmail.com王中卿(1987—),博士研究生,主要研究領域為情感分析與社會計算。E-mail:wangzq.antony@gmail.com李壽山(1980—),博士,教授,主要研究領域為情感分析與社會計算。E-mail:lishoushan@suda.edu.cn
1003-0077(2015)04-0033-07
2013-7-14 定稿日期: 2013-10-12
國家自然科學基金(61003155,60873150);模式識別國家重點實驗室開放課題基金資助項目
TP391
A