王素格,吳蘇紅
(1. 山西大學(xué) 計算機與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西大學(xué) 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;3. 山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006 )
隨著人民生活水平的提高,旅游已成為人們生活的重要組成部分。許多游客利用論壇、博客和旅游點評網(wǎng)等空間發(fā)表有關(guān)旅游景點的評論。與此同時,對于游客,在出游之前,可以通過網(wǎng)上的評論了解其他游客對一些景點的看法,規(guī)劃自己的旅游行程。而景點管理商可以通過景點評論了解游客對景點的意見和態(tài)度,以便提高服務(wù)質(zhì)量。但是,人工逐篇閱讀海量的評論,需要花費大量的時間和精力,閱讀者可能會“迷失”其中,無法識別和利用其中有價值的觀點信息。如何準確、高效地挖掘出游客感興趣的觀點信息,特征—觀點對抽取是可以利用的關(guān)鍵技術(shù)之一。
特征—觀點對是指特征及其觀點詞語之間的搭配,表現(xiàn)為二元對(特征,觀點詞語)。在2011年中文傾向性分析評測大綱中將領(lǐng)域觀點詞抽取、評價對象抽取以及評價搭配抽取確定為要素級評測任務(wù)[1]。Popescu[2]構(gòu)建了一個無監(jiān)督的信息抽取系統(tǒng)OPINE,該系統(tǒng)利用名詞或名詞短語與具有一定區(qū)分的符號間的點互信息值獲取產(chǎn)品特征,然后利用手工構(gòu)建的10條規(guī)則用于識別與特征相關(guān)的觀點詞。劉鴻宇等[3]對評價對象抽取和傾向性判斷進行了研究。他們使用句法分析結(jié)果獲取候選評價對象, 繼而結(jié)合基于網(wǎng)絡(luò)挖掘的PMI算法和名詞剪枝算法對候選評價對象進行篩選,并使用無指導(dǎo)方法完成評價對象在情感句中的傾向性判斷。文獻[2-3]在采用點互信息計算相關(guān)性時,需要以大量的統(tǒng)計數(shù)據(jù)為代價。Li Zhuang等[4]采用WordNet、電影知識和標注訓(xùn)練數(shù)據(jù)等生成關(guān)鍵詞列表,再利用規(guī)則獲得特征和觀點對,該方法依賴于大量的資源。Kobayashi等[5]利用文本挖掘技術(shù),提出了一種半自動用于快速收集評價表達的方法。J.Wiebe[6]將觀點詞語的詞性局限于形容詞詞性,而忽略了其他詞性的觀點詞語。Somprasertsri等[7]在句法信息和語義信息的基礎(chǔ)上,提出一種采用依存關(guān)系提取特征—觀點對方法,并對文本進行觀點綜述。由于該文處理的文本為英文,系統(tǒng)中的部分技術(shù)無法直接向中文移植,另外,考慮到評價的對象與觀點間的結(jié)構(gòu)特征與領(lǐng)域相關(guān)。因此,本文針對旅游領(lǐng)域評論,利用依存關(guān)系,研究了評論文本中特征—觀點對的抽取方法。首先利用依存關(guān)系制定用于獲取含特征和觀點的組塊規(guī)則,在此基礎(chǔ)上,進一步利用句子中詞與詞之間的依存關(guān)系,設(shè)計特征、特征—觀點對的識別算法,實現(xiàn)旅游領(lǐng)域景點評論文本中具有觀點傾向的特征—觀點對的抽取。
(1) 特征:對于許多旅游評論,讀者通常關(guān)注被評論的對象的觀點傾向。但評論中的“評價對象”很難有一個統(tǒng)一的定義。文獻[3]給出的定義:“評價對象是指某評論中所討論的主題,具體表現(xiàn)為評論文本中觀點詞語所修飾的對象”。我們通過對大量相關(guān)的旅游景點評論文本的觀察,發(fā)現(xiàn)評價的對象一般為名詞或名詞短語。例如,對某個景點或者景點的某些屬性的評論。因此,本文將景點的評價對象看作特征,限定在名詞、動名詞、代詞或名詞組塊范疇內(nèi)抽取。例如,“景點”、“服務(wù)”、“交通”、“環(huán)境”等。
(2) 觀點詞語:觀點詞語又稱為情感詞或極性詞,特指帶有情感傾向性的詞語。觀點詞語在情感文本中處于舉足輕重的地位。Hatzivassiloglou等[8]從大語料庫《華爾街日報》(Wall Street Journal)中發(fā)掘出大量的形容詞性的觀點詞語。G. Somprasertsri等[7]把形容詞和動詞作為觀點詞語進行特征觀點抽取,而J.Wiebe[6]將觀點詞語的詞性局限于形容詞詞性。本文選用形容詞、動詞、形容詞組塊、動詞組塊、成語,作為候選觀點詞語。例如,“漂亮”、“不錯”、“值得去”等。
為了獲取含有特征和觀點詞語的組塊,本文在李素建等[9]提出的組塊定義基礎(chǔ)上,結(jié)合詞語間的依存結(jié)構(gòu),定義了三種類型的組塊:名詞組塊、動詞組塊和形容詞組塊。其中,單獨一個名詞、動詞或形容詞均不在組塊構(gòu)成范圍內(nèi),而并列結(jié)構(gòu)中的詞語與連接詞一起包含在相應(yīng)組塊中。本文依存分析采用哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心[10]提供的“語言技術(shù)平臺LTP”。
(1) 名詞組塊:是由中心詞為名詞的ATT、COO或QUN結(jié)構(gòu)構(gòu)成。ATT結(jié)構(gòu)的中心名詞的修飾詞個數(shù)可以是一個或者多個。若“的”字結(jié)構(gòu)作修飾成分時,將修飾的中心名詞一起構(gòu)成一個名詞組塊。對于數(shù)量結(jié)構(gòu),當數(shù)量詞為數(shù)字時,不包含在名詞組塊中。
(2) 動詞組塊:是由中心詞為動詞的ADV、VOB、CMP、VV、MT或COO結(jié)構(gòu)構(gòu)成。中心動詞的對象賓語和后置修飾成分補語也包含在動詞組塊中。趨向動詞、助動詞與其前面的中心動詞構(gòu)成動詞組塊。當“地”字結(jié)構(gòu)作修飾成分時,將中心動詞一起被劃分為一個動詞組塊。
(3) 形容詞組塊:是由中心詞為形容詞的SBV、ADV、ATT、QUN、MT或COO結(jié)構(gòu)構(gòu)成。需要說明的是,名詞組塊或動詞組塊內(nèi)部的形容詞組塊不用標記?!暗摹弊纸Y(jié)構(gòu)與其所修飾的中心形容詞構(gòu)成一個形容詞組塊。形容詞加助詞也可以組成形容詞組塊。
為了獲得這三類組塊,利用詞與詞之間的依存關(guān)系和相關(guān)詞性,建立由詞語構(gòu)成組塊的規(guī)則。
其規(guī)則形式為:如果詞與詞間滿足依存關(guān)系與詞性條件,則這些詞可構(gòu)成組塊。
其規(guī)則的前件由表1 RuleSet1和表2 RuleSet2所示。除特殊說明外,表1均只限于相鄰詞之間的依存關(guān)系。parent.pos表示關(guān)系中支配詞的詞性,child.pos表示關(guān)系中從屬詞的詞性。
利用RuleSet1中的條件得到的組塊,有部分組塊中同時含有特征和觀點詞語。例如,利用規(guī)則N1獲取的組塊“不錯的歷史博物館”、“獨特的建筑格局”等,該類組塊的共同點都含有名詞與其修飾成分,利用這類組塊很容易獲得特征—觀點對。為此,在RuleSet1的基礎(chǔ)上,對部分規(guī)則的條件做進一步限定,得到RuleSet2,如表2所示。
表1 RuleSet1
表2 RuleSet2
續(xù)表
利用RuleSet1和RuleSet2中的規(guī)則獲取情感傾向組塊的算法如下。
算法1:基于規(guī)則的組塊獲取
輸入:經(jīng)過依存句法分析后格式為XML的評論句集合SSet={s1,…,sn}, 組塊集ChSet1=?,ChSet2=?;
輸出:ChSet1和ChSet2;
Step1 利用RuleSet2中的規(guī)則Rulei(i=1,…,10),對SSet中的句子進行組塊獲取,得到候選組塊集CanChSet2;對于這些組塊:
Step2ChSet2=ChSet2∪CanChSet2;
Step3 利用RuleSet1中的規(guī)則Rulej(j=1,…,22) 對SSet中的句子進行組塊獲取,得到組塊集ChSet1;
Step4 算法結(jié)束。
由于ChSet2中的組塊含有特征和觀點詞語,則利用這些組塊可構(gòu)成句子中的部分候選特征—觀點對。RSSet={r1,…,rm}代表除去含有ChSet2中組塊的句子。
在算法1獲得ChSet1的基礎(chǔ)上,再利用詞與詞之間的依存關(guān)系,對抽取組塊后的句子設(shè)計候選特征的識別算法。
算法2:識別句子中的候選特征
輸入:RSSet={r1,…,rm},候選特征集CanFSet=? ,ChSet1,k=1;
輸出:候選特征集CanFSet;
Step1 對于?rk∈RSSet,如果存在SBV關(guān)系或者VOB關(guān)系且關(guān)系從屬詞W的詞性為名詞(“話”字除外)/代詞(僅包括指示代詞和第三人稱代詞)/動名詞,則,如果從屬詞W在ChSet1的組塊中,則CanFSet=CanFSet∪{ChunkW},否則CanFSet=CanFSet∪{W};//ChunkW為從屬詞W所在組塊;
Step2 如果k Step4 算法結(jié)束。 候選特征—觀點對的抽取分為兩種。 (2) 利用算法1和算法2得到候選特征和候選觀點詞語,當句子中出現(xiàn)一個以上的特征和觀點詞語時,采用鄰近法[11]確定候選觀點詞語與候選特征之間的相關(guān)性。最后從候選特征—觀點對集中選出含有情感傾向的特征—觀點對,得到特征—觀點對集合。特征—觀點對的情感傾向由觀點詞語在情感詞表[12]、《知網(wǎng)》情感詞語集的情感傾向、文獻[13]以及與旅游評論相關(guān)的情感詞決定。其算法如下: 算法3:特征—觀點對的抽取 輸出:特征—觀點對集合FOSet; Step1 ?sk∈SSet句子的候選特征Fki,若 Step3若候選觀點詞語w和候選特征集F存在于同一個span且|F|>1或者若w和F存在于不同的span,則w選擇鄰近的f∈F構(gòu)成CFw=(f,w),CanFOSet=CanFOSet∪{CFw}; Step4 如果?CanFO∈CanFOSet,若CanFO包含有情感傾向,則FOSet=FOSet∪{CanFO}; Step5 算法結(jié)束。 上述算法中句子片段為以逗號隔開的子句。 實驗數(shù)據(jù)采用互聯(lián)網(wǎng)上的論壇、博客、旅游點評網(wǎng)等有關(guān)山西省11個地級市的180個景點的相關(guān)評論作為語料庫,共618篇評論,平均每篇評論大致包含2~3個句子。為了衡量特征—觀點對的抽取結(jié)果,本文采用三個評價指標:精確率(查全率)、召回率(查準率)和F1值。 對于旅游景點評論,利用算法1得到組塊集ChunkSet2,共915個組塊;含三類組塊集Chunk-Set1,共3 985個組塊,其中名詞組塊1 742個,動詞組塊1 871個,形容詞組塊372個。例如,評論句“山西歷史很悠久?!保来婢浞ǚ治鼋Y(jié)果如圖1所示。該評論句中,利用RuleSet2中的ADV+SBV規(guī)則獲取組塊“歷史很悠久”,由于該組塊前面詞出現(xiàn)ATT關(guān)系,則應(yīng)把詞“山西”也識別在組塊中,得到新的組塊“山西歷史很悠久”。 圖1 依存句法分析示例 利用算法2~3,分別對正面、反面、全部的旅游評論進行特征—觀點對抽取,共抽取出1 758對。例如,對“懸空寺絕對是個一定要去的地方,精致奇特?!边@句話進行特征—觀點對抽取,依存句法分析結(jié)果如圖2所示。 由Rule9抽取組塊“一定要去的地方”,獲得候選特征—觀點對(地方,一定要去),利用算法2識別候選特征為“懸空寺”,最后利用算法3獲取候選特征—觀點對(懸空寺,精致奇特)、(懸空寺,絕對是),在此基礎(chǔ)上,得到特征—觀點對(地方,一定要去)、(懸空寺,精致奇特)。 圖2 依存句法分析示例 采用以上三個評價指標對特征—觀點對抽取實 驗進行評價,其結(jié)果如表3所示。 表3 特征—觀點對抽取實驗結(jié)果 從表3中可以看出,本文的方法在精確率上達到預(yù)期的效果。其中,對正面評論進行特征—觀點對判別時,精確率、召回率、F1值都優(yōu)于反面評論。主要原因是反面評論含有的否定詞、程度副詞較多,致使反面評論的判別結(jié)果錯誤率高于正面評論,從而影響了實驗結(jié)果。 另外,對識別錯誤的結(jié)果分析發(fā)現(xiàn),(1)有80.07%的錯誤來自特征的識別錯誤,當利用規(guī)則抽取含特征和觀點詞語的組塊時,句中的特征可能被抽掉,致使識別特征時出現(xiàn)錯誤;(2)有14.76%的錯誤來自于觀點詞語的識別錯誤,該錯誤主要是由組塊獲取錯誤引起的。 本文利用詞對間的依存關(guān)系,構(gòu)建了用于獲取含情感傾向組塊的規(guī)則以及候選特征識別算法,在此基礎(chǔ)上,設(shè)計了具有情感傾向的特征—觀點對的抽取算法。本文對山西旅游景點評論語料進行了特征—觀點對的抽取,整體的F1值達到了87.10%,驗證了本文方法的有效性。但仍存在一些特征—觀點對無法正確識別,尤其對特征的識別,約有80.07%的錯誤由它的判別錯誤所引起。因此,在未來的工作中,應(yīng)進一步開展特征識別方法的研究。 致謝:感謝哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心提供的“語言技術(shù)平臺LTP”以及董振東先生提供的《知網(wǎng)》中的評價詞匯和情感詞匯。 [1] 許洪波,孫樂,姚天昉. 第三屆中文傾向性分析評測總結(jié)報告[R]. 第三屆中文傾向性分析評測(COAE2011). 2011,1-24. [2] Ana-Maria Popescu, Oren Etzioni. Extracting product fFeatures and opinions from reviews[C]// Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing.2005:32-33. [3] 劉鴻宇, 趙妍妍, 秦兵, 等. 評價對象抽取及其傾向性分析[J]. 中文信息學(xué)報,2010, 24(1):84-88. [4] Li Zhuang, Feng Jing, Xiaoyan Zhu. Movie review mining and summarization[C]// Proceedings of the 15th ACM International Conference on Information and Knowledge Management. 2006: 43-50. [5] Nozomi Kobayashi, Kentaro Inui, Yuji Matsumoto. Collecting evaluative expressions for opinion extraction[C]// Proceedings of the 1st International Joint Conference on Natural Language Processing. 2004: 584-589. [6] Janyce Wiebe, Theresa Wilson, Rebecca Bruce, et al. Learning subjective language [J].Computational Linguistics. 2004, 30(03): 277-308. [7] G. Somprasertsri, P. Lalitrojwong. Mining Feature-Opinion in online customer reviews for opinion summarization[J]. Journal of Universal Computer Science. 2010,16(6): 938-955. [8] V. Hatzivassiloglou, KR. McKeown. Predicting the semantic orientation of adjectives[C]// Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.1997:174-181. [9] 李素建,劉群.漢語組塊的定義和獲取[C]//全國計算語言學(xué)聯(lián)合學(xué)術(shù)會議(SWCL2003)論文集.2003:110-115. [10] 語言技術(shù)平臺LTP. 哈爾濱工業(yè)大學(xué)社會計算與信息檢索研究中心[DB/OL]. http://ir.hit.edu.cn/ [11] Minqing Hu, Bing Liu. Mining and summarizing customer reviews[C]// Proceedings of the Conference on Knowledge Discovery and Data Mining. 2004:168-177. [12] 王素格,楊安娜,李德玉.基于漢語情感詞表的句子情感傾向分類研究[J].計算機工程與應(yīng)用,2009,45(24):153-155. [13] 王素格,楊安娜.基于混合語言信息的詞語搭配傾向判別方法[J].中文信息學(xué)報,2010,24(03):69-74.4.2 特征—觀點對的抽取
5 實驗結(jié)果與分析
5.1 組塊獲取
5.2 特征—觀點對抽取
6 結(jié)束語