国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于帶匯點流形的面向?qū)傩猿槿∈接^點摘要

2014-02-28 05:12:34徐學(xué)可譚松波程學(xué)旗
中文信息學(xué)報 2014年4期
關(guān)鍵詞:流形餐館分值

徐學(xué)可,譚松波,劉 悅,程學(xué)旗

(1. 中國科學(xué)院 計算技術(shù)研究所,北京 100190;2. 中國科學(xué)院大學(xué),北京 100190)

引言

觀點摘要技術(shù)幫助人們快速、高效地把握海量顧客點評中的主要觀點信息。傳統(tǒng)的觀點摘要技術(shù)往往從點評數(shù)據(jù)中抽取扁平式的觀點句子列表作為摘要[1],來傳達(dá)點評中的重要觀點信息。然而,顧客通常針對評論實體的特定屬性(aspect)(例如,餐館的環(huán)境、服務(wù)等)發(fā)表觀點;同時,不同的用戶也關(guān)注不同的屬性。因此,觀點摘要技術(shù)應(yīng)該深入到屬性層次。本文中,我們研究面向?qū)傩缘某槿∈接^點摘要,該任務(wù)針對特定屬性,從給定實體的點評集中抽取少量觀點句子,用以傳達(dá)點評中顧客對該屬性的主要觀點信息。相對于傳統(tǒng)的摘要形式,該任務(wù)可以按照實體的屬性信息把摘要組織成結(jié)構(gòu)化形式,從而方便用戶定位感興趣屬性的觀點信息,同時幫助用戶更深刻、全面地了解實體。

總體而言,目前大部分方法[2-4]主要考慮句子本身的局部性信息,例如,是否包含屬性相關(guān)觀點及觀點的強(qiáng)度等,來孤立地選擇句子作為摘要,沒有充分考慮到點評集中候選句子間觀點相似性的全局性信息、摘要結(jié)果中句子間的觀點差異性要求。同時,觀點的識別也往往基于一個通用觀點詞典。針對現(xiàn)有方法不足,我們提出1)利用屬性相關(guān)觀點詞知識來抽取滿足富含信息(informativeness)要求的摘要,也就是說摘要不能僅僅給出好或壞等泛泛觀點,而是要給出好或壞的具體體現(xiàn)等更具體有意義的信息,而屬性相關(guān)觀點詞相對通用觀點詞來說通常能對相應(yīng)屬性提供更有意義的描繪[5];2)利用點評集中候選句子間觀點相似性關(guān)系的全局性信息來抽取重要的觀點(重要性, salience),也就是說所抽取的句子能一定程度上能傳達(dá)點評中很多其他句子中的相關(guān)觀點信息;3)同時考慮摘要結(jié)果中句子間的差異性要求來消除摘要中的冗余觀點,抽取多樣性的觀點(多樣性, diversity),從而盡可能多的覆蓋點評中的重要觀點信息,最大化滿足潛在用戶的多樣性的信息需求。為此我們提出了基于帶匯點的流形排序[6]的一體化的摘要抽取模型,在一體化的流形排序過程中同時考慮這三方面要求,來抽取高質(zhì)量的觀點摘要。

本文的主要貢獻(xiàn)在于:

1. 針對面向?qū)傩猿槿∈接^點摘要,提出富含信息、重要性及多樣性三方面質(zhì)量要求;

2. 提出了基于帶匯點流形排序的一體化摘要抽取模型,在一體化的流形排序過程中同時考慮這三方面要求,來抽取高質(zhì)量的觀點摘要。

1 相關(guān)工作

面向?qū)傩猿槿∈接^點摘要系統(tǒng)通常包含兩個部分: 屬性抽取及面向?qū)傩杂^點摘要抽取。

對于屬性抽取,部分工作從點評中抽取顯式的評價對象作為屬性。這些評價對象包括產(chǎn)品的部件(component)或者特性(attribute)等[3]。近年來,統(tǒng)計話題模型如PLSA、LDA 及其各種變種在屬性抽取中得到廣泛應(yīng)用。在這些工作中[4, 7],屬性被視為隱含的話題,或者詞空間上的概率分布,所抽取的每個屬性具有完備一致的語義表示,體現(xiàn)了語義相關(guān)的一系列評價對象信息。

對于摘要抽取,目前大部分研究往往僅根據(jù)句子是否包含屬性相關(guān)觀點及觀點的強(qiáng)度[2-4]來進(jìn)行挑選。例如,Hu等人[2]從包含屬性信息的句子中抽取形容詞作為觀點詞,以此識別屬性相關(guān)觀點句子作為摘要。Ling等人[4]按句子語言模型與預(yù)先學(xué)習(xí)的屬性模型的負(fù)Kullback-Leibler(KL)距離將句子歸類到不同屬性,然后對各個屬性挑選相似度分值靠前的句子作為摘要。此外,Blair-Goldensohn 等人[3]迭代地選擇滿足給定情感極性要求的具有最大極性可信度的屬性相關(guān)句子作為摘要,其中每個迭代步使用一個標(biāo)記來控制當(dāng)前挑選句子需滿足的情感極性要求,以此控制最終摘要的褒貶分布大體與點評中實際分布相符。從某種程度講,該方法考慮摘要結(jié)果中觀點的差異性,但這種差異性僅僅體現(xiàn)在情感極性,因而不能充分保證觀點的多樣性。

2 方法框架

第二個階段是在線摘要抽取階段,給定實體的點評集(如一家候選餐館)及屬性a(如餐館的環(huán)境),我們利用帶匯點的流形排序過程來抽取少量句子作為摘要。具體過程如下:

針對屬性a,我們構(gòu)造全局流形結(jié)構(gòu),也就是帶權(quán)網(wǎng)絡(luò),其中節(jié)點包括句子及一個代表屬性及屬性相關(guān)觀點詞知識的源節(jié)點。句子跟源節(jié)點間邊的權(quán)重體現(xiàn)句子是否包含屬性相關(guān)的明確有意義的觀點,而句子間邊的權(quán)重體現(xiàn)了句子是否針對該屬性傳達(dá)相似的觀點。

接下來是迭代地選擇句子作為摘要,直到達(dá)到給定的摘要長度限制。在每個迭代步,我們利用流形結(jié)構(gòu)上的流形排序過程來挑選一個句子作為摘要,并把該句子調(diào)為匯點。

3 屬性觀點聯(lián)合模型

3.1 模型描繪

傳統(tǒng)LDA模型[8]所抽取話題往往不能對應(yīng)于屬性[7]。我們觀察到,一個分句(clause)往往只涉及一個屬性。因此為了讓抽取的話題對應(yīng)于屬性,我們可以利用分句層次的詞共現(xiàn)信息。然而,直接在分句集合上進(jìn)行挖掘,往往受到分句數(shù)據(jù)稀疏性影響。為此,我們構(gòu)建虛擬文檔,給定一個詞,將出現(xiàn)該詞的所有分句連接得到的大文檔,稱為該詞對應(yīng)的虛擬文檔(Virtual Document)。我們的模型應(yīng)用到虛擬文檔集上而不是分句集或點評文檔集上。這樣,我們就可以克服分句的數(shù)據(jù)稀疏性問題同時充分利用分句層次詞共現(xiàn)信息,來更好抽取屬性。給定特定領(lǐng)域顧客點評集,其中點評中每個分句視為一個詞序列。假設(shè)我們有D個虛擬文檔,每個虛擬文檔視為相應(yīng)分句的詞序列連接構(gòu)成的一個大詞序列,而每個詞是一個詞典中的一個項目,這里詞典中包含V個詞,分別記為w=1,...,V。虛擬文檔vd中的第n個詞wv d,n與兩個變量關(guān)聯(lián):zv d,n跟ζv d,n。其中,zv d,n表示屬性;ζv d,n為主客觀標(biāo)簽(subjectivity label),表示該詞是傳達(dá)情感(褒或貶)的觀點詞(ζv d,n=opn)還是不傳達(dá)情感的客觀詞(ζv d,n=fact)。根據(jù)JAO模型,虛擬文檔集的產(chǎn)生過程如下:

1. 對于每個屬性 z:

(a) 對主客觀標(biāo)簽opn 跟fact, 分別從參數(shù)為β的Dirichlet分布中選擇一個詞分布Φz,fact~Dir(β);Φz,opn~Dir(β).

2. 對每個虛擬文檔vd:

(a) 從參數(shù)為α的Dirichlet分布選擇一個屬性分布θw d~Dir(α)

(b) 對vd中的每個詞wv d,n:

(i) 按屬性分布θv d采樣一個屬性zv d,n~θv d

(ii) 按主客觀標(biāo)簽分布νv d,n選擇一個主客觀標(biāo)簽ζv d,n~vv d,n

(1) 如果ζd,s,n=opn, 按詞分布產(chǎn)生Φzv d,n,opn產(chǎn)生wv d,n:wv d,n~Φzv d,n,opn

(2) 否則,按詞分布Φzv d,n,fact產(chǎn)生wv d,n:wv d,n~Φzv d,n,fact

3.2 如何區(qū)分觀點詞跟客觀詞

這樣,主客觀標(biāo)簽ζv d,n的賦值很大程度上由wv d,n是否出現(xiàn)在觀點詞典中決定。

3.3 模型參數(shù)估計

我們采用collapsed Gibbs sampling[9]方法來對所有zv d,n及ζv d,n變量的賦值進(jìn)行后驗估計。根據(jù)collapsed Gibbs sampling,變量賦值按一個給定所有其他變量賦值及觀察數(shù)據(jù)下的條件概率分布依序選擇產(chǎn)生。這里,zv d,n和ζv d,n的賦值根據(jù)以下條件概率分布聯(lián)合選擇產(chǎn)生:

其中w是虛擬文檔集的總詞序列;T是事先指定的屬性個數(shù);z及ζ分別是這個詞序列(除了vd中第n個詞外)上詞的屬性及主客觀標(biāo)簽賦值序列;是vd中詞的個數(shù)是vd中詞被賦值為屬性t的次數(shù)是w上任何詞(或者詞w)賦值為屬性t及主客觀標(biāo)簽l的次數(shù)。以上所有次數(shù)統(tǒng)計都排除vd的第n個詞。

4 摘要抽取

我們利用帶匯點的流形排序過程從點評集中抽取少量句子作為摘要,用來傳達(dá)顧客對于該屬性的主要觀點信息。作為一種半監(jiān)督的排序方法,流形排序[10]基于全體對象內(nèi)在的全局流形結(jié)構(gòu)(帶權(quán)網(wǎng)絡(luò))以及一個輸入查詢(對應(yīng)帶權(quán)網(wǎng)絡(luò)中的源節(jié)點),利用各個節(jié)點在帶權(quán)網(wǎng)絡(luò)上的排序分值迭代傳播直至達(dá)到平衡的流形排序過程來尋找查詢相關(guān)并且重要的對象。 Cheng等人[6]在流形結(jié)構(gòu)中引入?yún)R點對應(yīng)已經(jīng)挑選的節(jié)點,并在流形排序中對與匯點相近的節(jié)點進(jìn)行懲罰,從而能進(jìn)一步尋找多樣性的節(jié)點。

4.1 基本概念

給定一個實體的點評集及屬性a,我們有一組數(shù)據(jù)點χ={x0,x1,...,xn},x0為源節(jié)點代表客觀屬性及屬性相關(guān)觀點詞知識,其他節(jié)點代表點評集中的各個句子。我們定義f=[f0,f1,…,fn]T為排序分值向量,其中fm為數(shù)據(jù)點xm的排序分值,作為挑選句子的依據(jù),此外,y=[y0,y1,…,yn]T定義為先驗向量,其中ym為數(shù)據(jù)點xm的先驗分值。我們設(shè)置源節(jié)點x0的先驗值為1,而句子節(jié)點的先驗值為0。通過這樣我們引入了客觀屬性詞及屬性相關(guān)觀點詞知識作為排序過程中的先驗監(jiān)督。

4.2 構(gòu)造流形結(jié)構(gòu)

針對屬性a,我們構(gòu)造全局流形結(jié)構(gòu),也就是數(shù)據(jù)χ上的帶權(quán)網(wǎng)絡(luò),該流形結(jié)構(gòu)同時捕獲評論語料中句子間觀點相似性關(guān)系的全局性信息和來自客觀屬性模型及屬性觀點模型的先驗監(jiān)督。在該帶權(quán)網(wǎng)絡(luò)中,句子間邊的權(quán)重體現(xiàn)了句子是否針對該屬性傳達(dá)相似的觀點(尤其是有意義的觀點),而不是泛泛的內(nèi)容相似。同時,我們認(rèn)為一個完整的觀點大致上由觀點對象(由客觀屬性詞反映)跟描繪該觀點對象的觀點詞構(gòu)成。綜上,我們在計算權(quán)重時應(yīng)該突出客觀屬性詞跟屬性觀點詞,具體定義如式(4)所示。

而句子跟源節(jié)點間邊的權(quán)重體現(xiàn)句子是否包含屬性相關(guān)的有意義的觀點。具體定義如式(5)所示。

4.3 摘要抽取

基于上節(jié)所構(gòu)造的流形結(jié)構(gòu),我們采用迭代選句子的方式來生成摘要,每個迭代步利用帶匯點的流形排序過程(也就是排序分值迭代傳播的過程)來挑選一個句子進(jìn)入摘要,并把該句子調(diào)為匯點。這個摘要過程如下:

1 初始,所有數(shù)據(jù)點都設(shè)置為自由點。

2 構(gòu)建流形上的數(shù)據(jù)點的關(guān)系矩陣(affinity matrix)W,其中Wi,j是數(shù)據(jù)點xi與xj間邊的權(quán)重。這里,Wi,i設(shè)為0,以避免排序分值的自我傳播。

3 對稱地歸一化W如下:S=D-1/2WD-1/2,這里D為對角矩陣,其中Dii等于W行i的所有元素之和。

4 重復(fù)如下的步驟,每步挑選一個句子進(jìn)入摘要。直到摘要達(dá)到指定的長度限制(通常為100詞)。

4.1 迭代計算f(t+1)=αSIff(t)+(1-α)y直到收斂,其中0≤α≤1控制句子相互關(guān)系信息跟先驗知識二者的相對重要性(我們參考PageRank算法,設(shè)置α為0.85)。而If是個對角指示矩陣,當(dāng)數(shù)據(jù)點xi為匯點時,其(i-i)元素為0 時指示,否則為1。

4.3 選擇分值最大的自由句子(假設(shè)為xm)進(jìn)入摘要,同時將xm調(diào)為匯點也就是說設(shè)置If的(m-m)元素為0。

步驟4.1 是核心步驟,數(shù)據(jù)點的排序分值在先驗知識的監(jiān)督下沿著帶權(quán)網(wǎng)絡(luò)迭代傳播直到收斂。在這個過程中源節(jié)點起著先驗基督的作用,使得與源節(jié)點接近的句子得到更多的排序分值,從而幫助抽取包含富含信息的屬性相關(guān)觀點的句子。同時,充分利用全局性的句子間關(guān)系信息,使得與很多其他句子接近的句子能得到更多的排序分值,由于句子間邊關(guān)系權(quán)重反映二者是否針對該屬性傳達(dá)相似的觀點(其中強(qiáng)調(diào)屬性相關(guān)觀點詞),而不是泛泛的內(nèi)容相似,因此所抽取的句子能同時傳達(dá)很多其他句子中的屬性相關(guān)觀點信息(尤其是富含信息的有意義觀點)。此外,所有在之前步驟步中已經(jīng)挑選為摘要的句子都調(diào)為匯點,并停止向周圍數(shù)據(jù)點傳播分值。這樣與這些句子接近的句子,也就是針對該屬性有相似觀點的句子,在分值傳播過程中很自然地受到懲罰。這樣我們避免挑選與已有摘要觀點冗余的句子,從而保證摘要中觀點的差異性。

帶匯點的流形排序具有很好的收斂性質(zhì)和完備的優(yōu)化框架解釋[6]?;谠撆判蜻^程,我們以一種有充足理論基礎(chǔ)的方式,同時捕獲富含信息、重要性及多樣性這三方面要求,從而達(dá)到這三方面性能的平衡和最終摘要質(zhì)量的優(yōu)化,避免了啟發(fā)式方法帶來的隨機(jī)性和性能不平衡。

5 實驗結(jié)果及分析

5.1 實驗設(shè)置

5.1.1 點評數(shù)據(jù)

我們的實驗評估利用公開的餐館點評集[11]及我們從汽車點評網(wǎng)站www.edmunds.com采集的汽車點評集。餐館點評集包含從CitySearch旅游網(wǎng)站采集的涉及5 531個紐約餐館的52 264篇顧客點評。餐館點評集已經(jīng)做了包括句子分割、詞性標(biāo)注等預(yù)處理。平均每篇點評包含大約5.28個句子。汽車點評集的數(shù)據(jù)預(yù)處理與餐館點評集類似,包括斷句、詞性標(biāo)注、否定詞處理及停用詞去除等。汽車點評集包含329 個車型(car model,例如,“ford focus 2008”)的共14 718 篇點評719 329 個句子。

5.1.2 JAO學(xué)習(xí)相關(guān)

為了進(jìn)行JAO的學(xué)習(xí),我們需要構(gòu)造虛擬文檔。為此,我們首先根據(jù)冒號跟逗號對每個句子進(jìn)一步分割,得到分句,然后基于一個停用詞表*http://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words/進(jìn)一步去除停用詞。最終每個分句都轉(zhuǎn)化為帶詞性標(biāo)注的詞序列。例如, “the quality is good” 變換為 “quality_noun good_adj”。我們僅僅選擇點評集中出現(xiàn)次數(shù)不少于20次的形容詞、名詞、動詞及副詞來構(gòu)造虛擬文檔。出現(xiàn)次數(shù)過少的詞對應(yīng)的虛擬文檔往往沒有充分的共現(xiàn)信息;而其他詞性的詞往往是一些不具備實義的沒有屬性區(qū)分能力的功能詞。對于每個選擇的詞,我們把出現(xiàn)該詞的所有分句的詞序列連接,構(gòu)成相應(yīng)的虛擬文檔的詞序列。

我們執(zhí)行100輪Gibbs sampling迭代。根據(jù)文獻(xiàn)[12],屬性個數(shù)T設(shè)置為14;按照現(xiàn)有研究的慣例[9]設(shè)置α=50/T及βw=0.1,沒有針對我們的數(shù)據(jù)進(jìn)行專門調(diào)試。實驗中采用的觀點詞典基于兩個公開的知識庫構(gòu)建: MPQA Subjectivity Lexicon*http://www.cs.pitt.edu/mpqa/與SentiWordNet*http://sentiwordnet.isti.cnr.it/。

5.1.3 摘要質(zhì)量評估設(shè)置

對于餐館點評集合,我們選擇了點評數(shù)量最多的10個餐館;同時參照文獻(xiàn)[5],選擇 “Food”、“Staff”及“Ambiance”三個主要的屬性用以評估。對于汽車點評集,我們選擇點評數(shù)量靠前的10 款車型,其中為了保證車型多樣性,對每個汽車制造商我們僅僅選擇一款車型。我們選擇網(wǎng)站www.edmunds.com 定義的5 個主要屬性用以評估: “Body Styles”、“Powertrains & Performance”、“Safety”、“Interior Design &Features”及 “Driving Impressions”。

我們首先使用ROUGE自動文摘評價工具(ROUGEeval-1.5.5版*http://haydn.isi.edu/ROUGE/)進(jìn)行定量的摘要質(zhì)量評估。ROUGE通過計數(shù)自動摘要跟人工生成的參考摘要間共同的詞序列或N元詞串來定量評估自動摘要的質(zhì)量。為了進(jìn)行ROUGE定量評估,對于餐館的每個屬性,我們分別構(gòu)造參考摘要。具體地,我們?yōu)g覽該餐館點評文本,發(fā)現(xiàn)該屬性的主要觀點信息(觀點對象及觀點詞搭配,例如,“bland cupcake”)。我們挑選體現(xiàn)這些觀點的少量句子(總共大概100詞),其中排除僅僅包含泛泛而談觀點的句子,同時消除參考摘要中沒有提供新觀點信息的冗余觀點句子。表1給出了一個參考摘要實例。對于汽車點評集,由于www.edmunds.com網(wǎng)站對各型汽車的主要屬性分別提供了編輯點評,我們用編輯點評作為摘要質(zhì)量定量評估的參考摘要。

ROUGE 指標(biāo)主要度量摘要的整體質(zhì)量,為了進(jìn)一步針對富含信息、重要性、多樣性等具體要求進(jìn)行評估,我們額外設(shè)計了如下指標(biāo)。

平均觀點覆蓋度: 主要衡量所抽取摘要是否傳達(dá)點評集中的重要的富含信息的相關(guān)觀點。具體地,平均觀點覆蓋度是各個摘要句子的觀點覆蓋度的平均,而摘要句子的觀點覆蓋度度量了該句子是否覆蓋了點評集中的很多句子的屬性相關(guān)觀點(尤其是富含信息的觀點)。該度量主要反映了摘要是否滿足重要性要求。

平均觀點相似度: 度量了摘要句子間的平均觀點相似度。該度量反映了摘要結(jié)果的觀點差異性要求,分值越低表明差異性越大,也越好。該度量主要反映了摘要是否滿足多樣性的要求。

5.1.4 摘要抽取基準(zhǔn)方法

MR: 這個方法與MRSP的區(qū)別是沒有引入?yún)R點機(jī)制,根據(jù)經(jīng)典流形排序?qū)渥优判颍缓笠佬蜻x擇句子。這個方法僅僅考慮重要性及富含信息要求,沒有考慮多樣性要求。

Prior: 這個方法依據(jù)公式5計算的流形結(jié)構(gòu)中句子跟源節(jié)點的權(quán)重值來選擇句子,沒有經(jīng)過流形排序過程。這個方法僅僅考慮富含信息要求沒有考慮重要性跟多樣性要求。

Prior.Gen: 該方法類似Prior, 區(qū)別在于公式5中使用通用觀點模型代替屬性觀點模型。該方法沒有考慮所提出的三方面要求,可以看作僅僅考慮觀點屬性相關(guān)性的傳統(tǒng)方法的代表。

5.2 實驗結(jié)果

表1 給出了某餐館在“Food”屬性上的自動摘要結(jié)果實例。從中我們可以看出,所抽取的摘要傳達(dá)了針對該屬性的非常有意義并且多樣化的觀點信息,例如,“the icing is sweet, smooth and buttery”, “the frosting is smooth and creamy”等。此外,抽取的摘要跟參考摘要相比非常相似:它們都關(guān)注共同的“food”屬性相關(guān)的觀點對象,例如,“icing”, “frosting” 及 “cupcakes”等對該餐館的顧客主要點評的食品(而不是“chicken”等其他食品),同時相應(yīng)的觀點也非常相近,例如,“cake dry”,“frosting a bit/overly sweet”等,甚至參考摘要中的個別句子被自動方法直接抽取。

表2 給出了不同方法的在餐館點評集上的定量性能比較(其中參數(shù)λ設(shè)置為0.5),我們采用了ROUGE-1 Average-F、ROUGE-2 Average-F及ROUGE-L Average-F三個具體指標(biāo)。方括號給出了這些指標(biāo)分?jǐn)?shù)的95%置信區(qū)間。從表中可以看出,我們的方法在各個指標(biāo)上均顯著優(yōu)于所有基準(zhǔn)方法。這表明了我們方法的有效性。同時,該表也表明,所提出的三個要求對于抽取高質(zhì)量摘要都必不可少。我們觀察到Prior及MRSP分別顯著優(yōu)于Prior.Gen 及 MRSP.Gen。這表明,利用屬性相關(guān)觀點詞相對于通用觀點詞能抽取更有意義的高質(zhì)量觀點摘要。我們也觀察到MR方法顯著優(yōu)于Prior。這表明,考慮句子間觀點相似性關(guān)系的全局性信息以抽取重要觀點能幫助提高摘要質(zhì)量。最后,我們觀察到MRSP性能優(yōu)于MR。這表明,通過引入?yún)R點機(jī)制來懲罰冗余觀點句子,提高摘要的多樣性,進(jìn)而提高摘要的質(zhì)量。

從表3的結(jié)果(其中參數(shù)λ設(shè)置為0.15)中,我們可以觀察到表2類似的結(jié)論。主要區(qū)別是: 屬性相關(guān)觀點詞對性能提升相對不明顯,具體體現(xiàn)在: 1) Prior及MRSP性能對Prior.Gen及MRSP.Gen的性能提升相對在餐館點評集并不明顯;2)λ最優(yōu)值為較小的0.15,也就是屬性相關(guān)觀點詞知識的相對重要性較低。由于作為參考文摘的編輯點評主要以提供專業(yè)的相對客觀的介紹為主(在這一點,編輯點評似乎并不完全適合作為參考摘要,因此該結(jié)果的參考意義不如餐館點評上的結(jié)果), 因此利用屬性相關(guān)觀點詞來抽取富含信息觀點在指標(biāo)上獲益不大。但是,依然可以看到我們的摘要模型可以抽取出跟編輯點評更加擬合的觀點信息。

表1 針對某餐館的“Food”屬性的摘要實例

表2 不同摘要抽取方法在餐館點評集上的定量性能比較

表3 不同摘要抽取方法在汽車點評集合上的定量性能比較

圖1給出了餐館點評上MRSP方法的隨λ值變化的ROUGE-1 Average-F分值曲線。這里參數(shù)λ(見公式4、5)決定了屬性相關(guān)觀點詞在摘要過程中的相對重要性。我們可以看到,ROUGE-1 Average-F分值隨著λ值增加而增加,直到0.5。 這表明屬性相關(guān)觀點詞能夠幫助提高摘要質(zhì)量;但λ值接近1時,分值曲線程下降趨勢,這是由于過度強(qiáng)調(diào)觀點詞可能導(dǎo)致觀點的相關(guān)性下降,畢竟客觀屬性詞相對來說更能保證句子的屬性相關(guān)性;當(dāng)λ=1時,依然有可觀的性能,超過單純利用客觀屬性模型的方法(即λ=0)。這表明屬性相關(guān)觀點詞信息本身就能抽取高質(zhì)量的屬性相關(guān)觀點。

表4和表5分別給出餐館和汽車點評上不同方法的平均觀點覆蓋度及平均觀點相似度的結(jié)果。值得注意的是這兩個指標(biāo)沒有利用人工參考摘要,因而更加客觀。從表中可以看出: MRSP相對MR及Prior在平均觀點相似度度(越低越好)上性能有顯著的提升,同時在平均觀點覆蓋度上性能與MR相當(dāng)。表明通過引入?yún)R點, 能幫助抽取多樣性的觀點(Diversity),并且保證觀點的重要性(Salience)不下降。同時,MR及MRSP相對Prior在平均觀點覆蓋上有顯著的提升,表明利用流形排序過程能有效利用候選句子間相互關(guān)系,幫助抽取重要的觀點(Salience)。

圖1 餐館點評上MRSP方法摘要性能(ROUGE1 Average-F)隨λ變化曲線

表4餐館點評上不同方法的平均觀點覆蓋度及平均觀點相似度比較

平均觀點覆蓋度平均觀點相似度度MRSP0.06155.2058E-4Prior0.04627.1470E-4MR0.06249.2979E-4

表5汽車點評上不同方法的平均觀點覆蓋度及平均觀點相似度比較

平均觀點覆蓋度平均觀點相似度度MRSP0.05411.9976E-4Prior0.05193.7172E-4MR0.05384.0101E-4

6 小結(jié)與展望

本文研究面向?qū)傩猿槿∈接^點摘要。目前大部分方法主要考慮句子本身的局部性信息,來孤立地選擇句子作為摘要,沒有很好考慮摘要質(zhì)量問題。在本章,我們提出了基于帶匯點的流形排序框架的一體化摘要抽取模型,以客觀屬性詞及屬性相關(guān)觀點詞知識作為先驗監(jiān)督,融合句子流形結(jié)構(gòu),同時考慮摘要結(jié)果句子的差異性要求來抽取滿足富含信息、 重要性及多樣性等的高質(zhì)量摘要。實驗驗證了模型能抽取高質(zhì)量的觀點摘要,同時驗證了所提出三個要求的合理性和必要性。

[1] K Lerman, S Blair-Goldensohn, R McDonald. Sentiment summarization: evaluating and learning user preferences[C]//Proceedings of the EACL ’09, 2009:514-522.

[2] M Hu, B Liu. Mining and summarizing customer reviews[C]//Proceedings of the SIGKDD, 2004:168-177.

[3] S Blair-Goldensohn, K Hannan, R McDonald, et al. Building a sentiment summarizer for local service reviews[C]//Proceeding of the WWW Workshop on NLP in the Information Explosion Era, 2008.

[4] X Ling, Q Mei, C Zhai, et al. Mining multi-faceted overviews of arbitrary topics in a text collection[C]//Proceeding of the 14th ACM SIGKDD, 2008: 497-505.

[5] X Zhao, J Jiang, H Yan, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C]//Proceeding of the EMNLP 2010, 2010: 56-65.

[6] X Cheng, P Du, J Guo, et al. Ranking on data manifold with sink points [J]. IEEE Transactions on Knowledge and Data Engineering, 2013,25(1): 177-191.

[7] I Titov, R McDonald. A joint model of text and aspect ratings for sentiment summarization[C]//Proceedings of the ACL-08:HLT,2008.

[8] D Blei, A Ng, M Jordan. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3(3): 993-1022.

[9] T Griffiths, M Steyvers. Finding scientific topics[C]//Proceedings of the National Academy of Sciences, 101(Suppl 1), 2004: 5228-5535.

[10] D Zhou, J Weston, A Gretton, et al. Ranking on data manifolds[C]//Proceedings of Advances in Neural Information Processing System 16, 2004.

[11] G Ganu, N Elhadad, A Marian. Beyond the stars: improving rating predictions using review text content[C]//Proceedings of International Workshop on the Web and Databases, 2009.

[12] S Brody, N Elhadad. An unsupervised aspect-sentiment model for online reviews[C]//Proceedings of Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT ’10), 2010.

猜你喜歡
流形餐館分值
一起來看看交通違法記分分值有什么變化
工會博覽(2022年8期)2022-06-30 12:19:30
要求太多的餐館
文苑(2020年5期)2020-06-16 03:18:10
緊流形上的Schr?dinger算子的譜間隙估計
迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
1號異星球餐館
1號異星球餐館
1號異星球餐館
基于多故障流形的旋轉(zhuǎn)機(jī)械故障診斷
宿遷城鎮(zhèn)居民醫(yī)保按病種分值結(jié)算初探
神木县| 密山市| 东安县| 兴文县| 伊吾县| 正镶白旗| 梧州市| 泉州市| 蒲城县| 长春市| 邛崃市| 武强县| 石台县| 团风县| 丰城市| 大关县| 北海市| 通山县| 长沙市| 咸宁市| 灵寿县| 西昌市| 宁陵县| 孟州市| 商城县| 五常市| 太保市| 陆良县| 安化县| 唐山市| 平南县| 呼伦贝尔市| 威信县| 馆陶县| 辉县市| 喀喇| 土默特右旗| 商洛市| 孟连| 花莲县| 澳门|