国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于淺層篇章結構的評論文傾向性分析

2011-07-05 08:38:16江,侯敏,王
中文信息學報 2011年2期
關鍵詞:傾向性詞典語義

楊 江,侯 敏,王 寧

(1. 中國傳媒大學 文學院,北京 100024; 2. 中國傳媒大學 有聲媒體語言分中心,北京 100024)

1 引言

隨著我國互聯(lián)網(wǎng)事業(yè)的迅速發(fā)展,網(wǎng)絡作為一種新型媒體不但成為各種社會思潮、利益訴求和意識形態(tài)較量的場所,而且也是民眾評議時政、談是論非、交流觀點的集散地。有關網(wǎng)絡輿情監(jiān)測的研究由此引起研究人員的重視。網(wǎng)絡輿情監(jiān)測中一個重要的內(nèi)容是對各種言論進行傾向性分析,利用計算機自動地挖掘和處理文本中的觀點、情感、態(tài)度、傾向等主觀性信息,這類研究又稱作“情感分析”或“觀點挖掘”。近年來,由于在觀點搜索、輿情分析、產(chǎn)品推薦、自動問答系統(tǒng)等諸多領域有著重要的應用,傾向性分析越來越受到人們的關注。

傾向性分析以主觀性文本為處理對象。主觀性文本“主要描述了作者對事物、人物、事件等的個人(或群體、組織等)想法或看法”[1]。其中,評論文是一類典型且常見的主觀性文本,它針對具體的人、物、事件,就其有關方面做出主觀的批評議論。評論文,尤其是新聞評論,是社會輿論的集中反映。因此,評論文的傾向性分析對網(wǎng)絡輿情監(jiān)測具有重要的價值和意義。

2 相關工作

目前傾向性分析通常在詞語、句子和篇章3個語言層級上展開,所采用的技術主要有基于語義的方法和基于機器學習的方法?;谡Z義的方法認為傾向性本質(zhì)上是一種語義,一般可以從計算詞語的傾向性開始逐級獲得句子和篇章的傾向性。基于機器學習的方法則把傾向性分析看作一類特殊的分類問題,關鍵的環(huán)節(jié)在于構造合適的分類器以及選擇恰當?shù)奶卣鳌?/p>

研究篇章傾向性的工作以Turney[2]、Pang等[3]、Yi等[4]為代表。Turney采用無指導的學習算法對評論文進行褒貶分類,首先通過計算給定詞或短語與“excellent”和“poor”的互信息差來度量其語義傾向,然后將文本中詞和短語的平均語義傾向作為給定評論文的整體傾向。Pang等分別使用樸素貝葉斯(Na?ve Bayes)、最大熵(Maximum Entropy)和支持向量機(SVM)三種分類模型對電影評論文本的傾向性分類進行了研究,選取的特征包括詞語的一元組、二元組、詞性、位置以及特征的頻數(shù)和特征出現(xiàn)與否等。Yi等首先使用語法分析器對句子進行語法分析,然后參照情感詞匯表和情感模式庫對句子進行傾向性分類,并將其運用到文本的傾向性分類中。

由于語言是具有層級體系的符號系統(tǒng),因此篇章的整體傾向性分析要以句子和詞語的傾向性為基礎。Wiebe等[5]的研究表明,形容詞可以作為判別句子主客觀性的依據(jù)。Kim和 Hovy[6]、Wiebe和 Riloff[7]探討了主客觀句子的分類,Yu Hong等[8]提出了面向自動問答系統(tǒng)的觀點句抽取方法,再對抽取的觀點句進行情感分類,判斷其極性。Hu和Liu[9]通過WordNet的同義詞—反義詞關系,得到情感詞匯及其情感傾向,然后由句子中占優(yōu)勢的情感詞匯的語義傾向決定該句子的極性。Wang等[10]選取形容詞和副詞作為特征,提出了基于啟發(fā)式規(guī)則與貝葉斯分類技術相融合的評論句子語義傾向分類方法。王根、趙軍[11]提出了一種基于多重冗余標記的CRFs句子情感分析方法,劉康、趙軍[12]進行了基于層疊CRFs模型的句子褒貶度分析的研究。

與以往的研究不同,本文提出一種基于淺層篇章結構的評論文傾向分析方法。文章余下部分組織如下:第3節(jié)對本文研究的問題進行了分析,描述了提出的方法;第4節(jié)介紹了評論文的主題識別和主題情感句的抽??;第5節(jié)闡述了基于主題情感句的評論文傾向性分析;第6節(jié)給出實驗結果及其分析;最后一節(jié)是結論。

3 問題分析和方法描述

3.1 篇章結構和淺層篇章結構

篇章的整體傾向性是其組成部分傾向性的總和,但各組成部分在特定篇章中的重要程度卻有不同。這是因為不同的文章體裁有不同的篇章結構,而篇章結構體現(xiàn)了組成部分的重要程度。

篇章結構是篇章內(nèi)部的語言組織規(guī)律,又分為宏觀結構和微觀結構,主要包括開頭和結尾、過渡和照應、段落層次關系及謀篇布局的手段和方法。篇章結構在形式上標志了篇章內(nèi)容的層次性,在意義上保證了篇章內(nèi)容的完整性,在邏輯上體現(xiàn)了篇章內(nèi)容的連貫性??梢哉f,篇章結構是篇章形式、意義和邏輯的統(tǒng)一體。從形式上看,篇章內(nèi)部大于句子的意義單位中,自然段是人們可以自然察覺到的基本單位,節(jié)、章等則是建立在自然段基礎上的更大意義單位。從意義上看,篇章由若干個意義段組成,篇章的中心意義是各意義段的中心意義按一定邏輯關系的組合。

意義段是篇章內(nèi)部表達相對完整意義的自然段的集合,小到一個自然段,大到一個章節(jié)。不同文體劃分意義段的依據(jù)不盡相同。就議論文而言,一篇典型的議論文依據(jù)其結構模式可以分為“引論”(或“總論”)、“分論”和“結論”等意義段。劃分意義段對理解文章的篇章結構、把握中心思想具有重要意義。

淺層篇章結構指的是較大篇章單位(如意義段)之間的語義關系,是篇章總體上的、高層次的語義結構。它是一種宏觀結構,體現(xiàn)的是篇章主題思想的構建方式,忽略較小篇章單位(如句子)之間的結構關系。進行淺層篇章結構分析的目的,在于直接、快速地獲取篇章的中心思想,進而準確地得到篇章的整體傾向性。

3.2 評論文的特點

評論文是議論文的一種,也稱作“評論”,根據(jù)所評論的對象,分為人物評論、時事評論、經(jīng)濟評論、政治評論、軍事評論、文學評論(含書評)、藝術評論(含影評、劇評、樂評)、商品評論(如汽車評論)、服務評論(如機場服務評論)等。評論文具有以下特點:

(1) 主題明確。評論文與一般的議論文不同,它總是針對具體的人、物、事件的有關方面做出評議,議論的對象明確。

(2) 一篇評論文通常只有一個主題,評論者對主題有明確的傾向性。有的評論文會對主題的下位主題展開議論,但不影響其對該主題的基本立場。對下位主題的評論同樣具有上述兩個特點。

(3) 評論文的主題與其標題有著密切的關系。評論文為了讓讀者看到標題即了解主旨,通常會用精煉的語言道出文章的主題,有時甚至概括出主題和主旨。因此,一般來說,總可以在標題中找到文章的主題。

(4) 評論文的結構通常遵循一定的“范式”。概括起來,評論文的結構有3種基本類型:歸納型、演繹型和演繹歸納結合型,并分別對應3種主要的表達模式:“分—總”式、“總—分”式、“總—分—總”式。評論者對主題的情感表達一般會出現(xiàn)在“總論”和“結論”部分,而“分論”部分的情感不影響其基本的傾向。在有的評論文中,對下位主題的情感表達會出現(xiàn)在“分論”部分。

對560篇評論文*所有評論文收集自HUhttp://opinion.people.com.cn/U。的考察印證了評論文的上述4個特點。統(tǒng)計數(shù)據(jù)見表1。

表1 評論文各項特點統(tǒng)計結果

3.3 以主題情感句表示的評論文淺層篇章結構

由以上分析得知,評論文的傾向性通過若干意義段按照特定的表達模式反映出來,其整體傾向一般出現(xiàn)在“總說”部分。因此,一個自然而簡單的想法是,通過劃分意義段和判定表達模式的方法對評論文做篇章結構分析后,僅需對“總說”部分所在的意義段進行傾向性分析,即可獲得評論文的整體傾向。

然而,篇章結構自動分析本身是一件困難的工作,這個過程中損失的精度直接影響著篇章傾向性分析的準確率。為了避免完全的篇章結構分析,同時又能在一定程度上利用文章的篇章結構信息,我們引入主題情感句的概念,利用主題情感句能夠隱式地表達評論文的篇章結構這一特點,對評論文進行傾向性分析。

主題情感句是主觀性文本中包含主題概念及與之相關的情感傾向的句子,它既包含著文章的主題,又表達了針對該主題的主觀態(tài)度。就評論文而言,主題情感句是表達文章中心思想(這里指主題和情感)的最典型、最直接、最有力的手段。主題情感句對于主題情感的表達具有鮮明的特點。首先,主題情感句在主題上是“同質(zhì)”的。也就是說,主題情感句針對相同的主題發(fā)表意見。這就使得每個主題情感句中的情感可以計算。以往的研究文獻[2-3]沒有考慮主題及與之相關的情感應該相互對應這一問題,導致有可能把不同主題情感或不相關情感混合在一起計算,影響了結論的可信度。其次,主題情感句與文章主題的語義相似度潛在地反映了主題情感句與不同意義段的相關度。主題情感句與文章主題的語義相似度越大,它出現(xiàn)在“總說”部分的可能性就越大;反之,出現(xiàn)在“分說”部分的可能性則越大。再次,主題情感句的分布情況,包括分布的密度和廣度,不但隱式地表示了評論文的篇章結構是“總—分”,“分—總”抑或是其他類型,而且還或多或少地體現(xiàn)了作者對所討論主題的情感強度,對深層次的情感分析有所幫助。

總之,對評論文傾向性分析而言,充分利用文章的篇章結構既符合人的思維方式,也能帶來極大的幫助。在當前完全的篇章結構分析難以獲得滿意效果的情況下,采用以情感主題句表示的淺層篇章結構分析方法,不失為一個好的策略。

3.4 方法描述

綜上所述,我們提出一種基于淺層篇章結構的評論文傾向性分析方法。基本的思路是,在確定評論文主題的基礎上,抽取出主題句;然后對主題句進行主客觀分類,抽取出主題情感句;計算主題情感句與評論文主題的語義相似度,選取相似度最高的若干個句子計算情感傾向,將其平均值作為評論文的整體傾向。下面分別進行論述。

4 評論文主題識別和主題情感句抽取

4.1 評論文主題識別

將評論文的主題概念表示為詞語串集合T={Wn1,Wn2, …,Wni},其中,Wni是一個或多個詞語組成的詞語串。評估Wni是否屬于T,依據(jù)的指標是其位置和頻次信息。Wni的位置信息表明了其分布度D(Wni):Wni在評論文中的分布越廣,它與主題相關的可能性越大。Wni的頻率信息表明了其重要度I(Wni):Wni在評論文中出現(xiàn)次數(shù)越多,其重要性越大,與主題相關的可能性也越大。由此,將Wni隸屬于T的程度稱為Wni的隸屬度,Wni的隸屬度C(Wni)定義為:

C(Wni)=α·D(Wni) +β·I(Wni)

(1)

其中,α和β是加權系數(shù),用以調(diào)節(jié)D(Wni)和I(Wni)的權重。

為了快速有效地獲取評論文的主題,采用一種基于n元詞語匹配的方法進行識別。按照下述算法獲取T:

(1) 對評論文標題和正文進行分詞標注,分詞標注結果分別存入隊列Tq和Bq中。

(2) 當n≤m時(其中,1≤m≤Tq中詞語的個數(shù),n初始值為1并自增),循環(huán)執(zhí)行以下操作:連續(xù)地從Tq中取出一個n元詞語串Wni,并在Bq中進行查找;如果Bq中存在Wni,則將其插入索引表G={Wni, position, frequency}中。規(guī)定當n=1時,W1i必須為實詞。

(3) 根據(jù)公式(1)分別計算每個Wni的隸屬度,將隸屬度大于預設閾值Lc的Wni加入T中。

4.2 評論文主題情感句抽取

主題情感句是主觀性文本中包含主題概念及與之相關的情感傾向的句子,它既是主題句,又是情感句。主題情感句決定評論文的情感極性,是判別評論文整體傾向的關鍵。基于主題情感句的評論文傾向性分析方法將與主題無關的情感要素排除在外,使所分析的情感具有“主題同質(zhì)性”,從而獲得可計算性。主題情感句的抽取分為兩個步驟。

(1) 從評論文中抽取主題句。在已確定主題概念T的前提下,抽取主題句即選取與T在語義上相似度較高的句子,其相似度大小主要取決于二者等同詞串*即形式完全相同的詞或詞串。的數(shù)量、等同詞串的長度*即詞串中所含詞語的數(shù)量。、非等同詞的語義相似度、候選主題句的位置等因素。根據(jù)索引表G中每個Wni的位置信息,可以確定一部分主題句。由于這些句子中含有一個或多個等同詞串Wni,按照Wni的數(shù)量及長度賦予一個相應較高的權值,表示這些句子與主題T的相似度較高。對于其他句子,根據(jù)劉群﹑李素建[13]提出的基于《知網(wǎng)》的詞匯語義相似度計算方法,依次計算其所含詞語與T中長度為1的Wni的語義相似度。考慮句子在文本和段落中的位置,將所有相似度大于預定閾值Ls的句子確定為主題句。為了獲得較高的召回率,Ls的值通常設置得較小。

(2) 從主題句中抽取主題情感句。從主題句中抽取情感句,其實質(zhì)是進行主客觀分類。這里采用一種基于詞典匹配的方法,使用預先編制好的情感詞典來判別一個句子是否含有情感傾向。

通過以上步驟抽取評論文中的若干個主題情感句,每個句子均帶有一個表示其與主題語義距離的權值,將這些句子稱為候選主題情感句。

5 基于主題情感句的評論文傾向性分析

基于3.3節(jié)的認識,在評論文中,與主題相似度越高的主題情感句,越有可能成為作者表達基本傾向的關鍵句子。同時,為了避免過度依賴于少數(shù)候選主題情感句,又要求對更多的句子進行分析。因此,從候選主題情感句集中選取的用于最后分析和計算的句子數(shù)量,是一個值得考慮的問題。評論文主題情感句的數(shù)量是不定的,這受多種因素影響。根據(jù)我們對560篇評論文的考察發(fā)現(xiàn),一般而言,一篇評論文所包含的主題情感句不多于7個,而平均的主題情感句數(shù)量約為4個。此外,篇幅較長的評論文,其所包含的主題情感句也通常較多。由此,定義一個可調(diào)節(jié)的參數(shù)γ(依據(jù)所分析的評論文篇幅與參考篇幅確定),則對于任一評論文,其所需分析的主題情感句數(shù)量N(tss)為:

從候選主題情感句集中提取N(tss)個權值最大的句子,將所有句子的傾向性(sentence orientation, SO)的平均值作為評論文的整體傾向O(r),即:

對于句子的傾向性分析,采用基于詞典的語義方法進行。對于每一個待分析的句子,首先使用依存句法分析器對句子成分做依存分析,然后依據(jù)一個預先編制好的情感詞典計算句子中情感表達式的情感傾向,并以此作為句子的傾向性。分析過程中主要考慮了以下句法和上下文因素:(1)情感表達式與主題的關系;(2)情感表達式與其修飾成分的關系,包括否定詞、強調(diào)成分等;(3)連接詞語;(4)話語標記;(5)標點符號。

6 實驗及結果

6.1 數(shù)據(jù)

實驗中使用的語料為漢語時事評論,原始語料采集自人民網(wǎng)觀點頻道(Uhttp://opinion.people.com.cn),均經(jīng)過了清洗和基本整理,使必要的文本結構信息可用。從中隨機挑選出400篇文本,訓練和指導3名標注人員獨立地標注其情感主題句和整體傾向性。以下是部分標注結果。

表2 測試語料部分標注結果

對標注結果進行了一致性檢查,最終得到370篇(其中,正向情感文本86篇,負向情感文本284篇)標注結果完全一致的評論文,將其作為測試數(shù)據(jù)。

6.2 資源和工具

為了進行傾向性分析,實驗使用了以下資源和工具。

(1) 情感詞典。我們手工建設了一部正向情感詞典(CUCPosSentDic)和一部負向情感詞典(CUCNegSentDic),分別收集詞條9 701和11 681例。每個詞條均包含詞性、正向情感值和負向情感值。不同于其他情感詞典,我們由專家對詞語的情感傾向進行5級賦值。所收詞條部分來源于“知網(wǎng)”情感分析用詞語集(beta版)和NTUSD(“國立”臺灣大學情感詞典),也收錄了《學生褒貶義詞典》、《褒義詞詞典》、《貶義詞詞典》等詞典條目。

(2) 影響傾向性分析的上下文詞典。包含否定詞、連接詞、話語標記等詞典。

(3) 知網(wǎng)(2000版)。使用了免費的知網(wǎng)(2000版)用于詞語相似度計算。

(4) 語言技術平臺LTP。使用了其中的依存句法分析器用于句法分析。

(5) 中國傳媒大學分詞標注軟件(CUCSeg)。使用CUCseg進行詞語切分和標注。

6.3 實驗結果

主題情感句的抽取是本文工作中至關重要的環(huán)節(jié),我們對此進行了實驗。采用傳統(tǒng)的準確率(precision)、召回率(recall)以及F1值(F-measure)等評價指標對性能進行衡量。實驗結果如表3所示。

表3 主題情感句實驗結果

可見,當隸屬度閾值Ls為0.55時,可以獲得較好的準確率和召回率。

對于評論文整體傾向性分析實驗,采用準確率這一指標衡量本文方法的性能。分別采用Turney[2]、Pang等[3]以及本文所述方法在同一測試數(shù)據(jù)集上進行實驗,實驗結果與Turney[2]、Pang等[3]在不同英文測試數(shù)據(jù)上所報告的結果比較如表4所示。

表4 評論文傾向性分析實驗結果

顯然,本文的方法在準確率上有較大提高。

我們對49個錯誤結果進行了分析,檢查了各個環(huán)節(jié)的中間分析結果。分析顯示,約有35%的錯誤來自主題識別階段,大約49%的錯誤是由于對主題情感句分析錯誤所導致,此外還有約4%的錯誤由情感詞典造成。因此,提高主題識別的準確率,加強對句子級傾向性的研究以及編制更好的情感詞典,將有助于提高基于主題情感句的評論文傾向性分析結果。

7 結論

漢語評論文的特點使得我們可以利用情感主題句表示它的淺層篇章結構。本文由此提出了一種基于淺層篇章結構的評論文傾向性分析方法。該方法采用一種基于n元詞語匹配的方法識別主題,通過對比與主題的語義相似度和進行主客觀分類抽取出候選主題情感句,計算其中相似度最高的若干個句子的傾向性,將其平均值作為評論文的整體傾向性?;跍\層篇章結構的評論文傾向性分析方法避免了進行完全篇章結構分析,排除了與主題無關的主觀性信息,實驗結果表明,該方法準確率較高,切實可行。本文后續(xù)的研究工作將在加強句子級傾向性分析、改進情感詞典等方面展開。

致謝

本文使用了哈爾濱工業(yè)大學信息檢索研究中心提供的“語言技術平臺LTP”以及“知網(wǎng)(2000版)”,情感詞典部分詞語來自“知網(wǎng)”情感分析用詞語集(beta版)和NTUSD,趙晗冰、李楠參與了情感詞典的編制和部分數(shù)據(jù)的標注,在此一并表示感謝。

[1] 姚天昉,程希文,徐飛玉,等.文本意見挖掘綜述[J].中文信息學報,2008,22(3): 71-80.

[2] P. D. Turney. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews [C]//Proceedings of ACL-02,40th Annual Meeting of the Association for Computational Linguistics. USA: 2002: 417-424.

[3] B. Pang, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02, the Conference on Empirical Methods in Natural Language Processing. Philadelphia, USA: 2002: 79-86.

[4] J. Yi, T. Nasukawa, R. Bunescu, and W. Niblack. Sentiment Analyzer: Extracting Sentiments about a Given Topic using Natural Language Processing Techniques [C]//Proceedings of the 3rd IEEE International Conference on Data Mining (ICDM-2003). Melbourne, Florida: 2003: 427-434.

[5] J. Wiebe. Learning subjective adjectives from corpora[C]//Proceedings of the 17th National Conference on Artificial intelligence. Menlo Park. Calif. AAAI Press, 2000:735-740.

[6] S.-M. Kim and E. Hovy. Determining the Sentiment of Opinions[C]//Proceedings of COLING-04, the Conference on Computational Linguistics (COLING-2004). Geneva, Switzerland: 2004: 1367-1373.

[7] J. Wiebe, E. Riloff. Creating Subjective and Objective Sentence Classifiers from Unannotated Text[C]//Proceedings of CICLING, Mexico City, Mexico: 2005: 486-497.

[8] H. Yu and V. Hatzivassiloglou. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]//Proceedings of EMNLP-03, 8th Conference on Empirical Methods in Natural Language Processing. Sapporo, Japan: 2003: 129-136.

[9] M. Hu, B. Liu. Mining and summarizing customer reviews[C]//Proceedings of the 10th ACM SIGKDD. Seattle, USA, 2004:168-177.

[10] C. Wang, J. Lu, G. Zhang. A semantic classification approach for online Product reviews[C]//Proceedings of the 2005 IEEE/WIC/ACM International Conference on web intelligence. Hongkong, China, 2005: 276- 279.

[11] 王根,趙軍. 基于多重冗余標記CRFs的句子情感分析研究[J].中文信息學報,2007,21(5): 51-55.

[12] 劉康,趙軍. 基于層疊CRFs模型的句子褒貶度分析研究[J].中文信息學報,2008,22(1): 123-128.

[13] 劉群,李素建. 基于《知網(wǎng)》的詞匯語義相似度計算[C]//第三屆漢語詞匯語義學研討會,臺北,2002:4-7.

猜你喜歡
傾向性詞典語義
基于模糊數(shù)學法的阿舍勒銅礦深部巖體巖爆傾向性預測
語言與語義
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
評《現(xiàn)代漢語詞典》(第6版)
詞典例證翻譯標準探索
“上”與“下”語義的不對稱性及其認知闡釋
關于醫(yī)患沖突報道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
“沒準兒”“不一定”“不見得”和“說不定”的語義傾向性和主觀性差異
語言與翻譯(2015年4期)2015-07-18 11:07:43
認知范疇模糊與語義模糊
一種面向博客群的主題傾向性分析模型
房产| 德格县| 白玉县| 诸城市| 淳化县| 康乐县| 临城县| 敦化市| 句容市| SHOW| 茂名市| 华安县| 应用必备| 安阳市| 子洲县| 博爱县| 大安市| 平南县| 崇礼县| 东安县| 洛浦县| 白沙| 历史| 江都市| 石狮市| 鞍山市| 阿城市| 安吉县| 闵行区| 通道| 柳江县| 大竹县| 美姑县| 上饶市| 家居| 平远县| 阳曲县| 南靖县| 隆回县| 金堂县| 疏附县|