国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖排序的詞匯情感消歧研究

2014-02-28 00:45張紹武林鴻飛宋艷雪
中文信息學(xué)報 2014年6期
關(guān)鍵詞:傾向性語料詞義

楊 亮,張紹武,林鴻飛,宋艷雪

(大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

1 引言

文本情感傾向性分析逐漸成為一個研究熱點[1-2],詞語級傾向性分析是文本情感分析的基礎(chǔ)。但是,同一個詞語在不同的語境下可能表達(dá)出不同的情感傾向性。例如下面兩個句子。

(1) 這種幼稚的做法最終會讓你后悔莫及。

(2) 我那幼稚的弟弟今年才兩歲就已經(jīng)能數(shù)到一百了。

在《現(xiàn)代漢語詞典》中,“幼稚”有兩個詞義: (1)年紀(jì)小; (2)形容頭腦簡單或缺乏經(jīng)驗。生活中,詞義(1)經(jīng)常被用來形容小朋友在思想上的天真無邪,純真可愛;詞義(2)則常常會被人們用來形容成人思想不成熟,眼界狹隘,目光短淺,看問題難以洞悉實質(zhì)。由上述例句可以看出,在不同的語境中,“幼稚”表達(dá)了不同的詞義及情感傾向性: 在句(1)中的“幼稚”表達(dá)的詞義是負(fù)向的情感傾向性,而在句(2)中表達(dá)的詞義卻是正向的情感傾向性。由上可見,單純通過情感詞典判斷類似“幼稚”這樣的含有多詞義且多情感傾向性的詞語有一定局限性,因此需要結(jié)合其所處的上下文環(huán)境進(jìn)行詞義及傾向性的判斷。

目前在詞義消歧上,國內(nèi)外已有不少成熟的方法。其中,何徑舟等[3]在分析了特征模板對消歧結(jié)果影響的基礎(chǔ)上,提出一套基于最大熵分類模型的自動特征選擇方法來實現(xiàn)詞義消歧。張仰森等[4]針對最大熵原理只能利用上下文中的顯性統(tǒng)計特征構(gòu)建語言模型的缺點,提出了隱最大熵原理構(gòu)建詞義消歧模型;通過構(gòu)建面向詞義消歧的條件隨機(jī)場模型庫,車玲等[5]通過實驗證明,低頻義項可以取得較好的消歧效果。與此同時,Mihalcea[6]提出了基于Wikipedia進(jìn)行詞義消歧的方法。Navigli等[7]提出了一種多語聯(lián)合詞義消歧方法。該方法通過利用多語知識庫和不同語言的譯文作為補(bǔ)充,進(jìn)行了基于圖的詞義消歧。另外,通過從 Web上自動地抽取不同領(lǐng)域的術(shù)語并將這些術(shù)語作為語義知識,Stefano[8]提出了一種無監(jiān)督的領(lǐng)域詞義消歧方法。然而,目前鮮有研究者從情感傾向性角度進(jìn)行詞義消歧。以情感消歧為出發(fā)點,陳建美等[9]通過貝葉斯方法取得了較好的效果。然而有指導(dǎo)的監(jiān)督學(xué)習(xí)方法跨領(lǐng)域性適用性差,針對不同領(lǐng)域需要重新標(biāo)注部分信息,因此需要耗費大量的人力物力,鑒于此,本文提出了基于圖排序的無監(jiān)督詞匯情感消歧算法,以此解決上述類似問題。

本文在解決詞匯情感消歧時,充分考慮情感詞所處的上下文語境。在對語料進(jìn)行預(yù)處理后,利用《現(xiàn)代漢語詞典》構(gòu)建詞義關(guān)系圖,并通過PageRank算法進(jìn)行迭代計算直至其收斂。然后,選取多情感詞所含詞義中具有最大權(quán)值的詞義作為該情感詞的最終詞義,從而實現(xiàn)詞匯的情感消歧。最后,在新浪微博數(shù)據(jù)集和大連理工大學(xué)信息檢索實驗室情感語料庫[10](下文簡稱情感語料庫)兩個語料集上驗證了本文方法的有效性。

2 理論基礎(chǔ)

2.1 情感詞匯本體

本文使用的情感詞典資源為大連理工大學(xué)信息檢索實驗室的情感詞匯本體[11](下文簡稱情感詞匯本體),該情感詞匯本體將情感分為7大類20小類,目前收錄情感詞17 000余條。對于每個情感詞,通過一個三元組來描述,如式(1)所示。

Lexicon=(B, R, E)

(1)

其中B表示詞匯的基本信息,主要包括編號、詞條、對應(yīng)英文、詞性等信息。R代表詞匯之間的同義關(guān)系,即表示該詞匯與哪些詞匯有同義的關(guān)系。E代表詞匯的情感信息,包括情感類別、情感強(qiáng)度、情感極性,是情感詞匯描述框架中比較重要的一部分。圖1表示“美麗”一詞在情感詞匯本體中的存儲狀態(tài)以及各個變量所存儲的值。其中表示“美麗”的編號,表示本詞條所存儲的詞匯,表示詞性,表示英文表達(dá)方式,域表示該詞包含的大類情感,其中的“PA”、“PH”、“PB”分別代表大類情感中的“快樂”、“贊揚(yáng)”、“喜歡”。域采用20維向量形式表示,每一維代表20小類相應(yīng)情感的強(qiáng)度。其中0表示不含該類情感,強(qiáng)度1、3、5、7、9表示強(qiáng)度由小到大。表明詞匯極性,兼有褒義、貶義、中性、褒貶4類。表明詞匯包含的主要情感是消極、積極還是中性。

圖1 情感本體存儲示例

由于大量網(wǎng)絡(luò)流行用語經(jīng)常出現(xiàn)在社交媒體的文本中,而且常常帶有明顯的情感傾向性。為了使情感詞典涵蓋范圍更廣,本文在情感詞匯本體的基礎(chǔ)上整合了如“給力”、“頂”等當(dāng)前網(wǎng)絡(luò)流行詞匯,其主要來自中文傾向性評測任務(wù),共153個網(wǎng)絡(luò)常用流行詞匯,以此輔助本文情感消歧任務(wù)。

2.2 PageRank算法

PageRank[12]用于衡量特定網(wǎng)頁相對于搜索引擎索引中其他網(wǎng)頁的重要程度。它充分利用了互聯(lián)網(wǎng)資源中浩瀚復(fù)雜的鏈接結(jié)構(gòu)。一個頁面的“得票數(shù)”,即重要性,由所有鏈向它的頁面的重要性來決定。所以,到一個頁面的超鏈接相當(dāng)于對該頁面的投票。一個頁面的PageRank值是由所有鏈向它的頁面(“鏈入頁面”)的重要性經(jīng)過遞歸計算得到的。一個有較多鏈入的頁面會有較高的等級,相反,如果一個頁面沒有任何鏈入頁面,那么它沒有等級。PageRank算法目前已經(jīng)被廣泛地應(yīng)用到了網(wǎng)頁鏈接分析、社交網(wǎng)絡(luò)、引文分析等領(lǐng)域中。它通過式(2)計算每個網(wǎng)頁的PageRank值,其中c設(shè)定為0.85[15]。

(2)

PageRank之所以成功,歸咎于它考慮到了以下三個要點: 首先,Web頁反向鏈接的數(shù)目,即該Web頁受歡迎的程度;其次,Web頁反向鏈接是否來源于權(quán)威性網(wǎng)頁,即要考慮反向鏈接網(wǎng)頁的重要性;最后,Web頁反向鏈接頁面的鏈接數(shù),即要考慮該Web頁被選中的概率。

3 基于圖排序的詞匯情感消歧模型

3.1 多情感詞匯的獲取

多情感詞匯是指具有不同情感傾向性的詞匯,其表達(dá)的情感傾向性依賴于所處的語境,如“驕傲”一詞在下面兩個句子中所要表達(dá)的情感傾向性。

a. 莉莉考上了名牌大學(xué),爸爸媽媽都感到非常的驕傲。

b. 公主般的莉莉總是那么驕傲,從來不把別人放在眼里。

在《現(xiàn)代漢語詞典》中,“驕傲”有3個詞義: (1)自以為了不起,看不起別人; (2)自豪; (3)值得自豪的人或事物。顯然,在句a中“驕傲”表達(dá)的是詞義(2)。而在句b中,其所要表達(dá)的卻是“自以為了不起,看不起別人”的意思,即詞義(1)。從情感傾向性來看,“驕傲”一詞在句a中表達(dá)的是正向情感傾向性,而在句b中表達(dá)的是負(fù)向情感傾向性。類似于“驕傲”這樣在不同語境中表達(dá)不同情感色彩的詞匯,本文稱之為多情感詞。一個詞匯有多種情感的問題可以看作是詞匯多義問題造成的。那么解決詞匯情感消歧問題相對應(yīng)的看作解決詞義消歧問題的延續(xù),因而它們之間存在共性。多情感詞匯的挖掘和其情感的確定可以依賴詞義消歧方法,但是二者之間又有所差異,需要根據(jù)多情感詞匯本身的特性進(jìn)行相應(yīng)改進(jìn)及處理。

多義詞的確定可以根據(jù)《現(xiàn)代漢語多義詞詞典》、《常用多義詞詞典》等詞典實現(xiàn)。然而,目前沒有權(quán)威的準(zhǔn)則或詞典來確認(rèn)一個情感詞是否為多情感詞匯,更不可能確定多情感詞匯到底包含哪幾種情感。因此,為從情感詞匯本體中挖掘出多情感詞匯,本文提出了機(jī)器過濾與人工校對相結(jié)合的方法,具體過程如下所述。

(1) 機(jī)器過濾

該階段主要通過兩層過濾手段實現(xiàn)。根據(jù)語言習(xí)慣及觀察實驗語料,本文發(fā)現(xiàn)一個能表達(dá)多種情感的詞也往往含有多個詞義,且每個詞義可能表現(xiàn)出不同的情感,故多情感詞匯很可能是多義詞。為了挖掘多情感詞,首先要篩選出多義詞。為此,本文通過參照《同義詞詞林》[13]篩選出包含在情感詞匯本體中且存在多個詞義的詞匯,將其作為候選。在《同義詞詞林》中,如果一個詞存在于多個組中,本文認(rèn)為此類詞是多義詞,例如,“驕傲”在《同義詞詞林》中存在于下面的兩個組中(圖2)。

圖2 多義詞示例

依據(jù)上述分析,第一層過濾首先提取在《同義詞詞林》中有兩個及以上詞義且被情感詞匯本體收錄的詞匯,如“驕傲”等。經(jīng)統(tǒng)計,首次過濾出來的詞集合M包含901個詞匯。

第二層過濾是通過情感詞匯本體描述框架中的20維向量進(jìn)行的。這20維向量代表該情感詞在20小類情感上的相應(yīng)情感強(qiáng)度。集合M中的詞匯,并不一定都是多情感詞匯。所以,對于集合M中的每個詞匯,若其在向量上只有一個分量大于0,則表明其只有一種情感,故不屬于多情感詞,應(yīng)過濾掉。若在情感詞匯本體描述框架中在向量上含有兩個及兩個以上分量大于0的,類似“驕傲”一詞的向量形式為: ,這表明“驕傲”分別有“快樂”、“贊揚(yáng)”和“貶責(zé)”三種情感,即表明“驕傲”為多情感詞匯,應(yīng)該保留下來。本文將第二次過濾后保留下來的詞匯集合表示為N。

(2) 人工校對

為進(jìn)一步保證多情感詞匯的選取質(zhì)量,本文接下來進(jìn)行人工校對。對于詞匯集合N,我們根據(jù)《現(xiàn)代漢語詞典》提取出精準(zhǔn)的多情感詞匯。為避免個人主觀性影響,校驗過程中,本文采取3人獨立校驗,然后取3人校驗結(jié)果的交集部分,最后得到確定多情感詞236個。

3.2 基于 PageRank排序的詞匯情感消歧

針對消歧原理,本文對PageRank進(jìn)行改進(jìn),并將其應(yīng)用在詞語情感消歧問題中。下面是一個PageRank的計算例子。圖3表示的是一個web頁面的鏈接結(jié)構(gòu)圖。其中節(jié)點A、B、C代表3個Web頁面,有向邊代表頁面的鏈接結(jié)構(gòu)。PR(A)、PR(B)、PR(C)分別表示節(jié)點A、B、C的PageRank值,在圖3的右側(cè)定義了各個節(jié)點PageRank值的計算公式。圖3下方給出了各個節(jié)點前三次迭代值和最終迭代值的詳細(xì)計算過程。

圖3 網(wǎng)頁鏈接示例

第一次: PR(C)=0.33/2+0.33=0.5

PR(A)=0.33 PR(B)=0.17

第二次: PR(C)=0.33/2+0.17=0.33

PR(A)=0.5 PR(B)=0.17

第三次: PR(C)=0.42

PR(A)=0.33 PR(B)=0.25

最終值: PR(C)=0.4

PR(A)=0.4 PR(B)=0.2

由上述例子可以看出,迭代結(jié)束后,圖中每個頂點的PageRank值代表了該頂點在圖中的重要程度,即在隨機(jī)游走過程中找到該頂點的可能性。PageRank算法的“投票”思想同樣適用于詞匯的情感消歧。本文將詞匯的多個詞義視為圖上的節(jié)點,鏈接到某一個詞義頂點的鏈接數(shù)目越多說明該頂點與上下文語境的相關(guān)性越大,即該詞義越有可能是符合該語境下的詞義。在進(jìn)行情感消歧時,本模型通過在詞義關(guān)系圖上游走,最終的穩(wěn)定分布概率值可以被用來決定所給定序列最可能的詞義集合。

此部分將介紹關(guān)系圖的構(gòu)造。對于一個給定的詞序列W={w1,w2,…,wn},《現(xiàn)代漢語詞典》中,每一個詞wi的詞義表示為式(3)。

(3)

其中m表示詞wi的詞義數(shù)。n表示詞序列W中詞語的個數(shù)。

(4)

(5)

在詞義關(guān)系圖中,詞義與詞義間的依賴關(guān)系可通過有向邊權(quán)重的大小表示。通過權(quán)重大小來衡量依賴關(guān)系的強(qiáng)弱,當(dāng)邊的權(quán)重為0時表示兩個詞義之間沒有依賴關(guān)系。圖4展示了4個序列詞構(gòu)成的詞義關(guān)系圖,表示了4個詞序列詞義間的依賴關(guān)系。對于一個給定的詞義關(guān)系圖,可以通過圖排序算法得到每個詞中各個詞義被選中的權(quán)值。即在詞義關(guān)系圖上隨機(jī)游走后得到的穩(wěn)定權(quán)值,其決定了該頂點的重要性。圖4中每個頂點旁邊方括號中的數(shù)字表示最終的穩(wěn)定權(quán)值分布。迭代開始時,每個頂點的初始值都為1,待收斂后,所有詞義中概率最大的詞義即為該情感詞的最終詞義。如圖4所示,由于在w1的所有詞義中,詞義1的最終迭代權(quán)值1.39,在3個詞義中最大,故選取詞義1作為最終詞義。

圖4 詞義關(guān)系圖示例

圖排序算法的全局性是解決詞匯情感消歧問題的關(guān)鍵,其不僅僅依賴于本地的特殊頂點或者單個頂點信息,而是從全體性出發(fā)挖掘詞義之間的依賴關(guān)系。設(shè)已給定的頂點b和a間有向邊的權(quán)重是wba,則頂點a的迭代計算式(6)如下所示。

(6)

基于圖排序的詞匯情感消歧算法主要包含以下3個步驟: (1)構(gòu)造詞序列W的詞義關(guān)系圖; (2)計算圖中每個頂點的WP值; (3)利用WP值實現(xiàn)詞匯的情感消歧。具體過程為: 對于所有詞,將其在《現(xiàn)代漢語詞典》中的每個詞義作為頂點加入圖中。通過式(4)、(5)計算任意兩個頂點之間的權(quán)重,并將其作為有向邊的權(quán)重加入圖中。構(gòu)建圖時,本文通過最大距離MaxDist來約束權(quán)重的計算,即在尋找與詞義i有關(guān)系的詞義j時,允許跨越最多MaxDist的距離。對于MaxDist的設(shè)定主要考慮語言及思維習(xí)慣,即一個詞在句中的詞義受其前后詞影響。若選擇過大的間距則會引入較大的噪音,若選擇間距過小則可能丟失詞與詞之間的語義信息,綜合二者考慮,本文將MaxDist設(shè)為3,即最大允許跨越的距離為3。在詞義關(guān)系圖構(gòu)建完成后,通過式(6)迭代計算直至收斂,最后得到每個頂點的WP值。對于每個多情感詞,選取其所有詞義中WP值最大的詞義作為當(dāng)前語境下的詞義。

4 實驗結(jié)果與分析

4.1 實驗設(shè)置

為了說明本文算法的可移植性和魯棒性,本文分別在微博語料和情感語料庫上對兩種方法作了對比,二者為基于詞性和情感頻率的方法和基于貝葉斯模型的詞匯情感消歧方法。情感語料庫中包含250 021個句子,句子覆蓋小學(xué)教材、電影劇本、童話故事、文學(xué)期刊,內(nèi)容表達(dá)比較規(guī)范,從時間、空間、學(xué)科、風(fēng)格和構(gòu)成上看覆蓋面大。而微博內(nèi)容的主題多樣,表達(dá)隨意,并且每條微博所包含的信息量少,文字簡短,事件核心突出。所以,采用兩種風(fēng)格不同的語料更能驗證本文所提出的方法的可移植性和魯棒性。

本文首先爬取新浪微博文本內(nèi)容作為備選語料集,然后篩選出帶有多情感詞的句子。另外,為了構(gòu)建相對完整的詞義關(guān)系圖,本文不考慮特別短小的句子(存在信息丟失等問題)和廣告等噪音數(shù)據(jù)。對篩選過后的微博句子進(jìn)行分句,根據(jù)每個多情感詞匯,選取包含它的30個句子作為后續(xù)實驗語料。之所以選擇30條作為標(biāo)準(zhǔn),是由于根據(jù)觀察,超出30條后所獲取的重復(fù)句子明顯增加,很少能再獲得新的實例。最后,對篩選出來的語料中每個句子所出現(xiàn)的多情感詞匯進(jìn)行詞義及情感標(biāo)注,標(biāo)準(zhǔn)參照為3.1節(jié)中的部分。

為檢驗方法的有效性,本文設(shè)置如下兩個對比實驗: (1)詞性ccat與情感頻率fs相結(jié)合的詞匯情感消歧,此方法是一種基于統(tǒng)計的方法; (2)基于貝葉斯模型的詞匯情感消歧,該方法在已標(biāo)注語料上提取多情感詞匯的屬性及特征,然后訓(xùn)練模型進(jìn)而對測試語料進(jìn)行詞匯情感消歧。在進(jìn)行基于貝葉斯模型的詞匯情感消歧時,將語料按照2∶1的比例分為訓(xùn)練語料和測試語料進(jìn)行實驗。下面介紹上述兩種對比方法的實現(xiàn)過程。

1. 基于詞性和情感頻率的詞匯情感消歧: (1)使用分詞軟件NLPIR[14]對句子進(jìn)行分詞、詞性標(biāo)注,去停用詞,并設(shè)句子中的多情感詞匯為w,詞性為p。(2)在情感詞匯本體中查找域為w、域為p的詞條,查看其域中的值是否唯一。當(dāng)中的值多于1個時,統(tǒng)計其各個情感在標(biāo)注語料中的出現(xiàn)頻率,并將該詞在語料庫中情感頻率最高的作為該詞在此句中的情感。

2. 基于貝葉斯模型的詞匯情感消歧: 該方法首先在已標(biāo)注語料中統(tǒng)計多情感詞的詞義和其上下文語境的關(guān)系,進(jìn)而得到一個知識庫。然后計算多情感詞w在特定的語用環(huán)境C下表現(xiàn)各種情感的后驗概率值,最后根據(jù)后驗概率大小決定其所述類別,如式(7)所示。其中,count表示所獲得的相關(guān)句子在語料庫中所出現(xiàn)的總數(shù)。

(7)

通過實驗,本文發(fā)現(xiàn)隨著MaxDist的增大,詞義間的依賴性逐漸衰退,且當(dāng)MaxDist=3時所得到的信息最大。待詞義關(guān)系圖建成后,初始每個詞義頂點的WP值為1,按照式(6)對圖中的頂點迭代計算。實驗中發(fā)現(xiàn)經(jīng)過20次的迭代計算后,每一個詞義頂點的WP值基本趨于穩(wěn)定。最后,選取情感詞的所有詞義中WP值最高的作為該情感詞的情感傾向性,實現(xiàn)詞匯的情感消歧。

4.2 結(jié)果及分析

本文用準(zhǔn)確率作為實驗結(jié)果評價指標(biāo),此處指的是情感傾向性判斷正確的多情感詞數(shù)量占待預(yù)測詞匯總量的比例。表1展示了3種方法在微博語料上的實驗結(jié)果。

表1 微博語料上的對比實驗

分析實驗結(jié)果可以發(fā)現(xiàn),基于詞性和情感頻率的情感消歧方法的正確率為68.22%。雖然多情感詞有多個詞義,但在生活中,人們通常只會常用其某一個詞義,表達(dá)某一種情感。即最常用的詞義,最多見的情感會應(yīng)用在日常表達(dá)交流中。所以,基于詞性和情感頻率的詞匯情感消歧方法能獲得68.22%準(zhǔn)確率。伴隨著網(wǎng)絡(luò)文化的發(fā)展,許多網(wǎng)絡(luò)流行用語日益涌現(xiàn)。微博作為當(dāng)下比較流行的社交媒體,其文本形式受限于時間、空間等諸多因素,即某時段的微博語料主要和該時間段內(nèi)所發(fā)生的熱門話題有關(guān)。鑒于此,該方法的正確率有待提高。

相比基于詞性和情感頻率的詞匯情感消歧方法,基于貝葉斯模型的詞匯情感消歧方法大約提高了3.24%,但是其效果卻低于基于圖排序模型的詞匯情感消歧方法約2%。本文認(rèn)為主要由以下原因?qū)е隆?/p>

(1) 訓(xùn)練集的規(guī)模、領(lǐng)域都會都對貝葉斯分類模型有一定的影響。另外,特征選取的質(zhì)量直接影響到分類結(jié)果。

(2) 由于微博更新速度較快、內(nèi)容短小,主題多樣,所以當(dāng)測試集和訓(xùn)練集主題有所差異時,對測試集語料來說,分類模型可能無法獲得部分先驗知識作為參考,故導(dǎo)致分類結(jié)果不理想。這也就是其針對跨領(lǐng)域問題上沒有圖排序模型效果好的最主要原因。

相比前兩種情感消歧方法,本文在微博語料上所提出的基于圖排序模型方法有其優(yōu)越性。基于圖排序模型方法在準(zhǔn)確率上分別有2.04%和5.29%的提高。這是由于該方法是基于詞義依賴關(guān)系,從整體出發(fā)充分考慮了上下文的語義環(huán)境。在進(jìn)行情感消歧時,不依賴于訓(xùn)練集的規(guī)模和特征的選取質(zhì)量,同時也不受限于文本內(nèi)容的領(lǐng)域和主題。綜上所述,該方法取得了更好的效果,但仍有提高的余地。分析實驗結(jié)果我們發(fā)現(xiàn)存在以下問題。

(1) 在詞典中描述詞匯詞義的句子一般較為短小,包含的詞語比較少,導(dǎo)致在計算詞匯間相似度時受到影響。

(2) 在微博語料中,表達(dá)相對隨意,且新組合詞、網(wǎng)絡(luò)流行用語以及新生僻詞較多。而通常這些比較流行的網(wǎng)絡(luò)用語及組合詞卻沒有被《現(xiàn)代漢語詞典》所收錄,在一定程度上影響了實驗精確度。同時微博句子比較短小,表達(dá)形式隨意,相對不規(guī)范,甚至經(jīng)常出現(xiàn)只言片語的情況。所以導(dǎo)致詞義關(guān)系圖構(gòu)建相對比較困難,進(jìn)而影響詞義相似度的計算,也是影響實驗精度的重要因素之一。

(3) 在《現(xiàn)代漢語詞典》中,示例信息往往可以更好地反映該詞義所要表達(dá)的情感信息,因為相比詞義的定義,示例內(nèi)容更接近人們表達(dá)的實際情況。所以,充分利用示例信息是我們下一步的工作之一。

為了驗證本文所提出的方法在標(biāo)準(zhǔn)語料集上的有效性,本文將上述提到3種方法在情感語料庫上進(jìn)行了實驗,并和在微博語料上取得的精度進(jìn)行了對照,結(jié)果如圖5所示。

圖5 語料庫和微博的實驗對比結(jié)果

從圖5可以看出,在情感語料庫上,基于圖模型的情感消歧方法仍優(yōu)于其他兩種方法。這主要是由于該方法基于語義分析,不受限于特征的提取精度和語料自身特性,所以在情感消歧準(zhǔn)確率上表現(xiàn)相對較好。

分析基于詞性和情感頻率的詞匯情感消歧法在情感語料庫和微博語料上的結(jié)果可以看出,在微博語料上取得的精度相對較高。這主要是由于兩種語料在行文風(fēng)格、知識背景、描述主題等方面的差異所導(dǎo)致。情感語料庫中表達(dá)比較規(guī)范,較為書面化,通常采用比較含蓄的方法抒發(fā)感情。而在微博中表達(dá)比較隨意,較為口語化,情感抒發(fā)方式相對直接。相比情感語料庫上,基于貝葉斯模型消歧方法在微博語料取得的結(jié)果也相對較好。這主要是由于情感語料庫覆蓋范圍較廣,包括小學(xué)教材、電影劇本、童話故事、文學(xué)期刊等。所以分類模型很可能無法獲得某些領(lǐng)域或主題的先驗知識,進(jìn)而影響了分類精度。這也驗證了監(jiān)督學(xué)習(xí)在跨領(lǐng)域問題處理上的欠缺。

從圖5我們可以發(fā)現(xiàn),不同于前兩種方法,基于圖模型的消歧方法在情感語料庫上表現(xiàn)相對較好。這主要是由于微博的內(nèi)容相對短小,構(gòu)建完整的詞義關(guān)系圖比較困難,進(jìn)而影響了實驗準(zhǔn)確率。而情感語料中的表達(dá)方式比較規(guī)范,能夠較為準(zhǔn)確地構(gòu)建詞義關(guān)系圖,因此實驗結(jié)果相對微博數(shù)據(jù)較好。

綜上所述,通過在兩種表達(dá)方式不同的語料集上進(jìn)行測試,驗證了本文提出的基于圖排序模型的詞匯情感消歧方法都優(yōu)于其他兩種對比方法。這充分說明了該方法的有效性,也體現(xiàn)了本文方法在跨領(lǐng)域性、適用性和魯棒性方面的優(yōu)勢。

5 結(jié)束語

本文詳細(xì)介紹了基于圖模型的詞匯情感消歧的方法,并在微博語料庫和情感語料庫上驗證了該方法的有效性。下一步的工作是充分利用《現(xiàn)代漢語詞典》中的示例信息,因為示例比詞義定義更接近人們的用語習(xí)慣,將示例和上下文的互信息性也考慮到詞義的相似度計算中。另外,由于在特定領(lǐng)域內(nèi)語義與情感關(guān)聯(lián)性很強(qiáng),因此將詞義的領(lǐng)域信息融入詞匯情感消歧中也是未來重要的工作之一。

[1] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135.

[2] Liu B, Zhang L. A survey of opinion mining and sentiment analysis[M]. Mining Text Data. Springer US, 2012: 415-463.

[3] 何徑舟, 王厚峰. 基于特征選擇和最大熵模型的漢語詞義消歧[J]. 軟件學(xué)報, 2010, 21(6): 1287-1295.

[4] 張仰森, 黃改娟, 蘇文杰. 基于隱最大熵原理的漢語詞義消歧方法[J]. 中文信息學(xué)報, 2012, 26(3): 72-78.

[5] 車玲, 張仰森. 面向詞義消歧的條件隨機(jī)場模型庫構(gòu)建[J]. 計算機(jī)工程, 2012, 38(20):152-159.

[6] Mihalcea R. Using wikipedia for automatic word sense disambiguation[C]//Proceedings of Human Language Technology conference and conference on Empirical Methods in Natural Language Processing, Rochester, 2007, 196-203.

[7] Navigli R, Ponzetto S P. Joining forces pays off: Multilingual joint word sense disambiguation[C]//Proceedings of the 2012 joint conference on empirical methods in natural language processing and computational natural language learning. Association for Computational Linguistics, 2012: 1399-1410.

[8] Faralli S, Navigli R. A new minimally-supervised framework for domain Word Sense Disambiguation[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Association for Computational Linguistics, 2012: 1411-1422.

[9] 陳建美,林鴻飛.基于貝葉斯模型的詞匯情感消歧[C]第九屆全國計算語言學(xué)學(xué)術(shù)會議論文集,大連, 2007: 594-599.

[10] Yang L, Lin H. Construction and application of Chinese emotional corpus[M]. Chinese Lexical Semantics. Springer Berlin Heidelberg, 2013: 122-133.

[11] 徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J]. 情報學(xué)報, 2008, 27(2): 180-185.

[12] 曹軍. Google的PageRank技術(shù)剖析[J].情報學(xué)報, 2002,10: 15-18.

[13] 哈爾濱工業(yè)大學(xué)《同義詞詞林》擴(kuò)展版[DB/OL]. http://ir.hit.edu.cn/phpwebsite/index.php?module=pagemaster&PAGE_user_op=view_page&PAGE_id=162.

[14] NLPIR分詞系統(tǒng)[DB/OL]. http://ictclas.nlpir.org/.

[15] PageRank[DB/OL]. http://zh.wikipedia.org/wiki/PageRank.

猜你喜歡
傾向性語料詞義
公眾對我國足球歸化運動員的情感傾向性——基于大數(shù)據(jù)的微博情感分析
基于歸一化點向互信息的低資源平行語料過濾方法*
“誅”的詞義演變及其在古籍中的釋義
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測
超重/肥胖對兒童腸套疊空氣灌腸復(fù)位的預(yù)后影響:傾向性評分匹配分析
西夏語“頭項”詞義考
隱喻手法幫你理解詞義
詞義辨別小妙招——看圖辨詞
對外漢語教學(xué)領(lǐng)域可比語料庫的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語義標(biāo)注及應(yīng)用研究為例
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
公安县| 剑川县| 新疆| 荥阳市| 云阳县| 凌云县| 锡林郭勒盟| 长泰县| 鹿泉市| 屏山县| 安新县| 安徽省| 和田市| 溧阳市| 平远县| 玛曲县| 门源| 漾濞| 迁西县| 德清县| 休宁县| 固安县| 青河县| 荔浦县| 临澧县| 柳河县| 清涧县| 若羌县| 西林县| 铁岭市| 库尔勒市| 攀枝花市| 新乡市| 比如县| 瓦房店市| 潼关县| 马山县| 尖扎县| 凤山市| 娄烦县| 荃湾区|