鄧 釗,賈修一,陳家駿
(1.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京210094;2.南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,江蘇 南京210023)
反語(yǔ)通常又稱為“說(shuō)反話”,其字面意思和所要表達(dá)的意思相反,是一種帶有強(qiáng)烈情感色彩的修辭手法。在社交網(wǎng)絡(luò)里,反語(yǔ)已成為一種普遍的語(yǔ)言表達(dá)方式。在微博這類包含符號(hào)、圖片和短文本等信息的分享傳播平臺(tái),針對(duì)熱門(mén)話題及爭(zhēng)議話題,用戶常常使用反語(yǔ)表達(dá)如嘲弄或諷刺等強(qiáng)烈情感傾向。而反語(yǔ)的使用增加了微博情感分析的難度,為提高微博情感分析的準(zhǔn)確率,我們需要對(duì)反語(yǔ)識(shí)別進(jìn)行研究。
目前反語(yǔ)識(shí)別的可計(jì)算化研究已引起一些學(xué)者的關(guān)注,但主要集中在以英文為代表的外文短文本反語(yǔ)識(shí)別。據(jù)我們所知,對(duì)于中文反語(yǔ)研究,目前還處于起步階段,只有Tang Y J等人[1]針對(duì)繁體字構(gòu)建了一個(gè)反語(yǔ)語(yǔ)料庫(kù)并分析了反語(yǔ)常見(jiàn)的句式結(jié)構(gòu)[1]。反語(yǔ)的識(shí)別需要正確理解該話語(yǔ)發(fā)生的具體語(yǔ)境,而當(dāng)前研究很難形式化地給出語(yǔ)境的計(jì)算表達(dá)式,特別是在缺少自然會(huì)話中的語(yǔ)氣、身體姿勢(shì)等用于視聽(tīng)理解的輔助手段情況下,這就給反語(yǔ)識(shí)別帶來(lái)了極大的困難。此外,和英文反語(yǔ)識(shí)別相比,中文通常使用諧音詞或歧義詞等來(lái)表達(dá)反語(yǔ)情感,這也使得中文反語(yǔ)識(shí)別在詞語(yǔ)層面上就比英文反語(yǔ)識(shí)別具有更深的難度,使得我們無(wú)法直接將針對(duì)外文反語(yǔ)識(shí)別的研究簡(jiǎn)單地運(yùn)用到中文反語(yǔ)識(shí)別。
和自然會(huì)話相比,社交網(wǎng)絡(luò)上的語(yǔ)言表達(dá)雖然缺少一些語(yǔ)氣或肢體行為等輔助手段,但社交網(wǎng)絡(luò)平臺(tái)本身的一些特性也有助于反語(yǔ)的使用和識(shí)別,如連續(xù)標(biāo)點(diǎn)符號(hào)和表情符號(hào)的使用等等,這在一定程度上能夠幫助我們理解反語(yǔ)所在的語(yǔ)境。鑒于此,我們?cè)趨⒖纪馕南嚓P(guān)工作的基礎(chǔ)上,考慮中文語(yǔ)言的特性和微博平臺(tái)的特點(diǎn),對(duì)識(shí)別反語(yǔ)的特征構(gòu)建做了初步的研究。
本文主要使用基本詞匯情感、標(biāo)點(diǎn)符號(hào)、諧音詞、微博長(zhǎng)度、動(dòng)詞被動(dòng)化和文本情感模糊度六種特征構(gòu)建反語(yǔ)識(shí)別特征體系。在此基礎(chǔ)上,通過(guò)信息增益方法對(duì)比了各特征對(duì)反語(yǔ)識(shí)別的影響程度。此外,還實(shí)驗(yàn)驗(yàn)證了在該特征體系下不同分類器的分類性能及穩(wěn)定性。
反語(yǔ)作為一種修辭現(xiàn)象,受到語(yǔ)言學(xué)家、心理學(xué)家和認(rèn)知學(xué)家的廣泛關(guān)注[2]。隨著情感分析技術(shù)的深入研究,反語(yǔ)識(shí)別也得到了自然語(yǔ)言處理領(lǐng)域?qū)W者們的重視。對(duì)于反語(yǔ)識(shí)別的研究,我們依據(jù)研究角度不同,將相關(guān)工作分為兩類:
第一類工作主要從語(yǔ)言學(xué)和心理學(xué)角度出發(fā)。對(duì)于英文的反語(yǔ)識(shí)別,Gibbs R W 等人[3]從心理學(xué)角度分析了口語(yǔ)中反語(yǔ)的形成和實(shí)用性。Utsumi A[4]從語(yǔ)言學(xué)角度分析了反語(yǔ)的本質(zhì),定義了反語(yǔ)的三大要素,提出了一個(gè)統(tǒng)一識(shí)別反語(yǔ)的計(jì)算模型。對(duì)于中文的反語(yǔ)識(shí)別,劉正光[2]通過(guò)對(duì)反語(yǔ)在中文對(duì)話產(chǎn)生過(guò)程的研究,嘗試從語(yǔ)言學(xué)和心理學(xué)角度分析反語(yǔ)的本質(zhì)。Li Xiang[5]也從語(yǔ)言學(xué)角度分析了中英文中反語(yǔ)使用的差異性。
第二類工作主要從反語(yǔ)識(shí)別的可計(jì)算化角度出發(fā)。該類工作又可細(xì)分為兩種:第一種是研究反語(yǔ)識(shí)別的特征構(gòu)建。對(duì)于英文反語(yǔ)識(shí)別,González-Ibá?ez等 人[6]僅 通 過(guò) 字 典 中 的 詞 匯 和“@〈用戶〉”標(biāo)簽等簡(jiǎn)單的特征識(shí)別反語(yǔ),發(fā)現(xiàn)僅通過(guò)一些簡(jiǎn)單的詞匯特征無(wú)法準(zhǔn)確有效地識(shí)別反語(yǔ)。Reyes A 等人[7~9]從 不 同 角 度 研 究 了 電 商 評(píng) 論 和社交媒體中的反語(yǔ)識(shí)別工作,構(gòu)建了包含n元文法、POS的n元文法、滑稽程度、詞匯褒貶程度、情感復(fù)雜度和歡樂(lè)程度等抽象復(fù)雜的特征體系。Burfoot C等人[10]針對(duì)新聞?wù)Z料,在基本詞袋特征基礎(chǔ)上討論了標(biāo)題、臟話和俚語(yǔ)等特征。對(duì)于葡萄牙文反語(yǔ)識(shí)別,Vanin A A 等人[11]研究了固定詞匯、標(biāo)點(diǎn)號(hào)、詞性序列和特殊的葡萄牙語(yǔ)表達(dá)方式等特征識(shí)別反語(yǔ)。Barbieri F等人[12]針對(duì)Twitter研究了意大利語(yǔ)的反語(yǔ)識(shí)別。
第二種主要從分類算法的研究角度出發(fā)。González-Ibá?ez R 等人[6]使用支持向量機(jī)和邏輯斯蒂回歸兩種經(jīng)典的分類算法識(shí)別反語(yǔ),發(fā)現(xiàn)支持向量機(jī)算法表現(xiàn)普遍好于邏輯斯蒂回歸方法。Reyes A 等人[8]使用樸素貝葉斯和決策樹(shù)兩種算法識(shí)別反語(yǔ),分別研究了在數(shù)據(jù)平衡和數(shù)據(jù)不平衡狀態(tài)下分類器的性能。文獻(xiàn)[9]中使用了樸素貝葉斯、支持向量機(jī)和決策樹(shù)三種經(jīng)典算法識(shí)別反語(yǔ),研究了三種分類在不同數(shù)據(jù)集上識(shí)別反語(yǔ)的性能。Tsur O 等人[13,14]提出了一種基于模式匹配的半監(jiān)督學(xué)習(xí)方法識(shí)別反語(yǔ)。
反語(yǔ)識(shí)別的可計(jì)算化研究主要集中在以英文為代表的外文語(yǔ)料上,而基于中文短文本的反語(yǔ)識(shí)別研究只有Tang Y J等人[1]針對(duì)繁體字進(jìn)行了語(yǔ)料庫(kù)構(gòu)建和分析了反語(yǔ)的常用句式結(jié)構(gòu),對(duì)于反語(yǔ)識(shí)別所需的特征和分類算法等則沒(méi)有涉及。由于中英文語(yǔ)言差異性,相關(guān)外文的工作無(wú)法直接應(yīng)用于本文的工作中,例如文獻(xiàn)[3]中的“@〈用戶〉”標(biāo)簽特征未出現(xiàn)在本文的特征體系中,因?yàn)樵谥形纳缃黄脚_(tái)中用戶之間的關(guān)系是松散的。表1統(tǒng)計(jì)了我們構(gòu)建的語(yǔ)料庫(kù)中反語(yǔ)集和10 000條非反語(yǔ)微博中含有“@〈用戶〉”標(biāo)簽的微博比例。如表1描述,反語(yǔ)集和非反語(yǔ)集的“@〈用戶〉”標(biāo)簽比例相差微小。
Table 1 Proportion of tags“@〈user〉”表1 “@〈用戶〉”標(biāo)簽比例數(shù)
本節(jié)針對(duì)中文反語(yǔ)的特點(diǎn),在相關(guān)工作的基礎(chǔ)上,考慮微博自身的特點(diǎn),構(gòu)建了用于微博反語(yǔ)識(shí)別的特征體系,主要包括基本詞匯情感、中文特有的諧音詞、連續(xù)的標(biāo)點(diǎn)符號(hào)、微博的長(zhǎng)度、動(dòng)詞被動(dòng)化、雙引號(hào)內(nèi)外情感模糊度等六種特征。
(1)基本詞匯情感。在自然語(yǔ)言處理領(lǐng)域,通常使用n元文法來(lái)表示基本的詞匯特征,是指將相鄰的n個(gè)單詞作為一個(gè)特征。文獻(xiàn)[3]研究發(fā)現(xiàn),在Twitter反語(yǔ)識(shí)別的任務(wù)中二元文法和三元文法不但比一元文法復(fù)雜而且實(shí)驗(yàn)結(jié)果比一元文法差,所以在同為短文本的中文微博的反語(yǔ)識(shí)別任務(wù)中,本文的基本詞匯情感特征只應(yīng)用一元文法。在一元文法的特征表示中,中文首先需要使用分詞工具將整條微博分詞,然后建立詞典構(gòu)建特征。在分詞過(guò)程中,由于微博約束比較少,所以微博中經(jīng)常出現(xiàn)病句、錯(cuò)別字以及網(wǎng)絡(luò)用詞,這些問(wèn)題往往會(huì)導(dǎo)致分詞錯(cuò)誤。由于錯(cuò)誤詞匯出現(xiàn)頻率不高,針對(duì)該問(wèn)題,故將一些低頻詞匯從詞典中過(guò)濾掉。此外,本文主要研究面向中文的反語(yǔ)特征體系,非中文詞匯也不予考慮。
(2)中文特有的諧音詞。諧音詞是中文特有的,意思是和正確詞匯發(fā)音相同或者相似的詞匯,例如“河蟹”是“和諧”的諧音詞。微博的內(nèi)容往往偏向口語(yǔ)化,很多用戶使用諧音詞代替相應(yīng)詞匯表達(dá)反語(yǔ)、諷刺等情感傾向。實(shí)際上,大部分諧音詞作為單獨(dú)的詞匯已包含于基于一元文法的詞典,但是有些特定諧音詞因不是正式詞匯無(wú)法被分詞工具準(zhǔn)確地識(shí)別,所以需要通過(guò)導(dǎo)入用戶自定義常用諧音詞詞典使分詞工具識(shí)別這些詞匯。
(3)連續(xù)的標(biāo)點(diǎn)符號(hào)。Vanin A A 等人[11]和Dmitry D 等人[14]都提及連續(xù)的標(biāo)點(diǎn)符號(hào)在識(shí)別反語(yǔ)任務(wù)中 的 重 要 性,Carvalho D 等 人[15]也 通 過(guò)模式匹配方法統(tǒng)計(jì)連續(xù)標(biāo)點(diǎn)符號(hào)在反語(yǔ)語(yǔ)料中的出現(xiàn)次數(shù)驗(yàn)證了連續(xù)標(biāo)點(diǎn)符號(hào)是識(shí)別反語(yǔ)的重要線索。由于微博的隨意性,用戶經(jīng)常使用連續(xù)的標(biāo)點(diǎn)符號(hào)表達(dá)自己的情感。Vanin A A 和Dmitry D等人在反語(yǔ)識(shí)別任務(wù)中將連續(xù)標(biāo)點(diǎn)符號(hào)的個(gè)數(shù)作為特征值,但是我們?cè)诜治稣Z(yǔ)料時(shí)發(fā)現(xiàn)大多數(shù)連續(xù)的兩個(gè)標(biāo)點(diǎn)符號(hào)反映用戶情感并不明顯,只有三個(gè)及三個(gè)以上的標(biāo)點(diǎn)符號(hào)同時(shí)出現(xiàn)時(shí)才能表達(dá)用戶情感,而且用戶情感并未隨著標(biāo)點(diǎn)符號(hào)個(gè)數(shù)的增加而波動(dòng)。所以,本文只提取三個(gè)及以上的連續(xù)的標(biāo)點(diǎn)符號(hào)作為特征,并且使用布爾值表示該特征。
(4)微博的長(zhǎng)度。張林等人[16]發(fā)現(xiàn)APP短文本評(píng)論的長(zhǎng)度會(huì)影響情感的判別,評(píng)論越長(zhǎng)其中包含的非情感信息越多,而這些非情感信息會(huì)影響情感的判別。因此,我們認(rèn)為同為短文本的微博的長(zhǎng)度也可能會(huì)影響反語(yǔ)的識(shí)別。本文根據(jù)微博長(zhǎng)度將微博分為三個(gè)等級(jí),分別為:短微博、中等長(zhǎng)度的微博和長(zhǎng)微博。
(5)動(dòng)詞被動(dòng)化。在中文中許多動(dòng)詞用法很特殊,這些特殊動(dòng)詞被動(dòng)化之后情感會(huì)發(fā)生巨大的反轉(zhuǎn)。例如“就業(yè)”是個(gè)中性動(dòng)詞,但是如果在“就業(yè)”前加上“被”字,比如“我被就業(yè)了”,那么情感將發(fā)生極大的反轉(zhuǎn)。因?yàn)閯?dòng)詞的這種用法通常不會(huì)出現(xiàn)在正式文獻(xiàn)中,所以通過(guò)統(tǒng)計(jì)動(dòng)詞和該動(dòng)詞被動(dòng)化之后在正式文獻(xiàn)中的頻率可以自動(dòng)識(shí)別這些特別的動(dòng)詞。
識(shí)別這種特殊動(dòng)詞實(shí)驗(yàn)的正式文獻(xiàn)語(yǔ)料是搜狗實(shí)驗(yàn)室收集的48.2 MB 新聞?wù)Z料,主要來(lái)自搜狐新聞網(wǎng)站。圖1是xi1、xi2取不同閾值時(shí)整個(gè)數(shù)據(jù)集特殊動(dòng)詞的統(tǒng)計(jì),其中xi1是動(dòng)詞被動(dòng)化后在正式文獻(xiàn)出現(xiàn)的次數(shù),xi2是動(dòng)詞原形在正式文獻(xiàn)出現(xiàn)的次數(shù)。橫坐標(biāo)是xi1、xi2閾值,例如(5,0)中的5是xi1的值,而(0,100)中的100表示xi2大于或等于100,縱坐標(biāo)是當(dāng)xi1、xi2取具體的閾值時(shí),通過(guò)手動(dòng)統(tǒng)計(jì)數(shù)據(jù)集中特殊動(dòng)詞和非特殊動(dòng)詞的數(shù)目。由圖1可知,當(dāng)動(dòng)詞被動(dòng)化后在正式文獻(xiàn)出現(xiàn)的次數(shù)高于1時(shí),這個(gè)動(dòng)詞是特殊動(dòng)詞的可能性幾乎為0,而xi1為0時(shí),有非常大的可能性是特殊動(dòng)詞。為了不丟失這種特殊動(dòng)詞,xi1、xi2的閾值設(shè)置為(0,0),然后手動(dòng)剔除非特殊動(dòng)詞,最后我們將特殊動(dòng)詞保存在動(dòng)詞被動(dòng)化字典中,在下文實(shí)驗(yàn)中我們通過(guò)布爾值方法表示該特征。
Figure 1 Statistics of passive verbs with different values of xi1,xi2圖1 xi1、xi2 取不同閾值時(shí)整個(gè)數(shù)據(jù)集特殊動(dòng)詞的統(tǒng)計(jì)
(6)雙引號(hào)內(nèi)外情感模糊。Reyes A 等人在文獻(xiàn)[9]中強(qiáng)調(diào)情感模糊是反語(yǔ)效果的重要表現(xiàn),但是他們的工作是以基于英文的Saif M[17]工作為基礎(chǔ)的,而中英文語(yǔ)言差異大,所以無(wú)法直接借鑒他們的工作。然而,在中文中用戶經(jīng)常將情感詞放入引號(hào)中,用褒義詞表達(dá)貶義或者用貶義詞表達(dá)褒義,所以引號(hào)內(nèi)外的情感通常不一致。本文通過(guò)設(shè)計(jì)公式(1)來(lái)計(jì)算引號(hào)內(nèi)外情感模糊。
其中,Xin表示微博X引號(hào)內(nèi)的詞語(yǔ)集合,Xout表示微博X引號(hào)外的詞語(yǔ)集合,P表示褒義情感詞典,N表示貶義情感詞典,|*|表示集合中元素個(gè)數(shù)。例如,某微博雙引號(hào)內(nèi)有積極詞匯而雙引號(hào)外有貶義詞匯或者該微博雙引號(hào)內(nèi)有貶義詞匯而雙引號(hào)外有褒義詞匯,那么引號(hào)內(nèi)外情感模糊Amb(X)為1。
在中文微博平臺(tái)的新浪微博上,用戶可以發(fā)布最多140字的微博。一條微博除了正常的文字以外還可以包括“@〈用戶〉”、“#主題?!薄RLs等。其中在第2節(jié)中已說(shuō)明“@〈用戶〉”在中文微博中無(wú)法作為特征識(shí)別反語(yǔ)。因?yàn)樵谛吕宋⒉┲蟹窒砉δ軙?huì)自動(dòng)包含原網(wǎng)頁(yè)的URLs,所以URLs在本文中也作為噪聲過(guò)濾掉。
和Twitter不同,中文微博平臺(tái)的用戶幾乎不使用注釋(#sarcasm,#sarcastic)表明該微博是反語(yǔ)或者其他情感分類,所以只能通過(guò)手動(dòng)標(biāo)注。為了檢測(cè)整個(gè)特征體系的有效性,我們從新浪微博平臺(tái)獲取的微博中標(biāo)記了300條反語(yǔ)和28 545條非反語(yǔ)。
一元文法特征提取過(guò)程中的分詞工具使用Java 開(kāi) 源 分 詞 工 具ansj(https://github.com/NLPchina/ansj_seg)。微博長(zhǎng)度特征中的短微博的長(zhǎng)度小于10,中等長(zhǎng)度的微博長(zhǎng)度介于10 到20,長(zhǎng)微博的長(zhǎng)度大于20。我們?cè)趯?shí)驗(yàn)中也嘗試了將微博的長(zhǎng)度設(shè)置成其他閾值,但是閾值取10和20時(shí)實(shí)驗(yàn)結(jié)果最好。雙引號(hào)內(nèi)外情感模糊度特征提取過(guò)程中的情感詞典使用臺(tái)灣大學(xué)NTUSD實(shí)驗(yàn) 室 整 理 的 情 感 詞 典(http://ccf.datatang.com)。
我們首先通過(guò)信息增益IG(Information Gain)對(duì)比了中文特有的諧音詞、連續(xù)的標(biāo)點(diǎn)符號(hào)、微博長(zhǎng)度、動(dòng)詞被動(dòng)化和雙引號(hào)內(nèi)外情感模糊度等五種特征對(duì)反語(yǔ)識(shí)別的影響程度。因?yàn)閷?shí)驗(yàn)數(shù)據(jù)不平衡,所以實(shí)驗(yàn)首先從非反語(yǔ)集中隨機(jī)抽取300條數(shù)據(jù)和反語(yǔ)集組成實(shí)驗(yàn)數(shù)據(jù)集,此過(guò)程重復(fù)進(jìn)行20次,然后比較各特征對(duì)在不同數(shù)據(jù)集上的信息增益以及各特征在不同數(shù)據(jù)集上的穩(wěn)定性,實(shí)驗(yàn)結(jié)果如圖2所示。
Figure 2 Information gain of each feature based on 20different data sets圖2 20組數(shù)據(jù)各特征的信息增益的箱線圖
圖2中,中文特有的諧音詞特征的信息增益最高,基本達(dá)到0.05左右,動(dòng)詞被動(dòng)化特征的信息增益最平穩(wěn),穩(wěn)定在0.04左右,連續(xù)的標(biāo)點(diǎn)符號(hào)特征的信息增益基本也達(dá)到了0.03左右。雙引號(hào)內(nèi)外情感模糊度的信息增益很低,只有0.02左右,可能由于特征提取的方法過(guò)于簡(jiǎn)單,或者情感詞典的不完整等原因?qū)е略撎卣餍畔⒃鲆嫫汀T谖覀內(nèi)斯?biāo)記反語(yǔ)語(yǔ)料時(shí)該特征是一個(gè)重要的依據(jù),所以盡管信息增益較低,我們?nèi)匀粚⒃撎卣骷{入我們的識(shí)別特征體系。微博長(zhǎng)度的信息增益很不穩(wěn)定,最高可達(dá)到0.14,最低幾乎為0。
由于微博長(zhǎng)度的信息增益不穩(wěn)定而微博長(zhǎng)度確實(shí)會(huì)影響反語(yǔ)的識(shí)別,所以本文通過(guò)區(qū)分反語(yǔ)和不同長(zhǎng)度的非反語(yǔ)微博驗(yàn)證微博長(zhǎng)度對(duì)反語(yǔ)識(shí)別的影響。本文從非反語(yǔ)中隨機(jī)抽取300條特定長(zhǎng)度的微博和反語(yǔ)集組成數(shù)據(jù)集,然后使用決策樹(shù)分類器和5倍交叉驗(yàn)證測(cè)試數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如圖3所示。
Figure 3 Precision comparison based on different lengths of microblogs圖3 區(qū)分反語(yǔ)和不同長(zhǎng)度非反語(yǔ)的準(zhǔn)確率的箱線圖
圖3中,區(qū)分反語(yǔ)和短微博的非反語(yǔ)集任務(wù)的準(zhǔn)確率基本穩(wěn)定于0.8左右,而區(qū)分反語(yǔ)和中等長(zhǎng)度的非反語(yǔ)集任務(wù)的準(zhǔn)確率徘徊于0.75左右,最后區(qū)分反語(yǔ)和長(zhǎng)微博的非反語(yǔ)集任務(wù)的準(zhǔn)確率卻大都低于0.7。由此可見(jiàn),識(shí)別反語(yǔ)的難度確實(shí)和微博的長(zhǎng)度有關(guān)聯(lián),實(shí)驗(yàn)結(jié)果和張林等人的結(jié)論基本一致。
最后本節(jié)將通過(guò)反語(yǔ)識(shí)別任務(wù)檢測(cè)整個(gè)特征體系和僅有一元文法特征的有效性,實(shí)驗(yàn)使用五種經(jīng)典的分類器:支持向量機(jī)(SVM)、決策樹(shù)(C4.5)、樸素貝葉斯(NB)、邏輯斯蒂回歸(LR)和隨機(jī)森林(RF)。該實(shí)驗(yàn)數(shù)據(jù)集包括300條反語(yǔ)集和從非反語(yǔ)集中任意抽取300條數(shù)據(jù)。分類器使用5倍交叉驗(yàn)證進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果如表2和表3所示。
Table 2 Comparison of precision,recall rate and F-measure of the five classifiers when all proposed features are under consideration表2 在整個(gè)特征體系下五種分類器實(shí)驗(yàn)結(jié)果對(duì)比
Table 3 Comparison of precision,recall rate and F-measure of the five classifiers when Bag-of-Words only is under consideration表3 只在一元文法特征下五種分類器的實(shí)驗(yàn)結(jié)果對(duì)比
由表2可知,決策樹(shù)分類器在準(zhǔn)確率、召回率和F值都要高于支持向量機(jī)、樸素貝葉斯以及隨機(jī)森林,而邏輯斯蒂回歸分類器在準(zhǔn)確率和F值都比決策樹(shù)分類器高。對(duì)比表2和表3可知,對(duì)特征維數(shù)不敏感的SVM 在添加少數(shù)新特征的情況下,分類器的性能提高最多,而樸素貝葉斯的性能提高最低。
由于反語(yǔ)集小而非反語(yǔ)集比較大,所以本文從非反語(yǔ)集中隨機(jī)抽取300條數(shù)據(jù)和反語(yǔ)集組成實(shí)驗(yàn)數(shù)據(jù)集,此過(guò)程重復(fù)進(jìn)行20次得到20組實(shí)驗(yàn)數(shù)據(jù)集,測(cè)試五種分類器在該任務(wù)中的穩(wěn)定性。圖4、圖5和圖6 統(tǒng)計(jì)了20 組實(shí)驗(yàn)五種分類器準(zhǔn)確率、召回率和F值的四分位數(shù)。支持向量機(jī)分類器雖有很好的準(zhǔn)確率,但是召回率和F值極不穩(wěn)定。決策樹(shù)和邏輯斯蒂回歸分類器的準(zhǔn)確率、召回率和F值都要比樸素貝葉斯和隨機(jī)森林分類器高。決策樹(shù)分類器的召回率和F值比邏輯斯蒂回歸高,但是決策樹(shù)的準(zhǔn)確率不及邏輯斯蒂回歸分類器的。
Figure 4 Precision comparison of the five classifiers based on 20data sets圖4 20組實(shí)驗(yàn)各分類器準(zhǔn)確率的箱線圖
Figure 5 Recall rate comparison of the five classifiers based on 20data sets圖5 20組實(shí)驗(yàn)各分類器召回率的箱線圖
Figure 6 F-measure comparison of the five classifiers based on 20data sets圖6 20組實(shí)驗(yàn)各分類器F 值的箱線圖
本文主要研究中文微博中反語(yǔ)識(shí)別的可計(jì)算化問(wèn)題。在考慮中文語(yǔ)言特性和微博語(yǔ)言表達(dá)特性的基礎(chǔ)上,構(gòu)建了基于一元文法的詞匯特征、中文特有的諧音詞、連續(xù)標(biāo)點(diǎn)符號(hào)、微博長(zhǎng)度、動(dòng)詞被動(dòng)化和雙引號(hào)內(nèi)外情感模糊等六種特征,并實(shí)驗(yàn)驗(yàn)證了該特征體系在識(shí)別反語(yǔ)中的有效性和穩(wěn)定性。
在未來(lái)的工作里,基于上述實(shí)驗(yàn)中表現(xiàn)出的不足,我們將改進(jìn)部分特征的提取方法和條件,我們還需從更深層次挖掘識(shí)別反語(yǔ)的特征。研究針對(duì)不同特征空間表示的分類算法和構(gòu)建更豐富的反語(yǔ)語(yǔ)料庫(kù)也是我們下一步重點(diǎn)研究的工作。
[1] Tang Y J,Chen H.Chinese irony corpus construction and ironic structure analysis[C]∥Proc of the 25th International Conference on Computational Linguistics:Technical Papers,2014:1269-1278.
[2] Liu Zheng-guang.A critique of irony theories[J].Journal of PLA University of Foreign Language,2002,22(4):16-18.(in Chinese)
[3] Gibbs R W,Colston H L.Irony in language and thought:A cognitive science reader[M].New York:Lawrence Erlbaum Associates,2007.
[4] Utsumi A.A unified theory of irony and its computational formalization[C]∥International Conference on Computational Linguistics,1996:962-967.
[5] Xiang Li.Irony illustrated:A cross-cultural exploration of situational irony in China and the United States[M].New York:Sino-Platonic Papers,2008.
[6] González-Ibá?ez R,Muresan S,Wacholder N.Identifying sarcasm in Twitter:A closer look[C]∥Proc of the 49th Annual Meeting of the Association for Computational Linguistics,2011:581-586.
[7] Reyes A,Rosso P,Buscaldi D.From humor recognition to irony detection:The figurative language of social media[J].Data &Knowledge Engineering,2012,74(3):1-12.
[8] Reyes A,Rosso P,Veale T.A multidimensional approach for detecting irony in Twitter[J].Language Resources &Evaluation,2013,47(1):239-268.
[9] Reyes A,Rosso P.Making objective decisions from subjective data:Detecting irony in customer reviews[J].Decision Support Systems,2012,53(4):754-760.
[10] Burfoot C,Baldwin T,Burfoot C.Automatic satire detection:Are you having a laugh?[C]∥Proc of the Joint Conference of the 47th Annual Meeting of the ACL,2009:161-164.
[11] Vanin A A,F(xiàn)reitas L A,Vieira R,et al.Some clues on irony detection in tweets[C]∥WWW 2013 Companion,ACM 978-1-4503-2038-2,2013:635-636.
[12] Francesco B,F(xiàn)rancesco R,Horacio S.Italian irony detection in Twitter:A first approach[C]∥Proc of the 1st Conference on Computational Linguistics,2014:28-32.
[13] Tsur O,Davidov D.Icwsm-agreat catchy name:Semi-supervised recognition of sarcastic sentences in product reviews[C]∥Proc of the International AAAI Conference on Weblogs &Social,2010:162-169.
[14] Davidov D,Tsur O.Semi-supervised recognition of sarcastic sentences in Twitter and Amazon[C]∥Proc of the 14th Conference on Computational Natural Language Learning,2010:107-116.
[15] Carvalho P,Sarmento L.Clues for detecting irony in usergenerated contents:oh...??!it’s"so easy";-)[C]∥Proc of the 1st International CIKM Workshop on Topic-Sentiment Analysis for Mass Opinion Measurement(TSA’09),2009:53-56.
[16] Zhang Lin,Qian Guan-qun,F(xiàn)an Wei-guo,et al.Sentiment analysis based on light reviews[J].Journal of Software,2014,25(12):2790-2807.(in Chinese)
[17] Saif M,Dunne C,Bonnie D.Generating high-coverage semantic orientation lexicons from overtly marked words and a thesaurus[C]∥Proc of the 2009Conference on EMNLP,2009:599-608.
附中文參考文獻(xiàn):
[2] 劉正光.反語(yǔ)理論綜述[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2002,22(4):16-18.
[16] 張林,錢(qián)冠群,樊衛(wèi)國(guó),等.輕型評(píng)論的情感分析研究[J].軟件學(xué)報(bào),2014,25(12):2790-2807.