樊小超,楊 亮,林鴻飛,刁宇峰,3,申 晨,楚永賀,張桐瑄
(1. 新疆師范大學 計算機科學技術(shù)學院,新疆 烏魯木齊 830054;2. 大連理工大學 計算機科學與技術(shù)學院,遼寧 大連 116024;3. 內(nèi)蒙古民族大學 計算機科學與技術(shù)學院,內(nèi)蒙古 通遼 028043)
幽默一詞來源于英文單詞humor,最早由林語堂先生引入我國,從此西方的一些幽默理論也逐漸在我國傳播開來。隨著人工智能的快速發(fā)展,如何利用計算機識別幽默、理解幽默、生成幽默成為了自然語言處理領(lǐng)域備受關(guān)注的研究內(nèi)容之一,并逐漸形成了一個新興的研究領(lǐng)域——幽默計算。幽默計算通常以幽默理論為依托,揭示了人類使用幽默的機制,并構(gòu)建涵蓋幽默機制的認知語言模型,為實現(xiàn)更為智能的人機交互環(huán)境奠定了研究基礎(chǔ)。從應用層面來說,如果能讓計算機理解人類語言中的幽默表達,那么計算機就將被賦予理解更深層次人類語言的能力,從而使其能夠做出更人性化的決策??傊诹奶鞕C器人、兒童教育、機器翻譯等多種人工智能應用場景中,幽默計算都有著廣泛的應用前景。
幽默識別是幽默計算的重要組成部分。目前,幽默識別任務通常被認為是一個文本二分類任務,目標是判別一個句子是否包含幽默的語義表達。由于使用統(tǒng)一的模型來深入理解不同類型的幽默超出了現(xiàn)有計算機的計算能力,因此本文將研究對象聚焦于俏皮話(one-liner)形式的幽默。俏皮話是一種短句形式的幽默,它通過少量的單詞引起讀者的興趣,使用特殊語義結(jié)構(gòu)、句法結(jié)構(gòu)或修辭手段引發(fā)笑點。與長篇幽默相比,俏皮話沒有復雜的語義結(jié)構(gòu)和較長的語境,它經(jīng)常使用押韻、雙關(guān)、前后語義矛盾等方式達到預期的幽默效果。以上這些特點使得俏皮話形式的幽默更加適合計算機來進行建模處理。本文利用自然語言處理技術(shù)來挖掘隱藏在俏皮話形式幽默背后的潛在語義內(nèi)涵,構(gòu)建面向幽默表達的計算模型,從而讓計算機深入地理解并識別幽默。
對于俏皮話形式的幽默,英文語料的相關(guān)研究較多。前人的研究大多是基于幽默的相關(guān)理論,總結(jié)蘊含在幽默中的特征,這些研究成果為我們提供了重要的研究基礎(chǔ)。其中比較有代表性的工作有: Mihalcea等[1-2]主要研究了頭韻、尾韻和成人俚語三類特征對幽默識別的影響;Yang等[3]根據(jù)幽默的語言學特性,設(shè)計并實現(xiàn)了幽默的四類語義特征。僅從幽默的語音或語義角度構(gòu)建幽默特征無法從多個維度對幽默的潛在語義進行表示,從而限制了幽默識別的性能。此外,以往的研究多局限于單一的分類器,缺乏對不同分類器的系統(tǒng)分析與對比,這也為后續(xù)的研究提出了進一步的要求。
本文在前人工作的基礎(chǔ)上,根據(jù)幽默的相關(guān)理論,系統(tǒng)地對幽默的潛在語義特征進行了分類,并為每一類幽默特征設(shè)計了相應的特征集合,最后采用多種機器學習方法,在兩個俏皮話幽默數(shù)據(jù)集上對比了不同類別特征的性能。本文的貢獻主要有以下三點: 首先,根據(jù)幽默的不一致性理論和語言學特性,系統(tǒng)地分析了幽默的特點,從語音、語義和句法結(jié)構(gòu)三個維度將幽默的特征歸納為五個類別,包括不一致特性、模糊特性、語音特性、情感特性和句法結(jié)構(gòu)特性;其次,對于幽默的每一類特性,設(shè)計并實現(xiàn)了幽默的特征集合,并采用多種機器學習方法進行了對比實驗;最后,在公開的俏皮話幽默數(shù)據(jù)集pun-of-the-day和oneliners-16000上,本文提出的幽默特征均取得了良好的性能。
在國內(nèi),盡管“幽默”一詞出現(xiàn)較晚,但其作為一個致笑的喜劇范疇卻已有相當長的歷史,只不過未被冠以“幽默”的稱謂[4]。隨著國外語用研究和認知語用學的快速發(fā)展,國內(nèi)的幽默研究也涌現(xiàn)出了許多研究成果[5-7]。但就總體而言,我國的幽默理論研究還比較薄弱,無論是研究的廣度和深度都與西方的幽默研究差距較大[8]。在國外,幽默理論研究是一個古老的課題,至今已有兩千多年的歷史。西方主要的幽默理論可以歸為三大理論范疇,包括從社會行為角度出發(fā)的優(yōu)越論,從心理和精神分析角度出發(fā)的釋放論,以及從認知心理學出發(fā)的乖訛論。其中,乖訛論對西方的現(xiàn)代幽默理論研究影響深遠。Raskin在乖訛論的基礎(chǔ)上提出了語義腳本理論(SSTH)[9],并進一步發(fā)展出了言語幽默的普遍理論(GTVH)[10]和幽默的本體語義理論(OSTH)[11]。
幽默理論為幽默計算提供了具有重要指導意義的語義規(guī)則和語用規(guī)則,為構(gòu)造特征進行幽默識別奠定了理論基礎(chǔ)。
傳統(tǒng)的機器學習方法仍然是幽默識別領(lǐng)域應用最廣泛的方法。Zhang等[12]構(gòu)建了大規(guī)模笑話語料庫。林鴻飛等[13]構(gòu)建了大規(guī)模的笑話語料庫,并利用n-gram語言模型對幽默進行識別。Mihalcea等[14]證明了機器學習方法能夠較好地處理幽默計算問題,他們定義了三種類型的幽默特征,包括頭韻、反義詞和成人俚語。Zhang等[15]基于推特語料,設(shè)計了5大類別多達50多種幽默特征。Yang等[3]對幽默的潛在語義特征進行了系統(tǒng)的解釋并提取了四種類型的幽默特征。Barbieri等[16]基于幽默的模糊性和語音特性提出了一系列幽默特征。Purandare等[17]由喜劇電視節(jié)目中的對話構(gòu)造了幽默數(shù)據(jù)集,并采用多模態(tài)的分析方法,結(jié)合聲音特征與語義特征進行幽默識別。Taylor等[18]提出了提取笑話結(jié)構(gòu)模式的方法,該方法成功應用于雙關(guān)語幽默的檢測中。在最近的研究工作中,Liu等[19]建立了語篇單元感知關(guān)聯(lián)模型來檢測幽默。他們的另一項研究中[20],通過實驗證明了句法結(jié)構(gòu)特征與幽默的高度相關(guān)性。深度學習方法能夠自動提取潛在語義特征,在幽默識別領(lǐng)域取得了一些研究成果[21-24]。但是,深度學習方法缺乏幽默理論的驅(qū)動,往往可解釋性較差。因此,Zhao等[25]提出了詞匯中心度的特征,并結(jié)合了張量的嵌入式表示。Bueno等[26]構(gòu)造了幽默的語言學特征,并結(jié)合深度學習方法進行幽默識別。
傳統(tǒng)機器學習方法通?;谟哪碚摵陀哪恼Z言學特性,因此人工構(gòu)造的特征能夠提取與幽默高度相關(guān)的本質(zhì)特征。許多實驗結(jié)果表明,傳統(tǒng)機器學習方法性能令人滿意。但是前人的工作大多基于單一維度的幽默特征,缺乏從語義、語音和句法結(jié)構(gòu)等多個維度對幽默文本進行建模,且缺少對不同分類器性能的對比分析,而深度學習方法缺乏幽默理論的驅(qū)動,沒有考慮幽默的本質(zhì)語言特性,且大多實驗結(jié)果難以給出讓人信服的解釋。
根據(jù)幽默理論和幽默的語言學特性,本文根據(jù)幽默的語義、語音和句法結(jié)構(gòu)特點將幽默的本質(zhì)特征歸納總結(jié)為以下5個類別,包括不一致特性、模糊特性、語音特性、情感特性和句法結(jié)構(gòu)特性。對于每一種特性,本文設(shè)計并實現(xiàn)了一組特征,然后將這些特征結(jié)合起來對幽默進行識別。
幽默語義腳本理論[9]指出,不一致性是幽默產(chǎn)生的重要原因之一。語言學家Lefcourt[27]指出“幽默源自于對兩種或兩種以上的情況表現(xiàn)出來的不一致、不協(xié)調(diào),或者發(fā)生強烈對比,這種表現(xiàn)往往在復雜的上下文中難以得到合理的解釋,或者由于特定的組合方式產(chǎn)生了相互矛盾。”同樣,Paulos[28]也有類似的看法,他認為“幽默的本質(zhì)是不一致性,是兩種思想的分離。”例如:
例1A clean desk is a sign of a cluttered desk drawer.
例1中,“clean”和“cluttered”是一對反義詞,在二者共同作用下,句子的前后兩個部分語義產(chǎn)生了強烈的對比,從而造成了幽默的效果。通過對上例的分析,我們發(fā)現(xiàn)不一致性往往通過單詞之間的語義沖突體現(xiàn)出來。
傳統(tǒng)的獨熱形式編碼會造成高維稀疏的特征空間,且特征向量之間是正交的,這種單詞表示方法很難對句子的不一致特性進行衡量。因此本文采用了WordNet(1)https://wordnet.princeton.edu/和Word2Vec[29]兩種方式間接地提取句子中不一致特性。WordNet能夠基于上位詞層次結(jié)構(gòu)中相互連接的概念之間的最短路徑計算單詞之間的語義距離。因此,本文采用了WordNet的語義距離表示單詞語義之間的差異程度。此外,Word2Vec能夠把自然語言中的離散單詞轉(zhuǎn)換成計算機能夠理解的低維稠密向量,因此本文采用Word2Vec衡量單詞間的語義相似度作為不一致特性的衡量方法。余弦相似度被用來衡量單詞之間的語義關(guān)聯(lián)程度。設(shè)wi、wj為句子中的兩個單詞,xi、xj為單詞的詞向量表示,sen(w1),sen(w2)為WordNet中單詞所屬概念集合,則幽默的不一致特性的特征如下:
(1)最大語義距離: 句子中任意兩個單詞之間的最大語義距離SimImax(wi,wj)的計算如式(1)所示。
(1)
(2)最小語義距離: 句子中任意兩個單詞之間的最小語義距離SimImin(wi,wj)的計算如式(2)所示。
(2)
(3)最大語義相似度: 句子中任意兩個單詞之間的最大語義相似度,計算如式(3)所示。
(3)
(4)最小語義相似度: 句子中任意兩個單詞之間的最小語義相似度,如式(4)所示。
(4)
(5)反義詞對: 是否存在反義詞對。
幽默的關(guān)聯(lián)理論[30]主要從自然語言中的一個普遍現(xiàn)象——模糊性來探索和分析幽默。模糊特性是指句子中的某些單詞存在多個語義,使得句子的理解產(chǎn)生了歧義性[31]。Miller等[32]指出,模糊性是幽默的關(guān)鍵因素,是幽默中常見的語言現(xiàn)象。當表層句子結(jié)構(gòu)中的單詞以多種方式組合在一起時,產(chǎn)生多個相關(guān)句子的深層結(jié)構(gòu),從而產(chǎn)生了模糊特性。例如:
例2It is so hot that all the fans left after the baseball game.
例2中,單詞“fans”在該句中可以做多種解釋,讀者可以將它理解為“球迷”或者“風扇”,這使得句子產(chǎn)生了兩種截然不同的語義,進而造成了幽默效果。句子的模糊特性,通常是由于單詞存在多種語義理解,且這些語義之間存在較大的差異。
WrodNet可以計算單詞包含的語義數(shù)量和語義距離,因此本文采用WordNet來衡量句子的模糊特性。句子中的停用詞通常對句子的表達影響較小,因此首先去除了句子中的停用詞,將剩下的單詞作為句子的候選單詞集。然后利用WordNet的單詞網(wǎng)絡計算候選單詞集中每個單詞的同義詞集合Synset。Synset可以反映一個單詞包含語義的數(shù)量。在此基礎(chǔ)上,本文使用了語義聯(lián)合度衡量句子中單詞包含的語義數(shù)量。除此之外,對于同一個單詞,不同語義間的語義距離越大,可能造成的句子的歧義性就越大,更可能產(chǎn)生笑點。設(shè)w′n、w′m為單詞wi的任意兩個同義詞,則模糊特性的特征為:
(1)語義聯(lián)合度: 對于候選單詞{w1,w2,…,wk},用WordNet統(tǒng)計wi的語義數(shù)量nwi,語義聯(lián)合度計算如式(5)所示。
(5)
(2)詞義最大距離: 對于同一單詞的不同語義計算語義距離并取最大值,然后求和,計算如式(6)所示。
(6)
(3)詞義最小距離: 對于同一單詞的不同語義計算語義距離并取最小值,然后求和,計算如式(7)所示。
(7)
幽默的優(yōu)越理論關(guān)注了對于受眾的人際影響。幽默在本質(zhì)上與情感[33]和主體性[34]高度相關(guān)。一些帶有強烈感情色彩的詞會增加受眾對于作者表述的認同感,能更充分地調(diào)動讀者的情緒,從而達到幽默的效果。例如:
例3If I think I have seen an idiot before is that a case of deja fool.
例3中,單詞“idiot”和“fool” 反映了作者的情緒,且都帶有強烈的負向情感。該句包含影射、調(diào)侃和諷刺之意,顯得風趣幽默。因此,單詞的情感傾向、句子的情感值均可能對幽默識別產(chǎn)生影響。
本文使用SenticNet(2)https://sentic.net/來衡量句子中單詞的情感極性和情感強度。SenticNet是包含了一系列將常識推理、心理學、語言學和機器學習相結(jié)合的情感分析工具和技術(shù),能夠從多個維度計算單詞的情感極性(polarity)和情感學特性(sentics)。設(shè)句子為S={w1,w2,…,wN},N為句子長度,則幽默的情感特性的特征為:
(1)正負向情感單詞數(shù)量: 句子中包含正負向情感單詞的個數(shù)。
(2)情感值: 句子中所有單詞的正負情感得分,可表示為式(8):
(8)
(3)情感平均值: 句子的情感得分除以句子長度,計算如式(9)所示。
(9)
(4)情感絕對值: 句子中所有單詞情感得分取絕對值后求和,計算如式(10)所示。
(10)
(5)情感絕對值的平均值: 句子中所有單詞情感得分取絕對值后求和并除以句子長度,計算如式(11)所示。
(11)
(6)情感學總分: 句子中所有單詞的正負情感學得分,計算如式(12)所示。
(12)
(7)情感學平均值: 句子的情感學得分除以句子長度,計算如式(13)所示。
(13)
(8)情感學絕對值: 句子中所有單詞情感學得分取絕對值后求和,計算如式(14)所示。
(14)
(9)情感學絕對值的平均值: 句子中所有單詞情感學得分取絕對值后求和并除以句子長度,計算如式(15)所示。
(15)
幽默的普遍理論[10]指出,幽默可以由不協(xié)調(diào)的語音或單詞發(fā)音引起。Mihalcea等[12]指出幽默句子的語音特性幾乎和它們的語義特性處于同等重要的位置。許多研究表明,俏皮話形式的幽默常常會使用修辭手段造成幽默效果,比如押頭韻、押尾韻或單詞重復等。此外,即使句子的內(nèi)容缺乏喜劇效果,句子的一些語音特性也能獨立地引發(fā)笑點,即語音特性能夠獨立于語義產(chǎn)生幽默。例如:
例4You can tune a piano, but you can’t tuna fish.
例4中,雖然句子的內(nèi)容缺乏笑點,但是單詞“tune”和“tuna”相似的發(fā)音在很大程度上增強了句子的幽默效果,成為了幽默句子中畫龍點睛之筆。通過該例子進一步發(fā)現(xiàn),單詞的發(fā)音和拼寫并不是完全一致,需要把單詞轉(zhuǎn)換成語音才能更好地分析幽默的語音特性。
為了得到單詞的語音表示,本文使用了卡內(nèi)基梅隆大學的發(fā)音詞典(CMU)。CMU(3)http://www.speech.cs.cmu.edu/cgi-bin/cmudict發(fā)音詞典包含134 000多個單詞及其發(fā)音。CMU包含39個音素,比沒有詞匯重音的版本更加準確。每個單詞被轉(zhuǎn)換成對應的音素,例如單詞“word”的發(fā)音是[W,ER, D]。對于幽默的語音特性,設(shè)計特征如下:
? 押頭韻: 句子中押頭韻單詞的個數(shù)。
? 頭韻鏈長度: 句子中頭韻鏈的最大長度。
? 押尾韻: 句子中押尾韻單詞的個數(shù)。
? 尾韻鏈長度: 句子中尾韻鏈的最大長度。
? 重復性: 去除停用詞后,句子中是否出現(xiàn)重復的單詞或符號。
盡管人們研究了許多幽默的語言學特性,但往往忽略了幽默也是一種文體,幽默的句法結(jié)構(gòu)對幽默的產(chǎn)生同樣重要[18]。Liu等[19]指出句法結(jié)構(gòu)特征能夠有效地提高幽默識別的性能。
如圖1所示,本文利用Stanford Parser(4)https://nlp.stanford.edu/software/lex-parser.shtml來分析句子的句法結(jié)構(gòu),從句子的結(jié)構(gòu)特性來揭示幽默的固有特征。本文分別從單詞和短語兩個粒度構(gòu)造了幽默特征:
圖1 句法分析樹
(1)句子長度: 句子包含單詞的數(shù)量。
(2)詞性占比: 名詞、動詞、形容詞、副詞的個數(shù)除以句子長度。
(3)詞性鏈占比: 兩個以上的詞性組成了詞性鏈,例如S-NN, 計算詞性鏈數(shù)量并除以所有詞性鏈的數(shù)量。
(4)詞性鏈的最大長度: 最長詞性鏈的長度。
(5)句子復雜度: 名詞短語數(shù)量,動詞短語數(shù)量,介詞短語數(shù)量,從屬連詞數(shù)量。
(6)短語長度占比: 計算名詞短語、動詞短語、介詞短語的平均長度除以句子長度。
(7)平均短語長度: 每個短語的單詞數(shù)除以對應短語類型的數(shù)量。在這里,本文只考慮了沒有嵌套關(guān)系的情況。
(8)歸一化短語長度: 名詞短語、動詞短語、介詞短語的平均長度除以句子長度。
(9)短語占比: 名詞短語、動詞短語、介詞短語的數(shù)量除以句子長度。
本節(jié)首先介紹了實驗數(shù)據(jù)和基線方法,然后分析了不同類型特征對幽默識別性能的影響,最后對不同分類器的性能進行了對比。
Pun-of-the-day (Puns): 該數(shù)據(jù)集由Yang等[3]構(gòu)建,其中幽默文本來自同名網(wǎng)站,非幽默文本來自美聯(lián)社新聞、紐約時報、雅虎新聞和諺語。數(shù)據(jù)集為平衡數(shù)據(jù)集,正樣本和負樣本的數(shù)量均為2 403,句子的平均長度為13.5。
Oneliner-16 000 (Oliners): 該數(shù)據(jù)集由Mihalcea[14]構(gòu)建(在Liu等[19-20]的研究中稱該數(shù)據(jù)為mixed)。數(shù)據(jù)集中的正例樣本來自多個著名的幽默網(wǎng)站,負例樣本為路透社新聞的標題。該數(shù)據(jù)集同樣是一個平衡數(shù)據(jù)集,正負樣例均為16 000條,句子的平均長度是12.6。
評價指標: 為了與基線方法進行比較,本文在實驗中采用了被廣泛接受并應用于文本分類任務中的評價指標,包括精確率(Acc)、準確率(P)、查全率(R)和F-measure(F1)。本文采用10折交叉驗證的方法對模型的性能進行評估。
?詞袋模型[3]: 將詞頻作為特征,采用隨機森林分類器。
?SaC[3]: 提取了幽默文本的頭韻、反義詞和成人俚語特征,采用隨機森林分類器。
?HCF[3]: 提取了幽默的不一致性、歧義性、語音和人際交互特征,采用隨機森林分類器。
?W2V+HCF[3]: HCF的4類特征中加入了詞向量特征,采用隨機森林分類器。
?SA[19]: 在HCF特征的基礎(chǔ)上,提出了對話關(guān)系特征、情感沖突特征和情感轉(zhuǎn)移特征,同時采用了詞向量特征,采用隨機森林分類器。
?Syn[20]: 在HCF特征的基礎(chǔ)上,提出了句法結(jié)構(gòu)特征,同時采用了詞向量特征,使用了隨機森林分類器。
?TELC[25]: 采用張量的嵌入式表示對語句的上下文信息進行編碼,并采用k-近鄰方法識別幽默。
?IASPS: 本文提出的不一致特性、模糊特性、情感特性、語音特性和句法結(jié)構(gòu)特性5類幽默特征。
為了便于與前人的工作比較,本文首先采用了隨機森林作為分類器,比較不同特征集合的性能,結(jié)果如表1所示。
表1 Puns和Oliners幽默識別結(jié)果
從表1可以看出:
(1) 詞袋模型和TELC的性能較低。詞袋模型只考慮了詞頻,而幽默語句的用詞和普通語句的用詞十分相似,TELC只考慮了用詞之間的相互關(guān)系對上下文建模,二者均無法有效地表征幽默的本質(zhì)特征。
(2) Sac和HCF方法的性能有所提升,它們能夠更好地表征幽默語句的特征。但是二者在兩個數(shù)據(jù)集上的表現(xiàn)存在差異,Sac在Puns上取得了更好的性能,而HCF在Oliners上取得了較好的性能,說明它們提取的幽默特征有限,泛化能力較差。
(3) 詞向量能夠表達單詞的深層次的語義特征,因此在實驗中的性能較好,且在兩個數(shù)據(jù)集上性能保持穩(wěn)定,與HCF結(jié)合后仍然能夠得到較好的性能。
(4) SA和Syn方法加入了情感相關(guān)特征或句法結(jié)構(gòu)相關(guān)特征,二者的F1值在Oliners上均有所提升,Syn在Oliners上的精確率較高。這表明情感特征和句法結(jié)構(gòu)特征能夠為幽默識別提供有力的支持。
(5) 本文提出的特征集合IASPS與其他基線方法相比在多個指標上取得了較好的性能,與加入了詞向量特征后的SA和Syn的性能在Oliners上可比。這表明本文構(gòu)造的特征集合能夠從多個維度對幽默的潛在特征進行較好的表征,從而使得分類器取得較好的性能。
(6) 在加入了GloVe詞向量特征之后,本文提出IASPS在兩個數(shù)據(jù)集上的幾乎所有指標均取得了最佳的性能。這表明本文提出的5類人工特征和潛在語義特征的結(jié)合能夠有效地對幽默特征進行表征,從而更好地識別幽默文本。我們對比了100維,200維和300維的GloVe詞向量,其中100維的詞向量性能較好,所有評價指標在兩個數(shù)據(jù)集上均有不同程度的提升,這表明詞向量能夠從深層次表征文本的語義內(nèi)容,能夠從語義角度為人工特征提供有益的補充。
為了對比不同分類器的性能,本文分別訓練了邏輯回歸(LR)、樸素貝葉斯(NB)、支持向量機(SVM)、梯度提升樹(GBDT)等分類器,以上分類器均采用了本文提出的5類幽默特征。以上模型均采用默認的參數(shù)。實驗結(jié)果如表2、表3所示。
表2 不同分類器在Puns數(shù)據(jù)集的性能對比
表3 不同分類器在Oliners數(shù)據(jù)集的性能對比
表2和表3對比了不同模型在兩個數(shù)據(jù)集上的幽默識別的性能。對于Puns數(shù)據(jù),SVM取得最佳的性能,相比于其他模型,所有評價指標均有顯著提升,表明本文設(shè)計的人工特征在小規(guī)模數(shù)據(jù)集中能夠更好地從不同維度表征幽默文本的語義表達。對于大規(guī)模數(shù)據(jù)集Oliners,SVM也取得了最佳的性能,但性能提升相對較小,說明幽默的潛在語義特征復雜多樣,模型的泛化能力有限。實驗結(jié)果表明本文設(shè)計并實現(xiàn)的多種幽默特征能夠有效捕獲潛在的幽默語義表達,SVM相對于其他分類算法具有更好的幽默識別性能。
為了研究不同的語義特征對幽默識別的影響,本文分別將不一致特性、模糊特性、情感特性、語音特性和句法結(jié)構(gòu)特性5類特征作為幽默的潛在語義表示,使用SVM作為分類器,得到了不同類型特征對幽默識別的貢獻程度。
實驗結(jié)果如圖2所示。對于Puns數(shù)據(jù)集,情感類特征對幽默識別的性能影響最為顯著。這主要是因為幽默的文本通常帶有正向的情感,而非幽默的語句包含的情感詞匯較少或帶有負面情感,因此情感特征對幽默識別具有顯著的影響。對于Oliners數(shù)據(jù)集,不一致性特征影響最為明顯。這表明在幽默的表達中,不一致性普遍存在于幽默的表達中,且能夠較好地表達出文本的幽默效果,是幽默產(chǎn)生的重要原因。模糊性特征在兩個數(shù)據(jù)集上均表現(xiàn)出一定的識別性能,但是人工構(gòu)造的模糊性特征表征能力有限,對幽默識別性能影響相對較小。語音類特征對幽默識別的影響較小,說明諧音、重復造成的幽默形式在這兩個數(shù)據(jù)集中的比重較小,但是也不能忽視語音特征對幽默的影響。句法結(jié)構(gòu)特征在兩個數(shù)據(jù)集上性能相當,對幽默識別性能的影響較小。
圖2 特征重要性對比
本文的研究工作旨在提取幽默文本中的特征進而對幽默文本進行自動識別。基于幽默理論和幽默的語言學特性,本文從語義、語音和句法結(jié)構(gòu)等多個維度對幽默文本的潛在語義表達進行建模,構(gòu)造了5類特征,包括不一致特性、模糊特性、情感特性、語音特性和句法結(jié)構(gòu)特性。對于每一類特征,分別設(shè)計并實現(xiàn)了一系列的特征,從而從多個維度的不同側(cè)面對幽默潛在語義表達進行了表征。在兩個公開的幽默數(shù)據(jù)集上的實驗結(jié)果表明,本文構(gòu)造的5類特征能夠更好地對幽默表達進行表示,其中情感類特征對幽默識別的影響最為顯著。其次,詞向量能夠從更高維度表達詞匯信息,對幽默識別有一定的幫助。最后,本文對不同分類器的性能進行了對比,SVM模型在幽默識別領(lǐng)域具有較好的性能。
在未來的工作中,我們將嘗試構(gòu)建更加有效的幽默特征來提升幽默識別的性能。同時,深度學習算法能夠自動地學習更深層次的潛在語義特征,如何將其與認知語言學結(jié)合起來進行幽默識別也是我們今后需要研究的方向。