楊 勇,楊 亮,鄒艷波,任 鴿,樊小超,
(1.新疆師范大學(xué) a.計算機(jī)科學(xué)技術(shù)學(xué)院; b.物理與電子工程學(xué)院,烏魯木齊 830054;2.大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)
幽默普遍存在于日常用語中,是人們溝通交流的重要組成部分。幽默一詞來源于英文單詞“Humor”,由林語堂先生于1924年引入中國,有可笑、有趣而意味深長之義[1]。近年來,隨著人工智能的快速發(fā)展,幽默識別受到了國內(nèi)外學(xué)者的廣泛關(guān)注。幽默識別任務(wù)通常是識別某個語句或段落是否包含幽默的語義表達(dá)[2-3]。幽默數(shù)據(jù)集有多種類型[3],包括笑話、One-liner形式的幽默、對話幽默等,本文的研究重點(diǎn)為One-liner形式的幽默。
One-liner形式的幽默通常是一個簡短的句子,使用少量詞匯傳達(dá)幽默的語義。與其他形式的幽默相比,One-liner形式的幽默缺乏上下文信息,多數(shù)采用語音、語言歧義或疊字等手段產(chǎn)生預(yù)期的幽默效果。針對One-liner形式的幽默,目前的幽默識別方法主要分為基于特征工程的機(jī)器學(xué)習(xí)方法[4-5]和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法[6-7]。前者需要領(lǐng)域?qū)<覙?gòu)建特征,且耗時耗力,泛化能力較差。后者網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建通常缺乏幽默理論的驅(qū)動,可解釋性較差。為解決以上問題,本文提出基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡(luò)模型(PFSHAN)進(jìn)行幽默識別。
隨著幽默在互聯(lián)網(wǎng)中的廣泛應(yīng)用以及文本情感分析問題的深入研究,越來越多的學(xué)者對幽默識別產(chǎn)生了很大興趣,幽默識別成為自然語言處理領(lǐng)域的熱點(diǎn)研究問題之一。對于幽默識別研究,根據(jù)使用方法的不同,本文從基于特征工程的機(jī)器學(xué)習(xí)方法和基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法兩個方面對現(xiàn)有工作進(jìn)行概述。
基于特征工程的機(jī)器學(xué)習(xí)方法被廣泛應(yīng)用于幽默識別領(lǐng)域。文獻(xiàn)[8]構(gòu)建大規(guī)模的笑話語料庫,并利用n-gram特征對幽默段落進(jìn)行識別。文獻(xiàn)[5]定義3種類型的幽默特征,包括頭韻、反義詞和成人俚語,并通過實(shí)驗(yàn)證明了其在幽默識別中的有效性。文獻(xiàn)[9]基于幽默的不一致性理論和語言學(xué)特點(diǎn),設(shè)計5個類別多達(dá)50多種幽默特征。文獻(xiàn)[4]對幽默的潛在語義特征進(jìn)行系統(tǒng)闡述并構(gòu)建包括語音特征、歧義特征、不一致性特征和情感特征在內(nèi)的4種類型的幽默特征。在此基礎(chǔ)上,文獻(xiàn)[10]將語義分析和情感分析相結(jié)合,對情感關(guān)聯(lián)模式進(jìn)行建模并用于幽默識別。文獻(xiàn)[11]通過成分分析和依賴關(guān)系分析得到幽默的句法特征來提升幽默識別的性能。文獻(xiàn)[12]基于幽默的歧義性和語音特性提出一系列幽默特征。文獻(xiàn)[13]由喜劇電視節(jié)目中的對話構(gòu)造了幽默數(shù)據(jù)集,并采用多模態(tài)的分析方法,結(jié)合聲音特征與語義特征進(jìn)行幽默識別。
近年來,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法在幽默識別領(lǐng)域取得了許多研究成果。文獻(xiàn)[14]提取《生活大爆炸》中的對話文本,利用幽默情景劇中特有的背景笑聲自動標(biāo)注笑點(diǎn),并采用長短期記憶(Long Short Term Memory,LSTM)網(wǎng)絡(luò)提取語義特征和聲音特征識別笑點(diǎn)。文獻(xiàn)[15]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和LSTM提取幽默特征并識別對話中的笑點(diǎn)。文獻(xiàn)[7]比較CNN與傳統(tǒng)機(jī)器學(xué)習(xí)方法的性能。文獻(xiàn)[16]采用LSTM和注意力機(jī)制在幽默評測中取得了較好的結(jié)果。文獻(xiàn)[17]結(jié)合人工特征和神經(jīng)網(wǎng)絡(luò)自動提取的特征,對西班牙語的推特文本進(jìn)行幽默識別。文獻(xiàn)[18]構(gòu)建了一個大型的俄語幽默數(shù)據(jù)集,并使用調(diào)優(yōu)的預(yù)訓(xùn)練語言模型進(jìn)行幽默識別。文獻(xiàn)[19]提出基于張量的幽默識別方法,能夠有效提取幽默語句的詞匯特征。
對于現(xiàn)有工作的研究結(jié)果表明,語音特征和歧義性特征能夠有效提高幽默識別的性能,然而人工構(gòu)造的特征成本較高且泛化能力較差。相比于基于特征工程的機(jī)器學(xué)習(xí)方法,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法能夠自動提取幽默的高維語義特征且性能較好。然而,現(xiàn)有基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法缺乏幽默理論的驅(qū)動,實(shí)驗(yàn)結(jié)果難以給出令人信服的解釋。本文提出PFSHAN模型識別幽默語句,PFSHAN模型基于幽默的語言學(xué)特征,分別從文本的語音、字形和語義3個維度提取幽默特征,并采用層次注意力機(jī)制,使得模型能夠提取更有效的幽默特征。
如圖1所示,本文提出基于音形義的層次注意力神經(jīng)網(wǎng)絡(luò)模型進(jìn)行幽默識別的主要步驟為:1)將文本內(nèi)容表示成對應(yīng)的音素形式,采用卷積神經(jīng)網(wǎng)絡(luò)提取語句的語音特征;2)將文本表示成字符形式,采用雙向門控循環(huán)單元(Bi-directional Gated Recurrent Unit,Bi-GRU)和注意力機(jī)制提取文本的字形特征;3)引入單詞歧義性等級信息,更好地提取幽默語句的語義特征。為更好地區(qū)分不同幽默特征在幽默識別過程中的貢獻(xiàn)程度,本文采用層級注意力機(jī)制來調(diào)節(jié)幽默語言學(xué)特征和幽默語句的關(guān)聯(lián)程度。
圖1 基于音形義的層次注意力神經(jīng)網(wǎng)絡(luò)模型Fig.1 Hierarchical attention neural network model based on pronunciation,font and semantics
許多幽默由語音引起,文本內(nèi)容中不協(xié)調(diào)的發(fā)音產(chǎn)生了幽默[20]。文獻(xiàn)[5]指出幽默文本的語音特征與其語義內(nèi)容一樣重要。語音是引發(fā)幽默的重要手段,其通常通過押頭韻或尾韻的形式進(jìn)行表現(xiàn)[4]。
例1You can tune a piano,but you can’t tuna fish.
在例1中,句子的語義并不有趣,但是句子中單詞“tune”和“tuna”有相似的發(fā)音,這使得句子的幽默效果得到了加強(qiáng)。在許多幽默文本中,即使文本內(nèi)容不幽默,也經(jīng)常使用頭韻、尾韻等語音特點(diǎn)引發(fā)或增強(qiáng)幽默效果。
由于單詞的發(fā)音和拼寫并不完全一致,因此無法從字符來直接獲取句子的語音表示。為獲得單詞的語音表示,本文使用卡內(nèi)基梅隆大學(xué)(CMU)的發(fā)音詞典將文本表示成其對應(yīng)的語音形式。相比于含有重音標(biāo)識的版本,包含39個音素的無重音標(biāo)識的CMU發(fā)音詞典更加準(zhǔn)確。因此,本文采用無重音標(biāo)識的CMU發(fā)音詞典將幽默語句中的單詞轉(zhuǎn)換成對應(yīng)的音素表示。例如,單詞“word”的音素表示為[“W”,“ER”,“D”]。卷積神經(jīng)網(wǎng)絡(luò)能夠更好地提取數(shù)據(jù)的局部特征且速度較快,因此本文采用卷積神經(jīng)網(wǎng)絡(luò)提取幽默語句中頭韻、尾韻等語音特征。
2)變換層。本文的目標(biāo)是發(fā)現(xiàn)單詞間的頭韻、尾韻等語音特征,因此采用變換層對輸入張量進(jìn)行變換,使得卷積神經(jīng)網(wǎng)絡(luò)的滑動窗口能夠提取多個單詞對應(yīng)位置上的語音信息。
3)卷積層。卷積層利用一個窗口大小為h的卷積核提取局部的語音特征,其計算公式如下:
ci=f(wpi:i+h-1+b)
(1)
其中,ci為輸出的特征向量,f為非線性激活函數(shù)ReLU,w為參數(shù),pi:i+h-1代表p中的第i列到第i+h-1列,b為偏置項。在實(shí)驗(yàn)中使用二維卷積神經(jīng)網(wǎng)絡(luò)及多個卷積核。
4)池化層。該層主要用于文本語音特征的降維,壓縮參數(shù)數(shù)量,緩解過擬合現(xiàn)象,提高模型的容錯能力。常用的池化操作有平均池化和最大池化兩種策略,本文采用最大池化策略獲取固定長度的語音特征向量:
(2)
對池化后的特征向量進(jìn)行拼接后,得到語句的語音特征表示為:
(3)
幽默是一種文體,通常有其獨(dú)特的表達(dá)方式,在很多情況下,正是字形的特征產(chǎn)生了幽默效果[21]。文獻(xiàn)[22]指出反復(fù)出現(xiàn)的文本元素序列使得文本表現(xiàn)出相對穩(wěn)定的特征。幽默語句常采用重復(fù)的字符或重復(fù)的標(biāo)點(diǎn)符號等方法表達(dá)出幽默的效果。
例2I used to be a coyote,but I’m alright noooooooooooow!!!
例2是一個幽默的語句,該句采用字符重復(fù)的方式表現(xiàn)出幽默的效果。語句中的單詞“now”是一個不規(guī)范的拼寫形式,字符“o”被重復(fù)了多次,同時為了表達(dá)強(qiáng)調(diào)的效果,“!”也被重復(fù)了多次。這種刻意的字符重復(fù)是幽默語句的重要特征。
對于例2中“now”的不規(guī)范拼寫形式,常規(guī)的詞向量表示會將其作為未登錄詞處理,模型無法關(guān)注到該類單詞對幽默識別性能的影響。為使模型能夠捕獲幽默語句的字形特征,本文對幽默語句的字符進(jìn)行建模,將句子表示成字符的序列,句子的字符序列的向量表示作為模型輸入。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能夠更好地處理序列信息,因此本文采用RNN提取語句中的重復(fù)字符、符號等字形特征。
在字形特征提取層中,為緩解RNN的梯度爆炸、梯度消失及長期依賴等問題,研究人員提出LSTM網(wǎng)絡(luò)和門控循環(huán)單元(Gated Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)。GRU相比LSTM參數(shù)更少,訓(xùn)練速度更快,而兩者性能相當(dāng)。基于以上特性,本文采用GRU提取字形特征。GRU利用重置門和更新門控制序列的狀態(tài)更新。在t時刻GRU的狀態(tài)可以形式化表示為:
zt=σ(Wzxt+Uzht-1+bz)
(4)
rt=σ(Wrxt+Urht-1+br)
(5)
(6)
(7)
GRU能夠提取每個時間步長t之前的信息,但是忽略了t之后的文本信息。Bi-GRU包含兩個相互獨(dú)立的隱藏狀態(tài),可以同時從前向和后向提取文本信息,然后對兩部分信息進(jìn)行整合,從而更好地利用文本的上下文信息。本文采用Bi-GRU提取文本的字形特征,其形式化表示如下:
(8)
(9)
(10)
在字符特征注意力層中,為能夠?qū)y帶顯著語義信息的字符給予更多的關(guān)注,在提取字形特征時,引入注意力機(jī)制,其形式化表示如下:
wij=tanh(WT[hj·Hc]+b)
(11)
(12)
(13)
其中,W為權(quán)重矩陣,b為偏置項,tanh為激活函數(shù),aij為注意力權(quán)重,所有參數(shù)采用隨機(jī)初始化并在訓(xùn)練中動態(tài)更新,qc為字符特征注意力層的輸出向量。
句子本身的語義特征將為幽默識別提供直接的線索。文獻(xiàn)[23]指出語義的歧義性會引發(fā)幽默,歧義性是幽默產(chǎn)生的重要因素。幽默語句中的歧義性是指句子中的某些單詞包含多個語義,使得句子存在多種不同的理解方式[24]。
例3Did you hear about the guy whose whole left side was cut off? He’s all right now.
例3是一個典型的由于歧義性引起幽默的語句。單詞“right”包含多個語義,它既可以被理解為“右側(cè)”,又可以被理解為“恢復(fù)”。由于單詞的多個語義造成了句子理解的偏差,因此使該語句顯得十分有趣。句子中單詞包含的同義詞的個數(shù)與語句是否幽默具有一定的相關(guān)性。
基于特征工程的機(jī)器學(xué)習(xí)方法將單詞包含的同義詞的個數(shù)作為特征來識別幽默[4]。為使神經(jīng)網(wǎng)絡(luò)模型能夠?qū)W習(xí)到包含不同同義詞數(shù)量的單詞,本文根據(jù)同義詞的個數(shù)對單詞進(jìn)行分類,將類別信息進(jìn)行向量表示并和單詞的向量表示進(jìn)行融合,最后采用Bi-GRU和注意力機(jī)制提取攜帶歧義性信息的潛在語義特征。
在語義特征提取層中,Bi-GRU能夠有效處理文本序列數(shù)據(jù)并能夠更好地提取上下文信息。因此,本文采用Bi-GRU提取文本的語義特征,攜帶歧義性等級信息的語義特征可表示為Hu=Bi-GRU(x′i,ht-1)。
在語義特征注意力層中,為使模型能夠關(guān)注攜帶顯著語義信息的單詞,在提取語義特征時,引入注意力機(jī)制,其中qu為語義特征注意力層的輸出向量。
由于不同幽默語言學(xué)特征和幽默語句的關(guān)聯(lián)程度不同,因此本文采用層次注意力機(jī)制調(diào)整不同語言學(xué)特征對于幽默識別性能的影響,其形式化表示如下:
wj=tanh(WTVj+b)
(14)
(15)
(16)
其中,W為權(quán)重矩陣,b為偏置項,Hp為語音特征表示,qc為字形特征表示,qu為語義特征表示,Vj為不同句子的表示,βj為注意力權(quán)重,所有參數(shù)采用隨機(jī)初始化并在訓(xùn)練中動態(tài)更新,q為句子的最終特征表示。
本文提取文本的語音、字形和語義特征,采用softmax函數(shù)進(jìn)行幽默識別,其形式化表示如下:
v=tanh(Wpq+bp)
(17)
(18)
本文模型基于反向傳播算法與端到端的方式進(jìn)行訓(xùn)練,并采用期望交叉熵作為損失函數(shù)。
(19)
其中,y為真實(shí)標(biāo)簽,i、j分別為句子的編號和類別編號,λ為正則化參數(shù),θ為超參數(shù)。
Puns數(shù)據(jù)集[4]中的幽默語句來自同名網(wǎng)站,非幽默文本來自美聯(lián)社新聞、紐約時報、雅虎新聞和諺語。Puns數(shù)據(jù)集包含幽默語句2 423條,非幽默語句2 403條,句子平均長度為13.5。Oliner數(shù)據(jù)集[5]中的幽默語句來自多個著名的幽默網(wǎng)站,非幽默語句來自路透社新聞標(biāo)題。Oliner包含幽默、非幽默語句各16 000條,句子平均長度為12.6。為便于和基線方法進(jìn)行比較,本文采用精確率、準(zhǔn)確率、查全率和F1值作為評價指標(biāo)。
在訓(xùn)練過程中,詞向量采用GloVe進(jìn)行初始化,維度為300。語音向量采用高斯分布U(-0.1,0.1)進(jìn)行隨機(jī)初始化,維度為100。字符向量采用隨機(jī)初始化,維度為100。單詞被劃分為4個歧義性類別,歧義性等級采用隨機(jī)初始化,維度為10。卷積神經(jīng)網(wǎng)絡(luò)采用2D卷積和池化層,卷積核數(shù)量為128,卷積核大小為2、3、4。Bi-GRU的神經(jīng)元個數(shù)為150,優(yōu)化方法為Adadelta[26]。Batch大小為64,dropout為0.5。同時,在訓(xùn)練過程中使用學(xué)習(xí)率衰減和早停機(jī)制防止過度擬合,并使用五倍交叉驗(yàn)證法減少數(shù)據(jù)集劃分的影響。
實(shí)驗(yàn)對比方法具體如下:
1)支持向量機(jī)(Support Vector Machine,SVM)。該方法[4]使用人工構(gòu)造的語音特征、歧義特征、不一致特征和情感特征,采用支持向量機(jī)模型。
2)HCFW2V。該方法[4]同時使用上述4類特征和詞向量作為幽默特征,采用隨機(jī)森林模型。
3)ST。該方法[10]同時使用上述4類特征以及人工構(gòu)造的情感沖突和情感轉(zhuǎn)換特征,采用隨機(jī)森林模型。
4)Syn。該模型[11]同時使用上述4類特征以及人工構(gòu)造的句法結(jié)構(gòu)特征,采用隨機(jī)森林模型。
5)CNN。該模型[7]采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行幽默識別。
6)Bi-GRU。該模型采用Bi-GRU提取幽默文本的潛在語義特征并進(jìn)行幽默識別。
7)Bi-GRU+Att。該模型采用Bi-GRU和注意力機(jī)制提取語義特征并進(jìn)行幽默識別。
8)CNN+HN。該模型[27]采用CNN和Highway網(wǎng)絡(luò)架構(gòu)。
9)PFSHAN。本文提出的一種基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡(luò)模型。
表1和表2列出了不同幽默識別方法與模型的性能對比,其中最佳結(jié)果加粗顯示,實(shí)驗(yàn)結(jié)果表明:
表1 Puns數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results on Puns dataset %
表2 Oliner數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 2 Experimental results on Oliner datasets %
1)基于特征工程的機(jī)器學(xué)習(xí)方法的性能低于基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。對于相同的人工特征集合,基于特征工程的機(jī)器學(xué)習(xí)方法在兩個數(shù)據(jù)集上性能有所差別。HCFW2V在Puns數(shù)據(jù)集上性能較好,而SVM在Oliner數(shù)據(jù)集上性能較好。這也說明了基于特征工程的機(jī)器學(xué)習(xí)方法依賴于人工特征的構(gòu)造,其泛化能力較差。此外,引入句法信息后,幽默識別的性能有了一定幅度的提升。
2)基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法能夠自動學(xué)習(xí)幽默語句的潛在語義特征,在兩個數(shù)據(jù)集上均表現(xiàn)出較好的性能。Bi-GRU能夠更好地利用上下文信息與長距離的依賴關(guān)系,其性能優(yōu)于CNN。引入Highway后,CNN的性能有了較大幅度的提升。
3)PFSHAN模型在兩個數(shù)據(jù)集上均取得了最佳的性能。PFSHAN模型能夠提取語句的語音、字形和語義信息,而且在提取語義特征時,其能夠捕獲單詞的歧義性信息,從多個維度提取幽默特征。此外,PFSHAN模型采用層級注意力機(jī)制,不僅能夠調(diào)節(jié)不同輸入對提取特征的影響,而且能夠調(diào)節(jié)不同語言學(xué)特征對幽默識別的影響。
為驗(yàn)證歧義性等級信息對幽默識別的影響,本文對比僅使用語義信息的Bi-GRU和加入歧義性等級信息的Bi-GRU的PFSHAN模型幽默識別性能。如圖2所示,加入了歧義性等級信息后,PFSHAN模型F1值均有所提高,在Puns數(shù)據(jù)集上F1值提高了0.8%,在Oliner數(shù)據(jù)集上提高了1.14%。實(shí)驗(yàn)結(jié)果表明,單詞的歧義性等級信息能夠有效提高PFSHAN模型的幽默識別性能。
圖2 歧義性等級信息對幽默識別性能的影響Fig.2 Impact of ambiguous level information on performance of humor recognition
本文對比語音、字形和語義特征對PFSHAN模型性能的影響,PFSHAN-pro、PFSHAN-font、PFSHAN-sem分別表示未使用語音、字形和語義信息的PFSHAN模型。如表3所示,當(dāng)PFSHAN模型未使用語義信息時,模型性能受到的影響最大。這表明模型能夠從文本的潛在語義信息中學(xué)習(xí)到與幽默關(guān)聯(lián)較強(qiáng)的信息,如果僅從語音和字形特征對幽默進(jìn)行識別,則模型性能較差。當(dāng)PFSHAN模型未使用字形信息時,對模型性能影響較小。這可能是因?yàn)樵跇?gòu)造數(shù)據(jù)時對數(shù)據(jù)進(jìn)行了預(yù)處理,其不規(guī)范的拼寫等字形特征較少。語音特征對模型有一定的影響,說明文本中一部分幽默是由語音特征引起。當(dāng)同時引入音形義特征時,PFSHAN模型取得了最佳的性能,這表明語音、字形和語義特征能夠更加有效地對幽默文本進(jìn)行表征,從而提高幽默識別性能。
表3 語音、字形和語義特征對幽默識別性能的影響Table 3 Impact of pronunciation,font and semantics on performance of humor recognition %
本文對比了不同注意力機(jī)制對幽默識別性能的影響。PFSHAN-Hyp表示提取字形和語義特征后,采用注意力機(jī)制得到字形和語義信息的表示,然后直接和語音信息進(jìn)行拼接并識別幽默。PFSHAN-Lin-Hyp表示只使用Bi-GRU提取字形和語義特征,并使用CNN提取語音特征,然后拼接3類特征進(jìn)行幽默識別。
如表4所示,采用層次注意力機(jī)制能夠有效提高幽默識別的性能,相比不使用注意力機(jī)制的模型,PFSHAN在兩個數(shù)據(jù)集上的F1值分別提高了1.19%和0.97%。實(shí)驗(yàn)結(jié)果表明,層次注意力機(jī)制不但能夠調(diào)整不同字符或單詞對于不同幽默特征的權(quán)重,而且能夠調(diào)節(jié)不同幽默語言學(xué)特征和幽默語句的關(guān)聯(lián)程度,從而提高幽默識別性能。
表4 層次注意力機(jī)制對幽默識別性能的影響Table 4 Impact of hierarchical attention mechanism on performance of humor recognition %
為更好地研究并提升PFSHAN模型在幽默識別任務(wù)中的性能,對其錯誤樣例進(jìn)行分析。以下是兩個PFSHAN模型不能正確識別的樣例:
例4The one who invented the door knocker got a no bell prize.
例5A clean house is a sure sign of a broken computer.
例4和例5均為幽默樣例,但是PFSHAN模型卻把它們視為非幽默的語句。在例4中,“no bell prize”的發(fā)音和“nobel prize”發(fā)音十分類似,所以引發(fā)了幽默的效果。顯然,該句的幽默效果是語音所致,但是“nobel prize”沒有出現(xiàn)在原文中,PFSHAN模型無法捕獲相關(guān)的語音特征。此外,背景知識也是判斷該語句是否是幽默的重要因素。在例5中,“clean house”和“broken computer”形成了語義上的對比,這種不協(xié)調(diào)、不一致使得句子產(chǎn)生了幽默的效果,因此如何捕獲文本語義的不一致性將是未來幽默識別中的重要研究方向。
本文提出基于語音、字形和語義的層次注意力神經(jīng)網(wǎng)絡(luò)模型(PFSHAN)進(jìn)行幽默識別?;谟哪谋镜恼Z言學(xué)特點(diǎn),采用CNN和Bi-GRU捕獲幽默語句的語音、字符和語義特征,同時利用層次注意力機(jī)制調(diào)節(jié)不同語言學(xué)特征對幽默識別的影響。實(shí)驗(yàn)結(jié)果表明,本文方法能夠有效獲取幽默語句的音形義特征,提高幽默識別性能。但由于PFSHAN模型僅適用于英文文本的幽默識別,而中英文表達(dá)在很多方面存在差異,因此下一步將構(gòu)建中文幽默數(shù)據(jù)集及模型進(jìn)行中文幽默文本識別。此外,如何利用自注意力機(jī)制與預(yù)訓(xùn)練模型捕獲文本語義的不一致特征也將是今后研究的重點(diǎn)。