国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于主題模型的漢語(yǔ)動(dòng)詞隱喻識(shí)別

2016-02-27 01:53:27白振凱黃孝喜王榮波諶志群王小華
關(guān)鍵詞:文檔隱喻語(yǔ)義

白振凱,黃孝喜,王榮波,諶志群,王小華

(杭州電子科技大學(xué) 認(rèn)知與智能計(jì)算研究所,浙江 杭州 310018)

基于主題模型的漢語(yǔ)動(dòng)詞隱喻識(shí)別

白振凱,黃孝喜,王榮波,諶志群,王小華

(杭州電子科技大學(xué) 認(rèn)知與智能計(jì)算研究所,浙江 杭州 310018)

隱喻是人類(lèi)語(yǔ)言不可缺少的組成部分,隱喻處理的好壞將直接影響到自然語(yǔ)言處理和機(jī)器翻譯的發(fā)展,其中隱喻識(shí)別作為隱喻處理中基礎(chǔ)性的工作,越來(lái)越得到研究者們的關(guān)注。目前,漢語(yǔ)隱喻識(shí)別的研究大部分都集中在短語(yǔ)級(jí)別的名詞性隱喻的識(shí)別上,然而,實(shí)際文本中動(dòng)詞性隱喻出現(xiàn)的頻率更高,更應(yīng)該受到更多中文隱喻研究者們的重視。為了提高漢語(yǔ)隱喻的識(shí)別率,針對(duì)句子級(jí)別的漢語(yǔ)動(dòng)詞性隱喻,提出了基于主題模型的識(shí)別方法,將主題模型LDA(Latent Dirichlet Allocation)應(yīng)用于漢語(yǔ)的動(dòng)詞隱喻識(shí)別過(guò)程中。該方法利用句子的主題分布作為特征,結(jié)合機(jī)器學(xué)習(xí)的方法對(duì)動(dòng)詞隱喻進(jìn)行識(shí)別,得到的平均正確率為76.46%,在加入主題標(biāo)注特征后,平均正確率達(dá)到80.42%。實(shí)驗(yàn)結(jié)果表明,基于主題模型的識(shí)別方法是有效的。

隱喻識(shí)別;主題模型;LDA;機(jī)器學(xué)習(xí);自然語(yǔ)言處理

1 概 述

隱喻是人類(lèi)語(yǔ)言中不可缺少的組成部分,它不僅是一種修辭手段,更是人們理解和思維的手段[1]。如果隱喻的機(jī)器理解問(wèn)題無(wú)法得到有效解決,將會(huì)對(duì)自然語(yǔ)言的理解和機(jī)器翻譯技術(shù)的發(fā)展帶來(lái)更多的限制[2]。所以隱喻的處理工作越來(lái)越得到自然語(yǔ)言領(lǐng)域的研究者們的重視。

在人們的生活中,隱喻隨處可見(jiàn)。英國(guó)修辭學(xué)家理查茲發(fā)現(xiàn),在日常會(huì)話中,平均每三句話就會(huì)使用一個(gè)隱喻[3]。因此,識(shí)別隱喻表達(dá)成為自然語(yǔ)言處理研究中一個(gè)重要且基礎(chǔ)性的工作,并且動(dòng)詞隱喻的識(shí)別工作在隱喻研究中占有重要的地位。束定芳[4]歸納了隱喻表達(dá)中經(jīng)常使用的語(yǔ)言信號(hào)和標(biāo)記,包含了領(lǐng)域或話題的標(biāo)志、元語(yǔ)言、強(qiáng)調(diào)詞語(yǔ)、模糊限制詞、明喻以及引號(hào)等,比如:詞語(yǔ)“如、像、好似”等出現(xiàn)在語(yǔ)句中時(shí),經(jīng)常會(huì)是隱喻用法,在英語(yǔ)表達(dá)中,如:“as,like,same as”等比喻詞也是隱喻表達(dá)的信號(hào)標(biāo)注。在基于語(yǔ)義知識(shí)的方法中,Wilks[5]認(rèn)為隱喻的使用會(huì)導(dǎo)致語(yǔ)義上的優(yōu)先中斷,因此他提出了根據(jù)語(yǔ)義選擇限制的異常來(lái)進(jìn)行隱喻識(shí)別。Fass[6]在Wilks的選擇優(yōu)先中斷思想的基礎(chǔ)上,對(duì)轉(zhuǎn)喻、隱喻和詞義異常的使用情況進(jìn)行了解釋,并給出了一個(gè)Met*系統(tǒng)來(lái)解釋隱喻性語(yǔ)言。針對(duì)“A is B”,“verb+noun”,“adj+noun”型的隱喻表達(dá),Krishnakumaran和Zhu[7]在Wilks提出的選擇優(yōu)先中斷思想的基礎(chǔ)上,通過(guò)對(duì)數(shù)據(jù)的分析,提出了一種通過(guò)WordNet中的上、下位義關(guān)系來(lái)進(jìn)行識(shí)別的方法。Mason[8]從大規(guī)模的領(lǐng)域數(shù)據(jù)庫(kù)中抽取動(dòng)詞的語(yǔ)義知識(shí),并通過(guò)動(dòng)詞的語(yǔ)義在不同領(lǐng)域中的差異性對(duì)比識(shí)別出句子中的隱喻表達(dá)。在語(yǔ)料庫(kù)的基礎(chǔ)上,他提出了隱喻識(shí)別的CorMet系統(tǒng)。圍繞隱喻的計(jì)算模型,張威、周昌樂(lè)[9]提出了基于邏輯的方法去分析挖掘隱喻表達(dá)中的潛在含義。楊蕓[10]設(shè)計(jì)了一種計(jì)算模型用于對(duì)漢語(yǔ)隱喻進(jìn)行識(shí)別與解釋工作。黃孝喜[11]提出了一種反映隱喻映射機(jī)制的形式及推理方法。

近年來(lái),機(jī)器學(xué)習(xí)方法得到了廣泛應(yīng)用,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的隱喻處理已成為目前主流的處理方法。Shutova[12]通過(guò)對(duì)名詞、動(dòng)詞的聚類(lèi)實(shí)現(xiàn)隱喻識(shí)別。Gedigian[13]利用最大熵模型對(duì)動(dòng)詞性隱喻進(jìn)行了識(shí)別,他通過(guò)對(duì)空間動(dòng)作、操作、健康等語(yǔ)義類(lèi)的動(dòng)詞在華爾街日?qǐng)?bào)(WSJ)中使用頻率的統(tǒng)計(jì),發(fā)現(xiàn)這些動(dòng)詞中隱喻的用法占到了90%以上,說(shuō)明了隱喻表達(dá)具有普遍性。Birke等[14]提出的弱監(jiān)督的聚類(lèi)方法TroFi(Trope Finder),在動(dòng)詞隱喻的識(shí)別工作中取得了不錯(cuò)的成果。王治敏[15]釆用機(jī)器學(xué)習(xí)和規(guī)則相結(jié)合的方法對(duì)“n+n”型的名詞性隱喻進(jìn)行了識(shí)別,她分別使用了基于實(shí)例的方法、基于樸素貝葉斯的方法和基于最大熵模型的方法對(duì)詞語(yǔ)的隱喻用法進(jìn)行識(shí)別,發(fā)現(xiàn)基于最大熵模型的方法效果最好。李斌等[16]結(jié)合條件隨機(jī)場(chǎng)模型和最大熵模型解決了“像”的明喻計(jì)算,并對(duì)本體、喻體和它們的相似點(diǎn)進(jìn)行了識(shí)別。趙紅艷[17]在條件隨機(jī)場(chǎng)和最大熵模型的基礎(chǔ)上,又結(jié)合《知網(wǎng)》的語(yǔ)義信息和《同義詞詞林》的同義詞信息,實(shí)現(xiàn)了動(dòng)詞的隱喻識(shí)別。文中針對(duì)漢語(yǔ)句子中的動(dòng)詞隱喻提出了基于主題模型的識(shí)別方法,并通過(guò)實(shí)驗(yàn)表明該方法取得了較好的效果。

2 相關(guān)工作

2.1 隱喻識(shí)別

Fass[6]把違反語(yǔ)義選擇限制的使用情況進(jìn)一步細(xì)化,并認(rèn)為隱喻是兩個(gè)概念的相似,可以看作是一種相似性推理的結(jié)果。研究的不足之處是該方法中的語(yǔ)義知識(shí)是由人工構(gòu)建,并且規(guī)模較小,使實(shí)驗(yàn)結(jié)果具有局限性。

Gedigian[13]利用最大熵模型對(duì)動(dòng)詞性隱喻進(jìn)行了識(shí)別。該方法中需要使用語(yǔ)義角色標(biāo)注技術(shù)對(duì)論元特征進(jìn)行提取,但是當(dāng)前的語(yǔ)義角色標(biāo)注技術(shù)還不夠成熟。

馮帥等[18]提出了基于百科資源的名詞性隱喻識(shí)別方法,他們從網(wǎng)絡(luò)百科知識(shí)中挖掘出詞語(yǔ)概念的背景世界知識(shí),并對(duì)其量化,以此判斷它們是不是來(lái)自于同一個(gè)概念域,從而確定是否是隱喻表達(dá)。該方法只是對(duì)釋義文本的知識(shí)進(jìn)行了量化,而沒(méi)有把其語(yǔ)義內(nèi)容考慮在內(nèi),并且實(shí)驗(yàn)語(yǔ)料的規(guī)模較小,句式較單一,實(shí)驗(yàn)的擴(kuò)展性還有待進(jìn)一步驗(yàn)證。

近幾年主題模型在自然語(yǔ)言處理研究中得到了大量應(yīng)用,在隱喻識(shí)別研究中也表現(xiàn)出了顯著的成果。Hana Heintz等[19]利用LDA主題模型對(duì)特定目標(biāo)域(government)進(jìn)行了隱喻的自動(dòng)提取,Steven等[20]利用LDA主題模型對(duì)部分常用動(dòng)詞隱喻用法的使用頻率進(jìn)行了研究,他們都取得了不錯(cuò)的成果。然而國(guó)內(nèi)對(duì)主題模型在漢語(yǔ)隱喻上的應(yīng)用還沒(méi)有相關(guān)研究,并且對(duì)隱喻的識(shí)別工作大部分都集中在短語(yǔ)級(jí)別的研究,如文獻(xiàn)[7]中“A is B”,“verb+noun”,“adj+noun”型,文獻(xiàn)[15]中“n+n”型等隱喻短語(yǔ)結(jié)構(gòu)的識(shí)別,而針對(duì)句子級(jí)別的研究相對(duì)較少。鑒于此,文中針對(duì)隱喻句子級(jí)別的識(shí)別方法進(jìn)行了探究,將LDA主題模型應(yīng)用于漢語(yǔ)動(dòng)詞隱喻識(shí)別研究中。

2.2 LDA模型

LDA模型最早于2003年由Blei[21]提出,用于對(duì)文本建模。LDA模型是一個(gè)多層的貝葉斯結(jié)構(gòu)模型,將模型中的參數(shù)當(dāng)作一個(gè)隨機(jī)變量,通過(guò)使用控制參數(shù)的參數(shù),徹底實(shí)現(xiàn)了模型的“概率化”。

作為一種常用的主題模型,LDA模型自提出起便受到廣泛應(yīng)用,常用于對(duì)文本建模。LDA模型是一個(gè)“文檔-主題-詞”的三層貝葉斯生成式模型,將詞和文檔通過(guò)潛在的主題聯(lián)系在一起。在LDA中,每個(gè)文檔dj是由一系列的主題k組成,而每個(gè)主題k由一系列的詞項(xiàng)xij組成,文檔dj和主題k之間服從狄利克雷分布θj,參數(shù)α來(lái)自于一個(gè)先驗(yàn)(Dirichletprior)函數(shù),主題k和詞項(xiàng)xij之間服從一個(gè)多項(xiàng)式分布xij。這樣一篇文檔中每個(gè)詞xij來(lái)自于φk,對(duì)應(yīng)的主題來(lái)自于θj。因此LDA生成一篇文檔的方式可以理解為:

θj~Dir(α),φk~Dir(β),ziy=k~θj,xij~φk

(1)

其中,Dir(*)表示狄利克雷分布。

文檔的聯(lián)合分布為:

(2)

其中,“主題-詞”分布φ和“文檔-主題”分布θ是模型中的主要變量。

對(duì)LDA模型的參數(shù)進(jìn)行估計(jì)的方法有很多,常用的有EM算法和Gibbs抽樣,由于直接使用EM算法估計(jì)φ和θ時(shí)有可能會(huì)陷入局部極值的情況,所以常利用Gibbs抽樣的方法進(jìn)行參數(shù)估計(jì)。對(duì)于給定的詞匯xij,參數(shù)取詞匯在主題z上的后驗(yàn)概率p(xij|z)的近似值。Gibbs抽樣首先給語(yǔ)料中所有詞匯隨機(jī)分配一個(gè)主題,構(gòu)成初始的Markov鏈;然后使用下列公式對(duì)詞-主題分布和文檔-主題分布進(jìn)行計(jì)算,獲取Markov鏈的下一個(gè)狀態(tài);

每次通過(guò)式(3)進(jìn)行采樣,得到wij的新主題zij,不斷重復(fù)這個(gè)過(guò)程,直到迭代次數(shù)完成或分布收斂后,可得到LDA的兩個(gè)參數(shù)θ和φ:

(4)

其中,θkj表示文檔dj中主題k的概率;θwk表示詞w上主題k的概率。

2.3 支持向量機(jī)

在機(jī)器學(xué)習(xí)中,支持向量機(jī)(SVM)是與相關(guān)的學(xué)習(xí)算法有關(guān)的監(jiān)督學(xué)習(xí)模型,可以分析數(shù)據(jù),識(shí)別模式,用于分類(lèi)和回歸分析。支持向量機(jī)方法根據(jù)特征空間的數(shù)據(jù)是否線性可分,分為線性支持向量機(jī)和非線性支持向量機(jī)。非線性支持向量機(jī)的原理是把輸入向量從低維特征空間映射到高維特征空間,從而把非線性問(wèn)題轉(zhuǎn)換成線性問(wèn)題,而這種變換是通過(guò)核函數(shù)k(x,xi)來(lái)實(shí)現(xiàn)的[22]。支持向量機(jī)的特點(diǎn)在于根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折中,以獲得最好的推廣能力。

3 基于LDA模型的動(dòng)詞隱喻識(shí)別

動(dòng)詞隱喻是人類(lèi)表達(dá)中較為常見(jiàn)的隱喻手法,在隱喻識(shí)別中占有重要位置。

例:

(1)據(jù)德國(guó)《世界報(bào)》報(bào)道,德國(guó)家庭每人年均“丟棄”垃圾為335 kg。

(2)一個(gè)“丟棄”傳統(tǒng)的民族是沒(méi)有希望的民族。

在現(xiàn)代漢語(yǔ)詞典中,丟棄的解釋是:

[丟棄]diu1 qi4扔掉;拋棄;雖是舊衣服,他也舍不得~。

在動(dòng)詞語(yǔ)義的形成過(guò)程中,人們將最先出現(xiàn)的語(yǔ)義認(rèn)為是動(dòng)詞的字面義。在這兩個(gè)例子中,動(dòng)詞“丟棄”分別修飾了“垃圾”和“傳統(tǒng)”,賓語(yǔ)“垃圾”是一個(gè)具體的概念,“傳統(tǒng)”是一個(gè)抽象的概念,根據(jù)詞典的解釋可以看出,例1使用了“丟棄”的字面用法,而例2使用了“丟棄”的隱喻用法。

由于目前在中文隱喻處理上還沒(méi)有相對(duì)比較成熟的句法或者語(yǔ)義角色分析工具,因此文中旨在句子層面上對(duì)漢語(yǔ)動(dòng)詞隱喻進(jìn)行識(shí)別,通過(guò)對(duì)大量隱喻表達(dá)的觀察不難發(fā)現(xiàn),動(dòng)詞隱喻的使用與句子結(jié)構(gòu)和所表達(dá)的主題思想有很大聯(lián)系。比如,當(dāng)“丟棄”這個(gè)動(dòng)詞與“傳統(tǒng)”、“文化”、“民族”、“素質(zhì)”等主題詞一同出現(xiàn)時(shí),更傾向于使用隱喻表達(dá),而與“水果”、“食物”、“木材”等主題詞一同出現(xiàn)時(shí),更傾向于使用常規(guī)表達(dá)。所以假設(shè)動(dòng)詞隱喻的使用與句子潛在的主題相關(guān),而主題模型是獲得文本潛在語(yǔ)義和主題分布的最好方法,故將主題模型引入到動(dòng)詞隱喻識(shí)別中。

文中從兩方面對(duì)動(dòng)詞隱喻識(shí)別進(jìn)行研究。一方面是考察LDA的“文檔-主題”分布,提取實(shí)驗(yàn)數(shù)據(jù)的這部分主題分布作為句子的特征進(jìn)行實(shí)驗(yàn);另一方面考察LDA的“主題-詞”分布,通過(guò)主題標(biāo)注,引入主題標(biāo)注特征進(jìn)行實(shí)驗(yàn)。最后分別使用支持向量機(jī)(SVM)作為分類(lèi)器進(jìn)行訓(xùn)練和預(yù)測(cè)。實(shí)驗(yàn)總體流程如圖1所示。

圖1 實(shí)驗(yàn)總體流程圖

3.1 LDA主題建模

首先在一個(gè)大的文本語(yǔ)料集上運(yùn)行LDA,進(jìn)行主題建模。通過(guò)對(duì)語(yǔ)料進(jìn)行分詞、去除停用詞等預(yù)處理,以預(yù)處理后的文檔集合中的句子作為L(zhǎng)DA的輸入文檔,使用LDA為句子集合進(jìn)行建模,然后采用Gibbs抽樣方法對(duì)參數(shù)進(jìn)行估計(jì),得到句子在語(yǔ)料集上的“文檔-主題”分布和“主題-詞”分布。

采用GibbsLDA++工具包實(shí)現(xiàn)主題模型的訓(xùn)練與測(cè)試,使用《人民日?qǐng)?bào)》在2000年的語(yǔ)料,經(jīng)過(guò)Gibbs抽樣迭代后提取100個(gè)主題,α和β采用GibbsLDA++工具包中的默認(rèn)參數(shù)。其中主題數(shù)利用困惑度(Perplexity)指標(biāo)[21]確認(rèn),該指標(biāo)表示預(yù)測(cè)數(shù)據(jù)時(shí)的不確定度,取值越小表示性能越好。從LDA主題建模后的“主題-詞”分布中可以看出,一個(gè)主題是由與這個(gè)主題相關(guān)詞語(yǔ)的概率分布構(gòu)成,相同或相近主題的詞語(yǔ)被分在同一個(gè)主題下,從而實(shí)現(xiàn)了詞語(yǔ)按主題的一個(gè)聚類(lèi),使文檔的主題分布具有了一定程度上的語(yǔ)義信息。

3.2 特征提取

3.2.1 主題分布特征

通過(guò)LDA對(duì)《人民日?qǐng)?bào)》語(yǔ)料集進(jìn)行主題建模后,利用已訓(xùn)練好的模型對(duì)預(yù)處理后的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)測(cè),得到實(shí)驗(yàn)數(shù)據(jù)的“文檔-主題”分布和“主題-詞”分布。其中,“文檔-主題”分布代表了每條語(yǔ)句在所有主題上的分布情況,句子的主題信息可以很明確地通過(guò)在每個(gè)主題上的分布概率得到,所以提取實(shí)驗(yàn)數(shù)據(jù)的這部分主題分布信息作為句子的特征,利用這個(gè)句子級(jí)別的主題概率分布作為實(shí)驗(yàn)特征向量的一部分放入分類(lèi)器中進(jìn)行訓(xùn)練。

3.2.2 主題標(biāo)注特征

隱喻被普遍認(rèn)為是由具體的源域到抽象的目標(biāo)域的一種映射,但是LDA主題模型中并沒(méi)有直接反映出詞語(yǔ)的具體和抽象概念。為了表現(xiàn)出詞語(yǔ)的具體抽象信息,提出一種標(biāo)注方法,使用“具體”“抽象”“混合”“其他”四個(gè)標(biāo)簽對(duì)模型中的100個(gè)主題進(jìn)行標(biāo)注,標(biāo)注實(shí)驗(yàn)的Kappa值等于0.75,標(biāo)注結(jié)果滿足一致性指標(biāo)。

4個(gè)新的特征通過(guò)計(jì)算每一個(gè)特征對(duì)應(yīng)主題的概率之和得到。例如,主題07、13、20和65被標(biāo)注為抽象主題,那么“抽象”這個(gè)特征的表示就等于主題07、13、20、65在“文檔-主題”分布中對(duì)應(yīng)的概率之和。在之前主題分布的100特征上進(jìn)一步加入4個(gè)新的主題標(biāo)注特征放入分類(lèi)器中進(jìn)行訓(xùn)練。

3.3 分類(lèi)器

采用SVM作為分類(lèi)器進(jìn)行實(shí)驗(yàn),將提取的句子特征作為輸入,使用臺(tái)灣大學(xué)林智仁博士等開(kāi)發(fā)設(shè)計(jì)的LIBSVM工具包對(duì)動(dòng)詞隱喻的識(shí)別進(jìn)行訓(xùn)練和測(cè)試,實(shí)驗(yàn)參數(shù)均使用工具默認(rèn)參數(shù),結(jié)果均采用十折交叉驗(yàn)證得到。

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)

文中選擇包含了“編織”、“丟棄”、“培植”、“提煉”、“品嘗”、“咀嚼”6個(gè)常用動(dòng)詞的句子進(jìn)行實(shí)驗(yàn),數(shù)據(jù)來(lái)源為北京大學(xué)中國(guó)語(yǔ)言學(xué)研究中心的語(yǔ)料庫(kù)(CCL),通過(guò)檢索分別隨機(jī)抽取含有這6個(gè)動(dòng)詞的句子,并進(jìn)行人工標(biāo)注,將句子標(biāo)注為隱喻表達(dá)和常規(guī)表達(dá),其中隱喻句子僅選擇動(dòng)詞的單一隱喻表達(dá)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)如表1所示(其中,Baseline指句子中隱喻句所占比例)。

表1 實(shí)驗(yàn)數(shù)據(jù)

4.2 實(shí)驗(yàn)設(shè)置

(1)主題數(shù)。

利用困惑度指標(biāo)來(lái)確定主題模型的主題個(gè)數(shù),將LDA模型的主題數(shù)預(yù)設(shè)置為10~200,通過(guò)實(shí)驗(yàn)得到Perplexity隨主題個(gè)數(shù)的變化情況,如圖2所示。困惑度數(shù)值隨著主題數(shù)的不斷增加而逐步下降,當(dāng)主題數(shù)達(dá)到100時(shí),下降趨勢(shì)趨于穩(wěn)定。實(shí)驗(yàn)中的主題數(shù)目越多,LDA模型進(jìn)行參數(shù)估計(jì)的次數(shù)就越多,從而會(huì)導(dǎo)致計(jì)算的難度增加,因此文中取主題數(shù)T=100。

圖2 不同主題下的困惑度

(2)對(duì)比試驗(yàn)。

為表明實(shí)驗(yàn)的有效性,文中設(shè)計(jì)了兩組對(duì)比實(shí)驗(yàn):第一組采用趙紅艷[17]的實(shí)驗(yàn),針對(duì)相同的動(dòng)詞,采用最大熵模型(MEM)和條件隨機(jī)場(chǎng)模型(CRF)進(jìn)行動(dòng)詞隱喻的識(shí)別;第二組采用基于TF-IDF為特征的方法來(lái)代替中文方法中提取特征的方法,在這種方法下,數(shù)據(jù)中的每個(gè)詞的權(quán)重使用式(5)表示:

4.3 實(shí)驗(yàn)結(jié)果分析

文中將采用分類(lèi)的正確率(Accuracy)和隱喻識(shí)別的準(zhǔn)確率(Precision)、召回率(Recall)作為實(shí)驗(yàn)結(jié)果的評(píng)測(cè)標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如表2、3所示。其中,TF-IDF+SVM表示基于TF-IDF做特征的對(duì)比實(shí)驗(yàn),LDA+SVM表示僅使用主題分布特征的實(shí)驗(yàn),LDA+SVM+LDAgroup表示在主題分布基礎(chǔ)上加入主題標(biāo)注特征后的實(shí)驗(yàn)。

表2 實(shí)驗(yàn)結(jié)果與對(duì)比實(shí)驗(yàn)正確率對(duì)比

表3 準(zhǔn)確率、召回率、F值

從分類(lèi)的正確率來(lái)看,對(duì)比文中方法與對(duì)比實(shí)驗(yàn)1的結(jié)果可以看出,文中方法整體效果明顯要好于文獻(xiàn)[17]的實(shí)驗(yàn)效果,除了“編織”一詞的正確率稍低一點(diǎn)外,其他五個(gè)詞語(yǔ)的分類(lèi)正確率明顯要高于其最大熵和條件隨機(jī)場(chǎng)模型的結(jié)果;與對(duì)比實(shí)驗(yàn)2結(jié)果比較可以看出,用TF-IDF做特征的分類(lèi)正確率明顯較低,而LDA+SVM模型的方法將正確率平均提高了將近10個(gè)百分點(diǎn),這是由于TF-IDF只是對(duì)詞語(yǔ)在句子中的出現(xiàn)情況進(jìn)行了簡(jiǎn)單統(tǒng)計(jì),無(wú)法直接表示詞語(yǔ)在句中的語(yǔ)義關(guān)系導(dǎo)致,而LDA可以很好地表現(xiàn)出詞語(yǔ)的主題分布這一信息,從而使文本具有一定的語(yǔ)義特征,使得分類(lèi)識(shí)別的效果要優(yōu)于TF-IDF。從這一方面也可以看出,主題模型要優(yōu)于傳統(tǒng)的空間向量模型。從實(shí)驗(yàn)LDA+SVM+LDAgroup可以看出,在進(jìn)一步加入主題標(biāo)注特征后正確率又有所提升,說(shuō)明了標(biāo)注主題具體抽象信息的有效性。如表3所示,文中實(shí)驗(yàn)在準(zhǔn)確率、召回率和F值上也體現(xiàn)出了明顯的優(yōu)勢(shì),每組實(shí)驗(yàn)的F值均有提升,最高可達(dá)81.79%。

5 結(jié)束語(yǔ)

文中提出了一種針對(duì)動(dòng)詞隱喻表達(dá)的句子級(jí)別的識(shí)別方法,首次將LDA主題模型應(yīng)用到漢語(yǔ)隱喻識(shí)別的研究中,利用句子的主題分布作為特征,并加入了具有具體、抽象信息的主題標(biāo)注方式,使識(shí)別效果得到了進(jìn)一步提升。實(shí)驗(yàn)的平均正確率為80.42%,F(xiàn)值最高可達(dá)81%,識(shí)別結(jié)果令人滿意。

實(shí)驗(yàn)中,訓(xùn)練主題模型僅僅使用了《人民日?qǐng)?bào)》在2000年的語(yǔ)料,下一步將考慮加大語(yǔ)料的規(guī)模,使得模型訓(xùn)練效果更好。另外LDA模型中是在詞袋模型的基礎(chǔ)上做的假設(shè),沒(méi)有考慮詞語(yǔ)的語(yǔ)義信息,也沒(méi)有考慮句子中詞語(yǔ)之間的語(yǔ)法結(jié)構(gòu)關(guān)系,所以之后的工作將考慮在主題模型中加入句法結(jié)構(gòu)信息,并結(jié)合語(yǔ)義和抽象度等知識(shí)來(lái)進(jìn)行探索。文中實(shí)驗(yàn)主要識(shí)別的是動(dòng)詞隱喻的表達(dá),下一步可以擴(kuò)大識(shí)別類(lèi)型,考慮對(duì)其他類(lèi)型的隱喻進(jìn)行識(shí)別。

[1] 馮立新.隱喻的認(rèn)知語(yǔ)用研究[J].華南農(nóng)業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2012,11(3):145-149.

[2] 周昌樂(lè).探索漢語(yǔ)隱喻計(jì)算化研究之路[J].浙江大學(xué)學(xué)報(bào):人文社會(huì)科學(xué)版,2007,37(5):43-50.

[3]RichardsIA.Thephilosophyofrhetoric[M].USA:OxfordUniversityPress,1965.

[4] 束定芳.隱喻學(xué)研究[M].上海:上海外語(yǔ)教育出版社,2000.

[5]WilksY.Apreferential,pattern-seeking,semanticsfornaturallanguageinference[J].ArtificialIntelligence,1975,6(1):53-74.

[6]FassD.Met*:amethodfordiscriminatingmetonymyandme-taphorbycomputer[J].ComputationalLinguistics,1991,17(1):49-90.

[7]KrishnakumaranS,ZhuX.Huntingelusivemetaphorsusinglexicalresources[C]//Proceedingsoftheworkshoponcomputationalapproachestofigurativelanguage.NY:Rochester,2007:13-20.

[8]MasonZJ.Cormet:acomputationalcorpus-basedconventionalmetaphorextractionsystem[J].ComputationalLinguistics,2004,30(1):23-44.

[9] 張 威,周昌樂(lè).漢語(yǔ)隱喻理解的邏輯描述初探[J].中文信息學(xué)報(bào),2004,18(5):23-28.

[10] 楊 蕓.漢語(yǔ)隱喻識(shí)別與解釋計(jì)算模型研究[D].廈門(mén):廈門(mén)大學(xué),2008.

[11] 黃孝喜.隱喻機(jī)器理解的若干關(guān)鍵問(wèn)題研究[D].杭州:浙江大學(xué),2009.

[12]ShutovaE,SunL,KorgonenA.Metaphoridentificationusingverbandnounsclustering[C]//Proceedingsofthe23rdinternationalconferenceoncomputationallinguistics.Beijing:[s.n.],2010:1002-1010.

[13]GedigianM,BryantJ,NarayannanS,etal.Catchingmetaphors[C]//Proceedingsofthe3thworkshoponscalablenaturallanguageunderstanding.[s.l.]:[s.n.],2006:41-48.

[14]BirkeJ,SarkarA.Aclusteringapproachforthenearlyunsupervisedrecognitionofnonliterallanguage[C]//Proceedingsofthe11thconferenceoftheEuropeanchapteroftheassociationforcomputationallinguistics.[s.l.]:[s.n.],2006:329-336.

[15] 王治敏.漢語(yǔ)名詞短語(yǔ)隱喻識(shí)別研究[D].北京:北京大學(xué),2006.

[16] 李 斌,于麗麗,石 民,等.“像”的明喻計(jì)算[J].中文信息學(xué)報(bào),2008,22(6):27-32.

[17] 趙紅艷.基于語(yǔ)義知識(shí)的動(dòng)詞隱喻識(shí)別與應(yīng)用[D].南京:南京師范大學(xué),2012.

[18] 馮 帥,蘇 暢,陳怡疆.基于百科資源的名詞性隱喻識(shí)別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(10):8-13.

[19]HeintzH,RyanG,MaheshS,etal.AutomaticextractionoflinguisticmetaphorwithLDAtopicmodeling[C]//ProceedingsofthefirstworkshoponmetaphorinNLP.Atlanta,Georgia:AssociationforComputationalLinguistics,2013:58-66.

[20]BethardS,LaiVT,MartinJH.Topicmodelanalysisofmetaphorfrequencyforpsycholinguisticstimuli[C]//ProceedingsofNAACL-HLTworkshoponcomputationalapproachestolinguisticcreativity.[s.l.]:[s.n.],2003:95-106.

[21]BleiDM,NgAY,JordanMI.LatentDirichletallocation[J].JournalofMachineLearningResearch,2003,3:993-1022.

[22]CristianiniN,Shawe-TaylorJ.Anintroductiontosupportvectormachinesandotherkernel-basedlearningmethods[M].Cambridge:CambridgeUniversityPress,2000:169.

Chinese Verb Metaphor Recognition Based on Topic Model

BAI Zhen-kai,HUANG Xiao-xi,WANG Rong-bo,CHEN Zhi-qun,WANG Xiao-hua

(Institution of Cognitive and Intelligent Computing,Hangzhou Dianzi University,Hangzhou 310018,China)

Metaphor is an integral part of human language,and the quality of metaphor processing will directly affect the effectiveness of natural language processing and machine translation.Metaphor recognition is an essential task in metaphor processing as a foundational work and has got the attention of the researchers.At present,most Chinese metaphors recognition has focused on identifying the phrase level of noun metaphor,however,verbal metaphors has higher frequency in the actual text,which should be paid attention by more Chinese metaphor researchers.In order to improve the recognition rate of Chinese metaphor,in view of the Chinese verb metaphor,an approach to metaphor recognition is proposed based on topic model.In this method,sentence topic distribution generated through LDA model is used as a feature,and the metaphor recognition is implemented with SVM.The average accuracy of the method is 76.46%,after further joined the feature of topic annotation,the average accuracy of the method is 80.42%.The experimental results show that the method is effective.

metaphor recognition;topic model;LDA;machine learning;natural language processing

2015-08-09

2015-12-23

時(shí)間:2016-10-24

國(guó)家自然科學(xué)基金資助項(xiàng)目(61103101,61202281);教育部人文社會(huì)科學(xué)研究項(xiàng)目(10YJCZH052)

白振凱(1991-),男,碩士研究生,研究方向?yàn)樽匀徽Z(yǔ)言處理、隱喻識(shí)別;黃孝喜,博士,講師,研究方向?yàn)樽匀徽Z(yǔ)言處理、認(rèn)知邏輯學(xué);王榮波,博士,副教授,研究方向?yàn)樽匀徽Z(yǔ)言處理、篇章分析;諶志群,碩士,副教授,研究方向?yàn)橹形男畔⑻幚?、語(yǔ)言網(wǎng)絡(luò);王小華,碩士,教授,研究方向?yàn)樽匀徽Z(yǔ)言處理、認(rèn)知邏輯學(xué)、模式識(shí)別。

http://www.cnki.net/kcms/detail/61.1450.TP.20161024.1105.006.html

TP391

A

1673-629X(2016)11-0067-05

10.3969/j.issn.1673-629X.2016.11.015

猜你喜歡
文檔隱喻語(yǔ)義
有人一聲不吭向你扔了個(gè)文檔
成長(zhǎng)是主動(dòng)選擇并負(fù)責(zé):《擺渡人》中的隱喻給我們的啟示
文苑(2020年6期)2020-06-22 08:42:04
語(yǔ)言與語(yǔ)義
《活的隱喻》
民俗研究(2020年2期)2020-02-28 09:18:34
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
對(duì)《象的失蹤》中隱喻的解讀
認(rèn)知范疇模糊與語(yǔ)義模糊
德里達(dá)論隱喻與摹擬
伽师县| 金塔县| 沂水县| 阿拉尔市| 金华市| 双城市| 灌阳县| 淅川县| 江孜县| 四川省| 固安县| 札达县| 玉环县| 台山市| 宁城县| 星子县| 洪泽县| 鄂托克前旗| 隆昌县| 随州市| 长泰县| 余江县| 明水县| 奎屯市| 嘉黎县| 吉水县| 军事| 益阳市| 土默特左旗| 秦安县| 巴南区| 通许县| 泽库县| 滕州市| 伽师县| 宜都市| 西充县| 武宣县| 武鸣县| 彭州市| 新泰市|