国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于聚類與分類結(jié)合的漢語(yǔ)隱喻短語(yǔ)識(shí)別方法

2018-04-16 07:53:32符建輝曹存根
中文信息學(xué)報(bào) 2018年2期
關(guān)鍵詞:源域語(yǔ)料分類器

符建輝,王 石,曹存根

(1.中國(guó)科學(xué)院 計(jì)算技術(shù)研究所 智能信息處理實(shí)驗(yàn)室,北京 100190; 2.中國(guó)科學(xué)院大學(xué),北京 100190)

0 引言

隱喻處理研究是自然語(yǔ)言處理的一個(gè)重要分支。人們?cè)絹?lái)越清楚地認(rèn)識(shí)到隱喻在思維及語(yǔ)言中所處的重要地位。俞士汶甚至認(rèn)為隱喻是自然語(yǔ)言理解必須攻克的難關(guān)[1]。隱喻識(shí)別的提升將有助于自然語(yǔ)言處理其他問(wèn)題識(shí)別的提升。例如,在知識(shí)獲取領(lǐng)域,如果知道“知識(shí)海洋”不是一個(gè)“海洋”而是一個(gè)隱喻名詞,那么就不會(huì)錯(cuò)誤地判斷“海洋”是“知識(shí)海洋”的下位。又例如,在機(jī)器翻譯中,隱喻名詞“草木皆兵”,在缺少語(yǔ)料情況下很可能會(huì)翻譯成“Every bush and tree is an enemy”。如果能夠識(shí)別“草木皆兵”是一個(gè)隱喻名詞,將有助于得到正確結(jié)果“Every bush and tree looks like an enemy”。

認(rèn)知語(yǔ)言學(xué)認(rèn)為:一個(gè)概念隱喻包含兩個(gè)部分,一個(gè)“源域”(source domain)和一個(gè)“目標(biāo)域”(target domain)?!霸从颉蓖ǔJ鞘熘谋容^具體直觀、容易理解的一些概念范疇,而“目標(biāo)域”通常是后來(lái)才認(rèn)識(shí)的抽象的、不太容易理解的概念范疇[2]。這里沿用“源域”和“目標(biāo)域”的說(shuō)法,將能夠在句子中作為“源域”出現(xiàn)的詞稱為源域詞,例如“殺手”“大軍”“海洋”等都可以稱為源域詞。

漢語(yǔ)短語(yǔ)中存在大量的隱喻現(xiàn)象,我們將帶隱喻義的短語(yǔ)稱為隱喻短語(yǔ)。例如表1中有兩種模式的隱喻短語(yǔ)。本文的工作是識(shí)別句子中的短語(yǔ)是否是隱喻短語(yǔ)。

表1 隱喻短語(yǔ)舉例

我們將隱喻短語(yǔ)的識(shí)別看作一個(gè)分類問(wèn)題,即一個(gè)短語(yǔ)要么是隱喻要么是非隱喻。由于源域詞是一個(gè)不斷發(fā)展的詞匯集,訓(xùn)練語(yǔ)料中很難覆蓋所有源域詞數(shù)據(jù),我們將這種訓(xùn)練集中缺少源域詞數(shù)據(jù)的情況稱為源域詞的數(shù)據(jù)稀疏問(wèn)題。

本研究在已有工作的實(shí)驗(yàn)和考察基礎(chǔ)上,應(yīng)對(duì)源域詞的數(shù)據(jù)稀疏問(wèn)題,提出了一種新的隱喻短語(yǔ)識(shí)別方法,該方法能夠?qū)⒕垲愃惴ê头诸愃惴ǖ膬?yōu)點(diǎn)相結(jié)合。該方法首先將包含源域詞S的短語(yǔ)進(jìn)行聚類,將聚類的結(jié)果作為分類的一類特征。在分類時(shí),我們同時(shí)也考慮S所處的上下文特征和包含S短語(yǔ)的屬性特征。實(shí)驗(yàn)表明,使用了聚類產(chǎn)生的特征訓(xùn)練出來(lái)的分類器,不僅能很好地識(shí)別訓(xùn)練語(yǔ)料中存在源域詞數(shù)據(jù)的情況,也能很好地識(shí)別訓(xùn)練語(yǔ)料中缺少源域詞數(shù)據(jù)的情況,具有很高的召回率。

1 相關(guān)工作

自20世紀(jì)70年代以來(lái),各種隱喻計(jì)算模型陸續(xù)出現(xiàn)。Fass[3]提出了可以處理隱喻、轉(zhuǎn)喻、字面義和反常表達(dá)的隱喻理解模型MET5系統(tǒng)。Martin[4]提出了識(shí)別和解釋常規(guī)隱喻的MIDAS系統(tǒng)。Mason[5]利用大規(guī)模語(yǔ)料動(dòng)態(tài)提取優(yōu)先參數(shù)來(lái)識(shí)別特定領(lǐng)域的隱喻表達(dá)。Birke和Sarker[6]給出了一個(gè)識(shí)別字面義表達(dá)和非字面義表達(dá)的計(jì)算模型——TroFi(Trope Finder)系統(tǒng),解決了動(dòng)詞的字面義和非字面義用法的識(shí)別與分類問(wèn)題。Gedigian等[7]在WSJ等語(yǔ)料庫(kù)和PropBank命題庫(kù)以及FrameNet映射標(biāo)注方法的基礎(chǔ)上,利用最大熵模型給出了動(dòng)詞隱喻的分類器。Shutova[8]提出了一種通過(guò)對(duì)動(dòng)詞和名詞的聚類來(lái)進(jìn)行隱喻識(shí)別的方法。Yosef Ben Shlomo和Mark Last[9]提出了一種基于分類算法的隱喻識(shí)別模型。

在漢語(yǔ)隱喻研究中,王治敏[2,10]采用最大熵模型對(duì)形如“N+N”的名詞隱喻進(jìn)行了識(shí)別。趙紅艷[11]利用條件隨機(jī)場(chǎng)和最大熵模型并結(jié)合一定的語(yǔ)義信息對(duì)隱喻現(xiàn)象進(jìn)行識(shí)別。李斌、于麗麗等人[12]將最大熵模型和條件隨機(jī)場(chǎng)模型相結(jié)合解決了“像”的明喻計(jì)算問(wèn)題。黃孝喜[13]提出了一種基于樹模式匹配的隱喻識(shí)別算法。

目前隱喻知識(shí)識(shí)別的研究多采用分類器的方法,并取得了許多進(jìn)展。但基于分類的方法存在源域詞的數(shù)據(jù)稀疏問(wèn)題,即:當(dāng)訓(xùn)練語(yǔ)料中缺少源域詞數(shù)據(jù)時(shí),基于分類的方法便會(huì)失敗。例如,很難利用源域詞“殺手”的上下文特征來(lái)識(shí)別包含源域詞“大軍”的短語(yǔ)是否是隱喻。而隱喻是一個(gè)不斷發(fā)展并時(shí)刻新增的現(xiàn)象,源域詞也會(huì)層出不窮,我們很難構(gòu)建一個(gè)包含所有源域詞的訓(xùn)練集來(lái)保證訓(xùn)練的效果。

針對(duì)源域詞的數(shù)據(jù)稀疏問(wèn)題,我們?cè)噲D讓包含同一個(gè)源域詞的短語(yǔ)集合進(jìn)行聚類。希望通過(guò)短語(yǔ)自身的相似度比較,隱喻短語(yǔ)和非隱喻短語(yǔ)能夠相互聚成不同的簇。但我們很難判斷聚類后的簇的歸屬(是隱喻短語(yǔ)簇還是非隱喻短語(yǔ)簇)。另外,聚類方法因?yàn)闆](méi)有使用訓(xùn)練集,也很難充分考慮隱喻短語(yǔ)的許多其他的特征。

本工作的創(chuàng)新之處在于,結(jié)合了基于聚類和分類的兩種識(shí)別方法的優(yōu)點(diǎn),設(shè)計(jì)了一套隱喻短語(yǔ)識(shí)別方法。我們將包含源域詞S的短語(yǔ)進(jìn)行聚類。通過(guò)對(duì)聚類后的簇的分析,抽取出聚類特征,并將這些特征作為分類的一類特征。在分類時(shí),我們同時(shí)也考慮S所處的上下文特征和包含S短語(yǔ)的屬性特征。實(shí)驗(yàn)發(fā)現(xiàn),在存在數(shù)據(jù)稀疏的情況下,使用聚類特征的分類結(jié)果無(wú)論在正確率上還是在召回率上都得到很大的提高,并得到較好的結(jié)果。因此,利用聚類的方法能夠有效解決隱喻分類識(shí)別方法中的數(shù)據(jù)稀疏問(wèn)題。

2 漢語(yǔ)隱喻短語(yǔ)的識(shí)別

前期工作中我們已積累1 021個(gè)源域詞,部分示例如表2所示。

表2 部分源域詞示例

本文工作是從句子中識(shí)別隱喻短語(yǔ)。針對(duì)源域詞S,我們從語(yǔ)料中抽取包含S的N+N和A+N形式的短語(yǔ)。要判斷包含S的短語(yǔ)的句子是否是隱喻,只需判斷包含S的短語(yǔ)是否是隱喻短語(yǔ)。我們將隱喻短語(yǔ)的識(shí)別看作一個(gè)分類問(wèn)題。即一個(gè)短語(yǔ)要么是隱喻,要么是非隱喻。我們利用搜索引擎對(duì)每個(gè)源域詞進(jìn)行檢索,從包含源域詞的句子中抽取出包含源域詞且形式是N+N或A+N的短語(yǔ),這些短語(yǔ)以及短語(yǔ)所處的句子構(gòu)成本文工作的實(shí)驗(yàn)語(yǔ)料。

本文方法分以下兩個(gè)步驟:

步驟1隱喻短語(yǔ)的聚類識(shí)別

如圖1所示,對(duì)于語(yǔ)料中的每一個(gè)源域詞i,將包含源域詞i的短語(yǔ)Pi1,……,Pin進(jìn)行聚類。聚類后得到簇Ci1,……,Cim。再?gòu)倪@些簇中抽取每一個(gè)短語(yǔ)P的聚類特征。

圖1 漢語(yǔ)短語(yǔ)特征的生成流程圖

步驟2隱喻短語(yǔ)的分類識(shí)別

將步驟1生成的聚類特征結(jié)合其他特征組成Pij最終的特征向量Fi1……Fin。再將所有漢語(yǔ)短語(yǔ)生成的特征向量利用分類器進(jìn)行訓(xùn)練和分類。

2.1 隱喻短語(yǔ)的聚類識(shí)別

通過(guò)對(duì)漢語(yǔ)隱喻短語(yǔ)的分析發(fā)現(xiàn),一個(gè)隱喻短語(yǔ)的最后一個(gè)詞通常為該短語(yǔ)的源域詞。例如,“心靈<沙漠>”“知識(shí)<海洋>”“就業(yè)<大軍>”等。當(dāng)然也有出現(xiàn)在短語(yǔ)首部的情況,例如,“<花>樣年華”。我們從語(yǔ)料中抽出了300個(gè)隱喻短語(yǔ),其中僅有10個(gè)隱喻短語(yǔ)的源域詞是出現(xiàn)在前面。本文重點(diǎn)考查源域詞出現(xiàn)在隱喻短語(yǔ)的末尾的情況。下面我們用源域詞“大軍”為例來(lái)說(shuō)明本方法的思想?!皠⑧嚧筌姟辈皇请[喻,因?yàn)椤皠⑧嚧筌姟钡纳衔皇恰按筌姟?,進(jìn)行軍事戰(zhàn)斗的部隊(duì)。而“就業(yè)大軍”并不是真正意義上的 “大軍”,它實(shí)際指就業(yè)人員像大軍一樣擁擠。在語(yǔ)料中考查“劉鄧大軍”和“蒙古大軍”發(fā)現(xiàn),如果源域詞以字面義出現(xiàn)在短語(yǔ)中,其上下文經(jīng)常和“戰(zhàn)爭(zhēng)”“敵人”“廝殺”等字面義相關(guān)詞出現(xiàn)。而作為隱喻義時(shí),往往不會(huì)出現(xiàn)這些相關(guān)上下文或只出現(xiàn)少量字面義相關(guān)詞,例如,

“36萬(wàn)‘就業(yè)大軍’今年步入職場(chǎng),你如何能脫穎而出……。”

在上文中更多出現(xiàn)的是和“就業(yè)”相關(guān)的詞匯。也就是說(shuō),源域詞在漢語(yǔ)短語(yǔ)中不表現(xiàn)出隱喻義時(shí),該漢語(yǔ)短語(yǔ)常與其字面義相關(guān)詞集共現(xiàn)頻率較高,其上下文存在一定的共性。我們利用搜索引擎抽取擴(kuò)展?jié)h語(yǔ)短語(yǔ)P的上下文信息。將包含源域詞S的短語(yǔ)P利用搜索引擎檢索,抽取搜索引擎前100項(xiàng)檢索到的網(wǎng)頁(yè)片斷,這些片斷都是包含檢索項(xiàng)的一兩句話。同時(shí),利用一個(gè)停用詞表將一些詞(如“網(wǎng)頁(yè)快照”“圖片”“網(wǎng)頁(yè)”等)過(guò)濾掉。我們將這100項(xiàng)網(wǎng)頁(yè)片斷合成,構(gòu)成一篇文檔D。短語(yǔ)Pi和Pj的相似度用Di和Dj的相似度來(lái)表示。在計(jì)算Di和Dj的相似度時(shí),我們采用常用的consine余弦距離來(lái)計(jì)算。具體計(jì)算方法如式(1)所示。

(1)

基于上面的兩個(gè)漢語(yǔ)短語(yǔ)的相似度計(jì)算,我們采用層次聚類對(duì)所有包含源域詞S的短語(yǔ)P進(jìn)行聚類。具體聚類算法如算法1所示。

算法1:短語(yǔ)的層次聚類算法輸入:D1,D2,…,Di,…,Dj,…Dn;閾值λ輸出:m個(gè)簇C1,…,Cm(1)DoBegin(2) 設(shè)置每個(gè)Di為一個(gè)簇Ci;(3)repeat(4) 計(jì)算每?jī)蓚€(gè)簇Ci和Cj的距離;DistCi,Cj()=minDi∈Ci,Dj∈CiSimDisDi,Dj(){}(5)找到Dist值最小的Distmin, 假設(shè)Distmin=Dist(Cx,Cy)?!fDistmin>λ,Cnew=merge(Cx,Cy)。(6) UntilDistmin<λ(7) End

聚類后,根據(jù)Pi所在簇的信息,我們生成以下關(guān)于Pi的聚類特征:

(1)Pi所在簇的大小;

(2)Pi所在簇是否包含源域詞S(在聚類過(guò)程中,我們將源域詞S本身也參與聚類);

(3)Pi所在簇中低頻率短語(yǔ)的比例F1;

F1=簇中低頻詞數(shù)量/簇大??;

(4)Pi所在簇中“A+N”短語(yǔ)所占比例F2;F2=“A+N”短語(yǔ)數(shù)量/簇的大小。

2.2 隱喻短語(yǔ)的分類識(shí)別

在構(gòu)建分類器時(shí),除上面短語(yǔ)聚類后生成的特征外,還考慮兩類特征:短語(yǔ)上下文特征、短語(yǔ)的屬性特征。

2.2.1短語(yǔ)上下文特征

源域詞Si的上下文定義為:

其中,Sent代表源域詞Wi所處的句子。句子Sent是從搜索引擎檢索Si獲得的網(wǎng)頁(yè)摘要中抽取,Sent包含Si且Si處在N+N或A+N形式的短語(yǔ)中,同時(shí)還要過(guò)濾掉停用詞,本文考慮上下文特征,短語(yǔ)自身特征及說(shuō)明如表3所示。

表3 短語(yǔ)自身特征及說(shuō)明

2.2.2短語(yǔ)的屬性特征

屬性規(guī)則是利用源域詞本身的屬性來(lái)判斷一個(gè)詞歸屬的一種方法。一般認(rèn)為,在上下位關(guān)系中,下位共享著上位的大部分的屬性。隱喻詞匯因?yàn)椴皇窃从蛟~的下位,所以其并不具有或者很少具有源域詞本身的屬性。例如,“沙漠”的屬性有“面積”“溫度”等?!叭龉笊衬笔恰吧衬钡南挛唬瑢ⅰ叭龉笊衬焙蜕衬膶傩栽~綁在一起,并利用搜索引擎檢索。我們的搜索串是:“撒哈拉大沙漠的面積”“撒哈拉大沙漠的溫度”,檢索出來(lái)的詞頻分別是1 030條和647條。“愛(ài)情沙漠”是關(guān)于“沙漠”的一個(gè)隱喻詞,并不具備“面積”“溫度”這些屬性。我們用查詢串“愛(ài)情沙漠的面積”“愛(ài)情沙漠的溫度”來(lái)進(jìn)行查詢,所得結(jié)果都為0。

通過(guò)已有的工作,我們積累了大量的屬性詞和屬性值詞[14-15],對(duì)于包含源域詞S的短語(yǔ)p,利用已有的源域詞S的屬性詞或?qū)傩灾翟~c構(gòu)造兩種查詢串:“p的c”和“p的*c”,再利用搜索引擎檢索,并設(shè)定閾值T,如果檢索到的記錄條數(shù)高于該閾值,就認(rèn)為p具備屬性c。表4給出了源域詞及其屬性相關(guān)詞集示例。

表4 源域詞及其屬性相關(guān)詞集示例

續(xù)表

實(shí)驗(yàn)證明,當(dāng)T取75時(shí),結(jié)果最好,如式(2)所示。

(2)

當(dāng)f(ci,p)=1時(shí),表示短語(yǔ)p具備屬性ci。我們的屬性特征表示如下:

f表示短語(yǔ)p具備源域詞S屬性的程度,num(c)表示源域詞S的屬性及屬性值詞的大小。num(c)=0時(shí)表示無(wú)法獲取源域詞S的屬性詞或?qū)傩灾翟~,此時(shí)無(wú)法獲知p具備S屬性的程度,所以用f=-1來(lái)代替。

從表4可看出,有些源域詞本身很難從語(yǔ)料中自動(dòng)獲取屬性詞或?qū)傩灾翟~。這些詞一般是一些帶在強(qiáng)烈隱喻義的詞匯,它們?cè)诰渥又懈嗟匾噪[喻出現(xiàn),而其字面義出現(xiàn)的情況反而很少。我們將無(wú)法獲取屬性或?qū)傩灾翟~也作為分類特征的一種。即,如果一個(gè)源域詞S,無(wú)法抽取其屬性詞或?qū)傩灾翟~,很有可能這個(gè)詞在語(yǔ)料中傾向于作為隱喻出現(xiàn)。

2.2.3分類器選擇及分類分法

2.2.3.1分類器的選擇

在分類器的選擇上,我們采用以下分類器:Na?ve Bayes、CRF、最大熵和SVM(高斯核函數(shù))。同時(shí)我們對(duì)每種分類器都使用AdaBoost算法進(jìn)行迭代提升。

2.2.3.2分類預(yù)處理

在分類之前,需要遍歷每個(gè)源域詞S,將包含S的短語(yǔ)進(jìn)行聚類,并抽取聚類特征。此時(shí)我們還需要判斷包含S的短語(yǔ)數(shù)量是否足夠多。當(dāng)短語(yǔ)數(shù)量超過(guò)10時(shí)才考慮使用聚類來(lái)得到短語(yǔ)的上下文共性特征。因?yàn)閷?shí)驗(yàn)發(fā)現(xiàn),當(dāng)數(shù)量小于10個(gè)時(shí),聚類的結(jié)果并不理想。

2.2.3.3分類后處理

為充分利用聚類出來(lái)的簇的信息,針對(duì)源域詞S的短語(yǔ)集合,我們循環(huán)對(duì)每一個(gè)短語(yǔ)i進(jìn)行分類判斷是否是隱喻之后,再利用簇的信息再次進(jìn)行結(jié)果的校正,具體校正規(guī)則如下:當(dāng)短語(yǔ)i所在簇的元素?cái)?shù)量大于1,并且簇中非短語(yǔ)個(gè)數(shù)大于短語(yǔ)個(gè)數(shù)時(shí),認(rèn)為短語(yǔ)i的歸屬為非隱喻。即,默認(rèn)為聚類后的簇中元素,或者都為隱喻,或者都為非隱喻。

3 實(shí)驗(yàn)與結(jié)果

3.1 短語(yǔ)聚類結(jié)果及分析

通過(guò)以前的工作,我們已積累源域詞1 021個(gè),從句子中抽取隱喻短語(yǔ)10 023個(gè),非隱喻短語(yǔ)40 097個(gè)。具體源域詞的積累工作如下:

(1) 從三千萬(wàn)名詞短語(yǔ)中將最后一個(gè)詞抽取出來(lái),得到30 056個(gè)尾詞;

(2) 人工從30 056個(gè)尾詞中抽取可能的源域詞,具體利用百度搜索引擎檢索候選源域詞,查看是否能發(fā)現(xiàn)隱喻短語(yǔ),如果存在隱喻短語(yǔ),則說(shuō)明候選源域詞是源域詞。

首先針對(duì)1 021個(gè)源域詞,對(duì)每個(gè)源域詞S,抽取包含S的短語(yǔ)作為實(shí)驗(yàn)語(yǔ)料,然后對(duì)包含源域詞S的短語(yǔ)進(jìn)行聚類。源域詞“大軍”的聚類結(jié)果如圖2所示。

圖2 源域詞“大軍”對(duì)應(yīng)語(yǔ)料聚類結(jié)果

從圖2可看出,當(dāng)源域詞作為本義出現(xiàn)時(shí),其對(duì)應(yīng)短語(yǔ)傾向于聚合在一起;當(dāng)源域詞作為隱喻出現(xiàn)時(shí),部分短語(yǔ)也會(huì)被聚在一起,這是因?yàn)檫@些隱喻詞在一定程度上共用源域詞的某些屬性導(dǎo)致上下文有一定的相似性。另外,有許多隱喻或非隱喻詞匯被聚散,其中大部分被聚散的是隱喻詞匯。

我們采用聚類結(jié)果的純度[16]來(lái)評(píng)價(jià)聚類的效果。其定義如下:給定一個(gè)聚類C和一個(gè)類別A,對(duì)于每個(gè)在C中的簇c,我們計(jì)算類分布如式(5)所示。

(5)

其中a是A中的一個(gè)類,f(c,a)是簇c中元素在類a中的個(gè)數(shù)。*為通配符。

簇c的熵的計(jì)算如式(6)所示。

(6)

純度計(jì)算如式(7)所示。

另外,有些簇中短語(yǔ)個(gè)數(shù)非常少,常有出現(xiàn)個(gè)數(shù)為1的情況,這種簇?zé)o實(shí)際意義,故不加入純度計(jì)算。本實(shí)驗(yàn)只考慮簇中元素個(gè)數(shù)大于5的情況,簡(jiǎn)稱這種元素個(gè)數(shù)大于5的簇為大簇。否則就為小簇。部分源域詞聚類結(jié)果如表5所示。

表5 部分源域詞聚類結(jié)果

表5統(tǒng)計(jì)所有參與聚類的源域詞,其平均E(C)=0.87。從這個(gè)值來(lái)看,聚類出來(lái)的簇的純度是非常高的。也即,聚類的簇中的元素一般是隱喻短語(yǔ),或者是非隱喻短語(yǔ)。另外,也有許多非隱喻短語(yǔ)沒(méi)有被聚成簇,分析影響聚類效果的原因如下:

(1) 有時(shí)短語(yǔ)本身就含有多個(gè)義項(xiàng),比如“馬路殺手”,既可以指某一種對(duì)馬路破壞很大的東西,也可以指某一類專門在馬路上殺人的罪犯。這兩種意思都可能在語(yǔ)料中出現(xiàn)。

(2) 有些短語(yǔ)在語(yǔ)料中并不表現(xiàn)出詞本身的意思,而常為一些公司的名稱。即使是非隱喻術(shù)語(yǔ)也如此。比如,“東方海洋”,搜索前60個(gè)網(wǎng)頁(yè)中,全部都嵌在一個(gè)公司名中。

(3) 聚類的效果與算法本身有關(guān),因?yàn)閷哟尉垲惐旧淼牟豢赡嫘詫?dǎo)致獲得結(jié)果并非一定是最優(yōu)的。

3.2 短語(yǔ)分類結(jié)果及分析

(1) 訓(xùn)練集和測(cè)試集的構(gòu)造

為了測(cè)試訓(xùn)練出來(lái)的分類器對(duì)未在訓(xùn)練集中的源域詞也有效果,我們將已有源域詞分為兩部分,一部分源域詞及其短語(yǔ)作為訓(xùn)練集;另一部分源域詞及其短語(yǔ)作為測(cè)試集。這樣就保證了測(cè)試集中的源域詞沒(méi)有在訓(xùn)練集中出現(xiàn)。

同樣,我們也測(cè)試源域詞在訓(xùn)練集中出現(xiàn)的情況。我們將在訓(xùn)練集中的源域詞的部分短語(yǔ)抽取出來(lái)作為測(cè)試集。在訓(xùn)練時(shí),我們都采用十折交叉驗(yàn)證。

(2) 分類器選擇

采用精度P(precision)、召回率R(recall)以及F值(F-measure)來(lái)評(píng)價(jià)我們的最終結(jié)果。在考慮上下文特征、聚類特征、屬性特征的情況下,使用不同分類算法所得結(jié)果如表6所示。

表6 不同分類算法結(jié)果

通過(guò)表6中數(shù)據(jù)發(fā)現(xiàn)SVM在這些特征下效果表現(xiàn)最好。

(3) 不同特征組合下的實(shí)驗(yàn)結(jié)果比較

下面我們將使用SVM繼續(xù)考察各分類特征在分類中的作用。我們?cè)O(shè)計(jì)以下分類器。

SVM分類器a:訓(xùn)練和分類時(shí)只考慮上下文的特征;(不加入聚類過(guò)程)

SVM分類器b:訓(xùn)練和分類時(shí)考慮短語(yǔ)上下文特征和屬性特征;(不加入聚類過(guò)程)

SVM分類器c:訓(xùn)練和分類時(shí)考慮短語(yǔ)上下文特征、屬性特征、聚類特征;(加入聚類過(guò)程和屬性特征)

SVM分類器d:訓(xùn)練和分類時(shí)考慮短語(yǔ)上下文特征、聚類特征;(加入聚類過(guò)程)

各分類器的分類結(jié)果如表7所示。

表7 源域詞S已出現(xiàn)在訓(xùn)練集中的分類結(jié)果

通過(guò)表7可看出,因?yàn)樵从蛟~S已在訓(xùn)練集中出現(xiàn),在訓(xùn)練集中存在源域詞數(shù)據(jù)的情況下分類器a的效果是不錯(cuò)的。在加入屬性特征之后,分類器b的結(jié)果比分類器a的結(jié)果明顯提高。從分類器a和b可看出:如果能保證源域詞的訓(xùn)練集大小,是可以通過(guò)分類器很好的識(shí)別隱喻現(xiàn)象。加入聚類特征和屬性特征的分類器c的結(jié)果明顯有所提升。說(shuō)明聚類特征即使在源域詞充分的情況下也有提升作用。

表8中考查了源域詞S沒(méi)有在訓(xùn)練集出現(xiàn)的情況。分類器a和分類器b因?yàn)槿鄙僭从蛟~信息,導(dǎo)致識(shí)別結(jié)果較差。通過(guò)加入聚類特征,分類器c的效果明顯提升。因?yàn)榉诸惼鱠沒(méi)有考慮屬性特征,所以其結(jié)果比分類器c差。

表8 源域詞S未出現(xiàn)在訓(xùn)練集中的分類結(jié)果

4 結(jié)論和下一步工作

漢語(yǔ)隱喻處理在中文信息處理領(lǐng)域是一個(gè)新的研究方向。本文在對(duì)前人的實(shí)驗(yàn)進(jìn)行考察的基礎(chǔ)上,發(fā)現(xiàn)通過(guò)分類器來(lái)識(shí)別隱喻的方法存在嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。為應(yīng)對(duì)數(shù)據(jù)稀疏問(wèn)題,本文提出了一種聚類和分類結(jié)合的隱喻短語(yǔ)識(shí)別方法。該方法將包含源域詞S的短語(yǔ)進(jìn)行聚類,產(chǎn)生基于源域詞自身的聚類特征。在利用分類器訓(xùn)練時(shí),將聚類特征加入。同時(shí)我們也考慮了上下文特征和屬性特征。在最后的實(shí)驗(yàn)結(jié)果分析部分,我們重點(diǎn)分析了聚類特征所起的作用。實(shí)驗(yàn)表明,使用聚類產(chǎn)生的特征訓(xùn)練出來(lái)的分類器,不僅能很好地識(shí)別訓(xùn)練語(yǔ)料中存在源域詞數(shù)據(jù)的情況,也能很好的識(shí)別訓(xùn)練語(yǔ)料中缺少源域詞數(shù)據(jù)的情況,具有很高的召回率。

另外,我們分析了目前該方法中仍存在的問(wèn)題,并認(rèn)為本方法還有很大的提升空間。

(1) 本方法第一步需要獲取源域詞,源域詞的多少直接關(guān)系到本方法的結(jié)果,而源域詞集合是通過(guò)人工進(jìn)行抽取的。該抽取過(guò)程耗時(shí)耗力,并且新的源域詞也會(huì)隨著語(yǔ)言的發(fā)展不斷增多。所以有必要增加自動(dòng)獲取源域詞方法。后續(xù)我們將重點(diǎn)在這方面進(jìn)行考察。

(2) 有些詞本身就有二義性。比如“少女殺手”,該詞既可以表示專殺少女的殺手,也可以表示獲得少女芳心的情場(chǎng)高手。這種詞的存在造成區(qū)分界線不明顯,對(duì)結(jié)果帶來(lái)一定的影響。另外,在測(cè)試集中存在著一些姓名和商標(biāo)名,比如李海洋、趙大軍等這種詞。因?yàn)檫@些詞本身不是隱喻短語(yǔ),但源域詞在其中又不作為本義出現(xiàn)。所以,用本方法對(duì)它們進(jìn)行識(shí)別,常得出錯(cuò)誤的結(jié)果。

(3) 屬性詞作用有限,有些詞匯雖然有某種屬性,但并不一定在語(yǔ)料中和該屬性詞同時(shí)出現(xiàn)。例如,“中國(guó)沙漠”雖然具備沙漠的屬性,但“中國(guó)沙漠的面積”“中國(guó)沙漠的溫度”的檢索結(jié)果都為0。類似這樣的詞匯有很多,例如,“西方大軍”“東方海洋”等。

以上問(wèn)題都是我們今后所要研究和解決的重點(diǎn)。

[1]徐波,孫茂松,靳光瑾.中文信息處理若干重要問(wèn)題[M],北京:科學(xué)出版社,2003:55-56.

[2]王治敏.名詞隱喻相似度及推理識(shí)別研究[J].中文信息學(xué)報(bào),2008,22(3):37-43.

[3]Fass D.met*:A method for discriminating metonymy and metaphor by computer[J].Computational Linguistics,1991,17(1):49-90.

[4]Martin J H.A computational model of metaphor interpretation[M].San Diego,CA,USA:Academic Press Professional Inc,1990.

[5]Mason Z J.CorMet:A computational,corpus-based conventional metaphor extraction system[J].Computational Linguistics,2004,30(1):23-44.

[6]Birke J,Sarkar A.A clustering approach for nearly unsupervised recognition of nonliteral language[C]//Proceedings of the European Chapter of the Association for Computational Linguistics.Trento,Italy,2006:329-336.

[7]Gedigian M,Bryant J,Narayanan S,et al.Catching metaphors[C]//Proceedings of the Third Workshop on Scalable Natural Language Understanding,New York,2006:41-48.

[8]Shutova E,Korhonen A.Metaphor identification using verb and noun clustering[C]//Proceedings of the 23rd International Conference on Computational Linguistics,Beijing,China,2010:1002-1010.

[9]Yosef B S,Mark L.MIL:Automatic metaphor identification by statistical learning[C]//Proceedings of the Workshop on Interactions Between Data Mining and Natural Language Processing,Porto,Portugal,2015:19-29.

[10]王治敏.漢語(yǔ)名詞短語(yǔ)隱喻識(shí)別研究[M].北京:北京語(yǔ)言大學(xué)出版社,2010:1-19.

[11]趙紅艷,曲維光,張芬,等.基于機(jī)器學(xué)習(xí)與語(yǔ)義知識(shí)的動(dòng)詞隱喻識(shí)別[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2011,11(3):59-64.

[12]李斌,于麗麗,石民,等.“像”的明喻計(jì)算[J].中文信息學(xué)報(bào),2008,22(6):27-32.

[13]黃孝喜.隱喻機(jī)器理解的若干關(guān)鍵問(wèn)題研究[D].杭州:浙江大學(xué)博士學(xué)位論文,2009.

[14]汪平仄.面向Web語(yǔ)料的概念屬性和屬性值獲取方法研究[D].北京:中國(guó)科學(xué)院大學(xué)博士學(xué)位論文,2014.

[15]汪平仄,曹存根,王石.一種迭代式的概念屬性名稱自動(dòng)獲取方法[J].中文信息學(xué)報(bào),2014,28(4):58-67.

[16]Steinbach,M.,G.Karypis,V.Kumar.A Comparison of Document Clustering Techniques[C]//proceedings of KDD Workshop Text Mining,Boston,MA,USA,2000:1-20.

符建輝(1985—),碩士,工程師,主要研究領(lǐng)域?yàn)橹R(shí)獲取、數(shù)據(jù)挖掘。E-mail:fujianhui@ict.ac.cn

王石(1981—),博士,副研究員,主要研究領(lǐng)域?yàn)橹R(shí)的獲取、表示與推理,機(jī)器學(xué)習(xí)。E-mail:wangshi@ict.ac.cn

曹存根(1964—),博士,研究員,主要研究領(lǐng)域?yàn)榇笠?guī)模知識(shí)獲取與管理。E-mail:cgcao@ict.ac.cn

猜你喜歡
源域語(yǔ)料分類器
多源域適應(yīng)方法綜述
基于參數(shù)字典的多源域自適應(yīng)學(xué)習(xí)算法
BP-GA光照分類器在車道線識(shí)別中的應(yīng)用
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
可遷移測(cè)度準(zhǔn)則下的協(xié)變量偏移修正多源集成方法
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
南丰县| 德清县| 中山市| 鄄城县| 汤原县| 西贡区| 三亚市| 开封县| 古浪县| 梁山县| 灵台县| 张家港市| 宜宾县| 唐山市| 寿宁县| 东至县| 新密市| 宜城市| 襄城县| 宁阳县| 芜湖县| 呼伦贝尔市| 南城县| 南涧| 雅江县| 宣恩县| 灵石县| 吴川市| 四子王旗| 白玉县| 牙克石市| 拉孜县| 闵行区| 雷山县| 延庆县| 象山县| 衡东县| 石首市| 桃江县| 南阳市| 常山县|