曾華琳,周昌樂,陳毅東,史曉東
(廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點實驗室,福建廈門361005)
基于特征自動選擇方法的漢語隱喻計算
曾華琳,周昌樂*,陳毅東,史曉東
(廈門大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點實驗室,福建廈門361005)
摘要:漢語隱喻計算是中文信息處理中的棘手難題之一.已有的隱喻識別研究多以人工方式分析和抽取隱喻特征,存在著主觀性強(qiáng)、難以擴(kuò)充的缺點,并且對于專業(yè)背景知識要求比較嚴(yán)格.本文基于大規(guī)模語料庫的機(jī)器學(xué)習(xí),利用最大熵分類模型,提出了一種最優(yōu)特征模板自動抽取的隱喻識別算法,討論了3種不同層次的特征模板,既包含了經(jīng)典的簡單特征,又將跨多個詞的遠(yuǎn)距離上下文信息,以及描述語義信息的詞語相似性引入特征模板進(jìn)行考察.實驗結(jié)果表明,該算法提高了隱喻識別準(zhǔn)確率,是一種對于漢語隱喻計算行之有效的機(jī)器學(xué)習(xí)方法.
關(guān)鍵詞:漢語隱喻計算;隱喻識別;機(jī)器學(xué)習(xí);自動特征選擇
隱喻,廣泛存在于人類的語言生活中.從先古哲學(xué)家亞里士多德的修辭學(xué),到現(xiàn)代萊可夫的認(rèn)知語言學(xué),無論是在中文語言學(xué),抑或是在西方語言學(xué)研究中,隱喻一直是處于前沿探索階段的項目[1-7].在語言學(xué)與計算機(jī)科學(xué)的交叉學(xué)科——中文信息處理中,隱喻則屬于語義級別的范疇,至今仍然是亟待解決的棘手難題之一.
漢語隱喻的研究,主要集中在隱喻識別和隱喻理解兩大方面,統(tǒng)稱為隱喻計算.隱喻識別旨在從上下文環(huán)境中判斷隱喻現(xiàn)象的存在,而隱喻理解則需要給出對于隱喻意義的推理.從方法論而言,分別有規(guī)則、統(tǒng)計和邏輯的方法.長期以來,在隱喻計算研究中,規(guī)則和邏輯的方法占據(jù)了主流地位.已有的研究[8-15]中,無論是純規(guī)則,或者是規(guī)則和統(tǒng)計相結(jié)合的方法,規(guī)則都是由人工整理和編寫的,建立在人工收集和定義描述的基礎(chǔ)上.而通過人工進(jìn)行收集和編寫的規(guī)則,規(guī)模有限,主觀性強(qiáng),不易于擴(kuò)充,這是規(guī)則(rule-based)方法的通病,也是阻礙隱喻計算實用化的癥結(jié)所在.
近年來,機(jī)器學(xué)習(xí)方法[16-17]運用到計算語言學(xué)的各個領(lǐng)域,都獲得了很好的效果,特別是在大語料環(huán)境下的機(jī)器學(xué)習(xí)方法的成功使用.隱喻計算中也曾有機(jī)器學(xué)習(xí)方法的嘗試,王治敏[10,14]利用最大熵模型研究了名詞性漢語隱喻短語的識別,賈玉祥[13,18]則提出了基于實例的隱喻理解與生成,而在他們的研究中,特征的選取仍然是人工進(jìn)行的,對每個單獨的隱喻候選詞,每個特殊隱喻現(xiàn)象的特征都進(jìn)行詳細(xì)考察,這要求特征的選取者對于隱喻計算模型有著深刻的認(rèn)識,終究避免不了人工方式所帶來的困境,無法將隱喻計算做到一般化的過程.
為了避免人工方法所帶來的缺陷,消除主觀性及隱喻特征選擇的不一致性,本文提出了一種基于大規(guī)模語料庫的漢語隱喻特征自動抽取方法,將機(jī)器學(xué)習(xí)中的特征選擇思想引入到漢語隱喻計算中,分析漢語隱喻在詞、句法結(jié)構(gòu)以及語義層面上的不同特點,給出3種不同類型的特征模板描述,并利用最大熵模型構(gòu)建漢語隱喻特征模板庫,以有監(jiān)督學(xué)習(xí)方式處理漢語隱喻計算.
1漢語隱喻計算的機(jī)器學(xué)習(xí)分類模型
分類是機(jī)器學(xué)習(xí)算法中的典型任務(wù),基本思想是訓(xùn)練分類函數(shù),然后將待分類對象以特征序列表示進(jìn)行輸入,通過計算分類函數(shù)得到的數(shù)值給出分類結(jié)果.隱喻計算屬于典型的機(jī)器學(xué)習(xí)分類問題.本文提出一種適用于漢語隱喻計算的機(jī)器學(xué)習(xí)分類模型,用于構(gòu)建隱喻計算的2個基本任務(wù).
1.1隱喻計算中的分類
隱喻計算的不同階段都可以建立分類模型,其理論依據(jù)在于隱喻的本質(zhì)——“同從異出”,即在識別出隱喻的存在并確定本體和喻體之后,在概念系統(tǒng)中,把比較具體的喻體(相當(dāng)于源域)的知識,與比較抽象的本體(相當(dāng)于目標(biāo)域)的知識進(jìn)行比較,通過動態(tài)的互動過程描述,用喻體知識來“認(rèn)識”本體對象.在這個過程中,作為本體和喻體,都有許多不同的意義描述.
隱喻計算分為2個階段進(jìn)行:1) 隱喻識別.從表面上看,喻體的概念范疇與本體差別較大,引起強(qiáng)烈的沖突感,即所謂“異出”.正確感知這種沖突感,實現(xiàn)隱喻識別,這是個二值分類問題.2) 隱喻理解.本體的理解是一個依賴于喻體特征的有選擇性的部分映射,這種映射過程并不是隨意的,而是根據(jù)其上下文環(huán)境的限制聚焦后而得的映射結(jié)果.于是,隱喻理解可以看作是在上下文環(huán)境中,本體受喻體概念聚焦后對于意義再次分類而確定相似點的過程,一旦能夠正確地選定相似點,隱喻理解就完成了,這所謂找到了“同從”.隱喻的理解,正是一個從“異出”聚焦到“同從”的過程.最后,隱喻計算還有一個任務(wù),即隱喻生成,它完成了從“同從”本質(zhì)選擇“異出”表現(xiàn)的過程.
綜上所述,隱喻識別屬于二值分類問題,選取隱喻候選詞上下文的特征,根據(jù)有效分類算法,作出是否存在隱喻現(xiàn)象的判斷;而隱喻理解屬于多值分類問題,在給定句子的本體和喻體之后,分析兩者的各個義項,確定相似點,完成隱喻的理解過程.隱喻識別與理解可以類比于自然語言處理的經(jīng)典問題——詞義消歧[19-20],三者之間的不同點比較如表1所示.
表1 隱喻計算與詞義消歧的分類模型
注:多對多指本體與喻體在意義范疇的相似點確定;一對多指多個詞義的唯一確定.
在對隱喻計算的分類任務(wù)建模之后,本文將經(jīng)典的機(jī)器學(xué)習(xí)分類算法引入隱喻計算中來,特別地針對隱喻識別進(jìn)行研究.
1.2隱喻計算的分類特征模板
在常見的機(jī)器學(xué)習(xí)分類任務(wù)中,最重要的在于特征模板的構(gòu)建.隱喻計算的分類模型中包含了2個任務(wù):1) 定義隱喻計算中的特征.隱喻作為意識層面的認(rèn)知任務(wù),其特征不再僅僅停留于一般的文本分類任務(wù)的特征,本文引入了語義層面的知識,將語義相似度作為顯著特征進(jìn)行表述.2) 收集針對每一個隱喻候選詞的有效特征模板.隱喻候選詞應(yīng)該包含本體以及喻體,即在隱喻理解過程中本、喻體各自的知識概念有效特征模板表示.
1.3基于最大熵的隱喻計算分類模型
最大熵模型[21]的優(yōu)勢在于忠于大規(guī)模真實文本,特別是對于“稀疏事件”問題的處理上,它能使得未知事件的概率分布不做任何假設(shè),盡可能平均,以得到最大熵為目標(biāo).
在有約束條件的情況下,使條件熵最大化,即:
(1)
式中:c為約束條件,在本任務(wù)中,即隱喻現(xiàn)象的上下文環(huán)境;m為是否是隱喻的分類描述.約束條件是用特征函數(shù)(簡稱為特征)進(jìn)行描述的.
綜上所述,本文重點對于隱喻識別的特征模板進(jìn)行考察.利用語言學(xué)知識,定義備選特征模板庫,針對隱喻候選詞進(jìn)行最大熵模型訓(xùn)練,通過自動特征選擇算法,篩選顯著特征模板,完成隱喻識別的特征自動抽取過程.
2隱喻計算的最優(yōu)特征模板選擇算法
2.1最優(yōu)特征模板選擇算法
本文針對語料庫中出現(xiàn)頻率較高的隱喻候選詞進(jìn)行訓(xùn)練,抽取每個特定候選詞的最優(yōu)特征模板集.這是一個最優(yōu)子集合問題,屬于組合數(shù)范疇,也是一個NP完全問題,其算法時間復(fù)雜度為2n.為了降低算法計算復(fù)雜度,本文選擇利用貪心算法構(gòu)建模板選擇過程.最優(yōu)特征模板選擇算法描述如下:
輸入:特征模板集合F={Fi};隱喻候選詞;隱喻正反例訓(xùn)練庫;隱喻句測試庫.
輸出:針對特定隱喻候選詞的最優(yōu)特征模板子集S.
初始化最優(yōu)特征模板子集S=NULL,循環(huán)迭代次數(shù)Istop=0,最優(yōu)分?jǐn)?shù)BBsstscore=0;
While特征模板集合F不為NULL do;
T=S;Cscore[]=0;
Forj=1 to sizeof(F)遍歷特征模板集合F中所有的特征Fj;
T=T+Fj;
以當(dāng)前特征模板集合T訓(xùn)練最大熵模型MaxHP(T),并對其進(jìn)行評分Cscore[j];
T=T-Fj;
end for;
圖1 系統(tǒng)流程圖Fig.1System flowchart
記錄取得最高分的特征MaxCscoreF,以及最高分?jǐn)?shù)MaxCscore;
IF本輪最高分?jǐn)?shù)MaxCscore> 迭代最優(yōu)分?jǐn)?shù)BBsstscore;
將對應(yīng)的特征MaxCscoreF納入最優(yōu)特征模板子集S中,并更新BBsstscore;
else;
循環(huán)迭代次數(shù)Istop=Istop+1;
end if;
IF 循環(huán)迭代次數(shù)Istop超過3次;
結(jié)束搜索break;
end if;
end while;
ReturnS.
從備選特征模板集合中選擇備選特征,考察備選特征項對于整體分類模型的影響,從而決定是否加入特征模板,選擇過程依次逐步開展.考察過程分2步:1) 在訓(xùn)練集中訓(xùn)練加入備選特征項后的特征集合的分類模型;2) 在測試集中計算此分類模型的得分,記錄分?jǐn)?shù),選擇取得最高分?jǐn)?shù)的特征項.如果此得分比前一代模板得分高,則將此模板項加入特征模板集;否則,迭代次數(shù)加1.當(dāng)分類模型得分下降的次數(shù)超過3次,或者備選特征模板集合為空,則停止考察.
系統(tǒng)整體流程如圖1所示.
2.2特征模板構(gòu)造
特征函數(shù)通常選擇二值函數(shù)或者頻率.隱喻計算中常用特征,在人工抽取上常見于選擇在詞義上具有典型特征的詞匯,特定的輔助虛詞,特殊的語法結(jié)構(gòu)等.本文針對隱喻識別任務(wù),定義了3種層次的隱喻特征:簡單特征、依存關(guān)系構(gòu)建的上下文環(huán)境特征、異常度特征.
2.2.1簡單特征
以詞為序列的特征函數(shù)構(gòu)建任務(wù)中,常選擇詞、詞性、N元詞與詞性的組合.這類特征里具有顯著效果的是與此相關(guān)的特征詞、高頻共現(xiàn)、慣用搭配以及常見語法搭配格式.例如,王治敏在其研究[10,14]中核心討論了名詞隱喻中常見的“名詞+的+名詞”結(jié)構(gòu),該結(jié)構(gòu)會在中心詞向左或者向右的跨度為2個詞的窗口中,以“名詞+的”或“的+名詞”的模式被凸顯.
以“他沉浸在書籍的海洋里不能自拔.”為例說明.
分詞標(biāo)注以后的結(jié)果為“他/rr 沉浸/v 在/p 書籍/n 的/uj 海洋/n 里/f 不能自拔/v./w”.
候選詞“海洋”,W-2為“書籍”,W-1為“的”,W+1為“里”,W+2為“不能自拔”,Pos-2為“n”,Pos-1為“uj”,Pos0為“n”,Pos+1為“f”,Pos+2為“v”.
2.2.2上下文環(huán)境特征
隱喻的出現(xiàn)與上下文關(guān)系是密切聯(lián)系的, 在某些上下文環(huán)境下,有些句子無法識別為隱喻;然而換個上下文環(huán)境,隱喻意義則會呈現(xiàn)出來,這里的上下文環(huán)境不僅僅是在簡單特征中所描述的詞的包圍,而是包含了在語法結(jié)構(gòu)中的語法環(huán)境.文獻(xiàn)[12]中提到,除了“辯詞”、“斷義”之外,“按語法分割意群”和“將意群組合成句”都是隱喻相似點選擇所依賴的隱喻語境作用機(jī)制.另外,隱喻意義的理解在不同的語境下也會聚焦到不同的意義.簡單特征中,窗口大小的選擇是有長度限制的,增加窗口長度所帶來的計算復(fù)雜度的增大與由此帶來的系統(tǒng)準(zhǔn)確率的提高相比,得不償失;特別對于復(fù)雜長句來說,在目標(biāo)詞附近尋找到顯著特征是一件非常困難的事情,但是又不能無條件地擴(kuò)大窗口.于是,加入語法分析后的語法結(jié)構(gòu)特征將是一個很好的選擇.
表2 簡單特征
HED:核心關(guān)系;SBV:主謂關(guān)系;VOB:動賓關(guān)系(直接賓語);ATT:定中關(guān)系;RAD:右附加關(guān)系;COO:并列關(guān)系;ADV:狀中關(guān)系;WP:標(biāo)點符號.圖2 依存語法舉例Fig.2Example of dependency grammar
以如下句子“草原是這樣無邊的平展,就像風(fēng)平浪靜的海洋.”分析.本體“草原”和喻體“海洋”分別以主語和賓語的形式出現(xiàn),中間間隔的詞有9個:“的”、“風(fēng)平浪靜”、“像”、“就”、“平展”、“的”、“無邊”、“這樣”、“是”.
例句的依存語法描述如圖2所示.隱喻關(guān)系中的本、喻體“草原”和“海洋”之間,在依存語法中以主賓關(guān)系共現(xiàn).抽取經(jīng)過依存語法分析后而得的語法結(jié)構(gòu)特征作為有效模板,對于隱喻識別準(zhǔn)確率的提高是有很大幫助的.在前人做過的隱喻識別算法中,曾經(jīng)有以依存語法作為分析的依據(jù),然而,對于依存語法的使用是利用模式匹配的方式來進(jìn)行,并沒有針對于某個隱喻候選詞的特殊分析,本文將依存語法分析后得到的語法特征以及語法搭配模式加入考察.一方面,加入其語法信息;另一方面,加入依存語法中的上下文搭配,這樣也是對于“按語法分割意群”和“將意群組合成句”的語境作用機(jī)制的運用.于是,考慮增加表3的上下文環(huán)境特征.
表3 上下文環(huán)境特征
2.2.3異常度特征
異常度特征是在機(jī)器學(xué)習(xí)下,對于人工規(guī)則的一種補充.這里,本文將隱喻的沖突機(jī)制作為特定的特征進(jìn)行引入.所謂沖突機(jī)制,闡述的是隱喻“同從異出”機(jī)制中本、喻體之間在概念范疇內(nèi)的同異關(guān)系.本文研究的對象集中于名詞性的隱喻,考察語料庫中關(guān)于名詞性隱喻的結(jié)構(gòu),90%以上核心詞的依存語法中,存在“名詞+名詞”結(jié)構(gòu)和“主語+賓語”結(jié)構(gòu),即本體和喻體都是名詞.于是,考察與目標(biāo)詞搭配的名詞,考察潛在的本體或者喻體與目標(biāo)詞之間的異常度.
知網(wǎng),作為知識概念系統(tǒng)及概念屬性的描述,可以給出詞語之間的語義相似度,這正是在意義的相似性方面給出的潛在本、喻體之間的異常度描述.在此,選取知網(wǎng)的相似度計算作為異常度特征(表4)進(jìn)行考察,計算公式如下:
(2)
其中S1j,S2j分別為考察目標(biāo)詞W1及目標(biāo)詞搭配名詞W2在知網(wǎng)中的義項.
表4 異常度特征
2.2.4窗口大小選擇
表5 窗口大小實驗結(jié)果比較
窗口大小主要在簡單特征中進(jìn)行不同的實驗,以隱喻候選詞為中心,在規(guī)定大小的上下文窗口中選擇具有典型意義的特征模板,從訓(xùn)練數(shù)據(jù)中獲取特征數(shù)據(jù),形成特征向量,以指導(dǎo)分類的進(jìn)行.在語言學(xué)理論中,詞語的上下文環(huán)境決定詞義,可以通過不涉及詞的意義層次,而通過上下文的語法特征來描述其意義.選取不同大小的窗口進(jìn)行橫向比較是有必要的.窗口選擇過小,不能很好地體現(xiàn)目標(biāo)詞的上下文環(huán)境;而窗口選擇過大,雖然上下文信息比較豐富,但是也由此帶入了不必要的噪音,并且?guī)碛嬎懔康闹笖?shù)級增加.選擇合適大小的窗口,既包含可計算信息,又能在算法效率上找到平衡點,這顯得尤為重要.
2.3評價函數(shù)
最大熵模型用于對特征模板的訓(xùn)練和隱喻計算過程中.在系統(tǒng)流程中,每輪的模型訓(xùn)練選擇一個備選特征加入到候選模板中,利用最大熵模型進(jìn)行參數(shù)的訓(xùn)練,將得到的最大熵模型在測試數(shù)據(jù)上進(jìn)行測試,計算識別F-Measure值(后簡稱F值),F值是準(zhǔn)確率P和召回率R的加權(quán)調(diào)和平均,以此值為衡量該特征模板的標(biāo)準(zhǔn),計算公式如下:
(3)
(4)
(5)
3實驗分析與對比
從《讀者》、《圍城》中抽取隱喻句庫,從漢語比喻詞典中抽取經(jīng)典比喻句,組成隱喻正例庫,同時也抽取反例庫,并選取新浪微博數(shù)據(jù)做實驗語料.選擇在語料中使用較為頻繁的10個名詞作為研究對象,考察它們在真實語料中的隱喻分布情況,用最大熵方法進(jìn)行隱喻的識別.
從語料庫中總提取1 000個樣本,其中每個詞語構(gòu)造約100個實驗樣本.測試集與訓(xùn)練集比例選取3∶7.開放測試集從搜索引擎收集及《人民日報》1998年上半年語料,針對每個詞語構(gòu)造約50個實驗樣本.
最大熵模型的使用,選擇最大熵工具包(Maximum Entropy Modeling Toolkit for Python and C++,ZHANG Le,2004-12-29),參數(shù)估計選用LBFGS,迭代次數(shù)為100次.本文實驗的計算機(jī)硬件配置為Intel i7-4510型CPU,8 G內(nèi)存,運行64位操作系統(tǒng).實驗程序代碼由C++實現(xiàn),編程環(huán)境為Microsoft Visual Studio 2008版.
3.1窗口大小對于簡單特征的影響
首先對窗口大小單獨進(jìn)行考察,僅針對簡單特征在封閉測試下進(jìn)行.這里節(jié)選“海洋”、“愛情”、“港灣”、“心靈”4個候選詞的結(jié)果列表展示于表5.
總體來看,(-2,+1)和(-2,+2)窗口的識別準(zhǔn)確率大體上要高于(-1,+1)窗口,而(-2,+1)和(-2,+2)效果相當(dāng).因為(-1,+1)窗口太小,出現(xiàn)在窗口內(nèi)的詞語較少,很難全面衡量影響名詞短語隱喻的各個因素,在隱喻識別上存在較大的偶然性和武斷性.而隨著窗口的增大、詞語數(shù)目的增多,特征值數(shù)量也隨之增多,從而更全面地考察了隱喻識別的各個因素,減少了因窗口太小而造成的誤差,使得準(zhǔn)確率有所上升.最終,本文選擇了(-2,+2)作為實驗中簡單特征的窗口大?。?/p>
3.2自動模板抽取算法結(jié)果分析
本文考察的是漢語隱喻特征的自動抽取方法,結(jié)果分析從2個方面進(jìn)行.1) 分析模板自動抽取方式與模板人工抽取方式下的整體隱喻識別準(zhǔn)確率變化情況;2) 分析自動抽取的模板與人工抽取的模板的變化情況.
圖3和圖4中分別描述的是在封閉測試和開放測試環(huán)境的不同抽取方式下,10組候選詞的F值的變化情況對比.橫坐標(biāo)描述的是10組不同候選詞,縱坐標(biāo)描述的是F值(0≤F≤1).可以看到,無論在封閉測試,還是開放測試,在10組候選詞的測試結(jié)果中,本文提出的自動抽取算法的整體F值相對于人工方式都有一定的提高.整體上看,在2種方式下,F值的取值走向一致也說明了機(jī)器學(xué)習(xí)的方式抽取模板可以很好地模擬具有相關(guān)知識背景的專業(yè)人士抽取方式,這從極大程度上解決了由人工抽取模板方法而導(dǎo)致的效率低下、無法擴(kuò)充、主觀性強(qiáng)的缺陷,說明了機(jī)器學(xué)習(xí)方式在隱喻計算領(lǐng)域的可行性.
圖3 封閉測試F-Measure值結(jié)果Fig.3F-Measure result of closed test sets
圖4 開放測試F-Measure值結(jié)果Fig.4F-Measure result of open test sets
另外,為了起參照作用,列舉本文提出的自動模板抽取算法抽取的特征如表6所示.
表6 自動模板抽取
從以上的模板抽取結(jié)果可以看出,常規(guī)的簡單特征在每個不同候選詞的結(jié)果中會有不同的選擇,并不是所有的簡單特征都適用于所有模板.本文提出的另兩類模板都有在最后的結(jié)果中出現(xiàn),說明此兩類模板確實是有效模板.必須看到的是,本文算法提取的是有效特征模板,而其對應(yīng)的特征數(shù)量相較于人工提取方式而言還是比較多的.人工方式對于特征的提取,具體到每個候選詞的每個特征的具體詞;而模板方式抽取,只進(jìn)行到特征模板層次,對于每個特征的具體實際選擇包含的內(nèi)容比較多.因此,在算法復(fù)雜度以及計算量上,自動抽取方式相較人工抽取方式會復(fù)雜得多;但自動抽取方式更加客觀,并且是一般化的處理過程,減少了人工抽取方式的主觀性缺陷.
4結(jié)論
本文從分析漢語隱喻計算中人工方式所帶來的主觀性以及規(guī)范性問題出發(fā),構(gòu)建了隱喻計算的2種分類任務(wù),并利用機(jī)器學(xué)習(xí)方法對其進(jìn)行建模,分別構(gòu)造了隱喻識別和理解任務(wù)的分類模型,提出了一個機(jī)器學(xué)習(xí)方式自動抽取最優(yōu)特征模板的算法.從實驗結(jié)果看,相較于人工抽取模板的方式而言,準(zhǔn)確率有顯著的提高,其更重要的意義在于從大語料庫出發(fā),以機(jī)器學(xué)習(xí)方式取代人工規(guī)則方式所帶來的主觀性缺陷,是一種值得推廣的學(xué)習(xí)方式.
本文的研究工作還有提升空間.本文算法的計算量大,對于某個候選詞的特征模板選擇在數(shù)量級上超過人工抽取方式,另外受語料庫影響也比較大,這都是機(jī)器學(xué)習(xí)方式無法避免的弊端.進(jìn)一步的改進(jìn)任務(wù)在于:1) 本文主要是針對以名詞為主體的隱喻現(xiàn)象的處理,可以將這種形式推廣到動詞、形容詞性的短語隱喻描述,進(jìn)一步的從短語級別推廣到句子級別等;2) 針對文中提出的隱喻理解和隱喻生成模型提出適用于機(jī)器學(xué)習(xí)的算法進(jìn)行嘗試.
參考文獻(xiàn):
[1]LAKOFF G,JOHNSON M.Metaphors we live by[M].Chicago:University of Chicago Press,1980.
[2]GOALTY A.The language of metaphors[M].New York:Routledge,1997.
[3]RICOEUR P.活的隱喻[M].汪堂家,譯.上海:上海譯文出版社,2004.
[4]馮廣藝.漢語比喻研究史[M].武漢:湖北教育出版社,2002.
[5]馮曉虎.隱喻:思維的基礎(chǔ) 篇章的框架[M].北京:對外貿(mào)易大學(xué)出版社,2004.
[6]胡壯麟.認(rèn)知隱喻學(xué)[M].北京:北京大學(xué)出版社,2004.
[7]束定芳.隱喻學(xué)研究[M].上海:上海外語教育出版社,2000.
[8]楊蕓.漢語隱喻識別與解釋計算模型研究[D].廈門:廈門大學(xué),2008.
[9]蘇暢.漢語名詞性隱喻的計算方法研究[D].廈門:廈門大學(xué),2008.
[10]王治敏.漢語名詞短語隱喻識別研究[D].北京:北京大學(xué),2006.
[11]黃孝喜.隱喻機(jī)器理解的若干關(guān)鍵問題研究[D].杭州:浙江大學(xué),2009.
[12]周昌樂.意義的轉(zhuǎn)繹:漢語隱喻的計算釋義[M].北京:人民出版社,2009.
[13]賈玉祥.基于實例的隱喻理解與生成[J].計算機(jī)科學(xué),2009,36(3):138-141.
[14]王治敏.名詞隱喻的計算研究及識別實驗[J].語言教學(xué)與研究,2008(2):68-74.
[15]馮帥,蘇暢,陳怡疆.基于百科資源的名詞性隱喻識別[J].計算機(jī)系統(tǒng)應(yīng)用,2013,22(10):8-14.
[16]YAO G,ZENG H L,CHAO F,et al.Integration of classifier diversity measures for feature selection-based classifier ensemble reduction[C]∥Soft Computing.Berlin:Springer Berlin Heidelberg,2015:1-11.
[17]DIAO R,CHAO F,PENG T,et al.Feature selection inspired classifier ensemble reduction[J].IEEE Transactions on Cybernetics,2014,44(8):1259-1268.
[18]賈玉祥,俞士汶.基于詞典的名詞性隱喻識別[J].中文信息學(xué)報,2011,25(2):99-104.
[19]何徑舟,王厚峰.基于特征選擇和最大熵模型的漢語詞義消歧[J].軟件學(xué)報,2010,21(6):1287-1295.
[20]全昌勤,何婷婷,姬東鴻,等.基于多分類器決策的詞義消歧方法[J].計算機(jī)研究與發(fā)展,2006,43(5):933-939.
[21]BERGER A L,PIETRAY S A D,PIETRAY V J D.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):1-36.
Chinese Metaphor Computation Based on Automatic Feature Selection
ZENG Hualin,ZHOU Changle*,CHEN Yidong,SHI Xiaodong
(Fujian Key Lab of the Brain-like Intelligent Systems,School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)
Abstract:Chinese metaphor computation is one of difficult problems in the Chinese information processing.It is very subjective and difficult for existing research methods by manually analyzing and extraction of metaphor feature.For the purpose of analyzing the traditional rule-based methods,a new machine learning method based on large scale corpus is proposed for metaphor recognition.The proposed method uses the maximum entropy model,and three different feature patterns,which are common features,large-scale context information,and the similarity of candidate words, to describe semantic information.Experimental results show that the proposed method can improve the accuracy of the metaphor recognition,and also indicate the effectiveness of the proposed machine learning method for metaphor computation.
Key words:Chinses metaphor computation;metaphor recognition;machine learing;automatic feature selection
doi:10.6043/j.issn.0438-0479.2016.03.018
收稿日期:2015-11-17錄用日期:2016-04-06
基金項目:國家自然科學(xué)基金(61573294);國家科技支撐計劃(2012BAH14F03);教育部博士學(xué)科點基金博導(dǎo)類項目(20130121110040)
*通信作者:dozero@xmu.edu.cn
中圖分類號:TP 391.1
文獻(xiàn)標(biāo)志碼:A
文章編號:0438-0479(2016)03-0406-07
引文格式:曾華琳,周昌樂,陳毅東,等.基于特征自動選擇方法的漢語隱喻計算.廈門大學(xué)學(xué)報(自然科學(xué)版),2016,55(3):406-412.
Citation:ZENG H L,ZHOU C L,CHEN Y D,et al.Chinese metaphor computation based on automatic feature selection.Journal of Xiamen University(Natural Science),2016,55(3):406-412.(in Chinese)