對國外隱喻語料庫研究方法的辯證分析

2014-03-31 12:45劉豐，張群

河南理工大學學報(社會科學版) 2014年3期

劉豐，張群

(中國礦業(yè)大學外語學院，江蘇徐州221116)

隱喻研究一直是語言學研究領域的熱點［1］。過去的三十年見證了隱喻研究的發(fā)展，然而隱喻與語料庫語言學的結合卻是近年來才出現(xiàn)的。語料庫能夠為語言研究帶來豐富的信息［2］，最顯著的是隱喻表達的頻數(shù)和語境，為概念隱喻實際存在的闡釋力提供了支撐。由于概念隱喻是基于自上而下方法的語言研究范式，人們往往使用直覺來檢驗實際生活中的隱喻表達是否展現(xiàn)出概念隱喻的基本特征，而大型語料庫能夠為隱喻的概念化過程提供語言支撐。

Deignan指出，隱喻語料庫研究目的是證明概念隱喻理論是如何闡釋自然語言中的隱喻的，具體包括兩方面:檢索語料庫，發(fā)現(xiàn)隱喻使用模式和規(guī)律;應用語料庫方法，闡釋隱喻背后的意識形態(tài)［3］。使用語料庫的研究方法是最近隱喻研究領域最顯著的趨勢［4］。

筆者對近年來國外學者在隱喻語料庫方面的研究進行了分析，將近年來隱喻語料庫研究大致分為以下方向:一是隱喻在語料庫中的識別和提取;二是隱喻跨語言語料庫對比研究;三是隱喻在特定語篇中的使用和功能分析;四隱喻知識庫的創(chuàng)建。本文試圖從這幾個方向著手，對這些研究成果進行辯證分析，重點關注隱喻語料庫研究的目標和途徑，方法的可行性和可操作性，研究目的在于闡釋隱喻研究向?qū)嵶C方面的轉(zhuǎn)型，完善隱喻的語料庫研究方法，為國內(nèi)學者提供新的視角。

一、隱喻在語料庫中的識別和提取

任何基于語料庫的隱喻研究，關鍵都在于怎樣從語料庫中提取隱喻性表達。語料庫使用的首要途徑便是通過詞性，由于隱喻映射在本質(zhì)上與特定的詞性沒有直接聯(lián)系，因而不能被輕易地自動檢索出來，通常只能手動完成或半手動使用語義標注語料庫來完成，但這對語料庫的規(guī)模有很大的限制。基于小型語料庫的研究至少存在兩個問題:首先，結論的量化，即統(tǒng)計數(shù)據(jù)的計算完成度不高。第二，小型語料庫的代表性經(jīng)常受到質(zhì)疑，無法從中概括出普適性結論。近年來，眾多學者不斷探索，為這一研究領域帶來了豐碩的成果。

Goatly提出，可以通過提取對隱喻起指示作用的語言線索來獲取隱喻［5］。然而，這一方法所能找出的隱喻表達在數(shù)量上非常有限，因為絕大部分隱喻的出現(xiàn)沒有任何指示語境。此外，語言線索本身的模糊性也會對這一方法的準確性造成質(zhì)疑，這種方法所識別的隱喻包含大量的噪音隱喻。

另一種比較流行的隱喻提取方法是檢索包含源域詞匯，目標域詞匯，或兩者都有的句子［6］。這一方法需要的是源域詞匯和目標域詞匯的完整清單。Stefanowitsch將基于目標域詞匯列表的方法稱為“隱喻模型分析 (Metaphor Pattern Analysis，簡稱MPA)”。先選取特定目標域的詞匯，然后在語料庫中識別出包括這些檢索詞的隱喻性表達，并按照概念映射進行分類。Stefanowitsch證明了MPA比傳統(tǒng)的內(nèi)省式隱喻分析方法要優(yōu)越。然而，這一方法也只能覆蓋到部分隱喻，Stefanowitsch本人也并未對這一方法的可行性進行詳述。

對此，Steen提出了兩套方案。第一，用推論的方式來識別隱喻，分析者們先假定一套概念隱喻，然后再尋找相關的語言表達。如果研究目的是為了描述語篇中所有的隱喻，而不是對一套特定的概念隱喻在語篇中的具體表達進行檢驗，這種推論性方法的難度就更大了，因為并沒有一套已確立的，窮盡所有概念隱喻的目錄以作支撐。第二，通過歸納性的方式來識別隱喻，先獲得語言結構，再對其概念結構進行重組，形成跨域映射，由于這種方式是歸納性的而非推論性的，最終得出的跨域映射并不一定與認知語言學家們提出的概念隱喻相一致。對于大型語料庫來說，這種歸納法無法在人力，時間和精力上得到保證。

Pragglejaz Group提出了一種較為可信的歸納性工具［7］。他們設計了一套隱喻識別程序 (Metaphor Identification Procedure，簡稱MIP)來指導隱喻性詞匯的識別。這套指導原則的設計與檢驗歷經(jīng)五年的時間，已為一些學者的分析帶來了相當可信的結論，學者們的獨立分析之間表現(xiàn)出高度的一致性［8］。

Steen等為研究隱喻的使用模式，抽取了BNC中的四篇文本摘錄進行了隱喻標注，對MIP進行了補充和調(diào)整，使用了其變體MIPVU進行識別。MIPVU是一項突破性的嘗試，不僅對詞匯單位作了嚴格的界定，指導分析者們進行有條理的識別和范疇劃分，還結合了統(tǒng)計學的方法對一致性進行檢驗，將個體的主觀性降到最低，這項程序最終證明比MIP更加有效。Steen宣稱，其研究將會對“思維中的隱喻”的語言表達進行檢驗，在理論上也承認隱喻是概念層面上的跨域映射，但是在研究結果的討論和總結部分，卻未對隱喻的思維層面給予關注，僅呈現(xiàn)出了范疇意義上的數(shù)據(jù)比例。

二、隱喻的跨語言語料庫對比研究

20世紀開始，許多學者就開展了跨語言研究以論證隱喻并非某一語言所獨有的。這些研究者所發(fā)現(xiàn)的隱喻跨語言之間的相似性表明，至少有一些概念隱喻是被廣泛共有的。為檢驗概念隱喻的普適性，近年來許多學者也開展了一系列對比研究。筆者發(fā)現(xiàn)，這些學者的研究方法多為立足于此前概念隱喻的研究結果，從中抽取某一個主題的隱喻進行語料庫對比檢驗，亦或是通過先觀察小型的，手動檢索的語料庫中隱喻的使用差異，再在大型語料庫中檢驗其中某個主題的隱喻使用。

Deignan和Potter對英語和意大利語中身體源域的隱喻表達進行的跨語言語料庫對比研究就立足于Deignan等在1997年使用語料庫收集的隱喻源域成果，從中抽取了四個核心的英語詞匯在語料庫中進行了對比分析［9］。這一研究發(fā)現(xiàn)了兩種語言中存在的一系列對等和不對等語義，以及語義內(nèi)涵相同但詞匯實現(xiàn)方式略有不同的情況。這表明，普適性的身體經(jīng)驗可以激發(fā)許多隱喻表達，但這一過程是異常復雜的，不同語言中并不一定存在對應表達，因為文化和語言是具有差異的。研究還發(fā)現(xiàn)，轉(zhuǎn)喻對塑造思維具有強大潛力，轉(zhuǎn)喻與隱喻之間存在互動關系，但文章并未對此進行詳述。其次，作者使用的語料庫不具有平衡性，英語語料庫只包含書面語，而意大利語語料庫中除了書面語，還有新聞播報，口語，電臺播報等。

Chung對“市場”隱喻在漢語、馬來語和英語中的使用作了對比性分析［10］。研究結論表明，三種語言對“市場”的概念化有所不同，不僅體現(xiàn)在其源域的語言分析中，還體現(xiàn)在語法關系中。這一研究為隱喻跨語言對比提供了全新的視角:不僅分析語義層面，還考慮到搭配和句法層面，為讀者提供了直觀可信的數(shù)據(jù)論證。然而，其研究的語料范圍較小，單憑“市場”這一隱喻的使用來推測不同語言國家的經(jīng)濟狀況未免有以偏概全之嫌。

Simó使用了大型語料庫來研究美語和匈牙利語中“血”隱喻的使用。這項研究立足于他此前的美語和匈牙利語棋類語篇中身體隱喻的研究發(fā)現(xiàn)［11］。通過檢索語料庫，Simó對前500條“血”索引進行了分析，人工識別出隱喻表達，并按照不同的目標域主題進行分類，為了檢驗“血”隱喻的跨語言差異，他抽取了四個來自不同目標域主題的典型隱喻表達進行了案例研究，詳細分析其在語料庫中的頻數(shù)，語義內(nèi)涵和使用模式。Simó的研究方法具有較強的可信度和可操作性。隱喻在語料庫中的分析盡管很難窮盡，但是選取一個特定主題的隱喻在語料庫中進行識別和分類，然后再進行典型隱喻表達在大型語料庫中的檢驗，能夠做到最大化的窮盡性分析。其研究最大化地利用了語料庫最大的優(yōu)勢，即通過詳細語境進行隱喻識解，分類和量化分析，為隱喻的跨語言對比提供了一種較為可行的模式。

三、特定語篇中隱喻的使用和功能分析

還有許多學者把目光投向特定語篇中的隱喻分析。Semino和Heywood等探討了關于癌癥的對話語料庫中隱喻的識別和分析所遇到的方法論問題，主要包括以下幾個方面:一是語言隱喻的識別過程中，如何確定字面性與隱喻性表達之間的界限;二是如何準確識別語言隱喻中相應的喻體和喻本;三是如何從語言隱喻推論出概念隱喻;四是如何從數(shù)據(jù)模型中推斷出常規(guī)性隱喻［12］。Semino和 Heywood等對Steen提出的隱喻分析程序進行了詳細描述，并基于自身的研究發(fā)現(xiàn)，對Steen的研究方法提出了調(diào)整。

Skorczynska和Deignan進行了科學語篇和流行商業(yè)語篇中隱喻使用的語料庫對比，發(fā)現(xiàn)文本的預期讀者群和主要目標是選擇語言隱喻的兩個重要因素。他們所使用的隱喻識別方法與Charteris-Black的相似，即在小型語料庫中手動檢索出“隱喻關鍵詞”的樣本，然后利用索引工具對這些隱喻關鍵詞在主語料庫中進行檢索［13］。盡管這一隱喻識別的方法也只能夠為語料庫樣本中人工識別出的隱喻使用提供數(shù)據(jù)。但是，只要最終的結論不是關于語料庫中所有隱喻的，這一方法還是能夠提供可信證據(jù)的。但是，其對比分析只關注到隱喻的喻體。并未對隱喻的喻本作出相應的提取和分析，因而隱喻的分析未上升到概念映射的層面。另外，其對隱喻的識別是相當寬泛的，如果能為隱喻的識別設計一套明晰的標準和步驟，將會更有說服力。

Gómez-Moreno 和 Faber［14］為手動標注的英語和西班牙語的海洋生物學文本語料庫中半自動提取相似性隱喻術語提供了方法。他們首先使用語料庫來檢索隱喻的目標域術語和詞匯標記指示。以三種方式來證實候選隱喻術語的準確性:隱喻識別程序;語料庫的語境分析;在線海洋生物圖像分析。這項研究的創(chuàng)新性在于結合使用了手動檢索和四種可以在語料庫中找出隱喻表達的半自動化檢索方法:檢索源域詞匯;檢索目標域詞匯;檢索既包含源域詞項也包含目標域詞項的句子;檢索隱喻的標記詞。這四種方法很少在同一項研究中被同時使用。但是，這項研究也遠非完美，最明顯的就是它只考慮到高頻詞匯，只能覆蓋部分的隱喻表達。

四、隱喻知識庫的創(chuàng)建

自20世紀以來，隱喻資源創(chuàng)建已成為自然語言處理的一個熱點問題。Martin的隱喻解讀，指示和提取系統(tǒng)MIDAS是早期這一領域的代表［15］。最初，MIDAS只包含13個隱喻語義，35個映射;通過機器學習，又得出另外的36個隱喻語義。盡管詞匯量很小，Martin證明了隱喻語義聯(lián)系和映射的信息再現(xiàn)對已知和未知的隱喻表達的解讀是非常有益的。為了擴充MIDAS知識庫，Martin此后從華爾街日報語料庫中收集了詞匯隱喻，產(chǎn)生了515個詞匯隱喻的實例，按照源域和目標域給予劃分。

Lakoff等人的MML為諸多隱喻知識庫提供了理論框架，許多隱喻知識庫都是對這一資源的衍生和拓展。MML是Lakoff等人手工收集的英語常規(guī)隱喻表達的在線知識庫。該知識庫包含了隱喻映射和每個映射的語言實現(xiàn)。數(shù)據(jù)庫中的隱喻分為事件結構、心理事件、情感和其他四個范疇，共涉及69個詞條;每個詞條又分為不同層級的隱喻類別，共約200多個隱喻類別。

Barden和Lee創(chuàng)建了ATT-Meta隱喻闡釋系統(tǒng)。ATT-Meta也以MML為框架，重點討論與大腦狀態(tài)、處理過程以及心智狀態(tài)和運行相關的隱喻。目前，ATT-Meta數(shù)據(jù)庫包含1 100個文本和65條轉(zhuǎn)寫的實例。ATT-Meta是一套隱喻闡釋系統(tǒng)，與自然語言加工 (NLP)的系統(tǒng)不同，這個數(shù)據(jù)庫強調(diào)概念映射信息，不太關注詞匯層面的隱喻。

Mason根究語義優(yōu)選原則設計了一套基于語料庫找出概念隱喻映射的系統(tǒng) CorMet［16］。盡管CorMet的知識庫只有WordNet，但它能夠找出許多常規(guī)隱喻組成的映射，有些情況下還能識別出這些映射的實例語句。它已經(jīng)能夠成功找出MML中的一些常規(guī)性隱喻，但還需要更多的完善。CorMet只對特定和具體的域起作用，識別力相對比較粗糙。而且CorMet只考慮動詞的選擇傾向，其語義優(yōu)選的運算法則具有三個不足之處:首先，它允許了噪音詞的存在。第二，在WordNet缺少資源的情況下不能正常工作。第三，缺少一套合理的度量標準來對語義優(yōu)選之間的相似之處作比較。

Hamburg隱喻數(shù)據(jù)庫 (HMD)是一個可供在線搜索的德語、法語隱喻數(shù)據(jù)庫，目前包括1 656個加注的語料庫實例。這個知識庫為每一個隱喻提供了詞匯和概念信息的標注［17］。其數(shù)據(jù)以大眾傳媒語料庫中的隱喻為主。詞匯標注所采用的資源是EuroWordNet;概念標注所采用的資源是 MML。HMD采用了人工標注與機器輔助標注相結合的方法。機器輔助充分利用了語料庫中頻率、詞語同現(xiàn)信息等，在已知目標域的情況下，通過三個步驟獲取隱喻實例:第一，是確定目標域詞匯，獲取經(jīng)過加權處理的同現(xiàn)列表 (1ists of collocates)作為候選隱喻實例;第二，對獲取的同現(xiàn)列表進行語料庫檢索，以區(qū)分不同用法并給出相應源域;第三，使用EuroWordNet中的同義詞集和詞義關系，對源域的詞匯進行擴展。HMD也存在幾個問題:MML使用了許多部分重疊的名稱;被標注的域映射數(shù)量大，關系復雜，需要對標注者進行大量訓練;標注者很難權衡使用的映射的普遍性程度;MML的覆蓋不充分，有些情況無法從MML中找出一個合適的映射來提供隱喻的概念信息。

五、研究展望

隱喻的語料庫研究中的一大難題是數(shù)據(jù)的豐富程度，另一大難題是確定對哪些詞匯進行關注。筆者發(fā)現(xiàn)，目前的研究一般集中在特定的可檢索詞項或從某一特定的語篇主題出發(fā)，分析這一主題的語篇語料庫中特定概念隱喻的語言實例。

現(xiàn)階段的隱喻跨語言分析和特定語篇隱喻分析大多立足于先前的研究成果，抽取特定的隱喻詞匯(源域或目標域)在語料庫中進行檢索，或者先從大型語料庫中抽取小型語料庫樣本，檢索出“隱喻關鍵詞”之后，然后在大型主語料庫中利用索引工具進行檢索，以獲得頻數(shù)，語義及搭配等方面的信息。在大型語料庫中進行窮盡性隱喻識別這一目標無法達到的背景下，這一方法似乎確實比較有效，因為它確實能夠找出大量的隱喻表達，并將研究者的直覺性降到最低。但是，這一研究方法并非完美，只能覆蓋到部分隱喻，最終的結論不能代表主語料庫中所有隱喻的頻數(shù)。另一個缺陷在于容易產(chǎn)生重復。盡管如此，只要最終的結論不是針對語料庫中所有隱喻的，這一方法還是能夠提供可信證據(jù)的。學界對Steen和Praggleja Group所設計的隱喻識別程序使用較為廣泛，許多學者完全或部分采用，進行了一定的調(diào)整，還對標注者們之間的一致性進行了信度檢驗。但是，此類研究工作量大，往往也只能停留在量化頻數(shù)層面上，未能對隱喻進行概念層面上的分析。

隱喻語言識別的計算機語言學領域也取得了可喜的進步，出現(xiàn)了豐富的研究成果，但是這一領域還處于初始階段，目前，人工智能對隱喻的識別和計算還難以達到與人工檢索相同的準確率，其應用前景有待考究。

根據(jù)這些學者在隱喻語料庫方面的探究成果，筆者認為，其研究成果雖然并非完美，但是值得學習和借鑒，包括對隱喻識別程序的設計和調(diào)整，對隱喻標注者的訓練和嚴格的一致性檢驗，手動標注與自動化提取相結合的方法，對此前研究成果的合理運用和檢驗等等。筆者也總結出今后這一研究領域需要注意的幾個問題及相應建議:一是任何類型的隱喻語料庫研究，隱喻的識別問題是研究者首要考慮的問題，研究者應該在進行隱喻識別之前，對隱喻標注者提供一套統(tǒng)一，明晰而又不失靈活性的隱喻識別程序。二是研究者在分析和評判數(shù)據(jù)時的直覺判斷是任何研究都無法避免的一個問題。但是使用多名隱喻標注者，并對其標注結果進行嚴格的一致性檢驗可將個體的主觀性降到最低。三是跨語言對比研究所選取的語料庫要具有平衡性，包括大小，語料時間，語料來源等各方面。四是隱喻的語料庫研究不能僅僅停留在隱喻表達的頻數(shù)層面，還應在概念層面上，即對跨域映射作對比分析，以發(fā)現(xiàn)更深層次的社會文化差異等內(nèi)容。五是目前將西方語言與漢語進行隱喻對比分析的研究成果并不多見，這應是國內(nèi)學者應該努力的方向。六是應對語料庫分析的隱喻在概念類型和語篇類型上進行擴展，目前絕大部分學者選取的都是身體到情感的映射方面的隱喻和商業(yè)，經(jīng)濟類的語篇，未來學者應該避免重復。

［1］劉秀娥，鄒金屏．論隱喻在《哈姆雷特》中的多重作用［J］．河南理工大學學報:社會科學版，2009(4):706-709．

［2］劉冰．語料庫語言學視閾下的當代文學批評［J］．河南理工大學學報:社會科學版，2013(2):208-212．

［3］ ALICE DEIGNAN．Metaphor and Corpus Linguistics［M］．Amsterdam:John Benjamins，2005．

［4］ HANNA SKORCZYNSKA SZNAJDER．A corpus-based description of metaphorical marking patterns in cientific and popular business discourse［J］．Metaphorical markers，2005(9):112-129

［5］ ANDREW GOATLY．The Language of Metaphors［M］．London:Routledge，1997．

［6］ ANATOL STEFANOWITSCH．Words and their metaphors:A corpus-based approach［J］．Trends in Linguistics Studies and Monographs，2006(1):1-58．

［7］ PRAGGLEJAZ GROUP．MIP:A method for identifying metaphorically used words in discourse［J］．Metaphor and Symbol，2007(22):1-39．

［8］ GERARD JOANNA STEEN，ALETTA G DORST，J BERENIKE HERRMANN，et al．Metaphor in usage［J］．Cognitive Linguistics，2010(4):765-796．

［9］ ALICE DEIGNAN ，LIZ POTTER．A corpus study of metaphors and metonyms in English and Italian ［J］．Journal of Pragmatics，2004(36):1231-1252．

［10］ CHUNG SIAW FONG ．Cross-linguistic comparisons of the market metaphors［J］．Corpus Linguistics and LinguisticTheory，2008(2):141-175．

［11］ JUDIT SIM．Metaphors of blood in American English and Hungarian:A cross-linguistic corpus investigation［J］．Journal of Pragmatics，2011(43):2897-2910．

［12］ ELENA SEMINO，JOHN HEYWOOD，MICK SHORT．Methodological problems in the analysis of metaphors in a corpus of conversations about cancer［J］．Journal of Pragmatics．2004(36):1271-1294．

［13］ JOHNATHAN CHARTERIS-BLACK．Corpus Approaches to Critical Metaphor Analysis［M］．New York:Palgrave Macmillan，2004．

［14］ JOS MANUEL UREA GMEZ-MORENO ，PAMELA FABER．Strategies for the Semi-Automatic Retrieval of Metaphorical Terms ［J］．Metaphor and Symbol，2011(26):23-52．

［15］ JAMES MARTIN．A computational theory of metaphor［D］．Berkeley:University of California，1988．

［16］ ZACHARY J MASON．CorMet:A computational，corpus-based conventional metaphor extraction system［J］．Computational Linguistics，2004(1):23-44．

［17］ BIRTE LNNEKER-RODMAN．The hamburg metaphor database project:issues in resource creation［J］．Language Resources and Evaluation，2008(3):293-318．

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

對國外隱喻語料庫研究方法的辯證分析

一、隱喻在語料庫中的識別和提取

二、隱喻的跨語言語料庫對比研究

三、特定語篇中隱喻的使用和功能分析

四、隱喻知識庫的創(chuàng)建

五、研究展望

一、隱喻在語料庫中的識別和提取

二、隱喻的跨語言語料庫對比研究

三、特定語篇中隱喻的使用和功能分析

五、研究展望