Michael?。遥酰睿洌澹欤臁∠牧⑿?/p>
摘要本文首先回顧了詞典編纂中語料庫(包括學(xué)習(xí)者語料庫)的使用現(xiàn)狀,指出除了少數(shù)詞典以外,大多數(shù)詞典對語料庫數(shù)據(jù)的使用都是隱性的,而非顯性的。在此基礎(chǔ)上分析和總結(jié)了語料庫數(shù)據(jù)顯性應(yīng)用的可能方式和途徑,如詞頻、搭配等語料庫數(shù)據(jù)在詞典中的新應(yīng)用。最后,預(yù)測了語料庫在詞典學(xué)領(lǐng)域的應(yīng)用和發(fā)展趨勢。
關(guān)鍵詞語料庫詞典學(xué)學(xué)習(xí)者語料庫語料庫顯性應(yīng)用詞典學(xué)
一、引言
詞典編纂是一個復(fù)雜的過程,但從本質(zhì)上看該過程可分為四階段:
(1)決定詞典的目標(biāo)用戶與詞典的使用方式;
(2)收集語料;
(3)分析語料;
(4)根據(jù)上述三個階段的研究結(jié)果,編寫詞典文本。
第一個階段至關(guān)重要,但是相對來說比較容易做。然而,剩下的三個階段一直以來都是一塊非常難啃的硬骨頭,使得詞典編纂成為一項耗資巨大的苦差事。出于多種原因,近來第二和第三兩個階段變得容易了許多。計算機技術(shù)的發(fā)展、語言工程界的最新研究,以及詞典編纂者與計算語言學(xué)家的密切合作為詞典語料的收集和詞典編纂帶來了一場革命。如今,我們可以在很短的時間內(nèi)、用較少的資金建成大型的語言數(shù)據(jù)庫,并可以用非常先進的方法對數(shù)據(jù)庫中的數(shù)據(jù)進行有效的分析。
讓我們先來看一下詞典語料的收集。在過去幾百年間,這項工作意味著要通過艱苦的“閱讀與標(biāo)記”過程從文本中收集引例。例如,《牛津英語詞典》(Ox ford English Dictionary)的第一版和第二版(1928年版和1989年版)就是根據(jù)幾百萬張語料卡片上所記錄的引例編纂而成的,每張卡片上都有一段簡短的引文,標(biāo)示語詞的使用情況。這些引例是大批志愿讀者從19世紀60年代開始用幾十年的時間收集起來的,它們具有極大的語言學(xué)價值。然而,其中大部分工作如今都可以用計算機來完成,需要人工做的部分已經(jīng)很少。到20世紀末,這種收集語料的方法已經(jīng)在很大程度上被電子語料庫——一種存儲在計算機中的文本集所取代。但是,這是一個漸進的過程。從第一個英語語料庫
20世紀60年代建立的擁有一百萬詞的布朗語料庫到約翰·辛克萊(John Sinclair)在伯明翰建立的大型語料庫之間相隔了二十年。只要讀一讀早期語料庫建設(shè)者的記述(Kuecera and Francis 1967,Renouf 1987),我們就知道這需要怎樣艱辛的努力。即使是像BNC(英國國家語料庫)這樣比較“成熟”的語料庫,也花了三年多的時間才建成。該語料庫建于上世紀90年代初,由多家詞典出版社和學(xué)術(shù)機構(gòu)合作建設(shè),耗資達數(shù)百萬英鎊。
如今,情況已大不相同。因特網(wǎng)的出現(xiàn)以及網(wǎng)頁文本定位、提取和處理等軟件工具的開發(fā)給語料庫帶來了第二次革命。這些技術(shù)使我們能夠用較少的投資快速地建設(shè)比“傳統(tǒng)”方式所能收集到的任何語料集都大得多的語料庫。英國的詞典編纂者通??墒褂檬赵~達20億的各種英語語料庫(Baroni et al.2006,Sharoff 2006),不僅如此,他們還擁有現(xiàn)成的或正在開發(fā)的漢語、日語、阿拉伯語、大部分歐洲語言語料庫和其他類似的資源。擁有了龐大的語料庫資源后,我們就可以輕松地、準確地確定語詞的使用頻率或語言特征。相比之下,讓齊普夫(G.K.Zipf)得出其著名齊普夫定律的詞頻表,則是他經(jīng)過多年艱辛的收集才編輯而成的。
詞典編纂過程的第三個階段——分析語言數(shù)據(jù)的工作也經(jīng)歷了類似的變化。傳統(tǒng)的做法是,詞典編纂者將在第二階段所收集的引例卡片進行分類、比較和反復(fù)推敲,直到從中得出語詞意義和用法的明顯證據(jù)。詹姆斯·默里(James Murray)的孫女在其著述(Murray 1977:chapter X)中給我們生動地描繪了這一艱辛的工作需要怎樣巨大的耐心和韌性。在前計算機時代,語文學(xué)者可以利用的另外一個工具是“語詞索引表”?!罢Z詞索引表”原先是文本中每個語詞的索引(尤其是宗教典籍或經(jīng)典文獻),表中給出所有語詞每次在文本中出現(xiàn)的位置。想到過去建成這類資源要投入數(shù)年的辛勤勞作,而如今同樣的工作只需短短幾秒鐘就能完成,真令人感慨不已。過去與現(xiàn)在相比,的確有天壤之別:在收集詞條的語料時,如今的詞典編纂者能夠在幾秒鐘之內(nèi)在幾十億詞的語料庫中進行各種復(fù)雜的檢索。
雖然近年來語言數(shù)據(jù)的收集和分析變?nèi)菀琢嗽S多,但是,詞典編纂過程的最后一個階段一一編寫準確反映可觀察的語言行為和適應(yīng)目標(biāo)用戶需求的詞典文本——仍然是一項需要大量(人工)編輯工作的艱巨任務(wù)。這就引發(fā)了下面的問題:語言科技到底能帶我們走多遠?既然如今已經(jīng)不會發(fā)生語料不足的情況,并且語言分析的過程也簡約高效,那么,詞典學(xué)界和語言工程界的合作能使我們距離在某種程度上自動生成詞典這個目標(biāo)越來越近了嗎?早在1987年,約翰·辛克萊就預(yù)見到計算能力和計算技術(shù)可能的發(fā)展軌道。他甚至還說過“一種完全自動生成的詞典正處于設(shè)計階段”。然而,二十年后,這個自動生成詞典的夢想仍沒有實現(xiàn)——但是,它當(dāng)然也沒有從議事日程中去掉。在下文介紹上述變化對教學(xué)型詞典產(chǎn)生影響的各種方式時,它將是其中所討論的問題之一。
二、語料庫的影響
1980年可視為語料庫詞典學(xué)的“零年”,這一點顯而易見(并且相當(dāng)準確)。正是在這一年COBUILD項目正式啟動,由此所編纂出的詞典——第一部以語料庫為基礎(chǔ)的英語詞典于1987年問世。這給全球英語詞典的編纂帶來了根本性的變革。短短十年之內(nèi),所有主要的英語學(xué)習(xí)詞典出版社都把語料庫作為其首要的語料來源。雙語詞典[例如《牛津一阿歇特英法詞典》(Ox ford-Hachette English—French Dictionary)]和以本族語者為目標(biāo)用戶的單語詞典(例如《牛津英語詞典》)都很快跟進,因此,現(xiàn)在在編寫英語詞典(或者在英國出版雙語詞典)時幾乎沒有不利用語料庫的。
使用語料庫編纂詞典的好處已有多篇文獻做過記述(Sinclair 1987,Rundell 1998),但是直到近年來,詞典呈現(xiàn)從語料庫中所獲得信息的方式大多數(shù)都是隱性的,而非顯性的?!半[性”呈現(xiàn)方式是指,對語料庫數(shù)據(jù)的分析將幫助詞典編纂者對一些編纂問題做出決策,如詞義(某一語詞有多少義項)、片語(哪些短語或搭配值得凸顯)、句法特征(哪些句法結(jié)構(gòu)需要收入詞典中)等等。同樣,從語料庫中所獲得的詞頻信息為詞典編纂者決定選詞立目和義項排序(例如,哪個義項該排在前面)等決策提供了依據(jù)。最后,對學(xué)習(xí)者語料庫的分析使我們在詞典中凸顯學(xué)習(xí)者可能感到困難的某些用法,或者用用法說明來解釋學(xué)習(xí)者時?;煜恼Z詞差異。例如,我們從學(xué)習(xí)者語料庫數(shù)據(jù)中得知information一詞經(jīng)常用作可數(shù)名詞,于是,在詞典中就給出一個類似下面《劍橋高階學(xué)習(xí)詞典》(Cambridge Advanced Learners Dictionary)中的警示說明,以幫助學(xué)習(xí)者糾正
這一錯誤印象。
但是,在上面所有這些隱性呈現(xiàn)方式中,只有詞典編纂者能夠看到從語料庫中所獲得的信息,最終的詞典使用者卻無法看到。在這種呈現(xiàn)方式下,詞典編纂者的任務(wù)就是以簡潔有效的方式為詞典使用者呈現(xiàn)一系列有關(guān)語詞特征的信息,而這些信息就是通過對語料庫中的數(shù)據(jù)進行大量分析后得出的。實際上,詞典使用者在詞典中看見的不過是二手數(shù)據(jù),是巨大冰山的一角??偟膩碚f,這是一個理智的做法:普通的詞典使用者——他們一般是為某個語言問題快速尋求一個答案——既沒有時間也不愿意(通常也沒有必要的技能)費力在一堆原始語言數(shù)據(jù)中尋求答案。但是新科技給詞典編纂者提供了讓詞典使用者直接使用語料庫信息的機會。
最能證明這一點的就是例證的呈現(xiàn)方式。在早期的學(xué)習(xí)詞典里,例證都是詞典編纂者自己杜撰的,為了在一句話里闡釋幾個不同的語言點,他們常常要精心編造例證。語料庫的出現(xiàn)使詞典編纂者直接使用語料庫中的真實句子作為例證成為可能。第一部COBUILD詞典開創(chuàng)了這方面的先河,它大膽地采用從語料庫中選取的、未經(jīng)過任何修改的句子作為例證來闡示語詞的用法——這可能是首部向詞典使用者提供顯性語料庫信息的詞典。COBUILD詞典的做法并沒有獲得一致認可(Haussman&Gorbahn 1989),后來,詞典學(xué)界還對使用未加修改的真實例證的優(yōu)點(和缺點)進行了一場激烈的辯論。現(xiàn)在,雖然仍然可以聽到不同的意見,但大家已理智地達成共識:如果例證不通俗易懂,那就不能起到有效的示例作用;此外,直接選自語料庫的未加修改的例證并不總能(甚至經(jīng)常不能)滿足普通詞典使用者的需求。然而,我們稍后會了解到,實際上我們完全可以做到魚和熊掌兼得:既能提供以教學(xué)為目的、充分反映語料庫中語詞用法的例證,同時又能讓詞典使用者直接接觸到大量未經(jīng)修改的語料庫中的原句。
然而,在這場關(guān)于例證來源和真實性的辯論中,我們很容易忽視語料庫對詞典學(xué)發(fā)展最為重要的貢獻。雖然對詞典編纂者來說,例證是他們可以使用的、看得見的語料庫數(shù)據(jù),但是,語料庫的真正價值在于它為詞典編纂者分析語詞意義與用法提供了不可或缺的原始數(shù)據(jù)。這一點表現(xiàn)在兩個層面:具體層面和系統(tǒng)層面。
在具體層面上,即單個詞條層面,我們?nèi)缃衲軌蚍浅>_地描述語詞的意義,如果沒有大量的語言數(shù)據(jù)支持,這是完全不可能的。像《朗文英語聯(lián)想活用詞典》(Longman Language Activator)(1993)這類以辨析近義詞為主要目標(biāo)的詞典在前語料庫時代是根本不可能做到的。例如,該詞典的動詞bump off詞條就清楚地給出了該詞的語義和文體特征,這些特征把它和其他動詞,例如murder和do away with區(qū)別開來:
bump off an informal word meaning to kill someone or arrange for them to be killed, especially because they know about things you have donewrong,or are dangerous to you殺死,謀殺:殺死某人或預(yù)謀讓某人被殺的非正式詞匯,尤其是因為他們知道你所做的錯事或?qū)δ銟?gòu)成危險。早期的詞典是不會詳細到這個地步的,就像該詞條在《牛津高階學(xué)習(xí)詞典》(Ox ford Advanced Learner's Dictionary)(1989)第四版中所示的那樣:
bump oFf(sl)kill or murder sb(俚)殺死某人;謀殺某人
在系統(tǒng)層面,語料庫的影響更為深遠:它讓我們重新認識語言使用的規(guī)律。根據(jù)我們對語言使用進行考察后所獲得的發(fā)現(xiàn),許多構(gòu)成傳統(tǒng)詞典學(xué)基石的觀點都得重新評估。例如,傳統(tǒng)詞典學(xué)認為,單個語詞是意義的自主載體;語詞可以擁有一定數(shù)量的、相互排斥的獨立“義項”。但在大量的語言證據(jù)面前,這些觀點看起來越來越不合情理。不斷出現(xiàn)的語言使用模式(約翰·辛克萊首先對此進行了研究,并稱其為“習(xí)語性原則”)促使我們重新去思考詞典描述語言的方式。正如帕特里克·漢克斯(Patrick Hanks)所指出的那樣:“約翰·辛克萊并不僅僅是一位詞典學(xué)家……他還深入研究語詞的使用,以便闡明語言使用的規(guī)律?!毙量巳R和其他語料庫語言學(xué)家的新見解給我們展示了意義和使用之間的密切聯(lián)系。這導(dǎo)致詞典的組織方式發(fā)生了巨大的變化,詞典更加重視片語和詞匯單位的處理,而不是單個的語詞。舉一個簡單的例子,讓我們想一想詞典是如何幫助使用者理解“I said 1 would have a think about it and give my decision tomorrow.”這句話的。在傳統(tǒng)詞典中,我們將發(fā)現(xiàn)以下解釋:
think2noun [singular]an act of thinking[單數(shù)]想;思考;思想接著,詞典編纂者希望讀者用詞典所給的釋義替換原句中的詞目詞,并成功地理解這句話的意義。但是,所有的數(shù)據(jù)都顯示,無論用“名詞”這一術(shù)語的哪個意義來解釋上句中的“think”,它都不是通常意義上的名詞,相反,它總是出現(xiàn)在固定表達式“have a think about”中。因此,基于語料庫的詞典將不收錄或解釋那些罕見的、邊緣的用法,而著重解釋反復(fù)出現(xiàn)的多詞單位。語料庫數(shù)據(jù)不僅使詞典編纂者能夠在許多方面比以前做得更好,而且促使我們重新思索詞典編纂的本質(zhì)。我們目前也許只是初步利用了語料庫發(fā)展所帶來的那些附帶成果,因此,羅斯蒙德·穆恩(Rosamund Moon)預(yù)測將來會出現(xiàn)“一種新型的詞典,在這種詞典中,正字單詞不過是檢索途徑而已,同時,詞典將給出上下文,以便確定其意義”。
(未完待續(xù))