許家金 梁茂成
(北京外國語大學,北京,100089)
對比分析(contrastive analysis)是語料庫語言學的常見方法和分析視角。國內(nèi)語料庫學者談及對比方法,最容易想到“中介語對比分析”(Contrastive Interlanguage Analysis,簡稱CIA)和“英漢對比研究”。中介語對比時,需要比較英語母語和學習者中介語的語言特點,或比較不同母語背景的外語或二語學習者的中介語,還可能會比較語言水平較低和較高的中介語表現(xiàn)(Granger 1998)。英漢對比時,可能會比較翻譯的雙方向(漢譯英、英譯漢)語言表現(xiàn)(Baker 2000;王克非2006),也可能對比英漢語料內(nèi)部的不同語類,如小說類語料或者科技類語料。在進行對比研究時,語料通常是分別存儲的,研究者只需對兩批語料分別檢索,再對比數(shù)據(jù)和語言特點即可;若試圖在語料庫內(nèi)部再做對比(比如四級和六級學生作文的對比、小說類科技類對比),則需將大的語料庫拆分成若干小語料庫,或者從大的語料庫中抽取符合條件的子語料庫(sub-corpus)。
比如,“英國國家語料庫”(British National Corpus)是一個集英國英語口語和筆語的大型通用語料庫。Rayson,Leech 和 Hodges(1997)利用該語料庫進行了一項社會語言學研究。在該研究中,研究者對英國不同性別的對話口語進行了對比和分析。因研究問題所需,先從通用語料庫中抽取對話口語,然后再區(qū)分對話者的不同性別,建成了兩個子語料庫——英國男性對話口語語料庫和英國女性對話口語語料庫,以滿足對比的需要。
子語料庫的創(chuàng)建正是本文要討論的主要問題。在實際研究中,視研究的需要,常常依據(jù)某種條件從一個大的語料庫(如通用語料庫)中抽取若干個符合條件的文本構(gòu)建一個子語料庫,以達到對比的目的。對語料庫的拆分和抽取,可以拓展語言對比的研究層面,同時引發(fā)新的研究選題。
語言對比涵蓋范圍很廣。本文以探討學習者語言對比和英漢語言對比為主,并著重討論創(chuàng)建子語料庫的操作方法,從而服務于語言對比研究。以往的檢索工具多數(shù)不能對語料庫中的特定文本,或文本中的特定內(nèi)容進行檢索,因而限制了多層面的語言對比研究。這是基于語料庫的語言對比研究中缺失的一環(huán)。如能從技術(shù)上簡化創(chuàng)建子語料庫的方法,則能有效彌補這缺失的一環(huán),同時還能擴展語言對比研究的層面。
以下將通過一些具體的研究選題,展示對比在語言研究中的重要性,以及語言對比研究的層面。之后,本文將就其中一些選題,簡述如何通過創(chuàng)建子語料庫,促成對特定語言內(nèi)容的考察和對比。
利用語料庫,可進行多個層面的語言對比分析,比如:
A) 出現(xiàn)較多動賓搭配錯誤的學生語言特點研究;
B) 使用較多復雜句的學生語言特點研究;
C) 英美新聞語料中有關(guān)中國崛起(或中國威脅)的報道;
D) 學習者語料庫中成績居前30%與后30%的語言特點對比研究;
E) 中國學生英語口語復述與其英語會話之間的話語特征比較;
F) 不同主題作文之間的語言特點的異同;
G) BNC中少年與成年話語的對比研究;
H) 《時代周刊》中2001年9月11日(911事件)前后新聞報道的異同;
I) 新聞語料中的社論、評論與現(xiàn)場報道話語的異同;
當然,還有基于復合條件的語料分析。比如,
J) 不同年齡女性話語中的被動用法。
綜上,有關(guān)注語料文本內(nèi)部語言特征(如A、B、C)的研究,有基于語料文本外部特征(也稱為社會語言學變量)(如D—I)的研究,以及綜合語言特征和社會語言學變量(如J)的研究。
要獲得上面選題所需的研究語料,有不同的思路。一些在線語料庫檢索系統(tǒng)(如http:∥corpus.byu.edu/)可按文本外部特征分別檢索和呈現(xiàn)結(jié)果。比如,《時代周刊》語料庫(1923-2006)就提供了按年代進行檢索的設置。因此,檢索terrorism,bin Laden就會得到2001年前后明顯不同的語言分布,進而還可以分析2001年前后這兩個詞的典型搭配的情況。然而,在線語料庫的使用只能是“因陋就簡”,網(wǎng)站提供怎樣的選項設置,使用者就只能在給定的范圍內(nèi)使用。比如,若要對比BNC中男性與女性話語的特點,利用http:∥corpus.byu.edu/bnc/就無法實現(xiàn)。在線語料庫檢索界面的設計者,不可能考慮到各個用戶的不同需求。因此,利用語料庫中的元信息等創(chuàng)建子語料庫,才能使我們的研究需要得到滿足。
如果用戶電腦上存儲了相關(guān)的語料庫(如BNC、CLEC、SWECCL等),希望從這些語料庫中提取所需的語料,創(chuàng)建子語料庫,本文提出一個簡便易行的方法。其核心是獲得所需文本的文件名。文件名可以通過兩種方式獲得,即“基于元信息”和“基于內(nèi)容檢索”。兩種方法都需要通過檢索實現(xiàn),前者的檢索針對非語言特征,后者針對語言特征。
雖然,語料庫的格式多種多樣,主要有:純文本格式、SGML格式、XML格式等,但一般都有元信息標注,常見標注格式如下:
CLEC
SWECCL
書面語:
口語:
北外通用漢英平行語料庫
CROWN語料庫①
從上面的各種標注格式可見,元信息可以接排,也可分行排列。一般來說,學習者語料的元信息常包含:學生類型(如ST 3,大學低年級)、性別、入學年份、年級、作文得分(如SCORE 7及RANK=3)等。雙語語料庫的元信息會包含:當前文本的語言(如)、源語語言(如)、原作者及譯者等。通用型語料庫一般需標明出處(如
上面所列不同格式之間可以互相轉(zhuǎn)換,一般推薦格式為XML格式(見上文北外通用漢英平行語料庫和CROWN語料庫的標注格式)。元信息的標注可簡可繁。目前常見的元信息標注,以BNC最為繁復。BNC采用TEI標注規(guī)范,記錄多達三十多種信息。語料的元信息多數(shù)記錄在語料文檔的開始部分,因此元信息又稱“頭部信息”(head、text head或header)。也有的元信息記錄在文件名中,比如USWRAR01.txt這個文件名表達的是美國人的書面語議論文第一篇(ARgumentative WRiting of US speakers)。再如,CROWN語料庫的命名(如A01A.txt)中,根據(jù)BROWN語料庫的取樣和文件命名原則,第一個A表示“新聞報道”類,01表示新聞報道類44個文本中的第1號,最后一個A表示該語料屬于美國英語,而A01B.txt則是對應的英國英語文本。此外,還有一種稱之為“分離式標注”(stand-off annotation)的元信息標注法,即相關(guān)信息單獨存儲為一個文件,而不是存放在文檔頭部。這種標注方法使用較少,因此,本文不做重點討論。
本文介紹的子語料庫創(chuàng)建方法,主要依靠獲得含有特定元信息以及含特定語言特征的文本的文件名,然后批量拷貝出所需語料。為此,我們編寫了軟件Sub-corpus Creator②,方便研究者自行創(chuàng)建子語料庫。下面通過實例簡單介紹利用Sub-corpus Creator創(chuàng)建子語料庫的過程。
如果希望從SWECCL的口語語料庫(SECCL)中獲得談論“我”和“老師”之間交往的口語敘事語料,可以先選中SECCL所在語料的目錄(Browse Directory)(見圖1),然后設定檢索條件。因為Sub-corpus Creator支持正則表達式檢索,我們可以檢索同時含有teachers?(?表示前面的s可有可無)和I|me|my(表示I、me或my三者有其一)的文本,點擊OK后所有相關(guān)文本的文件名即會在軟件界面的中間窗口中列出。若希望在結(jié)果中得到2000年以后學生的英語口語語料,可在File names match下面的檢索框里,增加一個限制條件:0S+,即以0開頭的文件(SECCL的口語文本的文件名方式為“年份-組別-序號.txt”,其中的“年份”以00、01等兩位數(shù)表達),重新點擊OK,就可得到篩選后的文件名列表。在這個例子中,1148個文件中有687個符合條件的文本。同時,為便于檢查文本是否確實是我們所需要的文本,還可單擊中間窗口中的文本名,從而預覽文本內(nèi)容。
按同樣方法,可以得到2000年以前的相關(guān)語料。如果按類似方法將SWECCL語料中每年的相關(guān)語料分別抽取出來,甚至可以分析十年中國英語專業(yè)大學生談論自己同老師之間的交往時所用語言存在怎樣的變化。
圖1 Sub-corpus Creator主界面
上面這個例子主要是通過檢索文內(nèi)信息,并結(jié)合文件名中所含的年份信息抽取出子語料庫。研究中,還會遇到這樣的案例:有120篇學生作文(這120篇作文成績單獨存儲在一個文件中),若要得到120篇作文中成績靠前25%(即前30名)和成績靠后25%(即后30名)學生的作文進行對比,可以先將學生成績降序排列,選取前30名學生的文件名。然后,將文件名存為一個純文本(*.txt)文件,比如,可以將其命名為top30.txt。同理,可以創(chuàng)建一個成績靠后學生的poor30.txt文件。
Sub-corpus Creator還設計了另一種利用已準備好的文件名列表創(chuàng)建子語料庫的方法。如果已有所需語料的文件名列表,則可利用Sub-corpus Creator左下方的第2個選項卡From Filelist(見圖2)進行子語料庫創(chuàng)建。首先,通過Open a Filelist讀入準備好的文件名列表(如top30.txt和poor30.txt),點擊OK;再點擊Create Sub-corpus,按彈出窗口提示,為子語料庫創(chuàng)建一個新的文件夾,命名后,就可得到成績靠前25%(即前30名)和成績靠后25%(即后30名)學生作文的兩個子語料庫。需要提醒的是,通過Sub-corpus Creator軟件加載文件列表時,列表中的文件名應包含完整路徑。
基于給定文件名列表創(chuàng)建子庫這種方法,還特別適合從BNC中抽取特定語料。比如,可以利用在線版BNC Indexer③得到所有男性說話人和女性說話人的文本的文件名列表。通過導入這兩個文件名列表,就可以從BNC語料庫中生成兩個子語料庫,一個是男性話語子庫,一個是女性話語子庫。
圖2 Sub-corpus Creator基于給定文件名列表建庫界面
第2節(jié)談到的研究選題,絕大多數(shù)可以在Sub-corpus Creator中通過檢索元信息或語料內(nèi)容得到相應的子語料庫。這里補充談一下,有時面對得到的大量文本,需要再做隨機抽樣。比如得到四級作文2000篇,由于無法分析上千篇文本,于是必須對這2000篇文件進行隨機取樣。如果只需隨機抽取其中的100篇,則可以利用Concordance Randomizer④對2000個文本的文件列表進行隨機取樣,即可實現(xiàn)這一目的。
除了隨機取樣,如果語料文本命名有規(guī)律,比如文件名以0-9結(jié)尾的話,在Sub-corpus Creator的File names match框里輸入S+5。txt,就可以得到所有文件名為*5.txt的文本。這樣就實現(xiàn)了通過分層取樣(stratified sampling)的方法建立子語料庫。
對于雙語語料庫,可以采用類似的操作。以“北外通用漢英平行語料庫”為例,如果要聚焦在語料中的小說部分漢譯英的譯文語言特點上,則可通過檢索語料庫中含有的文件,按上面的步驟即可獲得相應的文本。同樣,還可依照類似的方法獲得中文及英文的原生語言與翻譯語言的子語料庫,以便進行翻譯共性研究。
本文介紹的子語料庫創(chuàng)建方法,雖然主要以中國學習者英語對比語料和英漢語對比語料為例,但顯然這一方法廣泛適用于各類語料庫的子語料庫生成。需要提醒的是,為方便創(chuàng)建子語料庫,拓展對比研究的層面,語料庫建庫之初,規(guī)范統(tǒng)一詳細的元信息標注十分關(guān)鍵。同時,語料庫文本的命名應盡可能有規(guī)律,盡可能記錄元信息。本文著重介紹的是創(chuàng)建語料庫的思路,而非軟件的使用。任何一款軟件都不可能滿足所有的研究需要。只有掌握了方法,打開了思路,才有可能得到更多的研究選題。
附注:
① CROWN語料庫是許家金、梁茂成主持創(chuàng)建的一個200萬詞級的英語語料庫。
② Sub-corpus Creator下載網(wǎng)址:http:∥www.fleric.org.cn/pub/scc.rar.
③ BNC Indexer網(wǎng)址:http:∥ucrel.lancs.ac.uk/bncindex/form.html.
④ Concordance Randomizer下載網(wǎng)址:http:∥ishare.iask.sina.com.cn/f/13929531.html.
Baker, M.2000.Towards a methodology for investigating the style of a literary translator [J].Target12(2): 241-266.
Granger, S.1998.The computer learner corpus: A versatile new source of data for SLA research [A].In S.Granger (ed.).LearnerEnglishonComputer[C].New York: Longman.3-18.
Rayson, P., G.Leech, & M.Hodges.1997.Social differentiation in the use of English vocabulary: Some analyses of the conversational component of the British National Corpus [J].InternationalJournalofCorpusLinguistics2(1): 133-152.
王克非.2006.語料庫翻譯學——新研究范式[J].中國外語(3):8-9.